Está en la página 1de 524

Estadística: Un análisis introductorio

Mauricio Ramírez Herrera


2022

i
Índice general

Índice general ii

Índice de figuras viii

Índice de cuadros xiii

1 Introducción 1
1.1 Técnicas Estadísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Cuadros Estadísticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Presentación gráfica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2 Distribución de Frecuencias 5
2.1 El concepto de variable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 Distribución de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.3 Presentación gráfica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3.1 Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3.2 Polígono de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3.3 Curva de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.4 Distribución de frecuencias acumulativas . . . . . . . . . . . . . . . . . . . . . . . 18
Tabla de frecuencias acumulativas . . . . . . . . . . . . . . . . . . . . . . 18
Tabla de frecuencias acumuladas para datos agrupados . . . . . . . . . . . 21
Curva de frecuencias acumuladas . . . . . . . . . . . . . . . . . . . . . . 23
2.5 Frecuencias Relativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Tabla de frecuencias relativas . . . . . . . . . . . . . . . . . . . . . . . . . 25

3 Medidas de Posición 29
3.1 La media aritmética . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.1.1 Datos no agrupados caso no ponderado . . . . . . . . . . . . . . . . . . . 33
3.1.2 Caso ponderado de datos no agrupados . . . . . . . . . . . . . . . . . . . 33
3.1.3 Caso de datos agrupados . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.1.4 Método abreviado de cálculo . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2 La mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.3 La moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.4 La relación entre la media, la mediana y la moda . . . . . . . . . . . . . . . . . . . 46
3.5 La media geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.5.1 Definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.5.2 Aplicaciones: promediando las tasas de cambio y la fórmula del interés com-
puesto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.5.3 Descuento, capitalización . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

ii
Índice general iii

4 Medidas de Dispersión 53
4.1 El Rango . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.2 Desviaciones Medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.3 La Desviación Típica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.3.1 Desviación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.3.2 Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.3.3 La Desviación Típica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.3.4 Datos no agrupados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.3.5 Desplazamiento del origen . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.3.6 Datos agrupados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.3.7 Caso de datos agrupados - intervalo de clase desigual . . . . . . . . . . . . 62
4.3.8 Comentarios sobre la desviación estándar . . . . . . . . . . . . . . . . . . 63
4.3.9 Valor normalizado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.3.10 Distribución unitaria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.4 Dispersión relativa (coeficiente de variación) . . . . . . . . . . . . . . . . . . . . . 67

5 Teoría de la Probabilidad 69
5.1 Conjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.1.1 Un conjunto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.1.2 Operaciones con conjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . 71
5.2 Experimentos, eventos y espacio muestral . . . . . . . . . . . . . . . . . . . . . . 72
5.2.1 Experimentos y eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5.2.2 Espacio muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.3 El enfoque objetivo de la probabilidad . . . . . . . . . . . . . . . . . . . . . . . . 75
5.3.1 El principio de razón insuficiente . . . . . . . . . . . . . . . . . . . . . . . 75
5.3.2 El primer enfoque de la teoría de las frecuencias sobre la probabilidad . . . 76
5.3.3 El segundo enfoque de la teoría de la frecuencia para la probabilidad . . . 81
5.4 El enfoque subjetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
5.5 Axiomas de la teoría de la probabilidad . . . . . . . . . . . . . . . . . . . . . . . . 83
5.6 Probabilidades condicionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.7 Una regla para la multiplicación de probabilidades . . . . . . . . . . . . . . . . . . 92
5.8 Independencia estadística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
5.9 Expectativa matemática y variable aleatoria . . . . . . . . . . . . . . . . . . . . . . 98
5.10 Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

6 La Curva Normal y el Cuadro de Áreas Normales 103


6.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
6.2 Explicación heurística de la curva normal y la tabla de áreas normales . . . . . . . 105
Cómo utilizar la tabla de áreas normales . . . . . . . . . . . . . . . . . . . 107
6.3 Discusión de la distribución normal . . . . . . . . . . . . . . . . . . . . . . . . . . 113
6.3.1 Suma de variables normales independientes . . . . . . . . . . . . . . . . . 113
6.3.2 Generalización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
6.3.3 La importancia de la distribución normal . . . . . . . . . . . . . . . . . . 115
6.3.4 Corrección de la continuidad . . . . . . . . . . . . . . . . . . . . . . . . . 115
6.4 Ordenada de la distribución normal . . . . . . . . . . . . . . . . . . . . . . . . . . 117

7 Distribución de Muestreo 119


7.1 Todas las muestras posibles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
7.2 Muestreo aleatorio simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
7.3 Algunos problemas prácticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
iv Índice general

7.4 Distribución muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128


7.4.1 El teorema del límite central . . . . . . . . . . . . . . . . . . . . . . . . . 128
7.4.2 Cómo se calcula la probabilidad de seleccionar una muestra de una pobla-
ción dada mediante la distribución muestral de la media muestral . . . . . 136
7.5 Comentarios sobre la fórmula del error estándar . . . . . . . . . . . . . . . . . . . 148
7.6 La distribución muestral de la proporción de la muestra . . . . . . . . . . . . . . . 149

8 Estimación 155
8.1 Introducción - Estimación y estimadores . . . . . . . . . . . . . . . . . . . . . . . 155
8.2 Insesgacidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
8.3 Estimador consistente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
8.4 Eficiencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
8.4.1 Eficiencia relativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
8.4.2 Estimadores eficientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
8.5 Suficiencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
8.6 Método de máxima verosimilitud (MV) . . . . . . . . . . . . . . . . . . . . . . . 162
8.7 La relación entre el error, el riesgo y el tamaño de la muestra . . . . . . . . . . . . 165
8.7.1 La relación entre el error y el riesgo . . . . . . . . . . . . . . . . . . . . . . 165
8.7.2 La relación entre el riesgo y el tamaño de la muestra . . . . . . . . . . . . . 167
8.7.3 La relación entre el error y el tamaño de la muestra . . . . . . . . . . . . . 169
8.7.4 La relación entre el error, el riesgo y el tamaño de la muestra para las pro-
porciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
8.8 Estimación por intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
8.8.1 Intervalo de confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
8.8.2 Encontrar el tamaño de la muestra para un intervalo de confianza . . . . . 177
8.9 Apéndice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178

9 Prueba de Hipótesis 181


9.1 Introducción de nueva terminología . . . . . . . . . . . . . . . . . . . . . . . . . 181
9.2 Errores de tipo I y de tipo II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
9.3 Prueba de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
9.3.1 Pruebas de una cola sobre las medias . . . . . . . . . . . . . . . . . . . . . 192
9.3.2 Prueba de una cola relativa a las proporciones . . . . . . . . . . . . . . . . 195
9.3.3 Pruebas de dos colas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
9.4 Problemas de decisión simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199
9.4.1 Cálculo de la regla de decisión . . . . . . . . . . . . . . . . . . . . . . . . 200
9.4.2 La función de potencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
9.4.3 La curva OC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
9.5 Ejemplos que utilizan la media muestral . . . . . . . . . . . . . . . . . . . . . . . 212
9.6 Reglas de decisión relativas a las proporciones . . . . . . . . . . . . . . . . . . . . 220
9.7 Modificación del tamaño de la muestra . . . . . . . . . . . . . . . . . . . . . . . . 224
9.8 Cálculos de la regla de decisión cuando se da β . . . . . . . . . . . . . . . . . . . . 226

10 Teoría de la Decisión 229


10.1 Problemas de decisión simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229
10.1.1 Reglas de decisión y su caracterización . . . . . . . . . . . . . . . . . . . . 229
10.1.2 Selección de las reglas de decisión . . . . . . . . . . . . . . . . . . . . . . 232
10.2 Procedimiento de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
10.2.1 Tabla de pérdidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
10.2.2 Función de arrepentimiento . . . . . . . . . . . . . . . . . . . . . . . . . 233
Índice general v

10.2.3 Función de riesgo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234


10.2.4 Procedimiento de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235
10.2.5 Comentarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236

11 Números Índice 239


11.1 Índice de precios relativos ponderados . . . . . . . . . . . . . . . . . . . . . . . . 239
11.1.1 Índice de precios agregado simple . . . . . . . . . . . . . . . . . . . . . . 239
11.1.2 Media simple de relativos . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
11.1.3 Índices de precios relativos ponderados . . . . . . . . . . . . . . . . . . . 243
11.2 Índice de precios agregados ponderados . . . . . . . . . . . . . . . . . . . . . . . 245
11.2.1 Fórmula de Laspeyres, ponderaciones del año base . . . . . . . . . . . . . 245
11.2.2 Fórmula de Paasche, ponderaciones del año en curso . . . . . . . . . . . . 246
11.3 Variaciones de los índices de precios ponderados . . . . . . . . . . . . . . . . . . . 247
11.3.1 Utilización de la cantidad media de varios años como ponderaciones . . . 247
11.3.2 Utilizar el precio medio de varios años como precio del año base . . . . . . 248
11.3.3 Utilizar el precio y la cantidad medios de varios años como base . . . . . . 249
11.3.4 Ilustraciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 250
11.3.5 Números del índice de cadena . . . . . . . . . . . . . . . . . . . . . . . . 251
11.3.6 El índice en cadena aplicado a la fórmula de Laspeyres . . . . . . . . . . . 253
11.3.7 Ilustración . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255
11.4 Empalme y desplazamiento de la base de los números del índice . . . . . . . . . . 256
11.4.1 Empalme de dos números índice superpuestos . . . . . . . . . . . . . . . 256
11.4.2 Desplazamiento de la base . . . . . . . . . . . . . . . . . . . . . . . . . . 261
11.5 Deflactar los precios y el ingreso . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262
11.6 Comentarios sobre los índices de precios . . . . . . . . . . . . . . . . . . . . . . . 264
11.6.1 Cambios debidos al tiempo . . . . . . . . . . . . . . . . . . . . . . . . . . 264
11.6.2 Cambios debidos a la localización . . . . . . . . . . . . . . . . . . . . . . 265
11.6.3 Problemas en la recogida de datos . . . . . . . . . . . . . . . . . . . . . . 265
11.6.4 Base de pesos y base de referencia . . . . . . . . . . . . . . . . . . . . . . 265
11.6.5 Una interpretación alternativa del índice de precios agregado ponderado . 266
11.6.6 Criterios para un buen índice . . . . . . . . . . . . . . . . . . . . . . . . . 266
11.6.7 Número índice media geométrica . . . . . . . . . . . . . . . . . . . . . . 267
11.6.8 El número de índice ideal . . . . . . . . . . . . . . . . . . . . . . . . . . . 268
11.7 Números del índice de cantidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269
11.7.1 Fórmula de tipo Laspeyres . . . . . . . . . . . . . . . . . . . . . . . . . . 270
11.7.2 Fórmula de tipo Paasche . . . . . . . . . . . . . . . . . . . . . . . . . . . 271
11.7.3 Variaciones del índice de cantidad de tipo agregativo ponderado . . . . . . 272
11.7.4 Índice de cantidad relativa ponderada . . . . . . . . . . . . . . . . . . . . 272
11.7.5 Índice de producción industrial . . . . . . . . . . . . . . . . . . . . . . . . 274

12 Series Temporales 277


12.1 Repaso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277
12.1.1 Graficar una recta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277
12.1.2 Resolviendo ecuaciones simultáneas . . . . . . . . . . . . . . . . . . . . . 278
12.1.3 Ajuste de una recta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279
12.2 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279
12.3 El método a mano alzada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 280
12.4 Método de los semipromedios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282
12.5 El método de las medias móviles . . . . . . . . . . . . . . . . . . . . . . . . . . . 283
12.6 El método de los mínimos cuadrados . . . . . . . . . . . . . . . . . . . . . . . . . 285
vi Índice general

12.6.1 Principio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285


12.6.2 Número impar de años . . . . . . . . . . . . . . . . . . . . . . . . . . . . 286
12.6.3 Número par de años . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 288
12.7 Cambio del valor unitario y desplazamiento del origen . . . . . . . . . . . . . . . 289
12.7.1 Cambio del valor unitario . . . . . . . . . . . . . . . . . . . . . . . . . . . 289
12.7.2 Desplazamiento del origen . . . . . . . . . . . . . . . . . . . . . . . . . . 293

13 Movimiento Estacional y Cíclico 295


13.1 Definiciones de términos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295
13.2 Variación estacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297
13.3 El método de las medias simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298
13.4 Método de las medias móviles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 300
13.5 Datos desestacionalizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303
13.6 Fluctuaciones cíclicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304
13.7 Comentarios sobre las series temporales . . . . . . . . . . . . . . . . . . . . . . . 305
13.7.1 Un punto de vista básico . . . . . . . . . . . . . . . . . . . . . . . . . . . 305
13.7.2 Modelos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305
13.7.3 Aislamiento de la tendencia (T) . . . . . . . . . . . . . . . . . . . . . . . . 306
13.7.4 Precaución al utilizar la media móvil . . . . . . . . . . . . . . . . . . . . . 307
13.7.5 Precaución en los pronósticos . . . . . . . . . . . . . . . . . . . . . . . . . 308

14 Análisis de Regresión Lineal 309


14.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309
14.2 El problema de la regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310
14.2.1 El modelo de regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310
14.2.2 Estimadores lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315
14.2.3 Estimador lineal insesgado . . . . . . . . . . . . . . . . . . . . . . . . . . 317
14.2.4 Estimador de varianza mínima . . . . . . . . . . . . . . . . . . . . . . . . 317
14.2.5 Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 318
14.3 Estimación del A y B del caso de la población Tipo I . . . . . . . . . . . . . . . . . 319
14.3.1 Procedimientos de cálculo . . . . . . . . . . . . . . . . . . . . . . . . . . 322
14.4 Encontrar una función de regresión . . . . . . . . . . . . . . . . . . . . . . . . . . 324
14.5 Desviación estándar de la muestra de la regresión . . . . . . . . . . . . . . . . . . 329
14.6 Interpretación de σ̂Y2 X y del coeficiente de determinación r2 . . . . . . . . . . . . 332
14.6.1 El coeficiente de determinación r2 . . . . . . . . . . . . . . . . . . . . . . 332
14.6.2 r2 como medida de mejora . . . . . . . . . . . . . . . . . . . . . . . . . . 334
14.6.3 Derivación de la ecuación (14.35) . . . . . . . . . . . . . . . . . . . . . . 336
14.6.4 r2 como medida de la proximidad del ajuste . . . . . . . . . . . . . . . . . 337
14.6.5 r2 como medida de linealidad . . . . . . . . . . . . . . . . . . . . . . . . 338
14.6.6 Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 338
14.6.7 σ̂Y2 X y r2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 338
14.6.8 Procedimientos de cálculo de σ̂Y2 X y r2 . . . . . . . . . . . . . . . . . . . 339
14.6.9 Coeficiente de determinación ajustado r̄2 . . . . . . . . . . . . . . . . . . 340
14.7 Estimación de σa2 y σb2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343
14.7.1 El significado de σb2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343
14.7.2 El significado de σa2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 347
14.8 Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 347
14.9 Estimación de A y B - Población Tipo II . . . . . . . . . . . . . . . . . . . . . . . 348
14.10 Pruebas relativas a a y b . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 350
14.10.1 Pruebas de hipótesis sobre B . . . . . . . . . . . . . . . . . . . . . . . . . 350
Índice general vii

14.10.2 Intervalo de confianza para B . . . . . . . . . . . . . . . . . . . . . . . . . 351


14.11 Intervalo de confianza para µY X . . . . . . . . . . . . . . . . . . . . . . . . . . . 352
14.12 Intervalo de confianza para Y . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 358
14.13 Comentarios sobre el análisis de regresión . . . . . . . . . . . . . . . . . . . . . . 361

15 Análisis de Correlación 363


15.1 La distribución bivariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363
15.2 Coeficiente de correlación: Caso I . . . . . . . . . . . . . . . . . . . . . . . . . . . 367
15.2.1 Coeficiente de correlación y covarianza de la población . . . . . . . . . . . 368
15.2.2 Resumen y comentarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 378
15.2.3 Coeficiente de correlación de la muestra . . . . . . . . . . . . . . . . . . . 380
15.3 La distribución bivariada y el análisis de regresión . . . . . . . . . . . . . . . . . . 385
15.4 El coeficiente de correlación: Caso II . . . . . . . . . . . . . . . . . . . . . . . . . 387
15.4.1 Coeficiente de correlación poblacional . . . . . . . . . . . . . . . . . . . . 387
15.4.2 Coeficiente de correlación de la muestra . . . . . . . . . . . . . . . . . . . 389
15.4.3 La relación entre r y b . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 392
15.4.4 Procedimientos de cálculo . . . . . . . . . . . . . . . . . . . . . . . . . . 393
15.5 Comentarios y resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394
15.6 Fórmulas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 398
15.7 Pruebas de hipótesis relativas a los coeficientes de correlación . . . . . . . . . . . . 398
15.7.1 Caso ρ = 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 399
15.7.2 Uso de la distribución t . . . . . . . . . . . . . . . . . . . . . . . . . . . . 400
15.7.3 Caso ρ 6= 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 400
15.7.4 Intervalo de confianza para ρ . . . . . . . . . . . . . . . . . . . . . . . . . 402
15.8 Correlación de rango . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 403

16 Teoría de Probabilidad y Variables Aleatorias 409


16.1 Espacios muestrales, eventos y campos de conjuntos . . . . . . . . . . . . . . . . . 409
16.1.1 Experimentos y resultados posibles . . . . . . . . . . . . . . . . . . . . . . 409
16.1.2 Eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 410
16.1.3 Puntos de muestreo y espacio muestral . . . . . . . . . . . . . . . . . . . . 410
16.1.4 Eventos y campo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 412
16.2 Función de probabilidad y espacio de probabilidad . . . . . . . . . . . . . . . . . . 414
16.2.1 Función de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 414
16.2.2 Medida de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 415
16.2.3 Espacio de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 416
16.3 Variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 417
16.3.1 Producto cartesiano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 417
16.3.2 Función . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 421
16.3.3 Definición de variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . . 423
16.4 Función de distribución . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 430
16.4.1 Función de distribución acumulativa . . . . . . . . . . . . . . . . . . . . . 430
16.4.2 Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 437
16.5 Una función de variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . 438
16.5.1 Variables aleatorias distribuidas conjuntamente . . . . . . . . . . . . . . . 440
16.5.2 Variables aleatorias independientes e idénticamente distribuidas . . . . . . 443
16.5.3 Muestra aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 446
16.6 Espacios muestrales multivariantes . . . . . . . . . . . . . . . . . . . . . . . . . . 449
16.6.1 El espacio muestral básico para el caso bivariado . . . . . . . . . . . . . . 449
16.6.2 Relación entre el espacio muestral y el histograma . . . . . . . . . . . . . . 453
16.6.3 La utilidad del espacio muestral básico . . . . . . . . . . . . . . . . . . . . 455
16.6.4 Análisis de regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 456
16.7 Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 456
16.7.1 Teorema de la probabilidad total . . . . . . . . . . . . . . . . . . . . . . . 456
16.7.2 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 459
16.7.3 Aplicación del teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . 462
16.7.4 Cálculo de la probabilidad de una muestra . . . . . . . . . . . . . . . . . . 466

17 Teoría de la Decisión II 469


17.1 Reglas de decisión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 469
17.1.1 Reglas de decisión no aleatorias . . . . . . . . . . . . . . . . . . . . . . . . 469
17.1.2 Caracterización de las reglas de decisión . . . . . . . . . . . . . . . . . . . 472
17.1.3 Reglas admisibles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475
17.1.4 Presentación gráfica de las reglas de decisión . . . . . . . . . . . . . . . . 476
17.1.5 Reglas de decisión aleatorias - discusión gráfica . . . . . . . . . . . . . . . 478
17.1.6 Reglas de decisión aleatorias - discusión matemática . . . . . . . . . . . . 481
17.2 Regla de la razón de verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . 485
17.2.1 La razón de verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . 486
17.2.2 Regla de la razón de verosimilitud . . . . . . . . . . . . . . . . . . . . . . 491
17.3 La Teoría de Neyman-Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 494

Índice de figuras

2.1 Histograma de Notas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12


2.2 Histograma de Notas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3 Histograma de Notas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.4 Polígono de Frecuencias de Notas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.5 Distribución rectangular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.6 Distribución normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.7 Distribución sesgada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.8 Distribución bimodal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.9 Distribución de frecuencias de calificaciones . . . . . . . . . . . . . . . . . . . . . . . 20
2.10 Distribución de Frecuencias Acumuladas . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.11 Distribución de Frecuencias Acumuladas . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.12 Distribución de Frecuencias Acumuladas . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.13 Distribución de Frecuencias Acumuladas . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.14 Casos de Distribución de Frecuencias Acumuladas . . . . . . . . . . . . . . . . . . . . 24
2.15 Ojivas o Curvas de Frecuencia Acumulada . . . . . . . . . . . . . . . . . . . . . . . . 25
2.16 Ojivas o Curvas de Frecuencia Acumulada . . . . . . . . . . . . . . . . . . . . . . . . 26
2.17 Frecuencia Relativa de Erratas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.1 Distribución de las calificaciones de las clases A y B . . . . . . . . . . . . . . . . . . . 29


3.2 Distribución de las calificaciones de las clases A y B . . . . . . . . . . . . . . . . . . . 32
3.3 Posición de la media en una distribución . . . . . . . . . . . . . . . . . . . . . . . . . 32

viii
Índice de figuras ix

3.4 Posición de la mediana en una distribución . . . . . . . . . . . . . . . . . . . . . . . . 41


3.5 Gráfico acumulativo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.6 Gráfico acumulativo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.7 Gráfico acumulativo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.8 Distribución Unimodal y Bimodal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.9 Distribuciones simétricas y asimétricas . . . . . . . . . . . . . . . . . . . . . . . . . . 46

4.1 Desviación Media de una serie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54


4.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

5.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
5.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
5.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
5.8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
5.9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

6.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
6.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
6.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
6.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
6.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
6.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
6.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
6.8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
6.9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
6.10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
6.11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

7.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
7.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
7.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
7.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
7.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
7.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
7.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
7.8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
7.9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
7.10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
7.11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
7.12 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
7.13 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
7.14 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153

8.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
8.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
8.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
8.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
x Índice de figuras

8.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
8.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
8.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
8.8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
8.9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
8.10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
8.11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177

9.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
9.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
9.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
9.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
9.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
9.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
9.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
9.8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
9.9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
9.10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
9.11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
9.12 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
9.13 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199
9.14 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
9.15 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
9.16 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
9.17 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
9.18 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
9.19 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
9.20 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
9.21 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
9.22 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
9.23 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
9.24 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
9.25 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
9.26 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216
9.27 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217
9.28 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218
9.29 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218
9.30 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219
9.31 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221
9.32 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
9.33 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
9.34 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225
9.35 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
9.36 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
9.37 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228

10.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
10.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
10.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231

12.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281
Índice de figuras xi

12.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283
12.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285
12.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285
12.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287
12.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 289
12.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293

13.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 296
13.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 296
13.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298
13.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299
13.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 306

14.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311
14.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 318
14.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321
14.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 325
14.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 327
14.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 330
14.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 330
14.8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333
14.9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335
14.10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 337
14.11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344
14.12 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351
14.13 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355
14.14 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 356
14.15 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 358
14.16 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361

15.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364
15.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365
15.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 367
15.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371
15.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371
15.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 372
15.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 375
15.8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 376
15.9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 386
15.10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 387
15.11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 390
15.12 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 391
15.13 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 399
15.14 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 399
15.15 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 401
15.16 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 404
15.17 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 407
15.18 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 408

16.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 417
16.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 418
xii Índice de figuras

16.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 419
16.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 420
16.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 421
16.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 422
16.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423
16.8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423
16.9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424
16.10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425
16.11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 427
16.12 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 427
16.13 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 428
16.14 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 429
16.15 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 431
16.16 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 432
16.17 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433
16.18 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433
16.19 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434
16.20 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 435
16.21 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 436
16.22 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 437
16.23 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 438
16.24 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 439
16.25 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 440
16.26 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 441
16.27 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444
16.28 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 445
16.29 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 446
16.30 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 450
16.31 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 451
16.32 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 452
16.33 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453
16.34 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455
16.35 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 461
16.36 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464
16.37 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 467

17.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 470
17.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 471
17.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 473
17.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475
17.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 477
17.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 477
17.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 478
17.8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 479
17.9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 480
17.10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 482
17.11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 486
17.12 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 486
17.13 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 488
17.14 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 489
17.15 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 494
17.16 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 494
17.17 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 495
17.18 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 496
17.19 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 503
17.20 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 505
17.21 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 506

Índice de cuadros

1.1 Población de EEUU, para diferentes años. . . . . . . . . . . . . . . . . . . . . . . . . . 3


1.2 Vehículos de Motor, resumen de Artículos Seleccionados (en miles de unidades) . . . 3
1.3 Vehículos de Motor, resumen de Artículos Seleccionados (en miles de unidades) . . . 3

2.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2 Hoja de cálculo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.4 Distribución de las unidades de consumo por tramos de ingreso . . . . . . . . . . . . 11
2.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.7 Cuadro Frecuencia Acumulada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.8 Cuadro Frecuencia Desacumulada . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.9 Cuadro Distribución de Frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.10 Cuadro Distribución de Frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.11 Cuadro Distribución de Frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.12 Cuadro Distribución de Frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.13 Cuadro Distribución de Frecuencias Acumuladas . . . . . . . . . . . . . . . . . . . . 25
2.14 Cuadro Frecuencias Relativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.15 Cuadro Frecuencias Relativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.1 Cuadro Media Ponderada de Tres Pruebas . . . . . . . . . . . . . . . . . . . . . . . . 34


3.2 Cuadro Media Ponderada de Tres Pruebas . . . . . . . . . . . . . . . . . . . . . . . . 36
3.3 Hoja de trabajo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.4 Hoja de trabajo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.5 Distribución de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.6 Distribución de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

4.1 Cuadro de contingencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56


4.2 Cuadro de contingencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.3 Cuadro de contingencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.4 Cuadro de contingencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.5 Cuadro de contingencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

xiii
xiv Índice de cuadros

5.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
5.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
5.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
5.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
5.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
5.8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
5.9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
5.10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
5.11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

6.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
6.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
6.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

7.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
7.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
7.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
7.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
7.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
7.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
7.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
7.8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
7.9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150

8.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176

9.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
9.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
9.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
9.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
9.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
9.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
9.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
9.8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202
9.9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
9.10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
9.11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212
9.12 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
9.13 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
9.14 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
9.15 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217
9.16 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219
9.17 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221
9.18 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
9.19 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224
9.20 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225
9.21 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225
9.22 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228
Índice de cuadros xv

10.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231
10.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235
10.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235
10.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236

11.1 Índice de precios al por mayor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251


11.2 Precios recibidos y pagados por agricultores (1910 - 14 = 100) . . . . . . . . . . . . . . 251
11.3 Importaciones y Exportaciones de EEUU 1936-38 = 100 . . . . . . . . . . . . . . . . 270
11.4 Empresa productora de sillas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274
11.5 Declaración de Valor Agregado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275

12.1 Producción de papel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291

13.1 Hortalizas congeladas en cámara frigorífica . . . . . . . . . . . . . . . . . . . . . . . . 299


13.2 Hortalizas congeladas en cámara frigorífica (media mensual) . . . . . . . . . . . . . . 300
13.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303

14.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310
14.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 320
14.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 320
14.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321
14.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 325
14.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 326

15.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365
15.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 366
15.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 366
15.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 370
15.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 370
15.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374
15.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 406

16.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 460
16.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 461
16.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 462
16.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463
16.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463
16.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463
16.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464
16.8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464
16.9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465
16.10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 468
16.11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 468

17.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 470
17.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 472
17.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 473
17.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 476
17.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 478
17.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 489
17.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 490
17.8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 491
xvi Índice de cuadros

17.9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 492
17.10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 501
CAPÍTULO 1
Introducción

El tema a discutir en el presente libro comprende la teoría y métodos de recolección, tratamiento


y análisis de datos numéricos. La expresión “análisis de datos numérico” no se puede definir de
manera simplista, dejando de lado la tarea de resumir o condensar contenido textual. Aunque la
expresión es un término abstracto, el contenido de esta obra servirá para ilustrar sus implicaciones.
Aún así esta obra es tan solo una herramienta para el estudiante, quien debe desarrollar su propia
comprensión filosófica de la estadística analítica conforme avanza en la lectura de los ejemplos y
teoría; aprendiendo las técnicas de análisis y la interpretación de resultados.
En término menos técnicos, el objetivo de este libro es la adquisición de una serie de herramien-
tas que permitirán al estudiante interpretar y analizar datos, un complemento vital en la cada vez
mas desafiante labor docente.
En los últimos 50 años, la necesidad de utilizar datos numéricos cómo medio para expresar
información cuantitativamente ha tomado relevancia, tanto en lo económico como en lo social. Por
ejemplo, hace 30 años la persona promedio se identificaba únicamente por el nombre, pero hoy una
persona tiene múltiples números asociados con su nombre: número de seguro social, número de
cuenta bancaria, correo electrónicos, usuarios de páginas web.
Aquellas personas que tiene un negocio, utilizan información cuantitativa para analizar el esta-
do financiero de su negocio. Cuando lee acerca de la economía del país, interpreta su realidad en
término del producto interno bruto, impuestos, precios, tasas de producción y datos similares, con
el objetivo de evaluar cual será el panorama nacional en materia de disponibilidad de recursos.
Una revisión superficial de otras disciplinas, como las ciencias biológicas, físicas y sociales, tam-
bién revelará rápidamente hasta qué punto se utilizan datos numéricos para la descripción y el aná-
lisis. Es evidente que la estadística proporciona un conjunto de herramientas de uso común en las
diversas actividades de nuestra sociedad.

1.1 Técnicas Estadísticas

Para la descripción se pueden utilizar técnicas como los gráficos, las tablas, las distribuciones de
frecuencia y las medias, que tienen mucha utilidad práctica. Sin embargo, la utilidad más importante
de la estadística es el análisis de datos numéricos mediante técnicas estadísticas.

1
2 Introducción

Como se ha mencionado anteriormente, el análisis de los números mediante técnicas estadísticas


es una expresión abstracta. El propósito de este libro es darle un contenido concreto. Partimos del
hecho de que la característica esencial común a las distintas técnicas es el elemento de “inferencia
estadística”. Definimos ésta como un proceso de inferencia a partir de los datos de la parte, una
afirmación relativa al conjunto y proporcionamos una medida de la incertidumbre de la inferencia
que se ha realizado.
Por ejemplo, podemos tener el problema de estimar la proporción de votantes a favor de una
determinada propuesta. El lector probablemente sabe que, para resolver este problema, se toma una
muestra de los votantes y se calcula la proporción de votantes a favor. Supongamos que el 60% de la
muestra está a favor. Entonces, utilizando esta proporción de la muestra, podemos inferir que el 60
por ciento de todos los votantes están a favor de la propuesta. Pero como sólo estamos utilizando una
parte de la información para inferir sobre el conjunto, no podemos estar absolutamente seguros de
la conclusión de que el 60% de todos los votantes están a favor de la propuesta. En otras palabras, hay
un grado de incertidumbre asociado a nuestra conclusión y, mediante el uso de técnicas estadísticas,
queremos proporcionar una medida para esta incertidumbre.
Si, como se ha mencionado anteriormente, la estadística puede considerarse un kit común de
herramientas para describir y analizar datos de diversas disciplinas, en este sentido, la estadística
es neutral y, por tanto, la misma técnica de muestreo puede utilizarse en economía, empresa, edu-
cación y otras disciplinas. Sin embargo, la estadística ha desarrollado ciertas técnicas propias del
campo de aplicación. En la empresa y la economía, por ejemplo, temas como los números índice y
las series temporales se han desarrollado en mayor medida que en la educación o la sociología. En
estas últimas disciplinas, las técnicas de análisis factorial se han desarrollado ampliamente. En las
ciencias biológicas, se han desarrollado las técnicas estadísticas de los diseños experimentales, y en
la industria, las técnicas de control de calidad son las más importantes.
En este libro trataremos las ideas básicas de la estadística y mostraremos sus aplicaciones a la
empresa y la economía. En los capítulos 2 a 4, trataremos la estadística descriptiva; en los capítulos
5 a 9, se explicarán las ideas básicas de la inferencia estadística; en los capítulos 10 a 15 se tratará la
teoría de la decisión, los números índice, las series temporales, el análisis de regresión y el análisis
de correlación; y, por último, los capítulos 16 a 24 se ocuparán principalmente de las distribuciones
básicas. Pero primero vamos a discutir en el resto de este capítulo un tema especial que se utiliza
mucho en el trabajo práctico, a saber, las tablas estadísticas.

1.2 Cuadros Estadísticos

En los siguientes cientos de páginas se presentarán diversas técnicas estadísticas, pero para la
mayoría de los estudiantes las primeras páginas relativas a las tablas estadísticas pueden resultar el
tema más utilizado desde un punto de vista práctico. Ya sea en los negocios, en la administración
pública o en el trabajo escolar, a menudo hay que presentar los resultados de informes o investiga-
ciones. Uno de los problemas a los que se enfrenta el informador es: ¿cómo presentar los resultados
de la forma más eficaz?
Se han ideado ciertas formas estándar de presentación, que pueden clasificarse a grandes rasgos
como forma tabular y presentación gráfica. Empecemos por la forma tabular.
La forma tabular es una tabla que consta de los siguientes componentes: el título, el encabezado,
el cuerpo y la fuente. El Cuadro 1.1 es un ejemplo de la forma más sencilla de este tipo de tabla y se
denomina tabla de clasificación de una vía.
1.2. Cuadros Estadísticos 3

Año Cantidad
1790 3,929,214
1890 62,947,714
1920 105,710,620
1940 131,669,275
1960 178,464,236
Resumen estadístico de EEUU, 1961. Departamento de Comercio, p. 5

Cuadro 1.1: Población de EEUU, para diferentes años.

Pueden obtenerse tablas de dos, tres y más órdenes de clasificación subdividiendo el cuerpo y el
encabezado. El Cuadro 1.2 es un cuadro de clasificación de dos vías y el Cuadro 1.3 es un cuadro de
clasificación de tres vías.

Artículo 1950 1955 1958


Ventas de vehículos de pasajeros, total 6666 7920 4258
Ventas de camiones y buses, total 1337 1249 877
Ventas de vehículos desguazados, total 3234 4392 4173
Resumen estadístico de EEUU, 1961. Departamento de Comercio, Cuadro 754, p. 556

Cuadro 1.2: Vehículos de Motor, resumen de Artículos Seleccionados (en miles de unidades)

Artículo 1950 1955 1958


Ventas de vehículos de pasajeros, total 6666 7920 4258
Sedan de 4 puertas 2794 1691 705
Sedan de 2 puertas 626 3186 2072
Otros 3247 3044 1481
Ventas de camiones y buses, total 1337 1249 877
Ventas de vehículos desguazados, total 3234 4392 4173
Vehículos de pasajeros 2598 3773 3635
Camiones y buses 636 619 538
Resumen estadístico de EEUU, 1961. Departamento de Comercio, Cuadro 754, p. 556

Cuadro 1.3: Vehículos de Motor, resumen de Artículos Seleccionados (en miles de unidades)

La lógica de la construcción de las tablas de clasificación cruzada consiste en determinar, en


primer lugar, lo que debe tener un énfasis primario, luego lo que debe tener un énfasis secundario,
y así sucesivamente. Los datos con énfasis primario se colocan en columnas, y los que tienen énfasis
secundario se colocan en filas; para las tablas de orden superior, este proceso se repite. Suele ser más
fácil ver los datos cuando los números se suceden en una columna que cuando se suceden en una
fila. Compruébelo usted mismo con los siguientes números:

23 546 23 546 87 125 67 311


87 125
67 311
4 Introducción

1.3 Presentación gráfica

Otro método de presentación de datos es el uso de gráficos. Los principales gráficos (o tablas)
son: el diagrama de líneas aritméticas, los gráficos de barras, los pictogramas, los diagramas de pastel
y los mapas estadísticos. Varios textos de estadística1 dedican un amplio espacio a la explicación
detallada de estos gráficos, y el estudiante que esté interesado se remite a las referencias indicadas
en la nota a pie de página.

1
F. E. Croxton y D. J. Cowden, Practical Business Statistics, 3ª ed., Prentice-Hall, 1960. W. A. Spurr. L. S. Kellog, y J. H.
Smith, Business and Economic Statistics, rev. ed., Richard D. Irwin. 1961. F. E. Croxton y D. J. Cowden, Applied General
Statistics, 2ª ed. Prentice-Hall, 1955.
CAPÍTULO 2
Distribución de Frecuencias

Supongamos que le hacen la pregunta ¿Qué tal les fue a los estudiantes en su examen de econo-
mía? Una respuesta común podría ser: La media de la clase es de 75 puntos. Este único número, 75
puntos, ha descrito las calificaciones de la clase y es una de las varias formas disponibles de hacerlo.
Lo que nos proponemos hacer en este capítulo y en el siguiente es mostrar cómo los datos pueden
organizarse de varias maneras para describir y proporcionar información útil sobre situaciones co-
mo la ilustrada en el ejemplo anterior. El primer concepto que hay que definir para nuestra discusión
es el de variable.

2.1 El concepto de variable

Consideremos una desigualdad

x+2>5

Los valores de x que satisfacen esta desigualdad son (suponiendo que x es un número entero)
4, 5, 6, ... Esta x, que es una entidad que varía, se llama variable. Los valores 4, 5, 6, ... son los valores
específicos que puede tomar la variable x. Así, por ejemplo, la velocidad es una variable asociada a
los coches que circulan por una autopista, y la velocidad de cada coche es un valor que toma esta
variable. El peso, la altura y las notas son algunas variables asociadas a los estudiantes.
Observemos la variable “calificaciones” y denotémosla con una X mayúscula. Cuando hay 5
alumnos y sus calificaciones son 75, 63, 82, 90 y 88, podemos decir que la variable X (calificaciones)
tiene 5 valores. Indiquemos los valores con letras minúsculas x: x1 para el primer valor 75, x2 para
el segundo valor 63, y así sucesivamente.

X: x1 = 75 x2 = 63 x3 = 82 x4 = 90 x5 = 88

La pregunta “¿Qué tal les fue a los alumnos?” puede responderse ahora describiendo y proporcio-
nando información sobre la variable X, y para ello investigamos los distintos valores (es decir, las
calificaciones individuales) de X. Queremos mostrar cómo estos distintos valores de X pueden
organizarse y analizarse para proporcionarnos información sobre X, lo que a su vez nos dará infor-
mación sobre los alumnos. Antes de considerar este problema, vamos a discutir dos características

5
6 Distribución de Frecuencias

de una variable. La primera es la diferencia entre los valores posibles y el valor realmente observado
de X. La segunda es la diferencia entre variables discretas y continuas. Los valores posibles de X
son todos los valores que puede tomar X. Los valores realmente observados de X son los valores
posibles de X que se han observado realmente. Ilustrémoslo.
Ejemplo 1. Si las calificaciones del examen son de 0 a 100 y sólo en números enteros, X (la va-
riable “calificaciones”) puede tomar los 101 valores: 0, 1, 2, ..., 99, 100. Estos son los posibles valores
que puede tomar la variable X. Los 5 valores de X que hemos observado son 75, 63, 82, 90 y 88.
Estos son los valores realmente observados de X.
Ejemplo 2. Sea X el número que se produce al lanzar un dado. Hay 6 valores posibles que puede
tomar X. Sea que obtenemos un 3 en el primer lanzamiento del dado. Este 3 es un valor realmen-
te observado. Supongamos que se lanza el dado 24 veces y el resultado es el que se muestra en la
siguiente tabla:

x Frecuencia
1 3
2 5
3 4
4 4
5 3
6 5
24

La tabla muestra que 3 veces se ha obtenido un 1, se ha obtenido 5 veces un 2, y así sucesivamente.


Los 1, 2, 3, ..., 6 son los posibles valores que puede tomar X. Los 24 valores que se han producido
son los valores realmente observados.
Ejemplo 3. Sea X la cara de una moneda que se lanza y denota una cara por 1 y un escudo por
0. Entonces los posibles valores que puede tomar X son 1 y 0. Supongamos que la moneda se lanza
5 veces con el siguiente resultado:

X Número de Ocurrencias
1 3
0 2
5

Los valores realmente observados son los 5 valores: 1, 1, 1, 0, 0.


Ejemplo 4. Supongamos que el número máximo de letras que pueden encontrarse impresas en
una página de un determinado libro es de 500. Sea X el número de erratas en una página del libro.
Entonces los posibles valores de X son los 501 números: 0, 1, 2, ..., 500. X = 0 indica que no hay
erratas; X = 1 indica que hay una errata, y así sucesivamente. Si un control de una página muestra
que hay 6 erratas, este 6 es un valor realmente observado.
Una comprobación de 4 páginas muestra que el número de erratas es 2, 5, 11 y 7 para las res-
pectivas páginas. Estos 4 valores de X son los valores realmente observados de X.
La segunda característica que hay que discutir es la distinción entre discreción y continuidad.
Se ha reflexionado mucho sobre estos dos conceptos desde la época de los antiguos matemáticos
griegos. Desde los primeros tiempos, dos tendencias opuestas, que a veces se ayudan mutuamente,
2.1. El concepto de variable 7

han gobernado todo el desarrollo de las matemáticas. A grandes rasgos, se trata de lo discreto y lo
continuo.
La discreta lucha por describir toda la naturaleza y todas las matemáticas de forma atómica, en
términos de elementos individuales distintos y reconocibles, como los ladrillos de una pared, o los
números 1, 2, 3, ... El continuo trata de comprender los fenómenos naturales, el curso de un planeta
en su órbita, el flujo de una corriente eléctrica, la subida y bajada de las mareas y una multitud de
otras apariencias que nos engañan haciéndonos creer que conocemos la naturaleza, en la fórmula
mística de Heráclito: “Todas las cosas fluyen”. Hoy (como se verá en el capítulo final), “fluir”, o su
equivalente “continuidad”, es tan poco claro que casi carece de significado. Sin embargo, dejemos
que esto pase por el momento.
Intuitivamente sentimos que sabemos lo que significa el “movimiento continuo”, como el de un
pájaro o una bala en el aire, o la caída de una gota de lluvia. El movimiento es suave, no se produce
con sacudidas, es ininterrumpido. En la moción continua o, más generalmente, en el concepto mis-
mo de continuidad, los números individualizados 1, 2, 3, ... no son la imagen matemática adecuada.
Todos los puntos de un segmento de una línea recta, por ejemplo, no tienen individualidades tan
claras como los números de la secuencia 1, 2, 3, ... , donde el paso de un miembro de la secuencia al
siguiente es el mismo (a saber, 1 : 1 + 2 = 3, 1 + 3 = 4, y así sucesivamente); pues entre dos puntos
cualesquiera de un segmento de línea, por muy cercanos que estén los puntos, siempre podemos
encontrar, o al menos imaginar, otro punto: no hay un paso “más corto” de un punto al “siguiente”.
De hecho, no hay ningún punto siguiente.
La continuidad, la “no proximidad”, cuando se desarrolla a la manera de Newton, Leibniz y sus
sucesores, conduce al dominio ilimitado del cálculo y sus innumerables aplicaciones a la ciencia y
la tecnología, y a todo lo que hoy se llama análisis matemático. El otro, el patrón discreto basado
en 1, 2, 3, ... es el dominio del álgebra, la teoría de los números y la lógica simbólica. La geometría
participa tanto de lo continuo como de lo discreto.
Una de las principales tareas de la matemática actual es armonizar lo continuo y lo discreto,
incluirlos en una matemática integral y eliminar la oscuridad de ambos.1
Una definición rigurosa de la continuidad está más allá del nivel matemático de este libro. La
definiremos de forma no rigurosa como sigue: Una variable continua es una variable cuyos valores
posibles no tienen ruptura. Por ejemplo, sea X el peso de los niños de una determinada clase. Su-
pongamos que el niño más ligero pesa 80 libras y el más pesado 150 libras. ¿Cuántos valores posibles
de X hay entre 80 libras y 150 libras? Se puede ver intuitivamente que cuando se toman dos valores
posibles cualesquiera, por muy cercanos que sean (digamos, 115.998 lb. y 115.999 lb.), siempre ha-
brá un valor posible entre los dos. Expresaremos esto diciendo que “no hay ruptura” en los valores
de X y definiremos tal variable como una variable continua. En este caso, como puede verse, hay
un número infinito de valores posibles entre 80 lb. y 150 lb. Además, existe un número infinito de
valores posibles entre dos pesos cualesquiera, por muy próximos que estén.
Una variable discreta es una variable cuyos valores tienen rupturas o saltos. Por ejemplo, sea
X el número de vacas en las granjas de una determinada región. Los posibles valores de X son
0, 1, 2, ..., 1000, ... Hay un salto o ruptura entre, por ejemplo, 15 y 16. La variable X (el número de
vacas) no tiene un valor como 15.087.
Para otro ejemplo, considere que X es la cantidad de dinero que tiene un estudiante en su bol-
sillo. Los posibles valores de X son 0, 5, 10, 25, 50, ..., 1000, 2000, ... Hay una ruptura entre las mo-
nedas de 10 y 25 colones. Es decir, no hay ningún moneda entre 10 y 25 que tome X. La variable
1
E. T. Bell, Men of Mathematics, Nueva York: Simon and Schuster, Inc., 1937 (impresión en rústica, 1961), pp. 13-14.
Con permiso del autor y los editores.
8 Distribución de Frecuencias

X no puede tener un valor, por ejemplo, 23.457 colones.


Volvamos ahora a nuestra tarea original de organizar y analizar los distintos valores de X real-
mente observados.

2.2 Distribución de frecuencias

Supongamos que 50 estudiantes han realizado un examen de economía. La nota del examen es
la variable X. Supongamos que las 50 calificaciones individuales (los valores) de esta variable X son
las que figuran en el Cuadro 2.1.

60 33 85 52 65 77 84 65 57 74
71 81 35 50 35 64 74 47 68 54
80 41 61 91 55 73 59 53 45 77
41 78 55 48 69 85 67 39 76 60
94 66 98 66 73 42 65 94 89 88

Cuadro 2.1

Ahora un amigo le ha pedido que describa el rendimiento de los estudiantes en el examen de


economía. Puede responder de varias maneras.
Por ejemplo, puede empezar por la nota del primer alumno y enumerar la nota de cada uno de
ellos. Puede ordenar las notas de menor a mayor y describirlas, o puede modificarlas un poco más y
decir que tantas notas estaban entre 30 y 39 puntos, tantas entre 40 y 49. Es decir, puede describir la
situación enumerando el número de ocurrencias de las calificaciones en cada clase de 10 puntos. El
número de ocurrencias en cada clase se llama frecuencia en cada clase, o simplemente “frecuencia
de clase”.
En cualquiera de estos casos, nuestro objeto es dar una descripción sobre las calificaciones (es
decir, la variable X). Cuando sólo hay 50 alumnos, es posible dar la nota de cada alumno, pero
cuando hay 100 o 200 alumnos, este método se vuelve engorroso. Es más sencillo recurrir al último
método mencionado, en el que obtuvimos la frecuencia de las calificaciones en cada clase. Cuando
estas frecuencias de clase (o simplemente, frecuencias) se presentan en forma de tabla, esta tabla se
denomina tabla de frecuencias.
Además, cuando los valores de la variable se reúnen en forma de tabla de frecuencias, nos per-
mite obtener, mediante diversas técnicas estadísticas, otras características sobre las variables que se
tratan en el Capítulo 3.
Ahora vamos a contar los datos brutos y a construir una tabla de frecuencias. No hay ningún
grado inferior a 30, así que empezamos por 30 y agrupamos los grados como se muestra en la Cua-
dro 2.2.
Del Cuadro 2.2 obtenemos una tabla de frecuencias, que se muestra en el Cuadro 2.3.
El Cuadro 2.3 muestra que hay 4 notas entre 30 y 39 (la frecuencia de clase es 4); 6 notas entre
40-49 (la frecuencia de clase es 6), y así hasta terminar.
Obsérvese que, aunque la descripción de los notas mediante la tabla de frecuencias ha simplifi-
cado la presentación, se ha perdido información de las notas individuales.
2.2. Distribución de frecuencias 9

Clase Cálculo Frecuencia


30-39 |||| 4
40-49 |||| | 6
50-59 |||| ||| 8
60-69 |||| |||| || 12
70-79 |||| |||| 9
80-89 |||| || 7
90-99 |||| 4

Cuadro 2.2: Hoja de cálculo

Clase Frecuencia
30-39 4
40-49 6
50-59 8
60-69 12
70-79 9
80-89 7
90-99 4

Cuadro 2.3

Las agrupaciones de 30-39, 40-49, 50-59,... se denominan intervalos de clase. Los valores iniciales
30, 40, 50,... se denominan límites inferiores, y los valores finales 39, 49, 59,... límites superiores de los
intervalos de clase. Hay que tener en cuenta los siguientes puntos sobre los intervalos de clase.

1. Cuando una tabla de frecuencias tiene demasiados intervalos de clase, aunque nos da más
información sobre los datos que una con menos, se desvirtúa el propósito de la simplificación.
En general, es conveniente tener unos 7-15 intervalos. No hay una regla fija, y probablemente
lo mejor sea ejercer el propio juicio. En algunos casos puede ser aconsejable tener hasta 20
intervalos de clase.

2. No es necesario que los intervalos de clase sean iguales. Tampoco en este caso existe una regla
fija, y hay que usar el juicio en relación con lo que se desea describir. A modo de ejemplo,
consideremos una tabla de frecuencias de la distribución de los ingresos (Cuadro 2.4) elabo-
rada por el Departamento de Comercio de EE.UU. Sabemos que la mayoría de las personas
ganan aproximadamente 6.000 dólares, y muy pocas ganan más de 25.000 dólares. Por otro
lado, sabemos que algunas familias ganan hasta 1.000.000 de dólares. Si intentamos mante-
ner los intervalos de clase iguales a 1.000 dólares y consideramos los tramos de ingresos hasta
1.000.000 de dólares, obtendremos una tabla de frecuencias con 1.000 intervalos de clase. A
menos que haya un interés especial y específico en el número y el nivel de las familias con
ingresos elevados, una distribución de frecuencias de este tipo suele ser muy engorrosa para
describir la distribución de los ingresos. El sentido común indicaría que la presentación del
Cuadro 2.4, utilizando intervalos de clase desiguales, es probablemente suficiente para des-
cribir la distribución de los ingresos.
Obsérvese también que en nuestro ejemplo de las notas (Cuadro 2.2), el último intervalo es
90-99 en lugar de 90-100. Como no había nadie con una calificación de 100, el intervalo se
estableció como 90-99 para mantenerlo igual con los otros intervalos. Sin embargo, si lo desea-
10 Distribución de Frecuencias

mos, podemos dejar que el último intervalo sea 90-100. El Cuadro 4.5 del capítulo 4 permite
que el último intervalo sea 90-100. O, como alternativa, podemos dejar que los dos últimos
intervalos sean

f
90-99 4
100 0

3. La variable X del Cuadro 2.4 es la renta personal familiar y es una variable discreta. Los valores
realmente observados de una variable discreta se denominan datos discretos.
Cuando los datos son discretos, los intervalos de clase se muestran como en el Cuadro 2.4.
Por ejemplo

$1000 – $1999
$2000 – $2999

¿Por qué no aparece como

$1000.00 – $1999.00
$2000.00 – $2999.00?

Esto se debe a que la variable X (ingresos personales de las familias) se ha definido en unidades
de dólares. Además, una cantidad inferior a 1,00 dólares es muy pequeña en comparación con,
por ejemplo, $2000, e ignorar una cantidad inferior a 1,00 dólares tiene, a efectos prácticos,
poco o ningún efecto en el uso de la tabla; también tiene el mérito de simplificar el uso de la
tabla.
La expresión de los intervalos de clase cuando los datos son discretos no es un problema
porque hay una ruptura definida en los valores de la variable. Sin embargo, cuando los datos
son continuos, no hay ruptura y, por lo tanto, es necesario crear una ruptura que recuerde al
usuario de la tabla que los datos son continuos. Si X es el peso de los niños, suponga, por
ejemplo, dos intervalos de clase

70 lb. – 79.99
80 lb. – 89.99

El 79,99... muestra que los 9 continúan indefinidamente. En la mayoría de los casos, esto se
abrevia como

70 lb. – 79.99 lb

omitiendo el ”...” A veces se simplifica aún más como

70 lb.– 80 lb.
80 lb.– 90 lb.

entendiendo que, cuando se escribe de esta manera, representa datos continuos. También de-
bemos asumir que todos los valores de X desde 70 lb. hasta (pero excluyendo) 80 lb. están en
el intervalo de clase 70 – 80 lb., y todos los valores de X desde 80 lb. hasta (pero excluyendo)
90 lb. están en el intervalo de clase 80 – 90 lb.
2.3. Presentación gráfica 11

Número de familias e individuos


Ingreso personal familiar no vinculados (en miles), 1955
Menor a $1000 2 918
$1 000 – 1 999 5 327
$2 000 – 2 999 6 272
$3 000 – 3 999 7 275
$4 000 – 4 999 7 117
$5 000 – 5 999 6 363
$6 000 – 7 499 6 940
$7 500 – 9 999 5 186
$10 000 – 14 999 3 017
$15 000 – 19 999 852
$20 000 – 24 999 356
$25 000 – 49 999 433
Superior a $50 000 114
Total 52 170
Fuente: Departamento de Comercio, 1958, p. 161.

Cuadro 2.4: Distribución de las unidades de consumo por tramos de ingreso

4. El punto medio de un intervalo de clase se obtiene sumando los límites de clase inferior y
superior y dividiendo por 2. Por ejemplo, el punto medio del intervalo de clase discreto 30-39
es
30 + 39
= 34.5
2
Nótese que el punto medio tiene un decimal, aunque los datos (calificaciones) estén en nú-
meros enteros, y que es un valor teórico que representa los valores del intervalo de clase. Para
el intervalo de clase continuo 30-40, el punto medio es
30 + 40
= 35
2
5. El término intervalo de clase también se utiliza para indicar el número de unidades entre dos
límites de clase. En nuestro caso discreto de calificaciones, 30-39 tendrá un intervalo de clase
de 10 puntos. Nótese que no son 9 puntos porque 30 se incluye como nota.
El intervalo de clase continuo 30-40 (como el peso) tendrá un intervalo de clase de 40 − 30 =
10 (por ejemplo, 10 lb.).
La tabla de frecuencias muestra la distribución de las frecuencias de los valores de la variable
X entre varias clases. Esta distribución se denomina distribución de frecuencias de la variable
X. El Cuadro 2.3 muestra la distribución de frecuencias de las calificaciones de 50 estudian-
tes, y el Cuadro 2.4 muestra la distribución de frecuencias de las unidades de consumo por
intervalos de ingresos. El término distribución de frecuencias suele abreviarse simplemente
como distribución. Así, por ejemplo, decimos “la distribución de las notas” o la “distribución
de las unidades de consumo por tramos de renta”.

2.3 Presentación gráfica

En muchos casos, una presentación gráfica de una tabla de frecuencias ofrece una información
más concisa y clara sobre una distribución de frecuencias. Existen tres tipos de presentación gráfica:
12 Distribución de Frecuencias

el histograma, el polígono de frecuencias y la curva de frecuencias.

2.3.1 Histograma

Utilizando el Cuadro 2.3, la tabla de frecuencias, dibujemos un histograma (Figura 2.1). Lo pri-
mero que tenemos que hacer es introducir la escala de la variable X (es decir, las notas) en el eje
horizontal. Dado que los datos son discretos, existe una brecha entre el intervalo de clases 20 − 29
y 30 − 39. En tal caso, el punto de división entre los dos intervalos será (29 + 30) ÷ 2 = 29.5, y de
forma similar para los demás puntos de división. De este modo, se evitan los huecos entre las barras.
Observe también que se han omitido los puntos de división de 0 − 29.5. No es necesario tener esos
puntos divisorios a los que no les corresponden frecuencias (como 9.5, 19.5), pero el origen 0 debe
indicarse en la escala del eje vertical.

Figura 2.1: Histograma de Notas

Lo segundo que hay que hacer es trazar las barras de forma que sus alturas correspondan a las
frecuencias de las clases que representan. La primera barra tiene una altura de 4, que corresponde a
la frecuencia 4 del primer intervalo de clase, y lo mismo para las demás barras. Cuando los intervalos
de clase son desiguales, es necesario ajustar la altura de las barras. Esto se explica más adelante.
Una forma alternativa de dibujar el histograma es la siguiente: En primer lugar, encuentre los
puntos medios de los intervalos de clase. En nuestro caso son

30 + 39
= 34.5
2

44.5, 54.5, ..., 94.5. En segundo lugar, trace una línea vertical (líneas discontinuas de la Figu-
ra 2.2) en estos puntos, con alturas que correspondan a las frecuencias de las clases. En tercer lugar,
tome la mitad de la longitud del intervalo de clases a ambos lados de estas barras verticales y dibu-
je el histograma. El proceso de construcción se muestra en la Figura 2.2. Se puede observar en el
gráfico que, como la mitad de la longitud de un intervalo es

10 ÷ 2 = 5
2.3. Presentación gráfica 13

Figura 2.2: Histograma de Notas

la barra construida alrededor de la barra vertical en 34.5 va de 29.5(= 34.5 − 5) a 39.5(= 34.5 + 5)
y es la misma que la obtenida en la Figura 2.1, y de forma similar para las demás barras.
La altura de una barra muestra la densidad de la frecuencia por intervalo de clase. Los alumnos
probablemente estén familiarizados con el concepto de densidad en las discusiones sobre población.
La densidad de población de la India es alta (320 personas por milla cuadrada), y la de Estados
Unidos es baja (49 personas por milla cuadrada). El punto a tener en cuenta es que el concepto de
densidad es por unidad, como “por milla cuadrada”.
En nuestro caso, la unidad estándar es el intervalo de clase y la altura de una barra muestra la
frecuencia por intervalo. Este concepto de frecuencia por intervalo se denomina densidad de fre-
cuencias.
En la Figura 2.1 la primera barra tiene una altura de 4, y esto muestra que la densidad de fre-
cuencias para el intervalo de clase 30 − 39 es 4; es decir, hay 4 valores realmente observados de la
variable X en el intervalo 30 − 39. Por lo tanto, cuando la altura de la barra es 4, debe interpretarse
como

4f /int

con la unidad f /int (frecuencia por intervalo).


Si la densidad de la frecuencia (altura de la barra) se multiplica por la longitud del intervalo,
obtenemos

(4f /int) · (intervalo) = frecuencia 4

Pero multiplicar la altura de una barra por su base (es decir, el intervalo) es hallar el área de una
barra. Por tanto, podemos concluir que el área de una barra muestra la frecuencia en ese intervalo.
En nuestro caso, los intervalos son todos de la misma longitud. Así, la densidad de frecuencia
4f /int, y la frecuencia en el intervalo, es decir, la frecuencia 4, tienen el mismo valor 4 cuando se
prescinde de las unidades.
14 Distribución de Frecuencias

Esta distinción entre la altura de una barra, que muestra la densidad de frecuencias, y el área
de una barra, que muestra la frecuencia, adquiere importancia cuándo tenemos intervalos de clase
desiguales. La explicación es que cuando tenemos intervalos de clase desiguales, como los de la tabla
adjunta, vemos que el intervalo 40 − 59 es el doble que el de 30 − 39.

Clase f Frecuencia/intervalo = densidad de frecuencia


30 - 39 4 4
40 - 59 14 14/2=7
60 - 69 3 3
21

Si el intervalo de la clase 30 − 39 (es decir, 10 puntos) se considera nuestro intervalo estándar,


el 40 − 59 equivale a 2 intervalos estándar. Como la frecuencia del intervalo de clase 40 − 59 es 14,
la frecuencia por intervalo estándar es 14/2 = 7. Es decir, la densidad de frecuencia (la altura de la
barra) en el intervalo de clase 40 − 59 es 7, como se muestra en la Figura 2.3.

Figura 2.3: Histograma de Notas

El área bajo la barra en el intervalo de clase 40 − 59 es, ya que 40 − 59 son 2 intervalos estándar

(7f /int) · (2 intervalos) = frecuencia 14

Es decir, el área bajo la barra representa la frecuencia en ese intervalo.


Si un intervalo de clase es 3 veces el intervalo estándar, dividimos la frecuencia por 3 y encon-
tramos la densidad de frecuencia, que se convierte en la altura de la barra.

2.3.2 Polígono de frecuencias

Cuando se unen los puntos medios de los intervalos de clase, se obtiene un polígono de frecuen-
cias como el de la Figura 2.4. Por ejemplo, el punto medio del intervalo de clase 40 − 49 es
2.3. Presentación gráfica 15

(40 + 49) ÷ 2 = 44.5

Figura 2.4: Polígono de Frecuencias de Notas

Esto es coherente con la forma en que se ha dibujado el histograma. Es decir, el punto medio
entre las dos líneas verticales de 39.5 y 49.5 es también

(39.5 + 49.5) ÷ 2 = 44.5

Obsérvese que se ha trazado una línea recta para conectar los puntos medios del intervalo de clase
30 − 39 y 20 − 29, aunque no hay frecuencias en el intervalo de clase 20 − 29, y lo mismo para el
último intervalo. Si hubiera un intervalo de clase intermedio (por ejemplo, 60 − 69) que no tuviera
frecuencias, se trataría de la misma manera.
Observe también que el área bajo el polígono de frecuencias es igual al área bajo el histograma
de la Figura 2.4.

2.3.3 Curva de frecuencias

La curva de frecuencias es una representación gráfica de una distribución teórica de frecuen-


cias. Pero como es difícil dar una discusión completa de una distribución teórica de frecuencias en
este punto, diremos como primera aproximación que una curva de frecuencias es un polígono de
frecuencias suavizado.
Ciertas formas de curvas de frecuencia han recibido nombres específicos para corresponder con
tipos específicos de distribuciones de frecuencia.
La distribución rectangular. Si las calificaciones de los alumnos son las del Cuadro 2.5, la distri-
bución es la de la Figura 2.5. La forma de la distribución es rectangular y se denomina distribución
rectangular; se utiliza principalmente en las discusiones teóricas.
La distribución normal. Una distribución normal es una distribución simétrica en torno a la
media, con una curva de frecuencias en forma de campana, como en la Figura 2.6. Esto se volverá a
tratar en el Capítulo 6. Coeficiente intelectual de los niños,
16 Distribución de Frecuencias

Clase Frecuencia
30 - 39 7
40 - 49 7
50 - 59 7
60 - 69 7
70 - 79 7
80 - 89 7
90 - 99 7
49

Cuadro 2.5

Figura 2.5: Distribución rectangular

por ejemplo, tienen una distribución normal. Es la distribución principal que utilizaremos en la
discusión posterior.
Distribución sesgada. Si las calificaciones no se distribuyen simétricamente en torno a la media,
decimos que la distribución es sesgada. El Cuadro 2.6 muestra una distribución sesgada.

Clase Frecuencia
30 - 39 1
40 - 49 3
50 - 59 6
60 - 69 10
70 - 79 12
80 - 89 15
90 - 99 3
50

Cuadro 2.6
2.3. Presentación gráfica 17

Figura 2.6: Distribución normal

Figura 2.7: Distribución sesgada

Cuando la inclinación tiene una cola larga hacia la izquierda, como en la Figura 2.7, se dice que
está inclinada hacia la izquierda (negativamente). Cuando la cola larga está a la derecha, está sesgada
a la derecha (positivamente).
La distribución de os ingresos que se muestra en el Cuadro 2.4 está sesgada hacia la derecha.
Es decir, la mayoría tiene ingresos en torno a los 3 000 − 45 000 dólares, y luego la distribución se
reduce gradualmente a medida que los ingresos son más altos. Otros ejemplos son: El número de
granjas por tamaño en Estados Unidos (sesgado a la derecha); el número de tiendas minoristas por
volumen de ventas en Estados Unidos (sesgado a la derecha); y la distribución de las calificaciones
en una facultad de derecho (normalmente sesgada a la izquierda).
Distribución bimodal. Una distribución de frecuencias con dos picos (modas), como en la Figu-
ra 2.8, se denomina distribución bimodal; una distribución con tres picos se denomina distribución
trimodal, y así sucesivamente.
18 Distribución de Frecuencias

La distribución de las calificaciones en una clase de matemáticas de primer año que está formada
por un grupo de buenos y otro de malos alumnos muestra a veces una distribución bimodal.

Figura 2.8: Distribución bimodal

2.4 Distribución de frecuencias acumulativas

Supongamos que se plantean las siguientes preguntas ¿Cuántos alumnos volvieron a recibir una
calificación superior a 60, o cuántos alumnos recibieron una calificación inferior a 40? Este tipo de
preguntas, en las que se desea conocer la frecuencia por encima o por debajo de un determinado
valor de una variable X, se producen con frecuencia. Por ejemplo, se puede desear saber cuántos
vendedores pudieron vender más de una determinada cantidad; o, de las numerosas secciones de
unos grandes almacenes, cuántas secciones tuvieron un importe de ventas menor a una determinada
cantidad; o, cuántas radios de un envío tenían más de cinco defectos.
Para responder a este problema, organizaremos los datos en una tabla de frecuencias acumuladas
y en una curva de frecuencias acumuladas. Vamos a ilustrar este proceso con un ejemplo sencillo.

Tabla de frecuencias acumulativas

Supongamos que 10 alumnos realizan un examen cuyas calificaciones van de 0 a 10, y no se


dan calificaciones fraccionarias. Supongamos que los resultados del examen son los que aparecen
en el Cuadro 2.7. La variable X muestra los posibles valores de las calificaciones, y f muestra las
frecuencias.
El Cuadro 2.7(b) es una tabla de frecuencias acumulativas ”menos de” obtenida por la acumu-
lación de las frecuencias del Cuadro 2.7(a). Las frecuencias acumuladas de la columna acumulada
muestran el número de alumnos que tienen una calificación igual o inferior a la correspondiente.
Por ejemplo, el 1 de la columna acumulada significa que hay 1 alumno que tiene una calificación
igual o inferior a 1 punto. El 4 en la columna acumulada significa que hay 4 alumnos que tienen
una calificación igual o inferior a 2 puntos. Tenga en cuenta que las calificaciones de 3, 4 y 5 puntos
también corresponden a un 4 en la columna del acumulado. Por lo tanto, también podemos decir
que hay 4 alumnos que tienen notas iguales o inferiores a 3, 4 o 5 puntos.
2.4. Distribución de frecuencias acumulativas 19

(a) (b)
X f X f Acumulada
0 puntos 0 Menos de 0 0
1 puntos 1 Menos de 1 1
2 puntos 3 Menos de 2 4
3 puntos 0 Menos de 3 4
4 puntos 0 Menos de 4 4
5 puntos 0 Menos de 5 4
6 puntos 3 Menos de 6 7
7 puntos 2 Menos de 7 9
8 puntos 0 Menos de 8 9
9 puntos 1 Menos de 9 10
10 puntos 0 Menos de 10 10
10

Cuadro 2.7: Cuadro Frecuencia Acumulada

En lugar de acumular las frecuencias, podemos desacumular las frecuencias y construir una
tabla de frecuencias desacumuladas como se muestra en el Cuadro 2.8(a) y (b). Por ejemplo, el 9 en
la columna desacumulada que corresponde a 1 punto significa que hay 9 alumnos que tienen una
calificación superior a 1 punto.

(a) (b)
X f X f Desacumulada
0 puntos 0 Mas de 0 10
1 puntos 1 Mas de 1 9
2 puntos 3 Mas de 2 6
3 puntos 0 Mas de 3 6
4 puntos 0 Mas de 4 6
5 puntos 0 Mas de 5 6
6 puntos 3 Mas de 6 3
7 puntos 2 Mas de 7 1
8 puntos 0 Mas de 8 1
9 puntos 1 Mas de 9 0
10 puntos 0 Mas de 10 0

Cuadro 2.8: Cuadro Frecuencia Desacumulada

Tenga en cuenta que hemos utilizado el término “mas de”. Lo hacemos porque en la tabla de
frecuencias acumuladas hemos utilizado el término “menos de”.
Combinemos ahora los Cuadro 2.7 y Cuadro 2.8 como Cuadro 2.9. Hemos etiquetado las co-
lumnas acumulativas y desacumulativas como “Menos de” y “Mas de”, respectivamente. Obsérvese
que la suma de las frecuencias de las columnas “menos de ” y “mas de” siempre suma 10, el número
total de alumnos.
Dibujemos ahora un gráfico de barras del Cuadro 2.7, como se muestra en la Figura 2.9. Las
barras verticales muestran las densidades de frecuencia correspondientes a las respectivas califica-
ciones. Observe que los intervalos son puntos en este caso, y las barras verticales son ahora líneas
verticales.
20 Distribución de Frecuencias

X f “menos de” “mas de”


0 puntos 0 0 10
1 1 1 9
2 3 4 6
3 0 4 6
4 0 4 6
5 0 4 6
6 3 7 3
7 2 9 1
8 0 9 1
9 1 10 0
10 0 10 0
10

Cuadro 2.9: Cuadro Distribución de Frecuencias

Figura 2.9: Distribución de frecuencias de calificaciones

Nuestra siguiente tarea es dibujar una curva de frecuencia acumulada, utilizando la columna
”menos de” de la tabla de frecuencias. Esto se muestra en la Figura 2.10, y la curva mostrada por la
línea gruesa es la “curva de frecuencia acumulada ’Menos de”’. La altura de la curva sobre una califi-
cación determinada muestra el número de estudiantes que tienen calificaciones iguales o inferiores
a esa nota. Por ejemplo, la altura de la curva sobre la nota 6 puntos, es 7. Esto significa que hay 7
alumnos con notas iguales o inferiores a 6 puntos.
La forma de la curva de frecuencias acumuladas muestra la distribución de las frecuencias. Por
ejemplo, las frecuencias de las calificaciones del Cuadro 2.10 están distribuidas uniformemente. La
curva de frecuencias acumuladas ”Menos de” se muestra en la Figura 2.11 y, como puede verse, la
curva asciende uniformemente, paso a paso.
Las calificaciones del Cuadro 2.11 son en su mayoría altas. La Figura 2.12 es la curva de frecuen-
cia acumulada “menos de” correspondiente. y, como puede verse, la curva asciende bruscamente
cerca del extremo superior del eje X.
2.4. Distribución de frecuencias acumulativas 21

Figura 2.10: Distribución de Frecuencias Acumuladas

Las calificaciones del Cuadro 2.12 son en su mayoría bajas. La Figura 2.13 es la curva de frecuen-
cia acumulada “menos de” correspondiente, y como puede verse. la curva asciende bruscamente
cerca del extremo superior del eje X.
Resumamos nuestros resultados como sigue. La Figura 2.14(a) es una curva acumulativa, que
muestra que las frecuencias de los valores realmente obtenidos se distribuyen uniformemente en el
rango de valores posibles de la variable X. En la Figura 2.14(b) las frecuencias se concentran cerca
del extremo superior de los valores posibles de X, y en la Figura 2.14(c) se concentran cerca del
extremo inferior de los valores posibles de X.

X f “menos de”
0 puntos 0 0
1 1 1
2 1 2
3 1 3
4 1 4
5 1 5
6 1 6
7 1 7
8 1 8
9 1 9
10 1 10
10

Cuadro 2.10: Cuadro Distribución de Frecuencias

Tabla de frecuencias acumuladas para datos agrupados

Utilizando el Cuadro 2.3, podemos construir una tabla de frecuencias acumulativas para datos
agrupados, como se muestra en el Cuadro 2.13.
22 Distribución de Frecuencias

Figura 2.11: Distribución de Frecuencias Acumuladas

X f “menos de”
0 puntos 0 0
1 0 0
2 0 0
3 0 0
4 0 0
5 0 0
6 0 0
7 4 4
8 4 8
9 2 10
10

Cuadro 2.11: Cuadro Distribución de Frecuencias

Primero hay que decidir si se utilizan los límites inferiores o superiores de los intervalos de clase
como criterio de división. Utilicemos los límites superiores de las clases. Entonces, por ejemplo,
“menos de 39 puntos” significará el número de alumnos que tienen notas hasta 39 puntos inclusive.
En nuestro caso, el número de estos alumnos es 4. El número de alumnos que tienen “menos de 49
puntos” es 10, y así sucesivamente.
“Más de 39 puntos” significa el número de alumnos que tienen más de 39 puntos y excluye a
los alumnos que tienen 39 puntos (es decir, el número de alumnos que tienen 40 puntos o más). En
nuestro caso son 46 alumnos. El número de alumnos que tienen “más de 49 puntos” es de 40, y así
sucesivamente.
Obsérvese que las frecuencias correspondientes en las columnas “menos de” y “mas de” suman
50.
2.4. Distribución de frecuencias acumulativas 23

Figura 2.12: Distribución de Frecuencias Acumuladas

X f “menos de”
0 puntos 4 4
1 4 8
2 2 10
3 0 10
4 0 10
5 0 10
6 0 10
7 0 10
8 0 10
9 0 10
10

Cuadro 2.12: Cuadro Distribución de Frecuencias

Curva de frecuencias acumuladas

Grafiquemos ahora la tabla de frecuencias acumuladas. Hacemos que el eje vertical muestre las
frecuencias acumuladas y que el eje horizontal muestre las calificaciones. Entonces podemos trazar
las curvas “menos de” y “mas de” como se muestra en la Figura 2.15.
Para graficar la curva de frecuencias acumuladas “menos de”, primero trazamos los puntos
29.5, 39.5, ..., 89.5 y 99.5, que eran los puntos de división de las barras en el histograma (Figura 2.1).
Según el Cuadro 2.13, no hay alumnos con notas menores o iguales a 29, por lo que trazamos un
punto a la altura 0 sobre 29.5. A continuación, hay 4 estudiantes con calificaciones menores o iguales
a 39. Por lo tanto, trazamos un punto a la altura 4 sobre 39.5, y de forma similar para los otros pun-
tos, como se muestra en la Figura 2.15. Cuando estos puntos están unidos por líneas rectas, tenemos
la curva de frecuencia acumulada “menos de”.
Para graficar la curva de frecuencia acumulada “mas de”, observamos en el Cuadro 2.13 que hay
50 alumnos con calificaciones mayores que (superiores a) 29. Recordemos que el término “mas de
24 Distribución de Frecuencias

Figura 2.13: Distribución de Frecuencias Acumuladas

(a) (b)

(c)
Figura 2.14: Casos de Distribución de Frecuencias Acumuladas

29” excluye la nota 29 y comienza a partir de la 30. Así que trazamos un punto a la altura 50 sobre
29.5. El siguiente punto está en la altura 46 sobre 39.5, y así sucesivamente. Al unir estos puntos,
obtenemos la curva de frecuencia acumulada “mas de”.
Las curvas de frecuencia acumulada pueden utilizarse de dos maneras. Utilizando la curva “me-
nos de”, ilustrémosla. En la primera forma, partimos del eje horizontal y pasamos al eje vertical.
Por ejemplo, seleccionamos una calificación de 62. Entonces, como muestra el gráfico, la frecuen-
cia correspondiente es de aproximadamente 20. Esto significa que hay unos 20 alumnos con notas
2.5. Frecuencias Relativas 25

Clases f “menos de” “mas de”


30 - 39 4 4 50
40 - 49 6 10 46
50 - 59 8 18 40
60 - 69 12 30 32
70 - 79 9 39 20
80 - 89 7 46 11
90 - 99 4 50 4
50

Cuadro 2.13: Cuadro Distribución de Frecuencias Acumuladas

Figura 2.15: Ojivas o Curvas de Frecuencia Acumulada

inferiores o iguales a 62 puntos.


En la segunda forma, partimos del eje vertical y pasamos al eje horizontal. Para este método,
convirtamos las frecuencias acumuladas en el eje vertical en porcentajes, como se muestra en el
eje vertical de la derecha. Así podremos encontrar, por ejemplo, la nota por debajo de la cual se
encuentra el 50% de los alumnos. El gráfico muestra que es de unos 66 puntos. Del mismo modo,
podemos encontrar la nota por debajo de la cual habrá un 25, un 75 o cualquier otro porcentaje de
los estudiantes. Se pueden obtener lecturas similares utilizando la curva “mas de”.
Observe que las dos curvas se cruzan en el nivel del 50 por ciento.

2.5 Frecuencias Relativas

Tabla de frecuencias relativas

Cuando las frecuencias de una tabla se expresan en términos proporcionales, tenemos una tabla
de frecuencias relativas. Dado que las tablas de frecuencias relativas se utilizarán con frecuencia en
26 Distribución de Frecuencias

capítulos posteriores, vamos a dar una breve explicación en esta sección.


Supongamos que se lanza una moneda 5 veces con los resultados mostrados en el Cuadro 2.14.
La frecuencia relativa escudo es 53 = 0.6 y la de corona es 25 = 0.4. Calcularemos las frecuencias
relativas de forma que el total de las frecuencias relativas sea siempre 1.

Resultado Frecuencia Absoluta Frecuencia Relativa


Escudo 3 0.6
Corona 2 0.4
5 1.0

Cuadro 2.14: Cuadro Frecuencias Relativas

El Cuadro ?? puede representarse gráficamente como la Figura 2.16, donde la escala vertical es en
términos de frecuencias relativas. La altura de las barras verticales muestra las frecuencias relativas.
Nótese que esto no es un histograma.

Figura 2.16: Ojivas o Curvas de Frecuencia Acumulada

Como otro ejemplo, consideremos la distribución de las erratas por página en un folleto de 20
páginas, la que se presenta en el Cuadro 2.15. La Figura 2.17 es el gráfico de la tabla. Las alturas de
las barras corresponden a las frecuencias relativas.
Hemos dicho anteriormente que la altura de una barra en un histograma muestra la frecuencia
por intervalo, y el área muestra la frecuencia en ese intervalo. En nuestro caso, la altura de una barra
muestra la frecuencia relativa por intervalo, y el área de una barra muestra la frecuencia relativa en
ese intervalo. Mostremos esta relación en forma de tabla, como en el Cuadro ??.
Como muestra la tabla, el área total del histograma en términos relativos es 1. Este resultado se
explicará de nuevo en el Capítulo 6 y es fundamental para nuestra discusión después del Capítulo 6.
2.5. Frecuencias Relativas 27

Número de erratas Frecuencia Frecuencia Relativa


0 8 0.40
1 4 0.20
2 3 0.15
3 2 0.10
4 2 0.10
5 1 0.05
20 1.00

Cuadro 2.15: Cuadro Frecuencias Relativas

Figura 2.17: Frecuencia Relativa de Erratas


CAPÍTULO 3
Medidas de Posición

En el capítulo 2 se planteó la siguiente pregunta: ¿Qué rendimiento obtuvieron los alumnos en el


examen de economía? Para responder a esta pregunta, los datos brutos se organizaron en una tabla de
frecuencias (Cuadro 2.3), que mostraba la distribución de las frecuencias de las calificaciones. Esta
distribución de frecuencias se denominó distribución de frecuencias y se representó gráficamente
mediante un histograma, un polígono de frecuencias o una curva de frecuencias. La distribución
de frecuencias y sus presentaciones gráficas nos daban información sobre el rendimiento de los
alumnos en su examen de economía.
Supongamos ahora que tenemos dos clases A y B, que han realizado un examen de economía.
Los resultados se muestran de forma esquemática en la Figura 3.1, donde la escala de la variable X
(calificaciones) es común a ambas curvas de frecuencia. Supongamos que las calificaciones de ambas
clases tienen una distribución similar, como se muestra en la figura. Pero observe que la curva de
frecuencia de la clase B está a la derecha de la de la clase A. La nota media de la clase A es 60 y la de
la B es 65.

Figura 3.1: Distribución de las calificaciones de las clases A y B

Lo que hay que tener en cuenta es que podemos diferenciar estas dos distribuciones similares

29
30 Medidas de Posición

diciendo que la distribución de las notas de la clase A tiene una media de 60 puntos y la de la B tiene
una media de 65 puntos. Estamos representando la distribución de frecuencias de la clase A por el
valor único 60 y la de B por 65.
Como otro ejemplo, consideremos la puntuación de un alumno A en un concurso de tiro con
rifle. Dejemos que las puntuaciones vayan de 0 (el borde de la diana) a 10 (el centro de la diana). La
variable X es la puntuación de un tiro, y tiene 11 valores posibles, a saber, 0, 1, 2, . . . , 10. Suponga-
mos que el alumno dispara 20 veces. Entonces la variable X tiene 20 valores realmente observados,
y tendremos una distribución de frecuencias de X.
Para describir el rendimiento de tiro de este alumno A, podemos utilizar la distribución de fre-
cuencias de X. Sin embargo, también podemos utilizar la puntuación media para representar su
rendimiento de tiro. Es decir, podemos utilizar la media de X para representar la distribución de
X. Si hay un alumno B, y queremos comparar las puntuaciones de A y B, podemos comparar las
puntuaciones medias de A y B en lugar de las distribuciones de frecuencia de sus puntuaciones.
Nuestro problema en este capítulo y en el siguiente es encontrar características, como la media
mencionada anteriormente, que caractericen (o localicen) de forma concisa una distribución de
frecuencias. Si podemos encontrar características adecuadas que caractericen una distribución de
frecuencias, podremos utilizar estas características, en lugar de la propia distribución de frecuencias,
para explicar el rendimiento de los estudiantes en un examen de economía o el rendimiento de tiro
de un estudiante.
Las características en las que nos interesaremos son las medidas de localización (capítulo 3) y
las medidas de dispersión (capítulo 4) de una distribución. Las medidas de localización se dividirán
en medidas de localización central y otras medidas de localización. Por medidas de localización
central entendemos los puntos centrales de una distribución de frecuencias que caracterizarán la
distribución. Serán la media aritmética, la mediana y la moda de una distribución. Otras medidas
de localización, que no consideraremos, son los cuartiles y percentiles de una distribución. Pero
antes de considerar estas medidas de localización, hagamos un paréntesis para definir las variables
cuantitativas y cualitativas.
Una variable cuantitativa es aquella que se expresa numéricamente. Por ejemplo, las variables
peso, altura, velocidad, renta e ingresos son variables cuantitativas.
Una variable cualitativa es la que se expresa mediante una propiedad no numérica. Por ejemplo,
la cara o la cruz de una moneda, el defecto o el no defecto de una bombilla, la calidad pobre, media
o superior de un cuadro y la satisfacción o insatisfacción de un cliente son los posibles resultados de
las variables cualitativas.
Definamos un término más, el de parámetro de una distribución. Un parámetro de una distri-
bución es un valor (una constante) de la distribución que la caracteriza. La media, la mediana y la
moda son parámetros de una distribución.

3.1 La media aritmética

El Cuadro 2.3 muestra la distribución de frecuencias de las notas de 50 alumnos (digamos, de


la clase A). Supongamos que hay otra clase B, con 50 alumnos que tienen una distribución de notas
similar. Es decir, las formas de las curvas de frecuencia se parecen. Se le pide que compare y describa
las notas de las dos clases. Esto puede hacerse comparando directamente las dos distribuciones de
frecuencias. Sin embargo, dado que las dos distribuciones son similares, ¿no podemos seleccionar
algún valor específico (parámetro) de la distribución y comparar estos parámetros en lugar de la
3.1. La media aritmética 31

distribución de frecuencias? La respuesta es “sí”.


Si una distribución de frecuencias puede representarse mediante algún valor central, podemos
comparar los valores centrales de las dos distribuciones en lugar de las propias distribuciones. Uno
de estos valores centrales es la media aritmética. Definamos primero la media aritmética antes de
continuar con nuestra discusión.
Sea X una variable y x1 , x2 , . . . , xn son los n valores realmente observados de X. Entonces la
media aritmética de la distribución de frecuencias se define como
Suma de N valores
µ=
N

donde µ, (la letra griega mu) representa la media aritmética. Utilizando símbolos, la definición
puede expresarse como
1 X
N
x1 + x2 + · · · + xN
µ= = xi (3.1)
N N
i=1

La media aritmética también se llama simplemente media o promedio.

Ejemplo No. 1
Sea X la variable peso (lb.) de 3 estudiantes, y los valores realmente observados sean

x1 = 120, x2 = 130, x3 = 140

Entonces la media µ, de x1 , x2 y x3 es

1 X
N
1
µ= xi = (120 + 130 + 140) = 130 lb
N 3
i=1

Ejemplo No. 2
El µ de 50 notas del Cuadro 2.1 es
1
µ= (60 + 33 + · · · + 60 + 88) = 65.2
50

Supongamos que la media de las notas de los 50 alumnos de la clase B es 70. Entonces, como las
dos distribuciones son similares, podemos comparar las distribuciones de frecuencias de las notas
de las clases A y B comparando las medias 65.2 puntos y 70 puntos. Las distribuciones de frecuencias
se han representado con un único valor (un parámetro). La media, por supuesto, no nos da tanta
información como la distribución de frecuencias, pero es mucho más sencilla.
Mostremos la situación de forma esquemática con gráficos. La Figura 3.2 muestra las distribu-
ciones de frecuencia (curvas de frecuencia) de las clases A y B. La escala horizontal de la variable X
es común a ambas curvas de frecuencia. Suponiendo que estas curvas son similares entre sí (diga-
mos para simplificar que ambas son distribuciones normales), podemos diferenciar las dos por sus
medias, 65.2 puntos y 70 puntos.
De forma similar, si tenemos las clases A, B, C, D, E, y las distribuciones de las notas son normales
para cada clase, podemos diferenciar estas cinco distribuciones normales por sus respectivas medias.
32 Medidas de Posición

Figura 3.2: Distribución de las calificaciones de las clases A y B

Si las distribuciones no son similares (una puede tener forma de campana y la otra bimodal),
probablemente será necesario comparar las dos distribuciones para hacer una comparación.
Geométricamente, la media de una distribución de frecuencias es el centro de gravedad. Si la
curva de frecuencias de la Figura3.3 se considera como una especie de meseta, se equilibrará en la
media.

Figura 3.3: Posición de la media en una distribución

Una característica principal de la media a efectos de su aplicación es que se ve afectada por


todos los valores realmente observados. En consecuencia, también se verá afectada por los valores
extremos. Si hay 5 alumnos con calificaciones

60, 60, 60, 60, 100


3.1. La media aritmética 33

la media es
1
µ= (60 + 60 + 60 + 60 + 100) = 68
5

Evidentemente, la única calificación 100 ha elevado la media en 8 puntos. Si alguien preguntara


“¿cuál es la media de los 5 alumnos?” y le dijeran que es de 68 puntos, probablemente supondría que
las notas están dispersas en torno a los 68 puntos. Pero tal y como se ha calculado anteriormente,
los 68 puntos no representan adecuadamente la distribución de las calificaciones.
¿Existe una medida de tendencia central que represente la distribución de frecuencias más ade-
cuadamente que la media cuando la distribución tiene valores extremos y está sesgada? En muchos
casos, la mediana, de la que hablamos en el apartado 3.2, será más adecuada. Pero antes de considerar
la mediana, vamos a discutir varias fórmulas de cálculo para la media.
Obsérvese también que la media tiene otras propiedades matemáticas deseables, que se discuti-
rán cuándo se presente la ocasión.

3.1.1 Datos no agrupados caso no ponderado

Se trata de la fórmula básica (3.1) expresada anteriormente como definición de la media aritmé-
tica.

3.1.2 Caso ponderado de datos no agrupados

Supongamos que un estudiante ha realizado tres exámenes y ha obtenido calificaciones de 50,


80 y 70. El primer examen duró media hora, el segundo duró una hora y el tercero duró una hora y
media. Al hallar la nota media, este estudiante probablemente daría diferentes grados de importancia
a los tres exámenes. Si se le dejara solo, podría racionalizar de alguna manera que la primera y la
última prueba no tenían importancia y que sólo la prueba del medio tenía importancia.
Sin embargo, otro alumno con calificaciones de 90, 50 y 70 puede argumentar que sólo la primera
prueba era importante y las otras dos no lo eran.
Al decidir la importancia relativa de estas pruebas, debemos ser “razonables”. Por desgracia, lo
que es razonable para una persona puede no serlo para otra.
Sin embargo, en muchos casos prácticos, es posible decidir la importancia relativa de los hechos
(los resultados de la prueba) de forma que sea aceptable para la mayoría de las personas. En el ca-
so que nos ocupa, supongamos que el instructor decide que la importancia relativa de las pruebas
estará en función de la duración de las mismas, es decir, 1 : 2 : 3. Entonces la media ponderada se
encuentra como se muestra en el Cuadro 3.1.
Utilizando símbolos. podemos definir la media aritmética ponderada como
P
x1 w 1 + x2 w 2 + x3 w 3 xi w i
µ= = P (3.2)
w1 + w2 + w3 wi

donde x1 = 50, x2 = 80, x3 = 70, y las ponderaciones son w1 = 1, w2 = 2, y w3 = 3.


Se pueden encontrar ejemplos de usos de pesos en el cálculo de promedios en varios números de
índice. Los números de índice se estudian en el capítulo 11, pero por el momento vamos a dar sólo
algunos ejemplos reales de pesos sin calcular los números de índice.
34 Medidas de Posición

(1) (2) (3)


Calificación Ponderación (1) × (2)
50 1 050
80 2 160
70 3 210
– 6 420
420
Media ponderada = = 70 puntos.
6
Cuadro 3.1: Cuadro Media Ponderada de Tres Pruebas

Ejemplo No. 3

Índice de precios de materias primas Dow-Jones. Las ponderaciones de las materias pri-
mas basadas en el valor proporcional, 1927-1931, donde
Trigo 19.5
Maíz 8
Avena 5
Centeno 4
Tapas de lana 5.5
Algodón 23.0
Aceite de algodón 4.5
Café 7
Azúcar 8.5
Cacao 5
Caucho 6
Cueros 4
100.0

Las ponderaciones del cuadro se expresan en términos porcentuales. El índice de precios es una
media aritmética ponderada, con ciertos ajustes.

Ejemplo No. 4

Índice de precios al consumo, importancia relativa de los grandes grupos


Grupos 1947 - 1949 1950 Enero 1952 Diciembre
Alimentos 42,7 33,3 29,9
Ropa 12,6 12,8 9,4
Vivienda 26,9 25,1 32,2
Transporte 7,1 11,4 11,3
Atención médica 3,3 5,2 4,8
Cuidado personal 2,5 2,4 2,1
Lectura y ocio 2,8 5,8 5,3
Otros bienes y servicios 2,1 4,0 5,0

Estas son las ponderaciones utilizadas para calcular el índice de precios al consumidor (o índice
del coste de la vida), y se expresan en términos porcentuales. El índice de precios al consumo es
3.1. La media aritmética 35

una media aritmética ponderada, con ciertos ajustes. Como muestra la tabla, las ponderaciones se
han revisado cada varios años para reflejar los cambios en el patrón de gasto del consumidor. La
disminución de la importancia de los alimentos como gasto en el presupuesto del consumidor y el
aumento de la importancia de los gastos en diversos servicios es una característica destacada de estas
ponderaciones, que se expresan en términos porcentuales.
Construyamos un ejemplo artificial y demostremos que es indiferente que las ponderaciones se
expresen en términos porcentuales, proporcionales o de otra forma. Supongamos que se realizan
tres pruebas, con los resultados que se muestran en la tabla siguiente.

(1) (2) (3) (4) (5)


Calificaciones Ponderación Ponderación Ponderación (1) × (3)
Proporcional Porcentual
50 10 0.20 20 10
80 15 0.30 30 24
70 25 0.50 50 35
50 1.00 100 69

La nota media ponderada es, utilizando las ponderaciones proporcionales de la columna

69
µ= = 69 puntos
1

Dividimos por 1 porque la suma de los pesos es 1.


Si utilizamos la columna 4 como ponderación, tenemos

6900
µ= = 69 puntos
100

Si utilizamos la columna 2, tenemos 3450 = 69 puntos


Cuando se utilizan ponderaciones proporcionales, la suma de las ponderaciones es la unidad, y
esto elimina la necesidad de dividir por la suma de las ponderaciones. En nuestros debates poste-
riores utilizaremos principalmente este tipo de procedimiento de ponderación.

3.1.3 Caso de datos agrupados

Cuándo los datos se dan en forma de tabla de frecuencias, los valores individuales de la varia-
ble son desconocidos y, por tanto, no podemos utilizar las fórmulas anteriores para la media. Sin
embargo, haciendo una suposición, que se discute más adelante, podemos calcular la media de una
distribución, que en la mayoría de los casos es una buena aproximación a la verdadera media. A
continuación se presenta un ejemplo.
Sea X la variable peso con una distribución de frecuencias como la que se muestra en el Cua-
dro 3.2. Suponemos que el punto medio del intervalo de clases representa adecuadamente el valor
medio de esa clase. Por ejemplo, si los tres valores reales de la clase 30 - 40 lb. son 32, 33 y 37, la
media verdadera es (32 + 33 + 37)/3 = 34 lb. La suposición es que el punto medio 35 es una buena
aproximación de la media verdadera 34 lb. de esa clase.
36 Medidas de Posición

Valores Media
Libras f xi f · xi reales real f × Media
30 - 40 3 35 105 32, 33, 37 34 102
40 - 50 2 45 90 44, 48 46 92
5 195 194 194

Cuadro 3.2: Cuadro Media Ponderada de Tres Pruebas

Usando esta suposición, podemos asumir además que 3 × 35 = 105 es una buena aproximación
de la suma de los valores de esa clase. Vemos que la verdadera suma es 32 + 33 + 37 = 102 lb. y
que hay una discrepancia de 105 − 102 = 3 lb.
Aplicando este razonamiento a cada clase, podemos encontrar una buena aproximación de la
suma de los valores de cada clase si multiplicamos el punto medio por la frecuencia de cada clase.
En nuestro ejemplo tenemos 105 y 90.
Entonces, sumando estos resultados, obtenemos una buena aproximación de la suma de todos
los valores de X. Tenemos 105 + 90 = 195. Como se muestra en el Cuadro 3.2, el verdadero total
es 194.
La media de X se obtiene entonces dividiendo este total por el número total de frecuencias.
Tenemos
195
= 39 lb
9

La media verdadera es
195
= 38.8 lb
9

La suposición de que el punto medio del intervalo de clase representa adecuadamente el valor
medio de ese intervalo de clase se basa, a su vez, en la suposición de que los valores se distribuyen de
forma bastante uniforme a lo largo del intervalo. Cuando hay un gran número de frecuencias, esta
suposición suele ser aceptable.
Convirtamos ahora nuestra discusión en una fórmula. Los puntos medios son m1 = 35 y m2 =
45. Las frecuencias son f1 = 3 y f2 = 2. Por tanto, la media de X es

m1 f 1 + m2 f 2 35 × 3 + 45 × 2
µ= =
f1 + f2 3+2
195
= = 39 lb
9

Utilizando la notación de suma, esto se convierte en

X
2
mi fi
i=1
µ=
X2
fi
i=1
3.1. La media aritmética 37

En general, cuando tenemos n intervalos de clase


X
n
mi fi
i=1
µ= (3.3)
Xn
fi
i=1

Entonces la media de las calificaciones de las 50 clases del Cuadro 2.3 es


P
mi f i 3255
µ= P = = 65.1 puntos
fi 50
donde i = 1, 2, . . . , 7, es decir, es el número de intervalos de clase. La hoja de trabajo para este cálculo
se muestra en el Cuadro 3.3. La media real, como se indicó anteriormente, es de 65.2 puntos.

Clase f m fm
30-39 puntos 4 34,5 138,0
40-49 6 44,5 267,0
50-59 8 54,5 436,0
60-69 12 64,5 774,0
70-79 9 74,5 670,5
80-89 7 84,5 591,5
90-99 4 94,5 378,0
50 3255,0

Cuadro 3.3: Hoja de trabajo

3.1.4 Método abreviado de cálculo

Los cálculos pueden simplificarse desplazando el origen. Expliquemos esto con un ejemplo de
datos no agrupados. Consideremos tres números, 1, 2 y 3. La media es x = 2. Llamemos A = 5 a
la media supuesta, y restemos y sumemos ésta a cada número:

1 − 5 + 5, 2 − 5 + 5, 3−5+5

Entonces, obviamente, la media sigue siendo 2. Es decir,


(1 − 5 + 5) + (2 − 5 + 5) + (3 − 5 + 5)
µ=
3
(5 + 5 + 5) + (1 − 5) + (2 − 5) + (3 − 5)
=
3
(1 − 5) + (2 − 5) + (3 − 5)
=5+
3
= 5 + (2 − 5) = 2

Esto puede reescribirse en símbolos como


(A + A + A) + (x1 − A) + (x2 − A) + (x3 − A)
µ=
3P
d′1 + d′2 + d3′ d′i
=A+ =A+
N N
38 Medidas de Posición

donde d′i es la diferencia entre los valores individuales xi y la media supuesta A. El resultado puede
expresarse como una fórmula: P ′
di
µ=A+ (3.4)
N

Aplica esto al siguiente ejemplo y encuentra la media de 1561, 1562 y 1563. Sea A = 1560;
entonces
d′1 = x1 − A = 1561 − 1560 = 1
d′2 = x2 − A = 1562 − 1560 = 2
d′3 = x3 − A = 1563 − 1560 = 3

Entonces µ, es P
d′i 1+2+3
µ=A+ = 1560 + = 1562
N 3
Al aplicar esta propiedad a los datos agrupados, la fórmula 3.3 se convierte en
X
n
fi di
µ = A + i=1
X ×c (3.5)
fi

donde A es la media supuesta; di se llama la desviación de clase (y es diferente de d′i ); y c es


el intervalo de clase. Como esta fórmula se deriva de la fórmula (3.3), la respuesta obtenida por
cualquiera de los dos métodos es la misma.
Ilustremos su uso con un ejemplo. Considere de nuevo la distribución de frecuencias de las
calificaciones de los alumnos, como se muestra en el Cuadro3.4.

Clase f m d fd
30-39 puntos 4 -3 -12
40-49 6 -2 -12
50-59 8 -1 -8
60-69 12 64,5 0 0
70-79 9 1 9
80-89 7 2 14
90-99 4 3 12
50 3

Cuadro 3.4: Hoja de trabajo

Se selecciona uno de los puntos medios y se designa como la media supuesta A. Seleccionemos
64,5 puntos. Se puede seleccionar cualquier punto medio para A, pero será conveniente seleccionar
el punto medio en el que los cálculos sean menos engorrosos. Este punto suele estar cerca de la mitad
de la distribución, de modo que los +f d y los −f d, cuando se sumen, se cancelarán aproximada-
mente, como en la hoja de cálculo del Cuadro 3.4 (donde tenemos +35 y −32). La desviación de
clase di es el número de desviaciones de clase respecto a la media supuesta A. Como di se establece
igual a 0 en A, tomamos las desviaciones de clase menos hacia arriba en la dirección en que los
puntos de calificación son más bajos y las desviaciones más hacia abajo en la dirección en que los
puntos de calificación son más altos. Por ejemplo, el intervalo de clase 30 - 39 está a −3 desviaciones
de clase de A.
3.2. La mediana 39

Por lo tanto, después de elaborar la hoja de cálculo, encontramos


P
fi di 3
µ=A+ P × c = 64.5 + × 10 = 64.5 + 0.6 = 65.1
fi 50

que es la misma respuesta que se obtiene de la fórmula (3.4). Al seleccionar una A diferente y
volver a calcular. Se debe obtener la misma respuesta.
La fórmula (3.5) se obtiene mediante la siguiente ilustración sencilla. La media según la fórmula
(3.3) es

f1 m1 + f2 m2 + f3 m3
µ=
f1 + f2 + f3

Clase f m d
10 - 20 f1 m1 d1 m1 = A + d 1 c
20 - 30 f2 m2 d2 m2 = A
30 - 40 f3 m3 d3 m3 = A + d 3 c

Sea c el intervalo de la clase, es decir, c = 10. Seleccione el punto medio m2 = 25 como la media
supuesta A. Entonces m1 = 15 puede mostrarse como

m1 = A + d1 c = 25 + (−1)(10) = 15

donde d1 = −1. El m3 = 35 es

m3 = A + d3 c = 25 + (1)(10) = 35

Si hacemos que d2 = 0, entonces m2 = A. En general

m1 f1 + m2 f2 + m3 f3
µ=
f1 + f2 + f3
f1 (A + d1 c) + f2 (A + d2 c) + f3 (A + d3 c)
=
f1 + f2 + f3
A(f1 + f2 + f3 ) + (f1 d1 + f2 d2 + f3 d3 )c
=
f1 + f2 + f3
P
fi di
=A+ P ×c
fi

3.2 La mediana

Supongamos que estamos interesados en describir los ingresos de los graduados de la Univer-
sidad K, cinco años después de su graduación. Sea X la variable ingreso. Supongamos además que
la distribución de frecuencias de los ingresos muestra que la mayoría de los graduados tienen unos
ingresos en torno a los 7 000 dólares, pero que hay unos pocos que tienen ingresos superiores a los
40 Medidas de Posición

50 000 dólares. Es decir, la distribución está sesgada hacia la derecha. Se sabe que la Universidad
K siempre tiene un número de estudiantes cuyos padres son propietarios de grandes empresas, por
lo que al graduarse se convierten inmediatamente en ejecutivos y reciben grandes salarios. En es-
tas circunstancias, ¿es la media una medida de localización central adecuada para representar esta
distribución de frecuencias? Una característica principal de la media es que se ve afectada por todos
los valores. En particular, se ve afectada por los valores extremos. Supongamos cuatro graduados de
una escuela con los siguientes ingresos:

6 000 dólares, 6 000 dólares, 6 000 dólares, 42 000 dólares

La media es

1
µ= (6 000 + 6 000 + 6 000 + 42 000) = 15 000 dólares
4

La media de los tres primeros ingresos es de 6 000 dólares, pero con la inclusión del ingreso
extremadamente alto de 42 000 dólares, la media se convierte en 15 000 dólares. Pero, como se ve,
esta media de 15 000 dólares no caracteriza adecuadamente la distribución de frecuencias de los
ingresos.
En estos casos en los que la distribución de frecuencias está sesgada y tiene valores extremos,
una medida de localización central llamada mediana es en muchos casos más adecuada. Primero
definamos este parámetro.
La mediana de una distribución de frecuencias es un valor que divide la distribución de frecuen-
cias en dos partes iguales. Ilustremos primero con una distribución teórica. Las Figuras 3.4(a) y (b)
muestran una curva de frecuencia continua y su correspondiente curva de frecuencia acumulada.
La mediana es un valor que divide el área de la curva de frecuencias [Figura 3.4(a)] en dos partes
iguales. En el gráfico de la curva de frecuencias acumuladas, un valor de X que corresponde al punto
1
en el que la curva tiene la altura , es una mediana. Gráficamente, se encuentra en la intersección de
2
1
la línea horizontal de altura (es decir, el 50%) con la curva de frecuencias acumuladas. El alumno
2
habrá notado que hemos dicho una mediana en lugar de la mediana. La distinción se produce cuando
hay situaciones en las que la mediana es indeterminada. Supongamos que tenemos las siguientes
cuatro entradas (Figura 3.5):

$5, $6, $7, $8

Como muestra el gráfico acumulativo, cada valor entre 6.00 y 7.00 dólares es una mediana.
En estos casos, se toma como mediana el valor medio (6 + 7)/2 = 6.5 dólares. Esto es sólo una
convención que se suele adoptar. Como ya se ha mencionado, la mediana puede ser indeterminada,
por lo que la aplicación de la definición anterior debe realizarse con precaución.
Hay que tener en cuenta otros puntos. Supongamos que tenemos cinco personas con los siguien-
tes ingresos (Figura 3.6):
$2, $3, $4, $5, $6
3.2. La mediana 41

(a)

(b)
Figura 3.4: Posición de la mediana en una distribución

En este grupo, la mediana es de 4,00 dólares. Aunque una persona no puede dividirse por la
mitad, podemos pensar que la mitad de la persona con 4,00 dólares pertenece a la mitad inferior de
la distribución, y la otra mitad a la mitad superior.
Supongamos que tenemos siete personas con ingresos (Figura 3.7):

$3, $4, $5, $5, $5, $6, $7

Como muestra el gráfico, la mediana es de $5. Pero son los segundos 5 dólares (subrayados) los
que dividen la distribución en dos partes iguales. Podemos pensar que la mitad de esta persona con
los segundos 5 dólares pertenece a la mitad inferior de la distribución, mientras que la otra mitad
pertenece a la mitad superior de la distribución.
Para los datos agrupados, utilizamos la interpolación lineal.
Por ejemplo, si utilizamos nuestra anterior distribución de frecuencias de las notas, sabemos (ya
que tenemos 50 estudiantes) que el valor mediano de la variable X (calificaciones) estará entre el
25º y el 26º estudiante. Será el 25.5º alumno.
42 Medidas de Posición

Figura 3.5: Gráfico acumulativo

Clase f
30-39 4
40-49 6
50-59 8
60-69 12
70-79 9
80-89 7
90-99 4
50

Cuadro 3.5: Distribución de frecuencias

19 20 21 22 23 24 25 26 27 28 29 30
1 2 3 4 5 6 7 8 9 10 11 12

59.5 65.33 69.5


7 estudiantes 5 estudiantes

Para encontrar el 25.5º alumno, primero tenemos que encontrar en qué clase estarán los alumnos
25 y 26. Como hay 18 alumnos hasta la clase 50 - 59 inclusive y 30 alumnos hasta la clase 60 - 69
inclusive, los alumnos 25 y 26 están en la clase 60 - 69. Sin embargo, a efectos de interpolación,
utilizamos el 25º alumno. (Es decir, como hay 18 alumnos hasta la clase 60 - 69, pero sin incluirla, el
25º alumno será el 7º (25 − 18 = 7) de la clase 60 - 69. Si suponemos que las notas de los alumnos
se distribuyen uniformemente en esta clase, entonces (ya que hay 12 alumnos en este intervalo de
7
clase) la nota del 25.5º alumno corresponderá a la nota que está a 12 del camino entre 59.5 y 69.5.
Como el intervalo de la clase es de 10 puntos, tenemos
3.2. La mediana 43

Figura 3.6: Gráfico acumulativo

Figura 3.7: Gráfico acumulativo

7
59.5 + 10 · = 65.33
12

Así, 65.33 puntos se considera la mediana de las calificaciones.


Se pueden encontrar ejemplos del uso de la mediana en las estadísticas de ingresos. Veamos una
ilustración. La tabla 3.4 muestra la media y la mediana de los ingresos de las unidades de gasto por
grupos profesionales. Como muestra la tabla, la renta media es superior a la mediana. Podemos in-
terpretar que esto implica que hay ingresos extremadamente altos que tiran de la media hacia arriba.
44 Medidas de Posición

Es decir, que la distribución de los ingresos está sesgada hacia la derecha. Una comprobación visual
muestra que la discrepancia entre la media y la mediana de los ingresos de las unidades de gasto
de dirección es mayor que la de las unidades de gasto de oficina y ventas. Esto puede interpretarse
como que la distribución de los ingresos de los directivos está más sesgada hacia la derecha que la
de los empleados y vendedores. Es decir, que los salarios de los directivos son muy elevados y hacen
subir los ingresos medios de los directivos.

1950 1955 1958


Ingreso Medio
Todas las unidades de gasto $3520 $4650 $5150
Directivos 6580 8280 9170
Empleados - Comerciales 3910 4980 5600

Mediana del Ingreso


Todas las unidades de gasto $3000 $3960 $4400
Directivos 4950 6760 7690
Empleados - Comerciales 3200 4300 5010
Fuente: Statistical Abstract of the U.S., U.S. Department of Commerce, 1961, pp. 323, Tabla nº 441.

Cuadro 3.6: Distribución de frecuencias

3.3 La moda

Una tercera medida de localización de una distribución de frecuencias es la moda de una distri-
bución. La moda de una distribución es cualquier valor en el que la densidad de frecuencias alcanza
un máximo. O podemos decir que es cualquier valor de la variable que ocurre con mayor frecuencia.

(a) (b)
Figura 3.8: Distribución Unimodal y Bimodal

La definición implica que si la curva de frecuencias tiene un pico (es decir, un máximo) como en
la Figura 3.8(a), sólo hay una moda, mientras que si la curva de frecuencias tiene dos (o más) picos
(es decir, dos o más máximos) como en la Figura 3.8(b), la distribución tiene dos (o más) modas.
En cambio, si tenemos una distribución rectangular, no hay moda. Para ilustrar esto, supongamos
que un estudiante hizo cinco exámenes de economía durante el semestre, con los resultados:

60, 75, 75, 80, 90

Entonces la moda es 75 puntos, que se da dos veces, mientras que los otros valores sólo se dan
una vez. Si los resultados de las pruebas son
3.3. La moda 45

60, 74, 82, 85, 90

no hay moda.
En el caso de los datos agrupados, hay varias formas de calcular la moda. Pero, a efectos prácticos,
suele ser suficiente utilizar el punto medio de la clase modal. Utilicemos la distribución de los puntos
de las calificaciones para ilustrarlo. En el Cuadro 3.7(a) vemos que el intervalo de clases 60 - 69 es el
que tiene más frecuencias. Esta clase se denomina clase modal. En algunos casos, bastará con decir
que la moda está entre 60 y 69. Pero puede haber ocasiones en las que tengamos que decidir qué valor
entre 60 y 69 tomaremos como moda. Para la mayoría de los casos prácticos, bastará con tomar el
punto medio, que es 64.5.

(a) (b)
Clase f Clase f
30 - 39 4 30 - 39 2
40 - 49 6 40 - 49 10
50 - 59 8 50 - 59 6
60 - 69 12 60 - 69 12
70 - 79 9 70 - 79 9
80 - 89 7 80 - 89 7
90 - 99 4 90 - 99 4
50 50

Cuadro 3.7

En el Cuadro 3.7 hay dos clases modales, 40 - 49 y 60 - 69.


Al tratar con datos agrupados, la moda se ve afectada por la forma en que se toman los intervalos
de clase. Cuando los intervalos de clase son muy pequeños, la moda puede desaparecer. Cuando los
intervalos de clase son desiguales, como en el Cuadro 2.4 de la distribución del ingreso, es necesa-
rio analizar por intervalos; es decir, tenemos que encontrar las densidades de frecuencia antes de
determinar la moda.
Las características de una moda son que es fácil de calcular y puede aplicarse a datos cualitativos
y cuantitativos. Por ejemplo, se pueden investigar las preferencias de los consumidores de cinco
marcas de jabón, A, B, C, D y E. Sean las preferencias

A = 20
B = 30
C = 25
D = 50
E = 40

En este caso, la preferencia modal es el jabón D. Obsérvese que las anteriores preferencias no
muestran dos modos; es decir, B no es un segundo modo. Esto se debe a que podemos reordenar la
secuencia de jabones en el orden que queramos.
Como otro ejemplo de la aplicación de la moda, supongamos que una tienda desea almacenar
camisas de hombre. Una investigación muestra que la talla 16 es la más demandada. Este es el valor
modal de la distribución de las tallas de camisas.
46 Medidas de Posición

Como otro ejemplo, consideremos el número de pasajeros que utilizan el metro en una determi-
nada ciudad. Sea la variable X la hora del día y f el número de pasajeros. Una investigación puede
mostrar que hay dos modas, uno por la mañana alrededor de las 8:30 y otro por la tarde alrededor
de las 17:30. Tenemos una distribución bimodal.
La media y la mediana interesaban para localizar la distribución. Es decir, el interés estaba en
caracterizar la distribución. La moda, como muestran los ejemplos anteriores, suele interesar por sí
misma. Nos interesa el valor más típico, o el más frecuente, de una distribución.

3.4 La relación entre la media, la mediana y la moda

Cuando tenemos una distribución de frecuencias unimodal la relación entre media, mediana y
moda se muestra en la Figura 3.9.
Cuando una distribución es simétrica, la media, la mediana y la moda coinciden. Cuando una
distribución está sesgada hacia la derecha, entonces [Figura 3.9(b)]

media (68 puntos) > mediana (65) > moda (63)

Por ejemplo, la distribución de los ingresos suele estar sesgada hacia la derecha, donde la mayoría
de las familias tienen ingresos entre 4 000 y 8 000 dólares, y luego el número de familias disminuye
a medida que aumentan los ingresos. En este caso, la media se ve arrastrada hacia arriba por los
ingresos extremadamente altos y la relación entre las tres medidas es la indicada anteriormente.

(a) Distribución Simétrica

(b) Distribución sesgada a la derecha (c) Distribución sesgada a la izquierda


Figura 3.9: Distribuciones simétricas y asimétricas

(a) Distribución simétrica


(b) Distribución sesgada a la derecha (c) Distribución sesgada a la izquierda
3.5. La media geométrica 47

Cuando una distribución está sesgada hacia la izquierda, entonces [Figura3.9(c)]

modo (69) > mediana (66) > media (64)

Un ejemplo son las notas de una clase en la que la mayoría tiene notas altas con unas pocas
notas bajas. En este caso, la media se sitúa por debajo de la mediana debido a las calificaciones
extremadamente bajas.
Obsérvese que la mediana está siempre en el centro. Otra forma de recordar estas relaciones es
que la media, la mediana y la moda están en el orden en que aparecen en un diccionario cuando la
distribución está sesgada a la izquierda, y el orden se invierte cuando la distribución está sesgada a
la derecha.
A la inversa, cuando se dan la media y la mediana de una distribución unimodal, podemos
determinar si está sesgada a la izquierda o a la derecha. Cuando la media > la mediana, está sesgada
a la derecha; cuando la mediana > la media, está sesgada a la izquierda. Esta relación se ha utilizado
para explicar el Cuadro 3.5.

3.5 La media geométrica

Se han discutido tres medidas de localización, la media, la mediana y la moda. Con la media nos
referimos a la media aritmética. Sin embargo, hay otras dos medias que se utilizan ocasionalmente
en los negocios y la economía. Son la media geométrica y la media armónica. De estas dos, la media
geométrica es más importante y se utiliza para promediar tasas de cambio y construir números
índice. Sólo hablaremos de la media geométrica.

3.5.1 Definición

Definamos primero la media geométrica (MG) mediante un ejemplo sencillo, y luego explique-
mos su aplicación. Si tenemos tres números, 1, 3 y 9, la GM se define como
√ √
1·3·9=
3 3
GM = 27 = 3

En general, si tenemos n números, la media geométrica se define como


GM = n
x1 · x2 · x3 · . . . x n (3.6)

Para calcular la raíz enésima se pueden utilizar logaritmos. Por ejemplo, si tenemos tres números,
2, 4, 8, entonces


2·4·8
3
GM =

Aplicando logaritmos a ambos lados, encontramos


48 Medidas de Posición


2·4·8
3
log GM = log
1
= log(2 · 4 · 8) 3
1
= (log 2 + log 4 + log 8)
3
1
= (0.3010 + 0.6021 + 0.9031)
3
1
= (1.8062)
3
log GM = 0.60206
GM = 100.60206
GM = 4

Por lo tanto,
GM = 4
La fórmula (3.6) puede escribirse en términos de logaritmos como

1X
log GM = log xi (3.7)
n

3.5.2 Aplicaciones: promediando las tasas de cambio y la fórmula del interés


compuesto

Supongamos que la tasa de producción ha aumentado un 25 por ciento del primer año al segun-
do, y un 40 por ciento del segundo al tercer año, de la siguiente manera
1er año, 100 2do año, 125 25 por ciento de cambio (aumento) 3er año, 175 40 por ciento de
cambio (aumento)
¿Cuál es la tasa media de aumento durante estos dos años? Vemos que el segundo año es el 125
por ciento del primer año y el tercer año es el 140 por ciento del segundo año. Así pues,


GM = 1.25 · 1.40 = 1.323

o la tasa media de aumento es del 32.3%.


Si elevamos al cuadrado ambos lados de la ecuación anterior, se convierte en

√ 2
1.25 · 1.40 = (1.323)2
1.25 · 1.40 = (1 + 0.323)2
1.75 = (1 + 0.323)2

Sea P2 = 1.75, P0 = 1, y r = 0.323. Entonces la ecuación anterior puede escribirse como

P2 = P0 (1 + r)2
3.5. La media geométrica 49

que es la conocida fórmula del interés compuesto.


Hemos demostrado que la tasa de cambio media r hallada por la media geométrica es la tasa de
interés en la fórmula del interés compuesto.
Este resultado puede expresarse en términos generales de la siguiente manera: Si una inversión
inicial de P0 (dólares) se convierte en Pn (dólares) después de n años, la media geométrica r de las
tasas de incremento de los n años se encuentra resolviendo

Pn = P0 (1 + r)2 (3.8)

Sea Pn = 175 dólares, P0 = 100 dólares y n = 2 años. Entonces

175 = 100(1 + r)2


175
(1 + r)2 =
100
r
175
r= −1
100

q
175
donde 100 se calcula por logaritmos. Encontramos

r = 1.323 − 1 = 0.323

Así pues, r = 0.323, o el 32.3 por ciento, es la media geométrica de las tasas de incremento de
los n = 2 años. En términos de la fórmula del interés compuesto, r = 32.3 por ciento es la tasa de
interés a la que se compone P0 = 100 dólares en n = 2 años.
En general, podemos escribir

r
Pn
r= n
−1 (3.9)
P0
50 Medidas de Posición

Ejemplo No. 5
El PIB ha pasado de 500.000 millones de euros en 1960 a 900.000 millones en 1970.
¿Cuál es la tasa media de crecimiento? Utilizando las fórmulas (3.8) y (3.9), tenemos

900 = 500(1 + r)10


r
10 900
r= −1
500
Sea r r
10 900 10 9
x =
500 5

1 9 1
log x = log = (log 9 − log 5)
10 5 10
1
= (0.95424 − 0.69897)
10
1
= (0.25527)
10
log x = 0.025527
x = 1.0606

Por lo tanto,
x = 1.0606
Así, r se convierte en
r = 1.0606 − 1 = 0.0606
Es decir, la tasa media de crecimiento es del 6.06% anual.

3.5.3 Descuento, capitalización

A partir de la fórmula del interés compuesto (3.8), tenemos

Pn
P0 = (3.10)
(1 + r)n

Esto puede interpretarse como sigue: Si el ingreso futuro es de Pn dólares, y la tasa de interés
actual es del 100r por ciento, entonces el valor actual de los Pn dólares será de P0 dólares, como lo
da la fórmula anterior. Por ejemplo, si tenemos una máquina que tiene una vida útil de 25 años y
se espera que produzca un ingreso neto de 100 dólares al año, y al final de los 25 años la máquina
pierde su valor, entonces la máquina vale (es decir, su valor actual es)

100 100 100 100


+ 2
+ 3
+ ··· +
1 + r (1 + r) (1 + r) (1 + r)25

Este proceso de obtención del valor actual de los ingresos futuros mediante el uso del tipo de
interés se denomina descuento.
Supongamos ahora que tenemos un terreno que nos dará un ingreso neto de 100 dólares al año
para siempre. Entonces el valor actual de este terreno es
3.5. La media geométrica 51

100 100 100 100


+ 2
+ 3
+ ··· + + ...
1 + r (1 + r) (1 + r) (1 + r)n

Se puede demostrar, mediante el uso de las matemáticas propias de las series, que como
1
<1
(1 + r)n
esto se resume en   ∞ 
 1 

1 − 1 + r 

$100 · −1

 1 

 1− 
1+r
h i
donde n → ∞, y, por tanto, 1
(1+r)n se aproxima a cero. Así pues, tenemos
 

 

1 1 100
$100 · −1 = 100 · =

1 − 1 
 r r
1+r

Si el tipo de interés vigente es del 4%, el terreno vale

$100
= $2 500
0.04

Estos 2500 dólares se denominan valor del capital del terreno. En general, el valor del capital es
y
V = (3.11)
r
donde V es el valor del capital, r es el tipo de interés y y es el ingreso anual.
Lo anterior era una situación hipotética en la que suponíamos que el flujo de ingresos futuros
continuaba para siempre.
h Peroiincluso si continuara sólo durante un largo número deyaños, es decir, si
1
n es grande, entonces (1+r) n será cercano a cero, y la idea de capitalización V = , será aplicable.
r
CAPÍTULO 4
Medidas de Dispersión

Después de estudiar las calificaciones de un grupo de 50 alumnos, se organizaron en una dis-


tribución de frecuencias que nos proporcionó una imagen más ordenada de las características de la
variable X (calificaciones). A continuación, se calculó la media de la variable X, que localizaba la
distribución, y la distribución de frecuencias quedó representada por este único valor.
Sin embargo, podía ocurrir que todas las calificaciones fueran prácticamente iguales, o que al-
gunas fueran muy bajas y otras muy altas. En el primer caso, la variación de la variable X (califica-
ciones) sería pequeña, y en el segundo, la variación sería grande. Nos gustaría encontrar una medida
para esta variación de X, que se llama dispersión en estadística.
Cuando se conoce la variación de X, además de la media aritmética, la descripción de la dis-
tribución de las notas mejorará mucho. A la pregunta “¿qué tal les fue a los estudiantes?”, debemos
responder dando la media aritmética y la dispersión de X. En este capítulo se consideran tres me-
didas de dispersión: el rango, la desviación media y la desviación estándar. El rango, la desviación
media y la desviación estándar son parámetros de la distribución de frecuencias que caracterizan la
variación de la distribución.

4.1 El Rango

La medida más sencilla de la dispersión es el rango. Es la diferencia entre el valor máximo y el


valor mínimo de los datos. Supongamos que hay dos clases de alumnos, A y B. Ambas clases tienen
una media de 70 puntos. Por la información que nos da la media, parece que no hay gran diferencia
entre las clases.
Pero si se nos da la información adicional de que las notas más altas y más bajas en la clase A son
99 y 25, mientras que en la clase B son 73 y 66, podemos ver inmediatamente que aunque ambas
clases tienen la misma media de 70 puntos, hay una gran diferencia en la variabilidad de las notas.
El rango en la clase A es de 99 − 25 = 74 puntos, mientras que en la B es de 73 − 66 = 7 puntos.
Esta observación supone que en la clase A el resto de las calificaciones están dispersas entre 99
y 25 puntos. Pero podría ser que sólo hubiera una nota de 99 y otra de 25 y que las demás notas
estuvieran entre 69 y 74 puntos. El rango no nos da esta información porque se basa únicamente en
los dos valores extremos.

53
54 Medidas de Dispersión

4.2 Desviaciones Medias

Otra medida de dispersión que incluye la variabilidad de todos los ítems es la desviación media.
Es la media de las desviaciones de algún valor central, como la media o la mediana de una distribu-
ción. Cuando se utiliza la media como valor central, tenemos la desviación media desde (o sobre)
la media, y cuando se utiliza la mediana, tenemos la desviación media desde (o sobre) la mediana.
Otros puntos, como la moda, pueden utilizarse como valor central, pero en la mayoría de los casos,
el término desviación media se utiliza para indicar la desviación media de la media. A partir de este
momento al hablar de la Desviación Media nos referiremos a la media o promedio.
Expliquemos este concepto con un ejemplo.
Supongamos que tenemos alumnos con calificaciones

50, 55, 60, 70, 75, 80

Para medir la dispersión de estas calificaciones, se selecciona la media, a partir de la cual se mide
la variabilidad de las calificaciones y se obtiene la variabilidad media. Las desviaciones de la media
pasan a ser, ya que la media es 65

−15, −10, 5, 10, 15

Esto se muestra gráficamente en la Figura 4.1.

−15 −10 −5 5 10 15
50 55 60 65 70 75 80
Media

Figura 4.1: Desviación Media de una serie

Los signos menos indican que la dirección de las desviaciones es hacia la izquierda. Pero co-
mo lo que nos interesa es la cantidad de variabilidad, es decir, la distancia de las desviaciones, los
signos menos no se tienen en cuenta al hallar la variabilidad media. (Obsérvese que la suma de las
desviaciones con signo de la media es siempre cero.) Así tenemos

15 + 10 + 5 + 5 + 10 + 15 60
= = 10
6 6

Es decir, la desviación media es de 10 puntos, y es la media de las distancias (ignorando las


direcciones) de las desviaciones respecto a la media. Esta medida de dispersión tiene en cuenta todos
los elementos de la distribución de frecuencias y es relativamente sencilla de calcular. En general,
cuando hay N observaciones, la desviación media viene dada por

PN
i=1 |xi − µ|
DM = (4.1)
N

donde las dos líneas verticales que la encierran X −µ significan que se ignoran los signos menos.
(Esto es calcular el valor absoluto de las desviaciones.)
4.3. La Desviación Típica 55

En lugar de la media µ, se puede utilizar la mediana (Me ). Entonces la medida de dispersión se


convierte en

PN
i=1 |xi − Me |
DMmediana = (4.2)
N

Afirmamos sin pruebas que esta desviación es siempre menor o igual que la desviación media.
Sólo se ha considerado el caso de los datos no agrupados. También existen fórmulas para datos
agrupados, pero esta desviación media se utiliza muy raramente. Se ha tratado aquí para llegar a la
desviación típica (o estándar), que se considera a continuación.

4.3 La Desviación Típica

La tercera medida de dispersión a considerar es la desviación típica. Es similar a la desviación


media en el sentido de que las desviaciones se miden a partir de la media. La razón por la que se
prefiere la desviación estándar a la desviación media o al rango es que tiene propiedades matemáticas
deseables. Algunas de estas propiedades se explicarán más adelante.
Primero redefiniremos el término desviación de forma más precisa, luego definiremos el con-
cepto de varianza y, por último, definiremos la desviación típica o estándar.

4.3.1 Desviación

La diferencia entre un valor individual x, y la media µ se denomina desviación de xi respecto a


ella. Es decir

e = desviación = xi − µ (4.3)

Se acostumbra a restar el µ de xi ; es decir, xi − µ, y no al revés (no µ − xi ). Por ejemplo, si la


nota media sea µ = 70 puntos y que una nota individual sea x = 60 puntos; entonces la desviación
es e = 60 − 70 = −10 puntos. A medida que se desarrolle nuestra discusión sobre estadística, el
estudiante se dará cuenta de que una gran parte de nuestro esfuerzo se dedicará al análisis de las
desviaciones.

4.3.2 Varianza

Consideremos el ejemplo de seis notas que aparece en el Cuadro 4.1. La segunda columna mues-
tra la desviación xi − µ. La tercera columna es el cuadrado de las desviaciones; es decir, (xi − µ)2 .
La suma de estas desviaciones al cuadrado es

X
6 X
6
2
e = (xi − µ)2 = 700
i=1 i=1

La media aritmética de las desviaciones al cuadrado es


56 Medidas de Dispersión

X X −µ =e (X − µ)2
50 50 − 65 = −15 225
55 55 − 65 = −10 100
60 60 − 65 = −5 25
70 70 − 65 =5 25
75 75 − 65 = 10 100
80 80 − 65 = 15 225
Suma 390 0 700
Media 65 116.5

Cuadro 4.1: Cuadro de contingencia

P
(xi − µ)2 700
= = 116.5
N 6

Esta media (o promedio) de las desviaciones al cuadrado (xi −µ)2 se llama varianza y se expresa
en forma de fórmula como sigue:
PN
i=1 (xi − µ)2
Varianza de X = (4.4)
N

Los siguientes términos se utilizan indistintamente: la varianza de la distribución de X; la va-


rianza de la distribución; la varianza de X; y simplemente, la varianza. El contexto de la discusión
suele permitirnos decir simplemente “la varianza” sin causar ninguna confusión. Se abrevia simbó-
licamente como

P
(xi − µ)2
V ar(X) = (4.5)
N

La letra griega σ al cuadrado (es decir, σ 2 ) también se utiliza para denotar la varianza en las
fórmulas. Así,
V ar(X) = σ 2 (4.6)
La cantidad
X
N
(xi − µ)2 (4.7)
i=1

aparecerá una y otra vez en las discusiones posteriores. Se denomina suma de las desviaciones al
cuadrado.

4.3.3 La Desviación Típica

La varianza es una medida de la dispersión. Pero hay que tener en cuenta que las desviaciones se
han elevado al cuadrado. Esto significa que si se consideran las notas de los alumnos, la unidad de la
varianza es (puntos)2 . Para corregir esta insuficiencia y obtener una medida de dispersión para las
notas, que será en términos de “puntos”, se toma la raíz cuadrada de la varianza. La raíz cuadrada de
la varianza se llama desviación típica o estándar de la variable X.
4.3. La Desviación Típica 57

r
√ 700 √
Desviación estándar = varianza = = 116.7 = 10.8 puntos (4.8)
6

Por lo tanto, la desviación estándar o típica es 10.8 puntos. La desviación típica se indica con σ.
En símbolos, rP
(xi − µ)2
σ= (4.9)
N

En la estadística teórica la varianza es el parámetro que se utiliza principalmente, pero en la


estadística aplicada es la desviación estándar. Una vez que se hayan discutido las aplicaciones de la
desviación estándar en los capítulos 6 y 7, su significado quedará más claro. En la presente sección
vamos a concentrarnos en los procedimientos de cálculo.

4.3.4 Datos no agrupados

Nuestro objetivo es cambiar la fórmula (4.8) para que los procedimientos de cálculo sean más
sencillos y adecuados para el cálculo mecánico. El cambio se realiza de la siguiente manera: La fór-
mula (4.4) se convierte en

X X P
( xi ) 2
(xi − µ) = 2
x2i − (4.10)
N

Podemos ilustrar el uso de esta fórmula (4.9) con los datos de

X X2
50 2500
55 3025
60 3600
70 4900
75 5625
80 6400
390 26050

Cuadro 4.2: Cuadro de contingencia

Sustituyendo los resultados del Cuadro 4.2 en la fórmula (4.9), obtenemos


X X P
( xi ) 2
(xi − µ) =
2
xi −
2
N
(390)2
= 26 050 −
6
= 700

que es lo que se obtuvo en la Cuadro 4.1.


Combinando las fórmulas (4.7) y (4.8), obtenemos

P ∑
xi ) 2
σ(xi − µ)2 x2i − (
σ2 = = N
(4.11)
N N
58 Medidas de Dispersión

Esta es la fórmula computacional que buscamos para los datos no agrupados. En términos de
nuestro ejemplo, obtenemos
s
2 r
26 050 − (390)
6 700
σ= = = 10.7 puntos
6 6

Deducción de la Fórmula 4.10.


X X
(xi − µ)2 = (x2i − 2xi µ + µ2 )
X X
= x2i − 2µ xi + N µ 2
X
= x2i − 2N µ2 + nµ2
X
= x2i − N µ2

Además, como

P
xi
µ=
N
 P 2 P
2 xi ( xi ) 2
Nµ = N =
N N

Por lo tanto,

X X P
( xi ) 2
(xi − µ) =
2
x2i −
N

4.3.5 Desplazamiento del origen

El origen a partir del cual se miden las calificaciones es cero. (El origen a partir del cual se
miden las desviaciones es la media.) ¿Qué ocurre con la dispersión de una variable si se utiliza un
origen distinto de cero? La respuesta es: No habrá ningún cambio. Esto se puede explicar de forma
heurística como sigue: Supongamos que hay tres alumnos con notas 70, 80 y 90. Hay una diferencia
de 10 puntos entre las calificaciones sucesivas.
A continuación, reste un número arbitrario (por ejemplo, 50) a cada nota. Entonces las califica-
ciones medidas desde el origen 50 serán

70 − 50 = 20, 80 − 50 = 30, 90 − 50 = 40

A B C D E

0 50 70 80 90
0 20 30 40

Gráficamente, estamos midiendo la distancia de los puntos C, D y E desde B = 50 en lugar


de A = 0. Esto muestra que las diferencias entre las calificaciones sucesivas en términos del nuevo
4.3. La Desviación Típica 59

origen siguen siendo de 10 puntos. En general, la diferencia entre las calificaciones sucesivas (pun-
tos) siempre será de 10 puntos, independientemente del valor que se seleccione como origen. Es
decir, la dispersión entre las calificaciones es la misma (no varía) independientemente del origen.
En símbolos, esto se expresa de la siguiente manera:

V ar(X) = V ar(X + a) (4.12)

donde a es un número arbitrario.


Utilizando los datos del Cuadro 4.2, restemos 60 a cada X. Es decir, dejemos que a = −60 en
la fórmula (4.10). El resultado se muestra en el Cuadro 4.3.

X − 60 (X − 60)2
-10 100
-5 25
0 0
10 100
15 225
20 400
30 850

Cuadro 4.3: Cuadro de contingencia

Las notas −10, 5, 0, 10, 15, 20 se basan en el origen 60 en lugar de 0. La varianza de estos grados
es

P ∑
( (x−60))2
(x − 60)2 −
V ar(X − 60) = N
N
302
850 − 6
=
6
700
=
6

que es la misma que la varianza antes de desplazar el origen. Así,

V ar(X) = V ar(X − 60)

Obviamente, este procedimiento simplifica considerablemente los cálculos cuando los números
son grandes. Por ejemplo, la varianza de tres números 1001, 1002 y 1003 es la misma que la varianza
de 1, 2 y 3.

X X2
1001-1000 = 1 1
1002-1000 = 2 4
1003-1000 = 3 9
6 14

62
2 14 − 3 14 − 12 2
σ = = =
3 3 3
60 Medidas de Dispersión

Como comprobación adicional, resta 1002 en lugar de 1000, y encuentra la varianza. Comprueba
también que
V ar(X) = V ar(X − 50)

utilizando los datos del Cuadro 4.2. Observa que

V ar(x) = V ar(X − 60) = V ar(X − 50)

Demostración de la Fórmula 4.12


P P
(x + a) x + Na
= =µ+a
N N
Por tanto,
X
[(x + a) − (µ + a)]2
V ar(X + a) =
P N
(x − µ)2
=
N
= V ar(x)

4.3.6 Datos agrupados

Para una distribución de frecuencias en la que no se conocen los valores individuales, como
en el Cuadro 4.2, se utiliza una fórmula que da un valor aproximado de la desviación típica de la
distribución. Es la siguiente s
Pk
i=1 fi (mi − µ)
2
σ= (4.13)
N

donde mi es el punto medio de los intervalos de clase; µ es la media de Pla distribución; fi es la


frecuencia de cada clase; N es el número total de frecuencias (es decir, N = fi ); y k es el número
de clases.
El supuesto en el que se basa esta fórmula es que todos los valores realmente observados en
un intervalo de clases son iguales al valor medio mi de esa clase. Entonces se obtiene la desviación
(mi − µ) y se eleva al cuadrado. Como hay fi observaciones en esa clase, la suma de las desviaciones
al cuadrado para el i-ésimo intervalo de clase será

fi (mi − µ)2

y como queremos la suma de las desviaciones al cuadrado para todas las k clases, encontramos
la suma para todas las clases por

X
k
fi (mi − µ)2
i=1

i −µ)
2
Así, fi (m
N es la suma de las desviaciones al cuadrado dividida por N , que es la varianza.
La raíz cuadrada de ésta es la desviación estándar.
4.3. La Desviación Típica 61

Esta fórmula requiere que se calcule la media µ y que se obtengan las desviaciones (mi −µ). Para
evitar este inconveniente, podemos derivar una fórmula de (4.13) que no requiere estos cálculos:

v !2
u Pk Pk
u fi d2i
σ = ct i=1 − i=1 fi di
(4.14)
N N

donde c es el intervalo de clases; f i es la frecuencia de la i-ésima clase; di es la desviación de


la i-ésima clase desde un origen supuesto; y N es el número total de observaciones. Repito que se
deriva de la fórmula anterior (4.13) y, por tanto, nos da el mismo resultado. Expliquemos su uso con
el ejemplo del Cuadro 4.4.

Clase f d fd d2 f d2
30 − 39 4 −3 −12 9 36
40 − 49 6 −2 −12 4 24
50 − 59 8 −1 −8 1 8
60 − 69 12 0 0 0 0
70 − 79 9 1 9 1 9
80 − 89 7 2 14 4 28
90 − 99 4 3 12 9 36
50 3 141

Cuadro 4.4: Cuadro de contingencia

En primer lugar, se selecciona un origen 0 supuesto en el intervalo de clase 60 − 69. A continua-


ción, se toman las desviaciones de clase menos hacia arriba (en la dirección en la que las calificacio-
nes son más bajas) y las desviaciones más hacia abajo (en la dirección en la que las calificaciones son
más altas). Así, por ejemplo, la clase 30 − 39 está a −3 desviaciones de clase. La razón por la que se
seleccionó 60 − 69 como origen es porque la observación de los datos indicó que los cálculos serían
menos engorrosos. Si la observación de los datos muestra que los cálculos son menos engorrosos
cuando el origen 0 se coloca en el intervalo de clase 70 − 79, seleccionaremos esa clase.
El resto del cálculo del Cuadro 4.4 es obvio. Después de poner nuestros valores calculados en la
Fórmula (4.14), obtenemos

s  2
141 3 √
σ = 10 − = 10 2.8164 = 16.78 puntos
50 50

Realice los cálculos poniendo la clase 70 − 79 como cero. Debería obtener la misma respuesta.
62 Medidas de Dispersión

Demostración de la Fórmula 4.14


Sabemos por el capítulo 3 que
P
fi di
µ=A+ ·c
N
mi = A + d i c

P
Sustituyendo esto en fi (mi − µ)2 , encontramos
X X P
fi di
fi (mi − µ)2 = fi (A + di c − A − · c)2
N
X  P 2
fi di
= fi di c − ·c
N
" P 2 P 2 #
X f d
i i f d
i i
= c2 fi d2i − 2N +n
N N
" P  #
X fi di 2
=c 2
fi di − N
2
N

Así, la varianza se convierte en


P
fi (mi − µ)2
V ar(X) =
" PN P 2 #
f d 2 f d
i i i i
= c2 −
N N

y la raíz cuadrada de ésta es la fórmula (4.14).

4.3.7 Caso de datos agrupados - intervalo de clase desigual

Cuando los intervalos de clase son desiguales, podemos utilizar la fórmula (4.14) ajustando el
valor de d, pero para evitarlo, utilizaremos la fórmula (4.13). Afortunadamente, (4.13) puede am-
pliarse como sigue para simplificar los cálculos:

s ∑
P f i m i )2
fi m2i − ( N
σ= (4.15)
N

El Cuadro de Contingencia para esta fórmula se muestra en el Cuadro 4.5.


Así, a partir de la fórmula (4.15), encontramos
s
226 361.50 − 10 608
50
049
σ=
50

= 284.01 = 16.85

La diferencia surge porque utilizamos 95 como punto medio en lugar de 94.5.


4.3. La Desviación Típica 63

Clase f m fm m2 f m2
30 − 39 4 34.5 138.0 1190.25 4 761.00
40 − 49 6 44.5 267.0 1980.25 11 881.50
50 − 59 8 54.5 436.0 2970.25 23 762.00
60 − 69 12 64.5 774.0 4160.25 49 923.00
70 − 79 9 74.5 670.5 5550.25 49 952.25
80 − 89 7 84.5 591.5 7140.25 49 981.75
90 − 99 4 95 380.0 9025.00 36 100.00
N = 50 3257.0 226 361.50

Cuadro 4.5: Cuadro de contingencia

Si el último intervalo de clase es 90−99 en lugar de 90−100, la respuesta será la misma, tanto si se
utiliza la Fórmula (4.14) como la (4.15). Como ejercicio, encuentre la desviación estándar, utilizando
la Fórmula (4.15), cuando la última clase es 90−99, y demuestre que es igual a la desviación estándar
obtenida con la Fórmula (4.14).
Demostración de la Fórmula 4.15.
Sabemos que
P
fi mi
µ=
N
P
Sustituyendo esto en fi (mi − µ)2 , encontramos

X X  P 
f i mi 2
fi (mi − µ) =
2
f i mi −
N
X P P
( fi mi )2 ( fi mi )2
= fi mi − 2
2
+
P N N
X ( f i m i ) 2
= fi m2i −
N

Así, la varianza de X es

P
fi (mi − µ)2
V ar(X) =
N ∑
P 2
fi m2i − ( fNi mi )
=
N

y la raíz cuadrada de esto es la fórmula (4.15).

4.3.8 Comentarios sobre la desviación estándar

El significado de la desviación típica se aclarará en los capítulos 6 y 7. Por el momento, podemos


decir que la desviación estándar es una unidad de medida de la dispersión, al igual que la libra es
una unidad de medida del peso o la pulgada es una unidad de medida de la longitud.
64 Medidas de Dispersión

Como ejemplo, supongamos que hay dos clases A y B, que tienen la misma nota media de 70
puntos, y que ambas clases tienen una curva de frecuencia simétrica en forma de campana. Además,
supongamos que las calificaciones de la clase A se concentran cerca de la media, mientras que las de
la clase B están dispersas por todo el rango de las calificaciones. Podemos suponer que la desviación
estándar de la clase A es menor que la de la clase B. Entonces las curvas de frecuencia pueden
parecerse a las dibujadas en la Figura 4.2.

Figura 4.2

La curva de la clase A es más fina y alta, y la de la clase B es más corta y plana. Cuanto menor sea
la desviación estándar, menor será la dispersión, y cuanto mayor sea la desviación estándar, mayor
será la dispersión.

4.3.9 Valor normalizado

Suponga que la desviación estándar de la variable X es de 10 puntos (σ = 10 puntos), la media


de la variable X es de 70 puntos (µ = 70 puntos), y una calificación individual es de 90 puntos
(xi = 90 puntos). Entonces la nota individual está 20 puntos por encima de la media. O, en términos
de desviación estándar, está 2 desviaciones estándar por encima de la media. Si otro alumno tiene
una nota de 65 puntos, está 5 puntos por debajo de la media. Es decir, es media desviación estándar
por debajo de la media:

x−µ 90 − 70 20
= = = 2 desviaciones estándar
σ 10 10

x−µ 65 − 70 −5 −1
= = = desviaciones estándar
σ 10 10 2

Siempre podemos traducir la diferencia entre la media y un valor individual en unidades de


desviación típica. Decimos que la desviación xi − µ ha sido estandarizada.
En general, cuando la variable X se divide por su desviación típica, decimos que la variable X
ha sido estandarizada.

X x1 x2 xN
: , , ...,
σ σ σ σ
4.3. La Desviación Típica 65

Este procedimiento nos permitirá hacer comparaciones de la dispersión de los valores indivi-
duales en diferentes distribuciones. Por ejemplo, supongamos que un individuo obtuvo un 90 en
el examen, la media de la clase fue de 70 y σ = 10 puntos. En un segundo examen obtuvo 600,
la media de la clase fue de 560 puntos, y σ = 40 puntos en esta clase. En el primer caso volvió a
obtener 20 puntos por encima de la media (90 − 70 = 20), y en el segundo obtuvo 40 puntos por
encima de la media (600 − 560 = 40). ¿Fue mejor en la primera o en la segunda prueba?
Al estandarizar las diferencias, encontramos

90 − 70 20
Primer prueba = = = 2 desviaciones estándar
10 10

600 − 560 40
Segunda prueba = = = 1 desviación estándar
40 40
Por tanto, está más por encima de la media en la primera prueba que en la segunda. En la primera
prueba estaba mucho mejor. Calcularemos cuánto mejor le fue, después de la discusión del cuadro
de área normal en el capítulo 6.

4.3.10 Distribución unitaria

La desviación típica de la distribución de una variable estandarizada


X x1 x2 xN
: , , ...,
σ σ σ σ
es la unidad. En la estadística teórica, se suelen utilizar distribuciones con media = 0 y desviación
típica (o varianza) = 1 para facilitar el análisis. Tales distribuciones se denominarán distribuciones
unitarias. Por ejemplo, el cuadro de área normal que se explica en el capítulo 6 se calcula a partir de
una distribución normal con media = 0 y σ = 1. En esta sección mostraremos cómo se construye
una distribución unitaria desplazando el origen a la media y estandarizando la variable, mediante
una sencilla ilustración.
Supongamos que hay tres números x1 , x2 y x3 . La varianza de estos números es

1X
3
V ar(X) = σ 2 = (xi − µ)2
3
i=1

Por lo tanto, estos números pueden estandarizarse mediante

x1 x2 x3
, ,
σ σ σ
La varianza de la variable estandarizada es
   
1 X  xi µ  1 1X
3
X
V ar = − = 2 (xi − µ) 2
σ 3 σ σ σ 3
i=1
1
= 2 · σ2 = 1
σ

Es decir, la varianza de la variable estandarizada es la unidad.


66 Medidas de Dispersión

Ejemplo No. 1
Utilicemos los datos del Cuadro 4.1 como ejemplo. La suma de las desviaciones al cua-
drado para la variable estandarizada X/σ se muestra en el Cuadro 4.6 adjunta.

X/σ X/σ − µ/σ (X/σ − µ/σ)2


50/σ −15/σ 225/σ 2
55/σ −10/σ 100/σ 2
60/σ −5/σ 25/σ 2
70/σ 5/σ 25/σ 2
75/σ 10/σ 100/σ 2
80/σ 15/σ 225/σ 2
700/σ 2

Cuadro 4.6

Así, la varianza de la variable estandarizada X/σ es

  700
X 2 700 1
V ar = σ = ·
σ 6 6 σ2

Pero como V ar(X) = σ 2 = 700/6, encontramos

  700
X 2 700 6
V ar = σ = · =1
σ 6 6 700

Utilizando el resultado obtenido anteriormente, podemos ahora construir una distribución uni-
taria. Esto se realiza en dos pasos. El primero es desplazar el origen a la media y el segundo es estan-
darizar la variable ajustada. Sean los valores x1 , x2 , x3 . El origen se desplaza hacia la media mediante
x1 − µ, x2 − µ, x3 − µ

Como V ar(X) = V ar(X − µ) = σ 2 , estos valores ajustados se estandarizan dividiéndolos


por la desviación estándar σ:
desplaza hacia la media mediante
x1 − µ x2 − µ x3 − µ
z1 = , z2 = , z3 =
σ σ σ
donde hemos fijado los valores normalizados iguales a z1 , z2 y z3 por razones de brevedad.
La media de z1 , z2 y z3 es

z1 + z2 + z3
Z=
 3 
1 x1 − µ x2 − µ x3 − µ
= + +
3 σ σ σ
1
= ·0=0
3
4.4. Dispersión relativa (coeficiente de variación) 67

La varianza de Z es
 
X −µ
V ar(Z) = V ar
σ
 
X µ
= V ar −
σ σ
 
X
= V ar
σ
=1

Por lo tanto, la variable Z tiene una distribución unitaria.


En resumen: Dada una distribución de valores x1 , x2 , x3 , . . . , xN , y su desviación típica σ, la
distribución de

x1 − µ x2 − µ x3 − µ xN − µ
, , ,...,
σ σ σ σ

tiene una media de 0 y una desviación típica de la unidad.

4.4 Dispersión relativa (coeficiente de variación)

Supongamos que un grupo de estudiantes realiza dos pruebas. El primer examen tiene una me-
dia de 60 puntos y una desviación típica de 6 puntos, con un máximo de 100 puntos. La segunda
prueba tiene una media de 700 puntos y una desviación estándar de 7 puntos, con un máximo de
1 000 puntos. ¿Cuál de las dos pruebas tiene una mayor dispersión? Aquí estamos comparando la
dispersión de dos distribuciones de frecuencia.
Se puede ver fácilmente que, desde un punto de vista absoluto, la dispersión de 7 puntos es mayor
que la de 6 puntos, pero desde un punto de vista relativo, podemos ver que los estudiantes estaban
mucho más cerca en la segunda prueba. Para poner de manifiesto esta idea de forma explícita, se ha
formulado una medida de dispersión relativa. El coeficiente de variación de una distribución, como
se denomina, se define como

σ
V = (4.16)
µ

Así, en nuestra situación actual, tenemos

6 1
Primer prueba, V = =
60 10

7 1
Segunda prueba, V = =
700 100

Observamos que la dispersión relativa de la segunda prueba es sólo 1/10 de la primera.


Utilizando el coeficiente de variación, se puede comparar la dispersión de diferentes distribu-
ciones de frecuencias.
68 Medidas de Dispersión

Cuando el coeficiente de variación se eleva al cuadrado, encontramos

P
(x1 − µ)2
σ2 N
V2 = =
µ2 µ2

que se convierte en
P  x1 −µ 2
µ
V2 = (4.17)
N

e = x1 − µ se denomina a veces desviación absoluta. Así,

xi − µ
µ

es la desviación relativa. Por lo tanto, V 2 , según la fórmula (4.16), puede considerarse como la
varianza en términos relativos y, por lo tanto, se denomina varianza relativa.
En lugar de discutir la dispersión en términos de la desviación absoluta e = xi − µ, y la desvia-
ción estándar σ, podemos discutirla en términos de la desviación relativa y el coeficiente de varia-
ción. El hecho de que ambos sean equivalentes se ve fácilmente en lo siguiente:

Desviación absoluta xi − µ
=
Desviación estándar σ

xi − X
Desviación absoluta µ xi − µ
= σ =
Desviación estándar σ
µ

Otras aplicaciones de la V son su uso en la comprobación de resultados experimentales y en


la estimación de la desviación estándar. En algunos casos, la µ, y la σ cambian conjuntamente, de
modo que la V es aproximadamente constante. En tal situación, si hay varios conjuntos de datos
experimentales que implican el cálculo de µ y σ, el cálculo de sus V y su comparación con la V
dada, así como entre sí, servirá de comprobación.
Además, si V se da a partir de datos anteriores y se conoce σ para un nuevo lote de datos, el σ
puede estimarse mediante σ = µV .
Snedecor da un valor de 3.75 por ciento para la estatura de V masculina y femenina y también
señala que los animales y plantas experimentales tienen, en muchos casos, V estables1 .
Otros ejemplos del uso de V pueden encontrarse en el muestreo, donde se utiliza para compro-
bar la fiabilidad de una varianza estimada. Como esto implica conceptos que no se han discutido,
nos limitaremos a señalar que cuando tenemos distribuciones asimétricas, es deseable comprobar la
fiabilidad de la desviación estándar, y la V puede utilizarse para este fin. A grandes rasgos, cuando
los datos son muy asimétricos, la V tiende a ser grande, y se hace necesaria una gran cantidad de
datos para obtener una desviación típica fiable.

1
G. W. Snedecor, Statistical Methods, 5ª ed., Ames: Iowa State College Press, 1956, p. 62.
CAPÍTULO 5
Teoría de la Probabilidad

En los capítulos 1 a 4, hemos tratado la estadística descriptiva, que se ocupa principalmente de


organizar los datos y describir una situación determinada de forma ordenada. En los cinco capítulos
siguientes, del 5 al 9, consideraremos el tema de la inferencia estadística, que es un procedimiento
de selección de una muestra de datos y de realización de inferencias sobre el conjunto original de
datos del que se ha tomado la muestra. Un ejemplo bien conocido es la encuesta de opinión en la
que se utiliza un pequeño grupo de individuos seleccionados al azar de un grupo grande para inferir
una opinión que puede tener el grupo grande. La encuesta de opinión de Gallup sobre las elecciones
presidenciales es un ejemplo típico.
Como veremos, el vínculo entre la muestra y el conjunto original de datos se basa en la teoría de la
probabilidad. Por lo tanto, para discutir la inferencia estadística, necesitamos un cierto conocimiento
preliminar de la teoría de la probabilidad. Pero una discusión formal de esta teoría es muy difícil
en este punto de nuestro estudio, por lo que limitaremos nuestra discusión a la parte de utilidad
inmediata para nosotros y retomaremos los detalles más formalmente en el capítulo 16.
En nuestra discusión de la teoría de la probabilidad, distinguiremos entre la interpretación de
la probabilidad y el cálculo de la probabilidad. La interpretación de la probabilidad es un problema
de metodología y trata de la cuestión: ¿Qué entendemos por probabilidad y cómo debemos inter-
pretarla? Por ejemplo, la probabilidad de que salga cara al lanzar una moneda es 1/2. ¿Cómo debe
interpretarse esta afirmación?
Hay dos escuelas principales de pensamiento sobre la interpretación de la probabilidad. Una
puede llamarse la escuela objetiva (u objetivista, u objetivista), y ha sido la principal en estadística
hasta la actualidad. La segunda puede denominarse escuela subjetiva (o subjetivista, o subjetivista)
y está ganando importancia en la actualidad en la estadística. Este énfasis en el enfoque subjetivo se
dio a conocer a los estadísticos gracias a los trabajos de L. J. Savage1 y de R. Schlaifer2 . Ambos libros
son de nivel avanzado.
Trataremos ambos enfoques muy brevemente en este capítulo y de nuevo a un nivel algo más
avanzado en el capítulo 16.
El cálculo de la probabilidad se ocupa principalmente de obtener teoremas de la teoría de la
probabilidad mediante deducciones matemáticas a partir de los axiomas básicos de la teoría de la
probabilidad.
1
L. J. Savage, Foundations of Statistics, Nueva York: John Wiley & Sons, Inc., 1954.
2
R. Schlaifer, Probability and Statistics for Business Decisions, New York: McGraw-Hill, 1959.

69
70 Teoría de la Probabilidad

Nuestro orden de discusión será el siguiente. Primero repasaremos brevemente la teoría de con-
juntos. A continuación, explicaremos cómo se describe un experimento en términos de sucesos. A
continuación, el experimento se expresará en términos de la teoría de conjuntos, lo que nos llevará
a discutir el concepto de espacio muestral. Este concepto de espacio muestral es una idea básica
para la posterior discusión de la teoría de la probabilidad y la estadística. La razón para expresar un
experimento en términos de conjuntos es que el uso de la teoría de conjuntos matemáticos facilita el
desarrollo matemático de la teoría de la probabilidad y la estadística. Con esta preparación, discuti-
remos a continuación la interpretación de la teoría de la probabilidad. A continuación, discutiremos
el cálculo de la teoría de la probabilidad en las secciones 5.4 hasta 5.8.

5.1 Conjuntos

Como se ha mencionado anteriormente, para discutir la teoría estadística, necesitamos un co-


nocimiento de la teoría de la probabilidad. A su vez, el estudio de la teoría de la probabilidad se
facilita enormemente utilizando la teoría de conjuntos. Por tanto, repasemos algunas ideas básicas
de la teoría de conjuntos.
La teoría de conjuntos, desarrollada por Georg Cantor (1845-1918) entre 1874 y 1895, es una
herramienta matemática básica que utilizan las distintas ramas de las matemáticas, como la teoría de
la probabilidad, el cálculo y la geometría. Cantor nació en Rusia en 1845, pero se trasladó a Alemania
en 1856. En 1863 ingresó en la Universidad de Berlín, donde estudió con K. Weierstrass (1815-
1897), L. Kronecker (1823-1891) y E. E. Kummer (1810-1893), todos ellos famosos matemáticos, y
se doctoró en 18673 .

5.1.1 Un conjunto

Un conjunto es una colección en un todo de objetos definidos y bien diferenciados: por ejem-
plo, un grupo de estudiantes, una baraja de cartas y las esferas dentro de una caja son ejemplos de
conjuntos.
Denotamos un conjunto como S, y llamamos elementos a los objetos. Entonces un elemento a
está relacionado con el conjunto como

a es un elemento de S : a ∈ S
a no es un elemento de S : a ∈
/S

Por ejemplo, el conjunto S puede estar formado por 3 números: 1, 2 y 3, que son los elementos
del conjunto. Para mostrar que esto comprende un conjunto, utilizamos las llaves {1, 2, 3}. Entonces,
para el elemento 2, escribimos

2 ∈ {1, 2, 3}

Los elementos deben ser distintos. Así, 1, 2, 3, 3, es un conjunto {1, 2, 3}, donde se eliminan los
elementos repetidos. El orden de los elementos no importa por el momento.
3
Una de las obras más importantes de la teoría de conjuntos es la de F. Hausdorff (Set Theory, 4th ed., trans. por J.
R. Auman, New York: Chelsea Publishing Co., 1957) , que se publicó por primera vez en 1914. Un texto elemental sobre
la teoría de conjuntos es el de J. Breuer (Introduction to the Theory of Sets, trans. por H. F. Fehr, Englewood Cliffs, N.J.:
Prentice-Hall, Inc., 1958).
5.1. Conjuntos 71

Decimos que {2} es un conjunto de 1 elemento: 2. Un conjunto sin ningún elemento se llama
conjunto nulo, o conjunto vacío, y se denota por ∅.
Si cada elemento de Si es un elemento de S, entonces decimos que Si es un subconjunto de S.
Por ejemplo, dejemos que S = {1, 2, 3}. Entonces los subconjuntos serán

0 {1} {2} {3} {1, 2} {1, 3} {2, 3} {1, 2, 3}

Un subconjunto se denota por

S1 ⊆ S

Cuando S1 ⊂ S, es decir, cuando S contiene al menos 1 elemento que no está en S1 , S1 se llama


subconjunto propio de S.
Hay 23 = 8 subconjuntos de un conjunto de 3 elementos. Habrá 2n subconjuntos a partir de un
conjunto de n elementos. (Véase la sección 7.1, ejemplo 7, para la prueba).

5.1.2 Operaciones con conjuntos

Sea S1 = {a, b, c, 2} y S2 = {12, 3}. Entonces la unión de S1 y S2 es el conjunto S:

S = S1 ∪ S2 = {a, b, c, 1, 2, 3}

Es el conjunto formado por todos los elementos que pertenecen a S1 o a S2 , o a ambos [Figu-
ra 5.1(a)].
La intersección de S1 y S2 es el conjunto S:

S = S1 ∩ S2 = {2}

Es el conjunto de elementos que pertenecen tanto a S1 como a S2 [Figura 5.1(b)]. Si el conjunto


S3 es {a, b, c}, entonces

S2 ∩ S3 = ∅

S1 S2 S1 S2

S = S1 ∪ S2 S = S1 ∩ S2
(a) (b)
Figura 5.1
72 Teoría de la Probabilidad

Es decir, la intersección de conjuntos no superpuestos, o disjuntos, es el conjunto nulo. En este


caso, en lugar de utilizar el símbolo ∪ a veces utilizamos el símbolo + para la unión de conjuntos
disjuntos y también utilizamos la palabra “suma” en lugar de “unión”. Sea

S = S1 ∪ S2 = {a, b, c, 1, 2, 3}

En general, el conjunto S de todos los puntos en discusión se llama conjunto universal para la dis-
cusión dada, o simplemente el universo. A menudo, el universo no se especifica explícitamente.
Sea S4 = {a, b, 1, 2} un subconjunto de S. El complemento de S4 con respecto al universo S es
el conjunto

S4 = {c, 3}

Es decir, son aquellos elementos del universo {a, b, c, 1, 2, 3} que no son elementos de S =
{a, b, 1, 2}. Véase la Figura 5.2.
A continuación, la diferencia de los conjuntos S1 y S2 es el conjunto S

S = S1 − S2 = {a, b, c, 2} − {1, 2, 3} = {a, b, c, }

Así, a, b, c son elementos de S1 , pero no son elementos de S2 , mientras que 2 es un elemento de


S1 y de S2 [Figura 5.2(b)]. Para S2 − S1 , tenemos

S ′ = S2 − S1 = {1, 2, 3} − {a, b, c, 2} = {1, 3}

S
S1 S2 S1 S2
a 1 a 1
S3 b 2 b 2
c 3 c 3
S3
S = S 1 − S2 S ′ = S 2 − S1
. = {a, b, c} = {1, 3}

Figura 5.2

5.2 Experimentos, eventos y espacio muestral

5.2.1 Experimentos y eventos

Consideremos un experimento de lanzamiento de un dado. Si se trata de un dado justo, sabemos


que solemos asignar una probabilidad de 1/6 a cada uno de los 6 resultados. Lo que queremos
hacer es establecer una terminología que describa los experimentos y proporcione una base para
desarrollar la teoría de la probabilidad.
En primer lugar, debemos ponernos de acuerdo sobre los posibles resultados de un experimento.
5.2. Experimentos, eventos y espacio muestral 73

Cuando el experimento consiste en lanzar una moneda, acordamos que los posibles resultados
son escudo y corona y excluimos la posibilidad de que la moneda se quede en el borde.
Los posibles resultados de un experimento se llamarán eventos o sucesos. Decimos, por ejemplo,
el suceso de que aparezca cara.
Si se lanzan dos monedas, acordamos que hay 4 resultados posibles:

(E, E) (E, C) (C, E) (C, C)

Excluimos cualquier otro resultado posible, como que salga el borde. Cada uno de estos posibles
resultados es un suceso. Si los denominamos E1 , E2 , E3 , E4 . Entonces, podemos decir, por ejemplo,
el evento de 2 coronas, y se denota por E4 . El suceso de un E y una C será E2 o E3 . Digamos que
este suceso se denote por E5 .
Una característica de E5 , es que se compone de 2 eventos E1 y E3 . E2 y E3 no pueden des-
componerse en otros sucesos. Obsérvese que (E, C) no puede descomponerse en E y C porque el
experimento consiste en lanzar 2 monedas, y un único resultado está formado por el par, C y E. El
E o la C por sí mismas no constituyen un resultado del experimento de lanzar 2 monedas.
Los sucesos E1 , E2 , E3 y E4 anteriores son ejemplos de eventos simples. Un suceso simple es un
resultado posible de un experimento, cuya característica es que no puede descomponerse en una
combinación de otros sucesos.
En cambio, el suceso E5 , que puede descomponerse en los dos sucesos E2 y E3 , se denomina
evento compuesto. El suceso compuesto es un agregado de sucesos simples.
La suma de todos los sucesos simples nos da todos los resultados posibles del experimento.
Una vez definidos los términos experimento, suceso simple y suceso compuesto, vamos a mos-
trar cómo se pueden expresar estos conceptos en términos de la teoría de conjuntos.

5.2.2 Espacio muestral

Consideremos el experimento de lanzar un dado justo de 4 caras. Los 4 posibles resultados se


denotan como E1 , E2 , E3 y E4 , donde E1 es el suceso de que ocurra un 1, y así sucesivamente. Estos
4 sucesos son sucesos simples. Llamemos a estos sucesos simples con el término de puntos de muestra
y representemos los puntos de muestra por e1 , e2 , e3 y e4 . Cada uno de los posibles resultados del
experimento está representado por un único punto muestral.
El conjunto de todos los puntos de muestra e1 , e2 , e3 y e4 se denominará espacio muestral aso-
ciado al experimento.
Por lo tanto, ahora tenemos dos formas de describir el experimento de lanzar un dado de 4 caras.
Una es mediante los sucesos simples E1 , E2 , E3 y E4 , y la otra son los puntos muestrales e1 , e2 , e3
y e4 .
El espacio muestral, que es el conjunto de todos los puntos de muestra, es un modelo del ex-
perimento. Denotemos el espacio muestral por S. Entonces, utilizando la notación de conjuntos,
podemos escribir

S = {e1 , e2 , e3 , e4 }
74 Teoría de la Probabilidad

A continuación mostraremos cómo se expresan los sucesos compuestos en términos de puntos


muestrales. Sea E5 el suceso compuesto en el que ocurre un número par. Entonces E5 está formado
por los 2 sucesos E2 o E4 . En términos de puntos de muestra, el conjunto de puntos de muestra

{e2 , e4 }

muestra el suceso E5 . Escribimos

E5 = {e2 , e4 }

Como se ve, {e2 , e4 } es un subconjunto de S. Escribimos

{e2 , e4 } ⊂ S

O podemos escribir

E5 ⊂ S

Por lo tanto, un suceso compuesto en términos de puntos de muestra es un subconjunto del


espacio muestral.
¿Cuántos sucesos simples y compuestos pueden generarse a partir del espacio muestral S? En
términos de la teoría de conjuntos, esta pregunta puede replantearse como: ¿Cuántos subconjuntos
pueden generarse a partir del conjunto S? En la Sección 7.1, el ejemplo 7 muestra que se pueden
obtener 2n subconjuntos a partir de un conjunto de n elementos. Por lo tanto, si el conjunto S tiene
n = 4 elementos, habrá 24 = 16 subconjuntos. A modo de ilustración, tenemos

S = {1, 2, 3, 4}

Entonces los posibles subconjuntos son:

{ }, {1}, {2}, {3}, {4}, {1, 2}, {1, 3}, {1, 4}


{2, 3}, {2, 4}, {3, 4}, {1, 2, 3}, {1, 2, 4}
{1, 3, 4}, {2, 3, 4}, {1, 2, 3, 4}

Hay 24 = 16 subconjuntos. Obsérvese que se incluye el conjunto nulo o vacío.


Es posible calificar los subconjuntos por alguna característica. Por ejemplo, podemos seleccionar
subconjuntos tales que la suma de números sea par; o tales que la suma de números sea impar;
o tales que la suma de números sea superior a 6; etc. Decimos que tenemos diferentes clases de
subconjuntos.
Las características de los 16 subconjuntos seleccionados son
1. La unión de cualquier número de estos subconjuntos producirá un subconjunto que es miem-
bro de esta clase de subconjuntos.
2. 2. La intersección de cualquier número de estos subconjuntos producirá un subconjunto que
es miembro de esta clase de subconjuntos.
5.3. El enfoque objetivo de la probabilidad 75

3. La diferencia de dos subconjuntos cualesquiera es un miembro de esta clase de subconjuntos.


4. El complemento de cualquier subconjunto es un miembro de esta clase de subconjuntos.
Llamemos a estos 16 subconjuntos un campo y denotémoslo por F . Así, podemos decir que
un campo muestra todas las posibles combinaciones de sucesos que pueden generarse a partir del
espacio muestral básico.
Podemos resumir nuestra discusión como sigue. Al hablar de la teoría de la probabilidad, pode-
mos hablar de ella en términos de experimento, suceso simple o suceso compuesto, o en términos
de espacio muestral, puntos muestrales, subconjuntos o campo. Sea el espacio muestral S

S = e1 , e2 , e3 , e4

con 4 puntos de muestra. Que los sucesos simples correspondientes sean E1 , E2 , E3 y E4 . En-
tonces, los 4 sucesos simples en términos de puntos de muestra son

Ei = {ei } i = 1, 2, 3, 4

Un subconjunto que consta de 2 o más puntos de muestra es un suceso compuesto. Podemos


seleccionar 2n = 24 = 16 subconjuntos de un espacio muestral con n = 4 puntos de muestra.
A continuación, mostraremos cómo los espacios muestrales y los puntos muestrales pueden
expresarse geométricamente. Una presentación geométrica de los espacios muestrales y los puntos
muestrales mejorará en gran medida nuestra comprensión intuitiva de la teoría de la probabilidad,
y también nos ayudará a entender la teoría estadística.

5.3 El enfoque objetivo de la probabilidad

En esta sección discutiremos tres enfoques diferentes de la probabilidad. El primero es un en-


foque basado en el principio de razón insuficiente, el segundo es la teoría de la frecuencia de la
probabilidad, y el tercero es un enfoque similar al segundo pero con una importante diferencia, que
explicaremos.

5.3.1 El principio de razón insuficiente

El principio de razón insuficiente (o principio de indiferencia) fue utilizado por el famoso ma-
temático suizo Jacob Bernoulli (1654 - 1705) para definir las probabilidades. Supongamos que se
lanza un dado justo y se pregunta a un estudiante la probabilidad de que salga un 2. Probablemente
responderá 1/6. Si se lanza una moneda y se le pregunta la probabilidad de que salga cara, proba-
blemente responderá 1/2. Sin embargo, si se le pregunta por qué ha respondido 1/6 o 1/2, puede
tener problemas para dar una razón precisa.
El principio de la razón insuficiente propone que, cuando no hay ninguna base para preferir
uno de los posibles sucesos (resultados) a cualquier otro, todos deben tratarse como si tuvieran la
misma probabilidad de ocurrir. Así, en el caso de un dado justo, se considera que cada número tiene
la misma probabilidad de ocurrir, y por tanto la probabilidad de que ocurra un 2 es de 1/6.
El famoso matemático francés P. S. Laplace (1749 - 1827) enunció este principio en su libro
Ensayo filosófico sobre las probabilidades, de la siguiente manera
76 Teoría de la Probabilidad

La teoría del azar consiste en reducir todos los acontecimientos de la misma clase a un cierto
número de casos igualmente posibles, es decir, a aquellos sobre los que podemos estar igualmente
indecisos en cuanto a su existencia, y en determinar el número de casos favorables al acontecimiento
cuya probabilidad se busca. La relación entre este número y el de todos los casos posibles es la medida
de la probabilidad, que no es más que una fracción cuyo numerador es el número de casos favorables
y cuyo denominador es el número de todos los casos posibles4 .
Este principio de razón insuficiente tiene varias características, una de las cuales es que supone
la simetría de los acontecimientos. Así, tenemos un dado justo, o una moneda justa, o una baraja
justa. Una segunda característica es que se basa en un razonamiento abstracto y no depende de la
experiencia.
La suposición de simetría restringe la aplicación de este principio porque, como veremos más
adelante, muchos resultados de los problemas (como los de los negocios y la economía) no tienen
simetría.
Por otro lado, como el cálculo de la probabilidad no depende de la experiencia, nos permite
calcular las probabilidades sin realizar un gran número de ensayos. Este tipo de cálculo se denomina
a veces cálculo de probabilidades a priori. Para una serie de problemas, como el lanzamiento de un
dado o de una moneda, que cumplen los requisitos para la aplicación de este principio, utilizaremos
el método a priori para determinar las probabilidades.

5.3.2 El primer enfoque de la teoría de las frecuencias sobre la probabilidad

La referencia básica de este enfoque es el libro del famoso matemático ruso A. N. Kolmogorov,
Fundamentos de la teoría de la probabilidad (1933)5 . Expliquemos este enfoque con una ilustración.
Consideremos un experimento en el que se lanza una moneda justa. Hay dos posibles resultados
(eventos), E1 (escudo) y E2 (corona). Repitamos este experimento 200 veces en condiciones uni-
formes. Los resultados se recogen en el Cuadro 5.1.
La columna
P denominada E muestra el número de escudos por cada 10 lanzamientos. La colum-
na m = E es la suma acumulada de escudos. La columna m/n es la frecuencia relativa de caras
para n lanzamientos. Por ejemplo, en la tercera fila, m/n = 14/30 = 0.47 es la frecuencia relativa
de caras en 30 lanzamientos.
Observe los siguientes puntos de este experimento:

1. Tenemos un experimento E (lanzar una moneda), que se repite una y otra vez (200 veces) en
condiciones uniformes. La n(= 200) muestra el número de repeticiones de E.

2. Hay dos posibles resultados (eventos) en nuestro ejemplo y hemos calculado la frecuencia
relativa del evento cara para diferentes n’s.

3. Las fluctuaciones de las frecuencias relativas de las cabezas, m/n, fluctúan considerablemente
cuando n es pequeño, pero a medida que n se hace grande, la amplitud de las fluctuaciones
disminuye. Este fenómeno se expresa diciendo: La frecuencia relativa se vuelve estable, o la
frecuencia relativa muestra regularidad estadística, a medida que n se hace grande.
4
P. S. Laplace, A Philosophical Essay on Probabilities, traducido por F. W. Truscott y F. C. Emory, Net York: Dover
Publications, Inc., 1951, pp. 6-7. Reimpreso con permiso.
5
A. N. Kolmogorov, Foundations of the Theory of Probability, traducido por N. Morrison, New York: Chelsea Pu-
blishing Co., 1956.
5.3. El enfoque objetivo de la probabilidad 77

P
P m E
1 2 3 4 5 6 7 8 9 10 E m= E =
n n
1 C E E E C C E C E E 6 6 0.60
2 C C E C C C C E C C 2 8 0.40
3 E E E C C E C E E C 6 14 0.47
4 C E C C E E E E C C 5 19 0.48
5 E C E C C E E E C E 6 25 0.50

6 C E C E E C E C E E 6 31 0.52
7 C E E E E E E C E C 7 38 0.54
8 E E C C E C E E C C 5 43 0.54
9 C C E C E E C C C C 3 46 0.51
10 E C E C E E C E C C 5 51 0.51

11 E C C E C E C E C E 5 56 0.51
12 C E E C E C E E E E 7 63 0.53
13 E C C C E C E C E E 5 68 0.53
14 C C E E C C C E E C 4 72 0.51
15 C E C E C C E C C C 3 75 0.50

16 C C E C C C E C E C 3 78 0.49
17 E C C C E E E C C E 5 83 0.49
18 E C E E C C E E C E 6 89 0.48
19 C E E E C E C E E E 6 95 0.50
20 E C C C C E E C E E 6 101 0.51

Cuadro 5.1

Mostremos el punto 3, sobre la regularidad estadística, en términos de un gráfico. En la Figu-


ra 5.3, tenemos las frecuencias relativas en el eje vertical y el número de lanzamientos n en el eje
horizontal. Vemos en la figura que la amplitud de las fluctuaciones disminuye gradualmente a me-
dida que n es mayor y, en nuestro caso, tiende a fluctuar en torno al valor 0.5.
Nótese bien que, aunque hemos dicho que tiende a fluctuar en torno a 0.5, bien podría fluctuar
en torno a 0.53 o 0.47, o algún otro valor. La razón por la que se utiliza 0.5 es que estamos suponiendo
una moneda justa y estamos utilizando tácitamente el principio de razón insuficiente.
Sin embargo, nuestro principal interés en este punto no es si la probabilidad es de 0.53 o 0.47
o 0.5, sino que, a medida que aumenta el número de repeticiones del experimento, la frecuencia
relativa de caras se estabiliza y tiende a un determinado valor. A partir de esto, podemos conjeturar
(formar una opinión o juicio sobre una evidencia insuficiente) que cuando el experimento E se
repite un gran número de veces, la frecuencia relativa de un evento sería, con un alto grado de
certeza, prácticamente (casi, aproximadamente) igual a un número P .
Basándonos en esta línea de razonamiento, construimos un modelo matemático abstracto idea-
lizado de este experimento y postulamos lo siguiente: Dado un experimento E (lanzar una moneda)
y un suceso A (escudo), podemos asignar un número P (digamos, 1/2) al suceso A (escudo), que
se llamará probabilidad del suceso A. Esta P tiene las siguientes características: Cuando el experi-
mento se repite un número muy grande de veces (n), y el suceso se produce m veces, la frecuencia
relativa m/n será prácticamente (aproximadamente, casi) igual a este número P .
78 Teoría de la Probabilidad

Figura 5.3

El número P , que hemos llamado probabilidad del suceso A, también se escribe P (A). Utiliza-
remos principalmente esta última notación.
En lo que respecta a nuestro ejemplo actual, la probabilidad P (A) = 1/2 es un número tal que
la frecuencia relativa m/n(= 101/200 = 0.505 para 200 lanzamientos) será prácticamente igual a
P (A) = 1/2 cuando n es muy grande.

Figura 5.4

Pongamos un ejemplo más. Supongamos que la moneda se lanza 400 veces. El resultado de 400
repeticiones de este experimento se recoge en el Cuadro 5.3, donde la frecuencia relativa del suceso
de A (escudo) muestra una tendencia a fluctuar entre 0.46 y 0.44. La Figura 5.4 es un gráfico de las
frecuencias relativas. El gráfico muestra que a medida que aumenta el número de repeticiones n, la
frecuencia relativa muestra una regularidad estadística.
5.3. El enfoque objetivo de la probabilidad 79

P
P m E
1 2 3 4 5 6 7 8 9 10 E m= E =
n n
1 E C E C C E C E E C 4 4 0.40
2 C C C C C E C C C E 3 7 0.35
3 E C E C E C E C E C 4 11 0.37
4 E C C C C E C C E C 2 13 0.33
5 C E C E E C E E E E 6 19 0.38

6 E C C C C C C E C E 3 22 0.37
7 C E E C E E C C C E 5 27 0.39
8 E E C C E E E C C E 6 33 0.41
9 C C E C E C C E C E 4 37 0.41
10 E E E E C E C E C C 6 43 0.43

11 C E E C C C C E E E 6 49 0.51
12 C C E C E E C E C E 6 55 0.53
13 C C E E C C C C C C 1 56 0.53
14 C C C C C C E C E E 4 60 0.51
15 C E C C C E C C E C 4 64 0.50

16 C C C E C E E C E C 5 69 0.49
17 E C E C C E E E E E 6 75 0.49
18 E E C C E C E C E E 5 80 0.48
19 C E C C C C E C C E 2 82 0.50
20 C E E C E E C E C C 6 88 0.51

21 E E E C C C C E C C 4 92 0.51
22 C C E C C C C E C E 3 95 0.53
23 C C C E E C E E C E 5 100 0.53
24 C E C C E C E E E E 6 106 0.51
25 C C C C C E C E E E 4 110 0.50

26 E E E E C E E E E C 8 118 0.49
27 C C C C E C C C C E 2 120 0.49
28 C C C C C C E E E E 4 124 0.48
29 C C E E C E E E C E 6 130 0.50
30 C E C C E E E C C E 5 135 0.51

31 C C C E E E C C C C 3 138 0.51
32 C E C C C E E C C E 4 142 0.53
33 E C E E C C E C C E 5 147 0.53
34 E E C E C C E C C C 4 151 0.51
35 E E E E C C E E C C 6 157 0.50

36 E C E E E E E C C E 7 164 0.49
37 C E E C E C E C E C 5 169 0.49
38 C C E C E E E E E C 6 175 0.48
39 E C C C C E E C E C 4 179 0.50
40 E E E C C C E C E C 5 184 0.51

Cuadro 5.2

Con esta cantidad de pruebas, conjeturamos que cuando el experimento se repite un gran nú-
mero de veces. la frecuencia relativa de este suceso A (escudo) sería, con un alto grado de certeza,
prácticamente igual a un número P (A). Asignaremos este número P (A) al suceso A (escudo) y lo
80 Teoría de la Probabilidad

llamaremos probabilidad del suceso A.


Obsérvese que en este caso no podemos utilizar el principio de razón insuficiente y, por tanto,
no podemos calcular a priori la probabilidad P (A). Sin embargo, nuestra definición de P (A) nos
dice que cuando n es grande, la frecuencia relativa m/n debe ser aproximadamente igual a P (A).
La pregunta que surge inmediatamente es: ¿Cuál es el valor de P (A)? Como no podemos calcu-
lar a priori la probabilidad P (A), vamos a estimar P (A). Y, a partir de nuestra definición de P (A),
es natural que estimemos P (A) por la frecuencia relativa del suceso A. Es decir, utilizaremos m/n
como estimación de P (A). En nuestro ejemplo actual,

m 184
P (A) = = = 0.46
n 400

Tenga en cuenta que la probabilidad del suceso A, P (A), y la frecuencia relativa del suceso A,
m/n, no son lo mismo. Sin embargo, cuando n es grande, y cuando P (A) no se conoce, m/n se
utiliza como una estimación de P (A), y con frecuencia se llama la probabilidad de A.
Tenga en cuenta los siguientes puntos sobre esta definición de probabilidad. En primer lugar,
que m ≤ n. Es decir, el número de ocurrencias de escudos (m) es menor o igual que el número de
repeticiones (n). Por tanto, la frecuencia relativa m/n es menor o igual que la unidad. Es decir

m
≦1
n

En segundo lugar, si el número de cabezas es cero, entonces m = 0 y

m
=0
n

Por lo tanto,

m
0≦ ≦1
n

Así, es natural que conjeturemos que 0 ≦ P (A) ≦ 1, y de hecho postularemos que

0 ≦ P (A) ≦ 1

Este postulado es bastante complicado y requiere más explicaciones. Si tenemos un suceso im-
posible A, entonces claramente P (A) = 0. Si tenemos una caja con 10 bolas negras, la probabilidad
de seleccionar una bola blanca es cero.
Sin embargo, cuando tenemos P (A) = 0, esto no significa necesariamente que el suceso A sea
un suceso imposible. De la definición de P (A) vemos que P (A) = 0 significa que, en un gran
número de ensayos n, la frecuencia relativa m/n del suceso A es aproximadamente igual a cero.
Por tanto, P (A) = 0 significa que el suceso A puede ser un suceso imposible o que ocurre con tan
poca frecuencia que puede considerarse como un suceso imposible. O podemos decir que cuando el
experimento se realiza una vez, su ocurrencia es prácticamente imposible, y cuando el experimento
se repite un gran número de veces, ocurre con tan poca frecuencia que puede considerarse como un
suceso imposible.
5.3. El enfoque objetivo de la probabilidad 81

Si un suceso ocurre siempre, P (A) = 1. Un suceso que ocurre siempre se llama suceso cierto.
Por ejemplo, si tenemos una caja con 10 bolas negras, la probabilidad de seleccionar una bola negra
es la unidad. El suceso de seleccionar una bola negra es un suceso cierto.
Sin embargo, P (A) = 1 no significa necesariamente que el suceso A ocurra siempre. Según
nuestra definición, P (A) = 1 significa que, en un gran número de ensayos n, la frecuencia relativa
m/n del suceso A es aproximadamente (casi, prácticamente) igual a la unidad. Por lo tanto, P (A) =
1 significa que el suceso A se produce siempre o casi siempre y, por lo tanto, puede considerarse desde
un punto de vista práctico como un suceso seguro.
O podemos decir que cuando el experimento se realiza una vez, la ocurrencia del suceso es casi
(prácticamente) segura, y que cuando el experimento se repite un gran número de veces, ocurre con
tanta frecuencia que puede considerarse como un suceso cierto.
Cuatro de las características de este enfoque son

1. Supone un gran número de ensayos.

2. Supone una regularidad estadística.

3. La P (A) se estima por la frecuencia relativa de A.

4. Se basa en la experiencia.

La mayor parte de la estadística desarrollada durante los últimos 50 años se basó en este enfoque
de la teoría de la probabilidad y se desarrolló principalmente en Inglaterra y América. La teoría
estadística basada en este enfoque de la probabilidad ha demostrado ser muy útil en las aplicaciones,
como veremos más adelante en este libro.
Sin embargo, también se han reconocido ciertas limitaciones de este enfoque de la probabilidad
y, por tanto, de la teoría estadística que se ha desarrollado. En particular, las dos primeras caracte-
rísticas que hemos mencionado anteriormente se convierten en restricciones. Hay casos en los que
evaluamos eventos sin que se produzcan realmente, y en los que no podemos repetir los experi-
mentos. Por ejemplo, se oyen afirmaciones como “hay un 50% de posibilidades de que un cohete se
estrelle en la luna”, aunque el acontecimiento no se haya producido realmente. O uno ve una afir-
mación como “las posibilidades de negociar nuevos contratos entre los sindicatos de trabajadores y
la industria siderúrgica están valoradas en un 50%”. O, cuando hay un combate de boxeo entre dos
boxeadores que nunca se han enfrentado, hay ciertas probabilidades. Como muestran estas ilus-
traciones, hay muchos casos que tienen probabilidades asociadas, aunque no haya repeticiones de
experimentos ni frecuencia real de ocurrencias.
Veamos si el enfoque subjetivo de la probabilidad, que consideramos a continuación, podrá
asignar probabilidades a casos como los mencionados anteriormente. Pero antes de eso, discuta-
mos brevemente un segundo enfoque de la teoría de la frecuencia.

5.3.3 El segundo enfoque de la teoría de la frecuencia para la probabilidad

Este segundo enfoque de la teoría de la frecuencia es similar al primero en el sentido de que


parte de la frecuencia relativa m/n del suceso A. Pero se diferencia del primero en lo siguiente: El
primer enfoque asignaba un número P(A) al suceso A y lo llamaba probabilidad del suceso A. Esta
P(A) tenía la característica de que cuando el número de ensayos era grande, min y P(A) eran casi
(prácticamente, aproximadamente) iguales.
82 Teoría de la Probabilidad

El segundo enfoque define la probabilidad del suceso A como el límite de m/n cuando n tiende
a infinito. Así, podemos escribir
Nótese cuidadosamente que en el primer enfoque, decíamos simplemente que P(A) y mf n eran
prácticamente iguales cuando n era grande, mientras que en el segundo enfoque, decimos que P(A)
es el límite de mkt cuando n tiende a infinito.
En el primer enfoque, asignamos un número P(A) al suceso A y lo llamamos probabilidad de A.
En el segundo enfoque, P(A) es el límite de un proceso limitante.
En el primer enfoque, P(A) es una idealización de la regularidad estadística de la frecuencia re-
lativa de un suceso. El segundo enfoque requiere la existencia de un límite para la frecuencia relativa
de un suceso.
Como se ha mencionado anteriormente, utilizaremos el primer enfoque. Bastará con que el
alumno sepa que existe este segundo enfoque y lo reconozca cuando lo utilicen otros autores.

5.4 El enfoque subjetivo

Como se mencionó al principio de este capítulo, el enfoque subjetivo de la probabilidad fue


puesto en conocimiento de los estadísticos por el profesor Savage:
Los puntos de vista personalistas sostienen que la probabilidad mide la confianza que un indi-
viduo particular tiene en la verdad de una proposición concreta, por ejemplo, la proposición de que
lloverá mañana. Estos puntos de vista postulan que el individuo en cuestión es de alguna manera
”razonable”, pero no niegan la posibilidad de que dos individuos razonables que se enfrentan a la
misma evidencia puedan tener diferentes grados de confianza en la verdad de la misma proposi-
ción6 .
El profesor Savage utiliza el término personalista en lugar de subjetivo (o subjetivista).
Como muestra la cita, la probabilidad de un suceso A se interpreta como una medida de con-
fianza que una persona razonable asigna al suceso A. Este enfoque permite que las ponderaciones
que asignamos, al calcular la media aritmética ponderada, se interpreten como probabilidades. Uti-
lizando el ejemplo de los tres exámenes de la sección 3.1, tenemos el Cuadro 5.3. Las ponderaciones
asignadas son una medida de la confianza o la importancia que el instructor podría asignar a los tres
exámenes.

(1) (2) (3) (4)


Calificaciones Pesos Pesos Proporcionales (1) × (3)
50 10 0.20 10
80 15 0.30 24
70 25 0.50 35
50 1.00 69

Cuadro 5.3

Como hemos visto antes, las ponderaciones pueden expresarse en términos proporcionales, de
modo que siempre sumen la unidad. Estos pesos proporcionales (o relativos) pueden considerarse
6
Op. cit., p. 3. Con permiso del autor y del editor.
5.5. Axiomas de la teoría de la probabilidad 83

como las probabilidades asignadas a los eventos (exámenes).


Como otro ejemplo, consideremos el caso en el que las probabilidades se valoran en un 50% para
un contrato entre los trabajadores de la siderurgia y la industria siderúrgica, dado en el Cuadro 5.4.
Las ponderaciones relativas pueden considerarse como las probabilidades asignadas a los sucesos.

Evento Pesos Pesos relativos


Contrato 50 0.50
Sin contrato 50 0.50
100 1.00

Cuadro 5.4

Como puede verse, este enfoque subjetivo puede aplicarse a sucesos que aún no han ocurrido, o
a sucesos que sólo ocurren una vez, y no requiere un experimento con un gran número de ensayos ni
la asunción de una regularidad estadística. Además, el enfoque de la teoría de la primera frecuencia
también puede interpretarse en términos de este enfoque subjetivo como sigue:
Recordemos que el primer enfoque de la teoría de la frecuencia asignaba un número P (A) al
suceso A, que tenía la característica de que la frecuencia relativa m/n del suceso A (cuando el ex-
perimento se repite un gran número de veces) es prácticamente (casi) igual a P (A). Recordemos
también que en el enfoque subjetivo, P (A) era una medida de confianza que una persona razonable
asigna al suceso A. Por lo tanto, argumentaremos que si una persona se siente segura de que un
suceso ocurrirá con una frecuencia relativa m/n cuando el experimento se repita un gran número
de veces, asignará esta frecuencia relativa m/n al suceso como su probabilidad de ocurrencia.
La frecuencia relativa m/n de un suceso A fue considerada como una estimación de P (A) en la
discusión de la teoría de la frecuencia. Ahora simplemente asignamos este m/n al suceso A como
una estimación de la probabilidad del suceso A si estamos seguros de que el suceso A ocurrirá con
una frecuencia relativa m/n cuando n es grande.
Este enfoque subjetivo es evidentemente muy flexible y puede aplicarse a una gran variedad de
situaciones. En la discusión posterior se darán varios ejemplos de este enfoque. Por el momento,
sigamos con nuestro estudio de la probabilidad y consideremos a continuación el cálculo de la pro-
babilidad.

5.5 Axiomas de la teoría de la probabilidad

Con los antecedentes expuestos hasta este punto, enunciaremos primero los axiomas de la teoría
de la probabilidad y luego deduciremos varias reglas para el cálculo de probabilidades. Aunque se
utiliza la palabra “axioma”, estos axiomas no son a priori, sino que son suposiciones básicas hechas
por el hombre. Los tres axiomas son los siguientes:

1. Dado un experimento E con resultados posibles mutuamente excluyentes (sucesos simples)


E1 , E2 , . . . , En , se asigna un número no negativo,

P (Ei ) ≧ 0 (5.1)

se asigna a cada resultado y se denomina probabilidad del suceso Ei .


84 Teoría de la Probabilidad

2. La suma de las probabilidades de todos los posibles sucesos mutuamente excluyentes es la


unidad:

P (E1 ) + P (E2 ) + P (E3 ) + · · · + P (En ) = 1 (5.2)

3. La probabilidad de que ocurra cualquiera de los dos sucesos mutuamente excluyentes Ei o


Ej es igual a la suma de sus probabilidades:

P (Ei o Ej ) = P (Ei ) + P (Ej ) (5.3)

Ilustremos primero el significado de estos tres axiomas en términos del enfoque de la teoría
de la frecuencia. Supongamos que se lanza un dado 200 veces con los resultados que aparecen en
el Cuadro 5.5. Si tenemos un dado justo, podemos calcular las probabilidades a priori mediante el
principio de razón insuficiente. Pero supongamos que el dado no es justo.

Eventos f Frecuencia relativa


1 32 0.16
2 28 0.14
3 30 0.15
4 36 0.18
5 34 0.17
6 40 0.20
200 1.00

Cuadro 5.5

Los posibles resultados mutuamente excluyentes son E1 , E2 , E3 , E4 , E5 , E6 . Asignamos núme-


ros no negativos P (E1 ), P (E2 ), . . . , P (E6 ) a los sucesos. En nuestro caso, utilizaremos las frecuen-
cias relativas como estimaciones de P (Ei ). Así, como muestra la tabla

P (E1 ) = 0.16, P (E2 ) = 0.14, ..., P (E6 ) = 0.20

Además, la suma de las probabilidades de todos los posibles sucesos mutuamente excluyentes
es, como muestra el Cuadro 5.5

P (E1 ) + P (E2 ) + · · · + P (E6 ) = 0.16 + 0.14 + · · · + 0.20 = 1

Por último, la probabilidad de que se produzcan dos sucesos mutuamente excluyentes, ya sea E1
o E2 , es

P (E1 oE2 ) = P (E1 ) + P (E2 ) = 0.16 + 0.14 = 0.30

En cuanto al enfoque subjetivo, podemos utilizar pesos para expresar la importancia relativa de
un suceso. Hemos visto que cuando las ponderaciones se expresan en términos relativos, el cálcu-
lo de estas ponderaciones sigue los tres axiomas anteriores. Por tanto, las ponderaciones pueden
tratarse como probabilidades.
5.5. Axiomas de la teoría de la probabilidad 85

Generalicemos a continuación el tercer axioma. E1 y E2 son los sucesos de que ocurran 1 y 2


que ocurren. Sea A el suceso compuesto de que se produzca un 1 o un 2. Así,

P (A) = P (E1 o E2 ) = P (E1 ) + P (E2 )

E3 es el suceso de que se produzca un 3. Entonces, claramente, A y E3 son sucesos mutuamente


excluyentes. Así, a partir del tercer axioma

P (A o E3 ) = P (A) + P (E3 )

Pero esto puede reescribirse como

P (E1 o E2 o E3 ) = P (E1 ) + P (E2 ) + P (E3 )

Repitiendo este proceso, tenemos en general el siguiente resultado: Si E1 , E2 , . . . , En son suce-


sos mutuamente excluyentes,

P (E1 o E2 o . . . o En ) = P (E1 ) + P (E2 ) + · · · + P (En )

Esto se denomina regla de la adición.

Ejemplo No. 1
Supongamos que tenemos una caja con 2 bolas rojas, 3 negras y 5 verdes. Cada vez que
se extrae una bola, se devuelve a la caja. Por tanto, las probabilidades de sacar una bola
de un color determinado son

P (rojo) = 0.2, P (negro) = 0.3, P (verde) = 0.5


La probabilidad de sacar una bola roja o negra es, ya que son eventos mutuamente ex-
cluyentes
P (rojo o negro) = P (rojo) + P (negro) = 0.2 + 0.3 = 0.5
La probabilidad de sacar una bola roja o verde es

P (rojo o verde) = P (rojo) + P (verde) = 0.2 + 0.5 = 0.7


86 Teoría de la Probabilidad

Ejemplo No. 2
De cada 100 alumnos seleccionados, encontramos, en promedio
10 alumnos que tienen una calificación de 100
20 alumnos que tienen una calificación de 90
40 alumnos que tienen una calificación de 80
20 alumnos que tienen una calificación de 70
10 alumnos que tienen una calificación de 60
Hay 5 resultados (eventos) y las probabilidades de estos eventos son

P(calificación 100) = 0.10, P(calificación 90) = 0.20,


P(calificación 80) = 0.40, P(calificación 70) = 0.20,
P(calificación 60) = 0.10

La probabilidad de seleccionar a un alumno que tenga la calificación 100 o 90, ya que


son eventos mutuamente excluyentes, es

P (100 o 90) = P (100) + P (90) = 0.1 + 0.2 = 0.3

La probabilidad de seleccionar a un alumno que tenga una calificación 80, 70 o 60 es

P (80 o 70 o 60) = P (80) + P (70) + P (60) = 0.4 + 0.2 + 0.1 = 0.7

Podemos utilizar estos axiomas para derivar otras reglas del cálculo de probabilidades. En pri-
mer lugar, definiremos las probabilidades condicionales y las utilizaremos para encontrar una regla
de multiplicación. A continuación, definiremos la independencia estadística y encontraremos una
segunda regla de multiplicación.

5.6 Probabilidades condicionales

Supongamos que tenemos una urna con diez bolas numeradas del 1 al 10. Las 3 primeras bolas
(del 1 al 3) son de color rojo, y las otras bolas son de color verde. Hagamos el experimento de sacar
una bola al azar y devolverla a la urna. Asignaremos una probabilidad de 0.1 a cada bola, como se
muestra en el Cuadro 5.6.
5.6. Probabilidades condicionales 87

Evento Probabilidad
Eventos Probabilidad Compuesto Probabilidad Condicional
1 0.1 0.1/0.3 = 1/3
2 0.1 Rojo 0.3
3 0.1

4 0.1
5 0.1
6 0.1
7 0.1 Verde 0.7
8 0.1
9 0.1
10 0.1
1.0 1.0

Cuadro 5.6

Supongamos ahora que se ha extraído una bola y se nos dice que es una bola roja. Dado este
cambio en las condiciones en las que se realiza el experimento, ¿qué probabilidad habría que asignar
al suceso de sacar una bola con el número 3?
A partir de la información adicional de que es una bola roja, sabemos que la bola extraída es una
de las tres bolas numeradas como 1, 2 o 3.
En términos del concepto de población, esto puede interpretarse de la siguiente manera: La
población es la totalidad de las unidades elementales, es decir, las 10 bolas. Al proporcionar la in-
formación adicional y cambiar las condiciones iniciales, hemos restringido la población a una sub-
población de bolas rojas solamente. Esto se muestra gráficamente en la Figura 5.5. El gráfico de la
izquierda, (a), muestra la población total; el de la derecha, (b), muestra la sub-población formada
sólo por bolas rojas.

Verde

Rojo Rojo

(a) (b)

Figura 5.5

La cuestión es ahora: ¿Qué probabilidad debe asignarse a las tres bolas rojas de la sub-población?
Según los axiomas indicados en la Sección 5.5, la probabilidad total tiene que ser 1. También
sabemos que las probabilidades originales eran de 0.1 para cada bola. Por tanto, queremos asignar
nuevas probabilidades a estas tres bolas (sucesos) de forma que la proporción entre las probabilida-
des no cambie, pero que las probabilidades sumen 1.
88 Teoría de la Probabilidad

Evidentemente, se trata de un simple problema de toma de proporciones. Todo lo que tenemos


que hacer es encontrar primero la probabilidad total de la sub-población y luego dividir cada pro-
babilidad de los sucesos de la sub-población por este total. La probabilidad total de la sub-población
es

P (1) + P (2) + P (3) = 0.1 + 0.1 + 0.1 = 0.3

Entonces las nuevas probabilidades que asignamos son

P (1) 0.1 1
P (1|r) = = =
0.3 0.3 3
P (2) 0.1 1
P (2|r) = = =
0.3 0.3 3
P (3) 0.1 1
P (3|r) = = =
0.3 0.3 3

donde, por ejemplo, P (1|r) significa la probabilidad de sacar una bola numerada como 1, dada
una bola roja (véase el Cuadro 5.6).
El total de estas nuevas probabilidades que hemos asignado es
1 1 1
+ + =1
3 3 3

Las probabilidades obtenidas después de haber cambiado las condiciones iniciales se llaman
probabilidades condicionales.
Los dos puntos a tener en cuenta en esta discusión son los siguientes:

1. Al cambiar las condiciones iniciales en las que se realiza un experimento, restringimos los
eventos a considerar a una sub-población.

2. Las probabilidades asignadas a los sucesos de esta sub-población son tales que los cocientes de
las probabilidades entre los sucesos son los mismos que en la población original, pero suman
la unidad.

Ahora vamos a exponer nuestros resultados en forma de fórmula. Teníamos


0.1
P (1|r) =
0.3

donde 0.3 era la probabilidad de una bola roja; es decir

P (roja) = 0.3

Esta es la probabilidad total de la sub-población de bolas rojas; y 0.1 es la probabilidad del suceso
conjunto de una bola roja numerada como 1. Recordemos que un suceso conjunto se mostraba con
1 y rojo. Por lo tanto, tenemos,
P (1 y roja) = 0.1
5.6. Probabilidades condicionales 89

Así, nuestro resultado es

P (1 y r)
P (1|r) =
P (roja)
Probabilidad del evento conjunto 1 y r
=
Probabilidad de la sub-población

Apliquemos este resultado a la pregunta: ¿Cuál es la probabilidad de seleccionar un 5, dada una


bola verde?
P (5 y verde) 0.1 1
P (5| verde) = = =
P (verde) 0.7 7

De forma similar podemos encontrar


P (5 y roja) 0
P (5| roja) = = =0
P (roja) 0.5

Obviamente, 5 y rojo es un suceso imposible.

Ejemplo No. 3
Dada una urna con 10 bolas numeradas del 1 al 10, ¿cuál es la probabilidad de seleccio-
nar la bola numerada 5 después de sacar una bola no numerada 5?
En el estado original, a cada bola se le asigna una probabilidad de 1/10 = 0.1 (Figu-
ra 5.6). Añadir la condición de que se saque una bola no numerada 5 y no se sustituya
es restringir la población a la subpoblación de 9 bolas. Por lo tanto, las probabilidades
que asignamos a las bolas de esta subpoblación se obtienen dividiendo la probabilidad
de cada bola (0.1) entre la probabilidad total de la subpoblación (0.9). Así pues,
P (5|no5) se lee como la probabilidad de seleccionar un 5, dado (suponiendo) que se
selecciona primero una bola no numerada como 5. En términos de nuestra fórmula tene-
mos
El suceso “5 y no 5” es igual al suceso 5. Por tanto,

P (5 y no 5) = P (5) = 0.1

y por lo tanto
0.1 1
P (5| no 5) = =
0.9 9

(a) (b)

Figura 5.6

Con estos antecedentes, definamos ahora la probabilidad condicional como sigue: Si A es un


suceso con probabilidad positiva, la probabilidad condicional de B, dado A, se define como
90 Teoría de la Probabilidad

P (B ∩ A)
P (B|A) =
P (A)

Hemos restringido la población total por una hipótesis A y hemos formado una sub-población
a partir de la cual calculamos la probabilidad de B. Estamos eligiendo A como el nuevo espacio
muestral. Por lo tanto, la probabilidad total en el nuevo espacio muestral en términos de las antiguas
probabilidades es P (A). Como es necesario que la probabilidad total en el nuevo espacio muestral
sea la unidad, tenemos que ajustar las probabilidades en A por el factor constante 1/P (A).

Ejemplo No. 4
Sea A el caso de que la persona sea un hombre. Entonces, la probabilidad de selec-
cionar a una persona que tenga tuberculosis, dado que es un hombre, es P (B|A) =
P (B ∩ A)
P (A)
donde P (B ∩ A) es la probabilidad de seleccionar a una persona que tenga tuberculosis
y sea un hombre. P (A) es la probabilidad de seleccionar a un varón.
Por ejemplo, supongamos que las probabilidades de los sucesos son las que se muestran
en el Cuadro 5.7.
El STB en el cuadro significa sin tuberculosis. La probabilidad condicional que buscamos
es

P (T B ∩ varón)
P (TB | varón) =
P (varón)
En términos de frecuencias, esto puede mostrarse como se calcula en el Cuadro 5.8. Su-
ponemos que se han seleccionado 700 personas.

Evento Probabilidad
Eventos Probabilidad Compuesto Probabilidad Condicional
Varón, TB 0.05 0.05/0.5 = 0.1
Varón, STB 0.45 Varón 0.5 0.45/0.5 = 0.9

Mujer, TB 0.10 0.1/0.5 = 0.2


Mujer, STB 0.40 Mujer 0.5 0.4/0.5 = 0.8
1.00 1.00

Cuadro 5.7
5.6. Probabilidades condicionales 91

Frecuencia Evento Frecuencia


Eventos Frecuencia Relativa Compuesto Frecuencia Relativa
Varón, TB 35 0.05
Varón, STB 315 0.45 Varón 350 0.5

Mujer, TB 70 0.10
Mujer, STB 280 0.40 Mujer 350 0.5
700 700

Cuadro 5.8

Las frecuencias relativas se utilizan como estimaciones de las probabilidades. El resultado compu-
tacional de la probabilidad condicional P (T B| Varón) es el mismo que el anterior, 0.1.

Ejemplo No. 5
Sea B el suceso de que una persona tenga un coeficiente intelectual (CI) superior a 110
y A el suceso de que la persona elegida sea universitaria. La probabilidad de que una
persona elegida al azar tenga un CI superior a 110, dado que es un graduado universita-
rio, es

P (B ∩ A)
P (B | A) =
P (A)
donde P (B ∩ A) es la probabilidad de que la persona elegida tenga un coeficiente in-
telectual superior a 110 y sea un titulado universitario. P (A) es la probabilidad de elegir
a una persona con estudios universitarios. A modo de ejemplo, supongamos que las
probabilidades son las que aparecen en el Cuadro 5.9.
La probabilidad condicional que buscamos es

P (superior a 110 ∩ universidad) 0.3


P (superior a 110 | universidad) = = = 0.75
P (A) 0.4
Esto se muestra gráficamente en la Figura 5.7.

Evento Probabilidad
Eventos Probabilidad Compuesto Probabilidad Condicional
Univ., sup. a 110 0.3 0.3/0.4 = 0.75
Univ., 110 o menos 0.1 Universidad 0.4 0.1/0.4 = 0.25

Sin univ., sup. a 110 0.2 0.2/0.6 = 0.33


Sin univ., 110 o menos 0.4 Sin universidad 0.6 0.4/0.6 = 0.67
1.00 1.00

Cuadro 5.9
92 Teoría de la Probabilidad

Sin Universidad
+ 110
Universidad 0.2 Universidad
+ 110 110 o − + 110
0.3 0.75
0.4
110 o − 110 o −
0.1 0.25
0.4 0.6 1.0

Figura 5.7

Ejemplo No. 6
Utilizando las probabilidades del Ejemplo 3, hallemos la probabilidad condicional de
seleccionar a un estudiante universitario, dada una persona con un CI superior a 110. Es
decir, hallemos P (universidad | mayor de 110). Para ello, construimos el Cuadro 5.10. La
probabilidad condicional que buscamos es

P (universidad ∩ 110) 0.3


P (universidad | mayor de 110) = = = 0.6
P (superior a 100) 0.5

Este resultado se muestra gráficamente en la Figura 5.8.

Evento Probabilidad
Eventos Probabilidad Compuesto Probabilidad Condicional
Sup. a 110, Universidad 0.3 0.3/0.5 = 0.6
Sup. a 110, sin Universidad 0.2 100 o menos 0.5 0.2/0.5 = 0.4

110 o menos, Univ. 0.1 0.1/0.5 = 0.20


110 o menos, sin Univ. 0.4 menos de 109 0.5 0.4/0.5 = 0.80
1.00 1.00

Cuadro 5.10

Sup. a 110 110 o menos Sup. a 110


Univ Univ Univ
0.3 0.1 0.6
Sin univ Sin univ Sin univ
0.2 0.4 0.4
0.5 0.5 1.0

Figura 5.8

5.7 Una regla para la multiplicación de probabilidades

La definición de las probabilidades condicionales se ha dado como


P (B ∩ A)
P (B|A) =
P (A)
5.7. Una regla para la multiplicación de probabilidades 93

A partir de esto encontramos

P (B ∩ A) = P (A)P (B|A)

También sabemos que

P (A ∩ B)
P (A|B) =
P (B)

y por tanto

P (A ∩ B) = P (B)P (A|B)

El suceso A&B es el suceso conjunto de A y B. Significa el suceso en el que A y B ocurren


simultáneamente. Claramente, A ∩ B y B ∩ A son iguales. Por lo tanto,

P (A ∩ B) = P (A)P (B|A) = P (B)P (A|B)

En palabras podemos decir: La probabilidad del suceso conjunto A y B es el producto de P (A)


y P (B|A), o el producto de P (B) y P (A|B).

Ejemplo No. 7
De todos los estudiantes, el 30 por ciento recibe una calificación de 80 (suceso A). De
todos los estudiantes que reciben una 80, el 40 por ciento son mujeres (suceso B). ¿Cuál
es la probabilidad de que un estudiante seleccionado al azar sea una mujer y tenga una
calificación 80?
El suceso de que una mujer obtenga una calificación 80 es el suceso conjunto A y B.
También sabemos que

P (A) = 0.3, P (B|A) = 0.4


Entonces, a partir de nuestras reglas, encontramos

P (A ∩ B) = P (A)P (B|A) = 0.3 · 0.4 = 0.12


94 Teoría de la Probabilidad

Ejemplo No. 8
Supongamos que tenemos 5 estudiantes. ¿Cuál es la probabilidad de seleccionar al
primer y tercer alumno en ese orden? Supongamos que cada alumno tiene la misma
probabilidad de ser seleccionado. Entonces la probabilidad de seleccionar al primer
alumno (suceso A) es P (A) = 1/5.
La probabilidad de seleccionar al tercer alumno (suceso B), dado que el primer alumno
ha sido seleccionado, es (ya que ahora quedan cuatro alumnos)
1
P (B|A) =
4
Por tanto, la probabilidad del suceso A y B es
1 1 1
P (A ∩ B) = P (A)P (B|A) = · =
5 4 20

Como ejercicio de probabilidades condicionales, encontremos P (B|A) mediante la fórmula de


la probabilidad condicional. Tenemos

P (B ∩ A)
P (B|A) =
P (A)

Construyamos una tabla con todos los sucesos, el Cuadro 5.11. Los números 1 − 2, 1 − 3, y
demás, en la tabla significan: el orden de selección es (Primer alumno - Segundo alumno), (Primer
alumno - Tercer alumno), y así sucesivamente. En el Cuadro 5.11 encontramos

1
P (B ∩ A) 1
P (B|A) = = 20 =
P (A) 4 4
20

Evento Probabilidad
Eventos Probabilidad Compuesto Probabilidad Condicional
1-2 1/20 1/4
1-3 1/20 1/4
1-4 1/20 Primer estudiante 4/20 1/4
1-5 primero
2-1
2-3
2-4
... ...
5-3
5-4
1.00

Cuadro 5.11
5.8. Independencia estadística 95

5.8 Independencia estadística

Supongamos que se lanza una vez una moneda justa. El suceso de que salga escudo (suceso A)
es 1/2. Sea el suceso B el suceso de lanzar la moneda por segunda vez y obtener un escudo. ¿Cuál es
la probabilidad del suceso B (segundo escudo), dado el suceso A (primer escudo)? Es decir, ¿cuál
es P (B|A)?
Observamos que la aparición del segundo escudo no está influida por la primera. Es decir, la
aparición del segundo escudo es independiente del primero. En este caso, diremos que el suceso B
es estadísticamente independiente del suceso A.
En términos de símbolos, tenemos

1
P (B|A) = P (B) = (5.4)
2
Pero, como tenemos de la ecuación

P (B|A)P (A) = P (B)P (A|B)

vemos que si P (B|A) = P (B), entonces

P (A) = P (A|B) (5.5)

En otras palabras, si B es estadísticamente independiente de A, entonces A es estadísticamente


independiente de B. Si la aparición del segundo escudo es independiente del primero, entonces la
aparición del primero es independiente del segundo.
Por lo tanto, diremos: Si se cumple la fórmula (5.4) o (5.5), los sucesos A y B son estadísticamente
independientes.
La fórmula de la probabilidad condicional es
P (B ∩ A)
P (B|A) = (5.6)
P (A)

Si A y B son estadísticamente independientes, entonces a partir de las fórmulas (5.4) y (5.5),

P (B ∩ A) = P (B)P (A) (5.7)

y también, a partir de las fórmulas (5.5) y (5.6)

P (A ∩ B) = P (A)P (B) (5.8)

Las fórmulas (5.7) y (5.8) muestran que la probabilidad de que se produzcan conjuntamente los
sucesos A y B, estadísticamente independientes, es igual al producto de las probabilidades de estos
sucesos. De este modo, hemos obtenido una regla para la multiplicación de las probabilidades de
sucesos independientes.
Sustituyamos las fórmulas (5.7) y (5.8) en (5.6). Entonces
P (B ∩ A) P (B)P (A)
P (B|A) = = = P (B) (5.9)
P (A) P (A)
96 Teoría de la Probabilidad

De forma similar, cuando tenemos

P (A ∩ B) P (A)P (B)
P (A|B) = = (5.10)
P (B) P (B)

y sustituir la fórmula (5.7) o (5.8) en esta fórmula, obtenemos

P (A|B) = P (A) (5.11)

Nuestro resultado muestra que las fórmulas (5.7) y (??) implican independencia estadística.
Por lo tanto, diremos: Si la fórmula (5.7) o (5.8) se cumple, los sucesos A y B son estadísticamente
independientes.
Esta regla de multiplicación de sucesos independientes puede generalizarse a cualquier número
de sucesos. Por ejemplo, dejemos que el suceso A sea escudo en el primer lanzamiento de una mo-
neda justa, que el suceso B sea escudo en el segundo lanzamiento y que el suceso C sea escudo en
el tercer lanzamiento. Observamos que los tres sucesos son independientes entre sí. En particular,
la unión A y B es independiente de C. Por lo tanto, aplicando nuestra regla, encontramos que la
probabilidad del suceso conjunto A y B y C (es decir, obtener una escudo en el primer, segundo y
tercer lanzamiento) es

P (A ∩ B ∩ C) = P (A ∩ B)P (C)

Pero
P (A ∩ B) = P (A)P (B)

Por lo tanto,
P (A ∩ B ∩ C) = P (A)P (B)P (C) (5.12)

y en nuestro caso actual, tenemos

1 1 1 1
P (A ∩ B ∩ C) = · · =
2 2 2 8

Esta fórmula (5.12) puede generalizarse de forma similar a más de tres sucesos.

Ejemplo No. 9
La máquina A tiene una probabilidad de 0.1 de pararse por una avería. La máquina B
tiene una probabilidad de 0.2 de pararse. Se supone que las máquinas A y B son esta-
dísticamente independientes entre sí. ¿Cuál es la probabilidad de que ambas máquinas
se detengan al mismo tiempo?

P (A para ∩ B para) = P (A para) · P (B para)


= 0.1 · 0.2 = 0.02
5.8. Independencia estadística 97

Ejemplo No. 10
En una oficina hay tres mecanógrafos y cada uno tiene una probabilidad de 0.2 de estar
ausente. Suponiendo que los eventos de estar ausente son independientes, ¿cuál es la
probabilidad de que las tres secretarias estén ausentes el mismo día? Sean A, B y C los
sucesos de ausencia de las respectivas secretarias. Entonces

P (A ∩ B ∩ C) = P (A)P (B)P (C) = 0.2 · 0.2 · 0.2 = 0.008

Ejemplo No. 11
Dada una urna que tiene 10 bolas rojas, 20 negras y 70 verdes. Se seleccionan cuatro
bolas al azar, de una en una, y se devuelven a la urna. ¿Cuál es la probabilidad de selec-
cionar rojo, negro, verde y verde en ese orden?

P (rojo ∩ negro ∩ verde ∩ verde) = 0.1 · 0.2 · 0.7 · 0.7 = 0.0098

Fíjate bien en la salvedad, “en ese orden”. El caso en el que no se tiene en cuenta el orden se
analiza en el capítulo 7.
El lector astuto puede plantear ahora la pregunta: ¿Son legítimas estas probabilidades que se
han obtenido a partir de la regla de la multiplicación? Para que sean probabilidades legítimas, de-
ben satisfacer el axioma básico, que establece que las probabilidades deben ser no negativas y ade-
más sumar la unidad. Que sean no negativas es obvio, ya que son el producto de probabilidades no
negativas. Lo que hay que comprobar es si suman la unidad.
Consideremos como ejemplo una moneda cargada, en la que

P (Escudo) = P1 , P (Corona) = P2

Como el céntimo está cargado, suponemos que P1 6= 1/2, P2 6= 1/2, P1 + P2 = 1.


Dejemos que otra moneda cargada tenga las probabilidades

P (Escudo) = P3 , P (Corona) = P4

donde P3 6= 1/2, P4 =
6 1/2, P3 + P4 = 1.
Cuando ambas monedas se lanzan juntas, hay cuatro resultados posibles (es decir, sucesos sim-
ples), como se muestra en la Figura 5.9. Los resultados son:

(E, E), (E, C), (C, E), (C, C)

Utilizando la regla de la multiplicación, podemos asignar probabilidades a estos cuatro sucesos


simples. Son las siguientes:
98 Teoría de la Probabilidad

Moneda 2

E C Moneda 1

Figura 5.9

P (E, E) = P (E)P (E) = P1 · P3


P (E, C) = P (E)P (C) = P1 · P4
P (C, E) = P (C)P (E) = P2 · P3
P (C, C) = P (C)P (C) = P2 · P4

Es evidente que cada una de estas probabilidades es no negativa. Comprobemos a continuación


si suman la unidad.
P1 P3 + P1 P4 + P2 P3 + P2 P4 = P1 (P3 + P4 ) + P2 (P3 + P4 )
= P1 · 1 + P2 · 1 = P1 + P2 = 1

Es decir, las probabilidades que asignamos a los cuatro sucesos simples, utilizando la regla de
la multiplicación, satisfacen los dos requisitos del axioma básico y, por tanto, son probabilidades
legítimas.
Resulta que esto es cierto en general. Por lo tanto, podemos proceder y utilizar la regla de la mul-
tiplicación para asignar probabilidades a sucesos simples que han sido generados por experimentos
estadísticamente independientes.

5.9 Expectativa matemática y variable aleatoria

Antes de concluir este capítulo, consideremos dos ideas más, la expectativa matemática y la va-
riable aleatoria, que utilizaremos una y otra vez en nuestras discusiones posteriores. La expectativa
matemática de una variable X, como veremos, es simplemente su media aritmética ponderada pre-
sentada en términos de probabilidad. Primero ilustraremos este nuevo concepto.
Supongamos que cuando se lanza una moneda justa se obtienen 2 dólares si sale escudo y 3
dólares si sale corona. ¿Cuánto espera obtener por cada lanzamiento cuando se juega a este juego
una y otra vez? Supongamos que el juego se juega 10 veces y que hay 4 escudos y 6 coronas. Entonces
la cantidad total de dinero que se obtiene es

$2 · 4 + $3 · 6 = 26$

La media por partida es


$2 · 4 + $3 · 6 4 6
=2· +3· = $2.6
10 10 10
5.9. Expectativa matemática y variable aleatoria 99

Estos 4/10 y 6/10 son las frecuencias relativas de obtener una cabeza y una cola. Cuando este
juego se juega muchas veces, estas frecuencias relativas se acercarán a 1/2. Por lo tanto, podemos
decir: Si el juego se juega un gran número de veces, la cantidad media de dinero que se obtiene por
partida será aproximadamente

1 1
$2 · + $3 · = $2.5
2 2
Replanteamos los resultados en términos de símbolos: La variable X es la cantidad de dinero
recibida, y los valores que toma son x1 = $2.00 y x2 = $3.00. Cuando el juego se juega un gran
número de veces, hay un gran número de observaciones, pero son x1 = $2, 00 o x2 = $3, 00. Sea
P (E) = 1/2 y P (C) = 1/2. Entonces, el resultado puede expresarse como

1 1
x1 P (E) + x2 P (C) = $2 · + $3 · = $2.5
2 2
Ahora podemos formalizar esta idea como sigue:
Sea X una variable con resultados x1 y x2 , que ocurren con probabilidad P (X = x1 ) y P (X =
x2 ). La esperanza matemática de la variable X, que denotamos por E(X), se define como
E(X) = x1 P (x1 ) + x2 P (x2 ) (5.13)
En general, si X tiene n resultados, entonces
E(X) = x1 P (x1 ) + x2 P (x2 ) + · · · + xn P (xn ) (5.14)

Ejemplo No. 12
Supongamos que se obtiene $1, $2, $3, $4, $5, $6, cuando se obtiene un 1, 2, 3, 4, 5 o 6 al
lanzar un dado. Entonces la variable X tiene seis resultados: $1, $2, . . . , $6. Por lo tanto,
suponiendo un dado justo, el valor esperado de X es

E(X) = $1 · P (X = 1) + $2 · P (X = 2) + $3 · P (X = 3) + $4 · P (X = 4)
+ $5 · P (X = 5) + $6 · P (X = 6)
1 1 1 1 1 1 21
= $1 · + $2 · + $3 · + $4 · + $5 · + $6 · = $ = $3.5
6 6 6 6 6 6 6

Ejemplo No. 13
Considere una lotería con 1000 boletos. Cada billete es de $25 y el premio es de 12500
dólares. La variable X tiene dos resultados, ganar ($12500 - $25) o perder $25. Por tanto,
la esperanza matemática de X es

E(X) = ($12500 − $25) · P (ganar) + (−$25) · P (perder)


1 999
= ($12500 − $25) · + (−$25) ·
1000 1000
= $12.475 − $24.975 = −$12.5

Es decir, los patrocinadores de la lotería pueden esperar ganar $12.5 por billete. Así, por
1000 boletos, ganan 12500 dólares. Esto es coherente con el hecho de que la venta total
de boletos es de 25000 dólares y el premio es de 12500 dólares.
100 Teoría de la Probabilidad

Ejemplo No. 14
En el ejemplo anterior, suponga que ha comprado 500 boletos. ¿Cuál es la expectativa
matemática? Como 500 boletos le costarán 12500 dólares,

E(X) = ($12500 − $12500) · P (ganar)(−$12500) · P (perder)


500 500
= ($12500 − $12500) · + (−$12500) ·
1000 1000
= −$6250

Como se ve, la esperanza matemática de X es lo mismo que encontrar la media ponderada de


X.
Definiremos, de forma no rigurosa, una variable aleatoria como una variable con probabilidades
asociadas. Esto se discutirá de nuevo en el Capítulo 16. En muchos casos utilizaremos el término
variable como abreviatura de “variable aleatoria”.
Sea X el resultado de un lanzamiento de un dado. X tiene 6 resultados posibles y a cada resultado
se le asocia una probabilidad de 1/6. Esta X es una variable aleatoria.
Utilizando el concepto de expectativa, podemos definir la varianza de una variable aleatoria X
como sigue:

V ar(X) = E[X − E(X)]2 (5.15)

Supongamos que la variable aleatoria X tiene n resultados. Entonces, como hemos visto ante-
riormente, E(X) es la media de la población y, por tanto, podemos escribir E(X) = µ. La varianza
se convierte así en

V ar(X) = E(X − µ)2


= (x1 − µ)2 · P (X = x1 ) + (x2 − µ)2 · P (X = x2 ) (5.16)
+ · · · + (xn − µ) · P (X = xn )
2

Supongamos que cada resultado tiene la misma probabilidad de 1/n. Entonces

1 
V ar(X) = (x1 − µ)2 + (x2 − µ)2 + · · · + (xn − µ)2
n
1X
n
= (xi − µ)2
n
i=1

que es la fórmula que utilizamos en el capítulo 4.

5.10 Resumen

Comprenda las seis ideas siguientes:


5.10. Resumen 101

1. Cuando A y B son eventos mutuamente excluyentes, entonces

P (A o B) = P (A) + P (B)

2. La probabilidad condicional de B, dado A, es

P (B ∩ A)
P (B|A) = , P (A) > 0
P (A)

3. Cuando A y B no son estadísticamente independientes, entonces

P (B ∩ A) = P (A)P (B|A)

4. Cuando A y B son estadísticamente independientes, entonces

P (B|A) = P (B)

y
P (A ∩ B) = P (A)P (B)

5. La expectativa de X es

E(X) = x1 · P (X = x1 ) + x2 · P (X = x2 ) + · · · + xn · P (X = xn )

6. La varianza de X es

V ar(X) = E(X − µ)2


= (x1 − µ)2 · P (X = x1 ) + (x2 − µ)2 · P (X = x2 )
+ · · · + (xn − µ)2 · P (X = xn )
CAPÍTULO 6
La Curva Normal y el Cuadro de Áreas
Normales

6.1 Introducción

Para nuestra posterior discusión de la inferencia estadística, necesitamos dos preliminares: la


probabilidad, que se discutió en el capítulo 5, y la curva normal y la tabla de áreas normales, que son
los temas de este capítulo. Queremos discutir y aprender a utilizar la tabla de áreas normales para
poder calcular la probabilidad de un suceso. Una discusión formal de la curva normal y de la tabla
de áreas normales es matemáticamente demasiado avanzada para este libro, pero, sin embargo, su
significado y uso pueden explicarse sin derivaciones matemáticas formales.
Como se verá más adelante, la curva normal tiene una importancia fundamental en la estadística
porque un gran número de fenómenos pueden explicarse en términos de la distribución normal, de
la que hablaremos más adelante. Varios matemáticos contribuyeron a su formulación, entre ellos
Abraham De Moivre (1667-1754), Pierre S. Laplace (1749- 1827) y Karl Gauss (1777-1855). Aunque
De Moivre fue el primero en desarrollar la distribución normal, su trabajo pasó desapercibido, y
fue el trabajo de Gauss, que apareció más tarde, el que se hizo más conocido entre los matemáticos.
Por ello, la distribución normal se denomina a veces distribución gaussiana, aunque este término se
utiliza menos hoy en día en estadística.
La curva normal es la expresión gráfica de la distribución normal, que es una distribución de
frecuencias que tiene muchas frecuencias cerca del centro de la distribución y luego se reduce gra-
dualmente de forma simétrica. Un ejemplo es la distribución de los coeficientes intelectuales que se
muestra en el Cuadro 6.1.
La Figura 6.1 es el histograma de frecuencias y el polígono de frecuencias de la distribución nor-
mal del Cuadro 6.1. A medida que aumentamos el número de observaciones y hacemos más peque-
ños los intervalos de clase, podemos ver intuitivamente que el polígono de frecuencias se convertirá
en una curva suave, como se muestra en la Figura 6.2. Esta curva suave puede considerarse como
un modelo ideal de una situación real.
Al igual que ocurría en la teoría de la probabilidad, donde las probabilidades teóricas se utiliza-
ban como modelos para representar situaciones reales, la curva normal también puede considerarse
como un modelo teórico que utilizamos por su utilidad para analizar situaciones reales. Este pun-
to relativo a la utilidad de la curva normal y de la distribución normal para el análisis de diversas

103
104 La Curva Normal y el Cuadro de Áreas Normales

CI f
60 - 69 26
70 - 79 56
80 - 89 145
90 - 99 230
100 - 109 235
110 - 119 182
120 - 129 82
130 - 139 31
140 - 149 13
1000

Cuadro 6.1

Figura 6.1

situaciones prácticas quedará claro a medida que se desarrolle nuestra discusión y se presenten ilus-
traciones.
Las propiedades de esta curva normal son

1. Es simétrica y tiene forma de campana.

2. Como resultado, la media está en el centro y divide el área por la mitad, y la media, la mediana
y la moda son idénticas.

3. Teóricamente, la curva se extiende en ambas direcciones, acercándose gradualmente al eje


horizontal. Se extiende hasta el infinito, pero nunca llega al eje horizontal.

El tercer punto puede desconcertar al lector porque, en nuestra ilustración, la distribución del
6.2. Explicación heurística de la curva normal y la tabla de áreas normales 105

Figura 6.2

CI tiene un límite inferior de cero, y todavía no se ha encontrado a nadie con un CI superior a 250.
Como se ha mencionado, la curva normal es un modelo ideal, y las distribuciones reales con las
que tratamos son aproximaciones y suelen estar truncadas en ciertos límites superiores e inferiores.
No obstante, se suelen tratar como si fueran las distribuciones normales ideales que se utilizan para
calcular las probabilidades de los sucesos. Esta aproximación es admisible y suele tener muy poco
efecto en los resultados prácticos que se derivan.
Nuestro objetivo, como decíamos al principio, es aprender a encontrar la probabilidad de un
suceso utilizando la curva normal y la tabla de áreas normales. Construyamos ahora una distribución
hipotética y discutamos este problema.

6.2 Explicación heurística de la curva normal y la tabla de áreas normales

En el capítulo 5 afirmamos que la suma de las probabilidades de todos los sucesos posibles es
la unidad. También sabemos que el área bajo una curva normal que representa una distribución de
frecuencias muestra gráficamente todos los sucesos posibles.
Por tanto, para establecer una conexión entre la teoría de la probabilidad y una curva normal,
queremos representar el área bajo una curva normal en términos de proporciones y decir que el área
total bajo la curva es la unidad. Utilizaremos un caso hipotético para derivar esta propiedad.
Supongamos que se dispara 200 veces con un rifle fijo a un blanco dividido en franjas vertica-
les de 1 pulgada (Figura 6.3). Después de contar los disparos sobre el blanco, digamos que hemos
obtenido los resultados que se muestran en el Cuadro 6.2.
Por ejemplo, entre 1 y 2 pulgadas, hubo 32 disparos; y así sucesivamente. Como hay 200 disparos,
y 32 de ellos cayeron entre 1 y 2 pulg. del centro, la frecuencia relativa de disparos que caen entre 1
y 2 pulg. es 32/200 = 16/100, o sea 0.16.
106 La Curva Normal y el Cuadro de Áreas Normales

-4 -3 -2 -1 0 1 2 3 4

Figura 6.3

Frecuencia
Clase Frecuencia Relativa
-5 a -4 2 0.01
-4 a -3 4 0.01
-3 a -2 12 0.01
-2 a -1 28 0.01
-1 a 0 48 0.01
0a1 52 0.01
5a2 32 0.01
5a3 16 0.01
5a4 4 0.01
4a5 2 0.01
200 1.00

Cuadro 6.2

Utilizamos la tabla de frecuencias para dibujar un histograma con una escala vertical en el lado
izquierdo, como en la Figura 6.4. Entonces el área de este histograma será
Área =(1 · 2) + (1 · 4) + (1 · 12) + · · · + (1 · 16)+
(1 · 4) + (1 · 2) = 200

Es decir, el área es igual a las frecuencias totales.


Como queremos el área en términos de proporciones, dividamos el área total por N = 200,
que es el número total de frecuencias. Entonces, en términos proporcionales, el área del histograma
es 1.00.
Dividir el área total entre N es lo mismo que dividir cada frecuencia entre N y luego sumar. Es
decir
Área (1 · f1 ) + (1 · f2 ) + · · · + (1 · f9 ) + (1 · f10 )
=
N N
f1 f2 f9 f10
= + + ··· + +
N N N N
=1
donde f1 , f2 , . . . , f10 son las frecuencias. Las frecuencias divididas por N (es decir, fi /N ) nos dan
las frecuencias relativas. Esto significa que hemos trazado un histograma utilizando frecuencias re-
lativas en lugar de frecuencias. Por lo tanto, todo lo que tenemos que hacer es dividir las unidades
de nuestra escala vertical por 200. El resultado se muestra en los paréntesis de la escala vertical del
histograma.
Antes, uno de los rectángulos del histograma mostraba la frecuencia de disparos que caían en
ese intervalo. Ahora muestra la frecuencia relativa de disparos que caerían en ese intervalo. Consi-
6.2. Explicación heurística de la curva normal y la tabla de áreas normales 107

Figura 6.4

deraremos esta frecuencia relativa como una estimación de las probabilidades. Por ejemplo, entre 1
y 2 pulgadas, como hemos dicho anteriormente, habría 32 disparos. Ahora decimos que la probabi-
lidad de que un disparo (es decir, un suceso) caiga entre 1 y 2 pulgadas es de 0.16. La probabilidad
de que un disparo caiga entre 1 y 3 pulgadas será de 0.16 + 0.08 = 0.24. La probabilidad de que
un disparo caiga en algún lugar del objetivo será la suma de todos los rectángulos que componen el
área completa, que es 1.
Ajuste una curva de frecuencias suave a este histograma y suponga que hemos podido ajustar
la curva de forma que el área bajo la curva y el área del histograma sean iguales. Así, el área bajo la
curva de frecuencias (que suponemos que es una curva normal) es igual a 1.00.
Como ya hemos dicho, el punto medio de la curva normal es la media. Las propiedades de la
curva normal son tales que podemos calcular las proporciones del área situada entre la media y el
valor indicado utilizando la desviación estándar. Por ejemplo, cuando el valor indicado (x) está a una
desviación estándar de la media µ, la proporción del área entre x1 y µ (es decir, el área sombreada
en la Figura 6.5) con respecto al área total bajo la curva es del 34.13%.
Cuando x2 está a 2 desviaciones estándar, el área entre x2 y µ es del 47.73%. Siempre medimos la
desviación de x respecto a la media µ. Los matemáticos han calculado todas estas proporciones para
nosotros y las han organizado en forma de tabla. Esto se conoce como la tabla de áreas normales.

Cómo utilizar la tabla de áreas normales

Supongamos que la distribución del CI de los reclutas del ejército tiene una distribución normal,
con µ = 100 y σ = 10. Entonces, ¿cuál es la proporción de reclutas del ejército que tienen un CI
entre 100 y 105? Queremos encontrar en un diagrama el área de la proporción sombreada en la
Figura 6.6.
La desviación entre 100 y 105 en términos de desviaciones estándar es
108 La Curva Normal y el Cuadro de Áreas Normales

Figura 6.5

x−µ 105 − 100 5


z= = = = 0.50
σ 10 10

Es decir, la desviación es de 0.5 desviaciones típicas. La desviación se ha normalizado. Utiliza-


remos la letra z para mostrar este tipo de operaciones.

Figura 6.6
6.2. Explicación heurística de la curva normal y la tabla de áreas normales 109

Mostremos ahora cómo se utiliza la tabla de áreas normales para encontrar la proporción som-
breada. El Cuadro ?? es una parte de la tabla de áreas normales. (Véase la tabla 2 en el Apéndice para
la tabla completa.) Dado que la desviación x − µ es 0.5 de desviación estándar, encontramos que la
proporción correspondiente en la tabla es 0.3085. Este 0.3085 es la proporción del área sombreada
en la cola de la Figura 6.7. Observe que las proporciones en la tabla del área normal muestran el área
bajo el extremo de la cola de la curva normal.

Figura 6.7

Como el área total bajo la curva normal es 1.0, cada mitad es 0.5. Por lo tanto, el área sombreada
que buscamos en la Figura 6.6 es
0.5 − 0.3085 = 0.1915

Es decir, la proporción del área sombread.a es 0.1915, o el 19.15 por ciento, del área total.
¿Qué significa esto? En primer lugar, hay que tener en cuenta que el acontecimiento considerado
es la aparición de reclutas con un CI entre 100 y 105. Denotemos este suceso por A. Entonces,
la probabilidad que buscamos es la probabilidad de que haya reclutas con CI entre 100 y 105. Es
decir, P (A) A partir de nuestra discusión del área bajo la curva normal, vemos que 0,1915 es esta
probabilidad; es decir,

P (A) = 0.1915

Hay dos tipos de tablas de área normal: Una da la proporción del área del extremo de la cola,
como se muestra en el área designada por I en la Figura 6.8; una segunda da el área que se designa
por II en la Figura 6.8. Si la proporción de I es 0.20, entonces la proporción dada por el segundo tipo
de tabla es 0.50 − 0.20 = 0.30.
La tabla que se utiliza en este libro es del primer tipo porque, en nuestra discusión subsiguiente
sobre la inferencia estadística, normalmente nos preocuparemos por el área en la cola de la curva
normal.
110 La Curva Normal y el Cuadro de Áreas Normales

Figura 6.8

Ejemplo No. 3
¿Cuál es la proporción de reclutas del ejército que tienen un CI entre 100 y 105.7? Supo-
nemos que µ = 100 y σ = 10
105.7 − 100 5.7
z= = = 0.57
10 10
En la tabla de áreas normales encontramos 0.2843. Por tanto, la proporción que quere-
mos es

0.5000 − 0.2843 = 0.2157


Es decir, el 21.57 por ciento de los reclutas tienen un CI entre 100 y 105.7. O bien, po-
demos decir que la probabilidad de que haya reclutas con un CI entre 100 y 105.7 es de
0, 2157.

Ejemplo No. 4
¿Cuál es la proporción de reclutas del ejército entre 103 y 105.7? Dibujemos un diagrama
(Figura 6.9) como ayuda visual para mostrar esta situación. Primero hallemos z:
103 − 100 3.0
z= = = 0.30
10 10
Entonces, a partir de la tabla de áreas normales, la proporción del área a la derecha de
103 es 0.3821. Sabemos por el ejemplo 1 que la proporción correspondiente a 105.7 es
0.2843. Por tanto, el área sombreada que buscamos es

0.3821 − 0.2843 = 0.0978


6.2. Explicación heurística de la curva normal y la tabla de áreas normales 111

Figura 6.9

Ejemplo No. 5
¿Qué proporción de los reclutas del ejército tienen un CI inferior a 83.6? Para ello tene-
mos
83.6 − 100 −16.4
z= = = −1.64
10 10
Gráficamente, es la cola de la curva de la Figura 6.10. A partir de la tabla de áreas nor-
males encontramos que es 0.0505. Observe que el signo menos indica que el área es el
lado izquierdo de la curva normal. El signo positivo indica que se trata del lado derecho
de la curva normal.

Ejemplo No. 6
¿Cuál es la proporción por encima de 120? Cuando
120 − 100
z= =2
10
encontramos en la tabla de áreas normales que la proporción es 0.0228.
Tres proporciones que aparecerán una y otra vez en la discusión posterior son

z = 1.28 . . . 0.1003 (que es aproximadamente10%)


z = 1.64 . . . 0.0505 (que es aproximadamente5%)
z = 2.00 . . . 0.0228 (que es aproximadamente2%)

Se recomienda que el alumno memorice las dos primeras proporciones.


112 La Curva Normal y el Cuadro de Áreas Normales

Figura 6.10

Expresemos ahora los resultados de los ejemplos anteriores en términos de probabilidad. enun-
ciados para que podamos ver claramente la relación entre las probabilidades y la curva normal de
área. Para el ejemplo 1. sabemos que

x−µ
z=
σ

y por tanto

x − 100 105.7 − 100


z= = = 0.57
10 10

Por tanto, podemos escribir

P (x ≥ 105.7) =
 
x − 100 105.7 − 100
=P ≥
10 10
= P (z ≥ 0.57)
= 0.2843

Para el Ejemplo 2 tenemos


6.3. Discusión de la distribución normal 113

P (103 ≤ x ≤ 105.7) =
 
103 − 100 x − 100 105.7 − 100
=P ≤ ≤
10 10 10
= P (0.3 ≤ z ≤ 0.57)
= 0.3821 − 0.2843 = 0.0978

Para el Ejemplo 3 tenemos

P (x ≤ 83.6) =
 
x − 100 83.6 − 100
=P ≤
10 10
= P (z ≤ −1.64)
= 0.0505

6.3 Discusión de la distribución normal

En la Sección 6.1 se mencionó que la curva normal tiene una importancia fundamental en es-
tadística porque un gran número de fenómenos pueden explicarse en términos de la distribución
normal. Una pregunta que surge naturalmente es: ¿Por qué? Para responder a esta pregunta, primero
tenemos que investigar varias propiedades estadísticas relacionadas con la distribución normal.

6.3.1 Suma de variables normales independientes

Sea ξ1 , una variable que denota el CI de los alumnos de la escuela A, y sea ξ2 una variable que
denota el CI de los alumnos de la escuela B. Supongamos que ξ1 , se distribuye normalmente con
media µ1 y varianza σ12 y que ξ2 también se distribuye normalmente con media µ2 y varianza σ22 .
Supondremos también que ξ1 y ξ2 son estadísticamente independientes.
Enunciamos sin demostración los dos teoremas siguientes:

La suma de variables independientes distribuidas normalmente está a su vez distribuida nor-


malmente. Es decir, sea

ξ = ξ1 + ξ2
Entonces ξ se distribuye normalmente. Además, la media µ y la varianza σ 2 de ξ vienen dadas
por

µ = µ1 + µ2
σ 2 = σ12 + σ22
114 La Curva Normal y el Cuadro de Áreas Normales

Si ξ se distribuye normalmente, donde

ξ = ξ1 + ξ2

entonces ξ1 y ξ2 también se distribuyen normalmente. Aunque todo se ha planteado en tér-


minos de dos variables, el resultado es válido para n variables.

6.3.2 Generalización

Una cuestión que se plantea ahora es: ¿Qué pasa si las variables aleatorias no se distribuyen nor-
malmente? Resulta que, bajo ciertas condiciones, la suma de variables aleatorias independientes es
asintóticamente normal. Asintóticamente normal significa que la suma se acercará a una distribu-
ción normal a medida que el número (n) de variables aleatorias que se suman sea grande. Esto, muy
poco rigurosamente, se llamará teorema del límite central.
Es demasiado difícil discutir las condiciones en las que este teorema se cumple. Sin embargo,
podemos discutir muy fácilmente cómo este teorema ayuda a explicar por qué un gran número de
fenómenos muestran aproximadamente una distribución normal.
Podemos ilustrarlo con los coeficientes intelectuales que se sabe que se distribuyen normalmen-
te. El CI de los niños puede considerarse una variable aleatoria que puede verse afectada por un gran
número de causas independientes entre sí (padres, condiciones de vida, ubicación, amigos, etc.).
Supongamos que estas causas mutuamente independientes son variables aleatorias que se suman y
afectan al CI de un niño, y además que hay muchas de estas variables aleatorias que contribuyen
y que cada una de ellas contribuye sólo con un efecto muy pequeño. Suponiendo estos efectos, se
puede utilizar el teorema del límite central para explicar por qué el CI se distribuye normalmente.
Obsérvese cuidadosamente que el teorema del límite central proporciona una explicación de por
qué el CI se distribuye normalmente; no demuestra que el CI se distribuya normalmente.
Consideremos ahora el ejemplo de los disparos de rifle. La variable aleatoria era la desviación del
disparo desde el centro del blanco. Suponiendo que no hay un sesgo sistemático, podemos pensar
que la desviación de un disparo se ve afectada por un número muy grande de causas independientes
entre sí, como un ligero cambio en el viento, un ligero cambio en la presión atmosférica, una peque-
ña diferencia en el peso de la bala o un ligero cambio en la condición física del tirador. Entonces,
teniendo en cuenta el teorema del límite central, podemos conjeturar que las desviaciones de los
disparos (que se ven afectadas por un gran número de causas independientes, cada una de las cuales
tiene un efecto muy pequeño) pueden tener una distribución aproximadamente normal. Tomando
una muestra de las desviaciones, podemos comprobarlo experimentalmente.
Aunque sólo se han presentado dos ejemplos, es bastante fácil ver que hay muchos otros ejem-
plos en problemas tecnológicos, problemas de mediciones, problemas biológicos, problemas eco-
nómicos, etc., en los que la variable aleatoria se ve afectada por un número muy grande de causas
independientes entre sí, cada una de las cuales tiene un efecto muy pequeño. De ahí que podamos
deducir que un gran número de distribuciones serán aproximadamente normales. La experiencia
ha demostrado que así es. Pero, una vez más, el teorema del límite central no demuestra la existencia
de distribuciones normales como las mencionadas en los ejemplos. Se ha utilizado únicamente para
explicar o esperar (inferir, conjeturar) el fenómeno de las variables con distribución aproximada-
mente normal.
6.3. Discusión de la distribución normal 115

6.3.3 La importancia de la distribución normal

En el apartado anterior hemos mostrado cómo se pueden calcular las probabilidades de los suce-
sos utilizando la tabla de áreas normales. En esta sección hemos mostrado cómo podemos esperar
que un gran número de fenómenos se distribuyan aproximadamente de forma normal, y se sabe
por experiencia que un gran número de fenómenos tienen distribuciones aproximadamente nor-
males. De ahí que la distribución normal tenga una amplia aplicación en estadística y sea una de las
distribuciones más importantes.
Otra razón por la que la distribución normal es importante es que tiene una serie de propiedades
matemáticas deseables. Algunas de ellas se describirán más adelante.

6.3.4 Corrección de la continuidad

La tabla de áreas normales se basa en una distribución normal continua, o, podríamos decir, en
una curva normal continua. Sin embargo, en muchas aplicaciones prácticas, los datos son discretos,
y en tales casos es necesario aplicar una corrección de continuidad. Utilicemos un ejemplo para
explicarlo.
Supongamos que la media del número de cerdos en una granja de un determinado condado es
de 120 cerdos y la desviación típica es de 20 cerdos. ¿Cuál es la probabilidad de que haya 150 cerdos
o más en una granja? Supondremos que la distribución del número de cerdos es aproximadamente
normal.
Obviamente, cuando tenemos datos discretos y utilizamos la tabla normal de áreas, que se basa
en una distribución continua, necesitamos una corrección de 1/2 al calcular las probabilidades.
Esto se llama corrección de continuidad. Que el 1/2 se sume o se reste del valor de X dependerá de
la naturaleza del problema. Lo mejor es dibujar algunas barras del diagrama y razonar si hay que
sumar o restar la 1/2. Unas cuantas ilustraciones aclararán el procedimiento.
Utilizando la tabla de áreas normales, encontramos para el primer ejemplo,
   
1 1
X− −µ 150 − − 120
2 2
z= =
σ 20
29.5
= = 1.475
20

Encontramos en la tabla de áreas normales que el área que buscamos está entre 0.0708 (para
1.47) y 0.0694 (para 1.48). Por interpolación lineal encontramos 0.0701. Es decir, la probabilidad
de que haya 150 cerdos o más en una explotación es de 0.0701.
El área (probabilidad) cuando no se utiliza la corrección de continuidad es 0.0668, ya que z =
1.5.
Para encontrar el área (probabilidad) entre 130 y 150 inclusive, lo abordamos en dos pasos.
Pero primero dibujemos un diagrama como ayuda visual (Figura 6.11). Sea A el área de 130 a la
derecha, y sea el área B de 150 a la derecha. Entonces el área que buscamos es A − B. Para el área
A encontramos, ya que 130 está incluido,
 
1
130 − − 120
2 9.5
z= = = 0.475
20 20
116 La Curva Normal y el Cuadro de Áreas Normales

Figura 6.11

Por tanto, el área (probabilidad) es, según la tabla, 0.3174. Si no se utiliza la corrección de con-
tinuidad, z será 0.5 y la probabilidad será 0.3085.
Para el área B encontramos

 
1
150 + − 120
2 30.5
z= = = 1.525
20 20

y el área (probabilidad) es 0.0636.


Si no se utiliza la corrección de continuidad, z será 1.5 y el área será 0.0668. El área que buscamos
es

A − B = 0.3174 − 0.0636 = 0.2538

Es decir, la probabilidad de que el número de cerdos esté entre 130 y 150 inclusive es de 0.2538.
Cuando no se utiliza la corrección de continuidad, el área pasa a ser

A′ − B ′ = 0.3085 − 0.0668 = 0.2417

Es decir, la probabilidad de que el número de cerdos esté entre 130 y 150 es de 0.2417.
6.4. Ordenada de la distribución normal 117

6.4 Ordenada de la distribución normal

La Cuadro 2 del apéndice muestra los valores de las ordenadas de la distribución normal1 . La
primera columna, que muestra los valores de z, es la misma que la tabla de áreas y muestra la distan-
cia a la media en términos de desviaciones estándar. Por ejemplo, z = 1.3 significa que la distancia
a la media es de 1.3 desviaciones típicas. El valor correspondiente a las z en el cuerpo de la tabla
muestra la densidad de frecuencia en ese punto. Por ejemplo, el valor correspondiente a z = 1.3 es
0.1714, que muestra la densidad de frecuencia en z = 1.3. Explicamos el significado de esta tabla
mostrando cómo se puede calcular el área bajo la curva normal utilizando estos valores de ordenadas
e intervalos.
EL Cuadro 6.3 muestra los valores de las ordenadas de la curva normal tomados de la tabla de
ordenadas a intervalos de 0.5. La figura que se forma es un histograma que se ha dibujado a partir
de estas ordenadas: para z = 0, la ordenada es 0.3989; para z = 0.5, es 0.3521, y así hasta el final.

z Altura de la Barra Área de la Barra


0.0 0.3989 0.3989 · 0.25 = 0.099725
0.5 0.3521 0.3521 · 0.5 = 0.17605
1.0 0.2420 0.2420 · 0.5 = 0.1210
1.5 0.1295 0.1295 · 0.5 = 0.06475
2.0 0.0540 0.0540 · 0.5 = 0.0270
2.5 0.0175 0.0175 · 0.5 = 0.00875
3.0 0.0044 0.0044 · 0.5 = 0.0022
3.5 0.0009 0.0009 · 0.5 = 0.00045
0.499925

Cuadro 6.3

En la mitad derecha del histograma de la figura, el área de la barra en z = 0.5 es

0.3521 · 0.5 = 0.17605

ya que la altura de la barra (ordenada; es decir, la densidad de frecuencia) es 0.3521 y el ancho


del intervalo es 0.5. Para la barra en z = 1.0, es 0.2420 · 0.5. Las áreas de las otras barras se calculan
de forma similar, excepto la barra en z = 0. El área de la barra en z = 0 está la mitad en el lado
izquierdo y la mitad en el derecho del histograma, y el área en la mitad derecha es

0.3989 · 0.25 = 0.099725

ya que la anchura es 0.5÷2 = 0.25. Por lo tanto, la suma de las áreas de las barras del lado derecho
del histograma es (como muestran los cálculos del Cuadro 6.3) 0.499925 y es aproximadamente 0.5,
como esperábamos.
El cálculo es similar para el lado izquierdo. Así, el área total bajo el histograma es aproximada-
mente 1.0.
A medida que la anchura de los intervalos se hace más pequeña, la forma del histograma se
acercará a la forma de una curva normal que tiene una media de cero, una desviación estándar de
unidad y un área de unidad.
1
Véase el apartado 16.7, sección 4, para ilustrar el uso de las ordenadas de la distribución normal
CAPÍTULO 7
Distribución de Muestreo

Como paso previo a la discusión de la inferencia estadística, hemos discutido la teoría de la


probabilidad, la tabla de áreas normales y el teorema del límite central. Otro aspecto preliminar
importante que discutiremos en este capítulo es el concepto de distribución de muestreo de una es-
tadística. Mediante este concepto, encontraremos una forma sencilla de calcular la probabilidad de
seleccionar una muestra de una población.
Empezaremos nuestra discusión con una explicación del concepto de todas las muestras posi-
bles y luego consideraremos de nuevo el muestreo aleatorio simple. A partir de estos dos concep-
tos, mostraremos cómo calcular la probabilidad de seleccionar una muestra de una población. A
continuación, definiremos el concepto de distribución muestral de un estadístico y utilizaremos el
teorema del límite central para explicar las características de la distribución muestral de la media
muestral y de la proporción muestral. A partir de la discusión de estas dos distribuciones muestra-
les, aprenderemos una forma sencilla de hallar la probabilidad de seleccionar una muestra de una
población.

7.1 Todas las muestras posibles

Cuando hay 20 000 reclutas del ejército, ¿cuántas formas diferentes hay de seleccionar una mues-
tra de 100 reclutas? Empecemos con ejemplos muy sencillos y trabajemos para obtener la respuesta.

1. Supongamos que hay 4 letras: A, B, C y D. ¿Cuál es el número de muestras posibles diferentes


de tamaño 2 que podemos seleccionar, cuando el muestreo es con reemplazo?

Como es con reemplazo, podemos tener muestras como

AA, AB, AC, AD,

entre otros. El primer elemento de la muestra puede seleccionarse de 4 maneras diferentes. Del
mismo modo, el segundo elemento también puede seleccionarse de 4 formas diferentes. Por

119
120 Distribución de Muestreo

lo tanto, el número total de muestras de tamaño 2 que pueden seleccionarse con reemplazo es
4 · 4 = 42 = 16
A :AA AB AC AD
B :BA BB BC BD
C :CA CB CC CD
D :DA DB DC DD

Si queremos seleccionar muestras de tamaño 3, el número de muestras posibles diferentes será


4 · 4 · 4 = 43 = 64

En general, cuando tenemos n elementos, hay nr formas diferentes, posibles, de seleccionar


muestras de tamaño r.
Pero nótese que cuando se seleccionan 2 letras, tenemos AB y BA, BC y CB, y así sucesiva-
mente. Está claro por el contexto que queremos decir que AB y BA son diferentes; es decir,
se tiene en cuenta el orden de las letras. Este es el caso de las permutaciones.
2. Teníamos en el punto 1 la condición “con reemplazo”. Ahora, si es sin reemplazo, hay 4 op-
ciones en el primer lugar, y 4 − 1 = 3 opciones en el segundo lugar. Así, para muestras de
tamaño 2, tenemos

4 · 3 = 12,
es decir, hay 12 muestras posibles. Las 4 muestras AA, BB, CC y DD se eliminan de las 16
muestras anteriores.
Cuando seleccionamos una muestra de tamaño 3, sin reemplazo, tenemos
4 · (4 − 1) · (4 − 2) = 24
es decir, hay 24 muestras posibles.
En general, cuando tenemos n elementos y seleccionamos muestras de tamaño r sin reem-
plazo, habrá
n · (n − 1) · (n − 2) · · · · · (n − r + 1) = (n)r
muestras posibles. Escribimos (n)r para indicar los cálculos anteriores.
3. r = n es el caso de encontrar de cuántas maneras diferentes podemos ordenar n elementos.
A partir de nuestros resultados anteriores, es

Hay un símbolo especial para esto, a saber,


(n)r = n!
que se lee “n factorial”. Por ejemplo,
5! = 5 · 4 · 3 · 2 · 1 = 120
3! = 3 · 2 · 1 = 6

Así, el número de ordenaciones diferentes de n elementos es n!. Si hay 3 alumnos, pueden


estar ordenarse de 3! = 6 formas diferentes. Si hay 5 alumnos, pueden estar ordenados de
5! = 120 formas diferentes.
7.1. Todas las muestras posibles 121

4. Cuando decimos combinaciones, no tenemos en cuenta el orden. Así, AB y BA son las dos
ordenaciones de una misma combinación AB. Cuando tenemos una combinación ABC, hay
3! = 6 ordenaciones de estos tres elementos. Cuando tenemos n elementos diferentes, hay una
combinación de los n elementos, pero hay n! ordenaciones diferentes.
5. Ahora juntemos estos elementos. Tenemos una combinación de 4 letras, ABCD. Tomamos
una muestra de tamaño 3. Entonces hay (4)3 formas diferentes de seleccionar muestras de
tamaño 3 sin reemplazo cuando se considera el orden.
Cada una de las muestras de tamaño 3 puede ordenarse de 3! maneras diferentes. Por lo tan-
to, el número de muestras de tamaño 3 sin reemplazo que se pueden seleccionar cuando no
tenemos en cuenta el orden de las letras dentro de cada muestra será
(4)3 4·3·2
= =4
4 3·2·1
Estas 4 muestras son
ABC, ABD, ACD, BCD

En general, si tenemos n elementos, hay (n)r formas diferentes de seleccionar muestras de


tamaño r sin reemplazo. Cada muestra (que es una combinación de r elementos diferentes)
tiene r! ordenaciones diferentes. Así pues,
(n)r
r!
nos da el número de formas diferentes en que podemos seleccionar una muestra de tamaño r
de n elementos sin reemplazo, cuando despreciamos el orden dentro de cada muestra.
Existe un símbolo especial para esta operación, a saber,
 
n (n)r
=
r r!

Definimos  
n
0! = 1 y =1
0
 
n
Este se conoce como coeficiente binomial, y ahora procederemos a utilizarlo.
r

Ejemplo No. 1
Hay 6 alumnos. Hay que seleccionar un grupo de 5 alumnos para formar un equipo de
baloncesto. ¿Cuántas formas diferentes hay de seleccionar a 5 alumnos?

   
n 6 (6)5 6·5·4·3·2
= = = =6
r 5 5! 5·4·3·2·1
Es decir, hay 6 formas diferentes de seleccionar un equipo de 5.

Ejemplo No. 2
El número de posibles formas diferentes de seleccionar 5 cartas de una baraja de 52
cartas es
122 Distribución de Muestreo

 
52 (52)5 52 · 51 · 50 · 49 · 48
= = = 2 598 960
5 5! 5·4·3·2·1

Ejemplo No. 3
El número de posibles manos diferentes de 13 cartas es
 
52 (52)13
= = 635 013 559 600
13 13!
Hay aproximadamente 1 posibilidad entre 635 mil millones de obtener una determinada
mano de poker.

Ejemplo No. 4
Un grupo de 10 invitados debe dividirse en 2 grupos de 5 cada uno y sentarse en 2 me-
sas. ¿De cuántas maneras diferentes se puede dividir a los invitados?
 
10 (10)5 10 · 9 · 8 · 7 · 6
= = = 252
5 5! 5·4·3·2·1
Hay 252 formas diferentes de dividir el grupo.

Ejemplo No. 5
¿De cuántas maneras diferentes se puede sentar a 5 comensales en una mesa?

5! = 5 · 4 · 3 · 2 · 1 = 120
es decir, hay 120 formas diferentes de sentar a los 5 invitados.
6. El coeficiente binomial también se puede reescribir de la siguiente manera
 
n (n)r (n)r (n − r)!
= = ·
r r! r! (n − r)!
Pero nótese que
(n)r · (n − r)! = n!
Por lo tanto, encontramos  
n n!
=
r r!(n − r)!

Ejemplo No. 6
El número de formas de seleccionar 3 alumnos de entre 5 alumnos es
 
5 (5)3
= = 10
3 3!
Pero observe que esto puede escribirse como
 
5 (5)3 (5)3 2! 5!
= = · = = 10
3 3! 3! 2! 3!(5 − 3)!
7.1. Todas las muestras posibles 123

Ejemplo No. 7
En el capítulo 5, dijimos que dado un conjunto de n elementos, podemos generar 2n
subconjuntos. Utilizando el coeficiente binomial, podemos ahora explicar esto. Sea el
conjunto S = {1, 2, 3, 4, 5, 6}. Los subconjuntos que se pueden generar a partir de este
conjunto S son:

0,{1}, {2}, {3}, . . . , {1, 2},


{1, 3}, . . . , {1, 2, 3, 4, 5, 6}

Utilizando las ideas de todas las muestras posibles, el número de subconjuntos puede mos-
trarse como sigue:
   
6 6
Hay formas de seleccionar un subconjunto 0 de S. Hay formas de seleccionar un
0 1
subconjunto con 1 elemento de S, etc. Así, el número total de subconjuntos es
             
6 6 6 6 6 6 6
A= + + + + + +
0 1 2 3 4 5 6
Pero a partir del teorema del binomio, tenemos

             
6 6 6 6 5 6 4 2 6 3 3 6 2 4 6 5 6 6
(a + b) = a + a b+ a b + a b + a b + ab + b
0 1 2 3 4 5 6
Si hacemos que a = 1 y b = 1, la ecuación (2) se convierte en la ecuación (I). Por tanto, el
número de subconjuntos generados a partir de (1) será
(1 + 1)6 = 26 = 64

Es decir, podemos generar 64 sucesos simples y compuestos a partir de S, donde { } = 0 se


incluye como suceso. El número de sucesos compuestos es
   
6 6
64 − + = 64 − 7 = 57
0 1
Podemos concluir que tenemos una colección de 64 subconjuntos tomados de S. En lugar de
utilizar el término colección, podemos utilizar el término clase de subconjuntos. En general,
dado un conjunto de n elementos, podemos generar 2n subconjuntos.
7. Si volvemos ahora a nuestra pregunta original sobre el número de formas de seleccionar 100
reclutas de entre 20 000, nos encontramos con que será
   
n 20 000
=
r 100
No intentaremos calcularlo, pero a partir de los ejemplos anteriores, está bastante claro que
tendremos un número muy grande de formas.
Los resultados de esta sección pueden resumirse ahora como sigue: Dada una población de
N unidades elementales, el número de formas posibles de seleccionar muestras de tamaño n
es  
N N!
=
n n!(N − n)!
124 Distribución de Muestreo

7.2 Muestreo aleatorio simple

Hay varias formas de seleccionar muestras, pero sólo consideraremos una, el muestreo pro-
babilístico. A su vez, el muestreo probabilístico puede subdividirse en muestreo aleatorio simple,
muestreo estratificado y muestreo por conglomerados. Podríamos añadir algunos métodos más de
muestreo probabilístico, pero sólo nos ocuparemos del muestreo aleatorio simple.
Por muestreo probabilístico se entiende un plan de muestreo en el que cada miembro de la po-
blación tiene una probabilidad conocida de ser incluido en la muestra. Y cuando cada miembro que
no ha sido extraído previamente tiene la misma probabilidad de ser seleccionado, tenemos lo que
se conoce como muestreo aleatorio simple.
Para ilustrarlo, supongamos que hay 6 papelitos con los números 1, 2, . . . , 6 en una caja. Que-
remos seleccionar una muestra de tamaño 3 de la caja, sin reemplazo. El muestreo aleatorio simple
implica que la probabilidad de que se extraiga un número es de 1/6 para los 6 números; y en el se-
gundo sorteo, la probabilidad de que se extraiga un número es de 1/5 para los 5 números restantes; y
así sucesivamente. Si este es el caso, entonces cada número no sorteado previamente tiene la misma
probabilidad de ser seleccionado.
Ahora, ¿cuál es la probabilidad de que un miembro de la población, digamos el número 4, esté en
la muestra? Como tenemos una muestra de tamaño 3, hacemos 3 sorteos. Por lo tanto, la pregunta
que nos hacemos puede replantearse como: ¿Cuál es la probabilidad de elegir un 4 en el primer, o
segundo, o tercer sorteo? Sea A el suceso de elegir un 4 en el primer sorteo. Entonces
1
P (A) =
6

La probabilidad de elegir un 4 en el segundo sorteo es la probabilidad de que no sea seleccionado


en el primer sorteo multiplicada por la probabilidad de que sea seleccionado en el segundo sorteo,
dado que no fue extraído en el primer sorteo. Vamos a mostrar esto en términos de fórmulas. Tene-
mos

P (C ∩ B) = P (B)P (C|B)
5 1 1
= · =
6 5 6

donde B es el caso de que un 4 no sea seleccionado en el primer sorteo, y C es el caso de que


un 4 sea seleccionado en el segundo sorteo. Por lo tanto, P (C|B) es la probabilidad de que un 4 sea
seleccionado en el segundo sorteo, dado que no fue seleccionado en el primer sorteo.
Del mismo modo, la probabilidad de seleccionar un 4 en el tercer sorteo y no en los dos primeros
se obtiene como sigue: Sea

B :no se selecciona un 4 en el primer sorteo


D :no se selecciona un 4 en el segundo sorteo
E :se selecciona un 4 en el tercer sorteo

Entonces

P (B ∩ D ∩ E) = P (B) · P (D|B) · P (E|B, D)


5 4 1 1
= · · =
6 5 4 6
7.2. Muestreo aleatorio simple 125

Estos tres sucesos, A, C, E, son mutuamente excluyentes. Así, la probabilidad de que el número
4 esté en la muestra es
1 5 1 5 4 1 3
P (A o C o E) = + · + · · =
6 6 5 6 5 4 6
3
Del mismo modo, la probabilidad de que, por ejemplo, el número 2 esté en la muestra es de .
6
Si tenemos 7 trozos de papel y tomamos muestras de tamaño 5, la probabilidad de que el número
5
3 esté en la muestra es de .
7
En general (se puede ver por inducción), si el tamaño de la muestra es n y el tamaño de la pobla-
ción es N , entonces cuando utilizamos el muestreo aleatorio simple, cada miembro de la población
n
tiene una probabilidad de estar incluido en la muestra. Por ejemplo, si tenemos 120 estudiantes
N
y seleccionamos 10 al azar, y cada estudiante tiene la misma probabilidad de ser elegido, entonces
10
cada uno de los 120 estudiantes tiene una probabilidad de de estar en la muestra.
120
Consideremos ahora la pregunta que nos interesaba en un principio, a saber ¿Cuál es la proba-
bilidad de seleccionar una muestra de tamaño n de una población de tamaño N ? Utilicemos una
ilustración sencilla y discutamos este problema.
Supongamos que hay 6 números y que extraemos muestras de tamaño 3; entonces habrá
 
6 6! 6! 6·5·4
= = = = 20
3 3!(6 − 3)! 3!3! 3!
o 20 muestras posibles. Cuando adoptamos el muestreo aleatorio simple, cada muestra tiene una
1
probabilidad igual de de ser seleccionada. Esto se puede demostrar fácilmente de la siguiente
20
1
manera: La probabilidad de seleccionar el primer número es ; la probabilidad de seleccionar el
6
1 1
segundo número es ; y la probabilidad de seleccionar el tercer número es . Por tanto, la probabi-
5 4
lidad de seleccionar estos 3 números en un determinado orden es
1 1 1 1
· · =
6 5 4 6·5·4

Pero cuando hablamos de una muestra de 3 números, no nos preocupa el orden. Hemos visto que
cuando tenemos 3 números, hay 3 formas de ordenarlos. Por tanto, la probabilidad de seleccionar
una muestra de tamaño 3 será
1 1 1 1
· 3! =  =
6·5·4 6·5·4 6 20
3! 3

En general podemos ver por inducción que cuando seleccionamos una muestra de tamaño n de
una
  población de tamaño N por muestreo aleatorio simple, la probabilidad de que cualquiera de las
N
muestras sea seleccionada será
n
1
 
N
n
En nuestra discusión posterior nos limitaremos a este muestreo aleatorio simple.
126 Distribución de Muestreo

Obsérvese que la discusión anterior se refería al caso en que el muestreo era sin reemplazo.
Podemos hacer lo mismo para el caso con recolocación, pero en los problemas prácticos solemos
utilizar el muestreo sin sustitución. Así, si hay 20 000 nuevos reclutas y queremos seleccionar una
muestra de tamaño 100 por muestreo aleatorio simple, obtenemos las siguientes conclusiones
   
20 000 20 000
1. Hay formas diferentes de seleccionar 100 reclutas, es decir, hay muestras
100 100
diferentes.
 
20 000 1
2. La probabilidad de que cualquiera de las muestras sea seleccionada será  
100 20 000
100
100
3. La probabilidad de que cualquier recluta esté incluido en la muestra será de .
20 000

Ejemplo No. 8
Apliquemos a un ejemplo sencillo los resultados obtenidos en la discusión anterior.
Consideremos dos urnas, A y B, que tienen cada una 9 bolas con números como en la
Figura 7.1.
Se selecciona una muestra aleatoria simple de 3 bolas de la urna A. Los números de las
bolas son
4, 4, 5

A B

1 2 2 3 4 4

3 3 3 5 5 5

4 4 5 6 6 7

Figura 7.1

Número Urna A Urna B


1 1
2 2
3 3 1
4 2 2
5 1 3
6 2
7 1
9 9

Cuadro 7.1

A partir de nuestra discusión sobre todas las muestras posibles, sabemos que hay
 
9 9!
= = 84
3 3!6!
7.3. Algunos problemas prácticos 127

formas posibles de seleccionar una muestra de tamaño 3. Pero hay que tener en cuenta que
cuando decimos que hay 84 muestras posibles, este razonamiento implica que las 9 bolas de la urna
son diferentes. Para tener en cuenta esta suposición, etiquetemos las bolas de la urna A de la siguiente
manera:
UrnaA : (1) (2)1 (2)2 (3)1 (3)2 (3)3 (4)1 (4)2 (5)

Se han añadido subíndices para distinguir entre los mismos números. En términos de la muestra
que seleccionamos, es decir, (4, 4, 5), tenemos para la urna A:

UrnaA : (4)1 (4)2 (5)

1
Sabemos que la probabilidad de seleccionar una muestra de tamaño 3 es . Por tanto, la pro-
84
1
babilidad de seleccionar la muestra (4, 4, 5) de la urna A es de .
84
Calculemos a continuación la probabilidad de seleccionar la muestra (4, 4, 5) de la urna B. Te-
nemos las siguientes muestras

(4)1 (4)2 (5)1


(4)1 (4)2 (5)2
(4)1 (4)2 (5)3

es decir, la muestra (4, 4, 5) de la urna B se distingue y se cuenta como 3 muestras, pero a efectos
prácticos, es la misma muestra contada 3 veces. Por tanto, la probabilidad de seleccionar la muestra
(4, 4, 5) de la urna B es de
1 3
·3=
84 84

Hemos podido calcular estas probabilidades porque se ha utilizado el muestreo aleatorio simple
(o más generalmente, el muestreo probabilístico).

7.3 Algunos problemas prácticos

Ahora que hemos decidido cómo vamos a seleccionar la muestra, es decir, mediante un mues-
treo aleatorio simple, nos encontramos con el problema práctico de seleccionar una muestra de
tamaño n. Supongamos que deseamos hallar el importe del alquiler pagado por las familias de un
determinado bloque. En primer lugar, tenemos que decidir qué entendemos por familias. Una vez
decidido esto, se puede subdividir toda la población en estas unidades familiares, que se denominan
unidades últimas.
Ahora podemos hacer una lista de todas las unidades últimas (es decir, las familias), una por
una. O podemos combinar varias familias que viven cerca y hacer una lista de esas combinaciones.
Cada elemento de la lista contendrá varias familias, y cada familia estará en un solo elemento de la
lista. Una lista que divide la población en elementos formados por las unidades ultramodernas se
llama marco. Cada elemento del marco se denomina unidad de muestreo. Cada unidad de muestreo
puede contener una o varias unidades finales.
Cuando realizamos un muestreo aleatorio simple, seleccionamos las unidades de muestreo del
marco y obtenemos una muestra. Tenemos que seleccionar las unidades de muestreo de manera que
128 Distribución de Muestreo

la probabilidad de seleccionar cualquier unidad de muestreo sea igual. Para ello podemos utilizar la
tabla de números aleatorios. Lo explicaremos con un ejemplo.
Supongamos que hay 500 alumnos y queremos seleccionar una muestra aleatoria simple de 30
alumnos. Para ello utilizamos la tabla de números aleatorios; a continuación se ofrece una parte de
la misma y la tabla completa figura en la Tabla 16 del Apéndice. Comenzamos por la línea, tomando
3 dígitos a la vez, ya que 500 es un número de 3 dígitos. El primer número que vemos es el 231. Por
lo tanto, seleccionamos al 231vo alumno.
El siguiente número es el 055. Así, seleccionamos al 55to alumno. Este proceso continúa hasta
que hayamos seleccionado 30 alumnos. Cuando nos encontramos con un número mayor que 500
(por ejemplo, 682), lo omitimos.
Si el mismo número aparece dos veces, lo omitimos. La tabla de números aleatorios está diseñada
para que la probabilidad de que cualquier alumno sea seleccionado sea igual.

Tabla de números aleatorios


1 23 15
2 05 54
3 14 87
4 38 97
.. .. ..
. . .

Existen muchos problemas prácticos para definir una unidad final, una unidad de muestreo y
un marco. No los trataremos en este momento para no desviarnos del tema principal de las distri-
buciones muestrales. Volvamos ahora a la línea principal de la discusión.

7.4 Distribución muestral

Hemos visto cómo se selecciona una muestra aleatoria simple y cómo se calcula la probabilidad
de seleccionar una muestra, dada una determinada población. Esto se ha explicado en términos de
un simple problema hipotético. Pero en los problemas prácticos, en los que el tamaño de la muestra
y la población son grandes y, por tanto, el número de todas las muestras posibles es grande, esto se
vuelve muy difícil.
Surge naturalmente una pregunta: ¿Hay alguna forma de simplificar este proceso de obtención de
probabilidades para las muestras? Resulta que se puede hacer utilizando el teorema del límite central.
Utilizando este teorema, descubriremos que podemos utilizar la media muestral para representar
la muestra y calcular la probabilidad de ocurrencia de la media muestral, en lugar de calcular la
probabilidad de ocurrencia de una muestra de una población dada.
Comencemos con una revisión del teorema del límite central.

7.4.1 El teorema del límite central

En el capítulo 6 el teorema del límite central se enunció como: Cuando se dan n variables alea-
torias independientes X1 , X2 , . . . , Xn que tienen todas la misma distribución (no importa la distri-
bución), entonces
X = X1 + X2 + X3 + · · · + Xn
7.4. Distribución muestral 129

es asintóticamente normal. La media µ y la varianza σ 2 de X son

µ = µ1 + µ2 + · · · + µn = nµi
σ 2 = σ12 + σ22 + · · · + σn2 = nσi2

donde µi y σi2 son la media y la varianza de Xi .


Expliquemos el supuesto de la misma distribución de la siguiente manera: Supongamos que hay
dos escuelas, A y B, y que X1 y X2 son variables aleatorias que denotan los CI de los alumnos de
cada escuela. Sean µ1 y σ12 la media y la varianza de X1 , y µ2 y σ22 la media y la varianza de X2 .
Cuando decimos que la variable aleatoria X1 y X2 tienen la misma distribución, queremos decir
que:

1. Tanto X1 como X2 tienen distribuciones similares; por ejemplo, ambas tienen distribuciones
normales, o rectangulares, o binomiales, etc.

2. Las medias µ1 y µ2 son iguales; es decir, µ1 = µ2 .

3. Las varianzas σ12 y σ22 son iguales; es decir, σ12 = σ22 .

Mostrémoslo gráficamente. La Figura 7.2(a) muestra el caso en el que tanto X1 y X2 tienen


distribuciones normales en las que σ12 = σ22 pero µ1 = 70 y µ2 = 75, y por tanto X1 y X2 no tienen
la misma distribución.

Escuela A Escuela A

70 X1 70 X1
µ1 =6 µ2 µ1 = µ2
σ12 = σ22 σ12 = σ22
Escuela B Escuela B

75 X2 70 X2

(a) (b)
Figura 7.2

En la Figura 7.2(b), µ1 = µ2 = 70, y σ12 = σ22 , y este es el caso en el que X1 y X2 tienen la


misma distribución.
Como se puede ver, también podemos interpretar esta suposición, misma distribución, como
sigue:
Supongamos que tenemos una población de N estudiantes. Seleccione (con reemplazo) un estu-
diante y considere que X1 sea una variable aleatoria CI. Seleccione un segundo estudiante y conside-
re que X2 sea una variable aleatoria CI. Entonces, como X1 y X2 proceden de la misma población,
130 Distribución de Muestreo

X1 y X2 tendrán la misma distribución. Si seleccionamos 3 estudiantes (con reemplazo), podemos


interpretarlo como si tuviéramos tres variables aleatorias independientes X1 , X2 , X3 , todas con la
misma distribución.
En general, cuando seleccionamos una muestra aleatoria de tamaño n de una población, ten-
dremos n variables aleatorias independientes

X1 , X2 , . . . , Xn

que tienen la misma distribución. En nuestra discusión posterior, cuando se selecciona una muestra
de tamaño n, siempre asumiremos esta interpretación.
En sentido estricto, sólo cuando se selecciona una muestra aleatoria con reemplazo, las varia-
bles aleatorias X1 , X2 , . . . , Xn son independientes. Sin embargo, en la mayoría de los problemas
prácticos en los que la población es grande y la muestra es relativamente pequeña, las variables
aleatorias X1 , X2 , . . . , Xn que se han seleccionado sin reemplazo pueden tratarse como si fueran
independientes.
Obsérvese cuidadosamente que tenemos dos formas de observar una muestra de tamaño n. La
primera es la siguiente: Supongamos que se selecciona una muestra de tamaño n = 5 alumnos y
que la variable aleatoria X es el peso. Entonces podemos expresar la muestra como

X : x1 , x2 , x3 , x4 , x5

donde X es la variable aleatoria y las letras minúsculas x1 , x2 , . . . , x5 representan los 5 valores de


X.
El segundo enfoque consiste en visualizar el peso de cada alumno como una variable aleatoria
independiente. Entonces, la muestra de 5 alumnos puede mostrarse como

X1 , X2 , X3 , X4 , X5

es decir, por las 5 variables aleatorias (no los valores específicos). Los valores de las variables se
muestran con letras minúsculas:

X1 = x 1 , X2 = x 2 , X3 = x3 , X4 = x 4 , X5 = x 5 ,

Pero, como los 5 alumnos proceden de la misma población, las variables aleatorias X1 , . . . , X5
tienen todas la misma distribución.
En nuestro caso actual, en el que las Xi tienen la misma distribución, la primera y la segunda
aproximación son equivalentes, pero cuando las variables X1 , X2 , . . . , Xn no tienen la misma dis-
tribución, los dos enfoques no son equivalentes. Como sólo consideraremos los casos en los que
todas las Xi tienen la misma distribución, ambos enfoques se utilizarán indistintamente.
Volvemos ahora al teorema del límite central y lo enunciamos como sigue: Cuando se toma una
muestra aleatoria de tamaño n de una población (con media µ y varianza σ 2 ), tenemos n variables
aleatorias independientes X1 , X2 , . . . , Xn que tienen todas la misma distribución. Sea
1
X̂ = (X1 + X2 + · · · + Xn )
n

donde X̂ es la media de la muestra. Entonces (afirmamos sin pruebas) X̂ es asintóticamente


normal con media y varianza:
7.4. Distribución muestral 131

E(X̂) = µ
σ2 N − n
V ar(X̂) = ·
n N −1

Ilustremos este resultado con un ejemplo.


Supongamos que de seis alumnos, el primero tiene 1 dólar, el segundo 2 dólares, y así sucesiva-
mente hasta el sexto, que tiene 6 dólares. Consideremos los 1, 2, . . . , 6 dólares como la población y
hallemos su media y desviación estándar como se muestra en la Tabla 7.2.

21
µ= = $3.5
X X2 6
r
$1 1 1 X
1 1 σ= (X − µ)2
N
2 4 sP  P 2
X2 X
3 9 = −
4 16 N N
s  2
5 25 91 21
6 36 = −
6 6
21 91 r
17.5
=
6
Cuadro 7.2

Se seleccionan dos alumnos como muestra. El número de muestras posibles de tamaño 2 que se
pueden seleccionar es  
6 6!
= = 15
2 2!4!
 
N
Denotamos = M para evitar confusiones.
m
Estas M = 15 muestras son las siguientes

(1) $1.2 (6) 2.3 (10) 3.4 (13) 4.5 (15) 5.6
(2) $1.3 (7) 2.4 (11) 3.5 (14) 4.6
(3) $1.4 (8) 2.5 (12) 3.6
(4) $1.5 (9) 2.6
(5) $1.6

1
La probabilidad de que se seleccione una de estas muestras es de . Hallemos ahora la media
15
muestral de cada muestra. Dadas en el mismo orden que las muestras anteriores, son:

(1) $1.5 (6) 2.5 (10) 3.5 (13) 4.5 (15) 5.5
(2) $2.0 (7) 3.0 (11) 4.0 (14) 5.0
(3) $2.5 (8) 3.5 (12) 4.5
(4) $3.0 (9) 4.0
(5) $3.5
132 Distribución de Muestreo

La probabilidad de que se produzca una de estas medias muestrales es la misma que la de la muestra
1
de la que procede, por lo que la probabilidad también es .
15
Pero hay que tener en cuenta que

Muestra: (5) (8) (10)


$1.6 2.5 3.4
x 3.5 3.5 3.5

Es decir, para la quinta, octava y décima muestra, las medias muestrales son iguales (x = $3, 5)
aunque tengamos tres muestras diferentes. Por lo tanto, la probabilidad de que se produzca x = $3.5
es
1 3
·3=
15 15
Adjuntemos las probabilidades a las demás medias muestrales de forma similar y mostremos los
resultados en el Cuadro 7.3.
La Figura 7.3 es un gráfico de barras del Cuadro 7.3. Obsérvese que la variable en el eje horizontal
es X y no X.
Es esta distribución de las medias muestrales la que buscamos, y la que es una piedra angular
de la inferencia estadística. Investiguemos ahora las características de esta distribución. La primera
característica que observamos es que la distribución es unimodal y simétrica, lo cual es un resultado
interesante porque la población con la que empezamos es una distribución rectangular.

X̂ f Probabilidades
$ 1.5 1 1/15
2.0 1 1/15
2.5 2 2/15
3.0 2 2/15
3.5 3 3/15
4.0 2 2/15
4.5 2 2/15
5.0 1 1/15
5.5 1 1/15
15 1.00

Cuadro 7.3

En segundo lugar, la media de la distribución es

x1 + x2 + · · · + x15
X= = $3.5 (7.1)
15

donde la doble barra sobre X indica que es la media de las medias muestrales. Este resultado se
obtiene a partir de la siguiente hoja de cálculo. El punto importante aquí es la relación entre X y µ;
es decir, X = $3.5 es igual a la media poblacional µ = $3.5.
En tercer lugar, los cálculos muestran que la desviación estándar de esta distribución es
r r
1 X 17.5
σx = (x − x)2 = (7.2)
M 15
7.4. Distribución muestral 133

Figura 7.3

donde el subíndice x de σx indica que es la desviación estándar de la distribución de las medias


muestrales. El punto importante aquí es la relación entre σ y σx . Esta relación, que no es obvia, es la
siguiente:

r
σ N −n
σx = √ · (7.3)
n N −1

Comprobemos esta relación entre σ y σx . Ya hemos calculado σ como

r
17.5
σ=
6

Sustituyendo esto en la fórmula (7.3), encontramos

r
r 17.5 r r
σ N −n 6 6−2 17.5
σx = √ = √ =
n N −1 2 6−1 15

que es el mismo resultado que el obtenido directamente en la hoja de cálculo y, por tanto, demuestra
que la fórmula es válida para nuestro ejemplo. Esto se volverá a discutir más adelante.
134 Distribución de Muestreo

X f d fd d2 f d2
$1.5 1 -4 -4 16 16
2.0 1 -3 -3 9 9
2.5 2 -2 -4 4 8
3.0 2 -1 -2 1 2
3.5 3 0 0 0 0
4.0 2 1 2 1 2
4.5 2 2 4 4 8
5.0 1 3 3 9 9
5.5 1 4 4 16 16
15 0 70
P
fd 0
X =A+ · C = $3.5 + · 0.5 = $3.5
s 
M 15
P 
1 P 2 ( f d)2
σx = C fd −
M M
r r
1 17.5
σx = 0.5 (70 − 0) =
15 15

El teorema del límite central que nos interesa, nos dice que los resultados que acabamos de ob-
tener pueden generalizarse. Podemos enunciarlo de forma no rigurosa como sigue: Sea N el tama-
ño de una población conmedia  y desviación típica iguales a µ y σ. Sea n eltamaño de la mues-
N N
tra. Entonces hay M = muestras posibles, y por tanto hay M = medias muestrales
  n n
N
xi : i = 1, 2, . . . , . Estas medias muestrales generarán una distribución de medias muestrales
n
con las siguientes características (Figura 7.4):
f

X
X
f
f

X
X

Figura 7.4

1. Si la población es grande y se distribuye normalmente, la distribución de la media muestral


será normal.
7.4. Distribución muestral 135

2. Si la población es grande pero no está distribuida normalmente, la distribución de la media


muestral se aproximará a una distribución normal, siempre que el tamaño de la muestra sea
grande (especialmente si es superior a 30). Por ejemplo, podemos tener una distribución rec-
tangular, o una distribución bimodal, o cualquier otro tipo de distribución, y siempre que el
tamaño de la muestra sea lo suficientemente grande (digamos, mayor de 30), la distribución
de la media muestral se acercará a una distribución normal.

3. La media de la distribución de la media muestral es igual a la media de la población. Esto se


expresa de la siguiente manera:

E(X) = µ (7.4)

donde E(X) es el valor esperado de X.

4. La desviación típica de esta distribución es


r
σ N −n
σx = √ (7.5)
n N −1

Para distinguirla de la desviación estándar de la población σ y de la desviación estándar de la


muestra, s, se denomina error estándar y se denota con el símbolo σx .
Podemos ver que σx es más pequeño que σ, y a medida que n se hace más grande, σx se hace
más pequeño. Esto significa que la dispersión de la distribución de la media muestral X es menor
que la de la población y será menor a medida que aumente el tamaño de la muestra. Un poco de
reflexión debería poner de manifiesto el sentido común de esto. Como ilustración, supongamos que
hay 200 estudiantes y que sus calificaciones están dispersas entre 20 y 100 puntos. Sea la media
µ = 60 puntos. Entonces, si tomamos muestras de 10 alumnos y calculamos sus medias muestrales,
la dispersión de las medias muestrales será menor que la dispersión de las calificaciones individuales
de la población.
Si tomamos muestras de 20 alumnos, las medias muestrales se acercarán más a µ y la dispersión
de las medias muestrales se reducirá aún más. Si tomamos muestras de tamaño 199, podemos ver
intuitivamente que las medias muestrales se concentrarán cerca de µ.
Esta distribución de la media muestral se denomina distribución muestral. O, expresado de for-
ma más completa, deberíamos decir “la distribución muestral de la media muestral X”, porque si
hubiéramos tomado, por ejemplo, otros estadísticos como la mediana muestral en lugar de la media
muestral, podríamos haber construido la distribución muestral de la mediana. Como veremos en
capítulos posteriores, podemos construir otras distribuciones muestrales de los estadísticos obteni-
dos de la muestra.
Así, tenemos tres conclusiones importantes debidas al teorema del límite central. Suponiendo
muestras grandes y una población grande, concluimos que:

1. La distribución muestral de la media muestral X es una distribución normal o aproximada-


mente normal.

2. E(X) = µ.
r
σ N −n
3. σx = √
n N −1
136 Distribución de Muestreo

No hay que olvidar la suposición de que estamos utilizando un muestreo probabilístico. Sólo
cuando tengamos esta suposición podremos hacer afirmaciones probabilísticas.
Resumamos los puntos principales de nuestra discusión en el Cuadro 7.4. Las letras p y π de la
última fila del Cuadro 7.4 denotan la proporción de la muestra y la proporción de la población. Esto
se discutirá más adelante.

Variable Distribución Media Varianza

Población X Cualquier tipo E(X) = µ V ar(X) = σ 2


1 X
N
= xi = E(x − µ)2
N i=1
1 X
N
= (xi − µ)2
N i=1
1 Pn 1P
Muestra X Cualquier tipo X= xi s2 = (xi − X)2
n i=1 n 2
Distribución Aproximadamente σ N −n
X E(X) = µ σx2 = ·
muestral de la X normal n N −1

Distribución π(1 − π) N − n
p Aproximadamente E(p) = π σp2 = ·
muestral de la p
normal n N −1

Cuadro 7.4

También podemos mostrar las distintas relaciones de forma esquemática como en la Figura
 7.5,
13
que supone una población de N = 13 y muestras de tamaño n = 5. Por tanto, hay = 1287
5
muestras posibles y, por tanto, 1287 medias muestrales posibles. Estas medias muestrales forman la
distribución muestral de la media muestral, que se aproxima a una distribución normal cuando n
es grande.
Ahora podemos ver cómo se puede utilizar el teorema del límite central para simplificar el cálcu-
lo de las probabilidades de ocurrencia de las muestras.

7.4.2 Cómo se calcula la probabilidad de seleccionar una muestra de una población


dada mediante la distribución muestral de la media muestral

El Cuadro 7.3 y la Figura 7.3 se reproducen modificadas como Cuadro 7.5 y Figura 7.6, por
comodidad.
El teorema del límite central exige que la población y la muestra sean grandes para que la dis-
tribución muestral de la media muestral se aproxime a una distribución normal. Pero recordemos
que nuestra población hipotética era una pequeña población rectangular {$1, 2, . . . , 6}, y el tama-
ño de la muestra era n = 2. Por lo tanto, la distribución muestral de la media de la muestra en el
Cuadro 7.5 sigue siendo bastante diferente de una distribución normal y el polígono de frecuencias
de la Figura 7.6 también es bastante diferente de una curva normal. Pero, para ser breves y explicar
las ideas, vamos a suponer que son normales. Más adelante daremos ejemplos más realistas.
Formulemos ahora la pregunta: ¿Cuál es la probabilidad de seleccionar una muestra con una
media muestral de x = $5.5? A partir del Cuadro 7.5 y la Figura 7.6, se ve fácilmente que es 1/15 y
7.4. Distribución muestral 137

Población
N = 13
µ, σ

Muestra Muestra Muestra Muestra


1 2 1286 1287
n = 5 n = 5 n = 5 n = 5

x1 x2 x1286 x1287
s1 s2 f s1286 s1287

E(X) = µ
r
σ N −n
σx = √
n N −1

Figura 7.5

X f Muestras Probabilidades
$1.5 1 (1,2) 1/15
$2.5 1 (1,3) 1/15
$2.5 2 (1,4), (2,3) 1/151/15
$3.0 2 (1,5), (2,4) 1/151/15
$3.5 3 (1,6), (2,5), (3,4) 1/151/151/15
$4.0 2 (2,6), (3,5) 1/151/15
$4.5 2 (3,6), (4,5) 1/151/15
$5.0 1 (4,6) 1/15
$5.5 1 (5,6) 1/15
15 1

Cuadro 7.5

puede expresarse en símbolos como

1
P [X = $5.5] =
15

La probabilidad de seleccionar una muestra con una media muestral de x = $5.5 en nuestro
ejemplo actual significa específicamente la probabilidad de seleccionar la muestra (5, 6).
¿Cuál es la probabilidad de seleccionar muestras con una media muestral de x = 4.5 dólares?
138 Distribución de Muestreo

3
2
1

1.5 2 2.5 3 3.5 4 4.5 5 5.5 X


Figura 7.6

Esto, lo vemos, es
2
P [X = $4.5] =
15
La probabilidad de seleccionar muestras con una media muestral de x = 4.5 significa específica-
mente la probabilidad de seleccionar las muestras (3, 6) o (4, 5).
¿Cuál es la probabilidad de seleccionar muestras con una media muestral mayor o igual a x =
$4.5? Esto es

P [X ≧ $4.5] = P [X = 4.5] + P [X = 5.0] + P [X = 5.5]


2 1 1 4
= + + =
15 15 15 15

Esto significa que la probabilidad de seleccionar las muestras (5, 6), (4, 6), (3, 6) o (4, 5) es de 4/15.
Las probabilidades se han obtenido a partir del Cuadro 7.5. Pero si la población y la muestra
hubieran sido grandes, la distribución muestral de la media de la muestra habría sido aproxima-
damente normal, y entonces se podría haber utilizado la tabla de áreas normales para calcular las
probabilidades. Aunque no obtendremos resultados precisos, vamos a mostrar cómo funciona esto,
utilizando nuestro ejemplo actual.
La probabilidad de seleccionar muestras con una media muestral mayor o igual a 4.5 dólares se
1 1
obtiene hallando el área sombreada bajo la curva normal en la cola más allá de $4.5 − · , como se
2 n
1 1
muestra esquemáticamente en la Figura 7.7. El − · es la corrección de continuidad, y en nuestro
2 n
1 1
caso actual es − · = −0.25. Por tanto, $4.5 − 0.25 = $4.25.
2 2

0.2451

$3.5 X = $4.5

Figura 7.7

Recordemos que el error estándar es


r
17.50 √
σx = = 1.1666 = $1.08
15
7.4. Distribución muestral 139

Por lo tanto, la desviación de 4.25 dólares de la media es

X − µ = $4.25 − 3.5 = $0.75

que, cuando se estandariza, se convierte en

X −µ
z= = 0.694
$0.75
σx =
$1.08

A partir de la tabla de áreas normales encontramos que, cuando z = 0.694, el área bajo la cola
es 0.2451; es decir
P [X ≧ 4.5] = 0.2451

Según el Cuadro 7.5, la probabilidad P [X ≧ $4.5] es 4/15 = 0.2667, y por lo tanto hay aproxi-
madamente un 2% (0.2667 − 0.2451 = 0.0216) de discrepancia absoluta. La discrepancia relativa
es de aproximadamente el 8.1%:
0.2667 − 0.2451 0.0216
= = 8.1%
0.2667 0.2667
Esta discrepancia entre 0.2451 y 0.2667 se ha producido porque no se han cumplido los requisitos
del teorema del límite central, es decir, una población grande y una muestra grande. Sin embargo,
nuestro principal objetivo era mostrar el proceso de razonamiento mediante un sencillo problema
hipotético. Resumamos esto antes de proceder a dar ejemplos más realistas.

 
N
1. De una población dada de tamaño N podemos seleccionar M = muestras de tamaño
  n
N
n, y por tanto habrá también M = medias muestrales.
n
2. La distribución de estas medias muestrales se aproximará a una distribución normal si n es
grande (por ejemplo, mayor de 30). Si la población original es normal, la distribución de las
medias muestrales será normal por muy pequeña que sea la muestra.

3. A partir de la distribución muestral normal de la media muestral X, podemos calcular la


probabilidad de seleccionar muestras con medias muestrales mayores o iguales a, digamos,
X 0 . Esto se hace encontrando
X0 − µ
z=
σx
donde r
σ N −n
E(X) = µ, σx = √ ·
n N −1
y utilizando la tabla de áreas normales.

4. Obsérvese que al aplicar la corrección de continuidad a la distribución muestral de la media


1 1 1
muestral, ésta es · en lugar de simplemente , como se explicó en el Capítulo 6.
2 n 2

Ejemplo No. 1
Considere un grupo de 13 estudiantes con una distribución de notas como la que se
muestra en el Cuadro 7.6. Sea A = 5, B = 4, C = 3, D = 2 y F = 1 puntos de honor.
140 Distribución de Muestreo

Nota f X −µ (X − µ)2 f (X − µ)2


A(5) 1 5-3=2 4 4
B(4) 3 4-3=1 1 3
C(3) 5 3-3=0 0 0
D(2) 3 2-3=-1 1 3
F(1) 1 1-3=-2 4 4
13 14

Cuadro 7.6

Entonces, por ejemplo, un alumno con todas las notas en A será un alumno con una media de
5 puntos de honor. La media y la desviación típica de esta distribución son
r
14
µ = 3 puntos de honor, σ= = 1.076 puntos de honor
13

Se seleccionan muestras aleatorias simples de 3 alumnos, sin reemplazo. El número de tales


muestras que pueden seleccionarse es
 
13 13!
= = 286
3 3!10!

Pero tenga en cuenta que este cálculo supone que las 13 notas son diferentes. Por ejemplo, el Cua-
dro 7.6 muestra que 3 estudiantes tienen B. Cada B se considera diferente. Denotemos esto como
B1 , B2 y B3 . Entonces (A, B1 , B2 ), (A, B1 , B3 ) y (A, B2 , B3 ) se consideran 3 muestras diferentes.
El número de muestras puede calcularse como sigue: Primero hallar

A B B
1 · 3 · 2 = 6

Esto muestra que sólo hay 1 opción para la A, 3 opciones para la primera B, y 2 opciones para
la segunda B. Las seis muestras son

A B1 B2 A B2 B3
A B1 B3 A B3 B1
A B2 B1 A B3 B2

Evidentemente, esto supone que (A, B1 , B2 ) y (A, B2 , B1 ) son diferentes; es decir, se considera el
orden de las B. Pero las M = 286 muestras posibles sólo consideran las combinaciones; es decir,
(A, B1 , B2 ) y (A, B2 , B1 ) son iguales y se cuentan sólo una vez en las M = 286 muestras. Por lo
tanto, tenemos que hacer la siguiente corrección:

A B B
1 · 3 · 2 ÷ 2! = 6 ÷ 2! = 3

Es decir, hay 2! formas de ordenar B1 B2 , y por ello dividimos 6 entre 2!. Enumeremos ahora todas las
muestras, utilizando el método de cálculo anterior. Primero presentamos todas las combinaciones
posibles:
7.4. Distribución muestral 141

(1) A B B (3) (10) B B B (1) (19) C C C (10) (24) D D D (1)


(2) A B C (15) (11) B B C (15) (20) C C D (30) (25) D D F (3)
(3) A B D (9) (12) B B D (9) (21) C C F (10) 4
(4) A B F (3) (13) B B F (3) (22) C D D (15)
(5) A C C (10) (14) B C C (30) (23) C D F (15)
(6) A C D (15) (15) B C D (45) 80
(7) A C F (5) (16) B C F (15)
(8) A D D (3) (17) B D D (9)
(9) A D F (3) (18) B D F (9)
66 136

66 + 136 + 80 + 4 = 286

En segundo lugar, se encuentra el número de muestras posibles para cada combinación (véase
la Hoja de Trabajo) y se muestra a la derecha de cada muestra en los paréntesis. Hay un total de
M = 286 muestras.
En tercer lugar, calculamos el grado medio de cada muestra; por ejemplo

A+B+C 5+4+4 13
= = = 4.33 puntos
3 3 3
A+B+C 5+4+3 12
= = = 4.00 puntos
3 3 3

y así sucesivamente. Los resultados se dan en el mismo orden que la lista de muestras numeradas
anterior:

13 12 9 6
(1) (10) (19) (24)
3 3 3 3
12 11 8 5
(2) (11) (20) (25)
3 3 3 3
11 10 7
(3) (12) (21)
3 3 3
10 9 7
(4) (13) (22)
3 3 3
11 10 6
(5) (14) (23)
3 3 3
10 9
(6) (15)
3 3
9 8
(7) (16)
3 3
9 8
(8) (17)
3 3
8 7
(9) (18)
3 3

Observe, por ejemplo, que:


142 Distribución de Muestreo

9
(7) A C F 5 muestras
3
9
(8) A D D 3 muestras
3
9
(13) B B F 3 muestras
3
9
(15) B C D 45 muestras
3
9
(19) C C C 10 muestras
3
66

Es decir, hay 66 muestras que tienen una media de 9/3 = 3 puntos. Se pueden hacer cálculos
similares para las demás medias de las muestras. Los resultados están en el Cuadro 7.7.

X f d fd d2 f d2

5/3 3 -4 -12 16 48

6/3 16 -3 -48 9 144

7/3 34 -4 -68 4 136

8/3 57 -1 -57 1 57

9/3 66 0 0 0 0

10/3 57 1 57 1 57

11/3 34 2 68 4 136

12/3 16 3 48 9 144

13/3 3 4 12 16 48

286 0 60 770
P fd 0 1
X =A+ ·C =3+ · =3
sP  PM
 r 286 3 r
f d2 f d 2 1 770 1 35
σX =C· − = = · = 0.5469
M M 3 286 3 13

Cuadro 7.7

La media y el error estándar de esta distribución muestral se calculan en el Cuadro 7.7. Com-
probemos σx con la fórmula dada en el Cuadro 7.4. Tenemos

r
14
σ=
13
7.4. Distribución muestral 143

Por lo tanto, σx se convierte en


r
r 14 r r r
σ N −n 13 13 − 3 14 10 1 35
σx = √ = √ = · = · (7.6)
n N −1 3 13 − 1 13 · 3 12 3 13

y es igual a los resultados de los cálculos directos de la tabla 7.7. Como teníamos cr = 1/14/13,
podríamos haber utilizado la fórmula (1) en lugar de calcular realmente como- como hicimos en la
tabla 7.7. De hecho, cuando N y n sean grandes, tendremos que utilizar la fórmula (1); de lo contrario,
tendremos el problema de intentar encontrar un número muy grande de medias muestrales.
La Figura 7.8 es un polígono de frecuencias de esta distribución, donde la distribución se parece
más a una curva normal que la de la Figura 7.3, aunque sigue siendo sólo una aproximación.

70

60

50

40

30

20

10

5 6 7 8 9 10 11 12 12
3 3 3 3 3 3 3 3 3 X

Figura 7.8

Calculemos ahora las probabilidades de selección de las muestras. Las muestras se caracterizan
(es decir, se representan) por sus medias muestrales. Así, utilizando la media muestral, preguntemos:
¿Cuál es la probabilidad de seleccionar una muestra con una media muestral de X = 12/3 = 4
puntos? En el Cuadro 7.7 vemos que

16
P [X = 4] =
286

Es decir, hay 16 posibilidades en 286 de seleccionar una muestra de tamaño 3 con una media
muestral de 4 puntos, dada nuestra población.
O, dicho de otro modo, estamos diciendo que 16 muestras de las 286 posibles tienen una media
muestral de X = 4 puntos. Sabemos que estas muestras son

(2) A B C 15
(10) B B B 1
16
144 Distribución de Muestreo

donde hay 15 muestras de (A B C) y 1 muestra de (B B B).


Calculemos ahora la probabilidad de seleccionar muestras con medias muestrales mayores o
iguales a 4 puntos. En el Cuadro 7.7 encontramos

 
13
P [X ≧ 4] = P [x = 4] + P X =
3
16 3 19
= + =
286 286 286
12 1 1 9 5
X −µ − · −
f= = 3 2 3 3 = 6 = 1.525
σx 0.5469 0.5469

En lugar de calcular las probabilidades directamente como hemos hecho anteriormente, pode-
mos utilizar el teorema del límite central y la distribución muestral de la media de la muestra y
calcularla indirectamente. Esto nos dará un valor aproximado. La probabilidad que buscamos es el
área sombreada bajo la distribución muestral mostrada en la Figura 7.9, que es (aproximadamente)
una distribución normal. Encontramos

12
E(X) 3
9
= 3 =3

Figura 7.9

12 1 1 9 5
X −µ − · −
z= = 3 2 3 3 = 6 = 1.525
σx 0.5469 0.5469

A partir de la tabla de áreas normales, encontramos 0.064 (aproximadamente). Nuestros cálculos


directos anteriores muestran que la probabilidad es
19
= 0.066
286
y hay aproximadamente un 0.2% (0.066 − 0.064 = 0.002) de diferencia absoluta. La diferencia
relativa es de aproximadamente el 3 por ciento:
0.002 2 1
= = = 0.03
0.066 66 33

A medida que aumenta el tamaño de la muestra, esta discrepancia se reduce. La interpretación


de P [X ≧ 4] = 19/286 es: La probabilidad de seleccionar una muestra con una media muestral
mayor o igual a 4 puntos es de 19/286. El lector debería ser capaz de identificar estas 19 muestras
en las tablas. Las 286 muestras posibles se enumeran en la hoja de trabajo.
7.4. Distribución muestral 145

Hoja de trabajo
1·3·2 6
(1) A B B: 2! = 2! =3
(2) A B C: 1·3·5 = 15
(3) A B D: 1·3·3 =9
(4) A B F: 1·3·1 =3
1·5·4 20
(5) A C C: 2! = 2! = 10
(6) A C D: 1·5·3 = 15
(7) A C F: 1·5·1 =5
1·3·2 6
(8) A D D: 2! = 2! =3
1·3·2 6
(9) A D F: 2! = 2! =3
3·2·1 6
(10) B B B: 3! = 3! =1
3·2·5 30
(11) B B C: 2! = 2! = 15
3·2·3 18
(12) B B D: 2! = 2! =9
3·2·1 6
(13) B B F: 2! = 2! =3
3·5·4 60
(14) B C C: 2! = 2! = 30
(15) B C D: 3·5·3 = 45
(16) B C F: 3·5·1 = 15
3·3·2 18
(17) B D D: 2! = 2! =9
(18) B D F: 3·3·1 =9
5·4·3 60
(19) C C C: 3! = 3! = 10
5·4·3 60
(20) C C D: 2! = 2! = 30
5·4·1 20
(21) C C F: 2! = 2! = 10
5·3·2 30
(22) C D D: 2! = 2! = 15
(23) C D F: 5·3·1 = 15
3·2·1 6
(24) D D D: 3! = 3! =1
3·2·1 6
(25) D D F: 2! = 2! =3
3 + 15 + 9 + · · · + 15 + 1 + 3 = 286

Ejemplo No. 2
Dado un grupo de N = 90 asalariados con una distribución de salarios como la del Cua-
dro 7.8, encuentre la probabilidad de seleccionar una muestra de tamaño n = 16 con un
salario medio superior a 77 dólares.

Si intentamos resolver este problema como lo hicimos en el Ejemplo 1, primero tenemos que
146 Distribución de Muestreo

Salarios f d fd d2 f d2
$40 3 -3 -9 9 27
50 12 -2 -24 4 48
60 18 -1 -18 1 18
70 24 -0 0 0 0
80 18 1 18 1 18
90 12 2 24 4 48
100 3 3 9 9 27
90 0 28 s 186
P P 2  P 2
fd fd fd
E(x) = µ = A + ·C σ=C −
N N N
r
0 186 √
E(x) = $70 + · 10 = $70 σ = 10 − 0 = 10 · 2.067 = $14.38
90 90
Cuadro 7.8

encontrar todas las muestras posibles. Esto será


 
90 90!
=
16 16!74!

Es bastante obvio que éste será un número muy grande y, a efectos prácticos, es una tarea prohi-
bitiva encontrar las probabilidades de las muestras y las medias muestrales. Pero a partir del teorema
central del límite sabemos que la distribución muestral de la media muestral es aproximadamente
una distribución normal, como se muestra en la Figura 7.11. Encontrar la probabilidad de seleccio-
nar muestras con medias muestrales mayores o iguales a $77 es equivalente a encontrar la proba-
bilidad de las medias muestrales mayores o iguales a $77 en la distribución muestral de la media
muestral. Como tenemos una distribución normal, esto se encuentra calculando z:
1 1
X −µ 77 − · − 70
z= = 2 16 = 2.13
σx 3.279
donde σx se obtiene de
r
σ N −n
σx = √
n N −1
r
$14.38 90 − 16
= √
16 90 − 1
= $3.595 · 0.912
= $3.279

A partir de la tabla de áreas normales, la proporción que corresponde a z = 2.13 es 0.0166. Es


decir, la probabilidad de encontrar una media muestral mayor o igual a 77 dólares es de 0.0166. Esto
también puede enunciarse como: La probabilidad de seleccionar muestras con medias muestrales
mayores o iguales a 77 dólares es de 0.0166.
Aunque no podemos identificar específicamente estas muestras con medias muestrales mayores
o iguales a $77, hemos encontrado la probabilidad aproximada de seleccionarlas. La probabilidad de
0.0166 indica que sólo hay aproximadamente 1.7 posibilidades entre 100 de seleccionar una muestra
de este tipo.
7.4. Distribución muestral 147

E(X) 77
= µ = 70

Figura 7.10

1 1
Observe que la corrección de continuidad · , donde n = 16, tiene muy poco efecto en el
2 n
resultado.

Ejemplo No. 3
Se dispone de datos sobre la producción de trigo por acre de 101 granjas. La media es
µ = 15 fanegas por acre y la desviación estándar es σ = 4 fanegas. Encuentre la pro-
babilidad de seleccionar muestras de tamaño n = 25 con medias muestrales menores o
iguales a x = 13.5 fanegas. La distribución muestral de la media muestral se muestra en
la Figura ??.

13.5 E(X) = 15

Figura 7.11

La probabilidad de que la media muestral sea menor o igual a 13.5 fanegas se obtiene hallando el
1 1
área sombreada en la cola de la curva. Encontramos (omitiendo la corrección de continuidad · ,
2 n
donde n = 25):

X −µ 13.5 − 15
z= = = −2.15
σx 0.6976
donde σx se obtiene de
r r
σ N −n 4 101 − 25
σx = √ =√ = 0.6976 fanegas
n N −1 25 101 − 1
148 Distribución de Muestreo

Utilizando z = −2.15, encontramos 0.0158 a partir de la tabla de áreas normales; es decir

P [X ≦ 13.5] = 0.0158

Por tanto, la probabilidad de encontrar medias muestrales menores o iguales a 13.5 fanegas es
de 0.0158. O podemos plantear esto como: La probabilidad de seleccionar muestras con medias
muestrales menores o iguales a 13.5 bushels es 0.0158. Esto también se puede expresar como: Hay
1.6 (0.0158 ∼= 0.016) probabilidades entre 100 de seleccionar una muestra con una media muestral
menor o igual a 13.5 fanegas de una población donde µ = 15 fanegas.

7.5 Comentarios sobre la fórmula del error estándar

La fórmula del error estándar es


r
σ N −n
σx = √ (7.7)
n N −1

y supone una población finita de tamaño N . El factor


r
N −n
N −1

se denomina corrección por población finita (fpc).


(N − n)
Vemos que cuando tenemos una población infinita, la fracción se aproxima a 1.00, y
(N − 1)
por tanto la fpc también se aproxima a 1.00. Entonces la fórmula (1) se convierte, simplemente,

σ
σx = √ (7.8)
n

Siempre que el muestreo sea con reemplazo, tendremos una población infinita. Por ejemplo, consi-
deremos una caja con 5 cuentas. Si, al tomar una muestra, las cuentas se sustituyen cada vez que se
extraen, tenemos una población infinita. Podemos extraer muestras de tamaño n = 10, o n = 100,
o del tamaño que queramos. Otros ejemplos de poblaciones infinitas se especificarán más adelante
en los ejemplos.
También podemos ver que cuando N es grande en relación con n, la fracción

n
N −n 1−
= N
N −1 1
1−
N

se acercará a 1.00 y, por tanto, la fpc también se acercará a 1.00. Por lo tanto, cuando N es grande en
relación con n, podemos utilizar la fórmula (7.8).
¿Qué tamaño debe tener N en relación con n para poder utilizar la fórmula (7.8)? Algunos dicen
que n debe ser inferior al 5% de N ; otros dicen que n debe ser inferior al 10%. Adoptaremos la regla
del 10%. Si hay alguna duda sobre la exactitud del resultado, un simple cálculo de la fpc disipará la
duda.
7.6. La distribución muestral de la proporción de la muestra 149

7.6 La distribución muestral de la proporción de la muestra

Nuestra discusión hasta ahora se ha restringido a la distribución de muestreo de la media mues-


tral X. Ahora discutiremos de manera similar la distribución de la proporción muestral p y en-
contraremos la E(p), V ar(p), y la naturaleza de la distribución de muestreo de p. Se utiliza una
ilustración para derivar estas propiedades.
Supongamos que tenemos una caja que tiene 4 bolitas blancas y 6 negras. Las 10 bolitas se consi-
deran la población y la proporción de cuentas blancas es 4/10 = 0.4. Esta proporción se denomina
proporción poblacional y se denota por ella π = 0.4.
A continuación, seleccionemos muestras de tamaño n = 5 de esta población. Hay
 
10 10!
= = 252
5 5!5!
muestras posibles. Recordemos que esto supone que las 10 cuentas son diferentes. Pero como nues-
tras muestras consideran cualquier cuenta blanca como la misma o cualquier cuenta negra como la
misma, el número de muestras posibles se puede encontrar de la siguiente manera: Sea la cuenta
blanca y la negra. Entonces:
4 · 3 · 2 · 1 · 6 ÷ 4! = 6
Esto demuestra que en las 252 muestras posibles, 6 de ellas son muestras que tienen 4 bolitas blancas
y 1 negra. De forma similar, encontramos

4 · 3 · 2 · 6 · 5 ÷ (3!)(2!) = 60
4 · 3 · 6 · 5 · 4 ÷ (2!)(3!) = 120
4 · 6 · 5 · 4 · 3 ÷ (4!) = 60
6 · 5 · 4 · 3 · 2 ÷ (5!) = 6

y
6 + 60 + 120 + 60 + 6 = 252
Por tanto, la probabilidad de seleccionar una muestra con 4 cuentas blancas (b) y 1 negra (n)es
6
P [4b, 1n] =
252
e igualmente
60
P [3b, 2n] =
252
120
P [2b, 3n] =
252
60
P [1b, 4n] =
252
6
P [0b, 5n] =
252

Sea p la proporción de bolitas blancas en una muestra. Entonces, para 4 bolitas blancas y 1 negra,
4
p= = 0.80
5
150 Distribución de Muestreo

Esta p se llama proporción muestral y es un estadístico.


Los resultados pueden presentarse ahora en forma de tabla, como se muestra en el Cuadro 7.9.
Esta distribución de frecuencias de la proporción muestral se denomina distribución muestral de la
proporción muestral. El gráfico de barras de la Figura 7.12 muestra esta distribución muestral.

Muestra p f p−π (p − π)2 (p − π)2 f


0b, 5n p = 0.0 6 -0.4 0.16 0.96
1b, 4n p = 0.2 60 -0.2 0.04 2.40
2b, 3n p = 0.4 120 0.0 0.0 0.0
3b, 2n p = 0.6 60 0.2 0.04 2.40
4b, 1n p = 0.8 6 0.4 0.16 0.96
252 6.72

Cuadro 7.9

Figura 7.12

Cuando tenemos una distribución de frecuencias, queremos saber dos cosas: su media y su dis-
tribución estándar. A partir del Cuadro 7.9, la media se obtiene mediante la fórmula de la media
ponderada como

(6 · 0.0) + (60 · 0.2) + (120 · 0.4) + (60 · 0.6) + (6 · 0.8)


p= (7.9)
6 + 60 + 120 + 60 + 6

     
6 60 120
= 0.0 · + 0.2 · + 0.4 ·
252 252 252
   
60 6
= 0.6 · + 0.8 ·
252 252
= 0.4

Es decir, la media de la distribución muestral de p es igual a π = 0.4. De forma más general,


afirmamos que el valor esperado de p es igual a π; es decir

E(p) = p· P [X = p1 ] + p2 · P [X = p2 ] + · · · + p5 · P [X = p5 ] (7.10)
7.6. La distribución muestral de la proporción de la muestra 151

     
6 60 6
= 0.0 · + 0.2 · + · · · + 0.8 ·
252 252 252
= 0.4

Por lo tanto,
E(p) = π (7.11)

La varianza es, utilizando los resultados de los cálculos del Cuadro 7.9,
P
(p − π)2 f 6.72 0.08
V ar(p) = P = = (7.12)
f 252 3
P
donde la suma (p − π)2 · f se toma sobre todas las muestras posibles. Para nuestro problema
simple, encontrar V ar(p) fue fácil. Pero cuando tenemos muestras y poblaciones más grandes, esto
se convierte en una tarea muy laboriosa. Afortunadamente, existe una fórmula sencilla que nos da
los mismos resultados. Es la siguiente

π(1 − π) N − n
V ar(p) = · (7.13)
n N −1
s
N − n)
donde es el fpc. Para el presente problema encontramos
(N − 1)

π(1 − π) N − n
var(p) = ·
n N −1
0.4 · 0.6) 10 − 5
= ·
5 10 − 1
0.24 0.08
= =
9 3

Es decir, hemos obtenido el mismo resultado que en la fórmula (7.12). Por lo tanto, utilizaremos
la fórmula (7.13) en lugar de la fórmula (7.12).
Los resultados pueden resumirse y generalizarse como sigue: Dada una población de tamaño
N con una proporción poblacional π, la distribución muestral de la proporción muestral p para
muestras de tamaño n tendrá una media y una varianza como las siguientes:

E(p) = π (7.14)

π(1 − π) N − n
V ar(p) = · (7.15)
n N −1

Una característica de la distribución muestral de la media muestral X es que se aproxima a


una distribución normal cuando n es grande. Esto nos ha permitido encontrar las probabilidades
de seleccionar muestras con determinadas medias muestrales. ¿Puede decirse algo parecido de la
distribución muestral de la proporción muestral p? La respuesta es: Sí, cuando n es grande, la dis-
tribución muestral de p será una distribución normal.
¿Qué tamaño debe tener n para poder utilizar la distribución normal? Esto se discute en el apar-
tado 19.9, pero por el momento diremos que la distribución normal sólo debe utilizarse cuando
n ≧ 25.
152 Distribución de Muestreo

Por lo tanto, ahora tenemos los siguientes resultados: La media y la varianza de la distribución
muestral de p vienen dadas por

E(p) = π
π(1 − π) N − n
V ar(p) = ·
n N −1

y además, la distribución muestral es aproximadamente normal cuando n es grande.


La raíz cuadrada de V ar(p) es la desviación estándar de la distribución muestral de p y se de-
nomina error estándar. Se denota por
r r
π(1 − π) N −n
σp = ·
n N −1
Ahora estamos en condiciones de aplicar estos resultados a problemas prácticos.

Ejemplo No. 4
En una población de familias, el 20 por ciento está suscrito a la revista K. ¿Cuál es la pro-
babilidad de seleccionar una muestra aleatoria de tamaño n = 225 con una proporción
muestral p = 0.16 o menos?

Interpretemos primero el problema en términos de una figura. Como muestra la Figura 7.13,

p
0.16 0.20

Figura 7.13

queremos el área sombreada en la cola izquierda. Utilizando la aproximación normal, esto se


encuentra fácilmente como sigue
1 1
p−π 0.16 + · − 0.20
z= = 2 225
σp 0.027
−0.04 + 0.002
= = −1.4615
0.02
donde σp es
r r
π(1 − π) 0.20 · 0.80
σp = =
n 225
0.40
= = 0.027
15
7.6. La distribución muestral de la proporción de la muestra 153

Nótese que hemos asumido fpc= 1 y la corrección de continuidad como


1 1 1 1
· = · = 0.002
2 n 2 225
Dado que z = −1.46, encontramos a partir de la tabla de áreas normales que

P [p ≦ 0.16|π = 0.20] = 0.0793

La interpretación es: Hay unas 7.9 posibilidades entre 100 de seleccionar muestras de n = 225 con
una proporción muestral menor o igual a 0.16 de una población donde π = 0.20.

Ejemplo No. 2
De 2000 distribuidores, el 40 por ciento indicó que tenía previsto aumentar sus pedidos
de lavavajillas. ¿Cuál es la probabilidad de seleccionar una muestra aleatoria simple de
400 concesionarios con una proporción muestral de p = 46% o superior de esta pobla-
ción?

En términos diagramáticos, tenemos la Figura 7.14 y queremos que el área sombreada en la cola

p
0.40 0.46

Figura 7.14

derecha:
1 1
p−π 0.46 − · − 0.40
z= = 2 400 = 2.70
σp 0.0217
donde
π(1 − π) N − n 0.4 · 0.6 2000 − 400
σ= · = · = 0.0217
n N −1 400 2000 − 1
Dado que z = 2.70, encontramos a partir de la tabla de áreas normales que

P [p ≧ 0.46|π = 0.40] = 0.0035

La interpretación es: Hay aproximadamente 3.5 posibilidades entre 1000 de seleccionar muestras
de tamaño 400 con proporciones muestrales mayores o iguales a 0.46 de una población donde π =
0.40.
CAPÍTULO 8
Estimación

Una vez finalizada la investigación sobre la teoría de la probabilidad, la distribución normal y el


concepto de distribución muestral de una estadística, estamos preparados para considerar los temas
principales de la estadística, es decir, la estimación y la comprobación de hipótesis. La estimación
se trata en el capítulo 8 y la prueba de hipótesis en el capítulo 9. El enfoque de ambos capítulos es
el de la escuela objetiva de la teoría de la probabilidad, en la que no se utiliza información previa.
(En el capítulo 10 consideraremos el enfoque bayesiano de estos dos temas, donde sí se utiliza la
información a priori).

8.1 Introducción - Estimación y estimadores

El problema de la estimación de parámetros se puede ilustrar mejor con ejemplos. Por ejemplo,
unos grandes almacenes están interesados en establecer una sucursal en los suburbios y les gustaría
ubicarla en una comunidad que tenga una renta media superior a la media nacional. ¿Cómo van a
encontrar la renta media de una comunidad determinada? Es demasiado costoso tratar de encon-
trar los ingresos de cada familia de la comunidad y luego calcular la media. Un estadístico puede
seleccionar una muestra, hallar la media de la muestra y utilizarla como estimación de la renta media
de toda la comunidad.
Los grandes almacenes también pueden estar interesados en conocer la dispersión de los in-
gresos para determinar el rango de precios de los productos que deben vender. Si se desconoce la
dispersión (es decir, la desviación típica de la población, σ), puede estimarse a partir de la desviación
típica de la muestra.
Una cadena de tiendas puede estar interesada en la proporción π de plumas defectuosas recibidas
por envío. Por razones prácticas, es imposible inspeccionar todas las plumas. Por lo tanto, se toma
una muestra y la proporción de la muestra puede utilizarse como una estimación de la proporción
poblacional π de plumas defectuosas.
Como se ve, el problema que nos interesa es el de seleccionar una muestra de una población y
estimar ciertos parámetros poblacionales, como la media µ y la varianza σ 2 . Sea X la media de la
muestra y supongamos que la renta media de una muestra de familias de la ilustración anterior es de
7 000 dólares. Esta media muestral individual de X = 7 000 dólares se denomina “estimación” de la
media de la población µ. Sabemos que cuando se selecciona otra muestra, podemos tener una media
muestral diferente, digamos 7 200 dólares. Esto también es una estimación de µ. En contraste con

155
156 Estimación

µ, la media muestral X es una variable aleatoria, y cuando no especificamos un valor individual de


X, decimos que X es un estimador de µ. El término estimación implica que estamos considerando
X como una variable aleatoria, y no estamos preocupados por un valor individual específico de X.
Aunque hemos afirmado anteriormente que los estadísticos de la muestra, como la media de
la muestra, la desviación estándar de la muestra y la proporción de la muestra, pueden utilizarse
como estimadores de los correspondientes parámetros de la población, una pregunta que surge na-
turalmente es: ¿Por qué utilizamos estos estadísticos como estimadores? ¿Existen otros estadísticos
muestrales que puedan utilizarse como estimadores? Por ejemplo, en lugar de la media muestral,
¿no podríamos utilizar la mediana muestral Xmed como estimador de la media poblacional?
La razón por la que seleccionamos la media muestral X como estimador de µ es que es un buen
estimador de µ y es mejor que Xmed . Entonces, ¿qué es un buen estimador y qué queremos decir
cuando decimos que X es un mejor estimador que Xmed ?
El sentido común debería indicar que un buen estimador es aquel que está cerca del parámetro
poblacional. Por ejemplo, nos gustaría decir que X está cerca del valor real de µ. Pero, ¿podemos
decir que X, en lugar de Xmed está más cerca deµ?
Es tentador decirlo, pero hay que tener en cuenta que X se ha obtenido de una muestra concreta.
No tenemos forma de predecir cuál será un valor individual de X. Un valor individual de X sólo
se conoce después de haber seleccionado una muestra. Del mismo modo, un valor individual de
Xmed sólo se conoce después de haber seleccionado una muestra. Por lo tanto, no podemos hacer
una afirmación general de que X y no Xmed está más cerca de mu. Para una muestra, X puede estar
más cerca de µ; para otra muestra, Xmed puede estar más cerca de µ.
¿Cómo podemos superar este impasse y poder decir que X es mejor que Xmed como estimador
de µ? Responderemos a esta pregunta de la siguiente manera: Después de haber tomado un gran
número de muestras, tendremos una distribución muestral de X y una distribución muestral de
Xmed . Resulta que la distribución muestral de X, más que la de Xmed , estará más concentrada
cerca de µ.
Como la distribución muestral de X está más concentrada cerca de µ que la de Xmed cuando
se toma un gran número de muestras, es más probable que X esté más cerca de mu que Xmed . Es
en este sentido que decimos que X es un mejor estimador que Xmed de µ.
Nuestro problema ahora es dar criterios tales que cuando tenemos un estimador que satisface
estos criterios, será un buen estimador en el sentido de que la distribución del estimador se concentra
cerca del parámetro verdadero.
¿Cuáles son entonces estos criterios para un buen estimador? Son:

1. Insesgacidad.

2. Consistencia.

3. Eficiencia.

4. Suficiencia.

En la siguiente discusión, daremos una explicación no rigurosa de estos criterios.


Después de haber explicado estos criterios, consideraremos el problema de cómo encontrar es-
timadores con estas propiedades deseables. Resulta que hay varias formas de encontrar estimadores,
8.2. Insesgacidad 157

y los procesos se suelen discutir bajo los temas de métodos de estimación. Los dos métodos princi-
pales son el método de los mínimos cuadrados y el método de máxima verosimilitud, y en este libro
sólo consideraremos estos dos. El método de los mínimos cuadrados se explica en el capítulo 11, y
el método de máxima verosimilitud es un tema de este capítulo.
Después de haber discutido el método de máxima verosimilitud y también haber encontrado
varios estimadores, plantearemos y discutiremos el siguiente problema: Aunque X sea un buen es-
timador de µ, es obvio que habrá una discrepancia (error) entre X y µ. Así, para tener confianza
en X como estimador de µ, nos gustaría conocer el error, e = X − µ el riesgo de dicho error: o
podemos decir que nos gustaría encontrar la precisión del estimador X.
Hasta este punto, nuestra discusión sobre los estimadores se centrará en los estimadores puntua-
les, y el tema puede llamarse estimación puntual. Es decir, cuando se da un parámetro (digamos, µ),
se estima mediante un valor X. Una deficiencia de los estimadores puntuales es que no podemos
asociar un enunciado de probabilidad con él y decir cuán probable es que X sea igual a µ.
Una forma alternativa de estimar µ es decir que µ está entre dos valores, digamos

a<µ<b

y esto se llama estimación por intervalos. Por ejemplo, podemos decir que la nota media del examen
de la clase está entre 70 y 75 puntos:

70 puntos < µ < 75 puntos

Como veremos, podremos asociar un enunciado de probabilidad a este tipo de estimación por in-
tervalos. Este tema se considera en la sección 8.8. Empecemos ahora con los criterios de un buen
estimador puntual.

8.2 Insesgacidad

Supongamos que un gran grupo de estudiantes se ha presentado a un examen y deseamos esti-


mar la nota media tomando una muestra aleatoria. Estamos estimando una µ desconocida, pero a
efectos ilustrativos, supongamos que:

Media poblacional: µ = 70 puntos


Desviación típica: σ = 18 puntos
Tamaño de la población: N = 2000

Recordemos que E(X) era el valor esperado de X, o lo que es lo mismo, la media de todas las
medias muestrales posibles. Por el teorema del límite central, sabemos que

E(X) = µ

El sentido común de esto es que la distribución muestral de X está uniformemente agrupada alre-
dedor del valor µ y no alrededor de algún otro valor. Por ejemplo, la parte superior de la Figura 8.1
muestra la distribución muestral de X agrupada en torno a µ.
Ahora hagamos que θ̂ sea alguna otra característica de la muestra que se utilice como estimador.
Por ejemplo, hagamos que
θ =X +a
158 Estimación

p
E(X) = µ = 70 µ+a

p
70 E(θ̂) = µ + a

Figura 8.1

Es decir, θ̂ es la media muestral X más una constante a (digamos, a = 5). Si la media muestral es
de 72 puntos, entonces se considera que θ = 72 + 5 = 77 es una estimación de µ. En general, esto
se convierte en

E(θ̂) = E(X + a)
= E(X) + E(a)
=µ+a

lo que implica que la distribución muestral de θ̂ se agrupa en torno µ + a, como se muestra en la


parte inferior de la Figura 8.1.
Debería estar claro intuitivamente que es más deseable utilizar X que θ̂ (= X + a) como esti-
mador de µ. En general, cuando el valor esperado del estadístico utilizado como estimador es igual al
parámetro poblacional a estimar, decimos que el estimador es insesgado. En términos de símbolos,
podemos afirmar que θ̂ es un estimador insesgado de θ si

E(θ̂) = θ

En nuestro ejemplo actual, E(X) = µ; por tanto, µ̂ = X es un estimador insesgado de µ.


Para θ̂ = X + a, tenemos
E(θ̂) = µ + a

y por tanto θ̂ no es un estimador insesgado de µ. Decimos que θ̂ = X + a es un estimador sesgado


de µ y a es el sesgo. Si E(θ̂) > µ, se dice que θ̂ está sesgado positivamente; si E(θ̂) < µ, se dice que
está sesgado negativamente.
Así, la primera propiedad de un buen estimador es la insesgadez.
8.3. Estimador consistente 159

8.3 Estimador consistente

Supongamos que se toma una muestra de tamaño n = 36 y X = 65 puntos. ¿Qué ocurrirá con
X si dejamos que n → N ? Debería ser intuitivamente claro que a medida que n → N , la media
muestral X se acercará a µ. Por ejemplo, N era 2000 y µ = 70. Si n = 1999 en lugar de 36, podemos
ver intuitivamente que la X calculada a partir de n = 1999 estará muy cerca de µ = 70 (digamos,
por ejemplo, 69.9 puntos).
Supongamos ahora que la mediana de la población es Me = 73 puntos. Hagamos que la mediana
de la muestra se denomine Xmed para una muestra de tamaño n. Debe quedar claro que a medida
que n → N , la mediana de la muestra Xmed se acercará a la mediana de la población Me = 73
puntos. Por tanto, si se utiliza Xmed como estimador de µ, a medida que n → N , la Xmed no se
acercará a µ = 70 puntos, sino a Me = 73 puntos.
Cuando un estimador (como X) se aproxima al parámetro poblacional que se quiere estimar
(como µ) a medida que aumenta el tamaño de la muestra, se dice que el estimador es un estimador
consistente del parámetro. Así, µ̂ = X es un estimador consistente de µ, y µ̂ = Xmed no es un
estimador consistente de µ cuando tenemos una distribución sesgada.
Así, la segunda propiedad de un buen estimador es la consistencia, µ̂ = X es un estimador
consistente de µ.
Expresemos con más rigor las afirmaciones anteriores, como sigue: Hemos visto intuitivamente
que a medida que n se hace más y más grande, X se acercará a µ. Esto puede mostrarse en símbolos
como
X → µ a medida n → ∞(o N )
Utilizando esta fórmula, podemos definir formalmente la consistencia de la siguiente manera: Si
P (X → µ) → 1 a medida n→∞ (8.1)
entonces X se llama un estimador consistente de µ. La ecuación (8.2) se lee como “la probabilidad
de que X se acerque a µ a medida que n se hace más grande y se acerca a 1”.
En términos de la distribución muestral de X, significa que la distribución muestral de X se
concentra estrechamente cerca de µ, a medida que el tamaño de la muestra es mayor. Utilizan-
do nuestro ejemplo de los grados, podemos ver intuitivamente que la distribución muestral de X
cuando n = 1999 estará más concentrada cerca de µ que cuando n = 36.
Lo que hemos dicho sobre la media muestral se puede enunciar ahora en términos generales: Sea
θ, que se calcula a partir de una muestra x1 , x2 , . . . , xn sea un estimador del parámetro poblacional
θ. Si
P (θ̂ → θ) → 1 a medida n → ∞
entonces θ̂ se llama un estimador consistente de θ.

8.4 Eficiencia

8.4.1 Eficiencia relativa

Supongamos que tenemos una población que tiene una distribución normal y deseamos estimar
la media poblacional. Como hemos visto, podemos utilizar la media muestral X, que es un esti-
mador insesgado y consistente. También podemos utilizar la mediana de la muestra (Xmed ) como
160 Estimación

estimador y, en nuestro caso, también es insesgada y consistente. ¿Cuál de los dos es más preferible
como estimador?
En la sección 7.1 mencionamos que preferimos un estimador con una distribución muestral es-
trechamente concentrada en torno al parámetro poblacional. ¿Cuál de los dos, la media muestral
X o la mediana muestral Xmed , está más concentrada alrededor de µ? Esto puede determinarse
comparando las varianzas de ambos estimadores; el que tenga la menor varianza será el estima-
dor preferible. Cuanto menor sea la varianza, más concentrada estará la distribución muestral en
torno al parámetro de población, suponiendo que tenemos estimadores consistentes. Resulta que
las varianzas de X y Xmed son para muestras grandes,

σ2
V ar(X) =
n
πσ 2
V ar(Xmed ) =
2n
Por lo tanto, cuando se da el mismo tamaño de muestra,

V ar(X) 2
=
V ar(Xmed ) π
.
= 0.64

Es decir, V ar(X) < V ar(Xmed ), y por tanto X es preferible como estimador a Xmed . Como,
dado el mismo tamaño de muestra, la distribución muestral de X está más concentrada en torno a
µ que la de Xmed , podemos decir que X es más eficiente que Xmed .
El resultado anterior dice

V ar(X) = V ar(Xmed ) · 64%

Es decir, la varianza de Xes sólo el 64% de la varianza de la mediana cuando ambas tienen un tamaño
de muestra de n.
En términos de tamaño de muestra, la varianza de la mediana de las muestras de tamaño 100 es
aproximadamente la misma que la de las medias de las muestras de tamaño 64.
Lo resumimos como sigue: Si tenemos dos estimadores, θ̂1 y θ̂2 , de un parámetro θ, y

V ar(θ̂1 ) < V ar(θ̂2 )

entonces la eficiencia de θ̂2 en relación con θ̂2 viene dada por

V ar(θ̂1 )
Et =
V ar(θ̂2 )

Nótese que la varianza del estimador más pequeño está en el numerador, y por tanto

0 ⩽ Et ⩽ 1

8.4.2 Estimadores eficientes

Hemos definido la eficiencia en términos relativos y hemos puesto la varianza del estimador más
pequeño en el numerador. La eficiencia se definió en relación con este estimador de menor varianza.
8.5. Suficiencia 161

Pero, si pudiéramos encontrar un estimador con una varianza menor que la varianza de cualquier
otro estimador, podríamos utilizar esa varianza más pequeña como base para medir la eficiencia; y,
en términos de eficiencia, podríamos decir que este estimador con la varianza más pequeña es un
“estimador eficiente”.
Entonces surge una pregunta: ¿Cómo de pequeña puede ser la varianza de un estimador? Si
podemos demostrar que la varianza no puede hacerse más pequeña que un determinado límite
inferior, y si podemos encontrar un estimador con una varianza que sea igual a este límite inferior,
entonces esa varianza será la varianza más pequeña. Utilizaremos la palabra mínima en lugar de
“más pequeña” y la llamaremos varianza mínima.
Además, un estimador que tenga esta varianza mínima se llamará estimador de varianza míni-
ma.
Resulta que existe tal límite inferior, dado por la desigualdad de Cramer-Rao. Un tratamiento
matemático de este tema es demasiado avanzado para este gancho, así que al discutirlo, omitiremos
las derivaciones. Podemos ilustrar su significado aplicándolo al problema de estimar la media de µ.
Sea θ̂un estimador de µ. Entonces la desigualdad de Cramer-Rao nos dice que la varianza de θ̂
σ2
no puede ser menor que . Es decir
n
σ2
V ar(θ̂) ≧
n
θ̂ puede ser la media muestral X, la mediana muestral Xmed , o algún otro estadístico muestral, pero
σ2
sea cual sea, la varianza no puede ser menor que . Sin embargo, sabemos que
n
σ2
V ar(X) =
n
Esto significa que µ̂ = X tiene la varianza más pequeña que puede tener un estimador. Por tanto,
podemos concluir que X tiene la varianza mínima y, por tanto, es un estimador de varianza mínima
de µ.
Combinando todos nuestros resultados anteriores, podemos concluir que X es un estimador
insesgado, consistente y de mínima varianza de µ.

8.5 Suficiencia

La cuarta y última propiedad de un buen estimador que consideramos es la suficiencia, que fue
desarrollada por un famoso estadístico, Sir R. A. Fisher. Un estadístico suficiente (como X) es un
estimador que utiliza toda la información que contiene una muestra sobre el parámetro a estimar.
Por ejemplo, X es un estimador suficiente de la media poblacional µ. Esto significa que ningún otro
estimador de µ, como la mediana de la muestra, puede añadir más información sobre el parámetro
µ, que se está estimando.
Omitiremos una discusión matemática y nos limitaremos a señalar que la media muestral X y
la proporción muestral p son estadísticos suficientes (estimadores) para µ y π.
Ahora que hemos enunciado las propiedades deseables de un buen estimador, la pregunta de 64
dólares es: ¿Cómo se encuentran los estimadores con estas propiedades deseables? Esto nos lleva al
problema de los métodos de estimación. Consideraremos el método de máxima verosimilitud.
162 Estimación

8.6 Método de máxima verosimilitud (MV)

La característica del método de máxima verosimilitud es que proporciona estimadores con las
propiedades deseables, como la eficiencia, la consistencia y la suficiencia, que hemos estado discu-
tiendo. Por ejemplo, si el parámetro a estimar tiene un estimador suficiente, el estimador ML será un
estimador suficiente, y de forma similar para las otras propiedades deseables excepto la insesgadez.
El método de máxima verosimilitud no suele dar estimadores insesgados. Discutiremos las ideas de
los estimadores ML, utilizando una ilustración sencilla.
Supongamos que un estadístico quiere estimar la nota media µ de un gran grupo de estudiantes.
Se toma una muestra aleatoria de tamaño n = 36 y la media muestral X resulta ser X = 65 puntos.
Ahora bien, la suposición principal en la que el estadístico basa su razonamiento es que la muestra
aleatoria de n = 36 es una imagen o representante de la población. Hemos visto que esta suposición
es razonable en los ejemplos dados en el capítulo 6, en el que se discutieron las distribuciones de
muestreo. Vimos cómo las muestras que eran similares a la población tenían mayor probabilidad de
ser seleccionadas.
Invirtamos ahora este razonamiento de la siguiente manera: El estadístico tiene ante sí una
muestra aleatoria de tamaño n = 36 y X = 65 puntos. ¿De qué población procede con mayor
probabilidad, de una población con µ = 60, 65 o 70? Según nuestro planteamiento anterior, el es-
tadístico razonaría que lo más probable es que proceda de una población con µ = 65. Por tanto,
concluimos que la media poblacional µ es muy probablemente µ = 65 puntos.
Aunque hayamos razonado que la muestra procede muy posiblemente de una población con
µ = 65, decimos que la media poblacional µ, basada en nuestra muestra, es muy posiblemente
µ = 65. Esto es así porque la media poblacional µ es o no es 65; sólo tiene un valor. De ahí que
utilicemos el término posible en lugar de probable.
Este tipo de razonamiento y la técnica matemática utilizada para encontrar los estimadores tam-
bién fueron desarrollados por Sir R. A. Fisher en 1922, que lo denominó método de máxima proba-
bilidad.
Con estos antecedentes, consideremos otra ilustración. Supongamos que tenemos urnas que
contienen 4 bolas que son blancas o negras. Una urna sin bolas negras se llamará urna 0; una urna
con 1 bola negra se llamará urna 1; y así sucesivamente para la urna 2, 3 y 4. Tenemos 5 urnas:

0 1 2 3 4
0n 1n 2n 3n 4n
4b 3b 2b 1b 0b
0 1 2 3 4
π0 = 4 π1 = 4 π2 = 4 π3 = 4 π4 = 4

Sea πi la proporción de bolas negras y sea


i
πi = i = 0, 1, 2, 3, 4
4
Supongamos ahora que seleccionamos una muestra aleatoria de 2 bolas con reemplazo. Esto ge-
nerará un espacio muestral de 2 dimensiones. Si las 2 bolas se seleccionan de la urna 0, el espacio
muestral será como se muestra en la Figura 8.2(a). Como las probabilidades de las bolas blancas y
negras son
P (blanco|urna 0) = 1
P (negro|urna 0) = 0
8.6. Método de máxima verosimilitud (MV) 163

las probabilidades asociadas a los puntos de la muestra son

P (blanco, blanco) = P (B)P (B) = 1 · 1 = 1


P (blanco, negro) = P (B)P (N ) = 1 · 0 = 0
P (negro, negro) = P (N )P (N ) = 0 · 0 = 0

y éstas se muestran en la Figura 8.2(a).


Si se seleccionan las 2 bolas de la urna 1, el espacio muestral bidimensional es el que se muestra
en la Figura 8.2(b) y la probabilidad asociada al punto muestral (blanco, negro) es
3 1 3
P (blanco, negro) = P (B)P (N ) = · =
4 4 16
Como hay dos puntos de este tipo, la probabilidad de (blanco y negro) es, cuando prescindimos del
orden
6
P (blanco y negro) = P (B)P (N ) + P (N )P (B) =
16
De forma similar, encontramos los espacios muestrales correspondientes a la urna 3 y 4, y también
calculamos las probabilidades de los puntos muestrales como se muestra en las figuras.

0 1 2
4n 0 0 4n 3 1 4n 4 4
16 16 16 16 16 16
4 3 2
4b 16 0 4b 9 3 4b 4 4
16 16 16 16 16 16

4 0 3 1 2 2
(a) 4b 4n (b) 4b 4n (c) 4b 4n

3 4
4n 3 1 4n 0 16
16 16 16 16
1 0
4b 9 3 4b 0 0
16 16 16 16

1 3 0 4
(d) 4b 4n (e) 4b 4n

Figura 8.2

Estos diferentes espacios muestrales pueden caracterizarse por las diferentes probabilidades de
la bola negra. En el espacio 0, P (negra) = 0/4 = 0: en el espacio 1 es 1/4; en el espacio 2 es 2/4;
y así sucesivamente. Es decir, los espacios muestrales se caracterizan por el πi .
Denotemos estos espacios muestrales por

Ω0 , Ω1 , Ω2 , Ω3 , Ω4

Supongamos que la muestra que hemos seleccionado tiene 1 bola negra y 1 blanca. La pregunta que
nos hacemos es ¿De qué espacio muestral es más probable que proceda?
¿Podría venir de Ω0 ? Evidentemente no, porque en Ω0 no hay bolas negras. ¿Podría venir de
Ω1 o de Ω2 , o de algún otro Ωi ? Para responder a esta pregunta, R. A. Fisher propone la idea de la
posibilidad.
La idea es seleccionar el espacio Ωi que dará la muestra dada ante nosotros con más frecuencia
que cualquier otro espacio. Es decir, ¿qué espacio con el que πi dará la muestra observada con más
frecuencia, en relación con los demás Ω’s?
164 Estimación

Fisher lo explica así (Fisher utiliza p donde nosotros hemos utilizado π):

Debemos volver al hecho real de que un valor de p, cuya frecuencia desconocemos, produciría el
resultado observado tres veces más frecuentemente que otro valor de p. Si necesitamos una palabra
para caracterizar esta propiedad relativa de los diferentes valores de p, sugiero que podemos hablar
sin confusión de que la posibilidad de un valor de p es tres veces mayor que la de otro, teniendo
siempre en cuenta que la posibilidad no se utiliza aquí vagamente como sinónimo de probabilidad,
sino simplemente para expresar las frecuencias relativas con las que tales valores de la cantidad
hipotética p producirían de hecho la muestra observada1 .

Por tanto, nuestro problema es decidir de qué espacio muestral Ωi procede la muestra observada
que tenemos ante nosotros. Dado que los espacios muestrales se caracterizan por πi , decidir un
espacio muestral es seleccionar un πi .
Para nuestro problema actual, podemos ver en la Figura 8.2(a) - (e) que el espacio que da la
muestra observada con más frecuencia que cualquier otro Ω es el espacio Ω2 . Para Ω2 la probabilidad
de seleccionar una muestra (blanco, negro) es

4 4 8
+ =
16 16 16
8
mientras que es menor que 16 , para cualquier otro espacio. En otras palabras, Ω2 es el espacio en el
que la muestra (b, n) tiene la mayor probabilidad.
Por lo tanto, consideramos que la urna 2 con π = 1/2, que generó el espacio muestral Ω2 , es
la urna más probable de la que se seleccionó la muestra; y consideramos este π = 1/2 como la
estimación del parámetro que buscamos.
En nuestra discusión, partimos de la muestra, luego pasamos al espacio muestral y finalmente
a la población, y encontramos el πi . Esto fue posible gracias a la sencilla ilustración que teníamos.
Sin embargo, para otros problemas que no son tan simples, este proceso es difícil.
La técnica matemática del método MV ideada por R. A. Fisher nos permite encontrar estimado-
res basados en el razonamiento anterior directamente a partir de la muestra. Nos permite encontrar
el espacio en el que la probabilidad de la muestra es mayor. Desgraciadamente, esto requiere un co-
nocimiento del cálculo. Sin embargo, podemos presentar los resultados del método MV para varias
situaciones diferentes como sigue:

1. Estimador MV de π. Afirmamos sin pruebas que el estimador de máxima verosimilitud de la


proporción poblacional π es la proporción muestral p. Así escribimos

π̂ = p (8.2)

Hemos visto que cuando el tamaño de la muestra n es grande, la distribución muestral de p es


aproximadamente normal, con cambio en la capacidad de los estudiantes, es razonable supo-
ner que la mayoría de los estudiantes obtuvieron aproximadamente 15 puntos más. Entonces
se deduce que la varianza de ambas distribuciones también será aproximadamente la misma.
1
R. A. Fisher, “On the mathematical foundations of theoretical statistics”, Phil. Trans. Roy. Soc. London, Series A, Vol.
222 (1922). Con permiso del autor y del editor.
8.7. La relación entre el error, el riesgo y el tamaño de la muestra 165

8.7 La relación entre el error, el riesgo y el tamaño de la muestra

8.7.1 La relación entre el error y el riesgo

El siguiente aspecto del estimador de µ que queremos considerar es la relación entre el error,
el riesgo y el tamaño de la muestra. Comenzamos con la relación entre el error y el riesgo. Hemos
supuesto que

µ = 70 puntos
X = 65 puntos

donde µ = 70 puntos es realmente desconocido pero se da a efectos de ilustración.


El error del estimador es

e = X − µ = 65 − 70 = −5 puntos

y se muestra en forma de diagrama en la Figura 8.3, que es una distribución muestral X.

X = 65 E(X) = 70

Figura 8.3

Sabemos por el teorema del límite central que

E(X) = µ = 70 puntos
σ 18
σX = √ = √ = 3 puntos
n 36
Como la distribución muestral es normal, el área del área sombreada se encuentra como sigue:

X −µ 65 − 70
z= = = −1.66
σx 3
Por lo tanto, el área sombreada es aproximadamente 0.0485 o 4.85 por ciento. Esto significa que
hay aproximadamente 4.85 posibilidades entre 100 de que la media de la muestra esté 5 puntos o
más por debajo de la media de la población. Del mismo modo, podemos decir que hay unas 4.85
posibilidades entre 100 de que la media de la muestra esté 5 puntos o más por encima de la media
de la población.
Ahora podemos combinar las dos afirmaciones y decir: Hay aproximadamente 4.85+4.85 = 9.7
posibilidades entre 100 de que el error sea igual o superior a 5 puntos cuando se selecciona una
muestra aleatoria de tamaño n = 36.
166 Estimación

Observe cuidadosamente cómo calculamos la probabilidad (riesgo) de que se produzca un de-


terminado error cuando se han especificado la magnitud del error (e = 5 puntos), la desviación
típica (σ = 18 puntos) y el tamaño de la muestra (n = 36).

Ejemplo No. 1
Dado n = 36 y a = 18 puntos, hallar el riesgo (probabilidad) de que se produzca un error
de e = 3 puntos o más.

X −µ e 3
z= = = =1
σx σx 3
donde
σ 18
σx = √ = √ = 3
n 36
Dado que z = 1, encontramos que la probabilidad (riesgo) es
0.1587 + 0.1587 = 0.3174
Esto se muestra en la Figura 8.4

0.1587 0.1587

X
X1 E(X) X2

Figura 8.4

Ejemplo No. 2
El azúcar se envasa en cajas y cada caja debe tener µ gramos de azúcar. La desviación tí-
pica es σ = 4 gramos. Se toma una muestra de tamaño n = 16. ¿Cuál es la probabilidad
(riesgo) de que el error sea superior a 2 gramos?

X −µ e 2
z= = = =2
σx σx 1
σ 4
σx = √ = √ = 1
n 16

A partir de la tabla normal encontramos, para z = 2,


0.0228 + 0.0228 = 0.0456

Por lo tanto, el riesgo es de aproximadamente 4.56 posibilidades entre 100 de tener un error de
e = 2 gramos o más cuando se selecciona una muestra de tamaño n = 16. Esto se muestra en forma
de diagrama en la Figura 8.5. Obsérvese que no se ha especificado µ y X; sólo se da e = X − µ = 2
gramos.
8.7. La relación entre el error, el riesgo y el tamaño de la muestra 167

0.0228 0.0228

X
E(X)

Figura 8.5

8.7.2 La relación entre el riesgo y el tamaño de la muestra

En nuestra ilustración anterior, el tamaño de la muestra era n = 36, el error era e = 5 puntos, y
el riesgo de cometer un error de e = 5 puntos o más era de 9.7/100. ¿Qué ocurrirá con el riesgo si
n es mayor? Debería estar claro de forma intuitiva que el riesgo será menor. Por ejemplo, si hay un
total de 2 000 alumnos y se toma una muestra de n = 36 para estimar la nota media, hay muchas
posibilidades de desviarse hasta 5 puntos de µ. Pero, si se toman n = 1999 alumnos, la posibilidad
de que haya un error de 5 puntos o más es altamente improbable; es decir, el riesgo de que haya
tal error es muy pequeño. Afirmamos que, dado un determinado error, a medida que aumenta el
tamaño de la muestra, disminuye el riesgo de que se produzca dicho error. Veamos ahora cómo se
calcula la variación del riesgo.
Utilizando de nuevo nuestra ilustración anterior, tenemos
n = 36, e = 5 puntos, σ = 18 puntos
σ 18
σx = √ = √ = 3 puntos
n 36

Aumentemos el tamaño de la muestra a n = 81. Entonces el error estándar se convierte en


σ 18
σx = √ = √ = 2 puntos
n 81
La distribución de muestreo para n = 36 se da en la parte superior de la Figura 8.6, y para n = 81,
se da en la parte inferior. El riesgo de tener un error de e = 5 puntos o más para n = 81 se encuentra
como sigue
X −µ e 5
z= = = = 2.5
σx σx 2

y la proporción correspondiente a z = 2.5 es 0.0062; es decir, 0.62/100. Por tanto, el riesgo es


0.62 0.62 1.24
+ =
100 100 100
A medida que el tamaño de la muestra aumenta de n = 36 a 81, el riesgo disminuye de 9.7/100 a
1.24/100.

Ejemplo No. 3
Cuando n = 36, σ = 18 y e = 3 puntos, el riesgo era de 0.3174. Hagamos que n se con-
vierta en n = 81. Entonces el riesgo se encuentra como sigue:
168 Estimación

σX = 3 points

E(X) = µ

σX = 2 puntos

X
E(X) = µ

Figura 8.6

e 3
z= = = 1.5
σx 2
σ 18
σx = √ = √ = 2
n 81

A partir de la tabla de áreas normales, la proporción es de 0.0668. Por lo tanto, el riesgo es

0.0668 + 0.0668 = 0.1336

o 13.36/100. Al aumentar el tamaño de la muestra de n = 36 a n = 81, el riesgo disminuye de


31.74/100 a 13.36/100.

Ejemplo No. 4
En el ejemplo del azúcar, teníamos n = 16, σ = 4 gramos y e = 2 gramos. Sea n = 64.
Entonces el riesgo es

e 2
z= = =4
σx 0.5
σ 4
σx = √ = √ = 0.5
n 64

y la proporción es 0.00 (la proporción para z = 4 no figura en la tabla de areas normales del
Apéndice); es decir, el riesgo es cero. A medida que el tamaño de la muestra aumenta de n = 16 a
n = 64, el riesgo disminuye de 4.56/100 a cero.
8.7. La relación entre el error, el riesgo y el tamaño de la muestra 169

8.7.3 La relación entre el error y el tamaño de la muestra

El problema consiste en ver de qué manera el cambio del tamaño de la muestra mantendrá el
error dentro de ciertos límites con un determinado riesgo. Supongamos que deseamos encontrar el
tamaño de la muestra que mantendrá el error dentro de 3 puntos, con un riesgo de, digamos, 0.0456.
La situación se muestra en la Figura 8.7.

0.0228 0.0228

3 puntos 3 puntos
X
E(X) = µ

Figura 8.7

Como el riesgo se fija en 0.0456, la proporción en cada cola es

0.0456
= 0.0228
2

Vemos en la tabla de áreas normales que la z que corresponde a 0.0228 es z = 2.0. Así tenemos,
recordando que σ = 18 puntos
e 3
z= = =2
σx 18

n

Por lo tanto n = 12 o n = 144


Esto significa que, para mantener la probabilidad (riesgo) de tener un error de 3 puntos o más
en 0.0456 (y la probabilidad de tener un error de menos de 3 puntos en 1 − 0.0456 = 0.9544),
necesitamos una muestra de tamaño n = 144.
Podemos generalizar este resultado de la siguiente manera: Tenemos

e
z= σ

n
√ zσ
n=
e

Por tanto,
z2σ2
n= (8.3)
e2
170 Estimación

En nuestro ejemplo actual, z = 2, σ = 18 y e = 3. Por tanto,


(2)2 (18)2
n=
(3)2
= 144

¿Qué tamaño debe tener la muestra para mantener la probabilidad de que el error sea igual o
mayor que e = 1.5 en 0.0456? Para 0.0456 (= 2 · 0.0228), z = 2, y
z2σ2
n=
e2
(2)2 (18)2
= = 576
(1.5)2

Ejemplo No. 5
En el ejemplo del azúcar, σ = 4 gramos. ¿Qué tamaño debe tener la muestra si la proba-
bilidad (riesgo) de que el error sea de 1 gramo o más es de 0.0456? Para 0.0456, z = 2.0:

z2σ2
n=
e2
(2)2 (4)2
= = 64
1

Observe en el ejemplo 5 que el error se redujo de e = 2 gramos a e = 1 gramo, y el tamaño de la


muestra ha aumentado de n = 16 a n = 64. Es decir, cuando el error se redujo a 1/2, el tamaño de
la muestra aumentó cuatro veces. En general, para reducir el error a 1/késima parte de su tamaño, la
muestra debe aumentar k 2 veces. Es decir,
z2σ2 z2σ2
n =  2 = k 2 2
e e
k

8.7.4 La relación entre el error, el riesgo y el tamaño de la muestra para las


proporciones

Mostramos ahora la relación entre el error, el riesgo y el tamaño de la muestra para las propor-
ciones. Sabemos que el error estándar de p es
r
π(1 − π)
σp =
n
y es necesario conocer π o una estimación del mismo para poder encontrar σp . Sin embargo, consi-
deremos el siguiente problema y mostremos cómo se puede encontrar un tamaño de muestra aunque
se desconozca π. Queremos encontrar el tamaño de la muestra que mantenga el error dentro del 3%
con un riesgo de, digamos, 0.0456. La situación se muestra en la Figura 8.8.
Como el riesgo se fija en 0.0456, la proporción en cada cola es de 0.0228, y a partir de la tabl a
de áreas normales, se encuentra que z es z = 2.0. Así, utilizando la relación
e
z=r
π(1 − π)
n
8.7. La relación entre el error, el riesgo y el tamaño de la muestra 171

0.0228 0.0228

3% 3%
p
E(p) = π
z=2
Figura 8.8

tenemos, despejando la n

z 2 π(1 − π)
n=
e2
(2) π(1 − π)
2
=
(0.03)2

No conocemos el valor de π. Sin embargo, si podemos encontrar el valor de π que maximice π(1 −
π), y utilizarlo para calcular n, podemos estar seguros de que el tamaño de la muestra n será lo
suficientemente grande como para satisfacer el requisito de que el error esté dentro del 3 por ciento.
Para encontrar el valor de π que maximizará π(1 − π), realicemos el siguiente truco algebraico:

π(1 − π) = π − π 2
 
1 1
= − −π+π 2
4 4
 2
1 1
= − −π
4 2

Esto demuestra que π(1 − π) será máximo cuando π = 1/2 y el valor máximo es 1/4. Por lo
tanto, el n que buscamos es
 
2 1
(2)
4
n=
(0.03)2
1.00
=
0.0009
.
= 1111

Es decir, si utilizamos una muestra de tamaño n = 1111, el error será inferior al 3%.
La fórmula puede generalizarse sustituyendo π(1 − π) = 1/4 en la fórmula de n, como sigue
 
2 1
(z)
4
n= 2
(8.4)
e
172 Estimación

Ejemplo No. 6
Una empresa que vende pasta de dientes ABC desea estimar la proporción de personas
que prefieren su marca ABC. Desea mantener el error dentro del 2 por ciento, con un
riesgo de 0.0456. ¿Qué tamaño de muestra debe tomarse?

0.0228 0.0228

2% 2%
p
E(p) = π

Figura 8.9

Dado que, como muestra la Figura 8.9, z = 2, a partir de la ecuación (8.4) encontramos:
 
1
(2)2
4
n=
(0.02)2
= 2500

Es decir, si se toma una muestra aleatoria de tamaño n = 2500, el error será inferior al 2 por
ciento con un riesgo de 0.0456.
Para encontrar una estimación de π, tome una muestra aleatoria de n = 1250. Entonces el
estimador de máxima verosimilitud de π es
P
x
π̂ = p =
n
P
donde Px es el número de personas que prefieren la marca ABC. Ahora n = 1250 en el presente
caso. si x = 250, la estimación MV de π es
250 1
π̂ = = = 20%
1250 5

8.8 Estimación por intervalos

8.8.1 Intervalo de confianza

Hasta ahora nos hemos ocupado de estimar un parámetro (digamos, la media poblacional µ)
con un único valor, X = 10, y esto se llama estimación por un punto o, simplemente, estimación
puntual. Ahora queremos estimar un parámetro µ por un intervalo:.

a<µ<b
8.8. Estimación por intervalos 173

donde a y b se obtienen a partir de las observaciones de la muestra. La estimación de un parámetro


mediante un intervalo se denomina estimación por intervalos y se utiliza ampliamente. Por ejemplo,
se pueden escuchar afirmaciones como: La nota media de los alumnos está entre 70 y 74 puntos;
o, la proporción de artículos defectuosos en un envío está entre el 3 y el 5 por ciento; o, el salario
medio de las secretarias está entre 65 y 70 dólares, por mencionar algunos.
En este apartado explicaremos el concepto de intervalo de confianza, que fue propuesto por el
profesor Jerzy Neyman.2 Este enfoque permite al estadístico asociar un enunciado de probabilidad
con el intervalo. Empecemos nuestra discusión con una ilustración sencilla. Supongamos que tene-
mos una muestra aleatoria:

x1 = 1, x2 = 3, x3 = 5, x4 = 7

con una media µ (desconocida) y una desviación típica σ. Queremos estimar µ, utilizando esta
muestra de cuatro valores. Sabemos por el teorema del límite central que
X −µ
z=
σx
es asintóticamente normal con media 0 y varianza unidad. Por la tabla de áreas normales sabemos
que cuando z = 1.96, corresponde a una probabilidad de 0.975. Por tanto, podemos escribir
 
X −µ
P −1.96 < < 1.96 = 0.95
σx
y ésta es una declaración de probabilidad legítima porque z es una variable aleatoria. Reescribamos
ahora esta ecuación como
 
σ σ
P X − 1.96 √ < µ < X + 1.96 √ = 0.95
n n
Si hacemos que
σ
X − 1.96 √ = a
n
σ
X + 1.96 √ = b
n

tenemos
P (a < µ < b) = 0.95
y esto puede interpretarse como sigue:
Por el teorema del límite central sabemos que X es asintóticamente normal, con media µ, y
varianza σ 2 /n. Esto se muestra en forma de diagrama en la Figura 8.10. La variable aleatoria X
toma varios valores. Expresémoslos por X 1 , X 2 , . . .. Ahora, por ejemplo, dejemos que X 1 tome el
valor indicado en la Figura 8.10. Entonces el intervalo será
σ σ
X 1 − 1.96 √ a X 1 + 1.96 √
n n
Como muestra el gráfico, esto incluirá a µ. De forma similar, para otro valor X 2 , tenemos
σ σ
X 2 − 1.96 √ a X 2 + 1.96 √
n n
2
Neyman, J., Outline of a Theory of Statistical Estimation Based on the Classical Theory of Probability, Philosophical
Transactions of the Royal Society, Series A, Vol. 236, 1937.
174 Estimación

que también incluye µ. Pero X 3 , como muestra nuestra gráfica, nos da el intervalo
σ σ
X 3 − 1.96 √ a X 3 + 1.96 √
n n

que no incluye a µ. Como podemos ver gráficamente, el X 3 cae fuera de los dos valores límite de
µ ± 1.96σx .
La probabilidad de que X esté en el intervalo µ±1.96σx es de 0.95; es decir, hay 95 posibilidades
sobre 100 de que la X esté entre µ − 1.96σx y µ + 1.96σx , dado que µ es en realidad el verdadero
valor del parámetro.
Así podemos ver en la Figura 8.10, que cuando construimos nuestro intervalo
σ σ
X − 1.96 √ a X + 1.96 √
n n

Figura 8.10

podemos esperar que 95 de cada 100 intervalos de este tipo incluyan µ. Así
 
σ σ
P X − 1.96 √ < µ < X + 1.96 √ = 0.95
n n

Pero una vez que seleccionamos una muestra y calculamos X,


1
X= (1 + 3 + 5 + 7) = 4
4
entonces X es una constante fija y ya no es una variable aleatoria. Entonces tenemos
 
σ σ
P 4 − 1.96 √ < µ < 4 + 1.96 √ = 0.95
n n
Pero
σ σ
4 − 1.96 √ a 4 + 1.96 √
n n
es un intervalo fijo, por lo que µ está en el intervalo o en su exterior. Por tanto, la probabilidad es 1
o 0.
Denotemos k1 y k2 (k1 < k2 ) como los dos límites obtenidos de una muestra concreta. Entonces

P (k1 < µ < k2 ) = 0.95

no es una probabilidad legítima. J. Neyman ha llamado al intervalo (k1 , k2 ) intervalo de confianza,


y a 0.95 lo llama coeficiente de confianza para distinguirlo de una probabilidad legítima. No obs-
tante, teniendo en cuenta la explicación anterior, el intervalo de confianza de 0.95 es una medida
significativa de la fiabilidad que otorgamos a nuestro intervalo.
En resumen, podemos escribir el intervalo de confianza del 100(1 − α)% para el parámetro µ
(media de la población) como
X − zσx < µ < X + zσx
y
P (X − zσx < µ < X + zσx ) = 1 − α
8.8. Estimación por intervalos 175

donde X es la media de la muestra, 1−α es el coeficiente de confianza, z es la desviación correspon-


diente a α (nivel de significación) obtenida de la tabla de áreas normales, y σx es el error estándar.
En general, el intervalo de confianza del 100(1 − α)% para un parámetro poblacional es

θ̂ − zσθ̂ < θ < θ̂ + zσθ̂ (8.5)

y
P (θ̂ − zσθ̂ < θ < θ̂ + zσθ̂ ) = 1 − α (8.6)
La interpretación del intervalo de confianza es la siguiente:

1. Antes de seleccionar una muestra específica, el estimador θ̂ es una variable aleatoria. Por lo
tanto, el intervalo de confianza θ̂ ± zσθ̂ también es una variable aleatoria (intervalo aleatorio)
y la probabilidad es (1 − α) de que el intervalo de confianza contenga el parámetro θ.

2. Tras la selección de una muestra concreta, el θ̂ toma un valor específico y se convierte en fijo.
Por lo tanto, el intervalo de confianza θ̂ + zσθ̂ se vuelve fijo. Entonces la ecuación (8.6) no es
un enunciado de probabilidad legítimo.

3. Por lo tanto, el significado del coeficiente de confianza (1 − α) que asociamos con un in-
tervalo de confianza específico, que obtenemos de una muestra específica, se basa en las dos
afirmaciones (8.5) y (8.6). Sea 1 − α = 0.95. Entonces la interpretación es la siguiente: Si
se seleccionan repetidamente muestras de tamaño n 100 veces, tendríamos 100 intervalos
similares a θ̂ + zσθ̂ y esperaríamos que 95 de estos intervalos contengan θ̂. El intervalo que
calculamos, θ̂ + zσθ̂ , es uno de estos 100 intervalos.

Ejemplo No. 7
Supongamos que tenemos una población de tamaño N = 7 como sigue

X1 = 1, X2 = 2, X3 = 3, X4 = 4, X5 = 5, X6 = 6, X7 = 7
 
7
Seleccionemos muestras de tamaño n = 2. Entonces hay = 21 muestras posibles y,
2
por tanto, 21 medias muestrales posibles. Éstas se enumeran en el Cuadro 8.1.

Calculemos también la X, la σ y la σ 2 . Encontramos

28
X = 4, σ 2 = = 4, σ = 2
7
σ2 N − n 4 7−2 5
σx2 = · = · = = 1.667
n N −1 2 7−1 3

σx = 1.667 = 1.29
zσx = 1.64 · 1.29 = 2.1

Como hemos definido z = 1.64, el coeficiente de confianza es del 90%. Esto significa que de 100
intervalos de confianza, esperaríamos que 10 no contuvieran la verdadera media (es decir, espera-
ríamos que el 10% no contuviera la verdadera media). En cuanto a nuestro ejemplo, hemos podido
construir 21 intervalos de confianza, y esperaríamos que el 10% de estos intervalos de confianza -
alrededor de 2 de ellos - no contengan X.
176 Estimación

Muestra x x − 1.64σx < X < x + 1.64σx


1 1.2 1.5 −0.6 < X < 3.6
2 1.3 2.0 −0.1 < X < 4.1
3 1.4 2.5 0.4 < X < 4.6
4 1.5 3.0 0.9 < X < 5.1
5 1.6 3.5 1.4 < X < 5.6
6 1.7 4.0 1.9 < X < 6.1
7 2.3 2.5 0.4 < X < 4.6
8 2.4 3.0 0.9 < X < 5.1
9 2.5 3.5 1.4 < X < 5.6
10 2.6 4.0 1.9 < X < 6.1
11 2.7 4.5 2.4 < X < 6.6
12 3.4 3.5 1.4 < X < 5.6
13 3.5 4.0 1.9 < X < 6.1
14 3.6 4.5 2.4 < X < 6.6
15 3.7 5.0 2.9 < X < 7.1
16 4.5 4.5 2.4 < X < 6.6
17 4.6 5.0 2.9 < X < 7.1
18 4.7 5.5 3.4 < X < 7.6
19 5.6 5.5 3.4 < X < 7.6
20 5.7 6.0 3.9 < X < 8.1
21 6.7 6.5 4.4 < X < 8.6

Cuadro 8.1

Sabemos que X = 4 en nuestro ejemplo. Por lo tanto, podemos ver fácilmente que el primer y
el último intervalo de confianza no contienen X = 4. Es decir

−0.6 < X < 3.6


4.4 < X < 8.6

no contienen X = 4.

Ejemplo No. 8
Un restaurante desea estimar la cantidad media de dinero que gasta un cliente en el
almuerzo. Se selecciona una muestra aleatoria de tamaño n = 36 y se encuentra que
la media de la muestra es X = $1.20. Suponiendo que σ = 0.24 y un coeficiente de
confianza de 1 − α = 95 por ciento, z se obtiene de la tabla de áreas normales como
z = 1.96. Por lo tanto, el intervalo de confianza es

   
0.24 0.24
$1.20 − 1.96 · √ < µ < $1.20 + 1.96 · √
36 36
$1.12 < µ < 1.28

La interpretación es: si se construyen 100 intervalos de confianza de la manera anterior, espe-


ramos que 95 de ellos contengan el verdadero parámetro µ. El intervalo de confianza que hemos
construido puede considerarse como uno de estos 100 intervalos de confianza.
8.8. Estimación por intervalos 177

Ejemplo No. 9
Un colegio desea estimar el peso medio de los alumnos de sexto curso. Se selecciona
una muestra aleatoria de n = 25, y se encuentra que la media de la muestra es X = 100
lb. Se sabe que la desviación estándar de la población es 15 lb. Suponiendo un coefi-
ciente de confianza de 1 − α = 90 por ciento, z = 1.64. Por lo tanto, el intervalo de
confianza es

   
15 15
100 − 1.64 · √ < µ < 100 + 1.64 · √
25 25
95 < µ < 105

Hemos supuesto en nuestra discusión que σ es conocido. Cuando σ es desconocido, podemos


utilizar una estimación de σ y encontrar el intervalo de confianza. Esto se discute en el capítulo 18.

8.8.2 Encontrar el tamaño de la muestra para un intervalo de confianza

Suponga en el ejemplo 3 que la escuela desea tener un intervalo de confianza de menos de 3 lb.
con un coeficiente de confianza (1 − α) = 0.95. ¿Qué tamaño debe tener la muestra?
Dibujemos primero la Figura 8.11 como ayuda visual, en la que, puesto que queremos el intervalo
menor a 3 lb., tenemos

3 lb
1.5 lb

X − zσx X X + zσx

Figura 8.11

zσx < 1.5 lb

Reescribamos esto como


σ
z · √ = 1.5
n
y despejamos la n, que se convierte en
z2 · σ2
n=
1.52
Como el coeficiente de confianza (1 − α) = 0.95, tenemos z = 1.96 a partir de la tabla de áreas
normales; y σ se dio como σ = 15 lb. Entonces

(1.96)2 (15)2
n=
1.52
= 384.16

Por lo tanto, un tamaño de muestra de aproximadamente 384 nos dará un intervalo de confianza
inferior a 3 lb. con un coeficiente de confianza (1 − α) = 0.95.
178 Estimación

En general, el tamaño de la muestra puede indicarse como


z2σ2
n=
e2
donde e es la semiamplitud del intervalo.
Vemos que se trata de la misma fórmula que la utilizada en el apartado 8.7 para mostrar la
relación entre el error, el riesgo y el tamaño de la muestra.
El punto a tener en cuenta es que, cuando a la media muestral X se le da un valor específico,
obtenemos un intervalo de confianza y el riesgo (probabilidad) (α) se convierte en un coeficiente de
confianza (1 − α).
El intervalo de confianza para las proporciones se analiza en el capítulo 19.

8.9 Apéndice

Ilustremos la técnica matemática de encontrar estimadores de máxima verosimilitud (EMV)


para aquellos que estén familiarizados con el cálculo.

Ejemplo No. 10
Consideremos una distribución binomial con función de densidad

f (x, p) = px q 1−x x = 1 ó 0, q =1−p

Entonces, cuando se selecciona una muestra de tamaño n por muestreo aleatorio, la función de
densidad conjunta es ∑ ∑
f (x1 , x2 , . . . , xn ; p) = p x q n− x
Establescamos ∑ ∑
x n− x
L=p q
y llamémosla función de verosimilitud L, que se considera en función del parámetro p. Según el
procedimiento del EMV, deseamos encontrar la p que maximiza la verosimilitud de L.
Dado que un logaritmo es una función monótona, el máximoP de log L y el máximo de L se
obtendrán con la misma p. Para simplificar, consideremos que x = y. Entonces
log L = log py q n−y = y log p + (n − y) log q
∂L y n−y
= + (−1) = 0
∂p p 1−p
Así, despejando la p encontramos
y 1X
p̂ = = x
n n
que es simplemente la proporción de la muestra.

Ejemplo No. 11
Sea (x1 , x2 , . . . , xn ) una muestra aleatoria de una población que tiene una distribución
normal con media desconocida µ y varianza dada σ 2 . Encuentre el MVE de µ
8.9. Apéndice 179

1
f (xi , µ) = √ e−(xi −µ) /2σ
2 2
(1)
σ 2π
 n/2 P
1 (xi − µ)2
log L = log − (2)
2πσ 2 2σ 2
∂ log L 1 h X i
=0− 2 2 (xi − µ)(−1) = 0(3)
∂µ 2σ
X
(xi − µ) = 0
X
x i = nµ
1X
µ̂ = xi
n
1P
Por tanto, el EMV de µ es X = xi .
n

Ejemplo No. 12
Dada una muestra aleatoria de tamaño n extraída de una población normal con una
media µ dada y una varianza desconocida σ 2 , encuentre el EMV para la varianza σ 2 .

La expresión (2) se convierte en


n n 1 X
log L = − log 2π − log σ 2 − 2 (xi − µ)2
2 2 2σ

Sea θ = σ 2 . Entonces
∂ log L 11 1 X
=− + 2 (xi − µ)2 = 0(4)
∂θ 2 θ 2θ
1X
θ̂ = σ 2 = (xi − µ)2
n

Ejemplo No. 13

Encuentre el EMV para µ y σ 2 simultáneamente para el caso normal. Utilizando las expre-
siones (3) y (4), encontramos

∂ log L 1 X
=0: 2 (xi − µ) = 0
∂µ σ
 
∂ log L n 1 1 X
= 0 : − + (xi − µ)2 = 0
∂σ 2 2 σ2 2σ 4

despejando la µ y σ 2 , encontramos

1X 1X
µ̂ = xi = X y σ̂ 2 = (xi − X)2
n n

2. Procedimientos y tablas de muestreo estándar militares para la inspección por variables para
el porcentaje de defectos. MIL-STD-414, 1 1 de junio de 1957.
180 Estimación

También se utilizan en la industria privada. Dibujemos primero la curva OC para nuestra ilus-
tración de la empresa de venta de televisores y, a continuación, ofrezcamos otras ilustraciones. La
tabla 9.6 se reproduce a continuación como tabla 9.7 para mayor comodidad. La curva OC se ob-
tiene graficando los valores L3, como se muestra en la Fig. 9.21. Observe cuidadosamente que esta
curva OC supone n = 100,a0= 5 por ciento, y la La hipótesis nula es p. = $400. La escala horizontal
muestra los valores alternativos p, < $400 y la escala vertical muestra los valores p.
La altura de la curva muestra el valor p y es la probabilidad de aceptar w1. Por lo tanto, cuando
la curva es alta cerca de $400 y baja cuando se aleja de $400, como se muestra en la Fig. 9.22(a),
indica que la capacidad de la regla de decisión para distinguir entre las hipótesis nula y alternativa
es buena.
Sin embargo, si la curva OC es como la de la Fig. 9.22(h), donde es alta para los valores alejados
de $400 como $396, $394, como en la figura, la capacidad de la regla de decisión para distinguir
entre las hipótesis nula y alternativa no es buena.
Ahora podemos enunciar nuestra regla de decisión como sigue:
Regla de decisión. Tome una muestra aleatoria de tamaño n = 100. Si X $396,71 X c $396,71
tomar la acción A1 (iniciar la campaña) tomar la acción A2 (no iniciar la campaña)
Entonces el riesgo a es del 5 por ciento y los riesgos fl para las hipótesis alternativas son los que
se muestran en la Fig. 9.21.
Supongamos que se selecciona una muestra aleatoria de n = 100 familias y que la media de la
muestra es X = 394. Entonces, según nuestra regla de decisión, la acción a tomar es Acción. Tomar
la acción A2 y no iniciar la campaña.
Caso 11-Segundo enfoque
Resumamos brevemente nuestra discusión sobre el primer enfoque. Una empresa de venta de
televisores desea decidir si inicia o no una campaña de ventas. Selecciona una muestra aleatoria de
n = 100 y encuentra una regla de decisión tal que a = 5 por ciento y una curva OC que muestra los
/3-riesgos para las hipótesis alternativas. Las características de esta regla de decisión y de la curva
OC eran que las hipótesis nula y alternativa y los riesgos a y /3 eran (mostrados esquemáticamente)
los siguientes:
CAPÍTULO 9
Prueba de Hipótesis

El segundo tema principal de la estadística que trataremos es la prueba de hipótesis. Lo haremos


por pasos: primero, introduciremos la nueva terminología que se utilizará en la discusión posterior;
segundo, explicaremos los errores de tipo I y de tipo H; tercero, explicaremos las pruebas relativas a
las hipótesis nulas y alternativas simples; y cuarto, generalizaremos las discusiones del tercer paso,
explicaremos los problemas de decisión simples y derivaremos las curvas CO (características de
operación).

9.1 Introducción de nueva terminología

Supongamos que nos dan 2 urnas, A y B, con bolas rojas y verdes en ellas, como sigue:
Urna A Urna B
Rojo 2 7
Verde 8 3
Se selecciona una bola de una de las urnas; supongamos que es una bola roja. El estadístico no
sabe de qué urna ha sido seleccionada. Sin embargo, basándose en esta bola roja, desea decidir de
qué urna ha sido seleccionada.
Analicemos este sencillo problema, utilizando la terminología estadística. En primer lugar, las
dos urnas se denominarán estados de la naturaleza o estados del mundo. Se denotarán m1 y m2 .
Obviamente, los mundos, m1 y m2 , son los objetos (es decir, las urnas) sobre los que el estadístico
se preocupa, y el término estados del mundo describe el mundo. En nuestro problema actual, m1
tiene 2 rojas y 8 verdes y m2 tiene 7 bolas rojas y 3 verdes. Utilizaremos m1 y m2 para denotar
tanto los mundos como los estados del mundo. Una característica de los estados del mundo es que
deben ser exclusivos y exhaustivos. Es decir, no hay más estados del mundo que m1 y m2 en nuestro
presente experimento.
Si hay 3 urnas, cada una con un número diferente de bolas rojas, hay 3 estados del mundo. En
nuestro ejemplo actual, en el que sólo tenemos 10 bolas (rojas y verdes) en una urna, el número de
bolas rojas es 0, 1, . . . , o 10. Por lo tanto, hay 11 estados posibles del mundo. Sin embargo, en nuestro
problema actual, hemos definido nuestro experimento para tener sólo 2 urnas con 2 rojas en una
urna y 7 rojas en la otra.

181
182 Prueba de Hipótesis

En segundo lugar, el estadístico realiza un experimento ϵ, que en el presente caso es la selección


de una bola.
En tercer lugar, los resultados del experimento ϵ se denotan con la variable X. En nuestro caso,
los resultados del experimento (es decir, sacar una bola) son rojos o verdes. Recordemos que estos
resultados también se denominan sucesos o eventos. También podemos mostrar estos resultados en
forma de diagrama, como en la Figura 9.1. Esta línea es un espacio unidimensional, y los 2 puntos
en él indican los 2 resultados rojo y verde. Este espacio, que muestra los posibles resultados de X, se
llama espacio muestral. Los resultados (bola roja o verde) pueden considerarse como una muestra
de tamaño 1, y estos 2 puntos, que representan muestras, se llamaron puntos muestrales.

Rojo Verde X

Figura 9.1

Como otra ilustración, supongamos que se extraen 2 bolas, con reemplazo, de una urna. Enton-
ces los posibles resultados de este experimento de tomar una muestra de 2 bolas son

(r, r), (r, v), (v, r), (v, v)

Es decir, hay 4 resultados posibles. Esto puede mostrarse en forma de diagrama, como en la Figu-
ra 9.2. Este diagrama representa el espacio muestral asociado al experimento. Vemos que tenemos
un espacio muestral bidimensional y que hay 22 = 4 puntos muestrales.

X2
(r, v) (v, v)
Verde
(r, r) (v, r)
Rojo

Rojo Verde X1

Figura 9.2

Obsérvese que las dos muestras (r, g) y (g, r) se han considerado diferentes. Pero para los
problemas prácticos son la misma muestra.
Si se extrae una muestra de tamaño 3, tenemos un espacio muestral tridimensional con 23 = 8
puntos de muestra. Si se extrae una muestra de tamaño 4, tenemos un espacio muestral de 4 dimen-
siones con 24 = 16 puntos de muestra. Si se toma una muestra de tamaño n, y sólo hay 2 resultados
posibles para cada sorteo, tendremos un espacio muestral n-dimensional con 2n puntos de muestra.
Ahora supongamos que hay bolas rojas, verdes y negras en las urnas. Es decir, hay 3 resultados
posibles por sorteo, en lugar de 2 resultados posibles por sorteo. Entonces, cuando se extrae 1 bola,
el espacio muestral es como en la Figura 9.3. Tenemos un espacio muestral de 1 dimensión con 3
puntos de muestra.

Rojo Verde Negro X

Figura 9.3
9.1. Introducción de nueva terminología 183

Si tomamos una muestra de tamaño 2, el espacio muestral es como en la Figura 9.4. Se trata de un
espacio muestral bidimensional con 32 = 9 puntos de muestra. Si tomamos una muestra de tamaño
3, tenemos un espacio muestral tridimensional con 33 = 27 puntos de muestra. Por inducción
vemos que si tomamos una muestra de tamaño n, tendremos un espacio muestral n-dimensional
con 3n puntos de muestra.

X2
Negro

Verde

Rojo

Rojo Verde Negro X1

Figura 9.4

Con respecto a nuestra línea principal de discusión, hemos explicado hasta ahora: primero, el
término estados del mundo; segundo, un experimento ϵ; tercero, un espacio muestral, y puntos
muestrales asociados a ϵ. El cuarto elemento de nuestro problema a explicar es un acto, que el esta-
dístico selecciona.
Más adelante daremos más explicaciones sobre los actos, pero por el momento digamos que A1
es una acción realizada, suponiendo que m1 es verdadera; y A2 es una acción realizada, suponiendo
que m2 es verdadera. En nuestro ejemplo actual, A1 es seleccionar la urna A, y A2 es seleccionar la
urna B.
El quinto y último elemento de nuestro problema puede explicarse como sigue: ¿Cómo decide
el estadístico si adopta la acción A1 o A2 ? Esto, como hemos visto, se basa en la bola (es decir, el
resultado; o podemos decir, la muestra) que se ha extraído.
En nuestro ejemplo, se ha extraído una bola roja. ¿Qué acción debe realizar el estadístico, A1
o A2 ? Supongamos que se ha extraído una bola verde. ¿Qué acción debe realizar, A1 o A2 ? Sería
conveniente establecer una regla de antemano para saber qué acción hay que realizar cuando se
observe un determinado resultado. Por ejemplo, establezcamos la siguiente regla:

Resultado Regla
Roja A1
Verde A2

Esta regla dice: Cuando el resultado es una bola roja, se realiza la acción A1, y cuando el resultado
es una bola verde, se realiza la acción A2.
El quinto elemento del problema es esta regla (o, podemos decir, una función) que dice qué
acción hay que tomar cuando se da un resultado. Se puede mostrar de forma esquemática como
(Resultado) −→ (regla) −→ (action)
A esta regla la llamaremos regla de decisión.
Una forma alternativa de expresarlo es
(Espacio Muestral) −→ (regla de decisión) −→ (espacio de acción)
184 Prueba de Hipótesis

porque el espacio muestral es el espacio que muestra todos los resultados posibles. Esta última in-
terpretación es la que utilizaremos principalmente para nuestra discusión teorética. La Figura 9.5
presenta una ilustración en la que se ha extraído una muestra de tamaño 2. Una pregunta que surge

v (r, v) (v, v)
Regla de Espacio
r (r, r) (v, r) Decisión de Acción

r v A1 A2

Figura 9.5

inmediatamente es: ¿Por qué hemos establecido la regla de decisión? ¿Existen otras reglas de deci-
sión? Investiguemos primero si hay otras reglas de decisión.
Como tenemos 2 resultados y 2 acciones, tenemos las siguientes 22 = 4 reglas de decisión, que
se muestran con d1 , d2 , d3 , d4 . La regla de decisión indicada es d2 .

Resultado d1 d2 d3 d4
Rojo A1 A1 A2 A2
Verde A1 A2 A1 A2

Cuadro 9.1

Si tenemos 3 resultados y 2 acciones, habrá 23 = 8 reglas de decisión. Por ejemplo, supongamos


que hay 3 colores: rojo, verde y negro. Entonces tenemos las reglas de decisión del Cuadro 9.2.

Resultado d1 d2 d3 d4 d5 d6 d7 d8
Rojo A1 A1 A1 A2 A2 A2 A1 A2
Verde A1 A1 A2 A1 A2 A1 A2 A2
Negro A1 A2 A1 A1 A1 A2 A2 A2

Cuadro 9.2

La regla de decisión d2 es que cuando se saca una bola roja o verde, se realiza la acción A1 ;
cuando se saca una bola negra, se realiza la acción A2 .
En general, si hay n resultados y 2 acciones, habrá 2n reglas de decisión.
Una pregunta que surge es: ¿Por qué seleccionamos la regla de decisión d2 ? ¿Es d2 la única regla
de decisión que debemos seleccionar como criterio? Estas preguntas se discutirán más adelante. Por
el momento, limitémonos al significado de los distintos términos nuevos.
En resumen, tenemos los siguientes 5 elementos:

1. Estados del mundo.

2. Experimento ϵ.

3. Espacio muestral y punto muestral.

4. Acción A1 y A2 .

5. Reglas de decisión.
9.2. Errores de tipo I y de tipo II 185

Con estos antecedentes, pasemos al siguiente tema, los errores de tipo I y de tipo II.

9.2 Errores de tipo I y de tipo II

El estadístico se enfrenta al problema de decidir si una bola extraída procede de la urna A m1 )


o de la urna B (m2 ). Si el estadístico rechaza m1 (urna A) cuando en realidad es cierto (es decir,
la bola procedía realmente de la urna A), el estadístico ha cometido el error de tipo I (o error del
primer tipo). En nuestro problema actual, rechazar la urna A implica aceptar la urna B, y aceptar
la urna B se llamó “tomar la acción A2 ”. Por lo tanto, podemos decir: Si el verdadero estado de la
naturaleza es m1 (urna A) y el estadístico toma la acción A2 (es decir, selecciona la urna B), comete
un error de tipo I. Este error de tipo I también se denomina error α.
Si el estadístico rechaza m2 (urna B) cuando en realidad es cierto (es decir, la bola salió real-
mente de la urna B), el estadístico ha cometido el error de tipo II (o error del segundo tipo). En
nuestro problema actual, rechazar la urna B implica aceptar la urna A, y aceptar la urna A se llamó
“tomar la acción A1 ”. Por lo tanto, podemos decir: Si el verdadero estado de la naturaleza es m2
(urna B) y el estadístico toma la acción A1 (es decir, selecciona la urna A) comete un error de tipo
II. Este error de tipo II también se llama error β.
La relación entre los estados de la naturaleza y las acciones puede mostrarse de forma esquemáti-
ca como sigue (Cuadro 9.3): La esquina superior izquierda muestra la relación en la que el verdadero
estado de la naturaleza es m1 y la acción tomada por el estadístico (o tomador de decisiones) es A1 ;
por lo tanto, es una decisión correcta.

Estado de la Naturaleza
Acción m1 , Urna A m2 , Urna B
A1 Decisión correcta Decisión incorrecta, error β
A2 Decisión incorrecta, error α Decisión correcta

Cuadro 9.3

La esquina inferior izquierda muestra la relación en la que el verdadero estado de la naturaleza


es m1 y la acción tomada es A2 ; por tanto, se trata de una decisión incorrecta (el error α).
La esquina superior derecha muestra la relación en la que el verdadero estado de la naturaleza
es m2 y la acción tomada es A1 ; por tanto, se trata de una decisión incorrecta (el error β).
La esquina inferior derecha muestra la relación en la que el verdadero estado de la naturaleza es
m2 y la acción tomada es A2 ; por tanto, es una decisión correcta.
A continuación se presentan varios ejemplos más de errores de tipo I (α) y de tipo II (β): Su-
pongamos que m1 es el estado de naturaleza en el que tenemos buenos alumnos (es decir, alumnos
con notas A, B, C o D), y m2 es el estado en el que tenemos malos alumnos (es decir, alumnos con
notas F ). Sean las dos acciones A1 y A2 “aprobar” o “suspender” a un alumno, respectivamente.
Entonces podemos mostrar la situación de forma esquemática como sigue:
El error α se comete cuando se ha suspendido a un buen alumno. El error β se comete cuando
se ha aprobado a un mal alumno.
Otro ejemplo es: m1 es buen tiempo; m2 es lluvia; A1 es “no llevar paraguas”; A2 es “llevar
paraguas”. La situación es la siguiente:
186 Prueba de Hipótesis

Estado de la Naturaleza
Acción m1 , Buenos Estudiantes m2 , Malos estudiantes
A1 , aprobar Decisión correcta Decisión incorrecta, error β
A2 , suspender Decisión incorrecta, error α Decisión correcta

Cuadro 9.4

Estado de la Naturaleza
Acción m1 , Bueno tiempo m2 , Lluvia
A1 , no llevar paraguas Decisión correcta Decisión incorrecta, error β
A2 , llevar paraguas Decisión incorrecta, error α Decisión correcta

Cuadro 9.5

El último ejemplo puede cambiarse de la siguiente manera: m1 , es lluvia; m2 es buen tiempo:


A1 es “llevar el paraguas”; A2 es “no llevar el paraguas”. Entonces el esquema se convierte en:

Estado de la Naturaleza
Acción m1 , Bueno tiempo m2 , Lluvia
A1 , llevar paraguas Decisión correcta Decisión incorrecta, error β
A2 , no llevar paraguas Decisión incorrecta, error α Decisión correcta

Cuadro 9.6

Ahora el error α es no llevar el paraguas cuando llueve. En el caso anterior era tomar el paraguas
cuando estaba de buen clima. Los errores α y β se han invertido.
Esto indica que el error α y el error β dependerán de cómo seleccionemos nuestros m1 , m2 , A1
y A2 . Como convención, solemos tomar nuestros m1 , m2 , A1 y A2 , de modo que el error α es el
que nos interesa evitar principalmente. Si no llevar un paraguas cuando llueve es el error más grave
que tomar un paraguas cuando hace buen tiempo, deberíamos adoptar el segundo esquema.
También se recomienda configurar el esquema de forma que el error a esté siempre en la cel-
da inferior izquierda y (en consecuencia) el error β esté en la celda superior derecha. Esto evitará
confusiones. Nosotros seguiremos esta regla.

9.3 Prueba de hipótesis

A continuación, aplicaremos los distintos resultados anteriores a los problemas clásicos de com-
probación de hipótesis. El adjetivo “clásico” se utiliza porque la prueba que vamos a discutir se
desarrolló durante el último medio siglo y puede contrastarse con un nuevo enfoque que se ha de-
sarrollado recientemente. En el capítulo 13 hablaremos de este nuevo enfoque.
El caso más sencillo puede resumirse de la siguiente manera: Queremos determinar si una mues-
tra procede o no de la población (estado natural) m1 . Supongamos que la media de la población es
µ0 y la media de la muestra es X. Entonces nos planteamos la pregunta ¿Cuál es la probabilidad de
seleccionar una muestra con media muestral X o mayor de una población con media µ0 ? Supon-
gamos que la probabilidad es α (digamos, el 3%). Esto significa que hay 3 posibilidades entre 100
de seleccionar una muestra con una media muestral X o mayor de una población con media µ0 .
9.3. Prueba de hipótesis 187

Por tanto, si concluimos que la muestra no procede de la población, la probabilidad de ser in-
correcta es de 0.03. O bien, podemos decir que la probabilidad de ser incorrectos al decidir que la
muestra no procedía de la población, cuando en realidad sí lo hacía, es de 0.03.
Hemos supuesto que la población tiene una media de µ0 . Esta es, pues, nuestra hipótesis; es decir
Hipótesis: La media de la población es µ0
que suele abreviarse como
H0 : µ = µ 0
y se denomina hipótesis nula. Es la hipótesis que nos interesa probar.
Utilizamos este término “hipótesis nula” y enunciamos nuestra conclusión de la siguiente ma-
nera: La probabilidad de rechazar la hipótesis nula (H0 ) cuando en realidad es verdadera es de 0.03.
O bien, podemos decir que 0.03 es la probabilidad de realizar la acción A2 , dada H0 . En símbolos,
esto es
P (A2 |H0 )

Pero tenga en cuenta que este rechazo de la hipótesis nula es simplemente el error de tipo I (α).
El error α es el error de rechazar el estado de naturaleza m1 (H0 ) cuando en realidad es verdadero.
En otras palabras, 0.03 es el riesgo de cometer un error del primer tipo. Utilizaremos α para denotar
este riesgo. En símbolos tenemos

α = P (A2 |H0 ) = 0.03

Debido a las fluctuaciones aleatorias en la selección de la muestra, siempre existe el riesgo de


cometer un error, aunque si las muestras son grandes, este riesgo puede reducirse. Este punto se
explicó en el capítulo 8.
Veamos un ejemplo. Supongamos que una empresa tiene 160 secretarias y que la distribución de
su velocidad de mecanografía es la que se muestra en el Cuadro 9.13. La variable X es la velocidad
de mecanografía.

Velocidad Punto
Mecanografía, Frecuencia Medio
X f m d fd d2 f d2
45 - 10 -3 -30 9 90
50 - 20 -2 -40 4 80
55 - 30 -1 -30 1 30
60 - 40 62.5 0 0 0 0
65 - 30 1 30 1 30
70 - 20 2 40 4 80
75 - 10 3 30 9 90
160
P 0 400
fd 0
µ=A+ · C = 62.5 + · 5 = 62.5
rP N  P  2
160r
f d2 fd 400
σ=C − =5 = 7.91
N N 160
Cuadro 9.7

La media de la población es µ = 62.5 palabras por minuto y la desviación típica de la población


es σ = 7.91 palabras por minuto.
188 Prueba de Hipótesis

Una escuela de secretariado afirma que instruyendo a las secretarias en las instalaciones de la
empresa durante varios días, la velocidad de mecanografía aumentará. La empresa contrata a la
escuela de secretariado para que preste sus servicios.
Tras las instrucciones, la empresa decide que un estadístico compruebe los resultados. El esta-
dístico selecciona una muestra aleatoria de 16 secretarias y descubre que la media de la muestra es
de 66.2 palabras por minuto.
Pregunta: ¿Qué probabilidad hay de seleccionar una muestra con una media muestral mayor o
igual a 66.2 de la población original m1 , que tiene una media poblacional de µ = 62.5? La población
original m1 está caracterizada por µ = 62.5. Esto se convierte en la hipótesis nula
En el capítulo 7 aprendimos a utilizar la distribución muestral de la media de la muestra y los
resultados del teorema central del límite para calcular la probabilidad de seleccionar una muestra.
En nuestro caso actual, la distribución muestral de la media de la muestra puede mostrarse como
en la Figura 9.6.

p
E(X) = 62.5

Figura 9.6

Sabemos que
E(X) = µ = 62.5
Dado que la distribución muestral de la media de la muestra es aproximadamente normal, el área
de la parte sombreada se halla mediante
1 1
X − E(X) 66.2 − · − 62.5
z= = 2 16 = 1.95
σx 1.88
donde σx se obtiene de
r r
σ N −n 7.91 160 − 16
σx = √ =√ = 1.88
n N −1 16 160 − 1
Como z = 1.95, la proporción de la zona sombreada es 0.0256. En símbolos esto se muestra como

P [X ≧ 66.2 | µ = 62.5]

La interpretación es: Hay 2.56 posibilidades entre 100 de seleccionar muestras con medias mues-
trales mayores o iguales a 66.2 de la población m1 .
Esto también puede interpretarse de la siguiente manera: El riesgo (o probabilidad) de cometer
el error de tipo I (α) de rechazar H0 cuando en realidad es verdadera es de 0.0256.
La cuestión que se plantea es: ¿De qué tamaño debe ser el riesgo para decidir si se rechaza o no
la hipótesis nula?
9.3. Prueba de hipótesis 189

El análisis clásico es ambiguo en este punto y sortea este impasse diciendo: El nivel de riesgo debe
ser determinado por personas distintas del estadístico; se trata de una decisión política y bastará con
que el estadístico pueda proporcionar al responsable de la toma de decisiones políticas información
útil para ésta.
Sin embargo, desde el punto de vista del responsable de la toma de decisiones políticas, éste
determinará si el riesgo debe ser de 0.001, o de 0.05, o de 0.10, o de algún otro valor en función de
la intensidad con la que desee evitar cometer el error de tipo I. Cuanto más quiera evitar el error de
tipo I, menor será el riesgo.
Obsérvese que hemos utilizado la α de dos maneras: una es como α = P (A2 |H0 ), que muestra
el riesgo (o probabilidad) de cometer el error de tipo I (alpha). Llamemos a esto el riesgo calcu-
lado, o probabilidad de error, o el riesgo α. La segunda es aquella en la que el responsable de la
toma de decisiones políticas fija el riesgo en algún valor predeterminado, como el 5%, o el 1%. Este
riesgo suele denominarse nivel de significación y se denota por α0 . En resumen, tenemos el riesgo
α, que muestra la probabilidad de cometer el error de tipo I, y el nivel de significación α0 , que está
predeterminado por el responsable de la política.
La pregunta que surge naturalmente a continuación es: ¿Qué determina la intensidad con la que
el responsable de la toma de decisiones políticas desea evitar cometer el error de tipo I? Esto será el
daño o la pérdida en que incurre cuando se comete el error de tipo I. Por ejemplo, en nuestras ilus-
traciones anteriores, los errores de tipo I eran suspender a un buen estudiante o coger un paraguas
cuando hace buen tiempo. Comparando estos dos daños o pérdidas, podemos decir que suspender
a un buen estudiante es más grave. Por lo tanto, el responsable de la decisión política puede fijar el
nivel de significación ao para el caso del estudiante en, digamos, 0.01 y el a0 para el caso del paraguas
en, digamos, 0.10.
En la presente ilustración, hemos evaluado subjetivamente los dos casos y hemos asignado nive-
les de significación. Esto nos lleva a la siguiente pregunta: ¿Existe una forma de evaluar las pérdidas?
Si la hay, podemos utilizar estas evaluaciones de las pérdidas para determinar el nivel de significa-
ción. Resulta que existe un procedimiento estadístico que tiene en cuenta las pérdidas que pueden
producirse cuando se comete un error de tipo I y lo utiliza como uno de los factores para determinar
el nivel de significación y llegar a una decisión.
Pero podemos ir un paso más allá. Es decir, si tenemos información previa sobre los estados de
la naturaleza, podemos ver intuitivamente que esto ayudará a evitar un error de tipo I. Por ejemplo,
si sabemos de antemano que el alumno es un excelente estudiante, es más probable que evitemos
cometer el error de suspenderle. O, si tenemos de antemano buenos informes meteorológicos, es
más probable que evitemos el error de coger un paraguas cuando hace buen tiempo.
Estos problemas de (1) la información previa, y (2) las pérdidas en las que se incurriría cuando
se comete un error de tipo I, y cómo se incorporan en el procedimiento de prueba de hipótesis, se
tratarán en los capítulos 10 y 17. En el presente capítulo, limitaremos la discusión al procedimiento
clásico de prueba de hipótesis, y diremos simplemente que el nivel de significación α0 lo determina
el responsable de la política. Volvamos ahora a la línea principal de nuestra discusión.
La pregunta era: ¿Qué grado de riesgo debe asumirse para decidir si se rechaza la hipótesis nula
H0 (µ = 62.5)? Supongamos que el responsable de la toma de decisiones políticas fija el nivel de
significación en α0 = 0.05 (5%), y que cuando el riesgo calculado sea inferior al 5%, rechazará la
hipótesis nula.
El razonamiento para rechazar la hipótesis nula puede presentarse como sigue: Supongamos que
la hipótesis nula es verdadera y que la media es µ. Sea X la media de la muestra, y sea d = X − µ,
la desviación de X respecto a µ. Entonces, claramente, la probabilidad de seleccionar una muestra
190 Prueba de Hipótesis

con una media muestral X tal que d sea grande, será pequeña. Cuanto mayor sea d, menor será la
probabilidad de seleccionar dicha muestra. Esta probabilidad puede mostrarse como

P (Xµ ≧ d)

En nuestro caso, la probabilidad de seleccionar una muestra con una media muestral de X = 66.2
o superior de una población con µ = 62.5 es de 0.0256. Es decir, la probabilidad de obtener una
desviación
d ≧ X − µ = 66.2 − 62.5 = 3.7
es de 0.0256. El estadístico considera bastante improbable seleccionar una muestra tan extrema de
una población con ella µ = 62.5 en un solo ensayo.
Lo que nosotros (el estadístico) tenemos realmente ante nosotros es la muestra. La hipótesis
nula es algo que hemos establecido. En nuestra ilustración, un riesgo α = 0.0256, que es menor
que el nivel de significación elegido, 0.05. Por lo tanto, concluimos que las pruebas de la muestra no
apoyan la hipótesis nula y, por lo tanto, rechazamos la hipótesis nula. No hemos demostrado que la
hipótesis nula sea errónea, sólo que las pruebas de la muestra no apoyan la hipótesis nula.
Este resultado suele expresarse de la siguiente manera: Si la probabilidad (digamos, 0.0256) de la
desviación entre X y µ es menor o igual que α0 (digamos, 0.05, donde α0 es el nivel de significación
predeterminado, consideramos que la diferencia entre X y µ es significativa y, por tanto, rechazamos
la hipótesis nula.
Si la probabilidad (digamos, 0.10) de la desviación entre X y µ es mayor que α (digamos, 0.05),
consideramos que la diferencia entre X y µ no es significativa y, por tanto, aceptamos la hipótesis. Es
decir, se considera que la desviación de X con respecto a µ se debe a causas fortuitas (aleatorias).
En nuestro caso, el rechazo de H0 implica que el estadístico piensa que la muestra procede de
una población diferente que tiene una velocidad media de mecanografía mayor.
Es importante entender que no se ha demostrado ninguna relación causal. Los resultados sim-
plemente muestran que los datos apoyan la afirmación (o los datos son coherentes con la afirmación)
de que la velocidad de mecanografía aumenta. Para utilizar otro ejemplo, consideremos la afirma-
ción de que fumar provoca cáncer. Se recopilan datos que muestran que las personas que fuman
tienen un mayor índice de cáncer. Pero este análisis estadístico no demuestra ninguna relación cau-
sal entre el tabaquismo y el cáncer. Sólo demuestra que los datos son coherentes con la afirmación.
Analicemos y resumamos ahora la ilustración anterior como sigue:

1. La población m1 que fue rechazada es la hipótesis que se está considerando. El punto impor-
tante a tener en cuenta aquí es que cuando decimos “hipótesis” en estadística, nos referimos a
una distribución de frecuencias. Para distinguirla de las hipótesis que no tienen distribución
de frecuencias, como “la tierra es redonda”, se puede llamar hipótesis estadística.
La hipótesis estadística que se está probando se llama hipótesis nula y se denota por H0 . El
estadístico desea aceptar o rechazar la hipótesis nula. Si rechaza la hipótesis nula, implica la
aceptación de otra hipótesis. Esta otra hipótesis se denomina hipótesis alternativa (o hipótesis
alternativas, si hay más de una alternativa), y se denota por H1 .
En nuestro caso, la población original (distribución de frecuencias) H0 es la hipótesis nula.
Las hipótesis alternativas H1 son las distribuciones de frecuencias con una media más alta.

2. El estadístico encuentra que cuando la media de la muestra es X = 66.2 o superior, la pro-


babilidad es
P [X ≧ 66.2|µ = 62.5] = 0.0256
9.3. Prueba de hipótesis 191

Se observa que cuando la desviación (o diferencia)

d=X −µ

se hace mayor, la probabilidad de encontrar una muestra con dicha media muestral se hace menor.
Cuando la probabilidad es muy pequeña rechaza H0 , basándose en el razonamiento de que la se-
lección de una muestra así es altamente improbable. Cuando la desviación es grande y la ocurrencia
de tal media muestral es altamente improbable, esto puede expresarse diciendo: La media muestral
X difiere significativamente de µ. Cuando la desviación es pequeña y la ocurrencia es probable, esto
puede expresarse diciendo: La media muestral X no difiere significativamente de µ.
Esto nos lleva a la pregunta: ¿Dónde está la línea divisoria entre lo improbable y lo probable y, por
tanto, entre el rechazo y la aceptación de H0 ? Esto dependerá de la seguridad que el estadístico (o el
responsable de la toma de decisiones políticas) desee tener para no tomar una decisión incorrecta de
volver a rechazar H0 cuando en realidad debería aceptarse. En el caso que nos ocupa, el estadístico
(o el responsable de la toma de decisiones políticas) piensa que 5 posibilidades sobre 100 es muy
improbable y ha fijado α0 = 0.05. En otros casos, α0 puede ser 0.1, es decir, el 10%, o algún otro
porcentaje. Estos criterios de división se denominan niveles de significación y se indican con α0 . En
nuestro caso, la probabilidad de error es α = 0.0256 y α0 = 0.05. Por lo tanto, el estadístico decide
que la selección de una muestra de este tipo en un solo ensayo es altamente improbable y rechaza
H0 .
Nuestra explicación ha sido bastante larga, pero una vez entendida, los problemas pueden re-
solverse de la siguiente manera compacta. Las hipótesis nula y alternativa son

H0 : µ = 62.5
H1 : µ > 62.5

donde α = 7.91. La media de la muestra es X = 66.2 (Figura 9.7). Entonces

p
E(X)
66.2
µ = 62.5

Figura 9.7

1 1
X −µ 66.2 − · − 62.5
z = 2 16 = 1.95
σx 1.88

donde
r r
σ N −n 7.91 160 − 16
σx = √ =√ = 1.88
n N −1 16 160 − 1
192 Prueba de Hipótesis

Como z = 1.95, encontramos a partir dea el área normal que


P [X ≧ 66.2|µ = 62.5] =
 
1 1
66.2 − · − 62.5
 X − 62.5 2 16 µ = 62.5
=P ≧ 
1.88 1.88

= P [z ≧ 1.95]
= 0.0256
Por tanto, hay 2.56 posibilidades entre 100 de seleccionar muestras con medias muestrales mayores
o iguales a 66.2. Dado que hemos acordado el nivel de significación α = 5 por ciento. existe una
diferencia significativa entre X = 66.2 y µ = 62.5, y por tanto rechazamos la hipótesis H0 de que
µ = 62.5. Esto implica que la muestra procede de H1 , donde µ > 62.5.
Una forma alternativa de expresar la conclusión es: El riesgo α es 2.56% y es menor que el nivel
de significación de α0 = 0.05 (es decir, 5 por ciento). Por lo tanto, rechazamos la hipótesis nula.
Para repetirlo una vez más, cuando se rechaza la hipótesis H0 , significa que se rechaza la distri-
bución de frecuencias con µ = 62.5. La implicación de que la muestra procede de H1 significa que
la muestra procede de una distribución de frecuencias con es mayor que 62.5.
Presentemos ahora varios ejemplos. Los ejemplos 1, 2 y 3 son ilustraciones de pruebas de una
cola relativas a las medias. Los ejemplos 4 y 5 son pruebas de una cola relativas a las proporciones.
Los ejemplos 6 y 7 son pruebas de dos colas sobre medias y proporciones.

9.3.1 Pruebas de una cola sobre las medias

La ilustración sobre las secretarias era una prueba de una cola. Las hipótesis nula y alternativa
eran
H0 : µ = 62.5
H1 : µ > 62.5
Una característica de esta prueba es que la hipótesis alternativa H1 es de una cola; es decir, al estadís-
tico sólo le interesan los valores superiores a 62.5. La razón es que la empresa sólo estaba interesada
en comprobar la afirmación de la escuela de secretariado de que la velocidad de mecanografía au-
mentaría. No era necesario comprobar si la velocidad de mecanografía era inferior a 62.5 palabras
por minuto.
Una segunda característica de esta prueba es que la hipótesis alternativa H1 no es una única
alternativa, sino que incluye todas las poblaciones en las que µ > 62.5. Por lo tanto, podemos
escribir las hipótesis alternativas como
H1 : µ = 62.6
H1 : µ = 62.7
H1 : µ = 62.8
H1 : µ = 62.9
..
.
Este tipo de hipótesis alternativa se llama hipótesis compuesta; y al expresar H1 , sería más exacto
decir las hipótesis alternativas H1 .
9.3. Prueba de hipótesis 193

En cambio, si estamos probando la hipótesis nula H0 : µ = 62.5 contra una sola hipótesis
alternativa, digamos, H1 : µ = 63.0, tal H1 se llama hipótesis simple.
Esta ilustración era una prueba de cola derecha, pero como puede verse, si las hipótesis alterna-
tivas se referían sólo a valores de la media poblacional menores que el valor de la media poblacional
de la hipótesis nula, deberíamos tener una prueba de cola izquierda.
En símbolos esto se convierte en

H0 : µ = µ 0
H1 : µ < µ 0

donde µ0 es el valor de µ en la hipótesis nula.

Ejemplo No. 1
Los registros anteriores muestran que la nota media de los alumnos que cursan Eco-
nomía es de 65 puntos, con una desviación típica de 16 puntos. Se emplea un nuevo
método de enseñanza y se selecciona una muestra aleatoria de 64 alumnos. La media de
la muestra es de 69 puntos. ¿Existe una diferencia significativa entre la µ = 65 puntos y
la media muestral de 69 puntos?

Este problema implica que estamos interesados en probar si ha habido o no un aumento de


la nota media, es decir, si la media ha aumentado más de 65 puntos. Por lo tanto, tenemos una
alternativa unilateral, y las hipótesis nula y alternativa son

H0 : µ = 65 puntos
H1 : µ > 65 puntos

donde σ = 16 puntos; X = 69 puntos. Así pues,

X − E(X)
z=
σx
donde
σ 16
σx = √ = √ = 2
n 64
y hemos supuesto que f pc = 1; también hemos omitido la corrección de continuidad. La situación
se muestra en la Figura 9.8. Como z = 2, encontramos 0.0228 a partir de la tabla de áreas normales.
En símbolos tenemos

P [X ≧ 69|µ = 65] =
 
X − 65 69 − 65
=P ≧ µ = 65
2 2
= P [z ≧ 2|µ = 65]
= 0.0228

Esto significa que las probabilidades son aproximadamente 2/100 de seleccionar una muestra
aleatoria de 64 estudiantes con una media de X = 69 o superior de una población con µ = 65; o
podemos decir que el riesgo alpha es aproximadamente del 2 por ciento.
194 Prueba de Hipótesis

0.0228

2σx
X
E(X) =
µ = 65

Figura 9.8

Como hemos acordado fijar el nivel de significación en α0 = 0.05, rechazaremos la hipótesis


nula H0 . Hay una diferencia significativa entre X = 69 y µ = 65 puntos. La implicación es que los
datos apoyan la afirmación de que el nuevo método de enseñanza mejorará la media.

Ejemplo No. 2
Se sabe, por registros anteriores, que el peso medio de los cerdos a las 6 semanas de
nacer es de 100 libras, con una desviación estándar de 18 libras. Se da una nueva dieta a
un grupo grande de cerdos y se selecciona una muestra aleatoria de 36 cerdos.

El peso medio es de 107.5 lb. ¿Ha habido un aumento significativo del peso de los cerdos? Al
igual que en el problema anterior, nos interesa probar si el peso medio de los cerdos es superior a
100 lb. Por tanto, la hipótesis alternativa es de una cola. Las hipótesis nula y alternativa son

H0 : µ = 100 lb
H1 : µ > 100 lb

donde σ = 18 lb.; X = 107.5 lb. Por lo tanto

X −µ 107.5 − 100
z= = = 2.5
σx 3
donde
σ 18
σx = √ = √ = 3lb
n 36
y hemos supuesto que f pc = 1 y hemos omitido la corrección de continuidad. La situación se
muestra en la Fig. 9.9. Como z = 2.5, encontramos 0.0062 a partir de la tabla de áreas normales.

2.5σx
X
E(X) = 107.5
µ = 100

Figura 9.9

En símbolos tenemos
P [X ≧ 107.5|µ = 100] = 0.0062
9.3. Prueba de hipótesis 195

Esto significa que las probabilidades son de aproximadamente 0.6/100 de seleccionar una muestra
aleatoria de 36 cerdos con una media de X = 107.5 lb. o más de una población con µ = 100 lb.; o
podemos decir que el riesgo α es de aproximadamente 0.6 por ciento.
Como α0 = 0.05, rechazamos la hipótesis nula H0 . Hay una diferencia significativa entre X =
107.5 y µ = 100.0 lb.
La implicación es que los datos apoyan la afirmación de que la nueva dieta aumentará el peso
medio de los cerdos.

Ejemplo No. 3
Se afirma que el contenido de una botella de loción es igual a 100 cc. Se selecciona una
muestra aleatoria de 144 frascos y se comprueba que la cantidad media de loción por
frasco es de 99 cc. Suponiendo que la desviación típica es de 4 cc, ¿existe una diferencia
significativa entre el valor observado de 99 cc y el valor supuesto de 100 cc?

En este caso, el inspector está interesado en comprobar si hay una cantidad insuficiente de loción
en el frasco. Por tanto, tenemos una prueba unilateral, y las hipótesis nula y alternativa son

H0 : µ = 100 cc
H1 : µ < 100 cc

y se trata de una prueba de cola izquierda. Suponiendo que la población es muy grande, dejemos
que f pc = 1. Además, como n = 144, omitamos la corrección de continuidad. Entonces

X − E(X) 99 − 100
z= = = −3
σx 4
12
Así pues,
P [X ≦ 99|µ = 100] = 0.0013
Esto significa que hay aproximadamente 1.3 posibilidades entre 1000 de seleccionar una muestra de
tamaño n = 144 con una media X = 99 o menor de una población con una media µ = 100 cc.
Suponiendo un nivel de significación del 5 por ciento, concluimos que la diferencia entre X = 99
cc y µ = 100 cc es significativa, y por tanto se rechaza la hipótesis nula.
Observe cuidadosamente que no se ha demostrado nada. Sólo hemos comprobado que las prue-
bas no apoyan la afirmación de que el volumen del contenido de la botella es de 100 cc. Sin embargo,
hay un riesgo a de aproximadamente 0.0013.

9.3.2 Prueba de una cola relativa a las proporciones

Ejemplo No. 4
Los datos anteriores muestran que el 20 por ciento de las familias de una determinada
ciudad están suscritas a la revista K. Hay algunas razones para creer que ha habido un
descenso reciente en la tasa de suscripción. Para probar si ha habido o no un cambio,
se selecciona una muestra aleatoria de 100 familias y la proporción de la muestra resulta
ser p = 0.16(= 16 por ciento).
196 Prueba de Hipótesis

Como lo que interesa es comprobar si ha habido o no un descenso, suponemos que no ha habido


ningún descenso (es decir, que es π = 20 por ciento) y establecemos la alternativa unilateral de que
π < 20 por ciento. Tenemos
H0 : π = 20%
H1 : π < 20%
La proporción de la muestra es p = 16 por ciento. Así pues,
1 1
p−π 0.16 + · − 0.20
z= = 2 100
σp 0.04
−0.04 + 0.005
= = −0.875
0.04
donde σp es
r
π(1 − π)
σp =
r n
0.20 · 0.80 0.40
= = = 0.04
100 10
Obsérvese que hemos supuesto que f pc = 1. Dado que z = −0.875, encontramos a partir de la
tabla de áreas normales que
P [p ≦ 0.16|π = 0.20] =
 
1 1
0.16 + · − 0.20
 p − 0.20 2 100 π = 0.20
=P ≧ 
0.04 0.04

= P [z ≦ −0.875]
= 0.1908
Esto se muestra en forma de diagrama en la Figura 9.10.

X
0.16 E(p) =
π = 0.20

Figura 9.10

La interpretación es: Hay aproximadamente 19.08 posibilidades entre 100 de seleccionar mues-
tras con una proporción muestral menor o igual a 0.16 de una población en la que π = 0.20. Como
utilizamos α0 = 0.05, aceptamos la hipótesis nula H0 .
Es decir, no existe una diferencia significativa entre p = 0.16 y π = 0.20, por lo que se piensa que
la diferencia se debe al azar. Esto significa que los datos no apoyan la afirmación de que ha habido
una disminución de la tasa de suscripción.
También podemos decir que el riesgo α es de aproximadamente el 19 por ciento, y dado que α0
se fija en el 5 por ciento, aceptamos la hipótesis nula.
9.3. Prueba de hipótesis 197

Ejemplo No. 5
En enero, el 40 por ciento de los distribuidores de 2000 indicaron que tenían previsto
aumentar sus pedidos de lavavajillas. En marzo, había razones para creer que este por-
centaje había aumentado. Se seleccionó una muestra aleatoria de 400 distribuidores y la
proporción de la muestra fue p = 46 por ciento. ¿Se ha producido un aumento significa-
tivo?

Dado que nos interesa el aumento de los pedidos, planteamos la hipótesis nula de que no ha
habido aumento (es decir, π = 40 por ciento) y luego planteamos la alternativa unilateral de que
π > 0.40. Las hipótesis nula y alternativa son las siguientes
H0 : π = 0.40%
H1 : π > 0.40%
La p = 0.46. Así pues,
1 1 1 1
p− · −π 0.46 − · − 0.40
z= 2 n = 2 400 = 2.68
σp 0.0219
donde
r r
π(1 − π) N − n
σp =
n N −1
r r
0.40 · 0.60 2000 − 400
=
400 2000 − 1
= 0.02449 · 0.894
= 0.0219
Dado que z = 2.68, encontramos a partir de la tabla de áreas normales que
P [p ≧ 0.46|π = 0.40] = 0.0037
Esto se muestra en la Figura 9.11.

0.0037

2.5σx
X
E(p)
= π = 0.40

Figura 9.11

La interpretación es la siguiente: hay aproximadamente 3.7(0.37) posibilidades en 1000(100)


de seleccionar muestras con proporciones muestrales mayores o iguales a 0.46 de una población en
la que π = 0.40. Como utilizamos α0 = 0.05, rechazamos la hipótesis nula H0 . Es decir, hay una
diferencia significativa entre p = 0.46 y π = 0.40. Esto significa que los datos apoyan la afirmación
de que ha habido un aumento en la proporción de distribuidores que planean aumentar sus pedidos.
O podemos decir que el riesgo α es de aproximadamente 0.37 por ciento y, por tanto, rechazamos
la hipótesis nula.
198 Prueba de Hipótesis

9.3.3 Pruebas de dos colas

Ejemplo No. 6
Un proceso está bajo control cuando la cantidad media de café instantáneo que se enva-
sa en un tarro es de 6 oz. La desviación estándar es de 0.2 oz. Se selecciona una muestra
de 100 tarros al azar y se encuentra que la media de la muestra es de 6.1 oz. ¿Está el
proceso fuera de control?

Suponemos que el proceso está controlado; es decir, la hipótesis nula es que la media de la po-
blación es de 6.0 oz. (µ = 6.0). La hipótesis alternativa es que la media de la población no es 6.0
oz. (µ 6= 6.0). En este caso, la media de la población puede ser mayor o menor que 6.0. Esto se
llama una prueba de hipótesis de dos colas, en contraste con las anteriores que se llaman pruebas de
hipótesis de una cola. En símbolos, esto se muestra de la siguiente manera:

H0 : µ = 6.0
H1 : µ 6= 6.0

Además, especifiquemos el nivel de significación en α0 = 5 por ciento.


La situación se muestra en forma de diagrama en la Figura 9.12(a). Hemos dividido α0 = 5
por ciento uniformemente y hemos tomado 2.5 por ciento en cada cola. Podemos interpretar esto
como que el fabricante considera igualmente importante evitar el sobrellenado o el infrallenado de
un tarro.

2.5% 2.5% 4% 1%

E(X) X E(X) X
(a) (b)

Figura 9.12

Si considera que evitar el subllenado es 4 veces más importante que el sobrellenado, puede tener,
por ejemplo, el 4 por ciento en la cola izquierda y el 1 por ciento en la cola derecha, como se muestra
en la Figura 9.12(b). En nuestra discusión posterior, a menos que se indique lo contrario, siempre
dividiremos el nivel de significación α0 por igual entre las colas superior e inferior por simplicidad.
(Véase el ejemplo 5 de la sección 9.5.)
La prueba es la siguiente:
6.1 − 6.0
z= =5
0.2
10

donde hemos supuesto que f pc = 1 y hemos omitido la corrección de continuidad. El resultado


muestra claramente que la probabilidad de encontrar una media muestral tan grande como 6.1 on-
zas es inferior al 2.5 por ciento. Por lo tanto, rechazaremos la hipótesis nula de que µ = 6.0 oz.
Obviamente, el proceso no está controlado.
9.4. Problemas de decisión simples 199

Ejemplo No. 7
En el ejemplo 5 supusimos que el 40% de los distribuidores planeaban aumentar sus
pedidos de lavavajillas y que en marzo había razones para creer que este porcentaje ha-
bía aumentado. Supongamos ahora que no hay motivos para creer que haya habido un
aumento o una disminución. Se selecciona una muestra aleatoria de 400 distribuidores y
el p = 46%. ¿Se ha producido un cambio en la proporción de la población π = 40 por
ciento?

En este caso, suponemos que no ha habido ningún cambio; es decir, la hipótesis nula es que la
proporción de la población es del 40 por ciento. La hipótesis alternativa es que la proporción de la
población no es del 40 por ciento. En símbolos tenemos
H0 : π = 40%
H1 : π 6= 40%
y, además, supongamos que el nivel de significación es del 5%.
Puesto que suponemos que no hay ninguna razón para creer que la proporción de la población
ha cambiado en un sentido o en otro, y puesto que no se da especial importancia al α0 (nivel de
significación) de las colas superiores o inferiores, pondremos un 2.5 por ciento en cada cola, como
se muestra en la Figura 9.13. Entonces

2.5% 2.5%

E(p) p
(a)
Figura 9.13

1 1 1 1
p− · − E(p) 0.46 − · − 0.40
2 n .
z= = r2 400 = 2.60
σp 0.4 · 0.6
400

donde suponemos que f pc = 1. Como z = 2.60, encontramos a partir de la tabla de áreas


normales,
P [p ≧ 0.46|π = 0.40] = 0.0047
Dado que el nivel de significación se establece en el 2.5 por ciento para la cola de la derecha, con-
cluimos que hay una diferencia significativa, y por lo tanto rechazamos la hipótesis nula π = 40 por
ciento.

9.4 Problemas de decisión simples

En la sección 9.3 las pruebas de significación especificaban el nivel de significación, que era la
probabilidad de cometer el error de tipo I (α), y no se decía nada sobre el error de tipo II (β). En
200 Prueba de Hipótesis

esta sección discutiremos los problemas de las pruebas de hipótesis que consideran tanto el error
α como el error β, y la consideración del error β nos llevará a discutir la curva CO (característica
operativa). Comencemos nuestra explicación con una sencilla ilustración.
Supongamos que una empresa de venta de televisores quiere decidir si debe emprender una
campaña de venta de televisores en color en un determinado país. La empresa cree que valdría la
pena, siempre que la renta media mensual de las familias sea igual o superior a 400 dólares, y que
no valdría la pena si la renta media fuera inferior a 400 dólares.
Hay dos enfoques para este problema, y la elección de uno u otro depende de la forma en que la
empresa considere el riesgo. Uno de los enfoques es que la empresa está ansiosa por evitar el error
de no iniciar la campaña cuando debería hacerlo. No quiere perder la oportunidad de ganar dinero.
El segundo enfoque es que la empresa está ansiosa por evitar el error de iniciar la campaña
cuando no debe hacerlo. Las familias no tienen suficiente dinero y la empresa quiere evitar perder
una gran cantidad de dinero en una campaña de ventas inútil. Empecemos por el primer enfoque:
Caso I - Primer enfoque

9.4.1 Cálculo de la regla de decisión

La hipótesis que nos interesa probar, es decir, la hipótesis nula, es que la renta media de la po-
blación es de 400 dólares o más:
H0 : µ ≧ $400
La hipótesis alternativa es que la renta media es inferior a 400 dólares:
H1 : µ < $400
Entonces los errores α y β pueden mostrarse esquemáticamente como sigue:

m1 , m2 ,
Acción µ ≧ $400 µ < $400
A1 , iniciar β = P (A1 |m2 )

A2 , no iniciar α = P (A2 |m1 )

La acción A1 es “iniciar” la campaña de ventas, y A2 es “no iniciar” la campaña de ventas. Entonces


el error de tipo I es “no iniciar” la campaña de ventas cuando en realidad el ingreso promedio es de
400 dólares o más. El error de tipo II es “iniciar” la campaña de ventas cuando el ingreso medio es
inferior a 400 dólares.
Evidentemente, una forma precisa de averiguar la renta media de las familias es comprobar la
renta de todas las familias del condado. A continuación, la dirección puede decidir si iniciar o no
una campaña de ventas. Sin embargo, este trabajo suele ser prohibitivo en términos de coste.
¿Existe una forma más sencilla de tomar la decisión de iniciar o no una campaña de ventas?
¿Existe una forma de tomar esta decisión utilizando datos de muestra en lugar de investigar a toda
la población? Llegados a este punto, se llama a un estadístico y se le pide que encuentre una regla
de decisión que indique a la empresa qué acción debe tomar cuando se observa una determinada
muestra.
Sin embargo, cuando la decisión se basa en una muestra, existe la posibilidad de que los resulta-
dos de la muestra sean engañosos. Existe la posibilidad de tomar decisiones erróneas, y como se ha
9.4. Problemas de decisión simples 201

identificado anteriormente, se trata de los errores de tipo I y de tipo II. Los riesgos α y β asociados
a estos errores son, como antes,

α = P (A2 |m1 )
β = P (A1 |m2 )

Ahora la pregunta es: ¿Cuáles deberían ser los niveles de significación α0 y β0 ? En nuestra discusión
anterior, α0 se fijó en 0.05 o 0.01. La razón por la que se fija en el 5% o el 1% no suele explicarse
en la estadística clásica, excepto para decir que es una decisión política que la dirección toma tras
considerar todos los aspectos pertinentes del problema en cuestión; así pues, digamos que α0 = 5%
y continuemos nuestra discusión.
Ahora mostramos cómo el estadístico puede encontrar las reglas de decisión para los dos casos
siguientes:

1. Cuando una muestra de tamaño n (digamos, n = 100) está dada (es decir, predetermina).

2. Cuando una muestra de tamaño n no está predeterminada, pero el riesgo β está dado.

Consideraremos el primer caso en esta sección y el segundo en la sección 9.8. Pero primero
hagamos un paréntesis para explicar los términos región de aceptación y región de rechazo, que uti-
lizaremos en nuestra discusión posterior. En el apartado 9.1 explicamos que una regla de decisión
es una regla que nos dice si debemos tomar la acción A1 o A2 cuando se observa una determinada
muestra (resultado).
También explicamos que el espacio muestral es un espacio formado por todas las muestras posi-
bles. Por ejemplo, supongamos que tenemos una urna con 3 bolas numeradas del 1 al 3. Se selecciona
una muestra de tamaño 2 con reemplazo. Entonces el espacio muestral es bidimensional y se mues-
tra como en la Figura 9.14. Hay 9 muestras posibles (cuando se considera el orden), que también
son los resultados, y que pueden mostrarse como en la columna de la izquierda del Cuadro 9.8.

3
A2
2
A1
1

1 2 3

Figura 9.14

Establezcamos una regla de decisión como la que se muestra en la columna derecha del Cua-
dro 9.8, en la que la acción A1 se toma cuando se observan las muestras (1, 1), (1, 2) o (2, 1), y la
acción A2 se toma cuando se observan las otras muestras.
Como vemos en la Figura 9.14, esta regla de decisión divide el espacio muestral en dos partes:
La parte sombreada, que incluye las muestras que conducen a la acción A1 , y la parte no sombreada,
que incluye las muestras que conducen a la acción A2 . En general, podemos decir que una regla de
decisión divide el espacio muestral en dos partes, una parte que lleva a la acción A1 y otra parte que
lleva a la acción A2 . La parte que conduce a la acción A1 se denomina región de aceptación y la parte
que conduce a la acción A2 se denomina región de rechazo (o región crítica).
202 Prueba de Hipótesis

Resultado Regla
1,1 A1
1,2 A1
1,3 A2
2,1 A1
2,2 A2
2,3 A2
3,1 A2
3,2 A2
3,3 A2

Cuadro 9.8

2
De nuestra discusión anterior sabemos que hay 23 = 512 reglas de decisión. Es decir, hay 512
formas de dividir este espacio muestral en regiones de aceptación y rechazo. Hemos mostrado sólo
una de estas 512 formas.
Ahora el estadístico debe seleccionar una muestra de tamaño n y, basándose en ella, decidir si
procede de m1 o de m2 . En este punto, utilizamos nuestros resultados del capítulo 7. En el capítulo
7 encontramos una forma sencilla de encontrar la probabilidad de seleccionar una muestra de una
población utilizando el teorema del límite central. El teorema del límite central nos decía que la
distribución muestral de la media de la muestra era aproximadamente normal. Dejando que la media
muestral represente la muestra, pudimos calcular la probabilidad de seleccionar muestras.
Esto simplifica mucho las cosas porque la distribución muestral es unidimensional y es aproxi-
madamente normal, mientras que el espacio muestral es n-dimensional (suponiendo un tamaño de
muestra de n).
En el caso que nos ocupa, tenemos dos poblaciones, m1 (µ ≧ $400) y m2 (µ < $400), y tomar
una muestra de tamaño n (digamos, n = 100) significa generar un espacio muestral de n(= 100)
dimensiones. Pero, como acabamos de mencionar, en lugar de trabajar con estos espacios muestrales
n-dimensionales, utilizaremos las distribuciones muestrales unidimensionales de la media muestral
generada a partir de m1 y m2 .
Por tanto, nuestro problema se reduce a encontrar una regla de derivación que divida estas distri-
buciones muestrales unidimensionales en las regiones de aceptación y crítica. Mostremos ahora cómo
se resuelve esto.
Para la población m1 , tenemos µ ≧ $400. Es decir, la empresa de ventas iniciará la campaña de
ventas si el ingreso medio es de 400 dólares o más. En nuestro caso actual, la empresa está ansiosa por
iniciar la campaña de ventas. Como se verá en el análisis subsiguiente, cuánto mayor sea el valor de µ
de m1 en comparación con 400 dólares, menor será la probabilidad de iniciar la campaña de ventas.
Por lo tanto, fijaremos la media poblacional de m1 en su nivel más bajo, es decir, que µ = $400 para
los fines del análisis.
Sabemos que la distribución muestral de la media muestral generada a partir de m1 (µ = $400)
será aproximadamente normal, con

E(X) = $400
σ2
V ar(X) =
n
donde σ 2 es la varianza de la población.
9.4. Problemas de decisión simples 203

En cuanto a m2 , tenemos µ < $400, que incluye valores como $399, $398, . . .. Para simplificar
nuestra discusión, dejaremos que m2 sea µ = $395 por el momento y explicaremos el proceso
de encontrar la regla de decisión y los riesgos α y β. A continuación, consideraremos las demás
hipótesis alternativas y construiremos una curva CO.
La distribución muestral generada a partir de m2 (µ = $395) también será aproximadamente
normal, con
E(X) = $395
σ2
V ar(X) =
n
donde suponemos por el momento que σ es la misma para m1 y m2 . En el capítulo 8 explicamos
por qué esta suposición de varianzas iguales es razonable.
La Figura 9.15 muestra las dos distribuciones de muestreo, m1 con µ = $400, y m2 con E(X) =
$395.

α = P (A2 |m1 )
m1

E(X) = $400 X

m2 β = P (A1 |m2 )

E(X) = $395 X

Figura 9.15

Podemos ver intuitivamente que si la media de la muestra X (digamos, 399 dólares) es mucho
mayor que $395 y está cerca de 400 dólares, podemos conjeturar que la muestra probablemente vino
de m1 (400 dólares) en lugar de m2 (395 dólares). A la inversa, si la media de la muestra X (digamos,
396 dólares) está cerca de 395 dólares y es mucho menor que 400 dólares, podemos conjeturar que la
muestra probablemente procede de m2 (395 dólares) y no de m1 (400 dólares). Tenga en cuenta que
en realidad no sabemos que m1 es de 400 dólares ni que m2 es de 395 dólares. Se trata de hipótesis
y estamos diciendo que si m1 y m2 deben ser 400 dólares y 395 dólares, respectivamente, podemos
razonar como arriba.
Siguiendo esta línea de razonamiento, el estadístico desea encontrar un valor, digamos, X∗, en
algún lugar entre 395 y 400 dólares tal que cuando la media muestral X sea X ≧ X∗, recomendará
a la empresa la acción A1 (iniciar la campaña), y cuando X < X∗, recomendará A2 (no iniciar).
Este valor X∗ se denomina valor crítico y se muestra en la Figura 9.15. Este valor crítico X∗ divide
la distribución muestral generada a partir de m1 en dos partes, la región de aceptación, que está a la
derecha de (mayor o igual que) X∗, y la región de rechazo, que está a la izquierda de (menor que)
X∗.
En otras palabras, el estadístico, al seleccionar un valor crítico X∗, ha seleccionado una regla de
decisión.
Una característica de esta regla de decisión es que, dado que el nivel de significación α0 = 5 por
ciento, el riesgo α debe ser del 5 por ciento o menos. En términos de la Figura 9.15, significa que la
204 Prueba de Hipótesis

parte sombreada en el extremo de la cola izquierda de la distribución de muestreo generada a partir


de m1 debe ser del 5 por ciento.
No hemos especificado el riesgo β. Sin embargo, puede mostrarse gráficamente. El riesgo β es
la parte sombreada en la cola derecha de la distribución de muestreo generada a partir de m2 (véase
la Figura 9.15).
Con estos antecedentes, podemos interpretar los riesgos α y β de la siguiente manera: Dado el
estado de naturaleza m1 , la probabilidad de seleccionar una muestra tal que X < X∗ es de 0.05.
Y como hemos decidido que cuando X < X∗, tomamos la acción A2 , esto puede escribirse en
símbolos como
α = P (X < X ∗ |m1 )
= P (A2 |m1 ) = 0.05
que es el riesgo α, y es la probabilidad de cometer el error de tipo I. De forma similar,
β = P (X ≧ X ∗ |m2 )
= P (A1 |m2 )
que es el riesgo β, y es la probabilidad de cometer el error de tipo II.
Resumamos ahora nuestros resultados como sigue: Si se selecciona una muestra de tamaño n y
la media muestral es R, cuando
X ≧ X∗ tomar acción A1
X < X∗ tomar acción A2
y los riesgos son α y β.
Nuestro problema ahora es encontrar el valor crítico X∗, el tamaño de la muestra n, y el riesgo
β. Sin embargo, en muchos casos, como en el control de calidad, el tamaño de la muestra n está
especificado. Se utilizan valores como n = 2, 3, 4, 5, 7, 10, 15, 20, 30, 40, 50, 75 y 100. Cuando se da
n, el riesgo β varía según el valor de la hipótesis alternativa H1 . Es decir, cuando el tamaño de la
muestra está predeterminado, el valor de β depende de H1 .
En otros casos, cuando se especifica la hipótesis alternativa H1 , como 395 dólares en nuestro
ejemplo, y la dirección puede proporcionar un valor para β mediante alguna decisión política no
estadística, el tamaño de la muestra se fija automáticamente.
En nuestro problema actual, se dan α0 = 5 por ciento y n = 100, y el problema es encontrar
X∗ y el riesgo β. Las hipótesis nula y alternativa son
H0 :µ = $400
H1 :µ < $400

De las distintas hipótesis alternativas µ < $400, hemos seleccionado $395 para comenzar la
explicación. Entonces la distribución muestral generada a partir de m1 y m2 será aproximadamente
normal, como se muestra en la Figura 9.16. X∗ es el valor crítico; la región a la derecha (más grande)
de X∗ es la región de aceptación (tomar la acción A1 ); y la región a la izquierda (más pequeña) de
X∗ es la región de rechazo.
Supongamos que a partir de otras fuentes, como los datos anteriores, se sabe que la desviación
estándar de la población es σ = 20 dólares. Entonces el error estándar es
σ 20
σx = √ = √ = $2.00
n 100
9.4. Problemas de decisión simples 205

α m1

E(X) = $400 X

m2 β

E(X) = $395 X

Figura 9.16

Usando la suposición de que α0 = 5 por ciento, sabemos que la desviación z entre E(X) = $400 y
X∗ es 1.645 a partir de la tabla de áreas normales. Usando esto podemos encontrar X∗ como sigue:

400 − X∗
= 1.645
2
X∗ = 400 − 3.29 = $396.71

Usando este X∗, podemos calcular β como sigue: De la Figura 9.16 vemos que

X ∗ −395 396.71 − 395


= = 0.86
2 2
Por lo tanto
β = P (A1 |m2 ) = 0.1949
Esto β = 19.49 por ciento significa que la probabilidad de tomar la acción A1 (es decir, aceptar
la hipótesis de que µ = $400) cuando el verdadero estado de la naturaleza es m2 es del 19.49 por
ciento. En otras palabras, la capacidad de distinguir entre 395 y 400 dólares no es demasiado buena.
El riesgo β se calculó para el único valor = $395, pero de forma similar podemos calcular el
riesgo β para las otras hipótesis alternativas. Los riesgos β para µ = $400, $398.71, $396.71, $394.71
y $392.71 se tabulan en el Cuadro 9.9.

µ β 1−β
$400.00 0.9500 0.05
$398.71 0.8413 0.16
$396.71 0.5000 0.50
$394.71 0.1587 0.84
$392.71 0.0228 0.98

Cuadro 9.9

Ahora podemos enunciar la regla de decisión que buscamos: Regla de decisión. Tome una mues-
tra de tamaño n = 100. Si

X ≧ $396.71 tomar acción A1 iniciar campaña


X < $396.71 tomar acción A2 no iniciar campaña
206 Prueba de Hipótesis

Entonces α = 5 por ciento y los riesgos β para varias hipótesis alternativas se muestran en el Cua-
dro 9.9.
Supongamos que la media de la muestra X es 397. Entonces
Acción. Tome la acción A1 y comience la campaña de ventas. Como muestran esta regla de de-
cisión y el Cuadro 9.9, tenemos una secuencia de riesgos β para varias hipótesis alternativas. Lo que
haremos a continuación es mostrar estos riesgos como una curva y encontrar una forma de expresar
la regla de decisión en términos de una curva. Para ello, primero discutiremos el concepto de fun-
ción de potencia y luego la curva CO. Una vez que hayamos analizado la curva CO, reformularemos
la regla de decisión anterior utilizando una curva CO.

9.4.2 La función de potencia

La probabilidad
1 − β = 1 − P (A1 |m2 ) = P (A2 |m2 )
es la probabilidad de tomar la decisión correcta de realizar la acción A2 cuando el verdadero estado
de la naturaleza es en realidad m2 . Este 1 − β se denomina potencia de la función. Evidentemente,
cuanto mayor sea la potencia de la función, mejor será la regla de decisión. Obsérvese que

1 − β = P (A2 |m2 )

muestra que la potencia de la función depende de m2 . En nuestro caso actual, m2 significaba µ <
$400, y al cambiar m2 , cambiará 1 − β. Podemos preguntarnos: ¿Cómo cambiará?
La razón de ser del cambio de 1 − β al cambiar m2 es sencilla. Nos interesa seleccionar correc-
tamente el verdadero estado de la naturaleza, dada una muestra. Cuanto más separados estén m1 y
m2 , más fácil será distinguirlos. Por ejemplo, m1 es µ1 = 400 dólares, y si m2 es µ2 = 300 dólares
y se selecciona una muestra, probablemente será fácil saber de qué población procede la muestra
porque m − 1 y m2 difieren mucho. Pero si m2 es µ2 = 399 dólares y se selecciona una muestra,
será difícil saber de qué población procede la muestra porque m1 y m2 están muy cerca. En el pri-
mer caso, hay muy pocas posibilidades de tomar una decisión incorrecta, el riesgo β será pequeño y
la potencia 1 − β (que muestra la probabilidad de seleccionar m2 cuando en realidad el verdadero
estado de naturaleza es m2 ) será grande. En el segundo caso, por un razonamiento similar, podemos
ver claramente que 1 − β será pequeño. Los valores de la función de potencia 1 − β se dan para

1−β
1.00

0.80

0.60

0.40

0.20

0
392 394 396 398 400
Figura 9.17
9.4. Problemas de decisión simples 207

varios valores de las hipótesis alternativas en el Cuadro 9.9. A continuación, grafiquemos la función
de potencia 1 − β como se muestra en la Figura 9.17. La curva que se obtiene se llama curva de
potencia. Muestra los valores de 1 − β (es decir, la probabilidad de tomar una decisión correcta),
dadas las hipótesis alternativas m2 . Recuerde que esta curva se obtiene manteniendo fijos n = 100,
X∗ = 396.71 y m1 = $400 mientras se deja variar m2 . Por lo tanto, esta curva de potencia muestra
una regla de decisión en la que se permite que m2 varíe. Por ejemplo, el punto que corresponde a
394.71 dólares nos dice:
m1 = $400 m2 = $394.71
Tomemos una muestra de n = 100. Si
X ≧ $396.71 tomar acción A1
X < $396.71 tomar acción A2
Entonces α = 0.05 y β = 0.1587.
La curva también muestra que a medida que la media de m2 se hace más pequeña (es decir, a
medida que m1 y m2 se alejan), la potencia de la regla de decisión aumenta y la probabilidad de
tomar una decisión correcta también.
Esto nos lleva a preguntarnos: Si hay dos reglas de decisión, ¿no podríamos comparar sus curvas
de potencia y ver cuál es una regla de decisión mejor? Antes de responder a esta pregunta, debemos
explicar qué se entiende por una regla de decisión “mejor”. Claramente, nos referimos a una regla
de decisión en la que la probabilidad de tomar una decisión correcta es mayor; es decir, la regla
de decisión que tiene el mayor 1 − β es mejor. Gráficamente, esto significa que la regla de decisión
cuya curva de potencia es más alta es mejor. Por ejemplo, en la Figura 9.18 la regla de decisión con la
curva de potencia II es mejor. Una pregunta que surge naturalmente es: ¿Existe una regla de decisión

1−β
1.00

II

0 m2
X
Figura 9.18

cuya curva de potencia sea más alta? Si la hay, podemos concluir que es la mejor regla de decisión.
Se ha demostrado que existe tal regla de decisión para las pruebas de una cola, y sólo expondremos
los resultados. Supongamos que la curva de potencia II de la Figura 9.18 es para una región crítica
tomada en la cola, como se muestra en la Figura 9.19(a). Sea la curva de potencia I para la región
crítica mostrada en la Figura 9.19(b). Vemos que es posible tomar la región crítica en varios lugares,
siempre que el área se mantenga en el 5 por ciento (es decir, α = 5 por ciento). Resulta que todas las
curvas de potencia basadas en regiones críticas distintas de la que se encuentra en el extremo de la
cola (es decir, la curva de potencia II) estarán por debajo de la curva de potencia II, tal como ilustra
la curva de potencia I.
208 Prueba de Hipótesis

5%
5%

(a) (b)

Figura 9.19

Una prueba que produce una curva de potencia como la II y que es la más alta se denomina
prueba uniformemente más potente. Las pruebas de una cola que estamos utilizando son pruebas
uniformemente más potentes. Tenga en cuenta que en estos casos se da α = 5 por ciento y n.
Lamentablemente, la discusión de la curva de potencia se complica bastante y se omite. Se ha
presentado aquí como antecedente de la curva CO, que discutimos a continuación.

9.4.3 La curva OC

La curva OC (características de operación) es la inversa de la curva de potencia. Es decir, donde


la curva de potencia era el gráfico de 1 − B, la curva OC es el gráfico de B.
Si es así, ¿por qué no basta con considerar sólo la curva de potencia? En la estadística teórica, sí
que es suficiente, y la curva OC no suele tenerse en cuenta. Pero en la estadística práctica, en ciertos
tipos de problemas, la curva CO es mucho más fácil de interpretar para fines prácticos y, por tanto,
se utiliza ampliamente.
¿Cuáles son estos tipos de problemas? Suelen darse en el control de calidad, especialmente en
el tema del muestreo de aceptación, y este tipo de técnica estadística se utiliza cuando, por ejemplo,
las Fuerzas Armadas adquieren bienes. De hecho, dos de las tablas más conocidas que utilizan el
muestreo de aceptación y las curvas OC son publicadas por el Departamento de Defensa de Estados
Unidos. Son:

1. Procedimientos y tablas de muestreo estándar militares para la inspección por atributos. MIL-
STD-105B.

2. Procedimientos y tablas de muestreo estándar militares para la inspección por variables para el
porcentaje de defectos. MIL-STD-414

También se utilizan en la industria privada. Dibujemos primero la curva OC para nuestra ilus-
tración de la empresa de venta de televisores y, a continuación, ofrezcamos otras ilustraciones.
El Cuadro 9.9 se reproduce a continuación como Cuadro 9.10 para mayor comodidad. La curva
OC se obtiene graficando los valores β, como se muestra en la Figura 9.20. Observe cuidadosamente
que esta curva OC supone n = 100,α0 = 5 por ciento, y la hipótesis nula es µ = $400. La escala
horizontal muestra los valores alternativos µ < $400 y la escala vertical muestra los valores β.
La altura de la curva muestra el valor β y es la probabilidad de aceptar m1 . Por lo tanto, cuando
la curva es alta cerca de $400 y baja cuando se aleja de $400, como se muestra en la Figura 9.25(a),
indica que la capacidad de la regla de decisión para distinguir entre las hipótesis nula y alternativa
es buena.
9.4. Problemas de decisión simples 209

µ β 1−β
$400.00 0.9500 0.05
398.71 0.8413 0.16
396.71 0.500 0.50
394.71 0.1587 0.84
392.71 0.0228 0.98

Cuadro 9.10

1.0
0.9
0.8
Iniciar campaña, β

0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
390 392 394 396 398 400
µ

Figura 9.20

Sin embargo, si la curva OC es como la de la Figura 9.25(b), en la que es alta para valores alejados
de $400 como $396, $394, como en la figura, la capacidad de la regla de decisión para distinguir entre
las hipótesis nula y alternativa no es buena.

1 1

β β

0 0
$400 $400
(a) (b)

Figura 9.21

Ahora podemos enunciar nuestra regla de decisión como sigue:


Regla de decisión. Tome una muestra aleatoria de tamaño n = 100. Si

X ≧ $396.71 tomar acción A1 iniciar campaña


X < $396.71 tomar acción A2 no iniciar campaña

Entonces el riesgo α es del 5 por ciento y los riesgos β para las hipótesis alternativas son los que se
muestran en la Figura 9.20.
210 Prueba de Hipótesis

Supongamos que se selecciona una muestra aleatoria de n = 100 familias y que la media de la
muestra es X = $394. Entonces, según nuestra regla de decisión, la acción a tomar es Acción. Tomar
la acción A2 y no iniciar la campaña.
Caso II - Segundo enfoque
Resumamos brevemente nuestra discusión sobre el primer enfoque. Una empresa de venta de
televisores desea decidir si inicia o no una campaña de ventas. Selecciona una muestra aleatoria de
n = 100 y encuentra una regla de decisión tal que α = 5 por ciento y una curva OC que muestra
los riesgos β para las hipótesis alternativas. Las características de esta regla de decisión y de la curva
OC eran que las hipótesis nula y alternativa y los riesgos α y β eran (mostrados esquemáticamente)
los siguientes:

m1 , m2 ,
Acción µ ≦ $400 µ > $400
A1 , iniciar β = P (A1 |m2 )

A2 , no iniciar α = P (A2 |m1 )

La empresa quería evitar el error de no iniciar una campaña de ventas cuando debía hacerlo.
Ahora consideraremos un segundo enfoque, en el que la empresa está ansiosa por evitar el error
de iniciar una campaña de ventas cuando no debería hacerlo. Quiere evitar la pérdida de dinero en
una campaña de ventas inútil. En este caso, las hipótesis nula y alternativa son
H0 :µ ≦ $400
H1 :µ > $400
y los riesgos α y β pueden representarse esquemáticamente como sigue.

m1 , m2 ,
Acción µ ≦ $400 µ > $400
A1 , no iniciar β = P (A1 |m2 )

A2 , iniciar α = P (A2 |m1 )

Está claro que el error de tipo I es el error de iniciar una campaña de ventas cuando no debería
iniciarse, y el error de tipo II es el error de no iniciar cuando debería iniciarse.
Este esquema muestra que, a menos que haya pruebas de que los ingresos medios son superiores
a 400 dólares, la empresa no iniciará la campaña; la empresa no está ansiosa por iniciar la campaña.
En el primer enfoque, la base era que, a menos que las pruebas demostraran que los ingresos medios
eran inferiores a 400 dólares, la empresa iniciaría la campaña.
Al igual que en el planteamiento anterior, dejemos que α0 = 5 por ciento y n = 100. Entonces
el valor crítico puede obtenerse de la siguiente manera (véase la Figura 9.23):

X ∗ −400
= 1.645
20

100
X∗ = $403.29
9.4. Problemas de decisión simples 211

α = 5%

400 X∗

X∗

Figura 9.22

donde hemos definido µ = 400 para m1 , con el proposito de análisis. Con este valor crítico,
encontremos los diferentes valores de riesgos β y la curva OC. Los valores β del Cuadro 9.11 y la
curva OC en la Figura ??.
Observe en la Fig. 9.25 cómo la escala vertical muestra la probabilidad de no empezar, mientras
que en el caso anterior (Figura 9.20) mostraba la probabilidad de empezar la campaña de ventas.
La regla de decisión que buscamos es:
Regla de decisión. Tome una muestra aleatoria de tamaño n = 100. Si

X ≦ $403.29 tomar acción A1 no iniciar campaña


X > $403.29 tomar acción A2 iniciar campaña

1.0
0.9
No iniciar campaña, β

0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
400 401.29 403.29 405.29 407.29
µ

Figura 9.23

Entonces α = 5 por ciento y los riesgos β son los que muestra la curva OC de la Figura ??.
En la primera aproximación, el valor crítico X∗ era de 396.71 dólares; en la segunda, es de
403.29 dólares. Comparando estos dos valores críticos, podemos ver heurísticamente que será más
fácil iniciar la campaña en el primer enfoque.
Por ejemplo, si tomamos una muestra aleatoria de n = 100 y la media de la muestra es de 397
dólares, la acción es
212 Prueba de Hipótesis

m2 β
$400.00 0.95
401.29 0.8413
403.29 0.50
405.29 0.1587
407.29 0.0228

Cuadro 9.11

Acción. Tomar la acción A1 y no iniciar la campaña de ventas.


Recordemos que en la primera aproximación la acción era iniciar la campaña de ventas cuando
la media muestral era de 397 dólares.

9.5 Ejemplos que utilizan la media muestral

Ejemplo No. 1
Suponga que una empresa acepta envíos de cables si la resistencia media es de 200 lb
o más, y rechaza envíos si la resistencia media es inferior a 200 lb. Se pide al estadístico
que encuentre una regla de decisión tal que α0 = 0.05 y n = 25. Se da σ como 20 lb.
Las hipótesis nula y alternativa son

H0 :µ ≧ 200 lb
H1 :µ < 200 lb

La situación se muestra de forma esquemática a continuación.

m1 , m2 ,
Acción µ ≦ $400 µ > $400
A1 , aceptar β = P (A1 |m2 )

A2 , rechazar α = P (A2 |m1 )

En este caso, la empresa está ansiosa por aceptar el envío y, a menos que haya pruebas de lo
contrario, desea aceptarlo. El error estándar es

20
σx = √ = 4 lb
25

Como α0 = 5 por ciento, tenemos

200 − X∗
= 1.645
σx
Por tanto,
X∗ = 193.42 lb.
9.5. Ejemplos que utilizan la media muestral 213

Por tanto, cuando la media muestral X es menor o igual que 193.42 lb, el riesgo α 5 por ciento.
Calculemos ahora los riesgos β para varias µ alternativas. Para µ = 200 lb, tenemos que

β = P (A1 |µ = 200) = 0.95

Para µ = 197.42,
197.42 − 193.42
=1
4
Por lo tanto
β = P (A1 |µ = 197.42) = 0.8413

De manera similar podemos encontrar los valores de β para otros µ. Los resultados para los
valores seleccionados de µ se dan en el Cuadro 9.12 y la curva de OC se muestra en la Figura 9.24.

1.0
0.9
0.8
0.7
Aceptar, β

0.6
0.5
0.4
0.3
0.2
0.1
0
185.42 189.42 193.42 197.42 200
µ

Figura 9.24

m2 , lb β
200.00 0.9500
197.42 0.8413
193.42 0.5000
189.42 0.1587
185.42 0.0228

Cuadro 9.12

Regla de decisión. Tome una muestra aleatoria de tamaño n = 25. Si

X ≧ 193.42 tomar acción A1 (aceptar envio)


X < 193.42 tomar acción A2 (rechazar envio)

Entonces α = 5 por ciento y los riesgos β son los que muestra la curva OC de la Figura 9.24.
Vemos en la curva OC, cuando la hipótesis alternativa es mayor que 190 libras, que el riesgo β
es superior al 15 por ciento.
214 Prueba de Hipótesis

Ejemplo No. 2
En el ejemplo 1 podemos establecer las hipótesis nula y alternativa como

H0 :µ ≦ 200 lb
H1 :µ > 200 lb

Entonces la situación puede mostrarse esquemáticamente como sigue:

m1 , m2 ,
Acción µ ≦ 200 lb µ > 200 lb
A1 , rechazar β = P (A1 |m2 )

A2 , aceptar α = P (A2 |m1 )

Esto muestra que la empresa está ansiosa por rechazar el envío a menos que haya pruebas de lo
contrario.
El valor crítico X∗ es
X ∗ −200
= 1.645
4
Por lo tanto,
X∗ = 206.58 lb

Los riesgos β se calculan y se muestran en el Cuadro 9.13 y la curva OC se da en la Figura ??.

m2 , lb β
200 0.9500
202.58 0.8413
206.58 0.5000
210.58 0.1586
214.58 0.0228

Cuadro 9.13

0
200

Figura 9.25

Regla de decisión. Tome una muestra aleatoria de tamaño n = 25. Si

X ≦ 206.58 tomar acción A1 (rechazar)


X > 206.58 tomar acción A2 (aceptar)
9.5. Ejemplos que utilizan la media muestral 215

Entonces α = 5 por ciento y los β para las hipótesis alternativas vienen dados por la curva OC de
la Figura ??.

Ejemplo No. 3
Una empresa de construcción suministra a sus empleados guantes que tienen una vida
media de 90 días. Se recomienda un nuevo tipo de guante que, aunque es más caro,
dura más y es más cómodo. La empresa adoptará este nuevo guante si su vida media
es de 120 días o más, pero preferirá seguir utilizando el tipo de guante actual si la vida
media del nuevo guante es inferior a 120 días. Se pide al estadístico que encuentre una
regla de decisión con α0 = 5 por ciento y n = 36. La desviación estándar es de 18 días.
Supongamos que la empresa está ansiosa por cambiar al nuevo guante. Entonces las
hipótesis nula y alternativa se pueden plantear como

H0 :µ ≧ 120 días
H1 :µ < 120 días

A menos que haya pruebas de que los guantes tienen una vida media inferior a 120
días, la empresa aceptará la hipótesis nula y aceptará los nuevos guantes.

Los riesgos α y β se muestran como sigue:


El valor crítico X∗ es el siguiente:
X ∗ −120
= −1.645
18

36
Por tanto,
X∗ = 115.065
Los riesgos β para varias hipótesis alternativas se dan en el Cuadro 9.14. La curva OC basada en
estos β valores se muestra en la Figura 9.26.

m2 β
120 0.9500
118.065 0.8413
115.065 0.5000
112.065 0.1587
109.065 0.0228
106.065 0.0013

Cuadro 9.14

Regla de decisión. Tome una muestra aleatoria de tamaño n = 36. Si

X ≧ 115.065 tomar acción A1 (adoptar)


X < 115.065 tomar acción A2 (no adoptar)

Entonces α = 5 por ciento y los riesgos β para varias hipótesis alternativa el mostrado por la
curva OC en la Figura 9.26.
216 Prueba de Hipótesis

1.0
0.9
0.8
0.7

Adoptar, β
0.6
0.5
0.4
0.3
0.2
0.1
0
106.065 109.065 112.065 115.065 118.065 200
µ

Figura 9.26

Si se toma una muestra al azar de tamaño n = 36, y X = 119 días, la acción es:
Acción Tomar la acción A1 y adoptar los nuevos guantes.
El riesgo α es del 5%, pero el riesgo β es superior al 84%. Sin embargo, la empresa puede con-
siderar que la diferencia entre 120 días y 119 días, o 118 días, no es importante y esta dispuesta a
asumir el mayor riesgo β.

Ejemplo No. 4
Supongamos que en el Ejemplo 3 la empresa no está dispuesta a cambiar a los nuevos
guantes. Entonces las hipótesis nula y alternativa son

H0 :µ ≦ 120 días
H1 :µ > 120 días

A menos que haya pruebas de que los guantes tienen una vida media superior a 120 días, la empresa
no cambiará a los nuevos guantes. Los riesgos α y β se muestran de la siguiente manera:

m1 , m2 ,
Acción µ = 120 días µ > 120 días
A1 , rechazar β = P (A1 |m2 )

A2 , aceptar α = P (A2 |m1 )

El valor crítico X∗ se calcula como sigue

X ∗ −120
= 1.645
3
Por lo tanto
X = 124.935 días
Basándonos en este X∗, encontramos los valores β que se muestran en el Cuadro 9.15.
9.5. Ejemplos que utilizan la media muestral 217

m2 β
120.000 0.9500
121.935 0.8413
124.935 0.5000
127.935 0.1587
130.935 0.0228

Cuadro 9.15

Por lo tanto, la regla de decisión es la siguiente.


Regla de decisión. Tome una muestra aleatoria de tamaño n = 36. Si

X ≦ 124.935 tomar acción A1 (rechazar)


X > 124.935 tomar acción A2 (aceptar)

Entonces α = 5 por ciento y β es como muestra la curva OC de la Figura 9.27.

1.0
0.9
0.8
0.7
Rechazar, β

0.6
0.5
0.4
0.3
0.2
0.1
0
120 121.935 124.935 127.935 130.935
µ

Figura 9.27

Ejemplo No. 5
Un fabricante de tornillos considera que su proceso está controlado cuando el diámetro
medio es de 10 cm, y fuera de control cuando la media no es de 10 cm. Cuando el pro-
ceso está fuera de control, desea detenerlo. Se pide a un estadístico que encuentre una
regla de decisión tal que α0 = 5 por ciento. El control se hará tomando 16 tornillos cada
hora. Se sabe que la desviación típica es de 0.2 cm.
Las hipótesis nula y alternativa son

H0 :µ = 10 cm
H1 :µ 6= 10 cm

y el problema puede mostrarse esquemáticamente como en la tabla siguiente.


218 Prueba de Hipótesis

m1 , m2 , m3 ,
Acción µ = 10 cm µ < 10 cm µ > 10 cm
A1 , continuar β β

A2 , detenerse α = 0.05

Como se ve en la Figura 9.28, se trata de una prueba de dos colas, y tenemos dos valores críticos,
X 1 ∗ y X 2 ∗. La región de aceptación está entre X 1 ∗ y X 2 ∗ y es donde continúa el proceso.

α = 2.5% α = 2.5%

X 1∗ 10 X 2∗

Figura 9.28

La parte sombreada en los extremos de la cola de la distribución de muestreo basada en m1


muestra los riesgos α. Una pregunta que surge inmediatamente es ¿Cómo debe repartirse el α0 = 5
por ciento entre las dos colas? Como puede verse, podemos tener el 1 por ciento en la cola izquierda
y el 4 por ciento en la cola derecha; o el 2 por ciento en la cola izquierda y el 3 por ciento en la cola
derecha; y así sucesivamente. Hay un número infinito de formas en que podemos dividir el α0 = 5
por ciento.
Como se ha mencionado anteriormente, pudimos encontrar una prueba uniformemente más
potente cuando teníamos una prueba de una cola. Para una prueba de dos colas, puede demostrarse
que no existe una prueba uniformemente más potente. Esto puede mostrarse heurísticamente como
en la Figura 9.29. Sea µ0 la hipótesis nula. Entonces, como muestra el gráfico, para valores mayores
que µ0 , la prueba mostrada por II es mejor que la prueba mostrada por I porque II tiene una curva
de potencia mayor.
Pero para valores menores que µ0 , I es mejor que II porque tiene una curva de potencia más
alta.

II
1−β I

0 µ0

Figura 9.29

La característica de la curva de potencia I es que su potencia es mínima en µ = µ0 (en la hipótesis


nula) y es simétrica respecto al valor µ = µ0 .
La otra curva, la II, tiene un mínimo en un valor distinto de es µ = µ0 y no es simétrica en torno
al valor µ = µ0 .
9.5. Ejemplos que utilizan la media muestral 219

La prueba representada por la curva de potencia I, que tiene un mínimo en µ = µ0 , se denomina


prueba insesgada. Las demás pruebas se denominan pruebas sesgadas.
Nuestra pregunta era: ¿cómo debe repartirse el α0 entre las dos colas? A esto responderemos:
Si no hay ninguna razón para favorecer un lado del riesgo α0 sobre el otro, utilizaremos la prueba
insesgada, en cuyo caso el α0 se divide por igual entre ambas colas. En nuestro caso actual, será del
2.5% en cada cola.
Ahora que hemos decidido tener un 2.5 por ciento en cada cola, podemos calcular el X 1 ∗ y el
X 2 ∗ de la siguiente manera: A partir de la tabla de áreas normales, z = 1.96 para el 2.5 por ciento.
Así pues,

X 1 ∗ −10 X 2 ∗ −10
= −1.96 = 1.96
0.2 0.2
√ √
16 16
X 1 ∗ = 9.902 X 2 ∗ = 10.098
Calculemos a continuación los riesgos β.
Como muestra el Cuadro 9.16, los riesgos β son simétricos en torno a µ = 10 000, lo que se
muestra en la curva OC de la Figura 9.30.

m2 β
10.198 0.0228
10.148 0.1587
10.098 0.5000
10.048 0.8413
10.000 0.9500
9.952 0.8413
9.902 0.5000
9.852 0.1587
9.802 0.0228

Cuadro 9.16

Curva OC
1−β

0
9.902 10.000 10.098

Figura 9.30

Observe también que en el caso de la prueba de dos colas, la forma en que se establecen las
hipótesis nula y alternativa es única y contrasta con las pruebas de una cola de los Ejemplos 1 a 4.
220 Prueba de Hipótesis

9.6 Reglas de decisión relativas a las proporciones

Las reglas de decisión relativas a las proporciones pueden encontrarse mediante un procedi-
miento similar al de las reglas de decisión relativas a las medias. Un supuesto que cambia cuando se
trata de proporciones es que el error estándar de las proporciones es diferente para cada distribución
de muestreo. Por lo demás, el procedimiento es similar.

Ejemplo No. 1
Una empresa que fabrica televisores desea decidir si utiliza material plástico o no (ma-
dera, etc.) para los chasis de los televisores. Si el 50 por ciento o menos de los compra-
dores prefieren el plástico, la empresa utilizará material no plástico, y si más del 50 por
ciento prefiere el plástico, el fabricante utilizará el plástico. Las hipótesis nula y alternati-
va son

H0 :π ≦ 50%
H1 :π > 50%

Esta configuración implica que la empresa no está dispuesta a utilizar plástico. Es decir, a menos
que haya pruebas de que más del 50% de los compradores prefieren el plástico, no utilizará el plástico.
Los riesgos α y β pueden mostrarse como sigue:

m1 , m2 ,
Acción π = 50% π > 50%
A1 , no usar plástico β = P (A1 |m2 )

A2 , usar plástico α = P (A2 |m1 )

Supongamos que α0 = 5 por ciento y que el tamaño de la muestra es n = 49. Encontramos el


valor crítico p* como sigue:
p ∗ −0.50
r = 1.645
0.5 · 0.5
49
p∗ = 0.6175

Utilizando p∗ = 0.6175, encontremos los riesgos β para varias alternativas de m2 . Para π =


0.50, vemos que β = 0.95. Para π = 0.6175, vemos que β = 0.50. Para π = 0.70, calculamos lo
siguiente:
0.70 − p∗ (0.70 − 0.6175) · 7
r = √ = 1.260
0.7 · 0.3 0.21
49
Por lo tanto
β = 0.1038

Los resultados se muestran en el Cuadro 9.17 y la curva OC basada en estos valores se dibuja
en la Figura 9.31. Así tenemos nuestra regla de decisión.
9.6. Reglas de decisión relativas a las proporciones 221

π β
0.50 0.95
0.6175 0.50
0.70 0.1038

Cuadro 9.17

1.0
0.95

0.50
β

0.1038

0.50 0.6175 0.70


π
Figura 9.31

Regla de decisión. Tome una muestra aleatoria de tamaño n = 49. Si

p ≦ 61.75% tomar acción A1 (no usar plástico)


p > 61.75% tomar acción A2 (usar plástico)

Entonces el riesgo α es del 5 por ciento y los riesgos β para las hipótesis alternativas vienen dados
por la curva OC de la Figura 9.31.
Observe que en este caso la escala vertical de la curva OC es la probabilidad de no utilizar
plástico.

Ejemplo No. 2
Suponga que en el ejemplo 1 la empresa está ansiosa por utilizar el plástico y, a menos
que haya pruebas de que el 50 por ciento o menos de los compradores prefieren el plás-
tico, utilizará el plástico. Entonces las hipótesis nula y alternativa y los riesgos α y β son

H0 :π ≧ 50%
H1 :π < 50%

Suponiendo una muestra de tamaño n = 49 y α0 = 5 por ciento, hallamos el valor crítico p∗

0.50 − p∗
r = 1.645
0.5 · 0.5
49
p∗ = 0.3825
222 Prueba de Hipótesis

Utilizando p∗ = 0.3825, encontremos los riesgos β para varios m2 alternativos. Para π = 0.50,
vemos que β = 0.95. Para π = 0.3825, β = 0.50. Para π = 0.30, calculamos como sigue:

0.3 − 0.3825 −0.0825 · 7


r = = −1.260
0.3 · 0.7 0.4583
49

Por lo tanto
β = 0.1038

Los resultados se muestran en el Cuadro 9.18 y la curva OC basada en estos valores se dibuja en la

π β
0.50 0.95
0.3825 0.50
0.30 0.1038

Cuadro 9.18

Figura ??. Por lo tanto, la regla de decisión es la siguiente

1.0
0.95

0.50
β

0.1038

0.30 0.3825 0.50


π
Figura 9.32

Regla de decisión. Tome una muestra aleatoria de tamaño n = 49. Si

p ≧ 38.25% tomar acción A1 (usar plástico)


p < 38.25% tomar acción A2 (no usar plástico)

Entonces α = 5 por ciento y los riesgos β para las hipótesis alternativas vienen dados por la
curva OC de la Figura 9.32.
Observe que en este caso la escala vertical de la curva OC es la probabilidad de utilizar el plástico.
En el Ejemplo 1 el valor crítico era p∗ = 61.75 por ciento, y en el Ejemplo 2, era p∗ = 38.25 por
ciento. Podemos ver de forma heurística que es más fácil, según la regla de decisión del Ejemplo 2,
cambiar al uso del plástico.
9.6. Reglas de decisión relativas a las proporciones 223

Ejemplo No. 3
El Ejército ha establecido un criterio de aceptación de los envíos de un producto. Acep-
tará los envíos si el porcentaje de defectuosos por envío es del 5 por ciento o menos, y
lo rechazará si es superior al 5 por ciento. Las hipótesis nula y alternativa son

H0 :π ≦ 5%
H1 :π > 5%

Esta configuración implica que, a menos que haya pruebas de que π es superior al 5 por ciento,
aceptará los envíos; es decir, el Ejército está ansioso por aceptar los envíos. Los riesgos α y β se
muestran como sigue:

m1 , m2 ,
Acción π = 5% π > 5%
A1 , aceptar β = P (A1 |m2 )

A2 , rechazar α = P (A2 |m1 )

Supongamos que se toma una muestra aleatoria de tamaño n = 100 y que α0 = 5 por ciento.
Entonces se encuentra p∗ de la siguiente manera:
p ∗ −0.05
r = 1.645
0.05 · 0.95
100
p∗ = 0.0858

Utilizando este p∗ = 0.0858, podemos encontrar los valores β. Los resultados se muestran en
el Cuadro 9.19, y la curva OC basada en estos valores se muestra en la Figura 9.33.

1.0
0.95
β (aceptar)

0.50

0.1038

0.30 0.3825 0.50


π
Figura 9.33

Regla de decisión. Tome una muestra aleatoria de tamaño n = 100. Si


p ≦ 8.58% tomar acción A1 (aceptar)
p > 8.58% tomar acción A2 (rechazar)
224 Prueba de Hipótesis

π β
0.05 0.95
0.0858 0.50
0.10 0.32
0.15 0.036

Cuadro 9.19

Entonces α = 5 por ciento y el riesgo β se muestra en la curva OC de la Figura 9.33. Observe


que la escala vertical de la curva OC muestra la probabilidad de aceptar el envío.

Ejemplo No. 4
En el Ejemplo 3, si el Ejército no está ansioso por aceptar el envío, podría establecer las
hipótesis nula y alternativa como sigue

H0 :π ≧ 0.05
H1 :π < 0.05

m1 , m2 ,
Acción π = 0.05 π < 0.05
A1 , rechazar β = P (A1 |m2 )

A2 , aceptar α = P (A2 |m1 )

Como muestra esta configuración, a menos que haya pruebas de que el porcentaje de defectos
es inferior al 5 por ciento, el Ejército rechazará los envíos.
Sea α0 = 5 por ciento y n = 100, como en el Ejemplo 3. Entonces podemos calcular el valor
crítico p∗ y los riesgos β. Esto se deja como ejercicio para el alumno.
Observe que en este caso, la escala vertical de la curva OC mostraría la probabilidad de rechazar
el envío.

9.7 Modificación del tamaño de la muestra

Hasta ahora hemos asumido que el tamaño de la muestra n está dado. Investiguemos a conti-
nuación el efecto que tiene un cambio de n en la regla de decisión y en los valores de β. Veremos
que a medida que n se hace más grande, β se hará más pequeño. Esto significa simplemente que
a medida que n se hace más grande, la capacidad de la regla de decisión para distinguir entre las
hipótesis nula y alternativa será mejor. Ilustremos esto con un ejemplo.
En el Ejemplo 1 de la Sección 9.5, teníamos los resultados del Cuadro 9.20 para n = 25. El valor
crítico era X∗ = 193.42 lb. Aumentemos ahora el tamaño de la muestra a 100; es decir, n = 100.
Entonces el valor crítico se convierte en
200 − X∗
= 1.645
20

100
X∗ = 196.71
9.7. Modificación del tamaño de la muestra 225

µ lb β
200.00 0.9500
197.42 0.8413
193.42 0.5000
189.42 0.1586
185.42 0.0228

Cuadro 9.20

Basándonos en este X∗ = 196.71 lb., encontramos los riesgos β como se muestra en el Cuadro 9.21.

µ lb β
200.00 0.9500
198.71 0.8413
196.71 0.5000
194.71 0.1586
192.71 0.0228

Cuadro 9.21

Ahora grafiquemos la curva OC, basada en n = 25 y n = 100, como se muestra en la Figu-


ra 9.34. Vemos que la curva OC para n = 100 está por debajo de la curva OC para n = 25. La
probabilidad de aceptar los cables cuando la resistencia media es inferior a 200 lb. se reduce más
rápidamente para la curva OC (n = 100) que para la curva OC (n = 25). Un aumento del tamaño
de la muestra aumenta la capacidad de la regla de decisión para distinguir entre la hipótesis nula y
la alternativa. Observe que α0 = 5 por ciento es fijo.

1.0
0.95

n = 25
β (aceptar)

0.50

n = 100
0.1038

π
Figura 9.34

La observación de la Figura 9.34 sugiere que podemos dibujar una familia de curvas, cada curva
para un tamaño de muestra diferente. Dejemos que las curvas de la Figura 9.35 sean una ilustración
hipotética. Entonces, por ejemplo, si la dirección requiere que el riesgo β sea del 5 por ciento para
la hipótesis alternativa µ1 , podemos encontrar en el gráfico el tamaño de la muestra que satisface
este requisito. En nuestro ejemplo hipotético de la Figura 9.35, vemos que el tamaño de la muestra
es n = 100.
En la Figura 9.36 se ilustra una familia de curvas OC de la prueba normal unilateral para un
226 Prueba de Hipótesis

1.0
95%

β (aceptar)

n = 10

n = 50

n=
50%

n=

10
0

25
5%

µ0 µ1

Figura 9.35

1.0
0.95
0.8
0.7
0.6
0.50
0.4
0.3
0.2
0.10
0
−1.00 −0.50 0 0.50 1.00 1.50 2.00 2.50 3.00

Figura 9.36

nivel de significación igual a 0.05. Muestra las curvas para 5 tamaños de muestra diferentes. La escala
horizontal está en términos de desviaciones estándar.
Se pueden encontrar otras ilustraciones en Engineering Statistics1 y los gráficos de las curvas OC
para otras pruebas de dos caras y de una cara se pueden encontrar en ese gancho. Otra fuente de
ilustraciones son las dos tablas y procedimientos de muestreo estándar militares antes mencionados
(página 000).

9.8 Cálculos de la regla de decisión cuando se da β

En nuestra discusión anterior, se dio el tamaño de la muestra n y se calcularon los valores β


y se dibujó una curva OC. Sin embargo, si se da por adelantado un valor de β para una hipótesis
alternativa específica, podemos encontrar el valor crítico y el tamaño de la muestra que satisfaga los
riesgos α y β. Ilustremos este procedimiento con un ejemplo.
Supongamos que en la ilustración de la empresa de venta de televisores, las hipótesis nula y
alternativa se dan como
1
A. H. Bowker y G. J. Lieberman, Engineering Statistics, Nueva York: Prentice-Hall, Inc., 1959.
9.8. Cálculos de la regla de decisión cuando se da β 227

H0 :µ ≧ $400
H1 :µ = $370

en la que la empresa no desea iniciar la campaña de ventas cuando los ingresos medios son tan
bajos como $370. Además, los riesgos α y β se dan como sigue:

m1 , m2 ,
Acción µ = $400 µ < $370
A1 , iniciar β = 5%

A2 , no iniciar α = 2.5%

Podemos establecer las dos ecuaciones siguientes

400 − X∗
= 1.96
50

n
X ∗ −370
= 1.64
50

n

donde σ = $50 se supone dado. Resolviendo estas dos ecuaciones para X∗ y n, encontramos
como valores aproximados:

X∗ = $383.67
n = 36

Por tanto, la regla de decisión es: Tomar una muestra aleatoria de tamaño n = 36. Si

X ≧ $383.67% tomar acción A1 (iniciar campaña)


X < $383.67% tomar acción A2 (no iniciar campaña)

Entonces α = 2.5% y β = 5%.


Utilizando X∗ = 383.67 dólares y n = 36, podemos calcular los riesgos β para otras hipótesis
alternativas y encontrar una curva OC. Para ello, primero hay que encontrar el error estándar:
50
σx = √ = $8.33
36
Usando esto, podemos encontrar los riesgos β, que se dan en el Cuadro 9.22. La curva OC se muestra
en la Figura 9.37.
228 Prueba de Hipótesis

µ β
400.00 0.975
392.01 0.841
383.67 0.500
375.34 0.159
370.00 0.050
367.01 0.023

Cuadro 9.22

1.0
0.95

0.50

0.05

370 400

Figura 9.37
CAPÍTULO 10
Teoría de la Decisión

En el Capítulo 9 se analizaron las pruebas de hipótesis según el enfoque clásico. El problema de


la prueba de hipótesis se formuló estableciendo una hipótesis nula H0 y una alternativa H1 , especifi-
cando un nivel de significación α0 y seleccionando una muestra. Si se calculaba que la probabilidad
de seleccionar la muestra de una población especificada por H0 era menor que α0 , se rechazaba la
hipótesis nula. Si la probabilidad calculada era mayor que α0 , aceptábamos (o no teníamos motivos
para rechazar) H0 .
Se señaló que, al especificar el nivel de significación α0 , no se tuvo en cuenta la gravedad de las
consecuencias de cometer el error de tipo I o de tipo II. También se señaló que cualquier información
previa y adicional sobre los estados de la naturaleza, aunque estuviera disponible, no se tuvo en
cuenta para llegar a la decisión de aceptar o rechazar la hipótesis nula.
Lo que nos proponemos ahora es mostrar un enfoque alternativo a los problemas de decisión
empresarial y económica que considera los dos puntos anteriores. Para ello, recapitularemos el enfo-
que clásico en términos del enfoque general de la decisión que analizamos brevemente en el Capítulo
9 (p. 242) y lo ampliaremos para incorporar los dos puntos anteriores. El segundo punto relativo al
uso de información adicional de los estados de la naturaleza para revisar las decisiones posteriores
se basa en lo que se conoce como el teorema de las probabilidades de Mayes. Este teorema se dis-
cute en el Capítulo 16, y el problema de decisión que considera el uso de información adicional se
explicará en el Capítulo 17.
En este capítulo nos limitaremos a un análisis introductorio de cómo se puede incorporar la
gravedad de las consecuencias de los errores de tipo I y de tipo II en los procedimientos de decisión.

10.1 Problemas de decisión simples

10.1.1 Reglas de decisión y su caracterización

Recapitulemos el ejemplo del Capítulo 9 (p.223) del problema de las dos urnas. Teníamos dos
urnas (estados de la naturaleza) y cada una tenía bolas rojas, verdes y negras, como se muestra en la
Figura 10.1.
Se extrae una muestra aleatoria de 2 bolas con reemplazo de una de las urnas, y el estadístico
debe decidir de qué urna proceden. La selección de la urna 1 se llamó acción A1 : la selección de la

229
230 Teoría de la Decisión

rojo 10 60
verde 20 30
negro 70 10

Figura 10.1

urna 2 se llamó acción A2 .


La extracción de una muestra aleatoria de 2 bolas en la que cada bola tiene 3 resultados posibles
(rojo, verde y negro) generó un espacio muestral bidimensional con 32 = 9 puntos de muestra,
como se muestra en la Figura 10.2.

X2
Negro

Verde

Rojo

Rojo Verde Negro X1

Figura 10.2

Basado en un punto de muestra, se toma una acción A1 o A2 . El estadístico determina de an-


temano qué puntos de muestra conducen a la acción A1 y qué puntos de muestra conducen a la
acción A2 . Es decir, el espacio muestral se divide en dos partes: la región de aceptación, que incluye
puntos de muestra que conducen a la acción A1 y la región de rechazo (crítica), que tiene puntos de
muestra que conducen a la acción A2 .
En nuestro caso, los 9 puntos de la muestra se dividen en dos partes, la región de aceptación y
la región de rechazo. La regla que indica al estadístico cómo dividir el espacio muestral en estas 2
regiones se llama regla de decisión.
Si tenemos 9 puntos de muestra, ¿cuántas formas posibles hay de dividir este espacio muestral?
Este es el problema de encontrar el número de formas posibles de agrupar estos 9 puntos de muestra
en 2 grupos. Como se explicó en el Apartado 7.1, ejemplo 7 hay 29 = 512 formas. Por tanto, hay
512 reglas de decisión.
Si el tamaño de la muestra es n = 1, entonces tenemos un espacio muestral unidimensional con
3 puntos de muestra, y hay 23 = 8 formas posibles de dividir este espacio muestral, o podemos decir
que hay 8 reglas de decisión. Estas 8 reglas de decisión se muestran en el Cuadro 10.1.
Caractericemos ahora estas reglas de decisión utilizando los riesgos α y β. Por ejemplo, consi-
deremos la regla de decisión d1 que nos dice que tomemos la acción A1 independientemente de la
observación. Podemos valorar esto de la siguiente manera:
Cuando usamos la regla d1 , y nos dan la urna 1 (que no conocemos), y sacamos una bola, toma-
remos la acción A1 y afirmamos que el verdadero estado de la naturaleza es m1 . Así, se ha tomado
una decisión correcta y la probabilidad de tomar esta decisión correcta es
Pd1 (A1 |m1 ) = f (x1 ) + f (x2 ) + f (x3 ) = 0.1 + 0.2 + 0.7 = 1
10.1. Problemas de decisión simples 231

(regla
decisión)
de

r v n A1 A2
espacio muestral espacio acción

Figura 10.3

Resultado d1 d2 d3 d4 d5 d6 d7 d8
Rojas A1 A1 A1 A2 A1 A2 A2 A2
Verdes A1 A1 A2 A1 A2 A1 A2 A2
Negras A1 A2 A1 A1 A2 A2 A1 A2
P (A1 |m1 ) 1 0.3 0.8 0.9 0.1 0.2 0.7 0
α= P (A2 |m1 ) 0 0.7 0.2 0.1 0.9 0.8 0.3 1
β= P (A1 |m2 ) 1 0.9 0.7 0.4 0.6 0.3 0.1 0
P (A2 |m2 ) 0 0.1 0.3 0.6 0.4 0.7 0.9 1

Cuadro 10.1

Por otro lado, si nos dan la urna 1 (que no conocemos) ¿cuál es la probabilidad de que tomemos
la acción A2 y rechacemos A1 ? Según la regla d1 la acción A1 se toma independientemente del
resultado. Por tanto, la probabilidad de que se tome la acción A2 es
Pd1 (A2 |m1 ) = 0
Es evidente que
Pd1 (A1 |m1 ) + Pd1 (A2 |m1 ) = 1
ya que dado w1 se toma la acción A, o A2.
Supongamos ahora que nos dan la urna 2 (m2 ) sin que lo sepamos. La probabilidad de que
tomemos la acción A1 y cometamos el error de rechazar m2 será
Pd1 (A1 |m2 ) = g(x1 ) + g(x2 ) + g(x3 ) = 0.6 + 0.3 + 0.1 = 1
Por otro lado, la probabilidad de tomar la decisión correcta y seleccionar w2 será
Pd1 (A2 |m2 ) = 0
ya que según d1 siempre nos decidimos por la acción A1 . Así pues, hemos evaluado d1 , es decir,
P (A1 |m1 ) = 1
P (A2 |m1 ) = 0
P (A1 |m2 ) = 1
P (A2 |m2 ) = 0
En cuanto a d2 , tenemos:
Pd1 (A1 |m1 ) = f (x1 ) + f (x2 ) = 0.1 + 0.2 = 0.3
Pd1 (A2 |m1 ) = f (x3 ) = 0.7
Pd1 (A1 |m2 ) = g(x1 ) + g(x2 ) = 0.6 + 0.3 = 0.9
Pd1 (A2 |m2 ) = g(x3 ) = 0.1
El resto de las reglas de decisión se evalúan de forma similar, como se muestra en el Cuadro 10.1.
232 Teoría de la Decisión

10.1.2 Selección de las reglas de decisión

Una vez caracterizadas las 8 reglas de decisión, nos preguntamos: ¿Qué regla debe utilizarse?
Obviamente, son preferibles las reglas con los riesgos α y β más pequeños. Pero como podemos
ver en el Cuadro 10.1, cuando el riesgo α es pequeño, el riesgo β es grande. En el Capítulo 9 aborda-
mos este problema predeterminando el riesgo α a un determinado nivel, como α0 = 5 por ciento,
y lo llamamos nivel de significación, y seleccionamos las reglas que tenían riesgos a menores que
α0 = 0.05. En nuestro ejemplo actual, sólo d1 satisface esta condición.
Si seleccionamos una muestra de tamaño n = 2, tendríamos 512 reglas de decisión y habría un
número de reglas de decisión que satisfacen el nivel de significación de α0 = 5 por ciento.
Sin embargo, al comparar estas 8 reglas de decisión, ¿es d1 la mejor regla de decisión? ¿No es
mejor la regla d4 porque aunque α = 0.10, el β se ha hecho tan pequeño como β = 0.40?
Esta pregunta plantea, sin duda, la cuestión de los 64 dólares: ¿Cuál es el criterio o los criterios
para seleccionar la mejor regla de decisión? Este es el problema central de la teoría de la decisión, y
una investigación de este problema conduce a varios principios para seleccionar las reglas de deci-
sión.
El principio que utilizamos en el Capítulo 9 se basó en lo que se conoce como el lema fundamen-
tal de Neyman - Pearson, que se explica en el Capítulo 17. Hay otros criterios de selección, como la
regla de la razón de verosimilitud, el principio minimax y la regla de Bayes. En este capítulo dare-
mos una breve explicación introductoria de la regla de Bayes, y en el capítulo 17 consideraremos las
demás reglas de selección de reglas de decisión.

10.2 Procedimiento de Bayes

En el Cuadro 10.1 teníamos 8 reglas de decisión. Nuestra tarea en esta sección es mostrar uno
de los criterios, a saber, el procedimiento de Bayes para seleccionar una regla de decisión óptima
entre estas 8 reglas de decisión. La explicación de este procedimiento de Bayes se hará en dos pasos:
uno es en el que se considera la gravedad relativa de las consecuencias de los errores de tipo I y
II al seleccionar una regla de decisión: el segundo es en el que se considera información adicional
al seleccionar una regla de decisión. El primer paso se explica en este capítulo. El segundo paso se
explica en el capítulo 17.

10.2.1 Tabla de pérdidas

Comencemos la discusión considerando el siguiente ejemplo:

Estados de Naturaleza
m1 m2
Acción Lluvia Sin Lluvia
A1 , llevar paraguas P (A1 |m1 ) = 1 − α P (A1 |m2 ) = β
A2 , no llevar paraguas P (A2 |m1 ) = α P (A2 |m2 ) = 1 − β

Si la persona realiza la acción A2 (no llevar paraguas) cuando el verdadero estado de la naturaleza
es m1 (lluvia), comete el error α. Este error le costará algo, digamos en términos de dinero por
mojarse la ropa, o de incomodidad, o tal vez de resfriado.
10.2. Procedimiento de Bayes 233

Si realiza la acción A1 (llevar el paraguas) cuando el verdadero estado de la naturaleza es m2


(no llueve), comete el error β y esto también le costará algo, digamos, la incomodidad de llevar un
paraguas, o puede olvidar el paraguas en un restaurante.
Como se ve, la pérdida sufrida por la persona (o el estadístico) depende de la acción Ai que
realice y del estado de la naturaleza. Por lo tanto, denotamos la pérdida por p(m, A), y la llamamos
función de pérdida.
De la ilustración anterior se desprende que las pérdidas no son necesariamente monetarias. Pue-
den ser molestias, pérdida de prestigio o cualquier otra cosa.
En los problemas empresariales y económicos, la mayoría de las pérdidas son monetarias. Esto
se debe a que incluso cosas como la incomodidad, o la pérdida de prestigio o la buena voluntad, se
evalúan, aunque subjetivamente, en términos de dinero. A menudo oímos hablar de una demanda
por difamación que se resuelve en términos de dinero.
Un concepto que abarca las pérdidas monetarias y no monetarias ’y que es utilizado por los
estadísticos es la utilidad. Los estudiantes de economía y empresa se encuentran con este concepto
en la economía básica cuando estudian la teoría de la demanda. En la economía clásica, la utilidad
se consideraba un concepto cardinal y medible, pero en la economía moderna, aunque se utiliza el
mismo término de utilidad, se emplea para indicar la preferencia. Y a partir de este concepto ordinal
de utilidad, se desarrolla lo que se conoce en economía como el análisis de indiferencia de la teoría
de la demanda. En este capítulo nos limitaremos al término de pérdida.
En función de nuestro ejemplo, podemos establecer una tabla de pérdidas como la siguiente:

m1 m2
A1 $0 b = $5
A2 a = $10 $0

Hemos fijado la pérdida en que incurrirá el estadístico si comete el error de tipo I (no llevar
paraguas cuando llueve) como a = 10 dólares; y la pérdida por el error de tipo II como b = 5
dólares. Obsérvese que hemos fijado la pérdida de tomar la acción A1 cuando el estado de naturaleza
es m1 como 0 dólares, pero esto no implica que una decisión correcta cueste siempre 0 dólares.
Por ejemplo, supongamos que el estadístico pide prestado un paraguas por 2 dólares y se lo
lleva, y el verdadero estado de la naturaleza es m1 (lluvia). Ha tomado la decisión correcta, pero su
decisión le ha costado 2 dólares. Utilicemos esto y reescribamos la tabla de pérdidas como sigue:

m1 m2
A1 $2 $5
A2 $10 $0

10.2.2 Función de arrepentimiento

En la tabla de pérdidas anterior, tenemos para m1 (lluvia) dos pérdidas

p(m1 , A1 ) = $2
p(m1 , A2 ) = $10
234 Teoría de la Decisión

Por lo tanto, la llamada pérdida neta en la que incurre el estadístico al cometer el error de tipo I
es
p(m1 , A2 ) − p(m1 , A1 ) = $10 − $2 = $8
Si hay 3 acciones posibles, como A1 (llevar el paraguas), A2 (no llevar el paraguas) y A3 (quedarse en
casa), y la pérdida de tomar la acción A3 es de $1, entonces restando esta pérdida mínima p(m1 , A3 )
de las otras pérdidas

p(m1 , A1 ) − p(m1 , A3 ) = $2 − $1 = $1
p(m1 , A2 ) − p(m1 , A3 ) = $10 − $1 = $9

serían los arrepentimientos. Es decir, los arrepentimientos se obtienen restando la pérdida mínima
para el estado de naturaleza dado m1 . Expresemos esto por

a(mi , Aj ) = p(mi , Aj ) − minA p(mi , Aj )

y llamemos a la a(m1 , Aj ) la función de arrepentimiento para el mi dado.


Los estudiantes de economía y empresa se dan cuenta de la similitud del concepto de arrepen-
timiento con el de coste de oportunidad.

10.2.3 Función de riesgo

Definamos un término más, la función de riesgo, y luego pasemos a la discusión del procedi-
miento Bayes para seleccionar una regla de decisión.
En la tabla anterior vemos que cuando el estado de la naturaleza es m1 = lluvia, la pérdida
esperada es
R(mi , dj ) = ($2)(1 − α) + ($10)(α)
Cuando el estado de la naturaleza es m2 =lluvia, la pérdida esperada es

R(m2 , dj ) = ($5)(β) + ($0)(1 − β)

Como se ve, esta pérdida esperada depende del riesgo α. Y este riesgo α depende de la regla dj que
se selecciona. Esta R(mi , dj ) se denomina función de riesgo y es el riesgo utilizando la regla dj dado
el estado de la naturaleza mi .
Ilustrémoslo modificando el ejemplo de la urna como sigue.

m1 m2
Lluvia Sin lluvia
Despejado 10 60
Sin pronostico 20 30
Lluvia 70 10

Supongamos que tenemos un indicador y que cuando el verdadero estado de la naturaleza es m1 =lluvia,
pronostica el tiempo con la siguiente probabilidad: despejado = 0.10; sin pronóstico = 0.20; lluvia
= 0.70. Cuando el verdadero estado de la naturaleza es m2 = sin lluvia se convierte en: despejado
= 0.60; sin previsión = 0.30; lluvia = 0.10.
Los riesgos α y β se calculan como en el Cuadro 10.1 y se reproducen a continuación como
Cuadro 10.2.
10.2. Procedimiento de Bayes 235

Resultado d1 d2 d3 d4 d5 d6 d7 d8
Despejado A1 A1 A1 A2 A1 A2 A2 A2
Sin pronóstico A1 A1 A2 A1 A2 A1 A2 A2
Lluvia A1 A2 A1 A1 A2 A2 A1 A2
P (A1 |m1 ) 1 0.3 0.8 0.9 0.1 0.2 0.7 0
α= P (A2 |m1 ) 0 0.7 0.2 0.1 0.9 0.8 0.3 1
β= P (A1 |m2 ) 1 0.9 0.7 0.4 0.6 0.3 0.1 0
P (A2 |m2 ) 0 0.1 0.3 0.6 0.4 0.7 0.9 1

Cuadro 10.2

Por lo tanto, el riesgo de utilizar la regla, digamos, d2 dado el estado de naturaleza m1 es

R(d2 , m1 ) = ($2)(1 − α) + ($10)(α)


R(d2 , m1 ) = ($2)(0.3) + ($10)(0.7) = $7.6

La función de riesgo de utilizar la regla d2 teniendo en cuenta m2 es

R(d2 , m2 ) = ($5)(β) + ($0)(1 − β)


R(d2 , m2 ) = ($5)(0.9) + ($0)(0.1) = $4.5

Estos riesgos se resumen en el cuadro 10.3.

d1 d2 d3 d4 d5 d6 d7 d8
R(di , m1 ) $2 $7.6 $3.6 $2.8 $9.2 $8.4 $4.4 $10
R(di , m2 ) $5 $4.5 $3.5 $2.0 $3.0 $1.5 $0.5 $0

Cuadro 10.3

Como se ve, estos riesgos incorporan las pérdidas sufridas al cometer los errores de tipo I y
de tipo II. Basándonos en estos riesgos, queremos seleccionar una regla de decisión. ¿Qué regla
debemos seleccionar? ¿Y qué criterio debemos utilizar para seleccionar la regla de decisión?

10.2.4 Procedimiento de Bayes

En el Cuadro 10.4, podemos ver que cuanto más pequeños sean los riesgos, más preferible será
la regla. Por lo tanto, un procedimiento natural a seguir sería seleccionar la regla di donde la media
de los riesgos R(di , m1 ) y R(di , m2 ) es menor.
1
Cuando decimos media, ¿debemos tomar [R(di , m1 ) + R(di , m2 )]?
2
Si no se sabe nada de las probabilidades de m1 y m2 , éste sería un procedimiento razonable.
Si, por el contrario, conocemos las probabilidades de m1 y m2 como π y (1 − π) parecería más
razonable hallar el riesgo esperado de la siguiente manera

riesgo esperado = R(di , m1 )(π) + R(di , m2 )(1 − π)

Denotamos este riesgo esperado como

B(di ) = R(di , m1 )(π) + R(di , m2 )(1 − π)


236 Teoría de la Decisión

y llamémoslo Riesgo de Bayes para una regla de decisión di .


Entonces, la regla consistiría en seleccionar la regla que tenga el menor riesgo de Bayes. Ilustré-
moslo dejando que π = 0.3 (lluvia) y (1 − π) = 0.7 (sin lluvia). Para la regla d1 tenemos

B(di ) = R(di , m1 )(π) + R(di , m2 )(1 − π)


= ($2)(0.3) + ($5)(0.7) = $4.1

De forma similar, encontramos B(d2 ), . . . , B(d8 ) como se muestra en el Cuadro ??.

d1 d2 d3 d4 d5 d6 d7 d8
R(di , m1 )(π) 0.6 2.28 1.08 0.84 2.76 2.52 1.32 3.0
R(di , m2 )(1 − π) 3.5 3.15 2.45 1.40 2.10 1.05 0.35 0
B(di ) 4.1 5.43 3.53 2.24 4.86 3.57 1.67 3.0

Cuadro 10.4

La regla con la menor B(di ) es la regla d7 . Por lo tanto, es la regla de decisión que el estadístico
selecciona para utilizar. Este procedimiento se llama procedimiento de Bayes, asumiendo distribu-
ciones previas (o pesos) π y (1 − π) de m1 y m2 .

10.2.5 Comentarios

Como se ve en nuestra discusión, este procedimiento de Bayes incorpora las pérdidas debidas a
la comisión de los errores de tipo I y II, que era uno de los puntos débiles del procedimiento clásico
de prueba de hipótesis que se limitaba a especificar el nivel de significación α0 .
También observamos que había espacio para insertar la evaluación subjetiva del estadístico (o
del responsable de las políticas) a la hora de determinar las pérdidas.
Un tercer punto muy importante a tener en cuenta es que hemos llegado a la presente conclu-
sión sin seleccionar una muestra y utilizar su información. En el Capítulo 17 mostraremos cómo
podemos utilizar la información obtenida de una muestra para ajustar y mejorar las distribuciones
a priori π y (1 − π) y, por tanto, mejorar la evaluación del riesgo de Bayes. Como veremos, ob-
tendremos mediante el teorema de Bayes de las probabilidades una distribución a posteriori de los
estados de la naturaleza.
Un cuarto punto es que no hemos utilizado la función de arrepentimiento para derivar el riesgo
de Bayes, pero como puede verse fácilmente, podemos utilizar la función de arrepentimiento en
lugar de la función de riesgo y obtener el mismo resultado, seleccionando la misma regla de decisión.
Explicamos la función de arrepentimiento porque algunos estadísticos prefieren utilizar la función
de arrepentimiento en lugar de la función de pérdida.
Por último, debemos señalar que con la teoría que hemos presentado en este capítulo, es difícil
resolver problemas reales. Por ejemplo, cuando tenemos una población con una variable aleatoria
x con 3 posibles resultados, y se selecciona una muestra de tamaño n = 2, el espacio muestral tiene
2
9 puntos de muestra. Y como hemos visto, habrá 23 = 512 posibles reglas de decisión. Evidente-
mente, será una tarea formidable evaluar estas 512 reglas de decisión en términos de riesgos α y β,
y luego calcular el riesgo de Bayes para cada una de estas reglas de decisión para decidir cuál es la
mejor regla de decisión a seleccionar.
10.2. Procedimiento de Bayes 237

Afortunadamente, como veremos en el Capítulo 17, ampliando la teoría de la decisión, podemos


encontrar un procedimiento que nos permita calcular los riesgos de Bayes de una manera mucho
más sencilla.
CAPÍTULO 11
Números Índice

En los tres capítulos siguientes se analizan los números índice y las series temporales. Por número
índice se entiende un cociente de dos números. Por ejemplo, un cociente de inteligencia (CI) es el
cociente entre la edad mental y la edad cronológica. Sin embargo, nuestra principal preocupación en
este capítulo son los índices que se utilizan en los negocios y la economía. El objetivo de estos índices
es medir los cambios que se han producido en los precios, la producción, el coste de la vida, etc. Con la
ayuda de estos índices, los empresarios y economistas pueden describir y analizar cuantitativamente
las situaciones económicas y empresariales.
En primer lugar, desarrollaremos un índice de precios y, a continuación, analizaremos breve-
mente algunos de los demás índices.

11.1 Índice de precios relativos ponderados

En esta sección desarrollaremos primero un índice de precios agregativo simple basado en el


concepto de cesta de mercado. A continuación, mostraremos cómo se corrigen sus defectos median-
te un índice de precios relativos simple y, por último, mostraremos cómo se asignan ponderaciones
al índice de precios relativos simple para obtener una media ponderada de precios relativos.

11.1.1 Índice de precios agregado simple

Supongamos que el precio del pan ha subido durante tres años de la siguiente manera 1958,
p0 = 10 centimos; 1959, p1 = 15 centimos; 1960, p2 = 20 centimos. Para mostrar el cambio en los
precios, encontramos la relación de precios de la siguiente manera:

p0 10 centimos
1958 : = = 1.00 = I0
p0 10 centimos
p1 15 centimos
1958 : = = 1.50 = I1
p0 10 centimos
p2 20 centimos
1958 : = = 2.00 = I2
p0 10 centimos

239
240 Números Índice

I1 = 1.50 muestra que ha habido un aumento del 50 por ciento en los precios de 1958 a 1959.
I2 = 2.00 muestra que ha habido un aumento del 100 por ciento de 1958 a 1960. I0 = 1.00 indica
el año a partir del cual se miden los cambios y se denomina año base:
Los índices de precios suelen expresarse sobre una base de 100. Por lo tanto, en nuestro ejemplo,
I0 , I1 y I2 se convierten en

I0 :100
I1 :150
I2 :200

Lo expresamos como: el índice de precios de 1959 es 150. Esto significa que los precios han
aumentado un 50% de 1958 a 1959.
Observe los siguientes puntos:

1. El año base se indica con el subíndice 0 (cero), y los años subsiguientes con los números
1, 2, . . .

2. Las p se utilizan para indicar los precios individuales y las I mayúsculas para denotar los
índices de precios.

3. La relación de los precios individuales, como p1 /p0 , se denomina precios relativos

4. El índice del año base se fija en 100.

En la ilustración anterior de un índice de precios se ha utilizado un solo producto, pero normal-


mente nos interesan los índices de precios de un grupo de productos básicos. Por ejemplo, suponga-
mos que se compra la siguiente canasta de productos: una barra de pan, un litro de leche, una docena
de huevos y una libra de carne de res. Supongamos también que esta misma cantidad de productos
se compra en 1959 y 1960, y que sus precios son los que se muestran en la tabla adjunta.

1958 1959 1960


Producto Cantidad p0 p1 p2
Pan Barra 10 ¢ 15 ¢ 20 ¢
Leche Litro 20 25 30
Huevos Docena 50 60 70
Carne de Res Libra 40 50 60
120 150 180

La tabla muestra que la misma cesta de productos cuesta 1.20 dólares en 1958, 1.50 dólares
en 1959 y 1.80 dólares en 1960. Como estamos interesados en encontrar un índice de precios para
un grupo de productos, esto se puede lograr comparando el precio de esta cesta de bienes para los
distintos años. Por lo tanto, encontremos los precios relativos para esta cesta de bienes. Utilizando
1958 como año base encontramos,
120 ¢
1958 : = 1.00 o 100
120 ¢
150 ¢
1959 : = 1.25 o 125
120 ¢
180 ¢
1960 : = 1.50 o 150
120 ¢
11.1. Índice de precios relativos ponderados 241

El precio de la cesta de la compra ha aumentado un 25% de 1958 a 1959 y un 50% de 1958 a 1960.
El índice de precios que hemos obtenido puede representarse con los siguientes símbolos: Para
1959, es
150 15 + 25 + 60 + 50
=
120 10 + 20 + 50 + 40
p11 + p12 + p13 + p14
=
p01 + p02 + p03 + p04

donde p01 muestra el precio del producto 1 (pan) para el año base 0, p02 muestra el precio del
producto 2 (leche) para el año base 0, y así sucesivamente; p11 muestra el precio del producto 1 (pan)
para el año 1 (que es 1959), p12 muestra el precio del producto 2 (leche) para el año 1 (1959), y así
sucesivamente.
Utilizando el símbolo de la suma, tenemos, para 1959

X
4
p1i
i=1 150
I59 = = = 1.25
X4 120
p0i
i=1

Este I59 se denomina índice de precios simple para 1959. De forma similar, encontramos
P
p0i 120
I0 = I58 = P = = 1.00 o 100
p 120
P 0i
p1i 150
I0 = I59 = P = = 1.25 o 125
p0i 120
P
p2i 180
I0 = I60 = P = = 1.50 o 150
p0i 120

En general, el índice de precios simple para un año k es

X
n
pki
i=1
Ik = (11.1)
Xn
p0i
i=1

11.1.2 Media simple de relativos

Dos de los principales defectos del índice agregado simple son:

1. Que las unidades de precios de los productos básicos afectarán al índice de precios.

2. Que no se tiene en cuenta la importancia relativa de los productos básicos.

Por ejemplo, si nuestra canasta incluyera un par de zapatos que costaran 20 dólares en 1958, 25
dólares en 1959 y 30 dólares en 1960, los índices de precios serían los siguientes:
242 Números Índice

$1.20 + 20 21.20
I58 = = = 1.00
$1.20 + 20 21.20
$1.50 + 25 26.50
I59 = = = 1.25
$1.20 + 20 21.20
$1.80 + 30 31.80
I60 = = = 1.50
$1.20 + 20 21.20

Por lo tanto, el precio de los zapatos habría dominado el índice, lo cual no es deseable. ¿Cómo
podemos eliminar estas influencias debidas a las diferentes unidades?
Esto se consigue construyendo un índice que sea la media de los precios relativos. En primer
lugar, construyamos una tabla de precios relativos.

Producto p0 /p0 p1 /p0 (1959) p2 /p0 (1960)


Pan 100% 15/10 =150% 20/10=200%
Leche 100% 25/20 =125 30/20=150
Huevos 100% 60/50 =120 70/50=140
Carne de Res 100% 50/40 =125 60/40=150
Zapatos 100% 25/20 =125 30/20=150
500% 645% 790%

La media de los precios relativos de 1959 es


15 25 60 50 25
+ + + +
I59 = 10 20 50 40 20
5
645
= = 129
5

Este índice de precios, que se representa simbólicamente con


k 
X 
pki
p0i
i=1
Ik = (11.2)
n
se denomina índice de precios relativos simple. Para nuestro caso, los resultados son
 
P p0
p0 500
I58 = = = 100
n
  5
P p1
p0 645
I59 = = = 129
n  5
P p2
p0 790
I60 = = = 158
n 5

Lo que hemos hecho en realidad es ponderar cada artículo por 1/p0 . Es decir, hemos ponderado
los precios del pan por 1/10 ¢, el de la leche por 1/20 ¢, y así sucesivamente. El sentido común de
11.1. Índice de precios relativos ponderados 243

esto es que hemos cambiado la importancia de cada producto para que cada uno tenga la misma im-
portancia. Es decir, el pan es igual de importante que la leche, y los zapatos son igual de importantes
que la carne o la leche. Así se ha eliminado la influencia debida a las diferentes unidades.
Sin embargo, es evidente que no todos los bienes tienen la misma importancia. Hay una dife-
rencia en la importancia de los productos, y el alcance de su influencia en el índice de precios no es
el mismo. Por lo tanto, surge la pregunta: ¿Cómo vamos a tener en cuenta su importancia relativa?
Esto nos lleva al problema de las ponderaciones.

11.1.3 Índices de precios relativos ponderados

¿Qué tipo de ponderación nos dará la importancia relativa de los productos básicos? Para nues-
tro propósito actualConsideramos la cantidad comprada en términos de dólares como el peso que
muestra la importancia relativa. Supongamos, a título ilustrativo, que en el año base 1958 se com-
praron las siguientes cantidades:

Pan $200
Leche 500
Huevos 400
Carne de Res 800
Zapatos 100
$2000

Así, diremos que el orden de importancia de los productos es

200 : 500 : 400 : 800 : 100 = 2 : 5 : 4 : 8 : 1

La cantidad de pan comprada en 1958 fue v1 = $200. Esto puede mostrarse como

v1 = p01 · q01 = $200

donde p01 es el precio y q01 es la cantidad de pan que se compró en 1958. Ponderemos ahora el
precio relativo del pan en 1959 por este peso v1 . Obtenemos

   
p11 p11
v1 = · p01 · q01 = p11 · q01
p01 p01

Encontramos que p11 q01 significa: p1 1 es el precio del pan en 1959; q01 es la cantidad de pan compra-
da en 1958. Así pues, p11 q01 indica cuánto hay que gastar en 1959 para comprar la misma cantidad
de pan.
Por lo tanto, multiplicando los precios relativos de 1959 por sus correspondientes pesos, obte-
nemos el importe de los gastos necesarios en 1959 para comprar la misma cantidad de bienes que
en 1958. Los resultados para 1958, 1959 y 1960 se muestran en la tabla adjunta.
244 Números Índice

1958 1959 1960


Producto Pesos (p0 /p0 )v (p1 /p0 )v (p2 /p0 )v
Pan v1 = $200 $200 15/10 · 200 = $300 20/10 · 200 = $400
Leche v2 = $500 $500 25/20 · 500 = $625 30/20 · 500 = $750
Huevos v3 = $400 $400 $480 $560
Carnes de Res v4 = $800 $800 $1000 $1200
Zapatos v5 = $100 $100 $125 $150
$2000 $2000 $2530 $3060

El total de la columna de 1958, que es de 2 000 dólares, muestra la cantidad total de gastos
para una cantidad determinada de bienes. El total de la columna de 1959, que es de 2 530 dólares,
muestra la cantidad de gastos necesarios para comprar la misma cantidad de bienes en 1950. Así
pues, la relación
$2530
= 1.265 o 126.5
$2000
es un índice que muestra la variación de los precios de este grupo de productos. La característica
añadida de este índice es que se ha tenido en cuenta la importancia relativa de los productos básicos.
Utilicemos ahora símbolos para expresar lo que hemos hecho. La relación se muestra como
         
p11 p12 p13 p14 p15
v1 + v2 + v3 + v4 + v5
p01 p02 p03 p04 p05
v1 + v2 + v3 + v4 + v5
300 + 625 + 480 + 1000 + 125
=
200 + 500 + 400 + 800 + 100
2530
= = 1.265 o 126.5
2000
Si utilizamos el signo de la suma, se convierte en
X 5  
p1i
vi
p0i
I1 = i=1
P (11.3)
vi
Este índice de precios se denomina índice de precios relativos ponderados. Los índices de precios de
los tres años son los siguientes:
X 5  
p1i
vi
p0i 2000
I58 = I0 = i=1
P =
vi 2000
= 1.00 o 100
X 5  
p1i
vi
p0i 2530
I59 = I1 = i=1 P =
vi 2000
= 1.265 o 126.5
X 5  
p1i
vi
p0i 3060
I60 = I2 = i=1
P =
vi 2000
= 1.53 o 153
11.2. Índice de precios agregados ponderados 245

La interpretación es la siguiente: Los precios de 1959 han aumentado un 26, 5% respecto al nivel de
precios de 1958. Los precios de 1960 han aumentado un 53% respecto al nivel de precios de 1958.

Ejemplo No. 1
Dados los datos de la tabla adjunta, halle el índice de precios relativos ponderados de
1960.
1958 1958 1960
Producto q0 p0 v = p0 q 0 p1 p1 /p0 (p1 /p0 )v
Azúcar 40 lb. 10 ¢ $4.00 15 ¢ 15/10 $6.00
Harina 80 lb. 15 ¢ $12.00 20 ¢ 20/15 $16.00
Leche 20 lt. 20 ¢ $4.00 25 ¢ 25/20 $5.00
$20.00 $27.00

A partir de estos datos, encontramos:


X  p1 
v
p 27.00
I60 = P0 = = 1.35 o 135
v 20.00
El índice de precios relativos ponderados de 1960 es 135. Esto significa que los precios han aumen-
tado un 35 por ciento con respecto al nivel de 1958.

11.2 Índice de precios agregados ponderados

11.2.1 Fórmula de Laspeyres, ponderaciones del año base

El índice de precios relativos ponderados que figura en la ecuación (11.3) del apartado 11.1
puede reescribirse como sigue
5 
X 
p1i
vi
p0i
I1 = P
i=1
vi
   
p11 p15
(p01 · q01 ) + · · · + (p05 · q05 )
p01 q05
=
p01 · q01 + · · · + p05 q05
p11 · q01 + p12 q02 + · · · + p15 · q05
=
p01 · q01 + · · · + p05 q05
X5
p1i q0i
P
= i=1
p0i q0i
Si abreviamos el subíndice i, el resultado puede escribirse en forma general para el año n, como
P
pn q 0
In = P (11.4)
p0 q 0
Esto se denomina índice de precios agregado ponderado, y como puede verse, p0 y pn son los precios
del año base y del año dado. La q0 es la cantidad del año base. Por lo tanto, podemos interpretar la
246 Números Índice

fórmula (11.4) de la siguiente manera: Dado el índice de precios agregado simple


P
p
P n
p0
se aplican las cantidades del año base q0 como ponderaciones y se construye un índice de precios
agregativo ponderado P
p
P n
p0
que es la fórmula (11.4).
Nuestras derivaciones muestran que el índice de precios agregado ponderado (11.4) es el mismo
que el índice de precios relativos ponderado (11.3) de
P la Sección 11.1. La interpretación de (11.4) es
también la misma que la de (11.3). El denominador p0 q0 muestra la cantidad de gastos
P necesarios
para comprar una determinada cantidad de bienes en el año base. El numerador pn q0 muestra
la cantidad de gastos necesarios para comprar la misma cantidad de bienes en el año n. La fórmula
(11.4) se denomina a veces fórmula de Laspeyres.

Ejemplo No. 1
Utilizando los datos del ejemplo anterior de la Sección 11.1, hallemos el índice de pre-
cios agregado ponderado para 1960, con las ponderaciones del año base que se mues-
tran en la tabla.
1958 1958 1960
Producto q0 p0 v = p0 q 0 p1 p1 /p0 (p1 /p0 )v
Azúcar 40 lb. 10 ¢ $4.00 15 ¢ 15/10 $6.00
Harina 80 lb. 15 ¢ $12.00 20 ¢ 20/15 $16.00
Leche 20 lt. 20 ¢ $4.00 25 ¢ 25/20 $5.00
$20.00 $27.00

Encontramos que P
pn q 0 27.00
I60 = P = = 1.35 o 135
p0 q 0 20.00
El índice de precios agregado ponderado para 1960 es 135. Esto significa que se ha producido un
aumento del 35 por ciento en los precios con respecto al nivel de 1958, y los resultados son los
mismos que los del índice de precios relativos ponderados.

11.2.2 Fórmula de Paasche, ponderaciones del año en curso

La diferencia entre la fórmula de Laspeyres y la fórmula de Paasche es que la fórmula de Paasche


utiliza las cantidades del año en curso qn en lugar de las cantidades del año base q0 . Así, la fórmula
(11.4) se convierte en P
pn q n
In = (11.5)
p0 q n
P
El numerador pn qn muestra la cantidad de gastos en el año P actual n para una determinada
cantidad de bienes comprados en el año actual n. El denominador p0 qn muestra la cantidad de
gastos necesarios en el año base para comprar la misma cantidad de bienes.
Hay que tener en cuenta que hay que encontrar un nuevo conjunto de cantidades qn para cada
año en curso que se va a comparar con el año base.
11.3. Variaciones de los índices de precios ponderados 247

Ejemplo No. 2
Apliquemos la fórmula de Paasche a los datos del ejemplo 1.
1958 1960
Producto qn qn p0 pn p0 q n pn q n
Azúcar 40 lb 60 lb 10 ¢ 15 ¢ $ 6.00 $ 9.00
Harina 80 lb 100 lb 15 ¢ 20 ¢ 15.00 20.00
Leche 20 lt 40 lt 20 ¢ 25 ¢ 8.00 10.00
$ 29.00 $ 39.00

Encontramos: P
pn q n 39.00
I60 = P = = 1.345 o 134.5
p0 q n 29.00

La fórmula de Laspeyres también se denomina fórmula agregada ponderada que utiliza las pon-
deraciones del año base. La fórmula de Paasche también se denomina fórmula agregada ponderada
que utiliza ponderaciones del año en curso. Utilizaremos estos términos indistintamente.
Como ya hemos mencionado, la fórmula de Paasche requiere que se encuentren nuevas ponde-
raciones qn para cada año actual. Desde un punto de vista práctico, esta es una tarea muy difícil y
laboriosa. Además, el índice de precios de un año determinado sólo puede compararse con el año
base. Por ejemplo, dejemos que I58 = 100, I59 = 120, y I60 = 150. Entonces, I59 y I60 utilizan
ponderaciones diferentes y no pueden compararse entre sí. Si estos índices se hubieran obtenido
mediante la fórmula de Laspeyres, al ser las ponderaciones del mismo año base (q0 ), podrían com-
pararse. Esta es una de las razones por las que no se suele utilizar la fórmula de Paasche.

11.3 Variaciones de los índices de precios ponderados

11.3.1 Utilización de la cantidad media de varios años como ponderaciones

Uno de los problemas en la construcción de índices es la selección de un periodo base. A la hora


de seleccionar un año o periodo base, es necesario que no sea un año irregular. O más positivamente,
queremos seleccionar un año normal. Pero, ¿qué es un año normal? Generalmente nos referimos a
un año normal en términos económicos y no en términos de condiciones psicológicas o políticas
de un país o región. ¿Qué es entonces un año económico normal? Es una pregunta difícil, y nos
limitaremos a decir que un año normal es aquel en el que se produce un equilibrio económico.
Desgraciadamente, esta respuesta plantea más preguntas de las que responde, y la esquivaremos
diciendo que una discusión sobre el equilibrio económico está más allá de los límites de este libro.
Pero, para desarrollar nuestra discusión, nos limitaremos a decir que es una situación en la que la
economía no se encuentra en el punto álgido de un auge o en el punto más bajo de una recesión.
En muchos casos, puede que no haya un año que pueda considerarse normal, mientras que
una media de varios años puede considerarse así. Esto nos lleva a preguntarnos: ¿Cómo se puede
incorporar esta idea de utilizar la media de varios años como base normal en las fórmulas de los
índices de precios?
La primera variante que se va a presentar es la que incorpora esta idea utilizando la media de las
cantidades de (por ejemplo) 2 años como las ponderaciones en la fórmula de Laspeyres. Es decir, en
lugar de utilizar q0 , utilizaremos
q0 + q1
q′ =
2
248 Números Índice

Entonces el índice de precios se convierte en


P q0 + q1 P
pn p q′
In = P q + 2 = P n ′ (11.6)
0 q1 p0 q
p0
2

Si se toma la media de 3 años, tenemos


P
q0 + q1 + q2
pn
In = P q + q3 + q (11.7)
0 1 2
p0
3

Utilizaremos los datos del ejemplo 2 del apartado 11.2 para ilustrarlo.

Ejemplo No. 1
Utilizamos los datos de la tabla
1958 1960 q′ =
Producto q0 q1 (q0 + q1 )/2 p0 p1 p0 q ′ p1 q ′
Azúcar 40 60 50 10 ¢ 15 ¢ $5.00 $7.50
Harina 80 100 90 15 20 13.50 18.00
Leche 20 40 30 20 25 6.00 7.50
$24.50 $ 33.00

y encontramos: P
p1 q ′ 33.00
I1 = P ′
= = 1.35 o 135
p0 q 24.50

Los precios de 1960 han aumentado un 35 por ciento respecto a los de 1959.

11.3.2 Utilizar el precio medio de varios años como precio del año base

Otro método para ajustar el índice de precios de manera que tenga una base normal es utilizar
el precio medio de varios años como precio del año base. Por ejemplo, tome los precios de 2 años p0
y p1 y encuentre la media:
p0 + p1
p′ =
2

Entonces el índice de precios se convierte en


P P
pn q 0 p q
In =   = P n′ 0 (11.8)
P p0 + p1 p q0
q0
2

Si se utiliza la media de 3 años, tenemos


P P
pn q 0 p q
In =   = P n′ 0 (11.9)
P p 0 + p 1 + p2 p q0
q0
3
11.3. Variaciones de los índices de precios ponderados 249

Ejemplo No. 2
Utilizando los datos adjuntos y la ecuación (11.8), hallemos el índice de precios.
p′
p0 + p1
1958 1959 = 1958 1959
2 ′
Producto q0 p0 p1 p q0 p0 q 0 p1 q 0
Azúcar 40 10 ¢ 14 ¢ 12 ¢ $4.80 $4.00 $5.60
Harina 80 15 ¢ 21 ¢ 18 ¢ 14.40 12.00 16.80
Leche 20 20 ¢ 28 ¢ 24 ¢ 4.80 4.00 5.60
$24.00 $20.00 $28.00

De estos encontramos:
P
p0 q 0 20.00
I58 = P ′ = = 0.833 o 83.3
pq 24.00
P 0
p1 q 0 28.00
I59 = P ′ = = 1.167 o 116.7
p q0 24.00

Obsérvese que la base en este caso es de 1958 a 1959, y el índice de precios para el período base
se muestra mediante P ′
p q0 24.00
I58−59 = P ′ = = 1.00 o 100
p q0 24.00
Los índices de precios para estos cálculos son (utilizando la base 1958-1959 = 100) 1958, 83; 1959,
117. Esto muestra que los precios de 1958 son el 83% de la base, 1958-1959 = 100, y 1959 es el 117%
de la base.

11.3.3 Utilizar el precio y la cantidad medios de varios años como base

Construyamos ahora un índice que combine las dos características comentadas anteriormente.
Es decir, dejemos que
q0 + q1
q′ =
2
′ p0 + p 1
p =
2

Entonces el índice de precios se convierte en


 
P q0 + q1
pn P
2 pn q ′
In =     = P ′ ′ (11.10)
P p0 + p1 q0 + q1 pq
2 2
Si se utiliza una media de 3 años, tenemos
 
P q0 + q1 + q2
pn P
3 p q′
In =    = P n′ ′ (11.11)
P p 0 + p 1 + p2 q0 + q1 + q2 pq
3 3
Ilustrémoslo con el ejemplo 3.
250 Números Índice

Ejemplo No. 3
Utilizamos los datos de la tabla adjunta y encontramos:
1958 1959
Producto q0 q1 p0 p1 q′ p′ p′ q ′ p0 q ′ p1 q ′
Azúcar 40 60 10 ¢ 14 ¢ 50 12 ¢ $6.00 $5.00 $7.00
Harina 80 100 15 21 90 18 16.20 13.50 18.90
Leche 20 40 20 28 30 24 7.20 6.00 8.40
$29.40 $24.50 $34.30

p0 + p 1 ′ q 0 + q 1
p′ = ,q =
P 2′ ′ 2
pq 29.40
I58−59 =P ′ ′ = = 1.00 o 100
pq 29.40
P
p0 q ′ 24.50
I58 = P ′ ′ = = 0.833 o 83.3
pq 29.40
P
p1 q ′ 34.30
I59 = P ′ ′ = = 1.167 o 116.7
pq 29.40

11.3.4 Ilustraciones

Índice de precios al por mayor. El índice de precios al por mayor es calculado por la Oficina de
Estadísticas Laborales de Estados Unidos y puede encontrarse en el Monthly Labor Review. Es un
índice de precios que mide las variaciones de los precios en los mercados primarios. Se remonta a
la década de 1890, cuando abarcaba unos 250 productos básicos. Tras las revisiones posteriores, en
la actualidad abarca unos 2 400 artículos. La fórmula utilizada es la de Laspeyres:
P
pn q63
In = P
p57−59 q63
en la que el año base es 1957-59 = 100 y las ponderaciones son las ponderaciones cuantitativas de
1963. Los precios son mensuales, y pn indica los precios del mes en curso.
En 1950, la Oficina de Estadísticas Laborales adoptó un índice de cadena para calcular el índice
de precios al por mayor. Esto se considerará después de discutir el índice de cadena. La razón de este
cambio es que el índice de cadena permite la sustitución de productos.
En 1962, la base a partir de la cual se miden los cambios, es decir, la base de referencia, pasó de
1947-49 = 100 a 1957-59 = 100. El término base de referencia se explica en el apartado 11.7.
El Cuadro 11.1 presenta varios valores del índice de precios al por mayor.
Precios recibidos y pagados por los agricultores. Estos dos índices son publicados por el Departa-
mento de Agricultura de Estados Unidos. El índice de precios recibidos (denominado R) muestra la
variación de los precios que reciben los agricultores por su producto (unos 50 productos). El índice
de precios pagados (denominado P ) muestra la evolución de los precios que los agricultores tienen
que pagar por la compra de bienes familiares y de producción y equipamiento (unos 350 artículos).
La relación entre R y P (es decir, R/P ) se denomina índice de paridad.
Dado que los precios y la producción agrícolas fluctúan más que los de otros bienes, se utiliza un
periodo relativamente largo como base de ponderación, es decir, un periodo base a partir del cual
11.3. Variaciones de los índices de precios ponderados 251

Promedio 1947-48 1957-59


Mensual = 100 = 100
1929 61.9
1940 51.1
1950 103.1
1955 110.7 93.2
1960 119.6 100.7
1961 100.3
1962 100.6
Fuente: Estadística de Negocios, 1961.

Cuadro 11.1: Índice de precios al por mayor

se seleccionan las ponderaciones. Además, los ajustes de los productos básicos que se utilizan como
ponderaciones se han realizado tres veces a lo largo de los últimos 50 años para que el índice refleje
los cambios que se han producido en la agricultura. La fórmula para el primer periodo (1910 hasta
1934) es P
pn q24−29
p24−29 q24−29
donde los precios pn son mensuales. El periodo base de ponderación en la fórmula es 1924-1929,
pero por razones histórico-económicas, el índice se convierte a la base de referencia 1910-14 = 100.
La fórmula del segundo periodo (de 1935 a 1952) utiliza como periodo base de ponderación
1937-1941, pero también se reconvierte a la base de referencia 1910-14 = 100, para que el índice
sea continuo.
En los dos primeros periodos, el periodo de base de ponderación era el mismo para ambos
índices, pero en la reciente revisión (1959), el periodo de base de ponderación para el índice de
precios percibidos se ha cambiado a 1953-1957 y para el índice de precios pagados se ha cambiado
a 1955. El Cuadro 11.2 presenta varios valores de estos índices.

Precios Precios Índice


Promedio Recibidos Pagados de Paridad
Mensual (R) (P ) (R/P )
1929 148 160 92
1940 100 124 81
1950 258 256 101
1960 238 299 80
1962 243 306 79
Fuente: Estadísticas históricas de EEUU, 1960

Cuadro 11.2: Precios recibidos y pagados por agricultores (1910 - 14 = 100)

Cuando el índice de paridad es inferior a 100, significa que el poder adquisitivo de los productos
agrícolas es menor que en 1910-1914.

11.3.5 Números del índice de cadena

Supongamos que tenemos 4 números

a(1958) = 5, b(1959) = 10, c(1960) = 15, d(1961) = 20


252 Números Índice

Haciendo a = 5 como base, podemos expresar estos 4 números en forma de índice de la siguiente
manera:
a 5
1958 : = = 1 o 100
a 5
b 10
1959 : = = 2 o 200
a 5
c 15
1960 : = = 3 o 300
a 5
d 20
1961 : = = 4 o 400
a 5
De a a b hay un incremento del 100%; de a a c hay un incremento del 200%; y así sucesivamente.
Los incrementos se miden a partir de la base a = 5.
Pero supongamos ahora que nos interesan los incrementos de a a b, de b a c y de c a d. Entonces
b 10
I58−59 : = = 2 o 200
a 5
c 15
I59−60 : = = 1.5 o 150
b 10
d 20
I60−61 : = = 1.33 o 133
c 15

De a a b hay un incremento del 100%; de b a c hay un incremento del 50%; y de c a d hay un


incremento del 33%. Esta forma de índice, en la que la base de comparación es el periodo anterior,
se denomina índice en cadena.
Uno de los defectos del tipo de índice agregado ponderado o relativo es que las ponderaciones de
las cantidades son fijas. Por ejemplo, si se utiliza como base 1957-1959 = 100, las ponderaciones del
índice de Laspeyres utilizan cantidades de ese periodo. Cuando este índice se utiliza para calcular un
índice del coste de la vida, supone que los consumidores de (por ejemplo) 1965 compran artículos
similares a los del periodo 1957-1959. Pero sabemos que esto no es cierto. El desarrollo de las radios
de transistores, los diversos tipos de alimentos instantáneos, etc., cambia el modo de vida de los
consumidores. Por ello, para mantener una cesta de la compra representativa de lo que el consumidor
adquiere, es necesario suprimir artículos obsoletos y añadir otros nuevos. Una variación del índice
de la cadena permite este ajuste3 y de ahí que se utilice en muchos tipos de índices, como el índice
de precios al consumidor y el índice de precios al por mayor.
Además, en los precios al por mayor, en los que no sólo interesan las variaciones de los precios a
partir de una base fija, sino que también es importante la variación con respecto al periodo anterior
a la hora de analizar los puntos de inflexión de los ciclos económicos, el índice de cadena es útil.
Como veremos, el índice de cadena es bastante versátil:

1. Muestra los cambios desde el periodo anterior por los parientes de los eslabones.
2. Construye un índice con una base fija por el producto de los parientes de enlace.
3. Permite la sustitución de productos al permitir ajustes para nuevas ponderaciones.

El punto 3 se trata en el apartado 11.5.


El punto 1 es obvio y no necesita explicación. El punto 2 puede ilustrarse de la siguiente manera:
Sea
b c c
I58−59 · I59−60 = · =
c a a
11.3. Variaciones de los índices de precios ponderados 253

Esto muestra que el producto I58−59 · I59−60 se convierte en I58−60 = c/a, que es el índice de
precios para 1960, utilizando 1958 como base. De la misma manera,

b c d d
I58−59 · I59−60 · I60−61 = · · =
a b c a
Es decir, el producto de los 3 términos nos da I58−61 = d/a, que es el índice de precios de 1961,
utilizando 1958 como base. Los resultados se resumen como sigue:

I58−59 = I58−59
I58−60 = I58−59 · I59−60
I58−61 = (I58−59 · I59−60 ) I60−61
I58−62 = (I58−59 · I59−60 · I60−61 ) I61−62
I58−62 = I58−61 · I61−62
..
.

Así, por ejemplo, cuando se da el índice de precios de base fija regular I58−61 y un relativo de
enlace I61−62 , el índice de precios de base fija regular para 1962 (es decir, I58−62 ), puede calcularse
mediante
I58−61 · I61−61 = I58−62

Apliquemos esta técnica de índices en cadena al índice de Laspeyres.

11.3.6 El índice en cadena aplicado a la fórmula de Laspeyres

La fórmula de Laspeyres es
 
P pi
P pi−1 q0
pi q 0 p
Ii−1,i =P = Pi−1 (11.12)
pi−1 q0 pi−1 q0

donde Ii−1,i muestra el número de índice para el período i basado en el período i − 1; es decir, el
período anterior. Sea
P
pi+1 q0
Ii,i+1 = P (11.13)
pi q 0
es el índice relativo de enlace para el periodo i + 1 basado en el periodo i. Entonces el índice de
Laspeyres para el periodo i + 1, basado en el periodo i − 1 es

Ii−1,i+1 = Ii−1,i · Ii,i+1


P P
pi q 0 pi+1 q0
=P · P
pi−1 q0 pi q 0

pi+1 q0
Ii−1,i+1 = P (11.14)
pi−1 q0
254 Números Índice

Ejemplo No. 1
Utilizamos los datos de la tabla adjunta
1958 1959 1958 1959 1960
Producto q0 q1 p0 p1 p2 p0 q 0 p1 q 0 p2 q 0
Azúcar 40 60 10 ¢ 15 ¢ 20 ¢ $4.00 $6.00 $8.00
Harina 80 100 15 20 25 12.00 16.00 20.00
Leche 20 40 20 25 30 4.00 5.00 6.00
$20.00 $27.00 $34.00

y encontramos:
P
p59 q58 27.00
I58−59 = P = = 1.35
p q 20.00
P 58 58
p60 q58 34.00
I59−60 = P = = 1.259
p q 27.00
P 59 58
p60 q58
I58−59 = P
p q
P 58 58 P
p59 q58 p60 q58
=P ·P
p58 q58 p59 q58

27.00 34.00 34.00


I58−59 = I58−59 · I59−60 = · = = 1.70 (11.15)
20.00 27.00 20.00
I58−59 = 1.35 muestra que hay un aumento del 35 por ciento de 1958 a 1959; I59−60 = 1.259
muestra que hay un aumento del 26 por ciento de 1959 a 1960. I58−60 = 1.70 muestra que hay un
aumento del 70 por ciento de 1958 a 1960.
Obsérvese que los pesos de las cantidades q58 se mantienen fijos. Obsérvese también que, a partir
de la fórmula (11.14), tenemos
I58−60 = I58−59 · I59−60 (11.16)

Dejemos que 1958 sea el período base y lo abreviemos de los subíndices. Entonces la fórmula
(11.16) se convierte en

I60 = I59 · I59−60 (11.17)

Cuando sólo hay un subíndice, como I60 , I59−60 , etc., significa que tienen una base común.
Cuando hay dos subíndices, como I59−60 , el primer subíndice (1959) es la base a partir de la cual
se mide el cambio. Así, (11.17) muestra que el índice de Laspeyres de 1960 se obtiene multiplicando
el índice de Laspeyres de 1959 I59 por el relativo de enlace para 1959-1960, I59−60 . Esto puede
escribirse como P
p60 q58
I60 = I59 P (11.18)
p59 q58

 
P p60
p59 q58
p59
I60 = I59 P (11.19)
p59 q58
11.3. Variaciones de los índices de precios ponderados 255

11.3.7 Ilustración

Una ilustración de la técnica del índice chai según la fórmula (8) es el índice de precios al consu-
midor. El índice de precios al consumidor es un índice mensual publicado por la Oficina de Estadís-
ticas Laborales del Departamento de Trabajo de Estados Unidos. Su nombre completo es Índice de
variación de los precios de los bienes y servicios adquiridos por las familias de los asalariados urbanos
y de los trabajadores administrativos para mantener su nivel de vida, y anteriormente se denomina-
ba Índice del coste de la vida. Nuestro principal interés en él es la fórmula utilizada para calcular el
índice
   
P p1
(pi−1 q0 )   P 

Ii = Ii−1 
p1−1
P  = Ii−1 P pi q0 = Ii−1 · Ii−1,i (11.20)
 pi−1 q0  pi−1 q0

donde Ii−1 es el índice de precios (de Laspeyres) del mes anterior, basado en el periodo base
1957-59 = 100, y Ii−1,i es el relativo al enlace del mes i − 1 e i. Por ejemplo, si i =abril de 1971,
entonces i−1 =marzo de 1971; entonces Ii−1 es el índice de precios de marzo de 1971, y es el relativo
de enlace que muestra el cambio de precios de marzo a abril de 1971. Nótese cuidadosamente que
las ponderaciones de las cantidades q0 son fijas. Además, las q0 no son las cantidades de 1957-59,
sino las cantidades medias de 1960-61.
Para calcular el índice de precios de mayo, hay que encontrar el enlace relativo entre i =abril e
i + 1 = mayo:
 
P pi+1
(pi qa
pi
Ii,i+1 = P
pi q a

y luego calcular
Ii+1 = Ii · Ii,i+1

Este es el índice de precios al consumidor de mayo con la base 1957-59= 100.


Como ejemplo, dejemos que Ii−1 = 110 y Ii−1,i = 115. Entonces el índice de precios para
i =abril es

Ii = Ii−1 · Ii−1,i
= (1.10)(1.15) = 1.265 o 126.5

Dejemos que el cambio de i =abril a i + 1 =mayo sea Ii,i+1 = 105. Es decir, los precios
aumentaron un 5% de abril a mayo. Entonces el índice de precios de mayo es

Ii+1 = Ii · Ii,i+1
= (1.265)(1.05) = 1.328 o 132.8

Esto muestra que hay un aumento del 32.8 por ciento desde el periodo base 1957-59= 100 hasta
mayo de 1971.
256 Números Índice

11.4 Empalme y desplazamiento de la base de los números del índice

11.4.1 Empalme de dos números índice superpuestos

Supongamos que los datos originales para construir dos índices de precios al consumidor, A y
B, son los siguientes:

P A B
1958: v0 = P p0 q0 = $5.0
1959: v1 = P p1 q0 = $5.5 P
1960: v2 = p2 q0 = $6.0 v3 = P p2 q1 = $10
1961: v4 = P p3 q1 = $13
1962: v5 = p4 q1 = $14

Sobre la base de estos datos originales, los índices de precios (de Laspeyres) son los siguientes

A B
v0 5
1958: = = 1.0
v0 5
v1 5.5
1959: = = 1.1
v0 5
v2 6.0 v3 10
1960: = = 1.2 = = 1.0
v0 5 v3 10
v4 13
1961: = = 1.3
v3 10
v5 14
1962: = = 1.4
v3 10

Para simplificar la notación, esto se reescribe como

A B
1958: I58 = 100
1959: I59 = 110
1960: I60 = 120 ′ = 100
I60
1961: x1 ′ = 130
I61
1962: x2 ′ = 140
I62

Podemos suponer que los pesos se cambiaron en 1961 de q0 a q1 , y como resultado, se inició una
nueva serie B. Sin embargo, puede ser necesario un índice continuo. El problema de combinar dos
o más series de números índice que se solapan en una serie continua se denomina empalme.
El empalme es básicamente un problema de búsqueda de proporciones. Por ejemplo, el x1 de
1961 se encuentra mediante
120 100
=
x1 130
(11.21)
120 · 130
x1 = = 156
100
11.4. Empalme y desplazamiento de la base de los números del índice 257

Entonces los valores de la serie A son los que se muestran en la tabla adjunta.

Año Índice A Índice B


1960 120 100
1961 x1 = 156 130
1962 x2 = 168 140

El aumento de 1960 a 1961 es


156 − 120 36
= = 0.3 o 30
120 120

′ = 100 a I ′ = 130; es decir, un aumento del 30%,


La serie B muestra que el índice pasó de I60 61
y claramente se ha conservado el cambio proporcional de 1960 a 1961.
El x2 se encuentra por
120 100
=
x2 140
(11.22)
120 · 140
x2 = = 168
100

y una comprobación mostrará que el aumento de 120 a 168 es del 40 por ciento, como exige la
serie B.
Podemos combinar este principio de empalme con la técnica del índice en cadena y mostrar
cómo las ponderaciones pueden cambiarse con tanta frecuencia como sea necesario. Para ilustrar
esto, reescribamos la ecuación (11.21) como

I60 100
= ′ (11.23)
x1 I61

Entonces x1 se convierte en

′ 1
x1 = I60 · I61 ·
100 (11.24)
1
= 120 · 130 · = 156
100

′ , (11.24) se convierte en
Sustituyendo los v originales por I61

′ 1
x1 = (I60 I61 ·
 100 
v4 1
= I60 · 100 · (11.25)
v3 100
1
= I60 · I60−61 ·
100

donde I60−61 es el enlace relativo de 1960 a 1961. Esto demuestra que el índice de precios de
1961 se obtiene multiplicando el índice de precios de 1960 160 por el relativo de enlace I60−61 . Esta
es la técnica del índice en cadena. La diferencia entre esto y lo que hemos hecho anteriormente
es que el relativo de enlace I60−61 utiliza ponderaciones de cantidad q1 que son diferentes de las
ponderaciones de I60 , que son q0 .
258 Números Índice

A continuación, encontremos x2 . Dado que se ha encontrado x1 = I61 = 156, este resultado


puede utilizarse para encontrar x2 de la siguiente manera

x1 130
=
x2 140
140
x2 = x1 ·
130
v5
v
= I61 v34
v3
v5
= I61
v4

v5 ′
Pero · 100 es el enlace relativo I61−62 . Así pues,
v4

′ 1
x2 = I61 · I61−62 ·
100
$14
= 156 · = 168
$13

Esto demuestra que x2 = I62 (que es el índice de precios de 1962) se encuentra multiplicando

el índice de precios de 1961 I61 por el relativo de enlace I61−62 .
Los resultados pueden resumirse ahora. Dos índices superpuestos se empalman mediante la
técnica de las proporciones. Una variación de esta técnica conduce a la técnica de los índices en
cadena. Para I61 = x1 , encontramos

′ 1
I61 = I60 · I60−61 ·
100
1
= 120 · 130 · = 156
100

donde I60 es el índice de precios de 1960, y I60−61 es el relativo al enlace utilizando las nuevas
ponderaciones de cantidad q1 . Para I62 = x2 , encontramos

′ 1
I62 = I61 · I61−62 ·
100
14
= 156 · = 168
13


donde I61 es el índice de precios de 1961 y I61−62 es el relativo de enlace. En nuestro ejemplo, el

relativo de enlace I61−62 utilizó las ponderaciones de cantidad q1 , pero como puede verse fácilmente,
puede ser un nuevo conjunto de ponderaciones.
Utilizando esta combinación de técnica de empalme y de índice de cadena, los pesos pueden
cambiarse tantas veces como sea necesario.
11.4. Empalme y desplazamiento de la base de los números del índice 259

Ejemplo No. 1
Empalme los dos conjuntos de índices que se muestran en la tabla adjunta.
Año Índice A Índice B
1955 100
1956 110
1957 130 100
1958 x1 120
1959 x2 125
1960 x3 130

A partir de los datos de la tabla:


130 100
=
x1 120
(11.26)
130 · 120
x1 = = 156
100

130 100
=
x2 125
(11.27)
130 · 125
x2 = = 162.5
100
130 100
=
x3 130
(11.28)
130 · 130
x3 = = 169
100

Ejemplo No. 2
Empalme las dos series del Ejemplo 1, utilizando la técnica del índice de cadena. Para
utilizar la técnica del índice en cadena, primero hay que encontrar los relativos de enla-
ce. Dado que los índices de enlace son índices que utilizan el año anterior como base, se
pueden encontrar fácilmente a partir de la serie B de la siguiente manera:

′ 120
I57−58 = · 100 = 120
100
′ 125
I58−59 = · 100 = 104.17
120
′ 130
I59−60 = · 100 = 104
125

A continuación, los índices de precios x1 , x2 , x3 se obtienen como sigue:


′ 1
I58 = x1 = I57 · I57−58 ·
  100
120 1
= 130 · 100 ·
100 100 (11.29)
1
= 130 · 120 ·
100
= 156
260 Números Índice

′ 1
I59 = x2 = I58 · I58−59 ·
  100 
1 125 1
= 130 · 120 · · 100 ·
100 120 100 (11.30)
1
= 130 · 125 ·
100
= 162.5

′ 1
I60 = x3 = I59 · I59−60 ·
  100 
1 130 1
= 130 · 125 · · 100 ·
100 125 100 (11.31)
1
= 130 · 130 ·
100
= 169

Ejemplo No. 3
Dados los datos de la tabla adjunta, encuentre x1 , x2 y x3 .
Año Índice A Enlaces relativos
1955 100
1956 110
1957 130
1958 x1 ′
I57−58 = 105
1959 x2 ′
I58−59 = 90
1960 x3 ′
I59−60 = 120


1. El I57−58 = 105 muestra que hay un aumento del 5 por ciento en los precios de 1957 a 1958.

Podemos suponer que se utilizan nuevas ponderaciones para calcular I57−58 . Entonces x1 es

′ 1
I58 = x1 = I57 · I57−58 ·
100
1
= 130 · 105 · = 136.5
100

2. I58−59 = 90 muestra que hay una disminución del 10 por ciento de 1958 a 1959. Podemos
suponer que se utiliza un conjunto diferente de ponderaciones. Entonces
′ 1
I59 = x2 = I58 · I58−59 ·
100
1
= 136.5 · 90 · = 122.85
100

3. I59−60 = 120 muestra que hay un aumento del 20 por ciento en los precios de 1959 a 1960.
Podemos suponer que se utiliza un conjunto diferente de ponderaciones. Entonces
′ 1
I60 = x3 = I59 · I59−60 ·
100
1
= 122.85 · 120 · = 147.42
100
11.4. Empalme y desplazamiento de la base de los números del índice 261

Ejemplo No. 4
El ejemplo 3 puede descomponerse como se muestra en la tabla.
Índice Índice Índice Índice
Año A B C D
1955 100
1956 110
1957 130 100
1958 x1 105 100
1959 x2 – 90 100
1960 x3 – – 120

Lo que hemos hecho es mostrar los parientes de enlace como series B, C y D, y el problema de
encontrar x1 , x2 y x3 es simplemente repetir la técnica de empalme tres veces. Los resultados son,
por supuesto, los mismos que la técnica de la cadena del ejemplo 3. Podemos suponer que los pesos
son diferentes para cada serie.

11.4.2 Desplazamiento de la base

La técnica de desplazamiento de la base de un número índice de un período (digamos, 1958)


a otro período (digamos, 1960) es también un problema de toma de proporciones. Cambiemos la
base de las series de la tabla de 1958 a 1960. Basta con dividir cada uno de los números del índice A
entre 500:

Año Índice A Índice B


1958 100 x1
1959 200 x2
1960 500 100

100
x1 = · 100 = 20
500
200
x2 = · 100 = 40
500

Si la base se desplaza a 1959, dividimos por 200. A continuación,

100
x1 = · 100 = 50
200
500
x2 = · 100 = 250
200

Los resultados se resumen en la tabla de la página siguiente.


262 Números Índice

Año Índice A Índice B Índice C


1958 100 20 50
1959 200 40 100
1960 500 100 250

Una comprobación mostrará que la relación entre los números del índice de cada serie es la
misma, a saber
1:2:5

11.5 Deflactar los precios y el ingreso

El proceso de ajustar los precios y la renta mediante un índice de precios, y expresarlos en tér-
minos de dólares del año base, se denomina deflactar los precios y el ingreso.
Lo primero que hay que explicar es la relación entre el valor de un dólar y el nivel de precios.
Un dólar vale lo que puede comprar. Por lo tanto, cuando los precios son bajos, el dólar tiene más
valor; cuando los precios son altos, tiene menos valor. La gente dice: “El valor de una moneda de
diez centavos es sólo la mitad de lo que solía ser; ahora sólo podemos comprar una Coca-Cola con
una moneda de diez centavos”. Esta afirmación implica que si el nivel general de precios se duplica,
el valor real del dinero cae a la mitad de su valor anterior. Además, para una mercancía concreta,
como una Coca-Cola, si su precio se duplica, el valor del dinero con respecto a la Coca-Cola ha
caído a la mitad. Si los precios se triplican, el valor del dinero será un tercio de lo que era. Por
ejemplo, supongamos que un índice de precios es de 100 para 1950 y de 200 para 1960. Como el
nivel de precios se ha duplicado de 1950 a 1960, el dólar de 1960 sólo vale la mitad que el de 1950.
O podemos decir que, dado un billete de dólar, se podía comprar el doble en 1950 que en 1960. Lo
que hay que tener en cuenta es que una misma unidad de dólar ha sido etiquetada como dólar de
1950 o dólar de 1960 según su valor, que viene determinado por el nivel de precios.
Supongamos que los precios del pan y de la Coca-Cola son los que aparecen en la tabla siguiente.

Año Coca-Cola Pan Nivel de Precios


1950 5¢ 10 ¢ 100
1960 10 ¢ 30 ¢ 200

Como el índice de precios de 200 indica que el nivel de precios se ha duplicado, si los precios
de 1960 se dividen por el 200% (es decir, por 2), los precios de 1960 se expresan en términos de los
precios originales de 1950. O podemos decir que los precios de la Coca-Cola y del pan se expresan
en términos de dólares de 1950. Encontramos

Coca-Cola : 10 ÷ 200% = 5 ¢
Pan : 30 ÷ 200% = 15 ¢

Mostramos los resultados en forma de tabla.

Precios defactados
Año Coca-Cola Pan Nivel de Precio Coca-Cola Pan
1950 5¢ 10 ¢ 100
1960 10 ¢ 30 ¢ 200 5¢ 15 ¢
11.5. Deflactar los precios y el ingreso 263

Estos resultados de la tabla muestran que el precio de la Coca-Cola en 1960 en términos de


dólares de 1950 es de 5 ¢y es el mismo que su precio real de 1950. Pero el precio del pan en 1960 en
términos de dólares de 1950 es de 15 ¢y es 5 ¢más que su precio real de 10 ¢. Esto demuestra que
entre 1950 y 1960 ha ocurrido algo que ha hecho que el precio del pan aumente más que la subida
general de los precios. ¿Cuáles son estas causas?
No se trata de una cuestión estadística, sino económica, y nos limitaremos a afirmar que el au-
mento del precio del pan por encima del aumento del nivel general de precios se debió a un cambio
en la demanda relativa de pan. Descompongamos ahora el precio del pan de 1960 de la siguiente
manera
10 ¢ · 200% · 150% = 20 ¢

La diferencia de 10 ¢y 15 ¢muestra el aumento del valor “real” del pan (o el valor relativo del
pan en términos de otras mercancías) debido a un cambio (aumento) en la demanda relativa de pan
en 1960. Esto significa simplemente que antes sólo se demandaban 2 Coca-Colas (1 Coca-Cola = 5
¢) por 1 barra de pan (= 10 ¢), pero ahora se demandan 3 Coca-Colas (1 Coca-Cola ahora = 10 ¢)
por 1 barra de pan (1 barra de pan ahora = 30 ¢).
El aumento del valor real del pan puede medirse por la diferencia

3 Coca-Colas - 2 Coca-Colas = 1 Coca-Cola

Ahora podemos resumir nuestra discusión: El proceso de ajustar los precios o la renta por un
índice de precios y expresarlos en términos de dólares del año base se llama deflactar los precios y
la renta. El procedimiento consiste en dividir los precios por el índice de precios.

Ejemplo No. 1
Teniendo en cuenta los datos de la tabla para la leche y un índice de precios al consumi-
dor, deflactar los precios de la leche.
Precio de Índice Precios
Año la Leche de Precio Deflactados
1950 15 ¢ 100 15 ¢
1955 22 ¢ 110 20 ¢
1960 30 ¢ 115 25 ¢

Los precios deflactados se obtienen dividiendo los precios de la leche entre los índices de precios
correspondientes. Por ejemplo
22 ¢ ÷ 110% = 20 ¢.

El precio deflactado 20 ¢significa que el precio de la leche en 1955 en términos de dólares de


1950 es de 20 ¢. Por lo tanto, el valor real de la leche ha aumentado en

20 ¢ − 15 ¢ = 5 ¢

El precio deflactado de 26 ¢significa que el precio de la leche en 1960 en términos de dólares de


1950 es de 26 ¢. El valor real de la leche ha aumentado en

26 ¢ − 15 ¢ = 11 ¢
264 Números Índice

Ejemplo No. 2
Dados los datos de la tabla para los salarios y un índice de precios al consumidor, halle
si se ha producido un aumento de los salarios reales.
de Índice Salarios
Año Salarios de Precio reales
1950 $0.90 100 $0.90
1955 1.20 130 0.923
1960 1.60 180 0.889

El salario de 1955 de 1.20 dólares en términos de dólares de 1950 era de 0.923 dólares. Esto significa
que hubo un aumento de 92.3 − 90 = 2.30¢en los salarios reales en 1955.
El salario de 1960, de 1.60 dólares en términos de 1950, fue de 0.889 dólares. Esto significa que
hubo una disminución de 90 − 88.9 = 1.1¢en los salarios reales en 1960 en comparación con los
salarios de 1950.

Ejemplo No. 3
La renta media por persona (renta per cápita) y un índice de precios al consumidor se
dan en la tabla. ¿Se ha producido un aumento de la renta real?
Índice Ingreso
Año Ingreso de precio real
1950 $1200 100 $1200
1955 $1500 110 $1364
1960 $1800 120 $1500

El ingreso de $1 500 de 1955 en términos de dólares de 1950 fue de $1 364. Hubo un aumento
real de
$1 364 − 1 200 = $164

El aumento nominal fue de $1 500 − 1 200 = $300.


El ingreso de 1960 de $1 800 en términos de dólares de 1950 fue de $1 500. El aumento real fue
de
$1 500 − 1 200 = $300

El aumento nominal fue de $1 800 − 1 200 = $600.

11.6 Comentarios sobre los índices de precios

Ya hemos comentado brevemente el problema de la selección de la base. Vamos a discutir algu-


nos otros problemas de los índices de precios, utilizando el índice de precios al consumidor como
ilustración.

11.6.1 Cambios debidos al tiempo

Cuando se comparan los índices de precios al consumidor de, por ejemplo, 1930 y 1960, los
cambios en los artículos y en la calidad de los bienes que se compran hacen que estas comparaciones
11.6. Comentarios sobre los índices de precios 265

sean difíciles, si no carentes de sentido. En 1930 no había supermercados con la gran variedad de
productos que había en 1960. El café instantáneo, los detergentes y el zumo de naranja ya preparado
son sólo algunas de las necesidades de 1960 que no existían en 1930. Además, se han producido
grandes cambios en la calidad de los productos.

11.6.2 Cambios debidos a la localización

Los modos de vida en Montana y en el sur de California difieren tanto que un índice de consumo
global para el conjunto de Estados Unidos resulta cuestionable. Por ejemplo, en el sur de California
probablemente no se necesite ropa de invierno, mientras que en Montana probablemente sea una
necesidad.

11.6.3 Problemas en la recogida de datos

El proceso de recogida de datos para el índice de precios al consumidor requiere, en primer lugar,
la selección de una muestra de ciudades; en segundo lugar, la selección de una muestra de familias;
en tercer lugar, la selección de los artículos cuyos precios se van a comprobar; en cuarto lugar, la
selección de las tiendas; en quinto lugar, la selección de los días de compra; en sexto lugar, cuando
hay varios precios, qué precio utilizar, etc. Una vez seleccionadas las familias, se les pide que lleven
un registro de los artículos que compran y de los precios. La Oficina de Estadísticas Laborales recoge
estos datos y calcula el índice de precios al consumidor. En las cinco grandes ciudades (Nueva York,
Chicago, Los Ángeles, Detroit y Filadelfia) los datos se recogen una vez al mes, pero en ciudades
pequeñas como Seattle (Washington) o Madison (Wisconsin) se hace una vez cada cuatro meses.
Además, sólo cubre a los oficinistas y a los asalariados urbanos, y excluye a los agricultores.
Evidentemente, este procedimiento permite que se produzcan diversos errores y los datos no
son muy completos.

11.6.4 Base de pesos y base de referencia

Hasta ahora hemos utilizado el término “año base” o “periodo base” a partir del cual se miden las
variaciones de los precios. Por ejemplo, el índice de precios recibidos y pagados por los agricultores
es P
pn q24−29
In = P
p24−29 q24−29

Como hemos dicho antes, el periodo base se desplazó a 1910 - 14= 100 por razones histórico-
económicas. Pero, como muestra la fórmula, las ponderaciones de las cantidades son la media de
1924-19291 , que es diferente de la base 1910 - 14 = 100. Para evitar confusiones, el término base
de pesos se utiliza para indicar el periodo del que se seleccionan los pesos de cantidad (o cualquier
otro tipo de peso). En nuestro ejemplo, la base de peso es 1924-1929. El término base de referencia
se utiliza para indicar el período a partir del cual se miden los cambios. En el presente ejemplo, es
1910 - 14 = 100.
Las ponderaciones, como las cuantitativas, se seleccionan de forma que sean representativas del
periodo cubierto por el índice de precios. Por ejemplo, de 1957 a 1970, la canasta de la compra
de 1960 - 61 puede ser la canasta de la compra adecuada. Pero a efectos de análisis económico y
empresarial, y también por conveniencia de comparación con otros índices, 1957 - 59 = 100 puede
ser la base de referencia adecuada.
266 Números Índice

Al leer la literatura relativa a los números de índice, el término “período base” puede utilizarse
para referirse a la base de ponderación o a la base de referencia. Cuando ambos se refieren al mismo
año o periodo, no hay confusión. Pero en algunos casos en los que difieren y se utiliza el mismo
término de periodo base, hay que entender que el término puede tener dos significados diferentes.
En 1962, varios índices económicos de propósito general publicados por el Gobierno Federal
cambiaron su base de referencia de 1947 - 49 = 100 a 1957 - 59 = 100 porque era conveniente
actualizar los periodos de referencia. El índice de precios al por mayor mencionado anteriormente
era un ejemplo.
El índice de precios al consumidor que mencionamos en la página 316 también cambió la base
de referencia de 1947 - 49 = 100 a 1957-59 = 100. Sin embargo, la base de ponderación de 1949 -
50 se utilizó para calcular los índices de 1950 - 52, y la base de ponderación de 1952 se utilizó para
calcular los índices de 1953 a 1963. A partir de 1964 se utiliza una nueva base de ponderación de
1960 - 61 para calcular los índices.

11.6.5 Una interpretación alternativa del índice de precios agregado ponderado

En el Ejemplo 1 del apartado 11.2, comprobamos que


P
pn q 0 $27.00
I60 = P = = 1.35 o 135
p0 q 0 $20.00
y dijimos que esto significaba un aumento de los precios del 35 por ciento sobre el nivel de 1958. Esto
también puede interpretarse como el cambio en la cantidad total de gastos de 1960 para comprar la
misma cantidad de bienes. Es decir, hay un aumento del 35 por ciento en la cantidad total de gastos
de 1960 para comprar la misma cantidad de bienes.
La diferencia estriba simplemente en que, en el primer caso, los gastos se consideran sobre una
base unitaria y, por tanto, se utiliza el término “precio”, mientras que en el segundo caso, los gastos
son sobre una base agregada.

11.6.6 Criterios para un buen índice

El estadístico I. Fisher1 propuso dos criterios para un buen número de índice. Uno se denomina
prueba de inversión temporal y el segundo, prueba de inversión de factores.
La prueba de inversión temporal se explica como sigue: Sea I0n un índice para el año n basado
en el año 0, y In0 el índice para el año 0 basado en el año n. Entonces, si

I0n · In0 = I

satisface la prueba de inversión temporal. Por ejemplo, considere el índice de precios agregativo
simple que se muestra en la tabla siguiente.

Producto p0 p1
Pan 10 ¢ 20¢
Leche 15 ¢ 25¢
Mantequilla 25 ¢ 35¢
50 ¢ 80¢
1
I. Fisher, The Making of Index Numbers, 3a edición, Nueva York: Houghton Mifflin Co., 1927.
11.6. Comentarios sobre los índices de precios 267

A partir de los datos de la tabla encontramos


P
p1 80
I01 = P = = 1.6 o 160
p0 50
P
p0 50
I10 = P = = 0.625 o 62.5
p1 80

Entonces
I01 · I10 = 1.6 · 0.625 = 1
y satisface la prueba de inversión temporal.
Una comprobación mostrará que los índices de Laspeyres y Paasche y la mayoría de los demás
índices no satisfacen este criterio.
La prueba de la inversión de los factores requiere el conocimiento de los índices de cantidad,
que se analizan en la siguiente sección, pero en este punto se dará una explicación sencilla. Sea P
un índice de precios que muestre la variación de los precios del año 0 al n, y sea Q un índice de
cantidades que muestre la variación de las cantidades del año 0 al n. Sabemos que

Precio · Cantidad = Valor

La prueba de inversión de los factores requiere que P · Q muestre el cambio de valores del año 0 al
año n. En símbolos, requiere P
pn q n
P ·Q= P
p0 q 0
P P
donde p0 q0 muestra la cantidad de gastos en el año 0 y pn qn muestra la cantidad de gastos
en el año n. Dado que la fórmula muestra los cambios de valor, puede llamarse índice de valor. Por
ejemplo, supongamos
P que p son los precios P de las importaciones y q son las cantidades importadas;
supongamos que p0 q0 = $10.000.000 y pn qn = $15.000.000. Entonces
P
p q 15
P n n = = 1.5 o 150
p0 q 0 10
muestra en términos de valor un aumento de las importaciones del 50% respecto al año base.
Muy pocos índices satisfacen esta prueba de inversión de factores, pero uno que lo hace es el
número de índice ideal de Fisher.

11.6.7 Número índice media geométrica

El número índice ideal es la media geométrica del número índice de Laspeyres y Paasche. Así
pues, definamos primero el número índice medio geométrico. Es la media geométrica de los parien-
tes no ponderados o ponderados de los precios (o cualquier otro elemento que se esté midiendo).
Consideremos como ejemplo los datos que figuran en el cuadro adjunto.

1947-1949 8/1/60
Producto p0 p1 p1 /p0 log(p1 /p0 )
Café (lb) 40¢ 44¢ 1.10 0.0414
Cacao (lb) 20¢ 24¢ 1.20 0.0792
Azucar (lb) 10¢ 11¢ 1.10 0.0414
0.1620
268 Números Índice

El número índice medio geométrico es


r
p11 p12 p13
In = 3 · ·
p01 p02 p03

Para calcular este índice se utilizan logaritmos:


 
1 p11 p12 p13
log In = log + log + log
3 p01 p02 p03
1
= · 0.1620
3
= 0.0540
In = 1.132 o 113.2

Es decir, hay un aumento del 13.2% respecto a la media de 1947-1949.


La media geométrica del índice satisface la prueba de la inversión temporal.
En nuestro ejemplo actual, la variación de los precios desde agosto de 1960 hasta 1947-1949 es
r
p01 p02 p03
I0 = 3 · ·
p11 p12 p13

y una comprobación mostrará que


In · I0 = 1

como exige la prueba de inversión temporal. Una ventaja de este índice es que los cambios en
los precios son simétricos. Con esto queremos decir que si los precios del café se duplican y los del
azúcar caen a la mitad de su nivel anterior, se compensarán mutuamente.
El índice diario de precios del mercado al contado, publicado por el Departmento de Trabajo,
Oficina de Estadísticas Laborales, se calcula mediante la media geométrica no ponderada del precio
relativo de los 22 productos básicos, que incluyen (1) lona, (2) mantequilla, (3) cacao en grano, (4)
chatarra de cobre, (5) maíz (6) semilla de algodón, (7) aceite de semilla de algodón, (8) pieles, (9)
cerdos, (10) manteca de cerdo, (11) chatarra de plomo, (12) tela de imprenta, (13) colofonia, (14)
caucho, (15) chatarra de acero, (16) bueyes, (17) azúcar, (18) sebo, (19) estaño, (20) trigo, (21) lana,
(22) zinc. Además de las publicaciones de la Oficina de Estadísticas Laborales, se pueden encontrar
datos sobre los precios al contado de las materias primas y los índices de materias primas en el New
York Times y otros periódicos.
Debido a su sensibilidad a las condiciones económicas actuales y futuras, el Índice Diario de
Precios del Mercado al Contado es utilizado por algunos economistas como indicador principal para
prever los cambios comerciales.

11.6.8 El número de índice ideal

Sea L el número índice de Laspeyres y P el número índice de Paasche. Entonces el número


índice ideal de Fisher es

IF = L · P
sP P
pn q 0 pn q n
= P ·P
p0 q 0 p0 q n
11.7. Números del índice de cantidad 269

Recordemos que L utiliza las cantidades del año base q0 como pesos, y P utiliza las cantidades del
año actual qn como pesos.
Sea L′ el índice de Laspeyres que muestra el cambio desde el año n hasta el 0 y P ′ el índice de
Paasche que muestra el cambio desde el año n hasta el 0. Entonces
√ √
IF · IF′ = L · P · L′ · P ′
sP P sP P
pn q 0 pn q n p0 q n p0 q 0
= P ·P · P ·P
p0 q 0 p0 q n pn q n pn q 0
=1
y satisface la prueba de inversión temporal.
Para comprobar la prueba de inversión del factor, el índice de precios debe ser

PF = L · P
donde PF indica el índice de precios ideal de Fisher. Sea
sP P
q n p0 q n pn
QF = P ·P
q 0 p0 q 0 pn
sea el índice de cantidad ideal que corresponde a PF . Entonces
sP P sP P
pn q 0 pn q n q n p0 q n pn
PF · Q F = P · P · P ·P
p0 q 0 p0 q n q 0 p0 q 0 pn
P
pn q n
= P
p0 q 0
que es el índice de valor; por lo tanto, satisface la prueba de inversión de los factores.
Los índices mensuales de exportación e importación publicados por la Oficina de Comercio Ex-
terior del Departamento de Comercio de EE.UU. utilizan el número del índice ideal de Fisher para
calcular los índices de cantidad y de valor unitario (precios), y a partir de estos dos, calcula el índice
de valor.
Las fórmulas son similares a las anteriores, en las que los p son los valores unitarios y los q
son las cantidades (importadas o exportadas). Los índices de precios y cantidades por separado
son necesarios debido a las grandes fluctuaciones de precios y cantidades en las importaciones y
exportaciones. El Cuadro11.3 muestra los índices extraídos de la Encuesta de Negocios Actuales de
junio de 1961. Una comprobación mostrará que
Cantidad · Valor unitario = valor
y, por ejemplo, utilizando la tabla 11.3
336 · 220 = 739
donde las cifras están en términos porcentuales.

11.7 Números del índice de cantidad

Los índices de cantidad miden las variaciones de las cantidades a partir de un periodo base (base
de referencia). Se discutirán dos tipos de índices de cantidad: el tipo agregativo ponderado y el tipo
relativo ponderado. El tipo agregativo ponderado se clasifica en tipo Laspeyres, tipo Paasche y otros
tipos.
270 Números Índice

Abril Mayo
Exportaciones
Cantidad 336 334
Valor 739 733
Valor unitario 220 219
Importaciones
Cantidad 221 221
Valor 610 612
Valor unitario 276 277

Cuadro 11.3: Importaciones y Exportaciones de EEUU 1936-38 = 100

11.7.1 Fórmula de tipo Laspeyres

Es la contrapartida del índice de precios de Laspeyres y se obtiene intercambiando las p y las q


del índice de precios de Laspeyres. Es decir
P
pn q 0
ndicedeprecio : P
p q
P 0 0 (11.32)
q n p0
ndicedecantidad : P
q 0 p0

El numerador muestra el valor de los bienes para el año n. El denominador muestra el valor de
los bienes para el año base. Como los precios p0 se mantienen fijos como ponderaciones, cualquier
cambio se debe a las variaciones de las cantidades. Por ejemplo, supongamos que
P
q p $20
P n 0 = = 2.0 o 200
q 0 p0 $10
El valor de los bienes en el año n aumenta en un 100% con respecto al año base. Como los precios
son los mismos para ambos años, la cantidad de bienes debe haberse duplicado.
Observe cuidadosamente que cuando decimos que la cantidad de bienes se ha duplicado, no
queremos decir necesariamente que cada bien se haya duplicado en cantidad. Algunos pueden haber
aumentado más del 100 por ciento y otros menos del 100 por ciento; la afirmación sólo significa que
ha habido un aumento, en promedio, del 100 por ciento.

Ejemplo No. 1
Dados los datos de la tabla, relativos a la producción y a los precios, construya un índice
de cantidad del tipo Laspeyres.
1958 1959 1960 1958
Producto q0 q1 q2 p0 q 0 p0 q 1 p0 q 2 p0
Silla 20 30 30 $5 $100 $150 $150
Escritorio 10 20 30 8 80 160 240
Radio 30 40 30 10 300 400 500

A partir de estos datos, entonces,


P
q 0 p0 480
I58 =P = = 1.0 o 100 (11.33)
q 0 p0 480
11.7. Números del índice de cantidad 271

P
q 1 p0 710
I59 = P = = 1.479 o 147.9 (11.34)
q 0 p0 480
P
q 2 p0 890
I60 =P = = 1.854 o 185.4 (11.35)
q 0 p0 480
I59 = 1.479 indica que el importe de los gastos de 1959 para los bienes es un 47.9 por ciento mayor
que el nivel de 1938. Pero, como los precios son los mismos, el cambio se debe a la variación de la
cantidad de los bienes. Es decir, hay un aumento del 47.9 por ciento en la cantidad de bienes sobre
el nivel de 1958.

11.7.2 Fórmula de tipo Paasche

Se obtiene intercambiando las p y las q en el índice de precios de Paasche. Es decir


P
pn q m
Índice de precio : P
p q
P 0 n (11.36)
q n pn
Índice de cantidad : P
q 0 pn

Ejemplo No. 2
Dados los datos de la tabla, relativos a la producción y a los precios, construya un índice
de cantidad de tipo Paasche.
1958 1959 1960 1959 1960
Producto q0 q1 q2 p1 p2 q 0 p1 q 1 p1 q 0 p2 q 2 p2
Silla 20 30 30 $6 $8 $120 $180 $160 $240
Escritorio 10 20 30 10 12 100 200 1200 360
Radio 30 40 50 12 15 360 480 450 750
$ 580 $860 $730 $1350

A partir de estos datos tenemos

P
q 0 p0
I58 = P = 1.0 o 100 (11.37)
q 0 p0
P
q 1 p1
I59 = P = 1.483 o 148.3 (11.38)
q 0 p1
P
q 2 p2
I60 = P = 1.849 o 184.9 (11.39)
q 0 p2

I59 = 1.483 muestra que hay un aumento del 48.3% en la cantidad de 1958 a 1959. Obsérvese
cuidadosamente que no se está comparando I59 = 1.483 con I58 = 1.0. Como los pesos de 1958 son
p0 y los de 1959
P son p1 , no se pueden P
comparar I58 y I59 . Lo que se está comparando es el importe
de los gastos q0 p1 = 580 dólares y q1 p1 = 860 dólares; y I59 = 1.483 muestra que ha habido
un aumento del 48.3 por ciento. Pero, como p1 , se mantiene fijo, el cambio se debe a los cambios de
cantidad. Por lo tanto, concluimos que hay un aumento del 48.3 por ciento en las cantidades.
I60 = 1.849 se interpreta de forma similar. Obsérvese que I59 = 1.483 y I60 = 1.849 no pueden
compararse porque se han utilizado ponderaciones de precios diferentes.
272 Números Índice

11.7.3 Variaciones del índice de cantidad de tipo agregativo ponderado

De forma similar a las variaciones de los índices de precios agregados ponderados, las variacio-
nes de los índices de cantidad se obtienen utilizando los precios medios y las cantidades medias del
año base. Un ejemplo es el Índice Mensual de Producción Industrial de la Reserva Federal (abreviado
IMP): Es P
q p
P n 47
q47−49 p47
donde las cantidades del año base son la media de 1947-1949.
La construcción de otras variaciones se deja al lector.

11.7.4 Índice de cantidad relativa ponderada

El índice de cantidad relativa ponderada es


 
P qn
w
q0
In = P (11.40)
w

donde qn /q0 son las cantidades relativas y las w son las ponderaciones. La interpretación es
análoga a la del índice de precios relativos ponderados.
Los relativos de cantidad qn /q0 muestran el aumento proporcional de la cantidad desde el año
base, y a cada bien se le da el mismo peso. La fórmula del índice (11.40) es una media ponderada de
estas cantidades relativas.
Como puede verse fácilmente, el principal problema es la selección de las ponderaciones. El
razonamiento que seguimos es que las ponderaciones w deben indicar la importancia relativa de
las cantidades. Esto implica, a su vez, que las ponderaciones dependerán del tipo de cambios de
cantidad que queramos medir. Por ejemplo, si nos interesan los cambios en la producción industrial,
las ponderaciones adecuadas pueden ser el valor añadido. Si nos interesan los cambios en la carga de
los vagones de mercancías, las ponderaciones pueden ser los tonelajes. Si nos interesan los cambios
en la producción de huevos, las ponderaciones pueden ser el número de cajas.
Esta flexibilidad en la selección de las ponderaciones confiere al índice de cantidad relativa pon-
derada un campo de aplicación más amplio que el del índice de cantidad agregada ponderada. De
hecho, las fórmulas de tipo P Laspeyres y Paasche son casos especiales
P de la fórmula (11.40), donde
las ponderaciones son w = q0 p0 para el tipo Laspeyres y w = q0 pn para el tipo Paasche.
Veamos primero un ejemplo de cómo se utiliza la fórmula (11.40), y luego discutiremos algunos
de los problemas en la determinación de los pesos.

Ejemplo No. 3
Dados los datos de la tabla adjunta, encuentre el índice de cantidad relativa ponderado.
1958 1959 1960
Producto q0 q1 q2 p0 q 0 p0 q1 /q0 q2 /q0
Silla 20 30 30 $5 $100 30/20 30/20
Escritorio 10 20 30 8 80 20/10 30/10
Radio 30 40 50 10 300 40/30 50/30
$480
11.7. Números del índice de cantidad 273

El índice de 1959 se obtiene de  


P q1
w
q
I59 = P0
w
Para mostrar la importancia relativa, utilicemos la proporción del valor total del año base. Para las
sillas, tenemos
q 0 p0 $100
w1 = P =
q 0 p0 $480
Para los escritorios, tenemos
q 0 p0 $80
w2 = P =
q 0 p0 $480
Para las radios, tenemos
q 0 p0 $300
w3 = P =
q 0 p0 $480
Entonces, la suma de las ponderaciones es
X $100 $80 $300
w = w1 + w2 + w3 = + + =1
$480 $480 $480
como es de esperar. Sustituyendo estos valores en la fórmula del índice de cantidad, encontramos
 
P q1
w
q
I59 = P0
w
  
P q1 q 0 p0
P
q0 q 0 p0
=  
P q 0 p0
P
q 0 p0
        
30 100 20 80 40 300
+ +
20 480 10 480 30 480
=
100 80 300
+ +
480 480 480
71
= = 1.479 o 147.9
48
Por lo tanto, el resultado es el mismo que el obtenido por el índice de cantidad de tipo Laspeyres
en el Ejemplo 1, y esto ocurre por la forma en que se seleccionaron las ponderaciones. La relación
puede mostrarse algebraicamente como sigue:
 
P q1
w
q0
I59 = P
w
  
P q1 q 0 p0
P
q0 q 0 p0
=  
P q p
P0 0
q 0 p0
P
q 1 p0
=P
q 0 p0
El resultado para I60 , utilizando la fórmula relativa ponderada, es I60 = 1.854, o sea 185.4, que
es el mismo que el resultado del ejemplo 3 del apartado 11.6 cuando se utiliza la fórmula de tipo
Laspeyres. El lector debe resolverlo por sí mismo.
274 Números Índice

11.7.5 Índice de producción industrial

Como ilustración de algunos de los problemas que conlleva la determinación de las pondera-
ciones, se analiza brevemente la IMP. El IMP mide la evolución de la producción de las industrias
manufactureras y mineras. La última revisión del índice, en 1959, amplió su cobertura para incluir
la producción de servicios públicos. El índice global se subdivide en 207 series mensuales indivi-
duales. La base de ponderación es 1957. La base de referencia, que era 1947-49 = 100, se cambió a
1957 = 100, pero en 1962 se volvió a cambiar a 1957-59= 100 para mantenerlo uniforme con otros
índices económicos de propósito general del Gobierno Federal.
Nuestro principal interés aquí es ver cómo se han determinado las ponderaciones. El índice en
forma esquemática es  
P qn
w
q0
I= P
w
y mide las variaciones de la producción. Las ponderaciones w, por tanto, deben indicar la impor-
tancia relativa de los productos individuales. Esto se consigue contrastando la parte relativa de la
producción de un producto (por ejemplo, una silla) con la producción total. Para encontrar esta
cuota relativa, primero hay que decidir qué se entiende por producción total.
A primera vista, puede parecer que lo único que hay que hacer es sumar las distintas produc-
ciones. Pero, ¿qué ocurre, por ejemplo, cuando se suma la producción de madera, de sillas, de es-
critorios, etc., en términos de valor? Una parte de la madera se utiliza para las sillas, otra para los
escritorios, etc. Por lo tanto, una simple suma de estas salidas implicará una doble contabilidad. Es
decir, la madera se contará dos veces, una como producción de madera y otra como parte de los
escritorios y las sillas. Para evitarlo, se ha desarrollado el concepto de valor añadido. Ilustrémoslo
en el Cuadro 11.4 con la producción de sillas.

Asignaciones Fuentes
Madera $5 Venta de la silla $10
Salarios 2
Alquiler 1
Interés 1
Ganancia 1
Asignación total de $10 Valor total de $10
valor de producción producción

Cuadro 11.4: Empresa productora de sillas

Una empresa que produce sillas adquiere madera (denominada bienes intermedios) y, emplean-
do factores de producción (trabajo, tierra, capital y empresario), produce sillas. El desglose de esta
asignación del valor de la producción se muestra en el lado izquierdo del Cuadro 11.4. La silla se
vende y la empresa realiza el valor total de la producción. Por lo tanto, el valor neto que esta empre-
sa añade a la madera para producir una silla es la diferencia entre el valor total de la producción y
el valor de los productos intermedios. Esto se muestra en el Cuadro 11.5. La producción total, por
tanto, es la suma del valor añadido de todos los bienes. A grandes rasgos, es la suma de los pagos a
los factores, es decir, salarios, rentas, intereses y beneficios.
Lo que queremos hacer ahora es utilizar este concepto de valor añadido para determinar las
cuotas relativas de una producción individual frente a la producción total. Para ello, supongamos
que el valor añadido de las sillas, los escritorios y los radios en nuestro ejemplo son los que figuran
en la tabla siguiente.
11.7. Números del índice de cantidad 275

Asignaciones Fuentes
Mano de obra $2 Venta de la silla $10
Local 1
Capital 1
Ganancia 1 Menos: Madera 5
Asignación total de $5 Valor total de $5
valor de producción producción

Cuadro 11.5: Declaración de Valor Agregado

Valor
1958 1959 1960 Agregado
Producto q0 q1 q2 q 0 p0 q1 /q0 q2 /q0
Sillas 20 30 30 $40 30/20 30/20
Escritorios 10 20 30 30 20/10 30/10
Radios 20 30 50 120 40/30 50/30
$190

El q0 p0 muestra el valor añadido para el año base 1958. Para las sillas, por ejemplo

q0 p0 = $40

Pero q0 = 20 sillas. Por lo tanto

$40
p0 = = $2.00 por silla
20

Esto muestra que el valor añadido por silla es de 2 dólares. Obsérvese bien que el p0 no es el precio
de las sillas. De forma similar, el valor añadido por escritorio y radio se obtiene como

$30
p0 = = $3.00 por escritorio
10
$120
p0 = = $4.00 por radio
30

El valor añadido total es de 190 dólares, como muestra la tabla. Por lo tanto, las cuotas relativas
de las sillas, los escritorios y las radios son

q01 p01 40
w1 = P =
q 0 p0 190
q02 p02 30
w2 = P =
q 0 p0 190
q03 p03 120
w3 = P =
q 0 p0 190
X 40 30 120 40
w = w1 + w2 + w3 = + + = = 1.00
190 190 190 190
276 Números Índice

Utilizando estas ponderaciones, el índice de cantidad puede construirse como sigue


  
P q1 q 0 p0
P
q0 q 0 p0
I59 =  
P q p
P0 0
q 0 p0
        
30 40 20 30 40 120
= + +
20 190 10 190 30 190
= 1.474 o 147.4

  
P q2 q 0 p0
P
q0 q 0 p0
I60 =  
P q 0 p0
P
q 0 p0
        
30 40 30 30 50 120
= + +
20 190 10 190 30 190
= 1.842 o 184.2

Los dos puntos principales que hay que entender son:

1. p0 no son precios, sino valor añadido por unidad.

2. La razón por la que se ha utilizado el valor añadido en lugar de los precios.

La IMP viene dada por   


P qn q57 p57
P
q57 q57 p57
  (11.41)
P q p
P57 57
q57 p57

El denominador es 1.00. Por lo tanto, el índice se puede reescribir de la siguiente manera:


X  qn   q57 p57  P
qn p57
P =P (11.42)
q57 q57 p57 q57 p57

La forma de (11.42) es la misma que la del índice de cantidad de Laspeyres (??), pero la diferencia
es que en (11.42) las p0 muestran el valor añadido y no el precio.
El IMP se utilizó para ilustrar cómo se determinan las ponderaciones de este índice específico.
El Índice de Producción de Bienes de Consumo Duraderos, publicado por el Sistema de la Reser-
va Federal, utiliza el valor bruto de producción de la fábrica para las ponderaciones; los Índices de
Producción y Comercialización Agrícola, publicados por el Departamento de Agricultura de EE.UU.,
utilizan los precios fijos como ponderaciones; el Índice de Carga de Mercancías, publicado por el Sis-
tema de la Reserva Federal, utiliza los ingresos para calcular las ponderaciones, y así sucesivamente.
Las ponderaciones que se utilizan para cualquier índice cuantitativo específico suelen determinarse
como un compromiso entre un análisis de lo que se va a medir y la disponibilidad de datos.
CAPÍTULO 12
Series Temporales

En este capítulo utilizaremos ecuaciones y gráficos para describir líneas rectas. Así pues, repa-
semos primero algunas propiedades algebraicas elementales de las rectas. Los que ya estén familia-
rizados con estos temas pueden saltarse el repaso.

12.1 Repaso

12.1.1 Graficar una recta

La fórmula general de una recta es

Y = a + bX

Por ejemplo,

Y = 1 + 2X

donde X se llama la variable independiente e Y se llama la variable descendente. Completa los valores
de Y que corresponden a los valores de X en la tabla de la página siguiente. A continuación, traza
los puntos en la gráfica.
En la figura, la línea recta corta el eje Y en el punto Y = 1. Esto se llama intersección Y. Esto se
llama la intersección Y y la a = 1 en la ecuación muestra esta intersección. El b = 2 de la ecuación
muestra la pendiente de la curva. Esto significa que cuando X aumenta en 1 unidad, Y aumenta en
2 unidades. Si b = −2, entonces significa que Y disminuirá en 2 unidades cuando X aumente en 1
unidad, y la curva tendrá una pendiente hacia abajo.

X -2 -1 0 1 2
Y -3 -1 1 3 5

277
278 Series Temporales

Y
6
5
4
3
2
1
X
−4 −3 −2 −1 1 2 3 4 5
−1
−2
−3
−4
−5
−6

12.1.2 Resolviendo ecuaciones simultáneas

Resuelva las siguientes ecuaciones

(1) 12 = 5a + 13b
(2) 74 = 15a + 58b

Ecuación 2 − Ecuación 1 · 3

74 = 15a + 58b
−36 = −15a − 39b

38 = 0 + 19b
b=2
a = −2.8

12 B
(2, 3)
9

6
A
3
(6, 11)

2 4 6
12.2. Introducción 279

12.1.3 Ajuste de una recta

Supongamos que tenemos dos puntos A y B en una gráfica. Queremos encontrar la ecuación
de la recta que pasa por estos dos puntos. La ecuación de la recta es

Y = a + bX

Según la gráfica anterior, cuando X = 2, entonces Y = 3 para el punto A. Sustituyendo estos


valores en la ecuación, encontramos
3 = a + 2b
Asimismo, para el punto B vemos que, cuando X = 6, entonces Y = 11. Entonces

11 = a + 6b

Resuelve las dos ecuaciones simultáneamente para los coeficientes a y b.

11 = a + 6b
−3 = −a − 2b

8 = 0 + 4b
b=2
a = −1

Así, la ecuación de la recta que pasa por los puntos A y B es

Y = −1 + 2X

12.2 Introducción

Siempre que uno observa una situación económica, ya sea de una empresa, de una industria o
de las condiciones económicas de los Estados Unidos en su conjunto, observará un flujo incesante
de actividad económica. El estadístico económico desea describirlo en “cifras”, y para ello obtiene un
conjunto de observaciones (relativas a la actividad económica, etc.) realizadas en diferentes períodos
de tiempo. Esto se denomina serie temporal.
Los estadísticos han clasificado estas actividades económicas en cuatro elementos:

1. La tendencia (T).

2. Las fluctuaciones cíclicas (C).

3. Variaciones estacionales (S).

4. Variaciones irregulares (I).

En los capítulos 12 y 13, primero daremos una explicación tipo libro de cocina de varios métodos
para encontrar T , S, C e I. Y después de obtener esta base técnica, discutiremos varios aspectos
problemáticos de las series temporales en la sección 13.7. Se ruega al estudiante que abarque con
paciencia estas diversas técnicas y que se reserve el juicio sobre los méritos y deméritos de estas
280 Series Temporales

técnicas hasta que llegue a la sección 13.7. En este capítulo trataremos las distintas técnicas para
encontrar una linea de tendencia.
La tendencia es el movimiento a largo plazo de una serie temporal. Por ejemplo, la tendencia del
crecimiento de la renta nacional es su movimiento a largo plazo, por ejemplo, durante un período de
10 a 20 años o más. En el caso de Estados Unidos, este movimiento a largo plazo muestra un aumento
gradual de aproximadamente el 3% anual. Otros ejemplos con los que el estudiante probablemente
esté familiarizado son el crecimiento de la población, la producción industrial, la energía, etc.
Hay varios tipos de líneas de tendencia para expresar los diferentes modos de crecimiento. Por
ejemplo, el crecimiento de la productividad del trabajo en Estados Unidos se aproxima a una línea
recta con pendiente ascendente, por lo que se puede utilizar una línea recta. Cuando las moscas
de la fruta se colocan en un pequeño recipiente, la población de moscas crece geométricamente al
principio, y a medida que se agolpa en el recipiente, disminuye gradualmente. El crecimiento de
una industria en una región determinada o el crecimiento de la industria de la televisión presentan
características similares, ya que crecen rápidamente al principio y luego disminuyen. Este tipo de
tendencia se muestra en la curva de Pearl-Reed. Otros tipos de líneas de tendencia son la parabólica,
la logarítmica, la de Gompertz y otras de menor importancia. En el presente capítulo, sólo trataremos
la línea de tendencia recta. Los otros tipos de líneas de tendencia se tratan en el capítulo 24.
Nos interesa encontrar y expresar una tendencia en términos de una ecuación, y también mos-
trarla gráficamente. Con unos datos dados, se traza un gráfico, y el problema se convierte en ajustar
una línea recta a los datos para mostrar el crecimiento gradual a largo plazo de la serie temporal.
Existen varios métodos para ajustar una línea recta, como el método a mano alzada, el método de las
medias, el método de las medias móviles y el método de los mínimos cuadrados. En este capítulo nos
interesa principalmente desarrollar el método de los mínimos cuadrados. El método a mano alzada,
el método de los semiproductos y el método de las medias móviles servirán como preliminares de
este método. El método de las medias móviles se vuelve a tratar con más detalle en el capítulo 24.

12.3 El método a mano alzada

El método más sencillo para encontrar una línea de tendencia cuando se da un conjunto de datos
de series temporales es el método a mano alzada. El procedimiento consiste en trazar la serie tem-
poral en un gráfico y, a continuación, mediante la observación, ajustar una línea recta a través de los
puntos trazados de forma que la línea recta muestre la tendencia de la serie temporal. Ilustrémoslo
con los datos hipotéticos de la tabla adjunta.

Año X Y (millones de libras)


1950 0 5
1951 1 8
1952 2 12
1953 3 15
1954 4 20
1955 5 23

Sea Y la producción anual de alguna mercancía en millones de libras. Los puntos se representan
en la Figura 12.1. Trazamos una línea por observación. Obviamente, ésta no es una forma precisa de
ajustar una línea recta o una curva a los datos, pero en algunos casos puede interesarnos, por ejemplo,
tener primero una idea aproximada de si debe ajustarse una línea recta o algún otro tipo de curva
antes de utilizar métodos más refinados. En estos casos, la línea puede resultar útil. Supongamos
12.3. El método a mano alzada 281

30
25
20
15
10
5
1950 1951 1952 1953 1954 1955 1956 X
0 1 2 3 4 5 6
Figura 12.1

que la línea de tendencia pasa por los puntos de 1950 y 1955. Entonces el problema de encontrar la
línea de tendencia se convierte en uno de encontrar la ecuación de la línea recta que pasa por los
dos puntos de 1950 y 1955.
Si la línea que se dibuja no pasa por ninguno de los puntos trazados, el procedimiento es selec-
cionar dos puntos de la recta, determinar sus coordenadas gráficamente y luego calcular la ecuación.
Una característica de las series temporales es que los datos se dan en orden de tiempo. En nuestro
ejemplo, se parte de 1950 y se llega hasta 1955 en intervalos de un año. Esto nos permite asignar una
secuencia de números a los datos. Empecemos en 1950, y llamémoslo el origen, y designémoslo como
cero. A continuación, 1951 es el 1, 1952 es el 2, y así sucesivamente, como se muestra en la tabla y
también en la Figura 12.1. Matemáticamente, simplemente estamos desplazando el origen de 0 a
1950 y dejando que 1950 se convierta en el nuevo origen. Es evidente que el origen puede situarse
en cualquier año. Si dejamos que 1951 sea el origen, entonces 1950 es −1, 1951 es 0, 1952 es 1, 1953
es 2, y así sucesivamente.
Las coordenadas de los dos puntos seleccionados son ahora (0, 5) y (5, 23). Sustituyendo los
valores de estas coordenadas en la ecuación de una línea recta como se muestra en la sección 12.1,
encontramos

5 = a + 0b
23 = a + 5b

Resolviendo estas dos ecuaciones se obtiene a = 5, b = 3.6. Por lo tanto, la ecuación de la línea
de tendencia es

Yc = 5 + 3.6X
Origen: 7/1/50
X : unidades de 1 año

Nótese que Yc tiene un subíndice c, que indica que los valores de Y obtenidos de la ecuación
no son los valores reales, sino que son valores calculados o estimados. Obsérvese también que la
ecuación sólo tiene sentido cuando se especifican el origen y las unidades de X. Es habitual tomar
la mitad del año, es decir, el 1 de julio, como punto para representar los datos de ese año. Por ejemplo,
cuando Y = 5 000 000 lb. se traza en X = 0 (1950), este punto indica el 7/1/50.
282 Series Temporales

La interpretación de la ecuación es, cuando X = 0 (1950)

Yc = 5 + (3.6)(0) = 5

lo que indica que la producción estimada por la línea de tendencia es de 5 000 000 lb. En este caso, la
producción estimada Yc = 5 000 000 lb. es igual a la producción real de Y50 = 5 000 000 lb. Cuando
X = 3 (1953),
Yc = 5 + (3.6)(3) = 15.8
La producción real de Y53 = 15, y hay una discrepancia de

Yc − Y53 = 15.8 − 15 = 0.8

b = 3.6 muestra que el aumento anual estimado de la producción es de 3 600 000 lb.

12.4 Método de los semipromedios

El método de los semipromedios divide la serie de tiempo en dos partes, encuentra el promedio
de cada parte y luego ajusta una línea de tendencia a través de estos promedios. Utilizando los datos
hipotéticos del apartado 12.3, ilustremos este método.

Año X Y
1950 0 5
25
1951 1 8 =8.3
3
1952 2 12

1953 3 15
58
1954 4 20 =19.3
3
1955 5 23

Los promedios de cada parte son 8 300 000 y 19 300 000 lb. Dado que 8 300 000 lb. es el promedio
de 1950, 1951 y 1952, los 8 300 000 trazados en 1951. (Véase la Figura 12.2.) Del mismo modo, las
19 300 000 libras se representan en 1954. La línea recta que pasa por estos dos puntos (1, 8.3) y
(4, 19.3) es la línea de tendencia media que buscamos. Encontramos

8.3 = a + b
19.3 = a + 4b

Si resolvemos a y b, obtenemos a = 4.6 y b = 3.7. Por lo tanto, la ecuación de la línea de


tendencia es

Yc = 4.6 + 3.7X Origen : 7/1/50


X : unidades de 1 año

La producción estimada para X = 0 (es decir, para 1950) es

Yc = 4.6 + (3.7)(0) = 4.6


12.5. El método de las medias móviles 283

30
25
20
15
10
5
1950 1951 1952 1953 1954 1955 1956 X
0 1 2 3 4 5 6
Figura 12.2

La producción real es Y50 = 5, por lo que la discrepancia entre la producción real y la estimada es

Yc − Y50 = 4.6 − 5 = −0.4

b = 3.7 muestra que el aumento anual estimado de la producción es de 3 700 000 lb.
Cuando el número de años es impar, la serie no se puede dividir de forma uniforme, por lo que
se puede omitir el año central o dividir la serie de forma desigual.
Un valor extremo de la serie puede influir en uno de los semipromedios y desviar toda la línea
de tendencia, en cuyo caso puede omitirse. Por ejemplo, al ajustar una línea de tendencia para la
producción de acero, puede haber un año con una huelga prolongada, lo que hace que la producción
de ese año sea extremadamente baja. En ese caso, puede omitirse.
Se trata de una forma burda y sencilla de ajustar una línea de tendencia, pero su sencillez es su
ventaja.

12.5 El método de las medias móviles

Aquí se presenta una breve explicación de la media móvil y en el capítulo 24 se ofrece una expli-
cación más detallada. Se utiliza para suavizar las fluctuaciones de las series temporales y se aplica no
sólo a las líneas de tendencia, sino también a las variaciones estacionales y cíclicas. Ilustremos el pro-
cedimiento utilizando los datos hipotéticos simplificados de la tabla de la página 353. Supongamos
que los datos dados se refieren a las ventas de un producto básico.
En primer lugar, hallemos los totales móviles de tres años. Por ejemplo, para 1947, 1948 y 1949,
tenemos
3 + 4 + 8 = 15

Estos 15 000 000 de dólares se introducen de forma que corresponda a año del medio, 1948. El si-
guiente total es para 1948, 1949 y 1950. Este será

4 + 8 + 6 = 18
284 Series Temporales

Ventas, millones Total tres Promedio tres


Año de dólares años móviles años móviles
1947 3
1948 4 15 5
1949 8 18 6
1950 6 21 7
1951 7 24 8
1952 11 27 9
1953 9 30 10
1954 10 33 11
1955 14 36 12
1956 12

y esto corresponde al año medio, 1949. Se continúa con este proceso y encontramos la columna de
totales móviles de 3 años. No tenemos un total para 1947 ni para 1956.
A continuación, encontramos las medias móviles de 3 años dividiendo los totales móviles por 3.
Esto nos da la columna de medias móviles de 3 años.
El gráfico muestra que las ventas tienen un ciclo regular de 3 años. Por ejemplo, desde un pico
en 1949 hasta el siguiente pico de 1952, tenemos 3 años. A continuación, el siguiente pico se produce
3 años después, en 1955.
Cuando las medias móviles de 3 años se trazan en el gráfico como en la Figura 12.3, caen sobre
una línea recta, y las fluctuaciones cíclicas se han suavizado. La línea recta es la línea de tendencia
que buscamos. Los datos hipotéticos se han ajustado para que la línea de tendencia sea una línea
recta; sin embargo, en general, tendremos una curva suave.
Una vez trazados los puntos de la media móvil de 3 años, nos encontramos con el problema de
ajustar una línea de tendencia a estos puntos. El método a mano alzada, el método de la media par-
cial, el método de los mínimos cuadrados o algunos de los otros métodos explicados en el Capítulo
24 pueden utilizarse para ajustar una línea de tendencia a estos puntos de media móvil.
¿Por qué hemos obtenido una curva suave? Esto resulta porque los datos tienen dentro de ellos
un ciclo regular con la misma duración y amplitud. Al observar que el ciclo tenía una duración de
3 años, seleccionamos una media móvil de 3 años. Si la duración fuera de 4 años, deberíamos haber
seleccionado una media móvil de 4 años. La razón es que, en el transcurso de un ciclo, esperamos que
la mitad esté por encima del punto medio del ciclo y la otra mitad por debajo. Por lo tanto, cuando
se toma una media, habrá un efecto de anulación, y si la mitad que está por encima del punto medio
del ciclo es mayor que la mitad inferior, como en nuestro ejemplo, la media móvil mostrará una
tendencia al alza.
Por lo tanto, para aplicar eficazmente una media móvil, es necesario determinar primero si existe
un ciclo regular y periódico. En los casos prácticos en los que existen ciclos, la duración de los mis-
mos no suele ser muy regular, pero en muchos casos hay suficiente regularidad para permitir el uso
del método de la media móvil. Observe también que la línea de tendencia obtenida es una línea rec-
ta. Si la naturaleza básica de la serie temporal es lineal, la línea de tendencia será aproximadamente
lineal; si es curvilínea, la tendencia aparecerá como una curva.
Este método de media móvil es aplicable no sólo a las líneas de tendencia, sino también a todo
tipo de datos que muestren fluctuaciones periódicas regulares. Lo utilizaremos en el Apartado 13.4
para eliminar las fluctuaciones estacionales.
Obsérvese que sólo hemos suavizado la serie. No hemos obtenido una ecuación matemática para
12.6. El método de los mínimos cuadrados 285

14

12

10

1946 1947 1948 1949 1950 1951 1952 1953 1954 1955 1956 X
Figura 12.3

la línea de tendencia de la media móvil.

12.6 El método de los mínimos cuadrados

El método de los mínimos cuadrados es el más utilizado para ajustar una recta a una serie de da-
tos. Se discutirá el caso simple en el que sólo interviene una variable independiente, y las extensiones
y refinamientos se abordarán en capítulos posteriores.

12.6.1 Principio

En la Figura 12.4, Yc es la línea de tendencia calculada, y α, β, y γ son

Y Y3


Yc
Y1
α { β{
Y2

0 X1 X2 X3 X

Figura 12.4
286 Series Temporales

las desviaciones de los puntos observados (datos reales) con respecto a la línea de tendencia
(valores calculados). El método de los mínimos cuadrados es un método mediante el cual pode-
mos ajustar la línea de tendencia calculada Y, a los datos observados de forma que la suma de los
cuadrados de las desviaciones sea mínima; es decir,

α2 + β 2 + γ 2 = mínimo

Digamos que la ecuación calculada es

Yc = a + bX

Queremos encontrar a y b. Esto se puede lograr resolviendo el siguiente conjunto de ecuaciones:


X X
Y = na + b X
X X X (12.1)
XY = a X +b X2

Estas son las llamadas ecuaciones normales. A continuación ilustraremos cómo se utilizan.

12.6.2 Número impar de años

Supongamos que nos han dado los datos de la hoja de cálculo adjunta, relativos a la producción
de petróleo en millones de barriles producidos anualmente. Deseamos ajustar una línea de tendencia
recta por el método de losP
mínimos
P cuadrados.
P Los
P parámetros a y b se obtienen de la fórmula (12.1).
2
Vemos que necesitamos Y , X, XY , e X para despejar a y b de (12.1).

Hoja de trabajo
Año X Y XY X2
1950 -2 5 -10 4
1951 -1 8 -8 1
1952 0 12 0 0
1953 1 15 15 1
1954 2 20 40 4
0 60 37 10

Estos valores se encuentran en la tabla (hoja


P de trabajo) que hemos construido. Como muestra la
tabla, las X se han designado de forma que X = 0. La razón de esto es que simplifica la solución
de (12.1) para a y b. Una vez determinada la numeración de las X, podemos encontrar las otras
cantidades. Estas son X X X
Y = 60, XY = 37, X 2 = 10
Aquí n es el número de años, es decir, n = 5. Sustituyendo esto en la fórmula (12.1), encontramos

60 = (5)(a) + b(0)
37 = 1(0) + b(10)

y a y b son
60
a= = 12
5
37
b= = 3.7
10
12.6. El método de los mínimos cuadrados 287

Por tanto, la ecuación de la línea de tendencia es


Yc = 12 + 3.7X
Origen : 7/1/52 (12.2)
X : Unidades de 1 año
P
La simplificación que supone numerar las X de forma que X = 0 se muestra como sigue: Las
ecuaciones normales son
X X
Y = na + b X
X X X
XY = a X +b X2
P
Como X = 0, se convierte en
X
Y = na
X X
XY = b X2

Por lo tanto, a y b se pueden encontrar inmediatamente mediante


P
Y
a=
Pn (12.3)
XY
b= P 2
X

Usando estas fórmulas (12.3) para nuestro ejemplo, podemos encontrar a y b directamente como
P
Y 60
a= = = 12
Pn 5
XY 37
b= P 2 = = 3.7
X 10
En la discusión posterior, utilizaremos esta fórmula (12.3).
Tracemos ahora los datos y la línea de tendencia como se muestra en la Figura 12.5. Las marcas

20
Yc = 15.7
Y =8
15

10 Yc = 8.3
Y =8
5
1950 1951 1952 1953 1954 X
−2 −1 0 1 2

Figura 12.5

en el eje horizontal de 1950, 1951, etc., indican 7/1/50, 7/1/51, etc. No hay ningún problema en trazar
los valores Y observados.
288 Series Temporales

Para trazar la fórmula de la línea de tendencia (12.2), se encuentran dos valores cualesquiera de
Yc y se traza una línea recta a través de ellos. Por ejemplo

X = −1 :Yc = 12 + (3.7)(−1) = 8.3


X = +1 :Yc = 12 + (3.7)(1) = 15.7

A continuación, traza los dos puntos (−1, 8.3) y (1, 15.7) y dibuja una línea recta. Ésta será la línea
de tendencia que buscamos.
Como Y nos da los totales anuales, la interpretación de la ecuación es la siguiente: b = 3.7 es
la variación anual estimada de la producción de petróleo, en millones de barriles. La producción
estimada de 1954 es
Yc = 12 + (3.7)(2) = 19.4

12.6.3 Número par de años

La diferencia entre la aplicación del método de los mínimos cuadrados a una serie temporal
P de
años pares e impares es el sistema de numeración que se aplica a las X, de forma que X = 0.
Supongamos que tenemos los siguientes datos sobre la producción de petróleo, en los que ahora
tenemos 6 años.

Año X Y XY X2
1950 -5 5 -25 25
1951 -3 8 -24 9
1952 -1 12 -12 1
1953 1 15 15 1
1954 3 20 60 9
1955 5 25 125 25
0 85 139 70
P
Hay varias formas de numerar las X para que X = 0. Una es designarlas como 1, 3, 5, como se
muestra en la tabla. No podemos utilizar −3, −2, −1, 1, 2, 3 porque entre
P −1 y 1 hay 2 unidades (es
decir, −1, 0, 1), mientras que 1, 2, 3 difieren en 1 unidad cada una. X = 0, y esto nos permite
utilizar la fórmula (12.3).
En la tabla encontramos
X X
XY = 139 X 2 = 70

n = 6. Sustituyendo esto en (12.3), encontramos


P
Y 85
a= = = 14.2
P n 6
XY 139
b= P 2 = = 1.99
X 70

Por tanto, la línea de tendencia es

Yc = 14.2 + 1.99 · X
Origen : 1/1/53
X : unidades de medio año
12.7. Cambio del valor unitario y desplazamiento del origen 289

Observa los dos cambios siguientes: Primero, el origen está a medio camino entre el 7/1/52 y el
7/1/53. Por tanto, es el 1/1/53. En segundo lugar, las X están en unidades de medio año. Esto es así
porque las X están etiquetadas como 1, 3, 5, etc., y cada año difiere en 2 unidades. En otras palabras,
para pasar de 7/1/53 a 7/1/54, X tiene que pasar de 1 a 3 (no a 2). Cuando X pasa de 1 a 2, sólo pasa
medio año del 7/1/53 al 1/1/54. Esto significa también que

b = 1.99

muestra el aumento estimado por semestre (en millones de barriles).


La producción estimada de petróleo para 1954 es

Yc = 14.2 + (1.99)(3) = 20.17

Para 1955 es
Yc = 14.2 + (1.99)(5) = 24.15
La línea de tendencia se representa en la Figura 12.6. Otras formas de numerar las X son multipli-

25

20

15

10

−5 −3 −1 1 3 5

Figura 12.6

cando el sistema de numeración actual 1, 3, 5, etc., por cualquier número arbitrario. Pero normal-
mente el único otro sistema que se utiliza es el que se obtiene multiplicando los números actuales
1
por . Así, los dos sistemas de numeración son
2

-5 -3 -1 1 3 5
-2.5 -1.5 -0.5 0.5 1.5 2.5

Cuando se utiliza este segundo sistema, la unidad de X pasa a ser 1 año en lugar de medio año.
Algunos prefieren utilizar este sistema porque evita las unidades de medio año.

12.7 Cambio del valor unitario y desplazamiento del origen

12.7.1 Cambio del valor unitario

Hasta ahora los datos de las series temporales y las ecuaciones eran totales anuales. Pero en
muchos casos los datos se dan como medias mensuales anuales y datos mensuales. Una ilustración
290 Series Temporales

mostrará la distinción entre el total anual, la media mensual anual y los datos mensuales, así como
las correspondientes ecuaciones de la línea de tendencia.
Supongamos que una persona fue contratada como estadístico en 1955 con un salario anual de
6 000 dólares. Supongamos además que su salario se incrementó a 7 200 dólares en 1956 y luego a
8 400 dólares en 1957.
En ese caso, el salario medio anual de 1955 es de 500 dólares, el de 1956 de 600 dólares y el de
1957 de 700 dólares. Por lo tanto, el aumento anual del salario medio mensual es de 100 dólares.
El aumento mensual del salario medio mensual es de 100 dólares/12 = 8.33 dólares. A partir
de estos datos podemos construir tres ecuaciones: La ecuación total anual:

Yc = $6000 + 1200X
(12.4)
X = 0 el 7/1/1955

donde X está en unidades de 1 año. La ecuación anual media mensual:


6000 1200
Yc = + X
12 12
Yc = 500 + 100X (12.5)
X = 0 el 7/1/1955

donde X está en unidades de 1 año. La ecuación mensual:


6000 1200
Yc = + X
12 12 · 12
Yc = 500 + 8.33X (12.6)
X = 0 el 7/1/1955

donde X está en unidades de 1 mes.


El coeficiente b de la ecuación (12.5) es 1200/12 = 100 dólares y muestra el incremento anual
del salario medio mensual. El coeficiente b de la ecuación (12.6) es 1200/(12X12) = 8.33 y muestra
el incremento mensual del salario medio mensual.
Así pues, cuando se da una ecuación que expresa una tendencia, hay que considerar de cuál de
los tres tipos de ecuaciones se trata.
Hay que observar que en la ecuación (12.6) hemos dejado el origen en el 1 de julio. Para ser
coherentes con nuestra regla de utilizar la mitad del año o del mes para representar los datos, hay
que trasladarlo a la mitad del mes, es decir, al 15 de julio, ya que se trata de una ecuación mensual.
Realice esto y escriba la nueva ecuación.
Muchas series temporales se presentan como datos medios mensuales. Por ejemplo, los datos de
la producción de papel se presentan en el Cuadro 12.1.
El 887 significa que la producción media mensual de papel para 1950 fue de 887 mil toneladas
cortas.

Ejemplo No. 1
La ecuación total anual de la producción de radios de una empresa es la siguiente (en
cientos de aparatos).
12.7. Cambio del valor unitario y desplazamiento del origen 291

Año Producción
Promedio Mensual (1000, Toneladas cortas)
1950 887
1952 908
1954 971
1956 1166
1958 1127
FUENTE: Business Statistics, U.S. Dept. of Commerce, 1959, p. 181.

Cuadro 12.1: Producción de papel

Yc = 144 + 72X
Origen : 7/1/58
X : unidades de 1 año

Esto significa que en 1958 el total estimado fue de 144 · 100 aparatos. En 1959 el total estimado
es
144 + (72)(1) = 216
es decir, 216 · 100 juegos. La b = 72 muestra que hubo un aumento anual estimado de 72 · 100
juegos.
La ecuación de la media mensual anual se encuentra de la siguiente manera:
144 72
Yc = + X
12 12
Yc = 12 + 6X
Origen : 7/1/58
X : unidades de 1 año

Esto significa que en 1958 la media mensual estimada fue de 12 · 100 aparatos. Es decir, en
promedio, se fabricaron 12 · 100 juegos cada mes durante 1958. Para 1959 encontramos
Yc = 12 + (6)(1) = 18

Es decir, en promedio, se fabricaron 18 · 100 juegos cada mes durante 1959. La b = 6 significa
que, para cada año, el incremento estimado de la media mensual ha sido de 6·100 juegos. La ecuación
mensual es
6
Yc = 12 + X
12
Yc = 12 + 0.5X
Origen : 7/1/58
X : unidades de 1 mes

Esto muestra que la producción mensual para el 7/1/58 fue


Yc = 12 + (0.5)(0) = 12
Desplacemos el origen al 15/7/58, es decir, medio mes por delante. Para el 15/7/58 la producción era
1
Yc = 12 + (0.5) = 12.25
2
292 Series Temporales

Así, la ecuación mensual para el 15/7/58 es

Yc = 12.25 + 0.5X
Origen : 15/7/58
X : unidades de un mes

Esto significa que la producción estimada para julio de 1958 fue

Yc = 12.25 + (0.5)(0) = 12.25

es decir, 12.25 · 100 aparatos para el mes de julio. Para el mes de agosto, la producción fue de

Yc = 12.25 + (0.5)(1) = 12.75

y para el mes de junio


Yc = 12.25 + (0.5)(−1) = 11.75

Ejemplo No. 2
Dados los datos de la tabla de producción de carteras de una empresa, hallar la ecua-
ción de la línea de tendencia media mensual por el método de los mínimos cuadrados.

Promedio Mensual
(1000)
Año X Y XY X2
1953 -2 4 -8 4
1954 -1 7 -7 1
1955 0 8 0 0
1956 1 10 10 1
1957 2 15 30 4
0 44 25 10

A partir de estos datos encontramos


P
Y 44
a= = = 8.8
Pn 5
XY 25
b= P 2 = = 2.5
X 10
Yc = 8.8 + 2.5X(7/1/55)
X : unidades de 1 año

La producción media mensual estimada para el año 1956 fue

Yc = 8.8 + (2.5)(1) = 11.3

es decir, 11.3 · 1000 carteras al mes durante 1956.


La producción total anual estimada para 1956 fue de

(11.3 · 12) · 1000 = 135.6 · 1000

es decir, 135.6 · 1000 carteras para 1956.


12.7. Cambio del valor unitario y desplazamiento del origen 293

12.7.2 Desplazamiento del origen

La ecuación de la media mensual de los salarios utilizada en la sección anterior es

Yc = 500 + 100X(7/1/55)
X : unidades de 1 año

Supongamos que queremos desplazar el origen al 7/1/59. El problema de desplazar el origen a


1959 en términos de la Figura 12.7 es encontrar la nueva intersección Y a59 . Esto es

a59 = 500(100 · 4) = 900

Así, la ecuación se convierte en

Yc = 900 + 100X (7/1/59)

900

800

700

600

500

1955 1956 1957 1958 1959


Figura 12.7

Esto puede llevarse a cabo en un solo paso de la siguiente manera

Yc = 500 + 100(X + 4) = 900 + 100X


CAPÍTULO 13
Movimiento Estacional y Cíclico

El segundo componente de las series temporales económicas que vamos a considerar es el mo-
vimiento estacional. Pero antes vamos a definir varios términos nuevos que utilizaremos en la dis-
cusión posterior.

13.1 Definiciones de términos

La serie temporal económica se clasificó en cuatro componentes, tendencia (T ), variación esta-


cional (S), ciclo económico (C) y variaciones irregulares (I). Estos cuatro componentes se relacio-
nan con la serie original denotada por O de la siguiente manera:

O =T ·S·C ·I (13.1)

Por ejemplo, supongamos que O = 1 890 000 barriles de petróleo en mayo. Entonces se descompone
de la siguiente manera: T = 2 000 000 de barriles; S = 105, lo que significa que la cantidad de
petróleo tiene una variación estacional de +5% en mayo: C = 100, que significa que no hay efecto
de ciclo económico; e I = 90, que significa que, debido a algunas fuerzas irregulares, la cantidad de
petróleo tiene una variación irregular del −10% en mayo. Entonces,

O =T ·S·C ·I
= 2.0 · 105 · 100 · 90
= 1.89

Obsérvese que la S, la C y la I están expresadas en porcentajes y son índices. Una segunda forma
de expresar la descomposición de O es

O =T ·S·I (13.2)

donde T se denomina componente tendencia - ciclo y es una combinación de T · C de la ecuación


(13.1). La Oficina de Estadísticas Laborales utiliza este enfoque.
Una tercera forma de descomponer O es

O =T +S+C +I (13.3)

295
296 Movimiento Estacional y Cíclico

Se pueden encontrar ejemplos de este enfoque en los escritos de los estadísticos matemáticos. En
este caso, S, C e I no son índices, sino desviaciones cuantitativas debidas a fuerzas estacionales,
cíclicas e irregulares.
A efectos de explicación, utilizaremos las ecuaciones (13.1) y (13.3).
Cuando se elimina la tendencia T de los datos originales O, tenemos una serie temporal sin
tendencia, o sin tendencia, que se denomina serie temporal estacionaria. La Figura 13.1 muestra de
forma esquemática la idea de una serie temporal estacionaria. La Figura13.1(a) muestra la serie ori-
ginal O y una tendencia a mano alzada T . La eliminación de la tendencia puede considerarse como
la rotación de T a una posición horizontal, como se muestra en la Figura13.1(b). Como en (b) sólo
nos interesan las desviaciones, podemos poner el eje horizontal en cero y expresar las desviaciones
en términos de cantidades + y −. Una forma alternativa es mostrarlas como proporciones, lo que
requiere encontrar los distintos valores de T correspondientes.

Y Y
T

X X
(a) (b)
Figura 13.1

Lo que queremos hacer ahora es definir algunos términos para las series temporales estaciona-
rias. La Figura 13.2 es una serie que se repite cada 2 intervalos (de tiempo); es decir, de 1 a 3, de
3 a 5, etc. El número de intervalos de tiempo (minutos, horas, días, semanas, meses o años) es el
período de la serie. En nuestro ejemplo, 2 intervalos de tiempo (digamos, 2 meses) es el periodo. La
variación del valor Y que muestra r se llama amplitud de esta serie.

2 4
r
1 3 5 X

Figura 13.2

Una serie que se repite regularmente cada período se llama serie periódica. Una serie que se repi-
te, pero que no tiene un periodo fijo, se llama serie oscilante. Como se ve, no hemos hecho ninguna
exigencia sobre la amplitud.
Una serie periódica sólo existe teóricamente, pero las variaciones estacionales que estamos con-
13.2. Variación estacional 297

siderando se acercan lo suficiente al requisito de tener un periodo fijo como para ser clasificadas
como series periódicas. Un ejemplo de serie oscilante es el ciclo económico que varía en duración.
El supuesto subyacente de las series periódicas (variaciones estacionales) y de las series oscilato-
rias (ciclos económicos) es que existen causas sistemáticas que generan estas fluctuaciones. Cuando
no hay causas sistemáticas que generen las fluctuaciones y éstas son puramente aleatorias, la serie
se denomina serie aleatoria. La fluctuación irregular I es un ejemplo.
Utilizaremos el término fluctuaciones cíclicas (variaciones cíclicas o movimientos cíclicos) para
designar las fluctuaciones oscilantes de los ciclos económicos. El término serie cíclica se utiliza a
veces para denotar series periódicas, pero en este texto, para evitar confusiones, no se utilizará el
término serie cíclica. Utilizaremos el término serie periódica.
Con estos antecedentes, pasemos a considerar la fluctuación estacional. En primer lugar, expli-
caremos lo que es; a continuación, haremos un breve análisis de los aspectos técnicos de cálculo; y
luego mostraremos cómo se aplica. A continuación, discutiremos brevemente la fluctuación cíclica.

13.2 Variación estacional

La variación estacional se clasificó como una serie periódica y nuestra principal preocupación
serán las series periódicas que tienen un periodo de un año. Algunos ejemplos son la producción de
refrescos, que es alta durante el verano y baja durante el invierno; las ventas de los grandes almacenes,
que son altas durante la temporada de Navidad y Semana Santa y bajas en otras épocas; la producción
de coches y huevos, la recaudación de impuestos, etc. Pero además de estas variaciones estacionales
que se producen a lo largo de un año, podemos ampliar la cobertura para incluir la fluctuación de
la temperatura durante un día; las ventas en un supermercado durante una semana; el cobro de las
cuentas de crédito de unos grandes almacenes durante un mes, etc.
En cada uno de estos ejemplos, observe que hay causas sistemáticas de estas fluctuaciones: el
clima (que es una causa externa), las vacaciones y los procedimientos contables del gobierno (que
son causas institucionales creadas por el hombre), etc. Estas causas sistemáticas se producen con
regularidad, aunque a lo largo de un periodo prolongado puede haber cambios, como la fecha (otoño
o primavera) en que se presentan los nuevos coches al consumidor. Otro ejemplo de pequeño cambio
es la diferencia de días en que puede ocurrir la Semana Santa o el Día de Acción de Gracias: esto
afecta a las ventas de unos grandes almacenes. No obstante, existe una cierta regularidad año tras
año. Las variaciones estacionales que observamos en las series temporales económicas son índices
de estas causas reales subyacentes. Nuestro primer problema es encontrar una forma de medir y
expresar esta variación estacional.
Consideremos el consumo de refrescos. Sabemos por experiencia que el consumo es alto en ve-
rano y bajo en invierno, y este patrón se repite cada año. Esto se muestra de forma esquemática en
la Figura 13.3, que representa las fluctuaciones del consumo de refrescos durante 3 años. Depen-
diendo de las condiciones estacionales (especialmente del tiempo en este caso), el pico y el valle del
consumo variarán ligeramente de un año a otro, y se puede pensar que esto se debe a perturbaciones
aleatorias.
Se supone que las perturbaciones aleatorias de cada año son independientes unas de otras. Por
ejemplo, si hay una perturbación aleatoria en julio del primer año, se supone que es independiente
de la perturbación aleatoria de julio del segundo o de cualquier otro año. Esta suposición implica
que si sumamos los valores de julio de un número de años, las variaciones irregulares debidas a las
perturbaciones aleatorias se anularán entre sí.
298 Movimiento Estacional y Cíclico

1958
Ene. Julio Dic.

1959
Ene. Julio Dic.

1960
Ene. Julio Dic.

Figura 13.3

Esta suposición sugiere que si se suma un número de años y se encuentra un año medio, éste
estará desprovisto de variaciones irregulares (I). Si además podemos eliminar la tendencia (T ) y
el ciclo (C), nos quedará la variación estacional (S), y cuando ésta se exprese en forma de índice,
tendremos el índice estacional.
Nuestro problema ahora es traducir esta idea en un procedimiento matemático para poder en-
contrar S. Hay varios métodos: Uno es el método de las medias simples, un segundo es el método de
las medianas, y un tercero es el método de la media móvil. En primer lugar, trataremos el método de
las medias simples porque explica las ideas principales de forma elemental, aunque generalmente no
se utiliza en la práctica. A continuación, hablaremos del método de la relación con la media móvil,
que es el método preferible.

13.3 El método de las medias simples

Ilustremos este método utilizando las cifras hipotéticas (Cuadro 13.1) de las existencias de hor-
talizas congeladas en cámara frigorífica, en millones de libras. Para simplificar, sólo se consideran
2 años, pero el procedimiento puede ampliarse fácilmente a tantos años como sea necesario. Como
se ha mencionado, suponemos que las series se expresan mediante

O =T +S+C +I

La Columna 3 es la suma de los dos años y la columna 4 es la media aritmética. Esta columna
4 puede interpretarse de dos maneras. Una es que se trata de la serie temporal original sin I debido
al proceso de promediado. La segunda es que cuando se toma un número suficiente de años para
cubrir el periodo de los ciclos, se elimina no sólo el I sino también el C. Adoptaremos el segundo
punto de vista. Supone que las subidas y bajadas de un ciclo son bastante parejas, de modo que si el
número de años cubre un ciclo, el proceso de promediado anulará los efectos cíclicos. Se trata de una
suposición bastante drástica, ya que supone que la duración y la amplitud de las fases ascendentes y
descendentes son aproximadamente las mismas, y también que las formas de las fases ascendentes
y descendentes no son bruscas (picos). Además, supone que hemos sido capaces de identificar el
periodo de un ciclo o ciclos económicos.
13.3. El método de las medias simples 299

(1) (2) (3) (4) (5) (6) (7)


Mes 1956 1957 (1) + (2) AM T A AM S
Ene. 560 780 1340 670 0 670 97.4
Feb. 500 720 1220 610 5 605 88.0
Mar. 450 670 1120 560 10 550 80.0
Abr. 420 660 1080 540 15 525 76.3
May. 420 630 1050 525 20 505 73.5
Jun. 480 660 1140 570 25 545 79.3
Jul. 590 730 1320 660 30 630 91.6
Ago. 750 860 1610 805 35 770 112.0
Sept. 860 970 1830 915 40 875 127.3
Oct. 900 980 1880 940 45 895 130.2
Nov. 900 950 1850 925 50 875 127.3
Dic. 850 870 1720 860 55 805 117.1
Total 7680 9480 8250 1200.0
Media 640 790 687.5 100.0
(4) AM: Media aritmética (6) A AM: Media aritmética ajustada
(5) T: Tendencia (7) S: Índice estacional

Cuadro 13.1: Hortalizas congeladas en cámara frigorífica

Concluyamos que todo esto es posible y que, a efectos prácticos, las formas de los ciclos econó-
micos cumplen nuestros supuestos. Entonces, la media de la columna 4 es la serie original sin I y
C; es decir, la columna 4 es T y S. Si eliminamos T , nos quedaremos con S. Para ello, la columna
5 (que es el efecto de la tendencia) se resta de la columna 4, y el resultado S se da en la 6.
Expliquemos este último punto de la siguiente manera: Los datos de las existencias de hortalizas
congeladas muestran que hay un aumento gradual de las mismas, lo que tendrá el efecto de arrastrar
las variaciones estacionales. Esto se muestra gráficamente en la Figura 13.4. Si no hubiera tenden-
cia, S fluctuaría alrededor del eje horizontal, como muestran las líneas de puntos, y el eje horizontal
estaría al nivel de las medias mensuales anuales. Por ejemplo, el punto A es la suma de la variación
estacional AB y la tendencia BD. Eliminar la tendencia es eliminar BD y girar el punto A al punto
C, donde AB = CD muestra la variación estacional S. Para obtener estas correcciones de ten-
dencia, tenemos que encontrar los incrementos mensuales de las existencias, y para ello, primero
tenemos que encontrar la ecuación de la línea de tendencia. Procedemos a ello.

B
C

D
Enero
Set. Dic.

Figura 13.4

Los datos de las existencias de hortalizas congeladas figuran en el Cuadro 13.2 en medias men-
300 Movimiento Estacional y Cíclico

suales anuales (millones de libras).

Año X Y XY X2
1953 -2 520 -1040 4
1954 -1 580 -580 1
1955 0 540 0 0
1956 1 640 640 1
1957 2 790 1580 4
3070 600 10

Cuadro 13.2: Hortalizas congeladas en cámara frigorífica (media mensual)

A partir de estos datos encontramos


P
Y 3070
a= = = 614
Pn 5
XY 600
b= P 2 = = 60
X 10
Yc = 614 + 60X
Origen:1/7/1955
X : Unidades de 1 año

Se trata de una ecuación de media mensual anual y la b = 60 muestra el incremento anual de la


media mensual. El incremento por mes es, pues, el siguiente
b 60
= =5
12 12
Es decir, hay un aumento de 5 000 000 de libras por mes. Como muestra la Figura 13.3, la corrección
para enero es 0; para febrero, 5; para marzo, 5 · 2 = 10; para abril, 5 · 3 = 15; y así sucesivamente.
Estas correcciones se introducen en la columna 5 del Cuadro 13.1 y luego se restan de la columna 4.
El resultado es la columna 6.
La Columna 6 es la S que buscamos, pero es habitual expresar el índice estacional con una base
de 100. Esto se hace hallando la media de la columna 6, que es 687.5, y dividiendo cada número de
la columna 6 por 687.5. El resultado, en base 100, se da en la columna 7.
El significado del índice estacional se analizará más adelante.
El método de las medianas es similar al de las medias simples, salvo que utiliza la mediana en
lugar de la media.

13.4 Método de las medias móviles

El fundamento de este método utiliza la relación básica

O =T ·S·C ·I (13.4)

o
O =T ·S·I (13.5)
donde T en la segunda relación es el ciclo de tendencia, que es una combinación de T · C de (13.4).
13.4. Método de las medias móviles 301

Partimos de la base de que la variación estacional S tiene un periodo de 12 meses y que la forma
de la variación es la misma cada año. También suponemos que las variaciones irregulares I son
independientes para diferentes períodos (años). Entonces, cuando se aplica una media móvil de 12
meses a (13.4) o (13.5), se suaviza S · I, y se tendrá como resto T · C. Es decir, la media móvil es
T · C.
Utilizando esta media móvil T · C, podemos encontrar S · I de la siguiente manera:
Datos originales T ·S·C ·I
= =S·I
Media móvil T ·C
Este proceso computacional se muestra en la Hoja de Trabajo adjunta.

Hoja de trabajo. Producción de cerveza en millones de barriles


(1) (2) (3) (4) (5) (6) (7)
Año Mes Datos Total Media Total Media (2) ÷ (6)
Originales Móvil Móvil Móvil Móvil
12 Meses 12 Meses 2 Meses Centrado
12 Meses
TSCI TC SI
1955 Jul. 8.9
Ago. 9.2
Sept. 7.3
Oct. 6.4
Nov. 5.8
Dic. 6.2
1956 Ene. 6.4 15.19 7.60 84
Feb. 6.6 15.20 7.60 87
Mar. 7.9 105
Abr. 7.9 105
May. 8.7 116
Jun. 9.4 125
Jul. 9.6 127
Ago. 8.7 116
Sept. 6.5 86
Oct. 6.5 87
Nov. 5.9 79
Dic. 6.1 81
1957 Ene. 6.9 92
Feb. 5.9 79
Mar. 7.6 102
Abr. 8.1 108
May. 9.0 120
Jun. 9.0 121
Jul. 8.4 131
Ago. 6.8 112
Sept. 6.8 91
Oct. 6.8 91
Nov. 5.2 70
Dic. 6.0 81
Fuente: Business Statistics, U.S. Dept. of Commerce, 1959, p. 131; ibid., 1961, p. 129.
302 Movimiento Estacional y Cíclico

Por ejemplo, en la columna 3, el primer total móvil de 12 meses, 90.7 (que es el total de julio de
1955 a junio de 1956) se introduce en la línea entre diciembre de 1955 y enero de 1956. El segundo
total móvil, 91.4, se introduce en la línea entre enero y febrero de 1956, y lo mismo para los demás.
La media móvil de 12 meses de la columna 4 se obtiene dividiendo los totales móviles por 12.
Esta media móvil es T · C, que se ha obtenido suavizando S · I.
Pero, como se ve en la hoja de cálculo que sigue, estas cifras se introducen entre los meses. Para
ajustarlas de modo que correspondan directamente a los meses, sume las dos primeras medias mó-
viles e introduzca el total en la columna 5 de modo que corresponda a enero. Como se trata del total
de dos meses, divida por 2 e introduzca el resultado en la columna 6. Lo que tenemos en la columna
4 y en la columna 6 es lo mismo, es decir, T C, salvo que hemos desplazado los valores un medio
mes en la columna 6 para que corresponda directamente a los meses.

Hoja de cálculo
(1) (2) (3) (4) (5) (6) (7)
Año Mes TSCI Total Media Total (5) ÷ 2 (2)÷ (6)
Móvil Móvil Móvil Centrado %
12 Meses 12 Meses 2 Meses
Nov. 5.8
1955 Dic. 6.2
1956 Ene. 6.4 15.19 7.60 84
Feb. 6.6

El último paso es hallar el SI. Se obtiene dividiendo la columna 2 (T SCI) entre la columna 6
(T C). El resultado es la columna 7, que se expresa en términos porcentuales.
Una vez obtenido el SI, conviene eliminar la mayor cantidad posible de I del SI. Esto se hace
sacando la media de los SI. Preparamos la hoja de cálculo.
Se obtienen las cifras de SI de la hoja de trabajo anterior, y se calcula la media de cada mes del
año. Así se elimina I, y tenemos S, que se ajusta para que la base sea 100. Esto se muestra en la fila
Adj-M. El 89 de enero es el S de enero. y así sucesivamente.
Uno de los supuestos básicos de este método era que la media móvil de 12 meses eliminaba S · I
de O = T · S · C · I. Sin embargo, cuando los ciclos económicos no son muy largos (2 ó 3 años)
y tienen puntos de inflexión bruscos, la media móvil de 12 meses puede eliminar no sólo S · I de
O = T · S · C · I sino también parte de C. Entonces el resultado T · C puede ser T con sólo parte
de C. Si este fuera el caso, sería el caso
Datos originales T SCI
= = SI
Media móvil TC
pueden dar SI con una cierta cantidad de C restante.

Hoja de trabajo. Índice estacional


Año Ene. Feb. Mar. Abr. May. Jun. Jul. Ago. Sept. Oct. Nov. Dic. Total
1956 84 87 105 105 116 125 127 116 86 87 79 81 1198
1957 92 79 102 108 120 121 131 112 91 91 70 81 1198
1958 92 86 100 102 118 130 131 105 97 91 78 92 1222
Total 268 252 307 315 354 376 389 333 274 269 227 264 3618
AM 89 84 102 105 118 125 130 111 91 90 76 85 1206
Adj-M 89 84 101 104 117 124 129 110 91 90 76 85 1200
13.5. Datos desestacionalizados 303

Para hacer frente a este problema, así como a otros, como los cambios graduales en los patrones
estacionales, la Oficina de Estadísticas Laborales, la Junta Federal de Reserva y la Oficina del Cen-
so han desarrollado técnicas de búsqueda de S que utilizan ideas similares al método de la media
móvil. Dado que nos interesa comprender los principios básicos de los índices estacionales, no tra-
taremos estas técnicas especializadas. Las explicaciones de estas técnicas pueden encontrarse en las
referencias de la sección 13.6.

13.5 Datos desestacionalizados

Cuando se elimina S de la serie temporal original, se denominan datos ajustados estacional-


mente o datos desestacionalizados. Esto puede mostrarse esquemáticamente como
T ·S·C ·I
=T ·C ·I
S
Los datos desestacionalizados, muestran el valor medio de los datos. Ilustremos esto.
La Encuesta de Negocios Actuales ofrece datos relativos al comercio al por menor, como se mues-
tra en el Cuadro 13.3.
1959
1947-49 = 100 Ene Feb Mar Abr May Jun Jul Ago Sept Oct Nov Dic
Ventas, Sin ajustar
Total, EEUU 106 107 125 130 141 137 121 132 145 100 176 261
Ventas, Ajustadas
Total, EEUU 138 140 138 141 144 144 150 149 143 144 145 149
Fuente: Encuesta Actual de Negocios, U.S. Dept. of Commerce, Feb. 1960

Cuadro 13.3

Como puede verse en los totales no ajustados, las ventas durante la temporada navideña son
elevadas, pero caen drásticamente en enero. Este patrón estacional se repite anualmente, y las cifras
desestacionalizadas eliminan estas variaciones estacionales.
El fenómeno económico “ventas” se descompone en T , S, C e I, que a su vez se dividen en dos
partes, T ·C ·I y S. La interpretación es que T ·C ·I muestra una media (por ejemplo, la media de las
ventas, la tasa media de crecimiento, el valor medio, la producción media) a lo largo del año. Pero,
debido a las influencias estacionales, la tasa real de ventas (o valor, o producción, o crecimiento,
etc.), que se muestra mediante O = T · S · C · I, se desvía de esta tasa media de ventas T · C · I.
Los datos desestacionalizados también se utilizan para expresar los resultados como tasas anua-
les. Veamos un ejemplo. Los totales trimestrales desestacionalizados de la renta nacional en tasas
anuales para 1959 son:

Mes Miles de millones de dólares


Mar. 389.4
Junio 403.9
Sept. 398.2
Dic. 402.8

Las cantidades económicas, como el ingreso nacional y las ventas totales, suelen medirse en
términos de totales de un año. Por ejemplo, el ingreso nacional en 1958 fue de 366 200 000 000
304 Movimiento Estacional y Cíclico

dólares; en 1959, de 398 500 000 000 dólares, y así sucesivamente. Las comparaciones de la renta
nacional son más fáciles cuando los datos están en términos de totales anuales.
Por ejemplo, se obtiene el total trimestral de la renta nacional de Enero, Febrero y Marzo y luego
se desestacionaliza. Este total trimestral desestacionalizado nos da un total trimestral medio. Así, si
este total trimestral medio se multiplica por 4, nos dará la renta nacional del primer trimestre sobre
una base anual. Las cifras citadas anteriormente muestran estas tasas anuales y, al estar expresadas
en tasas anuales, se facilita la comparación.

13.6 Fluctuaciones cíclicas

Hasta ahora hemos discutido las formas de encontrar la tendencia T y la variación estacional S.
De los dos componentes restantes, C y I, el principal interés en I es encontrar formas adecuadas de
eliminarlo de la serie. Hemos utilizado el proceso de promediar un número de años para eliminar I
de la serie.
También existen métodos para encontrar un índice cíclico, pero cada ciclo económico tiene sus
propias características y se contrapone a las variaciones estacionales que se producen con regula-
ridad y se deben principalmente a las mismas causas. Los ciclos económicos tienen una duración
diferente y pueden ser tan cortos como 2 21 años o tan largos como 8 años.
Por ello, la mayoría de los estudios sobre los ciclos no se basan exclusivamente en las estadísticas,
sino que recurren en gran medida al análisis económico. Por lo tanto, no intentaremos presentar una
solución estadística simple a este problema. El National Bureau of Economic Research (NBER) ha
realizado un gran trabajo en este campo y sus métodos de medición de los ciclos económicos se
describen en un libro publicado por esta institución1 .
Los econometristas asociados a la Fundación Cowles también han contribuido en gran medi-
da a este estudio2 . Los estudiantes interesados en el análisis estadístico de los ciclos económicos
son remitidos a las publicaciones de estas dos instituciones, pero se recomienda que los estudiantes
realicen trabajos avanzados de estadística y economía antes de intentar leer las diversas obras aquí
citadas. Otras publicaciones que pueden ser de utilidad son

1. Bureau of Census Method Reference: J. Shiskin y H. Eisenpress, “Seasonal Adjustments by


Electronic Computer Methods”, J.A. Statistical Assoc., 1957, pp. 415-449.

2. Referencia de la Oficina de Estadísticas Laborales: A. Rothman, “The BLS Seasonal Factor


Method”, The American Statistical Assoc., 1960 Proceedings of the Business and Economic
Statistics Section, pp. 2-12.

3. Referencia de la Junta de la Reserva Federal: H. C. Barton, “Adjustment for Seasonal Variation”,


Federal Reserve Bulletin, 1941, pp. 518-528.

1
A. F. Burns y Wesley C. Mitchell, Measuring Business Cycles, National Bureau of Economic Research. Nueva York,
1946.
2
L. R. Klein, Economic Fluctuations in the U.S., 1921-1942, New York: John Wiley & Sons, 1950.
13.7. Comentarios sobre las series temporales 305

13.7 Comentarios sobre las series temporales

13.7.1 Un punto de vista básico

Nuestra discusión sobre las series temporales fue principalmente descriptiva y no se dio ninguna
explicación explícita de las ideas básicas en las que se basó nuestra discusión. Pero con los antece-
dentes que hemos adquirido, investiguemos ahora algunos de estos supuestos básicos. Al abordar el
tema de las series temporales, suponemos básicamente una población de la que se toma una mues-
tra; luego, utilizando las ideas de probabilidad, inferencia estadística y estimación, deseamos hacer
afirmaciones sobre la población. Por ejemplo, cuando tenemos una serie anual de datos sobre la pro-
ducción de cerveza (digamos, y millones de barriles), podemos considerar que un valor de y para
un año determinado es uno de los muchos valores posibles de y para ese año. La serie anual de datos
es una muestra y, a partir de ella, queremos hacer afirmaciones sobre la producción de cerveza.
Para aplicar diversas técnicas estadísticas, solemos suponer que las observaciones son indepen-
dientes entre sí. Sin embargo, es fácil ver que la hipótesis de la independencia de las observaciones
rara vez se cumple. Si hay una sobreproducción de acero este año, es evidente que afectará a la pro-
ducción de acero del año siguiente.
La relación entre los valores sucesivos de las variables también depende del intervalo de tiempo
utilizado. Si el intervalo de tiempo es corto (por ejemplo, un mes), es más probable que dos valores
sucesivos estén correlacionados entre sí que cuando el intervalo de tiempo es largo (por ejemplo, un
año).
Una investigación de las series temporales económicas que no asuma la independencia de las
observaciones conduce al tema de la correlación serial, que es un tema muy difícil. En el Capítulo
24 se ofrece una breve explicación al respecto.

13.7.2 Modelos básicos

Dado el punto de vista básico, normalmente se asumen dos modelos básicos

1. O = T + S + C + I.

2. O = T · S · C · I.

Existen otras posibilidades, como O = S + T · C · I, pero nos limitaremos a los dos primeros
modelos.
El primer modelo supone que la serie temporal económica es aditiva y está formada por los cua-
tro componentes T , S, C e I. Este supuesto de aditividad supone a su vez que los componentes son
independientes entre sí. Esto significa, por ejemplo, que por muy alto que sea el valor de la tenden-
cia, no tendrá ningún efecto sobre la variación estacional. También significa que los 4 componentes
son el resultado de cuatro causas independientes. Como ejemplo concreto, la producción de cer-
veza ha aumentado en los últimos 50 años. Esta hipótesis de aditividad implica que este aumento
constante de la producción de cerveza no tiene ningún efecto sobre la variación estacional de la pro-
ducción de cerveza. También implica que las causas del aumento de la producción de cerveza son
diferentes de las causas de la variación estacional de la cerveza. Aunque las causas del aumento de la
producción de cerveza pueden ser diferentes de las causas de la variación estacional, probablemente
306 Movimiento Estacional y Cíclico

se puede afirmar que el aumento de la producción tiene un efecto sobre la variación estacional de la
producción de cerveza.
El segundo modelo es el que hemos estado utilizando, y supone que los cuatro componentes
están relacionados entre sí. La razón de utilizar este modelo es que permite aislar convenientemente
los componentes. A su vez, esto supone que los cuatro componentes se deben a causas diferentes.
Aunque se deban a causas diferentes, suponemos que se afectan mutuamente.
Sin embargo, se puede argumentar que los componentes no se deben a causas diferentes y que
no se pueden aislar. En particular, se puede argumentar que muchos factores (como la población y
los cambios de gusto) afectan tanto a la tendencia como al ciclo.

13.7.3 Aislamiento de la tendencia (T)

El primer componente aislado es la tendencia. Suponemos que existe una tendencia, que puede
ser ascendente, descendente o constante.
Lo primero que tenemos que hacer es decidir si la tendencia es una tendencia rectilínea o curvi-
línea. Sólo hemos tratado el caso de la tendencia rectilínea. Esto supone que el cambio anual (o por
período) de la serie temporal económica es constante.
Ahora que hemos decidido utilizar una tendencia rectilínea, el siguiente problema es decidir
cómo ajustar la línea recta a los datos. En nuestra discusión anterior, hemos ajustado la línea recta
mediante el método a mano alzada, el método de los semiproductos, el método de las medias móviles
y el método de los mínimos cuadrados. De estos métodos, el de los mínimos cuadrados es el más
utilizado. La pregunta que surge naturalmente es: ¿Por qué se prefiere este método a los demás?
La razón es que es el mejor método. Entonces la pregunta es: ¿Qué entendemos por mejor méto-
do? Cuando se ajusta una línea recta a un conjunto de datos, deseamos tener un ajuste cercano. Por
un ajuste cercano, queremos decir un ajuste tal que las desviaciones di , sean pequeñas. Hay varias
formas de hacer que di sea pequeña. Una es minimizar la suma de los valores absolutos de di . Una
segunda es minimizar la suma de los cuadrados de do, lo que conduce al método de los mínimos
cuadrados. (Véase la Figura 13.5.)

Y
d3 {

d1 { }d2

X
Figura 13.5

A partir de nuestra discusión anterior, en la que las observaciones se consideraron como una
muestra de una población, podemos considerar este proceso de ajuste de una línea recta como uno
de estimación de los parámetros a y b de una línea de tendencia lineal:

Yc = a + bX
13.7. Comentarios sobre las series temporales 307

Si los valores de Y son aleatorios y los valores de X son fijos, el teorema de Markoff nos dice que este
método de mínimos cuadrados nos dará una estimación lineal insesgada de Y . Además, la varianza
de esta estimación será menor que cualquier otra estimación de Y .
Si, además, Y se distribuye normalmente, los a y b estimados por el método de mínimos cuadra-
dos serán los mismos que los obtenidos por el método de máxima verosimilitud. Hemos discutido
el método de máxima verosimilitud en el Capítulo 8, donde afirmamos sin pruebas que este método
nos da estimadores deseables.
Sin embargo, las Y no suelen ser independientes y, en muchos casos, no se puede suponer que
estén distribuidas normalmente. Por lo tanto, los resultados del teorema de Markoff o del método de
máxima verosimilitud no son válidos. A pesar de ello, se utiliza el método de los mínimos cuadrados
por su comodidad.
El método de los mínimos cuadrados es una técnica de estimación de los parámetros y puede
aplicarse tanto a las ecuaciones curvilíneas como a las lineales. La aplicación de esta técnica a los
casos curvilíneos la veremos en el capítulo 24.
Como se puede ver, se ha determinado la forma de la línea de tendencia y el método de estima-
ción, el ajuste de una tendencia se convierte en un simple problema mecánico de cálculo.

13.7.4 Precaución al utilizar la media móvil

La media móvil se ha utilizado para hallar una línea de tendencia y también la variación estacio-
nal. Al aplicar la técnica de la media móvil para encontrar la línea de tendencia, estamos suponiendo
que la serie temporal económica está formada por dos componentes principales: Uno es la tenden-
cia que representa un crecimiento sistemático (ascendente, constante o descendente), y los otros
componentes son los que pueden considerarse divergencias de la tendencia, que son C, S, e I.
El método de la media móvil para encontrar la tendencia se basa en la idea de “promediar” estas
divergencias de la tendencia.
Hemos visto que si tenemos fluctuaciones periódicas con un periodo de (digamos) 3 años, y
utilizamos una media móvil de 3 años, estas fluctuaciones periódicas se cancelarán entre sí. Por
lo tanto, si C o S son fluctuaciones que tienen un periodo de 3 años o múltiplos de 3 años, se
promediarán. Sin embargo, C y I no suelen tener fluctuaciones periódicas sistemáticas, por lo que
la aplicación de la técnica de la media móvil sólo anulará parcialmente estos efectos. El componente
S suele tener un periodo más corto (por ejemplo, 12 meses, 1 semana, etc.) y es relativamente regular.
Cuando se combinan los tres componentes C, S e I y se tratan como divergencias de la ten-
dencia, probablemente no hay un período común a los tres. Al aplicar la media móvil para eliminar
la divergencia combinada de C, S e I con respecto a T , probablemente sólo tendremos un éxito
parcial.
A pesar de estas críticas, las técnicas de media móvil nos dan resultados que son útiles en apli-
caciones prácticas de la empresa y la economía. Lo que hay que tener en cuenta es que la tendencia
se basa en una serie de supuestos y hay que tener cuidado al interpretar los resultados.
También se ha utilizado la técnica de la media móvil para encontrar la variación estacional. En
este caso, el modelo básico asumido es que el componente S diverge del componente T y C, que
es relativamente estable; al utilizar la técnica de la media móvil, promediamos estas divergencias
debidas al S.
Las causas de la variación estacional suelen ser naturales (clima) o institucionales (Navidad,
308 Movimiento Estacional y Cíclico

Semana Santa, venta de coches nuevos en otoño, etc.) y tienen un periodo relativamente regular.
Por lo tanto, al aplicar una media móvil de (digamos) 12 meses a una serie temporal económica,
podemos esperar un proceso de promediación efectivo.
Otra característica de la media móvil es que puede generar una serie oscilante cuando se aplica
a una serie aleatoria. Esto se conoce como el efecto Slutzky-Yule. Este efecto Slutzky-Yule plantea el
siguiente problema cuando se aplica la técnica de la media móvil para ajustar una tendencia: Una
serie temporal económica suele contener un componente aleatorio. Por lo tanto, al tomar la media
móvil de la serie temporal para encontrar la tendencia, también estamos tomando la media móvil del
componente aleatorio. Debido al efecto Slutzky-Yule, esto generará una serie oscilante, que puede
formar parte de la tendencia que buscamos.
Esto también lleva a la observación de que si se utiliza la técnica de la media móvil para elimi-
nar la tendencia de una serie temporal económica, los componentes restantes de la serie temporal
pueden, como resultado del efecto Slutzky-Yule, mostrar una tendencia oscilatoria.
Debido a estos efectos, hay que tener cuidado al utilizar la media móvil en las series temporales
económicas.

13.7.5 Precaución en los pronósticos

Cuando se utilizan las series temporales económicas para hacer pronósticos, lo primero que hay
que hacer es decidir qué se va a pronosticar. A grandes rasgos, podemos dividir esto en dos aspectos:
Uno es el pronóstico de la tendencia y el otro es el pronóstico de los ciclos económicos.
Para prever las tendencias, el procedimiento habitual es proyectar la tendencia en el futuro, como
proyectar la tendencia de la población, la producción de acero, las ventas de una empresa o la renta
nacional.
Uno de los supuestos básicos de nuestro modelo de series temporales es que los componentes
T , S, C e I se deben a diferentes conjuntos de causas. La idea de pronosticar una tendencia impli-
ca que estamos asumiendo que el conjunto de causas de la tendencia continuará o cambiará sólo
gradualmente en el futuro.
Si esta suposición de cambio lento es aceptable o no, debe considerarse en relación con las situa-
ciones individuales. Por ejemplo, la población cambia lentamente. El consumo de seda, en cambio,
ha experimentado un cambio brusco debido a la aparición del nylon.
El pronóstico de los ciclos económicos, como ya se ha mencionado, es demasiado difícil de tratar
en este libro.
CAPÍTULO 14
Análisis de Regresión Lineal

Una de las técnicas más utilizadas en la investigación económica y empresarial, para encontrar
una relación entre dos o más variables que están relacionadas causalmente, es el análisis de regresión.
En este capítulo consideraremos En este capítulo consideraremos el caso más sencillo en el que sólo
hay dos variables, como el rendimiento del trigo y la cantidad de fertilizante. Esto nos dará las ideas
básicas del análisis de regresión. En el capítulo 23, lo ampliaremos al caso general de más de dos
variables, como la relación entre el rendimiento del trigo y la cantidad de fertilizante, la lluvia, la
temperatura, etc. Presentemos ahora el problema.

14.1 Introducción

Generalmente observamos que cuanto más alta es una persona, más pesada es, y por tanto sa-
bemos que existe una relación entre la altura y el peso. ¿Qué tipo de relación es? ¿Es proporcional o
existe algún otro tipo de relación?
También es posible que queramos saber la proximidad de esta relación. Si es muy estrecha, en-
tonces, dada la altura de un alumno, podremos estimar (predecir) con exactitud su peso.
Otro ejemplo es el de los ingresos y los gastos de consumo. Sabemos que a medida que aumentan
los ingresos, se tiende a gastar más. ¿Qué relación existe entre los ingresos y los gastos de consumo?
¿Es proporcional o existe otro tipo de relación? En segundo lugar, ¿cuál es la relación entre los in-
gresos y los gastos de consumo?
En este capítulo estudiaremos la cuestión de la relación entre dos variables X e Y . Así, por
ejemplo, estamos considerando la relación entre la estatura (X) y el peso (Y ), o entre los caballos
(X) y la velocidad (Y ) de un coche, o entre la cantidad de fertilizante (X) y el rendimiento del trigo
(Y ), o entre la publicidad (X) y las ventas (Y ).
Esta introducción de una segunda variable contrasta con nuestros estudios anteriores, en los que
tratábamos sólo una variable, como el coeficiente intelectual de un alumno, o su altura, o su peso.
Ahora tratamos dos variables y más adelante trataremos casos en los que hay más de dos variables.
En el Capítulo 15 hablaremos del análisis de correlación, que es un estudio del grado de cercanía
de la relación entre X e Y .

309
310 Análisis de Regresión Lineal

Planteemos ahora una situación hipotética y discutamos las ideas básicas del análisis de regre-
sión.

14.2 El problema de la regresión

14.2.1 El modelo de regresión

Como se ha mencionado anteriormente, nos interesa la relación entre dos variables X e Y . Sin
embargo, podemos distinguir dos casos, dependiendo de cómo pensemos utilizar la relación. En un
caso podemos estar interesados en la relación, per se. Cuando deseamos conocer la relación entre la
altura y el peso, o el consumo y la renta, nos interesa principalmente la relación, per se.
Sin embargo, supongamos que nos interesa estimar la longitud de una bobina de alambre. No es
práctico desenrollar el cable y medir su longitud. En cambio, podemos establecer una relación entre
la longitud (Y ) y el peso (X) del alambre. Y pesando el alambre, podemos estimar su longitud. En
este segundo caso es la longitud (Y ) lo que nos interesa principalmente, y la relación es simplemente
un procedimiento para estimar la longitud.
Partamos del punto de vista del primer caso y establezcamos un modelo que muestre la relación
entre X e Y , y luego mostremos cómo se puede interpretar este modelo desde el punto de vista del
segundo caso.
Supongamos que tenemos un grupo de niños que se agrupan según su altura (X), como se
muestra en el Cuadro 14.1. Vemos que hay 25 pares de observaciones como (50 pulgadas, 40 libras),
(50 pulgadas, 41 libras),. . . (54 pulgadas, 60 libras). Estos 25 pares de observaciones constituyen la
población, y la Figura 14.1 es una gráfica de estas observaciones.

X, pulgadas Y , libras E(Y |X)


50 40 41 42 43 44 42
51 41 43 44 46 46 44
52 41 44 45 48 52 46
53 43 46 47 49 55 48
54 44 46 49 51 60 50

Cuadro 14.1

Obsérvese que las agrupaciones son según alturas fijas, como 50 pulg. y 51 pulg., y cada gru-
po tiene 5 pares de observaciones. Cada grupo se denomina subpoblación, y hay 5 subpoblaciones
correspondientes a la variable de altura fija (X). Diremos que tenemos una colección o familia de
subpoblaciones.
La característica de esta población es que las X son variables fijas (variables no aleatorias) mien-
tras que las Y son variables aleatorias.
Por lo tanto, podemos preguntarnos inmediatamente: ¿Qué tipo de distribución tienen las va-
riables aleatorias Y ? En nuestra discusión posterior, distinguiremos dos casos, uno en el que la dis-
tribución de Y en cada subpoblación no está especificada, y otro en el que Y tiene una distribución
normal en cada subpoblación. La diferencia en los resultados de estos dos casos se discutirá más
adelante.
Llamemos al primer tipo de población donde la distribución de Y no está especificada la pobla-
14.2. El problema de la regresión 311

62
60
58
56
54
Peso, lb.

52 ∗
µY X = A + BX
50
Y = 48
48 ∗
ϵ{
46
∗ E(X|Y = 52) = µY X = 46
44 ∗
42
E(X|Y = 50) ∗
40 = 42
50 51 52 53 54
Altura, pulg.

Figura 14.1

ción de Tipo I, y llamemos al segundo tipo donde Y se distribuye normalmente la población de Tipo
II.
Como es evidente, podemos considerar la población de tipo II como un caso especial de la po-
blación de tipo I. Por lo tanto, asumamos por el momento la población de tipo I y continuemos con
nuestra discusión.
La media de los Y de cada subpoblación se llama valores esperados de Y para unas alturas dadas
(X), y se escribe E(Y |X). Por ejemplo
40 + 41 + 42 + 43 + 44
E(Y |X = 52) = = 42lb.
5
Los datos se han retocado para que los promedios caigan sobre una línea recta, que se ha dibujado
en la Figura 14.1. Centremos ahora nuestra atención en la subpoblación correspondiente a X = 52
pulgadas. Entonces
41 + 44 + 45 + 48 + 52
E(Y |X = 52) = = 46
5
La Y = 48 lb. de esta subpoblación se desvía de E(Y |X) en

Y − E(Y |X = 52) = 48 − 46 = 2lb.

y estas desviaciones se expresarán mediante ϵ, que llamaremos término de error o término de pertur-
bación estocástica. Entonces el Y = 48 lb. se puede expresar como

Y = E(Y |X = 52) + ϵ

Esta es una expresión general para los valores individuales de Y de la subpoblación X = 52. Es
decir, cuando ϵ = −4
Y = E(Y |X = 52) + ϵ = 46 − 4 = 42
Cuando ϵ = −3, entonces Y = 43; cuando ϵ = −1, entonces Y = 45; cuando ϵ = 3, entonces
Y = 49; y cuando ϵ = 6, entonces Y = 52.
312 Análisis de Regresión Lineal

Los valores individuales de Y en cada una de las subpoblaciones pueden expresarse de manera
similar. Es decir

Y = E(Y |X = 50) + ϵ = 42 + ϵ
Y = E(Y |X = 51) + ϵ = 44 + ϵ
...
Y = E(Y |X = 54) + ϵ = 50 + ϵ

En general, un individuo Y se expresa como

Y = E(Y |X) + ϵ (14.1)

Dado que las E(Y |X) caen sobre una línea recta, como se muestra en la Figura 14.1, supondre-
mos que la relación entre la altura y el peso es lineal y expresaremos E(Y |X) como

E(Y |X) = A + BX

En aras de la brevedad, escribiremos

E(Y |X) = µY X

Entonces se supone que la relación entre la altura y el peso es

µY X = A + BX (14.2)

y ésta es la recta que pasa por los pesos medios E(Y |X). Los parámetros A y B se determinan
fácilmente por observación como

µY X = 42 + 2X
Origen : X = 0 para 50 pulg.

Esto se puede resumir en forma de hoja de trabajo como se muestra a continuación.

Hoja de Trabajo
Altura X E(Y |X) = µY X
50 pulg. 0 42 lb.
51 1 44
52 2 46
53 3 48
54 4 50

Las ecuaciones (14.1) y (14.2), al combinarse, un valor individual Y puede expresarse como

Y = A + BX + ϵ (14.3)

Estas tres ecuaciones resumen todos los datos de la población y se denominarán modelo (o mo-
delo de regresión). La ecuación (14.2) se llama curva de regresión de Y sobre X y muestra la relación
14.2. El problema de la regresión 313

entre los valores esperados de Y y los valores independientes X. También se llama simplemente fun-
ción de regresión. Los coeficientes A y B se denominan coeficientes de regresión de la población.
Generalicemos ahora nuestro modelo. En primer lugar, en lugar de tener sólo 5 pares de obser-
vaciones por altura fija, tengamos un gran número de casos, muchos de los cuales puede que no
observemos pero que sabemos que existen. Así, cada subpoblación se hace muy grande.
En segundo lugar, supondremos que los términos de perturbación ϵ son variables aleatorias in-
dependientes (o podemos decir que las variables aleatorias Y son independientes) y

E(ϵ) = 0 (14.4)

En tercer lugar, supondremos que las desviaciones típicas (varianzas) de todas las subpoblaciones
son iguales. La varianza de Y , por definición, es

σ 2 = E[Y − E(Y |X)]2 (14.5)

Suponemos que cada subpoblación tiene la misma varianza σ 2 .


Esta varianza puede expresarse en términos de las perturbaciones ϵ. A partir de (14.3) encon-
tramos

ϵ = Y − (A + BX)
= Y − E(Y |X)

Sustituyendo esto en (5) nos da

σ 2 = E(ϵ)2
= E[ϵ − E(ϵ)]2
= V ar(ϵ)

Es decir
V ar(Y ) = V ar(ϵ) = σ 2 (14.6)

Dado que ϵ muestra las perturbaciones estocásticas de Y con respecto a su media E(Y |X), la
varianza σ 2 se llama varianza residual.
Detengámonos aquí un momento y pensemos en esta perturbación ϵ. En nuestro ejemplo de
alturas y pesos. teníamos, por ejemplo, una subpoblación para X = 50 pulg. Había 5 estudiantes
que pesaban 40, 41, 42, 43 y 44 libras, respectivamente. Encontramos que

E(Y |X = 50 pulg.) = 42 lb

y por ejemplo,
ϵ = Y − E(Y |X) = 40 − 42 = −2 lb.
para el primer estudiante.
¿Qué ha causado esta perturbación de ϵ = −2 lb.? Podemos pensar en muchas causas para esta
perturbación. En primer lugar, podríamos argumentar teóricamente que si conociéramos todos los
factores que afectan al peso, como el efecto de los padres, las preferencias alimentarias y las condi-
ciones de vida, que son un número muy, muy grande de factores, y utilizáramos todos estos factores,
probablemente podríamos encontrar el valor esperado del peso de un alumno con precisión. Pero
como sólo hemos seleccionado la estatura (X) para explicar el valor esperado del peso del alumno,
314 Análisis de Regresión Lineal

estamos agrupando los efectos de todos los factores que afectan al peso, aparte de la estatura, en
el término de perturbación ϵ, y estas perturbaciones, al agruparse, tienen la característica de ser
estocásticas.
En segundo lugar, al medir el peso (Y ) o la altura (X), puede haber un error de medición, y se
supone que éste también se incluye en el término de perturbación ϵ.
Una tercera causa de esta ϵ es que la relación entre la altura (X) y el peso (Y ) puede no ser
exactamente lineal como hemos supuesto. Y si esta relación que hemos supuesto no es exacta, el
efecto de este error de medición también se incluirá en ϵ.
Para el segundo alumno, encontramos que la perturbación es

ϵ = Y − E(Y |X) = 41 − 42 = −1 lb.

que también se interpreta como en el caso anterior.


Supongamos por el momento que la perturbación ϵ = −2 lb. del primer alumno y ϵ = −1 lb.
del segundo alumno no están relacionadas; es decir, son independientes. O podemos decir que los
pesos del primer y segundo alumno son independientes.
Para una altura dada (digamos, X = 50 pulg.), hay muchos pesos posibles, Y . Suponemos
que la mayoría de los pesos se distribuyen alrededor de E(Y |X = 50) = 42 lb. y los restantes se
reducirán, como se muestra en la figura. La dispersión de los valores individuales de Y alrededor de
E(Y |X = 50) = 42 tiene una varianza σ 2 . Es decir, la dispersión de las perturbaciones ϵ en torno
a E(Y |X = 50) tiene una varianza σ 2 . En la figura hemos supuesto que σ = 2.
Resumamos ahora nuestra discusión. Se nos ha dado una familia de subpoblaciones de Y (diga-
mos, pesos) que son variables aleatorias que responden a X fijas (digamos, alturas) que son variables
fijas. Se supone que la distribución de las Y en cada subpoblación se distribuye con media E(Y |X)
y varianza σ 2 . Entonces la función de regresión de Y sobre X se define como

E(Y |X) = A + BX (14.7)

donde A y B son los parámetros de regresión de la población (o coeficientes). Los valores indi-
viduales de Y son los siguientes
Y = A + BX + ϵ (14.8)

Las hipótesis eran las siguientes

1. ϵ es una variable aleatoria independiente y la distribución no está especificada.

2. E(e) = 0.

3. V ar(ϵ) = V ar(Y ) = σ 2

4. X es un conjunto de números fijos.

El supuesto (3) de que E tiene una varianza constante σ 2 se denomina homoscedasticidad. Las
ecuaciones (14.7) y (14.8), y estos supuestos, nos proporcionan un modelo de regresión. Nuestro
principal énfasis en este caso es la relación entre X e Y .
Observe cuidadosamente que hemos dicho (14.7), (14.8), y los supuestos nos han dado un mo-
delo de regresión. Esto es porque cambiando los supuestos podemos construir diferentes modelos
de regresión. Podemos cambiar los supuestos relativos a ϵ y X de la siguiente manera
14.2. El problema de la regresión 315

1. a) ϵ es una variable aleatoria independiente.


b) ϵ es una variable aleatoria pero no independiente.

2. a) La distribución de ϵ no está especificada.


b) La distribución de ϵ es una distribución normal.

3. a) X es un conjunto de números fijos.


b) X es una variable aleatoria pero la distribución no está especificada.
c) X es una variable aleatoria con una distribución normal.

El modelo de regresión que dimos anteriormente suponía (1a), (2a) y (3a).


Obsérvese que el supuesto (1a) en el que no se especifica la distribución de ϵ equivale a decir
que no se especifica la distribución de Y , porque Y es una función lineal de ϵ y, por tanto, ambas
tienen la misma distribución. Así pues, (14.7), (14.8) y las hipótesis nos proporcionan un modelo
de regresión que tiene la población que hemos llamado de Población Tipo I por comodidad.
En los Capítulos 14 y 15 discutiremos cuatro modelos de regresión que se distinguen por los
siguientes supuestos relativos a las poblaciones. Se han llamado poblaciones Tipo I, II y III, y IV por
conveniencia.
Los supuestos relativos a ϵ y X pueden resumirse como sigue:

ϵ Independiente No independiente
X Distribución Distribución
No Normal No Normal
Especificada Especificada
Conjunto fijo Población Población
de números Tipo I Tipo II
Distribución Población
No especificada Tipo III
Distribución Población
Normal Tipo IV

El caso de la tabla en el que ϵ es una variable aleatoria pero no independiente se considera en el


Capítulo 23, Regresión lineal Múltiple.

14.2.2 Estimadores lineales

Con estos antecedentes, volvamos a discutir el problema de la regresión desde un punto de vista
estadístico alternativo en el que el énfasis principal está en la estimación de µY X . Nuestro modelo
de regresión era
Y = E(Y |X) + ϵ (14.9)
µY X = A + BX (14.10)
Y = A + BX + ϵ (14.11)
Asumimos que los valores esperados de Y , es decir, µY X = E(Y |X), caerían en una línea recta y,
por tanto, asumimos la ecuación de la línea recta (14.10). ¿Cuál es nuestra justificación para suponer
que µY X caerá en una línea recta?
316 Análisis de Regresión Lineal

Una de ellas es que, en las aplicaciones, cuando el rango de variación de X (digamos, el peso, o
los ingresos, etc.) es pequeño, la variación de Y (digamos, la altura, o el consumo, etc.) puede apro-
ximarse mediante una línea recta. Este procedimiento de aproximación lineal es el que utilizamos
siempre en la vida cotidiana. La distancia entre el lado este y el lado oeste de la ciudad de Nueva York
se mide como una línea recta aunque sepamos que la superficie de la tierra es curva. Y esta aproxi-
mación lineal se utiliza por su simplicidad en términos de interpretación, trazabilidad matemática
y utilidad en las aplicaciones.
La segunda es que, cuando suponemos la población Tipo IV, resulta que matemáticamente
E(Y |X) será efectivamente una línea recta. Una discusión matemática de este resultado está más
allá del nivel de este libro, por lo que se pide al lector que acepte esta afirmación.
El punto importante a entender es que el modelo expresado por la ecuación (14.10) es algo que
hemos asumido y no es algo a priori.
Nuestro problema es estimar µY X utilizando la relación entre los valores esperados de Y y X.
O, podemos decir, que deseamos encontrar el valor de E(Y |X) para un X dado. Y, a partir de la
ecuación (14.10), es evidente que si podemos determinar los coeficientes de regresión de la pobla-
ción A y B, podemos encontrar el valor esperado de Y para valores dados de X. Por ejemplo, si
se conocen A y B para la función de regresión de la altura y el peso, podemos encontrar el peso
esperado cuando se da la altura. En nuestra ilustración simplificada de la altura y el peso, A y B se
encontraron calculando la E(Y |X) para cada X y ajustando una línea recta a los puntos E(Y |X).
Esto era posible porque sólo había cinco X y cinco valores de Y para cada X. Pero, en nuestro mo-
delo generalizado, tenemos muchas X y muchos (teóricamente un número infinito) valores de Y .
¿Qué debemos hacer?
Como se puede ver fácilmente ahora, tomamos una muestra de estas observaciones y estimamos
A y B. Dejemos que las estimaciones se denoten por a y b y se llamen coeficientes de regresión de la
muestra. Entonces el estimador de
A + BX
se convierte en
a + bX
Como A + BX = µY X , el a + bX puede llamarse estimador de µY X .
Por lo tanto, vemos que el problema estadístico consiste en seleccionar una muestra, y a partir
de ella estimar los coeficientes de regresión poblacionales A y B. Como veremos, los estimadores de
A y B, que hemos denotado por a y b, resultarán ser formas lineales de los elementos de la muestra.
Expliquemos lo que esto significa, utilizando la media muestral.
Sabemos que cuando queremos estimar la media poblacional µ, seleccionamos una muestra y
utilizamos la media muestral X como estimador de µ. Sea la muestra (x1 , x2 , x3 ). Entonces
1
X= (x1 + x2 + x3 )
3
1 1 1
= x1 + x2 + x3
3 3 3
Por tanto, X es una forma lineal de los elementos de la muestra x1 , x2 y x3 . Sabemos que X es
insesgada:
 
1 1 1
E(X) = E x1 + x2 + x3
3 3 3
1
= (µ + µ + µ) = µ
3
14.2. El problema de la regresión 317

Podemos ver fácilmente que


X = a1 x1 + a2 x2 + a3 x3
donde a1 + a2 + a3 = 1 también será un estimador insesgado de µ, porque

E(X) = E(a1 x1 + a2 x2 + a3 x3 )
= µ(a1 + a2 + a3 ) = µ

Este estimador X de µ, es también una forma lineal de los elementos de la muestra.


Como se ve, podemos encontrar muchos estimadores de µ, que son formas lineales de los ele-
mentos de la muestra. Estos estimadores que son formas lineales de los elementos de la muestra se
llaman estimadores lineales del parámetro poblacional. Como veremos, los estimadores de A y B, es
decir, a y b, serán formas lineales de los elementos de la muestra. Por tanto, son estimadores lineales
de A y B.
Y como a+bX es una relación lineal, también es una forma lineal de los elementos de la muestra
y, por tanto, a + bX es un estimador lineal de A + BX = µY X .

14.2.3 Estimador lineal insesgado

En el capítulo 8, mencionamos que una de las características de un buen estimador era que fuera
un estimador insesgado. Recordemos que X era un estimador insesgado de la media poblacional µ.
Es decir,
E(X) = µ

En términos de nuestro ejemplo actual, deseamos que a + bX sea un estimador insesgado de


µY X y esto significa que
E(a + bX) = A + BX (14.12)

y esto evidentemente será cierto cuando

E(a) = A, E(b) = B (14.13)

Cuando la ecuación (14.12) se cumple, llamaremos a + bX un estimador lineal insesgado de


µY X .
Como veremos en nuestra discusión posterior, nuestros estimadores serán estimadores lineales
insesgados.

14.2.4 Estimador de varianza mínima

En el proceso de construcción de un estimador insesgado, queremos que se concentre lo más


cerca posible del parámetro de la población que estamos estimando. En el Capítulo 8 encontramos
que X era un estimador insesgado de µ y además sabemos que su varianza es σ 2 /n. Otros estima-
dores, como XM ed (la mediana), tenían una varianza menor que la que también se indicaba en el
Capítulo 8 que, mediante el uso de la desigualdad de Cramer-Rao, no la varianza de X. Llamamos a
tal estimador un estimador de varianza mínima. Es decir, X es un estimador de varianza mínima de
µ. También utilizaremos el término mejor en lugar de varianza mínima y llamaremos a X el mejor
estimador.
318 Análisis de Regresión Lineal

En nuestro caso actual, queremos que a + bX sea el estimador de varianza mínima (mejor) de
A + BX (o podemos decir, de µY X ). Expliquemos qué significa esto. Supongamos que extraemos
una muestra de tamaño n, y por un procedimiento 1, encontramos

a + bX (14.14)

como estimación de A + BX. Seleccionemos una segunda muestra y, mediante el mismo procedi-
miento 1, encontremos una segunda estimación

a ′ + b′ X (14.15)

Seleccionemos una tercera muestra y encontremos una tercera estimación

a′′ + b′′ X (14.16)

Como se ve, podemos repetir este proceso un número muy grande de veces y tendremos un
número muy grande de estimaciones a + bX . Hemos dibujado tres de estas estimaciones en la
Figura 14.2, pero podemos visualizar un gran número de estimaciones a + bX dispersas alrededor
de A + BX.
Estas estimaciones a + bX se han obtenido mediante el procedimiento 1, pero podemos utilizar
un procedimiento de estimación diferente 2 y encontrar un conjunto diferente de estimaciones c +
dX. Y estas estimaciones c + dX también estarán dispersas alrededor de A + BX.
Al suponer que a + bX es el estimador de varianza mínima, lo único que decimos es que la
dispersión de a+bX en torno a A+BX será menor que c+dX. Y, de hecho, la dispersión será menor
que la de cualquier otro tipo de estimador m + kX obtenido por cualquier otro procedimiento de
estimación.

1
2
A + BX
3

Figura 14.2

¿Cómo se puede encontrar ese estimador de varianza mínima (mejor) a + bX? Este es uno de
los problemas estadísticos que discutiremos en las secciones siguientes. Como veremos, el procedi-
miento de estimación para obtener un estimador de varianza mínima para las poblaciones de Tipo
I y Tipo II es el método de los mínimos cuadrados. Pero el procedimiento de estimación para la po-
blación Tipo I es el teorema de Gauss-Markov mientras que para la población Tipo II es el método
de máxima verosimilitud como explicaremos en los Apartados 14.3 y 14.9.

14.2.5 Resumen

Resumamos brevemente nuestro modelo y expongamos el plan de nuestra discusión. Tenemos

µY X = A + BX
14.3. Estimación del A y B del caso de la población Tipo I 319

y deseamos estimarlo mediante un estimador lineal


a + bX
y deseamos que este estimador sea el mejor estimador lineal insesgado (meli).
Nuestro primer paso será estimar A y B, suponiendo una población de Tipo I. Encontraremos
un estimador lineal a + bX que será el meli.
Una vez encontrado el a+bX, es decir, el meli, nuestro segundo paso será investigar su utilidad.
Por útil nos referimos a que, dado un valor de X (estatura), se pueda estimar con precisión Y (peso).
Esto nos llevará a discutir el error estándar de estimación µY X y el coeficiente de determinación r2 .
Veremos que nuestra discusión de las propiedades de a + bX se limitará bastante a la discusión
de σ̂Y2 X y r2 debido a la asunción de la población Tipo I.
Nuestro tercer paso será considerar el caso de la población Tipo II y mostrar cómo encontrar
a + bX y también r2 . Resultará que los resultados serán los mismos que para la población Tipo I.
Pero debido a la población Tipo II, podremos seguir adelante y discutir las pruebas y los intervalos
de confianza relativos a, b, µY X y Y .

14.3 Estimación del A y B del caso de la población Tipo I

El modelo de regresión fue


µY X = A + BX (14.17)
Y = µY X + ϵ = A + BX + ϵ (14.18)

La población Tipo I suponía que las X eran variables fijas y las Y eran variables aleatorias cuya
distribución no está especificada. Nuestro problema estadístico es estimar A y B a partir de una
muestra de tamaño n; (x1 , y1 ), . . . , (Xn , Yn ). Y deseamos que el estimador sea el mejor (miniva-
rianza) estimador lineal insesgado (meli).
Afirmamos sin pruebas que este estimador deseable puede obtenerse por el teorema de Gauss-
Markov. En términos no rigurosos, este teorema afirma que cuando las X son fijas, las Y son varia-
bles aleatorias, y las varianzas de la subpoblación de Y para las X correspondientes tienen varianzas
iguales σ 2 , los mejores estimadores lineales insesgados (meli) de A y B pueden obtenerse estimán-
dolos por el método de los mínimos cuadrados.
Por lo tanto, dada la población Tipo I, podemos estimar µY X = A + BX estimando A y B por
el método de los mínimos cuadrados. Y el estimador lineal a + bX que obtendremos será el mejor
estimador lineal insesgado (meli) de A + BX, o, podemos decir, de µY X .
Como es evidente, existe una amplia motivación y justificación para utilizar el método de los
mínimos cuadrados para estimar A y B. A partir del teorema de Gauss-Markov vemos que el método
de los mínimos cuadrados nos da el mejor estimador lineal insesgado (meli).
Pero aún hay una motivación y justificación adicional para utilizar el método de los mínimos
cuadrados. Como veremos más adelante, cuando se da la población Tipo II en la que las Y se dis-
tribuyen normalmente, los estimadores obtenidos por el método de los mínimos cuadrados serán
los mismos que los obtenidos por el método de máxima verosimilitud.
Y, por último, la trazabilidad matemática del método de los mínimos cuadrados en compara-
ción con otros métodos como el de máxima verosimilitud es también una importante motivación y
justificación para utilizar el método de los mínimos cuadrados.
320 Análisis de Regresión Lineal

Utilizando nuestra población hipotética, analicemos el procedimiento de estimación. El Cua-


dro 14.1 se reproduce aquí por conveniencia como Cuadro 14.2

X, pulgadas Y , libras E(Y |X)


50 40 41 42 43 44 42
51 41 43 44 46 46 44
52 41 44 45 48 52 46
53 43 46 47 49 55 48
54 44 46 49 51 60 50

Cuadro 14.2

Se selecciona una muestra aleatoria de esta población y se estiman los parámetros A y B por el
método de los mínimos cuadrados. Dejemos que las estimaciones se denoten por a y b y se iden-
tifiquen como coeficientes de regresión de la muestra. Entonces la recta de regresión estimada se
convierte en
Yc = a + bX (14.19)
donde Yc es una estimación de µY X . Nótese cuidadosamente que Yc no es una estimación de los
valores individuales, sino una estimación del valor esperado de Y .
Por lo tanto, lo primero que tenemos que hacer es seleccionar una muestra aleatoria, y para sim-
plificar seleccionamos un par (x, y) de cada subpoblación. La muestra figura en el Cuadro 14.3. La
Figura 14.3 es un gráfico de estas observaciones y se llama diagrama de dispersión. Podemos estimar
A y B sin ningún diagrama, pero este diagrama de dispersión sirve para dar una idea preliminar de
la forma de la función de regresión. Aunque sólo hay 5 observaciones, observamos en el diagrama
de dispersión que la relación es lineal.

Observación X Y
50 pulg. 0 40
51 1 46
52 2 44
53 3 55
54 4 49

Cuadro 14.3

Sean Y los valores individuales de la muestra y Yc la estimación de E(Y |X). Sabemos que

ϵ = Y − E(Y |X)

De manera similar definimos las desviaciones de Y con respecto a la Yc como e; es decir,

e = Y − Yc
= Y − a − bX

Por lo tanto, esta e es una estimación del término de perturbación ϵ. Esta e se llamará residuo o
desviación de Yc con respecto a Yc . Hay que señalar claramente que el término de perturbación ϵ es
una variable teórica que no observamos, aunque podemos especular sobre ella. La desviación e es
lo que realmente observamos como la diferencia entre los datos Y y el Yc calculado, y calculamos
como una estimación de ϵ.
14.3. Estimación del A y B del caso de la población Tipo I 321

62
60
58
56 ∗
Yc = a + bX
54
e
52 ϵ
50 µY X = A + BX

48
µY X = 48
46 ∗
44 ∗
42
40 ∗

50 51 52 53 54
Figura 14.3

Como mostrará nuestro análisis posterior, gran parte de nuestra preocupación será una inves-
tigación de esta desviación e y su relación con los otros aspectos del análisis de regresión. El estu-
diante debe tener una clara comprensión del término de perturbación ϵ = Y − µY X y la desviación
e = Y − Yc . Volvamos ahora al problema de estimar A y B.
El procedimiento para estimar A y B por el método de los mínimos cuadrados consiste
P 2 en en-
contrar los estimadores a y b que minimicen la suma de las desviaciones al cuadrado ei tomadas
sobre los valores de la muestra. Es decir, encontrar a y b tales que

X
n=5 X
n=5
e2i = (Yi − a − bXi )2 = mínimo
i i

Los a y b, como sabemos, se encuentran mediante las ecuaciones normales:

X X
Y = na + b X
X X X (14.20)
XY = a X +b X2

Utilizando los datos del Cuadro 14.4, encontremos a y b de la siguiente manera:

Altura, pulg. X Y XY X2
50 0 40 0 0
51 1 46 46 1
52 2 44 88 4
53 3 55 165 9
54 4 49 196 16
10 234 495 30

Cuadro 14.4
322 Análisis de Regresión Lineal

234 = 5a + 10b
495 = 10a + 30b

a = 41.4 lb.
b = 2.7 lb.

Por lo tanto, las estimaciones de A y B que buscamos son

 = a = 41.4 lb.
B̂ = b = 2.7 lb.

y la estimación lineal insesgada de varianza mínima de A + BX (o, µY X ) que buscamos es

Yc = 41.4 + 2.7X
X = 0 a 50 pulgadas (14.21)
X en unidades de 1 pulgada

Por ejemplo, para 53 pulgadas, la X = 3 y la Yc se convierte en

Yc = 41.4 + 2.7 · 3 = 49.5 lb.

Esto nos dice que, por ejemplo, dado un niño de X = 53 pulg., el peso estimado esperado (prome-
dio) es de 49.5 lb. Dado que (14.21) es una estimación insesgada lineal de varianza mínima de µY X ,
las 49.5 lb. son una estimación insesgada de varianza mínima de µY X cuando se toma un niño de
53 pulg.
Comparemos las perturbaciones ϵ y sus estimaciones, las desviaciones e. Dado que Y = 55 lb.
cuando X = 53 pulg. en la muestra, la desviación es

e = Y − Yc = 55 − 49.5 = 5.5 lb.

También sabemos por la población hipotética que E(Y |X) = 48 lb. Por lo tanto, el término de
perturbación estocástica es

ϵ = Y − E(X|Y ) = 55 − 48 = 7 lb.

Hay que recordar, como ya se ha dicho, que normalmente la población es tan grande que no cono-
cemos la media poblacional µY X , y por tanto no podemos calcular e = Y − µY X . Esto fue posible
en nuestro ejemplo hipotético porque sólo teníamos 25 observaciones para la población.

14.3.1 Procedimientos de cálculo

La ilustración anterior era sencilla y, por tanto, no hubo dificultades en los cálculos. Además,
las X estaban
P espaciadas uniformemente, por lo que podríamos haberlas numerado de nuevo de
forma que X = 0, lo que habría simplificado los cálculos. Pero, por lo general, las muestras son
mucho más grandes
P y las X no están espaciadas uniformemente, por lo que numerarlas de nuevo
de forma que X = 0 no suele ser factible. No obstante, existen varias fórmulas que simplifican
considerablemente los cálculos, especialmente para las máquinas de cálculo. Vamos a explicar estas
fórmulas.
14.3. Estimación del A y B del caso de la población Tipo I 323

Las ecuaciones normales son


X X
Y = na + b X
X X X (14.22)
XY = a X +b X2

Las a y b se convierten en P
(X − X)(Y − Y )
b= P (14.23)
(X − X)2
a = Y − bX (14.24)
La fórmula (14.23) implica desviaciones de la media, lo que hace que los cálculos sean tediosos.
Afortunadamente, (14.23) y (??) pueden modificarse como sigue:
P P P
n XY − X Y
b= P P (14.25)
n X 2 − ( X)2
P P
Y X
a= −b (14.26)
n n
Utilizando los valores del Cuadro 14.4 como ejemplo, encontramos
5 · 495 − 10 · 234 27
b= = = 2.7
5 · 30 − 102 10
234 10
a= − 2.7 · = 4.14
5 5
Estos resultados son los mismos que hemos obtenido anteriormente.

Ejemplo No. 1
Mostremos las derivaciones de estas fórmulas.

X X
(x − x)(y − y) = (xy − yx − xy + xy)
X X X X
= xy − x y−y x+ xy
X
= xy − nxy − nxy + nxy
X
=xy − nxy
X X P P
( x)( y)
xy − nxy = xy −
n

Ejemplo No. 2

X X
(x − x)2 = (x2 + 2xx + x2 )
X
= x2 − 2nx2 + nx2
X
= x2 − nx2
X P
( x)2
= x2 −
n
324 Análisis de Regresión Lineal

Utilizando las ecuaciones (14.23) y (14.24), podemos mostrar ahora que a y b son estimadores li-
neales de A y B, respectivamente. A partir de (14.23) encontramos
P
(Xi − X)(Yi − Y )
(
b= P
(Xi − X)2
X  
Xi − X
= P · (Yi − Y )
(Xi − X)2

Observando que las X son un conjunto de números fijos, pongamos

Xi − X
wi = P
(Xi − X)2

Entonces b se convierte en X
b= wi (Yi − Y )

Por lo tanto, se ve que b es una función lineal de las variables aleatorias Yi , es decir, una función
lineal de los valores de la muestra, y por lo tanto es un estimador lineal de B.
En cuanto a a, encontramos a partir de (14.23)

a = Y − bX
X
=Y − wi (Yi − Y )X
X X
=Y −X wi Yi − XY wi

Pero
X X P
Xi − X (Xi − X
wi = P =P
(Xi − X) 2 (Xi − X)2
0
=P =0
(Xi − X)2

Por lo tanto
X
a=Y −X w i Yi − 0
X
= (1/n − Xwi )Yi

Dado que X y wi son números fijos, vemos que a es una función lineal de Yi , por tanto, es una
función lineal de los valores de la muestra. Por lo tanto, a es un estimador lineal de A.

14.4 Encontrar una función de regresión

Algunos ejemplos ilustrarán los procedimientos mecánicos para encontrar una función de re-
gresión.

Ejemplo No. 3
Considere una muestra aleatoria de pares de alturas y pesos como la del Cuadro 14.5.
14.4. Encontrar una función de regresión 325

El primer paso es encontrar la función de regresión del peso (Y ) sobre la altura (X) y, por
tanto, trazamos el diagrama de dispersión, como en la Figura 14.5. La observación del diagrama de
dispersión muestra que una línea recta se ajusta adecuadamente a estos puntos.
El segundo paso es ajustar una línea de regresión muestral por el método de los mínimos cua-
drados. Utilizando las fórmulas de los coeficientes de regresión de la muestra, encontramos
5 · 1620 − 10 · 760
b= = 10
5 · 30 − 102
760 10
a= − 10 · = 152 − 20 = 132
5 5

Altura X Y , libras XY X2 Yc
5’3” 0 130 0 0
4” 1 145 145 1
5” 2 150 300 4 152
6” 3 165 495 9
7” 4 170 680 16
10 760 1620 30

Cuadro 14.5

Yc = 132 + 10X
170

160

150

140

130
0 1 2 3 4 X
Figura 14.4

Así, la recta de regresión muestral de Y sobre X es

Yc = 132 + 10X

X = 0 a 5 pies 3 pulgadas y X está en unidades de 1 pulgada. Por ejemplo, para X = 2 (es


decir, 5′ 5”), la estimación del peso medio (esperado) es

Yc = 132 + 10 · 2 = 152 lb.

Esto significa: Si la estatura de un alumno es de 5′ 5′′ , el valor esperado estimado de su peso es


Yc = 152 lb. Calcule los demás valores de Yc y complete el Cuadro 14.5.
326 Análisis de Regresión Lineal

Ejemplo No. 2
En el Ejemplo 1 las alturas (X) estaban espaciadas uniformemente, de modo que se
utilizaron 0, 1, 2, 3, 4 en lugar de los valores originales, pero en general la variable inde-
pendiente X no está espaciada uniformemente, en cuyo caso los valores de X tienen
que utilizarse tal como están dados. Examinemos un ejemplo hipotético.

Supongamos que tenemos una muestra aleatoria de pares de horas estudiadas y puntos de califi-
cación, como se muestra en el Cuadro 14.6. Queremos encontrar la regresión de las notas (Y ) sobre
las horas estudiadas (X).

X, horas Y , nota XY X2
4 40 160 16
6 60 360 36
7 50 350 49
10 70 700 100
13 90 1170 169
40 310 2740 370

Cuadro 14.6

5 · 2740 − 40 · 310 26
b= = = 5.2
5 · 370 − 40 2 6
310 40
a= − 5.2 · = 62 − 41.6 = 20.4
5 5

El primer paso es dibujar un diagrama de dispersión y averiguar si la relación de regresión es


lineal. Una comprobación mostrará que el diagrama de dispersión cumple este requisito de lineali-
dad.
A continuación, los coeficientes de regresión de la muestra se encuentran mediante el método de
los mínimos cuadrados, que ya hemos utilizado anteriormente. Así, la recta de regresión muestral
es

Yc = 20.4 + 5.2X

El origen es X = 0 horas, y X está en unidades de 1 hora. Por ejemplo, si el alumno estudia


X = 5 horas, entonces

Yc = 20.4 + 5.2 · 5 = 46.4 puntos

Es decir, la nota media esperada estimada es de 46.4 puntos.


14.4. Encontrar una función de regresión 327

Ejemplo No. 3
A partir del Ejemplo 2 podemos ver que si los valores de X y Y son grandes, el cálculo
de la pendiente b implicará una cantidad considerable de cálculos. Esto puede evitarse
restando una constante a cada uno de los valores de X (digamos, k = 8), y una cons-
tante a cada uno de los valores de Y (digamos, m = 60). Gráficamente, sólo estamos
desplazando el origen de (0, 0) a un nuevo origen (8, 60), como se muestra esquemá-
ticamente en la Figura 14.5. La pendiente de la función de regresión b sigue siendo la
misma y se encuentra como sigue
P P
n X ′Y ′ − X ′Y ′
b= P P
n X ′2 − ( X ′ )2
5 · 260 − 0 · 10
=
5 · 50 − 0
260 26
= = = 5.2
50 5
b = 5.2 es la misma que la encontrada en el Ejemplo 2, como era de esperar. a ya se ha
encontrado como a = 20.4. Así obtenemos la misma función de regresión

Yc = 20.4 + 5.2X

donde el origen está en X = 0 horas.

X′ Y′ X ′Y ′ X ′2
= X − 8, horas = X − 60, Nota = (X − 8)(Y − 60) = (X − 8)2
-4 -20 80 16
-2 0 0 4
-1 -10 10 1
2 10 20 4
5 30 150 25
0 10 260 50

Y Y′

(8, 60) a′
60 60
0 X′
a

0 8 X 0 8
Figura 14.5

La a también se puede encontrar de la siguiente manera:


P P
Y X
a= −b
Pn ′ n P ′
(Y + 60) (X + 8)
= −b
n n
328 Análisis de Regresión Lineal

y (ya que X ′ = X − 8, Y ′ = Y − 60),


P ′  P ′ 
Y X
a= + 60 − b +8
n n
P ′ P ′
Y X
= −b + (60 − b · 8)
n n
10 0
= − 5.2 · + (60 − 5.2 · 8)
5 5
= 20.4

Ejemplo No. 4
Dados los datos de la tabla adjunta, relativos al ingreso y al consumo, halla la regresión
del consumo sobre el ingreso.

X Y Yc
Ingreso Consumo
$ 200 $ 180 182.8
300 270 256.8
400 320 330.8
600 480 478.8
900 700 700.8
$2400 $1950

Para simplificar los cálculos, dividamos los valores de X e Y por 100 (o por 10, o por cualquier
otro número), como se muestra en la tabla siguiente. Gráficamente, estamos reduciendo la escala del
diagrama a 1/100 (o 1/10), y por tanto no tiene ningún efecto sobre la pendiente b de la función de
regresión. Esto es similar a tomar una foto del diagrama de dispersión cuyas medidas son 1/100 del
diagrama original. Entonces los valores pasan a ser:
P P P
n X ′ Y ′ − ( X ′ )( Y ′ )
b= P P
n X ′2 − ( X ′ )2
5 · 116.3 − 24 · 19.5
=
5 · 146 − 242
581.5 − 468
=
730 − 576
113.5
= = 0.74
154
P P ′
Y′ X
a= −b
n n
19.5 24
= − 0.74 ·
5 5
= 3.9 − 3.552 = 0.348

Como la escala se ha reducido a 1/100, la a es 0.348 · 100 = 34.8. Por tanto, la recta de regresión es

Yc = 34.8 + 0.74X

donde el origen está en cero dólares y X está en unidades de 1 dólar.


14.5. Desviación estándar de la muestra de la regresión 329

El valor esperado estimado del consumo cuando el ingreso es de 200 dólares es


Yc = 34.8 + 0.74 · 200 = $182.8
Los otros valores Yc se dan en la columna de la derecha de la primera tabla anterior.
Habiéndonos familiarizado con el procedimiento para hallar el coeficiente de regresión b, de-
tengámonos un momento y reconsideremos lo que expresa b. Hemos encontrado
Yc = a + bX
donde utilizando los resultados de la sección anterior
P
(X − X)(Y − Y )
b= P
(X − X)2
X
= wi (Yi − Y )

Para simplificar, supongamos que sólo hay 3 observaciones. Entonces la ecuación anterior se
convierte en
b = w1 (Y1 − Y ) + w2 (Y2 − Y ) + w3 (Y3 − Y )
X1 − X X2 − X X3 − X
=P (Y1 − Y ) + P (Y2 − Y ) + P (Y3 − Y )
(Xi − X) 2 (Xi − X) 2 (Xi − X)2
(X1 − X)2 Y1 − Y (X2 − X)2 Y2 − Y (X1 − X)2 Y3 − Y
=P · + P · + P ·
(Xi − X) X1 − X
2 (Xi − X) X2 − X
2 (Xi − X) X3 − X
2

Sabemos que Yi /Xi muestra el cambio en Yi (peso) cuando hay un cambio unitario en Xi (altura).
Podemos considerar que Xi (altura) es la causa e Yi (peso) es el efecto.
Ahora los términos Yi − Y = yi y Xi − X = xi miden los cambios en Yi y Xi desde sus
respectivas medias. Entonces yi /xi muestra el cambio en Yi cuando hay un cambio unitario en Xi ,
donde Xi y Yi se miden desde sus medias. Utilizando xi y yi , la ecuación para b se convierte en
x2 y1 x2 y2 x2 y3
b = P1 2 · + P2 2 · + P3 2 ·
xi x1 xi x2 xi x3
y y y
= w1′ · + w2′ · + w3′ ·
1 2 3
x1 x2 x3
donde w1′ + w2′ + w3′ = 1. ComoPpuede verse, b es simplemente una media ponderada de yi /xi ,
donde las ponderaciones son x2i / x2i . Por lo tanto, b muestra P
la cantidad de cambio en el efecto
cuando hay un cambio unitario en la causa, ponderado por x2i / x2i .
P P
En cuanto a las ponderaciones x2i / x2i , dado que x2i es una constante, la magnitud de wi
depende del valor de xi = Xi − X. Dado que x2i = (Xi − X)2 , significa que cuanto más se desvíe
un valor individual de xi de su valor medio, mayor será su importancia.
También vemos que como las desviaciones son al cuadrado, es decir, x2i , el método de los míni-
mos cuadrados da a −x, y a +x, igual importancia.

14.5 Desviación estándar de la muestra de la regresión

Habiendo encontrado la recta de regresión muestral


Yc = a + bX
330 Análisis de Regresión Lineal

nos gustaría saber hasta qué punto es útil. Es decir, cuando se da un valor de X (altura), ¿con
qué precisión estima Y (peso)? Primero investiguemos este problema gráficamente. Comparando
la Figura 14.6(a) y (b), es intuitivo que obtendremos una mejor estimación de Y (peso) para una X
(altura) dada en la Figura 14.7(b), donde los puntos están más concentrados alrededor de la línea
de regresión.

Y Y
Y = Yc

Y Y Y Y = Yc

0 X X X 0 X X
(a) (b)
Figura 14.6

Una medida que muestra el grado de concentración (dispersión) de las observaciones alrededor
de la línea de regresión es la desviación estándar de la línea de regresión. La figura 14.7(a) muestra
un caso en el que las observaciones están dispersos alrededor de la línea de regresión, mientras que
en la Figura 14.7(b) están concentrados cerca de ella. La desviación estándar de la Figura 14.7(a) es
grande, mientras que la de la Figura 14.7(b) es pequeña. Mostramos ahora cómo se encuentra esta
desviación estándar.
En la sección 14.2 asumimos que la varianza de cada subpoblación era igual y la denotamos por

σ 2 = E[Y − E(Y |X)]2 (14.27)

Y
µY X = A + BX
σ3 {
σ2 { σ3 { µY X 3
σ1 { σ2 { µY X 2
σ1 { µY X 1

X1 X2 X3 X

Figura 14.7

La Figura 14.7 muestra 3 subpoblaciones y las correspondientes distribuciones de los valores de


Y . Las líneas punteadas muestran la distancia de 1 desviación estándar de la línea de regresión. La
fórmula (14.27) en forma computacional es la siguiente
P
2 (Y − µY X )2
σ =
N

donde la suma se realiza sobre la subpoblación y N es el tamaño de la subpoblación. Por ejemplo,


si las subpoblaciones correspondientes a X1 , X2 y X3 tienen N1 , N2 y N3 observaciones de valores
14.5. Desviación estándar de la muestra de la regresión 331

Y , las varianzas son


P N1
(Y − µY X1 )2
σ12 =
N1
P N2
(Y − µY X2 )2
σ22 =
N2
P N3
(Y − µY X3 )2
σ32 =
N3

donde σ12 , σ22 y σ32 son las varianzas de la primera, segunda y tercera subpoblación. Nuestra suposi-
ción es que
σ12 = σ22 = σ32
y la varianza común se denota por σ 2 .
Para mostrar que es la desviación estándar de los valores de Y alrededor de la línea de regresión
para valores dados de X, se suele denotar como
P
(Y − µY X )2
σY2 X = (14.28)
N

y se llama la varianza poblacional de la regresión o la varianza residual. La raíz cuadrada de σY2 X se


denomina desviación estándar poblacional de la regresión.
Pero, como hemos comentado anteriormente, normalmente sólo se dispone de datos muestrales,
y tenemos que estimar los parámetros poblacionales. Por lo tanto, el problema es, ¿cómo vamos a
estimar la σY2 X ?
Suponiendo una población Tipo I, en la que la distribución de Y no está especificada, los coefi-
cientes de regresión A y B se estimaron por el método de los mínimos cuadrados, y los estimadores
se encontraron como
 = a = Y − bX (14.29)
P
(X − X)(Y − Y )
B̂ = b = P (14.30)
(X − X)2
y por el teorema de Gauss-Markov, afirmamos que se trata de estimadores insesgados mínimos de
la varianza.
No podemos estimar la σY2 X por el método de los mínimos cuadrados. Sin embargo, podemos
estimarlo mediante los estimadores (14.29) y (14.30). Este estimador de σY2 X basado en (14.29) y
(14.30) es
1 X
σY2 X = (Y − a − bX)2 (14.31)
n−2

1 X
σY2 X = (Y − Yc )2 (14.32)
n−2
y es un estimador insesgado de σY2 X . El n − 2 en el denominador se llama grados de libertad y se
discute en el Capítulo 18. El n − 2 puede expresarse diciendo: “hemos restado 2 grados de libertad
a n”. Estos 2 grados de libertad corresponden al número de coeficientes de regresión (donde a se
cuenta también como un coeficiente de regresión). En nuestro caso actual tenemos a y b, y por lo
tanto, restamos k = 2. En el Capítulo 23 discutiremos los casos en los que habrá k > 2 coeficien-
tes de regresión, en cuyo caso los grados de libertad serán n − k. El estimador σ̂Y2 X se denomina
332 Análisis de Regresión Lineal

error estándar de estimación, o desviación estándar de regresión estimada. Utilizaremos este último
término.
Habiendo encontrado σ̂Y2 X , la pregunta ahora es: ¿Cómo debe interpretarse σ̂Y2 X como una me-
dida de la dispersión de los puntos alrededor de la línea de regresión de la muestra? Consideremos
esta cuestión en la siguiente sección, que nos llevará a una discusión del coeficiente de determina-
ción, r2 .

14.6 Interpretación de σ̂Y2 X y del coeficiente de determinación r2

Para discutir la interpretación y el uso de σ̂Y2 X : primero definiremos y explicaremos el coeficiente


de determinación r2 , luego mostraremos su relación con σ̂Y2 X , y finalmente interpretaremos σ̂Y2 X
usando este r2 .

14.6.1 El coeficiente de determinación r2

Una vez encontrado el estimador insesgado de la varianza residual, podemos plantear la pre-
gunta: ¿Cómo se puede utilizar? La razón por la que se ha planteado explícitamente esta pregunta
es porque la distribución de la variable aleatoria Y no está especificada en la población Tipo I y,
como resultado, no tenemos forma de medir la significación de σ̂Y2 X en términos de una distribu-
ción como la normal. Si, por ejemplo, Y se distribuyera normalmente, podríamos interpretar σ̂Y2 X ,
en términos de la tabla de áreas normales (o, como veremos en el Capítulo 18, en términos de la
tabla t). Pero como la distribución de Y no está especificada, no podemos utilizar la tabla de áreas
normal.
Sin embargo, observamos que

1 X
σ̂Y2 X = (Y − Yc )2 (14.33)
n−2

consiste en las desviaciones e = Y − Yc . Investiguemos este aspecto de σ̂Y2 X mediante un diagrama.


En la Figura 14.9, podemos establecer la relación

Y −Y = (Y − Yc ) + (Yc − Y ) (14.34)
| {z } | {z } | {z }
Error total Error no explicado Error explicado

(Y − Y ) muestra la desviación total (o el error total) y puede considerarse como el error entre un Y
individual y la media aritmética Y que es el estimador de Y cuando no se utiliza una ecuación de
regresión.
(Yc − Y ) se denomina error explicado, y puede considerarse como la cantidad de error que se
elimina cuando la ecuación de regresión se ajusta a los puntos.
e = (Y − Yc ) es la desviación que definimos anteriormente, pero también se llamará error no
explicado para mantenerlo en armonía con los otros dos términos. Es el error que queda después de
ajustar la línea de regresión.
Cada punto puede descomponerse de la manera explicada anteriormente.
Como se ve, la varianza residual estimada σ̂Y2 X . v es un promedio de la suma de los errores no
explicados al cuadrado. Observamos que cuando e = Y − Yc se hace cero en la Figura 14.8, el punto
14.6. Interpretación de σ̂Y2 X y del coeficiente de determinación r2 333

Y Y
e

Yc
Y

X X

Figura 14.8

Y coincidirá con Yc y caerá sobre la recta de regresión. Y


P P 2
2 (Y − Yc )2 e
σ̂Y X = = =0
n−2 n−2
Es decir, la varianza residual es cero y tenemos un ajuste perfecto.
Por otro lado, cuando Yc − Y se hace igual a cero, es decir, no hay mejora debida a la regresión,
Yc coincide con Y y
P P
2 (Y − Yc )2 (Y − Y )2
σ̂Y X = =
n−2 n−2
Como se ve el menor valor que puede tomar Y − Yc es

e = Y − Yc = 0

y el mayor valor que puede tomar Y − Yc es

e = Y − Yc = Y − Y

Por lo tanto, parece razonable evaluar e = Y − Yc con respecto a Y − Y .


Resulta que podemos realizar esta evaluación utilizando la siguiente relación
X X X
(Y − Y )2 = (Y − Yc )2 + (Yc − Y )2 (14.35)

donde la suma se toma sobre la muestra. Esta es una


P relación básica en el análisis de regresión y mos-
traremos cómo se deriva en la siguiente sección. (Y − Y )2 se denomina suma P total de cuadrados
P 2
y la ecuación (14.35) muestra cómo puede dividirse (repartirse)
P en dos partes: (Y − Yc )2 = e
que se denomina suma de cuadrados no explicada; y (Yc − Y )2 que se denomina suma de cua-
drados explicada.
P
Nos interesa
P la relación entre (Yc − Y )2 y (Y − Y )2 . Así que dividamos ambos lados de
(14.35) por (Y − Y )2 .
P P
(Y − Y c )2 (Yc − Y )2
1= P + P (14.36)
(Y − Y )2 (Y − Y )2
y definimos
P
(Yc − Y )2
r = P
2
(Y − Y )2 (14.37)
Suma de cuadrados explicada
=
Total de suma de cuadrados
334 Análisis de Regresión Lineal

y llamémoslo coeficiente de determinación muestral. El r (es decir, la raíz cuadrada de r2 ) se llama


coeficiente de correlación muestral. El signo de r es el mismo que el del coeficiente de regresión b.
De la Figura 14.8 se desprende que el valor máximo que puede tomar Yc − Y se produce cuando
Yc coincide con Y y se obtiene Yc = Y . Entonces
P
(Yc − Y )2
r2 = P
(Y − Y )2
P
(Y − Y )2
=P =1
(Y − Y )2

El valor mínimo que puede tomar Yc − Y se da cuando Yc coincide con Y , y obtenemos Yc = Y .


Entonces
P
(Yc − Y )2
r = P
2
(Y − Y )2
P
(Y − Y )2
=P =0
(Y − Y )2

Por lo tanto
0 ≦ r2 ≦ 1
y
−1 ≦ r ≦ 1

El signo de r es el mismo que el del coeficiente b. Consideraremos r con más detalle en el Capítulo
15.

14.6.2 r2 como medida de mejora

La relación básica era, esquemáticamente


X X X
(Y − Y )2 = (Y − Yc )2 + (Yc − Y )2
| {z } | {z } | {z }
Error total Error no explicado Error explicado

y
Error explicado
r2 =
Error total
Cuando el error no explicado = 0, el error total es igual al error explicado. Por lo tanto,

Error explicado
r2 =
Error total
Error total
= =1
Error total
Cuando el error explicado = 0, entonces

Error explicado
r2 =
Error total
0
= =0
Error total
14.6. Interpretación de σ̂Y2 X y del coeficiente de determinación r2 335

Por lo tanto, r2 muestra la reducción relativa de la suma total de cuadrados (error total) cuando
se ajusta una línea de regresión. Por ejemplo, cuando r2 = 0.7, significa que se ha producido una
reducción del 70% en la suma total de cuadrados (error total). r2 = 1.0 muestra que se ha producido
una reducción del 100%, lo que significa simplemente que el error e = Y − Yc es cero y que los
puntos están todos en la línea de regresión. Por lo tanto, podemos decir que el r2 muestra la cantidad
de mejora (en términos de reducción del error total) producida por el ajuste de la línea de regresión.

Y Y
Y = Yc

Y Y Y Y = Yc

0 X X X 0 X X
(a) (b)
Figura 14.9

En términos de símbolos, cuando tenemos [Figura 14.9(a)]


error no explicado = Y − Yc = 0
significa que Y = Yc . Por lo tanto
P
(Yc − Y )2
r = P
2
(Y − Y )2
P
(Y − Y )2
=P =1
(Y − Y )2

Gráficamente, cuando Y = Yc , esto significa que los puntos están en la línea de regresión y el
ajuste es perfecto.
Cuando tenemos [Figura 14.9(b)]
error explicado = Yc − Y = 0
entonces Yc = Y y
P
(Yc − Y )2
r = P
2
(Y − Y )2
0
=P =0
(Y − Y )2
Gráficamente, Yc = Y significa que la línea de regresión es paralela al eje horizontal y coincide con
Y.
Obsérvese cuidadosamente que, en nuestro caso, r2 es simplemente una medida que muestra
la mejora en términos de reducción del error total. No es una medida de la covariabilidad de las
dos variables X y Y . En el Capítulo 15, Análisis de Correlación, definiremos otro coeficiente de
correlación que es una medida de la covariabilidad de X y Y .
Calculemos r2 para nuestro ejemplo de alturas y pesos. Para prepararnos, vamos a elaborar
una fórmula computacional para r2 . Pero, debido a su importancia, vamos a detenernos aquí un
momento para mostrar cómo se deriva la relación fundamental (14.35).
336 Análisis de Regresión Lineal

14.6.3 Derivación de la ecuación (14.35)

La ecuación (14.35) es una ecuación fundamental en el análisis de regresión y aparecerá de mu-


chas formas en la discusión posterior. Por lo tanto, dedicaremos esta sección especialmente a mos-
trar cómo se puede derivar. Afortunadamente, como se verá, la derivación es muy sencilla y es la
siguiente:
En primer lugar, recordemos que

Yc = a + bX
(14.38)
= Y + b(X − X)
Entonces
X X
(Y − Yc )2 = [Y − Y − b(X − X)]2
X X X (14.39)
= (y − Y )2 + b2 (X − X)2 − 2b (Y − Y )(X − X)

Como P
(X − X)(Y − Y )
b= P
(X − X)2
encontramos, sustituyendo esto en el tercer término del lado derecho de la ecuación (14.39):
X X X X
(Y − Yc )2 = (Y − Y )2 + b2 (X − X)2 − 2b2 (X − X)2 (14.40)

Pero a partir de la ecuación (14.38) anterior, tenemos

Yc − Y = b(X − X)

Por lo tanto, sustituyendo esto en el segundo término del lado derecho de la ecuación (14.38), ob-
tenemos X X X
(Y − Yc )2 = (Y − Y )2 − (Yc − Y )2
Por lo tanto, X X X
(Y − Y )2 = (Y − Yc )2 + (Yc − Y )2 (14.41)

Ejemplo No. 1
Utilizando el Ejemplo 1 de la Sección 14.4, ilustremos esta relación básica y calculemos
también r2 .

Altura X Y Yc
5’3” 0 130 132
4” 1 145 142
5” 2 150 152
6” 3 165 162
7” 4 170 172
760

Yc = 132 + 10X
760
Y = = 152
5
14.6. Interpretación de σ̂Y2 X y del coeficiente de determinación r2 337

Y −Y (Y − Y )2 Y − Yc (Y − Yc )2 Yc − Y (Yc − Y )2
-22 484 -2 4 -20 400
-7 49 3 9 -10 100
-2 4 -2 4 0 0
13 169 3 9 10 100
18 324 -2 4 20 400
1030 30 1000

X X X
(Y − Y )2 = (Y − Yc )2 + (Yc − Y )2
1030 = 30 + 1000
1000
r2 = = 0.97
1030

Este r2 = 0.97 muestra que el 97% de la suma total de cuadrados se ha vuelto a mover al ajustar
la recta de regresión e indica que el ajuste de la recta de regresión a los puntos es muy bueno, es
decir, tenemos un ajuste cercano.

14.6.4 r2 como medida de la proximidad del ajuste

Hemos visto que cuando los puntos Y caen todos sobre la recta de regresión, entonces r2 = 1.
Cuando los puntos Y están dispersos, de manera que la recta de regresión se vuelve horizontal,
entonces r2 = 0. Por lo tanto, podemos decir que cuanto más se acerque el ajuste de la recta de
regresión a los puntos, más se acercará r2 a 1.
Ahora podemos invertir la afirmación anterior y decir que cuanto más se acerque r2 a 1, más se
acercará el ajuste de la recta de regresión a los puntos.

Y Y = Yc

0 X X
Figura 14.10

Un punto importante a tener en cuenta es que las Y deben estar dispersas, es decir, tener una
distribución. Considere el caso en que Y es igual a una constante m; es decir, Y = m. Entonces,
para cada valor de X, Y = m, y la media aritmética de Y es también Y = m. Así, como muestra la
Figura 14.10, los valores de Y correspondientes a las X caerán sobre la recta dada por Y = m, que
es horizontal. Como se trata de un ajuste perfecto, puede parecer que r2 = 1. Por otro lado, como
es horizontal, puede parecer que r2 = 0. La dificultad aquí es que las Y no tienen una distribución
y X
(Y − Y )2 = 0
lo que hace que los denominadores de nuestras fórmulas sean cero y, por tanto, sin media. En este
caso no tenemos un problema de regresión. El punto principal es que las Y tienen que tener una
distribución o, por decirlo de otra manera, tienen que estar dispersas.
338 Análisis de Regresión Lineal

14.6.5 r2 como medida de linealidad

Una forma alternativa de interpretar este ajuste es centrar la atención en la forma de la dispersión
de los puntos. Cuando r2 se acerca a 1, significa que la dispersión de los puntos se parecerá mucho a
una línea recta, mientras que cuando r2 se acerca a 0, será todo lo contrario a parecerse a una línea
recta. Por lo tanto, podemos interpretar r2 como una medida que indica lo mucho que la dispersión
de los puntos se parece a una línea recta. Podemos expresar esta idea diciendo que r2 es una medida
de la linealidad de los puntos.

14.6.6 Resumen

Por lo tanto, r2 puede interpretarse desde tres puntos de vista. En primer lugar, puede interpre-
tarse como una medida de la cantidad de mejora (en términos de reducción del error total) debida a
la ecuación de regresión. En segundo lugar, puede interpretarse como una medida de la proximidad
del ajuste de la ecuación de regresión a los puntos. Y en tercer lugar, puede interpretarse como una
medida del grado de linealidad de la dispersión de los puntos. Obsérvese cuidadosamente que sólo
estamos destacando tres aspectos diferentes del mismo resultado.
Siempre que se estima una recta de regresión, es habitual escribir r2 junto con ella para mostrar
la cantidad de mejora debida a la regresión, o el grado de ajuste de la recta de regresión a los puntos,
o el grado de linealidad de los puntos. En nuestro ejemplo, tenemos

Yc = 132 + 10X (r2 = 0.97)


X = 0 a 5 pies 3 pulgadas
X en unidades de 1 pulgada

Utilizaremos este formato de colocar r2 al final de la línea de regresión como procedimiento


estándar para indicar las propiedades mencionadas.
Como se ve, hemos utilizado r2 en lugar de r. Se puede utilizar cualquiera de los dos. El r2
muestra inmediatamente la mejora (reducción de la suma total de cuadrados) debida a la regresión
en términos porcentuales. Cuando se utiliza r, es necesario elevar al cuadrado para mostrar la mejora
en términos porcentuales, pero el signo de r nos da información sobre si X e Y varían o no en la
misma dirección. Sin embargo, cuando se da la ecuación de regresión, el signo del coeficiente b nos
proporciona esta información y, por tanto, r2 sin el signo suele ser suficiente.

14.6.7 σ̂Y2 X y r2

Como vimos en la Sección 14.5, σ̂Y2 X expresa la dispersión de las Y en torno a Yc , pero como
no hemos asumido una distribución específica (como la distribución normal) de las Y , no hemos
podido evaluarla. En su lugar, hemos utilizado r2 como medida de la dispersión de las Y alrededor
de Yc y como tal, este r2 ha realizado los servicios de µ̂2Y X .
Sin embargo, en las secciones posteriores en las que asumimos la población Tipo II, podremos
evaluar µ̂2Y X en términos de la distribución normal o de la distribución t, y será importante para
probar la significación de las variables y los parámetros, y también para encontrar intervalos de
confianza.
Por lo tanto, cuando estamos asumiendo la población Tipo I, la utilidad de µ̂2Y X es limitada, y
en su lugar podemos utilizar r2 como una medida de la dispersión de los Y alrededor de Yc .
14.6. Interpretación de σ̂Y2 X y del coeficiente de determinación r2 339

Sin embargo, está bastante claro que µ̂2Y X y r2 están relacionados y esta relación puede verse
fácilmente como sigue:
A partir de las ecuaciones (14.36) y (14.37) encontramos que
P
(Y − Yc )2
P = 1 − r2
(Y − Y ) 2

o X X
(Y − Yc )2 = (1 − r2 ) (Y − Y )2 (14.42)
Hemos visto que
1 X
σ̂Y2 X = (Y − Yc )2 (14.43)
n−2
es un estimador insesgado de la varianza residual σ̂Y2 X . También sabemos que
1 X
σ̂Y2 = (Y − Y )2
n−1
es un estimador insesgado de
1 X
σ̂Y2 = (Y − µY )2
N
que es la varianza poblacional de Y . Por tanto, (??) puede reescribirse como
n−1
σ̂Y2 X = (1 − r2 )σ̂Y2 (14.44)
n−2
Si n es lo suficientemente grande para que podamos establecer (n − 1)/(n − 2) = 1, la ecuación
(14.43) se convierte en
σ̂Y2 X = (1 − r2 )σ̂Y2

Esto muestra que la varianza de Y , σ̂Y2 , se ha reducido en r2 · 100 por ciento, y que hay una
(1 − r2 ) · 100% parte residual no explicada de σ̂Y2 después de que se haya ajustado la ecuación de
regresión. Cuando r2 = 1, σ̂Y2 ha sido completamente explicado (eliminado o reducido), y cuando
r2 = 0, nada ha sido explicado (eliminado o reducido) al ajustar la línea de regresión.
Como se ve, en lugar de utilizar σ̂Y2 X para explicar la cercanía del ajuste o la mejora aportada por
la ecuación de regresión, es mucho más fácil utilizar r2 . Esto es así especialmente cuando se supone
una población Tipo I y no se especifica la distribución de Y . Nótese que este r2 es simplemente un
estadístico que muestra la cantidad de reducción de la suma total de cuadrados debida a la regresión,
y no depende de una distribución específica de Y .

14.6.8 Procedimientos de cálculo de σ̂Y2 X y r2

Los procedimientos computacionales de σ̂Y2 X , r2 , y otras medidas que se discutirán pueden


obtenerse construyendo la siguiente tabla basada en la identidad que derivamos. Es decir
X X X
(Y − Y )2 = (Y − Yc )2 + (Yc − Y )2
| {z } | {z } | {z }
SY Y SE SR

Suma de Grados
Fuente Cuadrados de Libertad Varianza
Regresión SR k=1 SR /1 = SR′

Error SE n−k−1=n−2 SE /(n − 2) = σ̂Y2 X


Total SY Y n−1 SY Y /(n − 1)
340 Análisis de Regresión Lineal

1 X
σ̂Y2 X = (Y − Yc )2
n−k−1
SE
=
n−k−1
P
(Yc − Y )2 SR
r2 = P =
(Y − Y ) 2 S YY
X X 2 X 1 X 2
SY Y = (Y − Y )2 = Y2−n·Y = Y2− ·( Y)
n
Como Y= Y + b(X − X), encontramos SR por
X X
SR = (Yc − Y )2 = b2 (X − X)2
X
= b[b (X − X)2 ]
P
(X − X)(Y − Y ) X
=b (X − X)2
(X − X)2
X
SR = b (X − X)(Y − Y ) (14.45)
P
[ (X − X)(Y − Y )]2
SR = P (14.46)
(X − X)2

2
SXY
SR =
SXX

Por lo tanto, SR se puede encontrar a partir de (14.45) o (14.46). Entonces SE se encuentra por

S e = S Y Y − SR
(14.47)
= SY Y − bSXY

14.6.9 Coeficiente de determinación ajustado r̄2

Cuando el número de grados de libertad es pequeño, r2 tiene un sesgo positivo. Es decir, r2


tiende a ser un poco grande. Un estimador insesgado resulta ser

varianza residual
r̄2 = 1 −
Pvarianza total
(Y − Yc )2
=1− P n−2 2 (14.48)
(Y − Y )
n−1
P
(Y − Yc )2 (n − 1)
=1− P
(Y − Y )2 (n − 2)

El r2 fue P
(Y − Yc )2
r =1− P
2
(Y − Y )2
Como se ve, tenemos el factor de ajuste (n − 1)/(n − 2) en el segundo término del lado derecho.
Como (n − 1)/(n − 2) > 1, r̄2 será menor que r2 .
14.6. Interpretación de σ̂Y2 X y del coeficiente de determinación r2 341

El (n − 1)/(n − 2) muestra
n−1 grados de libertad para SY Y
=
n−2 grados de libertad paraSE
Y a medida que n sea grande, se acercará a 1, y la diferencia entre r2 y r̄2 disminuirá.
El cálculo de r̄2 se obtiene directamente de la tabla que muestra la suma de cuadrados. Es decir,

Suma de Grados
Fuente Cuadrados de Libertad Varianza
Regresión SR k=1 SR /1 = SR′

Error SE n−k−1=n−2 SE /(n − 2) = σ̂Y2 X


Total SY Y n−1 SY Y /(n − 1)

µ̂2Y X
r̄2 = 1 −
SY′ Y

El r2 se obtiene mediante
SE
r2 = 1 −
SY Y
Por lo tanto, a la hora de encontrar una recta de regresión, es aconsejable establecer la tabla anterior,
y también calcular tanto r2 como r̄2 .

Ejemplo No. 2
Ilustremos el uso de estas fórmulas con el ejemplo de los pesos y las alturas. Tenemos
X Y X2 Y −Y =Y′ (Y ′ )2 XY ′
5 pies 3 pulg. 0 130 0 -20 400 0
4 pulg. 1 145 1 -5 25 -5
5 pulg. 2 150 4 0 0 0
6 pulg. 3 165 9 15 225 45
7 pulg. 4 170 16 20 400 80
10 30 10 1 050 120

Supongamos que ya hemos encontrado

Yc = 132 + 10X
P
Queremos encontrar r2 y σ̂Y2 X . Por lo tanto, necesitamos SE = (Y − Yc )2 que resulta de (14.46)
y (14.47)
X P P P
(X − X)2 (Y − Y )2 − [ (X − X)(Y − Y )]2
(Y − Yc ) =2
P
(X − X)2
X X 1 X 2 1
(X − X)2 = X2 − · ( X) = 30 − · (10)2 = 10
n 5

X
(Y − Y )2
342 Análisis de Regresión Lineal

Observamos que los valores de Y son grandes. Por lo tanto, restamos Y = 150 y dejamos que
Y − Y = Y ′ . Entonces

X X ′ X 1 X ′ 2 1
(Y − Y )2 = (Y ′ − Y )2 = Y ′2 − ·( Y ) = 1050 − · (10)2 = 1030
n 5

X X ′
(X − X)(Y − Y ) = (X − X)(Y ′ − Y )
X 1 X X
= XY ′ − · X· Y′
n
1
= 120 − · 10 · 10 = 100
5

X 10 · 1030 − 1002
(Y − Yc )2 = = 30
10

X X X
(Y − Y )2 = (Y − Yc )2 + (Yc − Y )2
1030 = 30 + 1000

Suma de Grados Cuadrado de


Fuente Cuadrados de Libertad la Media
Regresión SR = 1000 k=1 1000/1 = SR′

Error SE = 30 n−k−1=5−2 30/3 = 10 = SE′

Total SY Y = 1030 n−1=5−1 1030/4 = 257.7 = SY′ Y

1 X ′
σ̂Y2 X = (Y − Yc )2 = SE = 10
n−2

σ̂Y X = 10 = 3.16
P
(Y − Yc )2 SE
r2 = 1 − P =1−
(Y − Y ) 2 S YY
30 1000
=1− = = 0.97
1030 1030
S′ 10
r̄2 = 1 − ′ E = 1 − = 0.96
SY Y 257.5

Yc = 132 + 10X, r̄2 = 0.96, σ̂Y X = 3.16

Origen a los 5 pies y 3 pulgadas.


X está en unidades de 1 pulgada.
14.7. Estimación de σa2 y σb2 343

14.7 Estimación de σa2 y σb2

Hasta ahora hemos encontrado a, b, σ̂Y2 X y r2 , y hemos discutido el significado de la ecuación


de regresión
Yc = a + bX

Vayamos ahora un paso más allá y encontremos las varianzas de los estimadores a y b. Discuta-
mos primero por qué queremos encontrar las varianzas de a y b, en particular de b.

14.7.1 El significado de σb2

A efectos de explicación, supongamos la siguiente población hipotética

X Y
1 2
2 1
3 4
4 3
5 4
6 8

de tamaño N = 6. Los cálculos mostrarán que la recta de regresión de la población es

Yc = −0.13 + 1.09X (14.49)

Los puntos de N = 6 y la ecuación de regresión de la población se representan en la Figura 14.11.


 
6
Seleccionemos ahora muestras de tamaño n = 3. Hay = 20 posibles muestras que pode-
3
mos seleccionar. Supongamos que hemos seleccionado las siguientes cuatro muestras.
X Y X Y X Y X Y
2 1 1 2 3 4 2 1
3 4 4 3 4 3 3 4
5 4 5 4 5 4 6 8
Las líneas de regresión muestrales obtenidas de estas cuatro muestras son

Yc = 0.14 + 0.86X (14.50)

Yc = 1.47 + 0.46X (14.51)


Yc = 3.67 + 0X (14.52)
Yc = −1.73 + 1.65X (14.53)

Estas cuatro líneas de regresión muestrales se han dibujado en la Figura 14.11(a) y se han eti-
quetado como (1), (2), (3) y (4). Como se ve, el coeficiente de regresión poblacional B = 1.09. Los
cuatro coeficientes de regresión de la muestra son

b = 0.86, b′ = 0.46, b′′ = 0, b′′′ = 1.65


344 Análisis de Regresión Lineal

Y Y
(4)
8 8
Población
7 7 Población
6 (1) 6

5 5
(2)
4 4
(3)
3 3

2 2

1 1

1 2 3 4 5 6 7 X 1 2 3 4 5 6 7 X
Figura 14.11

Podemos ver en el diagrama y en los valores de las b que la variación de las líneas de regresión
muestral alrededor de la línea de regresión poblacional y la variación de las b alrededor de B son
muy grandes. Sólo hemos dibujado cuatro de las 20 posibles líneas de regresión muestral, pero los
cálculos mostrarán que las restantes líneas de regresión muestral también mostrarán una variación
muy grande alrededor de la línea de regresión poblacional. Diremos que las líneas de regresión de
la muestra son muy oscilantes.
 
6
Seleccionemos a continuación muestras de tamaño n = 5. Hay = 6 posibles muestras que
5
podemos seleccionar. Dejemos que dos de estas muestras sean las siguientes:
X Y X Y
1 2 1 2
2 1 2 1
4 3 3 4
5 4 4 3
6 8 6 8
Las rectas de regresión muestrales obtenidas de estas dos muestras son:

Yc = −0.42 + 1.12X (14.54)

Yc = −0.38 + 1.24X (14.55)


Estas líneas de regresión muestrales se han dibujado en la Figura 14.11(b). Como se ve, los coefi-
cientes de regresión de la muestra son

b = 1.12 b′ = 1.24

y la dispersión de las b en torno a B = 1.09 se ha reducido considerablemente.


La observación de la Figura 14.11(b) muestra que las dos líneas de regresión de la muestra se han
agrupado más cerca alrededor de la línea de regresión de la población. Hemos calculado sólo dos
de las seis posibles líneas de regresión de la muestra, pero los cálculos mostrarán que las restantes
14.7. Estimación de σa2 y σb2 345

líneas de regresión de la muestra también se agruparán estrechamente alrededor de la ecuación de


regresión de la población.
De la Figura 14.11 (a) y (b), vemos que cuando la variación de las b es grande, las líneas de
regresión de la muestra muestran un gran grado de bamboleo alrededor de la línea de regresión de
la población, y por lo tanto serán menos fiables como estimaciones de la línea de regresión de la
población. Cuando la variación de las b es pequeña, muestran un pequeño grado de bamboleo y,
por tanto, serán más fiables como estimaciones de la línea de regresión de la población.
La medida que muestra si la variación de las b es pequeña o grande es la varianza de b. Como
sabemos que E(b) = B, la varianza de b se define como

1 X
M
σb2 = (b − B)2 (14.56)
M
donde M es el número de todas las muestras posibles de tamaño n seleccionadas de la población de
tamaño N . Cuando la variación de las b es grande, σb2 será grande, y cuando la variación es pequeña,
la σb2 será pequeña.
Por lo tanto, está claro que σb2 es un estadístico importante que es necesario para evaluar la fia-
bilidad de una línea de regresión de la muestra como una estimación de la línea de regresión de la
población. Cuando σb2 es pequeño, las ecuaciones de regresión de la muestra se agrupan estrecha-
mente alrededor de la línea de regresión de la población, y podemos esperar que una ecuación de
regresión de la muestra sea una buena estimación de la línea de regresión de la población.
Cuando σb2 es grande, indica un gran grado de oscilación y podemos esperar que una ecuación
de regresión de la muestra sea una mala estimación de la línea de regresión de la población.
El σb2 como se indica en (14.55), es una fórmula básica de definición. Evidentemente, como
no conocemos B, que es lo que intentamos estimar, y M será muy grande, no se puede utilizar la
fórmula 14.55. Sin embargo, este σb2 también es igual a la fórmula teórica

σY2 X
σb2 = Pn (14.57)
(X − X)2
P
donde σb2 es la varianza residual de la población y la suma (X − X)2 se toma sobre la muestra.
(Recordemos que las X son variables fijas P en nuestro caso y no variables aleatorias). Su ventaja es
que muestra cómo σb2 depende de σY2 X y (X − X)2 , y también muestra una forma de estimar
σb2 .
El estimador de σb2 es
σ̂Y2 X
σ̂b2 = Pn (14.58)
(X − X)2
donde
1 X
n
σ̂Y2 X = (Y − Yc )2
n−2
que sabemos que es el estimador insesgado de σY2 X .
P
Como se ve, σ̂b2 será pequeño cuando σ̂b2 sea pequeño y/o (X − X)2 sea grande. Como σ̂Y2 X
es un estimador de σY2 X que es un parámetro de la población y constante, podemos esperar que el
tamaño de σ̂Y2 X no varíe mucho según el tamaño de la muestra.
P
(X − X)2 , sin embargo, será claramente mayor a medida que el tamaño de la muestra sea
mayor. Por lo tanto, a medida que el tamaño de la muestra n sea mayor, σ̂b2 será menor. Esto ya lo
346 Análisis de Regresión Lineal

hemos visto gráficamente en la Figura 14.11(a) y (b) donde, cuando n se incrementó de n = 3 a


n = 5, la dispersión de las líneas de regresión de la muestra se redujo considerablemente.
En cuanto a la distribución muestral de b, afirmamos sin pruebas que cuando Y (o ϵ) se dis-
tribuye normalmente, b también se distribuirá normalmente. En la presente discusión, suponemos
que se trata de una población Tipo I en la que no se especifica la distribución de Y . En la Sección
14.8 consideraremos el problema de la regresión lineal suponiendo una población Tipo II en la que
se supone que Y se distribuye normalmente. Por lo tanto, para nuestro caso actual no podemos es-
pecificar la distribución de b y no podemos evaluar el intervalo de confianza según una determinada
distribución de probabilidad.
Sin embargo, podemos, sacrificando la rigurosidad, construir un intervalo de confianza aproxi-
mado como sigue
b − 2σ̂b < B < b + 2σ̂b

Suponiendo una muestra bastante grande (n > 30), podemos tratar el intervalo de confianza
como si las b estuvieran distribuidas normalmente y considerar el intervalo como un intervalo de
confianza del 95% y obtener una medida aproximada de la fiabilidad. Volveremos a considerar este
problema en el Capítulo 23.
Por tanto, después de encontrar la recta de regresión

Yc = a + bX

debemos encontrar dos medidas para evaluar la utilidad de esta recta de regresión. Una es el coefi-
ciente de determinación P
(Yc − Y )2
r = P
2
(Y − Y )2
y la segunda es la varianza de b,
σ̂Y2 X
σ̂b2 = Pn
(X − X)2
r2 muestra la mejora (o la reducción del error total) que aporta la función de regresión. σ̂b2 muestra
la fiabilidad de b.
La relación entre r2 y σ̂b2 es la siguiente:
Sabemos que cuando r2 es grande, entonces σ̂Y2 X será pequeño, y por tanto σ̂b2 será pequeño.
Es decir, cuando r2 es grande, σ̂b2 será pequeño.
Pero un r2 pequeño no significa necesariamente un σ̂b2 grande. Un r2 pequeño significa que no
hay
P un ajuste2 estrecho. Por tanto, σ̂ 2 será grande. Pero si se ha seleccionado una muestra grande,
(X − X) será grande y σ̂b será pequeño.
2

Es decir, la recta de regresión


Yc = a + bX
será una buena estimación de
µY X = A + BX
y la b será una estimación fiable de B.
En resumen: Cuando r2 es pequeño, el ajuste de la recta de regresión muestral a los puntos no es
bueno, pero si n es suficientemente grande y como resultado σ̂b2 es pequeño, podemos esperar que la
recta de regresión muestral sea una buena estimación de la recta de regresión poblacional. Cuando
r2 es grande, el ajuste de la línea de regresión de la muestra a los puntos es bueno; además, σ̂b2 será
14.8. Resumen 347

pequeño, y podemos esperar que la ecuación de regresión de la muestra sea una buena estimación
de la línea de regresión de la población.
Los resultados anteriores suelen expresarse escribiendo

Yc = a + bX (r2 )
(σ̂b2 )

Es decir, poniendo r2 (o r̂2 ) al final de la ecuación y σ̂b2 debajo del coeficiente b.

14.7.2 El significado de σa2

La varianza de a es P
(σY2 X )( X 2 )
σa2 = P
n (X − X)2
donde la suma se realiza sobre la muestra. Como a no suele ser importante, no discutiremos la
construcción del intervalo de confianza de A. Nos limitaremos a señalar que, al igual que en el caso
de σb2 , σa2 , será menor a medida que el tamaño de la muestra sea mayor.

Ejemplo No. 3

Utilizando los datos de alturas y pesos, encontremos σ̂b2 y σ̂a2 .

(i) σ̂b2

X
n X 1 X 2 1
(X − X)2 = X2 −
( X) = 30 − · (10)2 = 10
n 5
σ̂ 2
10
σ̂b2 = P Y X 2 = =1
(X − X) 10
σ̂b = 1

(i) σ̂a2
P
σ̂Y2 X ( X 2 ) 10 · 30
σ̂a2= P = =6
n (X − X)2 5 · 10
σ̂a = 2.4
Yc = 132 + 10X (r̄2 = 0.96)
(σ̂b = 1)

14.8 Resumen

Yc = a + bX
348 Análisis de Regresión Lineal

1. Ecuaciones normales
X X
na + b X= Y
X X X
a X +b X2 = XY

2. b y a
P
(X − X)(Y − Y ) SXY
b= P =
(X − X) 2 S XX
a = Y − bX

3. σ̂Y2 X , r2 , r̄2 X X X
(Y − Y )2 = (Y − Yc )2 + (Yc − Y )2

Suma de Grados de Media


Fuente Cuadrados Libertad Cuadrada
Regresión SR k=1 SR /1 = SR′

Error SE n−k−1=n−2 SE /(n − k − 1) = SE′

Total SY Y n−1 ′
SY Y /(n − 1) = SY Y

4.

14.9 Estimación de A y B - Población Tipo II

La población Tipo II asume que las subpoblaciones se distribuyen normalmente y que cada una
tiene una varianza de σ 2 . Por lo tanto, el modelo de regresión de la población Tipo II es el mismo
que el de la población Tipo I, excepto que Y (o, podemos decir, ϵ) se distribuye normalmente. Y
para estimar los coeficientes de regresión A y B, podemos utilizar el teorema de Gauss - Markoff y
utilizar el método de los mínimos cuadrados.
Sin embargo, como se ha especificado que la subpoblación es normal, conocemos la forma de
su distribución de frecuencias (función de densidad) y, por tanto, podemos aplicar el método de
máxima verosimilitud.
Resulta que este método de máxima verosimilitud nos dará un conjunto de ecuaciones normales
idénticas a las obtenidas por el método de los mínimos cuadrados. Es decir
X X
na + b X= Y
X X X
a X +b X2 = XY

y obtenemos

 = a = Y − bX
P
(X − X)(Y − Y )
B̂ = b = P
(X − X)2

como estimadores de máxima verosimilitud de A y B.


14.9. Estimación de A y B - Población Tipo II 349

Por lo tanto, podemos simplemente aplicar el método de los mínimos cuadrados a la población
Tipo II, y llamar a estos estimadores los estimadores de máxima verosimilitud.
Además, también podemos encontrar el estimador de máxima verosimilitud de la varianza re-
sidual σY X . Esto es
1X
σ̂ 2 = (Y − Yc )2
n
Este, sin embargo, es un estimador sesgado de σY2 X , y puede demostrarse que ajustándolo como
sigue
1 X
σ̂Y2 X = (Y − Yc )2
n−2
se convierte en un estimador insesgado de σY2 X , donde n − 2 son los grados de libertad. Como se
ve, esto es también lo mismo que el estimador que encontramos para la población Tipo I.
Dado que, como se ve, todos los resultados de la estimación son los mismos que en el caso de
la población Tipo I, las diversas discusiones relativas a σ̂Y2 X , r2 y la relación básica entre los errores
también son válidas para esta población Tipo II.
Además, debido a este supuesto de normalidad, ahora podemos evaluar σ̂Y2 X en términos de la
distribución normal (y de la distribución t), encontrar las distribuciones de a, b, Yc e Y , y construir
pruebas e intervalos de confianza para A, B, µY X e Y . Podemos plantear el problema de regresión
en nuestro caso actual como sigue:
Yc = a + bX

1. Estimar a y b.

2. Calcular σ̂Y2 X .

3. Calcula r̄2 .

4. Prueba la significación de a y b.

5. Encuentre el intervalo de confianza para B.

6. Encuentre el intervalo de confianza para µY X .

7. Encuentre el intervalo de confianza para Y .

Pero antes de continuar, detengámonos aquí un momento y planteemos la pregunta: ¿Cuál es la


justificación para suponer que el término de perturbación ϵ se distribuye normalmente?
Buscaremos la justificación en el teorema del límite central que discutimos en el Capítulo 6.
Recordemos que con la ayuda del teorema central del límite pudimos explicar (no demostrar) por
qué el CI se distribuye normalmente. Argumentamos que un número muy grande de causas inde-
pendientes, cada una de ellas con un efecto muy pequeño, afectaban al coeficiente intelectual de un
niño, y se creía que esto explicaba por qué el coeficiente intelectual tenía una distribución normal.
En muchos casos, los diversos problemas económicos y empresariales a los que se aplica el análi-
sis de regresión lineal tienen variables que se ven afectadas por un número muy grande de pequeños
efectos independientes. De ahí que podamos utilizar el teorema del límite central como explicación
de por qué nos justificamos al suponer la normalidad del término de perturbación, que es un cajón
de sastre de todos los efectos distintos de la variable independiente principal X.
[La siguiente Sección 14.10 puede omitirse sin pérdida de continuidad. Se sugiere que se lea
después del capítulo 22].
350 Análisis de Regresión Lineal

14.10 Pruebas relativas a a y b

Como se mencionó en la Sección 14.7, cuando suponemos la población Tipo II, donde Y se
distribuye normalmente, la distribución muestral de a y b también será normal. Es decir, tenemos
las siguientes propiedades

1. a y b son estimadores insesgados de A y B. Es decir

E(a) = A y E(b) = B

2. La distribución muestral de a y b son normales con varianzas


P
(σY2 X )( X 2 )
σa = P
2
n (X − X)2
σ2
σb2 = P Y X 2
(X − X)

y los estimadores se obtienen sustituyendo σY2 X por σ̂Y2 X .

14.10.1 Pruebas de hipótesis sobre B

El coeficiente B suele ser el parámetro que interesa a los estadísticos económicos. Por ejemplo,
dejemos que la función de regresión de la población sea

µY X = A + BX

donde µY X es el consumo y X es el ingreso. Entonces B muestra el aumento del consumo


cuando se produce un aumento unitario (un aumento de un dólar) en el ingreso. Se suele denominar
propensión marginal al consumo. Otro ejemplo: µY X es el rendimiento esperado del trigo y X es
la cantidad de fertilizante. Entonces B muestra el aumento del rendimiento del trigo cuando se
produce un aumento unitario del fertilizante.
¿Pero qué pasa si B = 0? Esto significa, gráficamente, que la ecuación de regresión de la pobla-
ción es horizontal, lo que implica que X y Y son independientes entre sí. Significa que, sea cual sea
el aumento de la renta, no hay ningún cambio en el consumo; o bien, un cambio en la cantidad de
fertilizante no tiene ningún efecto en el rendimiento del trigo. Como puede verse, al investigador le
interesa comprobar si B = 0 o no, y la distribución muestral de b le permite hacerlo. Ilustrémoslo
con nuestro ejemplo de las alturas y los pesos.
La hipótesis nula H0 es que B = 0, y la hipótesis alternativa H1 es que B 6= 0:

H0 :B = 0
H1 :B 6= 0

Dado que b se distribuye normalmente con la media E(b) = B y la varianza σb2 como se ha indi-
cado anteriormente, podemos graficar la distribución muestral como se muestra en la Figura 14.12.
Sea B = 0. De nuestros cálculos sabemos que

Yc = 132 + 10X
14.10. Pruebas relativas a a y b 351

b − E(b)
z=
σ̂b
b−B
=
σ̂b
b
= E(b) b b
σ̂b =B=0 = 10 lb.

Figura 14.12

y b = 10 lb. Si E(b) = B = 0, ¿cuál es la probabilidad de que tengamos un b mayor que 10 lb? Para
ello encontramos (Figura 14.12)
σ̂b es
σ̂Y2 X
σ̂b2 = P
(X − X)2
10
= (de cálculos previos)
10
=1

Entonces z se convierte en
10
z= = 10
1
lo que muestra que b = 10 lb. está a 10 desviaciones estándar de E(b) = 0. Así, concluimos que es
altamente improbable que b = 10 lb. provenga de una población con B = 0, y rechazamos H0 . Es
decir, aceptamos H1 , que es B 6= 0.
Hay que tener en cuenta que cuando el tamaño de las muestras es pequeño, debemos utilizar la
distribución t en lugar de la normal porque estamos utilizando µ̂Y X . Pero supondremos que todas
las muestras son grandes, y la diferencia entre la distribución t y la distribución normal para mues-
tras grandes es lo suficientemente pequeña como para permitirnos utilizar la distribución normal.
La distribución t se analiza en el Capítulo 18.
También podemos probar la hipótesis de que B 6= 0. El procedimiento es el mismo que el
anterior, es decir, dejar que
b−B
t=
σ̂b
donde la estadística t tiene una distribución t con n−2 grados de libertad. Utilizando la tabla t (Tabla
3 del Apéndice), podemos encontrar la probabilidad de seleccionar una muestra con un coeficiente
de regresión muestral mayor que b a partir de una población con un coeficiente de regresión B. Si
la probabilidad es muy pequeña (digamos, menor que α = 5 por ciento), entonces rechazamos la
hipótesis. Si la probabilidad es mayor que α, aceptamos la hipótesis.

14.10.2 Intervalo de confianza para B

Aplicando el método de los mínimos cuadrados, hemos estimado B mediante el coeficiente de


regresión muestral b y hemos encontrado que es b = 10 lb. Esto es una estimación puntual, y una
deficiencia de la misma es que no tenemos un medio para medir la fiabilidad de b como estimación
de B. Pero, utilizando la estimación por intervalos, podemos encontrar una medida de fiabilidad.
Expliquemos esto, utilizando nuestra ilustración de las alturas y los pesos.
352 Análisis de Regresión Lineal

La recta de regresión muestral es

Yc = 132 + 10X (14.59)

y b = 10 lb. Como la distribución de


b−B
t=
σ̂b
tiene una distribución t con n − 2 grados de libertad,

b−B
P [−t0.025 < < t0.025 ] = 0.95 (14.60)
σ̂b

donde t0.025 corresponde a α/2 = 5/2 = 2.5 por ciento y se obtiene de la tabla t. Obsérvese
que tenemos un 2.5 por ciento en cada cola y, por tanto, un total de α = 5 por ciento. La ecuación
(14.59) se convierte en

P [b − t0.025 σ̂b < B < b + t0.025 σ̂b ] = 0.95 (14.61)

En nuestro caso actual, sabemos que b = 10 lb., σ̂b = 1 lb., y t0.025 (para n − 2 = 5 − 2 = 3
grados de libertad) es 3.18; encontramos el intervalo de confianza del 95 por ciento como

10 − 3.18 · 1 < B < 10 + 3.18 · 1


(14.62)
6.82 < B < 13.18

Es decir, B está entre 6.82 lb. y 13.18 lb. con un coeficiente de confianza del 95 por ciento. Esto
significa que si se seleccionan 100 muestras de tamaño 5 y se construyen 100 intervalos de confianza

b − t0.025 σ̂b < B < b + t0.025 σ̂b (14.63)

se espera que 95 de ellos contengan el verdadero parámetro poblacional B.


Obsérvese que a medida que el tamaño de la muestra n se hace más grande, t0.025 y σ̂b se hacen
más pequeños, y por lo tanto el intervalo (14.63) se hará más pequeño.
Los procedimientos para probar las hipótesis y encontrar los intervalos de confianza para A son
similares a los de B y, por lo tanto, se omiten.
[La siguiente Sección 14.11 puede omitirse sin pérdida de continuidad. Se sugiere que se lea
después del capítulo 22].

14.11 Intervalo de confianza para µY X

Yc es una estimación de µY X = E(Y |X), y por lo tanto es deseable saber cuán precisa y con-
fiable es como una estimación de µY X . Esto se demuestra construyendo un intervalo de confianza
con Yc . Para encontrar el intervalo de confianza de µY X , construimos el estadístico

(Yc − µY X ) − E(Yc − µY C ) Yc − µY X
t= = (14.64)
σ̂(Yc − µY X ) σ̂(Yc − µY X )

donde p
σ̂(Yc − µY X ) = V ar(Yc − µY X )
14.11. Intervalo de confianza para µY X 353

p
Es decir, σ̂(Yc − µY X ) es un estimador de V ar(Yc − µY X ). Obsérvese también que

E(Y − c − µY X ) = E(Yc ) − E(µY X ) = µY X − µY X = 0

Afirmamos sin pruebas que (14.64) tiene una distribución t con n − k − 1 grados de libertad. Por
conveniencia notacional, establezcamos

σ̂(Yc − µY X ) = σ̂d

Entonces, como (14.64) tiene una distribución t, puede escribirse como


 
Yc − µY X
P −t < <t =1−α (14.65)
σ̂d

Como hemos explicado en la Sección 8.8, (14.65) conduce a

Yc − tα/2 σ̂d < µY X < Yc + tα/2 σ̂d2 (14.66)

que es el (1 − α) · 100 por ciento del intervalo de confianza de µY X .


Por lo tanto, para encontrar el intervalo de confianza (14.64) para µY X , necesitamos evaluar el
estimador σ̂d . Así que hagamos esto a continuación.
Para ello, primero encontramos la varianza de (Yc = µY X que es

V ar(Yc − µyx ) = E[(Yc − µyx )]2


(14.67)
= E(YC − µY X )2

Pero sabemos que

Yc = a + bX
µY X = A + BX

Sustituyendo esto en (14.67) obtenemos

V ar(Yc − µY X ) = E[(a − A) + (b − B)X]2


(14.68)
= E(a − A)2 + X 2 E(b − B)2 + 2XE(a − A)(b − B)

Ya hemos encontrado en el apartado 14.7


2
!
1 X
E(a − A)2 = V ar(a) = +P σY2 X
n (X − X)2
σY2 X
E(b − B)2 = V ar(b) = P
(X − X)2

En cuanto al tercer término de (14.66), observamos que X está dado. Así,

2X E(a − A)(b − B) = 2XCov(a, b)

Cov(a, b) se explica en la página 457. Si evaluamos Cov(a, b), podemos encontrar el tercer tér-
mino de (14.68), y por lo tanto encontrar V ar(Yc − µY X ).
354 Análisis de Regresión Lineal

Para encontrar Cov(a, b), observamos que


Yi = A + BX + ϵ
X X X X
Y = A+B X+ ϵ

Si dividimos entre n, obtenemos


Y = A + BX + ϵ̄
De la discusión anterior (p. 401) sabemos que
Y = a + bX
Así, a partir de las dos ecuaciones anteriores, encontramos
a + bX = A + BX + ϵ̄
a − A = −(b − B)X + ϵ̄
Usando esto, Cov(a, b) se convierte en
Cov(a, b) = E(a − A)(b − B)
= E[−(b − B)2 X + Eϵ̄(b − B)]
Sabemos que ϵ̄ y b son independientes. Por lo tanto,
E(b − B)ϵ = E(b − B)E(ϵ̄) = 0
y Cov(a, b) se convierte en
Cov(a, b) = −XE(b − B)2 = −XV ar(b)
−X
=P σY2 X
(X − X)2
Por lo tanto,
V ar(Yc − µY X ) = V ar(a) + X 2 V ar(b) + 2XCov(a, b)
2
!
1 X σY2 X 2X
= +P σ 2
Y X + P X2 − P σY2 X X
n (X − X) 2 (X − X) 2 (X − X)2
σY2 X (X − X)2 2
= +P σY X
n (X − X)2
= σd2

σd2 es un parámetro poblacional. Por lo tanto, necesitamos encontrar un estimador de σd2 . Sea el
estimador  
1 (X − X)2
σ̂d2 = +P σ̂Y2 X (14.69)
n (X − X) 2

Tomando la expectativa de σ̂d2 encontramos


 
1 (X − X)2
2
E(σ̂d ) = + P E(σ̂Y2 X )
n (X − X)2
 
1 (X − X)2
= + P σ̂Y2 X
n (X − X)2
= σd2
14.11. Intervalo de confianza para µY X 355

Por lo tanto, (14.69) es un estimador insesgado de σd2 , y es el estimador deseado de σd2 que
buscamos. Utilizando esto podemos calcular el intervalo de confianza dado por (14.68).
Ilustrémoslo como sigue.
Caso 1. X = X
En este caso en el que X − X = 0, la varianza σ̂d2 se convierte en

σ̂ 2
σ̂d2 =
n
En nuestro ejemplo de altura y peso, sabemos que σ̂Y2 X = 10 y n = 5. Por tanto,

10
σ̂d2 = =2
5
Además, como
Yc = Y + b(X − X) = Y = 152
y t0.025 = 3.18 para n − 2 = 5 − 2 = 3 grados de libertad, el intervalo de confianza del 95 por
ciento es
√ √
152 − 3.18 · 2 < µY X < 152 + 3.18 · 2
(14.70)
147.52 < µY X < 156.48

La interpretación es: Si se seleccionan 100 muestras y se construyen los intervalos de confianza


del 95 por ciento (14.66), deberíamos esperar que 95 de ellas contienen µY X = E(Y |X = 2). El
intervalo de confianza (14.70) es uno de los 100 intervalos de este tipo.
La Figura 14.14 muestra el intervalo de confianza como AB. Obsérvese que los puntos A y B
se miden a partir de Yc : es decir

A = Yc − t0.025 σ̂d

= 152 − 3.18 · 2 = 147.52

B = Yc + t0.025 σ̂d

= 152 + 3.18 · 2 = 156.48

Y Distribución
de Yc

X X

Figura 14.13
356 Análisis de Regresión Lineal

156.48 B

147.52 A

X X

Figura 14.14

Caso 2. X 6= X
Consideramos ahora subpoblaciones distintas de la que corresponde a X = X. Consideremos
la subpoblación correspondiente a 5′ 6′′ (X = 3).
Por nuestros cálculos anteriores (Ejemplo 2, apartado 14.6) sabemos que
X
σ̂Y2 X = 10, n = 5, (X − X)2 = 10, X=2

Así, a partir de (14.69), cuando X = 3, estimamos


 
1 (3 − 2)2
σ̂d2 = + · 10
5 10
=3

Utilizando esta varianza estimada, el intervalo de confianza del 95 por ciento es

Yc − t0.025 σ̂(σ̂d ) < µY X < Yc + t0.025 σ̂(σ̂d ) (14.71)

En nuestro caso actual, en el que X = 3, Yc es

Yc = 132 + 10X = 162

Por lo tanto, el intervalo de confianza es, ya que n − 2 = 5 − 2 = 3 grados de libertad,


√ √
162 − 3.18 · 3 < µY X < 162 + 3.18 · 3
(14.72)
156.5 < µY X < 167.5

La interpretación es: Si se seleccionan 100 muestras de tamaño 5 y se construyen los intervalos


de confianza (14.69), que corresponden a X = 3, debemos esperar que 95 de ellos contengan la
verdadera media µY X = E(Y |X = 3). El intervalo (14.70) es uno de los 100 intervalos de este
tipo.

Ejemplo No. 1
Hallemos los intervalos de confianza que corresponden a las otras X y mostremos los
intervalos de confianza en forma de diagrama.
14.11. Intervalo de confianza para µY X 357

Hoja de cálculo
Altura X Y Yc σ̂Y2 X σ̂d2
5’3” 0 130 132 10 6
5’4” 1 145 142 10 3
5’5” 2 150 152 10 2
5’6” 3 165 162 10 3
5’7” 4 170 172 10 6
10 760

(i) X = 0

Yc = 132 + 10X = 132 + 10 · 0 = 132


σ̂Y2 X σ̂ 2
σ̂d = + (X − X)2 P Y X 2
n (X − X)
10 10
= + (0 − 2)2 · =6
5 10

El intervalo de confianza del 95 por ciento es

Yc − t0.025 σ̂d < µY X < Yc + t0.025 σ̂d


√ √
132 − 3.18 · 6 < µY X < 132 + 3.18 · 6
124.21 < µY X < 139.79

(ii) X = 1

Yc = 132 + 10 · 1 = 142
10 10
σ̂d2 = + (1 − 2)2 · =3
√ 5 10 √
142 − 3.18 · 3 < µY X < 142 + 3.18 · 3
136.5 < µY X < 147.5

(iii) X = 2. Este es el caso en el que X = X.

Yc = 132 + 10 · 2 = 152 = Y
σ̂d2 = σ̂ 2 (Y )
10 10
= + (2 − 2)2 · =2
√ 5 10 √
152 − 3.18 · 2 < µY X < 152 + 3.18 · 2
147.52 < µY X < 156.48

(iv) X = 3

Yc = 132 + 10 · 3 = 162
10 10
σ̂d2 = + (3 − 2)2 · =3
√ 5 10 √
162 − 3.18 · 3 < µY X < 162 + 3.18 · 3
156.5 < µY X < 167.5
358 Análisis de Regresión Lineal

(v) X = 4
Yc = 132 + 10 · 4 = 172
10 10
σ̂d2 = + (4 − 2)2 · =6
√ 5 10 √
172 − 3.18 · 6 < µY X < 172 + 3.18 · 6
164.21 < µY X < 179.79

Los intervalos de confianza se representan en la Figura 14.15. Como se puede ver cuando se unen
los puntos, obtenemos un cinturón de confianza que es simétrico en anchura alrededor del valor de
X = X. Observe cuidadosamente que este cinturón de confianza se construyó a partir de una sola
muestra. Cada vez que se seleccione una nueva muestra, habrá un nuevo cinturón de confianza.
La interpretación del cinturón de confianza es la misma que la del intervalo de confianza. Es de-
cir, si se seleccionan 100 muestras y se calculan 100 cinturones de confianza, esperamos que apro-
ximadamente 95 de ellos contengan la línea de regresión de la población. El cinturón de confianza
que hemos dibujado es uno de los 100 cinturones de confianza.
Obsérvese también cómo el cinturón de confianza se amplía a medida que se aleja de X = X.
Esto se debe a la cantidad (X − X)2 en la fórmula de la varianza (14.69).

Y
179.79
180

170 Yc = 172

160 162 164.21

150 152

139.79
140 142

130 132
124.21
0 1 X=2 3 4 X
5′ 3′′ 5′ 4′′ 5′ 5′′ 5′ 6′′ 5′ 7′′
Figura 14.15

[La siguiente Sección 14.12 puede omitirse sin pérdida de continuidad. Se sugiere que se lea
después del capítulo 22].

14.12 Intervalo de confianza para Y

En algunos casos, uno puede querer hacer predicciones sobre valores individuales de Y . Por
ejemplo, dado un estudiante que mide 5′ 3′′ (X = 1), ¿cuál es su peso previsto? No estamos pregun-
tando por el peso medio de todos los estudiantes que miden 5′ 3′′ ; estamos preguntando por el peso
de un estudiante individual. Esta pregunta se responde encontrando el intervalo de confianza para
Y.
14.12. Intervalo de confianza para Y 359

El proceso para encontrar este intervalo de confianza es el siguiente: Considere la distribución


de la diferencia Y − Yc . Entonces la media es, para un X dado,
E(Y − Yc ) = E(Y ) − E(Yc )
= µY X − µY X (14.73)
=0

Teniendo en cuenta que


Yc = a + bX
Y = A + BX + ϵ
Y − Yc = (A − a) + (B − b)X + ϵ

la varianza de (Y − Yc ) es, para un X dado:

V ar(Y − Y − c) = E[(A − a) + (B − b)X + ϵ]2


= E(A − a)2 + X 2 E(B − b)2 + E(ϵ2 ) + 2XE(A − a)(B − b) + 2E[(A − a)ϵ] + 2XE[(B − b)ϵ]

Pero sabemos que ϵ es estadísticamente independiente de a y de b. Entonces


E(A − a)ϵ = E(A − a)E(ϵ) = 0
E(B − b)ϵ = E(B − b)E(ϵ) = 0

Por lo tanto (14.73) se convierte en


V ar(Y − Yc ) = var(a) + X 2 V ar(b) + σ 2 + 2XCov(a, b)
Conocemos V ar(a), V ar(b) y Cov(a, b) de la sección anterior. Por lo tanto,
σY2 X (X − X)2 2
V ar(Y − Yc ) = +P σY X + σY2 X
n (X − X)2
 
n+1 (X − X)2 (14.74)
= +P σY2 X
n (X − X)2
= σf2
Un estimador insesgado de V ar(Y − Yc ) se obtiene utilizando σ̂Y2 X y en lugar de σY2 X en (14.74).
Es decir  
n+1 (X − X)2
2
σ̂f = +P σY2 X (14.75)
n (X − X) 2

y podemos ver fácilmente que


E(σ̂f2 ) = σf2
Construyamos ahora el estadístico
(Y − Yc ) − E(Y − Yc )
t= s
1 (X − X)2
σ̂Y X 1 + + P
n (X − X)2
(14.76)
Y − Yc
= s
1 (X − X)2
σ̂Y X 1 + + P
n (X − X)2
360 Análisis de Regresión Lineal

Afirmamos sin pruebas que esta t tiene una distribución t con n − k − 1 = n − 2 grados de libertad.
Así pues,
P [−t0.025 < t < t0.025 ] = 0.95
que se convierte en
 
 
 Y − Yc 
P
−t0.025 < s < t0.025 
 = 0.95 (14.77)
 1 (X − X)2 
σ̂Y X 1+ + P
n (X − X)2

A partir de (14.77) podemos encontrar fácilmente el intervalo de confianza de Y como


s
1 (X − X)2
Yc − t0.025 σ̂Y X 1 + + P
n (X − X)2
s
1 (X − X)2
< Y < Yc + t0.025 σ̂Y X 1 + + P
n (X − X)2
(14.78)

La interpretación de (14.78) es: Si seleccionamos 100 muestras y construimos 100 intervalos de


confianza para una X dada, como se indica en (14.75), deberíamos esperar que 95 de ellos incluyan
una Y correspondiente a la X dada. No estamos diciendo que la probabilidad de Y en el intervalo
de confianza sea 0.95. La probabilidad de que Y esté en el intervalo es 0 o 1.
En nuestra ilustración actual, donde X = 3, Yc = 162 y
   
1 (X − X)2 1 1
σ̂Y X 1 + + P
2
= 10 1 + +
n (X − X)2 5 10
= 13

Como hay n−2 = 5−2 = 3 grados de libertad, t0.025 = 3.18. Por lo tanto, el intervalo de confianza
es, para X = 3,
√ √
162 − 3.18 · 13 < Y < 162 + 3.18 · 13
150.55 < Y < 173.45

De manera similar, los intervalos de confianza para Y correspondientes a X = 0, 1, 2 y 4 pueden


calcularse. Los resultados son los siguientes (Figura 14.16):

X = 0 : 119.28 < Y < 144.72


X = 1 : 130.55 < Y < 153.45
X = 2 : 140.87 < Y < 163.13
X = 3 : 150.55 < Y < 173.45
X = 4 : 159.28 < Y < 184.72

La figura 14.17 es un gráfico de estos intervalos de confianza que, unidos, forman un cinturón
de confianza. La interpretación es la siguiente: Si seleccionamos 100 muestras y construimos 100
cinturones de confianza, deberíamos esperar que 95 de ellos incluyan los valores de Y correspon-
dientes a las X dadas. El cinturón de confianza que dibujamos en la Figura 14.16 es uno de los 100
cinturones de confianza.
14.13. Comentarios sobre el análisis de regresión 361

Y
190
184.72

180

170 Yc = 172

160 Yc = 162
159.28
150 Yc = 152

144.72 Yc = 142
140

130 Yc = 132

120
119.28
0 1 2 3 4 X
Figura 14.16

Observe cuidadosamente que estos valores Y son valores calculados a partir de la ecuación de
regresión.
Cuando se utilizan los intervalos de confianza (14.78) para predecir los valores de Y , si el valor
de X está dentro del intervalo de observaciones, el proceso se denomina interpolación. Si el valor de
X está fuera del rango de las observaciones, el proceso se denomina extrapolación.
Cuando se utiliza el intervalo de confianza para la extrapolación, hay que tener en cuenta que, en
primer lugar, cuando X cae fuera del rango de las observaciones, los supuestos relativos a los valores
de X y Y pueden cambiar. Por ejemplo, supongamos que encontramos una función de consumo
Y = a + bX
donde X es el ingreso y Y es el consumo y los valores de X se toman de 1946 a 1956. Si extrapolamos
a 1944, observamos que éste es un año de guerra, mientras que 1946-56 no son años de guerra. Por
lo tanto, una predicción de 1944 basada en el consumo de 1946 a 1956 probablemente no sea válida
debido al cambio en los supuestos relativos a X y Y .
También observamos que cuanto más se desvíe X de X, más amplio será el intervalo de con-
fianza. Por lo tanto, si se extrapola y X se desvía mucho de X, el valor de Y puede no ser fiable.
Otra crítica es que la suposición de una regresión lineal generalmente es válida sólo para un
rango corto de X, como ya hemos comentado en la página 000. Por lo tanto, cuando la extrapola-
ción se extiende más allá del rango, la suposición lineal puede no ser válida y, por lo tanto, el valor
predicho de Y puede no ser exacto.

14.13 Comentarios sobre el análisis de regresión

1. La idea de la regresión. Supongamos que las personas altas tienden a casarse con personas altas
y que los padres altos tienen hijos altos o más altos, y que lo contrario ocurre con las personas
362 Análisis de Regresión Lineal

bajas. Entonces, después de varias generaciones, la gente se dividirá en dos grupos: un grupo
de personas como los gigantes y un grupo como los enanos.
Por suerte, o por desgracia, esto no ha ocurrido. Por el contrario, los estudios han demostrado
que los padres altos tienen hijos altos pero, en muchos casos, no tan altos como sus padres. Los
hijos tienden a retroceder hacia la altura media de la población. Del mismo modo, los padres
bajos tienden a tener hijos bajos, pero no tan bajos como los padres. Existe una tendencia a
que los hijos retrocedan hacia la estatura media de la población. Esta tendencia a la regresión
hacia la media de ambos extremos condujo a la idea del análisis de regresión.

2. Tipos de poblaciones. Los tipos de poblaciones que teníamos eran una familia de subpoblacio-
nes correspondientes a valores fijos de X en los que el

a) La población Tipo I era aquella en la que no se especificaba la distribución de las sub-


poblaciones.
b) La población Tipo II era aquella en la que se suponía que la distribución de las subpo-
blaciones era normal.

Otro tipo de población es aquella en la que X y Y varían conjuntamente; ésta se denomi-


na distribución bivariante y las ideas del análisis de regresión que aquí se tratan se aplican
también a este tipo de población. La principal diferencia se produce en la interpretación del
coeficiente de correlación. Lo explicaremos con detalle en el Capítulo 15.
3. La función de regresión muestra una relación estocástica. La variable dependiente Y está
relacionada con la variable independiente X de forma estocástica. Con esto queremos decir
que, dado un valor de X, no obtenemos un valor único de Y , sino el valor esperado (prome-
dio) de Y . Cuando la desviación estándar de la regresión es cero, la relación se convierte en
una relación matemática (en contraposición a la estocástica).
4. Extensión a muchas variables. Nuestra presente discusión se limitó a una variable inde-
pendiente X, pero como se explicará en el Capítulo 23, podemos tener más de una variable
independiente.
5. Supuestos. Al aplicar el análisis de regresión, tenga en cuenta las siguientes suposiciones que
hemos hecho.

a) La relación es lineal. Para la regresión no lineal, véase la referencia de la página 1046.


b) Los valores X son fijos y no tienen una distribución. Los casos en los que los valores X
también tienen una distribución se tratan en los Capítulos 15 y 23.
c) Las poblaciones Tipo I y Tipo II.
d) La varianza de Y para cada subpoblación σY2 X que se denomina varianza de regresión
o varianza residual, es igual para todas las subpoblaciones.
e) El término de perturbación ϵ = Y − µY X es independiente y está distribuido (normal-
mente) con media E(ϵ) = 0 y varianza V ar(ϵ) = σY2 X .
CAPÍTULO 15
Análisis de Correlación

Una de las técnicas estadísticas más utilizadas por los estadísticos aplicados es el análisis de
correlación. En sus inicios, se utilizó en problemas biológicos, pero posteriormente se ha utilizado
ampliamente en economía, agricultura y muchos otros campos.
En este capítulo consideraremos el análisis de correlación para dos variables y en el Capítulo 23
se ampliará a los casos en que haya más de dos variables.
El análisis de correlación tiene dos aspectos. El primero es una medida del grado de covariabili-
dad entre dos variables X y Y , y el segundo es una medida del ajuste de una recta de regresión a la
distribución de las observaciones. Este segundo aspecto lo hemos tratado brevemente en el Capítulo
14.
Nuestro problema en este capítulo será definir un coeficiente de correlación poblacional para
poblaciones en las que X y Y varían conjuntamente; mostrar cómo se estima a partir de los datos
de la muestra; y finalmente presentar una prueba de significación para el coeficiente de correlación.
Dado que el procedimiento para estimar el coeficiente de correlación difiere según la distribución
de la población que se suponga, primero discutiremos las poblaciones en las que X y Y varían con-
juntamente y distinguiremos varios tipos de poblaciones; definiremos un coeficiente de correlación
que mida la covariabilidad de X y Y en tales poblaciones; y luego mostraremos cómo se estima a
partir de las diferentes poblaciones. A continuación, mostraremos cómo el coeficiente de correla-
ción definido para el análisis de regresión en el capítulo anterior puede aplicarse a estos nuevos tipos
de poblaciones y, por último, mostraremos cómo se relacionan entre sí estos tipos de coeficientes
de correlación aparentemente diferentes.

15.1 La distribución bivariada

En el Capítulo 14, la población Tipo I era una colección de subpoblaciones de Y correspondien-


tes a X fijas, y la distribución de Y no estaba especificada.
Una extensión natural de la población Tipo I sería aquella en la que las X son también variables
aleatorias al igual que las Y , y en la que las X y las Y varían conjuntamente. Es decir, tenemos una
distribución conjunta de dos variables, o podemos decir que tenemos una distribución bivariada.
Expliquemos esta distribución bivariada. Consideremos las siguientes 4 alturas: 47, 48, 49 y 50
pulgadas y que las frecuencias de aparición son las que se muestran en la tabla adjunta.

363
364 Análisis de Correlación

X
Altura, pulgadas Frecuencia
47 1
48 2
49 3
50 2
8

La distribución de las alturas (X) puede mostrarse mediante un histograma, como en la Figu-
ra 15.1. Hay 8 personas, y a cada persona se le asocia 1 variable, a saber, la altura (X).

f
3
3
2 2
2
1
1

X1 X2 X3 X4 X5 X

Figura 15.1

Asociemos ahora 2 variables a cada persona, la altura (X) y el peso (Y ), y supongamos los 4
pares de valores de X y Y en la tabla adjunta, que muestra las frecuencias de aparición de cada
par de valores de X y Y . Ahora que hay 2 variables en lugar de 1, la distribución de frecuencias se
muestra como un histograma tridimensional, como en la Figura 15.2. (Obsérvese que deberíamos
tener columnas con las barras que hemos dibujado en el centro de la Figura 15.2, pero por brevedad,
sólo mostraremos las barras. Se pide al alumno que visualice las columnas que faltan).

X Y
Altura, pulgadas Peso, libras Frecuencia
X1 = 47 Y1 = 41 1
X2 = 48 Y2 = 42 2
X3 = 49 Y3 = 43 3
X4 = 50 Y4 = 44 2
8

En lugar de tener simplemente un eje X, ahora tenemos un plano X −Y , y la altura de las barras
muestra las frecuencias de cada evento, que está formado por un par (X, Y ). Un punto en el plano
indica un suceso.
Volvamos a escribir la tabla anterior para que corresponda a la Figura 15.2. Tenemos:
Esta tabla muestra la frecuencia de los sucesos (Xi , Yj ), i, j = 1, 2, 3, 4. Como se ve en la tabla,
la frecuencia del suceso (X2 = 48 pulgadas, Y3 = 43 libras) es 0, la frecuencia del suceso (X4 = 50
pulgadas, Y4 = 44 libras) es 2, y así sucesivamente. En términos de frecuencias relativas, esta tabla
se convierte en:
15.1. La distribución bivariada 365

3
Y

2
Y4
Y3
1 Y2
Y1

X1 X2 X3 X4 X5 X

Figura 15.2

Altura, X pulgadas Frecuencia


47 48 49 50 de Yj
Peso, Y libras

41 1 0 0 0 1
42 0 2 0 0 2
43 0 0 3 0 3
44 0 0 0 2 4
Frecuencia 1 2 3 2 8
de Xi

Cuadro 15.1

Por lo tanto, podemos decir que la probabilidad del suceso (X2 = 48 pulgadas, Y3 = 43 libras)
es f (X2 , Y3 ) = 0; la probabilidad del suceso (X4 = 50 pulgadas, Y4 = 44 libras) es f (X4 , Y4 ) =
2/8, y así sucesivamente.
Utilizando los símbolos de las probabilidades, esto puede expresarse como

P (X = X2 , Y = Y3 ) = f (X2 , Y2 ) = 0
2
P (X = X4 , Y = Y4 ) = f (X4 , Y4 ) =
8

y así sucesivamente. Como se ve, hay en total 4 · 4 = 16 pares de alturas y pesos, y 16 probabilidades
correspondientes. Estas probabilidades nos dan una distribución de probabilidad de los 16 pares de
(X1 , Yj ), y este sistema de 16 ecuaciones que muestra la distribución de probabilidad de los 16 pares
de (Xi , Yj ) se llama distribución de probabilidad conjunta de Xi y Yj . Como se ve en el Cuadro 15.2,
la suma de todas las probabilidades conjuntas es 1.
La distribución de probabilidad conjunta de Xi y Yj se expresa en forma general por

P (X = Xi , Y = Yj ) = f (Xi , Yj ), i, j = 1, 2, . . . , N
366 Análisis de Correlación

Frecuencia
Altura, X pulgadas Relativa
47 48 49 50 de Yj

Peso, Y libras
41 1/8 0 0 0 1/8
42 0 2/8 0 0 2/8
43 0 0 3/8 0 3/8
44 0 0 0 2/8 2/8
Frecuencia
relativa 1/8 2/8 3/8 2/8 1
de Xi

Cuadro 15.2

y
XX
f (Xi , Yj ) = 1
i j

Otro ejemplo de distribución bivariada es el del Cuadro 15.5, donde hay 73 valores observados. Divi-
diendo las frecuencias entre N = 73, obtenemos las frecuencias relativas, que podemos considerar
como las probabilidades de los sucesos (Xi , Yj ).
La Figura15.3 es una ilustración generalizada de una distribución conjunta de dos variables en
la que ahora tenemos una superficie de frecuencias en lugar de una curva de frecuencias.

Altura, X pulgadas
46 47 48 49 50 51 52 53 54 55 fY
40 1 1
41 1 1 1 3
42 2 2 2 1 7
Peso, Y libras

43 3 3 2 8
44 2 4 2 1 9
45 1 3 5 2 1 12
46 3 4 3 2 12
47 2 4 2 1 1 10
48 2 1 2 1 1 7
49 1 1 1 1 4
fX 1 3 9 18 20 9 7 3 2 1 73

Cuadro 15.3

Cortemos esta población en una altura X (digamos, X = 49 pulgadas). Como muestra la Fi-
gura 15.3, tenemos una curva de frecuencias que da las frecuencias de Y para la X dada. Es decir,
tenemos una subpoblación de Y correspondientes a una X = 49 pulgadas dada, y esta subpobla-
ción se muestra mediante la columna correspondiente a X = 49 pulgadas en el Cuadro 15.5. Hasta
ahora, esto es similar a la población que asumimos en el análisis de regresión.
Pero ahora cortemos la población en algún peso Y (digamos, Y = 42 lb.). Entonces tenemos una
subpoblación correspondiente de alturas X, que viene dada por la fila correspondiente a Y = 42 lb.
en el Cuadro 15.5. Tenemos, pues, una familia de subpoblaciones de X correspondientes a Y dadas.
15.2. Coeficiente de correlación: Caso I 367

49◦
X

Figura 15.3

Por lo tanto, tenemos subpoblaciones tanto para X como para Y y estas variables son variables
aleatorias con distribuciones.
Obsérvese cuidadosamente que no hemos especificado las distribuciones de las subpoblaciones
de X o Y . Llamemos a dicha distribución bivariada población Tipo III o simplemente distribución
bivariada y utilicemos ambos términos indistintamente.
En contraste con esta población Tipo III, cuando ambas subpoblaciones correspondientes a las
X y Y tienen distribuciones normales, llamaremos a esta distribución bivariada población Tipo IV
o distribución normal bivariada. Como se ve, esta distribución normal bivariada puede considerarse
como un caso especial de la población Tipo III.
El análisis de correlación se refería originalmente al tipo de población bivariada, pero, como
hemos visto en el capítulo anterior, también puede aplicarse a la población Tipo I.
Como se ha mencionado anteriormente, el procedimiento de estimación difiere según el tipo de
población que supongamos. Empecemos por el caso que supone la distribución normal bivariada
por su trazabilidad matemática y facilidad de explicación, para pasar después al caso que supone la
distribución bivariada general.

15.2 Coeficiente de correlación: Caso I

Supongamos que tenemos una distribución normal bivariada de las alturas de los hermanos.
Podemos ver que las alturas varían juntas en cierta medida, pero no existe una relación causa-efecto.
Lo que queremos hacer es encontrar una medida, el coeficiente de correlación, que nos muestre el
grado de esta covariabilidad de las alturas. Para ello, definamos primero el coeficiente de correlación
para la distribución bivariada general y expliquemos su significado; a continuación, supongamos
una distribución normal bivariada y mostremos cómo se estima a partir de los datos de la muestra.
368 Análisis de Correlación

El procedimiento de estimación de la distribución bivariada general se explicará en el Apartado 15.4.

15.2.1 Coeficiente de correlación y covarianza de la población

Sean X y Y dos variables con una distribución bivariada con medias y varianzas como las si-
guientes:

E(X) = µX ,E(Y ) = µY
2
V ar(X) = σX ,V ar(Y ) = σY2

Entonces la covarianza (Cov) entre X y Y se define como

Cov(X, Y ) = E[Xi − E(Xi )][Yj − E(Yj )]


(15.1)
= E(Xi − µX )(Yi − µY )

El coeficiente de correlación poblacional, que se denota por ρ, se define como

Cov(X, Y
ρ=
σX σY
(15.2)
E(X − µX )(Y − µY )
=p p
E(X − µX )2 E(Y − µy )2

Nótese tres cosas en relación con (15.2). La primera es que la fórmula es simétrica con respecto a
X y Y . La segunda es que después de dividir por σX y σY , ρ se vuelve independiente de las unidades
de medida. La tercera es que el proceso de restar µX y µY indica que el origen se ha desplazado a µX
y µY . Por lo tanto, ρ puede considerarse como la covarianza de dos variables estandarizadas. Por lo
tanto, para entender ρ, tenemos que entender qué se entiende por covarianza. Consideremos esto a
continuación.
La definición de covarianza dada en la ecuación (15.1) puede reescribirse como

Cov(X, Y ) = E(X − µX )(Y − µY )


XX
= (Xi − µX )(Yj − µY )f (Xi , Yj )
i j

XX
donde la suma es sobre todas las combinaciones posibles de Xi y Yj y donde f (Xi , Yj )
i j
es la función de probabilidad conjunta de Xi e Yj .
Utilizando nuestra ilustración anterior, calculemos Cov(X, Y ) para comprender mejor la defi-
15.2. Coeficiente de correlación: Caso I 369

nición. Tenemos, a partir del Cuadro 15.2,

X
4 X
4
Cov(X, Y ) = (Xi − µX )(Yj − µY )f (Xi , Yj )
i=1 j=1

= (X1 − µX )(Y1 − µY )f (X1 , Y1 ) + . . .


+ (X4 − µX )(Y1 − µY )f (X4 , Y1 )
+ (X1 − µX )(Y2 − µY )f (X1 , Y2 ) + . . .
+ (X4 − µX )(Y2 − µY )f (X4 , Y2 )
+ ...
+ (X1 − µX )(Y4 − µY )f (X1 , Y4 ) + . . .
+ (X4 − µX )(Y4 − µY )f (X4 , Y4 )
= (X1 − µX )(Y1 − µY )f (X1 , Y1 )
+ (X2 − µX )(Y2 − µY )f (X2 , Y2 )
+ (X3 − µX )(Y3 − µY )f (X3 , Y3 )
+ (X4 − µX )(Y4 − µY )f (X4 , Y4 )

porque, por ejemplo, f (X2 , Y1 ) = 0/8 = 0, f (X3 , Y1 ) = 0/8 = 0, y así sucesivamente, por lo que
estos términos desaparecen.
Calculemos a continuación µX . Por definición

X
4
E(X) = µX = Xi f (Xi )
i=1
= X1 f (X1 ) + · · · + X4 f (X4 )
1 2 3 2
= 47 · + 48 · + 49 · + 50 ·
8 8 8 8
390
= = 48.75
8
donde las f (Xi ) se obtienen del Cuadro ??. De forma similar,

X
4
E(Y ) = µX = Yj f (Yj ) = 42.75
j=1

Por lo tanto,
1
Cov(X, Y ) = (47 − 48.75)(41 − 42.75) ·
8
2
+ (48 − 48.75)(42 − 42.75) ·
8
3
+ (49 − 48.75)(43 − 42.75) ·
8
2
+ (50 − 48.75)(44 − 42.75) ·
8
= 0.9375

Este cálculo de Cov(X, Y ) puede presentarse como en el Cuadro 15.4.


370 Análisis de Correlación

Los cálculos del Cuadro 15.4 pueden presentarse en forma de fórmula como

1 X 1
Cov(X, Y ) = (Xi − µX )(Yi − µY ) = · 7.5 = 0.9375
N 8

(1) (2) (3) (4) (5)


Xi Yj Xi − µX Yj − µY (3) · (4)
47 41 -1.75 -1.75 3.0625
48 42 -0.75 -0.75 0.5625
48 42 -0.75 -0.75 0.5625
49 43 0.25 0.25 0.0625
49 43 0.25 0.25 0.0625
49 43 0.25 0.25 0.0625
50 44 1.25 1.25 1.5625
50 44 1.25 1.25 1.5625
390 342 7.5000
Media =48.75 42.75 Cov(X, Y ) = 7.5/8 = 0.9375

Cuadro 15.4
P
donde N es el número total de observaciones y la suma es sobre el número total de obser-
vaciones. En nuestro caso actual N = 8, y 1/N = 1/8 muestra la probabilidad asociada a cada
observación.
Una vez que nos hemos familiarizado con la definición y los cálculos de la covarianza, vamos a
investigar su significado, que nos llevará a la forma de utilizarla. Como sugiere el término covarianza,
estamos interesados en la covariabilidad de dos variables X y Y . La covariabilidad de X y Y puede
investigarse desde dos puntos de vista. Uno es: ¿Varían X y Y en la misma dirección? (Es decir,
cuando X aumenta, Y también aumenta.) ¿O varían en direcciones opuestas? (Es decir, cuando X
aumenta, Y disminuye.) El segundo punto de vista es: ¿Varían X y Y estrechamente juntos? ¿O
varían de forma imprecisa?
Partiendo de la primera pregunta, grafiquemos el caso en el que X y Y varían en la misma
dirección utilizando los siguientes datos hipotéticos.

(X − 3)
X Y X −3 Y −2 ·(Y − 2) (X − 3)2 (Y − 2)2
1 1 -2 -1 2 4 1
1 1 1 1
2 1 -1 − 1
2 2 2 4
3 2 0 0 0 0 0
1 1 1 1
4 2 1 1 1
2 2 2 4
5 3 2 1 2 4 1
1
15 10 5 10 2
2
Media = 3 2

Cuadro 15.5
15.2. Coeficiente de correlación: Caso I 371

Y Y µX = 3
3 3

2 2 µY = 2

1 1

1 2 3 4 5 X 1 2 3 4 5 X
(a) (b)
Figura 15.4

Los datos caen sobre una línea recta (Figura 15.4), dada por
1 1
Y = + X
2 2
P
Del Cuadro ??, (X − 3)(Y − 2) = 5. Entonces
1 X 1
Cov(X, Y ) = (Xi − µX )(Yi − µY ) = · 5 = 1
N 5
Podemos ver en la Figura 15.5(a) que cuando X y Y varían en la misma dirección, los puntos (X, Y )
están en el 3er y 1er cuadrante, y por lo tanto cada (X − µX ) P
y (Y − µY ) es positivo (o cero). Por
lo tanto, cuando X y Y varían en la misma dirección, la suma (X − µX )(Y − µY ) es positiva, y
Cov(X, Y ) también es positiva.

Y Y

X X
Y Y

X X
Figura 15.5

P Del mismo modo, cuando X y Y varían en direcciones opuestas, como en la Figura 15.5(b),
(X − µX )(Y − µY ) es negativo y Cov(X, Y ) es negativo.
372 Análisis de Correlación

Cuando la relación entre X y Y es lineal, podemos ver intuitivamente en el gráfico que lo con-
trario es cierto. Es decir, cuando Cov(X, Y ) > 0, X y Y varían en la misma dirección, y cuando
Cov(X, Y ) < 0, X y Y varían en direcciones opuestas.
Sin embargo, cuando la relación entre X y Y es no lineal, como en la Figura 15.5(c), el Cov(X, Y ) >
0 no indica necesariamente que X y Y varíen en la misma dirección.
P En la Figura 15.5(c), el signo de
Cov(X, Y ) dependerá de si el aspecto positivo o negativo de (X − µX )(Y − µY ) es dominante,
y como puede verse, la covariabilidad de X y Y es primero en direcciones opuestas, y luego cambia
a la misma dirección.
Además del signo de Cov(X, Y ), consideremos ahora la magnitud de |Cov(X, Y )|, el valor
absoluto de Cov(X, Y ). Cuando los puntos
P (X, Y ) están dispersos como en la Figura 15.6, los tér-
P positivos y negativos de la suma (X − µX )(Y − µY ) tenderán a anularse y como resultado
minos
| (X − µX )(Y − µY )| tenderá a ser pequeño.

Y µX

∗ ∗
∗ ∗ ∗
∗∗ µY

∗ ∗ ∗

X
Figura 15.6

Por lo tanto, podemos decir que cuando los puntos (X, Y ) están dispersos al azar, entonces
|(X − µX )(Y − µY )| es pequeño y Cov(X, Y ) es pequeño.
Los puntos (X, Y ) estarán dispersos aleatoriamente cuando X y Y no estén relacionados, es
decir, cuando X y Y sean independientes y no tengan covariabilidad. Por lo tanto, cuando X y Y
son independientes y no tienen covariabilidad, Cov(X, Y ) será muy pequeño. De hecho, cuando
suponemos que X y Y son independientes,

Cov(X, Y ) = E(X − µX )(Y − µY )


= E(X − µX )E(Y − µY )
= (µX − µX )(µY − µY )
=0

Sin embargo, lo contrario no es cierto, es decir, Cov(X, Y ) = 0 no implica necesariamente que


X y Y sean independientes. En la Figura 15.5(c), Cov(X, Y ) es igual a cero aunque X y Y sean
dependientesP
y estén relacionados de forma no lineal. Esto se debe a que los términos positivos y
negativos de (X − µX )(Y − µY ) se anulan entre sí.
15.2. Coeficiente de correlación: Caso I 373

Ejemplo No. 1
Supongamos que tenemos una variable aleatoria X que toma los valores −2, −1, 1 y 2
con probabilidades de 1/4. Sea
Y = X2
Entonces Y también es una variable aleatoria y podemos encontrar Cov(X, Y ) como
sigue.

X Y X −0 Y − 2.5 (X − 0)(Y − 2.5)


-2 4 -2 1.5 -3
-1 1 -1 -1.5 1.5
1 1 1 -1.5 -1.5
2 4 2 1.5 3
0 10 0
Media =0 2.5

1 X
Cov(X, Y ) = (X − µX )(Y − µY )
N
1
= ·0=0
4

Por lo tanto, aunque X y Y sean perfectamente covariables, Cov(X, Y ) = 0. Así, aunque


Cov(X, Y ) = 0, no significa necesariamente que X y Y sean independientes.

Ejemplo No. 2
Utilizando el concepto de covarianza, podemos encontrar resultados importantes relati-
vos a V ar(X + Y ) como sigue.

V ar(X + Y ) = E[(X + Y ) − E(X + Y )]2


= E[(X + Y ) − (µX + µY )]2
= E[(X − µX ) + (Y − µY )]2
= E[(X − µX )2 + 2(X − µX )(Y − µY ) + (Y − µY )2 ]
= V ar(X) + 2Cov(X, Y ) + V ar(Y )
De forma similar,
V ar(X − Y ) = V ar(X) − 2Cov(X, Y ) + V ar(Y )

Ejemplo No. 3
Si X y Y son independientes, entonces Cov(X, Y ) = 0. Así obtenemos el importantísi-
mo resultado de que

V ar(X + Y ) = V ar(X) + V ar(Y )


V ar(X − Y ) = V ar(X) + V ar(Y )
374 Análisis de Correlación

Los resultados se pueden generalizar. Como ejercicio, escriba las fórmulas para el caso en que haya
3 variables.
La siguiente pregunta es: ¿Varían X y Y estrechamente? ¿Qué queremos decir cuando decimos
que X y Y varían estrechamente? De forma no rigurosa, nos referimos a una situación en la que
los cambios en X y Y son aproximadamente proporcionales. En un diagrama, se verá que X y Y
varían estrechamente; de hecho, la covariabilidad es perfecta cuando los puntos caen sobre una línea
recta que pasa por (µX , µY ) como se muestra en la Figura 15.7(a). Cuando los puntos están muy
dispersos alrededor de una recta que pasa por (µX , µY ), como se muestra en la Figura 15.7(b), X y
Y no varían estrechamente.
Ahora la pregunta es: ¿Cómo podemos mostrar cuantitativamente este grado de covariabilidad?
Investiguemos esta cuestión calculando primero ρ para nuestra ilustración. A partir de los datos del
Cuadro ??, tenemos

Cov(X, Y )
ρ=
σX σY
1
=r r
10 5/2
5 5

Y tenemos, como muestra la Figura 15.4, una covariabilidad perfecta.


Construyamos a continuación un ejemplo hipotético en el que Cov(X, Y ) = 1, pero en el que
1 1
los puntos están dispersos alrededor de la línea Y = + X, como se muestra en el Cuadro 15.6.
2 2

X Y X −3 Y −2 (X − 3)(Y − 2) (X − 3)2 (Y − 2)2


1 1.25 -2 -3/4 1.5 4 9/16
1 1.25 -2 -3/4 1.5 4 9/16
1 1.25 -2 -3/4 1.5 4 9/16
1 1.25 -2 -3/4 1.5 4 9/16
1 1.25 -2 -3/4 1.5 4 9/16
15 10.00 5.0 10 50/16

Cuadro 15.6

Estos puntos se muestran en la Figura 15.7(b). Como se ve en el Cuadro 15.6,

1 X
Cov(X, Y ) = (X − µX )(Y − µY )
N
1
= ·5=1
5
como en el ejemplo del Cuadro ?? donde los puntos caían sobre la recta y tenían una covarianza
perfecta.
Sin embargo, a partir de la Figura 15.7, vemos que la covariabilidad de X y Y en el presente
ejemplo es más floja.
Nuestro ejemplo muestra que la covarianza por sí sola no es suficiente para mostrarnos lo cerca
que varían X y Y . Una reconsideración de la fórmula de correlación

Cov(X, Y )
ρ=
σX σY
15.2. Coeficiente de correlación: Caso I 375

Y Y
3 3

µY
2 µX 2

1 1

1 2 3 4 5 X 1 2 3 4 5 X
(a) (b)
Figura 15.7

muestra que el grado de cercanía entre X y Y debe considerar la Cov(X, Y ) en relación con σX y
σY .
2 sigue siendo 2. σ 2 , es ahora
En los dos ejemplos anteriores, las X son iguales y, por tanto, σX Y

1 50 5
σY2 = · =
5 16 8
En el ejemplo anterior, era 1/2 = 4/8; el aumento de σY2 se debe a la mayor dispersión de las Y .
Como se verá en el ejemplo 4, σY es mínimo cuando los puntos caen sobre la recta que pasa por
(µX , µY .
En el presente caso,

Cov(X, Y ) 1 p
ρ= =√ p = 4/5 = 0.89
σX σY 2 5/8

Por tanto, ρ es menor que el ρ = 1 del caso anterior.


Es evidente que la diferencia en los coeficientes de correlación debe deberse a las diferencias en
σY , que a su vez se deben a la diferencia en la dispersión de las Y . Cuanto mayor sea la dispersión
de las Y , mayor será µY . Y, por tanto, menor será el coeficiente de correlación ρ.
Por lo tanto, para considerar lo mucho que varían X y Y juntos, tenemos que utilizar ρ(X, Y )
en lugar de Cov(X, Y ).

Ejemplo No. 4

En este ejemplo demostraremos que σY2 es mínimo cuando los puntos caen sobre la
recta que pasa por (µX , µY ). Utilizaremos el cálculo. Este ejemplo puede omitirse sin
pérdida de continuidad.

Sean 3 puntos A, B y C situados a distancias y1 = Y1 − µY , y2 = Y2 − µY , y y3 = Y3 − µY de


una recta Y = a + bX como se muestra en la Figura 15.8. Entonces σY2 es:
376 Análisis de Correlación

Y
C
A y3 Y = a + bX
y1
y2
B

X
Figura 15.8

1
σY2 = (y12 + y22 + y32 )
3

Deseamos que σY2 sea mínimo, sujeto a

x 1 y 1 + x 2 y 2 + x 2 y3 = k

donde x1 = X1 − µ1 , x2 = X2 − µ2 , y x3 = X3 − µ3 . Utilizando el método del multiplicador de


Lagrange, fijamos

Z = (y12 + y22 + y32 ) + λ(x1 y1 + x2 y2 + x3 y3 − k)


∂Z
= 2y1 + λx1 = 0
∂y1
∂Z
= 2y2 + λx2 = 0
∂y2
∂Z
= 2y3 + λx3 = 0
∂y3
∂Z
= x 1 y1 + x 2 y2 + x 3 y 3 − k = 0
∂λ

Así,

λ
yi = − x i
2 P
k x i yi
= P 2 xi = P 2 xi
xi xi
= bxi

Como yi = Yi − µY , y xi = Xi − µX , obtenemos

Yi − µY = b(Xi − µX )
Yi = (µY − bµX ) + bXi

Así, la condición necesaria para que σY2 sea mínimo es que las Y estén en la recta Y = a + bX,
donde a = µY − bµX .
15.2. Coeficiente de correlación: Caso I 377

Vayamos ahora un paso más allá e investiguemos cómo ρ mide la covariabilidad de X y Y . La


fórmula del coeficiente de correlación puede reescribirse como sigue:

Cov(X, Y )
ρ(X, Y ) =
σX σY
E(X − µX )(Y − µY )
=
σX σY
 
X − µX Y − µY
=E ·
σX σY

Sea
X − µX Y − µY
X∗ = Y∗ =
σX σY
y en el Capítulo 4, X ∗ y Y ∗ se llamaron variables estandarizadas. Entonces
 
∗ X − µX µX − µX
E(X ) = E = =0
σX σX

De forma similar, E(Y ∗) = 0. Por lo tanto

ρ(X, Y ) = E(X ∗ )(Y ∗ ) = E[X ∗ − E(X ∗ )][Y ∗ − E(Y ∗ )]


(15.3)
= Cov(X ∗ , Y ∗ )

Así, el coeficiente de correlación ρ(X, Y ) es el mismo que la covarianza de las variables estandari-
zadas X ∗ y Y ∗ . Por lo tanto, las propiedades de Cov(X, Y ) con respecto al signo y la magnitud se
trasladan a ρ. Lo que queda es investigar lo grande que puede llegar a ser ρ y lo que indica.
En primer lugar, observamos que al aumentar la dispersión de los puntos en torno a la recta,
podemos aumentar la magnitud de |Cov(X, Y )| tanto como queramos. ¿Y qué pasa con ρ? ¿Cómo
de grande puede ser ρ? La respuesta es: El valor máximo que puede tomar ρ es |ρ| = 1.
Para demostrarlo, dejemos que

2 + 2ρ(X, Y ) = 2 + 2Cov(X ∗ , Y ∗ )
= V ar(X ∗ ) + V ar(Y ∗ ) + 2Cov(X ∗ , Y ∗ )
= V ar(X ∗ + Y ∗ )

Pero sabemos que una varianza es no negativa, es decir

V ar(X ∗ + Y ∗ ) ≥ 0

Por lo tanto
2 + 2ρ(X, Y ) ≥ 0
Del mismo modo
2 − 2ρ(X, Y ) ≥ 0
Así,
|ρ(X, Y ) ≤ 1
y el valor máximo que puede tomar |p| es 1.
Cuando la relación entre X e Y es lineal, como

Y = a + bX
378 Análisis de Correlación

entonces podemos demostrar que si ρ(X, Y ) = 1, entonces X y Y son linealmente dependientes


entre sí. Para demostrarlo, dejemos que ρ(X, Y ) = 1. Entonces

2 − 2ρ(X, Y ) = 0

Utilizando los resultados anteriores relativos a Cov(X, Y ),

2 − 2ρ(X, Y ) = V ar(X ∗ ) + V ar(Y ∗ ) − 2Cov(X ∗ , Y ∗ )


= V ar(X ∗ − Y ∗ )
=0

Pero esto significa que X ∗ − Y ∗ = constante = k. Por tanto,

Y ∗ = X∗ − k
Y − µY X − µX
= −k
σY σX
∴ Y = a + bX

−σY σY
donde a = µX + µY − kσY y b = . Así, si ρ(X, Y ) = 1, entonces X y Y son
σX σX
linealmente dependientes. De forma similar para ρ(X, Y ) = −1.
Encontramos que cuando X y Y son independientes, o cuando la relación entre X y Y es no
lineal, como Y = X 2 , la ρ(X, Y ) puede ser cero. Por lo tanto, no podemos decir en general que si
ρ(X, Y ) = 0, entonces X y Y son necesariamente independientes. Sólo podemos decir en general
que X y Y no son linealmente dependientes entre sí.
Así, ρ(X, Y ) puede considerarse como una medida de la dependencia lineal de X y Y entre sí.
Si ρ(X, Y ) = 1, entonces X y Y son perfectamente dependientes linealmente. Si ρ(X, Y ) = 0,
entonces X y Y no son linealmente dependientes entre sí.

15.2.2 Resumen y comentarios

Resumamos ahora nuestra discusión sobre el coeficiente de correlación y la covarianza. El co-


eficiente de correlación se definió como
Cov(X, Y )
ρ=
σX σY
y debía considerarse como una medida de la covariabilidad entre X e Y . A partir de la definición
vimos que para investigar las propiedades de ρ(X, Y ), necesitábamos investigar las propiedades de
Cov(X, Y ). Las propiedades de Cov(X, Y ) se consideraron como sigue:

1. El signo de Cov(X, Y ). Vimos que si la dispersión de los puntos (X, Y ) estaba en los cuadran-
tes 3ro y 1ro, suponiendo que el origen está en (µX , µY ), entonces Cov(X, Y ) > 0; y si la
dispersión de los puntos (X, Y ) estaba en los cuadrantes 2do y 4to, entonces Cov(X, Y ) < 0.
Esto significa que si X y Y covarian en la misma dirección, entonces Cov(X, Y ) > 0; si X y
Y covarian en direcciones opuestas, entonces Cov(X, Y ) < 0.
Sin embargo, la inversa del resultado anterior no es válida en general. No podemos decir que
si
PCov(X,
P Y ) > 0, entonces X y Y covarian en la misma dirección. Dado que Cov(X, Y ) =
(X − µX )(Y − µY )f (X, Y ), mientras la suma de los productos cruzados positivos
15.2. Coeficiente de correlación: Caso I 379

(X−µX )(Y −µY ) sea mayor que la suma de los productos cruzados negativos, Cov(X, Y ) >
0. Podemos encontrar casos en los que Cov(X, Y ) > 0 y, sin embargo, X y Y no covarían
en la misma dirección en casos no lineales.
Del mismo modo, no podemos decir que si Cov(X, Y ) < 0, entonces X y Y varían en
direcciones opuestas. Podemos encontrar casos en los que Cov(X, Y ) < 0, y sin embargo X
y Y no varían en direcciones opuestas en los casos no lineales.
Sin embargo, si limitamos nuestra atención a los casos en los que la relación entre X y Y es
lineal, entonces podemos afirmar que Cov(X, Y ) > 0 (Cov(X, Y ) < 0) implica que X y Y
covarian en la misma dirección (direcciones opuestas).

2. La magnitud de |Cov(X, Y )|. Encontramos que si X e Y están dispersos al azar, entonces


Cov(X, Y) I tiende a ser pequeño. Y si X e I’ son independientes, entonces Cov(X, Y) = 0.
Encontramos que lo contrario no se cumple en general. No podemos decir que si Cov(X, Y ) =
0, entonces X y Y son independientes.
Aumentando la dispersión de los puntos (X, Y ) alrededor de una recta que pasa por (µX , µY )
podemos hacer que |Cov(X, Y )| sea tan grande como queramos. Por lo tanto, no se puede
decir nada definitivo cuando |Cov(X, Y )| es grande. Esta observación nos lleva a considerar
Cov(X ∗ , Y ∗ ) = ρ(X, Y ).

3. El grado cuantitativo de covariación entre X y Y . Encontramos ρ(X, Y ) = Cov(X ∗ , Y ∗ ). Por


tanto, las propiedades anteriores relativas al signo y la magnitud de Cov(X ∗ , Y ∗ ) se trasladan
a ρ(X, Y ).
Además, mientras que |Cov(X, Y )| puede llegar a ser tan grande como queramos, el valor
máximo que puede tomar |ρ(X, Y )| = |Cov(X ∗ , Y ∗ )| es 1. Y vimos que ρ(X, Y ) = ±1
implica una dependencia “lineal” perfecta entre X y Y . Por lo tanto, ρ(X, Y ) puede utilizarse
como una medida de dependencia lineal.
Además:

4. El coeficiente de correlación ρ, tal como se ha explicado anteriormente, que se basa en la idea


de covarianza, fue utilizado por los bioestadísticos en la investigación biológica. Por ejemplo,
sabemos que los hermanos altos tienden a tener hermanas altas, y viceversa. Ninguno de los
dos es la causa del otro, pero de los diversos factores que afectan a la estatura, los hermanos
y hermanas parecen tener ciertas características en común que causan la covariabilidad. El
coeficiente de correlación es un índice del grado de esta covariabilidad, pero no explica las
razones.

5. La ρ que hemos estado considerando en este capítulo supone una distribución bivariada, y
tanto X como Y varían. Una población con X fijas, como la que discutimos en el Capítulo
14, no nos dará una ρ basada en este tipo de interpretación covariante. El caso para X fijas se
considera en el Caso 2.

6. Otra situación en la que no hay covariabilidad es cuando una de las variables es una constante.
Por ejemplo, dejemos que Y = 5. Entonces podemos tener valores de X y Y como en la tabla
siguiente. En este caso la covarianza se convierte en

1 X
Cov(X, Y ) = (X − µX )(Y − µY )
N
1
= ·0=0
4
380 Análisis de Correlación

X Y X − µX Y − µY (X − µX )(Y − µY )
1 5 -1.5 0 0
2 5 -0.5 0 0
3 5 0.5 0 0
4 5 1.5 0 0
0

Por tanto, parece que ρ = 0. Sin embargo, si calculamos σY2 , encontramos


1 X 1
σY2 = (Y − µY )2 = · 0 = 0
N 4
Por tanto,
Cov(X, Y )
ρ=
σX σY
no tiene sentido.

La implicación de este ejemplo es que tanto X como Y deben variar.


Hasta ahora hemos investigado las propiedades de ρ(X, Y ) desde el punto de vista de la cova-
riabilidad entre X y Y . En la discusión posterior, veremos que la ρ(X, Y ) puede interpretarse desde
diferentes puntos de vista.
También hay que tener en cuenta que el concepto básico de covariabilidad es Cov(X, Y ) y no
ρ(X, Y ).

15.2.3 Coeficiente de correlación de la muestra

La población bivariada que hemos supuesto sólo tiene 4 observaciones, pero en general el tama-
ño de la población es grande, por lo que es necesario seleccionar una muestra y estimar ρ. Como ya
se ha dicho, en este apartado vamos a suponer una distribución normal bivariada y estimar ρ. Bajo
este supuesto, el procedimiento de estimación consiste en aplicar el método de máxima verosimili-
tud. Sin derivación, presentamos el resultado:

1 P
(X − X)(Y − Y )
ρ̂ = r = r n−1 r
1 P 1 P
(X − X) 2 (Y − Y )2
n−1 n−1 (15.4)
P
(X − X)(Y − Y )
q
= P P
(X − X)2 (Y − Y )2

Esta r, que es el estimador de máxima verosimilitud de ρ, también se llama coeficiente de corre-


lación de la muestra. La interpretación de r es la misma que la de ρ, salvo que es para la muestra.
A efectos de cálculo, la fórmula (15.4) suele reescribirse como sigue:
P
XY − nXY
r=q
P 2 2 P 2
[ X − nX ][ Y 2 − nY ]
P P P (15.5)
n XY − X · Y
=p P P P P
[n X 2 − ( X)2 ][n Y 2 − ( Y )2 ]
15.2. Coeficiente de correlación: Caso I 381

Ejemplo No. 1
Supongamos que se selecciona una muestra aleatoria de 5 estudiantes y que sus califica-
ciones en inglés y matemáticas (sobre una base de 10 puntos) son las que aparecen en
la tabla. Halla el coeficiente de correlación r.

X Y
Inglés Matemáticas XY X2 Y2
2 3 6 4 9
5 4 20 25 16
3 4 12 9 16
7 8 56 49 64
8 9 72 64 81
25 28 166 151 186

Utilizando la fórmula (15.5), encontramos


5 · 166 − 25 · 28
r=p
[5 · 151 − (25)2 ][5 · 186 − (28)2 ]
130
=√
130 · 146
130
= = 0.94
137.8
El coeficiente de correlación de la muestra es r = 0.94, y los datos muestran un alto grado de
covariabilidad.

Ejemplo No. 2
Supongamos que las calificaciones del Ejemplo 1 son sobre una base de 100, como se
muestra en la tabla.

X Y
Inglés Matemáticas
20 30
50 40
30 40
70 80
80 90

Entonces, como se puede ver fácilmente, los productos cruzados, los cuadrados y las sumas se
convertirán en números muy grandes, haciendo los cálculos tediosos. Para evitar esto, podemos
dividir tanto X como Y por 10, lo que hará que sea lo mismo que en el Ejemplo 1. No habrá ningún
efecto sobre r.
También podemos dividir sólo la X o la Y por 10 o por algún otro número, y no habrá ningún
efecto sobre r. La comprobación de estos resultados se dejará al estudiante.

Ejemplo No. 3
Supongamos que las calificaciones en inglés y matemáticas de los 5 alumnos selecciona-
dos al azar son las que aparecen en la siguiente tabla.
382 Análisis de Correlación

X Y X′ Y′
Inglés Matemáticas = X − 70 = Y − 80
72 83 2 3
75 84 5 4
73 84 3 4
77 88 7 8
78 89 8 9

En este caso, dividir por 10 o por algún otro número no simplifica los cálculos. Pero, como
muestran las observaciones, si dejamos que

X ′ = X − 70
Y ′ = Y − 80

como se muestra en la tabla, los datos se simplifican y los cálculos son más fáciles. Una comprobación
mostrará que la r calculada por X ′ y Y ′ (o X y Y ′ , o X ′ y Y ) dará los mismos resultados que el uso
de X y Y . La comprobación se deja al estudiante.

Ejemplo No. 4
Sea X el número de libras de artículos en un bolso y Y el tamaño de los bolsos que
llevan las mujeres. Una muestra aleatoria de 15 mujeres produjo los datos de la tabla
adjunta, donde hay 2 mujeres que tienen bolsos de la talla 5 y 3 libras de artículos. En
total hay 15 observaciones. La diferencia entre esta muestra y la anterior es que en la
anterior sólo había 1 observación para cada par de X, Y , pero en nuestra muestra actual,
puede haber más de 1 observación.

La introducción de las frecuencias (número de observaciones) requiere algunos cambios en la


fórmula de correlación de la muestra, como sigue

1 P
(X − X)(Y − Y )
r=r n−1 r (15.6)
1 P 1 P
(X − X) fX
2 (Y − Y )2 fY
n−1 n−1

donde
1X
X= XfX
n
1X
Y = Y fY
n
El 1/(n − 1) se anula y (15.6) se convierte en
P
(X − X)(Y − Y )
r = qP qP (15.7)
(X − X)2 fX (Y − Y )2 fY

El numerador puede reescribirse como


X X
(X − X)(Y − Y ) = XY − nXY
15.2. Coeficiente de correlación: Caso I 383

El denominador se convierte en
X X 2
(X − X)2 fX = (X 2 − 2XX + X )fX
X X 2X
= X 2 fX − 2X XfX + X fX
X 2 2
= X 2 fX − 2nX + nX
X 2
= X 2 fX − nX
X X 2
(Y − Y )2 fY = Y 2 fY − nY

Sustituyendo estos resultados en (15.7) obtenemos


P
XY − nXY
r=q
P 2 2 P 2
[ X fX − nX ][ Y 2 fY − nY ]
P P P (15.8)
n XY − ( XfX )( Y fY )
=p P P P P
[n X 2 fX − ( XfX )2 ][n Y 2 fY − ( Y fY )2 ]
Utilizando (15.8) y los cálculos mostrados en la tabla, la r se convierte en
15 · 321 − 55 · 85
r=p
[15 · 215 − 552 ][15 · 495 − 852 ]
28
= = 0.70
40
P
Obsérvese que la suma en XY se extiende a todos los valores de la muestra. Por lo tanto, en
la última columna que muestra XY en la tabla, tenemos

(4 · 2) · 1 + (4 · 3) · 1 = 20
(5 · 2) · 1 + (5 · 3) · 2 + (5 · 4) · 1 = 60
(6 · 3) · 1 + (6 · 4) · 3 + (6 · 5) · 2 = 150
(7 · 4) · 2 + (7 · 5) · 1 = 91

y el total es X
XY = 20 + 60 + 150 + 91 = 321
La XY de la última fila de la tabla se calcula de la misma manera y el total es también 321.

Referencia

(i) Desplazar el origen y cambiar la escala de la unidad no afecta a ρ

E(X − X)(Y − Y )
ρ= q q
E(X − X)2 E(Y − Y )2

Sea

X ′ = a + bX
Y ′ = c + dY
384 Análisis de Correlación

Entonces

X = E(X ′ ) = a + bE(X) = a + bX

Y = E(Y ′ ) = c + dE(X) = c + dX

El coeficiente de correlación de X ′ y Y ′ es
′ ′
′ E(X ′ − X )(Y ′ − Y )
ρ =q q
′ ′
E(X ′ − X )2 E(Y ′ − Y )2
El numerador se convierte en
′ ′
E(X ′ − X )(Y ′ − Y ) = E[a + bX − (a + bX)][c + dY − (c + dY )]
= E[bX − bX][dY − dY ]
= bdE[X − X][Y − Y ]
El denominador se convierte en

E(X ′ − X )2 = E[a + bX − (a + bX)]2
= b2 E[X − X]2

E(Y ′ − Y )2 = d2 E[Y − Y ]2
q q
′ ′
∴ E(X ′ − X )2 E(Y ′ − Y )2 = bd E(X − X)2 (E(Y − Y )2
Sustituyendo estos resultados en ρ′ , encontramos
bdE(X − X)(Y − Y )
ρ′ = q
bd E(X − X)2 E(Y − Y )2
E(X − X)(Y − Y )
=q
E(X − X)2 E(Y − Y )2

De forma similar, los coeficientes de correlación de X y Y ′ , o de X ′ y Y , son iguales a ρ.
(ii) Cuando hay covariabilidad perfecta, ρ = 1. Consideremos la función
Y = a + bX
Entonces X y Y tienen covariabilidad perfecta. La ρ para X y Y es
E(X − µX )(Y − µY )
ρ= p p
E(X − µX )2 E(Y − µY )2
E(X − µX )(a + bX − a − bµx )
=p p
E(X − µX )2 E(a + bX − a − bµX )2
bE(X − µX )2
= p p
b E(X − µX )2 E(X − µX )2
=1

(iii) Cuando X y Y son independientes, ρ = 0.


E(X − µX )(Y − µY ) = E(X − µX )E(Y − µY )
=0·0=0
Por tanto, ρ = 0 cuando X y Y son independientes.
15.3. La distribución bivariada y el análisis de regresión 385

15.3 La distribución bivariada y el análisis de regresión

El primer enfoque del análisis de correlación que hemos discutido hacía hincapié en la cova-
riabilidad de las dos variables X y Y . El segundo enfoque del análisis de correlación que vamos a
discutir ahora está relacionado con el análisis de regresión y muestra la cercanía del ajuste de la línea
de regresión a la distribución de las observaciones. Como veremos, este segundo enfoque es aplicable
tanto a la distribución bivariada como a la distribución normal bivariada. Dado que la distribución
normal bivariada puede considerarse como un caso especial de la distribución bivariada, supon-
dremos una distribución bivariada para nuestra discusión de este segundo enfoque. Comencemos
mostrando primero cómo se puede aplicar el análisis de regresión a las distribuciones bivariada en
esta sección, y luego mostremos cómo se define el coeficiente de correlación para este caso en la
Sección 15.4.
Supongamos que se selecciona una muestra aleatoria de tamaño n = 3 a partir de una distribu-
ción bivariada de horas de estudio (X) y calificación (Y ), que está en una base de 10 puntos. Dado
que tanto X como Y varían, podemos encontrar la regresión de Y (nota) sobre X (horas), donde
suponemos que X se mantiene fija, o de X sobre Y , donde suponemos que Y se mantiene fija.

X, horas Y , notas XY X2 Y2
2 5 10 4 25
4 3 12 16 9
6 7 42 36 49
12 15 64 56 83

Para el primer caso, la recta de regresión obtenida por el método de los mínimos cuadrados es

Yc = a + bX (15.9)

y los a y b son
P P P
n XY − X Y
b= P P
n X 2 − ( X)2
3 · 64 − 12 · 15 1
= =
3 · 56 − (12)2 2
P P
Y X
a= −b
n n
15 1 12
= − · =3
3 2 3
Así, la recta de regresión (15.9) se convierte en
1
Yc = 3 + X (15.10)
2
Para el segundo caso, la recta de regresión es

X c = a ′ + b′ Y (15.11)

y los a′ y b′ resultan ser


1 3
b′ = , a′ =
2 2
Así, la recta de regresión (15.11) es
3 1
Xc = + Y (15.12)
2 2
386 Análisis de Correlación

La recta de regresión (15.9) se muestra en la Figura 15.9(a); (15.12) se muestra en la Figura 15.9(b),
y ambas se muestran juntas en la Figura 15.9(c). Como muestra la Figura 15.9(c), las dos rectas de
regresión se cruzan en X = 4, Y = 5. Esto se ve fácilmente por

1
Yc = 3 + ·5=5=Y
2

y
3 1
Xc = + ·5=4=X
2 2

Y Y
Xc
7 7
Yc

5 5

3 3
2 4 6 X 2 4 6 X
(a) (b)
Y Xc
7

Yc
5

3
2 4 6 X
(c)
Figura 15.9

La diferencia de las dos líneas de regresión puede verse gráficamente. La línea de regresión de
Y sobre X se ajusta de manera que la suma de las desviaciones al cuadrado tomadas en la dirección
vertical se minimiza. En el caso de X sobre Y , se minimiza la suma de las desviaciones al cuadrado
en la dirección horizontal.
El análisis de regresión de Y sobre X implica que Y depende de X. Como veremos cuando
tratemos distribuciones bivariadas y apliquemos el análisis de correlación, los datos se tratan como si
hubiera una relación bidireccional. Por ejemplo, si tenemos una distribución bivariada de las alturas
de los hermanos, podemos ver que varían juntos en cierta medida, pero no hay una relación de
causa y efecto. Cuando tenemos una distribución bivariada de las alturas del padre (X) y del hijo
(Y ), la altura del hijo (Y ) depende en cierta medida de la altura del padre (X). Pero el análisis de
correlación aplicado a estos datos los trata como si hubiera una relación bidireccional. Cuando se
aplica el análisis de correlación, y se asume una relación de dependencia entre X y Y , no se basa
en las ideas debidas al análisis de correlación, sino en otras consideraciones no estadísticas, como
la herencia. El análisis de correlación trata los datos de forma simétrica y es neutral en cuanto a la
dirección de la dependencia.
15.4. El coeficiente de correlación: Caso II 387

15.4 El coeficiente de correlación: Caso II

En la Sección 15.2, definimos un coeficiente de correlación ρ para la distribución bivariada y lo


interpretamos como una medida de covariabilidad entre las dos variables X y Y . Y al estimar ρ a
partir de los datos de la muestra, hicimos la suposición adicional de que la distribución bivariada
(población Tipo III) era una distribución normal bivariada (población Tipo IV). Esta suposición nos
permitió utilizar el método de máxima semejanza para estimar ρ a partir de los datos de la muestra
y encontramos que el estimador era
P
(X − X)(Y − Y )
ρ̂ = r = qP (15.13)
(X − X)2 E(Y − Y )2

Lo que proponemos ahora es eliminar el supuesto de una distribución normal bivariada (población
Tipo IV) y considerar el procedimiento de estimación para una distribución bivariada (población
Tipo III). Como veremos, el procedimiento de estimación utilizará los resultados de la Sección 15.3,
donde encontramos dos líneas de regresión, y también los resultados del capítulo 14, donde en-
contramos un coeficiente de correlación que medía el grado de ajuste de la línea de regresión a la
distribución de las observaciones de la muestra.
Empecemos por definir el coeficiente de correlación de la población.

15.4.1 Coeficiente de correlación poblacional

Supongamos que tenemos una distribución bivariada. En el apartado 15.3 vimos cómo se podían
ajustar dos rectas de regresión
µY X = A + BX (15.14)

µ Y X = A′ + B ′ Y (15.15)
a los datos de la población por el método de los mínimos cuadrados. Dejemos que la Figura 15.10
muestre la línea de regresión poblacional (15.10) y que Y sea un valor individual: Entonces

Y = µY X + ϵ (15.16)

Y Y
ϵ µY X = A + BX

µY X
µY

µX X X
Figura 15.10

Sea µY la media de los valores de Y . Entonces, como muestra el diagrama,

Y − µY = (Y − µY X ) + (µY X − µY ) (15.17)
| {z } | {z } | {z }
Error total Error no explicado Error explicado
388 Análisis de Correlación

La interpretación de la ecuación (15.17) es la siguiente: El término (Y −µx )2 se denomina error total


y es la desviación entre Y y la media aritmética de Y . El término (µY X − µY ) se denomina error
explicado, y puede considerarse como la cantidad de error eliminada cuando la recta de regresión se
ajusta a los puntos. El último término (Y − µY X ) se denomina error no explicado y es el error que
aún queda (sin explicar) después de ajustar la recta de regresión. Cada punto puede descomponerse
de la manera explicada anteriormente.
Explicamos en el Capítulo 14 que la siguiente relación se mantiene entre los errores de la ecua-
ción (15.17)
X X X
(Y − µY )2 = (Y − µY X )2 + (µY X − µY )2 (15.18)

P
donde la suma se toma sobre la población. El término (Y −µY )2 se llama suma P total de cuadrados.
La ecuación (15.18) muestra cómo se puede dividir
P (repartir) en dos partes: (Y − µY )2 , que se
denomina suma de cuadrados no explicada; y (µY X − µY ) , que se denomina suma de cuadrados
2

explicada.
Utilizando la relación básica dada por la ecuación (15.18) podemos ahora definir el coeficiente
de correlación de la población. Como hicimos en el Capítulo 14, definimos

P
(µY X − µY )2
ρ = P
2
(Y − µY )2
(15.19)
suma de cuadrados explicada
=
suma total de cuadrados

como el coeficiente de determinación y éste muestra la cantidad de error total que ha sido redu-
cido (o, explicado) por la línea de regresión. Si, por ejemplo, ρ2 = 0.90, significa que el 90% de la
variabilidad ha sido explicada (o, eliminada) por la línea de regresión.
La raíz cuadrada de ρ2 , es decir, ρ es el coeficiente de correlación de la población. El signo de ρ es
el mismo que el del coeficiente B de la recta de regresión.
La fórmula (15.19) parece bastante diferente de nuestra fórmula anterior del coeficiente de co-
rrelación poblacional, que se definía como la covarianza de las variables estandarizadas X y Y . Sin
embargo, una pequeña manipulación algebraica mostrará que ambas definiciones son iguales. Lo
demostraremos de la siguiente manera: La recta de regresión puede mostrarse como

µY X = µY + B(X − µX )
A = µY − BµX
P (15.20)
(X − µX )(Y − µY )
B= P
(X − µX )2

donde la línea de regresión se ha ajustado a los puntos por el método de los mínimos cuadrados. De
(15.20) obtenemos

µY X − µY = B(X − µX ) (15.21)
15.4. El coeficiente de correlación: Caso II 389

Sustituyendo (15.21) y (15.20) en (15.19) obtenemos


P
B 2 (X − µX )2
ρ2 = P
(Y − µY )2
P  P 
(X − µX )(Y − µY ) 2 (X − µX )2
= P P
(X − µX )2 (Y − µY )2
P
[ (X − µX )(Y − µY )]2
=P P
(X − µX )2 (Y − µY )2 (15.22)
 2
1 P
(X − µX )(Y − µY )
N
=
1 P 1 P
(X − µX )2 (Y − µY )2
N  N
Cov(X, Y )
=
σX σY
lo que demuestra que ambas definiciones son equivalentes. Por lo tanto, podemos decir que cuando
tenemos una distribución hivariante (población Tipo III), ρ2 puede interpretarse de dos maneras.
Una es como una medida de covariabilidad, y la segunda es como una medida del ajuste de la recta
de regresión a las observaciones. Sin embargo, cuando tenemos una población Tipo I o II, la X es
una variable fija y, por lo tanto, no podemos definir Cov(X, Y ); y, por lo tanto, no se puede definir
ρ2 como medida de covariabilidad. Sólo puede definirse el coeficiente de correlación como medida
de proximidad del ajuste.
Comenzamos nuestra discusión a partir de la línea de regresión de Y sobre X dada por la ecua-
ción (15.14). Sin embargo, es evidente, a partir de la ecuación (15.22), que es simétrica en X y Y ,
que podríamos haber partido de la recta de regresión de X sobre Y , dada por la ecuación (15.13), y
llegar a los mismos resultados. El lector deberá resolver este caso por sí mismo.

15.4.2 Coeficiente de correlación de la muestra

La ecuación de regresión de la muestra se estima a partir de los datos de la muestra por el método
de los mínimos cuadrados, y el uso del método de los mínimos cuadrados, como hemos visto en el
Capítulo 14, fue motivado por el teorema de Gauss-Markov. Encontramos que esta línea de regresión
era el mejor estimador lineal insesgado (MELI) de la ecuación de regresión de la población y estaba
dada por
Yc = a + bX
a = Y − bX
P (15.23)
(X − X)(Y − Y )
b= P
(X − X)2
De forma similar a la relación de la ecuación (15.17) encontrada en la discusión anterior, encontra-
mos para la ecuación de regresión de la muestra (ver Figura 15.11)
Y −Y = Y −Y + Yc − Y (15.24)
| {z } | {z }c | {z }
Error total Errornoexplicado Errorexplicado

y la relación entre estos términos de error es similar a la de la ecuación (15.18), es decir,


X X X
(Y − Y )2 = (Y − Yc )2 + (Yc − Y ) (15.25)
| {z } | {z } | {z }
Total No explicado Explicado
390 Análisis de Correlación

donde la suma se toma sobre la muestra. Muestra cómo la suma total de cuadrados (varianza total)
se divide (particiona) en dos partes, la suma de cuadrados no explicada y la explicada.

Y Y
ϵ
Yc
Y

X X
Figura 15.11

El coeficiente de correlación de la muestra r se define como


P
(Yc − Y )2
r = P
2
(15.26)
(Y − Y )2

donde r2 es el cuadrado del coeficiente de correlación muestral y se denomina coeficiente de deter-


minación muestral.
Este coeficiente de correlación muestral puede interpretarse desde dos puntos de vista. Uno es
como una medida de la proximidad del ajuste de la línea de regresión de la muestra a las observa-
ciones de la muestra, y el segundo como un estimador de ρ. Cuando se ve desde el primer punto de
vista, como hemos visto en el capítulo 14, r puede considerarse por sí mismo, como un parámetro
que mide la cercanía del ajuste de la línea de regresión de la muestra. Cuando se ve desde el segundo
punto de vista, observamos que a medida que n → N , entonces r → ρ y por lo tanto r es un esti-
mador consistente de ρ. Por lo tanto, cuando n se hace grande, r se convertirá gradualmente en un
estimador insesgado de ρ.
La conexión entre (15.26) y el coeficiente de correlación muestral anterior que se definió en
términos de covarianzas se muestra como sigue: A partir de (15.23) tenemos

Yc = Y + b(X − X)
(15.27)
Yc − Y = b(X − X)

Sustituyendo este (15.27) y (15.23) en (15.26), obtenemos


P
b2 (X − X)2
r = P
2
(Y − Y )2
P 2  P 
(X − X)(Y − Y ) (X − X)2
= P P
(X − X)2 (Y − Y )2
P
[ (X − X)(Y − Y )]2
=P P
(X − X)2 (Y − Y )2

P
(X − X)(Y − Y )
r = qP P (15.28)
(X − X)2 (Y − Y )2
15.4. El coeficiente de correlación: Caso II 391

que es la misma que encontramos en el Apartado 15.2. A efectos de cálculo, (15.28) se reescribe
como P P P
n XY − X · Y
r=p P P P P (15.29)
[n X 2 − ( X)2 ][n Y 2 − ( Y )2 ]
Ilustremos estas diversas relaciones con una ilustración hipotética. Supongamos que X son las horas
de estudio y Y son las calificaciones, como se indica en la tabla siguiente. Las ecuaciones de regresión
de Y sobre X y de X sobre Y se hallan por el método de los mínimos cuadrados y los resultados
son los siguientes

X, Y,
Horas Notas XY X2 Y2 Yc
2 5 10 4 25 4
4 3 12 16 9 5
5 7 42 36 49 6
12 15 64 56 83 15

1
Yc = 3 + X (15.30)
2
3 1
Xc = + Y (15.31)
2 2
X = 4, Y =5
La Figura 15.12 muestra la recta de regresión (15.30) y la relación
(Y − Y ) = (Y − Yc ) + (Yc − Y )
(7 − 5) = (7 − 6) + (6 − 5)

Y
8
Y =7
7 Y − Yc
Y −Y
6 Yc − Y
5
4
3
2

2 3 4 5 6 7 X
Figura 15.12

Comprobemos a continuación la relación entre la suma de cuadrados dada por (15.25). Para ello
construimos una hoja de cálculo.

Y −Y (Y − Y )2 Y − Yc (Y − Yc )2 Yc − Y (Yc − Y )2
0 0 1 1 -1 1
-2 4 -2 4 0 0
2 4 1 1 1 1
8 6 2
392 Análisis de Correlación

X X X
(Y − Y )2 = (Y − Yc )2 + (Yc − Y )2
8=6+2
El coeficiente de determinación es
P
(Yc − Y )2
r = P
2
(Y − Y )2
Esto muestra que el 25% de la variabilidad ha sido explicada (eliminada) por la recta de regresión.
El coeficiente de correlación es √
r = ± 0.25 = ±0.5
y la observación de los datos y el diagrama de dispersión muestran que
r = +0.5
Cuando se utiliza la fórmula computacional (15.29), el signo de r se determina automáticamente.
Para el presente caso,
3 · 64 − 12 · 15
r=p
[3 · 56 − 122 ][3 · 83 − 152 ]
4
= = 0.5
8

15.4.3 La relación entre r y b

El coeficiente de correlación r es la media geométrica de b y b′ , que son las pendientes de las dos
rectas de regresión. Es decir, √
r = b · b′
Lo explicamos de la siguiente manera: Dada una muestra aleatoria, podemos encontrar la regresión
de X sobre Y o de Y sobre X; las dos rectas de regresión son
Yc = a + bX
X c = a ′ + b′ X
donde
P
(X − X)(Y − Y )
b= P
(X − X)2
P
(X − X)(Y − Y )
b′ = P
(Y − Y )2

Cuando b y b′ se multiplican, encontramos que


P
′ [ (X − X)(Y − Y )]2
bb = P P (15.32)
(X − X)2 (Y − Y )2
Pero de la ecuación (15.28) sabemos que
P
(X − X)(Y − Y )
r = qP (15.33)
(X − X)2 (Y − Y )2
15.4. El coeficiente de correlación: Caso II 393

Así, a partir de (15.31) y (15.32), vemos que la relación entre r y b es


bb′ = r2 (15.34)
o √
r= bb′ (15.35)
Esta relación supone que el análisis de regresión se ha aplicado a una distribución bivariada, y por
lo tanto, encontrar X en Y y Y en X es posible, aunque puede no ser significativo. Por ejemplo,
supongamos que tenemos una distribución bivariada de las alturas de los hermanos (X) y las her-
manas (Y ). Podemos encontrar las regresiones de X en Y y de Y en X aunque no tenga sentido;
es decir, las alturas de los hermanos (X) no dependen de las alturas de las hermanas (Y ), y vice-
versa. No obstante, podemos ′

√ encontrar las rectas de regresión y hallar b′y b . Entonces r es la media

geométrica de b y b ; r = bb . El signo de r es el mismo que el de las b .
La implicación de esto es que r no indica si X depende de Y , o viceversa.
Esto también muestra que para los problemas en los que X y Y pueden tener covarianza pero no
tienen una relación de dependencia, el coeficiente de correlación es la medida adecuada a utilizar.

15.4.4 Procedimientos de cálculo

La fórmula básica de cálculo es


P PP
XY − X · Y
n
r=p P P P P (15.36)
[n X 2 − ( X)2 ][n Y 2 − ( Y )2 ]
como se ha indicado anteriormente. Para evitar procedimientos computacionales tediosos, podemos
dividir las variables por cualquier número o desplazar el origen, o hacer ambas cosas, como se ha
comentado en el capítulo anterior. Como la técnica es la misma, se omite aquí la discusión.

Ejemplo No. 1
Utilizando nuestro ejemplo hipotético anterior de horas de estudio y calificación, vamos
a ilustrar cómo el desplazamiento del origen puede simplificar los cálculos.

X Y X′ Y′
Horas Notas =X −3 =Y −3 X ′Y ′ (X ′ )2 (Y ′ )2
2 5 -1 2 -2 1 4
4 3 1 0 0 1 4
6 7 3 4 12 9 16
12 15 3 6 10 11 20

Desplazamos el origen a (3, 3). Es decir, dejemos que


X ′ = X − 3, Y′ =Y −3
Entonces r se convierte en
P P P
n X ′ Y ′ − ( X ′ )( Y ′ )
r=p P P P P
[n X ′2 − ( X ′ )2 ][n Y ′2 − ( Y ′ )2 ]
3 · 10 − 3 · 6
=p
[3 · 11 − 32 ][3 · 20 − 62 ]
4
= = 0.5
8
394 Análisis de Correlación

En algunos casos, es ventajoso desplazar el origen a (X, Y ), ya que entonces


X X
X ′ = 0, Y′ =0

y r se convierte en P
X ′Y ′
r = pP P
X ′2 Y ′2
En nuestro ejemplo, tenemos

12 15
X= = 4, Y = =5
3 3
Por lo tanto, establecemos
X ′ = X − 4, Y′ =Y −5
Entonces la tabla queda como se muestra a continuación.

X Y X′ Y′ X ′Y ′ (X ′ )2 (Y ′ )2
2 5 -2 0 0 4 0
4 3 0 -2 0 0 4
6 7 2 2 4 4 4
0 0 4 8 8

Encontramos
P P P
n X ′ Y ′ − ( X ′ )( Y ′ )
r=p P P P P
[n X ′2 − ( X ′ )2 ][n Y ′2 − ( Y ′ )2 ]
3·4−0 4
=p =√
[3 · 8 − 0][3 · 8 − 0] 8·8
4
= = 0.5
8

15.5 Comentarios y resumen

1. El coeficiente de correlación poblacional ρ como medida de covariabilidad supone una distri-


bución bivariada. Cuando la población no es una distribución bivariante, sino una población
que es una colección de subpoblaciones de Y correspondientes a X fijas, podemos definir un
coeficiente de correlación que es una medida del ajuste de la línea de regresión a los datos.
Otro tipo de coeficiente de correlación, llamado coeficiente de correlación de rango, que no
requiere que se especifique la distribución de X y Y , se discute en la sección 15.7.

2. El método de selección de una muestra. En los problemas de regresión, las muestras pueden
seleccionarse fijando primero los valores de X y luego los pares de X y Y . Por ejemplo, los
estudiantes pueden agruparse según alturas fijas (X), y luego pueden seleccionarse estudian-
tes de estos grupos al azar y registrarse sus alturas (X) y pesos (Y ). Pero en el análisis de
correlación, los pares de observaciones deben seleccionarse al azar sin predeterminar ni X ni
Y . Por ejemplo, los pares de hermanos y hermanas deben seleccionarse al azar sin designar
de antemano la altura del hermano o de la hermana. Sin embargo, también podemos aplicar
el análisis de regresión a este segundo tipo de muestra y encontrar las líneas de regresión.
15.5. Comentarios y resumen 395

3. Tamaño de la muestra y distribución muestral de r. En nuestras distribuciones hipotéticas,


se utilizaron muestras de tamaño n = 3, pero esto fue para no oscurecer en absoluto las
derivaciones y los principios por la carga de cálculos grandes y tediosos. En la práctica, no
deberían utilizarse muestras tan pequeñas.
Cuando las muestras son pequeñas, es frecuente que r sea muy diferente de ρ. Sin embargo,
existen métodos para comprobar la fiabilidad de r. Para ello es necesario hablar de la distri-
bución muestral de r. En el siguiente apartado hablaremos de la distribución muestral de r y
de las pruebas de hipótesis.

4. El análisis de regresión suele aplicarse a los casos en los que hay una dirección de dependen-
cia, mientras que el análisis de correlación es más adecuado para los casos en los que no hay
dirección de dependencia. Por ejemplo, si tenemos el rendimiento del trigo y el fertilizante,
hay una dirección de dependencia, mientras que en el caso de fumar mucho y la indigestión,
no hay dirección de dependencia o no está clara. Ambos pueden deberse a trastornos emo-
cionales. Otros ejemplos son la covariabilidad de la estatura o del coeficiente intelectual entre
hermanos y hermanas, que puede deberse a factores hereditarios.

5. El coeficiente de correlación muestra el grado de covariabilidad entre dos variables, pero tam-
bién puede interpretarse como una medida del ajuste de la recta de regresión, como hemos
comentado.

6. Sin embargo, el coeficiente de correlación al cuadrado, es decir, r2 , también se utiliza para


mostrar la proporción de la suma total de cuadrados que ha sido eliminada (o reducida) por
la recta de regresión. En este caso r2 es simplemente un estadístico algebraico, y r no es una
estimación de ρ.

7. Cuando el coeficiente de correlación se interpreta como una medida de covariabilidad entre X


y Y , debe considerarse en relación con la idea de independencia estadística. Esto se debe a que
el coeficiente de correlación es la covarianza de dos variables estandarizadas y la covarianza,
a su vez, está relacionada con la idea de variables dependientes e independientes. Cuando X
y Y son independientes, Cov(X, Y ) = 0, y ρ = 0. Cuando la relación entre X y Y es lineal,
y X y Y no son independientes, Cov(X, Y ) 6= 0 y ρ 6= 0.

8. Sin embargo, como vimos, podemos tener Cov(X, Y ) = 0 incluso cuando X y Y no son
independientes. Los ejemplos que dimos se mostraron en forma de diagrama, y las relaciones
de X y Y no eran lineales. Pero también podemos tener un caso en el que dos equipos de
béisbol juegan una serie de partidos entre sí y las puntuaciones X y Y de ambos equipos son
tales que r = 0. En este caso, está claro que X y Y son dependientes entre sí.

9. La regresión y la correlación son procesos estocásticos. Con esto se quiere decir que tanto X
como Y tienen que variar, y en el caso de la regresión, Y tiene una distribución; en el caso
de la correlación, tanto X como Y tienen una distribución conjunta. Cuando r = ±1, la
situación degenera en un caso de dependencia funcional completa entre X y Y . Es decir, X
da un valor único de Y , o podemos decir que X y Y son la misma cosa.

10. Causalidad y correlación. Supongamos que queremos encontrar la relación entre el número de
horas de trabajo externo (X) y la nota (Y ) que hace un alumno en la escuela, y establecemos
una hipótesis: cuantas más horas de trabajo externo (X), menor es la nota (Y ).
Supongamos que r = −0.9. ¿Podemos concluir que “por lo tanto, cuantas más horas de tra-
bajo externo, más baja es la nota”?
La respuesta es: r = −0.9 no es evidencia suficiente para verificar la afirmación. Simplemen-
te nos dice que los datos que hemos recogido son consistentes con la hipótesis que hemos
396 Análisis de Correlación

planteado. Es decir, apoya nuestra hipótesis. Podemos tener las siguientes situaciones que
provocaron r = −0.9:

a) X es la causa de Y .
b) Y es la causa de X. Debido a las bajas calificaciones (Y ), puede ser que no pueda obtener
una beca, y como resultado tenga que hacer trabajos externos (X).
c) Hay un tercer factor, Z, que afecta a X y Y de forma que muestran una estrecha relación.
Puede ser que tenga una novia cara y exigente (Z) que le haga sacar malas notas (X) y
realizar trabajos externos adicionales (Y ) por dinero.
d) La correlación de X y Y puede deberse al azar.

El análisis de la correlación es neutral desde el punto de vista técnico, y no demuestra la causa y


el efecto. Sólo mediante una investigación más exhaustiva por parte de las ciencias sustantivas,
que pueden ser económicas, sociológicas, etc., podemos llegar a alguna conclusión sobre si X
es o no la causa de Y .
Ejemplo 1. El tabaquismo y el cáncer de pulmón. Supongamos que existe una alta correlación
entre fumar mucho y el cáncer de pulmón. Podemos decir que los datos estadísticos apoyan
la hipótesis de que el tabaquismo es la causa del cáncer de pulmón, pero no lo hemos demos-
trado. Se puede argumentar que los fumadores empedernidos son habitantes de la ciudad y
que el aire contaminado de la ciudad es la causa del cáncer de pulmón de los habitantes de la
ciudad que también son fumadores empedernidos. La relación causa-efecto debe ser probada
por la ciencia médica.

11. Correlación “espuria”. Supongamos que hay dos constantes c y d, y una variable aleatoria Z.
Sea
X = c/Z, Y = d/Z
Es obvio que no hay correlación entre c y d. Sin embargo, unos cálculos sencillos mostrarán
que X y Y tienen un coeficiente de correlación de +1.
P
(X − X)(Y − Y )
r = qP P
(X − X)2 (Y − Y )2
  
P c 1P c d 1Pd
− −
Z n Z Z n Z
=s  2  
P c 1P c P d 1Pd 2
− −
Z n Z z n Z
 2
P 1 1P 1

Z n Z
=   =1
P 1 1P 1 2

Z n Z

Si dejamos que
X = c/Z, Y = dZ
los cálculos mostrarán que r = −1.
En lugar de c y d, supongamos dos variables aleatorias U y V . Entonces, cuando

X = U /Z, Y = V /Z
15.5. Comentarios y resumen 397

y la variación de Z es grande en relación con U y V , podemos encontrar una correlación


positiva significativa entre X y Y .
De manera similar, cuando
X = U /Z, Y = V Z

podemos encontrar una correlación negativa significativa entre X y Y .


Hay otras formas en las que podemos combinar estas variables, como como

X = Z, Y =U +Z

entre otras.
En algunos casos, los estadísticos han calculado el coeficiente de correlación entre X y Y y
han asumido que representa la correlación del fenómeno representado por U y V . Como se
ve, aunque U y V sean estadísticamente independientes entre sí, introduciendo la variable
extraña, Z, es posible establecer una correlación entre X = U /Z y Y = V /Z.
El pionero estadístico Karl Pearson observó en la década de 1880 que algunos estadísticos, al
calcular los coeficientes de correlación, introducían variables extrañas, como la Z, y ajustaban
variables no relacionadas, como U y V , y calculaban correlaciones significativas entre X y
Y que no tenían sentido. Llamó a esta situación con el término despectivo de correlación
“espuria”.
Como se ve, la técnica de la correlación es neutra, y es el usuario quien tiene la culpa al haber
introducido la variable extraña Z y ha utilizado erróneamente X y Y para representar U y
V . No es la técnica de correlación la que es espuria, sino la aplicación de la técnica la que es
espuria. El lector debe estar atento a este fenómeno y tener cuidado al interpretar los resultados
de la correlación. Veamos varios ejemplos.

Ejemplo No. 2
El profesor J. Neyman ilustra esta correlación espuria con un ejemplo en el que S = nú-
mero de cigüeñas, B = número de bebés y W = número de mujeres, todo ello sobre la
base de una provincia. La pregunta es: ¿Existe una correlación positiva entre S (cigüeñas)
y B (bebés)? Sabemos por sentido común que S y B son independientes y que no hay
correlación. Sin embargo, cuando se introduce la variable extraña W (número de muje-
res) y dejamos que
X = S/W , Y = B/W
el elemento común W en X y Y puede provocar una correlación entre X y Y . Dado
que X y Y representan ahora S (cigüeñas) y B (bebés) por mujer, uno se siente tentado
a dejar que X y Y representen a las cigüeñas y a los bebés y, por tanto, a concluir que
existe una correlación entre S y B.
Está claro que en casos como éste, en el que se busca la correlación entre S y B, es
necesario eliminar la influencia del elemento común W .
398 Análisis de Correlación

Ejemplo No. 3
Dos conjuntos de series temporales que tienen grandes tendencias en relación con las
fluctuaciones a corto plazo pueden mostrar una correlación entre las fluctuaciones a cor-
to plazo debido a las grandes tendencias. Por ejemplo, puede que en realidad no haya
correlación entre las fluctuaciones a corto plazo de la producción de leche y de acero,
pero debido a la rápida tendencia al alza de la producción de ambos productos, las fluc-
tuaciones a corto plazo de la leche y del acero pueden mostrar una correlación positiva.

En estos casos, las series temporales deben ser desviadas antes de investigar si existe una co-
rrelación.
Además, si las observaciones de las series temporales no son estadísticamente independien-
tes, puede que no sea apropiado utilizar estas técnicas de correlación simple. Este aspecto se
analiza en el Capítulo 24 en relación con la correlación serial.

15.6 Fórmulas.

Definición básica:
Cov(X, Y )
ρ=
σX σY
E(X − µX )(Y − µY )
=p p
E(X − µX )2 E(Y − µY )2

Estimador:

Yc = a + bX
X X X
(Y − Y )2 = (Y − Yc )2 + (Yc − Y )2
P
(Yc − Y )2
r = P
2
(Y − Y )2
P
(X − X)(Y − Y )
r = qP P
(X − X)2 (Y − Y )2

Fórmulas de cálculo:
P P P
XY − X · Y
n
r=p P P P P
[n X 2 − ( X)2 ][n Y 2 − ( Y )2 ]
P P P
n XY − ( XfX )( Y fY )
r=p P P P P
[n X 2 fX − ( XfX )2 ][n Y 2 fY − ( Y fY )2 ]

15.7 Pruebas de hipótesis relativas a los coeficientes de correlación

Para realizar pruebas de hipótesis o encontrar intervalos de confianza, necesitamos conocer la


distribución de muestreo de r. Cuando se da una distribución normal bivariada, podemos encontrar
la distribución de muestreo de r, que será diferente según se suponga que el coeficiente de correla-
ción poblacional ρ es cero o no.
15.7. Pruebas de hipótesis relativas a los coeficientes de correlación 399

15.7.1 Caso ρ = 0

Cuando ρ = 0, podemos encontrar una distribución muestral exacta de r que es simétrica en


torno a 0 con una varianza de
1 − ρ2
V ar(r) =
n−2

La Figura 15.13 muestra ilustraciones de la curva de frecuencias.


Una característica de la distribución muestral de r es que sólo depende de ρ y n. Como hemos
supuesto que ρ = 0, significa que la distribución muestral para este caso sólo depende de n. Por lo
tanto, sólo es necesario conocer el tamaño de la muestra n para calcular las probabilidades de los
valores de r.
El Cuadro ?? del apéndice es una recopilación de los valores de r, los valores
ϕ = n − 2, y las probabilidades de r. El ϕ = n − 2 son los grados de libertad. Ilustremos el uso
de esta tabla.

2
n = 50

1
n = 10

−1 0 +1 r

Figura 15.13

Supongamos que se selecciona una muestra de n = 12 pares de observaciones. Entonces, a


partir de la tabla para ϕ = 12 − 2 = 10 grados de libertad, encontramos

P (−0.5760 < r < 0.5760) = 1 − 0.05


P (−0.6581 < r < 0.6581) = 1 − 0.02
P (−0.7079 < r < 0.7079) = 1 − 0.01

Estos resultados se muestran en la Figura 15.14(a), (b) y (c). Mostramos cómo se pueden utilizar
estos resultados.

2.5% 1% 0.5%

−1 −0.58 0 0.58 +1 −1 −0.66 0 0.66 +1 −1 −0.71 0 0.71 +1

Figura 15.14
400 Análisis de Correlación

Ejemplo No. 1
Suponga que se selecciona una muestra de n = 10 pares de hermanos y hermanas y
que el coeficiente de correlación muestral para la estatura resulta ser r = 0.7. Pruebe la
significación de este r = 0.7 frente a ρ = 0. Tenemos como hipótesis nula y alternativa

H0 :ρ = 0
H1 :ρ 6= 0

Los grados de libertad son ϕ = 10 − 2 = 8. Por lo tanto, para α = 5%,

P (−0.6319 < r < 0.6319) = 0.95

Por lo tanto, r = 0.7 es significativo y rechazamos la hipótesis nula.

15.7.2 Uso de la distribución t

(La distribución t se estudia en el Capítulo 18. Esta sección puede leerse después del capítulo 18
sin pérdida de continuidad).
Se puede demostrar que cuando ρ = 0, la variable
r
t= r
1 − r2
n−2

tiene una distribución t con ϕ = n − 2 grados de libertad. Por lo tanto, en lugar de utilizar el Cuadro
8 del apéndice, podemos utilizar la tabla t (tabla 3 del apéndice) para probar la significación de r.

Ejemplo No. 2
Utilizando los datos del Ejemplo 1, encontramos
0.7
t= r = 2.772
1 − 0.72
10 − 2
A partir del cuadro t, para ϕ = 10 − 2 = 8 grados de libertad

P (−2.306 < t < 2.306) = 0.95

Por lo tanto, 2.772 es significativo y rechazamos la hipótesis nula.

15.7.3 Caso ρ 6= 0

Cuando suponemos ρ = 0, la distribución de muestreo de r es asimétrica como se muestra en


la Figura 15.15. Por lo tanto, no podemos utilizar la distribución t ni el Cuadro 8 del apéndice para
probar las hipótesis. Los estadísticos matemáticos han demostrado que cuando r se transforma en
15.7. Pruebas de hipótesis relativas a los coeficientes de correlación 401

ρ = 0.8

ρ = 0.5

−1 0 +1

Figura 15.15

1 1+r
zr = loge
2 1−r
1 1+r
= · 2.3026 log10
2 1−r
esta zr estará aproximadamente distribuida normalmente con media y varianza

1 1+ρ
E(zr ) = zρ = loge
2 1−ρ
1
V ar(zr ) = σr2 =
n−3
Por lo tanto, en lugar de probar la significación de r directamente, probaremos la significación de zr
mediante la teoría de la distribución normal. Ilustremos esta transformación de z con un ejemplo.

Ejemplo No. 3
Supongamos que se selecciona una muestra de n = 12 pares de observaciones y que el
coeficiente de correlación muestral resulta ser r = 0.7. Compruebe esto con la hipótesis
de que ρ = 0.5.

H0 :ρ = 0.5
H1 :ρ 6= 0.5

Primero realizamos la transformación z.


1 1 + 0.7 1 1 + 0.5
zr = · 2.3026 log = 0.867zρ = · 2.3026 log = 0.549
2 1 − 0.7 2 1 − 0.5
Por lo tanto, la desviación normal es
zr − zρ 0.867 − 0.549
z= = r = 0.954
σr 1
12 − 3

Para el nivel de significación del 5%, z = 1.96 para la distribución normal. Por tanto, 0.954 no es
significativo y aceptamos la hipótesis nula.
Para eliminar el tedioso trabajo computacional de los logaritmos, Snedecor ha preparado un
gráfico de transformación de ρ y z que es el Cuadro 9 de nuestro apéndice de tablas. Ilustremos su
uso.
402 Análisis de Correlación

En el Ejemplo 3, ρ = 0.5 y r = 0.7. Por lo tanto, a partir de la gráfica del Cuadro 9 del apéndice,
encontramos:

ρ = 0.5 :zρ = 0.549


r = 0.7 :zr = 0.867

lo que coincide con los resultados obtenidos en el Ejemplo 3.


La ventaja de presentar la transformación de z en términos gráficos es su conveniencia de ir de
r a z, o de z a r. La transformación de ir z → r es necesaria cuando se calculan los intervalos de
confianza para ρ.

15.7.4 Intervalo de confianza para ρ

Como zr se distribuye normalmente, podemos encontrar fácilmente un intervalo de confian-


za para zρ . Entonces, utilizando el gráfico de transformación de z, podemos sustituir zr y zρ , por
los valores correspondientes de r y ρ y encontrar el intervalo de confianza para ρ. Ilustremos este
procedimiento con un ejemplo.

Ejemplo No. 4
Supongamos que se selecciona una muestra de tamaño n = 12 pares de observaciones y
la r = 0.7. Encuentre el intervalo de confianza del 90% para ρ.

Dado que zr se distribuye normalmente con

E(zr ) = zρ
1
V ar(zr ) = σ̂r2 =
n−3

encontramos
P (zr − zα/2 σr < zρ < zr + zα/2 σr ) = 1 − α
En nuestro caso, α = 0.10. Por tanto, la desviación normal zα/2 = z5% = 1.645. Así, el intervalo
de confianza para zρ es
1 1
0.867 − 1.645 · √ < zρ < 0.867 + 1.645 · √
12 − 3 12 − 3
0.319 < zρ < 1.415

A partir de la gráfica de la transformación de z, encontramos

zρ ρ
0.319 0.309
1.415 0.889

Por lo tanto, el intervalo de confianza del 90% para ρ es

0.309 < ρ < 0.889


15.8. Correlación de rango 403

Ejemplo No. 5
Supongamos que el tamaño de la muestra se aumenta a n = 103 en el ejemplo 4.

Entonces,

1 1
0.867 − 1.645 · √ < zρ < 0.867 + 1.645 · √
103 − 3 103 − 3
0.7025 < zρ < 1.0315

A partir de la gráfica de transformación de z, encontramos

zρ ρ
0.7025 0.607
1.0315 0.775

Por lo tanto, el intervalo de confianza del 90% para ρ es

0.607 < p < 0.775

15.8 Correlación de rango

Hay muchos casos en los que se puede observar una dependencia entre dos variables X y Y ,
pero se desconoce la distribución. En estos casos, no se pueden aplicar los métodos anteriores para
encontrar r. Un estadístico para medir el grado de asociación entre las variables X y Y cuando se
desconoce su distribución fue desarrollado por el estadístico C. Spearman en 1904 y se denominó
coeficiente de correlación de rangos1 . Se basa en los rangos (u orden) de las observaciones y no de-
pende de una distribución específica de X y Y . Un estadístico de este tipo que no depende de una
distribución específica de las variables se denomina estadístico no paramétrico o libre de distribución.
Lo explicamos con un ejemplo.
Se selecciona una muestra aleatoria de 5 estudiantes universitarios y se comprueba que sus ca-
lificaciones en un curso de matemáticas de la escuela secundaria y en un curso de álgebra de la
universidad son las siguientes, como se muestra en la tabla.

Rango de Rango de
Nota de Nota de Nota de Nota de
Colegio Universidad Colegio Universidad d=X −Y d2
85 93 2 1 1
60 75 4 3 1 1
73 65 3 4 -1 1
40 50 5 5 0 0
90 80 1 2 -1 1
4
1
C. Spearman. “The Proof and Measurement of Association Between Two Things”, American Journal of Psychology,
Vol. 15, 1904, pp. 72-101.
404 Análisis de Correlación

El coeficiente de correlación de rango de Spearman se define como


P
6 d2
rs = 1 − (15.37)
n(n2 − 1)
donde d denota las diferencias entre los rangos de X y Y . En nuestro ejemplo actual
6·4
rs = 1 −
5(25 − 1)
= 1 − 0.2
= 0.8
Para que la fórmula (15.37) se corresponda con nuestros coeficientes de correlación anteriores, debe-
ría oscilar entre +1 y −1 para los casos en los que hay una coincidencia total en el orden de los rangos
y en la misma dirección en el primer caso y en direcciones opuestas en el segundo. Comprobemos es-
X Y d = X − Y d2 X Y d = X − Y d2
1 1 0 0 1 3 -2 4
2 2 0 0 2 2 0 0
3 3 0 0 3 1 2 4
0 8
to.
P 6·8
6 d2 rs = 1 −
rs = 1 − 3(9 − 1)
n(n2 − 1)
6
=1−0 =1−
3
=1 = −1
Esto puede generalizarse a más de 3 números. Así, los resultados satisfacen los requisitos
−1 ≦ rs ≦ 1
Es necesario conocer la distribución muestral de rs para comprobar la fiabilidad de N . La distribu-
ción de rs es simétrica en torno al valor 0, se aproxima a la curva normal a medida que n se hace
grande, y se trunca en −1 y +1, como se muestra esquemáticamente en la Figura 15.16. Muestra la
distribución de rs , suponiendo que la población ρs = 0.
En nuestro ejemplo actual, n = 5 y rs = 0.8. ¿Es rs = 0.8 significativo? Dicho de otra manera,
estamos probando la hipótesis nula de que el coeficiente de correlación de rango en la población es
cero, o podemos decir que las observaciones de la población son independientes.

−1 0 +1
Figura 15.16

Cuando n > 20, la distribución muestral se aproxima lo suficiente a la normalidad como para
poder utilizar la tabla de áreas normales para hallar las probabilidades. La varianza de rs es
1
V ar(rs ) = σr2 = (15.38)
n−1
15.8. Correlación de rango 405

Así, por ejemplo, si n = 26 y rs = 0.7,


1 1
σr2 = =
26 − 1 25
y el error estándar es
1
σr =
5
Entonces la prueba es
rs 0.7
z== = 3.5
σr 1
5
Esto significa que rs está a 3.5 desviaciones típicas de 0 en la distribución de muestreo y, por tanto,
concluimos que hay una diferencia significativa entre 0 y rs = 0.7. Es decir, rechazamos la hipótesis
nula de que ρs = 0, y aceptamos la hipótesis alternativa de que las observaciones no son indepen-
dientes.
Cuando n < 20, podemos utilizar las tablas preparadas por E. G. Olds, que se encuentran en los
Annals of Mathematical Statistics (1938 y 1949).2 . Varios valores cercanos al nivel de significación
de
P α2= 5 por ciento se han reproducido en el Cuadro 15.7 siguiente. La tabla muestra los valores de
d en lugar de rs , lo que ahorra la molestia de calcular rs cuando la prueba no es significativa. Se
han incluido algunos valores de rs como referencia.
El cuadro hasta n = 7 se calcula a partir de frecuencias exactas de rs ; de n = 8 a 10, se calcula
a partir de curvas; y de n = 11 a 20, se calcula a partir de curvas normales.
Ilustremos el uso del Cuadro 15.7 con ejemplos.
P
Para el caso en el que n = 4 y d2 = 0, rs puede encontrarse como
P
6 d2 6·0
r =1− =1−
n(n − 1)
2 4(16 − 1)
=1
Y el cuadro muestra que la probabilidad de rs ≧ 1, cuando ρ = 0 es 0.0417.
P 2
El término 20 entre paréntesis muestra que cuando d = 20 obtenemos rs = −1, y la
probabilidad de rs ≦ −1 es también 0.0417. La rs = −1 se obtiene de
6 · 20
rs = 1 − = −1
4(16 − 1
y se muestra entre paréntesis junto a rs = 1.
P P 2
La distribución dePrs es simétrica
P 2 en torno a 0, y el M es el d en el que rs = 0. Por ejemplo,
para n = 4 tenemos M = d = 10. Por lo tanto,
6 · 10
r =1− =0
4 · 15
P
Para el caso n = 5, e d2 = 2,
6·2
rs = 1 −
5 · 24
1
=1− = 0.9
10
2
E. G. Olds, “Distribution of Sums of Squares of Rank Differences for Small Numbers of Individuals”, Annals of Mathe-
matical Statistics, 9, 1938, pp. 133-148. & E. G. Olds, “The 5% Significance Levels for Sums of Squares of Rank Differences
and a Correction” Annals of Mathematical Statistics, 20, 1949, pp. 117-118.
406 Análisis de Correlación

P P
n d2 rs M Pr
4 0(20) 1(-1) 10 0.0417
5 2(38) 0.9(-0.9) 20 0.0417
5 4(36) 0.8(-0.8) 20 0.0667
6 6(64) 35 0.0292
6 8(62) 35 0.0514
7 16(96) 56 0.0440
7 18(94) 56 0.0548
8 30(138) 84 0.0469
8 32(136) 84 0.0550
9 48(192) 120 0.0470
9 50(190) 120 0.0528
10 72(258) 165 0.0472
10 74(256) 165 0.0515
11 83.6(356.4) 0.050
12 117.0(455.0) 0.050
13 158.0(570.0) 0.050
14 207.7 (702.3) 0.050
15 266.7 (853.3) 0.050
16 335.9(1024.1) 0.050
17 416.2(1215.8) 0.050
18 508.4(1429.6) 0.050
19 613.3(1666.7) 0.050
20 732.0(1928.0) 0.050
Fuente: E. G. Olds. op. cit. Con permiso del autor y del editor.

Cuadro 15.7

P
y la probabilidad de rs ≧ 0.9 es 0.0417. Para el caso de entonces n = 5 y d2 = 38

6 · 38
rs = 1 − = −0.9
5 · 24

y esto da los resultados para la cola izquierda. MostrémosloPen forma de diagrama en la Figura 15.17.
Respondamos ahora a nuestra pregunta: Cuando n = 5, d2 = 4 y rs = 0.8, ¿existe una correla-
ción entre las calificaciones de la escuela secundaria y la universidad? Las hipótesis nula y alternativa
son

H0 :ρs = 0
H1 :ρs 6= 0

En el Cuadro 15.7 encontramos que cuando n = 5, sumd2 ≦ 4, la probabilidad de r ≧ 0.8


es de 0.0667. Es decir, hay unas 7 posibilidades entre 100 de seleccionar una muestra con rs ≧ 0.8
de una población en la que ρs = 0. Utilizando α = 5% como nivel de significación, aceptamos la
hipótesis nula de que ρs = 0.

Ejemplo No. 6
Las clasificaciones de 6 estudiantes en inglés y matemáticas son las siguientes.
15.8. Correlación de rango 407

rs
−1 −0.9 0 0.9 1
P
∑ d2 caso n = 4
20 M = 10

P
∑ d2 caso n = 5
40 38 M = 20 2 0
Figura 15.17

Inglés Matemáticas d d2
1 2 -1 1
2 1 1 1
3 3 0 0
4 5 -1 1
5 4 1 1
6 6 0 0
4

¿Existe una correlación entre las calificaciones de inglés y matemáticas? Las hipótesis nula y alter-
nativa son

H0 :ρs = 0
H1 :ρs 6= 0

P
En el Cuadro 15.7 encontramos que cuando d2 ≦ P 6, la probabilidad de que se produzca dicha
rs es inferior a 0.0292. Nuestros cálculos muestran que d2 = 4. Por lo tanto, dado que estamos
utilizando
P 2 el nivel de significación α = 5%, rechazamos la hipótesis nula. La rs correspondiente a
d = 4 es
6·4
rs = 1 − = 0.886
6 · 35
Los resultados pueden mostrarse en forma de diagrama como en la Figura 15.18.
408 Análisis de Correlación

0.0292
menos de 0.0292
rs
−1 0 0.885 1

P
d2
70 35 64 0
Figura 15.18
CAPÍTULO 16
Teoría de Probabilidad y Variables Aleatorias

En el Capítulo 5 hemos tratado la teoría de la probabilidad y las variables aleatorias a un nivel


elemental. Lo que nos proponemos hacer ahora es reconsiderar estos temas a un nivel más avanzado.
A grandes rasgos, nuestra discusión se desarrollará en cinco pasos. En primer lugar, mostraremos
cómo se expresa un experimento en términos de un espacio muestral básico. En segundo lugar,
mostraremos cómo este espacio muestral básico se convierte en un espacio de probabilidad básico.
En tercer lugar, mostraremos cómo este espacio de probabilidad básico es transformado por una va-
riable aleatoria en un espacio de probabilidad de la variable aleatoria. En cuarto lugar, mostraremos
cómo se define una función de distribución acumulativa en el espacio de probabilidad de la varia-
ble aleatoria, y mostraremos cómo esto nos permite utilizar técnicas matemáticas estándar como el
cálculo y el álgebra para obtener diversos resultados estadísticos. Y en quinto lugar, mostraremos
cómo el espacio de probabilidad de la variable aleatoria dará lugar a otros espacios de probabilidad
de variables aleatorias. Estos espacios de probabilidad son los que utilizamos principalmente en el
análisis estadístico.
También ampliaremos nuestra discusión sobre las variables aleatorias al caso en que haya más
de una variable aleatoria y discutiremos el concepto de vector aleatorio.

16.1 Espacios muestrales, eventos y campos de conjuntos

16.1.1 Experimentos y resultados posibles

Como hemos visto en nuestra discusión en el Capítulo 5 y siguientes, nos interesan los experi-
mentos en los que los resultados tienen la propiedad de la aleatoriedad. Por ejemplo, cuando lanza-
mos un dado, hay 6 resultados posibles, y la característica es que no podemos decir definitivamente
cuál será el resultado.
En esta ilustración, el experimento consiste en lanzar un dado. Estaremos de acuerdo en que
hay 6 resultados posibles. Es necesario que nos pongamos de acuerdo sobre lo que se entiende por
resultados posibles. Por ejemplo, el dado puede estar cargado de manera que el “3” nunca se pro-
duzca. Entonces acordamos que los resultados posibles son 1, 2, 4, 5, 6. Como parte de la naturaleza
del experimento, no podemos predecir definitivamente cuál será el resultado de un lanzamiento, es
decir, hay un elemento de aleatoriedad.

409
410 Teoría de Probabilidad y Variables Aleatorias

Otro ejemplo: lancemos una moneda al aire. Estamos de acuerdo en que los posibles resultados
son escudo (E) y corona (C). O podemos estar de acuerdo en que los posibles resultados son E, C,
y que la moneda está de canto. Suponemos que los resultados son aleatorios. Por lo tanto, tenemos:

Caso 1 Caso 2
Experimento lanzar una moneda lanzar una moneda
Posibles resultados E, C E, C, de canto
Naturaleza del resultado aleatorio aleatoria

En nuestra discusión posterior, estaremos de acuerdo en que los posibles resultados son E y C, y
por tanto adoptaremos el Caso 1.

16.1.2 Eventos

El resultado de un experimento se llamará evento. Por tanto, las E y C de lanzar una moneda
son eventos. Cada uno de los 6 resultados 1, 2, 3, . . . , 6 de lanzar un dado es un evento.
Cuando se lanza una moneda dos veces, coincidiremos en que hay 4 resultados:

(E, C), (E, E), (C, E), (C, C)

Cada resultado es un evento.


El evento “Al menos un E” es

{(E, C), (E, E), (C, E)}

y se compone de 3 eventos. El evento “Al menos un E” puede descomponerse, por tanto, en 3 even-
tos. Pero hay que tener en cuenta que (E, C), (C, C) y (C, E) no pueden descomponerse en otros
eventos. Se denominan eventos simples. Observa que, por ejemplo, (E, C) no puede descomponerse
en los eventos E y C. El experimento consiste en lanzar una moneda dos veces, no una.
Un evento que no puede descomponerse en otros eventos se llama evento simple. Un evento que
puede descomponerse en eventos simples se llama evento compuesto. El evento “Al menos una E”
es un evento compuesto.
Los posibles resultados de un experimento están formados por eventos simples. O podemos
decir que el conjunto de todos los eventos simples describe todos los resultados posibles del experi-
mento.

16.1.3 Puntos de muestreo y espacio muestral

Empezamos con un experimento, acordamos los posibles resultados del experimento y asumi-
mos que los resultados tienen la naturaleza del azar. Entonces estos resultados se llamaron eventos,
y distinguimos entre eventos simples y eventos compuestos.
Ahora queremos expresar este experimento en términos de un modelo matemático. Expresar el
experimento en términos de modelos matemáticos nos permitirá aplicar diversas técnicas matemá-
ticas y obtener resultados relativos al experimento.
Para transformar el experimento en un modelo matemático, los eventos simples se llamarán
puntos de muestra. Cada evento simple está representado por uno y sólo un punto de muestra.
16.1. Espacios muestrales, eventos y campos de conjuntos 411

El conjunto de todos los puntos de muestra posibles representa el conjunto de todos los resul-
tados posibles de un experimento. El conjunto de todos los puntos de muestra posibles se denomi-
nará espacio muestral. Es decir, el espacio muestral es el conjunto de todos los resultados posibles
del experimento. A este espacio muestral, que es el conjunto de todos los resultados posibles del
experimento, lo llamaremos espacio muestral básico o espacio muestral original y lo denotaremos
por R.
En cuanto al ejemplo del dado, si el experimento consiste en lanzar el dado una vez, hay 6 re-
sultados posibles:
e1 = 1, e2 = 2, e3 = 3, e4 = 4, e5 = 5, e6 = 6
Cada uno de estos resultados es un evento simple y, por tanto, es un punto muestral. El conjunto de
6 puntos de muestra
R = {1, 2, 3, 4, 5, 6}
se denomina espacio muestral básico del experimento.
Supongamos que el experimento consiste en lanzar una moneda 2 veces. Entonces los posibles
resultados son
e1 = (E, C), e2 = (E, E), e3 = (C, E), e4 = (C, C)
El espacio muestral básico del experimento es
R = {e1 , e2 , e3 , e4 }

Mostremos cómo se expresan los eventos compuestos en términos de puntos de muestra. En


el ejemplo del lanzamiento del dado, supongamos que consideramos el evento “El resultado es un
número par”. Esto se muestra mediante el subconjunto
E1 = {2, 4, 6}
O consideremos el evento “El resultado es menor que 3”. Esto se muestra con el subconjunto
E2 = {1, 2}
Así, un evento compuesto es un subconjunto de puntos muestrales del espacio muestral R. Un evento
simple también es un subconjunto de R. Por ejemplo, el punto muestral e1 = 1 se convierte en un
subconjunto cuando se escribe
E3 = {e1 } = {1}
Observe cuidadosamente la distinción entre punto muestral e1 y subconjunto {e1 }. Una descripción
de un posible resultado se llama punto de muestra. Un conjunto de descripciones se llama evento.
Los puntos de muestra se denotan con letras minúsculas ei ; los eventos se denotan con letras
mayúsculas Ej .

Ejemplo No. 1
En la sección
 7.1, encontramos que el número de posibles manos diferentes de 13 cartas
52
era = unos 635 mil millones. Por lo tanto, cuando el experimento es seleccionar
13  
52
una mano de 13 cartas (es decir, una mano en el bridge), hay puntos de muestra
13
ei , y el conjunto de todos estos puntos de muestra constituye el espacio muestral básico
R.
412 Teoría de Probabilidad y Variables Aleatorias

Ejemplo No. 2
Cuando el experimento consiste en lanzar un dado de 4 caras dos veces, los posibles
resultados son
e1 = (1, 1) e5 = (2, 1) e9 = (3, 1) e13 = (4, 1)
e2 = (1, 2) e6 = (2, 2) e10 = (3, 2) e14 = (4, 2)
e3 = (1, 3) e7 = (2, 3) e11 = (3, 3) e15 = (4, 2)
e4 = (1, 4) e8 = (2, 4) e12 = (3, 4) e16 = (4, 4)

Cada uno de estos resultados es un punto de muestreo y el conjunto de todos los puntos de muestreo

R = {e1 , e2 , . . . , e16 }

es el espacio muestral básico. Un subconjunto de los puntos de muestra en R es un evento Ej . Por


ejemplo,
E1 = {e1 }, E2 = {e1 , e2 }
son eventos. E1 es un evento simple. E2 es un evento compuesto.
Tenga en cuenta que el espacio muestral es simplemente una colección de puntos de muestra.
No tiene dimensiones ni volumen. Sin embargo, será conveniente expresar este espacio muestral en
términos del tipo de espacio que utilizamos en geometría. Lo haremos en el Apartado 16.3, en el que
hablaremos de los productos cartesianos.
Un espacio muestral se llama espacio muestral discreto si contiene un número finito de puntos,
o si los puntos pueden ponerse en correspondencia uno a uno con la secuencia de enteros positivos.
Los espacios muestrales de los Ejemplos 1 y 2 eran espacios muestrales discretos.
Supongamos que los resultados de un experimento son los pesos de los estudiantes de una de-
terminada universidad. Supongamos que sus pesos oscilan entre 75 y 260 libras. Podemos ver in-
tuitivamente que los pesos son un conjunto continuo de puntos entre 75 y 260 lbs. y que un posible
resultado puede ser cualquiera de estos puntos. Sin necesidad de demostrarlo, diremos que estos
puntos no pueden ponerse en correspondencia uno a uno con números enteros positivos. Diremos
que tenemos un continuo de puntos. Los puntos constituyen la línea recta. Este tipo de espacio
muestral se llama espacio muestral continuo.

16.1.4 Eventos y campo

Dado un experimento, el espacio muestral básico R es el conjunto de todos los puntos mues-
trales ei . Los subconjuntos de puntos muestrales ei de R se denominan eventos Ej . El lector astuto
habrá notado que no hemos explicado cuántos subconjuntos (eventos Ej ) pueden seleccionarse del
espacio muestral R. Consideremos este problema.
Sea el experimento de lanzar un dado, y el espacio muestral R

R = {1, 2, 3, 4, 5, 6}

Sea E el evento compuesto


E = E1 ∪ E2
donde E1 = {1}, E2 = {2}. Es decir, E es el evento de que ocurra un 1 o un 2 o ambos. Entonces
E puede ser mostrado por el subconjunto

E = E1 ∪ E2 = {1} ∪ {2} = {1, 2}


16.1. Espacios muestrales, eventos y campos de conjuntos 413

y E ⊂ S.
¿Cuántos eventos simples y compuestos pueden generarse a partir del espacio muestral S? En
términos de teoría de conjuntos, esta pregunta puede replantearse como: ¿Cuántos subconjuntos
pueden generarse a partir del conjunto R? Estos subconjuntos son

0, {1}, {2}, {3}, . . . , {1, 2}, {1, 3}, . . . , {1, 2, 3, 4, 5, 6}

Utilizando las ideas de todas las muestras posibles


  explicadas en el Capítulo 7, el número de subcon-
6
juntos puede mostrarse como sigue: Hay formas de seleccionar un subconjunto 0 de R. Hay
  0
6
formas de seleccionar un subconjunto 1 con 1 elemento de R, etc. Por tanto, el número total
1
de subconjuntos es
             
6 6 6 6 6 6 6
+ + + + + + (16.1)
0 1 2 3 4 5 6

Pero a partir del teorema del binomio, tenemos


             
6 6 6 6 5 6 4 2 6 3 3 6 2 4 6 5 6 6
(a + b) = a + a b+ a b + a b + a b + ab + b (16.2)
0 1 2 3 4 5 6

Si dejamos que a = 1 y b = 1, la ecuación (16.2) se convierte en la ecuación (16.1). Por tanto, el


número de subconjuntos generados a partir de (16.1) será

(1 + 1)6 = 26 = 64

Es decir, podemos generar 64 eventos simples y compuestos a partir de R donde { } = 0 se


incluye como evento. El número de eventos compuestos es
   
6 6
64 − + = 64 − 7 = 57
0 1

Podemos concluir que tenemos una colección de 64 subconjuntos tomados de R. En lugar de utilizar
el término colección, podemos utilizar el término clase de subconjuntos.
En general, dado un conjunto de n elementos, podemos generar 2n subconjuntos.
Es posible calificar los subconjuntos por alguna característica. Por ejemplo, podemos seleccionar
subconjuntos tales que la suma de los números sea par; o tales que la suma de los números sea impar;
o tales que la suma de los números sea superior a 10; etc. Decimos que tenemos diferentes clases de
subconjuntos.
Las características de los 64 subconjuntos seleccionados son:

1. La unión de cualquier número de estos subconjuntos producirá un subconjunto que es miem-


bro de esta clase de subconjuntos.

2. La intersección de cualquier número de estos subconjuntos producirá un subconjunto que es


miembro de esta clase de subconjuntos.

3. La diferencia de dos subconjuntos cualesquiera es un miembro de esta clase de subconjuntos.

4. El complemento de cualquier subconjunto es un miembro de esta clase de subconjuntos.


414 Teoría de Probabilidad y Variables Aleatorias

Llamemos a estos 64 subconjuntos un campo y denotémoslo por F . Así, podemos decir que
un campo muestra todas las posibles combinaciones de eventos que pueden generarse a partir del
espacio muestral básico.
Como puede verse fácilmente, normalmente estamos más interesados en los eventos que en los
puntos de la muestra. En concreto, nos interesan las probabilidades asociadas a los eventos.
Para resumir, empezamos con un experimento, luego lo expresamos como un modelo matemá-
tico en términos de un espacio muestral básico R. Luego, a partir de este espacio muestral básico
R, generamos un campo F de conjuntos que es una colección de todos los posibles subconjuntos
(eventos) generados a partir de R.
Como ya hemos dicho, nos interesan las probabilidades asociadas a los eventos del campo F .
Por ejemplo, ¿cuál es la probabilidad del evento “El resultado es un número par”? En términos de
conjuntos, tenemos el evento
E4 = {2, 4, 6}
Entonces se puede plantear la pregunta ¿Cuál es la probabilidad de que ocurra E4 cuando se lanza
un dado?
Esto nos lleva a la siguiente pregunta: ¿Cómo encontramos las probabilidades de los eventos en
el campo F ?

16.2 Función de probabilidad y espacio de probabilidad

16.2.1 Función de probabilidad

Del Capítulo 5, Teoría de la probabilidad, sabemos que cuando se lanza un dado justo de 4 caras,
tenemos 4 puntos de muestra e1 , e2 , e3 y e4 en el espacio muestral R, y a cada punto de muestra le
asignamos una probabilidad de 1/4. Podemos expresarlo de la siguiente manera

1
p(ei ) = , i = 1, 2, 3, 4
4
Enunciemos ahora esto como una convención fundamental. Dado un espacio muestral básico R con
puntos muestrales e1 , e2 , . . . , en , supondremos que existe una función real de un solo valor p(ei )
que satisface las 3 condiciones siguientes:

1. p(ei ) ≥ 0 para ei ∈ R.

2. Los puntos de la muestra en R pueden escribirse como una secuencia finita o infinita.

3. Si R es un conjunto finito de puntos de muestra {e1 , e2 , . . . , en } entonces

p(e1 ) + p(e2 ) + · · · + p(en ) = 1

Si R es una secuencia infinita de puntos contables, entonces

p(e1 ) + p(e2 ) + · · · = 1

La función real de un solo valor p(ei ) que satisface las condiciones anteriores se llamará función
de probabilidad definida en R. El valor que toma, es decir, el 1/4 de nuestro ejemplo anterior, se
16.2. Función de probabilidad y espacio de probabilidad 415

llama probabilidad de ei . Para ser más exactos, deberíamos decir: p es la función de probabilidad,
y p(ei ) es la probabilidad del punto de la muestra ei . Sin embargo, por comodidad de la discusión,
dejaremos que p(ei ) represente la función de probabilidad p cuando no hay confusión.
Nótese que la condición (16.2) significa que estamos considerando un espacio muestral discre-
to. Cuando se considera un espacio muestral continuo, se puede obtener una definición similar de
función de probabilidad, excepto que las condiciones (16.2) y (16.3) se complican: y en este caso
utilizamos el término función de densidad de probabilidad en lugar de función de probabilidad.
Obsérvese que la variable independiente de la función de probabilidad es un punto muestral.
Por tanto, el dominio de la función de probabilidad es el espacio muestral básico R. De ahí que
podamos decir que la función de probabilidad es una función que asigna probabilidades a los puntos
muestrales ei en el espacio muestral básico R.
No hemos explicado cómo se determinan los valores reales de p(ei ). Esto se explicó en el Capí-
tulo 5. Encontramos que en algunos casos podemos asignar probabilidades iguales a los eventos o
utilizar el enfoque de la frecuencia relativa y calcular los valores reales de p(ei ). También existe el
enfoque subjetivo. No consideraremos este aspecto de la búsqueda de valores reales de p(ei ) en este
capítulo.
Una vez asignadas las probabilidades a los puntos de la muestra, podemos proceder a asignar
probabilidades a los eventos del campo F .

16.2.2 Medida de probabilidad

En primer lugar, definiremos una función denominada medida de probabilidad para todos los
subconjuntos (eventos) del campo F . En segundo lugar, asignaremos valores a la medida de proba-
bilidad y, por tanto, habremos hallado las probabilidades de los eventos (subconjuntos) del campo
F.
Utilizando el experimento de lanzar un dado de 4 caras tenemos 24 = 16 subconjuntos en el
campo F . Se define una función de conjunto P sobre los 16 subconjuntos del campo F . Llamamos
a P función de conjunto porque los elementos del dominio de P son subconjuntos de R, es decir,
elementos de F . Suponemos que esta función de conjunto P tiene las siguientes 3 propiedades:

1. Para cada evento Ej , hay asociado un número real no negativo P (Ej ), llamado la probabili-
dad del evento Ej . Es decir, P (Ej ) ≥ 0.

2. P (R) = 1.

3. Si dos eventos Ei , Ej , no tienen puntos muestrales en común, entonces P (Ei ∪ Ej ) =


P (Ei ) + P (Ej ).

Entonces esta función de conjunto P se llama medida de probabilidad sobre el campo F .


Habiendo definido una medida de probabilidad (función de conjunto) P para los eventos Ej
de F , la siguiente pregunta es: ¿Cómo encontramos los valores de P , es decir, P (Ej )? Ya hemos
encontrado los valores de la función de probabilidad p, es decir, p(ei ), para los puntos de la muestra
en el espacio muestral básico R. Si podemos encontrar una relación entre p(ei ) y P (Ej ) podremos
evaluar P (Ej ) en términos de p(ei ).
416 Teoría de Probabilidad y Variables Aleatorias

¿Cuál es la relación entre p(ei ) y P (Ej )? Definimos la relación como sigue: La probabilidad
P (Ej ) de cualquier evento Ej es la suma de las probabilidades p(ei ) de todos los puntos de la
muestra ei en el subconjunto Ej .
En nuestro ejemplo tenemos

E1 = { }, E2 = {e1 }, E3 = {e2 }, E4 = {e3 }, E5 = {e4 }


E6 = {e1 , e2 }, E7 = {e1 , e3 }, E8 = {e1 , e4 }, E9 = {e2 , e3 }
E10 = {e2 , e4 }, E11 = {e3 , e4 }, E12 = {e1 , e2 , e3 }
E13 = {e1 , e2 , e4 }, E14 = {e1 , e3 , e4 }, E15 = {e2 , e3 , e4 }
E16 = {e1 , e2 , e3 , e4 }

Así, P (Ej ) se convierte en

P (E1 ) = P ({ }) = p(∅) = 0
1
P (E2 ) = P ({e1 }) = p(e1 ) =
4
...
2 1
P (E6 ) = P ({e1 , e2 }) = p(e1 ) + p(e2 ) = =
4 2
...
P (E16 ) = P ({e1 , e2 , e3 , e4 }) = p(e1 ) + p(e2 ) + p(e3 ) + p(e4 ) = 1

Hemos encontrado así un método para asignar valores a la medida de probabilidad P utilizando las
probabilidades del espacio muestral básico.
Ahora estamos listos para definir el tema principal de esta sección, es decir, un espacio de pro-
babilidad, pero antes de eso, vamos a ampliar los resultados anteriores y encontrar la probabilidad
de dos eventos cualesquiera E1 y E2 . Lo exponemos sin pruebas como un teorema:
Para dos eventos cualesquiera E1 y E2 , la probabilidad de que ocurra E1 o E2 o ambos viene
dada por
P (E1 ∪ E2 ) = P (E1 ) + P (E2 ) − P (E1 ∩ E2 )
Si E1 ∩ E2 = 0, es decir, E1 y E2 son mutuamente excluyentes y no tienen puntos muestrales en
común, entonces
P (E1 ∪ E2 ) = P (E1 ) + P (E2 )

Claramente, si E1 , E2 , y E3 son mutuamente excluyentes, entonces

P (E1 ∪ E2 ∪ E3 ) = P (E1 ) + P (E2 ) + P (E3 )

16.2.3 Espacio de probabilidad

Definamos ahora un espacio de probabilidad. El triple, el espacio muestral básico R, el campo F


y la medida de probabilidad P , se llama espacio de probabilidad. El espacio de probabilidad se suele
denotar como (R, F , P ).
El espacio de probabilidad nos proporciona un modelo matemático del experimento y también
asigna probabilidades a los eventos resultantes del experimento. Es el modelo básico del experi-
mento y contiene información sobre el mismo. Por lo tanto, parece que todo lo que necesitamos es
16.3. Variable aleatoria 417

utilizar este espacio de probabilidad (R, F , P ) y aplicar procedimientos estadísticos para obtener la
información que necesitamos sobre el experimento.
Sin embargo, como la medida de probabilidad P del (R, F , P ) es una función de conjunto,
es difícil de manipular matemáticamente. Nos gustaría transferir la información de (R, F , P ) a un
nuevo espacio de probabilidad que pueda ser manipulado con herramientas matemáticas más fáciles
de usar, como el cálculo y el álgebra.
Esta transferencia de información de (R, F , P ) a un nuevo espacio de probabilidad más fácil de
manipular matemáticamente se realiza mediante una función llamada variable aleatoria. Proceda-
mos, pues, a discutir las variables aleatorias.

16.3 Variable aleatoria

Acabamos de mencionar que la variable aleatoria es una función. Por lo tanto, vamos a revisar
el significado de una función. Y para ello, necesitamos el concepto de producto cartesiano.

16.3.1 Producto cartesiano

Supongamos que tenemos un espacio de 2 dimensiones como el mostrado en la Figura 16.1.


Tenemos 3 puntos x1 = 1, x2 = 2, y x3 = 3 en el eje x; y 3 puntos y1 = 1,

y
4
(1, 3)
3 (3, 3)

1 (3, 1)
(1, 1)

1 2 3 4 x

Figura 16.1

y2 = 2, y y3 = 3 en el eje y. Combinados, nos dan 9 puntos en el plano:


(1, 1), (1, 2), (1, 3), (2, 1), (2, 2), (2, 3), (3, 1), (3, 2), (3, 3)
Estos 9 puntos están formados por pares de números ordenados. Por ejemplo, en (3, 2), el 3 es el
primer componente y el 2 el segundo. En general, (x, y) se define como un par ordenado de elemen-
tos si el arreglo dentro del paréntesis especifica que x es el primer componente y y es el segundo
componente.
Obsérvese que {3, 2} es un conjunto de 2 elementos, y con los conjuntos el orden de los ele-
mentos es irrelevante. Es decir
{3, 2} = {2, 3}
mientras que con los pares ordenados
(3, 2) 6= (2, 3)
418 Teoría de Probabilidad y Variables Aleatorias

como queda claro en la Figura 16.1.


La Figura 16.1 muestra 9 pares ordenados. Este diagrama bidimensional puede interpretarse
como sigue: Sea el eje x un espacio unidimensional R(1) con 3 puntos {1, 2, 3}, y el eje y un espacio
unidimensional R(1) con 3 puntos {1, 2, 3}. Entonces el conjunto de 9 pares ordenados se puede
denotar por
(1) (2) (1) (2)
R1 × R1 = {(x, y) : x ∈ R1 y y ∈ R1 }

(1) (2)
Es decir, R1 × R1 es el conjunto de pares ordenados tal que el primer elemento x pertenece a
(1) (2)
R1 , y el segundo elemento y pertenece a R1 . Escribimos

(1) (2)
R = R1 × R1

(1) (2)
y el conjunto R se llama Producto cartesiano de R1 y R1 . Es decir, R es el conjunto de los 9 pares
ordenados.

Ejemplo No. 1
(1)
Supongamos que se lanza un dado dos veces. Sea R1 = {1, 2, . . . , 6} son los posibles
(2)
resultados del primer lanzamiento, y R1 = {1, 2, . . . , 6}, los posibles resultados del se-
(1) (2)
gundo lanzamiento. Entonces el producto cartesiano R1 × R1 es el conjunto de 36 pa-
res ordenados que se muestra en la Figura16.2.

y
6

4
(2)
R1

1 2 3 4 5 6 x
(1)
R1

Figura 16.2
16.3. Variable aleatoria 419

Ejemplo No. 2
(1)
Supongamos que se lanza un dado de una cara 3 veces. Sea R1 = {1, 2, 3, 4} los posi-
(1)
bles resultados del primer lanzamiento; R2 = {1, 2, 3, 4} los posibles resultados del se-
gundo lanzamiento. Entonces
(1) (2)
R1 × R1
(1) (2)
es el Producto cartesiano de R1 y R1 y consiste en los 4 · 4 = 16 pares ordenados que
se muestran en la Figura 16.3(a).

z
4
(2)
R1
4 3 4 y
(2)
R1

3 2 3
(3)
(3, 1, 1)
R1 2
2 1
1

1 x
1 2 3 4
(1)
R1
1 2 3 4 x
(1) (b)
R1
(a)
Figura 16.3

Podemos extender esto y construir


(1) (2) (3)
R1 × R1 × R1
(2) (3)
y definirlo como el producto cartesiano de R(1), R1 y R1 , y cada punto del espacio tridimensional
denotará un triple ordenado (x, y, z). Tendremos 4 · 4 · 4 = 64 triples ordenados. El triple ordenado
(3, 1, 1) se muestra en la Figura16.3(b).
Generalicemos la terminología. El par ordenado (x, y) puede llamarse una dupla (x, y). La triple
ordenada (x, y, z) puede llamarse tripleta (x, y, z). En general, podemos hablar de una tupla de n
(x1 , x2 , . . . , xn ).
Sean R(1) = {1, 2, 3} y R(2) = {1, 2} espacios muestrales. Entonces el producto Cartesiano R
de los espacios muestrales R(1) y R(2) es el conjunto de todas las duplas (e(1) , e(2) ) donde e(1) ∈ R(1)
y e(2) ∈ R(2) .

R = R(1) × R(2)
= {(1, 1), (1, 2), (2, 1), (2, 2), (3, 1), (3, 2)}

como se ilustra en la Figura 16.4.


420 Teoría de Probabilidad y Variables Aleatorias

2 (3, 2)

(2)
R1
1
(1, 1)

1 2 3 x
(1)
R1

Figura 16.4

Si R(1) es un espacio muestral bidimensional y R(2) es un espacio muestral unidimensional,


entonces R = R(1) × R(2) será un espacio (2 + 1 = 3) tridimensional.
Si hay k espacios muestrales, R(1) , R(2) , . . . , R(k) , entonces el producto Cartesiano de estos es-
pacios muestrales será
R = R(1) × R(2) × · · · × R(k)
La dimensión de R será la suma de las dimensiones de los k espacios muestrales R(1) , R(2) , . . . , R(k) .
R es el conjunto de todas las tuplas de k elementos (e(1) , e(2) , . . . , e(k) ) donde e(1) ∈ R(1) , e(2) ∈
R(2) , . . . , e(k) ∈ R(k) ,.
Podemos generalizar aún más dejando que, por ejemplo, R = R(1) × R(2) sea adimensional y
dejando simplemente que R sea un conjunto de duplas (e(1) , e(2) ) donde e(1) ∈ R(1) y e(2) ∈ R(2) .
Entonces R se llama el producto combinatorio de los espacios R(1) y R(2) .

Ejemplo No. 3
Aclaremos la diferencia entre un espacio muestral, que consta de n tuplas y es adimen-
sional, y un espacio cartesiano, que tiene dimensiones. Supongamos que se lanza un
dado una vez. Entonces el espacio muestral es

R = {E, C}

R es adimensional.

Cuando el dado se lanza 2 veces, el espacio muestral se convierte en

R′ = {(E, C), (E, E), (C, E), (C, C)}

R′ está formado por duplas y no tiene dimensiones. Es simplemente un conjunto abstracto.


Sabemos que R′ puede presentarse como un producto combinatorio

R′ = R × R = {E, C} × {E, C}

También sabemos que R′ puede presentarse como un producto Cartesiano, de modo que la primera
componente de, por ejemplo, (E, C) se convierte en la primera coordenada, y la segunda compo-
nente se convierte en la segunda coordenada. R′ se representa entonces gráficamente. En este caso,
el espacio muestral R′ tiene dimensiones, y se considera un espacio bidimensional.
16.3. Variable aleatoria 421

Segundo lanzamiento
C

E C
Primer lanzamiento

16.3.2 Función

Con estos antecedentes de pares ordenados (duplas) y producto Cartesiano, vamos a explicar
el concepto de función. En la Figura 16.5 seleccionemos los 3 pares ordenados (1, 1), (2, 2), (3, 3) y
llamemos f al conjunto de los 3 pares ordenados. La característica de f es que asigna a cada elemento

y
3

2
(2)
R1

1 2 3 x
(1)
R1

Figura 16.5

(1) (2)
x de R1 un elemento correspondiente y de R1 para formar pares ordenados.
(1) (2)
Más formalmente, afirmamos que, para cada x ∈ R1 , hay una y sólo una y ∈ R1 que se
combina con x para formar un par ordenado (x, y) que pertenece al conjunto f . Esta f se llama
función. Por lo tanto, tiene las siguientes propiedades:

1. f es un conjunto de pares ordenados.

2. Si dos pares ordenados (a, b) y (c, d) están en el conjunto f , y si los primeros elementos de
(a, b) y (c, d) son iguales (a = c), entonces sus segundos componentes deben ser también
iguales (b = d).

3. Lo contrario no es necesariamente cierto. Si b = d, entonces a y b pueden ser iguales o no.

La segunda propiedad se expresa diciendo que una función f es de valor singular.


422 Teoría de Probabilidad y Variables Aleatorias

Ejemplo No. 4
Consideremos la función
f (x) = x + 1
que se muestra en la Figura 16.6. El conjunto de pares ordenados pertenecientes a la
función (conjunto) f se muestra mediante la línea recta. Por ejemplo, el punto A es el
conjunto ordenado (2, 3). Como se ve, (propiedad 1) todos los puntos de la recta son
pares ordenados; y (propiedad 2) a cada primer elemento x le corresponde un segundo
elemento y.

y
4

1 2 x

Figura 16.6

Hemos escrito
f (x) = x + 1
que es la forma habitual de expresar las funciones en matemáticas. Pero nótese que f denota la fun-
ción, es decir, el conjunto de pares ordenados; f (x) no es la función sino que representa el segundo
componente del par ordenado; f (x) es el valor de la función f en x.
También podemos decir que x es la variable independiente, f es la función y y es la variable
dependiente. Y la función f asigna los puntos x en el dominio a los puntos y en el rango.

Ejemplo No. 5
En la Figura 16.7 tenemos
A = (1, 2) y B = (1, −2)
Es decir, en los 2 pares ordenados A y B el primer elemento es 1; pero el segundo com-
ponente es 2 para A, y −2 para B. Por tanto, este conjunto mostrado por la curva g no
es una función.

Ejemplo No. 6
Consideremos la Figura 16.8: Punto A = (x1 , y1 ) y punto B = (x2 , y1 ). Así podemos ver
que x1 6= x2 , pero ambos puntos están asignados en y, y la recta g es una función.
16.3. Variable aleatoria 423

y
A(1, 2) g
2

0 1 x

−2
B(1, −2)

Figura 16.7

y
y1 A Bg

x1 x1 x

Figura 16.8

16.3.3 Definición de variable aleatoria

Ahora estamos preparados para definir una variable aleatoria. Una variable aleatoria (v.a.) X es
una función real, de un solo valor, definida en cada punto muestral e en el espacio muestral básico
R. Expliquemos esta definición con la siguiente ilustración. Se lanza una moneda dos veces, por lo
que hay 4 puntos de muestra en el espacio muestral básico R:

e1 = (E, E), e2 = (E, C), e3 = (C, E), e4 = (C, C)

Como hemos visto en 16.2, podemos generar 24 = 16 subconjuntos a partir de estos 4 puntos
muestrales:

E1 = {}, E2 = {e1 }, E3 = {e2 }, . . .


. . . E10 = {e2 , e4 }, . . . , E16 = {e1 , e2 , e3 , e4 }

Caractericemos ahora estos subconjuntos (eventos) E1 por la obtención de escudos. Vemos que,
por ejemplo, E2 = {e1 } es el evento de obtener 2 escudos; E3 = {e2 } es el evento de 1 escudo;
E10 = {e2 , e4 } es el evento de 1 escudo; E16 = {e1, e2, e3, e4} es el evento de 2 escudos, y así suce-
sivamente. Como la moneda se lanza 2 veces, sólo tenemos 3 resultados posibles: ninguna escudo,
1 escudo y 2 escudos.
La v.a. X asigna los puntos de muestra ei del espacio muestral básico R en un nuevo espacio
R′ que consiste en los 3 posibles resultados de ninguna escudo, (x1 ), 1 escudo (x2 ), y 2 escudos
(x3 ). Hay 16 subconjuntos de ei , es decir, 16 eventos Ej , que se asignan en los 3 resultados posibles,
x1 , x2 y x3 . Mostramos esta asignación de forma esquemática en la Figura 16.9. La variable aleatoria
se denota por X, y el valor de la variable aleatoria se denota por X(e). Sin embargo, cuando no se
produzca ninguna confusión, se puede utilizar X(e) para denotar la variable aleatoria. Al escribir
X(e), mostramos explícitamente los puntos de muestra e que se están asignando en R′ .
424 Teoría de Probabilidad y Variables Aleatorias

e2 e3
C X(e) = x

e1 e4
E

E C x1 = 0 x2 = 1 x3 = 2
R ningún escudo 1 escudo 2 escudos
R′

Figura 16.9

Llamemos a R′ espacio muestral de la variable aleatoria X(e), y a x1 , x2 , x3 puntos muestra-


les x. Hemos inducido un nuevo espacio muestral. De forma similar al espacio muestral básico R,
ahora queremos construir un espacio de probabilidad a partir de R′ . Para ello, primero necesitamos
generar un campo F ′ a partir de los puntos muestrales x1 , x2 y x3 ; y segundo, definir una medida
de probabilidad para los subconjuntos de este nuevo campo F ′ .
Generar un nuevo campo F ′ a partir de los puntos de muestra x en R′ es sencillo. En nuestra
ilustración, podemos generar 23 = 8 subconjuntos:

E1′ = {}, E2′ = {x1 }, E3′ = {x2 }, E4′ = {x3 }, E5′ = {x1 , x2 }
E6′ = {x1 , x3 }, E7′ = {x2 , x3 }, E8′ = {x1 , x2 , x3 },

Entonces, por ejemplo, el evento 1 escudo es E3′ = {x2 }. El evento ningún escudo o 1 escudo o
ambos es E5′ = {x1 , x2 }.
Podemos ver intuitivamente que la información de los puntos de muestra e en R se ha transfe-
rido a los puntos de muestra x en R′ . Y como las x se muestran como números reales en una línea
recta, son más fáciles de usar que las e.
Una vez encontrado el nuevo espacio muestral R′ y el nuevo campo F ′ generado, el siguiente
problema es definir una medida de probabilidad para los subconjuntos de F ′ . Primero establece-
mos una relación entre los subconjuntos (eventos) del campo F del espacio de probabilidad original
(R, F , P ) y los subconjuntos (eventos) del nuevo campo F ′ . En segundo lugar, transferimos la me-
dida de probabilidad P (E) del espacio de probabilidad original (R, F , P ) a los subconjuntos del
nuevo campo F ′ . Mostramos ahora cómo se hace esto.
Podemos ver en la Figura 16.9 que el evento E3′ = {x2 } en R′ , que es el evento de 1 escudo,
corresponde al evento E10 = {e2 , e4 } en el espacio muestral básico R.

Esto se obtuvo mediante la asignación X, que asignó los puntos de muestra {e2 ,e4 en el punto
de muestra x2 . El conjunto {x2 } se denomina imagen del conjunto {e2 , e4 } bajo la asignación de
X.
A la inversa, el conjunto en R cuya imagen es E3′ = {x2 } en R′ se llama imagen inversa de
E3′ = {x2 } bajo la asignación de X. Denotamos la imagen inversa por X −1 (E3′ ).
Sabemos que el conjunto en R cuya imagen es E3′ = {x2 } en R′ es E10
′ = {e , e }. Por lo tanto,
2 4
tenemos
E10 = X −1 (E3′ )
Resumiendo, si E es un subconjunto de R, el conjunto de todos los elementos {X(e) : e ∈ E ⊂ R}
de R′ se llama imagen del subconjunto E, y se denota por X(E). A la inversa, si E ′ es un subconjunto
16.3. Variable aleatoria 425

de R′ , la imagen inversa de E ′ es el subconjunto de elementos

{X −1 (x) : x ∈ E ′ ⊂ R′ }

en R. Esto se denota por


X −1 (E ′ ) = {X −1 (x) : x ∈ E ′ ⊂ R′ }
Ahora podemos definir una medida de probabilidad para la v.a. X(e). En la Figura 16.9, reprodu-
cida aquí como Figura 16.10, conocemos la medida de probabilidad para el espacio muestral básico
R. Deseamos encontrar una medida de probabilidad para el espacio muestral R′ . Como acabamos
de encontrar una forma de relacionar los eventos en R y R′ mediante los conceptos de imagen e
imagen inversa, utilizaremos esto para definir una medida de probabilidad para el espacio muestral
R′ .

e2 e3
C E10 X(e) = x

e1 e4
E E3

E C x1 = 0 x2 = 1 x3 = 2

Figura 16.10

En la Figura 16.10, vemos que


E10 = X (−1) (E3′ )
Por lo tanto, el conjunto de puntos E10 = {e2 , e4 } corresponde al conjunto E3′ = {x2 }. Se sabe que
la medida de probabilidad de E10 , es decir, P (E10 ), es

P (E10 ) = P ({e2 , e4 }) = P ({e2 }) + P ({e4 })

Sea P ′ (E3′ ) la medida de probabilidad de E3′ en R′ . Entonces definimos

P (E10 ) = P ′ (E3′ )

o
P (E10 ) = P [X −1 (E3′ )] = P ′ (E3′ )
Afirmamos que, a todo subconjunto E ′ de R′ , le corresponde un evento E de R formado por los
puntos de muestra ei . Cuando los puntos muestrales ei se asignan en R′ mediante X(ei ) = xj , los
puntos muestrales xj están en el subconjunto E ′ . Por lo tanto, la medida de probabilidad P ′ (E ′ )
puede obtenerse a partir de la medida de probabilidad P (E) mediante

P ′ (E ′ ) = P [X −1 (E ′ )] = P (E)

Replanteemos los resultados en forma de teorema: Sea X una variable aleatoria con un espacio de
probabilidad asociado (R, F , P ). Dejemos que la v.a. X asigne los puntos muestrales e de R en un
nuevo espacio muestral R′ de la v.a. X(e):

X : R 7→ R′

Sea F ′ el campo generado a partir de los puntos muestrales x de R′ . A cada subconjunto E ′ de F ′ ,


asignar una medida de probabilidad P ′ (E ′ ) definida por

P ′ (E ′ ) = P ′ (x ∈ E ′ ) = P [X −1 (E ′ )]
426 Teoría de Probabilidad y Variables Aleatorias

Entonces (R′ , F ′ , P ′ ) es un nuevo espacio de probabilidad. La función de probabilidad p′ (x) defi-


nida en R′ está definida en cada x en R′ por

p′ (x) = P ′ ({x}) = P [X −1 ({x})] = P [{e : X(e) = x}]

¿Por qué hemos dedicado tanto tiempo a encontrar este nuevo espacio de probabilidad (R′ , F ′ , P ′ )?
Porque la mayoría de los espacios de probabilidad que utilizamos en estadística son inducidos a
partir del espacio de probabilidad básico (R, F , P ) por la variable aleatoria X(e), o son espacios de
probabilidad adicionales inducidos a partir de (R′ , F ′ , P ′ ).
¿Por qué utilizamos este nuevo espacio de probabilidad en lugar del básico? Porque la v.a. X(e)
induce un espacio de probabilidad (R′ , F ′ , P ′ ), asociado a una recta real, a partir del espacio de
probabilidad básico (R, F , P ). Es decir, R′ es una recta real. Esto nos permite utilizar herramientas
matemáticas, como el cálculo y el álgebra, con las que estamos familiarizados. La cuestión quedará
más clara cuando hablemos de una función de distribución definida en cada punto del nuevo espacio
muestral R′ .
Además, la asignación de X(e) suele reducir los datos a proporciones fácilmente manejables.
Por ejemplo, hemos visto cómo una muestra de tamaño n se representa por su media muestral. La
reducción de los datos de n dimensiones a 1 dimensión implica una pérdida de cierta cantidad de
información, pero hace que los datos sean más fáciles de manejar.
Pongamos algunos ejemplos para fijar nuestras ideas.

Ejemplo No. 7
Sea el experimento de lanzar un dado cargado, con los siguientes resultados:

R = {e1 , e2 , . . . , e6 } = {1, 2, . . . , 6}

ei p(ei ) X(ei )
e1 0.1 $3
e2 0.2 2
e3 0.1 1
e4 0.3 1
e5 0.1 -2
e6 0.2 -3
El espacio de probabilidad es (R, F , P ). La función de probabilidad asigna los puntos
muestrales ei en la recta real R1 , como se muestra en la Figura 16.11, y supondremos
que tiene los valores p(ei ) mostrados en la tabla anterior.

Definamos ahora la variable aleatoria X(ei ), que muestra la cantidad de dinero que gana un
alumno cuando el resultado del dado es ei . Estas cantidades se muestran en la tabla. Por ejemplo,
−$2 muestra que un estudiante pierde 2 dólares cuando se produce e5 = 5. La variable aleatoria X
asigna los puntos de la muestra ei en puntos de una línea real R′ , como se muestra en la Figura 16.12.
Por lo tanto, Rp rime es el nuevo espacio muestral de la v.a. X, y los valores son X(ei ) = xi . Es
decir, x1 = $3, x2 = $2, x3 = $1, x4 = $1, x5 = −$2, x6 = −$3.
¿Cuáles son las probabilidades asociadas a los puntos muestrales xi en el nuevo espacio muestral
16.3. Variable aleatoria 427

e1 p(ei )
e2
e3
e4
e5

e6 0 0.1 0.2 0.3 0.4 1


R1

Figura 16.11

X(e) = xi
e1
e2
e3
e4
e5

e6 -3 -2 -1 0 1 2 3
R1′

Figura 16.12

R1′ ; de la v.a. X? A partir del teorema anterior, tenemos

px (3) = P [{e : X(ei ) = 3}] = P ({e1 }) = p(ei ) = 0.1


px (2) = P [{e : X(ei ) = 2}] = P ({e2 }) = p(e2 ) = 0.2
px (1) = P [{e : X(ei ) = 1}] = P ({e3 , e4 }) = P ({e3})P ({e4 }) =
p(e3 ) + p(e4 ) = 0.1 + 0.3 = 0.4
px (−2) = P [{e : X(ei ) = −2}] = P ({e5 }) = p(e5 ) = 0.1
px (−3) = P [{e : X(ei ) = −3}] = P ({e6 }) = p(e6 ) = 0.2
428 Teoría de Probabilidad y Variables Aleatorias

Ejemplo No. 8
Sea Y (ei ) una v.a. que muestra la cantidad de dinero que recibe un segundo estudiante,
como se muestra en la tabla:
ei p(ei ) X(ei ) Y (ei ) S
e1 0.1 $3 -$1 $2
e2 0.2 2 9 0
e3 0.1 1 -3 -2
e4 0.3 1 0 1
e5 0.1 -2 2 0
e6 0.2 -3 2 -1
Sea S(ei ) = X(ei ) + Y (ei ). Entonces S es una v.a. que muestra la ganancia combinada
de los primeros y segundos alumnos, como se muestra en la tabla. Asigna los puntos
de muestra ei del espacio muestral básico R en un nuevo espacio muestral de la v.a. S,
como se muestra en la Figura 16.13.

X(e) = xi
e1
e2
e3
e4
e5

e6

R -2 -1 0 1 2
R′

Figura 16.13

La función de probabilidad p se encuentra como sigue.

p(2) = P [{e : S(ei ) = 2}] = P ({e1 }) = p(e1 ) = 0.1


p(0) = P [{e : S(ei ) = 0}] = P ({e2 , e5 }) = p(e2 ) + p(e5 ) = 0.2 + 0.1 = 0.3
p(−2) = P [{e : S(ei ) = −2}] = P ({e3 }) = p(e3 ) = 0.1
p(1) = P [{e : S(ei ) = 1}] = P ({e4 }) = p(e4 ) = 0.3
p(−1) = P [{e : S(ei ) = 2}] = P ({e6 }) = p(e6 ) = 0.2

Ejemplo No. 9
Consideremos ahora la cantidad de dinero que reciben los 2 estudiantes cuando el resul-
tado del dado es e1 . Esto puede demostrarse construyendo una variable aleatoria

Z(ei ) = [X(ei ), Y (ei )]

para todo ei en R. Esta asignación se muestra en la Figura 16.14. La asignación en forma de tabla es
como se muestra.
16.3. Variable aleatoria 429

Z = (X, Y ) Y
3

2
e1
e2 1
e3
e4
e5 -3 -2 -1 1 2 3 X
-1
e6

-2

-3

Figura 16.14

ei p(ei ) X(ei ) Y (ei ) Z = (X, Y )


e1 0.1 $3 -$1 (3,-1)
e2 0.2 2 9 (2,-2)
e3 0.1 1 -3 (1,-3)
e4 0.3 1 0 (1,0)
e5 0.1 -2 2 (-2,2)
e6 0.2 -3 2 (-3,2)

Si hay 3 estudiantes, y la cantidad de dinero que reciben se muestra mediante X, Y y U , entonces


la v.a. que muestra esta asignación se convierte en

Z(ei ) = [X(ei ), Y (ei ), U (ei )]

y el espacio muestral de la v.a. Z(ei ) se convierte en un espacio muestral tridimensional.


Un vector de variables aleatorias, como [X(ei ), Y (ei )] o (X, Y , U ), se denomina vector alea-
torio. Es una función que asigna los puntos de la muestra ei en puntos del espacio muestral de las
variables aleatorias. Por ejemplo, el vector aleatorio [X(ei ), Y (ei )] es una función que asigna los
puntos muestrales ei en los puntos del espacio bidimensional de las variables aleatorias X y Y , co-
mo se muestra en la Figura 16.14. Los vectores aleatorios suelen escribirse como vectores columna,
de la siguiente forma,
 
  X
X
Z= Z= Y
Y
U

La expectativa de un vector aleatorio se define como


   
X EX
E(Z) = E =
Y EY

La covarianza de un vector aleatorio se define en la Sección 23.7.


430 Teoría de Probabilidad y Variables Aleatorias

16.4 Función de distribución

Podemos resumir nuestra discusión hasta ahora como sigue:

experimento → (R, F , P ) → X(e) → (R′ , F ′ , P ′ )


espacio v.a. probabilidad
básico de del espacio
probabilidad de v.a.

Como se muestra esquemáticamente, comenzamos con un experimento. Luego expresamos es-


te experimento en términos de un espacio de probabilidad básico (R, F , P ). Se define una variable
aleatoria X(e) en (R, F , P ) y se construye un nuevo espacio de probabilidad (R′ , F ′ , P ′ ) de la va-
riable aleatoria X. El nuevo espacio muestral R′ de la v.a. X(e) es una recta real unidimensional
cuando la v.a. X(e) es una variable aleatoria unidimensional. Para hallar la probabilidad de los
eventos en F ′ , podemos utilizar la medida de probabilidad P ′ , pero como ésta es una función de
conjunto es difícil de manipular, aunque el nuevo espacio muestral R′ es una recta real.
Para evitar el uso de la función de conjunto P ′ , definiremos una nueva función llamada fun-
ción de distribución acumulativa F (x) en R′ que será equivalente a P ′ . Será el tipo de función
que solemos utilizar en cálculo y álgebra, es decir, una función puntual. Podremos entonces aplicar
las herramientas matemáticas ordinarias que conocemos, lo que facilitará la obtención de diver-
sos resultados relativos al experimento. La curva de frecuencias acumulativas que estudiamos en
el Capítulo 2 no es más que una representación gráfica de la función de distribución acumulativa
F (x).

16.4.1 Función de distribución acumulativa

Expliquemos ahora cómo se halla una función de distribución acumulativa (o simplemente, una
función de distribución), utilizando un ejemplo. La Figura 16.15 es un espacio muestral básico R
generado por 2 lanzamientos de un dado. Suponiendo un dado justo, asignaremos una probabilidad
de P (ei ) = 1/36, i = 1, 2, . . . , 36 a cada punto de la muestra e1 . Sea X una variable aleatoria
definida como
X(ei ) = Z1 + Z2
donde Z1 y Z2 , son los números que aparecen en el primer y segundo lanzamiento, respectivamente.
Los posibles valores de X(ei ) = xi se ven fácilmente como los 11 valores
2, 3, . . . , 12
que son puntos del nuevo espacio muestral R′ de la v.a. X(e).
Ahora vamos a encontrar las probabilidades de los puntos de la muestra xi . Por ejemplo, si
X(ei ) = 5
entonces los puntos de muestra ei que satisfacen esta relación son los puntos del subconjunto E ⊂
R, donde
E = {e4 , e9 , e14 , e19 } = {(1, 4), (2, 3), (3, 2), (4, 1)}
que es la parte sombreada en la Figura 16.15. Por lo tanto, la probabilidad de E es
1 1 1 1 4
P (E) = + + + =
36 36 36 36 36
16.4. Función de distribución 431

e6 e36
6

1 e1 e31

1 2 3 4 5 6 2 4 5 6 8 10 12 X
R R1′

Figura 16.15

Utilizando la relación que hemos obtenido en el apartado anterior, sabemos que

p′ (x) = P [{e : X(e) = x}]

En nuestro ejemplo, tenemos

p′ (5) = P [{e : X(e) = 5}]


4
= P (E) =
36

Esto puede simplificarse escribiendo

4
P [X(e) = 5] = p′ (5) =
36

Apliquemos ahora este procedimiento a los puntos de la muestra xi y encontremos sus probabilida-
des:

1
P [X(e) = x1 = 2] = p′ (2) =
36
2
P [X(e) = x2 = 3] = p′ (3) =
36
3
P [X(e) = x3 = 4] = p′ (4) =
36
4
P [X(e) = x4 = 5] = p′ (5) =
36
5
P [X(e) = x5 = 6] = p′ (6) =
36
432 Teoría de Probabilidad y Variables Aleatorias

6
P [X(e) = x6 = 7] = p′ (7) =
36
′ 5
P [X(e) = x7 = 8] = p (8) =
36
4
P [X(e) = x8 = 9] = p′ (9) =
36
′ 3
P [X(e) = x9 = 10] = p (10) =
36
2
P [X(e) = x10 = 11] = p′ (11) =
36
′ 1
P [X(e) = x11 = 12] = p (12) =
36

Vemos que
p′ (2) + p′ (3) + · · · + p′ (12) = 1

Esto debe ser así porque

p′ (2)+p′ (3) + · · · + p′ (12)


= P [{e : X(e) = xi , i = 1, 2, . . . , 11}]
= P ({e1 , e2 , . . . , e36 })
=1

La función de probabilidad p′ (x) se muestra como un histograma en la Figura 16.16.

6
36
5
36
4
36
3
36
2
36
1
36

2 3 4 5 6 7 8 9 10 11 12 X
Figura 16.16

Sumemos ahora las probabilidades

1 2 3 6
p′ (2) + p′ (3) + p′ (4) = + + =
36 36 36 36
16.4. Función de distribución 433

que es la suma del área de las 3 primeras barras sombreadas. Denotemos esta suma acumulada
de probabilidades por

F (4) = p′ (2) + p′ (3) + p′ (4)


= P [X(e) ≤]

O, en general
F (x) = P (X ≤ x)
Obsérvese que el nuevo espacio muestral R′ de la v.a. X es una recta real y por tanto, los puntos
muestrales xi están alineados desde los valores pequeños a la izquierda hasta los grandes a la derecha.
En nuestro ejemplo, el valor más pequeño era 2 y el más grande 12. Para generalizar esta observación,
podemos pensar lo siguiente. La línea real que muestra R′ se extiende desde −∞ hasta +∞, como
se muestra en la Figura 16.17. La función de probabilidad p′ (x) definida en R′ tiene

−∞ ... +∞
2 3 4 12

Figura 16.17

en los puntos xi = 2, 3, . . . , 12 pero es 0 en los demás puntos.


Como otro ejemplo, considere la curva de distribución normal que hemos estado utilizando,
que se muestra en la Figura 16.18. El espacio muestral de v.a. X

0.5 = 50%

0.9956

X
−∞ 0 3σ +∞
Figura 16.18

se extiende de −∞ a +∞, pero más del 99 por ciento de la probabilidad (es decir, el área) está
entre −3σ y +3σ. Sabemos que la probabilidad acumulada de la función de probabilidad p′ (x) de
−∞ a 0 es 0.5 = 50 por ciento. La probabilidad acumulada de −∞ a +3σ es 1 − 0.0044 = 0.9956.
Podemos expresarlo escribiendo

F (0) = P (X ⩽ 0) = 0.50
F (3σ) = P (X ⩽ 3σ) = 0.9956

Esto también puede expresarse mediante una curva de frecuencia acumulada, como en la Figu-
ra 16.19.
Definamos formalmente la función F(x).

F (x) = P (X ⩽ x) (16.3)
434 Teoría de Probabilidad y Variables Aleatorias

0.5 0.9956

0
0 3σ +∞

Figura 16.19

y llamémosla función de distribución acumulativa (normalmente abreviada como c.d.f.) de la


v.a. X.
En términos de la función de probabilidad p′ (x), tenemos

X
F (x) = P (X ⩽ x) = p′ (x) (16.4)

donde la suma es sobre todas las xi tales que xi ⩽ x.


Como se mencionó al principio de esta sección, F (x) es conveniente para el análisis de la teoría
estadística porque es una función puntual, y por lo tanto podemos aplicar herramientas matemáticas
como el cálculo y el álgebra.
Vamos a resumir y afirmar sin pruebas: Si tenemos un espacio de probabilidad (R′ , F ′ , P ′ ) de
una variable aleatoria X, entonces podemos encontrar una función de un solo valor, real y no ne-
gativa F (x) definida por la ecuación (16.3) para cada punto x en R′ . F (x) se llama función de
distribución acumulativa de la variable aleatoria X y tiene las siguientes propiedades

F (−∞) = 0
F (∞) = 1
F (x) − F (x) ⩾ 0 si x′ ⩾ x

16.4. Función de distribución 435

Ejemplo No. 1
En la ilustración de lanzar 2 dados y definir la v.a. como X(e) = Z1 + Z2 encontramos
los valores de P [X(e) = x] = p′ (x). Podemos resumir estos valores en forma de tabla y
mostrar F (x) como sigue:
P ′
x p′ (x) F (x) = p (x)
1 1
2
36 36
2 3
3
36 36
3 6
4
36 36
4 10
5
36 36
5 15
6
36 36
6 21
7
36 36
5 26
8
36 36
4 30
9
36 36
3 33
10
36 36
2 35
11
36 36
1 36
12
36 36

El gráfico de esta c.d.f. se muestra en la Figura 16.20.

36
36 +∞
30
36
24 C
36
18 B
36
12
36
6
36
A
−∞ 2 3 4 5 6 7 8 9 10 11 12

Figura 16.20

Por ejemplo, en x = 8, tenemos


26
F (8) = AC =
36

El salto o saltus que muestra BC es


5
BC = p′ (8) =
36
436 Teoría de Probabilidad y Variables Aleatorias

Por tanto, si la v.a. X es discreta, la c.d.f. F (x) es una función escalonada.


La gráfica de la función de probabilidad p′ (x) correspondiente a la Figura 16.20 es la Figu-
ra 16.16. La hemos mostrado como un histograma, pero también podemos mostrarla como un grá-
fico de barras (Figura 16.21).

6
36
5
36
4
36
3
36
2
36
1
36

2 3 4 5 6 7 8 9 10 11 12 X
Figura 16.21

Ejemplo No. 2
La curva de distribución de la Figura 16.18 ilustra el caso en el que la v.a. X es continua
y en el que F (x) es una curva continua, como se muestra en la Figura 16.19.
En este caso no se puede utilizar la función de probabilidad p′ (x) que se definió para
puntos muestrales discretos x, porque cuando la v.a. es continua, cada p′ (x) = 0.

Para el caso continuo, decimos sin explicación que la función de probabilidad se escribe f (x) y
se llama función de densidad de probabilidad (p.d.f.) de la v.a. X. Omitimos la explicación porque
requiere cálculo y otras herramientas matemáticas avanzadas.
Sin embargo, podemos escribir como aproximación

P (x0 < x < x0 + ∆x) = f (x0 )∆x

donde ∆x es un intervalo muy pequeño. Hemos utilizado esta técnica en la página 33 del Capítulo
2 para calcular frecuencias relativas. Estos conceptos se muestran esquemáticamente en la Figu-
ra 16.22(a) y (b). En los capítulos siguientes estudiaremos una serie de distribuciones de probabi-
lidad. De ellas, las que tienen una variable aleatoria continua, y por tanto una función de densidad
de probabilidad f (x), serán la distribución t (Capítulo 18), la distribución de Poisson (Capítulo 20),
la distribución χ2 (Capítulo 21) y la distribución F (capítulo 22). La c.d.f. F (x) será una función
continua.
Las distribuciones de probabilidad con una variable aleatoria discreta, y por tanto la función
de probabilidad p(x), serán la distribución binomial, la distribución multinomial y la distribución
hipergeométrica. La c.d.f. F (x) será una función escalonada.
16.4. Función de distribución 437

F (x)

f (x0 ) f (x0 )∆x

F (x0 )
∆x
x
x0 x0 x
(a) (b)
Figura 16.22

16.4.2 Resumen

Resumamos la discusión y preparemos el siguiente paso. Tenemos esquemáticamente:

experimento (R, F , P ) X(e) (R′ , F ′ , P ′ )

P′ F (x) {p(x) . . . función de probabilidad


f (x) . . . función de densidad de probabilidad
medida de la
probabilidad c.d.f

Como puede verse, (R′ , F ′ , P ′ ) y las funciones subsiguientes como F (x) y f (x) dependen de
la variable aleatoria X(e).
El alumno puede recordar que cuando teníamos una variable aleatoria X que tenía una distri-
bución normal con media µ y varianza σ 2 , la estandarizamos mediante
Y −µ
Y =
σ
y utilizando este valor de Y pudimos calcular las probabilidades a partir de la tabla de áreas norma-
les. Podemos ver que en este caso, Y es una función de la variable aleatoria X; y Y también es una
variable aleatoria. También podemos ver que Y tiene una distribución normal con media 0 y va-
rianza 1. Es decir, hemos encontrado la distribución de probabilidad de Y a partir de la distribución
de probabilidad de X.
Esto es una ilustración del hecho de que podemos encontrar una variable aleatoria Y que es una
función de la variable aleatoria original X. Esto se puede expresar escribiendo

Y = g(X)

A continuación queremos mostrar cómo se puede construir una variable aleatoria Y que sea función
de la variable aleatoria original X, y cómo se encuentra la distribución de probabilidad de Y . Este es
el último e importante paso al nivel de la teoría estadística que utilizamos en el análisis estadístico.
Por ejemplo, la distribución t, la distribución F , la distribución χ2 y otras distribuciones son dis-
tribuciones de una v.a. Y , que es una función de la v.a. original X, que se distribuye normalmente.
Investiguemos este último paso.
438 Teoría de Probabilidad y Variables Aleatorias

16.5 Una función de variables aleatorias

El problema que acabamos de mencionar puede presentarse de forma esquemática como sigue:

experimento (R, F , P ) X(e)

(R′ , F ′ , P ′ ) F (x) {p(x)


f (x)

Y = g(X) (R′′ , F ′′ , P ′′ ) F (y) {p(y)


f (y)

El problema que deseamos discutir es: Cuando Y es una función de la v.a. X, ¿cómo encontra-
mos la c.d.f. F (y) de la v.a. Y ? Si podemos encontrar F (y), podemos derivar la función de proba-
bilidad p(y) cuando la v.a. Y es discreta, y la función de densidad de probabilidad f (y) cuando Y
es continua.
Al final de la última sección, como ejemplo para encontrar una función Y = g(X), menciona-
mos la transformación
X −µ
Y =
σ

Otra ilustración que ya hemos estudiado es la distribución muestral de la media de la muestra.


En el Capítulo 7 dijimos que dado

1
X= (X1 + X2 + · · · + Xn )
n
donde X1 , X2 , . . . , Xn es una muestra aleatoria de tamaño n, la media muestral X se convierte
en una variable aleatoria, y según el teorema del límite central, tiene una distribución normal con
E(X) = µ y V ar(X) = σ 2 /n. Por tanto, X es una función de las variables aleatorias X1 , X2 , . . . , Xn .
Y hemos encontrado la distribución de X. No hemos dado explícitamente la fórmula de la c.d.f.
F (x) ni la función de densidad de probabilidad f (x), pero hemos expresado las ideas en forma de
diagrama como en la Figura 16.23.

σ

n

X
E(X) = µ

Figura 16.23
16.5. Una función de variables aleatorias 439

Sabemos por la tabla de áreas normales que


 
σ
P X ⩽ µ + 2√ = 1 − 0.0228 = 0.9772
n
Por lo tanto, podemos escribir
   
σ σ
F µ + 2√ = P X ⩽ µ + 2√ = 0.9772
n n
Lo que deseamos ahora es explicar cómo se obtiene una c.d.f. como F (x). Es decir, queremos saber
cómo se obtiene la c.d.f. F (y) o función de densidad de probabilidad f (y), donde y es una función
de la variable aleatoria original X1 , X2 , . . . , Xn . Hay varias formas de encontrar F (y) y f (y). Pe-
ro una investigación de esto nos llevará a la estadística matemática. Por el momento, bastará con
comprender que F (y) y f (y) pueden hallarse y obtener una idea general del proceso.
Para ello, desarrollaremos la discusión en 2 pasos: el primero donde Y es una función de X; el
segundo donde es una función de (X1 , X2 , . . . , Xn ).

Caso 1. Y = g(X)

Este caso se ilustró con


X −µ
Y =
σ
Tenemos el espacio de probabilidad (R , F , P ) de la v.a. X, y sobre el espacio muestral R′ de la v.a.
′ ′ ′

X definimos una nueva v.a. Y , y asignamos los puntos muestrales x en otro nuevo espacio muestral
de la v.a. Y , que denotamos por R′′ .

X(e)

Y (x)

R R′ X R′′ Y

Figura 16.24

La Figura 16.24 muestra el proceso de asignación de forma esquemática.


Utilizando los resultados de la Sección 16.4, podemos escribir

F (y) = P (Y ⩽ y)
= Px [{x : Y (x) ⩽ y}]

donde {x : Y (x) ⩽ y} es el conjunto de puntos muestrales x tales que cuando se asignan en


el espacio muestral R′′ de la v.a. Y , los valores de la v.a. Y (x) ⩽ y. Como podemos evaluar la
probabilidad del conjunto de {x : Y (x) ⩽ y}, podemos evaluar F (y).
En términos de nuestra ilustración, tenemos
 
X −µ
F (y) = P (Y ⩽ y) = P ( ⩽y
σ
440 Teoría de Probabilidad y Variables Aleatorias

Por ejemplo, supongamos que y = 2. Entonces, suponiendo que X tiene una distribución normal,
encontramos a partir de la tabla de áreas normales
 
X −µ
P ⩽ 2 = 1 − 0.0228 = 0.9772
σ

0.0228

Y
0
Figura 16.25

Extendamos ahora el caso en que Y sea una función de las v.a. X1 , X2 , ..., Xn . Este es el caso en
el que, por ejemplo
1
X = (X1 + X2 + · · · + Xn )
n

Dijimos que X1 , X2 , . . . , Xn es una muestra aleatoria de tamaño n, y la media muestral es una


función de los valores muestrales X1 , X2 , . . . Xn . Por lo tanto, para considerar el segundo caso,
necesitamos tener una idea clara de lo que se entiende por una muestra aleatoria. Resulta que pa-
ra definir una muestra aleatoria, necesitamos el concepto de variables aleatorias independientes
idénticamente distribuidas. Y esto, a su vez, depende de la idea de variables aleatorias distribuidas
conjuntamente. Por tanto, vamos a discutir primero el concepto de variables aleatorias distribuidas
conjuntamente, luego el de variables aleatorias independientes idénticamente distribuidas, y uti-
lizando estos conceptos explicaremos el significado de una muestra aleatoria. Después, podemos,
utilizando el concepto de muestra aleatoria, discutir el caso en el que Y es una función de las varia-
bles aleatorias X1 , X2 , . . . , Xn .

16.5.1 Variables aleatorias distribuidas conjuntamente

En nuestra discusión anterior, los puntos de la muestra e del espacio muestral R fueron asigna-
dos por la v.a. X en el espacio muestral R′ de la v.a. X. R′ era una línea real unidimensional, y la
v.a. X era una variable aleatoria unidimensional.
En el Ejemplo 9 de la Sección 16.3 vimos cómo una variable aleatoria Z definida en el espacio
muestral R puede ser bidimensional:

Z(e) = [X(e), Y (e)]

y se llama a esto un vector aleatorio. También se llama variable aleatoria bidimensional.


Hemos visto cómo Z(e) asigna los puntos de la muestra e en un espacio muestral bidimensional
R′ de la v.a. Z.
16.5. Una función de variables aleatorias 441

Sin embargo, en el Ejemplo 9 no mostramos cuál sería la medida de probabilidad en este espacio
muestral bidimensional R′ de Z. Queremos considerar esto ahora, y luego mostrar cómo definir una
c.d.f. bidimensional F (x, y).
Sea (R′ , F ′ , P ′ ) el espacio de probabilidad del v.a. bidimensional Z = (X, Y ). Sea E ′ un evento
en F ′ . Entonces la medida de probabilidad del evento E ′ es
PX,Y (E ′ ) = P ({e : [X(e), Y (e)] ∈ E ′ })

PX,Y (E ′ ) se denomina medida de probabilidad conjunta de las variables aleatorias X y Y .


Como ejemplo, dejemos que el experimento sea lanzar un dado dos veces. Entonces R es un
espacio muestral bidimensional como se muestra en la Figura 16.26. Sea la variable aleatoria Z =
(X, Y ) donde X es el doble del número que aparece en el primer lanzamiento, y Y es el número
que aparece en el segundo lanzamiento. Sea el evento E ′
E ′ = {(10, 3), (10, 4), (12, 3), (12, 4)}
Podemos ver que

Z(e) = [X(e)] Y
6 6
Segundo lanzamiento

5 5

4 4

3 3

2 2

1 1

1 2 3 4 5 6 2 4 6 8 10 12 X
R R ′
Primer lanzamiento

Figura 16.26

{e : [X(e), Y (e)] ∈ E ′ } = {(5, 3), (5, 4), (6, 3), (6, 4)}
en el espacio muestral R. Por lo tanto
PX,Y (E ′ ) = P [{(5, 3), (5, 4), (6, 3), (6, 4)}]
1 1 1 1 4
= + + + =
36 36 36 36 36
También observamos que E ′ es un conjunto producto Cartesiano, lo que puede demostrarse me-
diante
{(x, y) : x ∈ E1′ , y ∈ E2′ }
donde E1′ es el conjunto {10, 12} en el eje X y E2′ es el conjunto {3, 4} en el eje Y . Por lo tanto,
E ′ = E1′ × E2′ = {10, 12} × {3, 4}
= {(10, 3), (10, 4), (12, 3), (12, 4)}
442 Teoría de Probabilidad y Variables Aleatorias

Utilizando este resultado, podemos escribir

E ′ = {(x, y) : x ∈ E1′ , y ∈ E2′ }


= {(x, y) : 10 ⩽ x ⩽ 12, 3 ⩽ y ⩽ 4}

Para resumir: La medida de probabilidad conjunta se define como

PX,Y (E ′ ) = PR ({e : [X(e), Y (e)] ∈ E ′ })


= PR′ [{(x, y) : x ∈ E1′ , y ∈ E2′ }]
= PR′ [{(x, y) : x′ ⩽ x ⩽ x′′ , y ′ ⩽ y ⩽ y ′′ }]

donde PR muestra la probabilidad en el espacio R y PR′ muestra la probabilidad en el espacio


R′ .
Una vez hallada la medida de probabilidad conjunta PX,Y (E ′ ), definamos ahora la función de
distribución conjunta FX,Y (x, y) de las variables aleatorias X y Y . Definimos

FX,Y (x0 , y0 ) = PR′ [{(x, y) : X ⩽ x0 , Y ⩽ y0 }]

Nótese que X ⩽ x0 significa que X toma valores desde −∞ hasta x0 . Podemos escribir para abre-
viar
F (x0 , y0 ) = P (X ⩽ x0 , Y ⩽ y0 )
F (x, y) también se llama la c.d.f. de la v.a. bidimensional Z = (X, Y ). F (x, y) tiene las siguientes
propiedades: F (x, y) es monovaluada, real y no negativa, y en cada punto (x, y) de R′ tenemos

F (−∞, y) = 0
F (x, ∞) = 0
F (−∞, ∞) = 1

Utilizando esta definición básica, podemos definir la función de probabilidad conjunta p(x, y),
cuando X y Y son variables aleatorias discretas, como

p(x, y) = P (X = x0 , Y = y0 )

En términos de nuestro ejemplo

p(x, y) = p(10, 3) = PR′ (X = 10, Y = 3)


= PR′ [{(x, y) : X = 10, Y = 3}]
1
= PR′ ({10, 3}) =
36
Cuando las variables aleatorias X y Y son continuas, definimos f (x, y) como la función de densidad
de probabilidad conjunta. La discusión posterior de f (x, y) requiere conocimientos de cálculo y se
omitirá. Los estudiantes pueden encontrar una mayor discusión en la mayoría de los textos estándar
sobre estadística matemática. Nos limitaremos a afirmar sin discusión que

∂2
f (x, y) = F (x, y)
∂x∂y
Una vez explicado el significado de n variables aleatorias distribuidas conjuntamente, podemos ex-
plicar ahora el significado de las variables aleatorias independientes idénticamente distribuidas.
16.5. Una función de variables aleatorias 443

16.5.2 Variables aleatorias independientes e idénticamente distribuidas

Expliquemos primero qué se entiende por independencia. Consideraremos 3 casos de indepen-


dencia: primero, la independencia estadística de los eventos Ei y Ej ; segundo, la independencia
estadística de los puntos muestrales ei y ej ; y tercero, la independencia estadística de las variables
aleatorias X y Y .
En el Capítulo 5, los eventos Ei y Ej se definieron como estadísticamente independientes si

P (Ei , Ej ) = P (Ei )P (Ej )

Del mismo modo, dado un espacio muestral R con puntos muestrales e1 , e2 , . . . , en , podemos ver
fácilmente que como el punto muestral ei es un evento, podemos escribir Ei = ei y Ej = ej . Así
pues,

P (Ei , Ej ) = P (Ei )P (Ej )


= p(ei )p(ej )

Claramente, la independencia de los puntos de la muestra es equivalente a la independencia de


los eventos.
La discusión anterior proporciona una forma de asignar probabilidades a los puntos de la mues-
tra cuando consideramos productos Cartesianos y conduce a una definición de ensayos indepen-
dientes. Sabemos que un dado de 4 caras nos da un espacio muestral

R1 = {1, 2, 3, 4}

y cuando el dado es justo, cada resultado tiene asignada una probabilidad de 1/4.
Cuando se lanza el dado dos veces, el espacio muestral se convierte en

R = R1 XR1 = {(1, 1), (1, 2), . . . , (4, 4)}

y los puntos de la muestra son duplas. Si asignamos probabilidades a estos puntos de la muestra
mediante
P [(ei , ej )] = p(ei )p(ej )

entonces, decimos que el primer lanzamiento y el segundo son 2 ensayos independientes correspon-
dientes al espacio muestral básico R1 . En nuestro caso actual

1 1
p(ei )p(ej ) = ·
4 4
Si el dado se lanza n veces, tenemos un espacio muestral de n dimensiones, y hay 4n puntos de
muestra. Cada punto de muestra es una n tupla (e1 , e2 , . . . , en ) y es una muestra de tamaño n. Las
probabilidades se asignan a cada punto de la muestra mediante la regla de multiplicación

P [(ej1 , ej2 , . . . , ejn )] = p(ej1 )p(ej2 ) . . . p(ejn )

En este caso tenemos n ensayos independientes, y también decimos que los ensayos son experimentos
idénticos.
444 Teoría de Probabilidad y Variables Aleatorias

Consideremos a continuación el tercer caso de variables aleatorias independientes X y Y . De-


cimos que 2 variables aleatorias X y Y son independientes si se cumple la siguiente relación

p(x, y) = pX (x)pY (y) caso discreto


f (x, y) = fX (x)fY (y) caso continuo

También podemos definir la independencia de las variables aleatorias X y Y : Sea Z = (X, Y )


una variable aleatoria bidimensional con espacio de probabilidad (R′′ , F ′′ , P ′′ ). Sean los espacios
de probabilidad de X y Y (RX , FX , PX ) y (RY , FY , PY ). Sea

E = EX × EY

sea un producto Cartesiano donde los conjuntos EX y EY son EX ⊂ RX y EY ⊂ RY . Si

P (E) = P (EX )P (EY )

entonces se dice que las variables aleatorias X y Y son estadísticamente independientes. Esta defini-
ción es coherente con la definición de independencia de los eventos explicada anteriormente.
Sin embargo, utilizaremos principalmente la forma f (x, y) = f (x)f (y) porque es más conve-
niente.
Una vez definida la independencia, expliquemos ahora lo que entendemos por variables alea-
torias idénticamente distribuidas. Esto se explicó en el Capítulo 7, pero vamos a volver a explicarlo
con nuestros nuevos conceptos desarrollados.
Supongamos que se lanza un dado de 4 caras dos veces, y que se da un espacio muestral básico
como el de la Figura 16.27. Sea la variable aleatoria

X(e) = 0 siZ1 (e) + Z2 (e) = impar


X(e) = 1 siZ1 (e) + Z2 (e) = par

donde Z1 es el resultado del primer lanzamiento y Z2 es el resultado del segundo lanzamiento. La


asignación se muestra en la Figura 16.27. Hemos mostrado sólo la asignación de 4 puntos. Podemos
ver fácilmente que las medidas de probabilidad son

Z2
X(e) = x
4

1 2 3 4 Z1 0 1 X
R R′
Figura 16.27
16.5. Una función de variables aleatorias 445

1
PX (X = 0) =
2
1
PX (X = 1) =
2
O en términos de funciones de probabilidad
1
pX (0) =
2
1
pX (1) =
2
Considere otro experimento de lanzar una moneda dos veces. El espacio muestral básico se muestra
en la Figura 16.28. Sean las variables aleatorias

Y (e) = 0 si el primer lanzamiento es escudo


Y (e) = 1 si el primer lanzamiento es corona

Y (e) = y
Primer lanzamiento

E C 0 1 Y
R R′
Primer lanzamiento

Figura 16.28

En este caso
1
PY (Y = 0) =
2
1
PY (Y = 1) =
2
O
1
pY (0) =
2
1
pY (1) =
2

Vemos que
PX = PY (16.5)
O podemos decir que
pX = pY (16.6)
aunque los espacios muestrales básicos sobre los que se definen las variables aleatorias X y Y sean
diferentes. Decimos que si (16.5) o (16.6) se cumple, entonces las variables aleatorias X y Y tienen
446 Teoría de Probabilidad y Variables Aleatorias

la misma distribución, o distribución común, o decimos que las variables aleatorias X y Y están
idénticamente distribuidas.
Consideremos un tercer experimento de lanzar una moneda dos veces, donde el espacio mues-
tral básico se muestra en la Fig. 16.29. Sea la variable aleatoria

Z(e) = 0 si los 2 lanzamientos tienen resultados diferentes


Z(e) = 1 si los 2 lanzamientos tienen el mismo resultado

Primer lanzamiento
C Z(e) = z

E C 0 1 Z
Primer lanzamiento

Figura 16.29

En este caso
1
PZ (Z = 0) =
2
1
PZ (Z = 1) =
2
y
PZ = PY o pZ = pY
Por lo tanto, Y y Z están idénticamente distribuidos. Los espacios muestrales básicos de Y y Z son
los mismos, pero las variables aleatorias Y y Z están definidas de forma diferente. Sin embargo, Y
y Z tienen una distribución común y están idénticamente distribuidas.

16.5.3 Muestra aleatoria

Utilizando el concepto de variables aleatorias independientes e idénticamente distribuidas, es-


tamos preparados para definir una muestra aleatoria. Como primer paso, vamos a distinguir tres
formas de definir una variable aleatoria en un espacio muestral.
Supongamos que el experimento consiste en medir la altura de los alumnos. Se selecciona una
muestra de n = 10 estudiantes con reemplazo. El espacio muestral básico puede considerarse
como un espacio Euclidiano de n = 10 dimensiones, y un punto muestral será la 10 tupla e =
(x1 , x2 , . . . x10 ).
La primera forma de definir una variable aleatoria es: Sea la variable aleatoria X(e) una variable
aleatoria de 10 dimensiones (vector aleatorio)

X(e) = [X1 (e), X2 (e), . . . , X10 (e)]

que asigna el punto muestral e en un nuevo espacio muestral de la v.a. X, que será un espacio de 10
dimensiones.
16.5. Una función de variables aleatorias 447

Si, por ejemplo, la v.a. X(e) se define como la media de los 10 valores
1
X(e) = (X1 + X2 + · · · + X10 )
10
entonces X(e) asignará el punto muestral e en un espacio muestral unidimensional de la v.a. X(e) =
X.
La segunda forma de definir la v.a. X en el espacio muestral básico de 10 dimensiones es defi-
niendo

X1 (e) = X1 [(x1 , x2 , . . . , X10 )] = x1


X2 (e) = X2 [(x1 , x2 , . . . , X10 )] = x2
...
X10 (e) = X10 [(x1 , x2 , . . . , X10 )] = x10

En este caso, X1 (e) asigna el punto e en un espacio muestral unidimensional de la v.a. X1 . Del
mismo modo, X2 , X3 , . . . , X10 asignan el punto muestral e en el nuevo espacio muestral de las
variables aleatorias X2 , X3 , . . . , X10 . Podemos ver que las funciones de distribución unidimensional
de las variables aleatorias X1 , X2 , . . . , X10 son iguales, es decir

F1 (x) = F2 (x) = · · · = F10 (x)

y las variables aleatorias X1 , X2 , . . . , X10 están idénticamente distribuidas.


Como puede verse, el primer y el segundo caso son similares en el sentido de que la v.a. X se
define para cada punto muestral e en el espacio muestral básico de 10 dimensiones, pero difieren
en que en el primer caso el nuevo espacio muestral es un único espacio muestral (que puede ser un
espacio muestral de 10 dimensiones de la v.a. X, o un espacio muestral de 1 dimensión de la v.a. X);
mientras que en el segundo caso hay 10 nuevos espacios muestrales de 1 dimensión de las variables
aleatorias X1 , X2 , . . . , X10 , respectivamente.
Una tercera forma de definir una variable aleatoria es: Dejemos que el espacio muestral básico
sea mostrado por R = R1 × R2 × · · · × R10 , que muestra un espacio Euclidiano de 10 dimensiones.
Ri muestra las posibles alturas de un estudiante y por lo tanto es una línea real de 1 dimensión con
valores positivos. Entonces se define una v.a. X1 sobre R1 . Un valor en R1 puede ser mostrado por
x1 , y la v.a. X1 asigna este x1 en x1 . Es decir, X1 (x1 ) = x1 y es una función identidad.
Esto puede explicarse de nuevo como sigue: X1 (x1 ) asigna el punto x1 en un nuevo espacio
muestral de la v.a. X1 . Pero en este caso, podemos considerar que este nuevo espacio muestral es
R1 . Es decir, X1 asigna x1 en sí mismo. La c.d.f. en R1 , se denota por F1 (x), y la función de densidad
de probabilidad se denota por f1 (x).
Del mismo modo, X2 se define en R2 , y X2 (x2 ) = x2 ; y así sucesivamente para X3 , X4 , . . . , X10 .
Por lo tanto, hay 10 espacios muestrales básicos R1 , R2 , . . . , R10 que son iguales; y 10 nuevos
espacios muestrales de las variables aleatorias X1 , X2 , . . . , X10 que también son iguales. Por tanto,

F1 (x1 ) = F2 (x2 ) = · · · = F10 (x10 )

y las variables aleatorias X1 , X2 , . . . , X10 están idénticamente distribuidas.


Comparemos el segundo y el tercer caso. Ambos tienen 10 nuevos espacios muestrales unidi-
mensionales de las variables aleatorias X1 , X2 , . . . , X10 , respectivamente.
448 Teoría de Probabilidad y Variables Aleatorias

En el segundo caso la variable aleatoria X1 está definida en el espacio muestral básico R, mien-
tras que en el tercer caso las variables aleatorias X1 , X2 , . . . , X10 están definidas en los 10 espa-
cios muestrales básicos R1 , R2 , . . . , R10 , respectivamente. Por lo tanto, en el tercer caso, la v.a.
X = (X1 , X2 , . . . X10 ) no está definida en el espacio muestral básico R, y no podemos encontrar
la función de distribución de la variable aleatoria X. Sólo cuando X1 , X2 , . . . , X10 están definidos
en el mismo espacio muestral básico R podemos decir que X = (X1 , X2 , . . . , X10 ) también está
definido en R, y podemos encontrar una función de distribución de X. Utilizando esta importante
conclusión, podemos ahora definir una muestra aleatoria.
Consideremos un experimento con n = 10 medidas repetidas X1 , X2 , . . . , X10 . Entonces,
cuando X1 , X2 , . . . , X10 están idénticamente distribuidos, decimos que tenemos una muestra de
tamaño n = 10 de la variable aleatoria X.
Si, además, X1 , X2 , . . . , X10 son independientes, es decir

f (x1 , x2 , . . . , x10 ) = f1 (x1 )f2 (x2 ) . . . f10 (x10 )

entonces decimos que tenemos una muestra aleatoria de tamaño n = 10 de la v.a. X. En este caso
en el que X1 , X2 , . . . , X10 deben ser independientes, X1 , X2 , . . . , X10 tienen que estar definidos en
el mismo espacio muestral básico.
Por tanto, cuando consideremos una muestra aleatoria de variables aleatorias independientes e
idénticamente distribuidas, asumiremos el segundo caso, en el que X(e) = (X1 , X2 , . . . , X10 ) y los
componentes X1 , X2 , . . . , X10 están definidas en el mismo espacio muestral básico R.

Caso 2. Y = g(X1 , X2 , . . . , Xn )

Volvamos ahora a la línea principal de discusión y consideremos el caso en el que Y es una


función de n variables aleatorias X1 , X2 , . . . , Xn Para simplificar, dejemos que

Y = g(X1 , X2 )

Ahora, afirmamos sin pruebas que si X1 , X2 son variables aleatorias distribuidas conjuntamente,
entonces

FY (y) = P (Y ⩽ y)
= PX1 ,x2 [{(x1 , x2 ) : g(x1 , x2 ) ⩽ y}]

Una vez hallada la c.d.f. FY (y), con técnicas matemáticas avanzadas, podemos encontrar fácilmente
la función de densidad de probabilidad f (y).
La ilustración que hemos utilizado es la media muestral X. Y = X es una función de los va-
lores muestrales X1 , X2 , . . . , Xn . Sabemos que la función de densidad de probabilidad f (y) es una
función de densidad normal, con E(X) = µ y V ar(X) = σ 2 /n.
La media muestral X es un estadístico obtenido a partir de los datos de la muestra; la varianza
muestral s2 también es un estadístico obtenido a partir de los valores de la muestra. El rango, la
mediana, la proporción y muchos otros estadísticos pueden obtenerse a partir de los datos de la
muestra. Y como hemos visto en los capítulos anteriores, nos interesa utilizar estas cantidades para
realizar análisis estadísticos. Pero para poder realizar el análisis estadístico, necesitamos conocer la
distribución de probabilidad de estos estadísticos.
Por lo tanto, estos problemas en forma general pueden reducirse a un problema de encontrar la
distribución de una variable aleatoria Y que es una función de las variables aleatorias X1 , X2 , . . . , Xn .
16.6. Espacios muestrales multivariantes 449

La distribución t, la distribución χ2 , la distribución F y otras distribuciones que estudiaremos


en Capítulos posteriores son problemas de la misma naturaleza.
El problema de derivar la distribución para Y = g(X1 , X2 , . . . , Xn ) es en muchos casos difícil,
y está más allá del nivel de este texto. En este texto utilizamos las diversas distribuciones de Y =
g(X1 , X2 , . . . , Xn ) que han sido derivadas por diversos estadísticos durante los últimos 50 años y
mostramos cómo se aplican para analizar problemas estadísticamente.
Sin embargo, no es difícil entender la idea de cómo llegamos a estas distribuciones derivadas par-
tiendo del experimento, y pasando por una cadena de operaciones como hemos comentado. Bastará
con que el alumno entienda cómo se transforma un experimento de la teoría de la probabilidad por
una variable aleatoria en una forma más adecuada para el análisis, y finalmente, cómo se construyen
funciones de variables aleatorias como Y = g(X1 , X2 , . . . , Xn ) y se encuentran sus distribuciones.
Los estudiantes interesados en los detalles matemáticos pueden estudiarlos en cursos avanzados
de estadística matemática.

16.6 Espacios muestrales multivariantes

Extendamos nuestra discusión sobre los espacios muestrales al caso en el que no se realiza una
sino varias mediciones sobre un individuo. Hemos considerado la altura de un estudiante. Ahora
queremos considerar la altura y el peso; o la altura, el peso y el CI. Otro ejemplo son las notas de un
alumno en matemáticas, inglés, historia y química. ¿Cuáles serán los espacios muestrales en estos
experimentos?
Cuando consideramos una sola medida, como la altura, estamos considerando un caso univa-
riante. Cuando tenemos dos medidas, tenemos un caso bivariado (como cuando hablamos del aná-
lisis de correlación en el Capítulo 15). Cuando hay 2 o más medidas, tenemos un caso multivariado.
Consideremos el caso bivariado.

16.6.1 El espacio muestral básico para el caso bivariado

Para empezar, supongamos que tenemos una muestra aleatoria de n = 3 estudiantes, y una
variable aleatoria X indica sus pesos. Entonces, tenemos un espacio muestral básico R que es un
espacio tridimensional, y la muestra de n = 3 estudiantes se muestra como un punto muestral

e = (x1 , x2 , x3 )

donde x1 es el peso del primer alumno, y así sucesivamente. Los 3 ejes del espacio muestral básico
R muestran los posibles pesos de los 3 alumnos, respectivamente.
También podemos mostrar esta muestra de n = 3 alumnos como un histograma, donde el eje
horizontal es el peso.
Sea x1 = 110 lb., x2 = 120 lb., y x3 = 128 lb. Entonces el espacio muestral básico y el histo-
grama pueden mostrarse diagramáticamente como en la Figura 16.30:
Supongamos que la población es N = 10 alumnos. Entonces, podemos seleccionar N n = 103
muestras con reemplazo. Hay N n = 103 puntos de muestra en el espacio muestral básico tridimen-
sional R. Cada punto de muestra es una tripleta, y (110, 120, 128) es uno de estos 103 puntos de
muestra.
450 Teoría de Probabilidad y Variables Aleatorias

(3) 2
x3

e = (x1 , x2 , x3 )
1

x2
(2)
x1 x2 x3 X

Histograma
x1

(1) Espacio muestral básico

Figura 16.30

Consideremos ahora el peso y la altura de los estudiantes. La variable aleatoria es la siguiente


 
X  
Z= oZ= X Y
Y
donde X es el peso y Y es la altura. El vector Z de las variables aleatorias X y Y se denomina vector
aleatorio o vector aleatorio bidimensional.
Se selecciona una muestra de tamaño n = 3. Supongamos que tenemos
x1 = 110lb.y1 = 5′ 1”
x2 = 120lb.y2 = 5′ 2”
x3 = 128lb.y3 = 5′ 5”

¿Cuál es el espacio muestral en este caso? Si consideramos sólo los pesos, tenemos un espacio
muestral tridimensional, y un punto muestral e es una tripleta e = (x1 , x2 , x3 ).
Del mismo modo, si consideramos sólo las alturas, tenemos un espacio tridimensional, y un
punto de muestra g es una tripleta g = (y1 , y2 , y3 ).
Lo que hacemos ahora es superponer estos dos espacios tridimensionales y construir un espa-
cio tridimensional donde los 3 ejes representan los posibles pesos y alturas de los 3 estudiantes,
respectivamente. Esto se muestra en la Figura 16.31.
El diagrama muestra que hemos seleccionado una muestra de n = 3 alumnos, y a cada alumno
se le asocian p = 2 medidas, a saber, X =peso y Y =altura. Por lo tanto, tenemos un espacio
muestral básico de 3 dimensiones y 2 puntos muestrales e = (x1 , x2 , x3 ) y g = (y1 , y2 , y3 ) co-
rrespondientes a las medidas de peso y altura, respectivamente. El conjunto único de puntos (e, g)
corresponde a la muestra de n = 3 alumnos.
Si seleccionamos 2 muestras, tendremos 2 conjuntos de puntos de muestra (e1 , g1 ) y (e2 , g2 )
correspondientes a las 2 muestras.
Si la población es N = 10 alumnos, hay 103 muestras posibles. Por tanto, el espacio muestral
básico R será un espacio tridimensional con
(e1 , g1 ), (e2 , g2 ), . . . , (e103 , g103 )
16.6. Espacios muestrales multivariantes 451

Y
(3) e = (x1 , x2 , x3 ) 5′ 5′′
128
5′ 5′′
g = (y1 , y2 , y3 )
5′ 2′′
θ
120 5′ 2′′
(2) 5′ 1′′
110
110 120 128 X
5′ 1′′
R
(1)

Figura 16.31

conjuntos de puntos.
La extensión al caso en el que p = 3 o más es obvia. Supongamos que medimos el peso, la altura
y el coeficiente intelectual de un alumno. Entonces el vector aleatorio puede ser mostrado por
 
U= X Y Z

donde X es el peso, Y es la altura y Z es el CI. Supongamos que se selecciona una muestra de tamaño
n = 15 de una población de N = 30 estudiantes, con reemplazo. Entonces, para una sola muestra,
tenemos un espacio muestral básico de 15 dimensiones con 3 puntos en él

e1 = (x1 , x2 , . . . , x15 ) correspondiente a los pesos


g1 = (y1 , y2 , . . . , y15 ) correspondiente a las alturas
h1 = (z1 , z2 , . . . , z15 ) correspondiente a los CI’s

El conjunto (e1 , g1 , h1 ) corresponde a la muestra que se ha seleccionado.


Podemos seleccionar N n = 3015 muestras con reemplazo. Por lo tanto, hay N n = 3015 con-
juntos de (ei , gi , hi ) = 1, 2, . . . , 3015 , que representan las muestras.
El estudiante astuto puede plantearse varias preguntas: ¿Cómo pueden colocarse el peso y la
altura en el mismo eje? ¿Cuál es la relación entre el espacio muestral básico y el histograma? ¿Por
qué tanta preocupación por unos espacios muestrales básicos tan complicados?
En respuesta a la primera pregunta: Si tener el peso y la altura en el mismo eje parece poco
razonable, podemos expresarlos en términos de desviaciones estándar. Por ejemplo, dejemos que la
desviación estándar del peso sea σX = 10 lb. y la desviación estándar de la altura sea σY = 10 in.
Entonces

x1 = 110lb. = 11σX
x2 = 120lb. = 12σX
x3 = 128lb. = 12.8σX
452 Teoría de Probabilidad y Variables Aleatorias

Es decir, x1 está a 11 desviaciones estándar del origen, y así sucesivamente. Para las alturas te-
nemos

y1 = 5′ 1′′ = 61′′ = 6.1σY


y2 = 5′ 2′′ = 62′′ = 6.2σY
y3 = 5′ 5′′ = 65′′ = 6.5σY

Entonces, cada uno de los 3 ejes del espacio muestral tridimensional está en unidades de desvia-
ción estándar, y en él se pueden medir el peso, la altura y cualquier otro número de variables. Esta
es la forma en que solemos expresar las muestras multivariados.
Los puntos de la muestra también pueden expresarse en términos de vectores. Suponiendo que
el estudiante está familiarizado con los vectores, decimos que el segmento de línea dirigida de O a
e, es decir, Oe, es un vector que representa el punto muestral e. Oe es la longitud del vector.
Como veremos en el Apartado 16.6.2, estos vectores pueden utilizarse para explicar diversos
conceptos estadísticos.

Ejemplo No.
Expliquemos el coeficiente de correlación utilizando vectores e ilustremos el espacio
muestral multivariante (bivariado en este caso). Se selecciona una muestra de tamaño
n = 3 y se mide el peso y la altura de cada alumno. El vector aleatorio es Z = [X Y ]
donde X = peso y Y = altura; y tenemos un espacio muestral básico de 3 dimensiones
con p = 2 puntos muestrales e y g correspondientes al peso y la altura, respectivamente.
Supongamos que los pesos y las alturas están en términos de desviaciones estándar y se
miden a partir de sus respectivas medias. Afirmamos sin pruebas que el coeficiente de
correlación entre el peso X y la altura Y está representado por el ángulo de los vectores
Oe y Og, como se muestra en la Figura 16.32.

(3)
e

θ
O (2)

(1)

Figura 16.32

r =coeficiente de correlación entre X y Y = cos θ


16.6. Espacios muestrales multivariantes 453

Cuando suponemos que X y Y han sido ajustados de manera que estén en términos de desvia-
ciones estándar y medidos a partir de la media, también podemos expresarlo diciendo que la media
es 0 y la varianza es 1 para X y Y ajustados.
Si r = 1, es decir, si existe una correlación perfecta entre X (peso) y Y (altura), entonces θ = 0.
Si r = 0, entonces X y Y no están correlacionados.

16.6.2 Relación entre el espacio muestral y el histograma

Para responder a la segunda pregunta, primero preguntamos: ¿Cómo se define una variable alea-
toria en un espacio muestral básico como el que se muestra en la Figura 16.31 (reproducido aquí
como Figura 16.33)?

(3) g = (y1 , y2 , y3 )
Y
y3 s3 = (x3 , y3 )
e = (x1 , x2 , x3 )

(2) y2 s2

R y1 s1

x1 x2 x3 X
(1)
(b)
(a)
Figura 16.33

El conjunto de p = 2 puntos (e, g) puede representarse como

x1 y1
x2 y2
(e, g) =
x3 y3 muestra los puntos s3 en el histograma

muestra el
punto e en el espacio
muestral básico

El mismo conjunto de datos se ha representado de dos maneras. Los puntos muestrales e y g en


el espacio muestral básico son tripletas que muestran los resultados del experimento. Por ejemplo

e = (x1 , x2 , x3 ) = (110 lb., 120 lb., 128 lb.)

muestra el resultado del experimento de seleccionar una muestra de tamaño n = 3 y los pesos de
los 3 estudiantes.
Los puntos s1 , s2 , s3 en el histograma representan a los 3 estudiantes y los datos asociados a los
3 estudiantes. Por ejemplo
s3 = (x3 , y3 ) = (128 lb., 5′ 5′′ )
454 Teoría de Probabilidad y Variables Aleatorias

nos da el dato de que el tercer estudiante pesa 128 lb. y mide 5′ 5′′ . El s3 no muestra el resultado
del experimento de seleccionar una muestra de 3 estudiantes y medir sus pesos y alturas.
Los puntos de la muestra en el espacio muestral básico pueden asignarse en el espacio del his-
tograma mediante un vector aleatorio bidimensional

Z = (X, Y )
= [X(e, g), Y (e, g)]
= (xi , yi ) i = 1, 2, 3

Esto asigna el conjunto de puntos (e, g) a puntos (xi , yi ) en el espacio bidimensional del histo-
grama como se muestra en la Figura 16.33(b). Extendamos esto al caso en el que n = 5 estudiantes
y p = 3, digamos, peso, altura y CI. Entonces los datos pueden mostrarse como

Peso Altura CI
x1 y1 z1
x2 y2 z2
x3 y3 z3
x4 y4 z4 muestra el punto s4 en un histogra-
x5 y5 z5 ma tridimensional

muestra el punto e1 en un espacio mues-


tral básico de 5 dimensiones

Tenemos un espacio muestral básico de 5 dimensiones y 3 puntos muestrales el e1 (peso), e2


(altura) y e3 (CI), cada uno de los cuales es una pentapleta, y que representa el resultado del expe-
rimento:

e1 = (x1 , x2 , x3 , x4 , x5 )
e2 = (y1 , y2 , y3 , y4 , y5 )
e3 = (z1 , z2 , z3 , z4 , z5 )

Utilizando un vector aleatorio tridimensional

X(e1 , e2 , e3 ) = [X1 (e1 , e2 , e3 ), X2 (e1 , e2 , e3 ), X3 (e1 , e2 , e3 )]

podemos asignar el conjunto de puntos (e1 , e2 , e3 ) en el histograma. Tenemos


   
X11 (e1 , e2 , e3 ) x1
X12 (e1 , e2 , e3 ) x2 
   
X1 (e1 , e2 , e3 ) =    
X13 (e1 , e2 , e3 ) = x3 
X14 (e1 , e2 , e3 ) x4 
X15 (e1 , e2 , e3 ) x5
   
X21 (e1 , e2 , e3 ) y1
X22 (e1 , e2 , e3 ) y2 
   
X2 (e1 , e2 , e3 ) =    
X23 (e1 , e2 , e3 ) = y3 
X24 (e1 , e2 , e3 ) y4 
X25 (e1 , e2 , e3 ) y5
16.6. Espacios muestrales multivariantes 455

   
X31 (e1 , e2 , e3 ) z1
X32 (e1 , e2 , e3 ) z2 
   
X3 (e1 , e2 , e3 ) =    
X33 (e1 , e2 , e3 ) = z3 
X34 (e1 , e2 , e3 ) z4 
X35 (e1 , e2 , e3 ) z5

Por lo tanto, el vector aleatorio X = (X11 , X21 , X31 ) = (x1 , y1 , z1 ) asigna el conjunto de puntos
(e1 , e2 , e3 ) a (x1 , y1 , z1 ).
Esto puede extenderse fácilmente al caso de que tengamos un espacio muestral básico de n di-
mensiones con p puntos. El vector aleatorio será un vector aleatorio p-dimensional que asigna el
conjunto de puntos de muestra en un punto de muestra (x1 , y1 , . . . , z1 ) en un espacio de histogra-
ma p-dimensional.

16.6.3 La utilidad del espacio muestral básico

Consideremos la tercera cuestión relativa a la utilidad del espacio muestral básico. En el Apar-
tado 9.4 vimos cómo el espacio muestral se dividía en una región de aceptación y otra de rechazo
mediante una regla de decisión, y esto se utilizaba para probar hipótesis.
La idea de probar las hipótesis se basa en la probabilidad de seleccionar una determinada mues-
tra. Es decir, una vez seleccionada una muestra de tamaño n, nos preguntamos: ¿Cuál es la proba-
bilidad de seleccionar dicha muestra, dada una determinada hipótesis?
La probabilidad de seleccionar una muestra determinada dependía de la densidad de los puntos
de la muestra en el espacio muestral. Por ejemplo, en la Figura 16.34, supongamos que tenemos un
espacio muestral de n dimensiones, y que la dispersión de los puntos de la muestra es muy densa en el
área sombreada, pero muy escasa fuera de esa área. Sea esta área sombreada la región de aceptación
y el área fuera de ella la región de rechazo.

(n)

(1)

Figura 16.34

Entonces, en esta situación en la que la densidad de los puntos de la muestra es muy alta en
la región de aceptación, la probabilidad de aceptar la hipótesis es grande. Como se puede ver, el
conocimiento de las propiedades del espacio muestral básico es necesario para la construcción de la
teoría estadística.
Como se mencionó en la Sección 16.5, utilizamos el espacio muestral de la v.a. X y la c.d.f.
F (x) para derivar varias teorías estadísticas, pero para obtener una mejor comprensión de estos
resultados, necesitamos entender las propiedades del espacio muestral básico del que se derivaron
los resultados. (El Apartado 16.6.4, puede leerse después del capítulo 23).
456 Teoría de Probabilidad y Variables Aleatorias

16.6.4 Análisis de regresión

Como otra ilustración del uso del espacio muestral básico para entender la teoría estadística,
consideremos el análisis de regresión. Supongamos que Y es la venta de automóviles, X1 es el ingreso
y X2 es la población. Entonces podemos tener datos como los siguientes

Y X1 X2
Y1 X11 X12
Y2 X21 X22
... ... ...
Y5 X51 X52

Queremos encontrar la recta de regresión

Y c = a + b1 X 1 + b2 X 2

En nuestra ilustración, el tamaño de la muestra es n = 5, y por tanto tenemos un espacio muestral


de 5 dimensiones con p = 3 puntos, que denotamos por

e1 = (y1 , y2 , . . . , y5 )
e2 = (x11 , x21 , . . . , x51 )
e3 = (x12 , x22 , . . . , x52 )

Los vectores Oe2 y Oe3 forman un plano en el espacio de 5 dimensiones, y el vector Oe1 forma
un ángulo con este plano.
Como en el caso de la correlación simple que explicamos en el Apartado 16.6.1, el coseno de este
ángulo es el coeficiente de correlación múltiple R de Y sobre X1 y X2 .
Si el ángulo es 0, es decir, si el vector Oe1 se encuentra en el plano de e2 y e3 , entonces R = 1.
Y en este caso Y puede expresarse como una función lineal de X1 y X2 .
Si Y es ortogonal al plano, R = 0.

16.7 Probabilidad condicional

16.7.1 Teorema de la probabilidad total

En el capítulo 5 encontramos que la fórmula de la probabilidad condicional es


P (A ∩ H)
P (A|H) = (16.7)
P (H)

donde P (H) > 0. A partir de ahí, se encuentra una regla de multiplicación

P (A ∩ H) = P (A|H) · P (H) (16.8)

Esto puede generalizarse dejando que H sea el evento B ∩ C, lo que lleva a

P (A ∩ B ∩ C) = P (A|B ∩ C) · P (B ∩ C)
(16.9)
= P (A|B ∩ C) · P (B|C) · P (C)
16.7. Probabilidad condicional 457

Dado que
P (C ∩ B ∩ A) = P (A ∩ B ∩ C)
podemos escribir
P (C ∩ B ∩ A) = P (C) · P (B|C) · P (A|B ∩ C) (16.10)
La ecuación (16.10) se utilizó en el Capítulo 7 para hallar la probabilidad de seleccionar un 4 en
el tercer sorteo, dado que no se extrajo en los dos primeros sorteos de una caja con 6 papelitos
numerados del 1 al 6. Teníamos
5 4 1 1
P (C ∩ B ∩ A) = · · =
6 5 4 6
donde

C : no se obtiene un 4 en el primer sorteo


B : no se obtiene un 4 en el segundo sorteo
A : no se obtiene un 4 en el tercer sorteo

Digamos ahora que H1 es el evento de selección de un papelito con el número 1; H2 es el


evento de selección de una papelito con el número 2; y así sucesivamente, hasta H6 . Entonces
H1 , H2 , . . . , H6 son eventos mutuamente excluyentes y exhaustivos.
Sea A el evento de que ocurra un número impar. Entonces

A ∩ H1 = {1, 3, 5} ∩ {1} = {1}


A ∩ H2 = {1, 3, 5} ∩ {2} = {}
A ∩ H3 = {1, 3, 5} ∩ {3} = {3}
A ∩ H4 = {1, 3, 5} ∩ {4} = {}
A ∩ H5 = {1, 3, 5} ∩ {5} = {5}
A ∩ H6 = {1, 3, 5} ∩ {6} = {}

Por lo tanto,

A = AH1 ∪ AH2 ∪ AH3 ∪ AH4 ∪ AH5 ∪ AH6


= {1, 3, 5}

Las probabilidades pueden mostrarse como

P (A) = P {AH1 ∪ AH2 ∪ · · · ∪ AH6 }

Pero, como los AH, son eventos mutuamente excluyentes, podemos sumar las probabilidades. Así
obtenemos
P (A) = P (AH1 ) + P (AH2 ) + · · · + P (AH6 )
X (16.11)
= P (AHi )

En nuestro caso actual


1 1 1 3
P (A) = +0+ +0+ =
6 6 6 6
Pero, de la ecuación (16.8), tenemos P (AHi ) = P (A|Hi ) · P (Hi ). Así, (16.11) se convierte en
(16.12) X
P (A) = P (A|Hi ) · P (Hi ) (16.12)
458 Teoría de Probabilidad y Variables Aleatorias

En cuanto a nuestro ejemplo, P (A|H1 ) es la probabilidad de obtener un número impar, dado


que se ha extraído un 1, que es
P (A|H1 ) = 1

Del mismo modo, encontramos

P (A|H2 ) = 0, P (A|H3 ) = 1
P (A|H4 ) = 0, P (A|H5 ) = 1
P (A|H6 ) = 0
1
P (Hi ) = , i = 1, 2, . . . , 6
6

Por lo tanto, a partir de (16.12), encontramos

1 1 1 3
P (A) = 1 · +0+1 +0+1· +0=
6 6 6 6

La fórmula (16.12) se denomina a veces teorema de la probabilidad total. Podemos enunciarla for-
malmente como sigue: Sea H1 + H2 + · · · + Hn = E, donde H1 , H2 , . . . , Hn son eventos mutua-
mente excluyentes y exhaustivos, y E es el espacio muestral. Sea A un evento arbitrario generado a
partir de E. Entonces

P (A) = P (A|H1 ) · P (H1 ) + · · · + P (A|Hn ) · P (Hn )


X
= P (A|Hi ) · P (Hi )

Ejemplo No. 1
Supongamos que tenemos dos máquinas, I y II, que producen zapatos. Sea H1 el evento
de que los zapatos sean producidos por la máquina I, y H2 el evento de que sean pro-
ducidos por la máquina II. Sea A el evento de que un zapato no es defectuoso. Entonces

A = AH1 + AH2

ya que AH1 y AH2 son mutuamente excluyentes. Por tanto,

P (A) = P (AH1 ) + P (AH2 )


= P (A|H1 ) · P (H1 ) + P (A|H2 ) · P (H2 )

Si la máquina I fabrica el 60% de los zapatos, entonces

P (H1 ) = 60%, P (H2 ) = 40%.

Además, si el 10 por ciento de los zapatos fabricados en la máquina I son defectuosos, y


el 20 por ciento de los zapatos de la máquina II son defectuosos, tenemos

P (A|H1 ) = 90%, P (A|H2 ) = 80%

Por tanto, la probabilidad de producir un zapato no defectuoso es

P (A) = 0.9 · 0.6 + 0.8 · 0.4 = 0.86


16.7. Probabilidad condicional 459

Ejemplo No. 2
Sean H1 , H2 , H3 y H4 estudiantes de primer, segundo, tercer y último año de universi-
dad.
Sea pi (i = 1, 2, 3, 4) la probabilidad de que un estudiante seleccionado al azar pertenezca
a Hi . Obviamente
p 1 + p 2 + p3 + p 4 = 1
Sea A el evento de que un alumno lleve gafas. Entonces la probabilidad de seleccionar
un alumno que lleva gafas es

P (A) = P (AH1 ) + P (AH2 ) + P (AH3 ) + P (AH4 )


= P (A|H1 )P (H1 ) + · · · + P (A|H4 )P (H4 )

donde
P (Hi ) = pi
y P (A|Hi ) es la probabilidad de seleccionar a un alumno con gafas, dado Hi .

16.7.2 Teorema de Bayes

En el Ejemplo 1, en el que dos máquinas producían zapatos, supongamos que una persona está
interesada en la siguiente pregunta ¿Cuál es la probabilidad de que la máquina I haya fabricado un
zapato no defectuoso? Dado que A era el evento de un zapato no defectuoso y H1 el evento de que
el zapato fuera fabricado por la máquina I, nuestra pregunta en símbolos es

P (H1 |A) (16.13)

Es decir, dado un zapato no defectuoso, ¿cuál es la probabilidad de que haya sido fabricado por la
máquina I?
En nuestra discusión anterior sobre las probabilidades condicionales, el problema era al revés,
es decir,
P (A|H1 ) (16.14)

Es decir, dada la máquina I, ¿cuál es la probabilidad de fabricar un zapato no defectuoso?


Si se considera H1 como una hipótesis y A como un evento basado en esta hipótesis, P (H1 |A)
es la probabilidad de la hipótesis H1 , dada la ocurrencia del evento A. P (A|H1 ) es la probabilidad
del evento A, dada la ocurrencia de la hipótesis H1 .
A partir de nuestra fórmula de probabilidad condicional, la probabilidad P (H1 |A) es

P (H1 ∩ A)
P (H1 |A) = (16.15)
P (A)

Pero a partir del teorema de las probabilidades totales, P (A) se convierte en

P (A) = P (AH1 ) + P (AH2 )


= P (A|H1 )P (H1 ) + P (A|H2 )P (H2 ) (16.16)
X
= P (A|Hi )P (Hi )
460 Teoría de Probabilidad y Variables Aleatorias

Sustituyendo este resultado en (16.15), obtenemos


P (H1 ∩ A)
P (H1 |A) = P (16.17)
P (A|Hi )P (Hi )
que también puede escribirse como
P (A|H1 ) · P (H1 )
P (H1 |A) = P (16.18)
P (A|Hi )P (Hi )
La fórmula (16.17) se llama teorema de Bayes.
Nótese que P (H1 ) es la probabilidad de que un zapato sea producido por la máquina I, mientras
que P (H1 |A) es la probabilidad de que un zapato sea producido por la máquina I, dado que es un
zapato no defectuoso. La probabilidad P (H1 ) se llama probabilidad a priori y P (H1 |A) se llama
probabilidad a posteriori. P (A|H1 ) se llama probabilidad.

Ejemplo No. 3
Utilizando el Ejemplo 1, calculemos la probabilidad de que un zapato no defectuoso
haya sido fabricado por la máquina I.
P (Hi ) da las probabilidades a priori de que un zapato sea producido por la máquina
Hi . P (A|Hi ) es la probabilidad de producir un zapato no defectuoso, dado el evento Hi .
P (Hi ∩ A) es la probabilidad del evento conjunto Hi y A. Por ejemplo, H1 ∩ A es el
evento de que la máquina I produzca un zapato no defectuoso.
Entonces la probabilidad posterior P (Hi |A) es, por el teorema de Bayes,

P (Hi ∩ A)
P (Hi |A) =
P (H1 ∩ A) + P (H2 ∩ A)

Como muestra el Cuadro 16.1, P (H1 |A) = 0.63 y P (H2 |A) = 0.37.
El resultado puede interpretarse como sigue: Dado un zapato no defectuoso, la probabi-
lidad de que haya sido producido por la máquina I es de 0.63 y la probabilidad de que
haya sido producido por la máquina II es de 0.37.

Previa Probabilidad Conjunta Posterior


Evento P (Hi ) P (A|Hi ) P (Hi ∩ A) P (Hi |A)
Máquina I(H1 ) 0.6 0.9 0.54 0.54/0.86 = 0.63
Máquina II(H2 ) 0.4 0.8 0.32 0.32/0.86 = 0.37
1.0 0.86 1.00

Cuadro 16.1

Ejemplo No. 4
Supongamos que la urna I tiene 10 bolas rojas y la urna II tiene 5 bolas rojas y 5 verdes.
Se ha seleccionado una bola y ha resultado ser roja. ¿De qué urna se ha extraído la bo-
la?

En el Cuadro 16.2, P (Hi ) muestra las probabilidades previas de seleccionar una urna. P (A|Hi )
muestra la probabilidad (probabilidad) de seleccionar una bola roja, dada Hi . Sabemos que
P (H1 ∩ A) = P (Hi )P (A|Hi )
16.7. Probabilidad condicional 461

Previa Probabilidad Conjunta Posterior


Evento P (Hi ) P (A|Hi ) P (Hi ∩ A) P (Hi |A)
Urna I(H1 ) 0.5 1 0.5 0.5/0.75 = 2/3
Urna II(H2 ) 0.5 0.5 0.25 0.25/0.75 = 1/3
1.0 0.75 1.0

Cuadro 16.2

y esto nos da la cuarta columna. La quinta columna se obtiene a partir de la fórmula de Bayes:

P (Hi ∩ A)
P (Hi |A) = P
P (Hi ∩ A)
P (A|Hi )P (Hi )
=P
P (A|Hi )P (Hi )

La última columna del Cuadro 16.2 muestra que la probabilidad de que la bola salga de la urna
I, cuando es roja, es de 2/3, mientras que es de 1/3 en la urna II. Convendremos en elegir la urna
(es decir, la hipótesis Hi ) con la mayor probabilidad. En nuestro caso actual, es decir Hi , decidimos
que la bola procede de la urna I.
Obsérvese que en el Ejemplo 4 hemos fijado P (Hi ) = 1/2. ¿Por qué hemos hecho esto? El
supuesto que subyace es que, cuando no hay razones para dudar de una hipótesis más que de otra,
ambas deben mantenerse en la misma duda. Este es el principio de la razón insuficiente.
Por tanto, cuando no hay información concreta sobre la distribución de probabilidad de las
hipótesis H1 , H2 , . . . , Hn , se asignan probabilidades iguales. Es decir, las probabilidades a priori
son
1
P (Hi ) = , i = 1, 2, . . . , n
n

Una pregunta que surge de forma natural es: ¿Tiene sentido esta distribución de probabilidades a
priori? Las probabilidades se han asignado en función de la confianza subjetiva del estadístico o de la
falta de ella. Por lo tanto, quienes apoyan el enfoque objetivo de la teoría de las frecuencias relativas
cuestionan el sentido del enfoque subjetivo, mientras que quienes apoyan el enfoque subjetivo lo
consideran significativo.

Ejemplo No. 5
Supongamos que hay 4 urnas que contienen bolas rojas y verdes, como se muestra en
la Figura 16.35. Una bola seleccionada de una de las urnas resulta ser roja. ¿De qué urna
fue seleccionada?

Urna 1 Urna 2 Urna 3 Urna 4


Rojo 2 4 6 8
Verde 8 6 4 2

Figura 16.35
462 Teoría de Probabilidad y Variables Aleatorias

Previa Probabilidad Conjunta Posterior


Evento P (Hi ) P (A|Hi ) P (Hi ∩ A) P (Hi |A)
Urna 1(H1 ) 0.25 0.2 0.05 0.05/0.50 = 0.10
Urna 2(H2 ) 0.25 0.4 0.10 0.10/0.50 = 0.20
Urna 3(H3 ) 0.25 0.6 0.15 0.15/0.50 = 0.30
Urna 4(H4 ) 0.25 0.8 0.20 0.20/0.50 = 0.40
1.0 0.50 1.00

Cuadro 16.3

P (H1 ) muestra las probabilidades a priori obtenidas mediante el principio de razón insuficiente.
La mayor probabilidad posterior es

P (H4 ∩ A)
P (H4 |A) = P
P (Hi ∩ A) = 0.40

Por lo tanto, elegimos la urna 4 como la urna de la que se seleccionó la bola roja.
El teorema de Bayes nos da un criterio para elegir una hipótesis Hi . Se elige la hipótesis con la
mayor probabilidad posterior. En el Capítulo 8 se ha presentado un método alternativo de elección
de hipótesis, denominado método de máxima verosimilitud.

16.7.3 Aplicación del teorema de Bayes

Resumamos el teorema de Bayes1 como sigue: Se nos da un conjunto de hipótesis, H1 , H2 , . . . , Hn ,


que son mutuamente excluyentes y exhaustivas. Se supone que se conocen las probabilidades P (Hi )
que se denominan probabilidades a priori. Sea A un evento y supongamos que se conoce P (A|Hi ).
Entonces
P (Hi ∩ A)
P (Hi |A) =
P (A)
P (A|Hi )P (Hi )
=P
P (A|Hi )P (Hi )

Como se ha señalado anteriormente, la suposición de que las probabilidades previas P (H1 ) son
conocidas ha sido cuestionada por los objetivistas.
En muchos casos en los que tenemos una distribución de probabilidad para el H1, podemos
querer revisarla a la vista de la información adicional que se ha obtenido de un evento A (que puede
ser, por ejemplo, una muestra). Por ejemplo, se puede tener una distribución de probabilidad relativa
a la eficacia de una píldora anticonceptiva que se reformulará después de la experimentación. O se
puede tener una distribución de probabilidad relativa al número de defectos de un determinado
producto que, tras su comprobación, debe ser rediseñado. O se puede tener una distribución de la
demanda de un producto procedente de diversas fuentes que, tras la recepción real de los pedidos,
debe ser revisada.
Investiguemos con un poco más de detalle cómo se puede utilizar la evidencia experimental
para revisar la distribución de probabilidad original (a priori). Utilizaremos de nuevo el Ejemplo 4.
El Cuadro 16.2 se reproduce como Cuadro 16.4 por comodidad.
1
Para más información sobre la estadística Bayesiana, véase R. Schlaifer, Introduction to Statistics for Business Deci-
sions, New York: McGraw-Hill Book Company, Inc., 1961.
16.7. Probabilidad condicional 463

Previa Probabilidad Conjunta Posterior


Evento P (Hi ) P (A|Hi ) P (Hi ∩ A) P (Hi |A)
Urna I(H1 ) 0.5 1 0.5 0.5/0.75 = 2/3
Urna II(H2 ) 0.5 0.5 0.25 0.25/0.75 = 1/3
1.0 0.75 1.0

Cuadro 16.4

Supongamos que se extrae una segunda bola que resulta ser roja. Con esta información, quere-
mos revisar las probabilidades asociadas a H1 . Para ello, utilizamos las probabilidades posteriores
del Cuadro 16.4 como las probabilidades previas del Cuadro 16.5.
Obviamente, la probabilidad asociada a H1 aumenta.
En lugar de calcular las probabilidades posteriores para cada sorteo, podemos considerar las 2
extracciones de una bola roja como una muestra aleatoria de tamaño 2. Entonces las probabilidades
P (A|H1 ) serán

P (A|H1 ) = 1 · 1 = 1
P (A|H2 ) = 0.5 · 0.5 = 0.25

Previa Probabilidad Conjunta Posterior


Evento P (Hi ) P (A|Hi ) P (Hi ∩ A) P (Hi |A)
Urna I(H1 ) 2/3 1 2/3 2/3÷5/6 = 4/5
Urna II(H2 ) 1/3 0.5 1/6 1/6÷5/6 = 1/5
1.0 5/6 1

Cuadro 16.5

Con estos resultados, el Cuadro 16.5 se convierte en el Cuadro 16.6.

Previa Probabilidad Conjunta Posterior


Evento P (Hi ) P (A|Hi ) P (Hi ∩ A) P (Hi |A)
Urna I(H1 ) 0.5 1 0.5 0.5/0.625 = 4/5
Urna II(H2 ) 0.5 0.25 0.125 0.125/0.625 = 1/5
1.0 0.625 1

Cuadro 16.6

Vemos que obtenemos los mismos resultados. Pero, si hubiéramos tomado una muestra aleatoria
de tamaño 3 y las 3 bolas hubieran sido rojas, deberíamos tener

P (A|H1 ) = 1 · 1 · 1 = 1
P (A|H2 ) = 0.5 · 0.5 · 0.5 = 0.125

y utilizando estas probabilidades, podemos calcular las nuevas probabilidades posteriores.


El punto a tener en cuenta es cómo se puede utilizar la información de la muestra en forma de
P (A|Hi ). Daremos varios ejemplos más.
464 Teoría de Probabilidad y Variables Aleatorias

Ejemplo No. 6
Supongamos que tenemos 2 urnas con bolas rojas y verdes, como se muestra en la Fi-
gura 16.36. Se nos presenta una urna y se extrae una bola que resulta ser roja. ¿De qué
urna procede?
Nuestro análisis se presenta en el Cuadro 16.7.

Urna 1 Urna 2
Rojo 3 7
Verde 7 3

Figura 16.36

Previa Probabilidad Conjunta Posterior


Evento P (Hi ) P (A|Hi ) P (Hi ∩ A) P (Hi |A)
Urna I(H1 ) 0.5 0.3 0.15 0.15/0.50 = 3/10
Urna II(H2 ) 0.5 0.7 0.35 0.35/0.50 = 7/10
1.0 0.50 1

Cuadro 16.7

P (Hi ) da las probabilidades previas y se basa en el principio de razón insuficiente. A es el evento


de seleccionar una bola roja. Las probabilidades posteriores son 3/10 y 7/10, por lo que concluire-
mos que la bola roja procede de la urna II.
Extraigamos ahora una muestra aleatoria de 2 bolas de una urna y encontremos que son roja y
verde. ¿De qué urna procede esta muestra?
Previa Probabilidad Conjunta Posterior
Evento P (Hi ) P (A|Hi ) P (Hi ∩ A) P (Hi |A)
Urna I(H1 ) 0.5 p1 0.5p1 p1 /(p1 + p2 ) = 0.5
Urna II(H2 ) 0.5 p2 0.5p2 p1 /(p1 + p2 ) = 0.5
1.0 0.5(p1 + p2 ) 1

Cuadro 16.8

Las probabilidades a priori P (Hi ) son 0.5. El evento A es ahora una muestra de rojo y verde.
Por lo tanto
 
2
P (A|H1 ) = · 0.3 · 0.7 = p1
1
 
2
P (A|H2 ) = · 0.7 · 0.3 = p2
1

Las probabilidades posteriores que buscamos son


 
2
0.5 · · 0.3 · 0.7
1
P (H1 |A) =     = 0.5
2 2
0.5 · · 0.3 · 0.7 + 0.5 · · 0.7 · 0.3
1 1
P (H2 |A) = 0.5
16.7. Probabilidad condicional 465

Es decir, la probabilidad posterior de que la muestra proceda de la urna I es de 0.5.


Seleccionemos a continuación una muestra aleatoria de tamaño 3 que tenga 2 bolas rojas y 1
verde y llamemos a este evento A. ¿Cuál es la probabilidad de que esta muestra proceda de la urna
I? Las probabilidades P (A|Hi ) de la muestra son
 
3
P (A|H1 ) = · 0.32 · (1 − 0.3)
2
 
3
P (A|H2 ) = · 0.72 · (1 − 0.7)
2

Por lo tanto, la probabilidad posterior que buscamos es


 
3
0.5 · · 0.32 · (1 − 0.3)
2
P (H1 |A) =    
3 3
0.5 · · 0.3 · (1 − 0.3) + 0.5 ·
2
· 0.72 · (1 − 0.7)
2 2
= 0.3
P (H2 |A) = 0.7

Por lo tanto, la probabilidad de seleccionar una muestra de tamaño 3 con 2 bolas rojas y 1 bola verde
de la urna I es 0.3.

Ejemplo No. 7
Utilizando los datos del Ejemplo 3, planteemos la siguiente pregunta: Dada una muestra
de 3 zapatos, donde 2 son no defectuosos y 1 es defectuoso, ¿cuál es la probabilidad de
que estos zapatos hayan sido producidos por la máquina I?
El evento A es la selección de una muestra de 2 zapatos no defectuosos y 1 defectuoso.
P (A|H1 ) y P (A|H2 ) son
 
3
P (A|H1 ) = · 0.92 · (1 − 0.9) = p1
2
 
3
P (A|H2 ) = · 0.82 · (1 − 0.8) = p2
2

Por lo tanto, nuestro cálculo de las probabilidades posteriores queda como se muestra
en el Cuadro 16.9.

Previa Probabilidad Conjunta Posterior


Evento P (Hi ) P (A|Hi ) P (Hi ∩ A) P (Hi |A)
Máquina I(H1 ) 0.6 p1 0.6p1 0.6p1 /(0.6p1 + 0.4p2 ) = 0.49
Máquina II(H2 ) 0.4 p2 0.4p2 0.4p2 /(0.6p1 + 0.4p2 ) = 0.51
1.0 0.6p1 + 0.4p2 1

Cuadro 16.9
466 Teoría de Probabilidad y Variables Aleatorias

Encontramos
P (A ∩ H1 )
p′1 =
P (A ∩ H1 ) + P (A ∩ H2 )
 
3
0.6 · · 0.92 · 0.1
2
=    
3 3
0.6 · · 0.92 · 0.1 + 0.4 · · 0.82 · 0.2
2 2
= 0.49
p′2 = 0.51

Las probabilidades posteriores que buscamos son


P (H1 |A) = 0.49, P (H2 |A) = 0.51

Los Ejemplos 6 y 7 muestran que, a medida que el tamaño de la muestra es mayor, el método
actual de cálculo de las probabilidades P (A|Hi ) de las muestras se vuelve muy difícil. Una pre-
gunta que surge naturalmente es: ¿Existe alguna forma de simplificar este proceso de cálculo de las
probabilidades de selección de una determinada muestra?
Hemos visto en el Capítulo 7 que la simplificación es posible utilizando el teorema del límite
central. Es decir, utilizamos la media muestral para representar la muestra y encontramos que la
distribución muestral de la media muestral es aproximadamente normal. Esto nos permitió calcular
las probabilidades de seleccionar una muestra. A continuación consideramos este problema.
El punto principal que hemos aprendido es el significado y el uso del teorema de Bayes para
calcular las probabilidades posteriores.

16.7.4 Cálculo de la probabilidad de una muestra

En esta sección mostraremos primero cómo se calcula la probabilidad de una muestra y luego
calcularemos las probabilidades posteriores de una variable aleatoria. Explicaremos el proceso con
una ilustración.
Supongamos que, a partir de datos anteriores, conocemos la distribución de frecuencias de las
tallas de las camisas, como se muestra en la tabla adjunta.

Talla de camisa Frecuencia relativa


ξ=µ
13 0.20
14 0.50
15 0.30

La v.a. ξ es la talla de la camisa. Supondremos que no hay errores de medición y, por tanto, no hay
sesgos en la medición de las tallas de las camisas. En consecuencia, consideraremos que las medias
poblacionales µ de cada talla de camisa son iguales a las tallas de camisa ξ. Las frecuencias relativas
de la tabla estiman las probabilidades a priori P (Hi ), donde Hi son las hipótesis sobre las tallas de
las camisas.
Hay razones para creer que puede haber algún cambio en la distribución de las tallas de camisa
χ = µ para comprobar y revisar la distribución de las tallas de camisa, se selecciona para ello una
16.7. Probabilidad condicional 467

muestra aleatoria de 16 hombres. Encontramos que la media de la muestra es la talla X = 13, y


suponemos que la desviación estándar es σ = 2.
Nuestro problema es encontrar las probabilidades posteriores de las tallas de las camisas utili-
zando la información de la muestra. Al igual que en los ejemplos anteriores, esto se realiza en dos
pasos:

1. Encontrar las probabilidades de la muestra con media muestral X = 13, dadas varias medias
poblacionales.

2. A partir de estas probabilidades, calcule las probabilidades posteriores.

Una muestra de tamaño 16 es bastante pequeña, pero a efectos de ilustración supongamos que
es lo suficientemente grande como para suponer que la distribución muestral de la media muestral
será aproximadamente normal. La situación se muestra gráficamente en las Figura 16.37(a) y (b).

( )
X −µ
 
X −2 X −µ 2 σ
13 E(X) 15 E
σx̄
= µ = 14
=0
(a)
(b)
Figura 16.37

El primer paso es encontrar la probabilidad de una muestra con media X = 13, dadas las medias
poblacionales µ = 13, 14 y 15. Para ello, primero transformamos la distribución muestral de X en
una distribución unitaria, de modo que podamos utilizar las tablas de áreas y ordenadas normales.
Empecemos con µ = 14, para facilitar el cálculo. Tenemos

X −µ
z=
σX̂

Entonces la Figura 16.37(b) muestra la distribución de z, donde la media es cero y σ = 1. Para


nuestro problema actual,
X −µ 13 − 14
z= = = −2
σX̂ 2

16
Es decir, 13 está a 2 desviaciones estándar de E(X) = 14.
Según el cuadro de ordenadas normales (Cuadro 2 del Apéndice) , la altura de la ordenada en
z = 2 es 0.0540.
Sea dx̄ la anchura de la barra en z = 2 en la distribución muestral de X [Figura 16.37(a)].
Entonces, en la distribución unitaria [Figura 16.37(b)], se reduce a dx̄/σx̄ = dx̄/0.5.
Por lo tanto, el área de la barra en z = 2 es
dx̄
0.0540 ·
0.5
468 Teoría de Probabilidad y Variables Aleatorias

Como el área muestra las probabilidades, ésta es la probabilidad de una muestra con media X = 13,
dada una media poblacional de µ = 14.
De manera similar podemos calcular la probabilidad de la muestra para µ = 13 y µ = 15. Los
cálculos se muestran en el Cuadro 16.10.

Camisa z = (X − µ)/σx̄ Altura Ancho Área


13 0 0.3989 dx̄/0.5 0.3989dx̄/0.5
14 -2 0.0540 dx̄/0.5 0.0540dx̄/0.5
15 -4 0.000 dx̄/0.5 0.000dx̄/0.5

Cuadro 16.10

Utilizando estas probabilidades, calculamos las probabilidades posteriores, como se muestra en


el Cuadro 16.11.
Previa Probabilidad Conjunta Posterior
Evento P (Hi ) P (A|Hi ) P (Hi ∩ A) P (Hi |A)
13 0.2 0.3989dx̄/0.5 0.07978dx̄/0.5 0.747
14 0.5 0.540dx̄/0.5 0.02700dx̄/0.5 0.253)
15 0.3 0.000dx̄/0.5 0.00000dx̄/0.5 0.000
1.0 0.10678dx̄/0.5 1.000

Cuadro 16.11

En el Cuadro 16.11 se observa que la probabilidad de que haya una demanda para el tamaño 13
de aproximadamente 0.747; para el tamaño 14, es de aproximadamente 0.253; y para el tamaño 15,
es de aproximadamente 0.000.
Las probabilidades posteriores muestran la nueva distribución de las tallas de las camisas hallada
en la información de la muestra.
El punto a destacar en esta ilustración es cómo se calculan las probabilidades y las probabilidades
posteriores cuando la distribución de muestreo es continua. Observe cómo se anulan las anchuras
de los intervalos dx̄/0.5 y cómo se ha utilizado la tabla de ordenadas.
CAPÍTULO 17
Teoría de la Decisión II

En el Capítulo 10 se trató brevemente la teoría de la decisión y se mostró cómo la teoría de la


prueba de hipótesis puede considerarse dentro del marco general de la teoría de la decisión. También
se mostró cómo la regla de Bayes para la selección de reglas admisibles podía considerarse dentro
de este marco general de la teoría de la decisión.
Sin embargo, la discusión no pudo desarrollarse plenamente por falta de una serie de concep-
tos analíticos necesarios. Lo que nos proponemos hacer ahora es desarrollar primero una serie de
nuevos conceptos analíticos y, a partir de ellos, discutir la teoría general de la decisión en un ni-
vel más avanzado. En primer lugar, volveremos a explicar qué se entiende por reglas de decisión,
y luego explicaremos por qué, de todas las reglas de decisión posibles, la clase de reglas admisibles
son las reglas deseables. A continuación, mostraremos cómo se puede seleccionar la clase de reglas
admisibles utilizando la regla de la razón de verosimilitud.
Después de haber seleccionado la clase de reglas admisibles, explicaremos varios procedimientos
para seleccionar las reglas de decisión deseables de la clase de reglas admisibles, como la teoría de
Neyman-Pearson, la regla minimax y la regla de minimización ponderada.
Estos procedimientos no consideran explícitamente las consecuencias de la gravedad de las pér-
didas cuando se toma una decisión equivocada. Por lo tanto, ampliaremos la discusión para consi-
derar dichas pérdidas explícitamente y esto se desarrollará en una discusión de la regla de Bayes.

17.1 Reglas de decisión

17.1.1 Reglas de decisión no aleatorias

En el Capítulo 10 teníamos un ejemplo de dos urnas con bolas rojas, verdes y negras como el
siguiente:

w1 w2
Rojas 10 60
Verdes 20 30
Negras 70 10

469
470 Teoría de la Decisión II

Se extrajo una muestra aleatoria de n = 1 bola. No sabíamos de qué urna se había extraído. A
partir de la muestra que teníamos delante queríamos decidir (o estimar) de qué urna procedía.
Para ello, razonamos de la siguiente manera: Las urnas se llamaban estados de naturaleza w1 y
w2 . La muestra de n = 1 bolas generaba un espacio muestral unidimensional; uno para w1 y otro
para w2 . Como asumimos 3 resultados (bolas rojas, verdes y negras) hay 31 = 3 puntos de muestra
en cada espacio muestral.
Cada espacio muestral se divide en una región de aceptación A y una región de rechazo R. Los
puntos de muestra de la región de aceptación conducen a la acción A1 y los de la región de rechazo
conducen a A2 . ¿De cuántas maneras se puede dividir el espacio muestral de 3 puntos? Hay
       
3 3 3 3
+ + + = (1 + 1)3 = 23 = 8
2 1 2 3

formas posibles de agrupar estos 3 puntos de la muestra. En otras palabras, hay 8 reglas posibles
que nos dicen cómo agrupar estos 3 puntos de muestra. Estas 8 reglas posibles se muestran en el
Cuadro 17.1 (repetimos el Cuadro 10.1), donde las reglas se denotan con di .

d1 d2 d3 d4 d5 d6 d7 d8
Roja (r) A1 A1 A1 A2 A1 A2 A2 A2
Verde (v) A1 A1 A2 A1 A2 A1 A2 A2
Negra (n) A1 A2 A1 A1 A2 A2 A1 A2
P (A1 |w1 ) 1 0,3 0,8 0,9 0,1 0,2 0,7 0
α = P (A2 |w1 ) 0 0,7 0,2 0,1 0,9 0,8 0,3 1
β = P (A1 |w2 ) 1 0,9 0,7 0,4 0,6 0,3 0,1 0
P (A2 |w2 ) 0 0,1 0,3 0,6 0,4 0,7 0,9 1

Cuadro 17.1

La Figura 17.1(a) es el espacio muestral Si correspondiente al estado de naturaleza wi . Según la


regla d2 , el espacio muestral se divide en el conjunto de aceptación = {r, g} = A; y el conjunto de
rechazo = {b} = R.
La Figura 17.1(b) es el espacio de acción que muestra las dos acciones, A1 y A2 .

(regla de
decisión)

r b n A1 A2
espacio muestral espacio de acción
Si α
(a) (b)

Figura 17.1

Podemos decir que la regla de decisión di es una asignación del espacio muestral Si en el espacio
de acción A.
Una forma alternativa de explicar la regla de decisión es la siguiente. La regla de decisión divide
el espacio muestral S en subconjuntos disjuntos A y R donde
17.1. Reglas de decisión 471

1. A ∩ R = 0

2. A ∪ R = S

3. Si el punto de muestra Ei pertenece a A, se realiza la acción A1 . Si el punto de muestra Ei


pertenece a R, entonces se realiza una acción A2 .

Esta última explicación es más útil y es la que utilizaremos en la discusión posterior.


La regla de decisión anterior se denomina regla de decisión no aleatoria. La razón para llamarla
no aleatoria quedará clara cuando hablemos de las reglas de decisión aleatorias.

Ejemplo No. 1
En la ilustración anterior, seleccionemos una muestra aleatoria de tamaño n = 2. En-
tonces tenemos un espacio muestral bidimensional con 9 puntos de muestra, como se
muestra en la Figura 17.2. El espacio muestral se divide en conjuntos de aceptación (A)
y rechazo (R) mediante una regla de decisión di . Como hay 9 puntos de muestra, hay
     
9 9 9
+ + ... = (1 + 1)9 = 29 = 512
0 1 9

formas posibles de dividir el espacio muestral en el conjunto A y el conjunto R. Es decir,


hay 512 reglas de decisión posibles.

Hay 2 espacios muestrales S1 y S2 uno para w1 y otro para w2 , como se muestra en la Figura 17.2.

R A R A
n n
E3 E7 E9 E3 E7 E9
P (A1 |w2 )

E6 E8 E6 E8
v v
E2 E2
P (A2 |w1 )
r E1 E4 E5 =α r E1 E4 E5

r v n r v n
S1 S2

Figura 17.2

Que una de las reglas de decisión sea la siguiente:


Entonces los subconjuntos R y A son

R = {E1 , E2 , E3 , E4 , E5 }
A = {E6 , E7 , E8 , E9 }

donde Ei son los puntos de la muestra.


472 Teoría de la Decisión II

Puntos
Muestrales di
E1 = (r, r) A2
E2 = (r, v) A2
E3 = (r, n) A2
E4 = (v, r) A2
E5 = (n, r) A2
E6 = (v, v) A1
E7 = (v, n) A1
E8 = (n, v) A1
E9 = (n, n) A1

Cuadro 17.2

17.1.2 Caracterización de las reglas de decisión

En el Capítulo 10 vimos cómo podíamos asociar a cada regla de decisión los riesgos α y β. Los
riesgos α y β son
α = P (A2 |w1 )
β = P (A1 |w2 )

En términos de espacios muestrales, el riesgo α se produce cuando los puntos de la muestra Ei


pertenecen a la región de rechazo R del espacio muestral S1 . Es decir
α = P (conjunto R|S1 )
Del mismo modo,
β = P (conjunto A|S2 )
Por lo tanto, el riesgo α puede evaluarse sumando las probabilidades asociadas a los puntos mues-
trales Ei que pertenecen a R de S. Utilizando este hecho, queremos calcular α. Para ello, definamos
d(Ei ) = P (A2 |Ei ) = 1 cuando Ei ∈ R
= 0 cuando Ei ∈ A
Por lo tanto
1 − d(Ei ) = P (A1 |E1 ) cuando Ei ∈ A
Con esta herramienta, podemos calcular el riesgo α de la siguiente manera
α = P (A2 |w1 )
= P (conjunto R|S1 )
Xn
= Pw1 (Ei )d(Ei )
i=1

donde i = 1, 2, . . . , n son todos los puntos de la muestra. En nuestra ilustración, n = 3. Por lo


tanto, dejando que las probabilidades de los puntos de muestra en el espacio muestral S1 se denoten
por fy (i = 1, 2, 3), obtenemos
α = Pw1 (E1 )d(E1 ) + Pw1 (E2 )d(E2 ) + Pw1 (E3 )d(E3 )
X
3
= Pw1 (Ei )d(Ei )
i=1
17.1. Reglas de decisión 473

Pero como d(Ei ) = 1 cuando Ei ∈ R y d(Ei ) = 0 cuando Ei ∈ A en S1 , la suma final en la


ecuación anterior se convierte en
X
α= fi
Ei ∈R

En cuanto a β, tenemos

β = P (A1 |w2 )
= P (conjunto A|S2 )
Xn
= Pw1 (Ei )[1 − d(Ei )]
i=1

Si las probabilidades de los puntos de la muestra en el espacio muestral S2 son gi (i = 1, 2, 3),


obtenemos

X
n
β= gi [1 − d(Ei )]
i=1
X
= gi
Ei ∈A

Utilizando este resultado, calculemos los riesgos α y β para nuestro ejemplo.

d1 d2
E1 = r A1 A1
E2 = v A1 A1
E3 = n A1 A2
α 0 0.7
β 1 0.9

Cuadro 17.3

r v n
0.1 0.2 0.7

Figura 17.3

Para la regla d1 tenemos A1 independientemente del resultado. Por lo tanto, como se ve en la


474 Teoría de la Decisión II

Figura 17.3 la R = 0 y A = {E1 , E2 , E3 }. Así pues,

X
α(d1 ) = P (A2 |w1 ) = fi d(Ei )
Ei ∈R
= f1 d(E1 ) + f2 d(E2 ) + f3 d(E3 )
= 0.1 · 0 + 0.2 · 0 + 0.7 · 0
=0
β(d1 ) = P (A1 |w2 )
X
= gi [1 − d(Ei )]
Ei ∈A
X
= gi
Ei ∈A
= g1 + g2 + g3
=1

Para d2 tenemos R = E3 y A = {E1 , E2 }. Por lo tanto,

X
α(d2 ) = fi d(Ei )
Ei ∈R
= f1 (0) + f2 (0) + f3 (1)
= 0.7 · 1
= 0.7
X
β(d2 ) = gi d(Ei )
Ei ∈A
= g1 (1) + g2 (1) + g3 (0)
= 0.6 + 0.3 + 0.1 · 0
= 0.9

Los riesgos α y β para las otras reglas d3 , . . . , d8 se evalúan de forma similar y los resultados se
muestran en el Cuadro 17.3.
Hemos podido caracterizar las reglas de decisión con los riesgos α y β.
17.1. Reglas de decisión 475

Ejemplo No. 2
En el Ejemplo 1 teníamos un espacio bidimensional como el que se muestra en la Figu-
ra 17.4.
Busquemos α y β para las reglas de decisión dadas en la Figura 17.4.
Como R = {E1 , E2 , E3 , E4 , E5 } y A = {E6 , E7 , E8 , E9 }, encontramos
X
α= fi
Ei ∈R
= f1 + f2 + f3 + f4 + f5
= f (r)f (r) + f (r)f (v) + f (r)f (n) + f (v)f (r) + f (n)f (r)
= 0.1 · 0.1 + 0.1 · 0.2 + 0.1 · 0.7 + 0.2 · 0.1 + 0.7 · 0.1
= 0.19
X
β= gi
Bi ∈R
= g6 + g7 + g8 + g9
= g(v)g(v) + g(v)g(n) + g(n)g(v) + g(n)g(n)
= 0.3 · 0.3 + 0.3 · 0.1 + 0.1 · 0.3 + 0.1 · 0.1
= 0.16

∴ α = 0.19, β = 0.16

R A
n
E3 E7 E9

E6 E8
v
E2

r E1 E4 E5

r v n
Figura 17.4

17.1.3 Reglas admisibles

Nuestro problema es decidir de qué urna se ha seleccionado la muestra. Una regla de decisión
nos dice qué acción tomar cuando seleccionamos una muestra. Por supuesto, deseamos tomar la
decisión correcta y seleccionar el verdadero estado de la naturaleza, es decir, la urna de la que se
seleccionó la muestra.
Y para ello, obviamente, queremos que α y β sean lo más pequeños posible. Así, si hay dos reglas
476 Teoría de la Decisión II

di
E1 (r, r) A2
E2 (r, v) A2
E3 (r, n) A2
E4 (v, r) A2
E5 (n, r) A2
E6 (v, v) A1
E7 (v, n) A1
E8 (n, v) A1
E9 (n, n) A1
α 0.19
β 0.16

Cuadro 17.4

de decisión di y dj y si

α(dj ) < α(di )


β(dj ) < β(di )

entonces la regla dj , que tiene los riesgos α y β más pequeños, es mejor que la regla di . Forma-
lizaremos esta caracterización de las reglas de decisión y la definiremos como sigue:
Definición: Se dice que una regla de decisión di es inadmisible si existe otra regla dj tal que

α(dj ) ⩽ α(di )
β(dj ) ⩽ β(di )

y una de las ⩽ es una desigualdad estricta. Decimos que dj domina a di . Decimos que di es
admisible si no existe tal dj dominante.
Más sencillamente, diremos que una regla de decisión es admisible si no existe otra regla que sea
mejor en el sentido anterior.
Apliquemos este criterio a nuestro ejemplo (17.1). Vemos que

d4 es mejor que d2 , d3 ; o, d4 domina a d2 , d3


d7 es mejor que d5 , d6 ; o, d7 domina a d5 , d6

Entonces d1 , d4 , d7 , d8 son reglas que son mejores en el aspecto α o β, o en ambos aspectos, y


consideraremos estas reglas de decisión como la clase de reglas admisibles.

17.1.4 Presentación gráfica de las reglas de decisión

Mostramos las reglas de decisión en forma de diagrama en la Figura 17.5. Cada regla de decisión
puede mostrarse mediante un punto en el diagrama (α, β). Dado que cuanto más pequeños sean α
y β mejor será la regla, el punto ideal sería el origen (0, 0). Podemos ver que los puntos más cercanos
al origen son mejores que los más alejados y el gráfico muestra que los puntos que corresponden a
d1 , d4 , d7 , d8 son mejores que los demás puntos.
17.1. Reglas de decisión 477

β
d1
1.0 d2

0.8

d3 d5
0.6
d4
0.4 d6

0.2 d7
d8
0.2 0.4 0.6 0.8 1.0 α

Figura 17.5

También hay que señalar que los puntos son simétricos respecto al punto (0.5, 0.5). Esta simetría
surge porque siempre se puede hacer una regla de decisión opuesta al punto. Es decir, para cada regla
admisible existe una regla simétrica inadmisible.
Examinemos la Figura 17.5 con más detenimiento. Vemos gráficamente que el gráfico de los 8
pares de (α, β) correspondientes a las 8 reglas de decisión forman un conjunto convexo. Explique-
mos esto con más detalle.

A
B A A B
B

(a) (c)
(b)
Figura 17.6

Lo primero que tenemos que explicar es un conjunto convexo. En la Figura 17.6 hemos dibujado
3 conjuntos. Una característica de los conjuntos (a) y (b) es que si dos puntos cualesquiera están en el
conjunto, todos los puntos del segmento de línea que los une también están en el conjunto. Podemos
ver que esto no es cierto para el conjunto (c). Los conjuntos (a) y (b) se llaman conjuntos convexos;
(c) no es un conjunto convexo. A partir de esta observación, definimos un conjunto convexo como
un conjunto tal que si dos puntos cualesquiera están en el conjunto, todos los puntos del segmento
de recta que los une están también en el conjunto 1 .
Se puede demostrar que los riesgos α y β, cuando se representan como en la Figura 17.7(a),
formarán un conjunto convexo. Si la distribución de probabilidad de las variables aleatorias es con-
tinua, obtendremos regiones convexas como en la Figura 17.7(b).
Podemos ver intuitivamente que las reglas de decisión con (α, β) valoraciones a lo largo del
límite inferior (suroeste) del conjunto convexo (región) son las reglas admisibles.
1
Matemáticamente, sean A y B dos puntos vectoriales. Entonces el segmento de línea que une estos 2 puntos vecto-
riales puede ser mostrado por wA + (1 − w)B, donde 0 ⩽ w ⩽ 1. Sea C = wA + (1 − w)B. Entonces C es un vector;
punto en el segmento. Ahora, dejemos que dos puntos vectoriales cualesquiera A y B pertenezcan a un conjunto S. Si el
punto vectorial C también pertenece a S, entonces se dice que el conjunto S es un conjunto convexo.
478 Teoría de la Decisión II

β β
1 1

0 1 α 0 1 α
(a) (b)
Figura 17.7

Esto nos lleva a la observación adicional de la Figura 17.7 de que a medida que el riesgo α
disminuye el riesgo β aumenta, y viceversa.
Por lo tanto, hemos encontrado una clase de reglas admisibles que se encuentran en el límite
inferior del conjunto convexo. Limitaremos nuestra investigación posterior de las reglas de decisión
a las reglas admisibles que se encuentran en el límite inferior del conjunto convexo. Las demás re-
glas de decisión que no se encuentran en el límite inferior del conjunto convexo no necesitan ser
consideradas.
Consideremos la cuestión: ¿Cuál de estas reglas admisibles es deseable? ¿Cuál es la mejor? Para
responder a esta pregunta, tenemos que definir qué entendemos por mejor, y como veremos en bre-
ve, hay diferentes opiniones sobre lo que es mejor. Esto lleva a diferentes teorías sobre la selección
de las reglas de decisión deseables. De ahí que nuestro siguiente problema sea investigar algunas
teorías relativas a la selección de reglas de decisión óptimas de la clase de reglas admisibles. En pri-
mer lugar, explicaremos el concepto de verosimilitud y ratio de verosimilitud, que es necesario para
la discusión de estas diferentes teorías. Pero antes, debemos explicar un concepto más preliminar
relativo a las reglas de decisión, a saber, las reglas de decisión aleatorias.

17.1.5 Reglas de decisión aleatorias - discusión gráfica

En nuestro ejemplo anterior de 2 urnas, teníamos 8 reglas de decisión como en el Cuadro 17.1,
que se reproduce a continuación como Cuadro 17.5.

d1 d2 d3 d4 d5 d6 d7 d8
r A1 A1 A1 A2 A1 A2 A2 A2
v A1 A1 A2 A1 A2 A1 A2 A2
n A1 A2 A1 A1 A2 A2 A1 A2
P (A1 |w1 ) 1 0.3 0.8 0.9 0.1 0.2 0.7 0
α = P (A2 |w1 ) 0 0.7 0.2 0.1 0.9 0.8 0.3 1
β = P (A1 |w2 ) 1 0.9 0.7 0.4 0.6 0.3 0.1 0
P (A2 |w2 ) 0 0.1 0.3 0.6 0.4 0.7 0.9 1

Cuadro 17.5

La clase de reglas admisibles es d1 , d4 , d7 , d8 . Dejando fuera los extremos, tenemos d4 y d7 . La


Figura 17.8 es un gráfico de los puntos (α, β) de la clase de reglas admisibles.
Supongamos que fijamos el nivel de significación en α0 = 0.2. Entonces las reglas de decisión
que satisfacen α0 = 0.2 son d1 y d4 . Para d1 , α = 0 pero β = 1. α = 0 es mucho más estricto de lo
17.1. Reglas de decisión 479

β
d1
1.0
0.9
0.8
0.7
0.6
0.5
d4
0.4
0.3 δ
0.2
d7
0.1
d8
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 α

Figura 17.8

que necesitamos, y se obtiene permitiendo una β muy grande, es decir, β = 1.


Al permitir que α sea igual a 0.1, podemos reducir β a β = 0.4. Pero α = 0.1 sigue siendo más
estricta que la requerida α0 = 0.2.
La siguiente regla admisible es d7 , donde α = 0.3 y β = 0.1. Como α es mayor que 0.2, no
podemos utilizarla, aunque β se hace pequeño, es decir, β = 0.1.
Comparemos d4 y d7 con más detalle. Tenemos

d4 d7
r A2 A2
v A1 A2
n A1 A1
α 0.1 0.3
β 0.4 0.1

Como puede verse, cuando sacamos una bola roja o negra, d4 y d7 dan los mismos resultados,
es decir, las acciones A2 y A1 , respectivamente. Cuando sacamos una bola verde, d4 lleva a A1 ; d7
lleva a A2 . Por lo tanto, es más fácil tomar la acción A2 cuando se da la regla d7 , y por lo tanto es
más probable cometer el error de Tipo I, y por lo tanto α = P (A2 |w1 ) es mayor para d7 . Así, al
pasar de d4 a d7 , obtenemos un aumento de α de 0.1 a 0.3; pero una disminución de β de 0.4 a 0.1.
Como tenemos

d4 d7
α 0.1 0.3
β 0.4 0.1
480 Teoría de la Decisión II

es natural preguntarse: ¿Existe una manera de obtener una regla de decisión en algún lugar entre d4
y d7 de modo que α = 0.2 y β esté entre 0.4 y 0.1? La respuesta es sí, y lo explicaremos primero
gráficamente y luego matemáticamente.
Vemos en la Figura 17.8 que cuando α = 0.2, el valor correspondiente de β que se obtiene de la
línea límite del conjunto convexo que muestra las reglas admisibles es aproximadamente β = 0.25.
Entonces obtenemos:

d4 δ d7
r A2 A2 A2
v A1 A1 o A2 A2
n A1 A1 A1
α 0.1 0.2 0.3
β 0.4 0.25 0.1

Por tanto, hemos obtenido gráficamente (α = 0.2, β = 0.25). Dejemos que la regla de decisión
que lleva a este resultado se denote como δ.
Como puede verse en la Figura 17.8, seleccionando puntos del segmento de recta entre d4 y δ,
podemos encontrar pares de (α, β) tales que 0.1 ⩽ α ⩽ 0.2 y 0.25 ⩽ β ⩽ 0.4.
También podemos ver en la tabla anterior que, cuando se extrae una bola verde, d4 conduce
a la acción A1 , y asignamos una probabilidad de 1; d7 conduce a la acción A2 , y asignamos una
probabilidad de 0. Por lo tanto, para la regla de decisión δ, podemos ver intuitivamente que para la
acción A1 , asignamos una probabilidad de q que es 0 ⩽ q ⩽ 1. Queremos que esta q sea tal que
cuando tomemos la acción A1 con probabilidad q, entonces el riesgo α se convierta en 0.2 y el riesgo
β en 0.25. Esta q puede obtenerse fácilmente a partir de la Figura 17.9, utilizando los resultados que
encontramos al hablar de los conjuntos convexos en páginas siguientes.

(α4 , β4 )
0.4 β4

0.25
(α7 , β7 )
0.1 β7

α4 α7 α
0.1 0.3

Figura 17.9

Tenemos, como puede verse en la Figura 17.9,


α = qα4 + (1 − q)α7
β = qβ4 + (1 − q)β7
Queremos α = 0.2 y β = 0.25. Nos dan α4 = 0.1, α7 = 0.3, β4 = 0.4, β7 = 0.1. Por lo tanto,
a partir de cualquiera de las dos ecuaciones encontramos q = 0.5. Entonces la regla de decisión se
convierte en
17.1. Reglas de decisión 481

d4 δ d7
r 1 1 1
v 0 0.5 1
n 0 0 0
α 0.1 0.2 0.3
β 0.2 0.25 0.1

Encontramos que el riesgo α para la regla de decisión δ es

α = f (r) · 1 + f (v) · 0.5 + f (n) · 0


= 0.1 · 1 + 0.2 · 0.5 + 0.7 · 0
= 0.2

De forma similar para β:

β = g(r) · (1 − 1) + g(v) · (1 − q) + g(n) · (1 − 0)


= 0.6 · 1 + 0.3 · 0.5 + 0.1 · 1
= 0.25

17.1.6 Reglas de decisión aleatorias - discusión matemática

Investiguemos ahora las reglas de decisión aleatorias de forma matemática. Utilizando el ejemplo
de dos urnas con bolas rojas, verdes y negras, una muestra

w1 w2
r 10 60
v 20 30
n 70 10

de tamaño n = 1. Por lo tanto, hay 3 resultados posibles, lo que en términos de espacio muestral
significa que tenemos un espacio muestral unidimensional con 3 puntos de muestra.

E1 = bola roja E2 = bola verde E3 = bola negra

Para cada resultado posible hay 2 cursos de acción posibles A1 y A2 . Por lo tanto, combinando estos
dos, hay 2 · 3 = 6 resultados posibles:

(E1 , A1 ), (E1 , A2 ), (E2 , A1 ), (E2 , A2 ), (E3 , A1 ), (E3 , A2 )

Estos resultados se muestran como un espacio de muestra en la Figura 17.10.


Entonces, por ejemplo, la regla de decisión d1 viene dada por los puntos de muestra (E1 , A1 ), (E2 , A1 ), (E3 , A1 ).
La regla de decisión d4 viene dada por (E1 , A2 ), (E2 , A1 ), (E3 , A1 ). De forma similar, podemos
mostrar las demás reglas de decisión posibles mediante estos puntos de muestra.
Ahora, el suceso (E1 , A1 ) significa, en primer lugar, que se selecciona el punto muestral E1 (es
decir, se selecciona una bola roja). La probabilidad de E1 depende de la urna de la que procede la
bola roja. Si procede de la urna 1, tenemos

P1 (E1 ) = P (r|w1 ) = f (r) = 0.1


482 Teoría de la Decisión II

Ai w1 Ai w2
α = P (A2 |w1 )

A2 A2

A1 A1

β = P (A1 |w2 )

E1 E2 E3 Ei E1 E2 E3 Ei
(a) (b)
Figura 17.10

En segundo lugar, después de seleccionar E1 , se realiza un experimento auxiliar y la regla de de-


cisión aleatoria δ nos dice que tomemos la acción A1 con probabilidad, por ejemplo, δ1 . Por ejemplo,
δ1 = 0.6 significa, tomar la acción A1 con probabilidad 0.6. Por lo tanto, la probabilidad del punto
de muestra (E1 , A1 ) puede establecerse como

Pw1 (E1 ) · δ1 (E1 )

Por lo tanto, definamos


P (Ei , A1 |w1 ) = Pw1 (Ei )δ1 (Ei )

Entonces

X
3 X
2
P (Ei , Aj |w1 )
i=1 j=1

X
3
= [P (Ei , A1 |w1 ) + P (Ei , A2 |w1 )]
i=1
X
3
= [Pw1 (Ei )δ1 (Ei ) + Pw1 (Ei )δ2 (Ei )]
i=1
X3
= Pw1 (Ei )[δ1 (Ei ) + δ2 (Ei )]
i=1
X
3
= Pwi (Ei )
i=1
=1

Por lo tanto, los puntos del espacio muestral satisfacen los requisitos de las probabilidades, y
podemos utilizar este espacio muestral para investigar las reglas de decisión aleatorias. Utilizando
este espacio muestral, encontremos primero α y β.
Para encontrar α, observamos que α es la probabilidad de tomar la acción A2 dada w1 . Por
lo tanto, en términos de espacios muestrales, es el espacio muestral de la Figura 17.10(a) el que
corresponde a la urna 1. Los puntos (E1 , A2 ), (E2 , A2 ), (E3 , A2 ) conducen a la acción A2 , cuando
se selecciona el punto muestral (muestra) E1 o E2 o E3 de w1 . Por lo tanto, α se encuentra sumando
17.1. Reglas de decisión 483

las probabilidades de estos 3 puntos de muestra:

α = Pw1 [(E1 , A2 ) ∪ (E2 , A2 ) ∪ (E2 , A2 )]


X
3
= Pw1 (E1 , A2 )
i=1
X
= Pw1 (Ei )δ2 (Ei )
X
= fi δ2 (Ei )

Del mismo modo,

β = Pw2 [(E1 , A1 ) ∪ (E2 , A1 ) ∪ (E3 , A1 )]


X
3
= Pw2 (Ei )δ1 (Ei )
i=1
X
= gi δ1 (Ei )

Simplifiquemos los resultados. Sabemos que

δ1 (Ei ) = P (A1 |Ei )


δ2 (Ei ) = P (A2 |Ei )
∴ δ1 + δ2 = 1

Así pues, eliminemos los subíndices 1 y 2 de δ1 y δ2 y definamos

δi = P (A2 |Ei )
1 − δi = 1 − P (A2 |Ei ) = P (A1 |Ei )

donde la i de δi , ahora es i = 1, 2, . . . , n, y muestra el iésimo punto de muestreo. Utilizando estas


definiciones, los resultados anteriores pueden demostrarse mediante

X
n
α= f i δi
i=1
Xn
β= gi (1 − δi )
i=1

Utilicemos estas nuevas herramientas en nuestra discusión matemática de las reglas de decisión
aleatorias. Tenemos

d4 d7
v A2 A2
r A1 A2
n A1 A1
α 0.1 0.3
β 0.4 0.1

Deseamos encontrar una regla de decisión entre d4 y d7 y, como podemos ver, tenemos A2 para
E1 = rojo, tanto para d4 como para d7 . También tenemos A1 para E3 negro, tanto para d4 como
para d7 .
484 Teoría de la Decisión II

Pero para E2 = verde, tenemos A1 para d4 ; y A2 para d7 . Por lo tanto, necesitamos encontrar
un procedimiento para decidir si se toma la acción A1 o A2 cuando se selecciona una bola E2 =
verde.
Esta decisión dependerá de algún nuevo experimento aleatorio. Por ejemplo, supongamos que
tenemos una urna con 6 bolas amarillas y 4 blancas. Entonces, cuando se extraiga una bola amarilla,
se tomará la acción A2 , y cuando se extraiga una bola blanca, se tomará la acción A1 . La acción A2 se
realizará con una probabilidad q = 0.6; la acción A1 se realizará con una probabilidad 1 − q = 0.4.
Ahora la pregunta es: ¿Cómo se determina q? Como hemos visto gráficamente, q se determina
de forma que obtengamos el nivel deseado del riesgo α. Ilustrémoslo.
La regla entre d4 y d7 será:

d4 δ d7
r δ1 = 1 δ1 = 1 δ1 = 1
v δ2 = 0 δ2 = q δ2 = 1
n δ3 = 0 δ3 = 0 δ3 = 0
α 0.1 0.3
β 0.4 0.1

Así
X
n
α(δ) = fi δi
i=1
= f 1 δ1 + f 2 δ2 + f 3 δ3
= 0.1 · 1 + 0.2 · q + 0.7 · 0
= 0.1 + 0.2q

Queremos que α = 0.2. Entonces

0.1 + 0.2q = 0.2


∴ q = 0.5

Y
X
β= gi (1 − δi )
= g1 (1 − δ1 ) + g2 (1 − δ2 ) + g3 (1 − δ3 )
= 0.6(1 − 1) + 0.3(1 − q) + 0.1(1 − 0)
= 0 + 0.3(1 − 0.5) + 0.1
= 0.25
∴ α = 0.2, β = 0.25

Por lo tanto la regla de decisión es:

δ
r δ1 = 1 Tomar la acción A2 con probabilidad 1
v δ2 = q = 0.5 Tomar la acción A2 con probabilidad q = 0.5
n δ3 = 0 Tomar la acción A1 con probabilidad 1
α 0.2
β 0.25
17.2. Regla de la razón de verosimilitud 485

En otras palabras:

Si la bola es roja, tomar la acción A2


Si la bola negra, tomar la acción A1
Si la bola es verde, realice el siguiente
experimento auxiliar

Utilizando una urna con 50 bolas amarillas y 50 blancas,

Si la bola amarilla, realiza la acción A2


Si se trata de una bola blanca, se realiza la acción A1

Entonces, α = 0.2 y β = 0.25.


Obsérvese que el número de bolas amarillas y blancas se determina fijando primero el riesgo α
en un determinado nivel deseado, y calculando el valor q. En nuestro ejemplo q = 0.5, y por tanto
tenemos 50 bolas amarillas y 50 blancas.
En conclusión, al establecer reglas de decisión aleatorias, hemos aumentado el número finito
de reglas de decisión admisibles no aleatorias a un número infinito de reglas de decisión admisibles
aleatorias. En términos de la Figura 17.8 hemos encontrado una forma de dejar que todos los puntos
de los segmentos de línea de la frontera inferior izquierda del conjunto convexo representen reglas
de decisión.
Una vez establecido el concepto de reglas de decisión aleatorias, estamos preparados para dis-
cutir la prueba de razón de verosimilitud, que nos mostrará una forma sencilla de seleccionar reglas
admisibles de entre todas las reglas de decisión posibles.

17.2 Regla de la razón de verosimilitud

En la Sección 17.1 encontramos en nuestro ejemplo de dos urnas que cuando se selecciona una
2
muestra de tamaño n = 2, hay 23 = 512 reglas de decisión no aleatorias. Vimos cómo estas
reglas de decisión se caracterizaban por los riesgos α y β. Definimos una clase de reglas de decisión
admisibles como reglas de decisión deseables para ser seleccionadas de entre todas las reglas de
decisión posibles.
Podemos ver fácilmente que calcular los riesgos α y β para 512 reglas de decisión es una tarea
3
formidable. Si el tamaño de la muestra es n = 3, entonces habrá 23 = 227 = 134 217 728 reglas de
decisión y el problema de calcular los riesgos α y β para todas estas reglas se vuelve extremadamente
tedioso.
Una pregunta que surge naturalmente es: ¿Podemos encontrar la clase de reglas admisibles de
forma más sencilla sin comprobar todas las reglas de decisión posibles? Afortunadamente, la res-
puesta es afirmativa, utilizando lo que se conoce como regla (o prueba) de la razón de verosimilitud.
En esta sección hablaremos de la regla de la razón de verosimilitud y mostraremos cómo se puede
obtener la clase de reglas admisibles.
Una vez obtenida la clase de reglas admisibles, el siguiente problema es seleccionar las reglas de
decisión óptimas de la clase de reglas admisibles. Discutiremos estos procedimientos de selección
en la Sección 17.3 y siguientes. Ahora vamos a proceder a la discusión de la regla de la razón de
verosimilitud.
486 Teoría de la Decisión II

17.2.1 La razón de verosimilitud

La regla de la razón de verosimilitud se basa en la razón de verosimilitud, que a su vez se basa


en el concepto de verosimilitud. Por lo tanto, repasemos primero el concepto de probabilidad y, a
continuación, analicemos el cociente de probabilidad.
En el Capítulo 8 nos preguntamos: ¿Cómo podemos saber si una bola procede de la urna 1 o de
la urna 2? Discutimos la pregunta en el tema Método de Máxima Verosimilitud. En la Sección 8.6
teníamos 5 urnas, w0 , w1 , w2 , w3 , w4 , con bolas blancas y negras como en la Figura 17.11.

negra 0b 1b 2b 3b 4b
blanca 4w 3w 2w 1w 0w
0 1 2 3 4
π0 = 4
π1 = 4
π2 = 4
π3 = 4
π4 = 4
w0 w1 w2 w3 w4

Figura 17.11

Se seleccionó una muestra de tamaño n = 2 con reemplazo, y en correspondencia con ésta había
5 espacios muestrales, S0 , S1 , S2 , S3 , S4 , como en la Figura 17.12.

w w w w w

b b b b b

b w b w b w b w b w
0 4 1 3 2 2 3 1 4 0
4 4 4 4 4 4 4 4 4 4
S0 S1 S2 S3 S4

Figura 17.12

Supongamos que la muestra es (negro, blanco). ¿De qué espacio muestral Si procede? O pode-
mos decir: ¿De qué urna wi (estado de naturaleza) procede? A esto se responde con el concepto de
verosimilitud propuesto por R. A. Fisher. Afirmamos que seleccionaríamos el espacio muestral que
diera la muestra con más frecuencia que los otros espacios muestrales. Descubrimos que el espacio
muestral que produce la muestra observada con mayor frecuencia, en relación con los otros espacios
Si , es el espacio S2 . Para S2 , la probabilidad de seleccionar una muestra (blanca, negra) es

2 2 2 2 8
f2 (w)f2 (b) + f2 (b)f2 (w) = · + · =
4 4 4 4 16
Para S3 , es
1 3 3 1 6
· + · =
f3 (w)f3 (b) + f3 (b)f3 (w) =
4 4 4 4 16
Del mismo modo, para S0 es 0; para S1 es 6/16; y para S4 es 0.
Obsérvese bien que la probabilidad de que la muestra (blanco, negro) proceda de S2 es 1 o 0.
Pero dado S2 , la probabilidad de seleccionar la muestra (blanco, negro) es 8/16.
Ahora, la probabilidad anterior puede verse de la siguiente manera. Cuando se extrae una mues-
tra de tamaño n = 2, podemos tener 0, 1 o 2 bolas blancas. Hemos extraído una muestra de (n, b).
Por lo tanto, podemos preguntar: ¿Cuál es la probabilidad de que haya k = 1 bola blanca en n = 2
extracciones, dado πi ? Como explicaremos en el Apartado 19.3, Hallando la Distribución Binomial,
17.2. Regla de la razón de verosimilitud 487

la probabilidad es  
n k
π (1 − πi )n−k
k i
donde el πi es la probabilidad de seleccionar una bola blanca. El 2f2 (w)f2 (b) que obtuvimos ante-
riormente no es más que esta fórmula. Para S2 , la f2 (w) = π2 = 2/4. Por lo tanto para S2 ,

 
n k
π (1 − π2 )n−k
k 2
 1  
2 2 2 2−1
= · · 1−
1 4 4
2 2 8
=2· · =
4 4 16

1
Para S3 , tenemos f3 (w) = π3 = . Así
4
   1  
2 1 1 2−1 1 3 6
· 1− =2· · =
1 4 4 4 4 16
Ahora comparando  
n k
π (1 − π2 )n−1 = b(k; n, π2 )
k 2
y  
n k
π (1 − π3 )n−k = b(k; n, π3 )
k 3
seleccionamos S2 porque
b(k; n, π2 ) > b(k; n, π3 )
Como puede verse, b(k; n, π2 ) es mayor que cualquier otra b(k; n, πi ). Es decir, seleccionamos S2
porque b(k; n, π2 ) es el máximo de b(k; n, π2 ) para los distintos valores de πi . Escribamos
 
n k
L(πi ) = π (1 − πi )n−k
k i

y definamos L(πi ), la función de verosimilitud, para la muestra, donde L(πi ) es una función del pa-
rámetro poblacional πi . Observe cuidadosamente que L(πi ) es una función de πi , y no de k. Cuando
b(k; n, πi ) es una función de k, con πi fijo, nos da la probabilidad de k aciertos (bolas blancas) en
n ensayos (tamaño de la muestra de n). Cuando b(k; n, πi ) es una función de πi , con k fijo, nos da
la verosimilitud del parámetro k. Volveremos a explicar los significados de la probabilidad y de la
verosimilitud mas adelantes, así que prosigamos con la discusión de la relación de verosimilitud.
En general, si seleccionamos una muestra de tamaño n = 2, con reemplazo, la función de pro-
babilidad se define como

L(θi ) = f − i(x − 1, x2 , θi ) = fi (x1 , θi )fi (x2 , θi )

donde θi es el parámetro poblacional que caracteriza a la población wi (estado de naturaleza wi ,


la iesima urna en nuestro ejemplo). L(θ1 ) es una función de θi . Si la muestra es de tamaño n, la
función de verosimilitud de la muestra es
n
L(θi ) = fi (x1 , x2 , . . . , xn , θi ) = π fi (xj , θi )
j=1
488 Teoría de la Decisión II

n
También decimos que π fi (xj , θi ) es la verosmilitud del parámetro θi para la muestra dada (x1 , x2 , . . . , xn ).
j=1
En el ejemplo anterior hemos demostrado que

L(θ2 ) = b(k; n, π2 ) > L(θ3 ) = b(k; n, π3 )

donde θi = πi . Esto puede escribirse como

L(θ3 )
λ= >1
L(θ2 )

Esta relación se denomina relación de verosimilitud.


Según nuestro razonamiento anterior

L(θ3 )
Si λ= > 1 seleccione S3
L(θ2 )
L(θ3 )
Si λ= = 1 seleccione S2 o S3
L(θ2 )
L(θ3 )
Si λ= < 1 seleccione S2
L(θ2 )

En general, dejemos que λ = L(θ3 )/L(θ2 ). Entonces, cuando la relación de verosmilitud λ


es grande, la hipótesis con el estado de naturaleza w3 (θ3 ) es más plausible. Cuando la relación de
verosmilitud λ se hace pequeña, la hipótesis con θ2 se hace más plausible. Siendo así, hay una línea
divisoria entre valores grandes y pequeños de λ en la que la hipótesis θ3 se vuelve más plausible que
la hipótesis θ2 .
Ilustrémoslo. Supongamos que hay dos urnas como en la Figura 17.13. Se selecciona una muestra
aleatoria de tamaño n = 2 con reemplazo. Entonces tenemos 2 espacios muestrales como en la
Figura 17.14. Calculemos las razones de verosimilitud (Cuadro 17.6).

w1 w2
r = 50 r = 10
v = 40 v = 30
n = 10 n = 60

Figura 17.13

Usando la Figura 17.14, podemos calcular la probabilidad para (r, r), dado w1 , estudiando la
gráfica. Encontramos
L(w1 ) = 0.5 · 0.5 = 0.25
Como tenemos (r, v) y (v, r) en el gráfico, para (v, g) es

L(w1 ) = 0.5 · 0.4 + 0.4 · 0.5 = 0.40

y así sucesivamente. Las probabilidades se indican en el Cuadro 17.6.


Esta distribución de probabilidad se conoce como distribución multinomial, que se explica en
la Sección 20.5, Distribución Multinomial. La función de verosimilitud viene dada por

n!
L(θ1 , θ2 ) = p x1 p x2 px3
x1 !x2 !x3 ! 1 2 3
17.2. Regla de la razón de verosimilitud 489

S1 S2

n n
v v
r r

r v n r v n
0.5 0.4 0.1 0.1 0.3 0.6

Figura 17.14

donde tenemos 2 parámetros θ1 y θ2 . Por ejemplo, para (r, r), dado w1 , tenemos

θ11 = 0.5(probabilidad de bola roja, dada w1 )


θ12 = 0.4(probabilidad de bola verde, dada w1 )
θ13 = 1 − θ11 − θ12 = 0.1(probabilidad de bola blanca, dada w1 )
n = x1 + x2 + x3 = tamaño de la muestra = 2, donde
x1 número de bolas rojas, x2 = número de bolas verdes
x3 = n − x1 − x2 = número de bolas blancas
2!
∴ L(θ1 , θ2 ) = 0.52 · 0.40 · 0.10 = 0.25
2!0!0!

De forma similar podemos calcular las demás verosimilitudes.


Para simplificar, en la Cuadro 17.6 hemos abreviado la función de verosimilitud por

L(w1 ) = L(θ11 , θ12 )


L(w2 ) = L(θ21 , θ22 )

(r, r) (r, v) (v, v) (r, n) (v, n) (n, n)

L(w1 ) 0.25 0.40 0.16 0.10 0.08 0.01

L(w2 ) 0.01 0.06 0.09 0.12 0.36 0.36


L(w1 )
λ= 0.04 0.15 0.56 1.2 4.5 36
L(w2 )
Cuadro 17.6

Según el criterio que establecimos anteriormente, cuando λ > 1, tomamos la acción A2 y se-
leccionamos w2 ; cuando λ < 1 tomamos la acción A1 y seleccionamos w1 .
490 Teoría de la Decisión II

Vemos que para

(r, n), (v, n), (n, n)λ > 1


(r, r), (r, v), (v, v)λ < 1

Cuando se obtiene una muestra de (r, n), (v, n), o (n, n), afirmamos que la muestra procede de w2
porque λ > 1. Cuando se obtiene una muestra de (r, r), (r, v) o (v, v), decimos que la muestra
procede de w1 porque λ < 1.
En el ejemplo anterior, hemos utilizado λ > 1 y λ < 1 como criterios para decidir si la muestra
procede de w1 o de w2 . Pero en lugar de 1, escribamos λ > k o λ < k. Entonces el ejemplo anterior
es el caso en el que k = 1.
Pero variando el valor de k, podemos obtener muchas reglas de decisión diferentes. Por ejemplo,
si dejamos k = 0.05, entonces

λ > 0.05 lleva a (r, v), (v, v), (r, n), (v, n), (n, n)
λ < 0.05 lleva a (r, r)

En este caso la regla dice: Cuando la muestra es (r, r), decida que la muestra proviene de w1 (tome
la acción A1 ); para todas las demás muestras, decida que la muestra proviene de w2 (tome la acción
A2 ).
En general, si queremos estar más seguros antes de decidir que una muestra seleccionada es
de w1 , debemos dejar que k sea más pequeño; si estamos menos seguros, k más grande. Esto se
explicará de nuevo en secciones posteriores.
Como a veces se confunden los conceptos de verosimilitud y probabilidad, comparemos ambos.
Utilizando las dos urnas de la Figura 17.13, construimos el Cuadro 17.7.

w1 w2 λ
E1 = (r, r) P (E1 |w1 ) = 0.25 P (E1 |w2 ) = 0.01 0.04
E2 = (r, v) P (E2 |w1 ) = 0.40 P (E2 |w2 ) = 0.06 0.15
E3 = (v, v) P (E3 |w1 ) = 0.16 P (E3 |w2 ) = 0.09 0.56
E4 = (r, n) P (E4 |w1 ) = 0.10 P (E4 |w2 ) = 0.12 0.1.2
E5 = (v, n) P (E5 |w1 ) = 0.08 P (E5 |w2 ) = 0.36 4.5
E6 = (n, n) P (E6 |w1 ) = 0.01 P (E6 |w2 ) = 0.36 36
1.00 1.00

Cuadro 17.7

En la tabla, tenemos

P (Ei |wj ) i = 1, 2, . . . , 6
j = 1, 2

donde Ei indica la muestra i, y wj es la hipótesis j. Cuando wj , digamos w1 , se mantiene fija,


y Ei varía, P (E1 |w1 ) es una probabilidad. Esta P (Ei |w1 ) nos da la probabilidad de seleccionar
una muestra Ei dado el estado de naturaleza (hipótesis) w1 . Por ejemplo, P (E1 |w1 ) = 0.25 es
la probabilidad de seleccionar la muestra E1 , dada la hipótesis (estado de la naturaleza, es decir,
la urna) w1 . Y los valores de P (Ei |w1 ) leídos hacia abajo muestran las probabilidades y suman la
unidad.
17.2. Regla de la razón de verosimilitud 491

Cuando consideramos Ei fijo (digamos E1 ), y dejamos que wj varíe, entonces P (E1 |wj ) donde
j = 1, 2 es la probabilidad de wj para la muestra E1 . Ahora estamos leyendo la tabla por filas, y los
valores, como P (E1 |w1 ) = 0.25, son ahora verosimilitudes y no probabilidades. La probabilidad
de que una muestra determinada proceda de w1 es 0 o 1. Tenga en cuenta que la muestra E1 es fija
y la hipótesis wj varía.
Para las verosimilitudes, leemos la tabla por filas y, como puede ver en el Cuadro 17.7, las pro-
babilidades no suelen sumar la unidad.
La razón de verosimilitud para E1 puede mostrarse como

P (E1 |w2 ) 0.01


= = 0.04
P (E1 |w1 ) 0.25

17.2.2 Regla de la razón de verosimilitud

Podemos resumir la discusión de la Sección 17.1 en una definición. Utilizando la misma nota-
ción, pongamos
gi
λ=
fi
y

δi = P (A2 |Ei ) i = 1, 2, . . . , n

Entonces nuestra definición es:


Una regla de decisión aleatoria δ se llama regla de razón de verosimilitud con índice λ0 si

1. Siempre que λi > λ0 , entonces δi = 1, es decir, toma la acción A2 .

2. Siempre que λi = λ0 , entonces δi = q(0 ⩽ q ⩽ 1), es decir, toma la acción A2 con probabi-
lidad q.

3. Siempre que λi < λ0 , entonces δi = 0, es decir, tomar la acción A1 .

Ilustrémoslo con el ejemplo de la urna. Obtenemos el Cuadro 17.8. a partir del Cuadro 17.1.

w1 w2
fi gi λi = gi /fi d3 δ (3) d4 δ (4)
E1 = rojo 0.1 0.6 6.0 A1 0 A2 1
E1 = rojo 0.1 0.6 6.0 A1 0 A2 1
E1 = rojo 0.1 0.6 6.0 A1 0 A2 1

Cuadro 17.8

Hemos enumerado sólo d3 y d4 , a efectos de ilustración. Los λi se han ordenado de forma des-
cendente, de modo que el mayor, λi = 6, se encuentra en la parte superior y el menor, λ3 = 0.14,
en la parte inferior de la tabla:

λi = 6 > λ2 = 1.5 > λ3 = 0.14


492 Teoría de la Decisión II

Fijemos ahora λ0 = 5. Entonces, según la definición de la regla de la razón de verosimilitud,

λ1 = 6 > λ 0 = 5 entonces δ1 = 1
λ2 = 1.5 > λ0 = 5 entonces δ2 = 0
λ3 = 0.14 > λ0 = 5 entonces δ3 = 0

Esta regla de razón de verosimilitud se muestra como δ (4) en el Cuadro 17.8.


Sea δ (3) otra regla, en la que los 0 y los 1 son los que se muestran en el Cuadro 17.8. Para que
δ (3) sea una regla de razón de verosimilitud, debemos tener:

Si δ1 = 0, λ1 < λ 0
Si δ2 = 1, λ2 > λ 0

Pero esto no puede ser válido para δ (3) porque esto lleva a la contradicción

λ1 = 6 < λ 0
λ2 = 1.5 > λ0

donde λ0 = 5. Por lo tanto, δ (3) no es una regla de relación de probabilidad.


Podemos ver que cuándo ordenamos las λi de modo que λ1 > λ2 · · · > λn , para que δ sea una
regla de razón de verosimilitud, los δi = 1 deben estar por encima de los 0, y un 0 (cero) no puede
meterse entre los 1.
Utilizando este criterio de regla de razón de verosimilitud, seleccionemos las reglas de razón
de verosimilitud del Cuadro 17.9, que se reproduce del Cuadro 17.1. Como δi = P (A2 |Ei ), el A1
corresponde a δi = 0 y el A2 corresponde a δi = 1. Como se ve en el Cuadro 17.9, las reglas de
decisión d1 , d4 , d7 y d8 satisfacen los requisitos del criterio de la regla de relación de probabilidad
de que ningún 0 esté por encima de un 1.

d1 d2 d3 d4 d5 d6 d7 d8
r A1 (0) A1 (0) A1 (0) A2 (0) A1 (0) A2 (1) A2 (1) A2 (1)
v A1 (0) A1 (0) A2 (1) A1 (0) A2 (1) A1 (0) A2 (1) A2 (1)
n A1 (0) A2 (1) A1 (0) A1 (0) A2 (1) A2 (1) A1 (0) A2 (1)

Cuadro 17.9

Recordamos que estas 4 reglas de decisión son las reglas admisibles. Se plantea la cuestión: ¿Son
las reglas de razón de verosimilitud reglas admisibles? La respuesta, como veremos en el Apartado
17.5, es afirmativa.
Este método de selección de reglas admisibles entre todas las reglas de decisión posibles ahorra
mucho trabajo. Cuando tenemos 3 resultados posibles, como en el Cuadro 17.9, podemos escribir
las reglas de relación de probabilidad de forma esquemática:

r 0 1 1 1
v 0 0 1 1
n 0 0 0 1

Si tenemos 4 resultados posibles, obtenemos


17.2. Regla de la razón de verosimilitud 493

E1 0 1 1 1 1
E2 0 0 1 1 1
E3 0 0 0 1 1
E4 0 0 0 0 1

Para 3 resultados posibles, hay 3 + 1 = 4 reglas de relación de verosimilitud sobre esta base. Para 4
resultados posibles, hay 4 + 1 = 5 reglas de relación de probabilidad. En general, para n resultados
posibles, hay n + 1 reglas de relación de probabilidad.
Hemos omitido el caso en que λ = λ0 . Entonces δi = q. Así que vamos a añadirlo. Podemos
ver fácilmente que cuando hay 3 resultados posibles tenemos que añadir 3 casos adicionales: δ1 =
q, δ2 = q, y δ3 = q. Tenemos entonces:

r 0 q 1 1 1 1 1
v 0 0 0 q 1 1 1
n 0 0 0 0 0 q 1

Es decir, hay (3 + 1) + 3 = 7 reglas de relación de verosimilitud.


En general, hay (n + 1) + n = 2n + 1 reglas de relación de verosimilitud, y estas reglas son,
como veremos, reglas de decisión admisibles.
El lector atento puede preguntarse ahora: Cuando hemos seleccionado las reglas de relación de
probabilidad de entre todas las reglas de decisión posibles, ¿hemos seleccionado todas las reglas de
decisión admisibles? ¿Hemos dejado alguna regla admisible sin elegir? La respuesta es no: Todas las
reglas de decisión admisibles son reglas de razón de verosimilitud, y todas ellas han sido elegidas.
Por lo tanto, la regla de razón de verosimilitud ahorra trabajo en la selección de reglas de decisión
admisibles. Por ejemplo, cuando tenemos 10 resultados y el tamaño de la muestra es n = 1, hay
210 = 1024 reglas de decisión posibles, mientras que el número de reglas de relación de probabilidad
es 2n + 1 = 20 + 1 = 21.
Como veremos, la regla de la relación de verosimilitud es útil, no sólo para seleccionar reglas
admisibles, sino también para investigar los procedimientos de selección de reglas de decisión óp-
timas.
Una pregunta más a la que hay que responder es: ¿Qué pasa si las λi no están en orden descen-
dente? En nuestro ejemplo, supongamos que tenemos λi

E2 = v 1.5
E1 = r 6.0
E3 = n 0.14

Como se puede comprobar fácilmente, esto no afecta al resultado que hemos obtenido.
Nuestro problema ahora es demostrar que las reglas de razón de verosimilitud (A) son reglas
admisibles (B). Esto se explicará en la Sección 17.5, La Regla de Minimización Ponderada. También
mostraremos en la sección 17.5 que las reglas admisibles (B) son reglas de razón de verosimilitud
(A) . Por lo tanto, con nuestra discusión de las reglas de razón de verosimilitud (A) en esta sección,
hemos encontrado una manera fácil de seleccionar las reglas admisibles (B) de entre todas las reglas
de decisión posibles.
Con toda esta preparación, discutamos ahora los procedimientos para seleccionar las reglas de
decisión óptimas de la clase de reglas admisibles.
494 Teoría de la Decisión II

17.3 La Teoría de Neyman-Pearson

El primer procedimiento para seleccionar reglas de decisión óptimas de la clase de reglas ad-
misibles que consideraremos es la teoría de Neyman - Pearson, desarrollada por J. Neyman y E. S.
Pearson en 1933.
La teoría de Neyman - Pearson considera el problema de la selección de una regla de decisión
cuando sólo hay 2 estados de la naturaleza; es decir, cuando hay una hipótesis nula simple (H0 ) y una
hipótesis alternativa simple (H1 ). En primer lugar, ordena las hipótesis nula (H0 ) y alternativa (H1 )
de forma que el riesgo α sea el más grave que el responsable político (o el estadístico) desea evitar.
En segundo lugar, se establece un nivel de significación de α0 . A continuación, se selecciona una
regla de decisión de manera que el riesgo α sea menor que α0 , y que dé el menor riesgo β posible.
El lector observará que éste es el procedimiento que utilizamos en el Capítulo 9.

1−β

β
α0 1 α
Figura 17.15

Este procedimiento se puede mostrar gráficamente utilizando el diagrama α, β. Como se mues-


tra en la Figura 17.15, se selecciona el nivel de significación α0 , y en el gráfico podemos ver que β se
encuentra donde la línea vertical de α0 se cruza con el límite inferior de la región convexa, el límite
inferior que nos dio la clase de reglas admisibles.
El lema fundamental de Neyman-Pearson establece este procedimiento como un teorema. Ex-
pliquemos este teorema con nuestro ejemplo de dos urnas y luego enunciémoslo.
El ejemplo de las dos urnas se muestra en la Figura 17.16 y también en forma de tabla.

urna 1 urna 2
w1 w2
r = 10 r = 60
v = 20 v = 30
n = 70 n = 10

Figura 17.16

Urna 1 Urna 2
f (r) = 0.10 g(r) = 0.60
f (v) = 0.20 g(v) = 0.30
f (n) = 0.70 g(n) = 0.10

Supongamos que se selecciona una muestra de tamaño n = 2. Entonces hay 2 espacios mues-
trales Si y S2 en la Figura 17.17. Cada punto de la muestra en Si tiene asociada la probabilidad
f (x1 , x2 ) = f (x1 )f (x2 )
17.3. La Teoría de Neyman-Pearson 495

y de forma similar para S2 tenemos

S1 S2

0.7 n 0.1 n
0.2 v 0.3 v
0.1 r 0.6 r

r v n r v n
0.1 0.2 0.7 0.6 0.3 0.1

Figura 17.17

g(x1 , x2 ) = g(x1 )g(x2 )


La razón de verosimilitud se convierte en
g(x1 , x2 )
λ=
f (x1 , x2 )
y calculamos λ de la siguiente manera

g(x1 , x2 )
w 1 , S1 w 2 , S2 λ=
f (x1 , x2 )
f (x1 , x2 ) g(x1 , x2 )
E1 = (r, r) 0.01 0.36 36.0
E2 , E3 = (r, v), (v, r) 0.04 0.36 9.0
E4 = (v, v) 0.04 0.09 2.25
E5 , E6 = (r, n), (n, r) 0.14 0.12 0.86
E7 , E8 = (v, n), (n, v) 0.28 0.06 0.21
E9 = (n, n) 0.49 0.01 0.02
1.00 1.00

donde (r, v) se refiere a elegir una bola roja y una verde en ese orden. Sabemos que seleccionando
un valor para λ0 y dejando que
g(x1 , x2 )
> λ0
f (x1 , x2 )
estamos seleccionando un conjunto de puntos de muestra en los espacios de muestra. Por ejemplo,
dejemos que λ0 = 20. Podemos ver en la tabla que sólo el punto de muestra (r, r) satisface λ0 = 20.
Por lo tanto, λ0 = 20 ha dividido el espacio muestral en 2 conjuntos:
R = {E1 }
A = {E2 , E3 , . . . , E9 }
Si fijamos λ0 = 8, entonces los 3 puntos de muestra E1 = (r, r), E2 = (r, v) y E3 = (v, r)
satisfacen λ0 = 8 y el espacio muestral se ha dividido en
R = {E1 , E2 , E3 }
A = {E4 , E5 , . . . , E9 }
496 Teoría de la Decisión II

A A
n n

v v
R R
r r

r v n r v n
Figura 17.18

Esto se muestra en la Figura 17.18.


Cuando λ0 es grande, como λ0 = 20 o λ0 = 8, esto significa que g(x1 , x2 ) es mucho mayor
que f (x1 , x2 ). λ0 = 20 significa que la probabilidad asociada a E1 en S2 es más de 20 veces la de
E1 en S1 , pero las probabilidades de los puntos E2 , E3 , . . . , E9 en S2 son menos de 20 veces las de
los puntos correspondientes E2 , E3 , . . . , E9 en S1 .
Del mismo modo, λ0 = 8 significa que las probabilidades asociadas a E1 , E2 y E3 en S2 son
más de 8 veces las de E1 , E2 , E3 en S1 ; pero las probabilidades de los puntos E4 , E5 , . . . , E9 en S2
son menos de 8 veces las de E4 , E5 , . . . , E9 en S1 .
De nuestra discusión sobre la probabilidad sabemos que esto significa, en términos del concepto
de probabilidad, que es más plausible, para el caso λ0 = 20, que la muestra (r, r) provenga de S2
mientras que el resto provenga de S1 .
Y para el caso λ0 = 8, E1 , E2 , E3 proceden de S2 mientras que el resto proceden de S1 .
Al igual que en nuestra discusión anterior, el conjunto R se denomina conjunto de rechazo o
región de rechazo, y conduce a la acción A2 , es decir, a afirmar que la muestra procede de S2 . El
conjunto A es el conjunto de aceptación y conduce a la acción A1 , es decir, a afirmar que la muestra
procede de S1 .
Por lo tanto, la suma de las probabilidades de los puntos de muestra en R de Si es

P (conjunto R|S1 ) = P (A2 |w1 ) = α

y
P (conjunto A|S2 ) = P (A1 |w2 ) = β

Donde λ0 = 8 tenemos

α = P (conjunto R|S1 )
= P (A2 |w1 )
= P (r, r) + P (r, v) + P (v, r)
= 0.01 + 0.02 + 0.02 = 0.05
α = P (conjunto A|S2 )
= P (A1 |w2 )
= P (v, v) + P (r, n) + P (n, r) + P (v, n) + P (n, v) + P (n, n)
= 0.09 + 0.06 + 0.06 + 0.03 + 0.03 + 0.01 = 0.28
17.3. La Teoría de Neyman-Pearson 497

Podemos decir que λ0 divide el espacio muestral en regiones de aceptación (A) y de rechazo (R). Al
elegir λ0 estamos eligiendo la región de rechazo (R): a medida que λ0 se hace más grande, R se hace
más pequeña. El riesgo α es simplemente la suma de las probabilidades de los puntos de muestra en
R de S1 . Podemos ver intuitivamente que cuando la muestra es grande, habrá un gran número de
puntos de muestra y podemos ajustar el valor de λ0 para que la suma de las probabilidades de los
puntos de muestra en R de S1 sea igual al nivel de significación predeterminado α0 .
P (A2 |w1 ) = α0

El lema fundamental de Neyman - Pearson establece lo que hemos explicado anteriormente de


la siguiente manera:
Se obtiene una prueba más potente para un nivel de significación dado α0 cuando se elige como
región de rechazo R el conjunto de puntos muestrales en S1 que satisfacen
g(x1 , x2 , . . . , xn )
λ= > λ0
f (x1 , x2 , . . . , xn )
donde λ0 se selecciona de forma que
X
f (x1 , x2 , . . . , xn ) = α0
R

Obsérvese que en el teorema anterior hemos añadido la afirmación de que este procedimiento nos
proporciona la prueba más potente. Esto significa que β será un mínimo, o que la potencia (1 − β)
será un máximo. El significado de la potencia de una prueba se explicó en el Capítulo 9.
Podemos enunciar el lema de Neyman - Pearson en términos de la regla de la razón de verosi-
militud como sigue
Sí λ > λ0 tomando δi = 1
Sí λ = λ0 tomando δi = q 0⩽q⩽1
Sí λ < λ0 tomando δi = 0
donde λ0 y q se eligen para que α = α0 (el nivel de significación) y (1 − β) sean un máximo.
Recordemos que δi = P (A2 |Ei ) = 1 significa tomar la acción A2 con probabilidad 1.
Por lo tanto, el problema práctico es encontrar λ0 y q. Cuando λ > λ0 , rechazar la hipótesis
nula H0 . Cuando λ = λ0 , rechazar H0 con probabilidad q. Cuando λ < λ0 , aceptar la hipótesis
nula H0 . Entonces α = α0 ; y β estará en el mínimo para α = α0 .
Ilustremos este procedimiento de búsqueda de una regla de decisión con varios ejemplos.

Ejemplo No. 1
Supongamos que hay dos urnas con bolas rojas, verdes, negras y blancas como las si-
guientes:
Urna 1 Urna 2
Roja 10 40
Verde 20 30
Negra 30 20
Blanca 40 10
Se selecciona una muestra de tamaño n = 1 y se desea decidir si vino de la urna 1 o
de la urna 2. Encuentre una regla de decisión tal que el error Tipo I sea menor que α0 =
0.05 y (1 − β) sea máximo.
498 Teoría de la Decisión II

Construimos la siguiente tabla y encontramos los cocientes de probabilidad.

fi gi λ = gi /fi δ
1
E1 = roja 0.1 0.4 4
2
E2 = verde 0.2 0.3 1.5 0
2
E3 = negra 0.3 0.2 0
3
1
E4 = blanca 0.4 0.1 0
4
α 0.05

β 0.8

A partir de nuestra discusión de la regla de la razón de verosimilitud, podemos encontrar α(δ)


mediante

α(δ) = P (A2 |w1 )


X
4
= Pw1 (Ei )P (A2 |Ei )
i=1
X
= fi δ(Ei )
= f1 δ1 + f 2 δ2 + f 3 δ3 + f 4 δ4

Queremos que α = 0.05. Podemos ver que, como f1 = 0.1, obtendremos α = 0.05 si fijamos
1
δ1 = , y δ2 = δ3 = δ4 = 0:
2
1
α= · 0.1 + 0 · 0.2 + 0 · 0.3 + 0 · 0.4
2
= 0.05

Así, fijamos λ0 = 4, de modo que λ = λ0 = 4.


El β se halla mediante

β(δ) = P (A1 |w2 )


X
4
= Pw2 (Ei )P (A1 |Ei )
i=1
X
= gi [(1 − δ)(Ei )]
= g1 (1 − δ1 ) + g2 (1 − δ2 ) + g3 (1 − δ3 ) + g4 (1 − δ4 )
 
1
= 0.4 1 − + 0.3(1 − 0) + 0.2(1 − 0) + 0.1(1 − 0)
2
= 0.8

y β = 0.8 es el β mínimo.
17.3. La Teoría de Neyman-Pearson 499

Por lo tanto, la regla de la razón de verosimilitud es

1
Cuándo λ = λ0 = 4 hacemos δ1 =
2
Cuándo λ < λ0 = 4 hacemos δ2 = δ3 = δ4 = 0

Entonces α = 0.05 y (1 − β) = 1 − 0.8 = 0.2.


En términos de puntos de muestra, esta regla de decisión puede enunciarse de la siguiente ma-
nera:
Si se selecciona una bola roja, realizar un experimento auxiliar de lanzar una moneda.
Si sale escudo, se realiza la acción A1 y se decide que la bola roja procede de la urna 1
Si sale corona, se realiza la acción A2 y se decide que la bola roja procede de la urna 2
Si sale una bola verde, negra o blanca, toma la acción A1 .
Entonces α = 0.05 y β = 0.8.
En términos de hipótesis nula y alternativa, podemos enunciar la regla de la siguiente manera
Si se selecciona una bola roja, se lanza una moneda.
Si sale escudo, se acepta la hipótesis nula Si sale corona, se rechaza la nula y se acepta la
hipótesis alternativa
Si se selecciona una bola verde, negra o blanca, se acepta la hipótesis alternativa. Entonces α =
0.05 y β = 0.8.

Ejemplo No. 2
Utilizando los datos del Ejemplo 1, utilice α = 0.15.

fi gi λ δ

Roja 0.1 0.4 4 1


1
Verde 0.2 0.3 1.5
4
2
Negra 0.3 0.2 0
3
1
Blanca 0.4 0.1 0
4
α 0.15

β 0.525

X
α(δ) = fi δi
= f 1 δ1 + f 2 δ2 + f 3 δ3 + f 4 δ4
500 Teoría de la Decisión II

Queremos α = 0.15. Obtenemos0.1 de esto dejando que δ1 = 1. Queremos 0.05 más (del verde
1
f2 = 0.2), así que dejamos δ2 = . Haciendo que δ3 y δ4 = 0:
4
1
0.1 · 1 + 0.2 · + 0.3 · 0 + 0.4 cot 0 = 0.15
4

Así, fijamos λ0 = 1.5 para que λ = λ0 = 1.5. Entonces β es


X
β= gi (1 − δi )
X
= g1 (1 − δ1 ) + g2 (1 − δ2 ) + g3 (1 − δ3 ) + g4 (1 − δ4 )
 
1
= 0.4(1 − 1) + 0.3 1 − + 0.2(1 − 0) + 0.1(1 − 0)
4
= 0.525

Por lo tanto, la regla de decisión es Sea λ0 = 1.5. Entonces

Sí λ > λ0 = 1.5 hacemos δi = 1


1
Sí λ = λ0 = 1.5 hacemos δi =
4
Sí λ < λ0 = 1.5 hacemos δi = 0

Entonces α = 0.15 y β = 0.525.


Según el teorema de Neyman-Pearson y la regla de la razón de verosimilitud, podemos decir que
esta regla es una regla admisible y que β = 0.525 es el valor de la minima cuando α = 0.15.
Esta regla de decisión puede enunciarse como sigue: Tomar una muestra de tamaño n = 1.
Si la bola seleccionada es roja, realizar la acción A2 .
Si la bola seleccionada es verde, realice este experimento auxiliar:
Prepare una urna con 1 bola amarilla y 3 rosas. Selecciona 1 bola.
Si es amarilla, realiza la acción A2 .
Si es rosa, realiza la acción A1 .
Si la bola seleccionada es negra o blanca, realiza la acción A1 .
La q se puede encontrar a partir de la siguiente fórmula
α0 − suma de α0 hasta ahora
q=
fi de la siguienteEi
Para el Ejemplo 2, es
0.15 − 0.1 0.05 1
q= = =
0.2 0.2 4

Ejemplo No. 3
Utilizando los datos del Cuadro 17.10 (repitiendo la tabla de paginas anteriores), encon-
tremos una regla de decisión tal que α = 0.05. Es evidente que las dos primeras filas nos
darán la α deseada.
17.3. La Teoría de Neyman-Pearson 501

fi gi λ = gi /fi δ
(r, r) 0.01 0.36 36 1
(r, v), (v, r) 0.04 0.36 9 1
(v, v) 0.04 0.09 2.25 0
(r, n), (n, r) 0.14 0.12 0.86 0
(g, n), (n, v) 0.28 0.06 0.21 0
(n, n) 0.49 0.01 0.02 0
α 0.05
β 0.28

Cuadro 17.10

X
6
α= fi δi
i=1
= 0.01 · 1 + 0.04 · 1 + 0.04 · 0 + 0.14 · 0 + 0.28 · 0 + 0.49 · 0
= 0.05

Fijemos λ0 entre λ2 = 9 y λ3 = 2.25. Fijemos λ0 = 3. Entonces


X
β= gi (1 − δi )
= 0.35(1 − 1) + 0.36(1 − 1) + 0.09(1 − 0) + 0.12(1 − 0) + 0.06(1 − 0) + 0.01(1 − 0)
= 0.28

La regla de decisión es: Tome una muestra de tamaño n = 1 y deje que λ0 = 3. Entonces

Sí λ > λ0 = 3hacemos δi = 1
Sí λ < λ0 = 3hacemos δi = 0

Entonces α = 0.05, β = 0.28, y β es el mínimo para α = 0.05.


Podemos ver fácilmente que

0.05 − (0.01 + 0.04)


q= =0
0.04
Nótese que hemos tomado λ0 = 3 para que

λ2 = 9 > λ0 = 3 > λ3 = 2.25

λ0 podría haber sido cualquier otro valor entre 9 y 2.25.


Como veremos en la siguiente discusión, el valor de λ0 es más específico cuando tenemos una
muestra más grande porque los valores de λ son más casi continuos.
Hasta ahora hemos encontrado A9 y q por observación. Esto ha sido posible porque el tamaño de
la muestra era n = 1 ó 2, y el número de resultados era inferior a 10. Cuando el tamaño de la muestra
y el número de resultados posibles aumentan, este sencillo procedimiento se vuelve prácticamente
imposible desde el punto de vista del cálculo, y tenemos que recurrir a técnicas matemáticas más
sofisticadas. Lo ilustraremos con varios ejemplos. La teoría es la misma, pero las matemáticas se
complican ligeramente.
502 Teoría de la Decisión II

Antes de entrar en estos ejemplos, resumiremos brevemente los resultados obtenidos hasta aho-
ra y ofreceremos una presentación alternativa, además de presentar un resultado técnico más que
utilizaremos. Se trata del lema de Neyman - Pearson: Dado el cociente de probabilidad
gi
λ=
fi

Si λ > λ0 hagamos δi = 1, es decir, tomar la acciónA2


Si λ = λ0 hagamos δi = q es decir, tomar la acción A2 con q, probabilidad q
Si λ < λ0 hagamos δi = 0, es decir tomar la acción A1

donde λ0 y q se eligen para que α = α0 y (1 − β) sean máximos.


Hemos fijado λ = gi /fi , lo que significa que la hipótesis nula (acción A1 ) está en el denomina-
dor. Algunos estadísticos prefieren expresar el cociente de probabilidad como λ′ = fi /gi = 1/λ.
Es decir, la hipótesis nula se pone en el numerador. En este caso, el lema se convierte en:

Si λ′ = 1/λ > λ′0 = 1/λ0 hagamos δi = 1


Si λ′ = 1/λ = λ′0 = 1/λ0 hagamos δi = q
Si λ′ = 1/λ < λ′0 = 1/λ0 hagamos δi = 0

Utilizaremos principalmente λ = gi /fi , con la hipótesis nula en el denominador.


Hay un resultado técnico más que necesitamos para la discusión posterior. Dada la relación de
probabilidad λ = gi /fi , sabemos que los puntos de la muestra en S1 que satisfacen λ > λ0 son los
puntos que llevan a la conclusión de que la muestra procede de S2 .
Los puntos de la muestra en S1 que llevan a la conclusión de que la muestra procede de S2 son
los puntos de la región de rechazo (conjunto crítico), que hemos denotado por R.
Entonces la suma de las probabilidades de los puntos de muestra en R de S1 nos da la probabi-
lidad de rechazar H0 cuando en realidad es cierto. Es decir, es la probabilidad de cometer el error
de tipo I:
P (conjunto R|S1 ) = α

Ahora, el valor de λ varía con los puntos de la muestra y es una variable aleatoria, y los valores
de λ para los puntos de la muestra en R de S1 son tales que λ > λ0 .
Por lo tanto, podemos ver que la probabilidad de λ > λ0 es igual a la probabilidad de seleccionar
una muestra (punto de muestra) del conjunto R de S1 . Así pues,

P (λ > λ0 |S1 ) = P (conjunto R|S1 ) = α

y ésta es la probabilidad de cometer el error Tipo I.


Normalmente fijamos el nivel de significación en α0 ≦ 0.05. Por lo tanto, deseamos

P (λ > λ0 |S1 ) = α ≦ α0 = 0.05 (17.1)

Si podemos encontrar la distribución de λ, entonces podemos encontrar el valor de λ0 para que


(17.1) se cumpla. Suele ser difícil encontrar la distribución de λ. Pero, como explicaremos, se han
obtenido algunos resultados generales.
17.3. La Teoría de Neyman-Pearson 503

¿Hay alguna forma de evitar el difícil procedimiento de encontrar la distribución de λ? Resulta


que cuando encontramos la razón de verosimilitud A y calculamos

α = P (λ > λ0 )

esto se convierte en igual, cuando estamos interesados en las medias µ

P (X > K)

donde X es la media de la muestra y K es una constante. Cuando estamos interesados en las pro-
porciones π, se hace igual a
P (p > K)
donde p es la proporción de la muestra y K es una constante.
Por lo tanto, en lugar de λ, podemos utilizar X o p para definir la región de rechazo. Y como el
lector observará, esto es lo que hicimos en el Capítulo 9, Prueba de Hipótesis. Expliquemos esto con
un ejemplo.
Supongamos que la variable aleatoria Xi se distribuye normalmente con media µ y varianza
conocida σ 2 . Se selecciona una muestra aleatoria de tamaño n y deseamos probar las hipótesis nula
y alternativa simple:

H0 :µ = µ1
H1 :µ = µ2

donde supondremos que µ1 < µ2 .


Repasemos el procedimiento del Capítulo 9. Una regla de decisión se estableció como:

Si X ⩾ K se toma la acciónA1
Si X < K se toma la acciónA2

Entonces α ⩽ α0 , donde α0 es el nivel de significación elegido.


Lo mostramos en la Figura 17.19.

H0
α = P (A2 |H1 )

µ1 K X

H1
β = P (A1 |H2 )

K µ2 X

Figura 17.19
504 Teoría de la Decisión II

K se encontró de la siguiente manera:


K − µ1
Z=
σX
P (Z > ν) = 0.05

Cuando se da α = α0 = 0.05, podemos encontrar ν a partir de la tabla de áreas normales como


ν = 1.645. Por lo tanto, fijando
K − µ1
= 1.645
σX
ya que conocemos µ1 y σX , podemos despejar la K. Esto nos lleva a una regla de decisión

Si X ⩾ K se toma la acción A2
Si X < K se toma la acción A1

Entonces α ⩽ α0 = 0.05. β se encontró de la siguiente manera:



K − µ2

|Z | =
σX
β = P (|Z ′ | > K)

Vamos a mostrar cómo se puede resolver este problema utilizando el lema de Neyman - Pearson. La
razón de verosimilitud es
L(µ2 )
λ=
L(µ1 )
donde la función de verosimilitud es
 
2 −π/2 1 X
L(µ) = (2πσ ) exp − 2 (Xi − µ) 2

Por lo tanto,
 
1 X 1 X
λ = exp − 2 (Xi − µ2 ) + 2
2
(Xi − µ1 ) 2
2σ 2σ
 
1
= exp − 2 Y

donde hemos establecido
X X
Y = (Xi − µ2 )2 − (Xi − µ1 )2
= −2n(µ2 − µ1 )X + n(µ22 − µ21 )

Hemos supuesto que µ1 < µ2 . Por tanto, µ2 −µ1 > 0, y µ22 −µ21 es fijo. Por lo tanto, como X → +∞,
el claramente −2n(µ2 − µ1 )X → −∞. De la ecuación anterior, podemos ver que esto conduce a
Y → −∞.
Pero como Y → −∞  
1
λ = exp − 2 Y → +∞

Por lo tanto como X → +∞
L(µ2 )
λ= → +∞
L(µ1 )
17.3. La Teoría de Neyman-Pearson 505

y como hemos comentado esto nos lleva a tomar la acción A2 y aceptar la hipótesis alternativa H1 .
Nuestro razonamiento fue: Tenemos dos espacios muestrales n dimensionales correspondientes
a µ1 y µ2 como en la Figura 17.20. Sea λ > λ0 donde λ0 es un número grande, digamos λ0 = 20.
Entonces λ > λ0 = 20 ha dividido el espacio muestral en las regiones A y R donde la probabilidad
de los puntos de muestra en R de S2 es 20 veces mayor que la probabilidad de los puntos de muestra
en R de S1 .

R A2 R A2
A A
A1 A1

S1 , µ 1 S2 , µ 2

Figura 17.20

A medida que hagamos más grande λ0 , el número de puntos de muestra que satisfacen un λ0
tan grande disminuirá, y la región R (conjunto R) se hará más pequeña.
La suma de las probabilidades de los puntos en R de S1 es

α = P (conjunto R|S1 )
= P (A2 |µ1 )

Pero según los cálculos anteriores

α = P (conjuntoR|S1 )
= P (λ ⩾ λ0 )
= P (X ⩾ K)

donde P (X ⩾ K) está en términos de un espacio unidimensional dado por la distribución muestral


de X, que sabemos que es normal con media E(X) y varianza σ 2 /n. Este espacio unidimensional
se muestra en la Figura 17.19.
Por lo tanto, la prueba que utilizamos en el Capítulo 9 es la prueba de Neyman - Pearson.
Dado que ya estamos familiarizados con los procedimientos de cálculo para encontrar K que
se explican en el Capítulo 9, no necesitamos volver a explicarlos.
Sin embargo, ahora podemos decir que cuando utilizamos el procedimiento del Capítulo 9 para
hipótesis nulas simples y alternativas simples, y encontramos K, entonces el β que calculamos para
un α dado es el mínimo β. Es decir, el procedimiento de prueba del Capítulo 9 cuando se aplica a
hipótesis nulas simples y alternativas simples nos da la prueba más potente.
Para resumir:

H0 :µ = µ1
H1 :µ = µ2
506 Teoría de la Decisión II

Suponga que µ1 < µ2 . Entonces la regla de Neyman - Pearson conduce a una regla de decisión
de la forma
Si X ⩾ K toma la acciónA2
Si X < K toma la acciónA1

y ya conocemos del Capítulo 9 el procedimiento para calcular dicha regla de decisión. El lema
de Neyman - Pearson nos asegura que en este caso tenemos una prueba muy potente.

Ejemplo No. 4
Supongamos que µ1 > µ2 . Gráficamente tenemos

A2 A1

K µ1 X

µ2 K X

Figura 17.21

Matemáticamente, tenemos
Y = −2n(µ2 − µ1 )X + n(µ22 − µ21 )
Pero (µ2 − µ1 ) < 0. Entonces −2n(µ2 − µ1 ) es positivo. Por lo tanto, como X → +∞
Y → +∞
Pero como Y → +∞  
1
λ = exp − 2 Y →0

Entonces como X → +∞
λ→0
y esto lleva a tomar la acción A1 .
Por lo tanto, cuando µ1 > µ2 , la regla de decisión se convierte en
Si X ⩾ K se toma la acciónA1
Si X < K se toma la acciónA2
que es también lo que observamos que es la regla de la Figura 17.21.
El procedimiento para encontrar K se ha discutido en el Capítulo 9.
17.3. La Teoría de Neyman-Pearson 507

Ejemplo No. 5

Sea µ1 = 1, µ2 = 3, σ 2 = 4 y n = 16. Entonces

H0 :µ0 = 1
H1 :µ0 = 3

 
L(µ2 ) 1
λ= = exp − 2 Y
L(µ1 ) 2σ
 
1
= exp − Y
8

Y = −2n(µ2 − µ1 )X + n(µ22 − µ21 )


= −2 · 16 · (3 − 1)X + 16(9 − 1)
= −64X + 128

Por lo tanto
 
1
λ = exp − (−64X + 128)
8
= exp(8X − 16) > λ0
= 8X − 16 > ln(λ0 )
1
= X > 2 + ln(λ0 )
8
Ahora dejemos que
1
2+ ln(λ0 ) = K
8
Entonces
α = P (X > K)
Para encontrar K, tenemos de la Figura 17.21

K − µ1 K −1
=
σX 1
2
σ
donde σX = √ =. Fijemos α = 0.05. Entonces, a partir de la tabla de áreas normal, encontramos
n

K −1
= 1.645
1
2
K = 1.8225

Utilizando este valor de K,


1
2+ ln λ0 = 1.8225
8
ln λ0 = −1.42
508 Teoría de la Decisión II

A partir de una tabla de logaritmos naturales, encontramos

λ0 = 0.24

K = 1.8225 se ilustra en la Figura 17.21. Con esto podemos calcular β:

µ2 − K 3 − 1.8225
= = 2.36
σX 1
2
Por lo tanto, a partir de la tabla de áreas normales:

β = 0.0091

El lema de Neyman-Pearson nos asegura que esta β es mínima cuando α = 0.05. Por lo tanto, la
regla de decisión en términos de la razón de verosimilitud λ y λ0 es: Tomar una muestra de tamaño
n = 16.

Si λ ⩾ λ0 = 0.24 tomar la acción A2


Si λ < λ0 = 0.24 tomar la acción A1

Entonces, α = 0.05 y β = 0.0091, y el β es mínimo.


También podemos plantear la regla de decisión en términos de X y K como: Tomar una muestra
de tamaño n = 16.

Si X ⩾ 1.8225 tomar la acción A2


Si X < 1.8225 tomar la acción A1

Entonces α = 0.05 y β = 0.0091, y β es mínimo. Esta es la forma en que se obtuvieron las reglas
de decisión en el Capítulo 9.

Ejemplo No. 6
.

Sea µ1 = 1, µ2 = 2, σ 2 = 4, y n = 16. Podemos ver en la Figura 17.19 que cuando µ2 = 2, la


distribución de H1 está más a la izquierda y, por tanto, esperaríamos un β mayor. Calculemos β y
comprobemos esto. Procedemos como en el Ejemplo 5:
 
1
λ = exp − Y
8
Y = −2 · 16(2 − 1)X + 16(4 − 1)

También podría gustarte