Documentos de Académico
Documentos de Profesional
Documentos de Cultura
i
Índice general
Índice general ii
1 Introducción 1
1.1 Técnicas Estadísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Cuadros Estadísticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Presentación gráfica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2 Distribución de Frecuencias 5
2.1 El concepto de variable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 Distribución de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.3 Presentación gráfica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3.1 Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3.2 Polígono de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3.3 Curva de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.4 Distribución de frecuencias acumulativas . . . . . . . . . . . . . . . . . . . . . . . 18
Tabla de frecuencias acumulativas . . . . . . . . . . . . . . . . . . . . . . 18
Tabla de frecuencias acumuladas para datos agrupados . . . . . . . . . . . 21
Curva de frecuencias acumuladas . . . . . . . . . . . . . . . . . . . . . . 23
2.5 Frecuencias Relativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Tabla de frecuencias relativas . . . . . . . . . . . . . . . . . . . . . . . . . 25
3 Medidas de Posición 29
3.1 La media aritmética . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.1.1 Datos no agrupados caso no ponderado . . . . . . . . . . . . . . . . . . . 33
3.1.2 Caso ponderado de datos no agrupados . . . . . . . . . . . . . . . . . . . 33
3.1.3 Caso de datos agrupados . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.1.4 Método abreviado de cálculo . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2 La mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.3 La moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.4 La relación entre la media, la mediana y la moda . . . . . . . . . . . . . . . . . . . 46
3.5 La media geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.5.1 Definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.5.2 Aplicaciones: promediando las tasas de cambio y la fórmula del interés com-
puesto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.5.3 Descuento, capitalización . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
ii
Índice general iii
4 Medidas de Dispersión 53
4.1 El Rango . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.2 Desviaciones Medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.3 La Desviación Típica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.3.1 Desviación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.3.2 Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.3.3 La Desviación Típica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.3.4 Datos no agrupados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.3.5 Desplazamiento del origen . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.3.6 Datos agrupados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.3.7 Caso de datos agrupados - intervalo de clase desigual . . . . . . . . . . . . 62
4.3.8 Comentarios sobre la desviación estándar . . . . . . . . . . . . . . . . . . 63
4.3.9 Valor normalizado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.3.10 Distribución unitaria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.4 Dispersión relativa (coeficiente de variación) . . . . . . . . . . . . . . . . . . . . . 67
5 Teoría de la Probabilidad 69
5.1 Conjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.1.1 Un conjunto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.1.2 Operaciones con conjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . 71
5.2 Experimentos, eventos y espacio muestral . . . . . . . . . . . . . . . . . . . . . . 72
5.2.1 Experimentos y eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5.2.2 Espacio muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.3 El enfoque objetivo de la probabilidad . . . . . . . . . . . . . . . . . . . . . . . . 75
5.3.1 El principio de razón insuficiente . . . . . . . . . . . . . . . . . . . . . . . 75
5.3.2 El primer enfoque de la teoría de las frecuencias sobre la probabilidad . . . 76
5.3.3 El segundo enfoque de la teoría de la frecuencia para la probabilidad . . . 81
5.4 El enfoque subjetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
5.5 Axiomas de la teoría de la probabilidad . . . . . . . . . . . . . . . . . . . . . . . . 83
5.6 Probabilidades condicionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.7 Una regla para la multiplicación de probabilidades . . . . . . . . . . . . . . . . . . 92
5.8 Independencia estadística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
5.9 Expectativa matemática y variable aleatoria . . . . . . . . . . . . . . . . . . . . . . 98
5.10 Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
8 Estimación 155
8.1 Introducción - Estimación y estimadores . . . . . . . . . . . . . . . . . . . . . . . 155
8.2 Insesgacidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
8.3 Estimador consistente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
8.4 Eficiencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
8.4.1 Eficiencia relativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
8.4.2 Estimadores eficientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
8.5 Suficiencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
8.6 Método de máxima verosimilitud (MV) . . . . . . . . . . . . . . . . . . . . . . . 162
8.7 La relación entre el error, el riesgo y el tamaño de la muestra . . . . . . . . . . . . 165
8.7.1 La relación entre el error y el riesgo . . . . . . . . . . . . . . . . . . . . . . 165
8.7.2 La relación entre el riesgo y el tamaño de la muestra . . . . . . . . . . . . . 167
8.7.3 La relación entre el error y el tamaño de la muestra . . . . . . . . . . . . . 169
8.7.4 La relación entre el error, el riesgo y el tamaño de la muestra para las pro-
porciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
8.8 Estimación por intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
8.8.1 Intervalo de confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
8.8.2 Encontrar el tamaño de la muestra para un intervalo de confianza . . . . . 177
8.9 Apéndice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
Índice de figuras
viii
Índice de figuras ix
5.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
5.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
5.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
5.8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
5.9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
6.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
6.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
6.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
6.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
6.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
6.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
6.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
6.8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
6.9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
6.10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
6.11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
7.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
7.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
7.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
7.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
7.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
7.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
7.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
7.8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
7.9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
7.10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
7.11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
7.12 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
7.13 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
7.14 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
8.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
8.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
8.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
8.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
x Índice de figuras
8.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
8.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
8.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
8.8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
8.9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
8.10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
8.11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
9.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
9.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
9.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
9.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
9.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
9.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
9.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
9.8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
9.9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
9.10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
9.11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
9.12 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
9.13 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199
9.14 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201
9.15 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
9.16 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
9.17 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
9.18 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
9.19 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
9.20 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
9.21 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
9.22 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
9.23 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
9.24 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
9.25 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
9.26 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216
9.27 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217
9.28 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218
9.29 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218
9.30 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219
9.31 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221
9.32 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
9.33 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
9.34 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225
9.35 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
9.36 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
9.37 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228
10.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
10.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
10.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231
12.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281
Índice de figuras xi
12.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283
12.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285
12.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285
12.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287
12.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 289
12.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293
13.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 296
13.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 296
13.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298
13.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299
13.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 306
14.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311
14.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 318
14.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321
14.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 325
14.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 327
14.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 330
14.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 330
14.8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333
14.9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335
14.10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 337
14.11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344
14.12 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351
14.13 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355
14.14 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 356
14.15 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 358
14.16 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361
15.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364
15.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365
15.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 367
15.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371
15.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371
15.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 372
15.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 375
15.8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 376
15.9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 386
15.10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 387
15.11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 390
15.12 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 391
15.13 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 399
15.14 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 399
15.15 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 401
15.16 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 404
15.17 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 407
15.18 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 408
16.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 417
16.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 418
xii Índice de figuras
16.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 419
16.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 420
16.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 421
16.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 422
16.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423
16.8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423
16.9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424
16.10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425
16.11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 427
16.12 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 427
16.13 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 428
16.14 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 429
16.15 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 431
16.16 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 432
16.17 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433
16.18 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433
16.19 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434
16.20 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 435
16.21 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 436
16.22 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 437
16.23 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 438
16.24 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 439
16.25 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 440
16.26 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 441
16.27 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444
16.28 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 445
16.29 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 446
16.30 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 450
16.31 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 451
16.32 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 452
16.33 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453
16.34 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455
16.35 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 461
16.36 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464
16.37 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 467
17.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 470
17.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 471
17.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 473
17.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475
17.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 477
17.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 477
17.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 478
17.8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 479
17.9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 480
17.10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 482
17.11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 486
17.12 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 486
17.13 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 488
17.14 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 489
17.15 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 494
17.16 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 494
17.17 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 495
17.18 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 496
17.19 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 503
17.20 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 505
17.21 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 506
Índice de cuadros
2.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2 Hoja de cálculo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.4 Distribución de las unidades de consumo por tramos de ingreso . . . . . . . . . . . . 11
2.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.7 Cuadro Frecuencia Acumulada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.8 Cuadro Frecuencia Desacumulada . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.9 Cuadro Distribución de Frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.10 Cuadro Distribución de Frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.11 Cuadro Distribución de Frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.12 Cuadro Distribución de Frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.13 Cuadro Distribución de Frecuencias Acumuladas . . . . . . . . . . . . . . . . . . . . 25
2.14 Cuadro Frecuencias Relativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.15 Cuadro Frecuencias Relativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
xiii
xiv Índice de cuadros
5.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
5.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
5.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
5.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
5.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
5.8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
5.9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
5.10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
5.11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
6.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
6.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
6.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
7.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
7.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
7.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
7.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
7.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
7.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
7.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
7.8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
7.9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
8.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
9.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
9.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
9.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
9.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
9.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
9.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
9.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
9.8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202
9.9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
9.10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
9.11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212
9.12 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
9.13 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
9.14 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
9.15 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217
9.16 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219
9.17 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221
9.18 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
9.19 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224
9.20 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225
9.21 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225
9.22 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228
Índice de cuadros xv
10.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231
10.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235
10.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235
10.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236
14.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310
14.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 320
14.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 320
14.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321
14.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 325
14.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 326
15.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365
15.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 366
15.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 366
15.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 370
15.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 370
15.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374
15.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 406
16.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 460
16.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 461
16.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 462
16.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463
16.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463
16.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463
16.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464
16.8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464
16.9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465
16.10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 468
16.11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 468
17.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 470
17.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 472
17.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 473
17.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 476
17.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 478
17.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 489
17.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 490
17.8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 491
xvi Índice de cuadros
17.9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 492
17.10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 501
CAPÍTULO 1
Introducción
Para la descripción se pueden utilizar técnicas como los gráficos, las tablas, las distribuciones de
frecuencia y las medias, que tienen mucha utilidad práctica. Sin embargo, la utilidad más importante
de la estadística es el análisis de datos numéricos mediante técnicas estadísticas.
1
2 Introducción
En los siguientes cientos de páginas se presentarán diversas técnicas estadísticas, pero para la
mayoría de los estudiantes las primeras páginas relativas a las tablas estadísticas pueden resultar el
tema más utilizado desde un punto de vista práctico. Ya sea en los negocios, en la administración
pública o en el trabajo escolar, a menudo hay que presentar los resultados de informes o investiga-
ciones. Uno de los problemas a los que se enfrenta el informador es: ¿cómo presentar los resultados
de la forma más eficaz?
Se han ideado ciertas formas estándar de presentación, que pueden clasificarse a grandes rasgos
como forma tabular y presentación gráfica. Empecemos por la forma tabular.
La forma tabular es una tabla que consta de los siguientes componentes: el título, el encabezado,
el cuerpo y la fuente. El Cuadro 1.1 es un ejemplo de la forma más sencilla de este tipo de tabla y se
denomina tabla de clasificación de una vía.
1.2. Cuadros Estadísticos 3
Año Cantidad
1790 3,929,214
1890 62,947,714
1920 105,710,620
1940 131,669,275
1960 178,464,236
Resumen estadístico de EEUU, 1961. Departamento de Comercio, p. 5
Pueden obtenerse tablas de dos, tres y más órdenes de clasificación subdividiendo el cuerpo y el
encabezado. El Cuadro 1.2 es un cuadro de clasificación de dos vías y el Cuadro 1.3 es un cuadro de
clasificación de tres vías.
Cuadro 1.2: Vehículos de Motor, resumen de Artículos Seleccionados (en miles de unidades)
Cuadro 1.3: Vehículos de Motor, resumen de Artículos Seleccionados (en miles de unidades)
Otro método de presentación de datos es el uso de gráficos. Los principales gráficos (o tablas)
son: el diagrama de líneas aritméticas, los gráficos de barras, los pictogramas, los diagramas de pastel
y los mapas estadísticos. Varios textos de estadística1 dedican un amplio espacio a la explicación
detallada de estos gráficos, y el estudiante que esté interesado se remite a las referencias indicadas
en la nota a pie de página.
1
F. E. Croxton y D. J. Cowden, Practical Business Statistics, 3ª ed., Prentice-Hall, 1960. W. A. Spurr. L. S. Kellog, y J. H.
Smith, Business and Economic Statistics, rev. ed., Richard D. Irwin. 1961. F. E. Croxton y D. J. Cowden, Applied General
Statistics, 2ª ed. Prentice-Hall, 1955.
CAPÍTULO 2
Distribución de Frecuencias
Supongamos que le hacen la pregunta ¿Qué tal les fue a los estudiantes en su examen de econo-
mía? Una respuesta común podría ser: La media de la clase es de 75 puntos. Este único número, 75
puntos, ha descrito las calificaciones de la clase y es una de las varias formas disponibles de hacerlo.
Lo que nos proponemos hacer en este capítulo y en el siguiente es mostrar cómo los datos pueden
organizarse de varias maneras para describir y proporcionar información útil sobre situaciones co-
mo la ilustrada en el ejemplo anterior. El primer concepto que hay que definir para nuestra discusión
es el de variable.
x+2>5
Los valores de x que satisfacen esta desigualdad son (suponiendo que x es un número entero)
4, 5, 6, ... Esta x, que es una entidad que varía, se llama variable. Los valores 4, 5, 6, ... son los valores
específicos que puede tomar la variable x. Así, por ejemplo, la velocidad es una variable asociada a
los coches que circulan por una autopista, y la velocidad de cada coche es un valor que toma esta
variable. El peso, la altura y las notas son algunas variables asociadas a los estudiantes.
Observemos la variable “calificaciones” y denotémosla con una X mayúscula. Cuando hay 5
alumnos y sus calificaciones son 75, 63, 82, 90 y 88, podemos decir que la variable X (calificaciones)
tiene 5 valores. Indiquemos los valores con letras minúsculas x: x1 para el primer valor 75, x2 para
el segundo valor 63, y así sucesivamente.
X: x1 = 75 x2 = 63 x3 = 82 x4 = 90 x5 = 88
La pregunta “¿Qué tal les fue a los alumnos?” puede responderse ahora describiendo y proporcio-
nando información sobre la variable X, y para ello investigamos los distintos valores (es decir, las
calificaciones individuales) de X. Queremos mostrar cómo estos distintos valores de X pueden
organizarse y analizarse para proporcionarnos información sobre X, lo que a su vez nos dará infor-
mación sobre los alumnos. Antes de considerar este problema, vamos a discutir dos características
5
6 Distribución de Frecuencias
de una variable. La primera es la diferencia entre los valores posibles y el valor realmente observado
de X. La segunda es la diferencia entre variables discretas y continuas. Los valores posibles de X
son todos los valores que puede tomar X. Los valores realmente observados de X son los valores
posibles de X que se han observado realmente. Ilustrémoslo.
Ejemplo 1. Si las calificaciones del examen son de 0 a 100 y sólo en números enteros, X (la va-
riable “calificaciones”) puede tomar los 101 valores: 0, 1, 2, ..., 99, 100. Estos son los posibles valores
que puede tomar la variable X. Los 5 valores de X que hemos observado son 75, 63, 82, 90 y 88.
Estos son los valores realmente observados de X.
Ejemplo 2. Sea X el número que se produce al lanzar un dado. Hay 6 valores posibles que puede
tomar X. Sea que obtenemos un 3 en el primer lanzamiento del dado. Este 3 es un valor realmen-
te observado. Supongamos que se lanza el dado 24 veces y el resultado es el que se muestra en la
siguiente tabla:
x Frecuencia
1 3
2 5
3 4
4 4
5 3
6 5
24
X Número de Ocurrencias
1 3
0 2
5
han gobernado todo el desarrollo de las matemáticas. A grandes rasgos, se trata de lo discreto y lo
continuo.
La discreta lucha por describir toda la naturaleza y todas las matemáticas de forma atómica, en
términos de elementos individuales distintos y reconocibles, como los ladrillos de una pared, o los
números 1, 2, 3, ... El continuo trata de comprender los fenómenos naturales, el curso de un planeta
en su órbita, el flujo de una corriente eléctrica, la subida y bajada de las mareas y una multitud de
otras apariencias que nos engañan haciéndonos creer que conocemos la naturaleza, en la fórmula
mística de Heráclito: “Todas las cosas fluyen”. Hoy (como se verá en el capítulo final), “fluir”, o su
equivalente “continuidad”, es tan poco claro que casi carece de significado. Sin embargo, dejemos
que esto pase por el momento.
Intuitivamente sentimos que sabemos lo que significa el “movimiento continuo”, como el de un
pájaro o una bala en el aire, o la caída de una gota de lluvia. El movimiento es suave, no se produce
con sacudidas, es ininterrumpido. En la moción continua o, más generalmente, en el concepto mis-
mo de continuidad, los números individualizados 1, 2, 3, ... no son la imagen matemática adecuada.
Todos los puntos de un segmento de una línea recta, por ejemplo, no tienen individualidades tan
claras como los números de la secuencia 1, 2, 3, ... , donde el paso de un miembro de la secuencia al
siguiente es el mismo (a saber, 1 : 1 + 2 = 3, 1 + 3 = 4, y así sucesivamente); pues entre dos puntos
cualesquiera de un segmento de línea, por muy cercanos que estén los puntos, siempre podemos
encontrar, o al menos imaginar, otro punto: no hay un paso “más corto” de un punto al “siguiente”.
De hecho, no hay ningún punto siguiente.
La continuidad, la “no proximidad”, cuando se desarrolla a la manera de Newton, Leibniz y sus
sucesores, conduce al dominio ilimitado del cálculo y sus innumerables aplicaciones a la ciencia y
la tecnología, y a todo lo que hoy se llama análisis matemático. El otro, el patrón discreto basado
en 1, 2, 3, ... es el dominio del álgebra, la teoría de los números y la lógica simbólica. La geometría
participa tanto de lo continuo como de lo discreto.
Una de las principales tareas de la matemática actual es armonizar lo continuo y lo discreto,
incluirlos en una matemática integral y eliminar la oscuridad de ambos.1
Una definición rigurosa de la continuidad está más allá del nivel matemático de este libro. La
definiremos de forma no rigurosa como sigue: Una variable continua es una variable cuyos valores
posibles no tienen ruptura. Por ejemplo, sea X el peso de los niños de una determinada clase. Su-
pongamos que el niño más ligero pesa 80 libras y el más pesado 150 libras. ¿Cuántos valores posibles
de X hay entre 80 libras y 150 libras? Se puede ver intuitivamente que cuando se toman dos valores
posibles cualesquiera, por muy cercanos que sean (digamos, 115.998 lb. y 115.999 lb.), siempre ha-
brá un valor posible entre los dos. Expresaremos esto diciendo que “no hay ruptura” en los valores
de X y definiremos tal variable como una variable continua. En este caso, como puede verse, hay
un número infinito de valores posibles entre 80 lb. y 150 lb. Además, existe un número infinito de
valores posibles entre dos pesos cualesquiera, por muy próximos que estén.
Una variable discreta es una variable cuyos valores tienen rupturas o saltos. Por ejemplo, sea
X el número de vacas en las granjas de una determinada región. Los posibles valores de X son
0, 1, 2, ..., 1000, ... Hay un salto o ruptura entre, por ejemplo, 15 y 16. La variable X (el número de
vacas) no tiene un valor como 15.087.
Para otro ejemplo, considere que X es la cantidad de dinero que tiene un estudiante en su bol-
sillo. Los posibles valores de X son 0, 5, 10, 25, 50, ..., 1000, 2000, ... Hay una ruptura entre las mo-
nedas de 10 y 25 colones. Es decir, no hay ningún moneda entre 10 y 25 que tome X. La variable
1
E. T. Bell, Men of Mathematics, Nueva York: Simon and Schuster, Inc., 1937 (impresión en rústica, 1961), pp. 13-14.
Con permiso del autor y los editores.
8 Distribución de Frecuencias
Supongamos que 50 estudiantes han realizado un examen de economía. La nota del examen es
la variable X. Supongamos que las 50 calificaciones individuales (los valores) de esta variable X son
las que figuran en el Cuadro 2.1.
60 33 85 52 65 77 84 65 57 74
71 81 35 50 35 64 74 47 68 54
80 41 61 91 55 73 59 53 45 77
41 78 55 48 69 85 67 39 76 60
94 66 98 66 73 42 65 94 89 88
Cuadro 2.1
Clase Frecuencia
30-39 4
40-49 6
50-59 8
60-69 12
70-79 9
80-89 7
90-99 4
Cuadro 2.3
Las agrupaciones de 30-39, 40-49, 50-59,... se denominan intervalos de clase. Los valores iniciales
30, 40, 50,... se denominan límites inferiores, y los valores finales 39, 49, 59,... límites superiores de los
intervalos de clase. Hay que tener en cuenta los siguientes puntos sobre los intervalos de clase.
1. Cuando una tabla de frecuencias tiene demasiados intervalos de clase, aunque nos da más
información sobre los datos que una con menos, se desvirtúa el propósito de la simplificación.
En general, es conveniente tener unos 7-15 intervalos. No hay una regla fija, y probablemente
lo mejor sea ejercer el propio juicio. En algunos casos puede ser aconsejable tener hasta 20
intervalos de clase.
2. No es necesario que los intervalos de clase sean iguales. Tampoco en este caso existe una regla
fija, y hay que usar el juicio en relación con lo que se desea describir. A modo de ejemplo,
consideremos una tabla de frecuencias de la distribución de los ingresos (Cuadro 2.4) elabo-
rada por el Departamento de Comercio de EE.UU. Sabemos que la mayoría de las personas
ganan aproximadamente 6.000 dólares, y muy pocas ganan más de 25.000 dólares. Por otro
lado, sabemos que algunas familias ganan hasta 1.000.000 de dólares. Si intentamos mante-
ner los intervalos de clase iguales a 1.000 dólares y consideramos los tramos de ingresos hasta
1.000.000 de dólares, obtendremos una tabla de frecuencias con 1.000 intervalos de clase. A
menos que haya un interés especial y específico en el número y el nivel de las familias con
ingresos elevados, una distribución de frecuencias de este tipo suele ser muy engorrosa para
describir la distribución de los ingresos. El sentido común indicaría que la presentación del
Cuadro 2.4, utilizando intervalos de clase desiguales, es probablemente suficiente para des-
cribir la distribución de los ingresos.
Obsérvese también que en nuestro ejemplo de las notas (Cuadro 2.2), el último intervalo es
90-99 en lugar de 90-100. Como no había nadie con una calificación de 100, el intervalo se
estableció como 90-99 para mantenerlo igual con los otros intervalos. Sin embargo, si lo desea-
10 Distribución de Frecuencias
mos, podemos dejar que el último intervalo sea 90-100. El Cuadro 4.5 del capítulo 4 permite
que el último intervalo sea 90-100. O, como alternativa, podemos dejar que los dos últimos
intervalos sean
f
90-99 4
100 0
3. La variable X del Cuadro 2.4 es la renta personal familiar y es una variable discreta. Los valores
realmente observados de una variable discreta se denominan datos discretos.
Cuando los datos son discretos, los intervalos de clase se muestran como en el Cuadro 2.4.
Por ejemplo
$1000 – $1999
$2000 – $2999
$1000.00 – $1999.00
$2000.00 – $2999.00?
Esto se debe a que la variable X (ingresos personales de las familias) se ha definido en unidades
de dólares. Además, una cantidad inferior a 1,00 dólares es muy pequeña en comparación con,
por ejemplo, $2000, e ignorar una cantidad inferior a 1,00 dólares tiene, a efectos prácticos,
poco o ningún efecto en el uso de la tabla; también tiene el mérito de simplificar el uso de la
tabla.
La expresión de los intervalos de clase cuando los datos son discretos no es un problema
porque hay una ruptura definida en los valores de la variable. Sin embargo, cuando los datos
son continuos, no hay ruptura y, por lo tanto, es necesario crear una ruptura que recuerde al
usuario de la tabla que los datos son continuos. Si X es el peso de los niños, suponga, por
ejemplo, dos intervalos de clase
70 lb. – 79.99
80 lb. – 89.99
El 79,99... muestra que los 9 continúan indefinidamente. En la mayoría de los casos, esto se
abrevia como
70 lb. – 79.99 lb
70 lb.– 80 lb.
80 lb.– 90 lb.
entendiendo que, cuando se escribe de esta manera, representa datos continuos. También de-
bemos asumir que todos los valores de X desde 70 lb. hasta (pero excluyendo) 80 lb. están en
el intervalo de clase 70 – 80 lb., y todos los valores de X desde 80 lb. hasta (pero excluyendo)
90 lb. están en el intervalo de clase 80 – 90 lb.
2.3. Presentación gráfica 11
4. El punto medio de un intervalo de clase se obtiene sumando los límites de clase inferior y
superior y dividiendo por 2. Por ejemplo, el punto medio del intervalo de clase discreto 30-39
es
30 + 39
= 34.5
2
Nótese que el punto medio tiene un decimal, aunque los datos (calificaciones) estén en nú-
meros enteros, y que es un valor teórico que representa los valores del intervalo de clase. Para
el intervalo de clase continuo 30-40, el punto medio es
30 + 40
= 35
2
5. El término intervalo de clase también se utiliza para indicar el número de unidades entre dos
límites de clase. En nuestro caso discreto de calificaciones, 30-39 tendrá un intervalo de clase
de 10 puntos. Nótese que no son 9 puntos porque 30 se incluye como nota.
El intervalo de clase continuo 30-40 (como el peso) tendrá un intervalo de clase de 40 − 30 =
10 (por ejemplo, 10 lb.).
La tabla de frecuencias muestra la distribución de las frecuencias de los valores de la variable
X entre varias clases. Esta distribución se denomina distribución de frecuencias de la variable
X. El Cuadro 2.3 muestra la distribución de frecuencias de las calificaciones de 50 estudian-
tes, y el Cuadro 2.4 muestra la distribución de frecuencias de las unidades de consumo por
intervalos de ingresos. El término distribución de frecuencias suele abreviarse simplemente
como distribución. Así, por ejemplo, decimos “la distribución de las notas” o la “distribución
de las unidades de consumo por tramos de renta”.
En muchos casos, una presentación gráfica de una tabla de frecuencias ofrece una información
más concisa y clara sobre una distribución de frecuencias. Existen tres tipos de presentación gráfica:
12 Distribución de Frecuencias
2.3.1 Histograma
Utilizando el Cuadro 2.3, la tabla de frecuencias, dibujemos un histograma (Figura 2.1). Lo pri-
mero que tenemos que hacer es introducir la escala de la variable X (es decir, las notas) en el eje
horizontal. Dado que los datos son discretos, existe una brecha entre el intervalo de clases 20 − 29
y 30 − 39. En tal caso, el punto de división entre los dos intervalos será (29 + 30) ÷ 2 = 29.5, y de
forma similar para los demás puntos de división. De este modo, se evitan los huecos entre las barras.
Observe también que se han omitido los puntos de división de 0 − 29.5. No es necesario tener esos
puntos divisorios a los que no les corresponden frecuencias (como 9.5, 19.5), pero el origen 0 debe
indicarse en la escala del eje vertical.
Lo segundo que hay que hacer es trazar las barras de forma que sus alturas correspondan a las
frecuencias de las clases que representan. La primera barra tiene una altura de 4, que corresponde a
la frecuencia 4 del primer intervalo de clase, y lo mismo para las demás barras. Cuando los intervalos
de clase son desiguales, es necesario ajustar la altura de las barras. Esto se explica más adelante.
Una forma alternativa de dibujar el histograma es la siguiente: En primer lugar, encuentre los
puntos medios de los intervalos de clase. En nuestro caso son
30 + 39
= 34.5
2
44.5, 54.5, ..., 94.5. En segundo lugar, trace una línea vertical (líneas discontinuas de la Figu-
ra 2.2) en estos puntos, con alturas que correspondan a las frecuencias de las clases. En tercer lugar,
tome la mitad de la longitud del intervalo de clases a ambos lados de estas barras verticales y dibu-
je el histograma. El proceso de construcción se muestra en la Figura 2.2. Se puede observar en el
gráfico que, como la mitad de la longitud de un intervalo es
10 ÷ 2 = 5
2.3. Presentación gráfica 13
la barra construida alrededor de la barra vertical en 34.5 va de 29.5(= 34.5 − 5) a 39.5(= 34.5 + 5)
y es la misma que la obtenida en la Figura 2.1, y de forma similar para las demás barras.
La altura de una barra muestra la densidad de la frecuencia por intervalo de clase. Los alumnos
probablemente estén familiarizados con el concepto de densidad en las discusiones sobre población.
La densidad de población de la India es alta (320 personas por milla cuadrada), y la de Estados
Unidos es baja (49 personas por milla cuadrada). El punto a tener en cuenta es que el concepto de
densidad es por unidad, como “por milla cuadrada”.
En nuestro caso, la unidad estándar es el intervalo de clase y la altura de una barra muestra la
frecuencia por intervalo. Este concepto de frecuencia por intervalo se denomina densidad de fre-
cuencias.
En la Figura 2.1 la primera barra tiene una altura de 4, y esto muestra que la densidad de fre-
cuencias para el intervalo de clase 30 − 39 es 4; es decir, hay 4 valores realmente observados de la
variable X en el intervalo 30 − 39. Por lo tanto, cuando la altura de la barra es 4, debe interpretarse
como
4f /int
Pero multiplicar la altura de una barra por su base (es decir, el intervalo) es hallar el área de una
barra. Por tanto, podemos concluir que el área de una barra muestra la frecuencia en ese intervalo.
En nuestro caso, los intervalos son todos de la misma longitud. Así, la densidad de frecuencia
4f /int, y la frecuencia en el intervalo, es decir, la frecuencia 4, tienen el mismo valor 4 cuando se
prescinde de las unidades.
14 Distribución de Frecuencias
Esta distinción entre la altura de una barra, que muestra la densidad de frecuencias, y el área
de una barra, que muestra la frecuencia, adquiere importancia cuándo tenemos intervalos de clase
desiguales. La explicación es que cuando tenemos intervalos de clase desiguales, como los de la tabla
adjunta, vemos que el intervalo 40 − 59 es el doble que el de 30 − 39.
El área bajo la barra en el intervalo de clase 40 − 59 es, ya que 40 − 59 son 2 intervalos estándar
Cuando se unen los puntos medios de los intervalos de clase, se obtiene un polígono de frecuen-
cias como el de la Figura 2.4. Por ejemplo, el punto medio del intervalo de clase 40 − 49 es
2.3. Presentación gráfica 15
Esto es coherente con la forma en que se ha dibujado el histograma. Es decir, el punto medio
entre las dos líneas verticales de 39.5 y 49.5 es también
Obsérvese que se ha trazado una línea recta para conectar los puntos medios del intervalo de clase
30 − 39 y 20 − 29, aunque no hay frecuencias en el intervalo de clase 20 − 29, y lo mismo para el
último intervalo. Si hubiera un intervalo de clase intermedio (por ejemplo, 60 − 69) que no tuviera
frecuencias, se trataría de la misma manera.
Observe también que el área bajo el polígono de frecuencias es igual al área bajo el histograma
de la Figura 2.4.
Clase Frecuencia
30 - 39 7
40 - 49 7
50 - 59 7
60 - 69 7
70 - 79 7
80 - 89 7
90 - 99 7
49
Cuadro 2.5
por ejemplo, tienen una distribución normal. Es la distribución principal que utilizaremos en la
discusión posterior.
Distribución sesgada. Si las calificaciones no se distribuyen simétricamente en torno a la media,
decimos que la distribución es sesgada. El Cuadro 2.6 muestra una distribución sesgada.
Clase Frecuencia
30 - 39 1
40 - 49 3
50 - 59 6
60 - 69 10
70 - 79 12
80 - 89 15
90 - 99 3
50
Cuadro 2.6
2.3. Presentación gráfica 17
Cuando la inclinación tiene una cola larga hacia la izquierda, como en la Figura 2.7, se dice que
está inclinada hacia la izquierda (negativamente). Cuando la cola larga está a la derecha, está sesgada
a la derecha (positivamente).
La distribución de os ingresos que se muestra en el Cuadro 2.4 está sesgada hacia la derecha.
Es decir, la mayoría tiene ingresos en torno a los 3 000 − 45 000 dólares, y luego la distribución se
reduce gradualmente a medida que los ingresos son más altos. Otros ejemplos son: El número de
granjas por tamaño en Estados Unidos (sesgado a la derecha); el número de tiendas minoristas por
volumen de ventas en Estados Unidos (sesgado a la derecha); y la distribución de las calificaciones
en una facultad de derecho (normalmente sesgada a la izquierda).
Distribución bimodal. Una distribución de frecuencias con dos picos (modas), como en la Figu-
ra 2.8, se denomina distribución bimodal; una distribución con tres picos se denomina distribución
trimodal, y así sucesivamente.
18 Distribución de Frecuencias
La distribución de las calificaciones en una clase de matemáticas de primer año que está formada
por un grupo de buenos y otro de malos alumnos muestra a veces una distribución bimodal.
Supongamos que se plantean las siguientes preguntas ¿Cuántos alumnos volvieron a recibir una
calificación superior a 60, o cuántos alumnos recibieron una calificación inferior a 40? Este tipo de
preguntas, en las que se desea conocer la frecuencia por encima o por debajo de un determinado
valor de una variable X, se producen con frecuencia. Por ejemplo, se puede desear saber cuántos
vendedores pudieron vender más de una determinada cantidad; o, de las numerosas secciones de
unos grandes almacenes, cuántas secciones tuvieron un importe de ventas menor a una determinada
cantidad; o, cuántas radios de un envío tenían más de cinco defectos.
Para responder a este problema, organizaremos los datos en una tabla de frecuencias acumuladas
y en una curva de frecuencias acumuladas. Vamos a ilustrar este proceso con un ejemplo sencillo.
(a) (b)
X f X f Acumulada
0 puntos 0 Menos de 0 0
1 puntos 1 Menos de 1 1
2 puntos 3 Menos de 2 4
3 puntos 0 Menos de 3 4
4 puntos 0 Menos de 4 4
5 puntos 0 Menos de 5 4
6 puntos 3 Menos de 6 7
7 puntos 2 Menos de 7 9
8 puntos 0 Menos de 8 9
9 puntos 1 Menos de 9 10
10 puntos 0 Menos de 10 10
10
En lugar de acumular las frecuencias, podemos desacumular las frecuencias y construir una
tabla de frecuencias desacumuladas como se muestra en el Cuadro 2.8(a) y (b). Por ejemplo, el 9 en
la columna desacumulada que corresponde a 1 punto significa que hay 9 alumnos que tienen una
calificación superior a 1 punto.
(a) (b)
X f X f Desacumulada
0 puntos 0 Mas de 0 10
1 puntos 1 Mas de 1 9
2 puntos 3 Mas de 2 6
3 puntos 0 Mas de 3 6
4 puntos 0 Mas de 4 6
5 puntos 0 Mas de 5 6
6 puntos 3 Mas de 6 3
7 puntos 2 Mas de 7 1
8 puntos 0 Mas de 8 1
9 puntos 1 Mas de 9 0
10 puntos 0 Mas de 10 0
Tenga en cuenta que hemos utilizado el término “mas de”. Lo hacemos porque en la tabla de
frecuencias acumuladas hemos utilizado el término “menos de”.
Combinemos ahora los Cuadro 2.7 y Cuadro 2.8 como Cuadro 2.9. Hemos etiquetado las co-
lumnas acumulativas y desacumulativas como “Menos de” y “Mas de”, respectivamente. Obsérvese
que la suma de las frecuencias de las columnas “menos de ” y “mas de” siempre suma 10, el número
total de alumnos.
Dibujemos ahora un gráfico de barras del Cuadro 2.7, como se muestra en la Figura 2.9. Las
barras verticales muestran las densidades de frecuencia correspondientes a las respectivas califica-
ciones. Observe que los intervalos son puntos en este caso, y las barras verticales son ahora líneas
verticales.
20 Distribución de Frecuencias
Nuestra siguiente tarea es dibujar una curva de frecuencia acumulada, utilizando la columna
”menos de” de la tabla de frecuencias. Esto se muestra en la Figura 2.10, y la curva mostrada por la
línea gruesa es la “curva de frecuencia acumulada ’Menos de”’. La altura de la curva sobre una califi-
cación determinada muestra el número de estudiantes que tienen calificaciones iguales o inferiores
a esa nota. Por ejemplo, la altura de la curva sobre la nota 6 puntos, es 7. Esto significa que hay 7
alumnos con notas iguales o inferiores a 6 puntos.
La forma de la curva de frecuencias acumuladas muestra la distribución de las frecuencias. Por
ejemplo, las frecuencias de las calificaciones del Cuadro 2.10 están distribuidas uniformemente. La
curva de frecuencias acumuladas ”Menos de” se muestra en la Figura 2.11 y, como puede verse, la
curva asciende uniformemente, paso a paso.
Las calificaciones del Cuadro 2.11 son en su mayoría altas. La Figura 2.12 es la curva de frecuen-
cia acumulada “menos de” correspondiente. y, como puede verse, la curva asciende bruscamente
cerca del extremo superior del eje X.
2.4. Distribución de frecuencias acumulativas 21
Las calificaciones del Cuadro 2.12 son en su mayoría bajas. La Figura 2.13 es la curva de frecuen-
cia acumulada “menos de” correspondiente, y como puede verse. la curva asciende bruscamente
cerca del extremo superior del eje X.
Resumamos nuestros resultados como sigue. La Figura 2.14(a) es una curva acumulativa, que
muestra que las frecuencias de los valores realmente obtenidos se distribuyen uniformemente en el
rango de valores posibles de la variable X. En la Figura 2.14(b) las frecuencias se concentran cerca
del extremo superior de los valores posibles de X, y en la Figura 2.14(c) se concentran cerca del
extremo inferior de los valores posibles de X.
X f “menos de”
0 puntos 0 0
1 1 1
2 1 2
3 1 3
4 1 4
5 1 5
6 1 6
7 1 7
8 1 8
9 1 9
10 1 10
10
Utilizando el Cuadro 2.3, podemos construir una tabla de frecuencias acumulativas para datos
agrupados, como se muestra en el Cuadro 2.13.
22 Distribución de Frecuencias
X f “menos de”
0 puntos 0 0
1 0 0
2 0 0
3 0 0
4 0 0
5 0 0
6 0 0
7 4 4
8 4 8
9 2 10
10
Primero hay que decidir si se utilizan los límites inferiores o superiores de los intervalos de clase
como criterio de división. Utilicemos los límites superiores de las clases. Entonces, por ejemplo,
“menos de 39 puntos” significará el número de alumnos que tienen notas hasta 39 puntos inclusive.
En nuestro caso, el número de estos alumnos es 4. El número de alumnos que tienen “menos de 49
puntos” es 10, y así sucesivamente.
“Más de 39 puntos” significa el número de alumnos que tienen más de 39 puntos y excluye a
los alumnos que tienen 39 puntos (es decir, el número de alumnos que tienen 40 puntos o más). En
nuestro caso son 46 alumnos. El número de alumnos que tienen “más de 49 puntos” es de 40, y así
sucesivamente.
Obsérvese que las frecuencias correspondientes en las columnas “menos de” y “mas de” suman
50.
2.4. Distribución de frecuencias acumulativas 23
X f “menos de”
0 puntos 4 4
1 4 8
2 2 10
3 0 10
4 0 10
5 0 10
6 0 10
7 0 10
8 0 10
9 0 10
10
Grafiquemos ahora la tabla de frecuencias acumuladas. Hacemos que el eje vertical muestre las
frecuencias acumuladas y que el eje horizontal muestre las calificaciones. Entonces podemos trazar
las curvas “menos de” y “mas de” como se muestra en la Figura 2.15.
Para graficar la curva de frecuencias acumuladas “menos de”, primero trazamos los puntos
29.5, 39.5, ..., 89.5 y 99.5, que eran los puntos de división de las barras en el histograma (Figura 2.1).
Según el Cuadro 2.13, no hay alumnos con notas menores o iguales a 29, por lo que trazamos un
punto a la altura 0 sobre 29.5. A continuación, hay 4 estudiantes con calificaciones menores o iguales
a 39. Por lo tanto, trazamos un punto a la altura 4 sobre 39.5, y de forma similar para los otros pun-
tos, como se muestra en la Figura 2.15. Cuando estos puntos están unidos por líneas rectas, tenemos
la curva de frecuencia acumulada “menos de”.
Para graficar la curva de frecuencia acumulada “mas de”, observamos en el Cuadro 2.13 que hay
50 alumnos con calificaciones mayores que (superiores a) 29. Recordemos que el término “mas de
24 Distribución de Frecuencias
(a) (b)
(c)
Figura 2.14: Casos de Distribución de Frecuencias Acumuladas
29” excluye la nota 29 y comienza a partir de la 30. Así que trazamos un punto a la altura 50 sobre
29.5. El siguiente punto está en la altura 46 sobre 39.5, y así sucesivamente. Al unir estos puntos,
obtenemos la curva de frecuencia acumulada “mas de”.
Las curvas de frecuencia acumulada pueden utilizarse de dos maneras. Utilizando la curva “me-
nos de”, ilustrémosla. En la primera forma, partimos del eje horizontal y pasamos al eje vertical.
Por ejemplo, seleccionamos una calificación de 62. Entonces, como muestra el gráfico, la frecuen-
cia correspondiente es de aproximadamente 20. Esto significa que hay unos 20 alumnos con notas
2.5. Frecuencias Relativas 25
Cuando las frecuencias de una tabla se expresan en términos proporcionales, tenemos una tabla
de frecuencias relativas. Dado que las tablas de frecuencias relativas se utilizarán con frecuencia en
26 Distribución de Frecuencias
El Cuadro ?? puede representarse gráficamente como la Figura 2.16, donde la escala vertical es en
términos de frecuencias relativas. La altura de las barras verticales muestra las frecuencias relativas.
Nótese que esto no es un histograma.
Como otro ejemplo, consideremos la distribución de las erratas por página en un folleto de 20
páginas, la que se presenta en el Cuadro 2.15. La Figura 2.17 es el gráfico de la tabla. Las alturas de
las barras corresponden a las frecuencias relativas.
Hemos dicho anteriormente que la altura de una barra en un histograma muestra la frecuencia
por intervalo, y el área muestra la frecuencia en ese intervalo. En nuestro caso, la altura de una barra
muestra la frecuencia relativa por intervalo, y el área de una barra muestra la frecuencia relativa en
ese intervalo. Mostremos esta relación en forma de tabla, como en el Cuadro ??.
Como muestra la tabla, el área total del histograma en términos relativos es 1. Este resultado se
explicará de nuevo en el Capítulo 6 y es fundamental para nuestra discusión después del Capítulo 6.
2.5. Frecuencias Relativas 27
Lo que hay que tener en cuenta es que podemos diferenciar estas dos distribuciones similares
29
30 Medidas de Posición
diciendo que la distribución de las notas de la clase A tiene una media de 60 puntos y la de la B tiene
una media de 65 puntos. Estamos representando la distribución de frecuencias de la clase A por el
valor único 60 y la de B por 65.
Como otro ejemplo, consideremos la puntuación de un alumno A en un concurso de tiro con
rifle. Dejemos que las puntuaciones vayan de 0 (el borde de la diana) a 10 (el centro de la diana). La
variable X es la puntuación de un tiro, y tiene 11 valores posibles, a saber, 0, 1, 2, . . . , 10. Suponga-
mos que el alumno dispara 20 veces. Entonces la variable X tiene 20 valores realmente observados,
y tendremos una distribución de frecuencias de X.
Para describir el rendimiento de tiro de este alumno A, podemos utilizar la distribución de fre-
cuencias de X. Sin embargo, también podemos utilizar la puntuación media para representar su
rendimiento de tiro. Es decir, podemos utilizar la media de X para representar la distribución de
X. Si hay un alumno B, y queremos comparar las puntuaciones de A y B, podemos comparar las
puntuaciones medias de A y B en lugar de las distribuciones de frecuencia de sus puntuaciones.
Nuestro problema en este capítulo y en el siguiente es encontrar características, como la media
mencionada anteriormente, que caractericen (o localicen) de forma concisa una distribución de
frecuencias. Si podemos encontrar características adecuadas que caractericen una distribución de
frecuencias, podremos utilizar estas características, en lugar de la propia distribución de frecuencias,
para explicar el rendimiento de los estudiantes en un examen de economía o el rendimiento de tiro
de un estudiante.
Las características en las que nos interesaremos son las medidas de localización (capítulo 3) y
las medidas de dispersión (capítulo 4) de una distribución. Las medidas de localización se dividirán
en medidas de localización central y otras medidas de localización. Por medidas de localización
central entendemos los puntos centrales de una distribución de frecuencias que caracterizarán la
distribución. Serán la media aritmética, la mediana y la moda de una distribución. Otras medidas
de localización, que no consideraremos, son los cuartiles y percentiles de una distribución. Pero
antes de considerar estas medidas de localización, hagamos un paréntesis para definir las variables
cuantitativas y cualitativas.
Una variable cuantitativa es aquella que se expresa numéricamente. Por ejemplo, las variables
peso, altura, velocidad, renta e ingresos son variables cuantitativas.
Una variable cualitativa es la que se expresa mediante una propiedad no numérica. Por ejemplo,
la cara o la cruz de una moneda, el defecto o el no defecto de una bombilla, la calidad pobre, media
o superior de un cuadro y la satisfacción o insatisfacción de un cliente son los posibles resultados de
las variables cualitativas.
Definamos un término más, el de parámetro de una distribución. Un parámetro de una distri-
bución es un valor (una constante) de la distribución que la caracteriza. La media, la mediana y la
moda son parámetros de una distribución.
donde µ, (la letra griega mu) representa la media aritmética. Utilizando símbolos, la definición
puede expresarse como
1 X
N
x1 + x2 + · · · + xN
µ= = xi (3.1)
N N
i=1
Ejemplo No. 1
Sea X la variable peso (lb.) de 3 estudiantes, y los valores realmente observados sean
Entonces la media µ, de x1 , x2 y x3 es
1 X
N
1
µ= xi = (120 + 130 + 140) = 130 lb
N 3
i=1
Ejemplo No. 2
El µ de 50 notas del Cuadro 2.1 es
1
µ= (60 + 33 + · · · + 60 + 88) = 65.2
50
Supongamos que la media de las notas de los 50 alumnos de la clase B es 70. Entonces, como las
dos distribuciones son similares, podemos comparar las distribuciones de frecuencias de las notas
de las clases A y B comparando las medias 65.2 puntos y 70 puntos. Las distribuciones de frecuencias
se han representado con un único valor (un parámetro). La media, por supuesto, no nos da tanta
información como la distribución de frecuencias, pero es mucho más sencilla.
Mostremos la situación de forma esquemática con gráficos. La Figura 3.2 muestra las distribu-
ciones de frecuencia (curvas de frecuencia) de las clases A y B. La escala horizontal de la variable X
es común a ambas curvas de frecuencia. Suponiendo que estas curvas son similares entre sí (diga-
mos para simplificar que ambas son distribuciones normales), podemos diferenciar las dos por sus
medias, 65.2 puntos y 70 puntos.
De forma similar, si tenemos las clases A, B, C, D, E, y las distribuciones de las notas son normales
para cada clase, podemos diferenciar estas cinco distribuciones normales por sus respectivas medias.
32 Medidas de Posición
Si las distribuciones no son similares (una puede tener forma de campana y la otra bimodal),
probablemente será necesario comparar las dos distribuciones para hacer una comparación.
Geométricamente, la media de una distribución de frecuencias es el centro de gravedad. Si la
curva de frecuencias de la Figura3.3 se considera como una especie de meseta, se equilibrará en la
media.
la media es
1
µ= (60 + 60 + 60 + 60 + 100) = 68
5
Se trata de la fórmula básica (3.1) expresada anteriormente como definición de la media aritmé-
tica.
Ejemplo No. 3
Índice de precios de materias primas Dow-Jones. Las ponderaciones de las materias pri-
mas basadas en el valor proporcional, 1927-1931, donde
Trigo 19.5
Maíz 8
Avena 5
Centeno 4
Tapas de lana 5.5
Algodón 23.0
Aceite de algodón 4.5
Café 7
Azúcar 8.5
Cacao 5
Caucho 6
Cueros 4
100.0
Las ponderaciones del cuadro se expresan en términos porcentuales. El índice de precios es una
media aritmética ponderada, con ciertos ajustes.
Ejemplo No. 4
Estas son las ponderaciones utilizadas para calcular el índice de precios al consumidor (o índice
del coste de la vida), y se expresan en términos porcentuales. El índice de precios al consumo es
3.1. La media aritmética 35
una media aritmética ponderada, con ciertos ajustes. Como muestra la tabla, las ponderaciones se
han revisado cada varios años para reflejar los cambios en el patrón de gasto del consumidor. La
disminución de la importancia de los alimentos como gasto en el presupuesto del consumidor y el
aumento de la importancia de los gastos en diversos servicios es una característica destacada de estas
ponderaciones, que se expresan en términos porcentuales.
Construyamos un ejemplo artificial y demostremos que es indiferente que las ponderaciones se
expresen en términos porcentuales, proporcionales o de otra forma. Supongamos que se realizan
tres pruebas, con los resultados que se muestran en la tabla siguiente.
69
µ= = 69 puntos
1
6900
µ= = 69 puntos
100
Cuándo los datos se dan en forma de tabla de frecuencias, los valores individuales de la varia-
ble son desconocidos y, por tanto, no podemos utilizar las fórmulas anteriores para la media. Sin
embargo, haciendo una suposición, que se discute más adelante, podemos calcular la media de una
distribución, que en la mayoría de los casos es una buena aproximación a la verdadera media. A
continuación se presenta un ejemplo.
Sea X la variable peso con una distribución de frecuencias como la que se muestra en el Cua-
dro 3.2. Suponemos que el punto medio del intervalo de clases representa adecuadamente el valor
medio de esa clase. Por ejemplo, si los tres valores reales de la clase 30 - 40 lb. son 32, 33 y 37, la
media verdadera es (32 + 33 + 37)/3 = 34 lb. La suposición es que el punto medio 35 es una buena
aproximación de la media verdadera 34 lb. de esa clase.
36 Medidas de Posición
Valores Media
Libras f xi f · xi reales real f × Media
30 - 40 3 35 105 32, 33, 37 34 102
40 - 50 2 45 90 44, 48 46 92
5 195 194 194
Usando esta suposición, podemos asumir además que 3 × 35 = 105 es una buena aproximación
de la suma de los valores de esa clase. Vemos que la verdadera suma es 32 + 33 + 37 = 102 lb. y
que hay una discrepancia de 105 − 102 = 3 lb.
Aplicando este razonamiento a cada clase, podemos encontrar una buena aproximación de la
suma de los valores de cada clase si multiplicamos el punto medio por la frecuencia de cada clase.
En nuestro ejemplo tenemos 105 y 90.
Entonces, sumando estos resultados, obtenemos una buena aproximación de la suma de todos
los valores de X. Tenemos 105 + 90 = 195. Como se muestra en el Cuadro 3.2, el verdadero total
es 194.
La media de X se obtiene entonces dividiendo este total por el número total de frecuencias.
Tenemos
195
= 39 lb
9
La media verdadera es
195
= 38.8 lb
9
La suposición de que el punto medio del intervalo de clase representa adecuadamente el valor
medio de ese intervalo de clase se basa, a su vez, en la suposición de que los valores se distribuyen de
forma bastante uniforme a lo largo del intervalo. Cuando hay un gran número de frecuencias, esta
suposición suele ser aceptable.
Convirtamos ahora nuestra discusión en una fórmula. Los puntos medios son m1 = 35 y m2 =
45. Las frecuencias son f1 = 3 y f2 = 2. Por tanto, la media de X es
m1 f 1 + m2 f 2 35 × 3 + 45 × 2
µ= =
f1 + f2 3+2
195
= = 39 lb
9
X
2
mi fi
i=1
µ=
X2
fi
i=1
3.1. La media aritmética 37
Clase f m fm
30-39 puntos 4 34,5 138,0
40-49 6 44,5 267,0
50-59 8 54,5 436,0
60-69 12 64,5 774,0
70-79 9 74,5 670,5
80-89 7 84,5 591,5
90-99 4 94,5 378,0
50 3255,0
Los cálculos pueden simplificarse desplazando el origen. Expliquemos esto con un ejemplo de
datos no agrupados. Consideremos tres números, 1, 2 y 3. La media es x = 2. Llamemos A = 5 a
la media supuesta, y restemos y sumemos ésta a cada número:
1 − 5 + 5, 2 − 5 + 5, 3−5+5
donde d′i es la diferencia entre los valores individuales xi y la media supuesta A. El resultado puede
expresarse como una fórmula: P ′
di
µ=A+ (3.4)
N
Aplica esto al siguiente ejemplo y encuentra la media de 1561, 1562 y 1563. Sea A = 1560;
entonces
d′1 = x1 − A = 1561 − 1560 = 1
d′2 = x2 − A = 1562 − 1560 = 2
d′3 = x3 − A = 1563 − 1560 = 3
Entonces µ, es P
d′i 1+2+3
µ=A+ = 1560 + = 1562
N 3
Al aplicar esta propiedad a los datos agrupados, la fórmula 3.3 se convierte en
X
n
fi di
µ = A + i=1
X ×c (3.5)
fi
Clase f m d fd
30-39 puntos 4 -3 -12
40-49 6 -2 -12
50-59 8 -1 -8
60-69 12 64,5 0 0
70-79 9 1 9
80-89 7 2 14
90-99 4 3 12
50 3
Se selecciona uno de los puntos medios y se designa como la media supuesta A. Seleccionemos
64,5 puntos. Se puede seleccionar cualquier punto medio para A, pero será conveniente seleccionar
el punto medio en el que los cálculos sean menos engorrosos. Este punto suele estar cerca de la mitad
de la distribución, de modo que los +f d y los −f d, cuando se sumen, se cancelarán aproximada-
mente, como en la hoja de cálculo del Cuadro 3.4 (donde tenemos +35 y −32). La desviación de
clase di es el número de desviaciones de clase respecto a la media supuesta A. Como di se establece
igual a 0 en A, tomamos las desviaciones de clase menos hacia arriba en la dirección en que los
puntos de calificación son más bajos y las desviaciones más hacia abajo en la dirección en que los
puntos de calificación son más altos. Por ejemplo, el intervalo de clase 30 - 39 está a −3 desviaciones
de clase de A.
3.2. La mediana 39
que es la misma respuesta que se obtiene de la fórmula (3.4). Al seleccionar una A diferente y
volver a calcular. Se debe obtener la misma respuesta.
La fórmula (3.5) se obtiene mediante la siguiente ilustración sencilla. La media según la fórmula
(3.3) es
f1 m1 + f2 m2 + f3 m3
µ=
f1 + f2 + f3
Clase f m d
10 - 20 f1 m1 d1 m1 = A + d 1 c
20 - 30 f2 m2 d2 m2 = A
30 - 40 f3 m3 d3 m3 = A + d 3 c
Sea c el intervalo de la clase, es decir, c = 10. Seleccione el punto medio m2 = 25 como la media
supuesta A. Entonces m1 = 15 puede mostrarse como
m1 = A + d1 c = 25 + (−1)(10) = 15
donde d1 = −1. El m3 = 35 es
m3 = A + d3 c = 25 + (1)(10) = 35
m1 f1 + m2 f2 + m3 f3
µ=
f1 + f2 + f3
f1 (A + d1 c) + f2 (A + d2 c) + f3 (A + d3 c)
=
f1 + f2 + f3
A(f1 + f2 + f3 ) + (f1 d1 + f2 d2 + f3 d3 )c
=
f1 + f2 + f3
P
fi di
=A+ P ×c
fi
3.2 La mediana
Supongamos que estamos interesados en describir los ingresos de los graduados de la Univer-
sidad K, cinco años después de su graduación. Sea X la variable ingreso. Supongamos además que
la distribución de frecuencias de los ingresos muestra que la mayoría de los graduados tienen unos
ingresos en torno a los 7 000 dólares, pero que hay unos pocos que tienen ingresos superiores a los
40 Medidas de Posición
50 000 dólares. Es decir, la distribución está sesgada hacia la derecha. Se sabe que la Universidad
K siempre tiene un número de estudiantes cuyos padres son propietarios de grandes empresas, por
lo que al graduarse se convierten inmediatamente en ejecutivos y reciben grandes salarios. En es-
tas circunstancias, ¿es la media una medida de localización central adecuada para representar esta
distribución de frecuencias? Una característica principal de la media es que se ve afectada por todos
los valores. En particular, se ve afectada por los valores extremos. Supongamos cuatro graduados de
una escuela con los siguientes ingresos:
La media es
1
µ= (6 000 + 6 000 + 6 000 + 42 000) = 15 000 dólares
4
La media de los tres primeros ingresos es de 6 000 dólares, pero con la inclusión del ingreso
extremadamente alto de 42 000 dólares, la media se convierte en 15 000 dólares. Pero, como se ve,
esta media de 15 000 dólares no caracteriza adecuadamente la distribución de frecuencias de los
ingresos.
En estos casos en los que la distribución de frecuencias está sesgada y tiene valores extremos,
una medida de localización central llamada mediana es en muchos casos más adecuada. Primero
definamos este parámetro.
La mediana de una distribución de frecuencias es un valor que divide la distribución de frecuen-
cias en dos partes iguales. Ilustremos primero con una distribución teórica. Las Figuras 3.4(a) y (b)
muestran una curva de frecuencia continua y su correspondiente curva de frecuencia acumulada.
La mediana es un valor que divide el área de la curva de frecuencias [Figura 3.4(a)] en dos partes
iguales. En el gráfico de la curva de frecuencias acumuladas, un valor de X que corresponde al punto
1
en el que la curva tiene la altura , es una mediana. Gráficamente, se encuentra en la intersección de
2
1
la línea horizontal de altura (es decir, el 50%) con la curva de frecuencias acumuladas. El alumno
2
habrá notado que hemos dicho una mediana en lugar de la mediana. La distinción se produce cuando
hay situaciones en las que la mediana es indeterminada. Supongamos que tenemos las siguientes
cuatro entradas (Figura 3.5):
Como muestra el gráfico acumulativo, cada valor entre 6.00 y 7.00 dólares es una mediana.
En estos casos, se toma como mediana el valor medio (6 + 7)/2 = 6.5 dólares. Esto es sólo una
convención que se suele adoptar. Como ya se ha mencionado, la mediana puede ser indeterminada,
por lo que la aplicación de la definición anterior debe realizarse con precaución.
Hay que tener en cuenta otros puntos. Supongamos que tenemos cinco personas con los siguien-
tes ingresos (Figura 3.6):
$2, $3, $4, $5, $6
3.2. La mediana 41
(a)
(b)
Figura 3.4: Posición de la mediana en una distribución
En este grupo, la mediana es de 4,00 dólares. Aunque una persona no puede dividirse por la
mitad, podemos pensar que la mitad de la persona con 4,00 dólares pertenece a la mitad inferior de
la distribución, y la otra mitad a la mitad superior.
Supongamos que tenemos siete personas con ingresos (Figura 3.7):
Como muestra el gráfico, la mediana es de $5. Pero son los segundos 5 dólares (subrayados) los
que dividen la distribución en dos partes iguales. Podemos pensar que la mitad de esta persona con
los segundos 5 dólares pertenece a la mitad inferior de la distribución, mientras que la otra mitad
pertenece a la mitad superior de la distribución.
Para los datos agrupados, utilizamos la interpolación lineal.
Por ejemplo, si utilizamos nuestra anterior distribución de frecuencias de las notas, sabemos (ya
que tenemos 50 estudiantes) que el valor mediano de la variable X (calificaciones) estará entre el
25º y el 26º estudiante. Será el 25.5º alumno.
42 Medidas de Posición
Clase f
30-39 4
40-49 6
50-59 8
60-69 12
70-79 9
80-89 7
90-99 4
50
19 20 21 22 23 24 25 26 27 28 29 30
1 2 3 4 5 6 7 8 9 10 11 12
Para encontrar el 25.5º alumno, primero tenemos que encontrar en qué clase estarán los alumnos
25 y 26. Como hay 18 alumnos hasta la clase 50 - 59 inclusive y 30 alumnos hasta la clase 60 - 69
inclusive, los alumnos 25 y 26 están en la clase 60 - 69. Sin embargo, a efectos de interpolación,
utilizamos el 25º alumno. (Es decir, como hay 18 alumnos hasta la clase 60 - 69, pero sin incluirla, el
25º alumno será el 7º (25 − 18 = 7) de la clase 60 - 69. Si suponemos que las notas de los alumnos
se distribuyen uniformemente en esta clase, entonces (ya que hay 12 alumnos en este intervalo de
7
clase) la nota del 25.5º alumno corresponderá a la nota que está a 12 del camino entre 59.5 y 69.5.
Como el intervalo de la clase es de 10 puntos, tenemos
3.2. La mediana 43
7
59.5 + 10 · = 65.33
12
Es decir, que la distribución de los ingresos está sesgada hacia la derecha. Una comprobación visual
muestra que la discrepancia entre la media y la mediana de los ingresos de las unidades de gasto
de dirección es mayor que la de las unidades de gasto de oficina y ventas. Esto puede interpretarse
como que la distribución de los ingresos de los directivos está más sesgada hacia la derecha que la
de los empleados y vendedores. Es decir, que los salarios de los directivos son muy elevados y hacen
subir los ingresos medios de los directivos.
3.3 La moda
Una tercera medida de localización de una distribución de frecuencias es la moda de una distri-
bución. La moda de una distribución es cualquier valor en el que la densidad de frecuencias alcanza
un máximo. O podemos decir que es cualquier valor de la variable que ocurre con mayor frecuencia.
(a) (b)
Figura 3.8: Distribución Unimodal y Bimodal
La definición implica que si la curva de frecuencias tiene un pico (es decir, un máximo) como en
la Figura 3.8(a), sólo hay una moda, mientras que si la curva de frecuencias tiene dos (o más) picos
(es decir, dos o más máximos) como en la Figura 3.8(b), la distribución tiene dos (o más) modas.
En cambio, si tenemos una distribución rectangular, no hay moda. Para ilustrar esto, supongamos
que un estudiante hizo cinco exámenes de economía durante el semestre, con los resultados:
Entonces la moda es 75 puntos, que se da dos veces, mientras que los otros valores sólo se dan
una vez. Si los resultados de las pruebas son
3.3. La moda 45
no hay moda.
En el caso de los datos agrupados, hay varias formas de calcular la moda. Pero, a efectos prácticos,
suele ser suficiente utilizar el punto medio de la clase modal. Utilicemos la distribución de los puntos
de las calificaciones para ilustrarlo. En el Cuadro 3.7(a) vemos que el intervalo de clases 60 - 69 es el
que tiene más frecuencias. Esta clase se denomina clase modal. En algunos casos, bastará con decir
que la moda está entre 60 y 69. Pero puede haber ocasiones en las que tengamos que decidir qué valor
entre 60 y 69 tomaremos como moda. Para la mayoría de los casos prácticos, bastará con tomar el
punto medio, que es 64.5.
(a) (b)
Clase f Clase f
30 - 39 4 30 - 39 2
40 - 49 6 40 - 49 10
50 - 59 8 50 - 59 6
60 - 69 12 60 - 69 12
70 - 79 9 70 - 79 9
80 - 89 7 80 - 89 7
90 - 99 4 90 - 99 4
50 50
Cuadro 3.7
A = 20
B = 30
C = 25
D = 50
E = 40
En este caso, la preferencia modal es el jabón D. Obsérvese que las anteriores preferencias no
muestran dos modos; es decir, B no es un segundo modo. Esto se debe a que podemos reordenar la
secuencia de jabones en el orden que queramos.
Como otro ejemplo de la aplicación de la moda, supongamos que una tienda desea almacenar
camisas de hombre. Una investigación muestra que la talla 16 es la más demandada. Este es el valor
modal de la distribución de las tallas de camisas.
46 Medidas de Posición
Como otro ejemplo, consideremos el número de pasajeros que utilizan el metro en una determi-
nada ciudad. Sea la variable X la hora del día y f el número de pasajeros. Una investigación puede
mostrar que hay dos modas, uno por la mañana alrededor de las 8:30 y otro por la tarde alrededor
de las 17:30. Tenemos una distribución bimodal.
La media y la mediana interesaban para localizar la distribución. Es decir, el interés estaba en
caracterizar la distribución. La moda, como muestran los ejemplos anteriores, suele interesar por sí
misma. Nos interesa el valor más típico, o el más frecuente, de una distribución.
Cuando tenemos una distribución de frecuencias unimodal la relación entre media, mediana y
moda se muestra en la Figura 3.9.
Cuando una distribución es simétrica, la media, la mediana y la moda coinciden. Cuando una
distribución está sesgada hacia la derecha, entonces [Figura 3.9(b)]
Por ejemplo, la distribución de los ingresos suele estar sesgada hacia la derecha, donde la mayoría
de las familias tienen ingresos entre 4 000 y 8 000 dólares, y luego el número de familias disminuye
a medida que aumentan los ingresos. En este caso, la media se ve arrastrada hacia arriba por los
ingresos extremadamente altos y la relación entre las tres medidas es la indicada anteriormente.
Un ejemplo son las notas de una clase en la que la mayoría tiene notas altas con unas pocas
notas bajas. En este caso, la media se sitúa por debajo de la mediana debido a las calificaciones
extremadamente bajas.
Obsérvese que la mediana está siempre en el centro. Otra forma de recordar estas relaciones es
que la media, la mediana y la moda están en el orden en que aparecen en un diccionario cuando la
distribución está sesgada a la izquierda, y el orden se invierte cuando la distribución está sesgada a
la derecha.
A la inversa, cuando se dan la media y la mediana de una distribución unimodal, podemos
determinar si está sesgada a la izquierda o a la derecha. Cuando la media > la mediana, está sesgada
a la derecha; cuando la mediana > la media, está sesgada a la izquierda. Esta relación se ha utilizado
para explicar el Cuadro 3.5.
Se han discutido tres medidas de localización, la media, la mediana y la moda. Con la media nos
referimos a la media aritmética. Sin embargo, hay otras dos medias que se utilizan ocasionalmente
en los negocios y la economía. Son la media geométrica y la media armónica. De estas dos, la media
geométrica es más importante y se utiliza para promediar tasas de cambio y construir números
índice. Sólo hablaremos de la media geométrica.
3.5.1 Definición
Definamos primero la media geométrica (MG) mediante un ejemplo sencillo, y luego explique-
mos su aplicación. Si tenemos tres números, 1, 3 y 9, la GM se define como
√ √
1·3·9=
3 3
GM = 27 = 3
√
GM = n
x1 · x2 · x3 · . . . x n (3.6)
Para calcular la raíz enésima se pueden utilizar logaritmos. Por ejemplo, si tenemos tres números,
2, 4, 8, entonces
√
2·4·8
3
GM =
√
2·4·8
3
log GM = log
1
= log(2 · 4 · 8) 3
1
= (log 2 + log 4 + log 8)
3
1
= (0.3010 + 0.6021 + 0.9031)
3
1
= (1.8062)
3
log GM = 0.60206
GM = 100.60206
GM = 4
Por lo tanto,
GM = 4
La fórmula (3.6) puede escribirse en términos de logaritmos como
1X
log GM = log xi (3.7)
n
Supongamos que la tasa de producción ha aumentado un 25 por ciento del primer año al segun-
do, y un 40 por ciento del segundo al tercer año, de la siguiente manera
1er año, 100 2do año, 125 25 por ciento de cambio (aumento) 3er año, 175 40 por ciento de
cambio (aumento)
¿Cuál es la tasa media de aumento durante estos dos años? Vemos que el segundo año es el 125
por ciento del primer año y el tercer año es el 140 por ciento del segundo año. Así pues,
√
GM = 1.25 · 1.40 = 1.323
√ 2
1.25 · 1.40 = (1.323)2
1.25 · 1.40 = (1 + 0.323)2
1.75 = (1 + 0.323)2
P2 = P0 (1 + r)2
3.5. La media geométrica 49
Pn = P0 (1 + r)2 (3.8)
q
175
donde 100 se calcula por logaritmos. Encontramos
r = 1.323 − 1 = 0.323
Así pues, r = 0.323, o el 32.3 por ciento, es la media geométrica de las tasas de incremento de
los n = 2 años. En términos de la fórmula del interés compuesto, r = 32.3 por ciento es la tasa de
interés a la que se compone P0 = 100 dólares en n = 2 años.
En general, podemos escribir
r
Pn
r= n
−1 (3.9)
P0
50 Medidas de Posición
Ejemplo No. 5
El PIB ha pasado de 500.000 millones de euros en 1960 a 900.000 millones en 1970.
¿Cuál es la tasa media de crecimiento? Utilizando las fórmulas (3.8) y (3.9), tenemos
1 9 1
log x = log = (log 9 − log 5)
10 5 10
1
= (0.95424 − 0.69897)
10
1
= (0.25527)
10
log x = 0.025527
x = 1.0606
Por lo tanto,
x = 1.0606
Así, r se convierte en
r = 1.0606 − 1 = 0.0606
Es decir, la tasa media de crecimiento es del 6.06% anual.
Pn
P0 = (3.10)
(1 + r)n
Esto puede interpretarse como sigue: Si el ingreso futuro es de Pn dólares, y la tasa de interés
actual es del 100r por ciento, entonces el valor actual de los Pn dólares será de P0 dólares, como lo
da la fórmula anterior. Por ejemplo, si tenemos una máquina que tiene una vida útil de 25 años y
se espera que produzca un ingreso neto de 100 dólares al año, y al final de los 25 años la máquina
pierde su valor, entonces la máquina vale (es decir, su valor actual es)
Este proceso de obtención del valor actual de los ingresos futuros mediante el uso del tipo de
interés se denomina descuento.
Supongamos ahora que tenemos un terreno que nos dará un ingreso neto de 100 dólares al año
para siempre. Entonces el valor actual de este terreno es
3.5. La media geométrica 51
Se puede demostrar, mediante el uso de las matemáticas propias de las series, que como
1
<1
(1 + r)n
esto se resume en ∞
1
1 − 1 + r
$100 · −1
1
1−
1+r
h i
donde n → ∞, y, por tanto, 1
(1+r)n se aproxima a cero. Así pues, tenemos
1 1 100
$100 · −1 = 100 · =
1 − 1
r r
1+r
$100
= $2 500
0.04
Estos 2500 dólares se denominan valor del capital del terreno. En general, el valor del capital es
y
V = (3.11)
r
donde V es el valor del capital, r es el tipo de interés y y es el ingreso anual.
Lo anterior era una situación hipotética en la que suponíamos que el flujo de ingresos futuros
continuaba para siempre.
h Peroiincluso si continuara sólo durante un largo número deyaños, es decir, si
1
n es grande, entonces (1+r) n será cercano a cero, y la idea de capitalización V = , será aplicable.
r
CAPÍTULO 4
Medidas de Dispersión
4.1 El Rango
53
54 Medidas de Dispersión
Otra medida de dispersión que incluye la variabilidad de todos los ítems es la desviación media.
Es la media de las desviaciones de algún valor central, como la media o la mediana de una distribu-
ción. Cuando se utiliza la media como valor central, tenemos la desviación media desde (o sobre)
la media, y cuando se utiliza la mediana, tenemos la desviación media desde (o sobre) la mediana.
Otros puntos, como la moda, pueden utilizarse como valor central, pero en la mayoría de los casos,
el término desviación media se utiliza para indicar la desviación media de la media. A partir de este
momento al hablar de la Desviación Media nos referiremos a la media o promedio.
Expliquemos este concepto con un ejemplo.
Supongamos que tenemos alumnos con calificaciones
Para medir la dispersión de estas calificaciones, se selecciona la media, a partir de la cual se mide
la variabilidad de las calificaciones y se obtiene la variabilidad media. Las desviaciones de la media
pasan a ser, ya que la media es 65
−15 −10 −5 5 10 15
50 55 60 65 70 75 80
Media
Los signos menos indican que la dirección de las desviaciones es hacia la izquierda. Pero co-
mo lo que nos interesa es la cantidad de variabilidad, es decir, la distancia de las desviaciones, los
signos menos no se tienen en cuenta al hallar la variabilidad media. (Obsérvese que la suma de las
desviaciones con signo de la media es siempre cero.) Así tenemos
15 + 10 + 5 + 5 + 10 + 15 60
= = 10
6 6
PN
i=1 |xi − µ|
DM = (4.1)
N
donde las dos líneas verticales que la encierran X −µ significan que se ignoran los signos menos.
(Esto es calcular el valor absoluto de las desviaciones.)
4.3. La Desviación Típica 55
PN
i=1 |xi − Me |
DMmediana = (4.2)
N
Afirmamos sin pruebas que esta desviación es siempre menor o igual que la desviación media.
Sólo se ha considerado el caso de los datos no agrupados. También existen fórmulas para datos
agrupados, pero esta desviación media se utiliza muy raramente. Se ha tratado aquí para llegar a la
desviación típica (o estándar), que se considera a continuación.
4.3.1 Desviación
e = desviación = xi − µ (4.3)
4.3.2 Varianza
Consideremos el ejemplo de seis notas que aparece en el Cuadro 4.1. La segunda columna mues-
tra la desviación xi − µ. La tercera columna es el cuadrado de las desviaciones; es decir, (xi − µ)2 .
La suma de estas desviaciones al cuadrado es
X
6 X
6
2
e = (xi − µ)2 = 700
i=1 i=1
X X −µ =e (X − µ)2
50 50 − 65 = −15 225
55 55 − 65 = −10 100
60 60 − 65 = −5 25
70 70 − 65 =5 25
75 75 − 65 = 10 100
80 80 − 65 = 15 225
Suma 390 0 700
Media 65 116.5
P
(xi − µ)2 700
= = 116.5
N 6
Esta media (o promedio) de las desviaciones al cuadrado (xi −µ)2 se llama varianza y se expresa
en forma de fórmula como sigue:
PN
i=1 (xi − µ)2
Varianza de X = (4.4)
N
P
(xi − µ)2
V ar(X) = (4.5)
N
La letra griega σ al cuadrado (es decir, σ 2 ) también se utiliza para denotar la varianza en las
fórmulas. Así,
V ar(X) = σ 2 (4.6)
La cantidad
X
N
(xi − µ)2 (4.7)
i=1
aparecerá una y otra vez en las discusiones posteriores. Se denomina suma de las desviaciones al
cuadrado.
La varianza es una medida de la dispersión. Pero hay que tener en cuenta que las desviaciones se
han elevado al cuadrado. Esto significa que si se consideran las notas de los alumnos, la unidad de la
varianza es (puntos)2 . Para corregir esta insuficiencia y obtener una medida de dispersión para las
notas, que será en términos de “puntos”, se toma la raíz cuadrada de la varianza. La raíz cuadrada de
la varianza se llama desviación típica o estándar de la variable X.
4.3. La Desviación Típica 57
r
√ 700 √
Desviación estándar = varianza = = 116.7 = 10.8 puntos (4.8)
6
Por lo tanto, la desviación estándar o típica es 10.8 puntos. La desviación típica se indica con σ.
En símbolos, rP
(xi − µ)2
σ= (4.9)
N
Nuestro objetivo es cambiar la fórmula (4.8) para que los procedimientos de cálculo sean más
sencillos y adecuados para el cálculo mecánico. El cambio se realiza de la siguiente manera: La fór-
mula (4.4) se convierte en
X X P
( xi ) 2
(xi − µ) = 2
x2i − (4.10)
N
X X2
50 2500
55 3025
60 3600
70 4900
75 5625
80 6400
390 26050
P ∑
xi ) 2
σ(xi − µ)2 x2i − (
σ2 = = N
(4.11)
N N
58 Medidas de Dispersión
Esta es la fórmula computacional que buscamos para los datos no agrupados. En términos de
nuestro ejemplo, obtenemos
s
2 r
26 050 − (390)
6 700
σ= = = 10.7 puntos
6 6
Además, como
P
xi
µ=
N
P 2 P
2 xi ( xi ) 2
Nµ = N =
N N
Por lo tanto,
X X P
( xi ) 2
(xi − µ) =
2
x2i −
N
El origen a partir del cual se miden las calificaciones es cero. (El origen a partir del cual se
miden las desviaciones es la media.) ¿Qué ocurre con la dispersión de una variable si se utiliza un
origen distinto de cero? La respuesta es: No habrá ningún cambio. Esto se puede explicar de forma
heurística como sigue: Supongamos que hay tres alumnos con notas 70, 80 y 90. Hay una diferencia
de 10 puntos entre las calificaciones sucesivas.
A continuación, reste un número arbitrario (por ejemplo, 50) a cada nota. Entonces las califica-
ciones medidas desde el origen 50 serán
70 − 50 = 20, 80 − 50 = 30, 90 − 50 = 40
A B C D E
0 50 70 80 90
0 20 30 40
origen siguen siendo de 10 puntos. En general, la diferencia entre las calificaciones sucesivas (pun-
tos) siempre será de 10 puntos, independientemente del valor que se seleccione como origen. Es
decir, la dispersión entre las calificaciones es la misma (no varía) independientemente del origen.
En símbolos, esto se expresa de la siguiente manera:
X − 60 (X − 60)2
-10 100
-5 25
0 0
10 100
15 225
20 400
30 850
Las notas −10, 5, 0, 10, 15, 20 se basan en el origen 60 en lugar de 0. La varianza de estos grados
es
P ∑
( (x−60))2
(x − 60)2 −
V ar(X − 60) = N
N
302
850 − 6
=
6
700
=
6
Obviamente, este procedimiento simplifica considerablemente los cálculos cuando los números
son grandes. Por ejemplo, la varianza de tres números 1001, 1002 y 1003 es la misma que la varianza
de 1, 2 y 3.
X X2
1001-1000 = 1 1
1002-1000 = 2 4
1003-1000 = 3 9
6 14
62
2 14 − 3 14 − 12 2
σ = = =
3 3 3
60 Medidas de Dispersión
Como comprobación adicional, resta 1002 en lugar de 1000, y encuentra la varianza. Comprueba
también que
V ar(X) = V ar(X − 50)
Para una distribución de frecuencias en la que no se conocen los valores individuales, como
en el Cuadro 4.2, se utiliza una fórmula que da un valor aproximado de la desviación típica de la
distribución. Es la siguiente s
Pk
i=1 fi (mi − µ)
2
σ= (4.13)
N
fi (mi − µ)2
y como queremos la suma de las desviaciones al cuadrado para todas las k clases, encontramos
la suma para todas las clases por
X
k
fi (mi − µ)2
i=1
∑
i −µ)
2
Así, fi (m
N es la suma de las desviaciones al cuadrado dividida por N , que es la varianza.
La raíz cuadrada de ésta es la desviación estándar.
4.3. La Desviación Típica 61
Esta fórmula requiere que se calcule la media µ y que se obtengan las desviaciones (mi −µ). Para
evitar este inconveniente, podemos derivar una fórmula de (4.13) que no requiere estos cálculos:
v !2
u Pk Pk
u fi d2i
σ = ct i=1 − i=1 fi di
(4.14)
N N
Clase f d fd d2 f d2
30 − 39 4 −3 −12 9 36
40 − 49 6 −2 −12 4 24
50 − 59 8 −1 −8 1 8
60 − 69 12 0 0 0 0
70 − 79 9 1 9 1 9
80 − 89 7 2 14 4 28
90 − 99 4 3 12 9 36
50 3 141
s 2
141 3 √
σ = 10 − = 10 2.8164 = 16.78 puntos
50 50
Realice los cálculos poniendo la clase 70 − 79 como cero. Debería obtener la misma respuesta.
62 Medidas de Dispersión
P
Sustituyendo esto en fi (mi − µ)2 , encontramos
X X P
fi di
fi (mi − µ)2 = fi (A + di c − A − · c)2
N
X P 2
fi di
= fi di c − ·c
N
" P 2 P 2 #
X f d
i i f d
i i
= c2 fi d2i − 2N +n
N N
" P #
X fi di 2
=c 2
fi di − N
2
N
Cuando los intervalos de clase son desiguales, podemos utilizar la fórmula (4.14) ajustando el
valor de d, pero para evitarlo, utilizaremos la fórmula (4.13). Afortunadamente, (4.13) puede am-
pliarse como sigue para simplificar los cálculos:
s ∑
P f i m i )2
fi m2i − ( N
σ= (4.15)
N
Clase f m fm m2 f m2
30 − 39 4 34.5 138.0 1190.25 4 761.00
40 − 49 6 44.5 267.0 1980.25 11 881.50
50 − 59 8 54.5 436.0 2970.25 23 762.00
60 − 69 12 64.5 774.0 4160.25 49 923.00
70 − 79 9 74.5 670.5 5550.25 49 952.25
80 − 89 7 84.5 591.5 7140.25 49 981.75
90 − 99 4 95 380.0 9025.00 36 100.00
N = 50 3257.0 226 361.50
Si el último intervalo de clase es 90−99 en lugar de 90−100, la respuesta será la misma, tanto si se
utiliza la Fórmula (4.14) como la (4.15). Como ejercicio, encuentre la desviación estándar, utilizando
la Fórmula (4.15), cuando la última clase es 90−99, y demuestre que es igual a la desviación estándar
obtenida con la Fórmula (4.14).
Demostración de la Fórmula 4.15.
Sabemos que
P
fi mi
µ=
N
P
Sustituyendo esto en fi (mi − µ)2 , encontramos
X X P
f i mi 2
fi (mi − µ) =
2
f i mi −
N
X P P
( fi mi )2 ( fi mi )2
= fi mi − 2
2
+
P N N
X ( f i m i ) 2
= fi m2i −
N
Así, la varianza de X es
P
fi (mi − µ)2
V ar(X) =
N ∑
P 2
fi m2i − ( fNi mi )
=
N
Como ejemplo, supongamos que hay dos clases A y B, que tienen la misma nota media de 70
puntos, y que ambas clases tienen una curva de frecuencia simétrica en forma de campana. Además,
supongamos que las calificaciones de la clase A se concentran cerca de la media, mientras que las de
la clase B están dispersas por todo el rango de las calificaciones. Podemos suponer que la desviación
estándar de la clase A es menor que la de la clase B. Entonces las curvas de frecuencia pueden
parecerse a las dibujadas en la Figura 4.2.
Figura 4.2
La curva de la clase A es más fina y alta, y la de la clase B es más corta y plana. Cuanto menor sea
la desviación estándar, menor será la dispersión, y cuanto mayor sea la desviación estándar, mayor
será la dispersión.
x−µ 90 − 70 20
= = = 2 desviaciones estándar
σ 10 10
x−µ 65 − 70 −5 −1
= = = desviaciones estándar
σ 10 10 2
X x1 x2 xN
: , , ...,
σ σ σ σ
4.3. La Desviación Típica 65
Este procedimiento nos permitirá hacer comparaciones de la dispersión de los valores indivi-
duales en diferentes distribuciones. Por ejemplo, supongamos que un individuo obtuvo un 90 en
el examen, la media de la clase fue de 70 y σ = 10 puntos. En un segundo examen obtuvo 600,
la media de la clase fue de 560 puntos, y σ = 40 puntos en esta clase. En el primer caso volvió a
obtener 20 puntos por encima de la media (90 − 70 = 20), y en el segundo obtuvo 40 puntos por
encima de la media (600 − 560 = 40). ¿Fue mejor en la primera o en la segunda prueba?
Al estandarizar las diferencias, encontramos
90 − 70 20
Primer prueba = = = 2 desviaciones estándar
10 10
600 − 560 40
Segunda prueba = = = 1 desviación estándar
40 40
Por tanto, está más por encima de la media en la primera prueba que en la segunda. En la primera
prueba estaba mucho mejor. Calcularemos cuánto mejor le fue, después de la discusión del cuadro
de área normal en el capítulo 6.
1X
3
V ar(X) = σ 2 = (xi − µ)2
3
i=1
x1 x2 x3
, ,
σ σ σ
La varianza de la variable estandarizada es
1 X xi µ 1 1X
3
X
V ar = − = 2 (xi − µ) 2
σ 3 σ σ σ 3
i=1
1
= 2 · σ2 = 1
σ
Ejemplo No. 1
Utilicemos los datos del Cuadro 4.1 como ejemplo. La suma de las desviaciones al cua-
drado para la variable estandarizada X/σ se muestra en el Cuadro 4.6 adjunta.
Cuadro 4.6
700
X 2 700 1
V ar = σ = ·
σ 6 6 σ2
700
X 2 700 6
V ar = σ = · =1
σ 6 6 700
Utilizando el resultado obtenido anteriormente, podemos ahora construir una distribución uni-
taria. Esto se realiza en dos pasos. El primero es desplazar el origen a la media y el segundo es estan-
darizar la variable ajustada. Sean los valores x1 , x2 , x3 . El origen se desplaza hacia la media mediante
x1 − µ, x2 − µ, x3 − µ
z1 + z2 + z3
Z=
3
1 x1 − µ x2 − µ x3 − µ
= + +
3 σ σ σ
1
= ·0=0
3
4.4. Dispersión relativa (coeficiente de variación) 67
La varianza de Z es
X −µ
V ar(Z) = V ar
σ
X µ
= V ar −
σ σ
X
= V ar
σ
=1
x1 − µ x2 − µ x3 − µ xN − µ
, , ,...,
σ σ σ σ
Supongamos que un grupo de estudiantes realiza dos pruebas. El primer examen tiene una me-
dia de 60 puntos y una desviación típica de 6 puntos, con un máximo de 100 puntos. La segunda
prueba tiene una media de 700 puntos y una desviación estándar de 7 puntos, con un máximo de
1 000 puntos. ¿Cuál de las dos pruebas tiene una mayor dispersión? Aquí estamos comparando la
dispersión de dos distribuciones de frecuencia.
Se puede ver fácilmente que, desde un punto de vista absoluto, la dispersión de 7 puntos es mayor
que la de 6 puntos, pero desde un punto de vista relativo, podemos ver que los estudiantes estaban
mucho más cerca en la segunda prueba. Para poner de manifiesto esta idea de forma explícita, se ha
formulado una medida de dispersión relativa. El coeficiente de variación de una distribución, como
se denomina, se define como
σ
V = (4.16)
µ
6 1
Primer prueba, V = =
60 10
7 1
Segunda prueba, V = =
700 100
P
(x1 − µ)2
σ2 N
V2 = =
µ2 µ2
que se convierte en
P x1 −µ 2
µ
V2 = (4.17)
N
xi − µ
µ
es la desviación relativa. Por lo tanto, V 2 , según la fórmula (4.16), puede considerarse como la
varianza en términos relativos y, por lo tanto, se denomina varianza relativa.
En lugar de discutir la dispersión en términos de la desviación absoluta e = xi − µ, y la desvia-
ción estándar σ, podemos discutirla en términos de la desviación relativa y el coeficiente de varia-
ción. El hecho de que ambos sean equivalentes se ve fácilmente en lo siguiente:
Desviación absoluta xi − µ
=
Desviación estándar σ
xi − X
Desviación absoluta µ xi − µ
= σ =
Desviación estándar σ
µ
1
G. W. Snedecor, Statistical Methods, 5ª ed., Ames: Iowa State College Press, 1956, p. 62.
CAPÍTULO 5
Teoría de la Probabilidad
69
70 Teoría de la Probabilidad
Nuestro orden de discusión será el siguiente. Primero repasaremos brevemente la teoría de con-
juntos. A continuación, explicaremos cómo se describe un experimento en términos de sucesos. A
continuación, el experimento se expresará en términos de la teoría de conjuntos, lo que nos llevará
a discutir el concepto de espacio muestral. Este concepto de espacio muestral es una idea básica
para la posterior discusión de la teoría de la probabilidad y la estadística. La razón para expresar un
experimento en términos de conjuntos es que el uso de la teoría de conjuntos matemáticos facilita el
desarrollo matemático de la teoría de la probabilidad y la estadística. Con esta preparación, discuti-
remos a continuación la interpretación de la teoría de la probabilidad. A continuación, discutiremos
el cálculo de la teoría de la probabilidad en las secciones 5.4 hasta 5.8.
5.1 Conjuntos
5.1.1 Un conjunto
Un conjunto es una colección en un todo de objetos definidos y bien diferenciados: por ejem-
plo, un grupo de estudiantes, una baraja de cartas y las esferas dentro de una caja son ejemplos de
conjuntos.
Denotamos un conjunto como S, y llamamos elementos a los objetos. Entonces un elemento a
está relacionado con el conjunto como
a es un elemento de S : a ∈ S
a no es un elemento de S : a ∈
/S
Por ejemplo, el conjunto S puede estar formado por 3 números: 1, 2 y 3, que son los elementos
del conjunto. Para mostrar que esto comprende un conjunto, utilizamos las llaves {1, 2, 3}. Entonces,
para el elemento 2, escribimos
2 ∈ {1, 2, 3}
Los elementos deben ser distintos. Así, 1, 2, 3, 3, es un conjunto {1, 2, 3}, donde se eliminan los
elementos repetidos. El orden de los elementos no importa por el momento.
3
Una de las obras más importantes de la teoría de conjuntos es la de F. Hausdorff (Set Theory, 4th ed., trans. por J.
R. Auman, New York: Chelsea Publishing Co., 1957) , que se publicó por primera vez en 1914. Un texto elemental sobre
la teoría de conjuntos es el de J. Breuer (Introduction to the Theory of Sets, trans. por H. F. Fehr, Englewood Cliffs, N.J.:
Prentice-Hall, Inc., 1958).
5.1. Conjuntos 71
Decimos que {2} es un conjunto de 1 elemento: 2. Un conjunto sin ningún elemento se llama
conjunto nulo, o conjunto vacío, y se denota por ∅.
Si cada elemento de Si es un elemento de S, entonces decimos que Si es un subconjunto de S.
Por ejemplo, dejemos que S = {1, 2, 3}. Entonces los subconjuntos serán
S1 ⊆ S
S = S1 ∪ S2 = {a, b, c, 1, 2, 3}
Es el conjunto formado por todos los elementos que pertenecen a S1 o a S2 , o a ambos [Figu-
ra 5.1(a)].
La intersección de S1 y S2 es el conjunto S:
S = S1 ∩ S2 = {2}
S2 ∩ S3 = ∅
S1 S2 S1 S2
S = S1 ∪ S2 S = S1 ∩ S2
(a) (b)
Figura 5.1
72 Teoría de la Probabilidad
S = S1 ∪ S2 = {a, b, c, 1, 2, 3}
En general, el conjunto S de todos los puntos en discusión se llama conjunto universal para la dis-
cusión dada, o simplemente el universo. A menudo, el universo no se especifica explícitamente.
Sea S4 = {a, b, 1, 2} un subconjunto de S. El complemento de S4 con respecto al universo S es
el conjunto
S4 = {c, 3}
Es decir, son aquellos elementos del universo {a, b, c, 1, 2, 3} que no son elementos de S =
{a, b, 1, 2}. Véase la Figura 5.2.
A continuación, la diferencia de los conjuntos S1 y S2 es el conjunto S
S
S1 S2 S1 S2
a 1 a 1
S3 b 2 b 2
c 3 c 3
S3
S = S 1 − S2 S ′ = S 2 − S1
. = {a, b, c} = {1, 3}
Figura 5.2
Cuando el experimento consiste en lanzar una moneda, acordamos que los posibles resultados
son escudo y corona y excluimos la posibilidad de que la moneda se quede en el borde.
Los posibles resultados de un experimento se llamarán eventos o sucesos. Decimos, por ejemplo,
el suceso de que aparezca cara.
Si se lanzan dos monedas, acordamos que hay 4 resultados posibles:
Excluimos cualquier otro resultado posible, como que salga el borde. Cada uno de estos posibles
resultados es un suceso. Si los denominamos E1 , E2 , E3 , E4 . Entonces, podemos decir, por ejemplo,
el evento de 2 coronas, y se denota por E4 . El suceso de un E y una C será E2 o E3 . Digamos que
este suceso se denote por E5 .
Una característica de E5 , es que se compone de 2 eventos E1 y E3 . E2 y E3 no pueden des-
componerse en otros sucesos. Obsérvese que (E, C) no puede descomponerse en E y C porque el
experimento consiste en lanzar 2 monedas, y un único resultado está formado por el par, C y E. El
E o la C por sí mismas no constituyen un resultado del experimento de lanzar 2 monedas.
Los sucesos E1 , E2 , E3 y E4 anteriores son ejemplos de eventos simples. Un suceso simple es un
resultado posible de un experimento, cuya característica es que no puede descomponerse en una
combinación de otros sucesos.
En cambio, el suceso E5 , que puede descomponerse en los dos sucesos E2 y E3 , se denomina
evento compuesto. El suceso compuesto es un agregado de sucesos simples.
La suma de todos los sucesos simples nos da todos los resultados posibles del experimento.
Una vez definidos los términos experimento, suceso simple y suceso compuesto, vamos a mos-
trar cómo se pueden expresar estos conceptos en términos de la teoría de conjuntos.
S = {e1 , e2 , e3 , e4 }
74 Teoría de la Probabilidad
{e2 , e4 }
E5 = {e2 , e4 }
{e2 , e4 } ⊂ S
O podemos escribir
E5 ⊂ S
S = {1, 2, 3, 4}
S = e1 , e2 , e3 , e4
con 4 puntos de muestra. Que los sucesos simples correspondientes sean E1 , E2 , E3 y E4 . En-
tonces, los 4 sucesos simples en términos de puntos de muestra son
Ei = {ei } i = 1, 2, 3, 4
El principio de razón insuficiente (o principio de indiferencia) fue utilizado por el famoso ma-
temático suizo Jacob Bernoulli (1654 - 1705) para definir las probabilidades. Supongamos que se
lanza un dado justo y se pregunta a un estudiante la probabilidad de que salga un 2. Probablemente
responderá 1/6. Si se lanza una moneda y se le pregunta la probabilidad de que salga cara, proba-
blemente responderá 1/2. Sin embargo, si se le pregunta por qué ha respondido 1/6 o 1/2, puede
tener problemas para dar una razón precisa.
El principio de la razón insuficiente propone que, cuando no hay ninguna base para preferir
uno de los posibles sucesos (resultados) a cualquier otro, todos deben tratarse como si tuvieran la
misma probabilidad de ocurrir. Así, en el caso de un dado justo, se considera que cada número tiene
la misma probabilidad de ocurrir, y por tanto la probabilidad de que ocurra un 2 es de 1/6.
El famoso matemático francés P. S. Laplace (1749 - 1827) enunció este principio en su libro
Ensayo filosófico sobre las probabilidades, de la siguiente manera
76 Teoría de la Probabilidad
La teoría del azar consiste en reducir todos los acontecimientos de la misma clase a un cierto
número de casos igualmente posibles, es decir, a aquellos sobre los que podemos estar igualmente
indecisos en cuanto a su existencia, y en determinar el número de casos favorables al acontecimiento
cuya probabilidad se busca. La relación entre este número y el de todos los casos posibles es la medida
de la probabilidad, que no es más que una fracción cuyo numerador es el número de casos favorables
y cuyo denominador es el número de todos los casos posibles4 .
Este principio de razón insuficiente tiene varias características, una de las cuales es que supone
la simetría de los acontecimientos. Así, tenemos un dado justo, o una moneda justa, o una baraja
justa. Una segunda característica es que se basa en un razonamiento abstracto y no depende de la
experiencia.
La suposición de simetría restringe la aplicación de este principio porque, como veremos más
adelante, muchos resultados de los problemas (como los de los negocios y la economía) no tienen
simetría.
Por otro lado, como el cálculo de la probabilidad no depende de la experiencia, nos permite
calcular las probabilidades sin realizar un gran número de ensayos. Este tipo de cálculo se denomina
a veces cálculo de probabilidades a priori. Para una serie de problemas, como el lanzamiento de un
dado o de una moneda, que cumplen los requisitos para la aplicación de este principio, utilizaremos
el método a priori para determinar las probabilidades.
La referencia básica de este enfoque es el libro del famoso matemático ruso A. N. Kolmogorov,
Fundamentos de la teoría de la probabilidad (1933)5 . Expliquemos este enfoque con una ilustración.
Consideremos un experimento en el que se lanza una moneda justa. Hay dos posibles resultados
(eventos), E1 (escudo) y E2 (corona). Repitamos este experimento 200 veces en condiciones uni-
formes. Los resultados se recogen en el Cuadro 5.1.
La columna
P denominada E muestra el número de escudos por cada 10 lanzamientos. La colum-
na m = E es la suma acumulada de escudos. La columna m/n es la frecuencia relativa de caras
para n lanzamientos. Por ejemplo, en la tercera fila, m/n = 14/30 = 0.47 es la frecuencia relativa
de caras en 30 lanzamientos.
Observe los siguientes puntos de este experimento:
1. Tenemos un experimento E (lanzar una moneda), que se repite una y otra vez (200 veces) en
condiciones uniformes. La n(= 200) muestra el número de repeticiones de E.
2. Hay dos posibles resultados (eventos) en nuestro ejemplo y hemos calculado la frecuencia
relativa del evento cara para diferentes n’s.
3. Las fluctuaciones de las frecuencias relativas de las cabezas, m/n, fluctúan considerablemente
cuando n es pequeño, pero a medida que n se hace grande, la amplitud de las fluctuaciones
disminuye. Este fenómeno se expresa diciendo: La frecuencia relativa se vuelve estable, o la
frecuencia relativa muestra regularidad estadística, a medida que n se hace grande.
4
P. S. Laplace, A Philosophical Essay on Probabilities, traducido por F. W. Truscott y F. C. Emory, Net York: Dover
Publications, Inc., 1951, pp. 6-7. Reimpreso con permiso.
5
A. N. Kolmogorov, Foundations of the Theory of Probability, traducido por N. Morrison, New York: Chelsea Pu-
blishing Co., 1956.
5.3. El enfoque objetivo de la probabilidad 77
P
P m E
1 2 3 4 5 6 7 8 9 10 E m= E =
n n
1 C E E E C C E C E E 6 6 0.60
2 C C E C C C C E C C 2 8 0.40
3 E E E C C E C E E C 6 14 0.47
4 C E C C E E E E C C 5 19 0.48
5 E C E C C E E E C E 6 25 0.50
6 C E C E E C E C E E 6 31 0.52
7 C E E E E E E C E C 7 38 0.54
8 E E C C E C E E C C 5 43 0.54
9 C C E C E E C C C C 3 46 0.51
10 E C E C E E C E C C 5 51 0.51
11 E C C E C E C E C E 5 56 0.51
12 C E E C E C E E E E 7 63 0.53
13 E C C C E C E C E E 5 68 0.53
14 C C E E C C C E E C 4 72 0.51
15 C E C E C C E C C C 3 75 0.50
16 C C E C C C E C E C 3 78 0.49
17 E C C C E E E C C E 5 83 0.49
18 E C E E C C E E C E 6 89 0.48
19 C E E E C E C E E E 6 95 0.50
20 E C C C C E E C E E 6 101 0.51
Cuadro 5.1
Figura 5.3
El número P , que hemos llamado probabilidad del suceso A, también se escribe P (A). Utiliza-
remos principalmente esta última notación.
En lo que respecta a nuestro ejemplo actual, la probabilidad P (A) = 1/2 es un número tal que
la frecuencia relativa m/n(= 101/200 = 0.505 para 200 lanzamientos) será prácticamente igual a
P (A) = 1/2 cuando n es muy grande.
Figura 5.4
Pongamos un ejemplo más. Supongamos que la moneda se lanza 400 veces. El resultado de 400
repeticiones de este experimento se recoge en el Cuadro 5.3, donde la frecuencia relativa del suceso
de A (escudo) muestra una tendencia a fluctuar entre 0.46 y 0.44. La Figura 5.4 es un gráfico de las
frecuencias relativas. El gráfico muestra que a medida que aumenta el número de repeticiones n, la
frecuencia relativa muestra una regularidad estadística.
5.3. El enfoque objetivo de la probabilidad 79
P
P m E
1 2 3 4 5 6 7 8 9 10 E m= E =
n n
1 E C E C C E C E E C 4 4 0.40
2 C C C C C E C C C E 3 7 0.35
3 E C E C E C E C E C 4 11 0.37
4 E C C C C E C C E C 2 13 0.33
5 C E C E E C E E E E 6 19 0.38
6 E C C C C C C E C E 3 22 0.37
7 C E E C E E C C C E 5 27 0.39
8 E E C C E E E C C E 6 33 0.41
9 C C E C E C C E C E 4 37 0.41
10 E E E E C E C E C C 6 43 0.43
11 C E E C C C C E E E 6 49 0.51
12 C C E C E E C E C E 6 55 0.53
13 C C E E C C C C C C 1 56 0.53
14 C C C C C C E C E E 4 60 0.51
15 C E C C C E C C E C 4 64 0.50
16 C C C E C E E C E C 5 69 0.49
17 E C E C C E E E E E 6 75 0.49
18 E E C C E C E C E E 5 80 0.48
19 C E C C C C E C C E 2 82 0.50
20 C E E C E E C E C C 6 88 0.51
21 E E E C C C C E C C 4 92 0.51
22 C C E C C C C E C E 3 95 0.53
23 C C C E E C E E C E 5 100 0.53
24 C E C C E C E E E E 6 106 0.51
25 C C C C C E C E E E 4 110 0.50
26 E E E E C E E E E C 8 118 0.49
27 C C C C E C C C C E 2 120 0.49
28 C C C C C C E E E E 4 124 0.48
29 C C E E C E E E C E 6 130 0.50
30 C E C C E E E C C E 5 135 0.51
31 C C C E E E C C C C 3 138 0.51
32 C E C C C E E C C E 4 142 0.53
33 E C E E C C E C C E 5 147 0.53
34 E E C E C C E C C C 4 151 0.51
35 E E E E C C E E C C 6 157 0.50
36 E C E E E E E C C E 7 164 0.49
37 C E E C E C E C E C 5 169 0.49
38 C C E C E E E E E C 6 175 0.48
39 E C C C C E E C E C 4 179 0.50
40 E E E C C C E C E C 5 184 0.51
Cuadro 5.2
Con esta cantidad de pruebas, conjeturamos que cuando el experimento se repite un gran nú-
mero de veces. la frecuencia relativa de este suceso A (escudo) sería, con un alto grado de certeza,
prácticamente igual a un número P (A). Asignaremos este número P (A) al suceso A (escudo) y lo
80 Teoría de la Probabilidad
m 184
P (A) = = = 0.46
n 400
Tenga en cuenta que la probabilidad del suceso A, P (A), y la frecuencia relativa del suceso A,
m/n, no son lo mismo. Sin embargo, cuando n es grande, y cuando P (A) no se conoce, m/n se
utiliza como una estimación de P (A), y con frecuencia se llama la probabilidad de A.
Tenga en cuenta los siguientes puntos sobre esta definición de probabilidad. En primer lugar,
que m ≤ n. Es decir, el número de ocurrencias de escudos (m) es menor o igual que el número de
repeticiones (n). Por tanto, la frecuencia relativa m/n es menor o igual que la unidad. Es decir
m
≦1
n
m
=0
n
Por lo tanto,
m
0≦ ≦1
n
0 ≦ P (A) ≦ 1
Este postulado es bastante complicado y requiere más explicaciones. Si tenemos un suceso im-
posible A, entonces claramente P (A) = 0. Si tenemos una caja con 10 bolas negras, la probabilidad
de seleccionar una bola blanca es cero.
Sin embargo, cuando tenemos P (A) = 0, esto no significa necesariamente que el suceso A sea
un suceso imposible. De la definición de P (A) vemos que P (A) = 0 significa que, en un gran
número de ensayos n, la frecuencia relativa m/n del suceso A es aproximadamente igual a cero.
Por tanto, P (A) = 0 significa que el suceso A puede ser un suceso imposible o que ocurre con tan
poca frecuencia que puede considerarse como un suceso imposible. O podemos decir que cuando el
experimento se realiza una vez, su ocurrencia es prácticamente imposible, y cuando el experimento
se repite un gran número de veces, ocurre con tan poca frecuencia que puede considerarse como un
suceso imposible.
5.3. El enfoque objetivo de la probabilidad 81
Si un suceso ocurre siempre, P (A) = 1. Un suceso que ocurre siempre se llama suceso cierto.
Por ejemplo, si tenemos una caja con 10 bolas negras, la probabilidad de seleccionar una bola negra
es la unidad. El suceso de seleccionar una bola negra es un suceso cierto.
Sin embargo, P (A) = 1 no significa necesariamente que el suceso A ocurra siempre. Según
nuestra definición, P (A) = 1 significa que, en un gran número de ensayos n, la frecuencia relativa
m/n del suceso A es aproximadamente (casi, prácticamente) igual a la unidad. Por lo tanto, P (A) =
1 significa que el suceso A se produce siempre o casi siempre y, por lo tanto, puede considerarse desde
un punto de vista práctico como un suceso seguro.
O podemos decir que cuando el experimento se realiza una vez, la ocurrencia del suceso es casi
(prácticamente) segura, y que cuando el experimento se repite un gran número de veces, ocurre con
tanta frecuencia que puede considerarse como un suceso cierto.
Cuatro de las características de este enfoque son
4. Se basa en la experiencia.
La mayor parte de la estadística desarrollada durante los últimos 50 años se basó en este enfoque
de la teoría de la probabilidad y se desarrolló principalmente en Inglaterra y América. La teoría
estadística basada en este enfoque de la probabilidad ha demostrado ser muy útil en las aplicaciones,
como veremos más adelante en este libro.
Sin embargo, también se han reconocido ciertas limitaciones de este enfoque de la probabilidad
y, por tanto, de la teoría estadística que se ha desarrollado. En particular, las dos primeras caracte-
rísticas que hemos mencionado anteriormente se convierten en restricciones. Hay casos en los que
evaluamos eventos sin que se produzcan realmente, y en los que no podemos repetir los experi-
mentos. Por ejemplo, se oyen afirmaciones como “hay un 50% de posibilidades de que un cohete se
estrelle en la luna”, aunque el acontecimiento no se haya producido realmente. O uno ve una afir-
mación como “las posibilidades de negociar nuevos contratos entre los sindicatos de trabajadores y
la industria siderúrgica están valoradas en un 50%”. O, cuando hay un combate de boxeo entre dos
boxeadores que nunca se han enfrentado, hay ciertas probabilidades. Como muestran estas ilus-
traciones, hay muchos casos que tienen probabilidades asociadas, aunque no haya repeticiones de
experimentos ni frecuencia real de ocurrencias.
Veamos si el enfoque subjetivo de la probabilidad, que consideramos a continuación, podrá
asignar probabilidades a casos como los mencionados anteriormente. Pero antes de eso, discuta-
mos brevemente un segundo enfoque de la teoría de la frecuencia.
El segundo enfoque define la probabilidad del suceso A como el límite de m/n cuando n tiende
a infinito. Así, podemos escribir
Nótese cuidadosamente que en el primer enfoque, decíamos simplemente que P(A) y mf n eran
prácticamente iguales cuando n era grande, mientras que en el segundo enfoque, decimos que P(A)
es el límite de mkt cuando n tiende a infinito.
En el primer enfoque, asignamos un número P(A) al suceso A y lo llamamos probabilidad de A.
En el segundo enfoque, P(A) es el límite de un proceso limitante.
En el primer enfoque, P(A) es una idealización de la regularidad estadística de la frecuencia re-
lativa de un suceso. El segundo enfoque requiere la existencia de un límite para la frecuencia relativa
de un suceso.
Como se ha mencionado anteriormente, utilizaremos el primer enfoque. Bastará con que el
alumno sepa que existe este segundo enfoque y lo reconozca cuando lo utilicen otros autores.
Cuadro 5.3
Como hemos visto antes, las ponderaciones pueden expresarse en términos proporcionales, de
modo que siempre sumen la unidad. Estos pesos proporcionales (o relativos) pueden considerarse
6
Op. cit., p. 3. Con permiso del autor y del editor.
5.5. Axiomas de la teoría de la probabilidad 83
Cuadro 5.4
Como puede verse, este enfoque subjetivo puede aplicarse a sucesos que aún no han ocurrido, o
a sucesos que sólo ocurren una vez, y no requiere un experimento con un gran número de ensayos ni
la asunción de una regularidad estadística. Además, el enfoque de la teoría de la primera frecuencia
también puede interpretarse en términos de este enfoque subjetivo como sigue:
Recordemos que el primer enfoque de la teoría de la frecuencia asignaba un número P (A) al
suceso A, que tenía la característica de que la frecuencia relativa m/n del suceso A (cuando el ex-
perimento se repite un gran número de veces) es prácticamente (casi) igual a P (A). Recordemos
también que en el enfoque subjetivo, P (A) era una medida de confianza que una persona razonable
asigna al suceso A. Por lo tanto, argumentaremos que si una persona se siente segura de que un
suceso ocurrirá con una frecuencia relativa m/n cuando el experimento se repita un gran número
de veces, asignará esta frecuencia relativa m/n al suceso como su probabilidad de ocurrencia.
La frecuencia relativa m/n de un suceso A fue considerada como una estimación de P (A) en la
discusión de la teoría de la frecuencia. Ahora simplemente asignamos este m/n al suceso A como
una estimación de la probabilidad del suceso A si estamos seguros de que el suceso A ocurrirá con
una frecuencia relativa m/n cuando n es grande.
Este enfoque subjetivo es evidentemente muy flexible y puede aplicarse a una gran variedad de
situaciones. En la discusión posterior se darán varios ejemplos de este enfoque. Por el momento,
sigamos con nuestro estudio de la probabilidad y consideremos a continuación el cálculo de la pro-
babilidad.
Con los antecedentes expuestos hasta este punto, enunciaremos primero los axiomas de la teoría
de la probabilidad y luego deduciremos varias reglas para el cálculo de probabilidades. Aunque se
utiliza la palabra “axioma”, estos axiomas no son a priori, sino que son suposiciones básicas hechas
por el hombre. Los tres axiomas son los siguientes:
P (Ei ) ≧ 0 (5.1)
Ilustremos primero el significado de estos tres axiomas en términos del enfoque de la teoría
de la frecuencia. Supongamos que se lanza un dado 200 veces con los resultados que aparecen en
el Cuadro 5.5. Si tenemos un dado justo, podemos calcular las probabilidades a priori mediante el
principio de razón insuficiente. Pero supongamos que el dado no es justo.
Cuadro 5.5
Además, la suma de las probabilidades de todos los posibles sucesos mutuamente excluyentes
es, como muestra el Cuadro 5.5
Por último, la probabilidad de que se produzcan dos sucesos mutuamente excluyentes, ya sea E1
o E2 , es
En cuanto al enfoque subjetivo, podemos utilizar pesos para expresar la importancia relativa de
un suceso. Hemos visto que cuando las ponderaciones se expresan en términos relativos, el cálcu-
lo de estas ponderaciones sigue los tres axiomas anteriores. Por tanto, las ponderaciones pueden
tratarse como probabilidades.
5.5. Axiomas de la teoría de la probabilidad 85
P (A o E3 ) = P (A) + P (E3 )
Ejemplo No. 1
Supongamos que tenemos una caja con 2 bolas rojas, 3 negras y 5 verdes. Cada vez que
se extrae una bola, se devuelve a la caja. Por tanto, las probabilidades de sacar una bola
de un color determinado son
Ejemplo No. 2
De cada 100 alumnos seleccionados, encontramos, en promedio
10 alumnos que tienen una calificación de 100
20 alumnos que tienen una calificación de 90
40 alumnos que tienen una calificación de 80
20 alumnos que tienen una calificación de 70
10 alumnos que tienen una calificación de 60
Hay 5 resultados (eventos) y las probabilidades de estos eventos son
Podemos utilizar estos axiomas para derivar otras reglas del cálculo de probabilidades. En pri-
mer lugar, definiremos las probabilidades condicionales y las utilizaremos para encontrar una regla
de multiplicación. A continuación, definiremos la independencia estadística y encontraremos una
segunda regla de multiplicación.
Supongamos que tenemos una urna con diez bolas numeradas del 1 al 10. Las 3 primeras bolas
(del 1 al 3) son de color rojo, y las otras bolas son de color verde. Hagamos el experimento de sacar
una bola al azar y devolverla a la urna. Asignaremos una probabilidad de 0.1 a cada bola, como se
muestra en el Cuadro 5.6.
5.6. Probabilidades condicionales 87
Evento Probabilidad
Eventos Probabilidad Compuesto Probabilidad Condicional
1 0.1 0.1/0.3 = 1/3
2 0.1 Rojo 0.3
3 0.1
4 0.1
5 0.1
6 0.1
7 0.1 Verde 0.7
8 0.1
9 0.1
10 0.1
1.0 1.0
Cuadro 5.6
Supongamos ahora que se ha extraído una bola y se nos dice que es una bola roja. Dado este
cambio en las condiciones en las que se realiza el experimento, ¿qué probabilidad habría que asignar
al suceso de sacar una bola con el número 3?
A partir de la información adicional de que es una bola roja, sabemos que la bola extraída es una
de las tres bolas numeradas como 1, 2 o 3.
En términos del concepto de población, esto puede interpretarse de la siguiente manera: La
población es la totalidad de las unidades elementales, es decir, las 10 bolas. Al proporcionar la in-
formación adicional y cambiar las condiciones iniciales, hemos restringido la población a una sub-
población de bolas rojas solamente. Esto se muestra gráficamente en la Figura 5.5. El gráfico de la
izquierda, (a), muestra la población total; el de la derecha, (b), muestra la sub-población formada
sólo por bolas rojas.
Verde
Rojo Rojo
(a) (b)
Figura 5.5
La cuestión es ahora: ¿Qué probabilidad debe asignarse a las tres bolas rojas de la sub-población?
Según los axiomas indicados en la Sección 5.5, la probabilidad total tiene que ser 1. También
sabemos que las probabilidades originales eran de 0.1 para cada bola. Por tanto, queremos asignar
nuevas probabilidades a estas tres bolas (sucesos) de forma que la proporción entre las probabilida-
des no cambie, pero que las probabilidades sumen 1.
88 Teoría de la Probabilidad
P (1) 0.1 1
P (1|r) = = =
0.3 0.3 3
P (2) 0.1 1
P (2|r) = = =
0.3 0.3 3
P (3) 0.1 1
P (3|r) = = =
0.3 0.3 3
donde, por ejemplo, P (1|r) significa la probabilidad de sacar una bola numerada como 1, dada
una bola roja (véase el Cuadro 5.6).
El total de estas nuevas probabilidades que hemos asignado es
1 1 1
+ + =1
3 3 3
Las probabilidades obtenidas después de haber cambiado las condiciones iniciales se llaman
probabilidades condicionales.
Los dos puntos a tener en cuenta en esta discusión son los siguientes:
1. Al cambiar las condiciones iniciales en las que se realiza un experimento, restringimos los
eventos a considerar a una sub-población.
2. Las probabilidades asignadas a los sucesos de esta sub-población son tales que los cocientes de
las probabilidades entre los sucesos son los mismos que en la población original, pero suman
la unidad.
P (roja) = 0.3
Esta es la probabilidad total de la sub-población de bolas rojas; y 0.1 es la probabilidad del suceso
conjunto de una bola roja numerada como 1. Recordemos que un suceso conjunto se mostraba con
1 y rojo. Por lo tanto, tenemos,
P (1 y roja) = 0.1
5.6. Probabilidades condicionales 89
P (1 y r)
P (1|r) =
P (roja)
Probabilidad del evento conjunto 1 y r
=
Probabilidad de la sub-población
Ejemplo No. 3
Dada una urna con 10 bolas numeradas del 1 al 10, ¿cuál es la probabilidad de seleccio-
nar la bola numerada 5 después de sacar una bola no numerada 5?
En el estado original, a cada bola se le asigna una probabilidad de 1/10 = 0.1 (Figu-
ra 5.6). Añadir la condición de que se saque una bola no numerada 5 y no se sustituya
es restringir la población a la subpoblación de 9 bolas. Por lo tanto, las probabilidades
que asignamos a las bolas de esta subpoblación se obtienen dividiendo la probabilidad
de cada bola (0.1) entre la probabilidad total de la subpoblación (0.9). Así pues,
P (5|no5) se lee como la probabilidad de seleccionar un 5, dado (suponiendo) que se
selecciona primero una bola no numerada como 5. En términos de nuestra fórmula tene-
mos
El suceso “5 y no 5” es igual al suceso 5. Por tanto,
P (5 y no 5) = P (5) = 0.1
y por lo tanto
0.1 1
P (5| no 5) = =
0.9 9
(a) (b)
Figura 5.6
P (B ∩ A)
P (B|A) =
P (A)
Hemos restringido la población total por una hipótesis A y hemos formado una sub-población
a partir de la cual calculamos la probabilidad de B. Estamos eligiendo A como el nuevo espacio
muestral. Por lo tanto, la probabilidad total en el nuevo espacio muestral en términos de las antiguas
probabilidades es P (A). Como es necesario que la probabilidad total en el nuevo espacio muestral
sea la unidad, tenemos que ajustar las probabilidades en A por el factor constante 1/P (A).
Ejemplo No. 4
Sea A el caso de que la persona sea un hombre. Entonces, la probabilidad de selec-
cionar a una persona que tenga tuberculosis, dado que es un hombre, es P (B|A) =
P (B ∩ A)
P (A)
donde P (B ∩ A) es la probabilidad de seleccionar a una persona que tenga tuberculosis
y sea un hombre. P (A) es la probabilidad de seleccionar a un varón.
Por ejemplo, supongamos que las probabilidades de los sucesos son las que se muestran
en el Cuadro 5.7.
El STB en el cuadro significa sin tuberculosis. La probabilidad condicional que buscamos
es
P (T B ∩ varón)
P (TB | varón) =
P (varón)
En términos de frecuencias, esto puede mostrarse como se calcula en el Cuadro 5.8. Su-
ponemos que se han seleccionado 700 personas.
Evento Probabilidad
Eventos Probabilidad Compuesto Probabilidad Condicional
Varón, TB 0.05 0.05/0.5 = 0.1
Varón, STB 0.45 Varón 0.5 0.45/0.5 = 0.9
Cuadro 5.7
5.6. Probabilidades condicionales 91
Mujer, TB 70 0.10
Mujer, STB 280 0.40 Mujer 350 0.5
700 700
Cuadro 5.8
Las frecuencias relativas se utilizan como estimaciones de las probabilidades. El resultado compu-
tacional de la probabilidad condicional P (T B| Varón) es el mismo que el anterior, 0.1.
Ejemplo No. 5
Sea B el suceso de que una persona tenga un coeficiente intelectual (CI) superior a 110
y A el suceso de que la persona elegida sea universitaria. La probabilidad de que una
persona elegida al azar tenga un CI superior a 110, dado que es un graduado universita-
rio, es
P (B ∩ A)
P (B | A) =
P (A)
donde P (B ∩ A) es la probabilidad de que la persona elegida tenga un coeficiente in-
telectual superior a 110 y sea un titulado universitario. P (A) es la probabilidad de elegir
a una persona con estudios universitarios. A modo de ejemplo, supongamos que las
probabilidades son las que aparecen en el Cuadro 5.9.
La probabilidad condicional que buscamos es
Evento Probabilidad
Eventos Probabilidad Compuesto Probabilidad Condicional
Univ., sup. a 110 0.3 0.3/0.4 = 0.75
Univ., 110 o menos 0.1 Universidad 0.4 0.1/0.4 = 0.25
Cuadro 5.9
92 Teoría de la Probabilidad
Sin Universidad
+ 110
Universidad 0.2 Universidad
+ 110 110 o − + 110
0.3 0.75
0.4
110 o − 110 o −
0.1 0.25
0.4 0.6 1.0
Figura 5.7
Ejemplo No. 6
Utilizando las probabilidades del Ejemplo 3, hallemos la probabilidad condicional de
seleccionar a un estudiante universitario, dada una persona con un CI superior a 110. Es
decir, hallemos P (universidad | mayor de 110). Para ello, construimos el Cuadro 5.10. La
probabilidad condicional que buscamos es
Evento Probabilidad
Eventos Probabilidad Compuesto Probabilidad Condicional
Sup. a 110, Universidad 0.3 0.3/0.5 = 0.6
Sup. a 110, sin Universidad 0.2 100 o menos 0.5 0.2/0.5 = 0.4
Cuadro 5.10
Figura 5.8
P (B ∩ A) = P (A)P (B|A)
P (A ∩ B)
P (A|B) =
P (B)
y por tanto
P (A ∩ B) = P (B)P (A|B)
Ejemplo No. 7
De todos los estudiantes, el 30 por ciento recibe una calificación de 80 (suceso A). De
todos los estudiantes que reciben una 80, el 40 por ciento son mujeres (suceso B). ¿Cuál
es la probabilidad de que un estudiante seleccionado al azar sea una mujer y tenga una
calificación 80?
El suceso de que una mujer obtenga una calificación 80 es el suceso conjunto A y B.
También sabemos que
Ejemplo No. 8
Supongamos que tenemos 5 estudiantes. ¿Cuál es la probabilidad de seleccionar al
primer y tercer alumno en ese orden? Supongamos que cada alumno tiene la misma
probabilidad de ser seleccionado. Entonces la probabilidad de seleccionar al primer
alumno (suceso A) es P (A) = 1/5.
La probabilidad de seleccionar al tercer alumno (suceso B), dado que el primer alumno
ha sido seleccionado, es (ya que ahora quedan cuatro alumnos)
1
P (B|A) =
4
Por tanto, la probabilidad del suceso A y B es
1 1 1
P (A ∩ B) = P (A)P (B|A) = · =
5 4 20
P (B ∩ A)
P (B|A) =
P (A)
Construyamos una tabla con todos los sucesos, el Cuadro 5.11. Los números 1 − 2, 1 − 3, y
demás, en la tabla significan: el orden de selección es (Primer alumno - Segundo alumno), (Primer
alumno - Tercer alumno), y así sucesivamente. En el Cuadro 5.11 encontramos
1
P (B ∩ A) 1
P (B|A) = = 20 =
P (A) 4 4
20
Evento Probabilidad
Eventos Probabilidad Compuesto Probabilidad Condicional
1-2 1/20 1/4
1-3 1/20 1/4
1-4 1/20 Primer estudiante 4/20 1/4
1-5 primero
2-1
2-3
2-4
... ...
5-3
5-4
1.00
Cuadro 5.11
5.8. Independencia estadística 95
Supongamos que se lanza una vez una moneda justa. El suceso de que salga escudo (suceso A)
es 1/2. Sea el suceso B el suceso de lanzar la moneda por segunda vez y obtener un escudo. ¿Cuál es
la probabilidad del suceso B (segundo escudo), dado el suceso A (primer escudo)? Es decir, ¿cuál
es P (B|A)?
Observamos que la aparición del segundo escudo no está influida por la primera. Es decir, la
aparición del segundo escudo es independiente del primero. En este caso, diremos que el suceso B
es estadísticamente independiente del suceso A.
En términos de símbolos, tenemos
1
P (B|A) = P (B) = (5.4)
2
Pero, como tenemos de la ecuación
Las fórmulas (5.7) y (5.8) muestran que la probabilidad de que se produzcan conjuntamente los
sucesos A y B, estadísticamente independientes, es igual al producto de las probabilidades de estos
sucesos. De este modo, hemos obtenido una regla para la multiplicación de las probabilidades de
sucesos independientes.
Sustituyamos las fórmulas (5.7) y (5.8) en (5.6). Entonces
P (B ∩ A) P (B)P (A)
P (B|A) = = = P (B) (5.9)
P (A) P (A)
96 Teoría de la Probabilidad
P (A ∩ B) P (A)P (B)
P (A|B) = = (5.10)
P (B) P (B)
Nuestro resultado muestra que las fórmulas (5.7) y (??) implican independencia estadística.
Por lo tanto, diremos: Si la fórmula (5.7) o (5.8) se cumple, los sucesos A y B son estadísticamente
independientes.
Esta regla de multiplicación de sucesos independientes puede generalizarse a cualquier número
de sucesos. Por ejemplo, dejemos que el suceso A sea escudo en el primer lanzamiento de una mo-
neda justa, que el suceso B sea escudo en el segundo lanzamiento y que el suceso C sea escudo en
el tercer lanzamiento. Observamos que los tres sucesos son independientes entre sí. En particular,
la unión A y B es independiente de C. Por lo tanto, aplicando nuestra regla, encontramos que la
probabilidad del suceso conjunto A y B y C (es decir, obtener una escudo en el primer, segundo y
tercer lanzamiento) es
P (A ∩ B ∩ C) = P (A ∩ B)P (C)
Pero
P (A ∩ B) = P (A)P (B)
Por lo tanto,
P (A ∩ B ∩ C) = P (A)P (B)P (C) (5.12)
1 1 1 1
P (A ∩ B ∩ C) = · · =
2 2 2 8
Esta fórmula (5.12) puede generalizarse de forma similar a más de tres sucesos.
Ejemplo No. 9
La máquina A tiene una probabilidad de 0.1 de pararse por una avería. La máquina B
tiene una probabilidad de 0.2 de pararse. Se supone que las máquinas A y B son esta-
dísticamente independientes entre sí. ¿Cuál es la probabilidad de que ambas máquinas
se detengan al mismo tiempo?
Ejemplo No. 10
En una oficina hay tres mecanógrafos y cada uno tiene una probabilidad de 0.2 de estar
ausente. Suponiendo que los eventos de estar ausente son independientes, ¿cuál es la
probabilidad de que las tres secretarias estén ausentes el mismo día? Sean A, B y C los
sucesos de ausencia de las respectivas secretarias. Entonces
Ejemplo No. 11
Dada una urna que tiene 10 bolas rojas, 20 negras y 70 verdes. Se seleccionan cuatro
bolas al azar, de una en una, y se devuelven a la urna. ¿Cuál es la probabilidad de selec-
cionar rojo, negro, verde y verde en ese orden?
Fíjate bien en la salvedad, “en ese orden”. El caso en el que no se tiene en cuenta el orden se
analiza en el capítulo 7.
El lector astuto puede plantear ahora la pregunta: ¿Son legítimas estas probabilidades que se
han obtenido a partir de la regla de la multiplicación? Para que sean probabilidades legítimas, de-
ben satisfacer el axioma básico, que establece que las probabilidades deben ser no negativas y ade-
más sumar la unidad. Que sean no negativas es obvio, ya que son el producto de probabilidades no
negativas. Lo que hay que comprobar es si suman la unidad.
Consideremos como ejemplo una moneda cargada, en la que
P (Escudo) = P1 , P (Corona) = P2
P (Escudo) = P3 , P (Corona) = P4
donde P3 6= 1/2, P4 =
6 1/2, P3 + P4 = 1.
Cuando ambas monedas se lanzan juntas, hay cuatro resultados posibles (es decir, sucesos sim-
ples), como se muestra en la Figura 5.9. Los resultados son:
Moneda 2
E C Moneda 1
Figura 5.9
Es decir, las probabilidades que asignamos a los cuatro sucesos simples, utilizando la regla de
la multiplicación, satisfacen los dos requisitos del axioma básico y, por tanto, son probabilidades
legítimas.
Resulta que esto es cierto en general. Por lo tanto, podemos proceder y utilizar la regla de la mul-
tiplicación para asignar probabilidades a sucesos simples que han sido generados por experimentos
estadísticamente independientes.
Antes de concluir este capítulo, consideremos dos ideas más, la expectativa matemática y la va-
riable aleatoria, que utilizaremos una y otra vez en nuestras discusiones posteriores. La expectativa
matemática de una variable X, como veremos, es simplemente su media aritmética ponderada pre-
sentada en términos de probabilidad. Primero ilustraremos este nuevo concepto.
Supongamos que cuando se lanza una moneda justa se obtienen 2 dólares si sale escudo y 3
dólares si sale corona. ¿Cuánto espera obtener por cada lanzamiento cuando se juega a este juego
una y otra vez? Supongamos que el juego se juega 10 veces y que hay 4 escudos y 6 coronas. Entonces
la cantidad total de dinero que se obtiene es
$2 · 4 + $3 · 6 = 26$
Estos 4/10 y 6/10 son las frecuencias relativas de obtener una cabeza y una cola. Cuando este
juego se juega muchas veces, estas frecuencias relativas se acercarán a 1/2. Por lo tanto, podemos
decir: Si el juego se juega un gran número de veces, la cantidad media de dinero que se obtiene por
partida será aproximadamente
1 1
$2 · + $3 · = $2.5
2 2
Replanteamos los resultados en términos de símbolos: La variable X es la cantidad de dinero
recibida, y los valores que toma son x1 = $2.00 y x2 = $3.00. Cuando el juego se juega un gran
número de veces, hay un gran número de observaciones, pero son x1 = $2, 00 o x2 = $3, 00. Sea
P (E) = 1/2 y P (C) = 1/2. Entonces, el resultado puede expresarse como
1 1
x1 P (E) + x2 P (C) = $2 · + $3 · = $2.5
2 2
Ahora podemos formalizar esta idea como sigue:
Sea X una variable con resultados x1 y x2 , que ocurren con probabilidad P (X = x1 ) y P (X =
x2 ). La esperanza matemática de la variable X, que denotamos por E(X), se define como
E(X) = x1 P (x1 ) + x2 P (x2 ) (5.13)
En general, si X tiene n resultados, entonces
E(X) = x1 P (x1 ) + x2 P (x2 ) + · · · + xn P (xn ) (5.14)
Ejemplo No. 12
Supongamos que se obtiene $1, $2, $3, $4, $5, $6, cuando se obtiene un 1, 2, 3, 4, 5 o 6 al
lanzar un dado. Entonces la variable X tiene seis resultados: $1, $2, . . . , $6. Por lo tanto,
suponiendo un dado justo, el valor esperado de X es
E(X) = $1 · P (X = 1) + $2 · P (X = 2) + $3 · P (X = 3) + $4 · P (X = 4)
+ $5 · P (X = 5) + $6 · P (X = 6)
1 1 1 1 1 1 21
= $1 · + $2 · + $3 · + $4 · + $5 · + $6 · = $ = $3.5
6 6 6 6 6 6 6
Ejemplo No. 13
Considere una lotería con 1000 boletos. Cada billete es de $25 y el premio es de 12500
dólares. La variable X tiene dos resultados, ganar ($12500 - $25) o perder $25. Por tanto,
la esperanza matemática de X es
Es decir, los patrocinadores de la lotería pueden esperar ganar $12.5 por billete. Así, por
1000 boletos, ganan 12500 dólares. Esto es coherente con el hecho de que la venta total
de boletos es de 25000 dólares y el premio es de 12500 dólares.
100 Teoría de la Probabilidad
Ejemplo No. 14
En el ejemplo anterior, suponga que ha comprado 500 boletos. ¿Cuál es la expectativa
matemática? Como 500 boletos le costarán 12500 dólares,
Supongamos que la variable aleatoria X tiene n resultados. Entonces, como hemos visto ante-
riormente, E(X) es la media de la población y, por tanto, podemos escribir E(X) = µ. La varianza
se convierte así en
1
V ar(X) = (x1 − µ)2 + (x2 − µ)2 + · · · + (xn − µ)2
n
1X
n
= (xi − µ)2
n
i=1
5.10 Resumen
P (A o B) = P (A) + P (B)
P (B ∩ A)
P (B|A) = , P (A) > 0
P (A)
P (B ∩ A) = P (A)P (B|A)
P (B|A) = P (B)
y
P (A ∩ B) = P (A)P (B)
5. La expectativa de X es
E(X) = x1 · P (X = x1 ) + x2 · P (X = x2 ) + · · · + xn · P (X = xn )
6. La varianza de X es
6.1 Introducción
103
104 La Curva Normal y el Cuadro de Áreas Normales
CI f
60 - 69 26
70 - 79 56
80 - 89 145
90 - 99 230
100 - 109 235
110 - 119 182
120 - 129 82
130 - 139 31
140 - 149 13
1000
Cuadro 6.1
Figura 6.1
situaciones prácticas quedará claro a medida que se desarrolle nuestra discusión y se presenten ilus-
traciones.
Las propiedades de esta curva normal son
2. Como resultado, la media está en el centro y divide el área por la mitad, y la media, la mediana
y la moda son idénticas.
El tercer punto puede desconcertar al lector porque, en nuestra ilustración, la distribución del
6.2. Explicación heurística de la curva normal y la tabla de áreas normales 105
Figura 6.2
CI tiene un límite inferior de cero, y todavía no se ha encontrado a nadie con un CI superior a 250.
Como se ha mencionado, la curva normal es un modelo ideal, y las distribuciones reales con las
que tratamos son aproximaciones y suelen estar truncadas en ciertos límites superiores e inferiores.
No obstante, se suelen tratar como si fueran las distribuciones normales ideales que se utilizan para
calcular las probabilidades de los sucesos. Esta aproximación es admisible y suele tener muy poco
efecto en los resultados prácticos que se derivan.
Nuestro objetivo, como decíamos al principio, es aprender a encontrar la probabilidad de un
suceso utilizando la curva normal y la tabla de áreas normales. Construyamos ahora una distribución
hipotética y discutamos este problema.
En el capítulo 5 afirmamos que la suma de las probabilidades de todos los sucesos posibles es
la unidad. También sabemos que el área bajo una curva normal que representa una distribución de
frecuencias muestra gráficamente todos los sucesos posibles.
Por tanto, para establecer una conexión entre la teoría de la probabilidad y una curva normal,
queremos representar el área bajo una curva normal en términos de proporciones y decir que el área
total bajo la curva es la unidad. Utilizaremos un caso hipotético para derivar esta propiedad.
Supongamos que se dispara 200 veces con un rifle fijo a un blanco dividido en franjas vertica-
les de 1 pulgada (Figura 6.3). Después de contar los disparos sobre el blanco, digamos que hemos
obtenido los resultados que se muestran en el Cuadro 6.2.
Por ejemplo, entre 1 y 2 pulgadas, hubo 32 disparos; y así sucesivamente. Como hay 200 disparos,
y 32 de ellos cayeron entre 1 y 2 pulg. del centro, la frecuencia relativa de disparos que caen entre 1
y 2 pulg. es 32/200 = 16/100, o sea 0.16.
106 La Curva Normal y el Cuadro de Áreas Normales
-4 -3 -2 -1 0 1 2 3 4
Figura 6.3
Frecuencia
Clase Frecuencia Relativa
-5 a -4 2 0.01
-4 a -3 4 0.01
-3 a -2 12 0.01
-2 a -1 28 0.01
-1 a 0 48 0.01
0a1 52 0.01
5a2 32 0.01
5a3 16 0.01
5a4 4 0.01
4a5 2 0.01
200 1.00
Cuadro 6.2
Utilizamos la tabla de frecuencias para dibujar un histograma con una escala vertical en el lado
izquierdo, como en la Figura 6.4. Entonces el área de este histograma será
Área =(1 · 2) + (1 · 4) + (1 · 12) + · · · + (1 · 16)+
(1 · 4) + (1 · 2) = 200
Figura 6.4
deraremos esta frecuencia relativa como una estimación de las probabilidades. Por ejemplo, entre 1
y 2 pulgadas, como hemos dicho anteriormente, habría 32 disparos. Ahora decimos que la probabi-
lidad de que un disparo (es decir, un suceso) caiga entre 1 y 2 pulgadas es de 0.16. La probabilidad
de que un disparo caiga entre 1 y 3 pulgadas será de 0.16 + 0.08 = 0.24. La probabilidad de que
un disparo caiga en algún lugar del objetivo será la suma de todos los rectángulos que componen el
área completa, que es 1.
Ajuste una curva de frecuencias suave a este histograma y suponga que hemos podido ajustar
la curva de forma que el área bajo la curva y el área del histograma sean iguales. Así, el área bajo la
curva de frecuencias (que suponemos que es una curva normal) es igual a 1.00.
Como ya hemos dicho, el punto medio de la curva normal es la media. Las propiedades de la
curva normal son tales que podemos calcular las proporciones del área situada entre la media y el
valor indicado utilizando la desviación estándar. Por ejemplo, cuando el valor indicado (x) está a una
desviación estándar de la media µ, la proporción del área entre x1 y µ (es decir, el área sombreada
en la Figura 6.5) con respecto al área total bajo la curva es del 34.13%.
Cuando x2 está a 2 desviaciones estándar, el área entre x2 y µ es del 47.73%. Siempre medimos la
desviación de x respecto a la media µ. Los matemáticos han calculado todas estas proporciones para
nosotros y las han organizado en forma de tabla. Esto se conoce como la tabla de áreas normales.
Supongamos que la distribución del CI de los reclutas del ejército tiene una distribución normal,
con µ = 100 y σ = 10. Entonces, ¿cuál es la proporción de reclutas del ejército que tienen un CI
entre 100 y 105? Queremos encontrar en un diagrama el área de la proporción sombreada en la
Figura 6.6.
La desviación entre 100 y 105 en términos de desviaciones estándar es
108 La Curva Normal y el Cuadro de Áreas Normales
Figura 6.5
Figura 6.6
6.2. Explicación heurística de la curva normal y la tabla de áreas normales 109
Mostremos ahora cómo se utiliza la tabla de áreas normales para encontrar la proporción som-
breada. El Cuadro ?? es una parte de la tabla de áreas normales. (Véase la tabla 2 en el Apéndice para
la tabla completa.) Dado que la desviación x − µ es 0.5 de desviación estándar, encontramos que la
proporción correspondiente en la tabla es 0.3085. Este 0.3085 es la proporción del área sombreada
en la cola de la Figura 6.7. Observe que las proporciones en la tabla del área normal muestran el área
bajo el extremo de la cola de la curva normal.
Figura 6.7
Como el área total bajo la curva normal es 1.0, cada mitad es 0.5. Por lo tanto, el área sombreada
que buscamos en la Figura 6.6 es
0.5 − 0.3085 = 0.1915
Es decir, la proporción del área sombread.a es 0.1915, o el 19.15 por ciento, del área total.
¿Qué significa esto? En primer lugar, hay que tener en cuenta que el acontecimiento considerado
es la aparición de reclutas con un CI entre 100 y 105. Denotemos este suceso por A. Entonces,
la probabilidad que buscamos es la probabilidad de que haya reclutas con CI entre 100 y 105. Es
decir, P (A) A partir de nuestra discusión del área bajo la curva normal, vemos que 0,1915 es esta
probabilidad; es decir,
P (A) = 0.1915
Hay dos tipos de tablas de área normal: Una da la proporción del área del extremo de la cola,
como se muestra en el área designada por I en la Figura 6.8; una segunda da el área que se designa
por II en la Figura 6.8. Si la proporción de I es 0.20, entonces la proporción dada por el segundo tipo
de tabla es 0.50 − 0.20 = 0.30.
La tabla que se utiliza en este libro es del primer tipo porque, en nuestra discusión subsiguiente
sobre la inferencia estadística, normalmente nos preocuparemos por el área en la cola de la curva
normal.
110 La Curva Normal y el Cuadro de Áreas Normales
Figura 6.8
Ejemplo No. 3
¿Cuál es la proporción de reclutas del ejército que tienen un CI entre 100 y 105.7? Supo-
nemos que µ = 100 y σ = 10
105.7 − 100 5.7
z= = = 0.57
10 10
En la tabla de áreas normales encontramos 0.2843. Por tanto, la proporción que quere-
mos es
Ejemplo No. 4
¿Cuál es la proporción de reclutas del ejército entre 103 y 105.7? Dibujemos un diagrama
(Figura 6.9) como ayuda visual para mostrar esta situación. Primero hallemos z:
103 − 100 3.0
z= = = 0.30
10 10
Entonces, a partir de la tabla de áreas normales, la proporción del área a la derecha de
103 es 0.3821. Sabemos por el ejemplo 1 que la proporción correspondiente a 105.7 es
0.2843. Por tanto, el área sombreada que buscamos es
Figura 6.9
Ejemplo No. 5
¿Qué proporción de los reclutas del ejército tienen un CI inferior a 83.6? Para ello tene-
mos
83.6 − 100 −16.4
z= = = −1.64
10 10
Gráficamente, es la cola de la curva de la Figura 6.10. A partir de la tabla de áreas nor-
males encontramos que es 0.0505. Observe que el signo menos indica que el área es el
lado izquierdo de la curva normal. El signo positivo indica que se trata del lado derecho
de la curva normal.
Ejemplo No. 6
¿Cuál es la proporción por encima de 120? Cuando
120 − 100
z= =2
10
encontramos en la tabla de áreas normales que la proporción es 0.0228.
Tres proporciones que aparecerán una y otra vez en la discusión posterior son
Figura 6.10
Expresemos ahora los resultados de los ejemplos anteriores en términos de probabilidad. enun-
ciados para que podamos ver claramente la relación entre las probabilidades y la curva normal de
área. Para el ejemplo 1. sabemos que
x−µ
z=
σ
y por tanto
P (x ≥ 105.7) =
x − 100 105.7 − 100
=P ≥
10 10
= P (z ≥ 0.57)
= 0.2843
P (103 ≤ x ≤ 105.7) =
103 − 100 x − 100 105.7 − 100
=P ≤ ≤
10 10 10
= P (0.3 ≤ z ≤ 0.57)
= 0.3821 − 0.2843 = 0.0978
P (x ≤ 83.6) =
x − 100 83.6 − 100
=P ≤
10 10
= P (z ≤ −1.64)
= 0.0505
En la Sección 6.1 se mencionó que la curva normal tiene una importancia fundamental en es-
tadística porque un gran número de fenómenos pueden explicarse en términos de la distribución
normal. Una pregunta que surge naturalmente es: ¿Por qué? Para responder a esta pregunta, primero
tenemos que investigar varias propiedades estadísticas relacionadas con la distribución normal.
Sea ξ1 , una variable que denota el CI de los alumnos de la escuela A, y sea ξ2 una variable que
denota el CI de los alumnos de la escuela B. Supongamos que ξ1 , se distribuye normalmente con
media µ1 y varianza σ12 y que ξ2 también se distribuye normalmente con media µ2 y varianza σ22 .
Supondremos también que ξ1 y ξ2 son estadísticamente independientes.
Enunciamos sin demostración los dos teoremas siguientes:
ξ = ξ1 + ξ2
Entonces ξ se distribuye normalmente. Además, la media µ y la varianza σ 2 de ξ vienen dadas
por
µ = µ1 + µ2
σ 2 = σ12 + σ22
114 La Curva Normal y el Cuadro de Áreas Normales
ξ = ξ1 + ξ2
6.3.2 Generalización
Una cuestión que se plantea ahora es: ¿Qué pasa si las variables aleatorias no se distribuyen nor-
malmente? Resulta que, bajo ciertas condiciones, la suma de variables aleatorias independientes es
asintóticamente normal. Asintóticamente normal significa que la suma se acercará a una distribu-
ción normal a medida que el número (n) de variables aleatorias que se suman sea grande. Esto, muy
poco rigurosamente, se llamará teorema del límite central.
Es demasiado difícil discutir las condiciones en las que este teorema se cumple. Sin embargo,
podemos discutir muy fácilmente cómo este teorema ayuda a explicar por qué un gran número de
fenómenos muestran aproximadamente una distribución normal.
Podemos ilustrarlo con los coeficientes intelectuales que se sabe que se distribuyen normalmen-
te. El CI de los niños puede considerarse una variable aleatoria que puede verse afectada por un gran
número de causas independientes entre sí (padres, condiciones de vida, ubicación, amigos, etc.).
Supongamos que estas causas mutuamente independientes son variables aleatorias que se suman y
afectan al CI de un niño, y además que hay muchas de estas variables aleatorias que contribuyen
y que cada una de ellas contribuye sólo con un efecto muy pequeño. Suponiendo estos efectos, se
puede utilizar el teorema del límite central para explicar por qué el CI se distribuye normalmente.
Obsérvese cuidadosamente que el teorema del límite central proporciona una explicación de por
qué el CI se distribuye normalmente; no demuestra que el CI se distribuya normalmente.
Consideremos ahora el ejemplo de los disparos de rifle. La variable aleatoria era la desviación del
disparo desde el centro del blanco. Suponiendo que no hay un sesgo sistemático, podemos pensar
que la desviación de un disparo se ve afectada por un número muy grande de causas independientes
entre sí, como un ligero cambio en el viento, un ligero cambio en la presión atmosférica, una peque-
ña diferencia en el peso de la bala o un ligero cambio en la condición física del tirador. Entonces,
teniendo en cuenta el teorema del límite central, podemos conjeturar que las desviaciones de los
disparos (que se ven afectadas por un gran número de causas independientes, cada una de las cuales
tiene un efecto muy pequeño) pueden tener una distribución aproximadamente normal. Tomando
una muestra de las desviaciones, podemos comprobarlo experimentalmente.
Aunque sólo se han presentado dos ejemplos, es bastante fácil ver que hay muchos otros ejem-
plos en problemas tecnológicos, problemas de mediciones, problemas biológicos, problemas eco-
nómicos, etc., en los que la variable aleatoria se ve afectada por un número muy grande de causas
independientes entre sí, cada una de las cuales tiene un efecto muy pequeño. De ahí que podamos
deducir que un gran número de distribuciones serán aproximadamente normales. La experiencia
ha demostrado que así es. Pero, una vez más, el teorema del límite central no demuestra la existencia
de distribuciones normales como las mencionadas en los ejemplos. Se ha utilizado únicamente para
explicar o esperar (inferir, conjeturar) el fenómeno de las variables con distribución aproximada-
mente normal.
6.3. Discusión de la distribución normal 115
En el apartado anterior hemos mostrado cómo se pueden calcular las probabilidades de los suce-
sos utilizando la tabla de áreas normales. En esta sección hemos mostrado cómo podemos esperar
que un gran número de fenómenos se distribuyan aproximadamente de forma normal, y se sabe
por experiencia que un gran número de fenómenos tienen distribuciones aproximadamente nor-
males. De ahí que la distribución normal tenga una amplia aplicación en estadística y sea una de las
distribuciones más importantes.
Otra razón por la que la distribución normal es importante es que tiene una serie de propiedades
matemáticas deseables. Algunas de ellas se describirán más adelante.
La tabla de áreas normales se basa en una distribución normal continua, o, podríamos decir, en
una curva normal continua. Sin embargo, en muchas aplicaciones prácticas, los datos son discretos,
y en tales casos es necesario aplicar una corrección de continuidad. Utilicemos un ejemplo para
explicarlo.
Supongamos que la media del número de cerdos en una granja de un determinado condado es
de 120 cerdos y la desviación típica es de 20 cerdos. ¿Cuál es la probabilidad de que haya 150 cerdos
o más en una granja? Supondremos que la distribución del número de cerdos es aproximadamente
normal.
Obviamente, cuando tenemos datos discretos y utilizamos la tabla normal de áreas, que se basa
en una distribución continua, necesitamos una corrección de 1/2 al calcular las probabilidades.
Esto se llama corrección de continuidad. Que el 1/2 se sume o se reste del valor de X dependerá de
la naturaleza del problema. Lo mejor es dibujar algunas barras del diagrama y razonar si hay que
sumar o restar la 1/2. Unas cuantas ilustraciones aclararán el procedimiento.
Utilizando la tabla de áreas normales, encontramos para el primer ejemplo,
1 1
X− −µ 150 − − 120
2 2
z= =
σ 20
29.5
= = 1.475
20
Encontramos en la tabla de áreas normales que el área que buscamos está entre 0.0708 (para
1.47) y 0.0694 (para 1.48). Por interpolación lineal encontramos 0.0701. Es decir, la probabilidad
de que haya 150 cerdos o más en una explotación es de 0.0701.
El área (probabilidad) cuando no se utiliza la corrección de continuidad es 0.0668, ya que z =
1.5.
Para encontrar el área (probabilidad) entre 130 y 150 inclusive, lo abordamos en dos pasos.
Pero primero dibujemos un diagrama como ayuda visual (Figura 6.11). Sea A el área de 130 a la
derecha, y sea el área B de 150 a la derecha. Entonces el área que buscamos es A − B. Para el área
A encontramos, ya que 130 está incluido,
1
130 − − 120
2 9.5
z= = = 0.475
20 20
116 La Curva Normal y el Cuadro de Áreas Normales
Figura 6.11
Por tanto, el área (probabilidad) es, según la tabla, 0.3174. Si no se utiliza la corrección de con-
tinuidad, z será 0.5 y la probabilidad será 0.3085.
Para el área B encontramos
1
150 + − 120
2 30.5
z= = = 1.525
20 20
Es decir, la probabilidad de que el número de cerdos esté entre 130 y 150 inclusive es de 0.2538.
Cuando no se utiliza la corrección de continuidad, el área pasa a ser
Es decir, la probabilidad de que el número de cerdos esté entre 130 y 150 es de 0.2417.
6.4. Ordenada de la distribución normal 117
La Cuadro 2 del apéndice muestra los valores de las ordenadas de la distribución normal1 . La
primera columna, que muestra los valores de z, es la misma que la tabla de áreas y muestra la distan-
cia a la media en términos de desviaciones estándar. Por ejemplo, z = 1.3 significa que la distancia
a la media es de 1.3 desviaciones típicas. El valor correspondiente a las z en el cuerpo de la tabla
muestra la densidad de frecuencia en ese punto. Por ejemplo, el valor correspondiente a z = 1.3 es
0.1714, que muestra la densidad de frecuencia en z = 1.3. Explicamos el significado de esta tabla
mostrando cómo se puede calcular el área bajo la curva normal utilizando estos valores de ordenadas
e intervalos.
EL Cuadro 6.3 muestra los valores de las ordenadas de la curva normal tomados de la tabla de
ordenadas a intervalos de 0.5. La figura que se forma es un histograma que se ha dibujado a partir
de estas ordenadas: para z = 0, la ordenada es 0.3989; para z = 0.5, es 0.3521, y así hasta el final.
Cuadro 6.3
ya que la anchura es 0.5÷2 = 0.25. Por lo tanto, la suma de las áreas de las barras del lado derecho
del histograma es (como muestran los cálculos del Cuadro 6.3) 0.499925 y es aproximadamente 0.5,
como esperábamos.
El cálculo es similar para el lado izquierdo. Así, el área total bajo el histograma es aproximada-
mente 1.0.
A medida que la anchura de los intervalos se hace más pequeña, la forma del histograma se
acercará a la forma de una curva normal que tiene una media de cero, una desviación estándar de
unidad y un área de unidad.
1
Véase el apartado 16.7, sección 4, para ilustrar el uso de las ordenadas de la distribución normal
CAPÍTULO 7
Distribución de Muestreo
Cuando hay 20 000 reclutas del ejército, ¿cuántas formas diferentes hay de seleccionar una mues-
tra de 100 reclutas? Empecemos con ejemplos muy sencillos y trabajemos para obtener la respuesta.
entre otros. El primer elemento de la muestra puede seleccionarse de 4 maneras diferentes. Del
mismo modo, el segundo elemento también puede seleccionarse de 4 formas diferentes. Por
119
120 Distribución de Muestreo
lo tanto, el número total de muestras de tamaño 2 que pueden seleccionarse con reemplazo es
4 · 4 = 42 = 16
A :AA AB AC AD
B :BA BB BC BD
C :CA CB CC CD
D :DA DB DC DD
4 · 3 = 12,
es decir, hay 12 muestras posibles. Las 4 muestras AA, BB, CC y DD se eliminan de las 16
muestras anteriores.
Cuando seleccionamos una muestra de tamaño 3, sin reemplazo, tenemos
4 · (4 − 1) · (4 − 2) = 24
es decir, hay 24 muestras posibles.
En general, cuando tenemos n elementos y seleccionamos muestras de tamaño r sin reem-
plazo, habrá
n · (n − 1) · (n − 2) · · · · · (n − r + 1) = (n)r
muestras posibles. Escribimos (n)r para indicar los cálculos anteriores.
3. r = n es el caso de encontrar de cuántas maneras diferentes podemos ordenar n elementos.
A partir de nuestros resultados anteriores, es
4. Cuando decimos combinaciones, no tenemos en cuenta el orden. Así, AB y BA son las dos
ordenaciones de una misma combinación AB. Cuando tenemos una combinación ABC, hay
3! = 6 ordenaciones de estos tres elementos. Cuando tenemos n elementos diferentes, hay una
combinación de los n elementos, pero hay n! ordenaciones diferentes.
5. Ahora juntemos estos elementos. Tenemos una combinación de 4 letras, ABCD. Tomamos
una muestra de tamaño 3. Entonces hay (4)3 formas diferentes de seleccionar muestras de
tamaño 3 sin reemplazo cuando se considera el orden.
Cada una de las muestras de tamaño 3 puede ordenarse de 3! maneras diferentes. Por lo tan-
to, el número de muestras de tamaño 3 sin reemplazo que se pueden seleccionar cuando no
tenemos en cuenta el orden de las letras dentro de cada muestra será
(4)3 4·3·2
= =4
4 3·2·1
Estas 4 muestras son
ABC, ABD, ACD, BCD
Definimos
n
0! = 1 y =1
0
n
Este se conoce como coeficiente binomial, y ahora procederemos a utilizarlo.
r
Ejemplo No. 1
Hay 6 alumnos. Hay que seleccionar un grupo de 5 alumnos para formar un equipo de
baloncesto. ¿Cuántas formas diferentes hay de seleccionar a 5 alumnos?
n 6 (6)5 6·5·4·3·2
= = = =6
r 5 5! 5·4·3·2·1
Es decir, hay 6 formas diferentes de seleccionar un equipo de 5.
Ejemplo No. 2
El número de posibles formas diferentes de seleccionar 5 cartas de una baraja de 52
cartas es
122 Distribución de Muestreo
52 (52)5 52 · 51 · 50 · 49 · 48
= = = 2 598 960
5 5! 5·4·3·2·1
Ejemplo No. 3
El número de posibles manos diferentes de 13 cartas es
52 (52)13
= = 635 013 559 600
13 13!
Hay aproximadamente 1 posibilidad entre 635 mil millones de obtener una determinada
mano de poker.
Ejemplo No. 4
Un grupo de 10 invitados debe dividirse en 2 grupos de 5 cada uno y sentarse en 2 me-
sas. ¿De cuántas maneras diferentes se puede dividir a los invitados?
10 (10)5 10 · 9 · 8 · 7 · 6
= = = 252
5 5! 5·4·3·2·1
Hay 252 formas diferentes de dividir el grupo.
Ejemplo No. 5
¿De cuántas maneras diferentes se puede sentar a 5 comensales en una mesa?
5! = 5 · 4 · 3 · 2 · 1 = 120
es decir, hay 120 formas diferentes de sentar a los 5 invitados.
6. El coeficiente binomial también se puede reescribir de la siguiente manera
n (n)r (n)r (n − r)!
= = ·
r r! r! (n − r)!
Pero nótese que
(n)r · (n − r)! = n!
Por lo tanto, encontramos
n n!
=
r r!(n − r)!
Ejemplo No. 6
El número de formas de seleccionar 3 alumnos de entre 5 alumnos es
5 (5)3
= = 10
3 3!
Pero observe que esto puede escribirse como
5 (5)3 (5)3 2! 5!
= = · = = 10
3 3! 3! 2! 3!(5 − 3)!
7.1. Todas las muestras posibles 123
Ejemplo No. 7
En el capítulo 5, dijimos que dado un conjunto de n elementos, podemos generar 2n
subconjuntos. Utilizando el coeficiente binomial, podemos ahora explicar esto. Sea el
conjunto S = {1, 2, 3, 4, 5, 6}. Los subconjuntos que se pueden generar a partir de este
conjunto S son:
Utilizando las ideas de todas las muestras posibles, el número de subconjuntos puede mos-
trarse como sigue:
6 6
Hay formas de seleccionar un subconjunto 0 de S. Hay formas de seleccionar un
0 1
subconjunto con 1 elemento de S, etc. Así, el número total de subconjuntos es
6 6 6 6 6 6 6
A= + + + + + +
0 1 2 3 4 5 6
Pero a partir del teorema del binomio, tenemos
6 6 6 6 5 6 4 2 6 3 3 6 2 4 6 5 6 6
(a + b) = a + a b+ a b + a b + a b + ab + b
0 1 2 3 4 5 6
Si hacemos que a = 1 y b = 1, la ecuación (2) se convierte en la ecuación (I). Por tanto, el
número de subconjuntos generados a partir de (1) será
(1 + 1)6 = 26 = 64
Hay varias formas de seleccionar muestras, pero sólo consideraremos una, el muestreo pro-
babilístico. A su vez, el muestreo probabilístico puede subdividirse en muestreo aleatorio simple,
muestreo estratificado y muestreo por conglomerados. Podríamos añadir algunos métodos más de
muestreo probabilístico, pero sólo nos ocuparemos del muestreo aleatorio simple.
Por muestreo probabilístico se entiende un plan de muestreo en el que cada miembro de la po-
blación tiene una probabilidad conocida de ser incluido en la muestra. Y cuando cada miembro que
no ha sido extraído previamente tiene la misma probabilidad de ser seleccionado, tenemos lo que
se conoce como muestreo aleatorio simple.
Para ilustrarlo, supongamos que hay 6 papelitos con los números 1, 2, . . . , 6 en una caja. Que-
remos seleccionar una muestra de tamaño 3 de la caja, sin reemplazo. El muestreo aleatorio simple
implica que la probabilidad de que se extraiga un número es de 1/6 para los 6 números; y en el se-
gundo sorteo, la probabilidad de que se extraiga un número es de 1/5 para los 5 números restantes; y
así sucesivamente. Si este es el caso, entonces cada número no sorteado previamente tiene la misma
probabilidad de ser seleccionado.
Ahora, ¿cuál es la probabilidad de que un miembro de la población, digamos el número 4, esté en
la muestra? Como tenemos una muestra de tamaño 3, hacemos 3 sorteos. Por lo tanto, la pregunta
que nos hacemos puede replantearse como: ¿Cuál es la probabilidad de elegir un 4 en el primer, o
segundo, o tercer sorteo? Sea A el suceso de elegir un 4 en el primer sorteo. Entonces
1
P (A) =
6
P (C ∩ B) = P (B)P (C|B)
5 1 1
= · =
6 5 6
Entonces
Estos tres sucesos, A, C, E, son mutuamente excluyentes. Así, la probabilidad de que el número
4 esté en la muestra es
1 5 1 5 4 1 3
P (A o C o E) = + · + · · =
6 6 5 6 5 4 6
3
Del mismo modo, la probabilidad de que, por ejemplo, el número 2 esté en la muestra es de .
6
Si tenemos 7 trozos de papel y tomamos muestras de tamaño 5, la probabilidad de que el número
5
3 esté en la muestra es de .
7
En general (se puede ver por inducción), si el tamaño de la muestra es n y el tamaño de la pobla-
ción es N , entonces cuando utilizamos el muestreo aleatorio simple, cada miembro de la población
n
tiene una probabilidad de estar incluido en la muestra. Por ejemplo, si tenemos 120 estudiantes
N
y seleccionamos 10 al azar, y cada estudiante tiene la misma probabilidad de ser elegido, entonces
10
cada uno de los 120 estudiantes tiene una probabilidad de de estar en la muestra.
120
Consideremos ahora la pregunta que nos interesaba en un principio, a saber ¿Cuál es la proba-
bilidad de seleccionar una muestra de tamaño n de una población de tamaño N ? Utilicemos una
ilustración sencilla y discutamos este problema.
Supongamos que hay 6 números y que extraemos muestras de tamaño 3; entonces habrá
6 6! 6! 6·5·4
= = = = 20
3 3!(6 − 3)! 3!3! 3!
o 20 muestras posibles. Cuando adoptamos el muestreo aleatorio simple, cada muestra tiene una
1
probabilidad igual de de ser seleccionada. Esto se puede demostrar fácilmente de la siguiente
20
1
manera: La probabilidad de seleccionar el primer número es ; la probabilidad de seleccionar el
6
1 1
segundo número es ; y la probabilidad de seleccionar el tercer número es . Por tanto, la probabi-
5 4
lidad de seleccionar estos 3 números en un determinado orden es
1 1 1 1
· · =
6 5 4 6·5·4
Pero cuando hablamos de una muestra de 3 números, no nos preocupa el orden. Hemos visto que
cuando tenemos 3 números, hay 3 formas de ordenarlos. Por tanto, la probabilidad de seleccionar
una muestra de tamaño 3 será
1 1 1 1
· 3! = =
6·5·4 6·5·4 6 20
3! 3
En general podemos ver por inducción que cuando seleccionamos una muestra de tamaño n de
una
población de tamaño N por muestreo aleatorio simple, la probabilidad de que cualquiera de las
N
muestras sea seleccionada será
n
1
N
n
En nuestra discusión posterior nos limitaremos a este muestreo aleatorio simple.
126 Distribución de Muestreo
Obsérvese que la discusión anterior se refería al caso en que el muestreo era sin reemplazo.
Podemos hacer lo mismo para el caso con recolocación, pero en los problemas prácticos solemos
utilizar el muestreo sin sustitución. Así, si hay 20 000 nuevos reclutas y queremos seleccionar una
muestra de tamaño 100 por muestreo aleatorio simple, obtenemos las siguientes conclusiones
20 000 20 000
1. Hay formas diferentes de seleccionar 100 reclutas, es decir, hay muestras
100 100
diferentes.
20 000 1
2. La probabilidad de que cualquiera de las muestras sea seleccionada será
100 20 000
100
100
3. La probabilidad de que cualquier recluta esté incluido en la muestra será de .
20 000
Ejemplo No. 8
Apliquemos a un ejemplo sencillo los resultados obtenidos en la discusión anterior.
Consideremos dos urnas, A y B, que tienen cada una 9 bolas con números como en la
Figura 7.1.
Se selecciona una muestra aleatoria simple de 3 bolas de la urna A. Los números de las
bolas son
4, 4, 5
A B
1 2 2 3 4 4
3 3 3 5 5 5
4 4 5 6 6 7
Figura 7.1
Cuadro 7.1
A partir de nuestra discusión sobre todas las muestras posibles, sabemos que hay
9 9!
= = 84
3 3!6!
7.3. Algunos problemas prácticos 127
formas posibles de seleccionar una muestra de tamaño 3. Pero hay que tener en cuenta que
cuando decimos que hay 84 muestras posibles, este razonamiento implica que las 9 bolas de la urna
son diferentes. Para tener en cuenta esta suposición, etiquetemos las bolas de la urna A de la siguiente
manera:
UrnaA : (1) (2)1 (2)2 (3)1 (3)2 (3)3 (4)1 (4)2 (5)
Se han añadido subíndices para distinguir entre los mismos números. En términos de la muestra
que seleccionamos, es decir, (4, 4, 5), tenemos para la urna A:
1
Sabemos que la probabilidad de seleccionar una muestra de tamaño 3 es . Por tanto, la pro-
84
1
babilidad de seleccionar la muestra (4, 4, 5) de la urna A es de .
84
Calculemos a continuación la probabilidad de seleccionar la muestra (4, 4, 5) de la urna B. Te-
nemos las siguientes muestras
es decir, la muestra (4, 4, 5) de la urna B se distingue y se cuenta como 3 muestras, pero a efectos
prácticos, es la misma muestra contada 3 veces. Por tanto, la probabilidad de seleccionar la muestra
(4, 4, 5) de la urna B es de
1 3
·3=
84 84
Hemos podido calcular estas probabilidades porque se ha utilizado el muestreo aleatorio simple
(o más generalmente, el muestreo probabilístico).
Ahora que hemos decidido cómo vamos a seleccionar la muestra, es decir, mediante un mues-
treo aleatorio simple, nos encontramos con el problema práctico de seleccionar una muestra de
tamaño n. Supongamos que deseamos hallar el importe del alquiler pagado por las familias de un
determinado bloque. En primer lugar, tenemos que decidir qué entendemos por familias. Una vez
decidido esto, se puede subdividir toda la población en estas unidades familiares, que se denominan
unidades últimas.
Ahora podemos hacer una lista de todas las unidades últimas (es decir, las familias), una por
una. O podemos combinar varias familias que viven cerca y hacer una lista de esas combinaciones.
Cada elemento de la lista contendrá varias familias, y cada familia estará en un solo elemento de la
lista. Una lista que divide la población en elementos formados por las unidades ultramodernas se
llama marco. Cada elemento del marco se denomina unidad de muestreo. Cada unidad de muestreo
puede contener una o varias unidades finales.
Cuando realizamos un muestreo aleatorio simple, seleccionamos las unidades de muestreo del
marco y obtenemos una muestra. Tenemos que seleccionar las unidades de muestreo de manera que
128 Distribución de Muestreo
la probabilidad de seleccionar cualquier unidad de muestreo sea igual. Para ello podemos utilizar la
tabla de números aleatorios. Lo explicaremos con un ejemplo.
Supongamos que hay 500 alumnos y queremos seleccionar una muestra aleatoria simple de 30
alumnos. Para ello utilizamos la tabla de números aleatorios; a continuación se ofrece una parte de
la misma y la tabla completa figura en la Tabla 16 del Apéndice. Comenzamos por la línea, tomando
3 dígitos a la vez, ya que 500 es un número de 3 dígitos. El primer número que vemos es el 231. Por
lo tanto, seleccionamos al 231vo alumno.
El siguiente número es el 055. Así, seleccionamos al 55to alumno. Este proceso continúa hasta
que hayamos seleccionado 30 alumnos. Cuando nos encontramos con un número mayor que 500
(por ejemplo, 682), lo omitimos.
Si el mismo número aparece dos veces, lo omitimos. La tabla de números aleatorios está diseñada
para que la probabilidad de que cualquier alumno sea seleccionado sea igual.
Existen muchos problemas prácticos para definir una unidad final, una unidad de muestreo y
un marco. No los trataremos en este momento para no desviarnos del tema principal de las distri-
buciones muestrales. Volvamos ahora a la línea principal de la discusión.
Hemos visto cómo se selecciona una muestra aleatoria simple y cómo se calcula la probabilidad
de seleccionar una muestra, dada una determinada población. Esto se ha explicado en términos de
un simple problema hipotético. Pero en los problemas prácticos, en los que el tamaño de la muestra
y la población son grandes y, por tanto, el número de todas las muestras posibles es grande, esto se
vuelve muy difícil.
Surge naturalmente una pregunta: ¿Hay alguna forma de simplificar este proceso de obtención de
probabilidades para las muestras? Resulta que se puede hacer utilizando el teorema del límite central.
Utilizando este teorema, descubriremos que podemos utilizar la media muestral para representar
la muestra y calcular la probabilidad de ocurrencia de la media muestral, en lugar de calcular la
probabilidad de ocurrencia de una muestra de una población dada.
Comencemos con una revisión del teorema del límite central.
En el capítulo 6 el teorema del límite central se enunció como: Cuando se dan n variables alea-
torias independientes X1 , X2 , . . . , Xn que tienen todas la misma distribución (no importa la distri-
bución), entonces
X = X1 + X2 + X3 + · · · + Xn
7.4. Distribución muestral 129
µ = µ1 + µ2 + · · · + µn = nµi
σ 2 = σ12 + σ22 + · · · + σn2 = nσi2
1. Tanto X1 como X2 tienen distribuciones similares; por ejemplo, ambas tienen distribuciones
normales, o rectangulares, o binomiales, etc.
Escuela A Escuela A
70 X1 70 X1
µ1 =6 µ2 µ1 = µ2
σ12 = σ22 σ12 = σ22
Escuela B Escuela B
75 X2 70 X2
(a) (b)
Figura 7.2
X1 , X2 , . . . , Xn
que tienen la misma distribución. En nuestra discusión posterior, cuando se selecciona una muestra
de tamaño n, siempre asumiremos esta interpretación.
En sentido estricto, sólo cuando se selecciona una muestra aleatoria con reemplazo, las varia-
bles aleatorias X1 , X2 , . . . , Xn son independientes. Sin embargo, en la mayoría de los problemas
prácticos en los que la población es grande y la muestra es relativamente pequeña, las variables
aleatorias X1 , X2 , . . . , Xn que se han seleccionado sin reemplazo pueden tratarse como si fueran
independientes.
Obsérvese cuidadosamente que tenemos dos formas de observar una muestra de tamaño n. La
primera es la siguiente: Supongamos que se selecciona una muestra de tamaño n = 5 alumnos y
que la variable aleatoria X es el peso. Entonces podemos expresar la muestra como
X : x1 , x2 , x3 , x4 , x5
X1 , X2 , X3 , X4 , X5
es decir, por las 5 variables aleatorias (no los valores específicos). Los valores de las variables se
muestran con letras minúsculas:
X1 = x 1 , X2 = x 2 , X3 = x3 , X4 = x 4 , X5 = x 5 ,
Pero, como los 5 alumnos proceden de la misma población, las variables aleatorias X1 , . . . , X5
tienen todas la misma distribución.
En nuestro caso actual, en el que las Xi tienen la misma distribución, la primera y la segunda
aproximación son equivalentes, pero cuando las variables X1 , X2 , . . . , Xn no tienen la misma dis-
tribución, los dos enfoques no son equivalentes. Como sólo consideraremos los casos en los que
todas las Xi tienen la misma distribución, ambos enfoques se utilizarán indistintamente.
Volvemos ahora al teorema del límite central y lo enunciamos como sigue: Cuando se toma una
muestra aleatoria de tamaño n de una población (con media µ y varianza σ 2 ), tenemos n variables
aleatorias independientes X1 , X2 , . . . , Xn que tienen todas la misma distribución. Sea
1
X̂ = (X1 + X2 + · · · + Xn )
n
E(X̂) = µ
σ2 N − n
V ar(X̂) = ·
n N −1
21
µ= = $3.5
X X2 6
r
$1 1 1 X
1 1 σ= (X − µ)2
N
2 4 sP P 2
X2 X
3 9 = −
4 16 N N
s 2
5 25 91 21
6 36 = −
6 6
21 91 r
17.5
=
6
Cuadro 7.2
Se seleccionan dos alumnos como muestra. El número de muestras posibles de tamaño 2 que se
pueden seleccionar es
6 6!
= = 15
2 2!4!
N
Denotamos = M para evitar confusiones.
m
Estas M = 15 muestras son las siguientes
(1) $1.2 (6) 2.3 (10) 3.4 (13) 4.5 (15) 5.6
(2) $1.3 (7) 2.4 (11) 3.5 (14) 4.6
(3) $1.4 (8) 2.5 (12) 3.6
(4) $1.5 (9) 2.6
(5) $1.6
1
La probabilidad de que se seleccione una de estas muestras es de . Hallemos ahora la media
15
muestral de cada muestra. Dadas en el mismo orden que las muestras anteriores, son:
(1) $1.5 (6) 2.5 (10) 3.5 (13) 4.5 (15) 5.5
(2) $2.0 (7) 3.0 (11) 4.0 (14) 5.0
(3) $2.5 (8) 3.5 (12) 4.5
(4) $3.0 (9) 4.0
(5) $3.5
132 Distribución de Muestreo
La probabilidad de que se produzca una de estas medias muestrales es la misma que la de la muestra
1
de la que procede, por lo que la probabilidad también es .
15
Pero hay que tener en cuenta que
Es decir, para la quinta, octava y décima muestra, las medias muestrales son iguales (x = $3, 5)
aunque tengamos tres muestras diferentes. Por lo tanto, la probabilidad de que se produzca x = $3.5
es
1 3
·3=
15 15
Adjuntemos las probabilidades a las demás medias muestrales de forma similar y mostremos los
resultados en el Cuadro 7.3.
La Figura 7.3 es un gráfico de barras del Cuadro 7.3. Obsérvese que la variable en el eje horizontal
es X y no X.
Es esta distribución de las medias muestrales la que buscamos, y la que es una piedra angular
de la inferencia estadística. Investiguemos ahora las características de esta distribución. La primera
característica que observamos es que la distribución es unimodal y simétrica, lo cual es un resultado
interesante porque la población con la que empezamos es una distribución rectangular.
X̂ f Probabilidades
$ 1.5 1 1/15
2.0 1 1/15
2.5 2 2/15
3.0 2 2/15
3.5 3 3/15
4.0 2 2/15
4.5 2 2/15
5.0 1 1/15
5.5 1 1/15
15 1.00
Cuadro 7.3
x1 + x2 + · · · + x15
X= = $3.5 (7.1)
15
donde la doble barra sobre X indica que es la media de las medias muestrales. Este resultado se
obtiene a partir de la siguiente hoja de cálculo. El punto importante aquí es la relación entre X y µ;
es decir, X = $3.5 es igual a la media poblacional µ = $3.5.
En tercer lugar, los cálculos muestran que la desviación estándar de esta distribución es
r r
1 X 17.5
σx = (x − x)2 = (7.2)
M 15
7.4. Distribución muestral 133
Figura 7.3
r
σ N −n
σx = √ · (7.3)
n N −1
r
17.5
σ=
6
r
r 17.5 r r
σ N −n 6 6−2 17.5
σx = √ = √ =
n N −1 2 6−1 15
que es el mismo resultado que el obtenido directamente en la hoja de cálculo y, por tanto, demuestra
que la fórmula es válida para nuestro ejemplo. Esto se volverá a discutir más adelante.
134 Distribución de Muestreo
X f d fd d2 f d2
$1.5 1 -4 -4 16 16
2.0 1 -3 -3 9 9
2.5 2 -2 -4 4 8
3.0 2 -1 -2 1 2
3.5 3 0 0 0 0
4.0 2 1 2 1 2
4.5 2 2 4 4 8
5.0 1 3 3 9 9
5.5 1 4 4 16 16
15 0 70
P
fd 0
X =A+ · C = $3.5 + · 0.5 = $3.5
s
M 15
P
1 P 2 ( f d)2
σx = C fd −
M M
r r
1 17.5
σx = 0.5 (70 − 0) =
15 15
El teorema del límite central que nos interesa, nos dice que los resultados que acabamos de ob-
tener pueden generalizarse. Podemos enunciarlo de forma no rigurosa como sigue: Sea N el tama-
ño de una población conmedia y desviación típica iguales a µ y σ. Sea n eltamaño de la mues-
N N
tra. Entonces hay M = muestras posibles, y por tanto hay M = medias muestrales
n n
N
xi : i = 1, 2, . . . , . Estas medias muestrales generarán una distribución de medias muestrales
n
con las siguientes características (Figura 7.4):
f
X
X
f
f
X
X
Figura 7.4
E(X) = µ (7.4)
2. E(X) = µ.
r
σ N −n
3. σx = √
n N −1
136 Distribución de Muestreo
No hay que olvidar la suposición de que estamos utilizando un muestreo probabilístico. Sólo
cuando tengamos esta suposición podremos hacer afirmaciones probabilísticas.
Resumamos los puntos principales de nuestra discusión en el Cuadro 7.4. Las letras p y π de la
última fila del Cuadro 7.4 denotan la proporción de la muestra y la proporción de la población. Esto
se discutirá más adelante.
Distribución π(1 − π) N − n
p Aproximadamente E(p) = π σp2 = ·
muestral de la p
normal n N −1
Cuadro 7.4
También podemos mostrar las distintas relaciones de forma esquemática como en la Figura
7.5,
13
que supone una población de N = 13 y muestras de tamaño n = 5. Por tanto, hay = 1287
5
muestras posibles y, por tanto, 1287 medias muestrales posibles. Estas medias muestrales forman la
distribución muestral de la media muestral, que se aproxima a una distribución normal cuando n
es grande.
Ahora podemos ver cómo se puede utilizar el teorema del límite central para simplificar el cálcu-
lo de las probabilidades de ocurrencia de las muestras.
El Cuadro 7.3 y la Figura 7.3 se reproducen modificadas como Cuadro 7.5 y Figura 7.6, por
comodidad.
El teorema del límite central exige que la población y la muestra sean grandes para que la dis-
tribución muestral de la media muestral se aproxime a una distribución normal. Pero recordemos
que nuestra población hipotética era una pequeña población rectangular {$1, 2, . . . , 6}, y el tama-
ño de la muestra era n = 2. Por lo tanto, la distribución muestral de la media de la muestra en el
Cuadro 7.5 sigue siendo bastante diferente de una distribución normal y el polígono de frecuencias
de la Figura 7.6 también es bastante diferente de una curva normal. Pero, para ser breves y explicar
las ideas, vamos a suponer que son normales. Más adelante daremos ejemplos más realistas.
Formulemos ahora la pregunta: ¿Cuál es la probabilidad de seleccionar una muestra con una
media muestral de x = $5.5? A partir del Cuadro 7.5 y la Figura 7.6, se ve fácilmente que es 1/15 y
7.4. Distribución muestral 137
Población
N = 13
µ, σ
x1 x2 x1286 x1287
s1 s2 f s1286 s1287
E(X) = µ
r
σ N −n
σx = √
n N −1
Figura 7.5
X f Muestras Probabilidades
$1.5 1 (1,2) 1/15
$2.5 1 (1,3) 1/15
$2.5 2 (1,4), (2,3) 1/151/15
$3.0 2 (1,5), (2,4) 1/151/15
$3.5 3 (1,6), (2,5), (3,4) 1/151/151/15
$4.0 2 (2,6), (3,5) 1/151/15
$4.5 2 (3,6), (4,5) 1/151/15
$5.0 1 (4,6) 1/15
$5.5 1 (5,6) 1/15
15 1
Cuadro 7.5
1
P [X = $5.5] =
15
La probabilidad de seleccionar una muestra con una media muestral de x = $5.5 en nuestro
ejemplo actual significa específicamente la probabilidad de seleccionar la muestra (5, 6).
¿Cuál es la probabilidad de seleccionar muestras con una media muestral de x = 4.5 dólares?
138 Distribución de Muestreo
3
2
1
Esto, lo vemos, es
2
P [X = $4.5] =
15
La probabilidad de seleccionar muestras con una media muestral de x = 4.5 significa específica-
mente la probabilidad de seleccionar las muestras (3, 6) o (4, 5).
¿Cuál es la probabilidad de seleccionar muestras con una media muestral mayor o igual a x =
$4.5? Esto es
Esto significa que la probabilidad de seleccionar las muestras (5, 6), (4, 6), (3, 6) o (4, 5) es de 4/15.
Las probabilidades se han obtenido a partir del Cuadro 7.5. Pero si la población y la muestra
hubieran sido grandes, la distribución muestral de la media de la muestra habría sido aproxima-
damente normal, y entonces se podría haber utilizado la tabla de áreas normales para calcular las
probabilidades. Aunque no obtendremos resultados precisos, vamos a mostrar cómo funciona esto,
utilizando nuestro ejemplo actual.
La probabilidad de seleccionar muestras con una media muestral mayor o igual a 4.5 dólares se
1 1
obtiene hallando el área sombreada bajo la curva normal en la cola más allá de $4.5 − · , como se
2 n
1 1
muestra esquemáticamente en la Figura 7.7. El − · es la corrección de continuidad, y en nuestro
2 n
1 1
caso actual es − · = −0.25. Por tanto, $4.5 − 0.25 = $4.25.
2 2
0.2451
$3.5 X = $4.5
Figura 7.7
X −µ
z= = 0.694
$0.75
σx =
$1.08
A partir de la tabla de áreas normales encontramos que, cuando z = 0.694, el área bajo la cola
es 0.2451; es decir
P [X ≧ 4.5] = 0.2451
Según el Cuadro 7.5, la probabilidad P [X ≧ $4.5] es 4/15 = 0.2667, y por lo tanto hay aproxi-
madamente un 2% (0.2667 − 0.2451 = 0.0216) de discrepancia absoluta. La discrepancia relativa
es de aproximadamente el 8.1%:
0.2667 − 0.2451 0.0216
= = 8.1%
0.2667 0.2667
Esta discrepancia entre 0.2451 y 0.2667 se ha producido porque no se han cumplido los requisitos
del teorema del límite central, es decir, una población grande y una muestra grande. Sin embargo,
nuestro principal objetivo era mostrar el proceso de razonamiento mediante un sencillo problema
hipotético. Resumamos esto antes de proceder a dar ejemplos más realistas.
N
1. De una población dada de tamaño N podemos seleccionar M = muestras de tamaño
n
N
n, y por tanto habrá también M = medias muestrales.
n
2. La distribución de estas medias muestrales se aproximará a una distribución normal si n es
grande (por ejemplo, mayor de 30). Si la población original es normal, la distribución de las
medias muestrales será normal por muy pequeña que sea la muestra.
Ejemplo No. 1
Considere un grupo de 13 estudiantes con una distribución de notas como la que se
muestra en el Cuadro 7.6. Sea A = 5, B = 4, C = 3, D = 2 y F = 1 puntos de honor.
140 Distribución de Muestreo
Cuadro 7.6
Entonces, por ejemplo, un alumno con todas las notas en A será un alumno con una media de
5 puntos de honor. La media y la desviación típica de esta distribución son
r
14
µ = 3 puntos de honor, σ= = 1.076 puntos de honor
13
Pero tenga en cuenta que este cálculo supone que las 13 notas son diferentes. Por ejemplo, el Cua-
dro 7.6 muestra que 3 estudiantes tienen B. Cada B se considera diferente. Denotemos esto como
B1 , B2 y B3 . Entonces (A, B1 , B2 ), (A, B1 , B3 ) y (A, B2 , B3 ) se consideran 3 muestras diferentes.
El número de muestras puede calcularse como sigue: Primero hallar
A B B
1 · 3 · 2 = 6
Esto muestra que sólo hay 1 opción para la A, 3 opciones para la primera B, y 2 opciones para
la segunda B. Las seis muestras son
A B1 B2 A B2 B3
A B1 B3 A B3 B1
A B2 B1 A B3 B2
Evidentemente, esto supone que (A, B1 , B2 ) y (A, B2 , B1 ) son diferentes; es decir, se considera el
orden de las B. Pero las M = 286 muestras posibles sólo consideran las combinaciones; es decir,
(A, B1 , B2 ) y (A, B2 , B1 ) son iguales y se cuentan sólo una vez en las M = 286 muestras. Por lo
tanto, tenemos que hacer la siguiente corrección:
A B B
1 · 3 · 2 ÷ 2! = 6 ÷ 2! = 3
Es decir, hay 2! formas de ordenar B1 B2 , y por ello dividimos 6 entre 2!. Enumeremos ahora todas las
muestras, utilizando el método de cálculo anterior. Primero presentamos todas las combinaciones
posibles:
7.4. Distribución muestral 141
66 + 136 + 80 + 4 = 286
En segundo lugar, se encuentra el número de muestras posibles para cada combinación (véase
la Hoja de Trabajo) y se muestra a la derecha de cada muestra en los paréntesis. Hay un total de
M = 286 muestras.
En tercer lugar, calculamos el grado medio de cada muestra; por ejemplo
A+B+C 5+4+4 13
= = = 4.33 puntos
3 3 3
A+B+C 5+4+3 12
= = = 4.00 puntos
3 3 3
y así sucesivamente. Los resultados se dan en el mismo orden que la lista de muestras numeradas
anterior:
13 12 9 6
(1) (10) (19) (24)
3 3 3 3
12 11 8 5
(2) (11) (20) (25)
3 3 3 3
11 10 7
(3) (12) (21)
3 3 3
10 9 7
(4) (13) (22)
3 3 3
11 10 6
(5) (14) (23)
3 3 3
10 9
(6) (15)
3 3
9 8
(7) (16)
3 3
9 8
(8) (17)
3 3
8 7
(9) (18)
3 3
9
(7) A C F 5 muestras
3
9
(8) A D D 3 muestras
3
9
(13) B B F 3 muestras
3
9
(15) B C D 45 muestras
3
9
(19) C C C 10 muestras
3
66
Es decir, hay 66 muestras que tienen una media de 9/3 = 3 puntos. Se pueden hacer cálculos
similares para las demás medias de las muestras. Los resultados están en el Cuadro 7.7.
X f d fd d2 f d2
5/3 3 -4 -12 16 48
8/3 57 -1 -57 1 57
9/3 66 0 0 0 0
10/3 57 1 57 1 57
11/3 34 2 68 4 136
12/3 16 3 48 9 144
13/3 3 4 12 16 48
286 0 60 770
P fd 0 1
X =A+ ·C =3+ · =3
sP PM
r 286 3 r
f d2 f d 2 1 770 1 35
σX =C· − = = · = 0.5469
M M 3 286 3 13
Cuadro 7.7
La media y el error estándar de esta distribución muestral se calculan en el Cuadro 7.7. Com-
probemos σx con la fórmula dada en el Cuadro 7.4. Tenemos
r
14
σ=
13
7.4. Distribución muestral 143
y es igual a los resultados de los cálculos directos de la tabla 7.7. Como teníamos cr = 1/14/13,
podríamos haber utilizado la fórmula (1) en lugar de calcular realmente como- como hicimos en la
tabla 7.7. De hecho, cuando N y n sean grandes, tendremos que utilizar la fórmula (1); de lo contrario,
tendremos el problema de intentar encontrar un número muy grande de medias muestrales.
La Figura 7.8 es un polígono de frecuencias de esta distribución, donde la distribución se parece
más a una curva normal que la de la Figura 7.3, aunque sigue siendo sólo una aproximación.
70
60
50
40
30
20
10
5 6 7 8 9 10 11 12 12
3 3 3 3 3 3 3 3 3 X
Figura 7.8
Calculemos ahora las probabilidades de selección de las muestras. Las muestras se caracterizan
(es decir, se representan) por sus medias muestrales. Así, utilizando la media muestral, preguntemos:
¿Cuál es la probabilidad de seleccionar una muestra con una media muestral de X = 12/3 = 4
puntos? En el Cuadro 7.7 vemos que
16
P [X = 4] =
286
Es decir, hay 16 posibilidades en 286 de seleccionar una muestra de tamaño 3 con una media
muestral de 4 puntos, dada nuestra población.
O, dicho de otro modo, estamos diciendo que 16 muestras de las 286 posibles tienen una media
muestral de X = 4 puntos. Sabemos que estas muestras son
(2) A B C 15
(10) B B B 1
16
144 Distribución de Muestreo
13
P [X ≧ 4] = P [x = 4] + P X =
3
16 3 19
= + =
286 286 286
12 1 1 9 5
X −µ − · −
f= = 3 2 3 3 = 6 = 1.525
σx 0.5469 0.5469
En lugar de calcular las probabilidades directamente como hemos hecho anteriormente, pode-
mos utilizar el teorema del límite central y la distribución muestral de la media de la muestra y
calcularla indirectamente. Esto nos dará un valor aproximado. La probabilidad que buscamos es el
área sombreada bajo la distribución muestral mostrada en la Figura 7.9, que es (aproximadamente)
una distribución normal. Encontramos
12
E(X) 3
9
= 3 =3
Figura 7.9
12 1 1 9 5
X −µ − · −
z= = 3 2 3 3 = 6 = 1.525
σx 0.5469 0.5469
Hoja de trabajo
1·3·2 6
(1) A B B: 2! = 2! =3
(2) A B C: 1·3·5 = 15
(3) A B D: 1·3·3 =9
(4) A B F: 1·3·1 =3
1·5·4 20
(5) A C C: 2! = 2! = 10
(6) A C D: 1·5·3 = 15
(7) A C F: 1·5·1 =5
1·3·2 6
(8) A D D: 2! = 2! =3
1·3·2 6
(9) A D F: 2! = 2! =3
3·2·1 6
(10) B B B: 3! = 3! =1
3·2·5 30
(11) B B C: 2! = 2! = 15
3·2·3 18
(12) B B D: 2! = 2! =9
3·2·1 6
(13) B B F: 2! = 2! =3
3·5·4 60
(14) B C C: 2! = 2! = 30
(15) B C D: 3·5·3 = 45
(16) B C F: 3·5·1 = 15
3·3·2 18
(17) B D D: 2! = 2! =9
(18) B D F: 3·3·1 =9
5·4·3 60
(19) C C C: 3! = 3! = 10
5·4·3 60
(20) C C D: 2! = 2! = 30
5·4·1 20
(21) C C F: 2! = 2! = 10
5·3·2 30
(22) C D D: 2! = 2! = 15
(23) C D F: 5·3·1 = 15
3·2·1 6
(24) D D D: 3! = 3! =1
3·2·1 6
(25) D D F: 2! = 2! =3
3 + 15 + 9 + · · · + 15 + 1 + 3 = 286
Ejemplo No. 2
Dado un grupo de N = 90 asalariados con una distribución de salarios como la del Cua-
dro 7.8, encuentre la probabilidad de seleccionar una muestra de tamaño n = 16 con un
salario medio superior a 77 dólares.
Si intentamos resolver este problema como lo hicimos en el Ejemplo 1, primero tenemos que
146 Distribución de Muestreo
Salarios f d fd d2 f d2
$40 3 -3 -9 9 27
50 12 -2 -24 4 48
60 18 -1 -18 1 18
70 24 -0 0 0 0
80 18 1 18 1 18
90 12 2 24 4 48
100 3 3 9 9 27
90 0 28 s 186
P P 2 P 2
fd fd fd
E(x) = µ = A + ·C σ=C −
N N N
r
0 186 √
E(x) = $70 + · 10 = $70 σ = 10 − 0 = 10 · 2.067 = $14.38
90 90
Cuadro 7.8
Es bastante obvio que éste será un número muy grande y, a efectos prácticos, es una tarea prohi-
bitiva encontrar las probabilidades de las muestras y las medias muestrales. Pero a partir del teorema
central del límite sabemos que la distribución muestral de la media muestral es aproximadamente
una distribución normal, como se muestra en la Figura 7.11. Encontrar la probabilidad de seleccio-
nar muestras con medias muestrales mayores o iguales a $77 es equivalente a encontrar la proba-
bilidad de las medias muestrales mayores o iguales a $77 en la distribución muestral de la media
muestral. Como tenemos una distribución normal, esto se encuentra calculando z:
1 1
X −µ 77 − · − 70
z= = 2 16 = 2.13
σx 3.279
donde σx se obtiene de
r
σ N −n
σx = √
n N −1
r
$14.38 90 − 16
= √
16 90 − 1
= $3.595 · 0.912
= $3.279
E(X) 77
= µ = 70
Figura 7.10
1 1
Observe que la corrección de continuidad · , donde n = 16, tiene muy poco efecto en el
2 n
resultado.
Ejemplo No. 3
Se dispone de datos sobre la producción de trigo por acre de 101 granjas. La media es
µ = 15 fanegas por acre y la desviación estándar es σ = 4 fanegas. Encuentre la pro-
babilidad de seleccionar muestras de tamaño n = 25 con medias muestrales menores o
iguales a x = 13.5 fanegas. La distribución muestral de la media muestral se muestra en
la Figura ??.
13.5 E(X) = 15
Figura 7.11
La probabilidad de que la media muestral sea menor o igual a 13.5 fanegas se obtiene hallando el
1 1
área sombreada en la cola de la curva. Encontramos (omitiendo la corrección de continuidad · ,
2 n
donde n = 25):
X −µ 13.5 − 15
z= = = −2.15
σx 0.6976
donde σx se obtiene de
r r
σ N −n 4 101 − 25
σx = √ =√ = 0.6976 fanegas
n N −1 25 101 − 1
148 Distribución de Muestreo
P [X ≦ 13.5] = 0.0158
Por tanto, la probabilidad de encontrar medias muestrales menores o iguales a 13.5 fanegas es
de 0.0158. O podemos plantear esto como: La probabilidad de seleccionar muestras con medias
muestrales menores o iguales a 13.5 bushels es 0.0158. Esto también se puede expresar como: Hay
1.6 (0.0158 ∼= 0.016) probabilidades entre 100 de seleccionar una muestra con una media muestral
menor o igual a 13.5 fanegas de una población donde µ = 15 fanegas.
σ
σx = √ (7.8)
n
Siempre que el muestreo sea con reemplazo, tendremos una población infinita. Por ejemplo, consi-
deremos una caja con 5 cuentas. Si, al tomar una muestra, las cuentas se sustituyen cada vez que se
extraen, tenemos una población infinita. Podemos extraer muestras de tamaño n = 10, o n = 100,
o del tamaño que queramos. Otros ejemplos de poblaciones infinitas se especificarán más adelante
en los ejemplos.
También podemos ver que cuando N es grande en relación con n, la fracción
n
N −n 1−
= N
N −1 1
1−
N
se acercará a 1.00 y, por tanto, la fpc también se acercará a 1.00. Por lo tanto, cuando N es grande en
relación con n, podemos utilizar la fórmula (7.8).
¿Qué tamaño debe tener N en relación con n para poder utilizar la fórmula (7.8)? Algunos dicen
que n debe ser inferior al 5% de N ; otros dicen que n debe ser inferior al 10%. Adoptaremos la regla
del 10%. Si hay alguna duda sobre la exactitud del resultado, un simple cálculo de la fpc disipará la
duda.
7.6. La distribución muestral de la proporción de la muestra 149
4 · 3 · 2 · 6 · 5 ÷ (3!)(2!) = 60
4 · 3 · 6 · 5 · 4 ÷ (2!)(3!) = 120
4 · 6 · 5 · 4 · 3 ÷ (4!) = 60
6 · 5 · 4 · 3 · 2 ÷ (5!) = 6
y
6 + 60 + 120 + 60 + 6 = 252
Por tanto, la probabilidad de seleccionar una muestra con 4 cuentas blancas (b) y 1 negra (n)es
6
P [4b, 1n] =
252
e igualmente
60
P [3b, 2n] =
252
120
P [2b, 3n] =
252
60
P [1b, 4n] =
252
6
P [0b, 5n] =
252
Sea p la proporción de bolitas blancas en una muestra. Entonces, para 4 bolitas blancas y 1 negra,
4
p= = 0.80
5
150 Distribución de Muestreo
Cuadro 7.9
Figura 7.12
Cuando tenemos una distribución de frecuencias, queremos saber dos cosas: su media y su dis-
tribución estándar. A partir del Cuadro 7.9, la media se obtiene mediante la fórmula de la media
ponderada como
6 60 120
= 0.0 · + 0.2 · + 0.4 ·
252 252 252
60 6
= 0.6 · + 0.8 ·
252 252
= 0.4
E(p) = p· P [X = p1 ] + p2 · P [X = p2 ] + · · · + p5 · P [X = p5 ] (7.10)
7.6. La distribución muestral de la proporción de la muestra 151
6 60 6
= 0.0 · + 0.2 · + · · · + 0.8 ·
252 252 252
= 0.4
Por lo tanto,
E(p) = π (7.11)
La varianza es, utilizando los resultados de los cálculos del Cuadro 7.9,
P
(p − π)2 f 6.72 0.08
V ar(p) = P = = (7.12)
f 252 3
P
donde la suma (p − π)2 · f se toma sobre todas las muestras posibles. Para nuestro problema
simple, encontrar V ar(p) fue fácil. Pero cuando tenemos muestras y poblaciones más grandes, esto
se convierte en una tarea muy laboriosa. Afortunadamente, existe una fórmula sencilla que nos da
los mismos resultados. Es la siguiente
π(1 − π) N − n
V ar(p) = · (7.13)
n N −1
s
N − n)
donde es el fpc. Para el presente problema encontramos
(N − 1)
π(1 − π) N − n
var(p) = ·
n N −1
0.4 · 0.6) 10 − 5
= ·
5 10 − 1
0.24 0.08
= =
9 3
Es decir, hemos obtenido el mismo resultado que en la fórmula (7.12). Por lo tanto, utilizaremos
la fórmula (7.13) en lugar de la fórmula (7.12).
Los resultados pueden resumirse y generalizarse como sigue: Dada una población de tamaño
N con una proporción poblacional π, la distribución muestral de la proporción muestral p para
muestras de tamaño n tendrá una media y una varianza como las siguientes:
E(p) = π (7.14)
π(1 − π) N − n
V ar(p) = · (7.15)
n N −1
Por lo tanto, ahora tenemos los siguientes resultados: La media y la varianza de la distribución
muestral de p vienen dadas por
E(p) = π
π(1 − π) N − n
V ar(p) = ·
n N −1
Ejemplo No. 4
En una población de familias, el 20 por ciento está suscrito a la revista K. ¿Cuál es la pro-
babilidad de seleccionar una muestra aleatoria de tamaño n = 225 con una proporción
muestral p = 0.16 o menos?
Interpretemos primero el problema en términos de una figura. Como muestra la Figura 7.13,
p
0.16 0.20
Figura 7.13
La interpretación es: Hay unas 7.9 posibilidades entre 100 de seleccionar muestras de n = 225 con
una proporción muestral menor o igual a 0.16 de una población donde π = 0.20.
Ejemplo No. 2
De 2000 distribuidores, el 40 por ciento indicó que tenía previsto aumentar sus pedidos
de lavavajillas. ¿Cuál es la probabilidad de seleccionar una muestra aleatoria simple de
400 concesionarios con una proporción muestral de p = 46% o superior de esta pobla-
ción?
En términos diagramáticos, tenemos la Figura 7.14 y queremos que el área sombreada en la cola
p
0.40 0.46
Figura 7.14
derecha:
1 1
p−π 0.46 − · − 0.40
z= = 2 400 = 2.70
σp 0.0217
donde
π(1 − π) N − n 0.4 · 0.6 2000 − 400
σ= · = · = 0.0217
n N −1 400 2000 − 1
Dado que z = 2.70, encontramos a partir de la tabla de áreas normales que
La interpretación es: Hay aproximadamente 3.5 posibilidades entre 1000 de seleccionar muestras
de tamaño 400 con proporciones muestrales mayores o iguales a 0.46 de una población donde π =
0.40.
CAPÍTULO 8
Estimación
El problema de la estimación de parámetros se puede ilustrar mejor con ejemplos. Por ejemplo,
unos grandes almacenes están interesados en establecer una sucursal en los suburbios y les gustaría
ubicarla en una comunidad que tenga una renta media superior a la media nacional. ¿Cómo van a
encontrar la renta media de una comunidad determinada? Es demasiado costoso tratar de encon-
trar los ingresos de cada familia de la comunidad y luego calcular la media. Un estadístico puede
seleccionar una muestra, hallar la media de la muestra y utilizarla como estimación de la renta media
de toda la comunidad.
Los grandes almacenes también pueden estar interesados en conocer la dispersión de los in-
gresos para determinar el rango de precios de los productos que deben vender. Si se desconoce la
dispersión (es decir, la desviación típica de la población, σ), puede estimarse a partir de la desviación
típica de la muestra.
Una cadena de tiendas puede estar interesada en la proporción π de plumas defectuosas recibidas
por envío. Por razones prácticas, es imposible inspeccionar todas las plumas. Por lo tanto, se toma
una muestra y la proporción de la muestra puede utilizarse como una estimación de la proporción
poblacional π de plumas defectuosas.
Como se ve, el problema que nos interesa es el de seleccionar una muestra de una población y
estimar ciertos parámetros poblacionales, como la media µ y la varianza σ 2 . Sea X la media de la
muestra y supongamos que la renta media de una muestra de familias de la ilustración anterior es de
7 000 dólares. Esta media muestral individual de X = 7 000 dólares se denomina “estimación” de la
media de la población µ. Sabemos que cuando se selecciona otra muestra, podemos tener una media
muestral diferente, digamos 7 200 dólares. Esto también es una estimación de µ. En contraste con
155
156 Estimación
1. Insesgacidad.
2. Consistencia.
3. Eficiencia.
4. Suficiencia.
y los procesos se suelen discutir bajo los temas de métodos de estimación. Los dos métodos princi-
pales son el método de los mínimos cuadrados y el método de máxima verosimilitud, y en este libro
sólo consideraremos estos dos. El método de los mínimos cuadrados se explica en el capítulo 11, y
el método de máxima verosimilitud es un tema de este capítulo.
Después de haber discutido el método de máxima verosimilitud y también haber encontrado
varios estimadores, plantearemos y discutiremos el siguiente problema: Aunque X sea un buen es-
timador de µ, es obvio que habrá una discrepancia (error) entre X y µ. Así, para tener confianza
en X como estimador de µ, nos gustaría conocer el error, e = X − µ el riesgo de dicho error: o
podemos decir que nos gustaría encontrar la precisión del estimador X.
Hasta este punto, nuestra discusión sobre los estimadores se centrará en los estimadores puntua-
les, y el tema puede llamarse estimación puntual. Es decir, cuando se da un parámetro (digamos, µ),
se estima mediante un valor X. Una deficiencia de los estimadores puntuales es que no podemos
asociar un enunciado de probabilidad con él y decir cuán probable es que X sea igual a µ.
Una forma alternativa de estimar µ es decir que µ está entre dos valores, digamos
a<µ<b
y esto se llama estimación por intervalos. Por ejemplo, podemos decir que la nota media del examen
de la clase está entre 70 y 75 puntos:
Como veremos, podremos asociar un enunciado de probabilidad a este tipo de estimación por in-
tervalos. Este tema se considera en la sección 8.8. Empecemos ahora con los criterios de un buen
estimador puntual.
8.2 Insesgacidad
Recordemos que E(X) era el valor esperado de X, o lo que es lo mismo, la media de todas las
medias muestrales posibles. Por el teorema del límite central, sabemos que
E(X) = µ
El sentido común de esto es que la distribución muestral de X está uniformemente agrupada alre-
dedor del valor µ y no alrededor de algún otro valor. Por ejemplo, la parte superior de la Figura 8.1
muestra la distribución muestral de X agrupada en torno a µ.
Ahora hagamos que θ̂ sea alguna otra característica de la muestra que se utilice como estimador.
Por ejemplo, hagamos que
θ =X +a
158 Estimación
p
E(X) = µ = 70 µ+a
p
70 E(θ̂) = µ + a
Figura 8.1
Es decir, θ̂ es la media muestral X más una constante a (digamos, a = 5). Si la media muestral es
de 72 puntos, entonces se considera que θ = 72 + 5 = 77 es una estimación de µ. En general, esto
se convierte en
E(θ̂) = E(X + a)
= E(X) + E(a)
=µ+a
E(θ̂) = θ
Supongamos que se toma una muestra de tamaño n = 36 y X = 65 puntos. ¿Qué ocurrirá con
X si dejamos que n → N ? Debería ser intuitivamente claro que a medida que n → N , la media
muestral X se acercará a µ. Por ejemplo, N era 2000 y µ = 70. Si n = 1999 en lugar de 36, podemos
ver intuitivamente que la X calculada a partir de n = 1999 estará muy cerca de µ = 70 (digamos,
por ejemplo, 69.9 puntos).
Supongamos ahora que la mediana de la población es Me = 73 puntos. Hagamos que la mediana
de la muestra se denomine Xmed para una muestra de tamaño n. Debe quedar claro que a medida
que n → N , la mediana de la muestra Xmed se acercará a la mediana de la población Me = 73
puntos. Por tanto, si se utiliza Xmed como estimador de µ, a medida que n → N , la Xmed no se
acercará a µ = 70 puntos, sino a Me = 73 puntos.
Cuando un estimador (como X) se aproxima al parámetro poblacional que se quiere estimar
(como µ) a medida que aumenta el tamaño de la muestra, se dice que el estimador es un estimador
consistente del parámetro. Así, µ̂ = X es un estimador consistente de µ, y µ̂ = Xmed no es un
estimador consistente de µ cuando tenemos una distribución sesgada.
Así, la segunda propiedad de un buen estimador es la consistencia, µ̂ = X es un estimador
consistente de µ.
Expresemos con más rigor las afirmaciones anteriores, como sigue: Hemos visto intuitivamente
que a medida que n se hace más y más grande, X se acercará a µ. Esto puede mostrarse en símbolos
como
X → µ a medida n → ∞(o N )
Utilizando esta fórmula, podemos definir formalmente la consistencia de la siguiente manera: Si
P (X → µ) → 1 a medida n→∞ (8.1)
entonces X se llama un estimador consistente de µ. La ecuación (8.2) se lee como “la probabilidad
de que X se acerque a µ a medida que n se hace más grande y se acerca a 1”.
En términos de la distribución muestral de X, significa que la distribución muestral de X se
concentra estrechamente cerca de µ, a medida que el tamaño de la muestra es mayor. Utilizan-
do nuestro ejemplo de los grados, podemos ver intuitivamente que la distribución muestral de X
cuando n = 1999 estará más concentrada cerca de µ que cuando n = 36.
Lo que hemos dicho sobre la media muestral se puede enunciar ahora en términos generales: Sea
θ, que se calcula a partir de una muestra x1 , x2 , . . . , xn sea un estimador del parámetro poblacional
θ. Si
P (θ̂ → θ) → 1 a medida n → ∞
entonces θ̂ se llama un estimador consistente de θ.
8.4 Eficiencia
Supongamos que tenemos una población que tiene una distribución normal y deseamos estimar
la media poblacional. Como hemos visto, podemos utilizar la media muestral X, que es un esti-
mador insesgado y consistente. También podemos utilizar la mediana de la muestra (Xmed ) como
160 Estimación
estimador y, en nuestro caso, también es insesgada y consistente. ¿Cuál de los dos es más preferible
como estimador?
En la sección 7.1 mencionamos que preferimos un estimador con una distribución muestral es-
trechamente concentrada en torno al parámetro poblacional. ¿Cuál de los dos, la media muestral
X o la mediana muestral Xmed , está más concentrada alrededor de µ? Esto puede determinarse
comparando las varianzas de ambos estimadores; el que tenga la menor varianza será el estima-
dor preferible. Cuanto menor sea la varianza, más concentrada estará la distribución muestral en
torno al parámetro de población, suponiendo que tenemos estimadores consistentes. Resulta que
las varianzas de X y Xmed son para muestras grandes,
σ2
V ar(X) =
n
πσ 2
V ar(Xmed ) =
2n
Por lo tanto, cuando se da el mismo tamaño de muestra,
V ar(X) 2
=
V ar(Xmed ) π
.
= 0.64
Es decir, V ar(X) < V ar(Xmed ), y por tanto X es preferible como estimador a Xmed . Como,
dado el mismo tamaño de muestra, la distribución muestral de X está más concentrada en torno a
µ que la de Xmed , podemos decir que X es más eficiente que Xmed .
El resultado anterior dice
Es decir, la varianza de Xes sólo el 64% de la varianza de la mediana cuando ambas tienen un tamaño
de muestra de n.
En términos de tamaño de muestra, la varianza de la mediana de las muestras de tamaño 100 es
aproximadamente la misma que la de las medias de las muestras de tamaño 64.
Lo resumimos como sigue: Si tenemos dos estimadores, θ̂1 y θ̂2 , de un parámetro θ, y
V ar(θ̂1 )
Et =
V ar(θ̂2 )
Nótese que la varianza del estimador más pequeño está en el numerador, y por tanto
0 ⩽ Et ⩽ 1
Hemos definido la eficiencia en términos relativos y hemos puesto la varianza del estimador más
pequeño en el numerador. La eficiencia se definió en relación con este estimador de menor varianza.
8.5. Suficiencia 161
Pero, si pudiéramos encontrar un estimador con una varianza menor que la varianza de cualquier
otro estimador, podríamos utilizar esa varianza más pequeña como base para medir la eficiencia; y,
en términos de eficiencia, podríamos decir que este estimador con la varianza más pequeña es un
“estimador eficiente”.
Entonces surge una pregunta: ¿Cómo de pequeña puede ser la varianza de un estimador? Si
podemos demostrar que la varianza no puede hacerse más pequeña que un determinado límite
inferior, y si podemos encontrar un estimador con una varianza que sea igual a este límite inferior,
entonces esa varianza será la varianza más pequeña. Utilizaremos la palabra mínima en lugar de
“más pequeña” y la llamaremos varianza mínima.
Además, un estimador que tenga esta varianza mínima se llamará estimador de varianza míni-
ma.
Resulta que existe tal límite inferior, dado por la desigualdad de Cramer-Rao. Un tratamiento
matemático de este tema es demasiado avanzado para este gancho, así que al discutirlo, omitiremos
las derivaciones. Podemos ilustrar su significado aplicándolo al problema de estimar la media de µ.
Sea θ̂un estimador de µ. Entonces la desigualdad de Cramer-Rao nos dice que la varianza de θ̂
σ2
no puede ser menor que . Es decir
n
σ2
V ar(θ̂) ≧
n
θ̂ puede ser la media muestral X, la mediana muestral Xmed , o algún otro estadístico muestral, pero
σ2
sea cual sea, la varianza no puede ser menor que . Sin embargo, sabemos que
n
σ2
V ar(X) =
n
Esto significa que µ̂ = X tiene la varianza más pequeña que puede tener un estimador. Por tanto,
podemos concluir que X tiene la varianza mínima y, por tanto, es un estimador de varianza mínima
de µ.
Combinando todos nuestros resultados anteriores, podemos concluir que X es un estimador
insesgado, consistente y de mínima varianza de µ.
8.5 Suficiencia
La cuarta y última propiedad de un buen estimador que consideramos es la suficiencia, que fue
desarrollada por un famoso estadístico, Sir R. A. Fisher. Un estadístico suficiente (como X) es un
estimador que utiliza toda la información que contiene una muestra sobre el parámetro a estimar.
Por ejemplo, X es un estimador suficiente de la media poblacional µ. Esto significa que ningún otro
estimador de µ, como la mediana de la muestra, puede añadir más información sobre el parámetro
µ, que se está estimando.
Omitiremos una discusión matemática y nos limitaremos a señalar que la media muestral X y
la proporción muestral p son estadísticos suficientes (estimadores) para µ y π.
Ahora que hemos enunciado las propiedades deseables de un buen estimador, la pregunta de 64
dólares es: ¿Cómo se encuentran los estimadores con estas propiedades deseables? Esto nos lleva al
problema de los métodos de estimación. Consideraremos el método de máxima verosimilitud.
162 Estimación
La característica del método de máxima verosimilitud es que proporciona estimadores con las
propiedades deseables, como la eficiencia, la consistencia y la suficiencia, que hemos estado discu-
tiendo. Por ejemplo, si el parámetro a estimar tiene un estimador suficiente, el estimador ML será un
estimador suficiente, y de forma similar para las otras propiedades deseables excepto la insesgadez.
El método de máxima verosimilitud no suele dar estimadores insesgados. Discutiremos las ideas de
los estimadores ML, utilizando una ilustración sencilla.
Supongamos que un estadístico quiere estimar la nota media µ de un gran grupo de estudiantes.
Se toma una muestra aleatoria de tamaño n = 36 y la media muestral X resulta ser X = 65 puntos.
Ahora bien, la suposición principal en la que el estadístico basa su razonamiento es que la muestra
aleatoria de n = 36 es una imagen o representante de la población. Hemos visto que esta suposición
es razonable en los ejemplos dados en el capítulo 6, en el que se discutieron las distribuciones de
muestreo. Vimos cómo las muestras que eran similares a la población tenían mayor probabilidad de
ser seleccionadas.
Invirtamos ahora este razonamiento de la siguiente manera: El estadístico tiene ante sí una
muestra aleatoria de tamaño n = 36 y X = 65 puntos. ¿De qué población procede con mayor
probabilidad, de una población con µ = 60, 65 o 70? Según nuestro planteamiento anterior, el es-
tadístico razonaría que lo más probable es que proceda de una población con µ = 65. Por tanto,
concluimos que la media poblacional µ es muy probablemente µ = 65 puntos.
Aunque hayamos razonado que la muestra procede muy posiblemente de una población con
µ = 65, decimos que la media poblacional µ, basada en nuestra muestra, es muy posiblemente
µ = 65. Esto es así porque la media poblacional µ es o no es 65; sólo tiene un valor. De ahí que
utilicemos el término posible en lugar de probable.
Este tipo de razonamiento y la técnica matemática utilizada para encontrar los estimadores tam-
bién fueron desarrollados por Sir R. A. Fisher en 1922, que lo denominó método de máxima proba-
bilidad.
Con estos antecedentes, consideremos otra ilustración. Supongamos que tenemos urnas que
contienen 4 bolas que son blancas o negras. Una urna sin bolas negras se llamará urna 0; una urna
con 1 bola negra se llamará urna 1; y así sucesivamente para la urna 2, 3 y 4. Tenemos 5 urnas:
0 1 2 3 4
0n 1n 2n 3n 4n
4b 3b 2b 1b 0b
0 1 2 3 4
π0 = 4 π1 = 4 π2 = 4 π3 = 4 π4 = 4
0 1 2
4n 0 0 4n 3 1 4n 4 4
16 16 16 16 16 16
4 3 2
4b 16 0 4b 9 3 4b 4 4
16 16 16 16 16 16
4 0 3 1 2 2
(a) 4b 4n (b) 4b 4n (c) 4b 4n
3 4
4n 3 1 4n 0 16
16 16 16 16
1 0
4b 9 3 4b 0 0
16 16 16 16
1 3 0 4
(d) 4b 4n (e) 4b 4n
Figura 8.2
Estos diferentes espacios muestrales pueden caracterizarse por las diferentes probabilidades de
la bola negra. En el espacio 0, P (negra) = 0/4 = 0: en el espacio 1 es 1/4; en el espacio 2 es 2/4;
y así sucesivamente. Es decir, los espacios muestrales se caracterizan por el πi .
Denotemos estos espacios muestrales por
Ω0 , Ω1 , Ω2 , Ω3 , Ω4
Supongamos que la muestra que hemos seleccionado tiene 1 bola negra y 1 blanca. La pregunta que
nos hacemos es ¿De qué espacio muestral es más probable que proceda?
¿Podría venir de Ω0 ? Evidentemente no, porque en Ω0 no hay bolas negras. ¿Podría venir de
Ω1 o de Ω2 , o de algún otro Ωi ? Para responder a esta pregunta, R. A. Fisher propone la idea de la
posibilidad.
La idea es seleccionar el espacio Ωi que dará la muestra dada ante nosotros con más frecuencia
que cualquier otro espacio. Es decir, ¿qué espacio con el que πi dará la muestra observada con más
frecuencia, en relación con los demás Ω’s?
164 Estimación
Fisher lo explica así (Fisher utiliza p donde nosotros hemos utilizado π):
Debemos volver al hecho real de que un valor de p, cuya frecuencia desconocemos, produciría el
resultado observado tres veces más frecuentemente que otro valor de p. Si necesitamos una palabra
para caracterizar esta propiedad relativa de los diferentes valores de p, sugiero que podemos hablar
sin confusión de que la posibilidad de un valor de p es tres veces mayor que la de otro, teniendo
siempre en cuenta que la posibilidad no se utiliza aquí vagamente como sinónimo de probabilidad,
sino simplemente para expresar las frecuencias relativas con las que tales valores de la cantidad
hipotética p producirían de hecho la muestra observada1 .
Por tanto, nuestro problema es decidir de qué espacio muestral Ωi procede la muestra observada
que tenemos ante nosotros. Dado que los espacios muestrales se caracterizan por πi , decidir un
espacio muestral es seleccionar un πi .
Para nuestro problema actual, podemos ver en la Figura 8.2(a) - (e) que el espacio que da la
muestra observada con más frecuencia que cualquier otro Ω es el espacio Ω2 . Para Ω2 la probabilidad
de seleccionar una muestra (blanco, negro) es
4 4 8
+ =
16 16 16
8
mientras que es menor que 16 , para cualquier otro espacio. En otras palabras, Ω2 es el espacio en el
que la muestra (b, n) tiene la mayor probabilidad.
Por lo tanto, consideramos que la urna 2 con π = 1/2, que generó el espacio muestral Ω2 , es
la urna más probable de la que se seleccionó la muestra; y consideramos este π = 1/2 como la
estimación del parámetro que buscamos.
En nuestra discusión, partimos de la muestra, luego pasamos al espacio muestral y finalmente
a la población, y encontramos el πi . Esto fue posible gracias a la sencilla ilustración que teníamos.
Sin embargo, para otros problemas que no son tan simples, este proceso es difícil.
La técnica matemática del método MV ideada por R. A. Fisher nos permite encontrar estimado-
res basados en el razonamiento anterior directamente a partir de la muestra. Nos permite encontrar
el espacio en el que la probabilidad de la muestra es mayor. Desgraciadamente, esto requiere un co-
nocimiento del cálculo. Sin embargo, podemos presentar los resultados del método MV para varias
situaciones diferentes como sigue:
π̂ = p (8.2)
El siguiente aspecto del estimador de µ que queremos considerar es la relación entre el error,
el riesgo y el tamaño de la muestra. Comenzamos con la relación entre el error y el riesgo. Hemos
supuesto que
µ = 70 puntos
X = 65 puntos
e = X − µ = 65 − 70 = −5 puntos
X = 65 E(X) = 70
Figura 8.3
E(X) = µ = 70 puntos
σ 18
σX = √ = √ = 3 puntos
n 36
Como la distribución muestral es normal, el área del área sombreada se encuentra como sigue:
X −µ 65 − 70
z= = = −1.66
σx 3
Por lo tanto, el área sombreada es aproximadamente 0.0485 o 4.85 por ciento. Esto significa que
hay aproximadamente 4.85 posibilidades entre 100 de que la media de la muestra esté 5 puntos o
más por debajo de la media de la población. Del mismo modo, podemos decir que hay unas 4.85
posibilidades entre 100 de que la media de la muestra esté 5 puntos o más por encima de la media
de la población.
Ahora podemos combinar las dos afirmaciones y decir: Hay aproximadamente 4.85+4.85 = 9.7
posibilidades entre 100 de que el error sea igual o superior a 5 puntos cuando se selecciona una
muestra aleatoria de tamaño n = 36.
166 Estimación
Ejemplo No. 1
Dado n = 36 y a = 18 puntos, hallar el riesgo (probabilidad) de que se produzca un error
de e = 3 puntos o más.
X −µ e 3
z= = = =1
σx σx 3
donde
σ 18
σx = √ = √ = 3
n 36
Dado que z = 1, encontramos que la probabilidad (riesgo) es
0.1587 + 0.1587 = 0.3174
Esto se muestra en la Figura 8.4
0.1587 0.1587
X
X1 E(X) X2
=µ
Figura 8.4
Ejemplo No. 2
El azúcar se envasa en cajas y cada caja debe tener µ gramos de azúcar. La desviación tí-
pica es σ = 4 gramos. Se toma una muestra de tamaño n = 16. ¿Cuál es la probabilidad
(riesgo) de que el error sea superior a 2 gramos?
X −µ e 2
z= = = =2
σx σx 1
σ 4
σx = √ = √ = 1
n 16
Por lo tanto, el riesgo es de aproximadamente 4.56 posibilidades entre 100 de tener un error de
e = 2 gramos o más cuando se selecciona una muestra de tamaño n = 16. Esto se muestra en forma
de diagrama en la Figura 8.5. Obsérvese que no se ha especificado µ y X; sólo se da e = X − µ = 2
gramos.
8.7. La relación entre el error, el riesgo y el tamaño de la muestra 167
0.0228 0.0228
X
E(X)
=µ
Figura 8.5
En nuestra ilustración anterior, el tamaño de la muestra era n = 36, el error era e = 5 puntos, y
el riesgo de cometer un error de e = 5 puntos o más era de 9.7/100. ¿Qué ocurrirá con el riesgo si
n es mayor? Debería estar claro de forma intuitiva que el riesgo será menor. Por ejemplo, si hay un
total de 2 000 alumnos y se toma una muestra de n = 36 para estimar la nota media, hay muchas
posibilidades de desviarse hasta 5 puntos de µ. Pero, si se toman n = 1999 alumnos, la posibilidad
de que haya un error de 5 puntos o más es altamente improbable; es decir, el riesgo de que haya
tal error es muy pequeño. Afirmamos que, dado un determinado error, a medida que aumenta el
tamaño de la muestra, disminuye el riesgo de que se produzca dicho error. Veamos ahora cómo se
calcula la variación del riesgo.
Utilizando de nuevo nuestra ilustración anterior, tenemos
n = 36, e = 5 puntos, σ = 18 puntos
σ 18
σx = √ = √ = 3 puntos
n 36
Ejemplo No. 3
Cuando n = 36, σ = 18 y e = 3 puntos, el riesgo era de 0.3174. Hagamos que n se con-
vierta en n = 81. Entonces el riesgo se encuentra como sigue:
168 Estimación
σX = 3 points
E(X) = µ
σX = 2 puntos
X
E(X) = µ
Figura 8.6
e 3
z= = = 1.5
σx 2
σ 18
σx = √ = √ = 2
n 81
Ejemplo No. 4
En el ejemplo del azúcar, teníamos n = 16, σ = 4 gramos y e = 2 gramos. Sea n = 64.
Entonces el riesgo es
e 2
z= = =4
σx 0.5
σ 4
σx = √ = √ = 0.5
n 64
y la proporción es 0.00 (la proporción para z = 4 no figura en la tabla de areas normales del
Apéndice); es decir, el riesgo es cero. A medida que el tamaño de la muestra aumenta de n = 16 a
n = 64, el riesgo disminuye de 4.56/100 a cero.
8.7. La relación entre el error, el riesgo y el tamaño de la muestra 169
El problema consiste en ver de qué manera el cambio del tamaño de la muestra mantendrá el
error dentro de ciertos límites con un determinado riesgo. Supongamos que deseamos encontrar el
tamaño de la muestra que mantendrá el error dentro de 3 puntos, con un riesgo de, digamos, 0.0456.
La situación se muestra en la Figura 8.7.
0.0228 0.0228
3 puntos 3 puntos
X
E(X) = µ
Figura 8.7
0.0456
= 0.0228
2
Vemos en la tabla de áreas normales que la z que corresponde a 0.0228 es z = 2.0. Así tenemos,
recordando que σ = 18 puntos
e 3
z= = =2
σx 18
√
n
e
z= σ
√
n
√ zσ
n=
e
Por tanto,
z2σ2
n= (8.3)
e2
170 Estimación
¿Qué tamaño debe tener la muestra para mantener la probabilidad de que el error sea igual o
mayor que e = 1.5 en 0.0456? Para 0.0456 (= 2 · 0.0228), z = 2, y
z2σ2
n=
e2
(2)2 (18)2
= = 576
(1.5)2
Ejemplo No. 5
En el ejemplo del azúcar, σ = 4 gramos. ¿Qué tamaño debe tener la muestra si la proba-
bilidad (riesgo) de que el error sea de 1 gramo o más es de 0.0456? Para 0.0456, z = 2.0:
z2σ2
n=
e2
(2)2 (4)2
= = 64
1
Mostramos ahora la relación entre el error, el riesgo y el tamaño de la muestra para las propor-
ciones. Sabemos que el error estándar de p es
r
π(1 − π)
σp =
n
y es necesario conocer π o una estimación del mismo para poder encontrar σp . Sin embargo, consi-
deremos el siguiente problema y mostremos cómo se puede encontrar un tamaño de muestra aunque
se desconozca π. Queremos encontrar el tamaño de la muestra que mantenga el error dentro del 3%
con un riesgo de, digamos, 0.0456. La situación se muestra en la Figura 8.8.
Como el riesgo se fija en 0.0456, la proporción en cada cola es de 0.0228, y a partir de la tabl a
de áreas normales, se encuentra que z es z = 2.0. Así, utilizando la relación
e
z=r
π(1 − π)
n
8.7. La relación entre el error, el riesgo y el tamaño de la muestra 171
0.0228 0.0228
3% 3%
p
E(p) = π
z=2
Figura 8.8
tenemos, despejando la n
z 2 π(1 − π)
n=
e2
(2) π(1 − π)
2
=
(0.03)2
No conocemos el valor de π. Sin embargo, si podemos encontrar el valor de π que maximice π(1 −
π), y utilizarlo para calcular n, podemos estar seguros de que el tamaño de la muestra n será lo
suficientemente grande como para satisfacer el requisito de que el error esté dentro del 3 por ciento.
Para encontrar el valor de π que maximizará π(1 − π), realicemos el siguiente truco algebraico:
π(1 − π) = π − π 2
1 1
= − −π+π 2
4 4
2
1 1
= − −π
4 2
Esto demuestra que π(1 − π) será máximo cuando π = 1/2 y el valor máximo es 1/4. Por lo
tanto, el n que buscamos es
2 1
(2)
4
n=
(0.03)2
1.00
=
0.0009
.
= 1111
Es decir, si utilizamos una muestra de tamaño n = 1111, el error será inferior al 3%.
La fórmula puede generalizarse sustituyendo π(1 − π) = 1/4 en la fórmula de n, como sigue
2 1
(z)
4
n= 2
(8.4)
e
172 Estimación
Ejemplo No. 6
Una empresa que vende pasta de dientes ABC desea estimar la proporción de personas
que prefieren su marca ABC. Desea mantener el error dentro del 2 por ciento, con un
riesgo de 0.0456. ¿Qué tamaño de muestra debe tomarse?
0.0228 0.0228
2% 2%
p
E(p) = π
Figura 8.9
Dado que, como muestra la Figura 8.9, z = 2, a partir de la ecuación (8.4) encontramos:
1
(2)2
4
n=
(0.02)2
= 2500
Es decir, si se toma una muestra aleatoria de tamaño n = 2500, el error será inferior al 2 por
ciento con un riesgo de 0.0456.
Para encontrar una estimación de π, tome una muestra aleatoria de n = 1250. Entonces el
estimador de máxima verosimilitud de π es
P
x
π̂ = p =
n
P
donde Px es el número de personas que prefieren la marca ABC. Ahora n = 1250 en el presente
caso. si x = 250, la estimación MV de π es
250 1
π̂ = = = 20%
1250 5
Hasta ahora nos hemos ocupado de estimar un parámetro (digamos, la media poblacional µ)
con un único valor, X = 10, y esto se llama estimación por un punto o, simplemente, estimación
puntual. Ahora queremos estimar un parámetro µ por un intervalo:.
a<µ<b
8.8. Estimación por intervalos 173
x1 = 1, x2 = 3, x3 = 5, x4 = 7
con una media µ (desconocida) y una desviación típica σ. Queremos estimar µ, utilizando esta
muestra de cuatro valores. Sabemos por el teorema del límite central que
X −µ
z=
σx
es asintóticamente normal con media 0 y varianza unidad. Por la tabla de áreas normales sabemos
que cuando z = 1.96, corresponde a una probabilidad de 0.975. Por tanto, podemos escribir
X −µ
P −1.96 < < 1.96 = 0.95
σx
y ésta es una declaración de probabilidad legítima porque z es una variable aleatoria. Reescribamos
ahora esta ecuación como
σ σ
P X − 1.96 √ < µ < X + 1.96 √ = 0.95
n n
Si hacemos que
σ
X − 1.96 √ = a
n
σ
X + 1.96 √ = b
n
tenemos
P (a < µ < b) = 0.95
y esto puede interpretarse como sigue:
Por el teorema del límite central sabemos que X es asintóticamente normal, con media µ, y
varianza σ 2 /n. Esto se muestra en forma de diagrama en la Figura 8.10. La variable aleatoria X
toma varios valores. Expresémoslos por X 1 , X 2 , . . .. Ahora, por ejemplo, dejemos que X 1 tome el
valor indicado en la Figura 8.10. Entonces el intervalo será
σ σ
X 1 − 1.96 √ a X 1 + 1.96 √
n n
Como muestra el gráfico, esto incluirá a µ. De forma similar, para otro valor X 2 , tenemos
σ σ
X 2 − 1.96 √ a X 2 + 1.96 √
n n
2
Neyman, J., Outline of a Theory of Statistical Estimation Based on the Classical Theory of Probability, Philosophical
Transactions of the Royal Society, Series A, Vol. 236, 1937.
174 Estimación
que también incluye µ. Pero X 3 , como muestra nuestra gráfica, nos da el intervalo
σ σ
X 3 − 1.96 √ a X 3 + 1.96 √
n n
que no incluye a µ. Como podemos ver gráficamente, el X 3 cae fuera de los dos valores límite de
µ ± 1.96σx .
La probabilidad de que X esté en el intervalo µ±1.96σx es de 0.95; es decir, hay 95 posibilidades
sobre 100 de que la X esté entre µ − 1.96σx y µ + 1.96σx , dado que µ es en realidad el verdadero
valor del parámetro.
Así podemos ver en la Figura 8.10, que cuando construimos nuestro intervalo
σ σ
X − 1.96 √ a X + 1.96 √
n n
Figura 8.10
podemos esperar que 95 de cada 100 intervalos de este tipo incluyan µ. Así
σ σ
P X − 1.96 √ < µ < X + 1.96 √ = 0.95
n n
y
P (θ̂ − zσθ̂ < θ < θ̂ + zσθ̂ ) = 1 − α (8.6)
La interpretación del intervalo de confianza es la siguiente:
1. Antes de seleccionar una muestra específica, el estimador θ̂ es una variable aleatoria. Por lo
tanto, el intervalo de confianza θ̂ ± zσθ̂ también es una variable aleatoria (intervalo aleatorio)
y la probabilidad es (1 − α) de que el intervalo de confianza contenga el parámetro θ.
2. Tras la selección de una muestra concreta, el θ̂ toma un valor específico y se convierte en fijo.
Por lo tanto, el intervalo de confianza θ̂ + zσθ̂ se vuelve fijo. Entonces la ecuación (8.6) no es
un enunciado de probabilidad legítimo.
3. Por lo tanto, el significado del coeficiente de confianza (1 − α) que asociamos con un in-
tervalo de confianza específico, que obtenemos de una muestra específica, se basa en las dos
afirmaciones (8.5) y (8.6). Sea 1 − α = 0.95. Entonces la interpretación es la siguiente: Si
se seleccionan repetidamente muestras de tamaño n 100 veces, tendríamos 100 intervalos
similares a θ̂ + zσθ̂ y esperaríamos que 95 de estos intervalos contengan θ̂. El intervalo que
calculamos, θ̂ + zσθ̂ , es uno de estos 100 intervalos.
Ejemplo No. 7
Supongamos que tenemos una población de tamaño N = 7 como sigue
X1 = 1, X2 = 2, X3 = 3, X4 = 4, X5 = 5, X6 = 6, X7 = 7
7
Seleccionemos muestras de tamaño n = 2. Entonces hay = 21 muestras posibles y,
2
por tanto, 21 medias muestrales posibles. Éstas se enumeran en el Cuadro 8.1.
28
X = 4, σ 2 = = 4, σ = 2
7
σ2 N − n 4 7−2 5
σx2 = · = · = = 1.667
n N −1 2 7−1 3
√
σx = 1.667 = 1.29
zσx = 1.64 · 1.29 = 2.1
Como hemos definido z = 1.64, el coeficiente de confianza es del 90%. Esto significa que de 100
intervalos de confianza, esperaríamos que 10 no contuvieran la verdadera media (es decir, espera-
ríamos que el 10% no contuviera la verdadera media). En cuanto a nuestro ejemplo, hemos podido
construir 21 intervalos de confianza, y esperaríamos que el 10% de estos intervalos de confianza -
alrededor de 2 de ellos - no contengan X.
176 Estimación
Cuadro 8.1
Sabemos que X = 4 en nuestro ejemplo. Por lo tanto, podemos ver fácilmente que el primer y
el último intervalo de confianza no contienen X = 4. Es decir
no contienen X = 4.
Ejemplo No. 8
Un restaurante desea estimar la cantidad media de dinero que gasta un cliente en el
almuerzo. Se selecciona una muestra aleatoria de tamaño n = 36 y se encuentra que
la media de la muestra es X = $1.20. Suponiendo que σ = 0.24 y un coeficiente de
confianza de 1 − α = 95 por ciento, z se obtiene de la tabla de áreas normales como
z = 1.96. Por lo tanto, el intervalo de confianza es
0.24 0.24
$1.20 − 1.96 · √ < µ < $1.20 + 1.96 · √
36 36
$1.12 < µ < 1.28
Ejemplo No. 9
Un colegio desea estimar el peso medio de los alumnos de sexto curso. Se selecciona
una muestra aleatoria de n = 25, y se encuentra que la media de la muestra es X = 100
lb. Se sabe que la desviación estándar de la población es 15 lb. Suponiendo un coefi-
ciente de confianza de 1 − α = 90 por ciento, z = 1.64. Por lo tanto, el intervalo de
confianza es
15 15
100 − 1.64 · √ < µ < 100 + 1.64 · √
25 25
95 < µ < 105
Suponga en el ejemplo 3 que la escuela desea tener un intervalo de confianza de menos de 3 lb.
con un coeficiente de confianza (1 − α) = 0.95. ¿Qué tamaño debe tener la muestra?
Dibujemos primero la Figura 8.11 como ayuda visual, en la que, puesto que queremos el intervalo
menor a 3 lb., tenemos
3 lb
1.5 lb
X − zσx X X + zσx
Figura 8.11
(1.96)2 (15)2
n=
1.52
= 384.16
Por lo tanto, un tamaño de muestra de aproximadamente 384 nos dará un intervalo de confianza
inferior a 3 lb. con un coeficiente de confianza (1 − α) = 0.95.
178 Estimación
8.9 Apéndice
Ejemplo No. 10
Consideremos una distribución binomial con función de densidad
Entonces, cuando se selecciona una muestra de tamaño n por muestreo aleatorio, la función de
densidad conjunta es ∑ ∑
f (x1 , x2 , . . . , xn ; p) = p x q n− x
Establescamos ∑ ∑
x n− x
L=p q
y llamémosla función de verosimilitud L, que se considera en función del parámetro p. Según el
procedimiento del EMV, deseamos encontrar la p que maximiza la verosimilitud de L.
Dado que un logaritmo es una función monótona, el máximoP de log L y el máximo de L se
obtendrán con la misma p. Para simplificar, consideremos que x = y. Entonces
log L = log py q n−y = y log p + (n − y) log q
∂L y n−y
= + (−1) = 0
∂p p 1−p
Así, despejando la p encontramos
y 1X
p̂ = = x
n n
que es simplemente la proporción de la muestra.
Ejemplo No. 11
Sea (x1 , x2 , . . . , xn ) una muestra aleatoria de una población que tiene una distribución
normal con media desconocida µ y varianza dada σ 2 . Encuentre el MVE de µ
8.9. Apéndice 179
1
f (xi , µ) = √ e−(xi −µ) /2σ
2 2
(1)
σ 2π
n/2 P
1 (xi − µ)2
log L = log − (2)
2πσ 2 2σ 2
∂ log L 1 h X i
=0− 2 2 (xi − µ)(−1) = 0(3)
∂µ 2σ
X
(xi − µ) = 0
X
x i = nµ
1X
µ̂ = xi
n
1P
Por tanto, el EMV de µ es X = xi .
n
Ejemplo No. 12
Dada una muestra aleatoria de tamaño n extraída de una población normal con una
media µ dada y una varianza desconocida σ 2 , encuentre el EMV para la varianza σ 2 .
Sea θ = σ 2 . Entonces
∂ log L 11 1 X
=− + 2 (xi − µ)2 = 0(4)
∂θ 2 θ 2θ
1X
θ̂ = σ 2 = (xi − µ)2
n
Ejemplo No. 13
Encuentre el EMV para µ y σ 2 simultáneamente para el caso normal. Utilizando las expre-
siones (3) y (4), encontramos
∂ log L 1 X
=0: 2 (xi − µ) = 0
∂µ σ
∂ log L n 1 1 X
= 0 : − + (xi − µ)2 = 0
∂σ 2 2 σ2 2σ 4
despejando la µ y σ 2 , encontramos
1X 1X
µ̂ = xi = X y σ̂ 2 = (xi − X)2
n n
2. Procedimientos y tablas de muestreo estándar militares para la inspección por variables para
el porcentaje de defectos. MIL-STD-414, 1 1 de junio de 1957.
180 Estimación
También se utilizan en la industria privada. Dibujemos primero la curva OC para nuestra ilus-
tración de la empresa de venta de televisores y, a continuación, ofrezcamos otras ilustraciones. La
tabla 9.6 se reproduce a continuación como tabla 9.7 para mayor comodidad. La curva OC se ob-
tiene graficando los valores L3, como se muestra en la Fig. 9.21. Observe cuidadosamente que esta
curva OC supone n = 100,a0= 5 por ciento, y la La hipótesis nula es p. = $400. La escala horizontal
muestra los valores alternativos p, < $400 y la escala vertical muestra los valores p.
La altura de la curva muestra el valor p y es la probabilidad de aceptar w1. Por lo tanto, cuando
la curva es alta cerca de $400 y baja cuando se aleja de $400, como se muestra en la Fig. 9.22(a),
indica que la capacidad de la regla de decisión para distinguir entre las hipótesis nula y alternativa
es buena.
Sin embargo, si la curva OC es como la de la Fig. 9.22(h), donde es alta para los valores alejados
de $400 como $396, $394, como en la figura, la capacidad de la regla de decisión para distinguir
entre las hipótesis nula y alternativa no es buena.
Ahora podemos enunciar nuestra regla de decisión como sigue:
Regla de decisión. Tome una muestra aleatoria de tamaño n = 100. Si X $396,71 X c $396,71
tomar la acción A1 (iniciar la campaña) tomar la acción A2 (no iniciar la campaña)
Entonces el riesgo a es del 5 por ciento y los riesgos fl para las hipótesis alternativas son los que
se muestran en la Fig. 9.21.
Supongamos que se selecciona una muestra aleatoria de n = 100 familias y que la media de la
muestra es X = 394. Entonces, según nuestra regla de decisión, la acción a tomar es Acción. Tomar
la acción A2 y no iniciar la campaña.
Caso 11-Segundo enfoque
Resumamos brevemente nuestra discusión sobre el primer enfoque. Una empresa de venta de
televisores desea decidir si inicia o no una campaña de ventas. Selecciona una muestra aleatoria de
n = 100 y encuentra una regla de decisión tal que a = 5 por ciento y una curva OC que muestra los
/3-riesgos para las hipótesis alternativas. Las características de esta regla de decisión y de la curva
OC eran que las hipótesis nula y alternativa y los riesgos a y /3 eran (mostrados esquemáticamente)
los siguientes:
CAPÍTULO 9
Prueba de Hipótesis
Supongamos que nos dan 2 urnas, A y B, con bolas rojas y verdes en ellas, como sigue:
Urna A Urna B
Rojo 2 7
Verde 8 3
Se selecciona una bola de una de las urnas; supongamos que es una bola roja. El estadístico no
sabe de qué urna ha sido seleccionada. Sin embargo, basándose en esta bola roja, desea decidir de
qué urna ha sido seleccionada.
Analicemos este sencillo problema, utilizando la terminología estadística. En primer lugar, las
dos urnas se denominarán estados de la naturaleza o estados del mundo. Se denotarán m1 y m2 .
Obviamente, los mundos, m1 y m2 , son los objetos (es decir, las urnas) sobre los que el estadístico
se preocupa, y el término estados del mundo describe el mundo. En nuestro problema actual, m1
tiene 2 rojas y 8 verdes y m2 tiene 7 bolas rojas y 3 verdes. Utilizaremos m1 y m2 para denotar
tanto los mundos como los estados del mundo. Una característica de los estados del mundo es que
deben ser exclusivos y exhaustivos. Es decir, no hay más estados del mundo que m1 y m2 en nuestro
presente experimento.
Si hay 3 urnas, cada una con un número diferente de bolas rojas, hay 3 estados del mundo. En
nuestro ejemplo actual, en el que sólo tenemos 10 bolas (rojas y verdes) en una urna, el número de
bolas rojas es 0, 1, . . . , o 10. Por lo tanto, hay 11 estados posibles del mundo. Sin embargo, en nuestro
problema actual, hemos definido nuestro experimento para tener sólo 2 urnas con 2 rojas en una
urna y 7 rojas en la otra.
181
182 Prueba de Hipótesis
Rojo Verde X
Figura 9.1
Como otra ilustración, supongamos que se extraen 2 bolas, con reemplazo, de una urna. Enton-
ces los posibles resultados de este experimento de tomar una muestra de 2 bolas son
Es decir, hay 4 resultados posibles. Esto puede mostrarse en forma de diagrama, como en la Figu-
ra 9.2. Este diagrama representa el espacio muestral asociado al experimento. Vemos que tenemos
un espacio muestral bidimensional y que hay 22 = 4 puntos muestrales.
X2
(r, v) (v, v)
Verde
(r, r) (v, r)
Rojo
Rojo Verde X1
Figura 9.2
Obsérvese que las dos muestras (r, g) y (g, r) se han considerado diferentes. Pero para los
problemas prácticos son la misma muestra.
Si se extrae una muestra de tamaño 3, tenemos un espacio muestral tridimensional con 23 = 8
puntos de muestra. Si se extrae una muestra de tamaño 4, tenemos un espacio muestral de 4 dimen-
siones con 24 = 16 puntos de muestra. Si se toma una muestra de tamaño n, y sólo hay 2 resultados
posibles para cada sorteo, tendremos un espacio muestral n-dimensional con 2n puntos de muestra.
Ahora supongamos que hay bolas rojas, verdes y negras en las urnas. Es decir, hay 3 resultados
posibles por sorteo, en lugar de 2 resultados posibles por sorteo. Entonces, cuando se extrae 1 bola,
el espacio muestral es como en la Figura 9.3. Tenemos un espacio muestral de 1 dimensión con 3
puntos de muestra.
Figura 9.3
9.1. Introducción de nueva terminología 183
Si tomamos una muestra de tamaño 2, el espacio muestral es como en la Figura 9.4. Se trata de un
espacio muestral bidimensional con 32 = 9 puntos de muestra. Si tomamos una muestra de tamaño
3, tenemos un espacio muestral tridimensional con 33 = 27 puntos de muestra. Por inducción
vemos que si tomamos una muestra de tamaño n, tendremos un espacio muestral n-dimensional
con 3n puntos de muestra.
X2
Negro
Verde
Rojo
Figura 9.4
Con respecto a nuestra línea principal de discusión, hemos explicado hasta ahora: primero, el
término estados del mundo; segundo, un experimento ϵ; tercero, un espacio muestral, y puntos
muestrales asociados a ϵ. El cuarto elemento de nuestro problema a explicar es un acto, que el esta-
dístico selecciona.
Más adelante daremos más explicaciones sobre los actos, pero por el momento digamos que A1
es una acción realizada, suponiendo que m1 es verdadera; y A2 es una acción realizada, suponiendo
que m2 es verdadera. En nuestro ejemplo actual, A1 es seleccionar la urna A, y A2 es seleccionar la
urna B.
El quinto y último elemento de nuestro problema puede explicarse como sigue: ¿Cómo decide
el estadístico si adopta la acción A1 o A2 ? Esto, como hemos visto, se basa en la bola (es decir, el
resultado; o podemos decir, la muestra) que se ha extraído.
En nuestro ejemplo, se ha extraído una bola roja. ¿Qué acción debe realizar el estadístico, A1
o A2 ? Supongamos que se ha extraído una bola verde. ¿Qué acción debe realizar, A1 o A2 ? Sería
conveniente establecer una regla de antemano para saber qué acción hay que realizar cuando se
observe un determinado resultado. Por ejemplo, establezcamos la siguiente regla:
Resultado Regla
Roja A1
Verde A2
Esta regla dice: Cuando el resultado es una bola roja, se realiza la acción A1, y cuando el resultado
es una bola verde, se realiza la acción A2.
El quinto elemento del problema es esta regla (o, podemos decir, una función) que dice qué
acción hay que tomar cuando se da un resultado. Se puede mostrar de forma esquemática como
(Resultado) −→ (regla) −→ (action)
A esta regla la llamaremos regla de decisión.
Una forma alternativa de expresarlo es
(Espacio Muestral) −→ (regla de decisión) −→ (espacio de acción)
184 Prueba de Hipótesis
porque el espacio muestral es el espacio que muestra todos los resultados posibles. Esta última in-
terpretación es la que utilizaremos principalmente para nuestra discusión teorética. La Figura 9.5
presenta una ilustración en la que se ha extraído una muestra de tamaño 2. Una pregunta que surge
v (r, v) (v, v)
Regla de Espacio
r (r, r) (v, r) Decisión de Acción
r v A1 A2
Figura 9.5
inmediatamente es: ¿Por qué hemos establecido la regla de decisión? ¿Existen otras reglas de deci-
sión? Investiguemos primero si hay otras reglas de decisión.
Como tenemos 2 resultados y 2 acciones, tenemos las siguientes 22 = 4 reglas de decisión, que
se muestran con d1 , d2 , d3 , d4 . La regla de decisión indicada es d2 .
Resultado d1 d2 d3 d4
Rojo A1 A1 A2 A2
Verde A1 A2 A1 A2
Cuadro 9.1
Resultado d1 d2 d3 d4 d5 d6 d7 d8
Rojo A1 A1 A1 A2 A2 A2 A1 A2
Verde A1 A1 A2 A1 A2 A1 A2 A2
Negro A1 A2 A1 A1 A1 A2 A2 A2
Cuadro 9.2
La regla de decisión d2 es que cuando se saca una bola roja o verde, se realiza la acción A1 ;
cuando se saca una bola negra, se realiza la acción A2 .
En general, si hay n resultados y 2 acciones, habrá 2n reglas de decisión.
Una pregunta que surge es: ¿Por qué seleccionamos la regla de decisión d2 ? ¿Es d2 la única regla
de decisión que debemos seleccionar como criterio? Estas preguntas se discutirán más adelante. Por
el momento, limitémonos al significado de los distintos términos nuevos.
En resumen, tenemos los siguientes 5 elementos:
2. Experimento ϵ.
4. Acción A1 y A2 .
5. Reglas de decisión.
9.2. Errores de tipo I y de tipo II 185
Con estos antecedentes, pasemos al siguiente tema, los errores de tipo I y de tipo II.
Estado de la Naturaleza
Acción m1 , Urna A m2 , Urna B
A1 Decisión correcta Decisión incorrecta, error β
A2 Decisión incorrecta, error α Decisión correcta
Cuadro 9.3
Estado de la Naturaleza
Acción m1 , Buenos Estudiantes m2 , Malos estudiantes
A1 , aprobar Decisión correcta Decisión incorrecta, error β
A2 , suspender Decisión incorrecta, error α Decisión correcta
Cuadro 9.4
Estado de la Naturaleza
Acción m1 , Bueno tiempo m2 , Lluvia
A1 , no llevar paraguas Decisión correcta Decisión incorrecta, error β
A2 , llevar paraguas Decisión incorrecta, error α Decisión correcta
Cuadro 9.5
Estado de la Naturaleza
Acción m1 , Bueno tiempo m2 , Lluvia
A1 , llevar paraguas Decisión correcta Decisión incorrecta, error β
A2 , no llevar paraguas Decisión incorrecta, error α Decisión correcta
Cuadro 9.6
Ahora el error α es no llevar el paraguas cuando llueve. En el caso anterior era tomar el paraguas
cuando estaba de buen clima. Los errores α y β se han invertido.
Esto indica que el error α y el error β dependerán de cómo seleccionemos nuestros m1 , m2 , A1
y A2 . Como convención, solemos tomar nuestros m1 , m2 , A1 y A2 , de modo que el error α es el
que nos interesa evitar principalmente. Si no llevar un paraguas cuando llueve es el error más grave
que tomar un paraguas cuando hace buen tiempo, deberíamos adoptar el segundo esquema.
También se recomienda configurar el esquema de forma que el error a esté siempre en la cel-
da inferior izquierda y (en consecuencia) el error β esté en la celda superior derecha. Esto evitará
confusiones. Nosotros seguiremos esta regla.
A continuación, aplicaremos los distintos resultados anteriores a los problemas clásicos de com-
probación de hipótesis. El adjetivo “clásico” se utiliza porque la prueba que vamos a discutir se
desarrolló durante el último medio siglo y puede contrastarse con un nuevo enfoque que se ha de-
sarrollado recientemente. En el capítulo 13 hablaremos de este nuevo enfoque.
El caso más sencillo puede resumirse de la siguiente manera: Queremos determinar si una mues-
tra procede o no de la población (estado natural) m1 . Supongamos que la media de la población es
µ0 y la media de la muestra es X. Entonces nos planteamos la pregunta ¿Cuál es la probabilidad de
seleccionar una muestra con media muestral X o mayor de una población con media µ0 ? Supon-
gamos que la probabilidad es α (digamos, el 3%). Esto significa que hay 3 posibilidades entre 100
de seleccionar una muestra con una media muestral X o mayor de una población con media µ0 .
9.3. Prueba de hipótesis 187
Por tanto, si concluimos que la muestra no procede de la población, la probabilidad de ser in-
correcta es de 0.03. O bien, podemos decir que la probabilidad de ser incorrectos al decidir que la
muestra no procedía de la población, cuando en realidad sí lo hacía, es de 0.03.
Hemos supuesto que la población tiene una media de µ0 . Esta es, pues, nuestra hipótesis; es decir
Hipótesis: La media de la población es µ0
que suele abreviarse como
H0 : µ = µ 0
y se denomina hipótesis nula. Es la hipótesis que nos interesa probar.
Utilizamos este término “hipótesis nula” y enunciamos nuestra conclusión de la siguiente ma-
nera: La probabilidad de rechazar la hipótesis nula (H0 ) cuando en realidad es verdadera es de 0.03.
O bien, podemos decir que 0.03 es la probabilidad de realizar la acción A2 , dada H0 . En símbolos,
esto es
P (A2 |H0 )
Pero tenga en cuenta que este rechazo de la hipótesis nula es simplemente el error de tipo I (α).
El error α es el error de rechazar el estado de naturaleza m1 (H0 ) cuando en realidad es verdadero.
En otras palabras, 0.03 es el riesgo de cometer un error del primer tipo. Utilizaremos α para denotar
este riesgo. En símbolos tenemos
Velocidad Punto
Mecanografía, Frecuencia Medio
X f m d fd d2 f d2
45 - 10 -3 -30 9 90
50 - 20 -2 -40 4 80
55 - 30 -1 -30 1 30
60 - 40 62.5 0 0 0 0
65 - 30 1 30 1 30
70 - 20 2 40 4 80
75 - 10 3 30 9 90
160
P 0 400
fd 0
µ=A+ · C = 62.5 + · 5 = 62.5
rP N P 2
160r
f d2 fd 400
σ=C − =5 = 7.91
N N 160
Cuadro 9.7
Una escuela de secretariado afirma que instruyendo a las secretarias en las instalaciones de la
empresa durante varios días, la velocidad de mecanografía aumentará. La empresa contrata a la
escuela de secretariado para que preste sus servicios.
Tras las instrucciones, la empresa decide que un estadístico compruebe los resultados. El esta-
dístico selecciona una muestra aleatoria de 16 secretarias y descubre que la media de la muestra es
de 66.2 palabras por minuto.
Pregunta: ¿Qué probabilidad hay de seleccionar una muestra con una media muestral mayor o
igual a 66.2 de la población original m1 , que tiene una media poblacional de µ = 62.5? La población
original m1 está caracterizada por µ = 62.5. Esto se convierte en la hipótesis nula
En el capítulo 7 aprendimos a utilizar la distribución muestral de la media de la muestra y los
resultados del teorema central del límite para calcular la probabilidad de seleccionar una muestra.
En nuestro caso actual, la distribución muestral de la media de la muestra puede mostrarse como
en la Figura 9.6.
p
E(X) = 62.5
Figura 9.6
Sabemos que
E(X) = µ = 62.5
Dado que la distribución muestral de la media de la muestra es aproximadamente normal, el área
de la parte sombreada se halla mediante
1 1
X − E(X) 66.2 − · − 62.5
z= = 2 16 = 1.95
σx 1.88
donde σx se obtiene de
r r
σ N −n 7.91 160 − 16
σx = √ =√ = 1.88
n N −1 16 160 − 1
Como z = 1.95, la proporción de la zona sombreada es 0.0256. En símbolos esto se muestra como
P [X ≧ 66.2 | µ = 62.5]
La interpretación es: Hay 2.56 posibilidades entre 100 de seleccionar muestras con medias mues-
trales mayores o iguales a 66.2 de la población m1 .
Esto también puede interpretarse de la siguiente manera: El riesgo (o probabilidad) de cometer
el error de tipo I (α) de rechazar H0 cuando en realidad es verdadera es de 0.0256.
La cuestión que se plantea es: ¿De qué tamaño debe ser el riesgo para decidir si se rechaza o no
la hipótesis nula?
9.3. Prueba de hipótesis 189
El análisis clásico es ambiguo en este punto y sortea este impasse diciendo: El nivel de riesgo debe
ser determinado por personas distintas del estadístico; se trata de una decisión política y bastará con
que el estadístico pueda proporcionar al responsable de la toma de decisiones políticas información
útil para ésta.
Sin embargo, desde el punto de vista del responsable de la toma de decisiones políticas, éste
determinará si el riesgo debe ser de 0.001, o de 0.05, o de 0.10, o de algún otro valor en función de
la intensidad con la que desee evitar cometer el error de tipo I. Cuanto más quiera evitar el error de
tipo I, menor será el riesgo.
Obsérvese que hemos utilizado la α de dos maneras: una es como α = P (A2 |H0 ), que muestra
el riesgo (o probabilidad) de cometer el error de tipo I (alpha). Llamemos a esto el riesgo calcu-
lado, o probabilidad de error, o el riesgo α. La segunda es aquella en la que el responsable de la
toma de decisiones políticas fija el riesgo en algún valor predeterminado, como el 5%, o el 1%. Este
riesgo suele denominarse nivel de significación y se denota por α0 . En resumen, tenemos el riesgo
α, que muestra la probabilidad de cometer el error de tipo I, y el nivel de significación α0 , que está
predeterminado por el responsable de la política.
La pregunta que surge naturalmente a continuación es: ¿Qué determina la intensidad con la que
el responsable de la toma de decisiones políticas desea evitar cometer el error de tipo I? Esto será el
daño o la pérdida en que incurre cuando se comete el error de tipo I. Por ejemplo, en nuestras ilus-
traciones anteriores, los errores de tipo I eran suspender a un buen estudiante o coger un paraguas
cuando hace buen tiempo. Comparando estos dos daños o pérdidas, podemos decir que suspender
a un buen estudiante es más grave. Por lo tanto, el responsable de la decisión política puede fijar el
nivel de significación ao para el caso del estudiante en, digamos, 0.01 y el a0 para el caso del paraguas
en, digamos, 0.10.
En la presente ilustración, hemos evaluado subjetivamente los dos casos y hemos asignado nive-
les de significación. Esto nos lleva a la siguiente pregunta: ¿Existe una forma de evaluar las pérdidas?
Si la hay, podemos utilizar estas evaluaciones de las pérdidas para determinar el nivel de significa-
ción. Resulta que existe un procedimiento estadístico que tiene en cuenta las pérdidas que pueden
producirse cuando se comete un error de tipo I y lo utiliza como uno de los factores para determinar
el nivel de significación y llegar a una decisión.
Pero podemos ir un paso más allá. Es decir, si tenemos información previa sobre los estados de
la naturaleza, podemos ver intuitivamente que esto ayudará a evitar un error de tipo I. Por ejemplo,
si sabemos de antemano que el alumno es un excelente estudiante, es más probable que evitemos
cometer el error de suspenderle. O, si tenemos de antemano buenos informes meteorológicos, es
más probable que evitemos el error de coger un paraguas cuando hace buen tiempo.
Estos problemas de (1) la información previa, y (2) las pérdidas en las que se incurriría cuando
se comete un error de tipo I, y cómo se incorporan en el procedimiento de prueba de hipótesis, se
tratarán en los capítulos 10 y 17. En el presente capítulo, limitaremos la discusión al procedimiento
clásico de prueba de hipótesis, y diremos simplemente que el nivel de significación α0 lo determina
el responsable de la política. Volvamos ahora a la línea principal de nuestra discusión.
La pregunta era: ¿Qué grado de riesgo debe asumirse para decidir si se rechaza la hipótesis nula
H0 (µ = 62.5)? Supongamos que el responsable de la toma de decisiones políticas fija el nivel de
significación en α0 = 0.05 (5%), y que cuando el riesgo calculado sea inferior al 5%, rechazará la
hipótesis nula.
El razonamiento para rechazar la hipótesis nula puede presentarse como sigue: Supongamos que
la hipótesis nula es verdadera y que la media es µ. Sea X la media de la muestra, y sea d = X − µ,
la desviación de X respecto a µ. Entonces, claramente, la probabilidad de seleccionar una muestra
190 Prueba de Hipótesis
con una media muestral X tal que d sea grande, será pequeña. Cuanto mayor sea d, menor será la
probabilidad de seleccionar dicha muestra. Esta probabilidad puede mostrarse como
P (Xµ ≧ d)
En nuestro caso, la probabilidad de seleccionar una muestra con una media muestral de X = 66.2
o superior de una población con µ = 62.5 es de 0.0256. Es decir, la probabilidad de obtener una
desviación
d ≧ X − µ = 66.2 − 62.5 = 3.7
es de 0.0256. El estadístico considera bastante improbable seleccionar una muestra tan extrema de
una población con ella µ = 62.5 en un solo ensayo.
Lo que nosotros (el estadístico) tenemos realmente ante nosotros es la muestra. La hipótesis
nula es algo que hemos establecido. En nuestra ilustración, un riesgo α = 0.0256, que es menor
que el nivel de significación elegido, 0.05. Por lo tanto, concluimos que las pruebas de la muestra no
apoyan la hipótesis nula y, por lo tanto, rechazamos la hipótesis nula. No hemos demostrado que la
hipótesis nula sea errónea, sólo que las pruebas de la muestra no apoyan la hipótesis nula.
Este resultado suele expresarse de la siguiente manera: Si la probabilidad (digamos, 0.0256) de la
desviación entre X y µ es menor o igual que α0 (digamos, 0.05, donde α0 es el nivel de significación
predeterminado, consideramos que la diferencia entre X y µ es significativa y, por tanto, rechazamos
la hipótesis nula.
Si la probabilidad (digamos, 0.10) de la desviación entre X y µ es mayor que α (digamos, 0.05),
consideramos que la diferencia entre X y µ no es significativa y, por tanto, aceptamos la hipótesis. Es
decir, se considera que la desviación de X con respecto a µ se debe a causas fortuitas (aleatorias).
En nuestro caso, el rechazo de H0 implica que el estadístico piensa que la muestra procede de
una población diferente que tiene una velocidad media de mecanografía mayor.
Es importante entender que no se ha demostrado ninguna relación causal. Los resultados sim-
plemente muestran que los datos apoyan la afirmación (o los datos son coherentes con la afirmación)
de que la velocidad de mecanografía aumenta. Para utilizar otro ejemplo, consideremos la afirma-
ción de que fumar provoca cáncer. Se recopilan datos que muestran que las personas que fuman
tienen un mayor índice de cáncer. Pero este análisis estadístico no demuestra ninguna relación cau-
sal entre el tabaquismo y el cáncer. Sólo demuestra que los datos son coherentes con la afirmación.
Analicemos y resumamos ahora la ilustración anterior como sigue:
1. La población m1 que fue rechazada es la hipótesis que se está considerando. El punto impor-
tante a tener en cuenta aquí es que cuando decimos “hipótesis” en estadística, nos referimos a
una distribución de frecuencias. Para distinguirla de las hipótesis que no tienen distribución
de frecuencias, como “la tierra es redonda”, se puede llamar hipótesis estadística.
La hipótesis estadística que se está probando se llama hipótesis nula y se denota por H0 . El
estadístico desea aceptar o rechazar la hipótesis nula. Si rechaza la hipótesis nula, implica la
aceptación de otra hipótesis. Esta otra hipótesis se denomina hipótesis alternativa (o hipótesis
alternativas, si hay más de una alternativa), y se denota por H1 .
En nuestro caso, la población original (distribución de frecuencias) H0 es la hipótesis nula.
Las hipótesis alternativas H1 son las distribuciones de frecuencias con una media más alta.
d=X −µ
se hace mayor, la probabilidad de encontrar una muestra con dicha media muestral se hace menor.
Cuando la probabilidad es muy pequeña rechaza H0 , basándose en el razonamiento de que la se-
lección de una muestra así es altamente improbable. Cuando la desviación es grande y la ocurrencia
de tal media muestral es altamente improbable, esto puede expresarse diciendo: La media muestral
X difiere significativamente de µ. Cuando la desviación es pequeña y la ocurrencia es probable, esto
puede expresarse diciendo: La media muestral X no difiere significativamente de µ.
Esto nos lleva a la pregunta: ¿Dónde está la línea divisoria entre lo improbable y lo probable y, por
tanto, entre el rechazo y la aceptación de H0 ? Esto dependerá de la seguridad que el estadístico (o el
responsable de la toma de decisiones políticas) desee tener para no tomar una decisión incorrecta de
volver a rechazar H0 cuando en realidad debería aceptarse. En el caso que nos ocupa, el estadístico
(o el responsable de la toma de decisiones políticas) piensa que 5 posibilidades sobre 100 es muy
improbable y ha fijado α0 = 0.05. En otros casos, α0 puede ser 0.1, es decir, el 10%, o algún otro
porcentaje. Estos criterios de división se denominan niveles de significación y se indican con α0 . En
nuestro caso, la probabilidad de error es α = 0.0256 y α0 = 0.05. Por lo tanto, el estadístico decide
que la selección de una muestra de este tipo en un solo ensayo es altamente improbable y rechaza
H0 .
Nuestra explicación ha sido bastante larga, pero una vez entendida, los problemas pueden re-
solverse de la siguiente manera compacta. Las hipótesis nula y alternativa son
H0 : µ = 62.5
H1 : µ > 62.5
p
E(X)
66.2
µ = 62.5
Figura 9.7
1 1
X −µ 66.2 − · − 62.5
z = 2 16 = 1.95
σx 1.88
donde
r r
σ N −n 7.91 160 − 16
σx = √ =√ = 1.88
n N −1 16 160 − 1
192 Prueba de Hipótesis
= P [z ≧ 1.95]
= 0.0256
Por tanto, hay 2.56 posibilidades entre 100 de seleccionar muestras con medias muestrales mayores
o iguales a 66.2. Dado que hemos acordado el nivel de significación α = 5 por ciento. existe una
diferencia significativa entre X = 66.2 y µ = 62.5, y por tanto rechazamos la hipótesis H0 de que
µ = 62.5. Esto implica que la muestra procede de H1 , donde µ > 62.5.
Una forma alternativa de expresar la conclusión es: El riesgo α es 2.56% y es menor que el nivel
de significación de α0 = 0.05 (es decir, 5 por ciento). Por lo tanto, rechazamos la hipótesis nula.
Para repetirlo una vez más, cuando se rechaza la hipótesis H0 , significa que se rechaza la distri-
bución de frecuencias con µ = 62.5. La implicación de que la muestra procede de H1 significa que
la muestra procede de una distribución de frecuencias con es mayor que 62.5.
Presentemos ahora varios ejemplos. Los ejemplos 1, 2 y 3 son ilustraciones de pruebas de una
cola relativas a las medias. Los ejemplos 4 y 5 son pruebas de una cola relativas a las proporciones.
Los ejemplos 6 y 7 son pruebas de dos colas sobre medias y proporciones.
La ilustración sobre las secretarias era una prueba de una cola. Las hipótesis nula y alternativa
eran
H0 : µ = 62.5
H1 : µ > 62.5
Una característica de esta prueba es que la hipótesis alternativa H1 es de una cola; es decir, al estadís-
tico sólo le interesan los valores superiores a 62.5. La razón es que la empresa sólo estaba interesada
en comprobar la afirmación de la escuela de secretariado de que la velocidad de mecanografía au-
mentaría. No era necesario comprobar si la velocidad de mecanografía era inferior a 62.5 palabras
por minuto.
Una segunda característica de esta prueba es que la hipótesis alternativa H1 no es una única
alternativa, sino que incluye todas las poblaciones en las que µ > 62.5. Por lo tanto, podemos
escribir las hipótesis alternativas como
H1 : µ = 62.6
H1 : µ = 62.7
H1 : µ = 62.8
H1 : µ = 62.9
..
.
Este tipo de hipótesis alternativa se llama hipótesis compuesta; y al expresar H1 , sería más exacto
decir las hipótesis alternativas H1 .
9.3. Prueba de hipótesis 193
En cambio, si estamos probando la hipótesis nula H0 : µ = 62.5 contra una sola hipótesis
alternativa, digamos, H1 : µ = 63.0, tal H1 se llama hipótesis simple.
Esta ilustración era una prueba de cola derecha, pero como puede verse, si las hipótesis alterna-
tivas se referían sólo a valores de la media poblacional menores que el valor de la media poblacional
de la hipótesis nula, deberíamos tener una prueba de cola izquierda.
En símbolos esto se convierte en
H0 : µ = µ 0
H1 : µ < µ 0
Ejemplo No. 1
Los registros anteriores muestran que la nota media de los alumnos que cursan Eco-
nomía es de 65 puntos, con una desviación típica de 16 puntos. Se emplea un nuevo
método de enseñanza y se selecciona una muestra aleatoria de 64 alumnos. La media de
la muestra es de 69 puntos. ¿Existe una diferencia significativa entre la µ = 65 puntos y
la media muestral de 69 puntos?
H0 : µ = 65 puntos
H1 : µ > 65 puntos
X − E(X)
z=
σx
donde
σ 16
σx = √ = √ = 2
n 64
y hemos supuesto que f pc = 1; también hemos omitido la corrección de continuidad. La situación
se muestra en la Figura 9.8. Como z = 2, encontramos 0.0228 a partir de la tabla de áreas normales.
En símbolos tenemos
P [X ≧ 69|µ = 65] =
X − 65 69 − 65
=P ≧ µ = 65
2 2
= P [z ≧ 2|µ = 65]
= 0.0228
Esto significa que las probabilidades son aproximadamente 2/100 de seleccionar una muestra
aleatoria de 64 estudiantes con una media de X = 69 o superior de una población con µ = 65; o
podemos decir que el riesgo alpha es aproximadamente del 2 por ciento.
194 Prueba de Hipótesis
0.0228
2σx
X
E(X) =
µ = 65
Figura 9.8
Ejemplo No. 2
Se sabe, por registros anteriores, que el peso medio de los cerdos a las 6 semanas de
nacer es de 100 libras, con una desviación estándar de 18 libras. Se da una nueva dieta a
un grupo grande de cerdos y se selecciona una muestra aleatoria de 36 cerdos.
El peso medio es de 107.5 lb. ¿Ha habido un aumento significativo del peso de los cerdos? Al
igual que en el problema anterior, nos interesa probar si el peso medio de los cerdos es superior a
100 lb. Por tanto, la hipótesis alternativa es de una cola. Las hipótesis nula y alternativa son
H0 : µ = 100 lb
H1 : µ > 100 lb
X −µ 107.5 − 100
z= = = 2.5
σx 3
donde
σ 18
σx = √ = √ = 3lb
n 36
y hemos supuesto que f pc = 1 y hemos omitido la corrección de continuidad. La situación se
muestra en la Fig. 9.9. Como z = 2.5, encontramos 0.0062 a partir de la tabla de áreas normales.
2.5σx
X
E(X) = 107.5
µ = 100
Figura 9.9
En símbolos tenemos
P [X ≧ 107.5|µ = 100] = 0.0062
9.3. Prueba de hipótesis 195
Esto significa que las probabilidades son de aproximadamente 0.6/100 de seleccionar una muestra
aleatoria de 36 cerdos con una media de X = 107.5 lb. o más de una población con µ = 100 lb.; o
podemos decir que el riesgo α es de aproximadamente 0.6 por ciento.
Como α0 = 0.05, rechazamos la hipótesis nula H0 . Hay una diferencia significativa entre X =
107.5 y µ = 100.0 lb.
La implicación es que los datos apoyan la afirmación de que la nueva dieta aumentará el peso
medio de los cerdos.
Ejemplo No. 3
Se afirma que el contenido de una botella de loción es igual a 100 cc. Se selecciona una
muestra aleatoria de 144 frascos y se comprueba que la cantidad media de loción por
frasco es de 99 cc. Suponiendo que la desviación típica es de 4 cc, ¿existe una diferencia
significativa entre el valor observado de 99 cc y el valor supuesto de 100 cc?
En este caso, el inspector está interesado en comprobar si hay una cantidad insuficiente de loción
en el frasco. Por tanto, tenemos una prueba unilateral, y las hipótesis nula y alternativa son
H0 : µ = 100 cc
H1 : µ < 100 cc
y se trata de una prueba de cola izquierda. Suponiendo que la población es muy grande, dejemos
que f pc = 1. Además, como n = 144, omitamos la corrección de continuidad. Entonces
X − E(X) 99 − 100
z= = = −3
σx 4
12
Así pues,
P [X ≦ 99|µ = 100] = 0.0013
Esto significa que hay aproximadamente 1.3 posibilidades entre 1000 de seleccionar una muestra de
tamaño n = 144 con una media X = 99 o menor de una población con una media µ = 100 cc.
Suponiendo un nivel de significación del 5 por ciento, concluimos que la diferencia entre X = 99
cc y µ = 100 cc es significativa, y por tanto se rechaza la hipótesis nula.
Observe cuidadosamente que no se ha demostrado nada. Sólo hemos comprobado que las prue-
bas no apoyan la afirmación de que el volumen del contenido de la botella es de 100 cc. Sin embargo,
hay un riesgo a de aproximadamente 0.0013.
Ejemplo No. 4
Los datos anteriores muestran que el 20 por ciento de las familias de una determinada
ciudad están suscritas a la revista K. Hay algunas razones para creer que ha habido un
descenso reciente en la tasa de suscripción. Para probar si ha habido o no un cambio,
se selecciona una muestra aleatoria de 100 familias y la proporción de la muestra resulta
ser p = 0.16(= 16 por ciento).
196 Prueba de Hipótesis
= P [z ≦ −0.875]
= 0.1908
Esto se muestra en forma de diagrama en la Figura 9.10.
X
0.16 E(p) =
π = 0.20
Figura 9.10
La interpretación es: Hay aproximadamente 19.08 posibilidades entre 100 de seleccionar mues-
tras con una proporción muestral menor o igual a 0.16 de una población en la que π = 0.20. Como
utilizamos α0 = 0.05, aceptamos la hipótesis nula H0 .
Es decir, no existe una diferencia significativa entre p = 0.16 y π = 0.20, por lo que se piensa que
la diferencia se debe al azar. Esto significa que los datos no apoyan la afirmación de que ha habido
una disminución de la tasa de suscripción.
También podemos decir que el riesgo α es de aproximadamente el 19 por ciento, y dado que α0
se fija en el 5 por ciento, aceptamos la hipótesis nula.
9.3. Prueba de hipótesis 197
Ejemplo No. 5
En enero, el 40 por ciento de los distribuidores de 2000 indicaron que tenían previsto
aumentar sus pedidos de lavavajillas. En marzo, había razones para creer que este por-
centaje había aumentado. Se seleccionó una muestra aleatoria de 400 distribuidores y la
proporción de la muestra fue p = 46 por ciento. ¿Se ha producido un aumento significa-
tivo?
Dado que nos interesa el aumento de los pedidos, planteamos la hipótesis nula de que no ha
habido aumento (es decir, π = 40 por ciento) y luego planteamos la alternativa unilateral de que
π > 0.40. Las hipótesis nula y alternativa son las siguientes
H0 : π = 0.40%
H1 : π > 0.40%
La p = 0.46. Así pues,
1 1 1 1
p− · −π 0.46 − · − 0.40
z= 2 n = 2 400 = 2.68
σp 0.0219
donde
r r
π(1 − π) N − n
σp =
n N −1
r r
0.40 · 0.60 2000 − 400
=
400 2000 − 1
= 0.02449 · 0.894
= 0.0219
Dado que z = 2.68, encontramos a partir de la tabla de áreas normales que
P [p ≧ 0.46|π = 0.40] = 0.0037
Esto se muestra en la Figura 9.11.
0.0037
2.5σx
X
E(p)
= π = 0.40
Figura 9.11
Ejemplo No. 6
Un proceso está bajo control cuando la cantidad media de café instantáneo que se enva-
sa en un tarro es de 6 oz. La desviación estándar es de 0.2 oz. Se selecciona una muestra
de 100 tarros al azar y se encuentra que la media de la muestra es de 6.1 oz. ¿Está el
proceso fuera de control?
Suponemos que el proceso está controlado; es decir, la hipótesis nula es que la media de la po-
blación es de 6.0 oz. (µ = 6.0). La hipótesis alternativa es que la media de la población no es 6.0
oz. (µ 6= 6.0). En este caso, la media de la población puede ser mayor o menor que 6.0. Esto se
llama una prueba de hipótesis de dos colas, en contraste con las anteriores que se llaman pruebas de
hipótesis de una cola. En símbolos, esto se muestra de la siguiente manera:
H0 : µ = 6.0
H1 : µ 6= 6.0
2.5% 2.5% 4% 1%
E(X) X E(X) X
(a) (b)
Figura 9.12
Si considera que evitar el subllenado es 4 veces más importante que el sobrellenado, puede tener,
por ejemplo, el 4 por ciento en la cola izquierda y el 1 por ciento en la cola derecha, como se muestra
en la Figura 9.12(b). En nuestra discusión posterior, a menos que se indique lo contrario, siempre
dividiremos el nivel de significación α0 por igual entre las colas superior e inferior por simplicidad.
(Véase el ejemplo 5 de la sección 9.5.)
La prueba es la siguiente:
6.1 − 6.0
z= =5
0.2
10
Ejemplo No. 7
En el ejemplo 5 supusimos que el 40% de los distribuidores planeaban aumentar sus
pedidos de lavavajillas y que en marzo había razones para creer que este porcentaje ha-
bía aumentado. Supongamos ahora que no hay motivos para creer que haya habido un
aumento o una disminución. Se selecciona una muestra aleatoria de 400 distribuidores y
el p = 46%. ¿Se ha producido un cambio en la proporción de la población π = 40 por
ciento?
En este caso, suponemos que no ha habido ningún cambio; es decir, la hipótesis nula es que la
proporción de la población es del 40 por ciento. La hipótesis alternativa es que la proporción de la
población no es del 40 por ciento. En símbolos tenemos
H0 : π = 40%
H1 : π 6= 40%
y, además, supongamos que el nivel de significación es del 5%.
Puesto que suponemos que no hay ninguna razón para creer que la proporción de la población
ha cambiado en un sentido o en otro, y puesto que no se da especial importancia al α0 (nivel de
significación) de las colas superiores o inferiores, pondremos un 2.5 por ciento en cada cola, como
se muestra en la Figura 9.13. Entonces
2.5% 2.5%
E(p) p
(a)
Figura 9.13
1 1 1 1
p− · − E(p) 0.46 − · − 0.40
2 n .
z= = r2 400 = 2.60
σp 0.4 · 0.6
400
En la sección 9.3 las pruebas de significación especificaban el nivel de significación, que era la
probabilidad de cometer el error de tipo I (α), y no se decía nada sobre el error de tipo II (β). En
200 Prueba de Hipótesis
esta sección discutiremos los problemas de las pruebas de hipótesis que consideran tanto el error
α como el error β, y la consideración del error β nos llevará a discutir la curva CO (característica
operativa). Comencemos nuestra explicación con una sencilla ilustración.
Supongamos que una empresa de venta de televisores quiere decidir si debe emprender una
campaña de venta de televisores en color en un determinado país. La empresa cree que valdría la
pena, siempre que la renta media mensual de las familias sea igual o superior a 400 dólares, y que
no valdría la pena si la renta media fuera inferior a 400 dólares.
Hay dos enfoques para este problema, y la elección de uno u otro depende de la forma en que la
empresa considere el riesgo. Uno de los enfoques es que la empresa está ansiosa por evitar el error
de no iniciar la campaña cuando debería hacerlo. No quiere perder la oportunidad de ganar dinero.
El segundo enfoque es que la empresa está ansiosa por evitar el error de iniciar la campaña
cuando no debe hacerlo. Las familias no tienen suficiente dinero y la empresa quiere evitar perder
una gran cantidad de dinero en una campaña de ventas inútil. Empecemos por el primer enfoque:
Caso I - Primer enfoque
La hipótesis que nos interesa probar, es decir, la hipótesis nula, es que la renta media de la po-
blación es de 400 dólares o más:
H0 : µ ≧ $400
La hipótesis alternativa es que la renta media es inferior a 400 dólares:
H1 : µ < $400
Entonces los errores α y β pueden mostrarse esquemáticamente como sigue:
m1 , m2 ,
Acción µ ≧ $400 µ < $400
A1 , iniciar β = P (A1 |m2 )
identificado anteriormente, se trata de los errores de tipo I y de tipo II. Los riesgos α y β asociados
a estos errores son, como antes,
α = P (A2 |m1 )
β = P (A1 |m2 )
Ahora la pregunta es: ¿Cuáles deberían ser los niveles de significación α0 y β0 ? En nuestra discusión
anterior, α0 se fijó en 0.05 o 0.01. La razón por la que se fija en el 5% o el 1% no suele explicarse
en la estadística clásica, excepto para decir que es una decisión política que la dirección toma tras
considerar todos los aspectos pertinentes del problema en cuestión; así pues, digamos que α0 = 5%
y continuemos nuestra discusión.
Ahora mostramos cómo el estadístico puede encontrar las reglas de decisión para los dos casos
siguientes:
1. Cuando una muestra de tamaño n (digamos, n = 100) está dada (es decir, predetermina).
2. Cuando una muestra de tamaño n no está predeterminada, pero el riesgo β está dado.
Consideraremos el primer caso en esta sección y el segundo en la sección 9.8. Pero primero
hagamos un paréntesis para explicar los términos región de aceptación y región de rechazo, que uti-
lizaremos en nuestra discusión posterior. En el apartado 9.1 explicamos que una regla de decisión
es una regla que nos dice si debemos tomar la acción A1 o A2 cuando se observa una determinada
muestra (resultado).
También explicamos que el espacio muestral es un espacio formado por todas las muestras posi-
bles. Por ejemplo, supongamos que tenemos una urna con 3 bolas numeradas del 1 al 3. Se selecciona
una muestra de tamaño 2 con reemplazo. Entonces el espacio muestral es bidimensional y se mues-
tra como en la Figura 9.14. Hay 9 muestras posibles (cuando se considera el orden), que también
son los resultados, y que pueden mostrarse como en la columna de la izquierda del Cuadro 9.8.
3
A2
2
A1
1
1 2 3
Figura 9.14
Establezcamos una regla de decisión como la que se muestra en la columna derecha del Cua-
dro 9.8, en la que la acción A1 se toma cuando se observan las muestras (1, 1), (1, 2) o (2, 1), y la
acción A2 se toma cuando se observan las otras muestras.
Como vemos en la Figura 9.14, esta regla de decisión divide el espacio muestral en dos partes:
La parte sombreada, que incluye las muestras que conducen a la acción A1 , y la parte no sombreada,
que incluye las muestras que conducen a la acción A2 . En general, podemos decir que una regla de
decisión divide el espacio muestral en dos partes, una parte que lleva a la acción A1 y otra parte que
lleva a la acción A2 . La parte que conduce a la acción A1 se denomina región de aceptación y la parte
que conduce a la acción A2 se denomina región de rechazo (o región crítica).
202 Prueba de Hipótesis
Resultado Regla
1,1 A1
1,2 A1
1,3 A2
2,1 A1
2,2 A2
2,3 A2
3,1 A2
3,2 A2
3,3 A2
Cuadro 9.8
2
De nuestra discusión anterior sabemos que hay 23 = 512 reglas de decisión. Es decir, hay 512
formas de dividir este espacio muestral en regiones de aceptación y rechazo. Hemos mostrado sólo
una de estas 512 formas.
Ahora el estadístico debe seleccionar una muestra de tamaño n y, basándose en ella, decidir si
procede de m1 o de m2 . En este punto, utilizamos nuestros resultados del capítulo 7. En el capítulo
7 encontramos una forma sencilla de encontrar la probabilidad de seleccionar una muestra de una
población utilizando el teorema del límite central. El teorema del límite central nos decía que la
distribución muestral de la media de la muestra era aproximadamente normal. Dejando que la media
muestral represente la muestra, pudimos calcular la probabilidad de seleccionar muestras.
Esto simplifica mucho las cosas porque la distribución muestral es unidimensional y es aproxi-
madamente normal, mientras que el espacio muestral es n-dimensional (suponiendo un tamaño de
muestra de n).
En el caso que nos ocupa, tenemos dos poblaciones, m1 (µ ≧ $400) y m2 (µ < $400), y tomar
una muestra de tamaño n (digamos, n = 100) significa generar un espacio muestral de n(= 100)
dimensiones. Pero, como acabamos de mencionar, en lugar de trabajar con estos espacios muestrales
n-dimensionales, utilizaremos las distribuciones muestrales unidimensionales de la media muestral
generada a partir de m1 y m2 .
Por tanto, nuestro problema se reduce a encontrar una regla de derivación que divida estas distri-
buciones muestrales unidimensionales en las regiones de aceptación y crítica. Mostremos ahora cómo
se resuelve esto.
Para la población m1 , tenemos µ ≧ $400. Es decir, la empresa de ventas iniciará la campaña de
ventas si el ingreso medio es de 400 dólares o más. En nuestro caso actual, la empresa está ansiosa por
iniciar la campaña de ventas. Como se verá en el análisis subsiguiente, cuánto mayor sea el valor de µ
de m1 en comparación con 400 dólares, menor será la probabilidad de iniciar la campaña de ventas.
Por lo tanto, fijaremos la media poblacional de m1 en su nivel más bajo, es decir, que µ = $400 para
los fines del análisis.
Sabemos que la distribución muestral de la media muestral generada a partir de m1 (µ = $400)
será aproximadamente normal, con
E(X) = $400
σ2
V ar(X) =
n
donde σ 2 es la varianza de la población.
9.4. Problemas de decisión simples 203
En cuanto a m2 , tenemos µ < $400, que incluye valores como $399, $398, . . .. Para simplificar
nuestra discusión, dejaremos que m2 sea µ = $395 por el momento y explicaremos el proceso
de encontrar la regla de decisión y los riesgos α y β. A continuación, consideraremos las demás
hipótesis alternativas y construiremos una curva CO.
La distribución muestral generada a partir de m2 (µ = $395) también será aproximadamente
normal, con
E(X) = $395
σ2
V ar(X) =
n
donde suponemos por el momento que σ es la misma para m1 y m2 . En el capítulo 8 explicamos
por qué esta suposición de varianzas iguales es razonable.
La Figura 9.15 muestra las dos distribuciones de muestreo, m1 con µ = $400, y m2 con E(X) =
$395.
α = P (A2 |m1 )
m1
E(X) = $400 X
m2 β = P (A1 |m2 )
E(X) = $395 X
Figura 9.15
Podemos ver intuitivamente que si la media de la muestra X (digamos, 399 dólares) es mucho
mayor que $395 y está cerca de 400 dólares, podemos conjeturar que la muestra probablemente vino
de m1 (400 dólares) en lugar de m2 (395 dólares). A la inversa, si la media de la muestra X (digamos,
396 dólares) está cerca de 395 dólares y es mucho menor que 400 dólares, podemos conjeturar que la
muestra probablemente procede de m2 (395 dólares) y no de m1 (400 dólares). Tenga en cuenta que
en realidad no sabemos que m1 es de 400 dólares ni que m2 es de 395 dólares. Se trata de hipótesis
y estamos diciendo que si m1 y m2 deben ser 400 dólares y 395 dólares, respectivamente, podemos
razonar como arriba.
Siguiendo esta línea de razonamiento, el estadístico desea encontrar un valor, digamos, X∗, en
algún lugar entre 395 y 400 dólares tal que cuando la media muestral X sea X ≧ X∗, recomendará
a la empresa la acción A1 (iniciar la campaña), y cuando X < X∗, recomendará A2 (no iniciar).
Este valor X∗ se denomina valor crítico y se muestra en la Figura 9.15. Este valor crítico X∗ divide
la distribución muestral generada a partir de m1 en dos partes, la región de aceptación, que está a la
derecha de (mayor o igual que) X∗, y la región de rechazo, que está a la izquierda de (menor que)
X∗.
En otras palabras, el estadístico, al seleccionar un valor crítico X∗, ha seleccionado una regla de
decisión.
Una característica de esta regla de decisión es que, dado que el nivel de significación α0 = 5 por
ciento, el riesgo α debe ser del 5 por ciento o menos. En términos de la Figura 9.15, significa que la
204 Prueba de Hipótesis
De las distintas hipótesis alternativas µ < $400, hemos seleccionado $395 para comenzar la
explicación. Entonces la distribución muestral generada a partir de m1 y m2 será aproximadamente
normal, como se muestra en la Figura 9.16. X∗ es el valor crítico; la región a la derecha (más grande)
de X∗ es la región de aceptación (tomar la acción A1 ); y la región a la izquierda (más pequeña) de
X∗ es la región de rechazo.
Supongamos que a partir de otras fuentes, como los datos anteriores, se sabe que la desviación
estándar de la población es σ = 20 dólares. Entonces el error estándar es
σ 20
σx = √ = √ = $2.00
n 100
9.4. Problemas de decisión simples 205
α m1
E(X) = $400 X
m2 β
E(X) = $395 X
Figura 9.16
Usando la suposición de que α0 = 5 por ciento, sabemos que la desviación z entre E(X) = $400 y
X∗ es 1.645 a partir de la tabla de áreas normales. Usando esto podemos encontrar X∗ como sigue:
400 − X∗
= 1.645
2
X∗ = 400 − 3.29 = $396.71
Usando este X∗, podemos calcular β como sigue: De la Figura 9.16 vemos que
µ β 1−β
$400.00 0.9500 0.05
$398.71 0.8413 0.16
$396.71 0.5000 0.50
$394.71 0.1587 0.84
$392.71 0.0228 0.98
Cuadro 9.9
Ahora podemos enunciar la regla de decisión que buscamos: Regla de decisión. Tome una mues-
tra de tamaño n = 100. Si
Entonces α = 5 por ciento y los riesgos β para varias hipótesis alternativas se muestran en el Cua-
dro 9.9.
Supongamos que la media de la muestra X es 397. Entonces
Acción. Tome la acción A1 y comience la campaña de ventas. Como muestran esta regla de de-
cisión y el Cuadro 9.9, tenemos una secuencia de riesgos β para varias hipótesis alternativas. Lo que
haremos a continuación es mostrar estos riesgos como una curva y encontrar una forma de expresar
la regla de decisión en términos de una curva. Para ello, primero discutiremos el concepto de fun-
ción de potencia y luego la curva CO. Una vez que hayamos analizado la curva CO, reformularemos
la regla de decisión anterior utilizando una curva CO.
La probabilidad
1 − β = 1 − P (A1 |m2 ) = P (A2 |m2 )
es la probabilidad de tomar la decisión correcta de realizar la acción A2 cuando el verdadero estado
de la naturaleza es en realidad m2 . Este 1 − β se denomina potencia de la función. Evidentemente,
cuanto mayor sea la potencia de la función, mejor será la regla de decisión. Obsérvese que
1 − β = P (A2 |m2 )
muestra que la potencia de la función depende de m2 . En nuestro caso actual, m2 significaba µ <
$400, y al cambiar m2 , cambiará 1 − β. Podemos preguntarnos: ¿Cómo cambiará?
La razón de ser del cambio de 1 − β al cambiar m2 es sencilla. Nos interesa seleccionar correc-
tamente el verdadero estado de la naturaleza, dada una muestra. Cuanto más separados estén m1 y
m2 , más fácil será distinguirlos. Por ejemplo, m1 es µ1 = 400 dólares, y si m2 es µ2 = 300 dólares
y se selecciona una muestra, probablemente será fácil saber de qué población procede la muestra
porque m − 1 y m2 difieren mucho. Pero si m2 es µ2 = 399 dólares y se selecciona una muestra,
será difícil saber de qué población procede la muestra porque m1 y m2 están muy cerca. En el pri-
mer caso, hay muy pocas posibilidades de tomar una decisión incorrecta, el riesgo β será pequeño y
la potencia 1 − β (que muestra la probabilidad de seleccionar m2 cuando en realidad el verdadero
estado de naturaleza es m2 ) será grande. En el segundo caso, por un razonamiento similar, podemos
ver claramente que 1 − β será pequeño. Los valores de la función de potencia 1 − β se dan para
1−β
1.00
0.80
0.60
0.40
0.20
0
392 394 396 398 400
Figura 9.17
9.4. Problemas de decisión simples 207
varios valores de las hipótesis alternativas en el Cuadro 9.9. A continuación, grafiquemos la función
de potencia 1 − β como se muestra en la Figura 9.17. La curva que se obtiene se llama curva de
potencia. Muestra los valores de 1 − β (es decir, la probabilidad de tomar una decisión correcta),
dadas las hipótesis alternativas m2 . Recuerde que esta curva se obtiene manteniendo fijos n = 100,
X∗ = 396.71 y m1 = $400 mientras se deja variar m2 . Por lo tanto, esta curva de potencia muestra
una regla de decisión en la que se permite que m2 varíe. Por ejemplo, el punto que corresponde a
394.71 dólares nos dice:
m1 = $400 m2 = $394.71
Tomemos una muestra de n = 100. Si
X ≧ $396.71 tomar acción A1
X < $396.71 tomar acción A2
Entonces α = 0.05 y β = 0.1587.
La curva también muestra que a medida que la media de m2 se hace más pequeña (es decir, a
medida que m1 y m2 se alejan), la potencia de la regla de decisión aumenta y la probabilidad de
tomar una decisión correcta también.
Esto nos lleva a preguntarnos: Si hay dos reglas de decisión, ¿no podríamos comparar sus curvas
de potencia y ver cuál es una regla de decisión mejor? Antes de responder a esta pregunta, debemos
explicar qué se entiende por una regla de decisión “mejor”. Claramente, nos referimos a una regla
de decisión en la que la probabilidad de tomar una decisión correcta es mayor; es decir, la regla
de decisión que tiene el mayor 1 − β es mejor. Gráficamente, esto significa que la regla de decisión
cuya curva de potencia es más alta es mejor. Por ejemplo, en la Figura 9.18 la regla de decisión con la
curva de potencia II es mejor. Una pregunta que surge naturalmente es: ¿Existe una regla de decisión
1−β
1.00
II
0 m2
X
Figura 9.18
cuya curva de potencia sea más alta? Si la hay, podemos concluir que es la mejor regla de decisión.
Se ha demostrado que existe tal regla de decisión para las pruebas de una cola, y sólo expondremos
los resultados. Supongamos que la curva de potencia II de la Figura 9.18 es para una región crítica
tomada en la cola, como se muestra en la Figura 9.19(a). Sea la curva de potencia I para la región
crítica mostrada en la Figura 9.19(b). Vemos que es posible tomar la región crítica en varios lugares,
siempre que el área se mantenga en el 5 por ciento (es decir, α = 5 por ciento). Resulta que todas las
curvas de potencia basadas en regiones críticas distintas de la que se encuentra en el extremo de la
cola (es decir, la curva de potencia II) estarán por debajo de la curva de potencia II, tal como ilustra
la curva de potencia I.
208 Prueba de Hipótesis
5%
5%
(a) (b)
Figura 9.19
Una prueba que produce una curva de potencia como la II y que es la más alta se denomina
prueba uniformemente más potente. Las pruebas de una cola que estamos utilizando son pruebas
uniformemente más potentes. Tenga en cuenta que en estos casos se da α = 5 por ciento y n.
Lamentablemente, la discusión de la curva de potencia se complica bastante y se omite. Se ha
presentado aquí como antecedente de la curva CO, que discutimos a continuación.
9.4.3 La curva OC
1. Procedimientos y tablas de muestreo estándar militares para la inspección por atributos. MIL-
STD-105B.
2. Procedimientos y tablas de muestreo estándar militares para la inspección por variables para el
porcentaje de defectos. MIL-STD-414
También se utilizan en la industria privada. Dibujemos primero la curva OC para nuestra ilus-
tración de la empresa de venta de televisores y, a continuación, ofrezcamos otras ilustraciones.
El Cuadro 9.9 se reproduce a continuación como Cuadro 9.10 para mayor comodidad. La curva
OC se obtiene graficando los valores β, como se muestra en la Figura 9.20. Observe cuidadosamente
que esta curva OC supone n = 100,α0 = 5 por ciento, y la hipótesis nula es µ = $400. La escala
horizontal muestra los valores alternativos µ < $400 y la escala vertical muestra los valores β.
La altura de la curva muestra el valor β y es la probabilidad de aceptar m1 . Por lo tanto, cuando
la curva es alta cerca de $400 y baja cuando se aleja de $400, como se muestra en la Figura 9.25(a),
indica que la capacidad de la regla de decisión para distinguir entre las hipótesis nula y alternativa
es buena.
9.4. Problemas de decisión simples 209
µ β 1−β
$400.00 0.9500 0.05
398.71 0.8413 0.16
396.71 0.500 0.50
394.71 0.1587 0.84
392.71 0.0228 0.98
Cuadro 9.10
1.0
0.9
0.8
Iniciar campaña, β
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
390 392 394 396 398 400
µ
Figura 9.20
Sin embargo, si la curva OC es como la de la Figura 9.25(b), en la que es alta para valores alejados
de $400 como $396, $394, como en la figura, la capacidad de la regla de decisión para distinguir entre
las hipótesis nula y alternativa no es buena.
1 1
β β
0 0
$400 $400
(a) (b)
Figura 9.21
Entonces el riesgo α es del 5 por ciento y los riesgos β para las hipótesis alternativas son los que se
muestran en la Figura 9.20.
210 Prueba de Hipótesis
Supongamos que se selecciona una muestra aleatoria de n = 100 familias y que la media de la
muestra es X = $394. Entonces, según nuestra regla de decisión, la acción a tomar es Acción. Tomar
la acción A2 y no iniciar la campaña.
Caso II - Segundo enfoque
Resumamos brevemente nuestra discusión sobre el primer enfoque. Una empresa de venta de
televisores desea decidir si inicia o no una campaña de ventas. Selecciona una muestra aleatoria de
n = 100 y encuentra una regla de decisión tal que α = 5 por ciento y una curva OC que muestra
los riesgos β para las hipótesis alternativas. Las características de esta regla de decisión y de la curva
OC eran que las hipótesis nula y alternativa y los riesgos α y β eran (mostrados esquemáticamente)
los siguientes:
m1 , m2 ,
Acción µ ≦ $400 µ > $400
A1 , iniciar β = P (A1 |m2 )
La empresa quería evitar el error de no iniciar una campaña de ventas cuando debía hacerlo.
Ahora consideraremos un segundo enfoque, en el que la empresa está ansiosa por evitar el error
de iniciar una campaña de ventas cuando no debería hacerlo. Quiere evitar la pérdida de dinero en
una campaña de ventas inútil. En este caso, las hipótesis nula y alternativa son
H0 :µ ≦ $400
H1 :µ > $400
y los riesgos α y β pueden representarse esquemáticamente como sigue.
m1 , m2 ,
Acción µ ≦ $400 µ > $400
A1 , no iniciar β = P (A1 |m2 )
Está claro que el error de tipo I es el error de iniciar una campaña de ventas cuando no debería
iniciarse, y el error de tipo II es el error de no iniciar cuando debería iniciarse.
Este esquema muestra que, a menos que haya pruebas de que los ingresos medios son superiores
a 400 dólares, la empresa no iniciará la campaña; la empresa no está ansiosa por iniciar la campaña.
En el primer enfoque, la base era que, a menos que las pruebas demostraran que los ingresos medios
eran inferiores a 400 dólares, la empresa iniciaría la campaña.
Al igual que en el planteamiento anterior, dejemos que α0 = 5 por ciento y n = 100. Entonces
el valor crítico puede obtenerse de la siguiente manera (véase la Figura 9.23):
X ∗ −400
= 1.645
20
√
100
X∗ = $403.29
9.4. Problemas de decisión simples 211
α = 5%
400 X∗
X∗
Figura 9.22
donde hemos definido µ = 400 para m1 , con el proposito de análisis. Con este valor crítico,
encontremos los diferentes valores de riesgos β y la curva OC. Los valores β del Cuadro 9.11 y la
curva OC en la Figura ??.
Observe en la Fig. 9.25 cómo la escala vertical muestra la probabilidad de no empezar, mientras
que en el caso anterior (Figura 9.20) mostraba la probabilidad de empezar la campaña de ventas.
La regla de decisión que buscamos es:
Regla de decisión. Tome una muestra aleatoria de tamaño n = 100. Si
1.0
0.9
No iniciar campaña, β
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
400 401.29 403.29 405.29 407.29
µ
Figura 9.23
Entonces α = 5 por ciento y los riesgos β son los que muestra la curva OC de la Figura ??.
En la primera aproximación, el valor crítico X∗ era de 396.71 dólares; en la segunda, es de
403.29 dólares. Comparando estos dos valores críticos, podemos ver heurísticamente que será más
fácil iniciar la campaña en el primer enfoque.
Por ejemplo, si tomamos una muestra aleatoria de n = 100 y la media de la muestra es de 397
dólares, la acción es
212 Prueba de Hipótesis
m2 β
$400.00 0.95
401.29 0.8413
403.29 0.50
405.29 0.1587
407.29 0.0228
Cuadro 9.11
Ejemplo No. 1
Suponga que una empresa acepta envíos de cables si la resistencia media es de 200 lb
o más, y rechaza envíos si la resistencia media es inferior a 200 lb. Se pide al estadístico
que encuentre una regla de decisión tal que α0 = 0.05 y n = 25. Se da σ como 20 lb.
Las hipótesis nula y alternativa son
H0 :µ ≧ 200 lb
H1 :µ < 200 lb
m1 , m2 ,
Acción µ ≦ $400 µ > $400
A1 , aceptar β = P (A1 |m2 )
En este caso, la empresa está ansiosa por aceptar el envío y, a menos que haya pruebas de lo
contrario, desea aceptarlo. El error estándar es
20
σx = √ = 4 lb
25
200 − X∗
= 1.645
σx
Por tanto,
X∗ = 193.42 lb.
9.5. Ejemplos que utilizan la media muestral 213
Por tanto, cuando la media muestral X es menor o igual que 193.42 lb, el riesgo α 5 por ciento.
Calculemos ahora los riesgos β para varias µ alternativas. Para µ = 200 lb, tenemos que
Para µ = 197.42,
197.42 − 193.42
=1
4
Por lo tanto
β = P (A1 |µ = 197.42) = 0.8413
De manera similar podemos encontrar los valores de β para otros µ. Los resultados para los
valores seleccionados de µ se dan en el Cuadro 9.12 y la curva de OC se muestra en la Figura 9.24.
1.0
0.9
0.8
0.7
Aceptar, β
0.6
0.5
0.4
0.3
0.2
0.1
0
185.42 189.42 193.42 197.42 200
µ
Figura 9.24
m2 , lb β
200.00 0.9500
197.42 0.8413
193.42 0.5000
189.42 0.1587
185.42 0.0228
Cuadro 9.12
Entonces α = 5 por ciento y los riesgos β son los que muestra la curva OC de la Figura 9.24.
Vemos en la curva OC, cuando la hipótesis alternativa es mayor que 190 libras, que el riesgo β
es superior al 15 por ciento.
214 Prueba de Hipótesis
Ejemplo No. 2
En el ejemplo 1 podemos establecer las hipótesis nula y alternativa como
H0 :µ ≦ 200 lb
H1 :µ > 200 lb
m1 , m2 ,
Acción µ ≦ 200 lb µ > 200 lb
A1 , rechazar β = P (A1 |m2 )
Esto muestra que la empresa está ansiosa por rechazar el envío a menos que haya pruebas de lo
contrario.
El valor crítico X∗ es
X ∗ −200
= 1.645
4
Por lo tanto,
X∗ = 206.58 lb
m2 , lb β
200 0.9500
202.58 0.8413
206.58 0.5000
210.58 0.1586
214.58 0.0228
Cuadro 9.13
0
200
Figura 9.25
Entonces α = 5 por ciento y los β para las hipótesis alternativas vienen dados por la curva OC de
la Figura ??.
Ejemplo No. 3
Una empresa de construcción suministra a sus empleados guantes que tienen una vida
media de 90 días. Se recomienda un nuevo tipo de guante que, aunque es más caro,
dura más y es más cómodo. La empresa adoptará este nuevo guante si su vida media
es de 120 días o más, pero preferirá seguir utilizando el tipo de guante actual si la vida
media del nuevo guante es inferior a 120 días. Se pide al estadístico que encuentre una
regla de decisión con α0 = 5 por ciento y n = 36. La desviación estándar es de 18 días.
Supongamos que la empresa está ansiosa por cambiar al nuevo guante. Entonces las
hipótesis nula y alternativa se pueden plantear como
H0 :µ ≧ 120 días
H1 :µ < 120 días
A menos que haya pruebas de que los guantes tienen una vida media inferior a 120
días, la empresa aceptará la hipótesis nula y aceptará los nuevos guantes.
m2 β
120 0.9500
118.065 0.8413
115.065 0.5000
112.065 0.1587
109.065 0.0228
106.065 0.0013
Cuadro 9.14
Entonces α = 5 por ciento y los riesgos β para varias hipótesis alternativa el mostrado por la
curva OC en la Figura 9.26.
216 Prueba de Hipótesis
1.0
0.9
0.8
0.7
Adoptar, β
0.6
0.5
0.4
0.3
0.2
0.1
0
106.065 109.065 112.065 115.065 118.065 200
µ
Figura 9.26
Si se toma una muestra al azar de tamaño n = 36, y X = 119 días, la acción es:
Acción Tomar la acción A1 y adoptar los nuevos guantes.
El riesgo α es del 5%, pero el riesgo β es superior al 84%. Sin embargo, la empresa puede con-
siderar que la diferencia entre 120 días y 119 días, o 118 días, no es importante y esta dispuesta a
asumir el mayor riesgo β.
Ejemplo No. 4
Supongamos que en el Ejemplo 3 la empresa no está dispuesta a cambiar a los nuevos
guantes. Entonces las hipótesis nula y alternativa son
H0 :µ ≦ 120 días
H1 :µ > 120 días
A menos que haya pruebas de que los guantes tienen una vida media superior a 120 días, la empresa
no cambiará a los nuevos guantes. Los riesgos α y β se muestran de la siguiente manera:
m1 , m2 ,
Acción µ = 120 días µ > 120 días
A1 , rechazar β = P (A1 |m2 )
X ∗ −120
= 1.645
3
Por lo tanto
X = 124.935 días
Basándonos en este X∗, encontramos los valores β que se muestran en el Cuadro 9.15.
9.5. Ejemplos que utilizan la media muestral 217
m2 β
120.000 0.9500
121.935 0.8413
124.935 0.5000
127.935 0.1587
130.935 0.0228
Cuadro 9.15
1.0
0.9
0.8
0.7
Rechazar, β
0.6
0.5
0.4
0.3
0.2
0.1
0
120 121.935 124.935 127.935 130.935
µ
Figura 9.27
Ejemplo No. 5
Un fabricante de tornillos considera que su proceso está controlado cuando el diámetro
medio es de 10 cm, y fuera de control cuando la media no es de 10 cm. Cuando el pro-
ceso está fuera de control, desea detenerlo. Se pide a un estadístico que encuentre una
regla de decisión tal que α0 = 5 por ciento. El control se hará tomando 16 tornillos cada
hora. Se sabe que la desviación típica es de 0.2 cm.
Las hipótesis nula y alternativa son
H0 :µ = 10 cm
H1 :µ 6= 10 cm
m1 , m2 , m3 ,
Acción µ = 10 cm µ < 10 cm µ > 10 cm
A1 , continuar β β
A2 , detenerse α = 0.05
Como se ve en la Figura 9.28, se trata de una prueba de dos colas, y tenemos dos valores críticos,
X 1 ∗ y X 2 ∗. La región de aceptación está entre X 1 ∗ y X 2 ∗ y es donde continúa el proceso.
α = 2.5% α = 2.5%
X 1∗ 10 X 2∗
Figura 9.28
II
1−β I
0 µ0
Figura 9.29
X 1 ∗ −10 X 2 ∗ −10
= −1.96 = 1.96
0.2 0.2
√ √
16 16
X 1 ∗ = 9.902 X 2 ∗ = 10.098
Calculemos a continuación los riesgos β.
Como muestra el Cuadro 9.16, los riesgos β son simétricos en torno a µ = 10 000, lo que se
muestra en la curva OC de la Figura 9.30.
m2 β
10.198 0.0228
10.148 0.1587
10.098 0.5000
10.048 0.8413
10.000 0.9500
9.952 0.8413
9.902 0.5000
9.852 0.1587
9.802 0.0228
Cuadro 9.16
Curva OC
1−β
0
9.902 10.000 10.098
Figura 9.30
Observe también que en el caso de la prueba de dos colas, la forma en que se establecen las
hipótesis nula y alternativa es única y contrasta con las pruebas de una cola de los Ejemplos 1 a 4.
220 Prueba de Hipótesis
Las reglas de decisión relativas a las proporciones pueden encontrarse mediante un procedi-
miento similar al de las reglas de decisión relativas a las medias. Un supuesto que cambia cuando se
trata de proporciones es que el error estándar de las proporciones es diferente para cada distribución
de muestreo. Por lo demás, el procedimiento es similar.
Ejemplo No. 1
Una empresa que fabrica televisores desea decidir si utiliza material plástico o no (ma-
dera, etc.) para los chasis de los televisores. Si el 50 por ciento o menos de los compra-
dores prefieren el plástico, la empresa utilizará material no plástico, y si más del 50 por
ciento prefiere el plástico, el fabricante utilizará el plástico. Las hipótesis nula y alternati-
va son
H0 :π ≦ 50%
H1 :π > 50%
Esta configuración implica que la empresa no está dispuesta a utilizar plástico. Es decir, a menos
que haya pruebas de que más del 50% de los compradores prefieren el plástico, no utilizará el plástico.
Los riesgos α y β pueden mostrarse como sigue:
m1 , m2 ,
Acción π = 50% π > 50%
A1 , no usar plástico β = P (A1 |m2 )
Los resultados se muestran en el Cuadro 9.17 y la curva OC basada en estos valores se dibuja
en la Figura 9.31. Así tenemos nuestra regla de decisión.
9.6. Reglas de decisión relativas a las proporciones 221
π β
0.50 0.95
0.6175 0.50
0.70 0.1038
Cuadro 9.17
1.0
0.95
0.50
β
0.1038
Entonces el riesgo α es del 5 por ciento y los riesgos β para las hipótesis alternativas vienen dados
por la curva OC de la Figura 9.31.
Observe que en este caso la escala vertical de la curva OC es la probabilidad de no utilizar
plástico.
Ejemplo No. 2
Suponga que en el ejemplo 1 la empresa está ansiosa por utilizar el plástico y, a menos
que haya pruebas de que el 50 por ciento o menos de los compradores prefieren el plás-
tico, utilizará el plástico. Entonces las hipótesis nula y alternativa y los riesgos α y β son
H0 :π ≧ 50%
H1 :π < 50%
0.50 − p∗
r = 1.645
0.5 · 0.5
49
p∗ = 0.3825
222 Prueba de Hipótesis
Utilizando p∗ = 0.3825, encontremos los riesgos β para varios m2 alternativos. Para π = 0.50,
vemos que β = 0.95. Para π = 0.3825, β = 0.50. Para π = 0.30, calculamos como sigue:
Por lo tanto
β = 0.1038
Los resultados se muestran en el Cuadro 9.18 y la curva OC basada en estos valores se dibuja en la
π β
0.50 0.95
0.3825 0.50
0.30 0.1038
Cuadro 9.18
1.0
0.95
0.50
β
0.1038
Entonces α = 5 por ciento y los riesgos β para las hipótesis alternativas vienen dados por la
curva OC de la Figura 9.32.
Observe que en este caso la escala vertical de la curva OC es la probabilidad de utilizar el plástico.
En el Ejemplo 1 el valor crítico era p∗ = 61.75 por ciento, y en el Ejemplo 2, era p∗ = 38.25 por
ciento. Podemos ver de forma heurística que es más fácil, según la regla de decisión del Ejemplo 2,
cambiar al uso del plástico.
9.6. Reglas de decisión relativas a las proporciones 223
Ejemplo No. 3
El Ejército ha establecido un criterio de aceptación de los envíos de un producto. Acep-
tará los envíos si el porcentaje de defectuosos por envío es del 5 por ciento o menos, y
lo rechazará si es superior al 5 por ciento. Las hipótesis nula y alternativa son
H0 :π ≦ 5%
H1 :π > 5%
Esta configuración implica que, a menos que haya pruebas de que π es superior al 5 por ciento,
aceptará los envíos; es decir, el Ejército está ansioso por aceptar los envíos. Los riesgos α y β se
muestran como sigue:
m1 , m2 ,
Acción π = 5% π > 5%
A1 , aceptar β = P (A1 |m2 )
Supongamos que se toma una muestra aleatoria de tamaño n = 100 y que α0 = 5 por ciento.
Entonces se encuentra p∗ de la siguiente manera:
p ∗ −0.05
r = 1.645
0.05 · 0.95
100
p∗ = 0.0858
Utilizando este p∗ = 0.0858, podemos encontrar los valores β. Los resultados se muestran en
el Cuadro 9.19, y la curva OC basada en estos valores se muestra en la Figura 9.33.
1.0
0.95
β (aceptar)
0.50
0.1038
π β
0.05 0.95
0.0858 0.50
0.10 0.32
0.15 0.036
Cuadro 9.19
Ejemplo No. 4
En el Ejemplo 3, si el Ejército no está ansioso por aceptar el envío, podría establecer las
hipótesis nula y alternativa como sigue
H0 :π ≧ 0.05
H1 :π < 0.05
m1 , m2 ,
Acción π = 0.05 π < 0.05
A1 , rechazar β = P (A1 |m2 )
Como muestra esta configuración, a menos que haya pruebas de que el porcentaje de defectos
es inferior al 5 por ciento, el Ejército rechazará los envíos.
Sea α0 = 5 por ciento y n = 100, como en el Ejemplo 3. Entonces podemos calcular el valor
crítico p∗ y los riesgos β. Esto se deja como ejercicio para el alumno.
Observe que en este caso, la escala vertical de la curva OC mostraría la probabilidad de rechazar
el envío.
Hasta ahora hemos asumido que el tamaño de la muestra n está dado. Investiguemos a conti-
nuación el efecto que tiene un cambio de n en la regla de decisión y en los valores de β. Veremos
que a medida que n se hace más grande, β se hará más pequeño. Esto significa simplemente que
a medida que n se hace más grande, la capacidad de la regla de decisión para distinguir entre las
hipótesis nula y alternativa será mejor. Ilustremos esto con un ejemplo.
En el Ejemplo 1 de la Sección 9.5, teníamos los resultados del Cuadro 9.20 para n = 25. El valor
crítico era X∗ = 193.42 lb. Aumentemos ahora el tamaño de la muestra a 100; es decir, n = 100.
Entonces el valor crítico se convierte en
200 − X∗
= 1.645
20
√
100
X∗ = 196.71
9.7. Modificación del tamaño de la muestra 225
µ lb β
200.00 0.9500
197.42 0.8413
193.42 0.5000
189.42 0.1586
185.42 0.0228
Cuadro 9.20
Basándonos en este X∗ = 196.71 lb., encontramos los riesgos β como se muestra en el Cuadro 9.21.
µ lb β
200.00 0.9500
198.71 0.8413
196.71 0.5000
194.71 0.1586
192.71 0.0228
Cuadro 9.21
1.0
0.95
n = 25
β (aceptar)
0.50
n = 100
0.1038
π
Figura 9.34
La observación de la Figura 9.34 sugiere que podemos dibujar una familia de curvas, cada curva
para un tamaño de muestra diferente. Dejemos que las curvas de la Figura 9.35 sean una ilustración
hipotética. Entonces, por ejemplo, si la dirección requiere que el riesgo β sea del 5 por ciento para
la hipótesis alternativa µ1 , podemos encontrar en el gráfico el tamaño de la muestra que satisface
este requisito. En nuestro ejemplo hipotético de la Figura 9.35, vemos que el tamaño de la muestra
es n = 100.
En la Figura 9.36 se ilustra una familia de curvas OC de la prueba normal unilateral para un
226 Prueba de Hipótesis
1.0
95%
β (aceptar)
n = 10
n = 50
n=
50%
n=
10
0
25
5%
µ0 µ1
Figura 9.35
1.0
0.95
0.8
0.7
0.6
0.50
0.4
0.3
0.2
0.10
0
−1.00 −0.50 0 0.50 1.00 1.50 2.00 2.50 3.00
Figura 9.36
nivel de significación igual a 0.05. Muestra las curvas para 5 tamaños de muestra diferentes. La escala
horizontal está en términos de desviaciones estándar.
Se pueden encontrar otras ilustraciones en Engineering Statistics1 y los gráficos de las curvas OC
para otras pruebas de dos caras y de una cara se pueden encontrar en ese gancho. Otra fuente de
ilustraciones son las dos tablas y procedimientos de muestreo estándar militares antes mencionados
(página 000).
H0 :µ ≧ $400
H1 :µ = $370
en la que la empresa no desea iniciar la campaña de ventas cuando los ingresos medios son tan
bajos como $370. Además, los riesgos α y β se dan como sigue:
m1 , m2 ,
Acción µ = $400 µ < $370
A1 , iniciar β = 5%
A2 , no iniciar α = 2.5%
400 − X∗
= 1.96
50
√
n
X ∗ −370
= 1.64
50
√
n
donde σ = $50 se supone dado. Resolviendo estas dos ecuaciones para X∗ y n, encontramos
como valores aproximados:
X∗ = $383.67
n = 36
Por tanto, la regla de decisión es: Tomar una muestra aleatoria de tamaño n = 36. Si
µ β
400.00 0.975
392.01 0.841
383.67 0.500
375.34 0.159
370.00 0.050
367.01 0.023
Cuadro 9.22
1.0
0.95
0.50
0.05
370 400
Figura 9.37
CAPÍTULO 10
Teoría de la Decisión
Recapitulemos el ejemplo del Capítulo 9 (p.223) del problema de las dos urnas. Teníamos dos
urnas (estados de la naturaleza) y cada una tenía bolas rojas, verdes y negras, como se muestra en la
Figura 10.1.
Se extrae una muestra aleatoria de 2 bolas con reemplazo de una de las urnas, y el estadístico
debe decidir de qué urna proceden. La selección de la urna 1 se llamó acción A1 : la selección de la
229
230 Teoría de la Decisión
rojo 10 60
verde 20 30
negro 70 10
Figura 10.1
X2
Negro
Verde
Rojo
Figura 10.2
(regla
decisión)
de
r v n A1 A2
espacio muestral espacio acción
Figura 10.3
Resultado d1 d2 d3 d4 d5 d6 d7 d8
Rojas A1 A1 A1 A2 A1 A2 A2 A2
Verdes A1 A1 A2 A1 A2 A1 A2 A2
Negras A1 A2 A1 A1 A2 A2 A1 A2
P (A1 |m1 ) 1 0.3 0.8 0.9 0.1 0.2 0.7 0
α= P (A2 |m1 ) 0 0.7 0.2 0.1 0.9 0.8 0.3 1
β= P (A1 |m2 ) 1 0.9 0.7 0.4 0.6 0.3 0.1 0
P (A2 |m2 ) 0 0.1 0.3 0.6 0.4 0.7 0.9 1
Cuadro 10.1
Por otro lado, si nos dan la urna 1 (que no conocemos) ¿cuál es la probabilidad de que tomemos
la acción A2 y rechacemos A1 ? Según la regla d1 la acción A1 se toma independientemente del
resultado. Por tanto, la probabilidad de que se tome la acción A2 es
Pd1 (A2 |m1 ) = 0
Es evidente que
Pd1 (A1 |m1 ) + Pd1 (A2 |m1 ) = 1
ya que dado w1 se toma la acción A, o A2.
Supongamos ahora que nos dan la urna 2 (m2 ) sin que lo sepamos. La probabilidad de que
tomemos la acción A1 y cometamos el error de rechazar m2 será
Pd1 (A1 |m2 ) = g(x1 ) + g(x2 ) + g(x3 ) = 0.6 + 0.3 + 0.1 = 1
Por otro lado, la probabilidad de tomar la decisión correcta y seleccionar w2 será
Pd1 (A2 |m2 ) = 0
ya que según d1 siempre nos decidimos por la acción A1 . Así pues, hemos evaluado d1 , es decir,
P (A1 |m1 ) = 1
P (A2 |m1 ) = 0
P (A1 |m2 ) = 1
P (A2 |m2 ) = 0
En cuanto a d2 , tenemos:
Pd1 (A1 |m1 ) = f (x1 ) + f (x2 ) = 0.1 + 0.2 = 0.3
Pd1 (A2 |m1 ) = f (x3 ) = 0.7
Pd1 (A1 |m2 ) = g(x1 ) + g(x2 ) = 0.6 + 0.3 = 0.9
Pd1 (A2 |m2 ) = g(x3 ) = 0.1
El resto de las reglas de decisión se evalúan de forma similar, como se muestra en el Cuadro 10.1.
232 Teoría de la Decisión
Una vez caracterizadas las 8 reglas de decisión, nos preguntamos: ¿Qué regla debe utilizarse?
Obviamente, son preferibles las reglas con los riesgos α y β más pequeños. Pero como podemos
ver en el Cuadro 10.1, cuando el riesgo α es pequeño, el riesgo β es grande. En el Capítulo 9 aborda-
mos este problema predeterminando el riesgo α a un determinado nivel, como α0 = 5 por ciento,
y lo llamamos nivel de significación, y seleccionamos las reglas que tenían riesgos a menores que
α0 = 0.05. En nuestro ejemplo actual, sólo d1 satisface esta condición.
Si seleccionamos una muestra de tamaño n = 2, tendríamos 512 reglas de decisión y habría un
número de reglas de decisión que satisfacen el nivel de significación de α0 = 5 por ciento.
Sin embargo, al comparar estas 8 reglas de decisión, ¿es d1 la mejor regla de decisión? ¿No es
mejor la regla d4 porque aunque α = 0.10, el β se ha hecho tan pequeño como β = 0.40?
Esta pregunta plantea, sin duda, la cuestión de los 64 dólares: ¿Cuál es el criterio o los criterios
para seleccionar la mejor regla de decisión? Este es el problema central de la teoría de la decisión, y
una investigación de este problema conduce a varios principios para seleccionar las reglas de deci-
sión.
El principio que utilizamos en el Capítulo 9 se basó en lo que se conoce como el lema fundamen-
tal de Neyman - Pearson, que se explica en el Capítulo 17. Hay otros criterios de selección, como la
regla de la razón de verosimilitud, el principio minimax y la regla de Bayes. En este capítulo dare-
mos una breve explicación introductoria de la regla de Bayes, y en el capítulo 17 consideraremos las
demás reglas de selección de reglas de decisión.
En el Cuadro 10.1 teníamos 8 reglas de decisión. Nuestra tarea en esta sección es mostrar uno
de los criterios, a saber, el procedimiento de Bayes para seleccionar una regla de decisión óptima
entre estas 8 reglas de decisión. La explicación de este procedimiento de Bayes se hará en dos pasos:
uno es en el que se considera la gravedad relativa de las consecuencias de los errores de tipo I y
II al seleccionar una regla de decisión: el segundo es en el que se considera información adicional
al seleccionar una regla de decisión. El primer paso se explica en este capítulo. El segundo paso se
explica en el capítulo 17.
Estados de Naturaleza
m1 m2
Acción Lluvia Sin Lluvia
A1 , llevar paraguas P (A1 |m1 ) = 1 − α P (A1 |m2 ) = β
A2 , no llevar paraguas P (A2 |m1 ) = α P (A2 |m2 ) = 1 − β
Si la persona realiza la acción A2 (no llevar paraguas) cuando el verdadero estado de la naturaleza
es m1 (lluvia), comete el error α. Este error le costará algo, digamos en términos de dinero por
mojarse la ropa, o de incomodidad, o tal vez de resfriado.
10.2. Procedimiento de Bayes 233
m1 m2
A1 $0 b = $5
A2 a = $10 $0
Hemos fijado la pérdida en que incurrirá el estadístico si comete el error de tipo I (no llevar
paraguas cuando llueve) como a = 10 dólares; y la pérdida por el error de tipo II como b = 5
dólares. Obsérvese que hemos fijado la pérdida de tomar la acción A1 cuando el estado de naturaleza
es m1 como 0 dólares, pero esto no implica que una decisión correcta cueste siempre 0 dólares.
Por ejemplo, supongamos que el estadístico pide prestado un paraguas por 2 dólares y se lo
lleva, y el verdadero estado de la naturaleza es m1 (lluvia). Ha tomado la decisión correcta, pero su
decisión le ha costado 2 dólares. Utilicemos esto y reescribamos la tabla de pérdidas como sigue:
m1 m2
A1 $2 $5
A2 $10 $0
p(m1 , A1 ) = $2
p(m1 , A2 ) = $10
234 Teoría de la Decisión
Por lo tanto, la llamada pérdida neta en la que incurre el estadístico al cometer el error de tipo I
es
p(m1 , A2 ) − p(m1 , A1 ) = $10 − $2 = $8
Si hay 3 acciones posibles, como A1 (llevar el paraguas), A2 (no llevar el paraguas) y A3 (quedarse en
casa), y la pérdida de tomar la acción A3 es de $1, entonces restando esta pérdida mínima p(m1 , A3 )
de las otras pérdidas
p(m1 , A1 ) − p(m1 , A3 ) = $2 − $1 = $1
p(m1 , A2 ) − p(m1 , A3 ) = $10 − $1 = $9
serían los arrepentimientos. Es decir, los arrepentimientos se obtienen restando la pérdida mínima
para el estado de naturaleza dado m1 . Expresemos esto por
Definamos un término más, la función de riesgo, y luego pasemos a la discusión del procedi-
miento Bayes para seleccionar una regla de decisión.
En la tabla anterior vemos que cuando el estado de la naturaleza es m1 = lluvia, la pérdida
esperada es
R(mi , dj ) = ($2)(1 − α) + ($10)(α)
Cuando el estado de la naturaleza es m2 =lluvia, la pérdida esperada es
Como se ve, esta pérdida esperada depende del riesgo α. Y este riesgo α depende de la regla dj que
se selecciona. Esta R(mi , dj ) se denomina función de riesgo y es el riesgo utilizando la regla dj dado
el estado de la naturaleza mi .
Ilustrémoslo modificando el ejemplo de la urna como sigue.
m1 m2
Lluvia Sin lluvia
Despejado 10 60
Sin pronostico 20 30
Lluvia 70 10
Supongamos que tenemos un indicador y que cuando el verdadero estado de la naturaleza es m1 =lluvia,
pronostica el tiempo con la siguiente probabilidad: despejado = 0.10; sin pronóstico = 0.20; lluvia
= 0.70. Cuando el verdadero estado de la naturaleza es m2 = sin lluvia se convierte en: despejado
= 0.60; sin previsión = 0.30; lluvia = 0.10.
Los riesgos α y β se calculan como en el Cuadro 10.1 y se reproducen a continuación como
Cuadro 10.2.
10.2. Procedimiento de Bayes 235
Resultado d1 d2 d3 d4 d5 d6 d7 d8
Despejado A1 A1 A1 A2 A1 A2 A2 A2
Sin pronóstico A1 A1 A2 A1 A2 A1 A2 A2
Lluvia A1 A2 A1 A1 A2 A2 A1 A2
P (A1 |m1 ) 1 0.3 0.8 0.9 0.1 0.2 0.7 0
α= P (A2 |m1 ) 0 0.7 0.2 0.1 0.9 0.8 0.3 1
β= P (A1 |m2 ) 1 0.9 0.7 0.4 0.6 0.3 0.1 0
P (A2 |m2 ) 0 0.1 0.3 0.6 0.4 0.7 0.9 1
Cuadro 10.2
d1 d2 d3 d4 d5 d6 d7 d8
R(di , m1 ) $2 $7.6 $3.6 $2.8 $9.2 $8.4 $4.4 $10
R(di , m2 ) $5 $4.5 $3.5 $2.0 $3.0 $1.5 $0.5 $0
Cuadro 10.3
Como se ve, estos riesgos incorporan las pérdidas sufridas al cometer los errores de tipo I y
de tipo II. Basándonos en estos riesgos, queremos seleccionar una regla de decisión. ¿Qué regla
debemos seleccionar? ¿Y qué criterio debemos utilizar para seleccionar la regla de decisión?
En el Cuadro 10.4, podemos ver que cuanto más pequeños sean los riesgos, más preferible será
la regla. Por lo tanto, un procedimiento natural a seguir sería seleccionar la regla di donde la media
de los riesgos R(di , m1 ) y R(di , m2 ) es menor.
1
Cuando decimos media, ¿debemos tomar [R(di , m1 ) + R(di , m2 )]?
2
Si no se sabe nada de las probabilidades de m1 y m2 , éste sería un procedimiento razonable.
Si, por el contrario, conocemos las probabilidades de m1 y m2 como π y (1 − π) parecería más
razonable hallar el riesgo esperado de la siguiente manera
d1 d2 d3 d4 d5 d6 d7 d8
R(di , m1 )(π) 0.6 2.28 1.08 0.84 2.76 2.52 1.32 3.0
R(di , m2 )(1 − π) 3.5 3.15 2.45 1.40 2.10 1.05 0.35 0
B(di ) 4.1 5.43 3.53 2.24 4.86 3.57 1.67 3.0
Cuadro 10.4
La regla con la menor B(di ) es la regla d7 . Por lo tanto, es la regla de decisión que el estadístico
selecciona para utilizar. Este procedimiento se llama procedimiento de Bayes, asumiendo distribu-
ciones previas (o pesos) π y (1 − π) de m1 y m2 .
10.2.5 Comentarios
Como se ve en nuestra discusión, este procedimiento de Bayes incorpora las pérdidas debidas a
la comisión de los errores de tipo I y II, que era uno de los puntos débiles del procedimiento clásico
de prueba de hipótesis que se limitaba a especificar el nivel de significación α0 .
También observamos que había espacio para insertar la evaluación subjetiva del estadístico (o
del responsable de las políticas) a la hora de determinar las pérdidas.
Un tercer punto muy importante a tener en cuenta es que hemos llegado a la presente conclu-
sión sin seleccionar una muestra y utilizar su información. En el Capítulo 17 mostraremos cómo
podemos utilizar la información obtenida de una muestra para ajustar y mejorar las distribuciones
a priori π y (1 − π) y, por tanto, mejorar la evaluación del riesgo de Bayes. Como veremos, ob-
tendremos mediante el teorema de Bayes de las probabilidades una distribución a posteriori de los
estados de la naturaleza.
Un cuarto punto es que no hemos utilizado la función de arrepentimiento para derivar el riesgo
de Bayes, pero como puede verse fácilmente, podemos utilizar la función de arrepentimiento en
lugar de la función de riesgo y obtener el mismo resultado, seleccionando la misma regla de decisión.
Explicamos la función de arrepentimiento porque algunos estadísticos prefieren utilizar la función
de arrepentimiento en lugar de la función de pérdida.
Por último, debemos señalar que con la teoría que hemos presentado en este capítulo, es difícil
resolver problemas reales. Por ejemplo, cuando tenemos una población con una variable aleatoria
x con 3 posibles resultados, y se selecciona una muestra de tamaño n = 2, el espacio muestral tiene
2
9 puntos de muestra. Y como hemos visto, habrá 23 = 512 posibles reglas de decisión. Evidente-
mente, será una tarea formidable evaluar estas 512 reglas de decisión en términos de riesgos α y β,
y luego calcular el riesgo de Bayes para cada una de estas reglas de decisión para decidir cuál es la
mejor regla de decisión a seleccionar.
10.2. Procedimiento de Bayes 237
En los tres capítulos siguientes se analizan los números índice y las series temporales. Por número
índice se entiende un cociente de dos números. Por ejemplo, un cociente de inteligencia (CI) es el
cociente entre la edad mental y la edad cronológica. Sin embargo, nuestra principal preocupación en
este capítulo son los índices que se utilizan en los negocios y la economía. El objetivo de estos índices
es medir los cambios que se han producido en los precios, la producción, el coste de la vida, etc. Con la
ayuda de estos índices, los empresarios y economistas pueden describir y analizar cuantitativamente
las situaciones económicas y empresariales.
En primer lugar, desarrollaremos un índice de precios y, a continuación, analizaremos breve-
mente algunos de los demás índices.
Supongamos que el precio del pan ha subido durante tres años de la siguiente manera 1958,
p0 = 10 centimos; 1959, p1 = 15 centimos; 1960, p2 = 20 centimos. Para mostrar el cambio en los
precios, encontramos la relación de precios de la siguiente manera:
p0 10 centimos
1958 : = = 1.00 = I0
p0 10 centimos
p1 15 centimos
1958 : = = 1.50 = I1
p0 10 centimos
p2 20 centimos
1958 : = = 2.00 = I2
p0 10 centimos
239
240 Números Índice
I1 = 1.50 muestra que ha habido un aumento del 50 por ciento en los precios de 1958 a 1959.
I2 = 2.00 muestra que ha habido un aumento del 100 por ciento de 1958 a 1960. I0 = 1.00 indica
el año a partir del cual se miden los cambios y se denomina año base:
Los índices de precios suelen expresarse sobre una base de 100. Por lo tanto, en nuestro ejemplo,
I0 , I1 y I2 se convierten en
I0 :100
I1 :150
I2 :200
Lo expresamos como: el índice de precios de 1959 es 150. Esto significa que los precios han
aumentado un 50% de 1958 a 1959.
Observe los siguientes puntos:
1. El año base se indica con el subíndice 0 (cero), y los años subsiguientes con los números
1, 2, . . .
2. Las p se utilizan para indicar los precios individuales y las I mayúsculas para denotar los
índices de precios.
La tabla muestra que la misma cesta de productos cuesta 1.20 dólares en 1958, 1.50 dólares
en 1959 y 1.80 dólares en 1960. Como estamos interesados en encontrar un índice de precios para
un grupo de productos, esto se puede lograr comparando el precio de esta cesta de bienes para los
distintos años. Por lo tanto, encontremos los precios relativos para esta cesta de bienes. Utilizando
1958 como año base encontramos,
120 ¢
1958 : = 1.00 o 100
120 ¢
150 ¢
1959 : = 1.25 o 125
120 ¢
180 ¢
1960 : = 1.50 o 150
120 ¢
11.1. Índice de precios relativos ponderados 241
El precio de la cesta de la compra ha aumentado un 25% de 1958 a 1959 y un 50% de 1958 a 1960.
El índice de precios que hemos obtenido puede representarse con los siguientes símbolos: Para
1959, es
150 15 + 25 + 60 + 50
=
120 10 + 20 + 50 + 40
p11 + p12 + p13 + p14
=
p01 + p02 + p03 + p04
donde p01 muestra el precio del producto 1 (pan) para el año base 0, p02 muestra el precio del
producto 2 (leche) para el año base 0, y así sucesivamente; p11 muestra el precio del producto 1 (pan)
para el año 1 (que es 1959), p12 muestra el precio del producto 2 (leche) para el año 1 (1959), y así
sucesivamente.
Utilizando el símbolo de la suma, tenemos, para 1959
X
4
p1i
i=1 150
I59 = = = 1.25
X4 120
p0i
i=1
Este I59 se denomina índice de precios simple para 1959. De forma similar, encontramos
P
p0i 120
I0 = I58 = P = = 1.00 o 100
p 120
P 0i
p1i 150
I0 = I59 = P = = 1.25 o 125
p0i 120
P
p2i 180
I0 = I60 = P = = 1.50 o 150
p0i 120
X
n
pki
i=1
Ik = (11.1)
Xn
p0i
i=1
1. Que las unidades de precios de los productos básicos afectarán al índice de precios.
Por ejemplo, si nuestra canasta incluyera un par de zapatos que costaran 20 dólares en 1958, 25
dólares en 1959 y 30 dólares en 1960, los índices de precios serían los siguientes:
242 Números Índice
$1.20 + 20 21.20
I58 = = = 1.00
$1.20 + 20 21.20
$1.50 + 25 26.50
I59 = = = 1.25
$1.20 + 20 21.20
$1.80 + 30 31.80
I60 = = = 1.50
$1.20 + 20 21.20
Por lo tanto, el precio de los zapatos habría dominado el índice, lo cual no es deseable. ¿Cómo
podemos eliminar estas influencias debidas a las diferentes unidades?
Esto se consigue construyendo un índice que sea la media de los precios relativos. En primer
lugar, construyamos una tabla de precios relativos.
Lo que hemos hecho en realidad es ponderar cada artículo por 1/p0 . Es decir, hemos ponderado
los precios del pan por 1/10 ¢, el de la leche por 1/20 ¢, y así sucesivamente. El sentido común de
11.1. Índice de precios relativos ponderados 243
esto es que hemos cambiado la importancia de cada producto para que cada uno tenga la misma im-
portancia. Es decir, el pan es igual de importante que la leche, y los zapatos son igual de importantes
que la carne o la leche. Así se ha eliminado la influencia debida a las diferentes unidades.
Sin embargo, es evidente que no todos los bienes tienen la misma importancia. Hay una dife-
rencia en la importancia de los productos, y el alcance de su influencia en el índice de precios no es
el mismo. Por lo tanto, surge la pregunta: ¿Cómo vamos a tener en cuenta su importancia relativa?
Esto nos lleva al problema de las ponderaciones.
¿Qué tipo de ponderación nos dará la importancia relativa de los productos básicos? Para nues-
tro propósito actualConsideramos la cantidad comprada en términos de dólares como el peso que
muestra la importancia relativa. Supongamos, a título ilustrativo, que en el año base 1958 se com-
praron las siguientes cantidades:
Pan $200
Leche 500
Huevos 400
Carne de Res 800
Zapatos 100
$2000
La cantidad de pan comprada en 1958 fue v1 = $200. Esto puede mostrarse como
donde p01 es el precio y q01 es la cantidad de pan que se compró en 1958. Ponderemos ahora el
precio relativo del pan en 1959 por este peso v1 . Obtenemos
p11 p11
v1 = · p01 · q01 = p11 · q01
p01 p01
Encontramos que p11 q01 significa: p1 1 es el precio del pan en 1959; q01 es la cantidad de pan compra-
da en 1958. Así pues, p11 q01 indica cuánto hay que gastar en 1959 para comprar la misma cantidad
de pan.
Por lo tanto, multiplicando los precios relativos de 1959 por sus correspondientes pesos, obte-
nemos el importe de los gastos necesarios en 1959 para comprar la misma cantidad de bienes que
en 1958. Los resultados para 1958, 1959 y 1960 se muestran en la tabla adjunta.
244 Números Índice
El total de la columna de 1958, que es de 2 000 dólares, muestra la cantidad total de gastos
para una cantidad determinada de bienes. El total de la columna de 1959, que es de 2 530 dólares,
muestra la cantidad de gastos necesarios para comprar la misma cantidad de bienes en 1950. Así
pues, la relación
$2530
= 1.265 o 126.5
$2000
es un índice que muestra la variación de los precios de este grupo de productos. La característica
añadida de este índice es que se ha tenido en cuenta la importancia relativa de los productos básicos.
Utilicemos ahora símbolos para expresar lo que hemos hecho. La relación se muestra como
p11 p12 p13 p14 p15
v1 + v2 + v3 + v4 + v5
p01 p02 p03 p04 p05
v1 + v2 + v3 + v4 + v5
300 + 625 + 480 + 1000 + 125
=
200 + 500 + 400 + 800 + 100
2530
= = 1.265 o 126.5
2000
Si utilizamos el signo de la suma, se convierte en
X 5
p1i
vi
p0i
I1 = i=1
P (11.3)
vi
Este índice de precios se denomina índice de precios relativos ponderados. Los índices de precios de
los tres años son los siguientes:
X 5
p1i
vi
p0i 2000
I58 = I0 = i=1
P =
vi 2000
= 1.00 o 100
X 5
p1i
vi
p0i 2530
I59 = I1 = i=1 P =
vi 2000
= 1.265 o 126.5
X 5
p1i
vi
p0i 3060
I60 = I2 = i=1
P =
vi 2000
= 1.53 o 153
11.2. Índice de precios agregados ponderados 245
La interpretación es la siguiente: Los precios de 1959 han aumentado un 26, 5% respecto al nivel de
precios de 1958. Los precios de 1960 han aumentado un 53% respecto al nivel de precios de 1958.
Ejemplo No. 1
Dados los datos de la tabla adjunta, halle el índice de precios relativos ponderados de
1960.
1958 1958 1960
Producto q0 p0 v = p0 q 0 p1 p1 /p0 (p1 /p0 )v
Azúcar 40 lb. 10 ¢ $4.00 15 ¢ 15/10 $6.00
Harina 80 lb. 15 ¢ $12.00 20 ¢ 20/15 $16.00
Leche 20 lt. 20 ¢ $4.00 25 ¢ 25/20 $5.00
$20.00 $27.00
El índice de precios relativos ponderados que figura en la ecuación (11.3) del apartado 11.1
puede reescribirse como sigue
5
X
p1i
vi
p0i
I1 = P
i=1
vi
p11 p15
(p01 · q01 ) + · · · + (p05 · q05 )
p01 q05
=
p01 · q01 + · · · + p05 q05
p11 · q01 + p12 q02 + · · · + p15 · q05
=
p01 · q01 + · · · + p05 q05
X5
p1i q0i
P
= i=1
p0i q0i
Si abreviamos el subíndice i, el resultado puede escribirse en forma general para el año n, como
P
pn q 0
In = P (11.4)
p0 q 0
Esto se denomina índice de precios agregado ponderado, y como puede verse, p0 y pn son los precios
del año base y del año dado. La q0 es la cantidad del año base. Por lo tanto, podemos interpretar la
246 Números Índice
Ejemplo No. 1
Utilizando los datos del ejemplo anterior de la Sección 11.1, hallemos el índice de pre-
cios agregado ponderado para 1960, con las ponderaciones del año base que se mues-
tran en la tabla.
1958 1958 1960
Producto q0 p0 v = p0 q 0 p1 p1 /p0 (p1 /p0 )v
Azúcar 40 lb. 10 ¢ $4.00 15 ¢ 15/10 $6.00
Harina 80 lb. 15 ¢ $12.00 20 ¢ 20/15 $16.00
Leche 20 lt. 20 ¢ $4.00 25 ¢ 25/20 $5.00
$20.00 $27.00
Encontramos que P
pn q 0 27.00
I60 = P = = 1.35 o 135
p0 q 0 20.00
El índice de precios agregado ponderado para 1960 es 135. Esto significa que se ha producido un
aumento del 35 por ciento en los precios con respecto al nivel de 1958, y los resultados son los
mismos que los del índice de precios relativos ponderados.
Ejemplo No. 2
Apliquemos la fórmula de Paasche a los datos del ejemplo 1.
1958 1960
Producto qn qn p0 pn p0 q n pn q n
Azúcar 40 lb 60 lb 10 ¢ 15 ¢ $ 6.00 $ 9.00
Harina 80 lb 100 lb 15 ¢ 20 ¢ 15.00 20.00
Leche 20 lt 40 lt 20 ¢ 25 ¢ 8.00 10.00
$ 29.00 $ 39.00
Encontramos: P
pn q n 39.00
I60 = P = = 1.345 o 134.5
p0 q n 29.00
La fórmula de Laspeyres también se denomina fórmula agregada ponderada que utiliza las pon-
deraciones del año base. La fórmula de Paasche también se denomina fórmula agregada ponderada
que utiliza ponderaciones del año en curso. Utilizaremos estos términos indistintamente.
Como ya hemos mencionado, la fórmula de Paasche requiere que se encuentren nuevas ponde-
raciones qn para cada año actual. Desde un punto de vista práctico, esta es una tarea muy difícil y
laboriosa. Además, el índice de precios de un año determinado sólo puede compararse con el año
base. Por ejemplo, dejemos que I58 = 100, I59 = 120, y I60 = 150. Entonces, I59 y I60 utilizan
ponderaciones diferentes y no pueden compararse entre sí. Si estos índices se hubieran obtenido
mediante la fórmula de Laspeyres, al ser las ponderaciones del mismo año base (q0 ), podrían com-
pararse. Esta es una de las razones por las que no se suele utilizar la fórmula de Paasche.
Utilizaremos los datos del ejemplo 2 del apartado 11.2 para ilustrarlo.
Ejemplo No. 1
Utilizamos los datos de la tabla
1958 1960 q′ =
Producto q0 q1 (q0 + q1 )/2 p0 p1 p0 q ′ p1 q ′
Azúcar 40 60 50 10 ¢ 15 ¢ $5.00 $7.50
Harina 80 100 90 15 20 13.50 18.00
Leche 20 40 30 20 25 6.00 7.50
$24.50 $ 33.00
y encontramos: P
p1 q ′ 33.00
I1 = P ′
= = 1.35 o 135
p0 q 24.50
Los precios de 1960 han aumentado un 35 por ciento respecto a los de 1959.
11.3.2 Utilizar el precio medio de varios años como precio del año base
Otro método para ajustar el índice de precios de manera que tenga una base normal es utilizar
el precio medio de varios años como precio del año base. Por ejemplo, tome los precios de 2 años p0
y p1 y encuentre la media:
p0 + p1
p′ =
2
Ejemplo No. 2
Utilizando los datos adjuntos y la ecuación (11.8), hallemos el índice de precios.
p′
p0 + p1
1958 1959 = 1958 1959
2 ′
Producto q0 p0 p1 p q0 p0 q 0 p1 q 0
Azúcar 40 10 ¢ 14 ¢ 12 ¢ $4.80 $4.00 $5.60
Harina 80 15 ¢ 21 ¢ 18 ¢ 14.40 12.00 16.80
Leche 20 20 ¢ 28 ¢ 24 ¢ 4.80 4.00 5.60
$24.00 $20.00 $28.00
De estos encontramos:
P
p0 q 0 20.00
I58 = P ′ = = 0.833 o 83.3
pq 24.00
P 0
p1 q 0 28.00
I59 = P ′ = = 1.167 o 116.7
p q0 24.00
Obsérvese que la base en este caso es de 1958 a 1959, y el índice de precios para el período base
se muestra mediante P ′
p q0 24.00
I58−59 = P ′ = = 1.00 o 100
p q0 24.00
Los índices de precios para estos cálculos son (utilizando la base 1958-1959 = 100) 1958, 83; 1959,
117. Esto muestra que los precios de 1958 son el 83% de la base, 1958-1959 = 100, y 1959 es el 117%
de la base.
Construyamos ahora un índice que combine las dos características comentadas anteriormente.
Es decir, dejemos que
q0 + q1
q′ =
2
′ p0 + p 1
p =
2
Ejemplo No. 3
Utilizamos los datos de la tabla adjunta y encontramos:
1958 1959
Producto q0 q1 p0 p1 q′ p′ p′ q ′ p0 q ′ p1 q ′
Azúcar 40 60 10 ¢ 14 ¢ 50 12 ¢ $6.00 $5.00 $7.00
Harina 80 100 15 21 90 18 16.20 13.50 18.90
Leche 20 40 20 28 30 24 7.20 6.00 8.40
$29.40 $24.50 $34.30
p0 + p 1 ′ q 0 + q 1
p′ = ,q =
P 2′ ′ 2
pq 29.40
I58−59 =P ′ ′ = = 1.00 o 100
pq 29.40
P
p0 q ′ 24.50
I58 = P ′ ′ = = 0.833 o 83.3
pq 29.40
P
p1 q ′ 34.30
I59 = P ′ ′ = = 1.167 o 116.7
pq 29.40
11.3.4 Ilustraciones
Índice de precios al por mayor. El índice de precios al por mayor es calculado por la Oficina de
Estadísticas Laborales de Estados Unidos y puede encontrarse en el Monthly Labor Review. Es un
índice de precios que mide las variaciones de los precios en los mercados primarios. Se remonta a
la década de 1890, cuando abarcaba unos 250 productos básicos. Tras las revisiones posteriores, en
la actualidad abarca unos 2 400 artículos. La fórmula utilizada es la de Laspeyres:
P
pn q63
In = P
p57−59 q63
en la que el año base es 1957-59 = 100 y las ponderaciones son las ponderaciones cuantitativas de
1963. Los precios son mensuales, y pn indica los precios del mes en curso.
En 1950, la Oficina de Estadísticas Laborales adoptó un índice de cadena para calcular el índice
de precios al por mayor. Esto se considerará después de discutir el índice de cadena. La razón de este
cambio es que el índice de cadena permite la sustitución de productos.
En 1962, la base a partir de la cual se miden los cambios, es decir, la base de referencia, pasó de
1947-49 = 100 a 1957-59 = 100. El término base de referencia se explica en el apartado 11.7.
El Cuadro 11.1 presenta varios valores del índice de precios al por mayor.
Precios recibidos y pagados por los agricultores. Estos dos índices son publicados por el Departa-
mento de Agricultura de Estados Unidos. El índice de precios recibidos (denominado R) muestra la
variación de los precios que reciben los agricultores por su producto (unos 50 productos). El índice
de precios pagados (denominado P ) muestra la evolución de los precios que los agricultores tienen
que pagar por la compra de bienes familiares y de producción y equipamiento (unos 350 artículos).
La relación entre R y P (es decir, R/P ) se denomina índice de paridad.
Dado que los precios y la producción agrícolas fluctúan más que los de otros bienes, se utiliza un
periodo relativamente largo como base de ponderación, es decir, un periodo base a partir del cual
11.3. Variaciones de los índices de precios ponderados 251
se seleccionan las ponderaciones. Además, los ajustes de los productos básicos que se utilizan como
ponderaciones se han realizado tres veces a lo largo de los últimos 50 años para que el índice refleje
los cambios que se han producido en la agricultura. La fórmula para el primer periodo (1910 hasta
1934) es P
pn q24−29
p24−29 q24−29
donde los precios pn son mensuales. El periodo base de ponderación en la fórmula es 1924-1929,
pero por razones histórico-económicas, el índice se convierte a la base de referencia 1910-14 = 100.
La fórmula del segundo periodo (de 1935 a 1952) utiliza como periodo base de ponderación
1937-1941, pero también se reconvierte a la base de referencia 1910-14 = 100, para que el índice
sea continuo.
En los dos primeros periodos, el periodo de base de ponderación era el mismo para ambos
índices, pero en la reciente revisión (1959), el periodo de base de ponderación para el índice de
precios percibidos se ha cambiado a 1953-1957 y para el índice de precios pagados se ha cambiado
a 1955. El Cuadro 11.2 presenta varios valores de estos índices.
Cuando el índice de paridad es inferior a 100, significa que el poder adquisitivo de los productos
agrícolas es menor que en 1910-1914.
Haciendo a = 5 como base, podemos expresar estos 4 números en forma de índice de la siguiente
manera:
a 5
1958 : = = 1 o 100
a 5
b 10
1959 : = = 2 o 200
a 5
c 15
1960 : = = 3 o 300
a 5
d 20
1961 : = = 4 o 400
a 5
De a a b hay un incremento del 100%; de a a c hay un incremento del 200%; y así sucesivamente.
Los incrementos se miden a partir de la base a = 5.
Pero supongamos ahora que nos interesan los incrementos de a a b, de b a c y de c a d. Entonces
b 10
I58−59 : = = 2 o 200
a 5
c 15
I59−60 : = = 1.5 o 150
b 10
d 20
I60−61 : = = 1.33 o 133
c 15
1. Muestra los cambios desde el periodo anterior por los parientes de los eslabones.
2. Construye un índice con una base fija por el producto de los parientes de enlace.
3. Permite la sustitución de productos al permitir ajustes para nuevas ponderaciones.
Esto muestra que el producto I58−59 · I59−60 se convierte en I58−60 = c/a, que es el índice de
precios para 1960, utilizando 1958 como base. De la misma manera,
b c d d
I58−59 · I59−60 · I60−61 = · · =
a b c a
Es decir, el producto de los 3 términos nos da I58−61 = d/a, que es el índice de precios de 1961,
utilizando 1958 como base. Los resultados se resumen como sigue:
I58−59 = I58−59
I58−60 = I58−59 · I59−60
I58−61 = (I58−59 · I59−60 ) I60−61
I58−62 = (I58−59 · I59−60 · I60−61 ) I61−62
I58−62 = I58−61 · I61−62
..
.
Así, por ejemplo, cuando se da el índice de precios de base fija regular I58−61 y un relativo de
enlace I61−62 , el índice de precios de base fija regular para 1962 (es decir, I58−62 ), puede calcularse
mediante
I58−61 · I61−61 = I58−62
La fórmula de Laspeyres es
P pi
P pi−1 q0
pi q 0 p
Ii−1,i =P = Pi−1 (11.12)
pi−1 q0 pi−1 q0
donde Ii−1,i muestra el número de índice para el período i basado en el período i − 1; es decir, el
período anterior. Sea
P
pi+1 q0
Ii,i+1 = P (11.13)
pi q 0
es el índice relativo de enlace para el periodo i + 1 basado en el periodo i. Entonces el índice de
Laspeyres para el periodo i + 1, basado en el periodo i − 1 es
pi+1 q0
Ii−1,i+1 = P (11.14)
pi−1 q0
254 Números Índice
Ejemplo No. 1
Utilizamos los datos de la tabla adjunta
1958 1959 1958 1959 1960
Producto q0 q1 p0 p1 p2 p0 q 0 p1 q 0 p2 q 0
Azúcar 40 60 10 ¢ 15 ¢ 20 ¢ $4.00 $6.00 $8.00
Harina 80 100 15 20 25 12.00 16.00 20.00
Leche 20 40 20 25 30 4.00 5.00 6.00
$20.00 $27.00 $34.00
y encontramos:
P
p59 q58 27.00
I58−59 = P = = 1.35
p q 20.00
P 58 58
p60 q58 34.00
I59−60 = P = = 1.259
p q 27.00
P 59 58
p60 q58
I58−59 = P
p q
P 58 58 P
p59 q58 p60 q58
=P ·P
p58 q58 p59 q58
Dejemos que 1958 sea el período base y lo abreviemos de los subíndices. Entonces la fórmula
(11.16) se convierte en
Cuando sólo hay un subíndice, como I60 , I59−60 , etc., significa que tienen una base común.
Cuando hay dos subíndices, como I59−60 , el primer subíndice (1959) es la base a partir de la cual
se mide el cambio. Así, (11.17) muestra que el índice de Laspeyres de 1960 se obtiene multiplicando
el índice de Laspeyres de 1959 I59 por el relativo de enlace para 1959-1960, I59−60 . Esto puede
escribirse como P
p60 q58
I60 = I59 P (11.18)
p59 q58
P p60
p59 q58
p59
I60 = I59 P (11.19)
p59 q58
11.3. Variaciones de los índices de precios ponderados 255
11.3.7 Ilustración
Una ilustración de la técnica del índice chai según la fórmula (8) es el índice de precios al consu-
midor. El índice de precios al consumidor es un índice mensual publicado por la Oficina de Estadís-
ticas Laborales del Departamento de Trabajo de Estados Unidos. Su nombre completo es Índice de
variación de los precios de los bienes y servicios adquiridos por las familias de los asalariados urbanos
y de los trabajadores administrativos para mantener su nivel de vida, y anteriormente se denomina-
ba Índice del coste de la vida. Nuestro principal interés en él es la fórmula utilizada para calcular el
índice
P p1
(pi−1 q0 ) P
Ii = Ii−1
p1−1
P = Ii−1 P pi q0 = Ii−1 · Ii−1,i (11.20)
pi−1 q0 pi−1 q0
donde Ii−1 es el índice de precios (de Laspeyres) del mes anterior, basado en el periodo base
1957-59 = 100, y Ii−1,i es el relativo al enlace del mes i − 1 e i. Por ejemplo, si i =abril de 1971,
entonces i−1 =marzo de 1971; entonces Ii−1 es el índice de precios de marzo de 1971, y es el relativo
de enlace que muestra el cambio de precios de marzo a abril de 1971. Nótese cuidadosamente que
las ponderaciones de las cantidades q0 son fijas. Además, las q0 no son las cantidades de 1957-59,
sino las cantidades medias de 1960-61.
Para calcular el índice de precios de mayo, hay que encontrar el enlace relativo entre i =abril e
i + 1 = mayo:
P pi+1
(pi qa
pi
Ii,i+1 = P
pi q a
y luego calcular
Ii+1 = Ii · Ii,i+1
Ii = Ii−1 · Ii−1,i
= (1.10)(1.15) = 1.265 o 126.5
Dejemos que el cambio de i =abril a i + 1 =mayo sea Ii,i+1 = 105. Es decir, los precios
aumentaron un 5% de abril a mayo. Entonces el índice de precios de mayo es
Ii+1 = Ii · Ii,i+1
= (1.265)(1.05) = 1.328 o 132.8
Esto muestra que hay un aumento del 32.8 por ciento desde el periodo base 1957-59= 100 hasta
mayo de 1971.
256 Números Índice
Supongamos que los datos originales para construir dos índices de precios al consumidor, A y
B, son los siguientes:
P A B
1958: v0 = P p0 q0 = $5.0
1959: v1 = P p1 q0 = $5.5 P
1960: v2 = p2 q0 = $6.0 v3 = P p2 q1 = $10
1961: v4 = P p3 q1 = $13
1962: v5 = p4 q1 = $14
Sobre la base de estos datos originales, los índices de precios (de Laspeyres) son los siguientes
A B
v0 5
1958: = = 1.0
v0 5
v1 5.5
1959: = = 1.1
v0 5
v2 6.0 v3 10
1960: = = 1.2 = = 1.0
v0 5 v3 10
v4 13
1961: = = 1.3
v3 10
v5 14
1962: = = 1.4
v3 10
A B
1958: I58 = 100
1959: I59 = 110
1960: I60 = 120 ′ = 100
I60
1961: x1 ′ = 130
I61
1962: x2 ′ = 140
I62
Podemos suponer que los pesos se cambiaron en 1961 de q0 a q1 , y como resultado, se inició una
nueva serie B. Sin embargo, puede ser necesario un índice continuo. El problema de combinar dos
o más series de números índice que se solapan en una serie continua se denomina empalme.
El empalme es básicamente un problema de búsqueda de proporciones. Por ejemplo, el x1 de
1961 se encuentra mediante
120 100
=
x1 130
(11.21)
120 · 130
x1 = = 156
100
11.4. Empalme y desplazamiento de la base de los números del índice 257
Entonces los valores de la serie A son los que se muestran en la tabla adjunta.
y una comprobación mostrará que el aumento de 120 a 168 es del 40 por ciento, como exige la
serie B.
Podemos combinar este principio de empalme con la técnica del índice en cadena y mostrar
cómo las ponderaciones pueden cambiarse con tanta frecuencia como sea necesario. Para ilustrar
esto, reescribamos la ecuación (11.21) como
I60 100
= ′ (11.23)
x1 I61
Entonces x1 se convierte en
′ 1
x1 = I60 · I61 ·
100 (11.24)
1
= 120 · 130 · = 156
100
′ , (11.24) se convierte en
Sustituyendo los v originales por I61
′ 1
x1 = (I60 I61 ·
100
v4 1
= I60 · 100 · (11.25)
v3 100
1
= I60 · I60−61 ·
100
donde I60−61 es el enlace relativo de 1960 a 1961. Esto demuestra que el índice de precios de
1961 se obtiene multiplicando el índice de precios de 1960 160 por el relativo de enlace I60−61 . Esta
es la técnica del índice en cadena. La diferencia entre esto y lo que hemos hecho anteriormente
es que el relativo de enlace I60−61 utiliza ponderaciones de cantidad q1 que son diferentes de las
ponderaciones de I60 , que son q0 .
258 Números Índice
x1 130
=
x2 140
140
x2 = x1 ·
130
v5
v
= I61 v34
v3
v5
= I61
v4
v5 ′
Pero · 100 es el enlace relativo I61−62 . Así pues,
v4
′ 1
x2 = I61 · I61−62 ·
100
$14
= 156 · = 168
$13
Esto demuestra que x2 = I62 (que es el índice de precios de 1962) se encuentra multiplicando
′
el índice de precios de 1961 I61 por el relativo de enlace I61−62 .
Los resultados pueden resumirse ahora. Dos índices superpuestos se empalman mediante la
técnica de las proporciones. Una variación de esta técnica conduce a la técnica de los índices en
cadena. Para I61 = x1 , encontramos
′ 1
I61 = I60 · I60−61 ·
100
1
= 120 · 130 · = 156
100
donde I60 es el índice de precios de 1960, y I60−61 es el relativo al enlace utilizando las nuevas
ponderaciones de cantidad q1 . Para I62 = x2 , encontramos
′ 1
I62 = I61 · I61−62 ·
100
14
= 156 · = 168
13
′
donde I61 es el índice de precios de 1961 y I61−62 es el relativo de enlace. En nuestro ejemplo, el
′
relativo de enlace I61−62 utilizó las ponderaciones de cantidad q1 , pero como puede verse fácilmente,
puede ser un nuevo conjunto de ponderaciones.
Utilizando esta combinación de técnica de empalme y de índice de cadena, los pesos pueden
cambiarse tantas veces como sea necesario.
11.4. Empalme y desplazamiento de la base de los números del índice 259
Ejemplo No. 1
Empalme los dos conjuntos de índices que se muestran en la tabla adjunta.
Año Índice A Índice B
1955 100
1956 110
1957 130 100
1958 x1 120
1959 x2 125
1960 x3 130
130 100
=
x2 125
(11.27)
130 · 125
x2 = = 162.5
100
130 100
=
x3 130
(11.28)
130 · 130
x3 = = 169
100
Ejemplo No. 2
Empalme las dos series del Ejemplo 1, utilizando la técnica del índice de cadena. Para
utilizar la técnica del índice en cadena, primero hay que encontrar los relativos de enla-
ce. Dado que los índices de enlace son índices que utilizan el año anterior como base, se
pueden encontrar fácilmente a partir de la serie B de la siguiente manera:
′ 120
I57−58 = · 100 = 120
100
′ 125
I58−59 = · 100 = 104.17
120
′ 130
I59−60 = · 100 = 104
125
′ 1
I59 = x2 = I58 · I58−59 ·
100
1 125 1
= 130 · 120 · · 100 ·
100 120 100 (11.30)
1
= 130 · 125 ·
100
= 162.5
′ 1
I60 = x3 = I59 · I59−60 ·
100
1 130 1
= 130 · 125 · · 100 ·
100 125 100 (11.31)
1
= 130 · 130 ·
100
= 169
Ejemplo No. 3
Dados los datos de la tabla adjunta, encuentre x1 , x2 y x3 .
Año Índice A Enlaces relativos
1955 100
1956 110
1957 130
1958 x1 ′
I57−58 = 105
1959 x2 ′
I58−59 = 90
1960 x3 ′
I59−60 = 120
′
1. El I57−58 = 105 muestra que hay un aumento del 5 por ciento en los precios de 1957 a 1958.
′
Podemos suponer que se utilizan nuevas ponderaciones para calcular I57−58 . Entonces x1 es
′ 1
I58 = x1 = I57 · I57−58 ·
100
1
= 130 · 105 · = 136.5
100
′
2. I58−59 = 90 muestra que hay una disminución del 10 por ciento de 1958 a 1959. Podemos
suponer que se utiliza un conjunto diferente de ponderaciones. Entonces
′ 1
I59 = x2 = I58 · I58−59 ·
100
1
= 136.5 · 90 · = 122.85
100
′
3. I59−60 = 120 muestra que hay un aumento del 20 por ciento en los precios de 1959 a 1960.
Podemos suponer que se utiliza un conjunto diferente de ponderaciones. Entonces
′ 1
I60 = x3 = I59 · I59−60 ·
100
1
= 122.85 · 120 · = 147.42
100
11.4. Empalme y desplazamiento de la base de los números del índice 261
Ejemplo No. 4
El ejemplo 3 puede descomponerse como se muestra en la tabla.
Índice Índice Índice Índice
Año A B C D
1955 100
1956 110
1957 130 100
1958 x1 105 100
1959 x2 – 90 100
1960 x3 – – 120
Lo que hemos hecho es mostrar los parientes de enlace como series B, C y D, y el problema de
encontrar x1 , x2 y x3 es simplemente repetir la técnica de empalme tres veces. Los resultados son,
por supuesto, los mismos que la técnica de la cadena del ejemplo 3. Podemos suponer que los pesos
son diferentes para cada serie.
100
x1 = · 100 = 20
500
200
x2 = · 100 = 40
500
100
x1 = · 100 = 50
200
500
x2 = · 100 = 250
200
Una comprobación mostrará que la relación entre los números del índice de cada serie es la
misma, a saber
1:2:5
El proceso de ajustar los precios y la renta mediante un índice de precios, y expresarlos en tér-
minos de dólares del año base, se denomina deflactar los precios y el ingreso.
Lo primero que hay que explicar es la relación entre el valor de un dólar y el nivel de precios.
Un dólar vale lo que puede comprar. Por lo tanto, cuando los precios son bajos, el dólar tiene más
valor; cuando los precios son altos, tiene menos valor. La gente dice: “El valor de una moneda de
diez centavos es sólo la mitad de lo que solía ser; ahora sólo podemos comprar una Coca-Cola con
una moneda de diez centavos”. Esta afirmación implica que si el nivel general de precios se duplica,
el valor real del dinero cae a la mitad de su valor anterior. Además, para una mercancía concreta,
como una Coca-Cola, si su precio se duplica, el valor del dinero con respecto a la Coca-Cola ha
caído a la mitad. Si los precios se triplican, el valor del dinero será un tercio de lo que era. Por
ejemplo, supongamos que un índice de precios es de 100 para 1950 y de 200 para 1960. Como el
nivel de precios se ha duplicado de 1950 a 1960, el dólar de 1960 sólo vale la mitad que el de 1950.
O podemos decir que, dado un billete de dólar, se podía comprar el doble en 1950 que en 1960. Lo
que hay que tener en cuenta es que una misma unidad de dólar ha sido etiquetada como dólar de
1950 o dólar de 1960 según su valor, que viene determinado por el nivel de precios.
Supongamos que los precios del pan y de la Coca-Cola son los que aparecen en la tabla siguiente.
Como el índice de precios de 200 indica que el nivel de precios se ha duplicado, si los precios
de 1960 se dividen por el 200% (es decir, por 2), los precios de 1960 se expresan en términos de los
precios originales de 1950. O podemos decir que los precios de la Coca-Cola y del pan se expresan
en términos de dólares de 1950. Encontramos
Coca-Cola : 10 ÷ 200% = 5 ¢
Pan : 30 ÷ 200% = 15 ¢
Precios defactados
Año Coca-Cola Pan Nivel de Precio Coca-Cola Pan
1950 5¢ 10 ¢ 100
1960 10 ¢ 30 ¢ 200 5¢ 15 ¢
11.5. Deflactar los precios y el ingreso 263
La diferencia de 10 ¢y 15 ¢muestra el aumento del valor “real” del pan (o el valor relativo del
pan en términos de otras mercancías) debido a un cambio (aumento) en la demanda relativa de pan
en 1960. Esto significa simplemente que antes sólo se demandaban 2 Coca-Colas (1 Coca-Cola = 5
¢) por 1 barra de pan (= 10 ¢), pero ahora se demandan 3 Coca-Colas (1 Coca-Cola ahora = 10 ¢)
por 1 barra de pan (1 barra de pan ahora = 30 ¢).
El aumento del valor real del pan puede medirse por la diferencia
Ahora podemos resumir nuestra discusión: El proceso de ajustar los precios o la renta por un
índice de precios y expresarlos en términos de dólares del año base se llama deflactar los precios y
la renta. El procedimiento consiste en dividir los precios por el índice de precios.
Ejemplo No. 1
Teniendo en cuenta los datos de la tabla para la leche y un índice de precios al consumi-
dor, deflactar los precios de la leche.
Precio de Índice Precios
Año la Leche de Precio Deflactados
1950 15 ¢ 100 15 ¢
1955 22 ¢ 110 20 ¢
1960 30 ¢ 115 25 ¢
Los precios deflactados se obtienen dividiendo los precios de la leche entre los índices de precios
correspondientes. Por ejemplo
22 ¢ ÷ 110% = 20 ¢.
20 ¢ − 15 ¢ = 5 ¢
26 ¢ − 15 ¢ = 11 ¢
264 Números Índice
Ejemplo No. 2
Dados los datos de la tabla para los salarios y un índice de precios al consumidor, halle
si se ha producido un aumento de los salarios reales.
de Índice Salarios
Año Salarios de Precio reales
1950 $0.90 100 $0.90
1955 1.20 130 0.923
1960 1.60 180 0.889
El salario de 1955 de 1.20 dólares en términos de dólares de 1950 era de 0.923 dólares. Esto significa
que hubo un aumento de 92.3 − 90 = 2.30¢en los salarios reales en 1955.
El salario de 1960, de 1.60 dólares en términos de 1950, fue de 0.889 dólares. Esto significa que
hubo una disminución de 90 − 88.9 = 1.1¢en los salarios reales en 1960 en comparación con los
salarios de 1950.
Ejemplo No. 3
La renta media por persona (renta per cápita) y un índice de precios al consumidor se
dan en la tabla. ¿Se ha producido un aumento de la renta real?
Índice Ingreso
Año Ingreso de precio real
1950 $1200 100 $1200
1955 $1500 110 $1364
1960 $1800 120 $1500
El ingreso de $1 500 de 1955 en términos de dólares de 1950 fue de $1 364. Hubo un aumento
real de
$1 364 − 1 200 = $164
Cuando se comparan los índices de precios al consumidor de, por ejemplo, 1930 y 1960, los
cambios en los artículos y en la calidad de los bienes que se compran hacen que estas comparaciones
11.6. Comentarios sobre los índices de precios 265
sean difíciles, si no carentes de sentido. En 1930 no había supermercados con la gran variedad de
productos que había en 1960. El café instantáneo, los detergentes y el zumo de naranja ya preparado
son sólo algunas de las necesidades de 1960 que no existían en 1930. Además, se han producido
grandes cambios en la calidad de los productos.
Los modos de vida en Montana y en el sur de California difieren tanto que un índice de consumo
global para el conjunto de Estados Unidos resulta cuestionable. Por ejemplo, en el sur de California
probablemente no se necesite ropa de invierno, mientras que en Montana probablemente sea una
necesidad.
El proceso de recogida de datos para el índice de precios al consumidor requiere, en primer lugar,
la selección de una muestra de ciudades; en segundo lugar, la selección de una muestra de familias;
en tercer lugar, la selección de los artículos cuyos precios se van a comprobar; en cuarto lugar, la
selección de las tiendas; en quinto lugar, la selección de los días de compra; en sexto lugar, cuando
hay varios precios, qué precio utilizar, etc. Una vez seleccionadas las familias, se les pide que lleven
un registro de los artículos que compran y de los precios. La Oficina de Estadísticas Laborales recoge
estos datos y calcula el índice de precios al consumidor. En las cinco grandes ciudades (Nueva York,
Chicago, Los Ángeles, Detroit y Filadelfia) los datos se recogen una vez al mes, pero en ciudades
pequeñas como Seattle (Washington) o Madison (Wisconsin) se hace una vez cada cuatro meses.
Además, sólo cubre a los oficinistas y a los asalariados urbanos, y excluye a los agricultores.
Evidentemente, este procedimiento permite que se produzcan diversos errores y los datos no
son muy completos.
Hasta ahora hemos utilizado el término “año base” o “periodo base” a partir del cual se miden las
variaciones de los precios. Por ejemplo, el índice de precios recibidos y pagados por los agricultores
es P
pn q24−29
In = P
p24−29 q24−29
Como hemos dicho antes, el periodo base se desplazó a 1910 - 14= 100 por razones histórico-
económicas. Pero, como muestra la fórmula, las ponderaciones de las cantidades son la media de
1924-19291 , que es diferente de la base 1910 - 14 = 100. Para evitar confusiones, el término base
de pesos se utiliza para indicar el periodo del que se seleccionan los pesos de cantidad (o cualquier
otro tipo de peso). En nuestro ejemplo, la base de peso es 1924-1929. El término base de referencia
se utiliza para indicar el período a partir del cual se miden los cambios. En el presente ejemplo, es
1910 - 14 = 100.
Las ponderaciones, como las cuantitativas, se seleccionan de forma que sean representativas del
periodo cubierto por el índice de precios. Por ejemplo, de 1957 a 1970, la canasta de la compra
de 1960 - 61 puede ser la canasta de la compra adecuada. Pero a efectos de análisis económico y
empresarial, y también por conveniencia de comparación con otros índices, 1957 - 59 = 100 puede
ser la base de referencia adecuada.
266 Números Índice
Al leer la literatura relativa a los números de índice, el término “período base” puede utilizarse
para referirse a la base de ponderación o a la base de referencia. Cuando ambos se refieren al mismo
año o periodo, no hay confusión. Pero en algunos casos en los que difieren y se utiliza el mismo
término de periodo base, hay que entender que el término puede tener dos significados diferentes.
En 1962, varios índices económicos de propósito general publicados por el Gobierno Federal
cambiaron su base de referencia de 1947 - 49 = 100 a 1957 - 59 = 100 porque era conveniente
actualizar los periodos de referencia. El índice de precios al por mayor mencionado anteriormente
era un ejemplo.
El índice de precios al consumidor que mencionamos en la página 316 también cambió la base
de referencia de 1947 - 49 = 100 a 1957-59 = 100. Sin embargo, la base de ponderación de 1949 -
50 se utilizó para calcular los índices de 1950 - 52, y la base de ponderación de 1952 se utilizó para
calcular los índices de 1953 a 1963. A partir de 1964 se utiliza una nueva base de ponderación de
1960 - 61 para calcular los índices.
El estadístico I. Fisher1 propuso dos criterios para un buen número de índice. Uno se denomina
prueba de inversión temporal y el segundo, prueba de inversión de factores.
La prueba de inversión temporal se explica como sigue: Sea I0n un índice para el año n basado
en el año 0, y In0 el índice para el año 0 basado en el año n. Entonces, si
I0n · In0 = I
satisface la prueba de inversión temporal. Por ejemplo, considere el índice de precios agregativo
simple que se muestra en la tabla siguiente.
Producto p0 p1
Pan 10 ¢ 20¢
Leche 15 ¢ 25¢
Mantequilla 25 ¢ 35¢
50 ¢ 80¢
1
I. Fisher, The Making of Index Numbers, 3a edición, Nueva York: Houghton Mifflin Co., 1927.
11.6. Comentarios sobre los índices de precios 267
Entonces
I01 · I10 = 1.6 · 0.625 = 1
y satisface la prueba de inversión temporal.
Una comprobación mostrará que los índices de Laspeyres y Paasche y la mayoría de los demás
índices no satisfacen este criterio.
La prueba de la inversión de los factores requiere el conocimiento de los índices de cantidad,
que se analizan en la siguiente sección, pero en este punto se dará una explicación sencilla. Sea P
un índice de precios que muestre la variación de los precios del año 0 al n, y sea Q un índice de
cantidades que muestre la variación de las cantidades del año 0 al n. Sabemos que
La prueba de inversión de los factores requiere que P · Q muestre el cambio de valores del año 0 al
año n. En símbolos, requiere P
pn q n
P ·Q= P
p0 q 0
P P
donde p0 q0 muestra la cantidad de gastos en el año 0 y pn qn muestra la cantidad de gastos
en el año n. Dado que la fórmula muestra los cambios de valor, puede llamarse índice de valor. Por
ejemplo, supongamos
P que p son los precios P de las importaciones y q son las cantidades importadas;
supongamos que p0 q0 = $10.000.000 y pn qn = $15.000.000. Entonces
P
p q 15
P n n = = 1.5 o 150
p0 q 0 10
muestra en términos de valor un aumento de las importaciones del 50% respecto al año base.
Muy pocos índices satisfacen esta prueba de inversión de factores, pero uno que lo hace es el
número de índice ideal de Fisher.
El número índice ideal es la media geométrica del número índice de Laspeyres y Paasche. Así
pues, definamos primero el número índice medio geométrico. Es la media geométrica de los parien-
tes no ponderados o ponderados de los precios (o cualquier otro elemento que se esté midiendo).
Consideremos como ejemplo los datos que figuran en el cuadro adjunto.
1947-1949 8/1/60
Producto p0 p1 p1 /p0 log(p1 /p0 )
Café (lb) 40¢ 44¢ 1.10 0.0414
Cacao (lb) 20¢ 24¢ 1.20 0.0792
Azucar (lb) 10¢ 11¢ 1.10 0.0414
0.1620
268 Números Índice
como exige la prueba de inversión temporal. Una ventaja de este índice es que los cambios en
los precios son simétricos. Con esto queremos decir que si los precios del café se duplican y los del
azúcar caen a la mitad de su nivel anterior, se compensarán mutuamente.
El índice diario de precios del mercado al contado, publicado por el Departmento de Trabajo,
Oficina de Estadísticas Laborales, se calcula mediante la media geométrica no ponderada del precio
relativo de los 22 productos básicos, que incluyen (1) lona, (2) mantequilla, (3) cacao en grano, (4)
chatarra de cobre, (5) maíz (6) semilla de algodón, (7) aceite de semilla de algodón, (8) pieles, (9)
cerdos, (10) manteca de cerdo, (11) chatarra de plomo, (12) tela de imprenta, (13) colofonia, (14)
caucho, (15) chatarra de acero, (16) bueyes, (17) azúcar, (18) sebo, (19) estaño, (20) trigo, (21) lana,
(22) zinc. Además de las publicaciones de la Oficina de Estadísticas Laborales, se pueden encontrar
datos sobre los precios al contado de las materias primas y los índices de materias primas en el New
York Times y otros periódicos.
Debido a su sensibilidad a las condiciones económicas actuales y futuras, el Índice Diario de
Precios del Mercado al Contado es utilizado por algunos economistas como indicador principal para
prever los cambios comerciales.
Recordemos que L utiliza las cantidades del año base q0 como pesos, y P utiliza las cantidades del
año actual qn como pesos.
Sea L′ el índice de Laspeyres que muestra el cambio desde el año n hasta el 0 y P ′ el índice de
Paasche que muestra el cambio desde el año n hasta el 0. Entonces
√ √
IF · IF′ = L · P · L′ · P ′
sP P sP P
pn q 0 pn q n p0 q n p0 q 0
= P ·P · P ·P
p0 q 0 p0 q n pn q n pn q 0
=1
y satisface la prueba de inversión temporal.
Para comprobar la prueba de inversión del factor, el índice de precios debe ser
√
PF = L · P
donde PF indica el índice de precios ideal de Fisher. Sea
sP P
q n p0 q n pn
QF = P ·P
q 0 p0 q 0 pn
sea el índice de cantidad ideal que corresponde a PF . Entonces
sP P sP P
pn q 0 pn q n q n p0 q n pn
PF · Q F = P · P · P ·P
p0 q 0 p0 q n q 0 p0 q 0 pn
P
pn q n
= P
p0 q 0
que es el índice de valor; por lo tanto, satisface la prueba de inversión de los factores.
Los índices mensuales de exportación e importación publicados por la Oficina de Comercio Ex-
terior del Departamento de Comercio de EE.UU. utilizan el número del índice ideal de Fisher para
calcular los índices de cantidad y de valor unitario (precios), y a partir de estos dos, calcula el índice
de valor.
Las fórmulas son similares a las anteriores, en las que los p son los valores unitarios y los q
son las cantidades (importadas o exportadas). Los índices de precios y cantidades por separado
son necesarios debido a las grandes fluctuaciones de precios y cantidades en las importaciones y
exportaciones. El Cuadro11.3 muestra los índices extraídos de la Encuesta de Negocios Actuales de
junio de 1961. Una comprobación mostrará que
Cantidad · Valor unitario = valor
y, por ejemplo, utilizando la tabla 11.3
336 · 220 = 739
donde las cifras están en términos porcentuales.
Los índices de cantidad miden las variaciones de las cantidades a partir de un periodo base (base
de referencia). Se discutirán dos tipos de índices de cantidad: el tipo agregativo ponderado y el tipo
relativo ponderado. El tipo agregativo ponderado se clasifica en tipo Laspeyres, tipo Paasche y otros
tipos.
270 Números Índice
Abril Mayo
Exportaciones
Cantidad 336 334
Valor 739 733
Valor unitario 220 219
Importaciones
Cantidad 221 221
Valor 610 612
Valor unitario 276 277
El numerador muestra el valor de los bienes para el año n. El denominador muestra el valor de
los bienes para el año base. Como los precios p0 se mantienen fijos como ponderaciones, cualquier
cambio se debe a las variaciones de las cantidades. Por ejemplo, supongamos que
P
q p $20
P n 0 = = 2.0 o 200
q 0 p0 $10
El valor de los bienes en el año n aumenta en un 100% con respecto al año base. Como los precios
son los mismos para ambos años, la cantidad de bienes debe haberse duplicado.
Observe cuidadosamente que cuando decimos que la cantidad de bienes se ha duplicado, no
queremos decir necesariamente que cada bien se haya duplicado en cantidad. Algunos pueden haber
aumentado más del 100 por ciento y otros menos del 100 por ciento; la afirmación sólo significa que
ha habido un aumento, en promedio, del 100 por ciento.
Ejemplo No. 1
Dados los datos de la tabla, relativos a la producción y a los precios, construya un índice
de cantidad del tipo Laspeyres.
1958 1959 1960 1958
Producto q0 q1 q2 p0 q 0 p0 q 1 p0 q 2 p0
Silla 20 30 30 $5 $100 $150 $150
Escritorio 10 20 30 8 80 160 240
Radio 30 40 30 10 300 400 500
P
q 1 p0 710
I59 = P = = 1.479 o 147.9 (11.34)
q 0 p0 480
P
q 2 p0 890
I60 =P = = 1.854 o 185.4 (11.35)
q 0 p0 480
I59 = 1.479 indica que el importe de los gastos de 1959 para los bienes es un 47.9 por ciento mayor
que el nivel de 1938. Pero, como los precios son los mismos, el cambio se debe a la variación de la
cantidad de los bienes. Es decir, hay un aumento del 47.9 por ciento en la cantidad de bienes sobre
el nivel de 1958.
Ejemplo No. 2
Dados los datos de la tabla, relativos a la producción y a los precios, construya un índice
de cantidad de tipo Paasche.
1958 1959 1960 1959 1960
Producto q0 q1 q2 p1 p2 q 0 p1 q 1 p1 q 0 p2 q 2 p2
Silla 20 30 30 $6 $8 $120 $180 $160 $240
Escritorio 10 20 30 10 12 100 200 1200 360
Radio 30 40 50 12 15 360 480 450 750
$ 580 $860 $730 $1350
P
q 0 p0
I58 = P = 1.0 o 100 (11.37)
q 0 p0
P
q 1 p1
I59 = P = 1.483 o 148.3 (11.38)
q 0 p1
P
q 2 p2
I60 = P = 1.849 o 184.9 (11.39)
q 0 p2
I59 = 1.483 muestra que hay un aumento del 48.3% en la cantidad de 1958 a 1959. Obsérvese
cuidadosamente que no se está comparando I59 = 1.483 con I58 = 1.0. Como los pesos de 1958 son
p0 y los de 1959
P son p1 , no se pueden P
comparar I58 y I59 . Lo que se está comparando es el importe
de los gastos q0 p1 = 580 dólares y q1 p1 = 860 dólares; y I59 = 1.483 muestra que ha habido
un aumento del 48.3 por ciento. Pero, como p1 , se mantiene fijo, el cambio se debe a los cambios de
cantidad. Por lo tanto, concluimos que hay un aumento del 48.3 por ciento en las cantidades.
I60 = 1.849 se interpreta de forma similar. Obsérvese que I59 = 1.483 y I60 = 1.849 no pueden
compararse porque se han utilizado ponderaciones de precios diferentes.
272 Números Índice
De forma similar a las variaciones de los índices de precios agregados ponderados, las variacio-
nes de los índices de cantidad se obtienen utilizando los precios medios y las cantidades medias del
año base. Un ejemplo es el Índice Mensual de Producción Industrial de la Reserva Federal (abreviado
IMP): Es P
q p
P n 47
q47−49 p47
donde las cantidades del año base son la media de 1947-1949.
La construcción de otras variaciones se deja al lector.
donde qn /q0 son las cantidades relativas y las w son las ponderaciones. La interpretación es
análoga a la del índice de precios relativos ponderados.
Los relativos de cantidad qn /q0 muestran el aumento proporcional de la cantidad desde el año
base, y a cada bien se le da el mismo peso. La fórmula del índice (11.40) es una media ponderada de
estas cantidades relativas.
Como puede verse fácilmente, el principal problema es la selección de las ponderaciones. El
razonamiento que seguimos es que las ponderaciones w deben indicar la importancia relativa de
las cantidades. Esto implica, a su vez, que las ponderaciones dependerán del tipo de cambios de
cantidad que queramos medir. Por ejemplo, si nos interesan los cambios en la producción industrial,
las ponderaciones adecuadas pueden ser el valor añadido. Si nos interesan los cambios en la carga de
los vagones de mercancías, las ponderaciones pueden ser los tonelajes. Si nos interesan los cambios
en la producción de huevos, las ponderaciones pueden ser el número de cajas.
Esta flexibilidad en la selección de las ponderaciones confiere al índice de cantidad relativa pon-
derada un campo de aplicación más amplio que el del índice de cantidad agregada ponderada. De
hecho, las fórmulas de tipo P Laspeyres y Paasche son casos especiales
P de la fórmula (11.40), donde
las ponderaciones son w = q0 p0 para el tipo Laspeyres y w = q0 pn para el tipo Paasche.
Veamos primero un ejemplo de cómo se utiliza la fórmula (11.40), y luego discutiremos algunos
de los problemas en la determinación de los pesos.
Ejemplo No. 3
Dados los datos de la tabla adjunta, encuentre el índice de cantidad relativa ponderado.
1958 1959 1960
Producto q0 q1 q2 p0 q 0 p0 q1 /q0 q2 /q0
Silla 20 30 30 $5 $100 30/20 30/20
Escritorio 10 20 30 8 80 20/10 30/10
Radio 30 40 50 10 300 40/30 50/30
$480
11.7. Números del índice de cantidad 273
Como ilustración de algunos de los problemas que conlleva la determinación de las pondera-
ciones, se analiza brevemente la IMP. El IMP mide la evolución de la producción de las industrias
manufactureras y mineras. La última revisión del índice, en 1959, amplió su cobertura para incluir
la producción de servicios públicos. El índice global se subdivide en 207 series mensuales indivi-
duales. La base de ponderación es 1957. La base de referencia, que era 1947-49 = 100, se cambió a
1957 = 100, pero en 1962 se volvió a cambiar a 1957-59= 100 para mantenerlo uniforme con otros
índices económicos de propósito general del Gobierno Federal.
Nuestro principal interés aquí es ver cómo se han determinado las ponderaciones. El índice en
forma esquemática es
P qn
w
q0
I= P
w
y mide las variaciones de la producción. Las ponderaciones w, por tanto, deben indicar la impor-
tancia relativa de los productos individuales. Esto se consigue contrastando la parte relativa de la
producción de un producto (por ejemplo, una silla) con la producción total. Para encontrar esta
cuota relativa, primero hay que decidir qué se entiende por producción total.
A primera vista, puede parecer que lo único que hay que hacer es sumar las distintas produc-
ciones. Pero, ¿qué ocurre, por ejemplo, cuando se suma la producción de madera, de sillas, de es-
critorios, etc., en términos de valor? Una parte de la madera se utiliza para las sillas, otra para los
escritorios, etc. Por lo tanto, una simple suma de estas salidas implicará una doble contabilidad. Es
decir, la madera se contará dos veces, una como producción de madera y otra como parte de los
escritorios y las sillas. Para evitarlo, se ha desarrollado el concepto de valor añadido. Ilustrémoslo
en el Cuadro 11.4 con la producción de sillas.
Asignaciones Fuentes
Madera $5 Venta de la silla $10
Salarios 2
Alquiler 1
Interés 1
Ganancia 1
Asignación total de $10 Valor total de $10
valor de producción producción
Una empresa que produce sillas adquiere madera (denominada bienes intermedios) y, emplean-
do factores de producción (trabajo, tierra, capital y empresario), produce sillas. El desglose de esta
asignación del valor de la producción se muestra en el lado izquierdo del Cuadro 11.4. La silla se
vende y la empresa realiza el valor total de la producción. Por lo tanto, el valor neto que esta empre-
sa añade a la madera para producir una silla es la diferencia entre el valor total de la producción y
el valor de los productos intermedios. Esto se muestra en el Cuadro 11.5. La producción total, por
tanto, es la suma del valor añadido de todos los bienes. A grandes rasgos, es la suma de los pagos a
los factores, es decir, salarios, rentas, intereses y beneficios.
Lo que queremos hacer ahora es utilizar este concepto de valor añadido para determinar las
cuotas relativas de una producción individual frente a la producción total. Para ello, supongamos
que el valor añadido de las sillas, los escritorios y los radios en nuestro ejemplo son los que figuran
en la tabla siguiente.
11.7. Números del índice de cantidad 275
Asignaciones Fuentes
Mano de obra $2 Venta de la silla $10
Local 1
Capital 1
Ganancia 1 Menos: Madera 5
Asignación total de $5 Valor total de $5
valor de producción producción
Valor
1958 1959 1960 Agregado
Producto q0 q1 q2 q 0 p0 q1 /q0 q2 /q0
Sillas 20 30 30 $40 30/20 30/20
Escritorios 10 20 30 30 20/10 30/10
Radios 20 30 50 120 40/30 50/30
$190
El q0 p0 muestra el valor añadido para el año base 1958. Para las sillas, por ejemplo
q0 p0 = $40
$40
p0 = = $2.00 por silla
20
Esto muestra que el valor añadido por silla es de 2 dólares. Obsérvese bien que el p0 no es el precio
de las sillas. De forma similar, el valor añadido por escritorio y radio se obtiene como
$30
p0 = = $3.00 por escritorio
10
$120
p0 = = $4.00 por radio
30
El valor añadido total es de 190 dólares, como muestra la tabla. Por lo tanto, las cuotas relativas
de las sillas, los escritorios y las radios son
q01 p01 40
w1 = P =
q 0 p0 190
q02 p02 30
w2 = P =
q 0 p0 190
q03 p03 120
w3 = P =
q 0 p0 190
X 40 30 120 40
w = w1 + w2 + w3 = + + = = 1.00
190 190 190 190
276 Números Índice
P q2 q 0 p0
P
q0 q 0 p0
I60 =
P q 0 p0
P
q 0 p0
30 40 30 30 50 120
= + +
20 190 10 190 30 190
= 1.842 o 184.2
La forma de (11.42) es la misma que la del índice de cantidad de Laspeyres (??), pero la diferencia
es que en (11.42) las p0 muestran el valor añadido y no el precio.
El IMP se utilizó para ilustrar cómo se determinan las ponderaciones de este índice específico.
El Índice de Producción de Bienes de Consumo Duraderos, publicado por el Sistema de la Reser-
va Federal, utiliza el valor bruto de producción de la fábrica para las ponderaciones; los Índices de
Producción y Comercialización Agrícola, publicados por el Departamento de Agricultura de EE.UU.,
utilizan los precios fijos como ponderaciones; el Índice de Carga de Mercancías, publicado por el Sis-
tema de la Reserva Federal, utiliza los ingresos para calcular las ponderaciones, y así sucesivamente.
Las ponderaciones que se utilizan para cualquier índice cuantitativo específico suelen determinarse
como un compromiso entre un análisis de lo que se va a medir y la disponibilidad de datos.
CAPÍTULO 12
Series Temporales
En este capítulo utilizaremos ecuaciones y gráficos para describir líneas rectas. Así pues, repa-
semos primero algunas propiedades algebraicas elementales de las rectas. Los que ya estén familia-
rizados con estos temas pueden saltarse el repaso.
12.1 Repaso
Y = a + bX
Por ejemplo,
Y = 1 + 2X
donde X se llama la variable independiente e Y se llama la variable descendente. Completa los valores
de Y que corresponden a los valores de X en la tabla de la página siguiente. A continuación, traza
los puntos en la gráfica.
En la figura, la línea recta corta el eje Y en el punto Y = 1. Esto se llama intersección Y. Esto se
llama la intersección Y y la a = 1 en la ecuación muestra esta intersección. El b = 2 de la ecuación
muestra la pendiente de la curva. Esto significa que cuando X aumenta en 1 unidad, Y aumenta en
2 unidades. Si b = −2, entonces significa que Y disminuirá en 2 unidades cuando X aumente en 1
unidad, y la curva tendrá una pendiente hacia abajo.
X -2 -1 0 1 2
Y -3 -1 1 3 5
277
278 Series Temporales
Y
6
5
4
3
2
1
X
−4 −3 −2 −1 1 2 3 4 5
−1
−2
−3
−4
−5
−6
(1) 12 = 5a + 13b
(2) 74 = 15a + 58b
Ecuación 2 − Ecuación 1 · 3
74 = 15a + 58b
−36 = −15a − 39b
38 = 0 + 19b
b=2
a = −2.8
12 B
(2, 3)
9
6
A
3
(6, 11)
2 4 6
12.2. Introducción 279
Supongamos que tenemos dos puntos A y B en una gráfica. Queremos encontrar la ecuación
de la recta que pasa por estos dos puntos. La ecuación de la recta es
Y = a + bX
11 = a + 6b
11 = a + 6b
−3 = −a − 2b
8 = 0 + 4b
b=2
a = −1
Y = −1 + 2X
12.2 Introducción
Siempre que uno observa una situación económica, ya sea de una empresa, de una industria o
de las condiciones económicas de los Estados Unidos en su conjunto, observará un flujo incesante
de actividad económica. El estadístico económico desea describirlo en “cifras”, y para ello obtiene un
conjunto de observaciones (relativas a la actividad económica, etc.) realizadas en diferentes períodos
de tiempo. Esto se denomina serie temporal.
Los estadísticos han clasificado estas actividades económicas en cuatro elementos:
1. La tendencia (T).
En los capítulos 12 y 13, primero daremos una explicación tipo libro de cocina de varios métodos
para encontrar T , S, C e I. Y después de obtener esta base técnica, discutiremos varios aspectos
problemáticos de las series temporales en la sección 13.7. Se ruega al estudiante que abarque con
paciencia estas diversas técnicas y que se reserve el juicio sobre los méritos y deméritos de estas
280 Series Temporales
técnicas hasta que llegue a la sección 13.7. En este capítulo trataremos las distintas técnicas para
encontrar una linea de tendencia.
La tendencia es el movimiento a largo plazo de una serie temporal. Por ejemplo, la tendencia del
crecimiento de la renta nacional es su movimiento a largo plazo, por ejemplo, durante un período de
10 a 20 años o más. En el caso de Estados Unidos, este movimiento a largo plazo muestra un aumento
gradual de aproximadamente el 3% anual. Otros ejemplos con los que el estudiante probablemente
esté familiarizado son el crecimiento de la población, la producción industrial, la energía, etc.
Hay varios tipos de líneas de tendencia para expresar los diferentes modos de crecimiento. Por
ejemplo, el crecimiento de la productividad del trabajo en Estados Unidos se aproxima a una línea
recta con pendiente ascendente, por lo que se puede utilizar una línea recta. Cuando las moscas
de la fruta se colocan en un pequeño recipiente, la población de moscas crece geométricamente al
principio, y a medida que se agolpa en el recipiente, disminuye gradualmente. El crecimiento de
una industria en una región determinada o el crecimiento de la industria de la televisión presentan
características similares, ya que crecen rápidamente al principio y luego disminuyen. Este tipo de
tendencia se muestra en la curva de Pearl-Reed. Otros tipos de líneas de tendencia son la parabólica,
la logarítmica, la de Gompertz y otras de menor importancia. En el presente capítulo, sólo trataremos
la línea de tendencia recta. Los otros tipos de líneas de tendencia se tratan en el capítulo 24.
Nos interesa encontrar y expresar una tendencia en términos de una ecuación, y también mos-
trarla gráficamente. Con unos datos dados, se traza un gráfico, y el problema se convierte en ajustar
una línea recta a los datos para mostrar el crecimiento gradual a largo plazo de la serie temporal.
Existen varios métodos para ajustar una línea recta, como el método a mano alzada, el método de las
medias, el método de las medias móviles y el método de los mínimos cuadrados. En este capítulo nos
interesa principalmente desarrollar el método de los mínimos cuadrados. El método a mano alzada,
el método de los semiproductos y el método de las medias móviles servirán como preliminares de
este método. El método de las medias móviles se vuelve a tratar con más detalle en el capítulo 24.
El método más sencillo para encontrar una línea de tendencia cuando se da un conjunto de datos
de series temporales es el método a mano alzada. El procedimiento consiste en trazar la serie tem-
poral en un gráfico y, a continuación, mediante la observación, ajustar una línea recta a través de los
puntos trazados de forma que la línea recta muestre la tendencia de la serie temporal. Ilustrémoslo
con los datos hipotéticos de la tabla adjunta.
Sea Y la producción anual de alguna mercancía en millones de libras. Los puntos se representan
en la Figura 12.1. Trazamos una línea por observación. Obviamente, ésta no es una forma precisa de
ajustar una línea recta o una curva a los datos, pero en algunos casos puede interesarnos, por ejemplo,
tener primero una idea aproximada de si debe ajustarse una línea recta o algún otro tipo de curva
antes de utilizar métodos más refinados. En estos casos, la línea puede resultar útil. Supongamos
12.3. El método a mano alzada 281
30
25
20
15
10
5
1950 1951 1952 1953 1954 1955 1956 X
0 1 2 3 4 5 6
Figura 12.1
que la línea de tendencia pasa por los puntos de 1950 y 1955. Entonces el problema de encontrar la
línea de tendencia se convierte en uno de encontrar la ecuación de la línea recta que pasa por los
dos puntos de 1950 y 1955.
Si la línea que se dibuja no pasa por ninguno de los puntos trazados, el procedimiento es selec-
cionar dos puntos de la recta, determinar sus coordenadas gráficamente y luego calcular la ecuación.
Una característica de las series temporales es que los datos se dan en orden de tiempo. En nuestro
ejemplo, se parte de 1950 y se llega hasta 1955 en intervalos de un año. Esto nos permite asignar una
secuencia de números a los datos. Empecemos en 1950, y llamémoslo el origen, y designémoslo como
cero. A continuación, 1951 es el 1, 1952 es el 2, y así sucesivamente, como se muestra en la tabla y
también en la Figura 12.1. Matemáticamente, simplemente estamos desplazando el origen de 0 a
1950 y dejando que 1950 se convierta en el nuevo origen. Es evidente que el origen puede situarse
en cualquier año. Si dejamos que 1951 sea el origen, entonces 1950 es −1, 1951 es 0, 1952 es 1, 1953
es 2, y así sucesivamente.
Las coordenadas de los dos puntos seleccionados son ahora (0, 5) y (5, 23). Sustituyendo los
valores de estas coordenadas en la ecuación de una línea recta como se muestra en la sección 12.1,
encontramos
5 = a + 0b
23 = a + 5b
Resolviendo estas dos ecuaciones se obtiene a = 5, b = 3.6. Por lo tanto, la ecuación de la línea
de tendencia es
Yc = 5 + 3.6X
Origen: 7/1/50
X : unidades de 1 año
Nótese que Yc tiene un subíndice c, que indica que los valores de Y obtenidos de la ecuación
no son los valores reales, sino que son valores calculados o estimados. Obsérvese también que la
ecuación sólo tiene sentido cuando se especifican el origen y las unidades de X. Es habitual tomar
la mitad del año, es decir, el 1 de julio, como punto para representar los datos de ese año. Por ejemplo,
cuando Y = 5 000 000 lb. se traza en X = 0 (1950), este punto indica el 7/1/50.
282 Series Temporales
Yc = 5 + (3.6)(0) = 5
lo que indica que la producción estimada por la línea de tendencia es de 5 000 000 lb. En este caso, la
producción estimada Yc = 5 000 000 lb. es igual a la producción real de Y50 = 5 000 000 lb. Cuando
X = 3 (1953),
Yc = 5 + (3.6)(3) = 15.8
La producción real de Y53 = 15, y hay una discrepancia de
b = 3.6 muestra que el aumento anual estimado de la producción es de 3 600 000 lb.
El método de los semipromedios divide la serie de tiempo en dos partes, encuentra el promedio
de cada parte y luego ajusta una línea de tendencia a través de estos promedios. Utilizando los datos
hipotéticos del apartado 12.3, ilustremos este método.
Año X Y
1950 0 5
25
1951 1 8 =8.3
3
1952 2 12
1953 3 15
58
1954 4 20 =19.3
3
1955 5 23
Los promedios de cada parte son 8 300 000 y 19 300 000 lb. Dado que 8 300 000 lb. es el promedio
de 1950, 1951 y 1952, los 8 300 000 trazados en 1951. (Véase la Figura 12.2.) Del mismo modo, las
19 300 000 libras se representan en 1954. La línea recta que pasa por estos dos puntos (1, 8.3) y
(4, 19.3) es la línea de tendencia media que buscamos. Encontramos
8.3 = a + b
19.3 = a + 4b
30
25
20
15
10
5
1950 1951 1952 1953 1954 1955 1956 X
0 1 2 3 4 5 6
Figura 12.2
La producción real es Y50 = 5, por lo que la discrepancia entre la producción real y la estimada es
b = 3.7 muestra que el aumento anual estimado de la producción es de 3 700 000 lb.
Cuando el número de años es impar, la serie no se puede dividir de forma uniforme, por lo que
se puede omitir el año central o dividir la serie de forma desigual.
Un valor extremo de la serie puede influir en uno de los semipromedios y desviar toda la línea
de tendencia, en cuyo caso puede omitirse. Por ejemplo, al ajustar una línea de tendencia para la
producción de acero, puede haber un año con una huelga prolongada, lo que hace que la producción
de ese año sea extremadamente baja. En ese caso, puede omitirse.
Se trata de una forma burda y sencilla de ajustar una línea de tendencia, pero su sencillez es su
ventaja.
Aquí se presenta una breve explicación de la media móvil y en el capítulo 24 se ofrece una expli-
cación más detallada. Se utiliza para suavizar las fluctuaciones de las series temporales y se aplica no
sólo a las líneas de tendencia, sino también a las variaciones estacionales y cíclicas. Ilustremos el pro-
cedimiento utilizando los datos hipotéticos simplificados de la tabla de la página 353. Supongamos
que los datos dados se refieren a las ventas de un producto básico.
En primer lugar, hallemos los totales móviles de tres años. Por ejemplo, para 1947, 1948 y 1949,
tenemos
3 + 4 + 8 = 15
Estos 15 000 000 de dólares se introducen de forma que corresponda a año del medio, 1948. El si-
guiente total es para 1948, 1949 y 1950. Este será
4 + 8 + 6 = 18
284 Series Temporales
y esto corresponde al año medio, 1949. Se continúa con este proceso y encontramos la columna de
totales móviles de 3 años. No tenemos un total para 1947 ni para 1956.
A continuación, encontramos las medias móviles de 3 años dividiendo los totales móviles por 3.
Esto nos da la columna de medias móviles de 3 años.
El gráfico muestra que las ventas tienen un ciclo regular de 3 años. Por ejemplo, desde un pico
en 1949 hasta el siguiente pico de 1952, tenemos 3 años. A continuación, el siguiente pico se produce
3 años después, en 1955.
Cuando las medias móviles de 3 años se trazan en el gráfico como en la Figura 12.3, caen sobre
una línea recta, y las fluctuaciones cíclicas se han suavizado. La línea recta es la línea de tendencia
que buscamos. Los datos hipotéticos se han ajustado para que la línea de tendencia sea una línea
recta; sin embargo, en general, tendremos una curva suave.
Una vez trazados los puntos de la media móvil de 3 años, nos encontramos con el problema de
ajustar una línea de tendencia a estos puntos. El método a mano alzada, el método de la media par-
cial, el método de los mínimos cuadrados o algunos de los otros métodos explicados en el Capítulo
24 pueden utilizarse para ajustar una línea de tendencia a estos puntos de media móvil.
¿Por qué hemos obtenido una curva suave? Esto resulta porque los datos tienen dentro de ellos
un ciclo regular con la misma duración y amplitud. Al observar que el ciclo tenía una duración de
3 años, seleccionamos una media móvil de 3 años. Si la duración fuera de 4 años, deberíamos haber
seleccionado una media móvil de 4 años. La razón es que, en el transcurso de un ciclo, esperamos que
la mitad esté por encima del punto medio del ciclo y la otra mitad por debajo. Por lo tanto, cuando
se toma una media, habrá un efecto de anulación, y si la mitad que está por encima del punto medio
del ciclo es mayor que la mitad inferior, como en nuestro ejemplo, la media móvil mostrará una
tendencia al alza.
Por lo tanto, para aplicar eficazmente una media móvil, es necesario determinar primero si existe
un ciclo regular y periódico. En los casos prácticos en los que existen ciclos, la duración de los mis-
mos no suele ser muy regular, pero en muchos casos hay suficiente regularidad para permitir el uso
del método de la media móvil. Observe también que la línea de tendencia obtenida es una línea rec-
ta. Si la naturaleza básica de la serie temporal es lineal, la línea de tendencia será aproximadamente
lineal; si es curvilínea, la tendencia aparecerá como una curva.
Este método de media móvil es aplicable no sólo a las líneas de tendencia, sino también a todo
tipo de datos que muestren fluctuaciones periódicas regulares. Lo utilizaremos en el Apartado 13.4
para eliminar las fluctuaciones estacionales.
Obsérvese que sólo hemos suavizado la serie. No hemos obtenido una ecuación matemática para
12.6. El método de los mínimos cuadrados 285
14
12
10
1946 1947 1948 1949 1950 1951 1952 1953 1954 1955 1956 X
Figura 12.3
El método de los mínimos cuadrados es el más utilizado para ajustar una recta a una serie de da-
tos. Se discutirá el caso simple en el que sólo interviene una variable independiente, y las extensiones
y refinamientos se abordarán en capítulos posteriores.
12.6.1 Principio
Y Y3
}γ
Yc
Y1
α { β{
Y2
0 X1 X2 X3 X
Figura 12.4
286 Series Temporales
las desviaciones de los puntos observados (datos reales) con respecto a la línea de tendencia
(valores calculados). El método de los mínimos cuadrados es un método mediante el cual pode-
mos ajustar la línea de tendencia calculada Y, a los datos observados de forma que la suma de los
cuadrados de las desviaciones sea mínima; es decir,
α2 + β 2 + γ 2 = mínimo
Yc = a + bX
Estas son las llamadas ecuaciones normales. A continuación ilustraremos cómo se utilizan.
Supongamos que nos han dado los datos de la hoja de cálculo adjunta, relativos a la producción
de petróleo en millones de barriles producidos anualmente. Deseamos ajustar una línea de tendencia
recta por el método de losP
mínimos
P cuadrados.
P Los
P parámetros a y b se obtienen de la fórmula (12.1).
2
Vemos que necesitamos Y , X, XY , e X para despejar a y b de (12.1).
Hoja de trabajo
Año X Y XY X2
1950 -2 5 -10 4
1951 -1 8 -8 1
1952 0 12 0 0
1953 1 15 15 1
1954 2 20 40 4
0 60 37 10
60 = (5)(a) + b(0)
37 = 1(0) + b(10)
y a y b son
60
a= = 12
5
37
b= = 3.7
10
12.6. El método de los mínimos cuadrados 287
Usando estas fórmulas (12.3) para nuestro ejemplo, podemos encontrar a y b directamente como
P
Y 60
a= = = 12
Pn 5
XY 37
b= P 2 = = 3.7
X 10
En la discusión posterior, utilizaremos esta fórmula (12.3).
Tracemos ahora los datos y la línea de tendencia como se muestra en la Figura 12.5. Las marcas
20
Yc = 15.7
Y =8
15
10 Yc = 8.3
Y =8
5
1950 1951 1952 1953 1954 X
−2 −1 0 1 2
Figura 12.5
en el eje horizontal de 1950, 1951, etc., indican 7/1/50, 7/1/51, etc. No hay ningún problema en trazar
los valores Y observados.
288 Series Temporales
Para trazar la fórmula de la línea de tendencia (12.2), se encuentran dos valores cualesquiera de
Yc y se traza una línea recta a través de ellos. Por ejemplo
A continuación, traza los dos puntos (−1, 8.3) y (1, 15.7) y dibuja una línea recta. Ésta será la línea
de tendencia que buscamos.
Como Y nos da los totales anuales, la interpretación de la ecuación es la siguiente: b = 3.7 es
la variación anual estimada de la producción de petróleo, en millones de barriles. La producción
estimada de 1954 es
Yc = 12 + (3.7)(2) = 19.4
La diferencia entre la aplicación del método de los mínimos cuadrados a una serie temporal
P de
años pares e impares es el sistema de numeración que se aplica a las X, de forma que X = 0.
Supongamos que tenemos los siguientes datos sobre la producción de petróleo, en los que ahora
tenemos 6 años.
Año X Y XY X2
1950 -5 5 -25 25
1951 -3 8 -24 9
1952 -1 12 -12 1
1953 1 15 15 1
1954 3 20 60 9
1955 5 25 125 25
0 85 139 70
P
Hay varias formas de numerar las X para que X = 0. Una es designarlas como 1, 3, 5, como se
muestra en la tabla. No podemos utilizar −3, −2, −1, 1, 2, 3 porque entre
P −1 y 1 hay 2 unidades (es
decir, −1, 0, 1), mientras que 1, 2, 3 difieren en 1 unidad cada una. X = 0, y esto nos permite
utilizar la fórmula (12.3).
En la tabla encontramos
X X
XY = 139 X 2 = 70
Yc = 14.2 + 1.99 · X
Origen : 1/1/53
X : unidades de medio año
12.7. Cambio del valor unitario y desplazamiento del origen 289
Observa los dos cambios siguientes: Primero, el origen está a medio camino entre el 7/1/52 y el
7/1/53. Por tanto, es el 1/1/53. En segundo lugar, las X están en unidades de medio año. Esto es así
porque las X están etiquetadas como 1, 3, 5, etc., y cada año difiere en 2 unidades. En otras palabras,
para pasar de 7/1/53 a 7/1/54, X tiene que pasar de 1 a 3 (no a 2). Cuando X pasa de 1 a 2, sólo pasa
medio año del 7/1/53 al 1/1/54. Esto significa también que
b = 1.99
Para 1955 es
Yc = 14.2 + (1.99)(5) = 24.15
La línea de tendencia se representa en la Figura 12.6. Otras formas de numerar las X son multipli-
25
20
15
10
−5 −3 −1 1 3 5
Figura 12.6
cando el sistema de numeración actual 1, 3, 5, etc., por cualquier número arbitrario. Pero normal-
mente el único otro sistema que se utiliza es el que se obtiene multiplicando los números actuales
1
por . Así, los dos sistemas de numeración son
2
-5 -3 -1 1 3 5
-2.5 -1.5 -0.5 0.5 1.5 2.5
Cuando se utiliza este segundo sistema, la unidad de X pasa a ser 1 año en lugar de medio año.
Algunos prefieren utilizar este sistema porque evita las unidades de medio año.
Hasta ahora los datos de las series temporales y las ecuaciones eran totales anuales. Pero en
muchos casos los datos se dan como medias mensuales anuales y datos mensuales. Una ilustración
290 Series Temporales
mostrará la distinción entre el total anual, la media mensual anual y los datos mensuales, así como
las correspondientes ecuaciones de la línea de tendencia.
Supongamos que una persona fue contratada como estadístico en 1955 con un salario anual de
6 000 dólares. Supongamos además que su salario se incrementó a 7 200 dólares en 1956 y luego a
8 400 dólares en 1957.
En ese caso, el salario medio anual de 1955 es de 500 dólares, el de 1956 de 600 dólares y el de
1957 de 700 dólares. Por lo tanto, el aumento anual del salario medio mensual es de 100 dólares.
El aumento mensual del salario medio mensual es de 100 dólares/12 = 8.33 dólares. A partir
de estos datos podemos construir tres ecuaciones: La ecuación total anual:
Yc = $6000 + 1200X
(12.4)
X = 0 el 7/1/1955
Ejemplo No. 1
La ecuación total anual de la producción de radios de una empresa es la siguiente (en
cientos de aparatos).
12.7. Cambio del valor unitario y desplazamiento del origen 291
Año Producción
Promedio Mensual (1000, Toneladas cortas)
1950 887
1952 908
1954 971
1956 1166
1958 1127
FUENTE: Business Statistics, U.S. Dept. of Commerce, 1959, p. 181.
Yc = 144 + 72X
Origen : 7/1/58
X : unidades de 1 año
Esto significa que en 1958 el total estimado fue de 144 · 100 aparatos. En 1959 el total estimado
es
144 + (72)(1) = 216
es decir, 216 · 100 juegos. La b = 72 muestra que hubo un aumento anual estimado de 72 · 100
juegos.
La ecuación de la media mensual anual se encuentra de la siguiente manera:
144 72
Yc = + X
12 12
Yc = 12 + 6X
Origen : 7/1/58
X : unidades de 1 año
Esto significa que en 1958 la media mensual estimada fue de 12 · 100 aparatos. Es decir, en
promedio, se fabricaron 12 · 100 juegos cada mes durante 1958. Para 1959 encontramos
Yc = 12 + (6)(1) = 18
Es decir, en promedio, se fabricaron 18 · 100 juegos cada mes durante 1959. La b = 6 significa
que, para cada año, el incremento estimado de la media mensual ha sido de 6·100 juegos. La ecuación
mensual es
6
Yc = 12 + X
12
Yc = 12 + 0.5X
Origen : 7/1/58
X : unidades de 1 mes
Yc = 12.25 + 0.5X
Origen : 15/7/58
X : unidades de un mes
es decir, 12.25 · 100 aparatos para el mes de julio. Para el mes de agosto, la producción fue de
Ejemplo No. 2
Dados los datos de la tabla de producción de carteras de una empresa, hallar la ecua-
ción de la línea de tendencia media mensual por el método de los mínimos cuadrados.
Promedio Mensual
(1000)
Año X Y XY X2
1953 -2 4 -8 4
1954 -1 7 -7 1
1955 0 8 0 0
1956 1 10 10 1
1957 2 15 30 4
0 44 25 10
Yc = 500 + 100X(7/1/55)
X : unidades de 1 año
900
800
700
600
500
El segundo componente de las series temporales económicas que vamos a considerar es el mo-
vimiento estacional. Pero antes vamos a definir varios términos nuevos que utilizaremos en la dis-
cusión posterior.
O =T ·S·C ·I (13.1)
Por ejemplo, supongamos que O = 1 890 000 barriles de petróleo en mayo. Entonces se descompone
de la siguiente manera: T = 2 000 000 de barriles; S = 105, lo que significa que la cantidad de
petróleo tiene una variación estacional de +5% en mayo: C = 100, que significa que no hay efecto
de ciclo económico; e I = 90, que significa que, debido a algunas fuerzas irregulares, la cantidad de
petróleo tiene una variación irregular del −10% en mayo. Entonces,
O =T ·S·C ·I
= 2.0 · 105 · 100 · 90
= 1.89
Obsérvese que la S, la C y la I están expresadas en porcentajes y son índices. Una segunda forma
de expresar la descomposición de O es
O =T ·S·I (13.2)
O =T +S+C +I (13.3)
295
296 Movimiento Estacional y Cíclico
Se pueden encontrar ejemplos de este enfoque en los escritos de los estadísticos matemáticos. En
este caso, S, C e I no son índices, sino desviaciones cuantitativas debidas a fuerzas estacionales,
cíclicas e irregulares.
A efectos de explicación, utilizaremos las ecuaciones (13.1) y (13.3).
Cuando se elimina la tendencia T de los datos originales O, tenemos una serie temporal sin
tendencia, o sin tendencia, que se denomina serie temporal estacionaria. La Figura 13.1 muestra de
forma esquemática la idea de una serie temporal estacionaria. La Figura13.1(a) muestra la serie ori-
ginal O y una tendencia a mano alzada T . La eliminación de la tendencia puede considerarse como
la rotación de T a una posición horizontal, como se muestra en la Figura13.1(b). Como en (b) sólo
nos interesan las desviaciones, podemos poner el eje horizontal en cero y expresar las desviaciones
en términos de cantidades + y −. Una forma alternativa es mostrarlas como proporciones, lo que
requiere encontrar los distintos valores de T correspondientes.
Y Y
T
X X
(a) (b)
Figura 13.1
Lo que queremos hacer ahora es definir algunos términos para las series temporales estaciona-
rias. La Figura 13.2 es una serie que se repite cada 2 intervalos (de tiempo); es decir, de 1 a 3, de
3 a 5, etc. El número de intervalos de tiempo (minutos, horas, días, semanas, meses o años) es el
período de la serie. En nuestro ejemplo, 2 intervalos de tiempo (digamos, 2 meses) es el periodo. La
variación del valor Y que muestra r se llama amplitud de esta serie.
2 4
r
1 3 5 X
Figura 13.2
Una serie que se repite regularmente cada período se llama serie periódica. Una serie que se repi-
te, pero que no tiene un periodo fijo, se llama serie oscilante. Como se ve, no hemos hecho ninguna
exigencia sobre la amplitud.
Una serie periódica sólo existe teóricamente, pero las variaciones estacionales que estamos con-
13.2. Variación estacional 297
siderando se acercan lo suficiente al requisito de tener un periodo fijo como para ser clasificadas
como series periódicas. Un ejemplo de serie oscilante es el ciclo económico que varía en duración.
El supuesto subyacente de las series periódicas (variaciones estacionales) y de las series oscilato-
rias (ciclos económicos) es que existen causas sistemáticas que generan estas fluctuaciones. Cuando
no hay causas sistemáticas que generen las fluctuaciones y éstas son puramente aleatorias, la serie
se denomina serie aleatoria. La fluctuación irregular I es un ejemplo.
Utilizaremos el término fluctuaciones cíclicas (variaciones cíclicas o movimientos cíclicos) para
designar las fluctuaciones oscilantes de los ciclos económicos. El término serie cíclica se utiliza a
veces para denotar series periódicas, pero en este texto, para evitar confusiones, no se utilizará el
término serie cíclica. Utilizaremos el término serie periódica.
Con estos antecedentes, pasemos a considerar la fluctuación estacional. En primer lugar, expli-
caremos lo que es; a continuación, haremos un breve análisis de los aspectos técnicos de cálculo; y
luego mostraremos cómo se aplica. A continuación, discutiremos brevemente la fluctuación cíclica.
La variación estacional se clasificó como una serie periódica y nuestra principal preocupación
serán las series periódicas que tienen un periodo de un año. Algunos ejemplos son la producción de
refrescos, que es alta durante el verano y baja durante el invierno; las ventas de los grandes almacenes,
que son altas durante la temporada de Navidad y Semana Santa y bajas en otras épocas; la producción
de coches y huevos, la recaudación de impuestos, etc. Pero además de estas variaciones estacionales
que se producen a lo largo de un año, podemos ampliar la cobertura para incluir la fluctuación de
la temperatura durante un día; las ventas en un supermercado durante una semana; el cobro de las
cuentas de crédito de unos grandes almacenes durante un mes, etc.
En cada uno de estos ejemplos, observe que hay causas sistemáticas de estas fluctuaciones: el
clima (que es una causa externa), las vacaciones y los procedimientos contables del gobierno (que
son causas institucionales creadas por el hombre), etc. Estas causas sistemáticas se producen con
regularidad, aunque a lo largo de un periodo prolongado puede haber cambios, como la fecha (otoño
o primavera) en que se presentan los nuevos coches al consumidor. Otro ejemplo de pequeño cambio
es la diferencia de días en que puede ocurrir la Semana Santa o el Día de Acción de Gracias: esto
afecta a las ventas de unos grandes almacenes. No obstante, existe una cierta regularidad año tras
año. Las variaciones estacionales que observamos en las series temporales económicas son índices
de estas causas reales subyacentes. Nuestro primer problema es encontrar una forma de medir y
expresar esta variación estacional.
Consideremos el consumo de refrescos. Sabemos por experiencia que el consumo es alto en ve-
rano y bajo en invierno, y este patrón se repite cada año. Esto se muestra de forma esquemática en
la Figura 13.3, que representa las fluctuaciones del consumo de refrescos durante 3 años. Depen-
diendo de las condiciones estacionales (especialmente del tiempo en este caso), el pico y el valle del
consumo variarán ligeramente de un año a otro, y se puede pensar que esto se debe a perturbaciones
aleatorias.
Se supone que las perturbaciones aleatorias de cada año son independientes unas de otras. Por
ejemplo, si hay una perturbación aleatoria en julio del primer año, se supone que es independiente
de la perturbación aleatoria de julio del segundo o de cualquier otro año. Esta suposición implica
que si sumamos los valores de julio de un número de años, las variaciones irregulares debidas a las
perturbaciones aleatorias se anularán entre sí.
298 Movimiento Estacional y Cíclico
1958
Ene. Julio Dic.
1959
Ene. Julio Dic.
1960
Ene. Julio Dic.
Figura 13.3
Esta suposición sugiere que si se suma un número de años y se encuentra un año medio, éste
estará desprovisto de variaciones irregulares (I). Si además podemos eliminar la tendencia (T ) y
el ciclo (C), nos quedará la variación estacional (S), y cuando ésta se exprese en forma de índice,
tendremos el índice estacional.
Nuestro problema ahora es traducir esta idea en un procedimiento matemático para poder en-
contrar S. Hay varios métodos: Uno es el método de las medias simples, un segundo es el método de
las medianas, y un tercero es el método de la media móvil. En primer lugar, trataremos el método de
las medias simples porque explica las ideas principales de forma elemental, aunque generalmente no
se utiliza en la práctica. A continuación, hablaremos del método de la relación con la media móvil,
que es el método preferible.
Ilustremos este método utilizando las cifras hipotéticas (Cuadro 13.1) de las existencias de hor-
talizas congeladas en cámara frigorífica, en millones de libras. Para simplificar, sólo se consideran
2 años, pero el procedimiento puede ampliarse fácilmente a tantos años como sea necesario. Como
se ha mencionado, suponemos que las series se expresan mediante
O =T +S+C +I
La Columna 3 es la suma de los dos años y la columna 4 es la media aritmética. Esta columna
4 puede interpretarse de dos maneras. Una es que se trata de la serie temporal original sin I debido
al proceso de promediado. La segunda es que cuando se toma un número suficiente de años para
cubrir el periodo de los ciclos, se elimina no sólo el I sino también el C. Adoptaremos el segundo
punto de vista. Supone que las subidas y bajadas de un ciclo son bastante parejas, de modo que si el
número de años cubre un ciclo, el proceso de promediado anulará los efectos cíclicos. Se trata de una
suposición bastante drástica, ya que supone que la duración y la amplitud de las fases ascendentes y
descendentes son aproximadamente las mismas, y también que las formas de las fases ascendentes
y descendentes no son bruscas (picos). Además, supone que hemos sido capaces de identificar el
periodo de un ciclo o ciclos económicos.
13.3. El método de las medias simples 299
Concluyamos que todo esto es posible y que, a efectos prácticos, las formas de los ciclos econó-
micos cumplen nuestros supuestos. Entonces, la media de la columna 4 es la serie original sin I y
C; es decir, la columna 4 es T y S. Si eliminamos T , nos quedaremos con S. Para ello, la columna
5 (que es el efecto de la tendencia) se resta de la columna 4, y el resultado S se da en la 6.
Expliquemos este último punto de la siguiente manera: Los datos de las existencias de hortalizas
congeladas muestran que hay un aumento gradual de las mismas, lo que tendrá el efecto de arrastrar
las variaciones estacionales. Esto se muestra gráficamente en la Figura 13.4. Si no hubiera tenden-
cia, S fluctuaría alrededor del eje horizontal, como muestran las líneas de puntos, y el eje horizontal
estaría al nivel de las medias mensuales anuales. Por ejemplo, el punto A es la suma de la variación
estacional AB y la tendencia BD. Eliminar la tendencia es eliminar BD y girar el punto A al punto
C, donde AB = CD muestra la variación estacional S. Para obtener estas correcciones de ten-
dencia, tenemos que encontrar los incrementos mensuales de las existencias, y para ello, primero
tenemos que encontrar la ecuación de la línea de tendencia. Procedemos a ello.
B
C
D
Enero
Set. Dic.
Figura 13.4
Los datos de las existencias de hortalizas congeladas figuran en el Cuadro 13.2 en medias men-
300 Movimiento Estacional y Cíclico
Año X Y XY X2
1953 -2 520 -1040 4
1954 -1 580 -580 1
1955 0 540 0 0
1956 1 640 640 1
1957 2 790 1580 4
3070 600 10
O =T ·S·C ·I (13.4)
o
O =T ·S·I (13.5)
donde T en la segunda relación es el ciclo de tendencia, que es una combinación de T · C de (13.4).
13.4. Método de las medias móviles 301
Partimos de la base de que la variación estacional S tiene un periodo de 12 meses y que la forma
de la variación es la misma cada año. También suponemos que las variaciones irregulares I son
independientes para diferentes períodos (años). Entonces, cuando se aplica una media móvil de 12
meses a (13.4) o (13.5), se suaviza S · I, y se tendrá como resto T · C. Es decir, la media móvil es
T · C.
Utilizando esta media móvil T · C, podemos encontrar S · I de la siguiente manera:
Datos originales T ·S·C ·I
= =S·I
Media móvil T ·C
Este proceso computacional se muestra en la Hoja de Trabajo adjunta.
Por ejemplo, en la columna 3, el primer total móvil de 12 meses, 90.7 (que es el total de julio de
1955 a junio de 1956) se introduce en la línea entre diciembre de 1955 y enero de 1956. El segundo
total móvil, 91.4, se introduce en la línea entre enero y febrero de 1956, y lo mismo para los demás.
La media móvil de 12 meses de la columna 4 se obtiene dividiendo los totales móviles por 12.
Esta media móvil es T · C, que se ha obtenido suavizando S · I.
Pero, como se ve en la hoja de cálculo que sigue, estas cifras se introducen entre los meses. Para
ajustarlas de modo que correspondan directamente a los meses, sume las dos primeras medias mó-
viles e introduzca el total en la columna 5 de modo que corresponda a enero. Como se trata del total
de dos meses, divida por 2 e introduzca el resultado en la columna 6. Lo que tenemos en la columna
4 y en la columna 6 es lo mismo, es decir, T C, salvo que hemos desplazado los valores un medio
mes en la columna 6 para que corresponda directamente a los meses.
Hoja de cálculo
(1) (2) (3) (4) (5) (6) (7)
Año Mes TSCI Total Media Total (5) ÷ 2 (2)÷ (6)
Móvil Móvil Móvil Centrado %
12 Meses 12 Meses 2 Meses
Nov. 5.8
1955 Dic. 6.2
1956 Ene. 6.4 15.19 7.60 84
Feb. 6.6
El último paso es hallar el SI. Se obtiene dividiendo la columna 2 (T SCI) entre la columna 6
(T C). El resultado es la columna 7, que se expresa en términos porcentuales.
Una vez obtenido el SI, conviene eliminar la mayor cantidad posible de I del SI. Esto se hace
sacando la media de los SI. Preparamos la hoja de cálculo.
Se obtienen las cifras de SI de la hoja de trabajo anterior, y se calcula la media de cada mes del
año. Así se elimina I, y tenemos S, que se ajusta para que la base sea 100. Esto se muestra en la fila
Adj-M. El 89 de enero es el S de enero. y así sucesivamente.
Uno de los supuestos básicos de este método era que la media móvil de 12 meses eliminaba S · I
de O = T · S · C · I. Sin embargo, cuando los ciclos económicos no son muy largos (2 ó 3 años)
y tienen puntos de inflexión bruscos, la media móvil de 12 meses puede eliminar no sólo S · I de
O = T · S · C · I sino también parte de C. Entonces el resultado T · C puede ser T con sólo parte
de C. Si este fuera el caso, sería el caso
Datos originales T SCI
= = SI
Media móvil TC
pueden dar SI con una cierta cantidad de C restante.
Para hacer frente a este problema, así como a otros, como los cambios graduales en los patrones
estacionales, la Oficina de Estadísticas Laborales, la Junta Federal de Reserva y la Oficina del Cen-
so han desarrollado técnicas de búsqueda de S que utilizan ideas similares al método de la media
móvil. Dado que nos interesa comprender los principios básicos de los índices estacionales, no tra-
taremos estas técnicas especializadas. Las explicaciones de estas técnicas pueden encontrarse en las
referencias de la sección 13.6.
Cuadro 13.3
Como puede verse en los totales no ajustados, las ventas durante la temporada navideña son
elevadas, pero caen drásticamente en enero. Este patrón estacional se repite anualmente, y las cifras
desestacionalizadas eliminan estas variaciones estacionales.
El fenómeno económico “ventas” se descompone en T , S, C e I, que a su vez se dividen en dos
partes, T ·C ·I y S. La interpretación es que T ·C ·I muestra una media (por ejemplo, la media de las
ventas, la tasa media de crecimiento, el valor medio, la producción media) a lo largo del año. Pero,
debido a las influencias estacionales, la tasa real de ventas (o valor, o producción, o crecimiento,
etc.), que se muestra mediante O = T · S · C · I, se desvía de esta tasa media de ventas T · C · I.
Los datos desestacionalizados también se utilizan para expresar los resultados como tasas anua-
les. Veamos un ejemplo. Los totales trimestrales desestacionalizados de la renta nacional en tasas
anuales para 1959 son:
Las cantidades económicas, como el ingreso nacional y las ventas totales, suelen medirse en
términos de totales de un año. Por ejemplo, el ingreso nacional en 1958 fue de 366 200 000 000
304 Movimiento Estacional y Cíclico
dólares; en 1959, de 398 500 000 000 dólares, y así sucesivamente. Las comparaciones de la renta
nacional son más fáciles cuando los datos están en términos de totales anuales.
Por ejemplo, se obtiene el total trimestral de la renta nacional de Enero, Febrero y Marzo y luego
se desestacionaliza. Este total trimestral desestacionalizado nos da un total trimestral medio. Así, si
este total trimestral medio se multiplica por 4, nos dará la renta nacional del primer trimestre sobre
una base anual. Las cifras citadas anteriormente muestran estas tasas anuales y, al estar expresadas
en tasas anuales, se facilita la comparación.
Hasta ahora hemos discutido las formas de encontrar la tendencia T y la variación estacional S.
De los dos componentes restantes, C y I, el principal interés en I es encontrar formas adecuadas de
eliminarlo de la serie. Hemos utilizado el proceso de promediar un número de años para eliminar I
de la serie.
También existen métodos para encontrar un índice cíclico, pero cada ciclo económico tiene sus
propias características y se contrapone a las variaciones estacionales que se producen con regula-
ridad y se deben principalmente a las mismas causas. Los ciclos económicos tienen una duración
diferente y pueden ser tan cortos como 2 21 años o tan largos como 8 años.
Por ello, la mayoría de los estudios sobre los ciclos no se basan exclusivamente en las estadísticas,
sino que recurren en gran medida al análisis económico. Por lo tanto, no intentaremos presentar una
solución estadística simple a este problema. El National Bureau of Economic Research (NBER) ha
realizado un gran trabajo en este campo y sus métodos de medición de los ciclos económicos se
describen en un libro publicado por esta institución1 .
Los econometristas asociados a la Fundación Cowles también han contribuido en gran medi-
da a este estudio2 . Los estudiantes interesados en el análisis estadístico de los ciclos económicos
son remitidos a las publicaciones de estas dos instituciones, pero se recomienda que los estudiantes
realicen trabajos avanzados de estadística y economía antes de intentar leer las diversas obras aquí
citadas. Otras publicaciones que pueden ser de utilidad son
1
A. F. Burns y Wesley C. Mitchell, Measuring Business Cycles, National Bureau of Economic Research. Nueva York,
1946.
2
L. R. Klein, Economic Fluctuations in the U.S., 1921-1942, New York: John Wiley & Sons, 1950.
13.7. Comentarios sobre las series temporales 305
Nuestra discusión sobre las series temporales fue principalmente descriptiva y no se dio ninguna
explicación explícita de las ideas básicas en las que se basó nuestra discusión. Pero con los antece-
dentes que hemos adquirido, investiguemos ahora algunos de estos supuestos básicos. Al abordar el
tema de las series temporales, suponemos básicamente una población de la que se toma una mues-
tra; luego, utilizando las ideas de probabilidad, inferencia estadística y estimación, deseamos hacer
afirmaciones sobre la población. Por ejemplo, cuando tenemos una serie anual de datos sobre la pro-
ducción de cerveza (digamos, y millones de barriles), podemos considerar que un valor de y para
un año determinado es uno de los muchos valores posibles de y para ese año. La serie anual de datos
es una muestra y, a partir de ella, queremos hacer afirmaciones sobre la producción de cerveza.
Para aplicar diversas técnicas estadísticas, solemos suponer que las observaciones son indepen-
dientes entre sí. Sin embargo, es fácil ver que la hipótesis de la independencia de las observaciones
rara vez se cumple. Si hay una sobreproducción de acero este año, es evidente que afectará a la pro-
ducción de acero del año siguiente.
La relación entre los valores sucesivos de las variables también depende del intervalo de tiempo
utilizado. Si el intervalo de tiempo es corto (por ejemplo, un mes), es más probable que dos valores
sucesivos estén correlacionados entre sí que cuando el intervalo de tiempo es largo (por ejemplo, un
año).
Una investigación de las series temporales económicas que no asuma la independencia de las
observaciones conduce al tema de la correlación serial, que es un tema muy difícil. En el Capítulo
24 se ofrece una breve explicación al respecto.
1. O = T + S + C + I.
2. O = T · S · C · I.
Existen otras posibilidades, como O = S + T · C · I, pero nos limitaremos a los dos primeros
modelos.
El primer modelo supone que la serie temporal económica es aditiva y está formada por los cua-
tro componentes T , S, C e I. Este supuesto de aditividad supone a su vez que los componentes son
independientes entre sí. Esto significa, por ejemplo, que por muy alto que sea el valor de la tenden-
cia, no tendrá ningún efecto sobre la variación estacional. También significa que los 4 componentes
son el resultado de cuatro causas independientes. Como ejemplo concreto, la producción de cer-
veza ha aumentado en los últimos 50 años. Esta hipótesis de aditividad implica que este aumento
constante de la producción de cerveza no tiene ningún efecto sobre la variación estacional de la pro-
ducción de cerveza. También implica que las causas del aumento de la producción de cerveza son
diferentes de las causas de la variación estacional de la cerveza. Aunque las causas del aumento de la
producción de cerveza pueden ser diferentes de las causas de la variación estacional, probablemente
306 Movimiento Estacional y Cíclico
se puede afirmar que el aumento de la producción tiene un efecto sobre la variación estacional de la
producción de cerveza.
El segundo modelo es el que hemos estado utilizando, y supone que los cuatro componentes
están relacionados entre sí. La razón de utilizar este modelo es que permite aislar convenientemente
los componentes. A su vez, esto supone que los cuatro componentes se deben a causas diferentes.
Aunque se deban a causas diferentes, suponemos que se afectan mutuamente.
Sin embargo, se puede argumentar que los componentes no se deben a causas diferentes y que
no se pueden aislar. En particular, se puede argumentar que muchos factores (como la población y
los cambios de gusto) afectan tanto a la tendencia como al ciclo.
El primer componente aislado es la tendencia. Suponemos que existe una tendencia, que puede
ser ascendente, descendente o constante.
Lo primero que tenemos que hacer es decidir si la tendencia es una tendencia rectilínea o curvi-
línea. Sólo hemos tratado el caso de la tendencia rectilínea. Esto supone que el cambio anual (o por
período) de la serie temporal económica es constante.
Ahora que hemos decidido utilizar una tendencia rectilínea, el siguiente problema es decidir
cómo ajustar la línea recta a los datos. En nuestra discusión anterior, hemos ajustado la línea recta
mediante el método a mano alzada, el método de los semiproductos, el método de las medias móviles
y el método de los mínimos cuadrados. De estos métodos, el de los mínimos cuadrados es el más
utilizado. La pregunta que surge naturalmente es: ¿Por qué se prefiere este método a los demás?
La razón es que es el mejor método. Entonces la pregunta es: ¿Qué entendemos por mejor méto-
do? Cuando se ajusta una línea recta a un conjunto de datos, deseamos tener un ajuste cercano. Por
un ajuste cercano, queremos decir un ajuste tal que las desviaciones di , sean pequeñas. Hay varias
formas de hacer que di sea pequeña. Una es minimizar la suma de los valores absolutos de di . Una
segunda es minimizar la suma de los cuadrados de do, lo que conduce al método de los mínimos
cuadrados. (Véase la Figura 13.5.)
Y
d3 {
d1 { }d2
X
Figura 13.5
A partir de nuestra discusión anterior, en la que las observaciones se consideraron como una
muestra de una población, podemos considerar este proceso de ajuste de una línea recta como uno
de estimación de los parámetros a y b de una línea de tendencia lineal:
Yc = a + bX
13.7. Comentarios sobre las series temporales 307
Si los valores de Y son aleatorios y los valores de X son fijos, el teorema de Markoff nos dice que este
método de mínimos cuadrados nos dará una estimación lineal insesgada de Y . Además, la varianza
de esta estimación será menor que cualquier otra estimación de Y .
Si, además, Y se distribuye normalmente, los a y b estimados por el método de mínimos cuadra-
dos serán los mismos que los obtenidos por el método de máxima verosimilitud. Hemos discutido
el método de máxima verosimilitud en el Capítulo 8, donde afirmamos sin pruebas que este método
nos da estimadores deseables.
Sin embargo, las Y no suelen ser independientes y, en muchos casos, no se puede suponer que
estén distribuidas normalmente. Por lo tanto, los resultados del teorema de Markoff o del método de
máxima verosimilitud no son válidos. A pesar de ello, se utiliza el método de los mínimos cuadrados
por su comodidad.
El método de los mínimos cuadrados es una técnica de estimación de los parámetros y puede
aplicarse tanto a las ecuaciones curvilíneas como a las lineales. La aplicación de esta técnica a los
casos curvilíneos la veremos en el capítulo 24.
Como se puede ver, se ha determinado la forma de la línea de tendencia y el método de estima-
ción, el ajuste de una tendencia se convierte en un simple problema mecánico de cálculo.
La media móvil se ha utilizado para hallar una línea de tendencia y también la variación estacio-
nal. Al aplicar la técnica de la media móvil para encontrar la línea de tendencia, estamos suponiendo
que la serie temporal económica está formada por dos componentes principales: Uno es la tenden-
cia que representa un crecimiento sistemático (ascendente, constante o descendente), y los otros
componentes son los que pueden considerarse divergencias de la tendencia, que son C, S, e I.
El método de la media móvil para encontrar la tendencia se basa en la idea de “promediar” estas
divergencias de la tendencia.
Hemos visto que si tenemos fluctuaciones periódicas con un periodo de (digamos) 3 años, y
utilizamos una media móvil de 3 años, estas fluctuaciones periódicas se cancelarán entre sí. Por
lo tanto, si C o S son fluctuaciones que tienen un periodo de 3 años o múltiplos de 3 años, se
promediarán. Sin embargo, C y I no suelen tener fluctuaciones periódicas sistemáticas, por lo que
la aplicación de la técnica de la media móvil sólo anulará parcialmente estos efectos. El componente
S suele tener un periodo más corto (por ejemplo, 12 meses, 1 semana, etc.) y es relativamente regular.
Cuando se combinan los tres componentes C, S e I y se tratan como divergencias de la ten-
dencia, probablemente no hay un período común a los tres. Al aplicar la media móvil para eliminar
la divergencia combinada de C, S e I con respecto a T , probablemente sólo tendremos un éxito
parcial.
A pesar de estas críticas, las técnicas de media móvil nos dan resultados que son útiles en apli-
caciones prácticas de la empresa y la economía. Lo que hay que tener en cuenta es que la tendencia
se basa en una serie de supuestos y hay que tener cuidado al interpretar los resultados.
También se ha utilizado la técnica de la media móvil para encontrar la variación estacional. En
este caso, el modelo básico asumido es que el componente S diverge del componente T y C, que
es relativamente estable; al utilizar la técnica de la media móvil, promediamos estas divergencias
debidas al S.
Las causas de la variación estacional suelen ser naturales (clima) o institucionales (Navidad,
308 Movimiento Estacional y Cíclico
Semana Santa, venta de coches nuevos en otoño, etc.) y tienen un periodo relativamente regular.
Por lo tanto, al aplicar una media móvil de (digamos) 12 meses a una serie temporal económica,
podemos esperar un proceso de promediación efectivo.
Otra característica de la media móvil es que puede generar una serie oscilante cuando se aplica
a una serie aleatoria. Esto se conoce como el efecto Slutzky-Yule. Este efecto Slutzky-Yule plantea el
siguiente problema cuando se aplica la técnica de la media móvil para ajustar una tendencia: Una
serie temporal económica suele contener un componente aleatorio. Por lo tanto, al tomar la media
móvil de la serie temporal para encontrar la tendencia, también estamos tomando la media móvil del
componente aleatorio. Debido al efecto Slutzky-Yule, esto generará una serie oscilante, que puede
formar parte de la tendencia que buscamos.
Esto también lleva a la observación de que si se utiliza la técnica de la media móvil para elimi-
nar la tendencia de una serie temporal económica, los componentes restantes de la serie temporal
pueden, como resultado del efecto Slutzky-Yule, mostrar una tendencia oscilatoria.
Debido a estos efectos, hay que tener cuidado al utilizar la media móvil en las series temporales
económicas.
Cuando se utilizan las series temporales económicas para hacer pronósticos, lo primero que hay
que hacer es decidir qué se va a pronosticar. A grandes rasgos, podemos dividir esto en dos aspectos:
Uno es el pronóstico de la tendencia y el otro es el pronóstico de los ciclos económicos.
Para prever las tendencias, el procedimiento habitual es proyectar la tendencia en el futuro, como
proyectar la tendencia de la población, la producción de acero, las ventas de una empresa o la renta
nacional.
Uno de los supuestos básicos de nuestro modelo de series temporales es que los componentes
T , S, C e I se deben a diferentes conjuntos de causas. La idea de pronosticar una tendencia impli-
ca que estamos asumiendo que el conjunto de causas de la tendencia continuará o cambiará sólo
gradualmente en el futuro.
Si esta suposición de cambio lento es aceptable o no, debe considerarse en relación con las situa-
ciones individuales. Por ejemplo, la población cambia lentamente. El consumo de seda, en cambio,
ha experimentado un cambio brusco debido a la aparición del nylon.
El pronóstico de los ciclos económicos, como ya se ha mencionado, es demasiado difícil de tratar
en este libro.
CAPÍTULO 14
Análisis de Regresión Lineal
Una de las técnicas más utilizadas en la investigación económica y empresarial, para encontrar
una relación entre dos o más variables que están relacionadas causalmente, es el análisis de regresión.
En este capítulo consideraremos En este capítulo consideraremos el caso más sencillo en el que sólo
hay dos variables, como el rendimiento del trigo y la cantidad de fertilizante. Esto nos dará las ideas
básicas del análisis de regresión. En el capítulo 23, lo ampliaremos al caso general de más de dos
variables, como la relación entre el rendimiento del trigo y la cantidad de fertilizante, la lluvia, la
temperatura, etc. Presentemos ahora el problema.
14.1 Introducción
Generalmente observamos que cuanto más alta es una persona, más pesada es, y por tanto sa-
bemos que existe una relación entre la altura y el peso. ¿Qué tipo de relación es? ¿Es proporcional o
existe algún otro tipo de relación?
También es posible que queramos saber la proximidad de esta relación. Si es muy estrecha, en-
tonces, dada la altura de un alumno, podremos estimar (predecir) con exactitud su peso.
Otro ejemplo es el de los ingresos y los gastos de consumo. Sabemos que a medida que aumentan
los ingresos, se tiende a gastar más. ¿Qué relación existe entre los ingresos y los gastos de consumo?
¿Es proporcional o existe otro tipo de relación? En segundo lugar, ¿cuál es la relación entre los in-
gresos y los gastos de consumo?
En este capítulo estudiaremos la cuestión de la relación entre dos variables X e Y . Así, por
ejemplo, estamos considerando la relación entre la estatura (X) y el peso (Y ), o entre los caballos
(X) y la velocidad (Y ) de un coche, o entre la cantidad de fertilizante (X) y el rendimiento del trigo
(Y ), o entre la publicidad (X) y las ventas (Y ).
Esta introducción de una segunda variable contrasta con nuestros estudios anteriores, en los que
tratábamos sólo una variable, como el coeficiente intelectual de un alumno, o su altura, o su peso.
Ahora tratamos dos variables y más adelante trataremos casos en los que hay más de dos variables.
En el Capítulo 15 hablaremos del análisis de correlación, que es un estudio del grado de cercanía
de la relación entre X e Y .
309
310 Análisis de Regresión Lineal
Planteemos ahora una situación hipotética y discutamos las ideas básicas del análisis de regre-
sión.
Como se ha mencionado anteriormente, nos interesa la relación entre dos variables X e Y . Sin
embargo, podemos distinguir dos casos, dependiendo de cómo pensemos utilizar la relación. En un
caso podemos estar interesados en la relación, per se. Cuando deseamos conocer la relación entre la
altura y el peso, o el consumo y la renta, nos interesa principalmente la relación, per se.
Sin embargo, supongamos que nos interesa estimar la longitud de una bobina de alambre. No es
práctico desenrollar el cable y medir su longitud. En cambio, podemos establecer una relación entre
la longitud (Y ) y el peso (X) del alambre. Y pesando el alambre, podemos estimar su longitud. En
este segundo caso es la longitud (Y ) lo que nos interesa principalmente, y la relación es simplemente
un procedimiento para estimar la longitud.
Partamos del punto de vista del primer caso y establezcamos un modelo que muestre la relación
entre X e Y , y luego mostremos cómo se puede interpretar este modelo desde el punto de vista del
segundo caso.
Supongamos que tenemos un grupo de niños que se agrupan según su altura (X), como se
muestra en el Cuadro 14.1. Vemos que hay 25 pares de observaciones como (50 pulgadas, 40 libras),
(50 pulgadas, 41 libras),. . . (54 pulgadas, 60 libras). Estos 25 pares de observaciones constituyen la
población, y la Figura 14.1 es una gráfica de estas observaciones.
Cuadro 14.1
Obsérvese que las agrupaciones son según alturas fijas, como 50 pulg. y 51 pulg., y cada gru-
po tiene 5 pares de observaciones. Cada grupo se denomina subpoblación, y hay 5 subpoblaciones
correspondientes a la variable de altura fija (X). Diremos que tenemos una colección o familia de
subpoblaciones.
La característica de esta población es que las X son variables fijas (variables no aleatorias) mien-
tras que las Y son variables aleatorias.
Por lo tanto, podemos preguntarnos inmediatamente: ¿Qué tipo de distribución tienen las va-
riables aleatorias Y ? En nuestra discusión posterior, distinguiremos dos casos, uno en el que la dis-
tribución de Y en cada subpoblación no está especificada, y otro en el que Y tiene una distribución
normal en cada subpoblación. La diferencia en los resultados de estos dos casos se discutirá más
adelante.
Llamemos al primer tipo de población donde la distribución de Y no está especificada la pobla-
14.2. El problema de la regresión 311
62
60
58
56
54
Peso, lb.
52 ∗
µY X = A + BX
50
Y = 48
48 ∗
ϵ{
46
∗ E(X|Y = 52) = µY X = 46
44 ∗
42
E(X|Y = 50) ∗
40 = 42
50 51 52 53 54
Altura, pulg.
Figura 14.1
ción de Tipo I, y llamemos al segundo tipo donde Y se distribuye normalmente la población de Tipo
II.
Como es evidente, podemos considerar la población de tipo II como un caso especial de la po-
blación de tipo I. Por lo tanto, asumamos por el momento la población de tipo I y continuemos con
nuestra discusión.
La media de los Y de cada subpoblación se llama valores esperados de Y para unas alturas dadas
(X), y se escribe E(Y |X). Por ejemplo
40 + 41 + 42 + 43 + 44
E(Y |X = 52) = = 42lb.
5
Los datos se han retocado para que los promedios caigan sobre una línea recta, que se ha dibujado
en la Figura 14.1. Centremos ahora nuestra atención en la subpoblación correspondiente a X = 52
pulgadas. Entonces
41 + 44 + 45 + 48 + 52
E(Y |X = 52) = = 46
5
La Y = 48 lb. de esta subpoblación se desvía de E(Y |X) en
y estas desviaciones se expresarán mediante ϵ, que llamaremos término de error o término de pertur-
bación estocástica. Entonces el Y = 48 lb. se puede expresar como
Y = E(Y |X = 52) + ϵ
Esta es una expresión general para los valores individuales de Y de la subpoblación X = 52. Es
decir, cuando ϵ = −4
Y = E(Y |X = 52) + ϵ = 46 − 4 = 42
Cuando ϵ = −3, entonces Y = 43; cuando ϵ = −1, entonces Y = 45; cuando ϵ = 3, entonces
Y = 49; y cuando ϵ = 6, entonces Y = 52.
312 Análisis de Regresión Lineal
Los valores individuales de Y en cada una de las subpoblaciones pueden expresarse de manera
similar. Es decir
Y = E(Y |X = 50) + ϵ = 42 + ϵ
Y = E(Y |X = 51) + ϵ = 44 + ϵ
...
Y = E(Y |X = 54) + ϵ = 50 + ϵ
Dado que las E(Y |X) caen sobre una línea recta, como se muestra en la Figura 14.1, supondre-
mos que la relación entre la altura y el peso es lineal y expresaremos E(Y |X) como
E(Y |X) = A + BX
E(Y |X) = µY X
µY X = A + BX (14.2)
y ésta es la recta que pasa por los pesos medios E(Y |X). Los parámetros A y B se determinan
fácilmente por observación como
µY X = 42 + 2X
Origen : X = 0 para 50 pulg.
Hoja de Trabajo
Altura X E(Y |X) = µY X
50 pulg. 0 42 lb.
51 1 44
52 2 46
53 3 48
54 4 50
Las ecuaciones (14.1) y (14.2), al combinarse, un valor individual Y puede expresarse como
Y = A + BX + ϵ (14.3)
Estas tres ecuaciones resumen todos los datos de la población y se denominarán modelo (o mo-
delo de regresión). La ecuación (14.2) se llama curva de regresión de Y sobre X y muestra la relación
14.2. El problema de la regresión 313
entre los valores esperados de Y y los valores independientes X. También se llama simplemente fun-
ción de regresión. Los coeficientes A y B se denominan coeficientes de regresión de la población.
Generalicemos ahora nuestro modelo. En primer lugar, en lugar de tener sólo 5 pares de obser-
vaciones por altura fija, tengamos un gran número de casos, muchos de los cuales puede que no
observemos pero que sabemos que existen. Así, cada subpoblación se hace muy grande.
En segundo lugar, supondremos que los términos de perturbación ϵ son variables aleatorias in-
dependientes (o podemos decir que las variables aleatorias Y son independientes) y
E(ϵ) = 0 (14.4)
En tercer lugar, supondremos que las desviaciones típicas (varianzas) de todas las subpoblaciones
son iguales. La varianza de Y , por definición, es
ϵ = Y − (A + BX)
= Y − E(Y |X)
σ 2 = E(ϵ)2
= E[ϵ − E(ϵ)]2
= V ar(ϵ)
Es decir
V ar(Y ) = V ar(ϵ) = σ 2 (14.6)
Dado que ϵ muestra las perturbaciones estocásticas de Y con respecto a su media E(Y |X), la
varianza σ 2 se llama varianza residual.
Detengámonos aquí un momento y pensemos en esta perturbación ϵ. En nuestro ejemplo de
alturas y pesos. teníamos, por ejemplo, una subpoblación para X = 50 pulg. Había 5 estudiantes
que pesaban 40, 41, 42, 43 y 44 libras, respectivamente. Encontramos que
E(Y |X = 50 pulg.) = 42 lb
y por ejemplo,
ϵ = Y − E(Y |X) = 40 − 42 = −2 lb.
para el primer estudiante.
¿Qué ha causado esta perturbación de ϵ = −2 lb.? Podemos pensar en muchas causas para esta
perturbación. En primer lugar, podríamos argumentar teóricamente que si conociéramos todos los
factores que afectan al peso, como el efecto de los padres, las preferencias alimentarias y las condi-
ciones de vida, que son un número muy, muy grande de factores, y utilizáramos todos estos factores,
probablemente podríamos encontrar el valor esperado del peso de un alumno con precisión. Pero
como sólo hemos seleccionado la estatura (X) para explicar el valor esperado del peso del alumno,
314 Análisis de Regresión Lineal
estamos agrupando los efectos de todos los factores que afectan al peso, aparte de la estatura, en
el término de perturbación ϵ, y estas perturbaciones, al agruparse, tienen la característica de ser
estocásticas.
En segundo lugar, al medir el peso (Y ) o la altura (X), puede haber un error de medición, y se
supone que éste también se incluye en el término de perturbación ϵ.
Una tercera causa de esta ϵ es que la relación entre la altura (X) y el peso (Y ) puede no ser
exactamente lineal como hemos supuesto. Y si esta relación que hemos supuesto no es exacta, el
efecto de este error de medición también se incluirá en ϵ.
Para el segundo alumno, encontramos que la perturbación es
donde A y B son los parámetros de regresión de la población (o coeficientes). Los valores indi-
viduales de Y son los siguientes
Y = A + BX + ϵ (14.8)
2. E(e) = 0.
3. V ar(ϵ) = V ar(Y ) = σ 2
El supuesto (3) de que E tiene una varianza constante σ 2 se denomina homoscedasticidad. Las
ecuaciones (14.7) y (14.8), y estos supuestos, nos proporcionan un modelo de regresión. Nuestro
principal énfasis en este caso es la relación entre X e Y .
Observe cuidadosamente que hemos dicho (14.7), (14.8), y los supuestos nos han dado un mo-
delo de regresión. Esto es porque cambiando los supuestos podemos construir diferentes modelos
de regresión. Podemos cambiar los supuestos relativos a ϵ y X de la siguiente manera
14.2. El problema de la regresión 315
ϵ Independiente No independiente
X Distribución Distribución
No Normal No Normal
Especificada Especificada
Conjunto fijo Población Población
de números Tipo I Tipo II
Distribución Población
No especificada Tipo III
Distribución Población
Normal Tipo IV
Con estos antecedentes, volvamos a discutir el problema de la regresión desde un punto de vista
estadístico alternativo en el que el énfasis principal está en la estimación de µY X . Nuestro modelo
de regresión era
Y = E(Y |X) + ϵ (14.9)
µY X = A + BX (14.10)
Y = A + BX + ϵ (14.11)
Asumimos que los valores esperados de Y , es decir, µY X = E(Y |X), caerían en una línea recta y,
por tanto, asumimos la ecuación de la línea recta (14.10). ¿Cuál es nuestra justificación para suponer
que µY X caerá en una línea recta?
316 Análisis de Regresión Lineal
Una de ellas es que, en las aplicaciones, cuando el rango de variación de X (digamos, el peso, o
los ingresos, etc.) es pequeño, la variación de Y (digamos, la altura, o el consumo, etc.) puede apro-
ximarse mediante una línea recta. Este procedimiento de aproximación lineal es el que utilizamos
siempre en la vida cotidiana. La distancia entre el lado este y el lado oeste de la ciudad de Nueva York
se mide como una línea recta aunque sepamos que la superficie de la tierra es curva. Y esta aproxi-
mación lineal se utiliza por su simplicidad en términos de interpretación, trazabilidad matemática
y utilidad en las aplicaciones.
La segunda es que, cuando suponemos la población Tipo IV, resulta que matemáticamente
E(Y |X) será efectivamente una línea recta. Una discusión matemática de este resultado está más
allá del nivel de este libro, por lo que se pide al lector que acepte esta afirmación.
El punto importante a entender es que el modelo expresado por la ecuación (14.10) es algo que
hemos asumido y no es algo a priori.
Nuestro problema es estimar µY X utilizando la relación entre los valores esperados de Y y X.
O, podemos decir, que deseamos encontrar el valor de E(Y |X) para un X dado. Y, a partir de la
ecuación (14.10), es evidente que si podemos determinar los coeficientes de regresión de la pobla-
ción A y B, podemos encontrar el valor esperado de Y para valores dados de X. Por ejemplo, si
se conocen A y B para la función de regresión de la altura y el peso, podemos encontrar el peso
esperado cuando se da la altura. En nuestra ilustración simplificada de la altura y el peso, A y B se
encontraron calculando la E(Y |X) para cada X y ajustando una línea recta a los puntos E(Y |X).
Esto era posible porque sólo había cinco X y cinco valores de Y para cada X. Pero, en nuestro mo-
delo generalizado, tenemos muchas X y muchos (teóricamente un número infinito) valores de Y .
¿Qué debemos hacer?
Como se puede ver fácilmente ahora, tomamos una muestra de estas observaciones y estimamos
A y B. Dejemos que las estimaciones se denoten por a y b y se llamen coeficientes de regresión de la
muestra. Entonces el estimador de
A + BX
se convierte en
a + bX
Como A + BX = µY X , el a + bX puede llamarse estimador de µY X .
Por lo tanto, vemos que el problema estadístico consiste en seleccionar una muestra, y a partir
de ella estimar los coeficientes de regresión poblacionales A y B. Como veremos, los estimadores de
A y B, que hemos denotado por a y b, resultarán ser formas lineales de los elementos de la muestra.
Expliquemos lo que esto significa, utilizando la media muestral.
Sabemos que cuando queremos estimar la media poblacional µ, seleccionamos una muestra y
utilizamos la media muestral X como estimador de µ. Sea la muestra (x1 , x2 , x3 ). Entonces
1
X= (x1 + x2 + x3 )
3
1 1 1
= x1 + x2 + x3
3 3 3
Por tanto, X es una forma lineal de los elementos de la muestra x1 , x2 y x3 . Sabemos que X es
insesgada:
1 1 1
E(X) = E x1 + x2 + x3
3 3 3
1
= (µ + µ + µ) = µ
3
14.2. El problema de la regresión 317
E(X) = E(a1 x1 + a2 x2 + a3 x3 )
= µ(a1 + a2 + a3 ) = µ
En el capítulo 8, mencionamos que una de las características de un buen estimador era que fuera
un estimador insesgado. Recordemos que X era un estimador insesgado de la media poblacional µ.
Es decir,
E(X) = µ
En nuestro caso actual, queremos que a + bX sea el estimador de varianza mínima (mejor) de
A + BX (o podemos decir, de µY X ). Expliquemos qué significa esto. Supongamos que extraemos
una muestra de tamaño n, y por un procedimiento 1, encontramos
a + bX (14.14)
como estimación de A + BX. Seleccionemos una segunda muestra y, mediante el mismo procedi-
miento 1, encontremos una segunda estimación
a ′ + b′ X (14.15)
Como se ve, podemos repetir este proceso un número muy grande de veces y tendremos un
número muy grande de estimaciones a + bX . Hemos dibujado tres de estas estimaciones en la
Figura 14.2, pero podemos visualizar un gran número de estimaciones a + bX dispersas alrededor
de A + BX.
Estas estimaciones a + bX se han obtenido mediante el procedimiento 1, pero podemos utilizar
un procedimiento de estimación diferente 2 y encontrar un conjunto diferente de estimaciones c +
dX. Y estas estimaciones c + dX también estarán dispersas alrededor de A + BX.
Al suponer que a + bX es el estimador de varianza mínima, lo único que decimos es que la
dispersión de a+bX en torno a A+BX será menor que c+dX. Y, de hecho, la dispersión será menor
que la de cualquier otro tipo de estimador m + kX obtenido por cualquier otro procedimiento de
estimación.
1
2
A + BX
3
Figura 14.2
¿Cómo se puede encontrar ese estimador de varianza mínima (mejor) a + bX? Este es uno de
los problemas estadísticos que discutiremos en las secciones siguientes. Como veremos, el procedi-
miento de estimación para obtener un estimador de varianza mínima para las poblaciones de Tipo
I y Tipo II es el método de los mínimos cuadrados. Pero el procedimiento de estimación para la po-
blación Tipo I es el teorema de Gauss-Markov mientras que para la población Tipo II es el método
de máxima verosimilitud como explicaremos en los Apartados 14.3 y 14.9.
14.2.5 Resumen
µY X = A + BX
14.3. Estimación del A y B del caso de la población Tipo I 319
La población Tipo I suponía que las X eran variables fijas y las Y eran variables aleatorias cuya
distribución no está especificada. Nuestro problema estadístico es estimar A y B a partir de una
muestra de tamaño n; (x1 , y1 ), . . . , (Xn , Yn ). Y deseamos que el estimador sea el mejor (miniva-
rianza) estimador lineal insesgado (meli).
Afirmamos sin pruebas que este estimador deseable puede obtenerse por el teorema de Gauss-
Markov. En términos no rigurosos, este teorema afirma que cuando las X son fijas, las Y son varia-
bles aleatorias, y las varianzas de la subpoblación de Y para las X correspondientes tienen varianzas
iguales σ 2 , los mejores estimadores lineales insesgados (meli) de A y B pueden obtenerse estimán-
dolos por el método de los mínimos cuadrados.
Por lo tanto, dada la población Tipo I, podemos estimar µY X = A + BX estimando A y B por
el método de los mínimos cuadrados. Y el estimador lineal a + bX que obtendremos será el mejor
estimador lineal insesgado (meli) de A + BX, o, podemos decir, de µY X .
Como es evidente, existe una amplia motivación y justificación para utilizar el método de los
mínimos cuadrados para estimar A y B. A partir del teorema de Gauss-Markov vemos que el método
de los mínimos cuadrados nos da el mejor estimador lineal insesgado (meli).
Pero aún hay una motivación y justificación adicional para utilizar el método de los mínimos
cuadrados. Como veremos más adelante, cuando se da la población Tipo II en la que las Y se dis-
tribuyen normalmente, los estimadores obtenidos por el método de los mínimos cuadrados serán
los mismos que los obtenidos por el método de máxima verosimilitud.
Y, por último, la trazabilidad matemática del método de los mínimos cuadrados en compara-
ción con otros métodos como el de máxima verosimilitud es también una importante motivación y
justificación para utilizar el método de los mínimos cuadrados.
320 Análisis de Regresión Lineal
Cuadro 14.2
Se selecciona una muestra aleatoria de esta población y se estiman los parámetros A y B por el
método de los mínimos cuadrados. Dejemos que las estimaciones se denoten por a y b y se iden-
tifiquen como coeficientes de regresión de la muestra. Entonces la recta de regresión estimada se
convierte en
Yc = a + bX (14.19)
donde Yc es una estimación de µY X . Nótese cuidadosamente que Yc no es una estimación de los
valores individuales, sino una estimación del valor esperado de Y .
Por lo tanto, lo primero que tenemos que hacer es seleccionar una muestra aleatoria, y para sim-
plificar seleccionamos un par (x, y) de cada subpoblación. La muestra figura en el Cuadro 14.3. La
Figura 14.3 es un gráfico de estas observaciones y se llama diagrama de dispersión. Podemos estimar
A y B sin ningún diagrama, pero este diagrama de dispersión sirve para dar una idea preliminar de
la forma de la función de regresión. Aunque sólo hay 5 observaciones, observamos en el diagrama
de dispersión que la relación es lineal.
Observación X Y
50 pulg. 0 40
51 1 46
52 2 44
53 3 55
54 4 49
Cuadro 14.3
Sean Y los valores individuales de la muestra y Yc la estimación de E(Y |X). Sabemos que
ϵ = Y − E(Y |X)
e = Y − Yc
= Y − a − bX
Por lo tanto, esta e es una estimación del término de perturbación ϵ. Esta e se llamará residuo o
desviación de Yc con respecto a Yc . Hay que señalar claramente que el término de perturbación ϵ es
una variable teórica que no observamos, aunque podemos especular sobre ella. La desviación e es
lo que realmente observamos como la diferencia entre los datos Y y el Yc calculado, y calculamos
como una estimación de ϵ.
14.3. Estimación del A y B del caso de la población Tipo I 321
62
60
58
56 ∗
Yc = a + bX
54
e
52 ϵ
50 µY X = A + BX
∗
48
µY X = 48
46 ∗
44 ∗
42
40 ∗
50 51 52 53 54
Figura 14.3
Como mostrará nuestro análisis posterior, gran parte de nuestra preocupación será una inves-
tigación de esta desviación e y su relación con los otros aspectos del análisis de regresión. El estu-
diante debe tener una clara comprensión del término de perturbación ϵ = Y − µY X y la desviación
e = Y − Yc . Volvamos ahora al problema de estimar A y B.
El procedimiento para estimar A y B por el método de los mínimos cuadrados consiste
P 2 en en-
contrar los estimadores a y b que minimicen la suma de las desviaciones al cuadrado ei tomadas
sobre los valores de la muestra. Es decir, encontrar a y b tales que
X
n=5 X
n=5
e2i = (Yi − a − bXi )2 = mínimo
i i
X X
Y = na + b X
X X X (14.20)
XY = a X +b X2
Altura, pulg. X Y XY X2
50 0 40 0 0
51 1 46 46 1
52 2 44 88 4
53 3 55 165 9
54 4 49 196 16
10 234 495 30
Cuadro 14.4
322 Análisis de Regresión Lineal
234 = 5a + 10b
495 = 10a + 30b
a = 41.4 lb.
b = 2.7 lb.
 = a = 41.4 lb.
B̂ = b = 2.7 lb.
Yc = 41.4 + 2.7X
X = 0 a 50 pulgadas (14.21)
X en unidades de 1 pulgada
Esto nos dice que, por ejemplo, dado un niño de X = 53 pulg., el peso estimado esperado (prome-
dio) es de 49.5 lb. Dado que (14.21) es una estimación insesgada lineal de varianza mínima de µY X ,
las 49.5 lb. son una estimación insesgada de varianza mínima de µY X cuando se toma un niño de
53 pulg.
Comparemos las perturbaciones ϵ y sus estimaciones, las desviaciones e. Dado que Y = 55 lb.
cuando X = 53 pulg. en la muestra, la desviación es
También sabemos por la población hipotética que E(Y |X) = 48 lb. Por lo tanto, el término de
perturbación estocástica es
ϵ = Y − E(X|Y ) = 55 − 48 = 7 lb.
Hay que recordar, como ya se ha dicho, que normalmente la población es tan grande que no cono-
cemos la media poblacional µY X , y por tanto no podemos calcular e = Y − µY X . Esto fue posible
en nuestro ejemplo hipotético porque sólo teníamos 25 observaciones para la población.
La ilustración anterior era sencilla y, por tanto, no hubo dificultades en los cálculos. Además,
las X estaban
P espaciadas uniformemente, por lo que podríamos haberlas numerado de nuevo de
forma que X = 0, lo que habría simplificado los cálculos. Pero, por lo general, las muestras son
mucho más grandes
P y las X no están espaciadas uniformemente, por lo que numerarlas de nuevo
de forma que X = 0 no suele ser factible. No obstante, existen varias fórmulas que simplifican
considerablemente los cálculos, especialmente para las máquinas de cálculo. Vamos a explicar estas
fórmulas.
14.3. Estimación del A y B del caso de la población Tipo I 323
Las a y b se convierten en P
(X − X)(Y − Y )
b= P (14.23)
(X − X)2
a = Y − bX (14.24)
La fórmula (14.23) implica desviaciones de la media, lo que hace que los cálculos sean tediosos.
Afortunadamente, (14.23) y (??) pueden modificarse como sigue:
P P P
n XY − X Y
b= P P (14.25)
n X 2 − ( X)2
P P
Y X
a= −b (14.26)
n n
Utilizando los valores del Cuadro 14.4 como ejemplo, encontramos
5 · 495 − 10 · 234 27
b= = = 2.7
5 · 30 − 102 10
234 10
a= − 2.7 · = 4.14
5 5
Estos resultados son los mismos que hemos obtenido anteriormente.
Ejemplo No. 1
Mostremos las derivaciones de estas fórmulas.
X X
(x − x)(y − y) = (xy − yx − xy + xy)
X X X X
= xy − x y−y x+ xy
X
= xy − nxy − nxy + nxy
X
=xy − nxy
X X P P
( x)( y)
xy − nxy = xy −
n
Ejemplo No. 2
X X
(x − x)2 = (x2 + 2xx + x2 )
X
= x2 − 2nx2 + nx2
X
= x2 − nx2
X P
( x)2
= x2 −
n
324 Análisis de Regresión Lineal
Utilizando las ecuaciones (14.23) y (14.24), podemos mostrar ahora que a y b son estimadores li-
neales de A y B, respectivamente. A partir de (14.23) encontramos
P
(Xi − X)(Yi − Y )
(
b= P
(Xi − X)2
X
Xi − X
= P · (Yi − Y )
(Xi − X)2
Xi − X
wi = P
(Xi − X)2
Entonces b se convierte en X
b= wi (Yi − Y )
Por lo tanto, se ve que b es una función lineal de las variables aleatorias Yi , es decir, una función
lineal de los valores de la muestra, y por lo tanto es un estimador lineal de B.
En cuanto a a, encontramos a partir de (14.23)
a = Y − bX
X
=Y − wi (Yi − Y )X
X X
=Y −X wi Yi − XY wi
Pero
X X P
Xi − X (Xi − X
wi = P =P
(Xi − X) 2 (Xi − X)2
0
=P =0
(Xi − X)2
Por lo tanto
X
a=Y −X w i Yi − 0
X
= (1/n − Xwi )Yi
Dado que X y wi son números fijos, vemos que a es una función lineal de Yi , por tanto, es una
función lineal de los valores de la muestra. Por lo tanto, a es un estimador lineal de A.
Algunos ejemplos ilustrarán los procedimientos mecánicos para encontrar una función de re-
gresión.
Ejemplo No. 3
Considere una muestra aleatoria de pares de alturas y pesos como la del Cuadro 14.5.
14.4. Encontrar una función de regresión 325
El primer paso es encontrar la función de regresión del peso (Y ) sobre la altura (X) y, por
tanto, trazamos el diagrama de dispersión, como en la Figura 14.5. La observación del diagrama de
dispersión muestra que una línea recta se ajusta adecuadamente a estos puntos.
El segundo paso es ajustar una línea de regresión muestral por el método de los mínimos cua-
drados. Utilizando las fórmulas de los coeficientes de regresión de la muestra, encontramos
5 · 1620 − 10 · 760
b= = 10
5 · 30 − 102
760 10
a= − 10 · = 152 − 20 = 132
5 5
Altura X Y , libras XY X2 Yc
5’3” 0 130 0 0
4” 1 145 145 1
5” 2 150 300 4 152
6” 3 165 495 9
7” 4 170 680 16
10 760 1620 30
Cuadro 14.5
Yc = 132 + 10X
170
160
150
140
∗
130
0 1 2 3 4 X
Figura 14.4
Yc = 132 + 10X
Ejemplo No. 2
En el Ejemplo 1 las alturas (X) estaban espaciadas uniformemente, de modo que se
utilizaron 0, 1, 2, 3, 4 en lugar de los valores originales, pero en general la variable inde-
pendiente X no está espaciada uniformemente, en cuyo caso los valores de X tienen
que utilizarse tal como están dados. Examinemos un ejemplo hipotético.
Supongamos que tenemos una muestra aleatoria de pares de horas estudiadas y puntos de califi-
cación, como se muestra en el Cuadro 14.6. Queremos encontrar la regresión de las notas (Y ) sobre
las horas estudiadas (X).
X, horas Y , nota XY X2
4 40 160 16
6 60 360 36
7 50 350 49
10 70 700 100
13 90 1170 169
40 310 2740 370
Cuadro 14.6
5 · 2740 − 40 · 310 26
b= = = 5.2
5 · 370 − 40 2 6
310 40
a= − 5.2 · = 62 − 41.6 = 20.4
5 5
Yc = 20.4 + 5.2X
Ejemplo No. 3
A partir del Ejemplo 2 podemos ver que si los valores de X y Y son grandes, el cálculo
de la pendiente b implicará una cantidad considerable de cálculos. Esto puede evitarse
restando una constante a cada uno de los valores de X (digamos, k = 8), y una cons-
tante a cada uno de los valores de Y (digamos, m = 60). Gráficamente, sólo estamos
desplazando el origen de (0, 0) a un nuevo origen (8, 60), como se muestra esquemá-
ticamente en la Figura 14.5. La pendiente de la función de regresión b sigue siendo la
misma y se encuentra como sigue
P P
n X ′Y ′ − X ′Y ′
b= P P
n X ′2 − ( X ′ )2
5 · 260 − 0 · 10
=
5 · 50 − 0
260 26
= = = 5.2
50 5
b = 5.2 es la misma que la encontrada en el Ejemplo 2, como era de esperar. a ya se ha
encontrado como a = 20.4. Así obtenemos la misma función de regresión
Yc = 20.4 + 5.2X
X′ Y′ X ′Y ′ X ′2
= X − 8, horas = X − 60, Nota = (X − 8)(Y − 60) = (X − 8)2
-4 -20 80 16
-2 0 0 4
-1 -10 10 1
2 10 20 4
5 30 150 25
0 10 260 50
Y Y′
(8, 60) a′
60 60
0 X′
a
0 8 X 0 8
Figura 14.5
Ejemplo No. 4
Dados los datos de la tabla adjunta, relativos al ingreso y al consumo, halla la regresión
del consumo sobre el ingreso.
X Y Yc
Ingreso Consumo
$ 200 $ 180 182.8
300 270 256.8
400 320 330.8
600 480 478.8
900 700 700.8
$2400 $1950
Para simplificar los cálculos, dividamos los valores de X e Y por 100 (o por 10, o por cualquier
otro número), como se muestra en la tabla siguiente. Gráficamente, estamos reduciendo la escala del
diagrama a 1/100 (o 1/10), y por tanto no tiene ningún efecto sobre la pendiente b de la función de
regresión. Esto es similar a tomar una foto del diagrama de dispersión cuyas medidas son 1/100 del
diagrama original. Entonces los valores pasan a ser:
P P P
n X ′ Y ′ − ( X ′ )( Y ′ )
b= P P
n X ′2 − ( X ′ )2
5 · 116.3 − 24 · 19.5
=
5 · 146 − 242
581.5 − 468
=
730 − 576
113.5
= = 0.74
154
P P ′
Y′ X
a= −b
n n
19.5 24
= − 0.74 ·
5 5
= 3.9 − 3.552 = 0.348
Como la escala se ha reducido a 1/100, la a es 0.348 · 100 = 34.8. Por tanto, la recta de regresión es
Yc = 34.8 + 0.74X
Para simplificar, supongamos que sólo hay 3 observaciones. Entonces la ecuación anterior se
convierte en
b = w1 (Y1 − Y ) + w2 (Y2 − Y ) + w3 (Y3 − Y )
X1 − X X2 − X X3 − X
=P (Y1 − Y ) + P (Y2 − Y ) + P (Y3 − Y )
(Xi − X) 2 (Xi − X) 2 (Xi − X)2
(X1 − X)2 Y1 − Y (X2 − X)2 Y2 − Y (X1 − X)2 Y3 − Y
=P · + P · + P ·
(Xi − X) X1 − X
2 (Xi − X) X2 − X
2 (Xi − X) X3 − X
2
Sabemos que Yi /Xi muestra el cambio en Yi (peso) cuando hay un cambio unitario en Xi (altura).
Podemos considerar que Xi (altura) es la causa e Yi (peso) es el efecto.
Ahora los términos Yi − Y = yi y Xi − X = xi miden los cambios en Yi y Xi desde sus
respectivas medias. Entonces yi /xi muestra el cambio en Yi cuando hay un cambio unitario en Xi ,
donde Xi y Yi se miden desde sus medias. Utilizando xi y yi , la ecuación para b se convierte en
x2 y1 x2 y2 x2 y3
b = P1 2 · + P2 2 · + P3 2 ·
xi x1 xi x2 xi x3
y y y
= w1′ · + w2′ · + w3′ ·
1 2 3
x1 x2 x3
donde w1′ + w2′ + w3′ = 1. ComoPpuede verse, b es simplemente una media ponderada de yi /xi ,
donde las ponderaciones son x2i / x2i . Por lo tanto, b muestra P
la cantidad de cambio en el efecto
cuando hay un cambio unitario en la causa, ponderado por x2i / x2i .
P P
En cuanto a las ponderaciones x2i / x2i , dado que x2i es una constante, la magnitud de wi
depende del valor de xi = Xi − X. Dado que x2i = (Xi − X)2 , significa que cuanto más se desvíe
un valor individual de xi de su valor medio, mayor será su importancia.
También vemos que como las desviaciones son al cuadrado, es decir, x2i , el método de los míni-
mos cuadrados da a −x, y a +x, igual importancia.
nos gustaría saber hasta qué punto es útil. Es decir, cuando se da un valor de X (altura), ¿con
qué precisión estima Y (peso)? Primero investiguemos este problema gráficamente. Comparando
la Figura 14.6(a) y (b), es intuitivo que obtendremos una mejor estimación de Y (peso) para una X
(altura) dada en la Figura 14.7(b), donde los puntos están más concentrados alrededor de la línea
de regresión.
Y Y
Y = Yc
Y Y Y Y = Yc
0 X X X 0 X X
(a) (b)
Figura 14.6
Una medida que muestra el grado de concentración (dispersión) de las observaciones alrededor
de la línea de regresión es la desviación estándar de la línea de regresión. La figura 14.7(a) muestra
un caso en el que las observaciones están dispersos alrededor de la línea de regresión, mientras que
en la Figura 14.7(b) están concentrados cerca de ella. La desviación estándar de la Figura 14.7(a) es
grande, mientras que la de la Figura 14.7(b) es pequeña. Mostramos ahora cómo se encuentra esta
desviación estándar.
En la sección 14.2 asumimos que la varianza de cada subpoblación era igual y la denotamos por
Y
µY X = A + BX
σ3 {
σ2 { σ3 { µY X 3
σ1 { σ2 { µY X 2
σ1 { µY X 1
X1 X2 X3 X
Figura 14.7
donde σ12 , σ22 y σ32 son las varianzas de la primera, segunda y tercera subpoblación. Nuestra suposi-
ción es que
σ12 = σ22 = σ32
y la varianza común se denota por σ 2 .
Para mostrar que es la desviación estándar de los valores de Y alrededor de la línea de regresión
para valores dados de X, se suele denotar como
P
(Y − µY X )2
σY2 X = (14.28)
N
1 X
σY2 X = (Y − Yc )2 (14.32)
n−2
y es un estimador insesgado de σY2 X . El n − 2 en el denominador se llama grados de libertad y se
discute en el Capítulo 18. El n − 2 puede expresarse diciendo: “hemos restado 2 grados de libertad
a n”. Estos 2 grados de libertad corresponden al número de coeficientes de regresión (donde a se
cuenta también como un coeficiente de regresión). En nuestro caso actual tenemos a y b, y por lo
tanto, restamos k = 2. En el Capítulo 23 discutiremos los casos en los que habrá k > 2 coeficien-
tes de regresión, en cuyo caso los grados de libertad serán n − k. El estimador σ̂Y2 X se denomina
332 Análisis de Regresión Lineal
error estándar de estimación, o desviación estándar de regresión estimada. Utilizaremos este último
término.
Habiendo encontrado σ̂Y2 X , la pregunta ahora es: ¿Cómo debe interpretarse σ̂Y2 X como una me-
dida de la dispersión de los puntos alrededor de la línea de regresión de la muestra? Consideremos
esta cuestión en la siguiente sección, que nos llevará a una discusión del coeficiente de determina-
ción, r2 .
Una vez encontrado el estimador insesgado de la varianza residual, podemos plantear la pre-
gunta: ¿Cómo se puede utilizar? La razón por la que se ha planteado explícitamente esta pregunta
es porque la distribución de la variable aleatoria Y no está especificada en la población Tipo I y,
como resultado, no tenemos forma de medir la significación de σ̂Y2 X en términos de una distribu-
ción como la normal. Si, por ejemplo, Y se distribuyera normalmente, podríamos interpretar σ̂Y2 X ,
en términos de la tabla de áreas normales (o, como veremos en el Capítulo 18, en términos de la
tabla t). Pero como la distribución de Y no está especificada, no podemos utilizar la tabla de áreas
normal.
Sin embargo, observamos que
1 X
σ̂Y2 X = (Y − Yc )2 (14.33)
n−2
Y −Y = (Y − Yc ) + (Yc − Y ) (14.34)
| {z } | {z } | {z }
Error total Error no explicado Error explicado
(Y − Y ) muestra la desviación total (o el error total) y puede considerarse como el error entre un Y
individual y la media aritmética Y que es el estimador de Y cuando no se utiliza una ecuación de
regresión.
(Yc − Y ) se denomina error explicado, y puede considerarse como la cantidad de error que se
elimina cuando la ecuación de regresión se ajusta a los puntos.
e = (Y − Yc ) es la desviación que definimos anteriormente, pero también se llamará error no
explicado para mantenerlo en armonía con los otros dos términos. Es el error que queda después de
ajustar la línea de regresión.
Cada punto puede descomponerse de la manera explicada anteriormente.
Como se ve, la varianza residual estimada σ̂Y2 X . v es un promedio de la suma de los errores no
explicados al cuadrado. Observamos que cuando e = Y − Yc se hace cero en la Figura 14.8, el punto
14.6. Interpretación de σ̂Y2 X y del coeficiente de determinación r2 333
Y Y
e
Yc
Y
X X
Figura 14.8
e = Y − Yc = 0
e = Y − Yc = Y − Y
Por lo tanto
0 ≦ r2 ≦ 1
y
−1 ≦ r ≦ 1
El signo de r es el mismo que el del coeficiente b. Consideraremos r con más detalle en el Capítulo
15.
y
Error explicado
r2 =
Error total
Cuando el error no explicado = 0, el error total es igual al error explicado. Por lo tanto,
Error explicado
r2 =
Error total
Error total
= =1
Error total
Cuando el error explicado = 0, entonces
Error explicado
r2 =
Error total
0
= =0
Error total
14.6. Interpretación de σ̂Y2 X y del coeficiente de determinación r2 335
Por lo tanto, r2 muestra la reducción relativa de la suma total de cuadrados (error total) cuando
se ajusta una línea de regresión. Por ejemplo, cuando r2 = 0.7, significa que se ha producido una
reducción del 70% en la suma total de cuadrados (error total). r2 = 1.0 muestra que se ha producido
una reducción del 100%, lo que significa simplemente que el error e = Y − Yc es cero y que los
puntos están todos en la línea de regresión. Por lo tanto, podemos decir que el r2 muestra la cantidad
de mejora (en términos de reducción del error total) producida por el ajuste de la línea de regresión.
Y Y
Y = Yc
Y Y Y Y = Yc
0 X X X 0 X X
(a) (b)
Figura 14.9
Gráficamente, cuando Y = Yc , esto significa que los puntos están en la línea de regresión y el
ajuste es perfecto.
Cuando tenemos [Figura 14.9(b)]
error explicado = Yc − Y = 0
entonces Yc = Y y
P
(Yc − Y )2
r = P
2
(Y − Y )2
0
=P =0
(Y − Y )2
Gráficamente, Yc = Y significa que la línea de regresión es paralela al eje horizontal y coincide con
Y.
Obsérvese cuidadosamente que, en nuestro caso, r2 es simplemente una medida que muestra
la mejora en términos de reducción del error total. No es una medida de la covariabilidad de las
dos variables X y Y . En el Capítulo 15, Análisis de Correlación, definiremos otro coeficiente de
correlación que es una medida de la covariabilidad de X y Y .
Calculemos r2 para nuestro ejemplo de alturas y pesos. Para prepararnos, vamos a elaborar
una fórmula computacional para r2 . Pero, debido a su importancia, vamos a detenernos aquí un
momento para mostrar cómo se deriva la relación fundamental (14.35).
336 Análisis de Regresión Lineal
Yc = a + bX
(14.38)
= Y + b(X − X)
Entonces
X X
(Y − Yc )2 = [Y − Y − b(X − X)]2
X X X (14.39)
= (y − Y )2 + b2 (X − X)2 − 2b (Y − Y )(X − X)
Como P
(X − X)(Y − Y )
b= P
(X − X)2
encontramos, sustituyendo esto en el tercer término del lado derecho de la ecuación (14.39):
X X X X
(Y − Yc )2 = (Y − Y )2 + b2 (X − X)2 − 2b2 (X − X)2 (14.40)
Yc − Y = b(X − X)
Por lo tanto, sustituyendo esto en el segundo término del lado derecho de la ecuación (14.38), ob-
tenemos X X X
(Y − Yc )2 = (Y − Y )2 − (Yc − Y )2
Por lo tanto, X X X
(Y − Y )2 = (Y − Yc )2 + (Yc − Y )2 (14.41)
Ejemplo No. 1
Utilizando el Ejemplo 1 de la Sección 14.4, ilustremos esta relación básica y calculemos
también r2 .
Altura X Y Yc
5’3” 0 130 132
4” 1 145 142
5” 2 150 152
6” 3 165 162
7” 4 170 172
760
Yc = 132 + 10X
760
Y = = 152
5
14.6. Interpretación de σ̂Y2 X y del coeficiente de determinación r2 337
Y −Y (Y − Y )2 Y − Yc (Y − Yc )2 Yc − Y (Yc − Y )2
-22 484 -2 4 -20 400
-7 49 3 9 -10 100
-2 4 -2 4 0 0
13 169 3 9 10 100
18 324 -2 4 20 400
1030 30 1000
X X X
(Y − Y )2 = (Y − Yc )2 + (Yc − Y )2
1030 = 30 + 1000
1000
r2 = = 0.97
1030
Este r2 = 0.97 muestra que el 97% de la suma total de cuadrados se ha vuelto a mover al ajustar
la recta de regresión e indica que el ajuste de la recta de regresión a los puntos es muy bueno, es
decir, tenemos un ajuste cercano.
Hemos visto que cuando los puntos Y caen todos sobre la recta de regresión, entonces r2 = 1.
Cuando los puntos Y están dispersos, de manera que la recta de regresión se vuelve horizontal,
entonces r2 = 0. Por lo tanto, podemos decir que cuanto más se acerque el ajuste de la recta de
regresión a los puntos, más se acercará r2 a 1.
Ahora podemos invertir la afirmación anterior y decir que cuanto más se acerque r2 a 1, más se
acercará el ajuste de la recta de regresión a los puntos.
Y Y = Yc
0 X X
Figura 14.10
Un punto importante a tener en cuenta es que las Y deben estar dispersas, es decir, tener una
distribución. Considere el caso en que Y es igual a una constante m; es decir, Y = m. Entonces,
para cada valor de X, Y = m, y la media aritmética de Y es también Y = m. Así, como muestra la
Figura 14.10, los valores de Y correspondientes a las X caerán sobre la recta dada por Y = m, que
es horizontal. Como se trata de un ajuste perfecto, puede parecer que r2 = 1. Por otro lado, como
es horizontal, puede parecer que r2 = 0. La dificultad aquí es que las Y no tienen una distribución
y X
(Y − Y )2 = 0
lo que hace que los denominadores de nuestras fórmulas sean cero y, por tanto, sin media. En este
caso no tenemos un problema de regresión. El punto principal es que las Y tienen que tener una
distribución o, por decirlo de otra manera, tienen que estar dispersas.
338 Análisis de Regresión Lineal
Una forma alternativa de interpretar este ajuste es centrar la atención en la forma de la dispersión
de los puntos. Cuando r2 se acerca a 1, significa que la dispersión de los puntos se parecerá mucho a
una línea recta, mientras que cuando r2 se acerca a 0, será todo lo contrario a parecerse a una línea
recta. Por lo tanto, podemos interpretar r2 como una medida que indica lo mucho que la dispersión
de los puntos se parece a una línea recta. Podemos expresar esta idea diciendo que r2 es una medida
de la linealidad de los puntos.
14.6.6 Resumen
Por lo tanto, r2 puede interpretarse desde tres puntos de vista. En primer lugar, puede interpre-
tarse como una medida de la cantidad de mejora (en términos de reducción del error total) debida a
la ecuación de regresión. En segundo lugar, puede interpretarse como una medida de la proximidad
del ajuste de la ecuación de regresión a los puntos. Y en tercer lugar, puede interpretarse como una
medida del grado de linealidad de la dispersión de los puntos. Obsérvese cuidadosamente que sólo
estamos destacando tres aspectos diferentes del mismo resultado.
Siempre que se estima una recta de regresión, es habitual escribir r2 junto con ella para mostrar
la cantidad de mejora debida a la regresión, o el grado de ajuste de la recta de regresión a los puntos,
o el grado de linealidad de los puntos. En nuestro ejemplo, tenemos
14.6.7 σ̂Y2 X y r2
Como vimos en la Sección 14.5, σ̂Y2 X expresa la dispersión de las Y en torno a Yc , pero como
no hemos asumido una distribución específica (como la distribución normal) de las Y , no hemos
podido evaluarla. En su lugar, hemos utilizado r2 como medida de la dispersión de las Y alrededor
de Yc y como tal, este r2 ha realizado los servicios de µ̂2Y X .
Sin embargo, en las secciones posteriores en las que asumimos la población Tipo II, podremos
evaluar µ̂2Y X en términos de la distribución normal o de la distribución t, y será importante para
probar la significación de las variables y los parámetros, y también para encontrar intervalos de
confianza.
Por lo tanto, cuando estamos asumiendo la población Tipo I, la utilidad de µ̂2Y X es limitada, y
en su lugar podemos utilizar r2 como una medida de la dispersión de los Y alrededor de Yc .
14.6. Interpretación de σ̂Y2 X y del coeficiente de determinación r2 339
Sin embargo, está bastante claro que µ̂2Y X y r2 están relacionados y esta relación puede verse
fácilmente como sigue:
A partir de las ecuaciones (14.36) y (14.37) encontramos que
P
(Y − Yc )2
P = 1 − r2
(Y − Y ) 2
o X X
(Y − Yc )2 = (1 − r2 ) (Y − Y )2 (14.42)
Hemos visto que
1 X
σ̂Y2 X = (Y − Yc )2 (14.43)
n−2
es un estimador insesgado de la varianza residual σ̂Y2 X . También sabemos que
1 X
σ̂Y2 = (Y − Y )2
n−1
es un estimador insesgado de
1 X
σ̂Y2 = (Y − µY )2
N
que es la varianza poblacional de Y . Por tanto, (??) puede reescribirse como
n−1
σ̂Y2 X = (1 − r2 )σ̂Y2 (14.44)
n−2
Si n es lo suficientemente grande para que podamos establecer (n − 1)/(n − 2) = 1, la ecuación
(14.43) se convierte en
σ̂Y2 X = (1 − r2 )σ̂Y2
Esto muestra que la varianza de Y , σ̂Y2 , se ha reducido en r2 · 100 por ciento, y que hay una
(1 − r2 ) · 100% parte residual no explicada de σ̂Y2 después de que se haya ajustado la ecuación de
regresión. Cuando r2 = 1, σ̂Y2 ha sido completamente explicado (eliminado o reducido), y cuando
r2 = 0, nada ha sido explicado (eliminado o reducido) al ajustar la línea de regresión.
Como se ve, en lugar de utilizar σ̂Y2 X para explicar la cercanía del ajuste o la mejora aportada por
la ecuación de regresión, es mucho más fácil utilizar r2 . Esto es así especialmente cuando se supone
una población Tipo I y no se especifica la distribución de Y . Nótese que este r2 es simplemente un
estadístico que muestra la cantidad de reducción de la suma total de cuadrados debida a la regresión,
y no depende de una distribución específica de Y .
Suma de Grados
Fuente Cuadrados de Libertad Varianza
Regresión SR k=1 SR /1 = SR′
1 X
σ̂Y2 X = (Y − Yc )2
n−k−1
SE
=
n−k−1
P
(Yc − Y )2 SR
r2 = P =
(Y − Y ) 2 S YY
X X 2 X 1 X 2
SY Y = (Y − Y )2 = Y2−n·Y = Y2− ·( Y)
n
Como Y= Y + b(X − X), encontramos SR por
X X
SR = (Yc − Y )2 = b2 (X − X)2
X
= b[b (X − X)2 ]
P
(X − X)(Y − Y ) X
=b (X − X)2
(X − X)2
X
SR = b (X − X)(Y − Y ) (14.45)
P
[ (X − X)(Y − Y )]2
SR = P (14.46)
(X − X)2
2
SXY
SR =
SXX
Por lo tanto, SR se puede encontrar a partir de (14.45) o (14.46). Entonces SE se encuentra por
S e = S Y Y − SR
(14.47)
= SY Y − bSXY
varianza residual
r̄2 = 1 −
Pvarianza total
(Y − Yc )2
=1− P n−2 2 (14.48)
(Y − Y )
n−1
P
(Y − Yc )2 (n − 1)
=1− P
(Y − Y )2 (n − 2)
El r2 fue P
(Y − Yc )2
r =1− P
2
(Y − Y )2
Como se ve, tenemos el factor de ajuste (n − 1)/(n − 2) en el segundo término del lado derecho.
Como (n − 1)/(n − 2) > 1, r̄2 será menor que r2 .
14.6. Interpretación de σ̂Y2 X y del coeficiente de determinación r2 341
El (n − 1)/(n − 2) muestra
n−1 grados de libertad para SY Y
=
n−2 grados de libertad paraSE
Y a medida que n sea grande, se acercará a 1, y la diferencia entre r2 y r̄2 disminuirá.
El cálculo de r̄2 se obtiene directamente de la tabla que muestra la suma de cuadrados. Es decir,
Suma de Grados
Fuente Cuadrados de Libertad Varianza
Regresión SR k=1 SR /1 = SR′
µ̂2Y X
r̄2 = 1 −
SY′ Y
El r2 se obtiene mediante
SE
r2 = 1 −
SY Y
Por lo tanto, a la hora de encontrar una recta de regresión, es aconsejable establecer la tabla anterior,
y también calcular tanto r2 como r̄2 .
Ejemplo No. 2
Ilustremos el uso de estas fórmulas con el ejemplo de los pesos y las alturas. Tenemos
X Y X2 Y −Y =Y′ (Y ′ )2 XY ′
5 pies 3 pulg. 0 130 0 -20 400 0
4 pulg. 1 145 1 -5 25 -5
5 pulg. 2 150 4 0 0 0
6 pulg. 3 165 9 15 225 45
7 pulg. 4 170 16 20 400 80
10 30 10 1 050 120
Yc = 132 + 10X
P
Queremos encontrar r2 y σ̂Y2 X . Por lo tanto, necesitamos SE = (Y − Yc )2 que resulta de (14.46)
y (14.47)
X P P P
(X − X)2 (Y − Y )2 − [ (X − X)(Y − Y )]2
(Y − Yc ) =2
P
(X − X)2
X X 1 X 2 1
(X − X)2 = X2 − · ( X) = 30 − · (10)2 = 10
n 5
X
(Y − Y )2
342 Análisis de Regresión Lineal
Observamos que los valores de Y son grandes. Por lo tanto, restamos Y = 150 y dejamos que
Y − Y = Y ′ . Entonces
X X ′ X 1 X ′ 2 1
(Y − Y )2 = (Y ′ − Y )2 = Y ′2 − ·( Y ) = 1050 − · (10)2 = 1030
n 5
X X ′
(X − X)(Y − Y ) = (X − X)(Y ′ − Y )
X 1 X X
= XY ′ − · X· Y′
n
1
= 120 − · 10 · 10 = 100
5
X 10 · 1030 − 1002
(Y − Yc )2 = = 30
10
X X X
(Y − Y )2 = (Y − Yc )2 + (Yc − Y )2
1030 = 30 + 1000
1 X ′
σ̂Y2 X = (Y − Yc )2 = SE = 10
n−2
√
σ̂Y X = 10 = 3.16
P
(Y − Yc )2 SE
r2 = 1 − P =1−
(Y − Y ) 2 S YY
30 1000
=1− = = 0.97
1030 1030
S′ 10
r̄2 = 1 − ′ E = 1 − = 0.96
SY Y 257.5
Vayamos ahora un paso más allá y encontremos las varianzas de los estimadores a y b. Discuta-
mos primero por qué queremos encontrar las varianzas de a y b, en particular de b.
X Y
1 2
2 1
3 4
4 3
5 4
6 8
Estas cuatro líneas de regresión muestrales se han dibujado en la Figura 14.11(a) y se han eti-
quetado como (1), (2), (3) y (4). Como se ve, el coeficiente de regresión poblacional B = 1.09. Los
cuatro coeficientes de regresión de la muestra son
Y Y
(4)
8 8
Población
7 7 Población
6 (1) 6
5 5
(2)
4 4
(3)
3 3
2 2
1 1
1 2 3 4 5 6 7 X 1 2 3 4 5 6 7 X
Figura 14.11
Podemos ver en el diagrama y en los valores de las b que la variación de las líneas de regresión
muestral alrededor de la línea de regresión poblacional y la variación de las b alrededor de B son
muy grandes. Sólo hemos dibujado cuatro de las 20 posibles líneas de regresión muestral, pero los
cálculos mostrarán que las restantes líneas de regresión muestral también mostrarán una variación
muy grande alrededor de la línea de regresión poblacional. Diremos que las líneas de regresión de
la muestra son muy oscilantes.
6
Seleccionemos a continuación muestras de tamaño n = 5. Hay = 6 posibles muestras que
5
podemos seleccionar. Dejemos que dos de estas muestras sean las siguientes:
X Y X Y
1 2 1 2
2 1 2 1
4 3 3 4
5 4 4 3
6 8 6 8
Las rectas de regresión muestrales obtenidas de estas dos muestras son:
b = 1.12 b′ = 1.24
1 X
M
σb2 = (b − B)2 (14.56)
M
donde M es el número de todas las muestras posibles de tamaño n seleccionadas de la población de
tamaño N . Cuando la variación de las b es grande, σb2 será grande, y cuando la variación es pequeña,
la σb2 será pequeña.
Por lo tanto, está claro que σb2 es un estadístico importante que es necesario para evaluar la fia-
bilidad de una línea de regresión de la muestra como una estimación de la línea de regresión de la
población. Cuando σb2 es pequeño, las ecuaciones de regresión de la muestra se agrupan estrecha-
mente alrededor de la línea de regresión de la población, y podemos esperar que una ecuación de
regresión de la muestra sea una buena estimación de la línea de regresión de la población.
Cuando σb2 es grande, indica un gran grado de oscilación y podemos esperar que una ecuación
de regresión de la muestra sea una mala estimación de la línea de regresión de la población.
El σb2 como se indica en (14.55), es una fórmula básica de definición. Evidentemente, como
no conocemos B, que es lo que intentamos estimar, y M será muy grande, no se puede utilizar la
fórmula 14.55. Sin embargo, este σb2 también es igual a la fórmula teórica
σY2 X
σb2 = Pn (14.57)
(X − X)2
P
donde σb2 es la varianza residual de la población y la suma (X − X)2 se toma sobre la muestra.
(Recordemos que las X son variables fijas P en nuestro caso y no variables aleatorias). Su ventaja es
que muestra cómo σb2 depende de σY2 X y (X − X)2 , y también muestra una forma de estimar
σb2 .
El estimador de σb2 es
σ̂Y2 X
σ̂b2 = Pn (14.58)
(X − X)2
donde
1 X
n
σ̂Y2 X = (Y − Yc )2
n−2
que sabemos que es el estimador insesgado de σY2 X .
P
Como se ve, σ̂b2 será pequeño cuando σ̂b2 sea pequeño y/o (X − X)2 sea grande. Como σ̂Y2 X
es un estimador de σY2 X que es un parámetro de la población y constante, podemos esperar que el
tamaño de σ̂Y2 X no varíe mucho según el tamaño de la muestra.
P
(X − X)2 , sin embargo, será claramente mayor a medida que el tamaño de la muestra sea
mayor. Por lo tanto, a medida que el tamaño de la muestra n sea mayor, σ̂b2 será menor. Esto ya lo
346 Análisis de Regresión Lineal
Suponiendo una muestra bastante grande (n > 30), podemos tratar el intervalo de confianza
como si las b estuvieran distribuidas normalmente y considerar el intervalo como un intervalo de
confianza del 95% y obtener una medida aproximada de la fiabilidad. Volveremos a considerar este
problema en el Capítulo 23.
Por tanto, después de encontrar la recta de regresión
Yc = a + bX
debemos encontrar dos medidas para evaluar la utilidad de esta recta de regresión. Una es el coefi-
ciente de determinación P
(Yc − Y )2
r = P
2
(Y − Y )2
y la segunda es la varianza de b,
σ̂Y2 X
σ̂b2 = Pn
(X − X)2
r2 muestra la mejora (o la reducción del error total) que aporta la función de regresión. σ̂b2 muestra
la fiabilidad de b.
La relación entre r2 y σ̂b2 es la siguiente:
Sabemos que cuando r2 es grande, entonces σ̂Y2 X será pequeño, y por tanto σ̂b2 será pequeño.
Es decir, cuando r2 es grande, σ̂b2 será pequeño.
Pero un r2 pequeño no significa necesariamente un σ̂b2 grande. Un r2 pequeño significa que no
hay
P un ajuste2 estrecho. Por tanto, σ̂ 2 será grande. Pero si se ha seleccionado una muestra grande,
(X − X) será grande y σ̂b será pequeño.
2
pequeño, y podemos esperar que la ecuación de regresión de la muestra sea una buena estimación
de la línea de regresión de la población.
Los resultados anteriores suelen expresarse escribiendo
Yc = a + bX (r2 )
(σ̂b2 )
La varianza de a es P
(σY2 X )( X 2 )
σa2 = P
n (X − X)2
donde la suma se realiza sobre la muestra. Como a no suele ser importante, no discutiremos la
construcción del intervalo de confianza de A. Nos limitaremos a señalar que, al igual que en el caso
de σb2 , σa2 , será menor a medida que el tamaño de la muestra sea mayor.
Ejemplo No. 3
(i) σ̂b2
X
n X 1 X 2 1
(X − X)2 = X2 −
( X) = 30 − · (10)2 = 10
n 5
σ̂ 2
10
σ̂b2 = P Y X 2 = =1
(X − X) 10
σ̂b = 1
(i) σ̂a2
P
σ̂Y2 X ( X 2 ) 10 · 30
σ̂a2= P = =6
n (X − X)2 5 · 10
σ̂a = 2.4
Yc = 132 + 10X (r̄2 = 0.96)
(σ̂b = 1)
14.8 Resumen
Yc = a + bX
348 Análisis de Regresión Lineal
1. Ecuaciones normales
X X
na + b X= Y
X X X
a X +b X2 = XY
2. b y a
P
(X − X)(Y − Y ) SXY
b= P =
(X − X) 2 S XX
a = Y − bX
3. σ̂Y2 X , r2 , r̄2 X X X
(Y − Y )2 = (Y − Yc )2 + (Yc − Y )2
Total SY Y n−1 ′
SY Y /(n − 1) = SY Y
4.
La población Tipo II asume que las subpoblaciones se distribuyen normalmente y que cada una
tiene una varianza de σ 2 . Por lo tanto, el modelo de regresión de la población Tipo II es el mismo
que el de la población Tipo I, excepto que Y (o, podemos decir, ϵ) se distribuye normalmente. Y
para estimar los coeficientes de regresión A y B, podemos utilizar el teorema de Gauss - Markoff y
utilizar el método de los mínimos cuadrados.
Sin embargo, como se ha especificado que la subpoblación es normal, conocemos la forma de
su distribución de frecuencias (función de densidad) y, por tanto, podemos aplicar el método de
máxima verosimilitud.
Resulta que este método de máxima verosimilitud nos dará un conjunto de ecuaciones normales
idénticas a las obtenidas por el método de los mínimos cuadrados. Es decir
X X
na + b X= Y
X X X
a X +b X2 = XY
y obtenemos
 = a = Y − bX
P
(X − X)(Y − Y )
B̂ = b = P
(X − X)2
Por lo tanto, podemos simplemente aplicar el método de los mínimos cuadrados a la población
Tipo II, y llamar a estos estimadores los estimadores de máxima verosimilitud.
Además, también podemos encontrar el estimador de máxima verosimilitud de la varianza re-
sidual σY X . Esto es
1X
σ̂ 2 = (Y − Yc )2
n
Este, sin embargo, es un estimador sesgado de σY2 X , y puede demostrarse que ajustándolo como
sigue
1 X
σ̂Y2 X = (Y − Yc )2
n−2
se convierte en un estimador insesgado de σY2 X , donde n − 2 son los grados de libertad. Como se
ve, esto es también lo mismo que el estimador que encontramos para la población Tipo I.
Dado que, como se ve, todos los resultados de la estimación son los mismos que en el caso de
la población Tipo I, las diversas discusiones relativas a σ̂Y2 X , r2 y la relación básica entre los errores
también son válidas para esta población Tipo II.
Además, debido a este supuesto de normalidad, ahora podemos evaluar σ̂Y2 X en términos de la
distribución normal (y de la distribución t), encontrar las distribuciones de a, b, Yc e Y , y construir
pruebas e intervalos de confianza para A, B, µY X e Y . Podemos plantear el problema de regresión
en nuestro caso actual como sigue:
Yc = a + bX
1. Estimar a y b.
2. Calcular σ̂Y2 X .
3. Calcula r̄2 .
4. Prueba la significación de a y b.
Como se mencionó en la Sección 14.7, cuando suponemos la población Tipo II, donde Y se
distribuye normalmente, la distribución muestral de a y b también será normal. Es decir, tenemos
las siguientes propiedades
E(a) = A y E(b) = B
El coeficiente B suele ser el parámetro que interesa a los estadísticos económicos. Por ejemplo,
dejemos que la función de regresión de la población sea
µY X = A + BX
H0 :B = 0
H1 :B 6= 0
Dado que b se distribuye normalmente con la media E(b) = B y la varianza σb2 como se ha indi-
cado anteriormente, podemos graficar la distribución muestral como se muestra en la Figura 14.12.
Sea B = 0. De nuestros cálculos sabemos que
Yc = 132 + 10X
14.10. Pruebas relativas a a y b 351
b − E(b)
z=
σ̂b
b−B
=
σ̂b
b
= E(b) b b
σ̂b =B=0 = 10 lb.
Figura 14.12
y b = 10 lb. Si E(b) = B = 0, ¿cuál es la probabilidad de que tengamos un b mayor que 10 lb? Para
ello encontramos (Figura 14.12)
σ̂b es
σ̂Y2 X
σ̂b2 = P
(X − X)2
10
= (de cálculos previos)
10
=1
Entonces z se convierte en
10
z= = 10
1
lo que muestra que b = 10 lb. está a 10 desviaciones estándar de E(b) = 0. Así, concluimos que es
altamente improbable que b = 10 lb. provenga de una población con B = 0, y rechazamos H0 . Es
decir, aceptamos H1 , que es B 6= 0.
Hay que tener en cuenta que cuando el tamaño de las muestras es pequeño, debemos utilizar la
distribución t en lugar de la normal porque estamos utilizando µ̂Y X . Pero supondremos que todas
las muestras son grandes, y la diferencia entre la distribución t y la distribución normal para mues-
tras grandes es lo suficientemente pequeña como para permitirnos utilizar la distribución normal.
La distribución t se analiza en el Capítulo 18.
También podemos probar la hipótesis de que B 6= 0. El procedimiento es el mismo que el
anterior, es decir, dejar que
b−B
t=
σ̂b
donde la estadística t tiene una distribución t con n−2 grados de libertad. Utilizando la tabla t (Tabla
3 del Apéndice), podemos encontrar la probabilidad de seleccionar una muestra con un coeficiente
de regresión muestral mayor que b a partir de una población con un coeficiente de regresión B. Si
la probabilidad es muy pequeña (digamos, menor que α = 5 por ciento), entonces rechazamos la
hipótesis. Si la probabilidad es mayor que α, aceptamos la hipótesis.
b−B
P [−t0.025 < < t0.025 ] = 0.95 (14.60)
σ̂b
donde t0.025 corresponde a α/2 = 5/2 = 2.5 por ciento y se obtiene de la tabla t. Obsérvese
que tenemos un 2.5 por ciento en cada cola y, por tanto, un total de α = 5 por ciento. La ecuación
(14.59) se convierte en
En nuestro caso actual, sabemos que b = 10 lb., σ̂b = 1 lb., y t0.025 (para n − 2 = 5 − 2 = 3
grados de libertad) es 3.18; encontramos el intervalo de confianza del 95 por ciento como
Es decir, B está entre 6.82 lb. y 13.18 lb. con un coeficiente de confianza del 95 por ciento. Esto
significa que si se seleccionan 100 muestras de tamaño 5 y se construyen 100 intervalos de confianza
Yc es una estimación de µY X = E(Y |X), y por lo tanto es deseable saber cuán precisa y con-
fiable es como una estimación de µY X . Esto se demuestra construyendo un intervalo de confianza
con Yc . Para encontrar el intervalo de confianza de µY X , construimos el estadístico
(Yc − µY X ) − E(Yc − µY C ) Yc − µY X
t= = (14.64)
σ̂(Yc − µY X ) σ̂(Yc − µY X )
donde p
σ̂(Yc − µY X ) = V ar(Yc − µY X )
14.11. Intervalo de confianza para µY X 353
p
Es decir, σ̂(Yc − µY X ) es un estimador de V ar(Yc − µY X ). Obsérvese también que
Afirmamos sin pruebas que (14.64) tiene una distribución t con n − k − 1 grados de libertad. Por
conveniencia notacional, establezcamos
σ̂(Yc − µY X ) = σ̂d
Yc = a + bX
µY X = A + BX
Cov(a, b) se explica en la página 457. Si evaluamos Cov(a, b), podemos encontrar el tercer tér-
mino de (14.68), y por lo tanto encontrar V ar(Yc − µY X ).
354 Análisis de Regresión Lineal
σd2 es un parámetro poblacional. Por lo tanto, necesitamos encontrar un estimador de σd2 . Sea el
estimador
1 (X − X)2
σ̂d2 = +P σ̂Y2 X (14.69)
n (X − X) 2
Por lo tanto, (14.69) es un estimador insesgado de σd2 , y es el estimador deseado de σd2 que
buscamos. Utilizando esto podemos calcular el intervalo de confianza dado por (14.68).
Ilustrémoslo como sigue.
Caso 1. X = X
En este caso en el que X − X = 0, la varianza σ̂d2 se convierte en
σ̂ 2
σ̂d2 =
n
En nuestro ejemplo de altura y peso, sabemos que σ̂Y2 X = 10 y n = 5. Por tanto,
10
σ̂d2 = =2
5
Además, como
Yc = Y + b(X − X) = Y = 152
y t0.025 = 3.18 para n − 2 = 5 − 2 = 3 grados de libertad, el intervalo de confianza del 95 por
ciento es
√ √
152 − 3.18 · 2 < µY X < 152 + 3.18 · 2
(14.70)
147.52 < µY X < 156.48
A = Yc − t0.025 σ̂d
√
= 152 − 3.18 · 2 = 147.52
B = Yc + t0.025 σ̂d
√
= 152 + 3.18 · 2 = 156.48
Y Distribución
de Yc
X X
Figura 14.13
356 Análisis de Regresión Lineal
156.48 B
147.52 A
X X
Figura 14.14
Caso 2. X 6= X
Consideramos ahora subpoblaciones distintas de la que corresponde a X = X. Consideremos
la subpoblación correspondiente a 5′ 6′′ (X = 3).
Por nuestros cálculos anteriores (Ejemplo 2, apartado 14.6) sabemos que
X
σ̂Y2 X = 10, n = 5, (X − X)2 = 10, X=2
Ejemplo No. 1
Hallemos los intervalos de confianza que corresponden a las otras X y mostremos los
intervalos de confianza en forma de diagrama.
14.11. Intervalo de confianza para µY X 357
Hoja de cálculo
Altura X Y Yc σ̂Y2 X σ̂d2
5’3” 0 130 132 10 6
5’4” 1 145 142 10 3
5’5” 2 150 152 10 2
5’6” 3 165 162 10 3
5’7” 4 170 172 10 6
10 760
(i) X = 0
(ii) X = 1
Yc = 132 + 10 · 1 = 142
10 10
σ̂d2 = + (1 − 2)2 · =3
√ 5 10 √
142 − 3.18 · 3 < µY X < 142 + 3.18 · 3
136.5 < µY X < 147.5
Yc = 132 + 10 · 2 = 152 = Y
σ̂d2 = σ̂ 2 (Y )
10 10
= + (2 − 2)2 · =2
√ 5 10 √
152 − 3.18 · 2 < µY X < 152 + 3.18 · 2
147.52 < µY X < 156.48
(iv) X = 3
Yc = 132 + 10 · 3 = 162
10 10
σ̂d2 = + (3 − 2)2 · =3
√ 5 10 √
162 − 3.18 · 3 < µY X < 162 + 3.18 · 3
156.5 < µY X < 167.5
358 Análisis de Regresión Lineal
(v) X = 4
Yc = 132 + 10 · 4 = 172
10 10
σ̂d2 = + (4 − 2)2 · =6
√ 5 10 √
172 − 3.18 · 6 < µY X < 172 + 3.18 · 6
164.21 < µY X < 179.79
Los intervalos de confianza se representan en la Figura 14.15. Como se puede ver cuando se unen
los puntos, obtenemos un cinturón de confianza que es simétrico en anchura alrededor del valor de
X = X. Observe cuidadosamente que este cinturón de confianza se construyó a partir de una sola
muestra. Cada vez que se seleccione una nueva muestra, habrá un nuevo cinturón de confianza.
La interpretación del cinturón de confianza es la misma que la del intervalo de confianza. Es de-
cir, si se seleccionan 100 muestras y se calculan 100 cinturones de confianza, esperamos que apro-
ximadamente 95 de ellos contengan la línea de regresión de la población. El cinturón de confianza
que hemos dibujado es uno de los 100 cinturones de confianza.
Obsérvese también cómo el cinturón de confianza se amplía a medida que se aleja de X = X.
Esto se debe a la cantidad (X − X)2 en la fórmula de la varianza (14.69).
Y
179.79
180
170 Yc = 172
150 152
139.79
140 142
130 132
124.21
0 1 X=2 3 4 X
5′ 3′′ 5′ 4′′ 5′ 5′′ 5′ 6′′ 5′ 7′′
Figura 14.15
[La siguiente Sección 14.12 puede omitirse sin pérdida de continuidad. Se sugiere que se lea
después del capítulo 22].
En algunos casos, uno puede querer hacer predicciones sobre valores individuales de Y . Por
ejemplo, dado un estudiante que mide 5′ 3′′ (X = 1), ¿cuál es su peso previsto? No estamos pregun-
tando por el peso medio de todos los estudiantes que miden 5′ 3′′ ; estamos preguntando por el peso
de un estudiante individual. Esta pregunta se responde encontrando el intervalo de confianza para
Y.
14.12. Intervalo de confianza para Y 359
Afirmamos sin pruebas que esta t tiene una distribución t con n − k − 1 = n − 2 grados de libertad.
Así pues,
P [−t0.025 < t < t0.025 ] = 0.95
que se convierte en
Y − Yc
P
−t0.025 < s < t0.025
= 0.95 (14.77)
1 (X − X)2
σ̂Y X 1+ + P
n (X − X)2
Como hay n−2 = 5−2 = 3 grados de libertad, t0.025 = 3.18. Por lo tanto, el intervalo de confianza
es, para X = 3,
√ √
162 − 3.18 · 13 < Y < 162 + 3.18 · 13
150.55 < Y < 173.45
La figura 14.17 es un gráfico de estos intervalos de confianza que, unidos, forman un cinturón
de confianza. La interpretación es la siguiente: Si seleccionamos 100 muestras y construimos 100
cinturones de confianza, deberíamos esperar que 95 de ellos incluyan los valores de Y correspon-
dientes a las X dadas. El cinturón de confianza que dibujamos en la Figura 14.16 es uno de los 100
cinturones de confianza.
14.13. Comentarios sobre el análisis de regresión 361
Y
190
184.72
180
170 Yc = 172
160 Yc = 162
159.28
150 Yc = 152
144.72 Yc = 142
140
130 Yc = 132
120
119.28
0 1 2 3 4 X
Figura 14.16
Observe cuidadosamente que estos valores Y son valores calculados a partir de la ecuación de
regresión.
Cuando se utilizan los intervalos de confianza (14.78) para predecir los valores de Y , si el valor
de X está dentro del intervalo de observaciones, el proceso se denomina interpolación. Si el valor de
X está fuera del rango de las observaciones, el proceso se denomina extrapolación.
Cuando se utiliza el intervalo de confianza para la extrapolación, hay que tener en cuenta que, en
primer lugar, cuando X cae fuera del rango de las observaciones, los supuestos relativos a los valores
de X y Y pueden cambiar. Por ejemplo, supongamos que encontramos una función de consumo
Y = a + bX
donde X es el ingreso y Y es el consumo y los valores de X se toman de 1946 a 1956. Si extrapolamos
a 1944, observamos que éste es un año de guerra, mientras que 1946-56 no son años de guerra. Por
lo tanto, una predicción de 1944 basada en el consumo de 1946 a 1956 probablemente no sea válida
debido al cambio en los supuestos relativos a X y Y .
También observamos que cuanto más se desvíe X de X, más amplio será el intervalo de con-
fianza. Por lo tanto, si se extrapola y X se desvía mucho de X, el valor de Y puede no ser fiable.
Otra crítica es que la suposición de una regresión lineal generalmente es válida sólo para un
rango corto de X, como ya hemos comentado en la página 000. Por lo tanto, cuando la extrapola-
ción se extiende más allá del rango, la suposición lineal puede no ser válida y, por lo tanto, el valor
predicho de Y puede no ser exacto.
1. La idea de la regresión. Supongamos que las personas altas tienden a casarse con personas altas
y que los padres altos tienen hijos altos o más altos, y que lo contrario ocurre con las personas
362 Análisis de Regresión Lineal
bajas. Entonces, después de varias generaciones, la gente se dividirá en dos grupos: un grupo
de personas como los gigantes y un grupo como los enanos.
Por suerte, o por desgracia, esto no ha ocurrido. Por el contrario, los estudios han demostrado
que los padres altos tienen hijos altos pero, en muchos casos, no tan altos como sus padres. Los
hijos tienden a retroceder hacia la altura media de la población. Del mismo modo, los padres
bajos tienden a tener hijos bajos, pero no tan bajos como los padres. Existe una tendencia a
que los hijos retrocedan hacia la estatura media de la población. Esta tendencia a la regresión
hacia la media de ambos extremos condujo a la idea del análisis de regresión.
2. Tipos de poblaciones. Los tipos de poblaciones que teníamos eran una familia de subpoblacio-
nes correspondientes a valores fijos de X en los que el
Una de las técnicas estadísticas más utilizadas por los estadísticos aplicados es el análisis de
correlación. En sus inicios, se utilizó en problemas biológicos, pero posteriormente se ha utilizado
ampliamente en economía, agricultura y muchos otros campos.
En este capítulo consideraremos el análisis de correlación para dos variables y en el Capítulo 23
se ampliará a los casos en que haya más de dos variables.
El análisis de correlación tiene dos aspectos. El primero es una medida del grado de covariabili-
dad entre dos variables X y Y , y el segundo es una medida del ajuste de una recta de regresión a la
distribución de las observaciones. Este segundo aspecto lo hemos tratado brevemente en el Capítulo
14.
Nuestro problema en este capítulo será definir un coeficiente de correlación poblacional para
poblaciones en las que X y Y varían conjuntamente; mostrar cómo se estima a partir de los datos
de la muestra; y finalmente presentar una prueba de significación para el coeficiente de correlación.
Dado que el procedimiento para estimar el coeficiente de correlación difiere según la distribución
de la población que se suponga, primero discutiremos las poblaciones en las que X y Y varían con-
juntamente y distinguiremos varios tipos de poblaciones; definiremos un coeficiente de correlación
que mida la covariabilidad de X y Y en tales poblaciones; y luego mostraremos cómo se estima a
partir de las diferentes poblaciones. A continuación, mostraremos cómo el coeficiente de correla-
ción definido para el análisis de regresión en el capítulo anterior puede aplicarse a estos nuevos tipos
de poblaciones y, por último, mostraremos cómo se relacionan entre sí estos tipos de coeficientes
de correlación aparentemente diferentes.
363
364 Análisis de Correlación
X
Altura, pulgadas Frecuencia
47 1
48 2
49 3
50 2
8
La distribución de las alturas (X) puede mostrarse mediante un histograma, como en la Figu-
ra 15.1. Hay 8 personas, y a cada persona se le asocia 1 variable, a saber, la altura (X).
f
3
3
2 2
2
1
1
X1 X2 X3 X4 X5 X
Figura 15.1
Asociemos ahora 2 variables a cada persona, la altura (X) y el peso (Y ), y supongamos los 4
pares de valores de X y Y en la tabla adjunta, que muestra las frecuencias de aparición de cada
par de valores de X y Y . Ahora que hay 2 variables en lugar de 1, la distribución de frecuencias se
muestra como un histograma tridimensional, como en la Figura 15.2. (Obsérvese que deberíamos
tener columnas con las barras que hemos dibujado en el centro de la Figura 15.2, pero por brevedad,
sólo mostraremos las barras. Se pide al alumno que visualice las columnas que faltan).
X Y
Altura, pulgadas Peso, libras Frecuencia
X1 = 47 Y1 = 41 1
X2 = 48 Y2 = 42 2
X3 = 49 Y3 = 43 3
X4 = 50 Y4 = 44 2
8
En lugar de tener simplemente un eje X, ahora tenemos un plano X −Y , y la altura de las barras
muestra las frecuencias de cada evento, que está formado por un par (X, Y ). Un punto en el plano
indica un suceso.
Volvamos a escribir la tabla anterior para que corresponda a la Figura 15.2. Tenemos:
Esta tabla muestra la frecuencia de los sucesos (Xi , Yj ), i, j = 1, 2, 3, 4. Como se ve en la tabla,
la frecuencia del suceso (X2 = 48 pulgadas, Y3 = 43 libras) es 0, la frecuencia del suceso (X4 = 50
pulgadas, Y4 = 44 libras) es 2, y así sucesivamente. En términos de frecuencias relativas, esta tabla
se convierte en:
15.1. La distribución bivariada 365
3
Y
2
Y4
Y3
1 Y2
Y1
X1 X2 X3 X4 X5 X
Figura 15.2
41 1 0 0 0 1
42 0 2 0 0 2
43 0 0 3 0 3
44 0 0 0 2 4
Frecuencia 1 2 3 2 8
de Xi
Cuadro 15.1
Por lo tanto, podemos decir que la probabilidad del suceso (X2 = 48 pulgadas, Y3 = 43 libras)
es f (X2 , Y3 ) = 0; la probabilidad del suceso (X4 = 50 pulgadas, Y4 = 44 libras) es f (X4 , Y4 ) =
2/8, y así sucesivamente.
Utilizando los símbolos de las probabilidades, esto puede expresarse como
P (X = X2 , Y = Y3 ) = f (X2 , Y2 ) = 0
2
P (X = X4 , Y = Y4 ) = f (X4 , Y4 ) =
8
y así sucesivamente. Como se ve, hay en total 4 · 4 = 16 pares de alturas y pesos, y 16 probabilidades
correspondientes. Estas probabilidades nos dan una distribución de probabilidad de los 16 pares de
(X1 , Yj ), y este sistema de 16 ecuaciones que muestra la distribución de probabilidad de los 16 pares
de (Xi , Yj ) se llama distribución de probabilidad conjunta de Xi y Yj . Como se ve en el Cuadro 15.2,
la suma de todas las probabilidades conjuntas es 1.
La distribución de probabilidad conjunta de Xi y Yj se expresa en forma general por
P (X = Xi , Y = Yj ) = f (Xi , Yj ), i, j = 1, 2, . . . , N
366 Análisis de Correlación
Frecuencia
Altura, X pulgadas Relativa
47 48 49 50 de Yj
Peso, Y libras
41 1/8 0 0 0 1/8
42 0 2/8 0 0 2/8
43 0 0 3/8 0 3/8
44 0 0 0 2/8 2/8
Frecuencia
relativa 1/8 2/8 3/8 2/8 1
de Xi
Cuadro 15.2
y
XX
f (Xi , Yj ) = 1
i j
Otro ejemplo de distribución bivariada es el del Cuadro 15.5, donde hay 73 valores observados. Divi-
diendo las frecuencias entre N = 73, obtenemos las frecuencias relativas, que podemos considerar
como las probabilidades de los sucesos (Xi , Yj ).
La Figura15.3 es una ilustración generalizada de una distribución conjunta de dos variables en
la que ahora tenemos una superficie de frecuencias en lugar de una curva de frecuencias.
Altura, X pulgadas
46 47 48 49 50 51 52 53 54 55 fY
40 1 1
41 1 1 1 3
42 2 2 2 1 7
Peso, Y libras
43 3 3 2 8
44 2 4 2 1 9
45 1 3 5 2 1 12
46 3 4 3 2 12
47 2 4 2 1 1 10
48 2 1 2 1 1 7
49 1 1 1 1 4
fX 1 3 9 18 20 9 7 3 2 1 73
Cuadro 15.3
Cortemos esta población en una altura X (digamos, X = 49 pulgadas). Como muestra la Fi-
gura 15.3, tenemos una curva de frecuencias que da las frecuencias de Y para la X dada. Es decir,
tenemos una subpoblación de Y correspondientes a una X = 49 pulgadas dada, y esta subpobla-
ción se muestra mediante la columna correspondiente a X = 49 pulgadas en el Cuadro 15.5. Hasta
ahora, esto es similar a la población que asumimos en el análisis de regresión.
Pero ahora cortemos la población en algún peso Y (digamos, Y = 42 lb.). Entonces tenemos una
subpoblación correspondiente de alturas X, que viene dada por la fila correspondiente a Y = 42 lb.
en el Cuadro 15.5. Tenemos, pues, una familia de subpoblaciones de X correspondientes a Y dadas.
15.2. Coeficiente de correlación: Caso I 367
49◦
X
Figura 15.3
Por lo tanto, tenemos subpoblaciones tanto para X como para Y y estas variables son variables
aleatorias con distribuciones.
Obsérvese cuidadosamente que no hemos especificado las distribuciones de las subpoblaciones
de X o Y . Llamemos a dicha distribución bivariada población Tipo III o simplemente distribución
bivariada y utilicemos ambos términos indistintamente.
En contraste con esta población Tipo III, cuando ambas subpoblaciones correspondientes a las
X y Y tienen distribuciones normales, llamaremos a esta distribución bivariada población Tipo IV
o distribución normal bivariada. Como se ve, esta distribución normal bivariada puede considerarse
como un caso especial de la población Tipo III.
El análisis de correlación se refería originalmente al tipo de población bivariada, pero, como
hemos visto en el capítulo anterior, también puede aplicarse a la población Tipo I.
Como se ha mencionado anteriormente, el procedimiento de estimación difiere según el tipo de
población que supongamos. Empecemos por el caso que supone la distribución normal bivariada
por su trazabilidad matemática y facilidad de explicación, para pasar después al caso que supone la
distribución bivariada general.
Supongamos que tenemos una distribución normal bivariada de las alturas de los hermanos.
Podemos ver que las alturas varían juntas en cierta medida, pero no existe una relación causa-efecto.
Lo que queremos hacer es encontrar una medida, el coeficiente de correlación, que nos muestre el
grado de esta covariabilidad de las alturas. Para ello, definamos primero el coeficiente de correlación
para la distribución bivariada general y expliquemos su significado; a continuación, supongamos
una distribución normal bivariada y mostremos cómo se estima a partir de los datos de la muestra.
368 Análisis de Correlación
Sean X y Y dos variables con una distribución bivariada con medias y varianzas como las si-
guientes:
E(X) = µX ,E(Y ) = µY
2
V ar(X) = σX ,V ar(Y ) = σY2
Cov(X, Y
ρ=
σX σY
(15.2)
E(X − µX )(Y − µY )
=p p
E(X − µX )2 E(Y − µy )2
Nótese tres cosas en relación con (15.2). La primera es que la fórmula es simétrica con respecto a
X y Y . La segunda es que después de dividir por σX y σY , ρ se vuelve independiente de las unidades
de medida. La tercera es que el proceso de restar µX y µY indica que el origen se ha desplazado a µX
y µY . Por lo tanto, ρ puede considerarse como la covarianza de dos variables estandarizadas. Por lo
tanto, para entender ρ, tenemos que entender qué se entiende por covarianza. Consideremos esto a
continuación.
La definición de covarianza dada en la ecuación (15.1) puede reescribirse como
XX
donde la suma es sobre todas las combinaciones posibles de Xi y Yj y donde f (Xi , Yj )
i j
es la función de probabilidad conjunta de Xi e Yj .
Utilizando nuestra ilustración anterior, calculemos Cov(X, Y ) para comprender mejor la defi-
15.2. Coeficiente de correlación: Caso I 369
X
4 X
4
Cov(X, Y ) = (Xi − µX )(Yj − µY )f (Xi , Yj )
i=1 j=1
porque, por ejemplo, f (X2 , Y1 ) = 0/8 = 0, f (X3 , Y1 ) = 0/8 = 0, y así sucesivamente, por lo que
estos términos desaparecen.
Calculemos a continuación µX . Por definición
X
4
E(X) = µX = Xi f (Xi )
i=1
= X1 f (X1 ) + · · · + X4 f (X4 )
1 2 3 2
= 47 · + 48 · + 49 · + 50 ·
8 8 8 8
390
= = 48.75
8
donde las f (Xi ) se obtienen del Cuadro ??. De forma similar,
X
4
E(Y ) = µX = Yj f (Yj ) = 42.75
j=1
Por lo tanto,
1
Cov(X, Y ) = (47 − 48.75)(41 − 42.75) ·
8
2
+ (48 − 48.75)(42 − 42.75) ·
8
3
+ (49 − 48.75)(43 − 42.75) ·
8
2
+ (50 − 48.75)(44 − 42.75) ·
8
= 0.9375
Los cálculos del Cuadro 15.4 pueden presentarse en forma de fórmula como
1 X 1
Cov(X, Y ) = (Xi − µX )(Yi − µY ) = · 7.5 = 0.9375
N 8
Cuadro 15.4
P
donde N es el número total de observaciones y la suma es sobre el número total de obser-
vaciones. En nuestro caso actual N = 8, y 1/N = 1/8 muestra la probabilidad asociada a cada
observación.
Una vez que nos hemos familiarizado con la definición y los cálculos de la covarianza, vamos a
investigar su significado, que nos llevará a la forma de utilizarla. Como sugiere el término covarianza,
estamos interesados en la covariabilidad de dos variables X y Y . La covariabilidad de X y Y puede
investigarse desde dos puntos de vista. Uno es: ¿Varían X y Y en la misma dirección? (Es decir,
cuando X aumenta, Y también aumenta.) ¿O varían en direcciones opuestas? (Es decir, cuando X
aumenta, Y disminuye.) El segundo punto de vista es: ¿Varían X y Y estrechamente juntos? ¿O
varían de forma imprecisa?
Partiendo de la primera pregunta, grafiquemos el caso en el que X y Y varían en la misma
dirección utilizando los siguientes datos hipotéticos.
(X − 3)
X Y X −3 Y −2 ·(Y − 2) (X − 3)2 (Y − 2)2
1 1 -2 -1 2 4 1
1 1 1 1
2 1 -1 − 1
2 2 2 4
3 2 0 0 0 0 0
1 1 1 1
4 2 1 1 1
2 2 2 4
5 3 2 1 2 4 1
1
15 10 5 10 2
2
Media = 3 2
Cuadro 15.5
15.2. Coeficiente de correlación: Caso I 371
Y Y µX = 3
3 3
2 2 µY = 2
1 1
1 2 3 4 5 X 1 2 3 4 5 X
(a) (b)
Figura 15.4
Los datos caen sobre una línea recta (Figura 15.4), dada por
1 1
Y = + X
2 2
P
Del Cuadro ??, (X − 3)(Y − 2) = 5. Entonces
1 X 1
Cov(X, Y ) = (Xi − µX )(Yi − µY ) = · 5 = 1
N 5
Podemos ver en la Figura 15.5(a) que cuando X y Y varían en la misma dirección, los puntos (X, Y )
están en el 3er y 1er cuadrante, y por lo tanto cada (X − µX ) P
y (Y − µY ) es positivo (o cero). Por
lo tanto, cuando X y Y varían en la misma dirección, la suma (X − µX )(Y − µY ) es positiva, y
Cov(X, Y ) también es positiva.
Y Y
X X
Y Y
X X
Figura 15.5
P Del mismo modo, cuando X y Y varían en direcciones opuestas, como en la Figura 15.5(b),
(X − µX )(Y − µY ) es negativo y Cov(X, Y ) es negativo.
372 Análisis de Correlación
Cuando la relación entre X y Y es lineal, podemos ver intuitivamente en el gráfico que lo con-
trario es cierto. Es decir, cuando Cov(X, Y ) > 0, X y Y varían en la misma dirección, y cuando
Cov(X, Y ) < 0, X y Y varían en direcciones opuestas.
Sin embargo, cuando la relación entre X y Y es no lineal, como en la Figura 15.5(c), el Cov(X, Y ) >
0 no indica necesariamente que X y Y varíen en la misma dirección.
P En la Figura 15.5(c), el signo de
Cov(X, Y ) dependerá de si el aspecto positivo o negativo de (X − µX )(Y − µY ) es dominante,
y como puede verse, la covariabilidad de X y Y es primero en direcciones opuestas, y luego cambia
a la misma dirección.
Además del signo de Cov(X, Y ), consideremos ahora la magnitud de |Cov(X, Y )|, el valor
absoluto de Cov(X, Y ). Cuando los puntos
P (X, Y ) están dispersos como en la Figura 15.6, los tér-
P positivos y negativos de la suma (X − µX )(Y − µY ) tenderán a anularse y como resultado
minos
| (X − µX )(Y − µY )| tenderá a ser pequeño.
Y µX
∗
∗ ∗
∗ ∗ ∗
∗∗ µY
∗
∗ ∗ ∗
X
Figura 15.6
Por lo tanto, podemos decir que cuando los puntos (X, Y ) están dispersos al azar, entonces
|(X − µX )(Y − µY )| es pequeño y Cov(X, Y ) es pequeño.
Los puntos (X, Y ) estarán dispersos aleatoriamente cuando X y Y no estén relacionados, es
decir, cuando X y Y sean independientes y no tengan covariabilidad. Por lo tanto, cuando X y Y
son independientes y no tienen covariabilidad, Cov(X, Y ) será muy pequeño. De hecho, cuando
suponemos que X y Y son independientes,
Ejemplo No. 1
Supongamos que tenemos una variable aleatoria X que toma los valores −2, −1, 1 y 2
con probabilidades de 1/4. Sea
Y = X2
Entonces Y también es una variable aleatoria y podemos encontrar Cov(X, Y ) como
sigue.
1 X
Cov(X, Y ) = (X − µX )(Y − µY )
N
1
= ·0=0
4
Ejemplo No. 2
Utilizando el concepto de covarianza, podemos encontrar resultados importantes relati-
vos a V ar(X + Y ) como sigue.
Ejemplo No. 3
Si X y Y son independientes, entonces Cov(X, Y ) = 0. Así obtenemos el importantísi-
mo resultado de que
Los resultados se pueden generalizar. Como ejercicio, escriba las fórmulas para el caso en que haya
3 variables.
La siguiente pregunta es: ¿Varían X y Y estrechamente? ¿Qué queremos decir cuando decimos
que X y Y varían estrechamente? De forma no rigurosa, nos referimos a una situación en la que
los cambios en X y Y son aproximadamente proporcionales. En un diagrama, se verá que X y Y
varían estrechamente; de hecho, la covariabilidad es perfecta cuando los puntos caen sobre una línea
recta que pasa por (µX , µY ) como se muestra en la Figura 15.7(a). Cuando los puntos están muy
dispersos alrededor de una recta que pasa por (µX , µY ), como se muestra en la Figura 15.7(b), X y
Y no varían estrechamente.
Ahora la pregunta es: ¿Cómo podemos mostrar cuantitativamente este grado de covariabilidad?
Investiguemos esta cuestión calculando primero ρ para nuestra ilustración. A partir de los datos del
Cuadro ??, tenemos
Cov(X, Y )
ρ=
σX σY
1
=r r
10 5/2
5 5
Cuadro 15.6
1 X
Cov(X, Y ) = (X − µX )(Y − µY )
N
1
= ·5=1
5
como en el ejemplo del Cuadro ?? donde los puntos caían sobre la recta y tenían una covarianza
perfecta.
Sin embargo, a partir de la Figura 15.7, vemos que la covariabilidad de X y Y en el presente
ejemplo es más floja.
Nuestro ejemplo muestra que la covarianza por sí sola no es suficiente para mostrarnos lo cerca
que varían X y Y . Una reconsideración de la fórmula de correlación
Cov(X, Y )
ρ=
σX σY
15.2. Coeficiente de correlación: Caso I 375
Y Y
3 3
µY
2 µX 2
1 1
1 2 3 4 5 X 1 2 3 4 5 X
(a) (b)
Figura 15.7
muestra que el grado de cercanía entre X y Y debe considerar la Cov(X, Y ) en relación con σX y
σY .
2 sigue siendo 2. σ 2 , es ahora
En los dos ejemplos anteriores, las X son iguales y, por tanto, σX Y
1 50 5
σY2 = · =
5 16 8
En el ejemplo anterior, era 1/2 = 4/8; el aumento de σY2 se debe a la mayor dispersión de las Y .
Como se verá en el ejemplo 4, σY es mínimo cuando los puntos caen sobre la recta que pasa por
(µX , µY .
En el presente caso,
Cov(X, Y ) 1 p
ρ= =√ p = 4/5 = 0.89
σX σY 2 5/8
Ejemplo No. 4
En este ejemplo demostraremos que σY2 es mínimo cuando los puntos caen sobre la
recta que pasa por (µX , µY ). Utilizaremos el cálculo. Este ejemplo puede omitirse sin
pérdida de continuidad.
Y
C
A y3 Y = a + bX
y1
y2
B
X
Figura 15.8
1
σY2 = (y12 + y22 + y32 )
3
x 1 y 1 + x 2 y 2 + x 2 y3 = k
Así,
λ
yi = − x i
2 P
k x i yi
= P 2 xi = P 2 xi
xi xi
= bxi
Como yi = Yi − µY , y xi = Xi − µX , obtenemos
Yi − µY = b(Xi − µX )
Yi = (µY − bµX ) + bXi
Así, la condición necesaria para que σY2 sea mínimo es que las Y estén en la recta Y = a + bX,
donde a = µY − bµX .
15.2. Coeficiente de correlación: Caso I 377
Cov(X, Y )
ρ(X, Y ) =
σX σY
E(X − µX )(Y − µY )
=
σX σY
X − µX Y − µY
=E ·
σX σY
Sea
X − µX Y − µY
X∗ = Y∗ =
σX σY
y en el Capítulo 4, X ∗ y Y ∗ se llamaron variables estandarizadas. Entonces
∗ X − µX µX − µX
E(X ) = E = =0
σX σX
Así, el coeficiente de correlación ρ(X, Y ) es el mismo que la covarianza de las variables estandari-
zadas X ∗ y Y ∗ . Por lo tanto, las propiedades de Cov(X, Y ) con respecto al signo y la magnitud se
trasladan a ρ. Lo que queda es investigar lo grande que puede llegar a ser ρ y lo que indica.
En primer lugar, observamos que al aumentar la dispersión de los puntos en torno a la recta,
podemos aumentar la magnitud de |Cov(X, Y )| tanto como queramos. ¿Y qué pasa con ρ? ¿Cómo
de grande puede ser ρ? La respuesta es: El valor máximo que puede tomar ρ es |ρ| = 1.
Para demostrarlo, dejemos que
2 + 2ρ(X, Y ) = 2 + 2Cov(X ∗ , Y ∗ )
= V ar(X ∗ ) + V ar(Y ∗ ) + 2Cov(X ∗ , Y ∗ )
= V ar(X ∗ + Y ∗ )
V ar(X ∗ + Y ∗ ) ≥ 0
Por lo tanto
2 + 2ρ(X, Y ) ≥ 0
Del mismo modo
2 − 2ρ(X, Y ) ≥ 0
Así,
|ρ(X, Y ) ≤ 1
y el valor máximo que puede tomar |p| es 1.
Cuando la relación entre X e Y es lineal, como
Y = a + bX
378 Análisis de Correlación
2 − 2ρ(X, Y ) = 0
Y ∗ = X∗ − k
Y − µY X − µX
= −k
σY σX
∴ Y = a + bX
−σY σY
donde a = µX + µY − kσY y b = . Así, si ρ(X, Y ) = 1, entonces X y Y son
σX σX
linealmente dependientes. De forma similar para ρ(X, Y ) = −1.
Encontramos que cuando X y Y son independientes, o cuando la relación entre X y Y es no
lineal, como Y = X 2 , la ρ(X, Y ) puede ser cero. Por lo tanto, no podemos decir en general que si
ρ(X, Y ) = 0, entonces X y Y son necesariamente independientes. Sólo podemos decir en general
que X y Y no son linealmente dependientes entre sí.
Así, ρ(X, Y ) puede considerarse como una medida de la dependencia lineal de X y Y entre sí.
Si ρ(X, Y ) = 1, entonces X y Y son perfectamente dependientes linealmente. Si ρ(X, Y ) = 0,
entonces X y Y no son linealmente dependientes entre sí.
1. El signo de Cov(X, Y ). Vimos que si la dispersión de los puntos (X, Y ) estaba en los cuadran-
tes 3ro y 1ro, suponiendo que el origen está en (µX , µY ), entonces Cov(X, Y ) > 0; y si la
dispersión de los puntos (X, Y ) estaba en los cuadrantes 2do y 4to, entonces Cov(X, Y ) < 0.
Esto significa que si X y Y covarian en la misma dirección, entonces Cov(X, Y ) > 0; si X y
Y covarian en direcciones opuestas, entonces Cov(X, Y ) < 0.
Sin embargo, la inversa del resultado anterior no es válida en general. No podemos decir que
si
PCov(X,
P Y ) > 0, entonces X y Y covarian en la misma dirección. Dado que Cov(X, Y ) =
(X − µX )(Y − µY )f (X, Y ), mientras la suma de los productos cruzados positivos
15.2. Coeficiente de correlación: Caso I 379
(X−µX )(Y −µY ) sea mayor que la suma de los productos cruzados negativos, Cov(X, Y ) >
0. Podemos encontrar casos en los que Cov(X, Y ) > 0 y, sin embargo, X y Y no covarían
en la misma dirección en casos no lineales.
Del mismo modo, no podemos decir que si Cov(X, Y ) < 0, entonces X y Y varían en
direcciones opuestas. Podemos encontrar casos en los que Cov(X, Y ) < 0, y sin embargo X
y Y no varían en direcciones opuestas en los casos no lineales.
Sin embargo, si limitamos nuestra atención a los casos en los que la relación entre X y Y es
lineal, entonces podemos afirmar que Cov(X, Y ) > 0 (Cov(X, Y ) < 0) implica que X y Y
covarian en la misma dirección (direcciones opuestas).
5. La ρ que hemos estado considerando en este capítulo supone una distribución bivariada, y
tanto X como Y varían. Una población con X fijas, como la que discutimos en el Capítulo
14, no nos dará una ρ basada en este tipo de interpretación covariante. El caso para X fijas se
considera en el Caso 2.
6. Otra situación en la que no hay covariabilidad es cuando una de las variables es una constante.
Por ejemplo, dejemos que Y = 5. Entonces podemos tener valores de X y Y como en la tabla
siguiente. En este caso la covarianza se convierte en
1 X
Cov(X, Y ) = (X − µX )(Y − µY )
N
1
= ·0=0
4
380 Análisis de Correlación
X Y X − µX Y − µY (X − µX )(Y − µY )
1 5 -1.5 0 0
2 5 -0.5 0 0
3 5 0.5 0 0
4 5 1.5 0 0
0
La población bivariada que hemos supuesto sólo tiene 4 observaciones, pero en general el tama-
ño de la población es grande, por lo que es necesario seleccionar una muestra y estimar ρ. Como ya
se ha dicho, en este apartado vamos a suponer una distribución normal bivariada y estimar ρ. Bajo
este supuesto, el procedimiento de estimación consiste en aplicar el método de máxima verosimili-
tud. Sin derivación, presentamos el resultado:
1 P
(X − X)(Y − Y )
ρ̂ = r = r n−1 r
1 P 1 P
(X − X) 2 (Y − Y )2
n−1 n−1 (15.4)
P
(X − X)(Y − Y )
q
= P P
(X − X)2 (Y − Y )2
Ejemplo No. 1
Supongamos que se selecciona una muestra aleatoria de 5 estudiantes y que sus califica-
ciones en inglés y matemáticas (sobre una base de 10 puntos) son las que aparecen en
la tabla. Halla el coeficiente de correlación r.
X Y
Inglés Matemáticas XY X2 Y2
2 3 6 4 9
5 4 20 25 16
3 4 12 9 16
7 8 56 49 64
8 9 72 64 81
25 28 166 151 186
Ejemplo No. 2
Supongamos que las calificaciones del Ejemplo 1 son sobre una base de 100, como se
muestra en la tabla.
X Y
Inglés Matemáticas
20 30
50 40
30 40
70 80
80 90
Entonces, como se puede ver fácilmente, los productos cruzados, los cuadrados y las sumas se
convertirán en números muy grandes, haciendo los cálculos tediosos. Para evitar esto, podemos
dividir tanto X como Y por 10, lo que hará que sea lo mismo que en el Ejemplo 1. No habrá ningún
efecto sobre r.
También podemos dividir sólo la X o la Y por 10 o por algún otro número, y no habrá ningún
efecto sobre r. La comprobación de estos resultados se dejará al estudiante.
Ejemplo No. 3
Supongamos que las calificaciones en inglés y matemáticas de los 5 alumnos selecciona-
dos al azar son las que aparecen en la siguiente tabla.
382 Análisis de Correlación
X Y X′ Y′
Inglés Matemáticas = X − 70 = Y − 80
72 83 2 3
75 84 5 4
73 84 3 4
77 88 7 8
78 89 8 9
En este caso, dividir por 10 o por algún otro número no simplifica los cálculos. Pero, como
muestran las observaciones, si dejamos que
X ′ = X − 70
Y ′ = Y − 80
como se muestra en la tabla, los datos se simplifican y los cálculos son más fáciles. Una comprobación
mostrará que la r calculada por X ′ y Y ′ (o X y Y ′ , o X ′ y Y ) dará los mismos resultados que el uso
de X y Y . La comprobación se deja al estudiante.
Ejemplo No. 4
Sea X el número de libras de artículos en un bolso y Y el tamaño de los bolsos que
llevan las mujeres. Una muestra aleatoria de 15 mujeres produjo los datos de la tabla
adjunta, donde hay 2 mujeres que tienen bolsos de la talla 5 y 3 libras de artículos. En
total hay 15 observaciones. La diferencia entre esta muestra y la anterior es que en la
anterior sólo había 1 observación para cada par de X, Y , pero en nuestra muestra actual,
puede haber más de 1 observación.
1 P
(X − X)(Y − Y )
r=r n−1 r (15.6)
1 P 1 P
(X − X) fX
2 (Y − Y )2 fY
n−1 n−1
donde
1X
X= XfX
n
1X
Y = Y fY
n
El 1/(n − 1) se anula y (15.6) se convierte en
P
(X − X)(Y − Y )
r = qP qP (15.7)
(X − X)2 fX (Y − Y )2 fY
El denominador se convierte en
X X 2
(X − X)2 fX = (X 2 − 2XX + X )fX
X X 2X
= X 2 fX − 2X XfX + X fX
X 2 2
= X 2 fX − 2nX + nX
X 2
= X 2 fX − nX
X X 2
(Y − Y )2 fY = Y 2 fY − nY
(4 · 2) · 1 + (4 · 3) · 1 = 20
(5 · 2) · 1 + (5 · 3) · 2 + (5 · 4) · 1 = 60
(6 · 3) · 1 + (6 · 4) · 3 + (6 · 5) · 2 = 150
(7 · 4) · 2 + (7 · 5) · 1 = 91
y el total es X
XY = 20 + 60 + 150 + 91 = 321
La XY de la última fila de la tabla se calcula de la misma manera y el total es también 321.
Referencia
E(X − X)(Y − Y )
ρ= q q
E(X − X)2 E(Y − Y )2
Sea
X ′ = a + bX
Y ′ = c + dY
384 Análisis de Correlación
Entonces
′
X = E(X ′ ) = a + bE(X) = a + bX
′
Y = E(Y ′ ) = c + dE(X) = c + dX
El coeficiente de correlación de X ′ y Y ′ es
′ ′
′ E(X ′ − X )(Y ′ − Y )
ρ =q q
′ ′
E(X ′ − X )2 E(Y ′ − Y )2
El numerador se convierte en
′ ′
E(X ′ − X )(Y ′ − Y ) = E[a + bX − (a + bX)][c + dY − (c + dY )]
= E[bX − bX][dY − dY ]
= bdE[X − X][Y − Y ]
El denominador se convierte en
′
E(X ′ − X )2 = E[a + bX − (a + bX)]2
= b2 E[X − X]2
′
E(Y ′ − Y )2 = d2 E[Y − Y ]2
q q
′ ′
∴ E(X ′ − X )2 E(Y ′ − Y )2 = bd E(X − X)2 (E(Y − Y )2
Sustituyendo estos resultados en ρ′ , encontramos
bdE(X − X)(Y − Y )
ρ′ = q
bd E(X − X)2 E(Y − Y )2
E(X − X)(Y − Y )
=q
E(X − X)2 E(Y − Y )2
=ρ
De forma similar, los coeficientes de correlación de X y Y ′ , o de X ′ y Y , son iguales a ρ.
(ii) Cuando hay covariabilidad perfecta, ρ = 1. Consideremos la función
Y = a + bX
Entonces X y Y tienen covariabilidad perfecta. La ρ para X y Y es
E(X − µX )(Y − µY )
ρ= p p
E(X − µX )2 E(Y − µY )2
E(X − µX )(a + bX − a − bµx )
=p p
E(X − µX )2 E(a + bX − a − bµX )2
bE(X − µX )2
= p p
b E(X − µX )2 E(X − µX )2
=1
El primer enfoque del análisis de correlación que hemos discutido hacía hincapié en la cova-
riabilidad de las dos variables X y Y . El segundo enfoque del análisis de correlación que vamos a
discutir ahora está relacionado con el análisis de regresión y muestra la cercanía del ajuste de la línea
de regresión a la distribución de las observaciones. Como veremos, este segundo enfoque es aplicable
tanto a la distribución bivariada como a la distribución normal bivariada. Dado que la distribución
normal bivariada puede considerarse como un caso especial de la distribución bivariada, supon-
dremos una distribución bivariada para nuestra discusión de este segundo enfoque. Comencemos
mostrando primero cómo se puede aplicar el análisis de regresión a las distribuciones bivariada en
esta sección, y luego mostremos cómo se define el coeficiente de correlación para este caso en la
Sección 15.4.
Supongamos que se selecciona una muestra aleatoria de tamaño n = 3 a partir de una distribu-
ción bivariada de horas de estudio (X) y calificación (Y ), que está en una base de 10 puntos. Dado
que tanto X como Y varían, podemos encontrar la regresión de Y (nota) sobre X (horas), donde
suponemos que X se mantiene fija, o de X sobre Y , donde suponemos que Y se mantiene fija.
X, horas Y , notas XY X2 Y2
2 5 10 4 25
4 3 12 16 9
6 7 42 36 49
12 15 64 56 83
Para el primer caso, la recta de regresión obtenida por el método de los mínimos cuadrados es
Yc = a + bX (15.9)
y los a y b son
P P P
n XY − X Y
b= P P
n X 2 − ( X)2
3 · 64 − 12 · 15 1
= =
3 · 56 − (12)2 2
P P
Y X
a= −b
n n
15 1 12
= − · =3
3 2 3
Así, la recta de regresión (15.9) se convierte en
1
Yc = 3 + X (15.10)
2
Para el segundo caso, la recta de regresión es
X c = a ′ + b′ Y (15.11)
La recta de regresión (15.9) se muestra en la Figura 15.9(a); (15.12) se muestra en la Figura 15.9(b),
y ambas se muestran juntas en la Figura 15.9(c). Como muestra la Figura 15.9(c), las dos rectas de
regresión se cruzan en X = 4, Y = 5. Esto se ve fácilmente por
1
Yc = 3 + ·5=5=Y
2
y
3 1
Xc = + ·5=4=X
2 2
Y Y
Xc
7 7
Yc
5 5
3 3
2 4 6 X 2 4 6 X
(a) (b)
Y Xc
7
Yc
5
3
2 4 6 X
(c)
Figura 15.9
La diferencia de las dos líneas de regresión puede verse gráficamente. La línea de regresión de
Y sobre X se ajusta de manera que la suma de las desviaciones al cuadrado tomadas en la dirección
vertical se minimiza. En el caso de X sobre Y , se minimiza la suma de las desviaciones al cuadrado
en la dirección horizontal.
El análisis de regresión de Y sobre X implica que Y depende de X. Como veremos cuando
tratemos distribuciones bivariadas y apliquemos el análisis de correlación, los datos se tratan como si
hubiera una relación bidireccional. Por ejemplo, si tenemos una distribución bivariada de las alturas
de los hermanos, podemos ver que varían juntos en cierta medida, pero no hay una relación de
causa y efecto. Cuando tenemos una distribución bivariada de las alturas del padre (X) y del hijo
(Y ), la altura del hijo (Y ) depende en cierta medida de la altura del padre (X). Pero el análisis de
correlación aplicado a estos datos los trata como si hubiera una relación bidireccional. Cuando se
aplica el análisis de correlación, y se asume una relación de dependencia entre X y Y , no se basa
en las ideas debidas al análisis de correlación, sino en otras consideraciones no estadísticas, como
la herencia. El análisis de correlación trata los datos de forma simétrica y es neutral en cuanto a la
dirección de la dependencia.
15.4. El coeficiente de correlación: Caso II 387
Lo que proponemos ahora es eliminar el supuesto de una distribución normal bivariada (población
Tipo IV) y considerar el procedimiento de estimación para una distribución bivariada (población
Tipo III). Como veremos, el procedimiento de estimación utilizará los resultados de la Sección 15.3,
donde encontramos dos líneas de regresión, y también los resultados del capítulo 14, donde en-
contramos un coeficiente de correlación que medía el grado de ajuste de la línea de regresión a la
distribución de las observaciones de la muestra.
Empecemos por definir el coeficiente de correlación de la población.
Supongamos que tenemos una distribución bivariada. En el apartado 15.3 vimos cómo se podían
ajustar dos rectas de regresión
µY X = A + BX (15.14)
µ Y X = A′ + B ′ Y (15.15)
a los datos de la población por el método de los mínimos cuadrados. Dejemos que la Figura 15.10
muestre la línea de regresión poblacional (15.10) y que Y sea un valor individual: Entonces
Y = µY X + ϵ (15.16)
Y Y
ϵ µY X = A + BX
µY X
µY
µX X X
Figura 15.10
Y − µY = (Y − µY X ) + (µY X − µY ) (15.17)
| {z } | {z } | {z }
Error total Error no explicado Error explicado
388 Análisis de Correlación
P
donde la suma se toma sobre la población. El término (Y −µY )2 se llama suma P total de cuadrados.
La ecuación (15.18) muestra cómo se puede dividir
P (repartir) en dos partes: (Y − µY )2 , que se
denomina suma de cuadrados no explicada; y (µY X − µY ) , que se denomina suma de cuadrados
2
explicada.
Utilizando la relación básica dada por la ecuación (15.18) podemos ahora definir el coeficiente
de correlación de la población. Como hicimos en el Capítulo 14, definimos
P
(µY X − µY )2
ρ = P
2
(Y − µY )2
(15.19)
suma de cuadrados explicada
=
suma total de cuadrados
como el coeficiente de determinación y éste muestra la cantidad de error total que ha sido redu-
cido (o, explicado) por la línea de regresión. Si, por ejemplo, ρ2 = 0.90, significa que el 90% de la
variabilidad ha sido explicada (o, eliminada) por la línea de regresión.
La raíz cuadrada de ρ2 , es decir, ρ es el coeficiente de correlación de la población. El signo de ρ es
el mismo que el del coeficiente B de la recta de regresión.
La fórmula (15.19) parece bastante diferente de nuestra fórmula anterior del coeficiente de co-
rrelación poblacional, que se definía como la covarianza de las variables estandarizadas X y Y . Sin
embargo, una pequeña manipulación algebraica mostrará que ambas definiciones son iguales. Lo
demostraremos de la siguiente manera: La recta de regresión puede mostrarse como
µY X = µY + B(X − µX )
A = µY − BµX
P (15.20)
(X − µX )(Y − µY )
B= P
(X − µX )2
donde la línea de regresión se ha ajustado a los puntos por el método de los mínimos cuadrados. De
(15.20) obtenemos
µY X − µY = B(X − µX ) (15.21)
15.4. El coeficiente de correlación: Caso II 389
La ecuación de regresión de la muestra se estima a partir de los datos de la muestra por el método
de los mínimos cuadrados, y el uso del método de los mínimos cuadrados, como hemos visto en el
Capítulo 14, fue motivado por el teorema de Gauss-Markov. Encontramos que esta línea de regresión
era el mejor estimador lineal insesgado (MELI) de la ecuación de regresión de la población y estaba
dada por
Yc = a + bX
a = Y − bX
P (15.23)
(X − X)(Y − Y )
b= P
(X − X)2
De forma similar a la relación de la ecuación (15.17) encontrada en la discusión anterior, encontra-
mos para la ecuación de regresión de la muestra (ver Figura 15.11)
Y −Y = Y −Y + Yc − Y (15.24)
| {z } | {z }c | {z }
Error total Errornoexplicado Errorexplicado
donde la suma se toma sobre la muestra. Muestra cómo la suma total de cuadrados (varianza total)
se divide (particiona) en dos partes, la suma de cuadrados no explicada y la explicada.
Y Y
ϵ
Yc
Y
X X
Figura 15.11
Yc = Y + b(X − X)
(15.27)
Yc − Y = b(X − X)
P
(X − X)(Y − Y )
r = qP P (15.28)
(X − X)2 (Y − Y )2
15.4. El coeficiente de correlación: Caso II 391
que es la misma que encontramos en el Apartado 15.2. A efectos de cálculo, (15.28) se reescribe
como P P P
n XY − X · Y
r=p P P P P (15.29)
[n X 2 − ( X)2 ][n Y 2 − ( Y )2 ]
Ilustremos estas diversas relaciones con una ilustración hipotética. Supongamos que X son las horas
de estudio y Y son las calificaciones, como se indica en la tabla siguiente. Las ecuaciones de regresión
de Y sobre X y de X sobre Y se hallan por el método de los mínimos cuadrados y los resultados
son los siguientes
X, Y,
Horas Notas XY X2 Y2 Yc
2 5 10 4 25 4
4 3 12 16 9 5
5 7 42 36 49 6
12 15 64 56 83 15
1
Yc = 3 + X (15.30)
2
3 1
Xc = + Y (15.31)
2 2
X = 4, Y =5
La Figura 15.12 muestra la recta de regresión (15.30) y la relación
(Y − Y ) = (Y − Yc ) + (Yc − Y )
(7 − 5) = (7 − 6) + (6 − 5)
Y
8
Y =7
7 Y − Yc
Y −Y
6 Yc − Y
5
4
3
2
2 3 4 5 6 7 X
Figura 15.12
Comprobemos a continuación la relación entre la suma de cuadrados dada por (15.25). Para ello
construimos una hoja de cálculo.
Y −Y (Y − Y )2 Y − Yc (Y − Yc )2 Yc − Y (Yc − Y )2
0 0 1 1 -1 1
-2 4 -2 4 0 0
2 4 1 1 1 1
8 6 2
392 Análisis de Correlación
X X X
(Y − Y )2 = (Y − Yc )2 + (Yc − Y )2
8=6+2
El coeficiente de determinación es
P
(Yc − Y )2
r = P
2
(Y − Y )2
Esto muestra que el 25% de la variabilidad ha sido explicada (eliminada) por la recta de regresión.
El coeficiente de correlación es √
r = ± 0.25 = ±0.5
y la observación de los datos y el diagrama de dispersión muestran que
r = +0.5
Cuando se utiliza la fórmula computacional (15.29), el signo de r se determina automáticamente.
Para el presente caso,
3 · 64 − 12 · 15
r=p
[3 · 56 − 122 ][3 · 83 − 152 ]
4
= = 0.5
8
El coeficiente de correlación r es la media geométrica de b y b′ , que son las pendientes de las dos
rectas de regresión. Es decir, √
r = b · b′
Lo explicamos de la siguiente manera: Dada una muestra aleatoria, podemos encontrar la regresión
de X sobre Y o de Y sobre X; las dos rectas de regresión son
Yc = a + bX
X c = a ′ + b′ X
donde
P
(X − X)(Y − Y )
b= P
(X − X)2
P
(X − X)(Y − Y )
b′ = P
(Y − Y )2
Ejemplo No. 1
Utilizando nuestro ejemplo hipotético anterior de horas de estudio y calificación, vamos
a ilustrar cómo el desplazamiento del origen puede simplificar los cálculos.
X Y X′ Y′
Horas Notas =X −3 =Y −3 X ′Y ′ (X ′ )2 (Y ′ )2
2 5 -1 2 -2 1 4
4 3 1 0 0 1 4
6 7 3 4 12 9 16
12 15 3 6 10 11 20
y r se convierte en P
X ′Y ′
r = pP P
X ′2 Y ′2
En nuestro ejemplo, tenemos
12 15
X= = 4, Y = =5
3 3
Por lo tanto, establecemos
X ′ = X − 4, Y′ =Y −5
Entonces la tabla queda como se muestra a continuación.
X Y X′ Y′ X ′Y ′ (X ′ )2 (Y ′ )2
2 5 -2 0 0 4 0
4 3 0 -2 0 0 4
6 7 2 2 4 4 4
0 0 4 8 8
Encontramos
P P P
n X ′ Y ′ − ( X ′ )( Y ′ )
r=p P P P P
[n X ′2 − ( X ′ )2 ][n Y ′2 − ( Y ′ )2 ]
3·4−0 4
=p =√
[3 · 8 − 0][3 · 8 − 0] 8·8
4
= = 0.5
8
2. El método de selección de una muestra. En los problemas de regresión, las muestras pueden
seleccionarse fijando primero los valores de X y luego los pares de X y Y . Por ejemplo, los
estudiantes pueden agruparse según alturas fijas (X), y luego pueden seleccionarse estudian-
tes de estos grupos al azar y registrarse sus alturas (X) y pesos (Y ). Pero en el análisis de
correlación, los pares de observaciones deben seleccionarse al azar sin predeterminar ni X ni
Y . Por ejemplo, los pares de hermanos y hermanas deben seleccionarse al azar sin designar
de antemano la altura del hermano o de la hermana. Sin embargo, también podemos aplicar
el análisis de regresión a este segundo tipo de muestra y encontrar las líneas de regresión.
15.5. Comentarios y resumen 395
4. El análisis de regresión suele aplicarse a los casos en los que hay una dirección de dependen-
cia, mientras que el análisis de correlación es más adecuado para los casos en los que no hay
dirección de dependencia. Por ejemplo, si tenemos el rendimiento del trigo y el fertilizante,
hay una dirección de dependencia, mientras que en el caso de fumar mucho y la indigestión,
no hay dirección de dependencia o no está clara. Ambos pueden deberse a trastornos emo-
cionales. Otros ejemplos son la covariabilidad de la estatura o del coeficiente intelectual entre
hermanos y hermanas, que puede deberse a factores hereditarios.
5. El coeficiente de correlación muestra el grado de covariabilidad entre dos variables, pero tam-
bién puede interpretarse como una medida del ajuste de la recta de regresión, como hemos
comentado.
8. Sin embargo, como vimos, podemos tener Cov(X, Y ) = 0 incluso cuando X y Y no son
independientes. Los ejemplos que dimos se mostraron en forma de diagrama, y las relaciones
de X y Y no eran lineales. Pero también podemos tener un caso en el que dos equipos de
béisbol juegan una serie de partidos entre sí y las puntuaciones X y Y de ambos equipos son
tales que r = 0. En este caso, está claro que X y Y son dependientes entre sí.
9. La regresión y la correlación son procesos estocásticos. Con esto se quiere decir que tanto X
como Y tienen que variar, y en el caso de la regresión, Y tiene una distribución; en el caso
de la correlación, tanto X como Y tienen una distribución conjunta. Cuando r = ±1, la
situación degenera en un caso de dependencia funcional completa entre X y Y . Es decir, X
da un valor único de Y , o podemos decir que X y Y son la misma cosa.
10. Causalidad y correlación. Supongamos que queremos encontrar la relación entre el número de
horas de trabajo externo (X) y la nota (Y ) que hace un alumno en la escuela, y establecemos
una hipótesis: cuantas más horas de trabajo externo (X), menor es la nota (Y ).
Supongamos que r = −0.9. ¿Podemos concluir que “por lo tanto, cuantas más horas de tra-
bajo externo, más baja es la nota”?
La respuesta es: r = −0.9 no es evidencia suficiente para verificar la afirmación. Simplemen-
te nos dice que los datos que hemos recogido son consistentes con la hipótesis que hemos
396 Análisis de Correlación
planteado. Es decir, apoya nuestra hipótesis. Podemos tener las siguientes situaciones que
provocaron r = −0.9:
a) X es la causa de Y .
b) Y es la causa de X. Debido a las bajas calificaciones (Y ), puede ser que no pueda obtener
una beca, y como resultado tenga que hacer trabajos externos (X).
c) Hay un tercer factor, Z, que afecta a X y Y de forma que muestran una estrecha relación.
Puede ser que tenga una novia cara y exigente (Z) que le haga sacar malas notas (X) y
realizar trabajos externos adicionales (Y ) por dinero.
d) La correlación de X y Y puede deberse al azar.
11. Correlación “espuria”. Supongamos que hay dos constantes c y d, y una variable aleatoria Z.
Sea
X = c/Z, Y = d/Z
Es obvio que no hay correlación entre c y d. Sin embargo, unos cálculos sencillos mostrarán
que X y Y tienen un coeficiente de correlación de +1.
P
(X − X)(Y − Y )
r = qP P
(X − X)2 (Y − Y )2
P c 1P c d 1Pd
− −
Z n Z Z n Z
=s 2
P c 1P c P d 1Pd 2
− −
Z n Z z n Z
2
P 1 1P 1
−
Z n Z
= =1
P 1 1P 1 2
−
Z n Z
Si dejamos que
X = c/Z, Y = dZ
los cálculos mostrarán que r = −1.
En lugar de c y d, supongamos dos variables aleatorias U y V . Entonces, cuando
X = U /Z, Y = V /Z
15.5. Comentarios y resumen 397
X = Z, Y =U +Z
entre otras.
En algunos casos, los estadísticos han calculado el coeficiente de correlación entre X y Y y
han asumido que representa la correlación del fenómeno representado por U y V . Como se
ve, aunque U y V sean estadísticamente independientes entre sí, introduciendo la variable
extraña, Z, es posible establecer una correlación entre X = U /Z y Y = V /Z.
El pionero estadístico Karl Pearson observó en la década de 1880 que algunos estadísticos, al
calcular los coeficientes de correlación, introducían variables extrañas, como la Z, y ajustaban
variables no relacionadas, como U y V , y calculaban correlaciones significativas entre X y
Y que no tenían sentido. Llamó a esta situación con el término despectivo de correlación
“espuria”.
Como se ve, la técnica de la correlación es neutra, y es el usuario quien tiene la culpa al haber
introducido la variable extraña Z y ha utilizado erróneamente X y Y para representar U y
V . No es la técnica de correlación la que es espuria, sino la aplicación de la técnica la que es
espuria. El lector debe estar atento a este fenómeno y tener cuidado al interpretar los resultados
de la correlación. Veamos varios ejemplos.
Ejemplo No. 2
El profesor J. Neyman ilustra esta correlación espuria con un ejemplo en el que S = nú-
mero de cigüeñas, B = número de bebés y W = número de mujeres, todo ello sobre la
base de una provincia. La pregunta es: ¿Existe una correlación positiva entre S (cigüeñas)
y B (bebés)? Sabemos por sentido común que S y B son independientes y que no hay
correlación. Sin embargo, cuando se introduce la variable extraña W (número de muje-
res) y dejamos que
X = S/W , Y = B/W
el elemento común W en X y Y puede provocar una correlación entre X y Y . Dado
que X y Y representan ahora S (cigüeñas) y B (bebés) por mujer, uno se siente tentado
a dejar que X y Y representen a las cigüeñas y a los bebés y, por tanto, a concluir que
existe una correlación entre S y B.
Está claro que en casos como éste, en el que se busca la correlación entre S y B, es
necesario eliminar la influencia del elemento común W .
398 Análisis de Correlación
Ejemplo No. 3
Dos conjuntos de series temporales que tienen grandes tendencias en relación con las
fluctuaciones a corto plazo pueden mostrar una correlación entre las fluctuaciones a cor-
to plazo debido a las grandes tendencias. Por ejemplo, puede que en realidad no haya
correlación entre las fluctuaciones a corto plazo de la producción de leche y de acero,
pero debido a la rápida tendencia al alza de la producción de ambos productos, las fluc-
tuaciones a corto plazo de la leche y del acero pueden mostrar una correlación positiva.
En estos casos, las series temporales deben ser desviadas antes de investigar si existe una co-
rrelación.
Además, si las observaciones de las series temporales no son estadísticamente independien-
tes, puede que no sea apropiado utilizar estas técnicas de correlación simple. Este aspecto se
analiza en el Capítulo 24 en relación con la correlación serial.
15.6 Fórmulas.
Definición básica:
Cov(X, Y )
ρ=
σX σY
E(X − µX )(Y − µY )
=p p
E(X − µX )2 E(Y − µY )2
Estimador:
Yc = a + bX
X X X
(Y − Y )2 = (Y − Yc )2 + (Yc − Y )2
P
(Yc − Y )2
r = P
2
(Y − Y )2
P
(X − X)(Y − Y )
r = qP P
(X − X)2 (Y − Y )2
Fórmulas de cálculo:
P P P
XY − X · Y
n
r=p P P P P
[n X 2 − ( X)2 ][n Y 2 − ( Y )2 ]
P P P
n XY − ( XfX )( Y fY )
r=p P P P P
[n X 2 fX − ( XfX )2 ][n Y 2 fY − ( Y fY )2 ]
15.7.1 Caso ρ = 0
2
n = 50
1
n = 10
−1 0 +1 r
Figura 15.13
Estos resultados se muestran en la Figura 15.14(a), (b) y (c). Mostramos cómo se pueden utilizar
estos resultados.
2.5% 1% 0.5%
Figura 15.14
400 Análisis de Correlación
Ejemplo No. 1
Suponga que se selecciona una muestra de n = 10 pares de hermanos y hermanas y
que el coeficiente de correlación muestral para la estatura resulta ser r = 0.7. Pruebe la
significación de este r = 0.7 frente a ρ = 0. Tenemos como hipótesis nula y alternativa
H0 :ρ = 0
H1 :ρ 6= 0
(La distribución t se estudia en el Capítulo 18. Esta sección puede leerse después del capítulo 18
sin pérdida de continuidad).
Se puede demostrar que cuando ρ = 0, la variable
r
t= r
1 − r2
n−2
tiene una distribución t con ϕ = n − 2 grados de libertad. Por lo tanto, en lugar de utilizar el Cuadro
8 del apéndice, podemos utilizar la tabla t (tabla 3 del apéndice) para probar la significación de r.
Ejemplo No. 2
Utilizando los datos del Ejemplo 1, encontramos
0.7
t= r = 2.772
1 − 0.72
10 − 2
A partir del cuadro t, para ϕ = 10 − 2 = 8 grados de libertad
15.7.3 Caso ρ 6= 0
ρ = 0.8
ρ = 0.5
−1 0 +1
Figura 15.15
1 1+r
zr = loge
2 1−r
1 1+r
= · 2.3026 log10
2 1−r
esta zr estará aproximadamente distribuida normalmente con media y varianza
1 1+ρ
E(zr ) = zρ = loge
2 1−ρ
1
V ar(zr ) = σr2 =
n−3
Por lo tanto, en lugar de probar la significación de r directamente, probaremos la significación de zr
mediante la teoría de la distribución normal. Ilustremos esta transformación de z con un ejemplo.
Ejemplo No. 3
Supongamos que se selecciona una muestra de n = 12 pares de observaciones y que el
coeficiente de correlación muestral resulta ser r = 0.7. Compruebe esto con la hipótesis
de que ρ = 0.5.
H0 :ρ = 0.5
H1 :ρ 6= 0.5
Para el nivel de significación del 5%, z = 1.96 para la distribución normal. Por tanto, 0.954 no es
significativo y aceptamos la hipótesis nula.
Para eliminar el tedioso trabajo computacional de los logaritmos, Snedecor ha preparado un
gráfico de transformación de ρ y z que es el Cuadro 9 de nuestro apéndice de tablas. Ilustremos su
uso.
402 Análisis de Correlación
En el Ejemplo 3, ρ = 0.5 y r = 0.7. Por lo tanto, a partir de la gráfica del Cuadro 9 del apéndice,
encontramos:
Ejemplo No. 4
Supongamos que se selecciona una muestra de tamaño n = 12 pares de observaciones y
la r = 0.7. Encuentre el intervalo de confianza del 90% para ρ.
E(zr ) = zρ
1
V ar(zr ) = σ̂r2 =
n−3
encontramos
P (zr − zα/2 σr < zρ < zr + zα/2 σr ) = 1 − α
En nuestro caso, α = 0.10. Por tanto, la desviación normal zα/2 = z5% = 1.645. Así, el intervalo
de confianza para zρ es
1 1
0.867 − 1.645 · √ < zρ < 0.867 + 1.645 · √
12 − 3 12 − 3
0.319 < zρ < 1.415
zρ ρ
0.319 0.309
1.415 0.889
Ejemplo No. 5
Supongamos que el tamaño de la muestra se aumenta a n = 103 en el ejemplo 4.
Entonces,
1 1
0.867 − 1.645 · √ < zρ < 0.867 + 1.645 · √
103 − 3 103 − 3
0.7025 < zρ < 1.0315
zρ ρ
0.7025 0.607
1.0315 0.775
Hay muchos casos en los que se puede observar una dependencia entre dos variables X y Y ,
pero se desconoce la distribución. En estos casos, no se pueden aplicar los métodos anteriores para
encontrar r. Un estadístico para medir el grado de asociación entre las variables X y Y cuando se
desconoce su distribución fue desarrollado por el estadístico C. Spearman en 1904 y se denominó
coeficiente de correlación de rangos1 . Se basa en los rangos (u orden) de las observaciones y no de-
pende de una distribución específica de X y Y . Un estadístico de este tipo que no depende de una
distribución específica de las variables se denomina estadístico no paramétrico o libre de distribución.
Lo explicamos con un ejemplo.
Se selecciona una muestra aleatoria de 5 estudiantes universitarios y se comprueba que sus ca-
lificaciones en un curso de matemáticas de la escuela secundaria y en un curso de álgebra de la
universidad son las siguientes, como se muestra en la tabla.
Rango de Rango de
Nota de Nota de Nota de Nota de
Colegio Universidad Colegio Universidad d=X −Y d2
85 93 2 1 1
60 75 4 3 1 1
73 65 3 4 -1 1
40 50 5 5 0 0
90 80 1 2 -1 1
4
1
C. Spearman. “The Proof and Measurement of Association Between Two Things”, American Journal of Psychology,
Vol. 15, 1904, pp. 72-101.
404 Análisis de Correlación
−1 0 +1
Figura 15.16
Cuando n > 20, la distribución muestral se aproxima lo suficiente a la normalidad como para
poder utilizar la tabla de áreas normales para hallar las probabilidades. La varianza de rs es
1
V ar(rs ) = σr2 = (15.38)
n−1
15.8. Correlación de rango 405
P P
n d2 rs M Pr
4 0(20) 1(-1) 10 0.0417
5 2(38) 0.9(-0.9) 20 0.0417
5 4(36) 0.8(-0.8) 20 0.0667
6 6(64) 35 0.0292
6 8(62) 35 0.0514
7 16(96) 56 0.0440
7 18(94) 56 0.0548
8 30(138) 84 0.0469
8 32(136) 84 0.0550
9 48(192) 120 0.0470
9 50(190) 120 0.0528
10 72(258) 165 0.0472
10 74(256) 165 0.0515
11 83.6(356.4) 0.050
12 117.0(455.0) 0.050
13 158.0(570.0) 0.050
14 207.7 (702.3) 0.050
15 266.7 (853.3) 0.050
16 335.9(1024.1) 0.050
17 416.2(1215.8) 0.050
18 508.4(1429.6) 0.050
19 613.3(1666.7) 0.050
20 732.0(1928.0) 0.050
Fuente: E. G. Olds. op. cit. Con permiso del autor y del editor.
Cuadro 15.7
P
y la probabilidad de rs ≧ 0.9 es 0.0417. Para el caso de entonces n = 5 y d2 = 38
6 · 38
rs = 1 − = −0.9
5 · 24
y esto da los resultados para la cola izquierda. MostrémosloPen forma de diagrama en la Figura 15.17.
Respondamos ahora a nuestra pregunta: Cuando n = 5, d2 = 4 y rs = 0.8, ¿existe una correla-
ción entre las calificaciones de la escuela secundaria y la universidad? Las hipótesis nula y alternativa
son
H0 :ρs = 0
H1 :ρs 6= 0
Ejemplo No. 6
Las clasificaciones de 6 estudiantes en inglés y matemáticas son las siguientes.
15.8. Correlación de rango 407
rs
−1 −0.9 0 0.9 1
P
∑ d2 caso n = 4
20 M = 10
P
∑ d2 caso n = 5
40 38 M = 20 2 0
Figura 15.17
Inglés Matemáticas d d2
1 2 -1 1
2 1 1 1
3 3 0 0
4 5 -1 1
5 4 1 1
6 6 0 0
4
¿Existe una correlación entre las calificaciones de inglés y matemáticas? Las hipótesis nula y alter-
nativa son
H0 :ρs = 0
H1 :ρs 6= 0
P
En el Cuadro 15.7 encontramos que cuando d2 ≦ P 6, la probabilidad de que se produzca dicha
rs es inferior a 0.0292. Nuestros cálculos muestran que d2 = 4. Por lo tanto, dado que estamos
utilizando
P 2 el nivel de significación α = 5%, rechazamos la hipótesis nula. La rs correspondiente a
d = 4 es
6·4
rs = 1 − = 0.886
6 · 35
Los resultados pueden mostrarse en forma de diagrama como en la Figura 15.18.
408 Análisis de Correlación
0.0292
menos de 0.0292
rs
−1 0 0.885 1
P
d2
70 35 64 0
Figura 15.18
CAPÍTULO 16
Teoría de Probabilidad y Variables Aleatorias
Como hemos visto en nuestra discusión en el Capítulo 5 y siguientes, nos interesan los experi-
mentos en los que los resultados tienen la propiedad de la aleatoriedad. Por ejemplo, cuando lanza-
mos un dado, hay 6 resultados posibles, y la característica es que no podemos decir definitivamente
cuál será el resultado.
En esta ilustración, el experimento consiste en lanzar un dado. Estaremos de acuerdo en que
hay 6 resultados posibles. Es necesario que nos pongamos de acuerdo sobre lo que se entiende por
resultados posibles. Por ejemplo, el dado puede estar cargado de manera que el “3” nunca se pro-
duzca. Entonces acordamos que los resultados posibles son 1, 2, 4, 5, 6. Como parte de la naturaleza
del experimento, no podemos predecir definitivamente cuál será el resultado de un lanzamiento, es
decir, hay un elemento de aleatoriedad.
409
410 Teoría de Probabilidad y Variables Aleatorias
Otro ejemplo: lancemos una moneda al aire. Estamos de acuerdo en que los posibles resultados
son escudo (E) y corona (C). O podemos estar de acuerdo en que los posibles resultados son E, C,
y que la moneda está de canto. Suponemos que los resultados son aleatorios. Por lo tanto, tenemos:
Caso 1 Caso 2
Experimento lanzar una moneda lanzar una moneda
Posibles resultados E, C E, C, de canto
Naturaleza del resultado aleatorio aleatoria
En nuestra discusión posterior, estaremos de acuerdo en que los posibles resultados son E y C, y
por tanto adoptaremos el Caso 1.
16.1.2 Eventos
El resultado de un experimento se llamará evento. Por tanto, las E y C de lanzar una moneda
son eventos. Cada uno de los 6 resultados 1, 2, 3, . . . , 6 de lanzar un dado es un evento.
Cuando se lanza una moneda dos veces, coincidiremos en que hay 4 resultados:
y se compone de 3 eventos. El evento “Al menos un E” puede descomponerse, por tanto, en 3 even-
tos. Pero hay que tener en cuenta que (E, C), (C, C) y (C, E) no pueden descomponerse en otros
eventos. Se denominan eventos simples. Observa que, por ejemplo, (E, C) no puede descomponerse
en los eventos E y C. El experimento consiste en lanzar una moneda dos veces, no una.
Un evento que no puede descomponerse en otros eventos se llama evento simple. Un evento que
puede descomponerse en eventos simples se llama evento compuesto. El evento “Al menos una E”
es un evento compuesto.
Los posibles resultados de un experimento están formados por eventos simples. O podemos
decir que el conjunto de todos los eventos simples describe todos los resultados posibles del experi-
mento.
Empezamos con un experimento, acordamos los posibles resultados del experimento y asumi-
mos que los resultados tienen la naturaleza del azar. Entonces estos resultados se llamaron eventos,
y distinguimos entre eventos simples y eventos compuestos.
Ahora queremos expresar este experimento en términos de un modelo matemático. Expresar el
experimento en términos de modelos matemáticos nos permitirá aplicar diversas técnicas matemá-
ticas y obtener resultados relativos al experimento.
Para transformar el experimento en un modelo matemático, los eventos simples se llamarán
puntos de muestra. Cada evento simple está representado por uno y sólo un punto de muestra.
16.1. Espacios muestrales, eventos y campos de conjuntos 411
El conjunto de todos los puntos de muestra posibles representa el conjunto de todos los resul-
tados posibles de un experimento. El conjunto de todos los puntos de muestra posibles se denomi-
nará espacio muestral. Es decir, el espacio muestral es el conjunto de todos los resultados posibles
del experimento. A este espacio muestral, que es el conjunto de todos los resultados posibles del
experimento, lo llamaremos espacio muestral básico o espacio muestral original y lo denotaremos
por R.
En cuanto al ejemplo del dado, si el experimento consiste en lanzar el dado una vez, hay 6 re-
sultados posibles:
e1 = 1, e2 = 2, e3 = 3, e4 = 4, e5 = 5, e6 = 6
Cada uno de estos resultados es un evento simple y, por tanto, es un punto muestral. El conjunto de
6 puntos de muestra
R = {1, 2, 3, 4, 5, 6}
se denomina espacio muestral básico del experimento.
Supongamos que el experimento consiste en lanzar una moneda 2 veces. Entonces los posibles
resultados son
e1 = (E, C), e2 = (E, E), e3 = (C, E), e4 = (C, C)
El espacio muestral básico del experimento es
R = {e1 , e2 , e3 , e4 }
Ejemplo No. 1
En la sección
7.1, encontramos que el número de posibles manos diferentes de 13 cartas
52
era = unos 635 mil millones. Por lo tanto, cuando el experimento es seleccionar
13
52
una mano de 13 cartas (es decir, una mano en el bridge), hay puntos de muestra
13
ei , y el conjunto de todos estos puntos de muestra constituye el espacio muestral básico
R.
412 Teoría de Probabilidad y Variables Aleatorias
Ejemplo No. 2
Cuando el experimento consiste en lanzar un dado de 4 caras dos veces, los posibles
resultados son
e1 = (1, 1) e5 = (2, 1) e9 = (3, 1) e13 = (4, 1)
e2 = (1, 2) e6 = (2, 2) e10 = (3, 2) e14 = (4, 2)
e3 = (1, 3) e7 = (2, 3) e11 = (3, 3) e15 = (4, 2)
e4 = (1, 4) e8 = (2, 4) e12 = (3, 4) e16 = (4, 4)
Cada uno de estos resultados es un punto de muestreo y el conjunto de todos los puntos de muestreo
R = {e1 , e2 , . . . , e16 }
Dado un experimento, el espacio muestral básico R es el conjunto de todos los puntos mues-
trales ei . Los subconjuntos de puntos muestrales ei de R se denominan eventos Ej . El lector astuto
habrá notado que no hemos explicado cuántos subconjuntos (eventos Ej ) pueden seleccionarse del
espacio muestral R. Consideremos este problema.
Sea el experimento de lanzar un dado, y el espacio muestral R
R = {1, 2, 3, 4, 5, 6}
y E ⊂ S.
¿Cuántos eventos simples y compuestos pueden generarse a partir del espacio muestral S? En
términos de teoría de conjuntos, esta pregunta puede replantearse como: ¿Cuántos subconjuntos
pueden generarse a partir del conjunto R? Estos subconjuntos son
(1 + 1)6 = 26 = 64
Podemos concluir que tenemos una colección de 64 subconjuntos tomados de R. En lugar de utilizar
el término colección, podemos utilizar el término clase de subconjuntos.
En general, dado un conjunto de n elementos, podemos generar 2n subconjuntos.
Es posible calificar los subconjuntos por alguna característica. Por ejemplo, podemos seleccionar
subconjuntos tales que la suma de los números sea par; o tales que la suma de los números sea impar;
o tales que la suma de los números sea superior a 10; etc. Decimos que tenemos diferentes clases de
subconjuntos.
Las características de los 64 subconjuntos seleccionados son:
Llamemos a estos 64 subconjuntos un campo y denotémoslo por F . Así, podemos decir que
un campo muestra todas las posibles combinaciones de eventos que pueden generarse a partir del
espacio muestral básico.
Como puede verse fácilmente, normalmente estamos más interesados en los eventos que en los
puntos de la muestra. En concreto, nos interesan las probabilidades asociadas a los eventos.
Para resumir, empezamos con un experimento, luego lo expresamos como un modelo matemá-
tico en términos de un espacio muestral básico R. Luego, a partir de este espacio muestral básico
R, generamos un campo F de conjuntos que es una colección de todos los posibles subconjuntos
(eventos) generados a partir de R.
Como ya hemos dicho, nos interesan las probabilidades asociadas a los eventos del campo F .
Por ejemplo, ¿cuál es la probabilidad del evento “El resultado es un número par”? En términos de
conjuntos, tenemos el evento
E4 = {2, 4, 6}
Entonces se puede plantear la pregunta ¿Cuál es la probabilidad de que ocurra E4 cuando se lanza
un dado?
Esto nos lleva a la siguiente pregunta: ¿Cómo encontramos las probabilidades de los eventos en
el campo F ?
Del Capítulo 5, Teoría de la probabilidad, sabemos que cuando se lanza un dado justo de 4 caras,
tenemos 4 puntos de muestra e1 , e2 , e3 y e4 en el espacio muestral R, y a cada punto de muestra le
asignamos una probabilidad de 1/4. Podemos expresarlo de la siguiente manera
1
p(ei ) = , i = 1, 2, 3, 4
4
Enunciemos ahora esto como una convención fundamental. Dado un espacio muestral básico R con
puntos muestrales e1 , e2 , . . . , en , supondremos que existe una función real de un solo valor p(ei )
que satisface las 3 condiciones siguientes:
1. p(ei ) ≥ 0 para ei ∈ R.
2. Los puntos de la muestra en R pueden escribirse como una secuencia finita o infinita.
p(e1 ) + p(e2 ) + · · · = 1
La función real de un solo valor p(ei ) que satisface las condiciones anteriores se llamará función
de probabilidad definida en R. El valor que toma, es decir, el 1/4 de nuestro ejemplo anterior, se
16.2. Función de probabilidad y espacio de probabilidad 415
llama probabilidad de ei . Para ser más exactos, deberíamos decir: p es la función de probabilidad,
y p(ei ) es la probabilidad del punto de la muestra ei . Sin embargo, por comodidad de la discusión,
dejaremos que p(ei ) represente la función de probabilidad p cuando no hay confusión.
Nótese que la condición (16.2) significa que estamos considerando un espacio muestral discre-
to. Cuando se considera un espacio muestral continuo, se puede obtener una definición similar de
función de probabilidad, excepto que las condiciones (16.2) y (16.3) se complican: y en este caso
utilizamos el término función de densidad de probabilidad en lugar de función de probabilidad.
Obsérvese que la variable independiente de la función de probabilidad es un punto muestral.
Por tanto, el dominio de la función de probabilidad es el espacio muestral básico R. De ahí que
podamos decir que la función de probabilidad es una función que asigna probabilidades a los puntos
muestrales ei en el espacio muestral básico R.
No hemos explicado cómo se determinan los valores reales de p(ei ). Esto se explicó en el Capí-
tulo 5. Encontramos que en algunos casos podemos asignar probabilidades iguales a los eventos o
utilizar el enfoque de la frecuencia relativa y calcular los valores reales de p(ei ). También existe el
enfoque subjetivo. No consideraremos este aspecto de la búsqueda de valores reales de p(ei ) en este
capítulo.
Una vez asignadas las probabilidades a los puntos de la muestra, podemos proceder a asignar
probabilidades a los eventos del campo F .
En primer lugar, definiremos una función denominada medida de probabilidad para todos los
subconjuntos (eventos) del campo F . En segundo lugar, asignaremos valores a la medida de proba-
bilidad y, por tanto, habremos hallado las probabilidades de los eventos (subconjuntos) del campo
F.
Utilizando el experimento de lanzar un dado de 4 caras tenemos 24 = 16 subconjuntos en el
campo F . Se define una función de conjunto P sobre los 16 subconjuntos del campo F . Llamamos
a P función de conjunto porque los elementos del dominio de P son subconjuntos de R, es decir,
elementos de F . Suponemos que esta función de conjunto P tiene las siguientes 3 propiedades:
1. Para cada evento Ej , hay asociado un número real no negativo P (Ej ), llamado la probabili-
dad del evento Ej . Es decir, P (Ej ) ≥ 0.
2. P (R) = 1.
¿Cuál es la relación entre p(ei ) y P (Ej )? Definimos la relación como sigue: La probabilidad
P (Ej ) de cualquier evento Ej es la suma de las probabilidades p(ei ) de todos los puntos de la
muestra ei en el subconjunto Ej .
En nuestro ejemplo tenemos
P (E1 ) = P ({ }) = p(∅) = 0
1
P (E2 ) = P ({e1 }) = p(e1 ) =
4
...
2 1
P (E6 ) = P ({e1 , e2 }) = p(e1 ) + p(e2 ) = =
4 2
...
P (E16 ) = P ({e1 , e2 , e3 , e4 }) = p(e1 ) + p(e2 ) + p(e3 ) + p(e4 ) = 1
Hemos encontrado así un método para asignar valores a la medida de probabilidad P utilizando las
probabilidades del espacio muestral básico.
Ahora estamos listos para definir el tema principal de esta sección, es decir, un espacio de pro-
babilidad, pero antes de eso, vamos a ampliar los resultados anteriores y encontrar la probabilidad
de dos eventos cualesquiera E1 y E2 . Lo exponemos sin pruebas como un teorema:
Para dos eventos cualesquiera E1 y E2 , la probabilidad de que ocurra E1 o E2 o ambos viene
dada por
P (E1 ∪ E2 ) = P (E1 ) + P (E2 ) − P (E1 ∩ E2 )
Si E1 ∩ E2 = 0, es decir, E1 y E2 son mutuamente excluyentes y no tienen puntos muestrales en
común, entonces
P (E1 ∪ E2 ) = P (E1 ) + P (E2 )
utilizar este espacio de probabilidad (R, F , P ) y aplicar procedimientos estadísticos para obtener la
información que necesitamos sobre el experimento.
Sin embargo, como la medida de probabilidad P del (R, F , P ) es una función de conjunto,
es difícil de manipular matemáticamente. Nos gustaría transferir la información de (R, F , P ) a un
nuevo espacio de probabilidad que pueda ser manipulado con herramientas matemáticas más fáciles
de usar, como el cálculo y el álgebra.
Esta transferencia de información de (R, F , P ) a un nuevo espacio de probabilidad más fácil de
manipular matemáticamente se realiza mediante una función llamada variable aleatoria. Proceda-
mos, pues, a discutir las variables aleatorias.
Acabamos de mencionar que la variable aleatoria es una función. Por lo tanto, vamos a revisar
el significado de una función. Y para ello, necesitamos el concepto de producto cartesiano.
y
4
(1, 3)
3 (3, 3)
1 (3, 1)
(1, 1)
1 2 3 4 x
Figura 16.1
(1) (2)
Es decir, R1 × R1 es el conjunto de pares ordenados tal que el primer elemento x pertenece a
(1) (2)
R1 , y el segundo elemento y pertenece a R1 . Escribimos
(1) (2)
R = R1 × R1
(1) (2)
y el conjunto R se llama Producto cartesiano de R1 y R1 . Es decir, R es el conjunto de los 9 pares
ordenados.
Ejemplo No. 1
(1)
Supongamos que se lanza un dado dos veces. Sea R1 = {1, 2, . . . , 6} son los posibles
(2)
resultados del primer lanzamiento, y R1 = {1, 2, . . . , 6}, los posibles resultados del se-
(1) (2)
gundo lanzamiento. Entonces el producto cartesiano R1 × R1 es el conjunto de 36 pa-
res ordenados que se muestra en la Figura16.2.
y
6
4
(2)
R1
1 2 3 4 5 6 x
(1)
R1
Figura 16.2
16.3. Variable aleatoria 419
Ejemplo No. 2
(1)
Supongamos que se lanza un dado de una cara 3 veces. Sea R1 = {1, 2, 3, 4} los posi-
(1)
bles resultados del primer lanzamiento; R2 = {1, 2, 3, 4} los posibles resultados del se-
gundo lanzamiento. Entonces
(1) (2)
R1 × R1
(1) (2)
es el Producto cartesiano de R1 y R1 y consiste en los 4 · 4 = 16 pares ordenados que
se muestran en la Figura 16.3(a).
z
4
(2)
R1
4 3 4 y
(2)
R1
3 2 3
(3)
(3, 1, 1)
R1 2
2 1
1
1 x
1 2 3 4
(1)
R1
1 2 3 4 x
(1) (b)
R1
(a)
Figura 16.3
R = R(1) × R(2)
= {(1, 1), (1, 2), (2, 1), (2, 2), (3, 1), (3, 2)}
2 (3, 2)
(2)
R1
1
(1, 1)
1 2 3 x
(1)
R1
Figura 16.4
Ejemplo No. 3
Aclaremos la diferencia entre un espacio muestral, que consta de n tuplas y es adimen-
sional, y un espacio cartesiano, que tiene dimensiones. Supongamos que se lanza un
dado una vez. Entonces el espacio muestral es
R = {E, C}
R es adimensional.
R′ = R × R = {E, C} × {E, C}
También sabemos que R′ puede presentarse como un producto Cartesiano, de modo que la primera
componente de, por ejemplo, (E, C) se convierte en la primera coordenada, y la segunda compo-
nente se convierte en la segunda coordenada. R′ se representa entonces gráficamente. En este caso,
el espacio muestral R′ tiene dimensiones, y se considera un espacio bidimensional.
16.3. Variable aleatoria 421
Segundo lanzamiento
C
E C
Primer lanzamiento
16.3.2 Función
Con estos antecedentes de pares ordenados (duplas) y producto Cartesiano, vamos a explicar
el concepto de función. En la Figura 16.5 seleccionemos los 3 pares ordenados (1, 1), (2, 2), (3, 3) y
llamemos f al conjunto de los 3 pares ordenados. La característica de f es que asigna a cada elemento
y
3
2
(2)
R1
1 2 3 x
(1)
R1
Figura 16.5
(1) (2)
x de R1 un elemento correspondiente y de R1 para formar pares ordenados.
(1) (2)
Más formalmente, afirmamos que, para cada x ∈ R1 , hay una y sólo una y ∈ R1 que se
combina con x para formar un par ordenado (x, y) que pertenece al conjunto f . Esta f se llama
función. Por lo tanto, tiene las siguientes propiedades:
2. Si dos pares ordenados (a, b) y (c, d) están en el conjunto f , y si los primeros elementos de
(a, b) y (c, d) son iguales (a = c), entonces sus segundos componentes deben ser también
iguales (b = d).
Ejemplo No. 4
Consideremos la función
f (x) = x + 1
que se muestra en la Figura 16.6. El conjunto de pares ordenados pertenecientes a la
función (conjunto) f se muestra mediante la línea recta. Por ejemplo, el punto A es el
conjunto ordenado (2, 3). Como se ve, (propiedad 1) todos los puntos de la recta son
pares ordenados; y (propiedad 2) a cada primer elemento x le corresponde un segundo
elemento y.
y
4
1 2 x
Figura 16.6
Hemos escrito
f (x) = x + 1
que es la forma habitual de expresar las funciones en matemáticas. Pero nótese que f denota la fun-
ción, es decir, el conjunto de pares ordenados; f (x) no es la función sino que representa el segundo
componente del par ordenado; f (x) es el valor de la función f en x.
También podemos decir que x es la variable independiente, f es la función y y es la variable
dependiente. Y la función f asigna los puntos x en el dominio a los puntos y en el rango.
Ejemplo No. 5
En la Figura 16.7 tenemos
A = (1, 2) y B = (1, −2)
Es decir, en los 2 pares ordenados A y B el primer elemento es 1; pero el segundo com-
ponente es 2 para A, y −2 para B. Por tanto, este conjunto mostrado por la curva g no
es una función.
Ejemplo No. 6
Consideremos la Figura 16.8: Punto A = (x1 , y1 ) y punto B = (x2 , y1 ). Así podemos ver
que x1 6= x2 , pero ambos puntos están asignados en y, y la recta g es una función.
16.3. Variable aleatoria 423
y
A(1, 2) g
2
0 1 x
−2
B(1, −2)
Figura 16.7
y
y1 A Bg
x1 x1 x
Figura 16.8
Ahora estamos preparados para definir una variable aleatoria. Una variable aleatoria (v.a.) X es
una función real, de un solo valor, definida en cada punto muestral e en el espacio muestral básico
R. Expliquemos esta definición con la siguiente ilustración. Se lanza una moneda dos veces, por lo
que hay 4 puntos de muestra en el espacio muestral básico R:
Como hemos visto en 16.2, podemos generar 24 = 16 subconjuntos a partir de estos 4 puntos
muestrales:
Caractericemos ahora estos subconjuntos (eventos) E1 por la obtención de escudos. Vemos que,
por ejemplo, E2 = {e1 } es el evento de obtener 2 escudos; E3 = {e2 } es el evento de 1 escudo;
E10 = {e2 , e4 } es el evento de 1 escudo; E16 = {e1, e2, e3, e4} es el evento de 2 escudos, y así suce-
sivamente. Como la moneda se lanza 2 veces, sólo tenemos 3 resultados posibles: ninguna escudo,
1 escudo y 2 escudos.
La v.a. X asigna los puntos de muestra ei del espacio muestral básico R en un nuevo espacio
R′ que consiste en los 3 posibles resultados de ninguna escudo, (x1 ), 1 escudo (x2 ), y 2 escudos
(x3 ). Hay 16 subconjuntos de ei , es decir, 16 eventos Ej , que se asignan en los 3 resultados posibles,
x1 , x2 y x3 . Mostramos esta asignación de forma esquemática en la Figura 16.9. La variable aleatoria
se denota por X, y el valor de la variable aleatoria se denota por X(e). Sin embargo, cuando no se
produzca ninguna confusión, se puede utilizar X(e) para denotar la variable aleatoria. Al escribir
X(e), mostramos explícitamente los puntos de muestra e que se están asignando en R′ .
424 Teoría de Probabilidad y Variables Aleatorias
e2 e3
C X(e) = x
e1 e4
E
E C x1 = 0 x2 = 1 x3 = 2
R ningún escudo 1 escudo 2 escudos
R′
Figura 16.9
E1′ = {}, E2′ = {x1 }, E3′ = {x2 }, E4′ = {x3 }, E5′ = {x1 , x2 }
E6′ = {x1 , x3 }, E7′ = {x2 , x3 }, E8′ = {x1 , x2 , x3 },
Entonces, por ejemplo, el evento 1 escudo es E3′ = {x2 }. El evento ningún escudo o 1 escudo o
ambos es E5′ = {x1 , x2 }.
Podemos ver intuitivamente que la información de los puntos de muestra e en R se ha transfe-
rido a los puntos de muestra x en R′ . Y como las x se muestran como números reales en una línea
recta, son más fáciles de usar que las e.
Una vez encontrado el nuevo espacio muestral R′ y el nuevo campo F ′ generado, el siguiente
problema es definir una medida de probabilidad para los subconjuntos de F ′ . Primero establece-
mos una relación entre los subconjuntos (eventos) del campo F del espacio de probabilidad original
(R, F , P ) y los subconjuntos (eventos) del nuevo campo F ′ . En segundo lugar, transferimos la me-
dida de probabilidad P (E) del espacio de probabilidad original (R, F , P ) a los subconjuntos del
nuevo campo F ′ . Mostramos ahora cómo se hace esto.
Podemos ver en la Figura 16.9 que el evento E3′ = {x2 } en R′ , que es el evento de 1 escudo,
corresponde al evento E10 = {e2 , e4 } en el espacio muestral básico R.
Esto se obtuvo mediante la asignación X, que asignó los puntos de muestra {e2 ,e4 en el punto
de muestra x2 . El conjunto {x2 } se denomina imagen del conjunto {e2 , e4 } bajo la asignación de
X.
A la inversa, el conjunto en R cuya imagen es E3′ = {x2 } en R′ se llama imagen inversa de
E3′ = {x2 } bajo la asignación de X. Denotamos la imagen inversa por X −1 (E3′ ).
Sabemos que el conjunto en R cuya imagen es E3′ = {x2 } en R′ es E10
′ = {e , e }. Por lo tanto,
2 4
tenemos
E10 = X −1 (E3′ )
Resumiendo, si E es un subconjunto de R, el conjunto de todos los elementos {X(e) : e ∈ E ⊂ R}
de R′ se llama imagen del subconjunto E, y se denota por X(E). A la inversa, si E ′ es un subconjunto
16.3. Variable aleatoria 425
{X −1 (x) : x ∈ E ′ ⊂ R′ }
e2 e3
C E10 X(e) = x
e1 e4
E E3
E C x1 = 0 x2 = 1 x3 = 2
Figura 16.10
P (E10 ) = P ′ (E3′ )
o
P (E10 ) = P [X −1 (E3′ )] = P ′ (E3′ )
Afirmamos que, a todo subconjunto E ′ de R′ , le corresponde un evento E de R formado por los
puntos de muestra ei . Cuando los puntos muestrales ei se asignan en R′ mediante X(ei ) = xj , los
puntos muestrales xj están en el subconjunto E ′ . Por lo tanto, la medida de probabilidad P ′ (E ′ )
puede obtenerse a partir de la medida de probabilidad P (E) mediante
P ′ (E ′ ) = P [X −1 (E ′ )] = P (E)
Replanteemos los resultados en forma de teorema: Sea X una variable aleatoria con un espacio de
probabilidad asociado (R, F , P ). Dejemos que la v.a. X asigne los puntos muestrales e de R en un
nuevo espacio muestral R′ de la v.a. X(e):
X : R 7→ R′
P ′ (E ′ ) = P ′ (x ∈ E ′ ) = P [X −1 (E ′ )]
426 Teoría de Probabilidad y Variables Aleatorias
¿Por qué hemos dedicado tanto tiempo a encontrar este nuevo espacio de probabilidad (R′ , F ′ , P ′ )?
Porque la mayoría de los espacios de probabilidad que utilizamos en estadística son inducidos a
partir del espacio de probabilidad básico (R, F , P ) por la variable aleatoria X(e), o son espacios de
probabilidad adicionales inducidos a partir de (R′ , F ′ , P ′ ).
¿Por qué utilizamos este nuevo espacio de probabilidad en lugar del básico? Porque la v.a. X(e)
induce un espacio de probabilidad (R′ , F ′ , P ′ ), asociado a una recta real, a partir del espacio de
probabilidad básico (R, F , P ). Es decir, R′ es una recta real. Esto nos permite utilizar herramientas
matemáticas, como el cálculo y el álgebra, con las que estamos familiarizados. La cuestión quedará
más clara cuando hablemos de una función de distribución definida en cada punto del nuevo espacio
muestral R′ .
Además, la asignación de X(e) suele reducir los datos a proporciones fácilmente manejables.
Por ejemplo, hemos visto cómo una muestra de tamaño n se representa por su media muestral. La
reducción de los datos de n dimensiones a 1 dimensión implica una pérdida de cierta cantidad de
información, pero hace que los datos sean más fáciles de manejar.
Pongamos algunos ejemplos para fijar nuestras ideas.
Ejemplo No. 7
Sea el experimento de lanzar un dado cargado, con los siguientes resultados:
R = {e1 , e2 , . . . , e6 } = {1, 2, . . . , 6}
ei p(ei ) X(ei )
e1 0.1 $3
e2 0.2 2
e3 0.1 1
e4 0.3 1
e5 0.1 -2
e6 0.2 -3
El espacio de probabilidad es (R, F , P ). La función de probabilidad asigna los puntos
muestrales ei en la recta real R1 , como se muestra en la Figura 16.11, y supondremos
que tiene los valores p(ei ) mostrados en la tabla anterior.
Definamos ahora la variable aleatoria X(ei ), que muestra la cantidad de dinero que gana un
alumno cuando el resultado del dado es ei . Estas cantidades se muestran en la tabla. Por ejemplo,
−$2 muestra que un estudiante pierde 2 dólares cuando se produce e5 = 5. La variable aleatoria X
asigna los puntos de la muestra ei en puntos de una línea real R′ , como se muestra en la Figura 16.12.
Por lo tanto, Rp rime es el nuevo espacio muestral de la v.a. X, y los valores son X(ei ) = xi . Es
decir, x1 = $3, x2 = $2, x3 = $1, x4 = $1, x5 = −$2, x6 = −$3.
¿Cuáles son las probabilidades asociadas a los puntos muestrales xi en el nuevo espacio muestral
16.3. Variable aleatoria 427
e1 p(ei )
e2
e3
e4
e5
Figura 16.11
X(e) = xi
e1
e2
e3
e4
e5
e6 -3 -2 -1 0 1 2 3
R1′
Figura 16.12
Ejemplo No. 8
Sea Y (ei ) una v.a. que muestra la cantidad de dinero que recibe un segundo estudiante,
como se muestra en la tabla:
ei p(ei ) X(ei ) Y (ei ) S
e1 0.1 $3 -$1 $2
e2 0.2 2 9 0
e3 0.1 1 -3 -2
e4 0.3 1 0 1
e5 0.1 -2 2 0
e6 0.2 -3 2 -1
Sea S(ei ) = X(ei ) + Y (ei ). Entonces S es una v.a. que muestra la ganancia combinada
de los primeros y segundos alumnos, como se muestra en la tabla. Asigna los puntos
de muestra ei del espacio muestral básico R en un nuevo espacio muestral de la v.a. S,
como se muestra en la Figura 16.13.
X(e) = xi
e1
e2
e3
e4
e5
e6
R -2 -1 0 1 2
R′
Figura 16.13
Ejemplo No. 9
Consideremos ahora la cantidad de dinero que reciben los 2 estudiantes cuando el resul-
tado del dado es e1 . Esto puede demostrarse construyendo una variable aleatoria
para todo ei en R. Esta asignación se muestra en la Figura 16.14. La asignación en forma de tabla es
como se muestra.
16.3. Variable aleatoria 429
Z = (X, Y ) Y
3
2
e1
e2 1
e3
e4
e5 -3 -2 -1 1 2 3 X
-1
e6
-2
-3
Figura 16.14
Expliquemos ahora cómo se halla una función de distribución acumulativa (o simplemente, una
función de distribución), utilizando un ejemplo. La Figura 16.15 es un espacio muestral básico R
generado por 2 lanzamientos de un dado. Suponiendo un dado justo, asignaremos una probabilidad
de P (ei ) = 1/36, i = 1, 2, . . . , 36 a cada punto de la muestra e1 . Sea X una variable aleatoria
definida como
X(ei ) = Z1 + Z2
donde Z1 y Z2 , son los números que aparecen en el primer y segundo lanzamiento, respectivamente.
Los posibles valores de X(ei ) = xi se ven fácilmente como los 11 valores
2, 3, . . . , 12
que son puntos del nuevo espacio muestral R′ de la v.a. X(e).
Ahora vamos a encontrar las probabilidades de los puntos de la muestra xi . Por ejemplo, si
X(ei ) = 5
entonces los puntos de muestra ei que satisfacen esta relación son los puntos del subconjunto E ⊂
R, donde
E = {e4 , e9 , e14 , e19 } = {(1, 4), (2, 3), (3, 2), (4, 1)}
que es la parte sombreada en la Figura 16.15. Por lo tanto, la probabilidad de E es
1 1 1 1 4
P (E) = + + + =
36 36 36 36 36
16.4. Función de distribución 431
e6 e36
6
1 e1 e31
1 2 3 4 5 6 2 4 5 6 8 10 12 X
R R1′
Figura 16.15
4
P [X(e) = 5] = p′ (5) =
36
Apliquemos ahora este procedimiento a los puntos de la muestra xi y encontremos sus probabilida-
des:
1
P [X(e) = x1 = 2] = p′ (2) =
36
2
P [X(e) = x2 = 3] = p′ (3) =
36
3
P [X(e) = x3 = 4] = p′ (4) =
36
4
P [X(e) = x4 = 5] = p′ (5) =
36
5
P [X(e) = x5 = 6] = p′ (6) =
36
432 Teoría de Probabilidad y Variables Aleatorias
6
P [X(e) = x6 = 7] = p′ (7) =
36
′ 5
P [X(e) = x7 = 8] = p (8) =
36
4
P [X(e) = x8 = 9] = p′ (9) =
36
′ 3
P [X(e) = x9 = 10] = p (10) =
36
2
P [X(e) = x10 = 11] = p′ (11) =
36
′ 1
P [X(e) = x11 = 12] = p (12) =
36
Vemos que
p′ (2) + p′ (3) + · · · + p′ (12) = 1
6
36
5
36
4
36
3
36
2
36
1
36
2 3 4 5 6 7 8 9 10 11 12 X
Figura 16.16
1 2 3 6
p′ (2) + p′ (3) + p′ (4) = + + =
36 36 36 36
16.4. Función de distribución 433
que es la suma del área de las 3 primeras barras sombreadas. Denotemos esta suma acumulada
de probabilidades por
O, en general
F (x) = P (X ≤ x)
Obsérvese que el nuevo espacio muestral R′ de la v.a. X es una recta real y por tanto, los puntos
muestrales xi están alineados desde los valores pequeños a la izquierda hasta los grandes a la derecha.
En nuestro ejemplo, el valor más pequeño era 2 y el más grande 12. Para generalizar esta observación,
podemos pensar lo siguiente. La línea real que muestra R′ se extiende desde −∞ hasta +∞, como
se muestra en la Figura 16.17. La función de probabilidad p′ (x) definida en R′ tiene
−∞ ... +∞
2 3 4 12
Figura 16.17
0.5 = 50%
0.9956
X
−∞ 0 3σ +∞
Figura 16.18
se extiende de −∞ a +∞, pero más del 99 por ciento de la probabilidad (es decir, el área) está
entre −3σ y +3σ. Sabemos que la probabilidad acumulada de la función de probabilidad p′ (x) de
−∞ a 0 es 0.5 = 50 por ciento. La probabilidad acumulada de −∞ a +3σ es 1 − 0.0044 = 0.9956.
Podemos expresarlo escribiendo
F (0) = P (X ⩽ 0) = 0.50
F (3σ) = P (X ⩽ 3σ) = 0.9956
Esto también puede expresarse mediante una curva de frecuencia acumulada, como en la Figu-
ra 16.19.
Definamos formalmente la función F(x).
F (x) = P (X ⩽ x) (16.3)
434 Teoría de Probabilidad y Variables Aleatorias
0.5 0.9956
0
0 3σ +∞
Figura 16.19
X
F (x) = P (X ⩽ x) = p′ (x) (16.4)
F (−∞) = 0
F (∞) = 1
F (x) − F (x) ⩾ 0 si x′ ⩾ x
′
16.4. Función de distribución 435
Ejemplo No. 1
En la ilustración de lanzar 2 dados y definir la v.a. como X(e) = Z1 + Z2 encontramos
los valores de P [X(e) = x] = p′ (x). Podemos resumir estos valores en forma de tabla y
mostrar F (x) como sigue:
P ′
x p′ (x) F (x) = p (x)
1 1
2
36 36
2 3
3
36 36
3 6
4
36 36
4 10
5
36 36
5 15
6
36 36
6 21
7
36 36
5 26
8
36 36
4 30
9
36 36
3 33
10
36 36
2 35
11
36 36
1 36
12
36 36
36
36 +∞
30
36
24 C
36
18 B
36
12
36
6
36
A
−∞ 2 3 4 5 6 7 8 9 10 11 12
Figura 16.20
6
36
5
36
4
36
3
36
2
36
1
36
2 3 4 5 6 7 8 9 10 11 12 X
Figura 16.21
Ejemplo No. 2
La curva de distribución de la Figura 16.18 ilustra el caso en el que la v.a. X es continua
y en el que F (x) es una curva continua, como se muestra en la Figura 16.19.
En este caso no se puede utilizar la función de probabilidad p′ (x) que se definió para
puntos muestrales discretos x, porque cuando la v.a. es continua, cada p′ (x) = 0.
Para el caso continuo, decimos sin explicación que la función de probabilidad se escribe f (x) y
se llama función de densidad de probabilidad (p.d.f.) de la v.a. X. Omitimos la explicación porque
requiere cálculo y otras herramientas matemáticas avanzadas.
Sin embargo, podemos escribir como aproximación
donde ∆x es un intervalo muy pequeño. Hemos utilizado esta técnica en la página 33 del Capítulo
2 para calcular frecuencias relativas. Estos conceptos se muestran esquemáticamente en la Figu-
ra 16.22(a) y (b). En los capítulos siguientes estudiaremos una serie de distribuciones de probabi-
lidad. De ellas, las que tienen una variable aleatoria continua, y por tanto una función de densidad
de probabilidad f (x), serán la distribución t (Capítulo 18), la distribución de Poisson (Capítulo 20),
la distribución χ2 (Capítulo 21) y la distribución F (capítulo 22). La c.d.f. F (x) será una función
continua.
Las distribuciones de probabilidad con una variable aleatoria discreta, y por tanto la función
de probabilidad p(x), serán la distribución binomial, la distribución multinomial y la distribución
hipergeométrica. La c.d.f. F (x) será una función escalonada.
16.4. Función de distribución 437
F (x)
F (x0 )
∆x
x
x0 x0 x
(a) (b)
Figura 16.22
16.4.2 Resumen
Como puede verse, (R′ , F ′ , P ′ ) y las funciones subsiguientes como F (x) y f (x) dependen de
la variable aleatoria X(e).
El alumno puede recordar que cuando teníamos una variable aleatoria X que tenía una distri-
bución normal con media µ y varianza σ 2 , la estandarizamos mediante
Y −µ
Y =
σ
y utilizando este valor de Y pudimos calcular las probabilidades a partir de la tabla de áreas norma-
les. Podemos ver que en este caso, Y es una función de la variable aleatoria X; y Y también es una
variable aleatoria. También podemos ver que Y tiene una distribución normal con media 0 y va-
rianza 1. Es decir, hemos encontrado la distribución de probabilidad de Y a partir de la distribución
de probabilidad de X.
Esto es una ilustración del hecho de que podemos encontrar una variable aleatoria Y que es una
función de la variable aleatoria original X. Esto se puede expresar escribiendo
Y = g(X)
A continuación queremos mostrar cómo se puede construir una variable aleatoria Y que sea función
de la variable aleatoria original X, y cómo se encuentra la distribución de probabilidad de Y . Este es
el último e importante paso al nivel de la teoría estadística que utilizamos en el análisis estadístico.
Por ejemplo, la distribución t, la distribución F , la distribución χ2 y otras distribuciones son dis-
tribuciones de una v.a. Y , que es una función de la v.a. original X, que se distribuye normalmente.
Investiguemos este último paso.
438 Teoría de Probabilidad y Variables Aleatorias
El problema que acabamos de mencionar puede presentarse de forma esquemática como sigue:
El problema que deseamos discutir es: Cuando Y es una función de la v.a. X, ¿cómo encontra-
mos la c.d.f. F (y) de la v.a. Y ? Si podemos encontrar F (y), podemos derivar la función de proba-
bilidad p(y) cuando la v.a. Y es discreta, y la función de densidad de probabilidad f (y) cuando Y
es continua.
Al final de la última sección, como ejemplo para encontrar una función Y = g(X), menciona-
mos la transformación
X −µ
Y =
σ
1
X= (X1 + X2 + · · · + Xn )
n
donde X1 , X2 , . . . , Xn es una muestra aleatoria de tamaño n, la media muestral X se convierte
en una variable aleatoria, y según el teorema del límite central, tiene una distribución normal con
E(X) = µ y V ar(X) = σ 2 /n. Por tanto, X es una función de las variables aleatorias X1 , X2 , . . . , Xn .
Y hemos encontrado la distribución de X. No hemos dado explícitamente la fórmula de la c.d.f.
F (x) ni la función de densidad de probabilidad f (x), pero hemos expresado las ideas en forma de
diagrama como en la Figura 16.23.
σ
√
n
X
E(X) = µ
Figura 16.23
16.5. Una función de variables aleatorias 439
Caso 1. Y = g(X)
X definimos una nueva v.a. Y , y asignamos los puntos muestrales x en otro nuevo espacio muestral
de la v.a. Y , que denotamos por R′′ .
X(e)
Y (x)
R R′ X R′′ Y
Figura 16.24
F (y) = P (Y ⩽ y)
= Px [{x : Y (x) ⩽ y}]
Por ejemplo, supongamos que y = 2. Entonces, suponiendo que X tiene una distribución normal,
encontramos a partir de la tabla de áreas normales
X −µ
P ⩽ 2 = 1 − 0.0228 = 0.9772
σ
0.0228
2σ
Y
0
Figura 16.25
Extendamos ahora el caso en que Y sea una función de las v.a. X1 , X2 , ..., Xn . Este es el caso en
el que, por ejemplo
1
X = (X1 + X2 + · · · + Xn )
n
En nuestra discusión anterior, los puntos de la muestra e del espacio muestral R fueron asigna-
dos por la v.a. X en el espacio muestral R′ de la v.a. X. R′ era una línea real unidimensional, y la
v.a. X era una variable aleatoria unidimensional.
En el Ejemplo 9 de la Sección 16.3 vimos cómo una variable aleatoria Z definida en el espacio
muestral R puede ser bidimensional:
Sin embargo, en el Ejemplo 9 no mostramos cuál sería la medida de probabilidad en este espacio
muestral bidimensional R′ de Z. Queremos considerar esto ahora, y luego mostrar cómo definir una
c.d.f. bidimensional F (x, y).
Sea (R′ , F ′ , P ′ ) el espacio de probabilidad del v.a. bidimensional Z = (X, Y ). Sea E ′ un evento
en F ′ . Entonces la medida de probabilidad del evento E ′ es
PX,Y (E ′ ) = P ({e : [X(e), Y (e)] ∈ E ′ })
Z(e) = [X(e)] Y
6 6
Segundo lanzamiento
5 5
4 4
3 3
2 2
1 1
1 2 3 4 5 6 2 4 6 8 10 12 X
R R ′
Primer lanzamiento
Figura 16.26
{e : [X(e), Y (e)] ∈ E ′ } = {(5, 3), (5, 4), (6, 3), (6, 4)}
en el espacio muestral R. Por lo tanto
PX,Y (E ′ ) = P [{(5, 3), (5, 4), (6, 3), (6, 4)}]
1 1 1 1 4
= + + + =
36 36 36 36 36
También observamos que E ′ es un conjunto producto Cartesiano, lo que puede demostrarse me-
diante
{(x, y) : x ∈ E1′ , y ∈ E2′ }
donde E1′ es el conjunto {10, 12} en el eje X y E2′ es el conjunto {3, 4} en el eje Y . Por lo tanto,
E ′ = E1′ × E2′ = {10, 12} × {3, 4}
= {(10, 3), (10, 4), (12, 3), (12, 4)}
442 Teoría de Probabilidad y Variables Aleatorias
Nótese que X ⩽ x0 significa que X toma valores desde −∞ hasta x0 . Podemos escribir para abre-
viar
F (x0 , y0 ) = P (X ⩽ x0 , Y ⩽ y0 )
F (x, y) también se llama la c.d.f. de la v.a. bidimensional Z = (X, Y ). F (x, y) tiene las siguientes
propiedades: F (x, y) es monovaluada, real y no negativa, y en cada punto (x, y) de R′ tenemos
F (−∞, y) = 0
F (x, ∞) = 0
F (−∞, ∞) = 1
Utilizando esta definición básica, podemos definir la función de probabilidad conjunta p(x, y),
cuando X y Y son variables aleatorias discretas, como
p(x, y) = P (X = x0 , Y = y0 )
∂2
f (x, y) = F (x, y)
∂x∂y
Una vez explicado el significado de n variables aleatorias distribuidas conjuntamente, podemos ex-
plicar ahora el significado de las variables aleatorias independientes idénticamente distribuidas.
16.5. Una función de variables aleatorias 443
Del mismo modo, dado un espacio muestral R con puntos muestrales e1 , e2 , . . . , en , podemos ver
fácilmente que como el punto muestral ei es un evento, podemos escribir Ei = ei y Ej = ej . Así
pues,
R1 = {1, 2, 3, 4}
y cuando el dado es justo, cada resultado tiene asignada una probabilidad de 1/4.
Cuando se lanza el dado dos veces, el espacio muestral se convierte en
y los puntos de la muestra son duplas. Si asignamos probabilidades a estos puntos de la muestra
mediante
P [(ei , ej )] = p(ei )p(ej )
entonces, decimos que el primer lanzamiento y el segundo son 2 ensayos independientes correspon-
dientes al espacio muestral básico R1 . En nuestro caso actual
1 1
p(ei )p(ej ) = ·
4 4
Si el dado se lanza n veces, tenemos un espacio muestral de n dimensiones, y hay 4n puntos de
muestra. Cada punto de muestra es una n tupla (e1 , e2 , . . . , en ) y es una muestra de tamaño n. Las
probabilidades se asignan a cada punto de la muestra mediante la regla de multiplicación
En este caso tenemos n ensayos independientes, y también decimos que los ensayos son experimentos
idénticos.
444 Teoría de Probabilidad y Variables Aleatorias
E = EX × EY
entonces se dice que las variables aleatorias X y Y son estadísticamente independientes. Esta defini-
ción es coherente con la definición de independencia de los eventos explicada anteriormente.
Sin embargo, utilizaremos principalmente la forma f (x, y) = f (x)f (y) porque es más conve-
niente.
Una vez definida la independencia, expliquemos ahora lo que entendemos por variables alea-
torias idénticamente distribuidas. Esto se explicó en el Capítulo 7, pero vamos a volver a explicarlo
con nuestros nuevos conceptos desarrollados.
Supongamos que se lanza un dado de 4 caras dos veces, y que se da un espacio muestral básico
como el de la Figura 16.27. Sea la variable aleatoria
Z2
X(e) = x
4
1 2 3 4 Z1 0 1 X
R R′
Figura 16.27
16.5. Una función de variables aleatorias 445
1
PX (X = 0) =
2
1
PX (X = 1) =
2
O en términos de funciones de probabilidad
1
pX (0) =
2
1
pX (1) =
2
Considere otro experimento de lanzar una moneda dos veces. El espacio muestral básico se muestra
en la Figura 16.28. Sean las variables aleatorias
Y (e) = y
Primer lanzamiento
E C 0 1 Y
R R′
Primer lanzamiento
Figura 16.28
En este caso
1
PY (Y = 0) =
2
1
PY (Y = 1) =
2
O
1
pY (0) =
2
1
pY (1) =
2
Vemos que
PX = PY (16.5)
O podemos decir que
pX = pY (16.6)
aunque los espacios muestrales básicos sobre los que se definen las variables aleatorias X y Y sean
diferentes. Decimos que si (16.5) o (16.6) se cumple, entonces las variables aleatorias X y Y tienen
446 Teoría de Probabilidad y Variables Aleatorias
la misma distribución, o distribución común, o decimos que las variables aleatorias X y Y están
idénticamente distribuidas.
Consideremos un tercer experimento de lanzar una moneda dos veces, donde el espacio mues-
tral básico se muestra en la Fig. 16.29. Sea la variable aleatoria
Primer lanzamiento
C Z(e) = z
E C 0 1 Z
Primer lanzamiento
Figura 16.29
En este caso
1
PZ (Z = 0) =
2
1
PZ (Z = 1) =
2
y
PZ = PY o pZ = pY
Por lo tanto, Y y Z están idénticamente distribuidos. Los espacios muestrales básicos de Y y Z son
los mismos, pero las variables aleatorias Y y Z están definidas de forma diferente. Sin embargo, Y
y Z tienen una distribución común y están idénticamente distribuidas.
que asigna el punto muestral e en un nuevo espacio muestral de la v.a. X, que será un espacio de 10
dimensiones.
16.5. Una función de variables aleatorias 447
Si, por ejemplo, la v.a. X(e) se define como la media de los 10 valores
1
X(e) = (X1 + X2 + · · · + X10 )
10
entonces X(e) asignará el punto muestral e en un espacio muestral unidimensional de la v.a. X(e) =
X.
La segunda forma de definir la v.a. X en el espacio muestral básico de 10 dimensiones es defi-
niendo
En este caso, X1 (e) asigna el punto e en un espacio muestral unidimensional de la v.a. X1 . Del
mismo modo, X2 , X3 , . . . , X10 asignan el punto muestral e en el nuevo espacio muestral de las
variables aleatorias X2 , X3 , . . . , X10 . Podemos ver que las funciones de distribución unidimensional
de las variables aleatorias X1 , X2 , . . . , X10 son iguales, es decir
En el segundo caso la variable aleatoria X1 está definida en el espacio muestral básico R, mien-
tras que en el tercer caso las variables aleatorias X1 , X2 , . . . , X10 están definidas en los 10 espa-
cios muestrales básicos R1 , R2 , . . . , R10 , respectivamente. Por lo tanto, en el tercer caso, la v.a.
X = (X1 , X2 , . . . X10 ) no está definida en el espacio muestral básico R, y no podemos encontrar
la función de distribución de la variable aleatoria X. Sólo cuando X1 , X2 , . . . , X10 están definidos
en el mismo espacio muestral básico R podemos decir que X = (X1 , X2 , . . . , X10 ) también está
definido en R, y podemos encontrar una función de distribución de X. Utilizando esta importante
conclusión, podemos ahora definir una muestra aleatoria.
Consideremos un experimento con n = 10 medidas repetidas X1 , X2 , . . . , X10 . Entonces,
cuando X1 , X2 , . . . , X10 están idénticamente distribuidos, decimos que tenemos una muestra de
tamaño n = 10 de la variable aleatoria X.
Si, además, X1 , X2 , . . . , X10 son independientes, es decir
entonces decimos que tenemos una muestra aleatoria de tamaño n = 10 de la v.a. X. En este caso
en el que X1 , X2 , . . . , X10 deben ser independientes, X1 , X2 , . . . , X10 tienen que estar definidos en
el mismo espacio muestral básico.
Por tanto, cuando consideremos una muestra aleatoria de variables aleatorias independientes e
idénticamente distribuidas, asumiremos el segundo caso, en el que X(e) = (X1 , X2 , . . . , X10 ) y los
componentes X1 , X2 , . . . , X10 están definidas en el mismo espacio muestral básico R.
Caso 2. Y = g(X1 , X2 , . . . , Xn )
Y = g(X1 , X2 )
Ahora, afirmamos sin pruebas que si X1 , X2 son variables aleatorias distribuidas conjuntamente,
entonces
FY (y) = P (Y ⩽ y)
= PX1 ,x2 [{(x1 , x2 ) : g(x1 , x2 ) ⩽ y}]
Una vez hallada la c.d.f. FY (y), con técnicas matemáticas avanzadas, podemos encontrar fácilmente
la función de densidad de probabilidad f (y).
La ilustración que hemos utilizado es la media muestral X. Y = X es una función de los va-
lores muestrales X1 , X2 , . . . , Xn . Sabemos que la función de densidad de probabilidad f (y) es una
función de densidad normal, con E(X) = µ y V ar(X) = σ 2 /n.
La media muestral X es un estadístico obtenido a partir de los datos de la muestra; la varianza
muestral s2 también es un estadístico obtenido a partir de los valores de la muestra. El rango, la
mediana, la proporción y muchos otros estadísticos pueden obtenerse a partir de los datos de la
muestra. Y como hemos visto en los capítulos anteriores, nos interesa utilizar estas cantidades para
realizar análisis estadísticos. Pero para poder realizar el análisis estadístico, necesitamos conocer la
distribución de probabilidad de estos estadísticos.
Por lo tanto, estos problemas en forma general pueden reducirse a un problema de encontrar la
distribución de una variable aleatoria Y que es una función de las variables aleatorias X1 , X2 , . . . , Xn .
16.6. Espacios muestrales multivariantes 449
Extendamos nuestra discusión sobre los espacios muestrales al caso en el que no se realiza una
sino varias mediciones sobre un individuo. Hemos considerado la altura de un estudiante. Ahora
queremos considerar la altura y el peso; o la altura, el peso y el CI. Otro ejemplo son las notas de un
alumno en matemáticas, inglés, historia y química. ¿Cuáles serán los espacios muestrales en estos
experimentos?
Cuando consideramos una sola medida, como la altura, estamos considerando un caso univa-
riante. Cuando tenemos dos medidas, tenemos un caso bivariado (como cuando hablamos del aná-
lisis de correlación en el Capítulo 15). Cuando hay 2 o más medidas, tenemos un caso multivariado.
Consideremos el caso bivariado.
Para empezar, supongamos que tenemos una muestra aleatoria de n = 3 estudiantes, y una
variable aleatoria X indica sus pesos. Entonces, tenemos un espacio muestral básico R que es un
espacio tridimensional, y la muestra de n = 3 estudiantes se muestra como un punto muestral
e = (x1 , x2 , x3 )
donde x1 es el peso del primer alumno, y así sucesivamente. Los 3 ejes del espacio muestral básico
R muestran los posibles pesos de los 3 alumnos, respectivamente.
También podemos mostrar esta muestra de n = 3 alumnos como un histograma, donde el eje
horizontal es el peso.
Sea x1 = 110 lb., x2 = 120 lb., y x3 = 128 lb. Entonces el espacio muestral básico y el histo-
grama pueden mostrarse diagramáticamente como en la Figura 16.30:
Supongamos que la población es N = 10 alumnos. Entonces, podemos seleccionar N n = 103
muestras con reemplazo. Hay N n = 103 puntos de muestra en el espacio muestral básico tridimen-
sional R. Cada punto de muestra es una tripleta, y (110, 120, 128) es uno de estos 103 puntos de
muestra.
450 Teoría de Probabilidad y Variables Aleatorias
(3) 2
x3
e = (x1 , x2 , x3 )
1
x2
(2)
x1 x2 x3 X
Histograma
x1
Figura 16.30
¿Cuál es el espacio muestral en este caso? Si consideramos sólo los pesos, tenemos un espacio
muestral tridimensional, y un punto muestral e es una tripleta e = (x1 , x2 , x3 ).
Del mismo modo, si consideramos sólo las alturas, tenemos un espacio tridimensional, y un
punto de muestra g es una tripleta g = (y1 , y2 , y3 ).
Lo que hacemos ahora es superponer estos dos espacios tridimensionales y construir un espa-
cio tridimensional donde los 3 ejes representan los posibles pesos y alturas de los 3 estudiantes,
respectivamente. Esto se muestra en la Figura 16.31.
El diagrama muestra que hemos seleccionado una muestra de n = 3 alumnos, y a cada alumno
se le asocian p = 2 medidas, a saber, X =peso y Y =altura. Por lo tanto, tenemos un espacio
muestral básico de 3 dimensiones y 2 puntos muestrales e = (x1 , x2 , x3 ) y g = (y1 , y2 , y3 ) co-
rrespondientes a las medidas de peso y altura, respectivamente. El conjunto único de puntos (e, g)
corresponde a la muestra de n = 3 alumnos.
Si seleccionamos 2 muestras, tendremos 2 conjuntos de puntos de muestra (e1 , g1 ) y (e2 , g2 )
correspondientes a las 2 muestras.
Si la población es N = 10 alumnos, hay 103 muestras posibles. Por tanto, el espacio muestral
básico R será un espacio tridimensional con
(e1 , g1 ), (e2 , g2 ), . . . , (e103 , g103 )
16.6. Espacios muestrales multivariantes 451
Y
(3) e = (x1 , x2 , x3 ) 5′ 5′′
128
5′ 5′′
g = (y1 , y2 , y3 )
5′ 2′′
θ
120 5′ 2′′
(2) 5′ 1′′
110
110 120 128 X
5′ 1′′
R
(1)
Figura 16.31
conjuntos de puntos.
La extensión al caso en el que p = 3 o más es obvia. Supongamos que medimos el peso, la altura
y el coeficiente intelectual de un alumno. Entonces el vector aleatorio puede ser mostrado por
U= X Y Z
donde X es el peso, Y es la altura y Z es el CI. Supongamos que se selecciona una muestra de tamaño
n = 15 de una población de N = 30 estudiantes, con reemplazo. Entonces, para una sola muestra,
tenemos un espacio muestral básico de 15 dimensiones con 3 puntos en él
x1 = 110lb. = 11σX
x2 = 120lb. = 12σX
x3 = 128lb. = 12.8σX
452 Teoría de Probabilidad y Variables Aleatorias
Es decir, x1 está a 11 desviaciones estándar del origen, y así sucesivamente. Para las alturas te-
nemos
Entonces, cada uno de los 3 ejes del espacio muestral tridimensional está en unidades de desvia-
ción estándar, y en él se pueden medir el peso, la altura y cualquier otro número de variables. Esta
es la forma en que solemos expresar las muestras multivariados.
Los puntos de la muestra también pueden expresarse en términos de vectores. Suponiendo que
el estudiante está familiarizado con los vectores, decimos que el segmento de línea dirigida de O a
e, es decir, Oe, es un vector que representa el punto muestral e. Oe es la longitud del vector.
Como veremos en el Apartado 16.6.2, estos vectores pueden utilizarse para explicar diversos
conceptos estadísticos.
Ejemplo No.
Expliquemos el coeficiente de correlación utilizando vectores e ilustremos el espacio
muestral multivariante (bivariado en este caso). Se selecciona una muestra de tamaño
n = 3 y se mide el peso y la altura de cada alumno. El vector aleatorio es Z = [X Y ]
donde X = peso y Y = altura; y tenemos un espacio muestral básico de 3 dimensiones
con p = 2 puntos muestrales e y g correspondientes al peso y la altura, respectivamente.
Supongamos que los pesos y las alturas están en términos de desviaciones estándar y se
miden a partir de sus respectivas medias. Afirmamos sin pruebas que el coeficiente de
correlación entre el peso X y la altura Y está representado por el ángulo de los vectores
Oe y Og, como se muestra en la Figura 16.32.
(3)
e
θ
O (2)
(1)
Figura 16.32
Cuando suponemos que X y Y han sido ajustados de manera que estén en términos de desvia-
ciones estándar y medidos a partir de la media, también podemos expresarlo diciendo que la media
es 0 y la varianza es 1 para X y Y ajustados.
Si r = 1, es decir, si existe una correlación perfecta entre X (peso) y Y (altura), entonces θ = 0.
Si r = 0, entonces X y Y no están correlacionados.
Para responder a la segunda pregunta, primero preguntamos: ¿Cómo se define una variable alea-
toria en un espacio muestral básico como el que se muestra en la Figura 16.31 (reproducido aquí
como Figura 16.33)?
(3) g = (y1 , y2 , y3 )
Y
y3 s3 = (x3 , y3 )
e = (x1 , x2 , x3 )
(2) y2 s2
R y1 s1
x1 x2 x3 X
(1)
(b)
(a)
Figura 16.33
x1 y1
x2 y2
(e, g) =
x3 y3 muestra los puntos s3 en el histograma
muestra el
punto e en el espacio
muestral básico
muestra el resultado del experimento de seleccionar una muestra de tamaño n = 3 y los pesos de
los 3 estudiantes.
Los puntos s1 , s2 , s3 en el histograma representan a los 3 estudiantes y los datos asociados a los
3 estudiantes. Por ejemplo
s3 = (x3 , y3 ) = (128 lb., 5′ 5′′ )
454 Teoría de Probabilidad y Variables Aleatorias
nos da el dato de que el tercer estudiante pesa 128 lb. y mide 5′ 5′′ . El s3 no muestra el resultado
del experimento de seleccionar una muestra de 3 estudiantes y medir sus pesos y alturas.
Los puntos de la muestra en el espacio muestral básico pueden asignarse en el espacio del his-
tograma mediante un vector aleatorio bidimensional
Z = (X, Y )
= [X(e, g), Y (e, g)]
= (xi , yi ) i = 1, 2, 3
Esto asigna el conjunto de puntos (e, g) a puntos (xi , yi ) en el espacio bidimensional del histo-
grama como se muestra en la Figura 16.33(b). Extendamos esto al caso en el que n = 5 estudiantes
y p = 3, digamos, peso, altura y CI. Entonces los datos pueden mostrarse como
Peso Altura CI
x1 y1 z1
x2 y2 z2
x3 y3 z3
x4 y4 z4 muestra el punto s4 en un histogra-
x5 y5 z5 ma tridimensional
e1 = (x1 , x2 , x3 , x4 , x5 )
e2 = (y1 , y2 , y3 , y4 , y5 )
e3 = (z1 , z2 , z3 , z4 , z5 )
X31 (e1 , e2 , e3 ) z1
X32 (e1 , e2 , e3 ) z2
X3 (e1 , e2 , e3 ) =
X33 (e1 , e2 , e3 ) = z3
X34 (e1 , e2 , e3 ) z4
X35 (e1 , e2 , e3 ) z5
Por lo tanto, el vector aleatorio X = (X11 , X21 , X31 ) = (x1 , y1 , z1 ) asigna el conjunto de puntos
(e1 , e2 , e3 ) a (x1 , y1 , z1 ).
Esto puede extenderse fácilmente al caso de que tengamos un espacio muestral básico de n di-
mensiones con p puntos. El vector aleatorio será un vector aleatorio p-dimensional que asigna el
conjunto de puntos de muestra en un punto de muestra (x1 , y1 , . . . , z1 ) en un espacio de histogra-
ma p-dimensional.
Consideremos la tercera cuestión relativa a la utilidad del espacio muestral básico. En el Apar-
tado 9.4 vimos cómo el espacio muestral se dividía en una región de aceptación y otra de rechazo
mediante una regla de decisión, y esto se utilizaba para probar hipótesis.
La idea de probar las hipótesis se basa en la probabilidad de seleccionar una determinada mues-
tra. Es decir, una vez seleccionada una muestra de tamaño n, nos preguntamos: ¿Cuál es la proba-
bilidad de seleccionar dicha muestra, dada una determinada hipótesis?
La probabilidad de seleccionar una muestra determinada dependía de la densidad de los puntos
de la muestra en el espacio muestral. Por ejemplo, en la Figura 16.34, supongamos que tenemos un
espacio muestral de n dimensiones, y que la dispersión de los puntos de la muestra es muy densa en el
área sombreada, pero muy escasa fuera de esa área. Sea esta área sombreada la región de aceptación
y el área fuera de ella la región de rechazo.
(n)
(1)
Figura 16.34
Entonces, en esta situación en la que la densidad de los puntos de la muestra es muy alta en
la región de aceptación, la probabilidad de aceptar la hipótesis es grande. Como se puede ver, el
conocimiento de las propiedades del espacio muestral básico es necesario para la construcción de la
teoría estadística.
Como se mencionó en la Sección 16.5, utilizamos el espacio muestral de la v.a. X y la c.d.f.
F (x) para derivar varias teorías estadísticas, pero para obtener una mejor comprensión de estos
resultados, necesitamos entender las propiedades del espacio muestral básico del que se derivaron
los resultados. (El Apartado 16.6.4, puede leerse después del capítulo 23).
456 Teoría de Probabilidad y Variables Aleatorias
Como otra ilustración del uso del espacio muestral básico para entender la teoría estadística,
consideremos el análisis de regresión. Supongamos que Y es la venta de automóviles, X1 es el ingreso
y X2 es la población. Entonces podemos tener datos como los siguientes
Y X1 X2
Y1 X11 X12
Y2 X21 X22
... ... ...
Y5 X51 X52
Y c = a + b1 X 1 + b2 X 2
e1 = (y1 , y2 , . . . , y5 )
e2 = (x11 , x21 , . . . , x51 )
e3 = (x12 , x22 , . . . , x52 )
Los vectores Oe2 y Oe3 forman un plano en el espacio de 5 dimensiones, y el vector Oe1 forma
un ángulo con este plano.
Como en el caso de la correlación simple que explicamos en el Apartado 16.6.1, el coseno de este
ángulo es el coeficiente de correlación múltiple R de Y sobre X1 y X2 .
Si el ángulo es 0, es decir, si el vector Oe1 se encuentra en el plano de e2 y e3 , entonces R = 1.
Y en este caso Y puede expresarse como una función lineal de X1 y X2 .
Si Y es ortogonal al plano, R = 0.
P (A ∩ B ∩ C) = P (A|B ∩ C) · P (B ∩ C)
(16.9)
= P (A|B ∩ C) · P (B|C) · P (C)
16.7. Probabilidad condicional 457
Dado que
P (C ∩ B ∩ A) = P (A ∩ B ∩ C)
podemos escribir
P (C ∩ B ∩ A) = P (C) · P (B|C) · P (A|B ∩ C) (16.10)
La ecuación (16.10) se utilizó en el Capítulo 7 para hallar la probabilidad de seleccionar un 4 en
el tercer sorteo, dado que no se extrajo en los dos primeros sorteos de una caja con 6 papelitos
numerados del 1 al 6. Teníamos
5 4 1 1
P (C ∩ B ∩ A) = · · =
6 5 4 6
donde
Por lo tanto,
Pero, como los AH, son eventos mutuamente excluyentes, podemos sumar las probabilidades. Así
obtenemos
P (A) = P (AH1 ) + P (AH2 ) + · · · + P (AH6 )
X (16.11)
= P (AHi )
P (A|H2 ) = 0, P (A|H3 ) = 1
P (A|H4 ) = 0, P (A|H5 ) = 1
P (A|H6 ) = 0
1
P (Hi ) = , i = 1, 2, . . . , 6
6
1 1 1 3
P (A) = 1 · +0+1 +0+1· +0=
6 6 6 6
La fórmula (16.12) se denomina a veces teorema de la probabilidad total. Podemos enunciarla for-
malmente como sigue: Sea H1 + H2 + · · · + Hn = E, donde H1 , H2 , . . . , Hn son eventos mutua-
mente excluyentes y exhaustivos, y E es el espacio muestral. Sea A un evento arbitrario generado a
partir de E. Entonces
Ejemplo No. 1
Supongamos que tenemos dos máquinas, I y II, que producen zapatos. Sea H1 el evento
de que los zapatos sean producidos por la máquina I, y H2 el evento de que sean pro-
ducidos por la máquina II. Sea A el evento de que un zapato no es defectuoso. Entonces
A = AH1 + AH2
Ejemplo No. 2
Sean H1 , H2 , H3 y H4 estudiantes de primer, segundo, tercer y último año de universi-
dad.
Sea pi (i = 1, 2, 3, 4) la probabilidad de que un estudiante seleccionado al azar pertenezca
a Hi . Obviamente
p 1 + p 2 + p3 + p 4 = 1
Sea A el evento de que un alumno lleve gafas. Entonces la probabilidad de seleccionar
un alumno que lleva gafas es
donde
P (Hi ) = pi
y P (A|Hi ) es la probabilidad de seleccionar a un alumno con gafas, dado Hi .
En el Ejemplo 1, en el que dos máquinas producían zapatos, supongamos que una persona está
interesada en la siguiente pregunta ¿Cuál es la probabilidad de que la máquina I haya fabricado un
zapato no defectuoso? Dado que A era el evento de un zapato no defectuoso y H1 el evento de que
el zapato fuera fabricado por la máquina I, nuestra pregunta en símbolos es
Es decir, dado un zapato no defectuoso, ¿cuál es la probabilidad de que haya sido fabricado por la
máquina I?
En nuestra discusión anterior sobre las probabilidades condicionales, el problema era al revés,
es decir,
P (A|H1 ) (16.14)
P (H1 ∩ A)
P (H1 |A) = (16.15)
P (A)
Ejemplo No. 3
Utilizando el Ejemplo 1, calculemos la probabilidad de que un zapato no defectuoso
haya sido fabricado por la máquina I.
P (Hi ) da las probabilidades a priori de que un zapato sea producido por la máquina
Hi . P (A|Hi ) es la probabilidad de producir un zapato no defectuoso, dado el evento Hi .
P (Hi ∩ A) es la probabilidad del evento conjunto Hi y A. Por ejemplo, H1 ∩ A es el
evento de que la máquina I produzca un zapato no defectuoso.
Entonces la probabilidad posterior P (Hi |A) es, por el teorema de Bayes,
P (Hi ∩ A)
P (Hi |A) =
P (H1 ∩ A) + P (H2 ∩ A)
Como muestra el Cuadro 16.1, P (H1 |A) = 0.63 y P (H2 |A) = 0.37.
El resultado puede interpretarse como sigue: Dado un zapato no defectuoso, la probabi-
lidad de que haya sido producido por la máquina I es de 0.63 y la probabilidad de que
haya sido producido por la máquina II es de 0.37.
Cuadro 16.1
Ejemplo No. 4
Supongamos que la urna I tiene 10 bolas rojas y la urna II tiene 5 bolas rojas y 5 verdes.
Se ha seleccionado una bola y ha resultado ser roja. ¿De qué urna se ha extraído la bo-
la?
En el Cuadro 16.2, P (Hi ) muestra las probabilidades previas de seleccionar una urna. P (A|Hi )
muestra la probabilidad (probabilidad) de seleccionar una bola roja, dada Hi . Sabemos que
P (H1 ∩ A) = P (Hi )P (A|Hi )
16.7. Probabilidad condicional 461
Cuadro 16.2
y esto nos da la cuarta columna. La quinta columna se obtiene a partir de la fórmula de Bayes:
P (Hi ∩ A)
P (Hi |A) = P
P (Hi ∩ A)
P (A|Hi )P (Hi )
=P
P (A|Hi )P (Hi )
La última columna del Cuadro 16.2 muestra que la probabilidad de que la bola salga de la urna
I, cuando es roja, es de 2/3, mientras que es de 1/3 en la urna II. Convendremos en elegir la urna
(es decir, la hipótesis Hi ) con la mayor probabilidad. En nuestro caso actual, es decir Hi , decidimos
que la bola procede de la urna I.
Obsérvese que en el Ejemplo 4 hemos fijado P (Hi ) = 1/2. ¿Por qué hemos hecho esto? El
supuesto que subyace es que, cuando no hay razones para dudar de una hipótesis más que de otra,
ambas deben mantenerse en la misma duda. Este es el principio de la razón insuficiente.
Por tanto, cuando no hay información concreta sobre la distribución de probabilidad de las
hipótesis H1 , H2 , . . . , Hn , se asignan probabilidades iguales. Es decir, las probabilidades a priori
son
1
P (Hi ) = , i = 1, 2, . . . , n
n
Una pregunta que surge de forma natural es: ¿Tiene sentido esta distribución de probabilidades a
priori? Las probabilidades se han asignado en función de la confianza subjetiva del estadístico o de la
falta de ella. Por lo tanto, quienes apoyan el enfoque objetivo de la teoría de las frecuencias relativas
cuestionan el sentido del enfoque subjetivo, mientras que quienes apoyan el enfoque subjetivo lo
consideran significativo.
Ejemplo No. 5
Supongamos que hay 4 urnas que contienen bolas rojas y verdes, como se muestra en
la Figura 16.35. Una bola seleccionada de una de las urnas resulta ser roja. ¿De qué urna
fue seleccionada?
Figura 16.35
462 Teoría de Probabilidad y Variables Aleatorias
Cuadro 16.3
P (H1 ) muestra las probabilidades a priori obtenidas mediante el principio de razón insuficiente.
La mayor probabilidad posterior es
P (H4 ∩ A)
P (H4 |A) = P
P (Hi ∩ A) = 0.40
Por lo tanto, elegimos la urna 4 como la urna de la que se seleccionó la bola roja.
El teorema de Bayes nos da un criterio para elegir una hipótesis Hi . Se elige la hipótesis con la
mayor probabilidad posterior. En el Capítulo 8 se ha presentado un método alternativo de elección
de hipótesis, denominado método de máxima verosimilitud.
Como se ha señalado anteriormente, la suposición de que las probabilidades previas P (H1 ) son
conocidas ha sido cuestionada por los objetivistas.
En muchos casos en los que tenemos una distribución de probabilidad para el H1, podemos
querer revisarla a la vista de la información adicional que se ha obtenido de un evento A (que puede
ser, por ejemplo, una muestra). Por ejemplo, se puede tener una distribución de probabilidad relativa
a la eficacia de una píldora anticonceptiva que se reformulará después de la experimentación. O se
puede tener una distribución de probabilidad relativa al número de defectos de un determinado
producto que, tras su comprobación, debe ser rediseñado. O se puede tener una distribución de la
demanda de un producto procedente de diversas fuentes que, tras la recepción real de los pedidos,
debe ser revisada.
Investiguemos con un poco más de detalle cómo se puede utilizar la evidencia experimental
para revisar la distribución de probabilidad original (a priori). Utilizaremos de nuevo el Ejemplo 4.
El Cuadro 16.2 se reproduce como Cuadro 16.4 por comodidad.
1
Para más información sobre la estadística Bayesiana, véase R. Schlaifer, Introduction to Statistics for Business Deci-
sions, New York: McGraw-Hill Book Company, Inc., 1961.
16.7. Probabilidad condicional 463
Cuadro 16.4
Supongamos que se extrae una segunda bola que resulta ser roja. Con esta información, quere-
mos revisar las probabilidades asociadas a H1 . Para ello, utilizamos las probabilidades posteriores
del Cuadro 16.4 como las probabilidades previas del Cuadro 16.5.
Obviamente, la probabilidad asociada a H1 aumenta.
En lugar de calcular las probabilidades posteriores para cada sorteo, podemos considerar las 2
extracciones de una bola roja como una muestra aleatoria de tamaño 2. Entonces las probabilidades
P (A|H1 ) serán
P (A|H1 ) = 1 · 1 = 1
P (A|H2 ) = 0.5 · 0.5 = 0.25
Cuadro 16.5
Cuadro 16.6
Vemos que obtenemos los mismos resultados. Pero, si hubiéramos tomado una muestra aleatoria
de tamaño 3 y las 3 bolas hubieran sido rojas, deberíamos tener
P (A|H1 ) = 1 · 1 · 1 = 1
P (A|H2 ) = 0.5 · 0.5 · 0.5 = 0.125
Ejemplo No. 6
Supongamos que tenemos 2 urnas con bolas rojas y verdes, como se muestra en la Fi-
gura 16.36. Se nos presenta una urna y se extrae una bola que resulta ser roja. ¿De qué
urna procede?
Nuestro análisis se presenta en el Cuadro 16.7.
Urna 1 Urna 2
Rojo 3 7
Verde 7 3
Figura 16.36
Cuadro 16.7
Cuadro 16.8
Las probabilidades a priori P (Hi ) son 0.5. El evento A es ahora una muestra de rojo y verde.
Por lo tanto
2
P (A|H1 ) = · 0.3 · 0.7 = p1
1
2
P (A|H2 ) = · 0.7 · 0.3 = p2
1
Por lo tanto, la probabilidad de seleccionar una muestra de tamaño 3 con 2 bolas rojas y 1 bola verde
de la urna I es 0.3.
Ejemplo No. 7
Utilizando los datos del Ejemplo 3, planteemos la siguiente pregunta: Dada una muestra
de 3 zapatos, donde 2 son no defectuosos y 1 es defectuoso, ¿cuál es la probabilidad de
que estos zapatos hayan sido producidos por la máquina I?
El evento A es la selección de una muestra de 2 zapatos no defectuosos y 1 defectuoso.
P (A|H1 ) y P (A|H2 ) son
3
P (A|H1 ) = · 0.92 · (1 − 0.9) = p1
2
3
P (A|H2 ) = · 0.82 · (1 − 0.8) = p2
2
Por lo tanto, nuestro cálculo de las probabilidades posteriores queda como se muestra
en el Cuadro 16.9.
Cuadro 16.9
466 Teoría de Probabilidad y Variables Aleatorias
Encontramos
P (A ∩ H1 )
p′1 =
P (A ∩ H1 ) + P (A ∩ H2 )
3
0.6 · · 0.92 · 0.1
2
=
3 3
0.6 · · 0.92 · 0.1 + 0.4 · · 0.82 · 0.2
2 2
= 0.49
p′2 = 0.51
Los Ejemplos 6 y 7 muestran que, a medida que el tamaño de la muestra es mayor, el método
actual de cálculo de las probabilidades P (A|Hi ) de las muestras se vuelve muy difícil. Una pre-
gunta que surge naturalmente es: ¿Existe alguna forma de simplificar este proceso de cálculo de las
probabilidades de selección de una determinada muestra?
Hemos visto en el Capítulo 7 que la simplificación es posible utilizando el teorema del límite
central. Es decir, utilizamos la media muestral para representar la muestra y encontramos que la
distribución muestral de la media muestral es aproximadamente normal. Esto nos permitió calcular
las probabilidades de seleccionar una muestra. A continuación consideramos este problema.
El punto principal que hemos aprendido es el significado y el uso del teorema de Bayes para
calcular las probabilidades posteriores.
En esta sección mostraremos primero cómo se calcula la probabilidad de una muestra y luego
calcularemos las probabilidades posteriores de una variable aleatoria. Explicaremos el proceso con
una ilustración.
Supongamos que, a partir de datos anteriores, conocemos la distribución de frecuencias de las
tallas de las camisas, como se muestra en la tabla adjunta.
La v.a. ξ es la talla de la camisa. Supondremos que no hay errores de medición y, por tanto, no hay
sesgos en la medición de las tallas de las camisas. En consecuencia, consideraremos que las medias
poblacionales µ de cada talla de camisa son iguales a las tallas de camisa ξ. Las frecuencias relativas
de la tabla estiman las probabilidades a priori P (Hi ), donde Hi son las hipótesis sobre las tallas de
las camisas.
Hay razones para creer que puede haber algún cambio en la distribución de las tallas de camisa
χ = µ para comprobar y revisar la distribución de las tallas de camisa, se selecciona para ello una
16.7. Probabilidad condicional 467
1. Encontrar las probabilidades de la muestra con media muestral X = 13, dadas varias medias
poblacionales.
Una muestra de tamaño 16 es bastante pequeña, pero a efectos de ilustración supongamos que
es lo suficientemente grande como para suponer que la distribución muestral de la media muestral
será aproximadamente normal. La situación se muestra gráficamente en las Figura 16.37(a) y (b).
( )
X −µ
X −2 X −µ 2 σ
13 E(X) 15 E
σx̄
= µ = 14
=0
(a)
(b)
Figura 16.37
El primer paso es encontrar la probabilidad de una muestra con media X = 13, dadas las medias
poblacionales µ = 13, 14 y 15. Para ello, primero transformamos la distribución muestral de X en
una distribución unitaria, de modo que podamos utilizar las tablas de áreas y ordenadas normales.
Empecemos con µ = 14, para facilitar el cálculo. Tenemos
X −µ
z=
σX̂
Como el área muestra las probabilidades, ésta es la probabilidad de una muestra con media X = 13,
dada una media poblacional de µ = 14.
De manera similar podemos calcular la probabilidad de la muestra para µ = 13 y µ = 15. Los
cálculos se muestran en el Cuadro 16.10.
Cuadro 16.10
Cuadro 16.11
En el Cuadro 16.11 se observa que la probabilidad de que haya una demanda para el tamaño 13
de aproximadamente 0.747; para el tamaño 14, es de aproximadamente 0.253; y para el tamaño 15,
es de aproximadamente 0.000.
Las probabilidades posteriores muestran la nueva distribución de las tallas de las camisas hallada
en la información de la muestra.
El punto a destacar en esta ilustración es cómo se calculan las probabilidades y las probabilidades
posteriores cuando la distribución de muestreo es continua. Observe cómo se anulan las anchuras
de los intervalos dx̄/0.5 y cómo se ha utilizado la tabla de ordenadas.
CAPÍTULO 17
Teoría de la Decisión II
En el Capítulo 10 teníamos un ejemplo de dos urnas con bolas rojas, verdes y negras como el
siguiente:
w1 w2
Rojas 10 60
Verdes 20 30
Negras 70 10
469
470 Teoría de la Decisión II
Se extrajo una muestra aleatoria de n = 1 bola. No sabíamos de qué urna se había extraído. A
partir de la muestra que teníamos delante queríamos decidir (o estimar) de qué urna procedía.
Para ello, razonamos de la siguiente manera: Las urnas se llamaban estados de naturaleza w1 y
w2 . La muestra de n = 1 bolas generaba un espacio muestral unidimensional; uno para w1 y otro
para w2 . Como asumimos 3 resultados (bolas rojas, verdes y negras) hay 31 = 3 puntos de muestra
en cada espacio muestral.
Cada espacio muestral se divide en una región de aceptación A y una región de rechazo R. Los
puntos de muestra de la región de aceptación conducen a la acción A1 y los de la región de rechazo
conducen a A2 . ¿De cuántas maneras se puede dividir el espacio muestral de 3 puntos? Hay
3 3 3 3
+ + + = (1 + 1)3 = 23 = 8
2 1 2 3
formas posibles de agrupar estos 3 puntos de la muestra. En otras palabras, hay 8 reglas posibles
que nos dicen cómo agrupar estos 3 puntos de muestra. Estas 8 reglas posibles se muestran en el
Cuadro 17.1 (repetimos el Cuadro 10.1), donde las reglas se denotan con di .
d1 d2 d3 d4 d5 d6 d7 d8
Roja (r) A1 A1 A1 A2 A1 A2 A2 A2
Verde (v) A1 A1 A2 A1 A2 A1 A2 A2
Negra (n) A1 A2 A1 A1 A2 A2 A1 A2
P (A1 |w1 ) 1 0,3 0,8 0,9 0,1 0,2 0,7 0
α = P (A2 |w1 ) 0 0,7 0,2 0,1 0,9 0,8 0,3 1
β = P (A1 |w2 ) 1 0,9 0,7 0,4 0,6 0,3 0,1 0
P (A2 |w2 ) 0 0,1 0,3 0,6 0,4 0,7 0,9 1
Cuadro 17.1
(regla de
decisión)
r b n A1 A2
espacio muestral espacio de acción
Si α
(a) (b)
Figura 17.1
Podemos decir que la regla de decisión di es una asignación del espacio muestral Si en el espacio
de acción A.
Una forma alternativa de explicar la regla de decisión es la siguiente. La regla de decisión divide
el espacio muestral S en subconjuntos disjuntos A y R donde
17.1. Reglas de decisión 471
1. A ∩ R = 0
2. A ∪ R = S
Ejemplo No. 1
En la ilustración anterior, seleccionemos una muestra aleatoria de tamaño n = 2. En-
tonces tenemos un espacio muestral bidimensional con 9 puntos de muestra, como se
muestra en la Figura 17.2. El espacio muestral se divide en conjuntos de aceptación (A)
y rechazo (R) mediante una regla de decisión di . Como hay 9 puntos de muestra, hay
9 9 9
+ + ... = (1 + 1)9 = 29 = 512
0 1 9
Hay 2 espacios muestrales S1 y S2 uno para w1 y otro para w2 , como se muestra en la Figura 17.2.
R A R A
n n
E3 E7 E9 E3 E7 E9
P (A1 |w2 )
=β
E6 E8 E6 E8
v v
E2 E2
P (A2 |w1 )
r E1 E4 E5 =α r E1 E4 E5
r v n r v n
S1 S2
Figura 17.2
R = {E1 , E2 , E3 , E4 , E5 }
A = {E6 , E7 , E8 , E9 }
Puntos
Muestrales di
E1 = (r, r) A2
E2 = (r, v) A2
E3 = (r, n) A2
E4 = (v, r) A2
E5 = (n, r) A2
E6 = (v, v) A1
E7 = (v, n) A1
E8 = (n, v) A1
E9 = (n, n) A1
Cuadro 17.2
En el Capítulo 10 vimos cómo podíamos asociar a cada regla de decisión los riesgos α y β. Los
riesgos α y β son
α = P (A2 |w1 )
β = P (A1 |w2 )
En cuanto a β, tenemos
β = P (A1 |w2 )
= P (conjunto A|S2 )
Xn
= Pw1 (Ei )[1 − d(Ei )]
i=1
X
n
β= gi [1 − d(Ei )]
i=1
X
= gi
Ei ∈A
d1 d2
E1 = r A1 A1
E2 = v A1 A1
E3 = n A1 A2
α 0 0.7
β 1 0.9
Cuadro 17.3
r v n
0.1 0.2 0.7
Figura 17.3
X
α(d1 ) = P (A2 |w1 ) = fi d(Ei )
Ei ∈R
= f1 d(E1 ) + f2 d(E2 ) + f3 d(E3 )
= 0.1 · 0 + 0.2 · 0 + 0.7 · 0
=0
β(d1 ) = P (A1 |w2 )
X
= gi [1 − d(Ei )]
Ei ∈A
X
= gi
Ei ∈A
= g1 + g2 + g3
=1
X
α(d2 ) = fi d(Ei )
Ei ∈R
= f1 (0) + f2 (0) + f3 (1)
= 0.7 · 1
= 0.7
X
β(d2 ) = gi d(Ei )
Ei ∈A
= g1 (1) + g2 (1) + g3 (0)
= 0.6 + 0.3 + 0.1 · 0
= 0.9
Los riesgos α y β para las otras reglas d3 , . . . , d8 se evalúan de forma similar y los resultados se
muestran en el Cuadro 17.3.
Hemos podido caracterizar las reglas de decisión con los riesgos α y β.
17.1. Reglas de decisión 475
Ejemplo No. 2
En el Ejemplo 1 teníamos un espacio bidimensional como el que se muestra en la Figu-
ra 17.4.
Busquemos α y β para las reglas de decisión dadas en la Figura 17.4.
Como R = {E1 , E2 , E3 , E4 , E5 } y A = {E6 , E7 , E8 , E9 }, encontramos
X
α= fi
Ei ∈R
= f1 + f2 + f3 + f4 + f5
= f (r)f (r) + f (r)f (v) + f (r)f (n) + f (v)f (r) + f (n)f (r)
= 0.1 · 0.1 + 0.1 · 0.2 + 0.1 · 0.7 + 0.2 · 0.1 + 0.7 · 0.1
= 0.19
X
β= gi
Bi ∈R
= g6 + g7 + g8 + g9
= g(v)g(v) + g(v)g(n) + g(n)g(v) + g(n)g(n)
= 0.3 · 0.3 + 0.3 · 0.1 + 0.1 · 0.3 + 0.1 · 0.1
= 0.16
∴ α = 0.19, β = 0.16
R A
n
E3 E7 E9
E6 E8
v
E2
r E1 E4 E5
r v n
Figura 17.4
Nuestro problema es decidir de qué urna se ha seleccionado la muestra. Una regla de decisión
nos dice qué acción tomar cuando seleccionamos una muestra. Por supuesto, deseamos tomar la
decisión correcta y seleccionar el verdadero estado de la naturaleza, es decir, la urna de la que se
seleccionó la muestra.
Y para ello, obviamente, queremos que α y β sean lo más pequeños posible. Así, si hay dos reglas
476 Teoría de la Decisión II
di
E1 (r, r) A2
E2 (r, v) A2
E3 (r, n) A2
E4 (v, r) A2
E5 (n, r) A2
E6 (v, v) A1
E7 (v, n) A1
E8 (n, v) A1
E9 (n, n) A1
α 0.19
β 0.16
Cuadro 17.4
de decisión di y dj y si
entonces la regla dj , que tiene los riesgos α y β más pequeños, es mejor que la regla di . Forma-
lizaremos esta caracterización de las reglas de decisión y la definiremos como sigue:
Definición: Se dice que una regla de decisión di es inadmisible si existe otra regla dj tal que
α(dj ) ⩽ α(di )
β(dj ) ⩽ β(di )
y una de las ⩽ es una desigualdad estricta. Decimos que dj domina a di . Decimos que di es
admisible si no existe tal dj dominante.
Más sencillamente, diremos que una regla de decisión es admisible si no existe otra regla que sea
mejor en el sentido anterior.
Apliquemos este criterio a nuestro ejemplo (17.1). Vemos que
Mostramos las reglas de decisión en forma de diagrama en la Figura 17.5. Cada regla de decisión
puede mostrarse mediante un punto en el diagrama (α, β). Dado que cuanto más pequeños sean α
y β mejor será la regla, el punto ideal sería el origen (0, 0). Podemos ver que los puntos más cercanos
al origen son mejores que los más alejados y el gráfico muestra que los puntos que corresponden a
d1 , d4 , d7 , d8 son mejores que los demás puntos.
17.1. Reglas de decisión 477
β
d1
1.0 d2
0.8
d3 d5
0.6
d4
0.4 d6
0.2 d7
d8
0.2 0.4 0.6 0.8 1.0 α
Figura 17.5
También hay que señalar que los puntos son simétricos respecto al punto (0.5, 0.5). Esta simetría
surge porque siempre se puede hacer una regla de decisión opuesta al punto. Es decir, para cada regla
admisible existe una regla simétrica inadmisible.
Examinemos la Figura 17.5 con más detenimiento. Vemos gráficamente que el gráfico de los 8
pares de (α, β) correspondientes a las 8 reglas de decisión forman un conjunto convexo. Explique-
mos esto con más detalle.
A
B A A B
B
(a) (c)
(b)
Figura 17.6
Lo primero que tenemos que explicar es un conjunto convexo. En la Figura 17.6 hemos dibujado
3 conjuntos. Una característica de los conjuntos (a) y (b) es que si dos puntos cualesquiera están en el
conjunto, todos los puntos del segmento de línea que los une también están en el conjunto. Podemos
ver que esto no es cierto para el conjunto (c). Los conjuntos (a) y (b) se llaman conjuntos convexos;
(c) no es un conjunto convexo. A partir de esta observación, definimos un conjunto convexo como
un conjunto tal que si dos puntos cualesquiera están en el conjunto, todos los puntos del segmento
de recta que los une están también en el conjunto 1 .
Se puede demostrar que los riesgos α y β, cuando se representan como en la Figura 17.7(a),
formarán un conjunto convexo. Si la distribución de probabilidad de las variables aleatorias es con-
tinua, obtendremos regiones convexas como en la Figura 17.7(b).
Podemos ver intuitivamente que las reglas de decisión con (α, β) valoraciones a lo largo del
límite inferior (suroeste) del conjunto convexo (región) son las reglas admisibles.
1
Matemáticamente, sean A y B dos puntos vectoriales. Entonces el segmento de línea que une estos 2 puntos vecto-
riales puede ser mostrado por wA + (1 − w)B, donde 0 ⩽ w ⩽ 1. Sea C = wA + (1 − w)B. Entonces C es un vector;
punto en el segmento. Ahora, dejemos que dos puntos vectoriales cualesquiera A y B pertenezcan a un conjunto S. Si el
punto vectorial C también pertenece a S, entonces se dice que el conjunto S es un conjunto convexo.
478 Teoría de la Decisión II
β β
1 1
0 1 α 0 1 α
(a) (b)
Figura 17.7
Esto nos lleva a la observación adicional de la Figura 17.7 de que a medida que el riesgo α
disminuye el riesgo β aumenta, y viceversa.
Por lo tanto, hemos encontrado una clase de reglas admisibles que se encuentran en el límite
inferior del conjunto convexo. Limitaremos nuestra investigación posterior de las reglas de decisión
a las reglas admisibles que se encuentran en el límite inferior del conjunto convexo. Las demás re-
glas de decisión que no se encuentran en el límite inferior del conjunto convexo no necesitan ser
consideradas.
Consideremos la cuestión: ¿Cuál de estas reglas admisibles es deseable? ¿Cuál es la mejor? Para
responder a esta pregunta, tenemos que definir qué entendemos por mejor, y como veremos en bre-
ve, hay diferentes opiniones sobre lo que es mejor. Esto lleva a diferentes teorías sobre la selección
de las reglas de decisión deseables. De ahí que nuestro siguiente problema sea investigar algunas
teorías relativas a la selección de reglas de decisión óptimas de la clase de reglas admisibles. En pri-
mer lugar, explicaremos el concepto de verosimilitud y ratio de verosimilitud, que es necesario para
la discusión de estas diferentes teorías. Pero antes, debemos explicar un concepto más preliminar
relativo a las reglas de decisión, a saber, las reglas de decisión aleatorias.
En nuestro ejemplo anterior de 2 urnas, teníamos 8 reglas de decisión como en el Cuadro 17.1,
que se reproduce a continuación como Cuadro 17.5.
d1 d2 d3 d4 d5 d6 d7 d8
r A1 A1 A1 A2 A1 A2 A2 A2
v A1 A1 A2 A1 A2 A1 A2 A2
n A1 A2 A1 A1 A2 A2 A1 A2
P (A1 |w1 ) 1 0.3 0.8 0.9 0.1 0.2 0.7 0
α = P (A2 |w1 ) 0 0.7 0.2 0.1 0.9 0.8 0.3 1
β = P (A1 |w2 ) 1 0.9 0.7 0.4 0.6 0.3 0.1 0
P (A2 |w2 ) 0 0.1 0.3 0.6 0.4 0.7 0.9 1
Cuadro 17.5
β
d1
1.0
0.9
0.8
0.7
0.6
0.5
d4
0.4
0.3 δ
0.2
d7
0.1
d8
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 α
Figura 17.8
d4 d7
r A2 A2
v A1 A2
n A1 A1
α 0.1 0.3
β 0.4 0.1
Como puede verse, cuando sacamos una bola roja o negra, d4 y d7 dan los mismos resultados,
es decir, las acciones A2 y A1 , respectivamente. Cuando sacamos una bola verde, d4 lleva a A1 ; d7
lleva a A2 . Por lo tanto, es más fácil tomar la acción A2 cuando se da la regla d7 , y por lo tanto es
más probable cometer el error de Tipo I, y por lo tanto α = P (A2 |w1 ) es mayor para d7 . Así, al
pasar de d4 a d7 , obtenemos un aumento de α de 0.1 a 0.3; pero una disminución de β de 0.4 a 0.1.
Como tenemos
d4 d7
α 0.1 0.3
β 0.4 0.1
480 Teoría de la Decisión II
es natural preguntarse: ¿Existe una manera de obtener una regla de decisión en algún lugar entre d4
y d7 de modo que α = 0.2 y β esté entre 0.4 y 0.1? La respuesta es sí, y lo explicaremos primero
gráficamente y luego matemáticamente.
Vemos en la Figura 17.8 que cuando α = 0.2, el valor correspondiente de β que se obtiene de la
línea límite del conjunto convexo que muestra las reglas admisibles es aproximadamente β = 0.25.
Entonces obtenemos:
d4 δ d7
r A2 A2 A2
v A1 A1 o A2 A2
n A1 A1 A1
α 0.1 0.2 0.3
β 0.4 0.25 0.1
Por tanto, hemos obtenido gráficamente (α = 0.2, β = 0.25). Dejemos que la regla de decisión
que lleva a este resultado se denote como δ.
Como puede verse en la Figura 17.8, seleccionando puntos del segmento de recta entre d4 y δ,
podemos encontrar pares de (α, β) tales que 0.1 ⩽ α ⩽ 0.2 y 0.25 ⩽ β ⩽ 0.4.
También podemos ver en la tabla anterior que, cuando se extrae una bola verde, d4 conduce
a la acción A1 , y asignamos una probabilidad de 1; d7 conduce a la acción A2 , y asignamos una
probabilidad de 0. Por lo tanto, para la regla de decisión δ, podemos ver intuitivamente que para la
acción A1 , asignamos una probabilidad de q que es 0 ⩽ q ⩽ 1. Queremos que esta q sea tal que
cuando tomemos la acción A1 con probabilidad q, entonces el riesgo α se convierta en 0.2 y el riesgo
β en 0.25. Esta q puede obtenerse fácilmente a partir de la Figura 17.9, utilizando los resultados que
encontramos al hablar de los conjuntos convexos en páginas siguientes.
(α4 , β4 )
0.4 β4
0.25
(α7 , β7 )
0.1 β7
α4 α7 α
0.1 0.3
Figura 17.9
d4 δ d7
r 1 1 1
v 0 0.5 1
n 0 0 0
α 0.1 0.2 0.3
β 0.2 0.25 0.1
Investiguemos ahora las reglas de decisión aleatorias de forma matemática. Utilizando el ejemplo
de dos urnas con bolas rojas, verdes y negras, una muestra
w1 w2
r 10 60
v 20 30
n 70 10
de tamaño n = 1. Por lo tanto, hay 3 resultados posibles, lo que en términos de espacio muestral
significa que tenemos un espacio muestral unidimensional con 3 puntos de muestra.
Para cada resultado posible hay 2 cursos de acción posibles A1 y A2 . Por lo tanto, combinando estos
dos, hay 2 · 3 = 6 resultados posibles:
Ai w1 Ai w2
α = P (A2 |w1 )
A2 A2
A1 A1
β = P (A1 |w2 )
E1 E2 E3 Ei E1 E2 E3 Ei
(a) (b)
Figura 17.10
Entonces
X
3 X
2
P (Ei , Aj |w1 )
i=1 j=1
X
3
= [P (Ei , A1 |w1 ) + P (Ei , A2 |w1 )]
i=1
X
3
= [Pw1 (Ei )δ1 (Ei ) + Pw1 (Ei )δ2 (Ei )]
i=1
X3
= Pw1 (Ei )[δ1 (Ei ) + δ2 (Ei )]
i=1
X
3
= Pwi (Ei )
i=1
=1
Por lo tanto, los puntos del espacio muestral satisfacen los requisitos de las probabilidades, y
podemos utilizar este espacio muestral para investigar las reglas de decisión aleatorias. Utilizando
este espacio muestral, encontremos primero α y β.
Para encontrar α, observamos que α es la probabilidad de tomar la acción A2 dada w1 . Por
lo tanto, en términos de espacios muestrales, es el espacio muestral de la Figura 17.10(a) el que
corresponde a la urna 1. Los puntos (E1 , A2 ), (E2 , A2 ), (E3 , A2 ) conducen a la acción A2 , cuando
se selecciona el punto muestral (muestra) E1 o E2 o E3 de w1 . Por lo tanto, α se encuentra sumando
17.1. Reglas de decisión 483
δi = P (A2 |Ei )
1 − δi = 1 − P (A2 |Ei ) = P (A1 |Ei )
X
n
α= f i δi
i=1
Xn
β= gi (1 − δi )
i=1
Utilicemos estas nuevas herramientas en nuestra discusión matemática de las reglas de decisión
aleatorias. Tenemos
d4 d7
v A2 A2
r A1 A2
n A1 A1
α 0.1 0.3
β 0.4 0.1
Deseamos encontrar una regla de decisión entre d4 y d7 y, como podemos ver, tenemos A2 para
E1 = rojo, tanto para d4 como para d7 . También tenemos A1 para E3 negro, tanto para d4 como
para d7 .
484 Teoría de la Decisión II
Pero para E2 = verde, tenemos A1 para d4 ; y A2 para d7 . Por lo tanto, necesitamos encontrar
un procedimiento para decidir si se toma la acción A1 o A2 cuando se selecciona una bola E2 =
verde.
Esta decisión dependerá de algún nuevo experimento aleatorio. Por ejemplo, supongamos que
tenemos una urna con 6 bolas amarillas y 4 blancas. Entonces, cuando se extraiga una bola amarilla,
se tomará la acción A2 , y cuando se extraiga una bola blanca, se tomará la acción A1 . La acción A2 se
realizará con una probabilidad q = 0.6; la acción A1 se realizará con una probabilidad 1 − q = 0.4.
Ahora la pregunta es: ¿Cómo se determina q? Como hemos visto gráficamente, q se determina
de forma que obtengamos el nivel deseado del riesgo α. Ilustrémoslo.
La regla entre d4 y d7 será:
d4 δ d7
r δ1 = 1 δ1 = 1 δ1 = 1
v δ2 = 0 δ2 = q δ2 = 1
n δ3 = 0 δ3 = 0 δ3 = 0
α 0.1 0.3
β 0.4 0.1
Así
X
n
α(δ) = fi δi
i=1
= f 1 δ1 + f 2 δ2 + f 3 δ3
= 0.1 · 1 + 0.2 · q + 0.7 · 0
= 0.1 + 0.2q
Y
X
β= gi (1 − δi )
= g1 (1 − δ1 ) + g2 (1 − δ2 ) + g3 (1 − δ3 )
= 0.6(1 − 1) + 0.3(1 − q) + 0.1(1 − 0)
= 0 + 0.3(1 − 0.5) + 0.1
= 0.25
∴ α = 0.2, β = 0.25
δ
r δ1 = 1 Tomar la acción A2 con probabilidad 1
v δ2 = q = 0.5 Tomar la acción A2 con probabilidad q = 0.5
n δ3 = 0 Tomar la acción A1 con probabilidad 1
α 0.2
β 0.25
17.2. Regla de la razón de verosimilitud 485
En otras palabras:
En la Sección 17.1 encontramos en nuestro ejemplo de dos urnas que cuando se selecciona una
2
muestra de tamaño n = 2, hay 23 = 512 reglas de decisión no aleatorias. Vimos cómo estas
reglas de decisión se caracterizaban por los riesgos α y β. Definimos una clase de reglas de decisión
admisibles como reglas de decisión deseables para ser seleccionadas de entre todas las reglas de
decisión posibles.
Podemos ver fácilmente que calcular los riesgos α y β para 512 reglas de decisión es una tarea
3
formidable. Si el tamaño de la muestra es n = 3, entonces habrá 23 = 227 = 134 217 728 reglas de
decisión y el problema de calcular los riesgos α y β para todas estas reglas se vuelve extremadamente
tedioso.
Una pregunta que surge naturalmente es: ¿Podemos encontrar la clase de reglas admisibles de
forma más sencilla sin comprobar todas las reglas de decisión posibles? Afortunadamente, la res-
puesta es afirmativa, utilizando lo que se conoce como regla (o prueba) de la razón de verosimilitud.
En esta sección hablaremos de la regla de la razón de verosimilitud y mostraremos cómo se puede
obtener la clase de reglas admisibles.
Una vez obtenida la clase de reglas admisibles, el siguiente problema es seleccionar las reglas de
decisión óptimas de la clase de reglas admisibles. Discutiremos estos procedimientos de selección
en la Sección 17.3 y siguientes. Ahora vamos a proceder a la discusión de la regla de la razón de
verosimilitud.
486 Teoría de la Decisión II
negra 0b 1b 2b 3b 4b
blanca 4w 3w 2w 1w 0w
0 1 2 3 4
π0 = 4
π1 = 4
π2 = 4
π3 = 4
π4 = 4
w0 w1 w2 w3 w4
Figura 17.11
Se seleccionó una muestra de tamaño n = 2 con reemplazo, y en correspondencia con ésta había
5 espacios muestrales, S0 , S1 , S2 , S3 , S4 , como en la Figura 17.12.
w w w w w
b b b b b
b w b w b w b w b w
0 4 1 3 2 2 3 1 4 0
4 4 4 4 4 4 4 4 4 4
S0 S1 S2 S3 S4
Figura 17.12
Supongamos que la muestra es (negro, blanco). ¿De qué espacio muestral Si procede? O pode-
mos decir: ¿De qué urna wi (estado de naturaleza) procede? A esto se responde con el concepto de
verosimilitud propuesto por R. A. Fisher. Afirmamos que seleccionaríamos el espacio muestral que
diera la muestra con más frecuencia que los otros espacios muestrales. Descubrimos que el espacio
muestral que produce la muestra observada con mayor frecuencia, en relación con los otros espacios
Si , es el espacio S2 . Para S2 , la probabilidad de seleccionar una muestra (blanca, negra) es
2 2 2 2 8
f2 (w)f2 (b) + f2 (b)f2 (w) = · + · =
4 4 4 4 16
Para S3 , es
1 3 3 1 6
· + · =
f3 (w)f3 (b) + f3 (b)f3 (w) =
4 4 4 4 16
Del mismo modo, para S0 es 0; para S1 es 6/16; y para S4 es 0.
Obsérvese bien que la probabilidad de que la muestra (blanco, negro) proceda de S2 es 1 o 0.
Pero dado S2 , la probabilidad de seleccionar la muestra (blanco, negro) es 8/16.
Ahora, la probabilidad anterior puede verse de la siguiente manera. Cuando se extrae una mues-
tra de tamaño n = 2, podemos tener 0, 1 o 2 bolas blancas. Hemos extraído una muestra de (n, b).
Por lo tanto, podemos preguntar: ¿Cuál es la probabilidad de que haya k = 1 bola blanca en n = 2
extracciones, dado πi ? Como explicaremos en el Apartado 19.3, Hallando la Distribución Binomial,
17.2. Regla de la razón de verosimilitud 487
la probabilidad es
n k
π (1 − πi )n−k
k i
donde el πi es la probabilidad de seleccionar una bola blanca. El 2f2 (w)f2 (b) que obtuvimos ante-
riormente no es más que esta fórmula. Para S2 , la f2 (w) = π2 = 2/4. Por lo tanto para S2 ,
n k
π (1 − π2 )n−k
k 2
1
2 2 2 2−1
= · · 1−
1 4 4
2 2 8
=2· · =
4 4 16
1
Para S3 , tenemos f3 (w) = π3 = . Así
4
1
2 1 1 2−1 1 3 6
· 1− =2· · =
1 4 4 4 4 16
Ahora comparando
n k
π (1 − π2 )n−1 = b(k; n, π2 )
k 2
y
n k
π (1 − π3 )n−k = b(k; n, π3 )
k 3
seleccionamos S2 porque
b(k; n, π2 ) > b(k; n, π3 )
Como puede verse, b(k; n, π2 ) es mayor que cualquier otra b(k; n, πi ). Es decir, seleccionamos S2
porque b(k; n, π2 ) es el máximo de b(k; n, π2 ) para los distintos valores de πi . Escribamos
n k
L(πi ) = π (1 − πi )n−k
k i
y definamos L(πi ), la función de verosimilitud, para la muestra, donde L(πi ) es una función del pa-
rámetro poblacional πi . Observe cuidadosamente que L(πi ) es una función de πi , y no de k. Cuando
b(k; n, πi ) es una función de k, con πi fijo, nos da la probabilidad de k aciertos (bolas blancas) en
n ensayos (tamaño de la muestra de n). Cuando b(k; n, πi ) es una función de πi , con k fijo, nos da
la verosimilitud del parámetro k. Volveremos a explicar los significados de la probabilidad y de la
verosimilitud mas adelantes, así que prosigamos con la discusión de la relación de verosimilitud.
En general, si seleccionamos una muestra de tamaño n = 2, con reemplazo, la función de pro-
babilidad se define como
n
También decimos que π fi (xj , θi ) es la verosmilitud del parámetro θi para la muestra dada (x1 , x2 , . . . , xn ).
j=1
En el ejemplo anterior hemos demostrado que
L(θ3 )
λ= >1
L(θ2 )
L(θ3 )
Si λ= > 1 seleccione S3
L(θ2 )
L(θ3 )
Si λ= = 1 seleccione S2 o S3
L(θ2 )
L(θ3 )
Si λ= < 1 seleccione S2
L(θ2 )
w1 w2
r = 50 r = 10
v = 40 v = 30
n = 10 n = 60
Figura 17.13
Usando la Figura 17.14, podemos calcular la probabilidad para (r, r), dado w1 , estudiando la
gráfica. Encontramos
L(w1 ) = 0.5 · 0.5 = 0.25
Como tenemos (r, v) y (v, r) en el gráfico, para (v, g) es
n!
L(θ1 , θ2 ) = p x1 p x2 px3
x1 !x2 !x3 ! 1 2 3
17.2. Regla de la razón de verosimilitud 489
S1 S2
n n
v v
r r
r v n r v n
0.5 0.4 0.1 0.1 0.3 0.6
Figura 17.14
donde tenemos 2 parámetros θ1 y θ2 . Por ejemplo, para (r, r), dado w1 , tenemos
Según el criterio que establecimos anteriormente, cuando λ > 1, tomamos la acción A2 y se-
leccionamos w2 ; cuando λ < 1 tomamos la acción A1 y seleccionamos w1 .
490 Teoría de la Decisión II
Cuando se obtiene una muestra de (r, n), (v, n), o (n, n), afirmamos que la muestra procede de w2
porque λ > 1. Cuando se obtiene una muestra de (r, r), (r, v) o (v, v), decimos que la muestra
procede de w1 porque λ < 1.
En el ejemplo anterior, hemos utilizado λ > 1 y λ < 1 como criterios para decidir si la muestra
procede de w1 o de w2 . Pero en lugar de 1, escribamos λ > k o λ < k. Entonces el ejemplo anterior
es el caso en el que k = 1.
Pero variando el valor de k, podemos obtener muchas reglas de decisión diferentes. Por ejemplo,
si dejamos k = 0.05, entonces
λ > 0.05 lleva a (r, v), (v, v), (r, n), (v, n), (n, n)
λ < 0.05 lleva a (r, r)
En este caso la regla dice: Cuando la muestra es (r, r), decida que la muestra proviene de w1 (tome
la acción A1 ); para todas las demás muestras, decida que la muestra proviene de w2 (tome la acción
A2 ).
En general, si queremos estar más seguros antes de decidir que una muestra seleccionada es
de w1 , debemos dejar que k sea más pequeño; si estamos menos seguros, k más grande. Esto se
explicará de nuevo en secciones posteriores.
Como a veces se confunden los conceptos de verosimilitud y probabilidad, comparemos ambos.
Utilizando las dos urnas de la Figura 17.13, construimos el Cuadro 17.7.
w1 w2 λ
E1 = (r, r) P (E1 |w1 ) = 0.25 P (E1 |w2 ) = 0.01 0.04
E2 = (r, v) P (E2 |w1 ) = 0.40 P (E2 |w2 ) = 0.06 0.15
E3 = (v, v) P (E3 |w1 ) = 0.16 P (E3 |w2 ) = 0.09 0.56
E4 = (r, n) P (E4 |w1 ) = 0.10 P (E4 |w2 ) = 0.12 0.1.2
E5 = (v, n) P (E5 |w1 ) = 0.08 P (E5 |w2 ) = 0.36 4.5
E6 = (n, n) P (E6 |w1 ) = 0.01 P (E6 |w2 ) = 0.36 36
1.00 1.00
Cuadro 17.7
En la tabla, tenemos
P (Ei |wj ) i = 1, 2, . . . , 6
j = 1, 2
Cuando consideramos Ei fijo (digamos E1 ), y dejamos que wj varíe, entonces P (E1 |wj ) donde
j = 1, 2 es la probabilidad de wj para la muestra E1 . Ahora estamos leyendo la tabla por filas, y los
valores, como P (E1 |w1 ) = 0.25, son ahora verosimilitudes y no probabilidades. La probabilidad
de que una muestra determinada proceda de w1 es 0 o 1. Tenga en cuenta que la muestra E1 es fija
y la hipótesis wj varía.
Para las verosimilitudes, leemos la tabla por filas y, como puede ver en el Cuadro 17.7, las pro-
babilidades no suelen sumar la unidad.
La razón de verosimilitud para E1 puede mostrarse como
Podemos resumir la discusión de la Sección 17.1 en una definición. Utilizando la misma nota-
ción, pongamos
gi
λ=
fi
y
δi = P (A2 |Ei ) i = 1, 2, . . . , n
2. Siempre que λi = λ0 , entonces δi = q(0 ⩽ q ⩽ 1), es decir, toma la acción A2 con probabi-
lidad q.
Ilustrémoslo con el ejemplo de la urna. Obtenemos el Cuadro 17.8. a partir del Cuadro 17.1.
w1 w2
fi gi λi = gi /fi d3 δ (3) d4 δ (4)
E1 = rojo 0.1 0.6 6.0 A1 0 A2 1
E1 = rojo 0.1 0.6 6.0 A1 0 A2 1
E1 = rojo 0.1 0.6 6.0 A1 0 A2 1
Cuadro 17.8
Hemos enumerado sólo d3 y d4 , a efectos de ilustración. Los λi se han ordenado de forma des-
cendente, de modo que el mayor, λi = 6, se encuentra en la parte superior y el menor, λ3 = 0.14,
en la parte inferior de la tabla:
λ1 = 6 > λ 0 = 5 entonces δ1 = 1
λ2 = 1.5 > λ0 = 5 entonces δ2 = 0
λ3 = 0.14 > λ0 = 5 entonces δ3 = 0
Si δ1 = 0, λ1 < λ 0
Si δ2 = 1, λ2 > λ 0
Pero esto no puede ser válido para δ (3) porque esto lleva a la contradicción
λ1 = 6 < λ 0
λ2 = 1.5 > λ0
d1 d2 d3 d4 d5 d6 d7 d8
r A1 (0) A1 (0) A1 (0) A2 (0) A1 (0) A2 (1) A2 (1) A2 (1)
v A1 (0) A1 (0) A2 (1) A1 (0) A2 (1) A1 (0) A2 (1) A2 (1)
n A1 (0) A2 (1) A1 (0) A1 (0) A2 (1) A2 (1) A1 (0) A2 (1)
Cuadro 17.9
Recordamos que estas 4 reglas de decisión son las reglas admisibles. Se plantea la cuestión: ¿Son
las reglas de razón de verosimilitud reglas admisibles? La respuesta, como veremos en el Apartado
17.5, es afirmativa.
Este método de selección de reglas admisibles entre todas las reglas de decisión posibles ahorra
mucho trabajo. Cuando tenemos 3 resultados posibles, como en el Cuadro 17.9, podemos escribir
las reglas de relación de probabilidad de forma esquemática:
r 0 1 1 1
v 0 0 1 1
n 0 0 0 1
E1 0 1 1 1 1
E2 0 0 1 1 1
E3 0 0 0 1 1
E4 0 0 0 0 1
Para 3 resultados posibles, hay 3 + 1 = 4 reglas de relación de verosimilitud sobre esta base. Para 4
resultados posibles, hay 4 + 1 = 5 reglas de relación de probabilidad. En general, para n resultados
posibles, hay n + 1 reglas de relación de probabilidad.
Hemos omitido el caso en que λ = λ0 . Entonces δi = q. Así que vamos a añadirlo. Podemos
ver fácilmente que cuando hay 3 resultados posibles tenemos que añadir 3 casos adicionales: δ1 =
q, δ2 = q, y δ3 = q. Tenemos entonces:
r 0 q 1 1 1 1 1
v 0 0 0 q 1 1 1
n 0 0 0 0 0 q 1
E2 = v 1.5
E1 = r 6.0
E3 = n 0.14
Como se puede comprobar fácilmente, esto no afecta al resultado que hemos obtenido.
Nuestro problema ahora es demostrar que las reglas de razón de verosimilitud (A) son reglas
admisibles (B). Esto se explicará en la Sección 17.5, La Regla de Minimización Ponderada. También
mostraremos en la sección 17.5 que las reglas admisibles (B) son reglas de razón de verosimilitud
(A) . Por lo tanto, con nuestra discusión de las reglas de razón de verosimilitud (A) en esta sección,
hemos encontrado una manera fácil de seleccionar las reglas admisibles (B) de entre todas las reglas
de decisión posibles.
Con toda esta preparación, discutamos ahora los procedimientos para seleccionar las reglas de
decisión óptimas de la clase de reglas admisibles.
494 Teoría de la Decisión II
El primer procedimiento para seleccionar reglas de decisión óptimas de la clase de reglas ad-
misibles que consideraremos es la teoría de Neyman - Pearson, desarrollada por J. Neyman y E. S.
Pearson en 1933.
La teoría de Neyman - Pearson considera el problema de la selección de una regla de decisión
cuando sólo hay 2 estados de la naturaleza; es decir, cuando hay una hipótesis nula simple (H0 ) y una
hipótesis alternativa simple (H1 ). En primer lugar, ordena las hipótesis nula (H0 ) y alternativa (H1 )
de forma que el riesgo α sea el más grave que el responsable político (o el estadístico) desea evitar.
En segundo lugar, se establece un nivel de significación de α0 . A continuación, se selecciona una
regla de decisión de manera que el riesgo α sea menor que α0 , y que dé el menor riesgo β posible.
El lector observará que éste es el procedimiento que utilizamos en el Capítulo 9.
1−β
β
α0 1 α
Figura 17.15
urna 1 urna 2
w1 w2
r = 10 r = 60
v = 20 v = 30
n = 70 n = 10
Figura 17.16
Urna 1 Urna 2
f (r) = 0.10 g(r) = 0.60
f (v) = 0.20 g(v) = 0.30
f (n) = 0.70 g(n) = 0.10
Supongamos que se selecciona una muestra de tamaño n = 2. Entonces hay 2 espacios mues-
trales Si y S2 en la Figura 17.17. Cada punto de la muestra en Si tiene asociada la probabilidad
f (x1 , x2 ) = f (x1 )f (x2 )
17.3. La Teoría de Neyman-Pearson 495
S1 S2
0.7 n 0.1 n
0.2 v 0.3 v
0.1 r 0.6 r
r v n r v n
0.1 0.2 0.7 0.6 0.3 0.1
Figura 17.17
g(x1 , x2 )
w 1 , S1 w 2 , S2 λ=
f (x1 , x2 )
f (x1 , x2 ) g(x1 , x2 )
E1 = (r, r) 0.01 0.36 36.0
E2 , E3 = (r, v), (v, r) 0.04 0.36 9.0
E4 = (v, v) 0.04 0.09 2.25
E5 , E6 = (r, n), (n, r) 0.14 0.12 0.86
E7 , E8 = (v, n), (n, v) 0.28 0.06 0.21
E9 = (n, n) 0.49 0.01 0.02
1.00 1.00
donde (r, v) se refiere a elegir una bola roja y una verde en ese orden. Sabemos que seleccionando
un valor para λ0 y dejando que
g(x1 , x2 )
> λ0
f (x1 , x2 )
estamos seleccionando un conjunto de puntos de muestra en los espacios de muestra. Por ejemplo,
dejemos que λ0 = 20. Podemos ver en la tabla que sólo el punto de muestra (r, r) satisface λ0 = 20.
Por lo tanto, λ0 = 20 ha dividido el espacio muestral en 2 conjuntos:
R = {E1 }
A = {E2 , E3 , . . . , E9 }
Si fijamos λ0 = 8, entonces los 3 puntos de muestra E1 = (r, r), E2 = (r, v) y E3 = (v, r)
satisfacen λ0 = 8 y el espacio muestral se ha dividido en
R = {E1 , E2 , E3 }
A = {E4 , E5 , . . . , E9 }
496 Teoría de la Decisión II
A A
n n
v v
R R
r r
r v n r v n
Figura 17.18
y
P (conjunto A|S2 ) = P (A1 |w2 ) = β
Donde λ0 = 8 tenemos
α = P (conjunto R|S1 )
= P (A2 |w1 )
= P (r, r) + P (r, v) + P (v, r)
= 0.01 + 0.02 + 0.02 = 0.05
α = P (conjunto A|S2 )
= P (A1 |w2 )
= P (v, v) + P (r, n) + P (n, r) + P (v, n) + P (n, v) + P (n, n)
= 0.09 + 0.06 + 0.06 + 0.03 + 0.03 + 0.01 = 0.28
17.3. La Teoría de Neyman-Pearson 497
Podemos decir que λ0 divide el espacio muestral en regiones de aceptación (A) y de rechazo (R). Al
elegir λ0 estamos eligiendo la región de rechazo (R): a medida que λ0 se hace más grande, R se hace
más pequeña. El riesgo α es simplemente la suma de las probabilidades de los puntos de muestra en
R de S1 . Podemos ver intuitivamente que cuando la muestra es grande, habrá un gran número de
puntos de muestra y podemos ajustar el valor de λ0 para que la suma de las probabilidades de los
puntos de muestra en R de S1 sea igual al nivel de significación predeterminado α0 .
P (A2 |w1 ) = α0
Obsérvese que en el teorema anterior hemos añadido la afirmación de que este procedimiento nos
proporciona la prueba más potente. Esto significa que β será un mínimo, o que la potencia (1 − β)
será un máximo. El significado de la potencia de una prueba se explicó en el Capítulo 9.
Podemos enunciar el lema de Neyman - Pearson en términos de la regla de la razón de verosi-
militud como sigue
Sí λ > λ0 tomando δi = 1
Sí λ = λ0 tomando δi = q 0⩽q⩽1
Sí λ < λ0 tomando δi = 0
donde λ0 y q se eligen para que α = α0 (el nivel de significación) y (1 − β) sean un máximo.
Recordemos que δi = P (A2 |Ei ) = 1 significa tomar la acción A2 con probabilidad 1.
Por lo tanto, el problema práctico es encontrar λ0 y q. Cuando λ > λ0 , rechazar la hipótesis
nula H0 . Cuando λ = λ0 , rechazar H0 con probabilidad q. Cuando λ < λ0 , aceptar la hipótesis
nula H0 . Entonces α = α0 ; y β estará en el mínimo para α = α0 .
Ilustremos este procedimiento de búsqueda de una regla de decisión con varios ejemplos.
Ejemplo No. 1
Supongamos que hay dos urnas con bolas rojas, verdes, negras y blancas como las si-
guientes:
Urna 1 Urna 2
Roja 10 40
Verde 20 30
Negra 30 20
Blanca 40 10
Se selecciona una muestra de tamaño n = 1 y se desea decidir si vino de la urna 1 o
de la urna 2. Encuentre una regla de decisión tal que el error Tipo I sea menor que α0 =
0.05 y (1 − β) sea máximo.
498 Teoría de la Decisión II
fi gi λ = gi /fi δ
1
E1 = roja 0.1 0.4 4
2
E2 = verde 0.2 0.3 1.5 0
2
E3 = negra 0.3 0.2 0
3
1
E4 = blanca 0.4 0.1 0
4
α 0.05
β 0.8
Queremos que α = 0.05. Podemos ver que, como f1 = 0.1, obtendremos α = 0.05 si fijamos
1
δ1 = , y δ2 = δ3 = δ4 = 0:
2
1
α= · 0.1 + 0 · 0.2 + 0 · 0.3 + 0 · 0.4
2
= 0.05
y β = 0.8 es el β mínimo.
17.3. La Teoría de Neyman-Pearson 499
1
Cuándo λ = λ0 = 4 hacemos δ1 =
2
Cuándo λ < λ0 = 4 hacemos δ2 = δ3 = δ4 = 0
Ejemplo No. 2
Utilizando los datos del Ejemplo 1, utilice α = 0.15.
fi gi λ δ
β 0.525
X
α(δ) = fi δi
= f 1 δ1 + f 2 δ2 + f 3 δ3 + f 4 δ4
500 Teoría de la Decisión II
Queremos α = 0.15. Obtenemos0.1 de esto dejando que δ1 = 1. Queremos 0.05 más (del verde
1
f2 = 0.2), así que dejamos δ2 = . Haciendo que δ3 y δ4 = 0:
4
1
0.1 · 1 + 0.2 · + 0.3 · 0 + 0.4 cot 0 = 0.15
4
Ejemplo No. 3
Utilizando los datos del Cuadro 17.10 (repitiendo la tabla de paginas anteriores), encon-
tremos una regla de decisión tal que α = 0.05. Es evidente que las dos primeras filas nos
darán la α deseada.
17.3. La Teoría de Neyman-Pearson 501
fi gi λ = gi /fi δ
(r, r) 0.01 0.36 36 1
(r, v), (v, r) 0.04 0.36 9 1
(v, v) 0.04 0.09 2.25 0
(r, n), (n, r) 0.14 0.12 0.86 0
(g, n), (n, v) 0.28 0.06 0.21 0
(n, n) 0.49 0.01 0.02 0
α 0.05
β 0.28
Cuadro 17.10
X
6
α= fi δi
i=1
= 0.01 · 1 + 0.04 · 1 + 0.04 · 0 + 0.14 · 0 + 0.28 · 0 + 0.49 · 0
= 0.05
La regla de decisión es: Tome una muestra de tamaño n = 1 y deje que λ0 = 3. Entonces
Sí λ > λ0 = 3hacemos δi = 1
Sí λ < λ0 = 3hacemos δi = 0
Antes de entrar en estos ejemplos, resumiremos brevemente los resultados obtenidos hasta aho-
ra y ofreceremos una presentación alternativa, además de presentar un resultado técnico más que
utilizaremos. Se trata del lema de Neyman - Pearson: Dado el cociente de probabilidad
gi
λ=
fi
Ahora, el valor de λ varía con los puntos de la muestra y es una variable aleatoria, y los valores
de λ para los puntos de la muestra en R de S1 son tales que λ > λ0 .
Por lo tanto, podemos ver que la probabilidad de λ > λ0 es igual a la probabilidad de seleccionar
una muestra (punto de muestra) del conjunto R de S1 . Así pues,
α = P (λ > λ0 )
P (X > K)
donde X es la media de la muestra y K es una constante. Cuando estamos interesados en las pro-
porciones π, se hace igual a
P (p > K)
donde p es la proporción de la muestra y K es una constante.
Por lo tanto, en lugar de λ, podemos utilizar X o p para definir la región de rechazo. Y como el
lector observará, esto es lo que hicimos en el Capítulo 9, Prueba de Hipótesis. Expliquemos esto con
un ejemplo.
Supongamos que la variable aleatoria Xi se distribuye normalmente con media µ y varianza
conocida σ 2 . Se selecciona una muestra aleatoria de tamaño n y deseamos probar las hipótesis nula
y alternativa simple:
H0 :µ = µ1
H1 :µ = µ2
Si X ⩾ K se toma la acciónA1
Si X < K se toma la acciónA2
H0
α = P (A2 |H1 )
µ1 K X
H1
β = P (A1 |H2 )
K µ2 X
Figura 17.19
504 Teoría de la Decisión II
Si X ⩾ K se toma la acción A2
Si X < K se toma la acción A1
Vamos a mostrar cómo se puede resolver este problema utilizando el lema de Neyman - Pearson. La
razón de verosimilitud es
L(µ2 )
λ=
L(µ1 )
donde la función de verosimilitud es
2 −π/2 1 X
L(µ) = (2πσ ) exp − 2 (Xi − µ) 2
2σ
Por lo tanto,
1 X 1 X
λ = exp − 2 (Xi − µ2 ) + 2
2
(Xi − µ1 ) 2
2σ 2σ
1
= exp − 2 Y
2σ
donde hemos establecido
X X
Y = (Xi − µ2 )2 − (Xi − µ1 )2
= −2n(µ2 − µ1 )X + n(µ22 − µ21 )
Hemos supuesto que µ1 < µ2 . Por tanto, µ2 −µ1 > 0, y µ22 −µ21 es fijo. Por lo tanto, como X → +∞,
el claramente −2n(µ2 − µ1 )X → −∞. De la ecuación anterior, podemos ver que esto conduce a
Y → −∞.
Pero como Y → −∞
1
λ = exp − 2 Y → +∞
2σ
Por lo tanto como X → +∞
L(µ2 )
λ= → +∞
L(µ1 )
17.3. La Teoría de Neyman-Pearson 505
y como hemos comentado esto nos lleva a tomar la acción A2 y aceptar la hipótesis alternativa H1 .
Nuestro razonamiento fue: Tenemos dos espacios muestrales n dimensionales correspondientes
a µ1 y µ2 como en la Figura 17.20. Sea λ > λ0 donde λ0 es un número grande, digamos λ0 = 20.
Entonces λ > λ0 = 20 ha dividido el espacio muestral en las regiones A y R donde la probabilidad
de los puntos de muestra en R de S2 es 20 veces mayor que la probabilidad de los puntos de muestra
en R de S1 .
R A2 R A2
A A
A1 A1
S1 , µ 1 S2 , µ 2
Figura 17.20
A medida que hagamos más grande λ0 , el número de puntos de muestra que satisfacen un λ0
tan grande disminuirá, y la región R (conjunto R) se hará más pequeña.
La suma de las probabilidades de los puntos en R de S1 es
α = P (conjunto R|S1 )
= P (A2 |µ1 )
α = P (conjuntoR|S1 )
= P (λ ⩾ λ0 )
= P (X ⩾ K)
H0 :µ = µ1
H1 :µ = µ2
506 Teoría de la Decisión II
Suponga que µ1 < µ2 . Entonces la regla de Neyman - Pearson conduce a una regla de decisión
de la forma
Si X ⩾ K toma la acciónA2
Si X < K toma la acciónA1
y ya conocemos del Capítulo 9 el procedimiento para calcular dicha regla de decisión. El lema
de Neyman - Pearson nos asegura que en este caso tenemos una prueba muy potente.
Ejemplo No. 4
Supongamos que µ1 > µ2 . Gráficamente tenemos
A2 A1
K µ1 X
µ2 K X
Figura 17.21
Matemáticamente, tenemos
Y = −2n(µ2 − µ1 )X + n(µ22 − µ21 )
Pero (µ2 − µ1 ) < 0. Entonces −2n(µ2 − µ1 ) es positivo. Por lo tanto, como X → +∞
Y → +∞
Pero como Y → +∞
1
λ = exp − 2 Y →0
2σ
Entonces como X → +∞
λ→0
y esto lleva a tomar la acción A1 .
Por lo tanto, cuando µ1 > µ2 , la regla de decisión se convierte en
Si X ⩾ K se toma la acciónA1
Si X < K se toma la acciónA2
que es también lo que observamos que es la regla de la Figura 17.21.
El procedimiento para encontrar K se ha discutido en el Capítulo 9.
17.3. La Teoría de Neyman-Pearson 507
Ejemplo No. 5
H0 :µ0 = 1
H1 :µ0 = 3
L(µ2 ) 1
λ= = exp − 2 Y
L(µ1 ) 2σ
1
= exp − Y
8
Por lo tanto
1
λ = exp − (−64X + 128)
8
= exp(8X − 16) > λ0
= 8X − 16 > ln(λ0 )
1
= X > 2 + ln(λ0 )
8
Ahora dejemos que
1
2+ ln(λ0 ) = K
8
Entonces
α = P (X > K)
Para encontrar K, tenemos de la Figura 17.21
K − µ1 K −1
=
σX 1
2
σ
donde σX = √ =. Fijemos α = 0.05. Entonces, a partir de la tabla de áreas normal, encontramos
n
K −1
= 1.645
1
2
K = 1.8225
λ0 = 0.24
µ2 − K 3 − 1.8225
= = 2.36
σX 1
2
Por lo tanto, a partir de la tabla de áreas normales:
β = 0.0091
El lema de Neyman-Pearson nos asegura que esta β es mínima cuando α = 0.05. Por lo tanto, la
regla de decisión en términos de la razón de verosimilitud λ y λ0 es: Tomar una muestra de tamaño
n = 16.
Entonces α = 0.05 y β = 0.0091, y β es mínimo. Esta es la forma en que se obtuvieron las reglas
de decisión en el Capítulo 9.
Ejemplo No. 6
.