Traduccion de Capitulos Del Libro de Aris Spanos PDF

Teoría de la Probabilidad e Inferencia
Estadística: Modelización Econométrica con

Datos Observacionales
Aris Spanos
Traducción: Versión: Semestre 2012-2

Michel Rojas Romero
Facultad de Ciencias. UNAM
Facultad de Economía. UNAM
2
Contenido
0.1 A quién se dirige y características distintivas . . . . . . . . . . 11
1 1 Una introducción a la modelización empírica 13

1.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.1.1 Una vista panorámica del capítulo . . . . . . . . . . . . 15
1.2 Fenómenos estocásticos, una vista preliminar . . . . . . . . . . 15
1.3 Regularidad aleatoria y modelos estadísticos . . . . . . . . . . 28
1.3.1 Su…ciencia estadística . . . . . . . . . . . . . . . . . . . 34
1.4 Estadística frente a teoría de la información * . . . . . . . . . 37
1.5 Datos observados . . . . . . . . . . . . . . . . . . . . . . . . . 39
1.5.1 Los primeros datos . . . . . . . . . . . . . . . . . . . . 39
1.5.2 Datos económicos . . . . . . . . . . . . . . . . . . . . . 40
1.5.3 Datos observados y naturaleza de un modelo estadístico 41
1.5.4 Escalas de medición . . . . . . . . . . . . . . . . . . . . 44
1.5.5 ¿Sección transversal contra series de tiempo, es éste el
problema? . . . . . . . . . . . . . . . . . . . . . . . . . 48
1.5.6 Limitaciones de los datos económicos . . . . . . . . . . 50
1.6 Mirando hacia adelante . . . . . . . . . . . . . . . . . . . . . . 52
1.7 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
2 Teoría de probabilidad: un marco de referencia para la mod-

elación 55
2.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.1.1 Objetivo principal . . . . . . . . . . . . . . . . . . . . . 55
2.2 Modelo estadístico simple: una visión informal . . . . . . . . . 55
2.2.1 La estructura básica de un modelo estadístico simple . 55
2.2.2 El concepto de variable aleatoria: visión informal . . . 56
2.2.3 Funciones de densidad paramétricas . . . . . . . . . . . 58
2.2.4 Muestra aleatoria: preliminares . . . . . . . . . . . . . 59
3
4 CONTENIDO
2.3 Teoría de la probabilidad: una introducción . . . . . . . . . . . 60

2.4 Experimento aleatorio . . . . . . . . . . . . . . . . . . . . . . 60
2.4.1 Experimento aleatorio . . . . . . . . . . . . . . . . . . 61
2.5 Formalizacion de [a] . . . . . . . . . . . . . . . . . . . . . . . . 62
2.6 Formalizacion de [b] . . . . . . . . . . . . . . . . . . . . . . . 62
2.6.1 Espacio de eventos . . . . . . . . . . . . . . . . . . . . 64
2.6.2 Noción matemática de probabilidad . . . . . . . . . . . 70
2.6.3 Espacio de probabilidad [S; =; P (:)] . . . . . . . . . . . 74
2.6.4 Deducción matemática . . . . . . . . . . . . . . . . . . 74
2.7 Formalización de la condición [c]: pruebas aleatorias . . . . . . 77
2.7.1 Probabilidad condicional e independencia . . . . . . . . 78
2.8 Espacio estadístico . . . . . . . . . . . . . . . . . . . . . . . . 79
3 El concepto de modelo de probabilidad 81

3.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
3.1.1 La historia hasta ahora . . . . . . . . . . . . . . . . . . 81
3.1.2 ¿Porqué nos interesa? . . . . . . . . . . . . . . . . . . . 82
3.2 El concepto de variable aleatoria simple . . . . . . . . . . . . . 83
3.2.1 Conjunto …nito de resultados: S = fs1 ; s2 ; :::; sn g . . . 84
3.2.2 Conjunto contable de resultados: S = fs1 ; s2 ; :::; sn ; :::g 91
3.3 El concepto general de variable aleatoria . . . . . . . . . . . . 93
3.3.1 Conjunto no contable de resultados . . . . . . . . . . . 93
3.4 La distribución acumulada y funciones de densidad . . . . . . 97
3.4.1 La función de distribución acumulada . . . . . . . . . . 97
3.4.2 La función de densidad . . . . . . . . . . . . . . . . . . 99
3.5 De un espacio de probabilidad a un modelo de probabilidad . 109
3.6 Parámetros y momentos . . . . . . . . . . . . . . . . . . . . . 117
3.6.1 ¿Porqué nos interesa? . . . . . . . . . . . . . . . . . . . 117
3.6.2 Características numéricas . . . . . . . . . . . . . . . . 118
3.7 Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
3.7.1 Momentos crudos de orden superior . . . . . . . . . . . 123
3.7.2 Función generatriz de momentos . . . . . . . . . . . . . 124
3.7.3 El problema de los momentos . . . . . . . . . . . . . . 129
3.7.4 Momentos centrales superiores . . . . . . . . . . . . . . 132
3.7.5 Otras características numéricas . . . . . . . . . . . . . 142
3.8 Desigualdades . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
3.9 Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
CONTENIDO 5
3.10 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
4 El concepto de muestra aleatoria 157

4.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
4.1.1 Objetivo principal de este capítulo . . . . . . . . . . . 157
4.1.3 De pruebas aleatorias a una muestra aleatoria: a primer
punto de vista . . . . . . . . . . . . . . . . . . . . . . . 158
4.2 Distribuciones conjuntas . . . . . . . . . . . . . . . . . . . . . 160
4.2.1 Variables aleatorias discretas . . . . . . . . . . . . . . . 160
4.2.2 Variables aleatorias continuas . . . . . . . . . . . . . . 163
4.2.3 Momentos conjuntos . . . . . . . . . . . . . . . . . . . 167
4.2.4 El caso de n variables aleatorias . . . . . . . . . . . . . 169
4.3 Distribuciones marginales . . . . . . . . . . . . . . . . . . . . 171
4.4 Distribuciones condicionales . . . . . . . . . . . . . . . . . . . 175
4.4.1 Probabilidad condicional . . . . . . . . . . . . . . . . . 175
4.4.2 Funciones de densidad condicional . . . . . . . . . . . . 176
4.4.3 Variables aleatorias discretas/continuas . . . . . . . . . 180
4.4.4 Momentos codicionales . . . . . . . . . . . . . . . . . . 181
4.4.5 Una digresión: otras formas de condicionalidad . . . . 183
4.4.6 Marginalización frente a condicionalidad . . . . . . . . 185
4.5 Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
4.5.1 El caso de dos variables aleatorias . . . . . . . . . . . . 188
4.5.2 Independencia en el caso de n variables . . . . . . . . . 190
4.6 Distribuciones idénticas . . . . . . . . . . . . . . . . . . . . . . 193
4.6.1 Una muestra aleatoria . . . . . . . . . . . . . . . . . . 196
4.6.2 Un modelo estadístico simple: concluyendo las trans-
formaciones . . . . . . . . . . . . . . . . . . . . . . . . 197
4.7 Un modelo estadístico simple en la modelización empírica: una
visión preliminar . . . . . . . . . . . . . . . . . . . . . . . . . 198
4.7.1 Modelo de probabilidad . . . . . . . . . . . . . . . . . 199
4.7.2 Identi…cabilidad y parametrizaciones . . . . . . . . . . 200
4.7.3 Importantes familias de distribuciones paramétricas . . 202
4.7.4 Muestra aleatoria . . . . . . . . . . . . . . . . . . . . . 206
4.8 Muestras aleatorias ordenadas* . . . . . . . . . . . . . . . . . 207
4.8.1 Distribuciones marginales . . . . . . . . . . . . . . . . 207
4.8.2 Distribuciones conjuntas . . . . . . . . . . . . . . . . . 209
6 CONTENIDO
4.9 Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210

4.9.1 ¿Qué sigue? . . . . . . . . . . . . . . . . . . . . . . . . 210
4.10 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
5 El concepto de muestra no aleatoria 213

5.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
5.1.2 Extendiendo un modelo estadístico simple . . . . . . . 215
5.1.3 Introduciendo una taxonomía fundamental . . . . . . . 216
5.2 Muestra no aleatoria: una visión preliminar . . . . . . . . . . 217
5.2.1 Condicionalidad secuencial . . . . . . . . . . . . . . . . 220
5.2.2 Manteniendo un ojo en el bosque! . . . . . . . . . . . 223
5.2.3 Modelos estadísticos más allá del simple: un punto de
vista preliminar . . . . . . . . . . . . . . . . . . . . . . 224
5.3 Dependencia entre dos variables aleatorias: distribución con-
junta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225
5.4 Dependencia entre dos variables aleatorias: momentos . . . . . 230
5.4.1 Momentos conjuntos y dependencia . . . . . . . . . . . 230
5.5 Momentos condicionales y dependencia . . . . . . . . . . . . . 237
5.5.1 Independencia condicional . . . . . . . . . . . . . . . . 240
5.6 Dependencia y sistema de medida . . . . . . . . . . . . . . . . 244
5.6.1 Escalas de medida y dependencia . . . . . . . . . . . . 244
5.6.2 Dependencia para las variables categóricas . . . . . . . 246
5.6.3 Dependencia entre variables nominales . . . . . . . . . 250
5.6.4 La distribución de Bernoulli . . . . . . . . . . . . . . . 252
5.6.5 Dependencia en variables aleatorias mezcladas (disc-
retas / continuas) . . . . . . . . . . . . . . . . . . . . . 254
5.7 Distribuciones conjuntas y dependencia . . . . . . . . . . . . . 255
5.7.1 Dependencia y la distribución normal . . . . . . . . . . 259
5.7.2 Dependencia y la familia elípticamente simétrica . . . . 263
5.7.3 Dependencia y las distribuciones sesgadas . . . . . . . 268
5.8 De los conceptos probabilísticos a los datos observados . . . . 275
5.8.1 Generación de números pseudo aleatorios* . . . . . . . 275
5.8.2 Una representación grá…ca: el diagrama de dispersión . 283
5.9 ¿Qué sigue? . . . . . . . . . . . . . . . . . . . . . . . . . . . . 300
5.10 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 300
CONTENIDO 7
6 Regresión y conceptos relacionados 303

6.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303
6.2 Condicionalidad y regresión . . . . . . . . . . . . . . . . . . . 306
6.2.1 Reducción y funciones condicionales momento . . . . . 306
6.2.2 Regresión y funciones cedásticas . . . . . . . . . . . . . 309
6.2.3 Funciones clíticas y cúrticas . . . . . . . . . . . . . . . 325
6.3 Reducción y condicionalidad estocástica . . . . . . . . . . . . 327
6.3.1 Signi…cado de E (Y r j (X)) . . . . . . . . . . . . . . . 328
6.3.2 Determinando hr (X) = E (Y r j (X)) . . . . . . . . . . 335
6.3.3 Propiedades de la esperanza condicional estocástica . . 336
6.4 Exogeneidad débil . . . . . . . . . . . . . . . . . . . . . . . . 341
6.5 El concepto de mecanismo generador estadístico (MG) . . . . 344
6.5.1 El ángulo de visión de la teoría . . . . . . . . . . . . . 344
6.5.2 El concepto de conjunto de información condicional . . 346
6.5.3 Descomposiciones ortogonales del MG estadístico . . . 346
6.5.4 El ángulo de visión estadístico . . . . . . . . . . . . . . 352
6.5.5 Razón de dependencia* . . . . . . . . . . . . . . . . . . 354
6.6 La tradición biométrica en estadística . . . . . . . . . . . . . . 356
6.6.1 Galton . . . . . . . . . . . . . . . . . . . . . . . . . . . 357
6.6.2 Karl Pearson . . . . . . . . . . . . . . . . . . . . . . . 363
6.6.3 Revisando la estrategia de modelación de Pearson . . . 368
6.6.4 Kernel suavizado y regresión . . . . . . . . . . . . . . . 375
6.7 Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 377
6.8 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 378
7 Procesos estocásticos 381

7.1 introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 381
7.1.2 Variables aleatorias y ordenamiento . . . . . . . . . . . 384
7.2 El concepto de proceso estocástico . . . . . . . . . . . . . . . . 386
7.2.1 De…nición de un proceso estocástico . . . . . . . . . . 386
7.2.2 Clasi…cación de los procesos estocásticos . . . . . . . . 390
7.2.3 Especi…cación de un proceso estocástico . . . . . . . . 392
7.3 Procesos estocásticos: una visión preliminar . . . . . . . . . . 394
7.3.1 El movimiento browniano y los fundamentos de la prob-
abilidad . . . . . . . . . . . . . . . . . . . . . . . . . . 395
7.3.2 Sumas parciales y procesos estocásticos asociados . . . 397
8 CONTENIDO
7.3.3 Proceso Gaussiano . . . . . . . . . . . . . . . . . . . . 406

7.4 Restricciones de dependencia . . . . . . . . . . . . . . . . . . . 407
7.4.1 Conceptos basados en distribución . . . . . . . . . . . . 407
8 Estimación I: Propiedades de los estimadores 411

8.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 411
8.1.1 Vista panorámica del capítulo . . . . . . . . . . . . . . 412
8.2 La de…nición de un estimador . . . . . . . . . . . . . . . . . . 412
8.3 Propiedades de muestra …nita . . . . . . . . . . . . . . . . . . 417
8.3.1 Motivación: el estimador ideal . . . . . . . . . . . . . . 417
8.4 Propiedades asintóticas . . . . . . . . . . . . . . . . . . . . . . 430
8.4.1 Consistencia . . . . . . . . . . . . . . . . . . . . . . . . 430
8.4.2 Consistencia fuerte . . . . . . . . . . . . . . . . . . . . 433
8.4.3 Normalidad asintótica . . . . . . . . . . . . . . . . . . 434
8.4.4 E…ciencia asintótica . . . . . . . . . . . . . . . . . . . . 435
8.4.5 Distribuciones muestrales y propiedades de los esti-
madores . . . . . . . . . . . . . . . . . . . . . . . . . . 436
8.5 El modelo Normal simple . . . . . . . . . . . . . . . . . . . . . 438
8.5.1 La distribución muestral de la media de la muestra . . 438
8.5.2 La distribución muestral de la varianza de la muestra . 441
8.5.3 Reduciendo el sesgo: estimadores navaja (jackknife es-
timators) . . . . . . . . . . . . . . . . . . . . . . . . . 446
8.6 Estadísticos su…cientes y estimadores óptimos * . . . . . . . . 449
8.6.1 Su…ciencia . . . . . . . . . . . . . . . . . . . . . . . . . 449
8.6.2 Su…ciencia e insesgamiento . . . . . . . . . . . . . . . . 453
8.6.3 Su…ciencia mínima . . . . . . . . . . . . . . . . . . . . 454
8.6.4 Completitud . . . . . . . . . . . . . . . . . . . . . . . . 456
8.6.5 Exponencial de la familia de distribuciones . . . . . . . 459
8.7 ¿Qué viene a continuación? . . . . . . . . . . . . . . . . . . . 459
8.8 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 460
9 Estimación II: métodos de estimación 463

9.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463
9.1.2 Métodos de estimación: una visión preliminar . . . . . 464
9.2 Principio de momentos coincidentes . . . . . . . . . . . . . . . 465
9.2.1 Momentos muestrales y sus propiedades . . . . . . . . 470
9.2.2 Funciones de los momentos de la muestra . . . . . . . . 477
CONTENIDO 9
9.3 El método de mínimos cuadrados . . . . . . . . . . . . . . . . 478

9.3.1 El principio de mínimos cuadrados . . . . . . . . . . . 478
9.3.2 Teorema de Gauss-Markov. . . . . . . . . . . . . . . . 481
9.3.3 El método estadístico de mínimos cuadrados . . . . . . 483
9.3.4 Propiedades de estimadores de mínimos cuadrados . . . 486
9.4 El método de momentos . . . . . . . . . . . . . . . . . . . . . 487
9.4.1 Método de momentos de Pearson . . . . . . . . . . . . 488
9.4.2 El método paramétrico de momentos . . . . . . . . . . 491
9.4.3 Propiedades de los estimadores MPM . . . . . . . . . . 494
9.5 El método de máxima verosimilitud . . . . . . . . . . . . . . . 495
9.5.1 La función de verosimilitud . . . . . . . . . . . . . . . 495
9.5.2 Estimadores de máxima verosimilitud . . . . . . . . . . 497
9.5.3 Caso multiparámetros . . . . . . . . . . . . . . . . . . 501
9.5.4 Propiedades de los EMV . . . . . . . . . . . . . . . . . 509
9.5.5 El método de máxima verosimilitud y sus críticos . . . 520
9.6 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 522
10 Prueba de hipótesis 525

10.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 525
10.1.1 Las di…cultades inherentes en el dominio de las pruebas
de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . 525
10.2 Preliminares al enfoque de Fisher . . . . . . . . . . . . . . . . 527
10.2.1 Edgeworth . . . . . . . . . . . . . . . . . . . . . . . . . 527
10.2.2 Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . 529
10.2.3 Gosset . . . . . . . . . . . . . . . . . . . . . . . . . . . 532
10.2.4 La formulación de Fisher . . . . . . . . . . . . . . . . . 534
10.2.5 Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . 538
10.3 El marco de referencia de Neyman-Pearson . . . . . . . . . . . 540
10.3.1 Etapa I - El concepto de hipótesis alternativa . . . . . 541
10.3.2 Etapa II - La región de rechazo . . . . . . . . . . . . . 543
10.3.3 Etapa III - Los dos tipos de errores . . . . . . . . . . . 545
10.3.4 Etapa IV - Construcción de pruebas óptimas . . . . . . 549
10 CONTENIDO
Esta es una traducción de los capítulos del libro de Spanos (1999) prop-
uestos para el curso de Estadística del campo de Economía Aplicada del Pos-
grado en Economía de la UNAM. Es el resultado de mis exposiciones y res-
olución de problemas en el taller de Estadística y estuvo destinado a los estu-
diantes que cursaron esta asignatura en el semestre 2013-1. Gracias a cada
uno de ellos por sus valiosas observaciones al contenido de este documento.
Actualmente estoy traduciendo las partes restantes del libro. En cuanto
concluya la traducción del libro completo, la pondré a disposición del pos-
grado.
Errores en esta versión de la traducción son, desde luego, mi responsabil-
idad y trataré de corregirlos en versiones siguientes.
Teoría de la probabilidad e Inferencia Estadística
Este importante nuevo libro de texto de un econometrista distinguido
está dirigido a estudiantes que toman cursos de introducción a la teoría de la
probabilidad y a la inferencia estadística. Ningún conocimiento previo que
no sea un conocimiento básico de estadística descriptiva se presupone.
El objetivo principal de este libro es establecer el marco de referencia
para la modelización empírica de datos observacionales (no experimentales).
Este marco se ha formulado con el …n de acomodar las peculiaridades de
los datos observacionales (no experimentales) de una manera uni…cadores y
lógica coherente. Teoría de la Probabilidad e Inferencia Estadística di…ere
de los libros de texto tradicionales en la medida en que hace hincapié en
los conceptos, ideas, nociones y procedimientos que son apropiados para la
modelización de datos observacionales. Se hace especial énfasis en relacionar
conceptos probabilísticos a los patrones de regularidad aleatoria exhibidos
por los datos observados.
Dirigido principalmente a estudiantes de segundo año de nivel universi-
tario y más allá del estudio de la econometría y la economía, este libro de
texto también será útil para los estudiantes de otras disciplinas que hacen uso
extensivo de datos observacionales, incluidas …nanzas, biología, sociología,
educación, psicología y climatología.
0.1. A QUIÉN SE DIRIGE Y CARACTERÍSTICAS DISTINTIVAS 11
ARIS SPANOS es un destacado investigador y profesor en econometría.

En la actualidad trabaja en University of Cyprus y Virginia Polytechnic In-
stitute y State University y ha enseñado previamente en instituciones entre
ellas, el Birkbeck College, la Universidad de Cambridge y la Universidad de
California. Sus libros anteriores incluyen Statistical Foundations of Econo-
metric Modelling, publicado por Cambridge University Press en 1986.
0.1 A quién se dirige y características distin-

tivas
Este es un libro de texto destinado a un curso de introducción a la teoría
de la probabilidad y a la inferencia estadística, escrito para estudiantes que
han tenido al menos un curso de un semestre de cálculo. Las matemáti-
cas adicionales necesarias se fusionan a la discusión para que sea autocon-
tenido, prestando especial atención a la comprensión intuitiva de los concep-
tos matemáticos. No son requeridos prerrequisitos en probabilidad e infer-
encia estadística, pero una cierta familiaridad con la estadística descriptiva
será de utilidad.
El objetivo principal de este libro es sentar las bases y ensamblar el
marco de referencia general para la modelización empírica de datos obser-
vacionales (no experimentales). Este marco de referencia, conocido como
reducción probabilística, se formula con el …n de acomodar las particulari-
dades de los datos observacionales (en oposición a los experimentales) de
una manera uni…cadora y lógicamente coherente. Se distingue de los libros
de texto tradicionales en la medida en que enfatiza los conceptos, ideas, no-
ciones y procedimientos que sean apropiados para la modelización de datos
observacionales.
12 CONTENIDO
Capítulo 1
1 Una introducción a la
modelización empírica
1.1 Introducción
En un intento de dar una idea de lo que la modelación empírica trata, comen-
zamos la discusión con una demarcación epigramática de su ámbito de apli-
cación:
Modelizacion empírica se re…ere a la descripción parsimoniosa de

fenómenos estocásticos observables utilizando modelos estadísticos.
La delimitación anterior es apenas esclarecedora porque involucra los tér-

minos desconocidos fenómeno estocástico y modelo estadístico que se expli-
carán en lo que sigue. En esta etapa, sin embargo, basta con señalar las
siguientes características distintivas de la modelización empírica (en oposi-
ción a otras formas):
(a) la naturaleza estocástica de los fenómenos susceptibles de dicha mod-
elación,
(b) el carácter indispensable de los datos observados, y
(c) la naturaleza de la descripción en la forma de un modelo estadístico.
El objetivo principal de la modelización empírica es proporcionar una de-
scripción adecuada de ciertos tipos de fenómenos observables de interés en
forma de mecanismos estocásticos que llamamos modelos estadísticos. Un
modelo estadístico pretende capturar la información estadística sistemática
(ver secciones 2 y 3), que es diferente de la teoría de la información (ver
13
14CAPÍTULO 1. 1 UNA INTRODUCCIÓN A LA MODELIZACIÓN EMPÍRICA
sección 4). En contraste con un modelo teórico, un modelo estadístico es

codi…cado exclusivamente en términos de conceptos probabilísticos y es de-
scriptivo y anti-realista por naturaleza (véase el capítulo 10 para mayor dis-
cusión). La su…ciencia de la descripción se evalúa por qué tan bien el modelo
estadístico postulado da cuenta de la información estadística sistemática en
los datos (véase la sección 5). En la sección 6 proporcionamos una discusión
preliminar de algunos aspectos importantes del elemento constitutivo de los
modelos empíricos, los datos observados.
La modelización empírica en este libro es considerada para incluir una
amplia gama de procedimientos relacionados entre sí incluyendo:
(i) especi…cación (la elección de un modelo estadístico),
(ii) estimación (estimación de los parámetros del modelo estadístico pos-
tulado),
(iii) pruebas de errores de especi…cación (evaluación de la validez de los
supuestos probabilística del modelo estadístico postulado) y
(iv) respeci…cation (una elección alternativa de un modelo estadístico).
Como se ha señalado antes, estas facetas de la modelización están partic-
ularmente involucradas en el caso de los datos observacionales. En el caso
de los datos experimentales, el enfoque principal está en la estimación
debido a que las facetas (i) y (iv) constituyen la otra cara del diseño de la
moneda y (iii) juega un papel subsidiario.
El ejemplo por excelencia de la modelización empírica utilizando datos
observables se considera es la econometría. Una tesis importante adoptada
en este libro es que la econometría se distingue de la estadística de la cor-
riente dominante (dominada por el diseño experimental y las tradiciones de
mínimos cuadrados), no tanto por la dimensión de la teoría económica de
los modelos, sino principalmente debido a los problemas particulares de la
modelación que surgen debido a la naturaleza observacional de la inmensa
mayoría de los datos económicos. Por lo tanto, interpretamos la de…nición
tradicional de la econometría "la estimación de las relaciones como lo sugiere
la teoría económica" (véase Harvey (1990), p. 1), como la colocación del
campo en el marco de referencia de la modelización de diseño experimental.
En pocas palabras, el argumento básico es que el enfoque tradicional de libro
de texto econométrico utiliza el marco de referencia de la modelización de
diseño experimental para el análisis de datos no experimentales (ver Spanos
(1995b) para más detalles).
1.2. FENÓMENOS ESTOCÁSTICOS, UNA VISTA PRELIMINAR 15
1.1.1 Una vista panorámica del capítulo

El resto de este capítulo profundiza en las características distintivas de la
modelación empírica (a) - (c). En la sección 2 discutimos el signi…cado de
fenómenos estocásticos observables y por qué tales fenómenos son sus-
ceptibles de modelización empírica. En la sección 3, discutimos la relación
entre fenómeno estocástico y modelos estadísticos. Esta relación se pre-
senta en la forma de información estadística sistemática que no es más que la
formalización de los patrones de regularidad aleatoria exhibidos por los datos
observados que emanan de los fenómenos estocásticos. En la sección 4 discu-
timos la importante noción de su…ciencia estadística: si el modelo estadístico
postulado "captura" toda la información estadística sistemática de los datos.
En la sección 5 contrastamos la información estadística y la teoría. En pocas
palabras, el modelo teórico se formula en términos del comportamiento de
los agentes económicos y el modelo estadístico es formulado exclusivamente
en términos de conceptos probabilísticos; una parte considerable del libro se
re…ere a la pregunta de: ¿qué es lo que constituye la información estadís-
tica sistemática? En la sección 6 planteamos tres cuestiones importantes
en relación a los datos observados, sus diferentes escalas de medida, su
naturaleza y su precisión, lo que se relaciona con los métodos estadísticos
utilizados para su modelización.
El mensaje principal de este capítulo es que, en la evaluación de la validez
de una teoría, el modelador debe garantizar que los datos observados consti-
tuyan un testigo imparcial, cuyo testimonio puede ser utilizado para evaluar
la validez de la teoría en cuestión. Un modelo estadístico pretende propor-
cionar un resumen adecuado de la información estadística sistemática de los
datos en la forma de un mecanismo estocástico que posiblemente dio lugar a
los datos observados en cuestión.
1.2 Fenómenos estocásticos, una vista pre-

liminar
Como se escribió anteriormente, el alcance previsto por la modelación em-
pírica es demarcado por la naturaleza estocástica de los fenómenos observ-
ables. En esta sección explicamos intuitivamente la idea de un fenómeno
estocástico y lo relacionamos con la noción de modelo estadístico en la sigu-
iente sección.
Fenómenos estocásticos y regularidad aleatoria

Un fenómeno estocástico es aquel cuyos datos observados muestran lo
que llamamos patrones de regularidad aleatoria. Estos patrones son por lo
general revelados utilizando una variedad de técnicas grá…cas. La esencia de
la regularidad aleatoria, como lo sugiere el término en sí mismo, viene bajo
la forma de dos características entrelazadas:
aleatoria: una incertidumbre inherente en relación con la ocurrencia de
resultados particulares,
regularidad: una regularidad permanente en relación con la ocurrencia de
muchos de tales resultados.
TERMINOLOGÍA: el término regularidad aleatoria se introduce con el
…n de evitar la posible confusión y desconcierto que puede ser causado por la
adopción del término de uso más común conocido como aleatoriedad; véase
el capítulo 10 para más discusión.
A primera vista, estos dos atributos podrían parecer contradictorios en
el sentido de que el azar se re…ere a la ausencia de orden y la "regularidad"
denota la presencia de orden. Sin embargo, no hay contradicción porque el
desorden existe en el nivel de los resultados individuales y el orden a nivel
agregado. En efecto, la esencia de la regularidad aleatoria se deriva del hecho
de que el desorden a nivel individual crea (de alguna manera) orden a nivel
agregado. Los dos atributos deben ser vistos como algo inseparable para que
la noción de regularidad aleatoria tenga sentido. Cuando sólo uno de ellos
está presente, no podemos hablar de regularidad aleatoria.
Cualquier intento en esta etapa de de…nir formalmente lo que queremos
decir por regularidad aleatoria será más bien inútil, porque necesitamos var-
ios conceptos matemáticos que se desarrollarán en lo que sigue. En su lugar,
vamos a intentar dar un poco de intuición detrás de la noción de regulari-
dad aleatoria con un ejemplo simple y posponer la discusión formal hasta el
capítulo 10.
Ejemplo
Considere la situación de lanzar dos dados y sumar los puntos de los lados
hacia arriba. La primera característica fundamental de esta situación es que
en cada prueba (lanzamiento de los dos dados) el resultado (la suma de los
puntos de los lados) no se puede adivinar con total certeza. Lo único que se
puede decir con certeza es que el resultado será uno de los números:
{ 2,3,4,5,6,7,8,9,10,11,12}
excluimo el caso en el que los dados terminan en uno de los bordes!

Todas las 36 combinaciones posibles detrás de los resultados se muestran
en la tabla 1.1. La segunda característica fundamental de la situación es
que bajo ciertas condiciones, tales como la simetría de los dados, sabemos
que ciertos resultados son más probables de ocurrir que otros. Por ejemplo,
sabemos que el número 2 puede surgir como la suma de sólo un conjunto de
caras: {1,1} - cada dado sale 1; se aplica lo mismo al número 12 con caras:
{6,6}. Por otro lado, el número 3 puede surgir como la suma de dos conjuntos
de caras: {(1,2), (2,1)} y lo mismo sucede con el número 11 con caras: {(6,5),
(5,6)}. En la siguiente subsección veremos que esta línea de razonamiento
combinatorio dará lugar a una distribución de probabilidad, como se muestra
en la tabla 1.3.
Tabla 1.1. Resultados en el lanzamiento de dos dados

1 2 3 4 5 6
1 (1,1) (1,2) (1,3) (1,4) (1,5) (1,6)
2 (2,1) (2,2) (2,3) (2,4) (2,5) (2,6)
3 (3,1) (3,2) (3,3) (3,4) (3,5) (3,6)
4 (4,1) (4,2) (4,3) (4,4) (4,5) (4,6)
5 (5,1) (5,2) (5,3) (5,4) (5,5) (5,6)
6 (6,1) (6,2) (6,3) (6,4) (6,5) (6,6)
En esta etapa es interesante hacer una pausa y considerar la noción de

regularidad aleatoria como desarrollada primero en el contexto de juegos
de azar. Esta es, de hecho, la forma en la que las probabilidades hicieron
su primera aparición. Históricamente, las probabilidades fueron introducidas
como una manera de entender las diferencias observadas empíricamente entre
la probabilidad de aparición de diferentes resultados de las apuestas, como
en el cuadro 1.1. Miles de soldados durante la época medieval podían dar
fe de las diferencias en las frecuencias relativas empíricas de ocurrencia de
diferentes eventos relacionados con los resultados en la tabla 1.1.Mientras
esperaban para atacar una ciudad, los soldados tenían miles de horas sin
nada que hacer y nuestros registros históricos sugieren que ellos se complacían
principalmente en juegos de azar parecidos al lanzamiento de dados. Después
de miles de ensayos ellos sabían intuitivamente que el número 7 aparece con
más frecuencia que cualquier otro número y que el 6 aparece con menos
frecuencia que el 7, pero con más frecuencia que el 5. Veamos cómo esta
intuición se convirtió en algo más sistemático, que eventualmente condujo a

la teoría de la probabilidad.
La tabla 1.2 reporta 100 ensayos reales del experimento aleatorio de lanzar
dos dados y sumar el número de puntos que aparecen en la cara superior del
dado. Un vistazo a la tabla sólo con…rma que los números van de 2 a 12,
pero ningún patrón real es evidente, al menos a primera vista.
Tabla 1.2. Datos observados en el lanzamiento de un dado
3 10 11 5 6 7 10 8 5 11 2 9 9 6 8 4 7 6 5 12
7 8 5 4 6 11 7 10 5 8 7 5 9 8 10 2 7 3 8 10
11 8 9 5 7 3 4 9 10 4 7 4 6 9 7 6 12 8 11 9
10 3 6 9 7 5 8 6 2 9 6 4 7 8 10 5 8 7 9 6
5 7 7 6 12 9 10 4 8 6 5 4 7 8 6 7 11 7 8 3
Figura 1.1 Una sucesión de 100 lanzamientos de dos dados.
En la …gura 1.1 se representan los datos sobre el índice del número de

la prueba. En el primer lanzamiento de los dados la suma fue de 3, en
la segunda la suma fue de 10, en la tercera la suma de 11, etc. Uniendo
estos resultados (observaciones) se da al espectador una mejor perspectiva
en cuanto a la naturaleza secuencial de los observaciones. NOTE que el orden
de las observaciones constituye una dimensión importante cuando se discute
la noción de regularidad aleatoria.
Historicamente, el primer patrón de regularidad aleatoria percibido in-
tuitivamente por los soldados medievales fue el de una ley estable de las
frecuencias relativas como se sugiere en el histograma en la …gura 1.2 del los
datos en la tabla 1.2; sin, por supuesto, la utilización de técnicas grá…cas,
pero después de numerosos lanzamientos de los dados. La pregunta que surge

naturalmente en esta etapa es:
¿Cómo es el histograma en la …gura 1.2 relacionado con los datos en la

…gura 1.1?
Hoy en día, los patrones de regularidad aleatoria son perceptibles medi-

ante la realización de una serie de experimentos mentales.
Experimento mental 1. Piense en las observaciones como pequeños
cuadrados con un área igual y gire hacia la derecha la …gura 1.1 en 90 y
deje que los cuadros que representan las observaciones caigan verticalmente
creando una pila sobre el eje "x". La pila representa el bien conocido his-
tograma, como se muestra en la …gura 1.2. Este histograma presenta una
clara forma triangular, que estará relacionada con una distribución de proba-
bilidad derivada mediante el uso de argumentos basados en combinaciones y
permutaciones en el siguiente subsección. Para …nes de referencia resumimos
esta regularidad en la forma de la noción intuitiva siguiente:
Figura 1.2 Histograma de la suma de los dos datos dados.
[1] Distribución: después de varias pruebas los resultados forman una ley
(aparentemente) estable.
Experimento mental 2. Ocultar las observaciones siguientes hasta un
cierto valor del índice, por ejemplo t = 40, y tratar de adivinar el resultado
siguiente. Repita esto a lo largo del eje de la observación del índice y si

resulta que es imposible utilizar las observaciones anteriores para adivinar
el valor de la observación siguiente, excluyendo los casos extremos 2 y 12,
entonces el patrón de regularidad aleatoria que llamamos independencia está
presente. Es importante notar que en el caso de los resultados extremos 2
y 12 uno está casi seguro que después de 2 la probabilidad de obtener un
número mayor que ése es mucho mayor, y después de 12 la probabilidad de
obtener un número más pequeño está cerca de uno . Como se ha señalado
antes, este tipo de predicción está relacionado con el componente de regular-
idad aletoria conocido como ley estable de frecuencias relativas. Excluyendo
estos casos extremos, cuando se miran las observaciones previas, no se puede
discernir un patrón en la …gura 1.1 que ayude a reducir el número de resulta-
dos alternativos posibles, permitiendo al modelador adivinar la observación
siguiente (dentro de límites estrechos) con alguna certeza. Intuitivamente,
podemos resumir esta idea en forma de:
[2] Independencia: en cualquier sucesión de pruebas el resultado de

cualquier prueba no in‡uye y no es in‡uido por cualquier otra.
Experimento mental 3. Tome una ventana ancha (para incluir la dis-

persión de las ‡uctuaciones en una grá…ca de tiempo como la …gura 1.1) que
sea también lo su…cientemente larga (aproximadamente menos de la mitad
de la longitud del eje horizontal) y deje que se deslice de izquierda a derecha a
lo largo del eje horizontal mirando el panorama dentro del cuadro, a medida
que se desliza a lo largo. En el caso de que la imagen no cambie signi…cativa-
mente, los datos exhiben homogeneidad , en otro caso, la heterogeneidad está
presente; véase el capítulo 5. Otra forma de ver este patrón es en términos de
la media y la variación en torno a esta media de los números a medida que
avanzamos de izquierda a derecha. Parece como si este promedio secuencial
y su variación son relativamente constante alrededor de 7. La variación en
torno a este valor promedio constante parece estar dentro de bandas con-
stantes. Esta regularidad aleatoria puede ser intuitivamente resumida en el
concepto siguiente:
[3] Homogeneidad: las probabilidades asociadas a los diferentes resultados

siguen siendo las mismas para todas las pruebas.
NOTE que en el caso donde el patrón en una grá…ca de tiempo es tal

que permite al modelador adivinar la siguiente observación con exactitud, los
datos no muestran ningún patrón aleatorio, ellos exhiben lo que se conoce

como regularidad determinista. La forma más fácil de pensar la regulari-
dad determinista es visualizar las grá…cas de funciones matemáticas de las
elementales (polinómicas, algebraicas, trascendentales) a funciones más com-
plicadas, como las funciones de Bessel, diferenciales y ecuaciones integrales.
Si echamos un vistazo a la …gura 1.1 y tratamos de pensar en una función
que pueda describir la línea en zig-zag observada, nos daremos cuenta de que
no existe tal función matemática, a menos que utilicemos un polinomio de
orden 99, que es lo mismo que listar los números reales . Los patrones que
discernimos en la …gura 1.1 son patrones de regularidad aleatoria.
Regularidad aleatoria y estructura probabilística

El paso de las regularidades observadas a su formalización (matematización)
fue impulsado por el patrón de regularidad de distribución como se ejempli…ca
en la …gura 1.2. La formalización propia fue inicialmente muy lenta, tomando
siglos para materializarse, y tomó la forma de argumentos combinatorios
simples.Podemos captar la esencia de esta formalización inicial si volvemos
al ejemplo del lanzamiento de los dados.
Ejemplo
En el caso del experimento de lanzar dos dados, podemos seguir la línea
de razonamiento que sugiere diferencias en la posibilidad de ocurrencias de
los distintos resultados en {2,3,4,5,6,7,8,9,10, 11,12} como sigue. Ya sabe-
mos que el 3 se produce dos veces más que el 2 o el 111 . Usando la misma
lógica de sentido común podemos argumentar que ya que el 4 se produce
cuando cualquiera de {(1,3), (2,2), (3,1)}ocurre, su posibilidad de ocurrencia
es tres veces mayor que la del 2. Continuando esta línea de razonamiento
y suponiendo que las 36 combinaciones pueden ocurrir con la misma posi-
bilidad, descubrimos una distribución que relaciona cada resultado con una
cierta posibilidad de ocurrencia mostrada abajo en la …gura 1.3; en primer
lugar obtenida por Coordano en los 1550’s. Como podemos ver, el resultado
más probable de ocurrir es el número 7; no es casualidad que varios juegos de
azar jugados con dos dados involucren el número 7. Pensamos la posibilidad
de ocurrencia como probabilidades y el patrón general de tales probabilidades
asociadas con cada resultado como una distribución de probabilidad;, véase
el capítulo 3.
1
o el 12 (no 11 como aparecen en el texto).
Figura 1.3 Regularidad en el agregado.
resultados 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 5 4 3 2 1
probabilidades 36 36 36 36 36 36 36 36 36 36 36
Tabla 3. La suma de dos dados: una distribución de probabilidad.
La distribución de probabilidad en la tabla 1.3 representa un concepto

probabilístico formulado por matemáticos para capturar la regularidad aleato-
ria en la …gura 1.1. Una comparación directa entre las …guras 1.2 y 1.3 con-
…rma la intuición de los soldados. Las frecuencias empíricas relativas en la
…gura 1.2 están muy cerca de las probabilidades teóricas que se muestran en la
…gura 1.3. Además, si tuviéramos que repetir el experimento 1000 veces, las
frecuencias relativas habrían sido aún más cercanas a la probabilidad teórica;
véase el capítulo 10. En este sentido, podemos pensar del histograma en la
…gura 1.2 como una realización empírica de la distribución de probabilidad
en la …gura 1.3 (véase el capítulo 5 para mayor discusión).
Ejemplo En el caso del experimento de lanzar dos dados, los soldados
medievales lo utilizaron para apostar sobre si el resultado es un número par o
impar (los griegos introdujeron estos conceptos en torno al 300 aC). Es decir,
el soldado A apostaría por el resultado A ={3,5,7,9,11} y el soldado B por
el resultado B ={2,4,6,8,10,12}. A primera vista parece como si el soldado
B fuera un ganador de…nitivo porque hay más números pares que impares.
Los soldados medievales, sin embargo, sabían por observación empírica que
esto no era cierto! En efecto, si volvemos a la tabla 1.3 y evaluamos la
probabilidad de que el evento A ocurra, descubrimos que los soldados estaban
en lo correcto: la probabilidad de ambos eventos es 21 ; la distribución de
probabilidad se da en la tabla 1.4.
Tabla 1.4 La suma de dos dados: impares y pares
resultados A = f3; 5; 7; 9; 11g B = f2; 4; 6; 8; 10; 12g

1 1
Probilidades 2 2
Concluimos esta subsección reiterando que el fenómeno estocástico de

lanzar dos dados dio origen a los datos observados que se muestras en la …gura
1.1, los cuales muestran las tres diferentes formas de patrones de "regularidad
aleatoria:
[1] Distribución (triangular), [2] Independencia y [3] Homogeneidad.
Para propósitos de referencia, es importante señalar que los anteriores

patrones perceptibles, constituyen casos particulares de patrones de regulari-
dad aleatoria relacionados con tres diferentes amplias categorías de supuestos
probabilísticos que llamamos Distribución, Dependencia y Heterogenei-
dad, respectivamente; véase el capítulo 5. Los conceptos que subyacen a
estas categorías de supuestos probabilísticos se de…nen formalmente en los
capítulos 3-4.
Una digresión - la paradoja del caballero de Mere
Históricamente, la conexión entre una ley estable de frecuencias relativas
y las probabilidades se forjó en la mitad del siglo 17 en un intercambio de
cartas entre Pascal y Fermat. Con el …n de degustar esta formulación inicial,
consideremos el siguiente ejemplo histórico.
La paradoja del caballero de Mere se planteó en una carta de Pascal a
Fermat en Julio 29 de 1654 como uno de los problemas planteados a él por de
Mere (un noble francés y un jugador estudioso). De Mere observó la siguiente
regularidad empírica:
la probabilidad de obtener al menos un 6 en cuatro lanzamientos de un

dado es mayor a 12
pero la probabilidad de obtener un doble 6 en 24 lanzamientos con dos
dados es inferior a 12 .
De Mere estableció esta regularidad empírica y no tenía dudas sobre su
validez debido a la enorme cantidad de veces que él repitio el juego. Él estaba
tan seguro de su validez empírica que fue tan lejos como para cuestionar la
parte más fundamental de la matemática, la aritmética misma. Razonando
por analogía, de Mere argumentó que las dos probabilidades deberían ser
idénticas, porque un 6 en cuatro lanzamientos de un dado es lo mismo que
un doble 6 en 24 lanzamientos de dos dados, ya que, de acuerdo con su
manera de pensar: 4 es a 6 como 24 es a 36.
La distribución estadística en el cuadro 1.4 se puede utilizar para ex-
plicar la regularidad empírica observada por De Mere. Siendo un poco más
cuidadoso que de Mere, se puede argumentar de la siguiente manera (las
manipulaciones de las probabilidades no son importantes en esta etapa):
1
Probabilidad de un doble seis = 36
1 n
Probabilidad de un doble seis en n lanzamientos = 36 ,
35 n
Probabilidad de no doble seis en n lanzamientos = 36
35 n
Probabilidad de al menos un doble seis en n lanzamienos = 1 36
= p.
35 24
Para n = 24, p = 1 36
= 0:4914039.
Es interesante observar que en el argumento anterior al pasar de la prob-
abilidad de un doble seis en una prueba a la de n pruebas usamos el concepto
de independencia que se de…ne más adelante.
Usando una distribución estadística para el caso de un dado, cuya dis-
tribución de probabilidad se da en el cuadro 1.5, se puede argumentar por
analogía de la siguiente manera:
Tabla 1.5 Distribución de probabilidad de un dado
resultados 1 2 3 4 5 6
1 1 1 1 1 1
probabilidades 6 6 6 6 6 6
Probabilidad de un seis = 16
n
Probabilidad de un seis en n lanzamientos = 16 ,
n
Probabilidad de no seis en n lanzamientos = 65
5 n
Probabilidad de al menos un seis en n lanzamienos = 1 6
= q.
54
Para n = 4, q = 1 6
= 0:5177469.
Las dos probabilidades p = 0.4914039 y q = 0.5177469 con…rman la reg-
ularidad empírica de Mere y no hay paradoja de ningún tipo! Esto muestra
claramente que las frecuencias empíricas de Mere fueron correctas, pero su
razonamiento por analogía era defectuoso.
Los patrones de regularidad aleatoria de imprevisibilidad, que relacionamos
con el concepto de probabilidad de [2] Independencia y el de uniformidad
que relacionamos con [3]homogeneidad utilizando la …gura 1.1, son implícita-
mente utilizados en el intercambio entre Pascal y Fermat. Es interesante no-
tar que estos conceptos no se formalizaron explícitamente hasta bien entrado
el siglo 20. Los supuestos probabilísticos de Independencia y Homogenei-
dad (Distribución Idéntica) subyacen a la mayoría de las formas de análisis
estadístico antes de 1920’s.
En esta etapa es importante poner de relieve que la noción de probabil-
idad subyacente a la distribución de probabilidad en las tablas 1.3 a 1.5, es
la de frecuencia relativa como la utilizada por De Mere para establecer su
regularidad después de un gran número de ensayos. No hay nada controver-
sial sobre esta noción de probabilidad y el uso de modelos estadísticos para
discutir cuestiones relativas a los juegos de azar, donde el mecanismo de azar
es explícitamente una parte integral del fenómeno que está siendo modelado.
No es, sin embargo, evidente que tal noción de probabilidad pueda ser uti-
lizada en la modelación de los fenómenos observables en donde el mecanismo
de azar no es explícito.
Regularidad aleatoria en fenómenos económicos
En el caso del experimento de lanzar dos dados, el mecanismo aleatorio es

explícito y la mayoría de las personas estará dispuesta a aceptar sobre la fe
que si este experimento es efectuado, los patrones de regularidad aleatoria
[1] - [3] señalados anteriormente, estarán presentes. La pregunta que surge
naturalmente es:
¿Es esta regularidad aleatoria concebible en fenómenos estocásticos más
allá de los juegos de azar?
En el caso de los fenómenos estocásticos, donde el mecanismo de azar no
es explícito, a menudo:
(a) no se puede obtener una distribución de probabilidad a priori con un
argumento de simetría física como en el caso de dados o monedas, y
Figura 1.4 Cambios en las tasas de cambio de los datos.
(b) no se puede pretender la presencia de algún mecanismo aleatorio ex-

plícito que de lugar a las observaciones.
Usando estas observaciones nuestra primera tarea es decidir si el fenómeno
subyacente puede ser útilmente visto como estocástico y nuestra segunda
tarea consiste en utilizar los patrones de regularidad aleatoria percibidos en
estos datos con el …n de elegir un modelo estadístico adecuado. Por lo tanto,
discerniento patrones de regularidad aleatoria a partir de las grá…cas de los
datos y relacionándolos con los conceptos correspondientes de la teoría de la
probabilidad será una parte esencial de la discusión que sigue.
Un número de fenómenos observables en econometría pueden ser vistos
provechosamente como fenómenos estocásticos y por lo tanto susceptibles de
modelización estadística. En un intento de dar algún soporte a esta proposi-
ción, considerar la grá…ca de tiempo de X - cambios logarítmicos de la tasa
cambiaria del dólar Canadiense/EE.UU para el período 1973-1992 (obser-
vaciones semanales) que se muestra en la …gura 1.4. Lo que es interesante
acerca de los datos es el hecho de que presentan una serie de patrones de
regularidad aleatoria muy similares a los exhibidos por las observaciones de
los dados en la …gura 1.1, pero algunos patrones adicionales también son
perceptibles. Los patrones de regularidad exhibida por los dos conjuntos de
observaciones son las siguientes:
(a) la media aritmética en el ordenamiento (tiempo) parece ser constante,
(b) la banda de variación alrededor de la media parece ser relativamente

constante.
El patrón de regularidad en relación a una (posiblemente) estable ley de
frecuencias relativas exhibida por los datos de la tasa cambiaria, no sugieren
una ley estable triangular como en la …gura 1.2. En su lugar:
Figura 1.5 Histograma de las tasas de cambio.
(c) los datos en la …gura 1.4 presentan una cierta simetría en forma de
campana (parece que hay tantos puntos por encima de la media como por
debajo, pero las frecuencias relativas se desvanecen cuando el valor de X se
aleja del centro a las colas) . Esta regularidad se puede ver en la grá…ca de
las frecuencias relativas dada en la …gura 1.5.
Cómo las grá…cas en las …guras 1.4 y 1.5 se relacionan será discutido
ampliamente en el capítulo 5, junto con una descripción más detallada de
cómo se pueden reconocer los patrones (a) - (c) mencionados anteriormente.
Además de los patrones de regularidad encontrados en la …gura 1.1, cabe
señalar que los datos en la …gura 1.4 muestran el patrón de regularidad
aleatoria siguiente:
(d) parece haber una sucesión de conglomerados de pequeños y grandes
cambios que se suceden unos a otros.
En esta etapa es improbable que el lector esté convencido de que las carac-
terísticas señaladas anteriormente son fácilmente discernibles a partir de las
grá…cas de tiempo. Sin embargo, un aspecto importante de la modelización

en este libro es sin duda cómo leer información sistemática en las grá…cas de
tiempo, lo cual se iniciará en el capítulo 5.
En conclusión, el punto de vista adoptado en este libro es que los fenó-
menos estocásticos (aquellos exhibiendo regularidad aleatoria) son sus-
ceptibles de modelización empírica, con independencia de si el mecanismo
aleatorio incorporado es evidente o no. En efecto, una tarea importante para
el modelador es identi…car los fenómenos observables que pueden ser prove-
chosamente vistos como fenómenos estocásticos. La cuestión de si existe o
no tal mecanismo es sólo de interés metafísico.
En resumen, los fenómenos estocásticos (los que exhiben regularidad
aleatoria) se pueden modelar empíricamente sin importar si está explícito
o no un mecanismo aleatorio.
1.3 Regularidad aleatoria y modelos estadís-

ticos
La discusión hasta el momento ha señalado la presencia de patrones de reg-
ularidad aleatoria en fenómenos estocásticos. Motivada por el deseo de uti-
lizar la información proporcionada por los patrones de regularidad de azar,
la teoría de la probabilidad procedió a formalizarlos mediante el desarrollo
(invención) de conceptos probabilísticos (matemáticos) relacionados; en los
próximos capítulos vamos a introducir una serie de conceptos de la teoría
de la probabilidad. En particular, el patrón de regularidad ley estable de
frecuencias relativas será formalmente relacionado con el concepto de dis-
tribución de probabilidad; véanse las tablas 1.3 a 1.5. En el caso de los datos
de la tasa de cambio la aparente ley estable de frecuencias relativas en la
…gura 1.5 será relacionada con distribuciones tales como la Normal y la t de
Student, las cuales exhiben simetría en forma de campana (véase el capítulo
5). El patrón de imprevisibilidad será formalmente relacionado con el con-
cepto de la Independencia ([1]) y el patrón de uniformidad con el concepto de
Distribución Idéntica ([2]). Los patrones de regularidad (a) - (b), exhibidos
por los datos de la tasa de cambio, serán formalmente relacionados con el con-
cepto de estacionariedad (véanse los capítulos 5 y 8) y (d) será relacionado
con la dependencia no lineal (véase el capítulo 6). Es importante destacar
que los patrones de regularidad aleatoria, como los señalados anteriormente,
1.3. REGULARIDAD ALEATORIA Y MODELOS ESTADÍSTICOS 29
constituyen el elemento vital de la modelización estadística debido a que su

utilización apropiada constituye la esencia de la modelación empírica.
El puente entre los patrones de regularidad aleatoria y los conceptos prob-
abilísticos, transforma el reconocimiento intuitivo del patrón cognitivo en in-
formación estadística (sistemática). En un intento por hacer más fácil
la utilización de la información estadística sistemática para los propósitos de
modelización, los conceptos probabilísticos que tienen por objeto formalizar
los patrones de regularidad aleatoria se colocan en tres amplias categorías:
(D) Distribución, (M) Dependencia y (H) Heterogeneidad
Esta taxonomía básica está diseñada para proporcionar una forma lógi-
camente coherente de ver y utilizar información estadística para …nes de
modelización. Estas amplias categorías puede verse como la de…nición de
los componentes básicos de un modelo estadístico en el sentido de que todo
modelo estadístico puede ser visto como una suave mezcla de ingredientes de
las tres categorías. La suavidad de la mezcla en este contexto se re…ere a la
consistencia interna de los supuestos que constituyen un modelo estadístico.
La primera recomendación a tener en cuenta en la modelación empírica es:
1 Un modelo estadístico es sólo un conjunto de supuestos probabilísticos
compatibles (internamente) de las tres grandes categorías: (D), (M) y (H).
NOTA: a aquellos lectores bien informados que no están convencidos de
que este es ciertamente el caso, mencionamos de paso que los supuestos de
distribución son a veces indirectos, en forma de suavidad y existencia de
momentos condicionales; ver el capítulo 10.
El modelo estadístico elegido representa una descripción de un mecanismo
aleatorio tentativo con el cual el modelador intenta capturar la información
sistemática en los datos (los patrones de regularidad aleatoria). Un modelo
estadístico di…ere de otros tipos de modelos en la medida en que especi…ca una
situación, un mecanismo o un proceso en términos de una cierta estructura
probabilística, que será formalmente de…nida en los capítulos 2-4.
Conceptos matemáticos tales como distribución de probabilidad, indepen-
dencia y distribución idéntica constituyen formas de estructura probabilís-
tica. De hecho, el objetivo principal de la primera parte del libro es introducir
muchos conceptos adicionales que permiten al modelador especi…car una var-
iedad de formas de estructura probabilística, su…cientemente rica como para
capturar, esperemos que todo, patrón de regularidad aleatoria. El mod-
elo estadístico se especi…ca exclusivamente en términos de tales supuestos
probabilísticos diseñados para capturar la información sistemática en datos

observados.
Los ejemplos de lanzamiento de dados, discutidos anteriormente, son
importantes no por su interés intrínseco en la modelización empírica, sino
porque ellos representan ejemplos de un fenómeno estocástico simple que ju-
gará un papel importante en los próximos capítulos. El fenómeno estocástico
representado por los ejemplos anteriores se denomina genéricamente como un
experimento aleatorio y se utilizará en los próximos tres capítulos (2-4) para
motivar la estructura básica de la teoría de probabilidad. El fenómeno ob-
servable subyacente en los datos de la tasa de cambio gra…cados en la …gura
1.4 no se puede considerar como un experimento aleatorio y por lo tanto
tenemos que ampliar el marco de referencia probabilístico con el …n de ser
capaces de modelar tales fenómenos también; este es el tema de los capítulos
6-8.
En vista de la discusión anterior, la modelización empírica exitosa tiene
dos importantes dimensiones:
(a) reconocer los patrones de regularidad aleatoria exhibidos por los datos
observados y
(b) capturar estos patrones postulando modelos estadísticos apropiados.
La primera requiere de una habilidad por cuenta del modelador para
detectar estos patrones utilizando una variedad de técnicas grá…cas. De
hecho, es imposible sobreestimar la importancia de las técnicas grá…cas en
la modelización empírica. Esto nos lleva convenientemente a la segunda
recomendación en la modelización empírica:
2. Las técnicas grá…cas constituyen una herramienta indispensable en la
modelización empírica!
Si regresamos momentaneamente a los datos en la tabla 1.2, no hay duda
de que el lector tendrá di…cultades para reconocer los patrones de regularidad
aleatoria en el conjunto de datos. Un vistazo a las grá…cas de los datos en las
…guras 1.1 y 1.4 proporcionan una visión global de la estructura de ambos
conjuntos de datos que requieren más de mil palabras para describirlos. Esto
no hace sino con…rmar las capacidades naturales perceptivas y cognitivas del
cerebro humano; los seres humanos son capaces de reconocer, clasi…car y
recordar patrones visuales mucho más e…cientemente que los números o las
palabras. Capítulo 5 pone de mani…esto la interacción entre los patrones de
regularidad aleatoria y los conceptos probabilísticos utilizando una variedad
de representaciones grá…cas.
La captura de la información estadística sistemática en los datos pre-
supone un marco de referencia matemático lo su…cientemente rico como para

modelar cualquier patrón que se detecte. Es mediante la teoría de la prob-
abilidad que la regularidad aleatoria ha atraído la atención en conformidad.
En este sentido, la interacción entre la modelación y la teoría de la proba-
bilidad no es una calle de un sólo sentido. Por ejemplo, en fecha tan tardía
como el siglo 20 el patrón de dependencia era bastante nebuloso y como con-
secuencia, el concepto matemático correspondiente aún no era formalizado.
En vista de esto, hay buenas razones para creer que existen patrones de reg-
ularidad aleatoria que no podemos reconocer en la actualidad, pero que se
reconocerán en el futuro. A medida que más patrones son detectados, otros
supuestos probabilísticos serán concebidos con el …n de formalizarlos y así
enriquecer la teoría de la probabilidad como un marco de referencia para la
modelación. Debido a la importancia de la interacción entre patrones ob-
servables y conceptos probabilísticos formales, en la …gura 1.6 presentamos
esta relación de manera esquemática: los patrones de regularidad aleatoria
se formalizan bajo la forma de conceptos probabilisticos, estos, a su vez, se
clasi…can en la taxonomía básica y entonces se utilizan para postular modelos
estadísticos que (esperemos) capturen la información estadística sistemática;
no se escatimarán esfuerzos en relacionar los patrones de regularidad aleatoria
con los correspondientes conceptos probabilísticos a lo largo de este libro.
Figura 1.6 Patrones de regularidad aleatoria, supuestos probabilísticos y

modelo estadístico.
La variedad y alcance previsto de los modelos estadísticos es limitado
solamente por el alcance de la teoría de la probabilidad (como un marco
de referencia para la modelación) y la formación e imaginación del mode-
lador. No hay tal cosa como una lista completa de modelos estadísticos que
el modelador pone a prueba en alguna sucesión y elige el que parece el menos
objetable. Además, la modelación empírica no trata sobre la elección de es-
timadores óptimos (de algún menú preespeci…cado), es sobre la elección de
modelos estadísticos adecuados; modelos que son ideados por el modelador
en un intento por capturar la información sistemática en los datos. En la dis-
cusión de modelos estadísticos en los capítulos 2-8 se presta especial atención
a la relación entre los datos observados y la elección de modelos estadísticos.
Algunos de los temas abordados en los próximos capítulos son:
(a) ¿Qué entendemos por un modelo estadístico?
(b) ¿Por qué debería la información estadística ser codi…cada en un lenguaje
neutral de teoría?
(c) ¿Qué información utilizamos cuando elegimos un modelo estadístico?

(d) ¿Cuál es la relación entre el modelo estadístico y las características
de los datos?
(e) ¿Cómo reconocemos la información estadística sistemática en los datos
observados?
Concluimos esta sección haciendo hincapié en el hecho de que la informa-
ción estadística sistemática en los datos observados tiene que ser codi…cada
en un lenguaje que esté libre de conceptos de la teoría económica. La teoría
de la probabilidad ofrece dicho lenguaje neutral de teoría que se utilizará
exclusivamente en la especi…cación de modelos estadísticos. Como se mues-
tra en los capítulos 6-7, los modelos estadísticos como se especi…can en este
libro, no se basan en una teoría basada en formas funcionales entre las vari-
ables de interés; en lugar de ello se especi…can exclusivamente en términos
de relaciones estadísticas basadas en información puramente estadística. La
codi…cación de los modelos estadísticos exclusivamente en términos de infor-
mación estadística es de vital importancia debido a que uno de los principales
objetivos de la modelación empírica es la evaluación de la validez empírica de
las teorías económicas. Esta evaluación se puede considerar como una prueba
para la teoría bajo evaluación, con el modelo teórico como el principal testigo
de la defensa y los datos observados como el principal testigo del enjuiciador.
Para que los datos sean un testigo imparcial, ningún juez (modelador) debe
permitir preparar al principal testigo de cargo de la defensa antes del juicio!
La información estadística debe ser de…nida exclusivamente en términos de
conceptos que estén libres de cualquier connotación teórica-económica; sólo
entonces los datos observados pueden ser vistos como un testigo independi-
ente (y justo) de la acusación. La tercera recomendación en la modelación
empírica es:
3 No permita que los datos observados sean preparados a priori por la

teoría a ser evaluada.
El modelo estadístico es considerado inicialmente como un resumen con-

veniente de la información sistemática en los datos que existe independi-
entemente de cualquier teoría. La cuarta recomendación en la modelación
empírica es:
4 La especi…cación del modelo estadístico se rige principalmente por la
naturaleza y estructura de los datos observados.
1.3.1 Su…ciencia estadística

Como se ha dicho anteriormente, el éxito de la modelación empírica se juzga
por qué tan adecuadamente el modelo estadístico postulado captura la in-
formación estadística sistemática contenida en los datos. Un tema central
de este libro es el de la su…ciencia estadística y cómo se puede lograr en
la práctica, mediante la utilización de varios métodos incluyendo representa-
ciones grá…cas (véanse los capítulos 5-6) y pruebas de errores de especi…-
cación (ver capítulo 15). Sin un modelo estadístico adecuado, que capture la
información sistemática en los datos, ninguna inferencia estadística válida es
posible, independientemente de la so…sticación y / o la validez potencial de
la teoría!
La inferencia estadística es a menudo vista como el procedimiento in-
ductivo por excelencia: utilizando un conjunto de datos (especí…co) deducir
conclusiones sobre el fenómeno estocástico (general) que dio origen a los
datos (véase la grá…ca 1.7). Sin embargo, es a menudo insu…cientemente
reconocido que este procedimiento inductivo se incrusta en una premisa fun-
damentalmente deductiva. El procedimiento desde el modelo postulado (la
premisa) a los resultados de inferencia (estimación, pruebas de predicción,
simulación) es deductivo; no se utilizan datos para obtener resultados acerca
de la optimalidad de los estimadores, pruebas, etc; estimadores y pruebas son
declarados óptimos con base en un razonamiento puramente deductivo. El
componente deductivo del razonamiento de inferencia estadística signi…ca:
si se asumen ciertas premisas, ciertas conclusiones necesariamente

se siguen.
Más formalmente, si denotamos las premisas por p y las conclusiones por

q, entonces la forma anterior de razonamiento deductivo toma la forma de
modus ponens (a…rmando el antecedente):
si p entonces q.
Figura 1.7 Inferencia estadística.
En este sentido, la inferencia estadística depende fundamentalmente de

la validez de las premisas: la postulación de un modelo estadístico en el con-
texto del cual los datos observados se interpretan como una realización del
mecanismo estocástico postulado. Con base de esta premisa se procede a
obtener resultados estadísticos de inferencia usando deducción matemática.
Argumentos deductivos correctos muestran que si sus premisas son válidas,
sus conclusiones son válidas. Usando los datos observados en cuestión, el
modelador se basa en la validez de este argumento deductivo con el …n de
extraer conclusiones generales de inferencia a partir de datos especí…cos. Sin
embargo, si las premisas no son válidas las conclusiones son generalmente
injusti…cadas. En vista de esto, consideramos de suma importancia el prob-
lema de evaluar la validez del modelo estadístico postulado (probando errores
de especi…cación), especialmente en el caso de datos observados. La quinta
recomendación en la modelación empírica es:
5 Ningún resultado de inferencia estadística se debe utilizar para llegar a

conclusiones a menos que la su…ciencia estadística del modelo postulado se
haya establecido primero.
El primer paso y más crucial para garantizar la su…ciencia estadística

es que el modelador especi…que explícitamente los supuestos probabilísticos
que conforman el modelo postulado; sin un conjunto completo de supuestos

probabilísticos la noción de su…ciencia estadística no tiene ningún sentido
operativo. Por esta razón, los siguientes capítulos prestan especial atención al
problema de la especi…cación del modelo estadístico (modelos de probabilidad
y muestrales) en una extensión que puede parecer innecesaria en los libros
de texto de los econometristas tradicionales. Se destaca en esta etapa que
la notación, la terminología y las taxonomías diferentes introducidas en los
próximos cuatro capítulos desempeñan un papel importante para garantizar
que la naturaleza y estructura de los supuestos probabilísticos subyacentes
al modelo postulado se hagan explícitos y transparentes para el modelador.
Figura 1.8 Inferencia estadística con su…ciencia estadística.

En el contexto de la aproximación de reducción probabilística, las desvia-
ciones del modelo estadístico postulado son vistas como información sis-
temática en los datos que el modelo postulado no tiene en cuenta. El modelo
estadístico debe ser reespeci…cado con el …n de dar cuenta de la información
sistemática pasada por alto por el modelo postulado inicialmente. Por lo
tanto, el procedimiento en la …gura 1.7 se complementa con las etapas adi-
cionales de pruebas de errores de especi…cación y reespeci…cation. La …gura
1.8 muestra el procedimiento modi…cado con la idea de un modelo estadístico
adecuado que está entre el modelo estimado y la inferencia estadística. Como
se muestra en la …gura 1.8, llegar a un modelo estadístico adecuado implica
pruebas de errores de especi…cación y reespeci…cation.
1.4. ESTADÍSTICA FRENTE A TEORÍA DE LA INFORMACIÓN * 37
El concepto de su…ciencia estadística es particularmente importante para

la modelación empírica, ya que puede proporcionar la base para establecer
los hechos estilizados que la teoría económica requiere explicar. Una mirada
super…cial a los modelos econométricos empíricos de los últimos 50 años con-
vencerá, incluso al más ávido partidario del enfoque econométrico tradicional,
que no constituyen un programa de investigación progresiva, ya que no han
dado lugar a ninguna acumulation real de evidencia empírica. La separación
de los modelos estadísticos y teóricos y asegurando la su…ciencia estadística
del primero, ofrecerá una buen punto de partida para una estrategia de in-
vestigación progresiva donde regularidades empíricas sean establecidas por
modelos estadísticamente adecuados (hechos estilizados propiamente dichos)
y las teorías sean necesarias para explicarlos. Vale la pena reiterar que en
este libro la información estadística y la teórica se distinguen claramente con
el …n de evitar cualquier acusación de circularidad en la aplicación de esta
estrategia de investigación.
1.4 Estadística frente a teoría de la informa-

ción *
En un intento de proporcionar una visión más equilibrada de la modelación
empírica y evitar acusaciones precipitadas en nombre de los econometris-
tas tradicionales de que "el enfoque adoptado en este libro ignora la teoría
económica", en esta sección discutimos brevemente el papel de la teoría
económica en la modelación empírica (véase También Spanos (1986,1995 b)).
Los datos económicos están creciendo a un ritmo exponencial, pero al
mismo tiempo, cuando un modelador intenta dar respuestas a las preguntas
especí…cas él / ella a menudo encuentran que los datos particulares necesarios
para el análisis no existen en la forma requerida. Esto es sintomático de la
falta de una metodología econométrica adecuada que desempeñara un papel
de coordinación entre la teoría económica y los datos observados apropiados.
A menudo, existe una enorme brecha entre la teoría de los conceptos y la se-
rie de datos que suelen estar disponibles; los datos disponibles con frecuencia
suelen medir algo muy diferente. Como se ha dicho anteriormente, esta difer-
encia surge principalmente debido a las diferencias entre las circunstancias de
diseño experimental asumidas por la teoría económica, a través de la cláusula
ceteris paribus y la naturaleza observacional de los datos disponibles; el resul-
tado de un proceso continuo con numerosos factores que in‡uyen más allá del
potencial control del modelador. La sexta recomendación en la modelación
empírica de que hay que tener en cuenta es:
6 Nunca suponga que los datos disponibles miden el concepto de la teoría
que el modelador tiene en mente sólo porque los nombres son muy similares
(o incluso coinciden)!
Un ejemplo notable es el concepto teórico de demanda contra los datos que
con frecuencia suelen estar disponibles en forma de cantidades de transacción;
ver Spanos (1995b). Como resultado de esta brecha, la modelación empírica
a menudo trata de responder a cuestiones teóricas de interés mediante la
utilización de datos que no contienen esa información.
Como argumentamos en las tres secciones anteriores, la información es-
tadística sistemática está:
(a) relacionada con los patrones de regularidad aleatoria exhibidos por
los datos observados,
(b) de…nida exclusivamente en términos de conceptos probabilísticos y
(c) carece (inicialmente) de cualesquiera connotación de teoría económica.
La clara distinción entre la información estadística sistemática y teórica,
constituye uno de los pilares básicos de la metodología de modelación em-
pírica expuesta en este libro; véase también Spanos (1986, 1995b, en preparación).
Teoría y modelos estadísticos constituyen entidades distintas construidas so-
bre información distinta, el comportamiento de los agentes económicos y la
información estadística sistemática, respectivamente. Esto constituye una
condición necesaria para el modelo estadístico que se utiliza como un testigo
imparcial sobre la base de cuyo testimonio la su…ciencia empírica del modelo
teórico se puede evaluar.
La teoría in‡uye en la elección de un modelo estadístico apropiado de
dos maneras. En primer lugar, la teoría determina la elección de los datos
observados de interés. Si bien la elección de los datos observados es cargada
de teoría, una vez elegidos, los datos adquieren una existencia objetiva que
está libre de teoría. La única in‡uencia adicional que la teoría tiene en la
especi…cación del modelo estadístico es que este último debe ser lo su…ciente-
mente general para permitir que el modelador plantee cuestiones teóricas de
interés en su contexto. Por lo tanto, las pruebas de errores de especi…cación
y reespeci…cation, facetas de la modelación empírica, no tienen nada que ver
con el modelo teórico; ellas son puramente procedimientos estadísticos deter-
minados por la noción de información estadística. La séptima recomendación
en la modelación empírica es:
1.5. DATOS OBSERVADOS 39
7. Ninguna teoría, por muy so…sticada, puede rescatar un modelo

estadístico mal especi…cado
Como se ha dicho en el capítulo 7, el punto de vista estadístico y teórico

proporcionan ángulos de visión muy diferente para los propósitos de la mod-
elación. Estos ángulos de visión son complementarios, pero a menudo se
utilizan como sustitutos con graves consecuencias; véase Spanos (1997a).
Un modelo estadísticamente adecuado proporciona un buen resumen (de-
scripción) de información estadística sistemática en los datos, pero no con-
stituye el último objetivo de la modelación empírica. En última instancia,
el modelador quiere evaluar la teoría en términos de un modelo estadística-
mente adecuado, así como sintetizar los modelos estadísticos y teórico en un
intento de dar signi…cado económico a la teoría y capacidad explicativa al
modelo estadístico. Por lo tanto, la octava recomendación a tener en cuenta
en el modelación empírica es:
8. El éxito de la modelación empírica se evalúa por la habilidad con la que

el modelador puede sintetizar los modelos estadísticos y la teóricos, sin
cambios ya sea en la información teórica o estadística!
Con el …n de distinguir entre un modelo estadístico, construido exclu-

sivamente en términos de información estadística sistemática, y la síntesis
de la teoría y los modelos estadísticos llamamos al segundo un modelo
econométrico (véase Spanos (1986))
1.5 Datos observados

En esta sección vamos a intentar un análisis preliminar del elementos consti-
tutivo de la modelación empírica, los datos observados. Algunos aspectos de
los datos observados desempeñar un papel importante en la elección de los
modelos estadísticos.
1.5.1 Los primeros datos

Los datos numéricos han sido coleccionados por una razón u otra desde los al-
bores de la historia. Las primeras colecciones de datos, sin embargo, no eran
sistemáticas y la información recogida no estaba generalmente disponible.
La recopilación sistemática de datos económicos se pueden fechar en el siglo
17 como un subproducto de las actividades gubernamentales tales como im-

puestos, la recaudación de aduanas el gasto y la regulación, así como el deseo
de cuanti…car ciertos aspectos de la actividad gubernamental (véase Porter
(1995)). Por ejemplo, los primeros datos sobre la distribución del ingreso eran
simplemente un producto secundario de los datos …scales. Hacia el …nal del
siglo 19 censos especiales se llevaron a cabo por (en particular los EE.UU.)
gobiernos en los sectores agrícola y manufacturero con el …n de examinar las
cuestiones especí…cas de interés (ver Crist (1985)) Por lo tanto, no debería
ser una sorpresa encontrar que los datos utilizados en los primeros traba-
jos empíricos en la economía (a principios de siglo 20) eran en su mayoría
datos sobre las exportaciones, las importaciones, la producción y precio (ver
Stigler (1954, 1962)). Poco a poco, sin embargo, los gobiernos comenzaron a
apreciar el uso de estos datos en la evaluación de los resultados económicos,
así como proporcionar guías para la política económica, una realización que
llevó a la creación de agencias de recolección de datos tales como el Depar-
tamento de Estadística de la Junta de Comercio de Inglaterra. Además, la
formación de varias sociedades estadísticas en Europa a mediados del siglo
19, tales como las Sociedades de Estadística de Londres y Manchester y el
Congreso Internacional de Estadística, dio un nuevo impulso a esfuerzos más
sistemáticos para reunir y publicar datos que también fueron comparables
entre los países.
1.5.2 Datos económicos

En relación a los datos económicos, cabe destacar el papel crucial que desem-
peñan tres pioneros dando un impulso adicional para más y mejores datos
económicos en el siglo 20, Mitchell en la medición de los ciclos económicos,
Kuznets en la creación de cuentas nacionales y Leontief en la aplicación
práctica de las tablas de insumo-producto. Estos primeros esfuerzos han
dado lugar a miles de millones de series de datos económicos en la segunda
mitad del siglo 20, que están actualmente recogidos a diario por los gob-
iernos y otros organismos, en todo el mundo. Solo la Unión Europea está
produciendo montañas de volúmenes que contienen datos económicos que al
parecer (sobre la base de testimonios de oídas) nadie tiene el tiempo para
utilizarlos, por el momento!
En la mayoría de las ciencias, tales como la física, la química, la geología
y la biología, los datos observados suelen ser generados por los propios mod-
eladoras en experimentos bien diseñados. En econometría el modelador es a
menudo enfrentado a datos observacionales en comparación con los datos ex-

perimentales. Esto tiene dos implicaciones importantes para la modelación
empírica en la econometría. En primer lugar, el modelador debe dominar
habilidades muy diferentes a las necesarias para analizar datos experimen-
tales; el tema importante de este libro. En segundo lugar, la separación de
los colectores de datos y el analista de datos requiere que el modelador se
familiarice en sí mismo a fondo con la naturaleza y la estructura de los datos
en cuestión.
Junto con la explosión antes mencionada de la colección de datos obser-
vacionales creció la demanda para analizar estas series de datos con miras a
una mejor comprensión de los fenómenos económicos como la in‡ación, el de-
sempleo, las ‡uctuaciones del tipo de cambio y el ciclo económico, así como
la mejora de nuestra capacidad para pronosticar la actividad económica .
Un primer paso hacia la consecución de estos objetivos es conocer los datos
disponibles, asegurando que el modelador está bien versado en las respuestas
a preguntas tales como:
(i) ¿Cómo se recopilaron los datos?
(ii) ¿Cuál es el sujeto de la medición?
(iii) ¿Cuáles son las unidades de medida y la escala?
(iv) ¿Cuál es el período de medición?
(v) ¿Qué es exactamente lo que miden los números?
(vi) ¿Cuál es la conexión entre los datos y los conceptos teóricos corre-
spondientes?
Por lo tanto, la novena recomendación a tener en cuenta en la modelación
empírica es:
9 Conocer las dimensiones importantes de sus datos a fondo!
1.5.3 Datos observados y naturaleza de un modelo es-

tadístico
Un conjunto de datos que comprende n observaciones se denota por {x1 ; x2 ; :::; xn }
o más compactamente:
fxk ; k = 1; 2; 3; :::; ng
NOTA: es fundamental enfatizar el valor del simbolismo matemático en
lo que sigue. Es imposible exagerar el poder y la importancia de los sím-
bolos matemáticos cuando se está discutiendo la teoría de probabilidad. La
claridad y la concisión que este simbolismo introduce a la discusión es indis-

pensable.
Se acostumbra clasi…car los datos económicos de acuerdo a la dimensión
(índice) de la observación en dos categorías principales:
(i) Sección transversal: fxk ; k = 1; 2; 3; :::; ng, k indica individuos (em-
presas, estados, etc),
(iii) series de tiempo: fxt ; t = 1; 2; 3; :::; T g, t indica tiempo (semanas,
meses, años, etc.)
Por ejemplo, los datos observados del consumo podrían hacer referencia al
consumo de los distintos hogares en el mismo punto en el tiempo o al consumo
agregado (gastos de los consumidores) a través del tiempo. Los primeros
constituyen datos de sección transversal, los segundos datos de series de
tiempo. Mediante la combinación de estos dos, por ejemplo, observando el
consumo de los mismos hogares a través del tiempo, podemos de…nir una
tercera categoría:
(iii) Panel (longitudinal): fxk ; k := (k; t) , k = 1; 2; 3; :::; n, t = 1; 2; :::; T g,
donde k y t representan individuos y tiempo, respectivamente.
Note que en esta categoría el índice k es de dos dimensiones, pero xk es
unidimensional.
A primera vista, las dos categorías principales no parecen diferir sustan-
cialmente debido a que los conjuntos índice parecen idénticos; los conjuntos
índice son subconjuntos del conjunto de los números naturales. Una re‡exión
momentánea, sin embargo, revela que hay más de un conjunto índice de lo
que parece. En el caso de que el conjunto índice Z := f1; 2; :::; ng se re…era
a los hogares particulares, el índice respresenta los nombres de los hogares,
por ejemplo:
{Jones, Brown, Smith, Richard, . . . }. (1:1)
En el caso de series de tiempo el índice T := f1; 2; :::; T g se re…ere a fechas

particulares, por ejemplo:
f1952; 1953; :::; 1997g (1:2)
Al comparar los dos conjuntos índice observamos de inmediato que tienen

una estructura matemática muy diferente. La diferencia más evidente es que
el conjunto (1; 1) no tiene un ordenamiento natural, si ponemos Brown antes
que Smith no tiene importancia, pero en el caso del conjunto índice (1; 2) el
orden es una propiedad fundamental del conjunto.
En el ejemplo anterior, los dos conjuntos índice parecen idénticos, pero

resultan ser muy diferentes. Esta diferencia hace que los dos conjuntos de
datos sean cualitativamente diferentes en la medida en que el análisis estadís-
tico de un conjunto de datos será claramente diferente de la de los otros. La
razón de esto se pondrán de mani…esto en capítulos posteriores. En esta
etapa, basta con señalar que una serie de conceptos tales como dependencia
y heterogeneidad (mencionados anteriormente) están íntimamente ligados a
la ordenación del conjunto índice.
La estructura matemática del conjunto índice (por ejemplo, la presencia
o ausencia de un ordenamiento) no es el único criterio para la clasi…cación
de conjuntos de datos diferentes. La estructura matemática del rango de
valores de las observaciones constituye otro de los criterios más importantes.
Por ejemplo la serie de datos sobre el "número de niños" en las diferentes
familias puede tomar valores en un conjunto de la forma: f0; 1; 2; :::; 100g
Suponemos que hay un límite superior que elegimos sea 100. Se trata de
un conjunto de valores discretos que tiene una estructura matemática muy
diferente del conjunto de los valores de la variable consumo que toma valores
sobre la recta real positiva:
R+ = (0; 1)
Otra variable que es diferente de estas dos consumo y número de niños en

términos de su rango de valores es la religión (cristiana, musulmana, budista)
que no puede ser tratada de la misma manera que los datos sobre el consumo
o el número de niños porque no hay manera natural para medir la religión en
términos numéricos. Incluso si estamos de acuerdo en una escala de medición
de la religión, por ejemplo f 1; 0; 1g, el orden es irrelevante y la diferencia
entre estas cifras no tiene sentido. Por el contrario, estas dos dimensiones
son signi…cativas en el caso de los datos de consumo y el número de niños.
La discusión anterior plantea cuestiones importantes en relación con la
medición de los datos observados. La primera es si los valores numéricos
se pueden considerar como valores de un cierto intervalo de la recta real,
por ejemplo [0; 1] o que representan un conjunto de valores discretos, por
ejemplo f0; 1; 2; 3; 4; 5; 6; 7; 8; 9g. La segunda es si estos valores tienen un
orden natural o no.
Reuniendo estos comentarios podemos ver que la taxonomía que clasi…ca
los datos en sección transversal y series de tiempo es insu…ciente porque hay
algunas clasi…caciones más que no se tienen en cuenta. Estas clasi…caciones
son importantes desde el punto de vista de la modelación porque hacen una

diferencia en la medida en que las técnicas estadísticas aplicables se re…ere.
En su formulación abstracta un conjunto de datos toma la forma:
fxk ; k 2 N; xk 2 Rx g
donde N es el conjunto índice y Rx representa el rango de valores de x
: NOTE que ambos conjuntos N y Rx son subconjuntos de la recta real,
denotadoapor R:= ( 1; 1). Dependiendo de la estructura matemática de
estos dos conjuntos diferentes clasi…caciones surgen. De hecho, la estructura
matemática de los conjuntos N y Rx juega un papel muy importante en la
elección del modelo estadístico (véanse las secciones 3-5).
En cuanto al rango de valores de los datos, Rx puede ser un subconjunto
discreto de R, tal como Rx = f0; 1; 2; :::g o un subconjunto continuo de R
tal como Rx := [0; 1). En los casos en que la variable X se puede pensar
como tomando sólo un número numerable de valores, R es considerado como
discreto, en otro caso la variable X se considera continua. En econometría,
variables como el consumo, la inversión, el ahorro y la in‡ación se consid-
eran continuas, pero las variables como el número de hijos, estado civil y una
serie de variables de elección, son vistas como discretas. La misma clasi…-
cación discreta-continua también se puede aplicar al conjunto índice N lo que
conduce a una cuarta forma de clasi…cación de las variables y los datos cor-
respondientes. Como se muestra en los capítulos 3-4, la naturaleza de ambos
conjuntos, N (el índice de conjunto) y Rx (el rango de valores de los valores
numéricos de los datos) desempeña un papel importante en la determinación
de la forma y estructura del modelo estadístico postulado para describir el
fenómeno observable de interés.
1.5.4 Escalas de medición

Una dimensión muy importante de los datos observados es la escala de
medición de las series de datos individuales. En esta subsección discuti-
mos esta importante dimensión y planteamos algunas de las cuestiones rela-
cionadas con la modelación de datos medidos a diferentes escalas.
El número de clasi…caciones introducido anteriormente aumenta consid-
erablemente al darse cuenta que la dicotomía discreto-continuo se puede
clasi…car más de acuerdo con la escala de medición otorgada al conjunto
en cuestión. Las escalas de medición se clasi…can tradicionalmente en cuatro
grandes categorías.
Escala de razón. Variables en esta categoría disfrutan de la más rica

estructura matemática en su rango de valores, donde, para cualesquiera dos
valores a lo largo de la escala, por ejemplo x1 y x2 :
(a) la relación (x1 =x2 ) es una cantidad signi…cativa (existe un origen nat-
ural para el sistema de medida),
(b) la distancia (x2 x1 ) es una cantidad signi…cativa, y
(c) existe un ordenamiento natural (ascendente o descendente) de los
valores a lo largo de
la escala; las comparaciones: x2 ? x1 tienen sentido.
Variables económicas como consumo e in‡ación pertenecen a esta cate-
goría. Para cualesquiera dos valores, x1 y x2 de una variables en esta categoría
es importante hacer la pregunta:
¿cuántas veces x1 es mayor que x2 ?
Escala de intervalo Una variable se dice que es una variable de intervalo
si su sistema de medición es dado por (b)-(c), pero no por (a), por ejemplo,
la temperatura, la presión arterial sistólica. Para cualquiera dos valores x1 y
x2 de una variable en esta categoría tiene sentido la pregunta:
¿Qué tanto x1 y x2 son diferentes?
Ejemplo
El conjunto índice (1:2) se mide en esta escala porque la distancia (1970
1975
1965) es una magnitud signi…cativa, pero la razón 1960 no lo es.
Escala ordinal. Una variable pertenece a esta categoría si es dada
sólo con (c), por ejemplo, cali…cación (excelente, muy bueno, bueno, no
aprobado), nivel de ingresos (alto, medio, bajo). Para tales variables el or-
denamiento existe, pero la distancia entre categorías no es signi…cativamente
cuanti…cable. Para cualesquiera dos valores x1 y x2 de una variable en esta
categoría tiene sentido la pregunta:
¿ x1 es mayor o menor que x2 ?
Escala nominal. Una variables se dice que es nominal si su sistema de
medición no ha sido bendecido con ninguna de las anteriores. Estas vari-
ables representan categorías que no tienen ni siquiera un orden natural, por
ejemplo, estado civil (casado, soltero, divorciado, separado), género (mas-
culino, femenino, otro), situación laboral (empleados, desempledos, orto).
Debido a la naturaleza de tales variables el modelador debe tener cuidado en
la atribución de valores numéricos para evitar inferencias equivocadas. Para
cualesquiera de los dos valores x1 y x2 de una variable en esta categoría la
única cuestión que tiene sentido preguntar es:
¿Es x1 diferente de x2 ?
Las anteriores escalas de medición han sido considerados en una jerarquía
descendente de la más alta (razón, la más rica en estructura matemática) a
la más baja (nominal). Es importante señalar que los conceptos y métodos
estadísticos diseñados para una categoría de variables no se aplican necesari-
amente a las variables de otras categorías (véase el capítulo 6). Por ejemplo,
la media, la varianza y covarianza (los componentes básicos del análisis de
regresión) no tienen sentido en el caso de variables ordinales y nominales, la
mediana tiene sentido en el caso de las variables ordinales, pero no en el caso
de las nominales. En este último caso la única medida de la localización que
tiene un signi…cado es la moda. La única regla general para los métodos de
análisis de diferentes variables con escalas de medición, que se puede a…rmar
en este momento es que un método apropiado para una escala de medida de-
terminada en la jerarquía es también apropiado para escalas más altas, pero
no para las más bajas. Hay varios libros que discuten los métodos de análisis
de los llamados datos categóricos: datos medidos en la escala nominal u
ordinal (ver Bishop, Fienberg y Holland (1975), Agresti (1990), entre otras
cosas).
TERMINOLOGÍA. Es importante señalar que en la literatura estadística
hay una confusión generalizada entre las escalas de medición y tres clasi…ca-
ciones diferentes: variables discretas / continuas, cualitativas / cuantitativas
y no categóricas - categóricas. Las variables discretas se pueden medir en las
cuatro escalas y las variables continuas en ocasiones pueden ser agrupadas en
un pequeño número de categorías. Las variables categóricas son las únicas
variables que pueden medirse ya sea en la escala ordinal o en la nominal pero
la categoría de variables cualitativas confusa. En algunos libros las variables
cualitativas son sólo las que se miden en la escala nominal, pero en otros
también se incluyen las variables ordinales.
Escalas de medición y conjunto índice. Los ejemplos de escalas de
medición utilizados en la discusión anterior se re…eren exclusivamente al con-
junto Rx : el rango de valores de una variable X. Sin embargo, la discusión
también es relevante para el conjunto índice N. En el caso de la variable
consumo de los hogares discutida anteriormente, el conjunto índice (1:1) se
mide en una escala nominal. Por otra parte, en el caso de los gastos de los
consumidores el conjunto índice (1:2) se mide en la escala de intervalo. Esto
se debe a que la dimensión temporal no tiene un origen natural (cero es por
convención) y en el análisis estadístico el conjunto índice (1:2) a menudo se
sustituye por un conjunto de la forma T := f1; 2; :::; T g. Tomemos nota de
que la categorización serie de tiempo / sección transversal, se basa exclu-

sivamente en la escala de medición del conjunto índice. El conjunto índice
de series de tiempo es de escala de intervalo y el de sección transversal de
escala nominal. También hay casos en los que el conjunto índice pueden ser
una razón o una escala ordinal. Por ejemplo, hay datos producidos por un
sismógrafo con un conjunto índice continuoT R+ .
La naturaleza del conjunto índice juega un papel importante en la mod-
elación empírica, como se verá en la secuela. En vista del hecho de que,
además de la dicotomía discreto/continuo tenemos cuatro escalas de medida
diferente para el rango de valores de la propia variable y otros cuatro para el
conjunto de índices, una desconcertante variedad de tipos de datos pueden
ser de…nida. Nuestro interés está en aquellos tipos que afectan la clase de
métodos estadísticos que se pueden aplicar a los datos en cuestión. Un vistaso
super…cial a la literatura de econometría aplicada revela que las variables con
muy distintas escalas de medición están involucrados en la misma ecuación
de regresión (véase el capítulo 7), haciendo que algunos de estos resultados
sean sospechosos. Como se ha dicho en el capítulo 3, los conceptos de media,
varianza y covarianza (la materia prima de la regresión) no tienen sentido
para variables ordinales o nominales.
Figura 1.9 Datos de puntuaciones del examen (en orden alfabético).

1.5.5 ¿Sección transversal contra series de tiempo, es

éste el problema?
En conclusión es importante regresar a la taxonomía tradicional sección
transversal/serie de tiempo para advertir al lector contra la adopción de
aforismos de la forma dependencia y/o heterogeneidad son irrelevantes para
los datos de corte transversal. Lo que es importante para considerar la de-
pendencia y / o heterogeneidad no es si los datos son de sección transversal o
de series de tiempo, sino si los datos están ordenados o no. Es cierto que para
los datos de series de tiempo hay un ordenamiento natural (el tiempo), pero
eso no signi…ca que los datos de sección transversal no tienen ordenamientos
naturales como el espacial o alguna otra dimensión de interés. Una vez que
el ordenamiento es adoptado las nociones de dependencia y heterogeneidad
llegan a ser tan relevante en sección transversal como lo son para series de
tiempo.
Ejemplo
Consideremos el caso de los datos que …guran en la tabla 1.6. Los datos
se re…eren a los resultados de los exámenes de una clase tomando un examen
de opción múltiple sobre los Principios de Economía en 1992 y se presentan
según el orden alfabético de los nombres de los estudiantes. Los datos son
gra…cados en la …gura 1.9, con los resultados medidos en el eje vertical y los
estudiantes por orden alfabético en el eje horizontal. Este orden no parece
muy interesante porque no hay
Figura 1.10 Datos de las puntuaciones del examen (orden de asiento).
razones para creer que existe una relación entre las puntuaciones y el
orden alfabético de los nombres de los estudiantes; sólo para estar seguros
se podría evaluar esta conjetura mediante la comparación de esta grá…ca
de tiempo con la que se muestra en la …gura 1.1. Por otro lado, ordenar
las observaciones de acuerdo a la disposición con que se sientan durante el
examen, como se muestra en la …gura 1.10, parece ser más interesante en el
sentido de que podría arrojar información interesante. De hecho, observando
la …gura 1.10, podemos ver una representación grá…ca bastante diferente.
Los altibajos de la última grá…ca son un poco más ordenados que los de
la …gura 1.9; ellos muestran algún tipo de comportamiento cíclico. Como se
explica en el capítulo 5, este patrón de ciclos no idénticos revela que los datos
muestran algún tipo de dependencia positiva entre el examen y el lugar donde
se sientan. En inglés franco, esto signi…ca que hubo una gran cantidad de
trampas que tuvieron lugar en el salón durante el examen! Como resultado
del análisis estadístico de los datos como se ordenan en la …gura 1.10 (véanse
los capítulos 5 y 15) fue el último examen de opción múltiple aplicado por el
autor.
Tabla 1.6. Datos de las puntuaciones del examen de Principios de Economía
98.0 43.0 77.0 51.0 93.0 85.0 76.0 56.0 59.0 62.0
67.0 79.0 66.0 98.0 57.0 80.0 73.0 68.0 71.0 74.0
83.0 75.0 70.0 76.0 56.0 84.0 80.0 53.0 70.0 67.0
100.0 78.0 65.0 77.0 88.0 81.0 66.0 72.0 65.0 58.0
45.0 63.0 57.0 87.0 51.0 40.0 70.0 56.0 75.0 92.0
73.0 59.0 81.0 85.0 62.0 93.0 84.0 68.0 76.0 62.0
65.0 84.0 59.0 60.0 76.0 81.0 69.0 95.0 66.0 87.0
La moraleja de esta historia es que aunque no hay orden natural para los
datos de sección transversal, puede haber muchas dimensiones interesantes
con respecto a las que se pueden ordenar. La décima recomendación en la
modelación empírica es:
10 las clasi…caciones de los datos, por sí mismas, no determinan la forma
y la estructura probabilística del modelo estadístico adecuado.
Como argumentamos antes, los modelos estadísticos toman en cuenta
una variedad de diferentes dimensiones y características de los datos. La
clasi…cación de los modelos de acuerdo a la clasi…cación de datos basada en
una sola de tales dimensiones, es miope.
1.5.6 Limitaciones de los datos económicos

En relación con las limitaciones de los datos económicos vamos a considerar
dos cuestiones importantes:
(i) su precisión y
(ii) su naturaleza.
Un hito importante en el uso de los datos económicos para el estudio de
los fenómenos económicos ha sido la publicación de un libro de Morgenstern
(1963), intitulado On the accuracy of economic observations, publicado por
primera vez en 1950. En este libro el autor discute la precisión de los datos
económicos publicados y cuestiona lo adecuado de estos datos para los …nes
acostumbrados. Este libro in‡uyó en la formación de la actitud de los prac-
ticantes hacia los datos económicos como lo describe abajo Griliches (1984,
ambas citas, p. 1466):
"Econometricians have an ambivalent attitude towards economic data.
At one level, the “data” are the world that we want to explain, the basic
facts that economists purport to elucidate. At the other level, they are the
source of all our trouble. Their imperfection makes our job di¢ cult and often
impossible. Many a question remains unresolved because of “multicollinear-
ity”or other sins of the data. . . "
La visión de Griliches es que los econometristas no deben quejarse de la
calidad de sus datos, ya que es exactamente esta calidad lo que justi…ca su
legitimidad:
"si los datos fueran perfectos, obtenidos de experimentos aleatorios bien
diseñados, habría apenas espacio para un campo independiente de la econometría
..."
Aunque este es claramente un punto de vista extremo hay algo de ver-
dad en el, en la medida en que los datos disponibles en la econometría rara
vez recogidos de experimentos aleatorios bien diseñados. Por lo tanto, la
necesidad de diferentes técnicas estadísticas y procedimientos surge debido a
la naturaleza de los datos disponibles y no de su mala calidad. La principal
limitación de los datos económicos disponibles surge del hecho de que existe
una brecha considerable entre los modelos teóricos y los datos disponibles.
La teoría económica, a través de la cláusula ceteris paribus, supone un sis-
tema casi aislado, pero los datos observados son el resultado de un proceso
continuo y multidimensional con numerosos factores que in‡uyen más allá
del control del modelador (véase Spanos, 1956).
La precisión de los datos económicos ha mejorado sustancialmente desde
Morgenstern (1963) y en algunos sectores, como el …nanciero, los datos suelen

ser muy precisos. Series de tiempo sobre tipos de cambio y precios de acciones
son tan precisos como los datos económicos se pueden obtener. En este libro
no suscribimos la idea de que cuando el análisis de los datos no dan lugar a
los resultados esperados (en base a una idea preconcebida determinada), la
calidad de los datos es el culpable. Esto es lo mismo que un mal carpintero
culpando a sus herramientas.
En los casos en que la precisión de los datos es problemática, el modelador

debe tener en cuenta que no hay procedimiento estadístico que pueda extraer
información de los datos observados cuando éstos no están en primer lugar.
La recomendación undécima en la modelación empírica es:
11 No hay argumento estadístico, por muy so…sticado, que puede salvar

la mala calidad de los datos observados.
En lo que sigue asumimos que el modelador ha comprobado los datos

observados y los considera lo su…cientemente precisos para ser considera-
dos …ables para los propósitos de inferencia estadística. Como una regla,
no consideramos resultados de mala inferencia (juzgados contra algún pre-
juicio concebido a priori) como un síntoma de la mala calidad de los datos.
Muchas veces la calidad de los datos son utilizados como una excusa para el
conocimiento del modelador ascético de la naturaleza de los datos observados
y la mente super…cial a menudo desplegada al relacionar un modelo teórico
con los datos observados en cuestión (véase Spanos (1995b)). Por lo tanto,
la última recomendación en la modelación empírica es:
12 Familiarícese completamente con la naturaleza y la precisión de sus

datos.
Esto hará al modelador consciente de qué preguntas pueden y no pueden

ser planteadas a un conjunto particular de datos.
En conclusión, el autor no tiene ilusiones con respecto a la aceptabilidad

de las anteriores recomendaciones. En esta etapa, la única posición reivindi-
cada para estas recomendaciones son los prejuicios del autor en la modelación
empírica. Como mencionamos en el prefacio, la discusión en el resto de este
libro pretende transformar estos prejuicios en la tesis, sustentadas con argu-
mentos convincentes.
1.6 Mirando hacia adelante

El principal objetivo de los próximos tres capítulos (2-4) es motivar y crear
la forma por excelencia de un modelo estadístico que llamamos un modelo
estadístico simple. La motivación está en la presentación del último como
una formalización de un fenómeno estocástico simple que genéricamente lla-
mamo un experimento aleatorio. La formalización introduce los conceptos
probabilísticos necesarios que luego son mezclados para construir la forma
genérica de un modelo estadístico simple. La interacción entre los patrones
de regularidad aleatoria y los conceptos probabilísticos de…niendo un modelo
estadístico simple se lleva a cabo en el capítulo 5, utilizando una variedad de
técnicas grá…cas. El objetivo principal del capítulo 6 es extender el modelo
estadístico simple en las direcciones que permiten al modelador para cap-
turar diversas formas de dependencia, incluidas las expuestas en los datos de
la tasa de cambio en la …gura 1.4. El capítulo 7 continúa el tema del capítulo
6 con el …n de mostrar que la clave para la modelación de la dependencia de
datos observacionales es la noción de condicionamiento.
Esto nos lleva naturalmente a los modelos de regresión y relacionados. La
extensión del modelo estadístico simple en direcciones que permiten el mode-
lador capturar diversas formas de dependencia y heterogeneidad se completa
en el capítulo 8. En pocas palabras, el objetivo básico de los capítulos 2-8
es introducir el marco de referencia de la teoría de probabilidad necesario en
el contexto en el que tales conceptos probabilísticos pueden ser de…nidos y
relacionados con los patrones observables exhibidos por las observaciones a
partir de un fenómeno estocástico.
1.7 Ejercicios
1 ¿Cómo decidimos que los fenómenos económicos de interés son susceptibles
de modelación empírica?
2 Explique intuitivamente la noción de regularidad aleatoria.
3 Explique brevemente la conexión entre los patrones de regularidad
aleatoria y los conceptos de la teoría de la probabilidad.
4 Explique brevemente la conexión entre los patrones de regularidad
aleatoria y los modelos estadísticos.
5 Explique la relación entre un histograma y una distribución de proba-
bilidad con la paradoja de De Mere.
1.7. EJERCICIOS 53
6 Explique por qué es importante que la información estadística se resuma

exclusivamente en términos de conceptos probabilísticos.
7 ¿Bajo qué circunstancias puede el modelador pretender que los datos
observados constituyen evidencia sin prejuicios en la evaluación de la su…-
ciencia empírica de una teoría?
8 Explique el concepto de su…ciencia estadística y discuta su importancia
para la inferencia estadística.
9 "La inferencia estadística es un híbrido de un procedimiento deductivo
e inductivo." Debate.
10 Compare y contraste las diferentes escalas de medición de los datos
observados.
11 De cuatro ejemplos de variables medidas en cada una de las diferentes
escalas, más allá de las dadas en la discusión anterior.
12 ¿Por qué nos preocupamos por las escalas de medición en la modelación
empírica?
13 Más allá de las escalas de medida cuáles características de los datos
observados son de interés desde el punto de vista de modelación empírica?
14 Compare y contraste datos de series de tiempo, de sección transversal
y de panel.
15 Explique cómo las distintas características de los datos observados se
pueden formalizar en el contexto de expresar una serie de datos en la forma
de:
fxk ; xk 2 Rx , k 2 Ng
Sugerencia: explique el papel y el signi…cado de la estructura matemática

de los conjuntos (Rx ; N).
16 "En la modelación de datos de sección transversal no se puede hablar
de dependencia." Discuta.
Capítulo 2
Teoría de probabilidad: un
marco de referencia para la
modelación
2.1 Introducción
2.1.1 Objetivo principal
Objetivo: estructurar la teoría de la probabilidad para modelar fenómenos
estocásticos observables (experimentos aleatorios) que exhiben regulari-
dad aleatoria. Se modela utilizando un modelo estadístico (ME).
Se inicia informalmente, se concluye en el capítulo cuatro con un ME que
es la forma matemática de un experimento aleatorio.
2.2 Modelo estadístico simple: una visión in-

formal
2.2.1 La estructura básica de un modelo estadístico
simple
El modelo estadístico simple (paramétrico)1 tiene dos componentes in-
terrelacionados:
1
Aludido primero por Fisher (1922).
55
56CAPÍTULO 2. TEORÍA DE PROBABILIDAD: UN MARCO DE REFERENCIA PARA LA
[i] modelo de probabilidad: = ff (x; ) ; 2 ; x 2 Rx g

[ii] modelo muestral: X (X1 ; X2 ; :::; Xn ) es una muestra aleatoria
El modelo de probabilidad determina una familia de densidades (f (x; ) ; 2 ),

de…nida en el rango de valores de (Rx ) de la v.a. X: Es decir, una función
de densidad para cada valor del parámetro 2 .
Un ejemplo del concepto de modelo de probabilidad se ve en la gra…ca
de algunos miembros de la familia de densidades Gamma de un parámetro
cuya forma explicita es:
1
x
= f (x; ) = R1 exp f xg ; 2 ; x 2 R+ ,
( )= u 1 exp f ug du
0
R+ y Rx R+ . Cada curva es una función de densidad variando en

al rango de la v.a. X : (0; 14) R+ , para un valor especí…co del parámetro
.
Enseguida se analizan algunos conceptos utilizados en la ilustración an-
terior.
2.2.2 El concepto de variable aleatoria: visión informal

La visión simple de v.a. es propuesta primero por Chebyshev (1812-1884):
es ”una variable real que puede tomar distintos valores con distintas proba-
bilidades”. Aunque cercana a la de…nición moderna de v.a., es poco deseable
matemáticamente. Como se verá en el capítulo tres, una v.a. es una función
X(:) : S !R (asigna números a resultados). La necesidad de de…nir tal fun-
ción surge porque el conjunto de resultados de ciertos fenómenos estocásticos
no siempre toman la forma de números pero los datos si. La visión simple
de v.a., para simpli…car el concepto, suprime al conjunto de resultados e
identi…ca la v.a. con su rango de valores, de aquí el término variable.
Ejemplo.
”Lanzar dos dados y sumar sus caras”. Resultan 62 = 36 combinaciones
de caras (no de números), denotadas, por ejemplo: fs1 ; s2 ; :::; s36 g : Se evitan
muchas aristas del problema procediendo directamente a contar el número
de puntos que aparecen en las caras. En algún sentido esta es la de…nición
de v.a.: X(:) : S !RX ; RX R :
2.2. MODELO ESTADÍSTICO SIMPLE: UNA VISIÓN INFORMAL 57
X(:) : fs1 ; s2 ; :::; s36 g ! f2; 3; :::; 12g :

Sin embargo, no es la única función posible. Se puede de…nir otra función
que mapea las sumas pares al cero y las impares al uno:
Y (:) : fs1 ; s2 ; :::; s36 g ! f0; 1g :

Este ejemplo sugiere que suprimir el conjunto de resultados e identi…car
la v.a. con su rango puede ser erróneo.
Respecto a la aleatoriedad de la v.a., para tratar de distinguir entre v.a.
y variable matemática, la visión simple procede a asociar probabilidades a
su rango de valores.
Ejemplo.
En ejemplo anterior, se de…nieron dos v.a. que la visión simple identi…ca
con sus rangos:
X con f2; 3; :::; 12g y Y con f0; 1g :

En el caso de las v.a.X y Y , la asociación de sus valores con sus proba-
bilidades toma la forma:
x 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 5 4 3 2 1
f (x) 36 36 36 36 36 36 36 36 36 36 36
y
y 0 1
1 1
f (y) 2 2
Notar que la función de densidad es:
P (X = x) = f (x); 8x 2 RX
y cumple
X
(a) fX (x) 0; 8x 2 RX ; (b) xi2RX fX (xi ) = 1:
Por (b), la suma de las probabilidades de los valores de la v.a. es uno.

La función de densidad distribuye una unidad de masa (probabilidad) a lo
largo del rango de los valores de la variable aleatoria X:
Variables aleatorias continuas

Si X y Y satisfacen la de…nición de v.a. de Chebyshev (cada valor de la
variable aleatoria tiene asociada una probabilidad), es porque el rango de
esas variables es numerable (discreto). Cuando una v.a. tiene rango no
numerable de valores (toma valores en un intervalo) no se puede asignar a
cada valor de la v.a. una probabilidad. Las probabilidades se asignan usando
intervalos que pertenecen a este rango de valores. La función de densidad
para variables aleatorias continuas se de…ne en intervalos como sigue:
P (x X x + dx) = f (x) dx; 8x 2 Rx

y satisface las propiedades:
Z
(a) fX (x) 0; 8x 2 Rx ; (b) fx dx = 1:
x2Rx
Notar que la función de densidad de v.a.c toma valores en el intervalo

[0; 1) por lo cual estos valores no se pueden intepretar como probabilidades.
En contraste, las funciones de densidad de v.a.d. toman valores en el intervalo
[0; 1] :
2.2.3 Funciones de densidad paramétricas

Las densidades de las v.a. X y Y anteriores no involucran parámetros de-
sconocidos porque las probabilidades se conocen (debido a que los dados son
simétricos y que cada cara aparece con la misma probabilidad). Cuando
los dados están ”cargados”las densidades cambiarán porque ellas compren-
derán a parámetros desconocidos. Por ejemplo, asumiendo que P (Y = 1) =
(un parámetro desconocido), 0 1; la función de densidad para Y ahora
toma la forma:
y 0 1 y 0 1
1 1 !
f (y) 2 2
f (y; ) 1
que se puede escribir como
f (y; ) = y
(1 )1 y
; 2 [0; 1] ; y = 0; 1:
que es la densidad Bernoulli, con [0; 1] y Ry = f0; 1g :
2.2. MODELO ESTADÍSTICO SIMPLE: UNA VISIÓN INFORMAL 59
Bernoulli (s. XVIII) sugiere la distribución paramétrica binomial con

función de densidad:
n
f (x; ) = x
(1 )1 x
; 2 [0; 1] ; x = 0; 1; n = 1; 2; :::;
x
n
donde = (n n!x)!x! ; n! = n (n 1) (n 2) (3) (2) (1) :
x
de Moivre y Laplace (s. XIX) incorporan la distribución normal con
densidad:
1 1
f (x; ) = p exp 2
(x )2 ; = ; 2
2 R R+ ; x 2 R:
2 2
Pero en realidad el interés por las densidades paramétricas inicia con

Pearson (1895) cuya familia de distribuciones (familia Pearson) es generada
resolviendo la ecuación diferencial:
df (x) (x 0)
= f (x) 2
; x 2 Rx :
dx 1 + 2x + 3x
Según los valores de los parámetros 0 ; 1 ; 2 y 3 ; esta ecuación genera

funciones de densidad como t de Student, Laplace, Pareto, Gamma y normal.
Una versión discreta de esa ecuación diferencial se puede usar para generar
distribuciones como la binomial y binomial negativa, hipergeométrica y Pois-
son.
Parámetros
Los parámetros se relacionarán con sus momentos. En esta etapa basta con
notar que los parámetros tienen un papel importante en la modelizaciónem-
pírica y en la inferencia estadística.
2.2.4 Muestra aleatoria: preliminares

Un modelo estadístico es simple por la forma del modelo muestral, el supuesto
de muestra aleatoria. Este supuesto implica dos nociones interrelacionadas:
independencia [I] y distribución idéntica [ID]. Informalmente, las v.a.
(X1 ; X2 ; :::; Xn ) son independientes si la ocurrencia de una (Xi ) no in‡uye ni

es in‡uída por la ocurrencia de cualquier otra (Xj ; i 6= j; i; j = 1; 2; :::; n).
Además, las v.a. independientes (X1 ; X2 ; :::; Xn ) están indénticamente dis-
tribuídas si sus funciones de densidad son las mismas f (x1 ; ) = f (x2 ; ) =
= f (xn ; )2 :
2.3 Teoría de la probabilidad: una introduc-

ción
Se trata de establecer un puente entre datos observados y ME construído con
teoría de la probabilidad. Ésta, trata de capturar los patrones de regulari-
dad aleatoria exhibidos por procesos estocásticos observables que se quieren
modelar3 . Se inicia modelando un proceso estocástico simple llamado exper-
imento aleatorio.
Una precaución: debido a la simplicidad del experimento aleatorio, su
formalización proporcionará un ME no adecuado para modelar algunos fenó-
menos estocásticos en econometría. Los capítulos 6-8 extienden el modelo es-
tadístico, incorporando conceptos probabilísticos adicionales, lo que expande
la aplicabilidad del modelo.
2.4 Experimento aleatorio

Esta noción se introduce porque da una idea del tipo de fenómenos estocás-
ticos que se pretende modelar. En este capítulo se formaliza un experimento
aleatorio en forma de un abstracto espacio estadístico el cual da los fun-
damentos matemáticos de la teoría de la probabilidad.En los siguientes dos
capítulos, se da forma matemática al concepto de experimento aleatorio en
forma de modelo estadístico. En el capítulo tres, espacio estadístico!ME
(da formas operacionales para modelar).
2
Conviene notar que lo apropiado de los supuestos IID en datos experimentales, en
contraste con datos observacionales, es materia de buen diseño.
3
La aproximación axiomática, como una rama de la matemática, se remonta a Euclides
que especi…ca los axiomas básicos de objetos primitivos y entonces desarrolla la teoría
(teoremas, lemmas, etc.) usando lógica deductiva
2.4. EXPERIMENTO ALEATORIO 61
2.4.1 Experimento aleatorio

Un experimento aleatorio4 E es un mecanismo aleatorio que satisface:
[a] todos los posibles resultados se conocen a priori,
[b] en toda prueba particular el resultado no se conoce a priori pero existe
una regularidad perceptible de ocurrencia asociada a esos resultados, y
[c] el experimento aleatorio se puede repetir bajo indénticas condiciones.
Ejemplos.
1. Lanzar una moneda perfecta y anotar el resultado. Si se asume que
se puede repetir bajo condiciones idénticas, este experimento es aleatorio
porque satisface [a]-[c].
2. Lanzar una monedas dos veces a anotar el resultado. Si se asume que
3. Lanzar una moneda tres veces a anotar el resultado. Si se asume que
4. Lanzar una moneda hasta que aparezca una cara. Si se asume que
5. Un documento se transmite repetidamente por un canal ”sucio”hasta
que se tiene una copia libre de errores. Contar el número de envíos necesarios.
Este fenómeno estocástico es un experimento aleatorio siendo [a]= N.
6. Contar el número de llamadas recibidas en un teléfono en un período
de tiempo. En este caso, [a]= f0; 1; 2; :::g :
7. Medir la vida útil de un foco en una casa. Aquí, teóricamente, [a]=
[0; 1) :
6. Observar el precio de cierre diario de IBM en la BMV. [a]= [0; 1) ;
[b]: el precio de cierre de IBM de un día particular no se conoce a priori. La
condición [c] no se cumple porque las circunstancías de un dia a otro cambian
y el precio de hoy se relaciona con el de ayer. No es un experimento aleatorio.
Para formalizar la noción de experimento aleatorio:
1. [a]! S:
2. [b] S !P:
En estos dos pasos se construye el espacio de probabilidad. Para ello, se
inicia con un conjunto S de eventos elementales. Después, se de…ne otro
4
La noción de experimento aleatorio se remonta a Kolmogorov (1933), Foundations of
theory of probability, y se considera el libro que funda la moderna teoría de la probabilidad.
conjunto = formado por subconjuntos de S; llamados eventos, de modo tal

que = es cerrado bajo unión, intersección y complemento. Entoces, la proba-
bilidad se de…ne como una función no negativa P (:) : = ! [0; 1] ; asumiendo
que satisface P (S) = 1 y la propiedad de aditividad: para A 2 =; B 2 = y
A \ B = ;; entonces, P (A [ B) = P (A) + P (B) :
3. [c]! G IID :
2.5 Formalizacion de [a]

La formalización de [a] se hace de…niendo un conjunto S de todos los distintos
posibles resultados de un experimento llamado conjunto de resultados5 .
Es decir, S es el conjunto universal.
Ejemplos. Los conjuntos de resultados de los experimentos aleatorios
[1]-[4] son:
S1 = fSAg ;
S2 = f(SS) ; (SA) ; (AS) ; (AA)g ;
S3 = f(SSS) ; (SSA) ; (ASS) ; (ASA) ; (AAA) ; (SAA) ; (SAS) ; (AAS)g ;
S4 = f(S) ; (AS) ; (AAS) ; (AAAS) ; (AAAAS) ; (AAAAAS) ; :::g ;
Para el experimento [5] :
S5 = fx : x 2 Ng :
Para el experimento [7] :
S7 = fx : x 2 R; 0 x < 1g :
2.6 Formalizacion de [b]

Esta condición tiene dos dimensiones: (i) individualmente, los resultados son
impredecibles, pero, (ii) a nivel agregado, existe una regularidad perceptible
de los resultados. La forma de tratar con ambas dimensiones es formalizar
la regularidad perceptible a nivel agregado. Para ello, se procede en dos
5
Un nombre muy usado para S es el de espacio muestral. Aquí este nombre es poco
adecuado porque no tiene nada que ver con la noción de muestra usada posteriormente.
2.6. FORMALIZACION DE [B] 63
pasos: (1) se formaliza la noción de eventos de interés y, (2) se asignan

probabilidades a estos eventos.
Informalmente, un evento, relacionado con un experimento aleatorio, es
una proposición donde lo único que interesa es su valor de ocurrencia, es
decir si en una prueba particular el evento ocurre o no. Debido a ello, las
únicas proposiciones de que se dispone son los resultados elementales. Sin
embargo, para modelar, se necesita extender este conjunto de proposiciones
para incluir además combinaciones de resultados elementales. Por ejem-
plo, en el experimento aleatorio [2] pueden interesar los eventos: (a) A =
al menos un sol: A = f(SS) ; (SA) ; (AS)g ; (b) B = al menos una águila.
B = f(AS) ; (SA) ; (AA)g :
En general, los eventos se forman con combinaciones de resultados ele-
mentales usando operaciones teóricas de conjuntos, y se dice que un evento
A ocurre cuando cualquiere de sus resultados elementales ocurre.
Más formalmente, un evento es un subconjunto de S, es decir, si A S;
A es un evento. En contraste, un resultado elemental s es un elemento de
S, es decir, si s 2 S; s es un resultado elemental. En otras palabras, un resul-
tado elemental es también un evento, pero lo contrario no es necesariamente
verdad.
Ejemplo.
Sean los conjuntos: A = f1; 2; 3g ; B = f1; 3g : Se ve que: B A, pero
B2 = A: Ahora, si C = f(1; 3) ; 2g ; entonces B 2 C:
Eventos especiales
El conjunto (universal) S es un evento seguro: cualquiera sea el resultado,
S ocurre. Como S es subconjunto de sí mismo (S S), se tiene el conjunto
vacío: ; = S S; llamado evento imposible: cualquiera sea el resultado, ;
no ocurre6 .
Usando ; se dice que dos eventos A y B son mutuamente excluyentes
si A \ B = ;:
Usando (A \ B = ;) ^ S; se dice que los eventos A1 ; A2 ; :::; An forman una
partición de S si los eventos son:
(a)Ai \ Aj = ;; 8i 6= j; i; j = 1; 2; :::; m; (mutuamente excluyentes) y
S
m
(b) Ai = S; (exhaustivos).
i=1
6
Notar que ; es siempre subconjunto de todo S:
2.6.1 Espacio de eventos

La forma de tratar la incertidumbre asociada a un resultado particular de
una prueba es asignando probabilidades a los eventos de interés. Dado que
se sabe que si A S; A es un evento, se procede a precisar la noción de
eventos de interés.
Un espacio de eventos = es un conjunto cuyos elementos son los eventos
de interés y los eventos relacionados: aquellos que se obtienen combinando
eventos de interés usando operaciones teóricas de conjuntos. Es necesario
incluir tales eventos porque si se tiene interés por los eventos A y B, también
se está interesado (indirectamente) en A; B;A [ B; A \ B; A1 \ A2 ; etc.
Teóricamente, = es un conjunto de subcojuntos de S que es cerrado bajo
unión, intersección y complemento: si estas operaciones se aplican a cualquier
elemento de =, el resultado es también elemento de =: Para todo conjunto
de resultados S; se pueden considerar dos espacios de eventos extremos:
(a) el espacio trivial de eventos: =0 = fS, ;g y
(b) el conjunto potencia (el conjunto de todos los subconjuntos de S):
P (S) = fA : A Sg :
Estos casos extremos no son interesantes porque:
(a) espacio trivial no contiene información: S y ; se conocen a priori.
(b) A primera vista, el conjunto potencia de S parecería la elección natural
para el espacio de eventos, dado que incluye todos los eventos relevantes y se
cerrado bajo unión, intesección y complemento.
Ejemplo.
”Lanzar una moneda dos veces”, entonces:
S2 = f(SS) ; (SA) ; (AS) ; (AA)g
8 9
>
> S2 ; [(SS) ; (SA) ; (AS)] ; [(SS) ; (SA) ; (AA)] ; >
>
>
> >
>
< [(SS) ; (AS) ; (AA)] ; [(AA) ; (SA) ; (AS)] ; =
P (S2 ) = [(SS) ; (SA)] ; [(SS) ; (AS)] ; :
>
> >
>
>
> [(SS) ; (AA)] ; [(SA) ; (AS)] ; [(SA) ; (AA)] ; >
>
: ;
[(AS) ; (AA)] ; [SS] ; [SA] ; [AS] ; [AA]
El conjunto potencia no siempre puede ser el espacio de eventos adecuado

porque, asumiendo que S es contable con N elementos, P (S) tendrá 2n el-
ementos, siendo poco práctico para propósitos de modelación. Por ejemplo,
al lanzar una moneda tres veces, S tiene ocho elementos lo que implica que
P (S) = 28 = 256 elementos; muchos para enumeralos.
Esto se complica más si S es contable pero in…nito (como en ej. 6). En
este caso P (S) ; aunque no es in…nito, tendrá el orden de in…nitud de los
reales. Además, cuando S no es contable, P (S) incluye subconjuntos que
no se pueden considerar eventos y no se les puede asignar probabilidades
(Billingsley, 1986). .
La forma de superar estas di…cultades es evitar al conjunto potencia y
dotar al espacio de eventos de una estructura matemática especí…ca (un
campo o un -campo) que asegure que si A y B son eventos, todo otro evento
que resulte de combinar estos eventos con operaciones teóricas de conjuntos
serán también elementos del mismo espacio de eventos. (Homeomor…smo).
Ejemplo.
Sea el ejemplo ”lanzar una moneda tres veces” y asumir que los eventos
de interés son sólo A1 = f(SSS)g y A2 = f(AAA)g ; entonces no se necesita
de…nir al conjunto potencia como el espacio de eventos. En su lugar se puede
de…nir:
=3 = S3 ; ;; A1 ; A2 ; (A1 [ A2 ) ; A1 ; A2 ; A1 \ A2
con ocho elementos y no 36 que contendría el conjunto potencia. Se
veri…ca que =3 es cerrado bajo operaciones teóricas:
(S3 [ ;) = S3 2 =3 ; (S3 \ ;) = ; 2 =3 ; S3 = ; 2 =3 ;
A1 [ A2 = A1 \ A2 2 =3 ; etc.
El concepto de espacio de eventos es importante en la formalización de la

condición [b] de un experimento aleatorio, porque proporciona la estructura
matemática necesaria para asignar correctamente probabilidades a eventos.
Así, si A y B son eventos de interés, también lo son los eventos relacionados
porque su ocurrencia o no da información sobre la ocurrencia de A y B por
lo cual no se pueden ignorar al asignar probabilidades.
Campo
Una colección = de subconjuntos de S es un campo si cumple:
(i) S 2 =;
(ii) si A 2 =; A 2 =;
(iii) si A; B 2 =; (A [ B) 2 =:
Signi…ca que = = 6 ; (por (i)), es cerrado bajo complemento (debido a
(ii)), uniones …nitas (debido a (iii)) e intersecciones …nitas (debido a (ii) y
(iii)).
Ejemplos.
1. El conjunto potencia de un conjunto …nito de resultados, como P (S2 ) ;
es un campo.
2. =0 = fS; ;g es el campo trivial de todo conjunto …nito de resultados
S. =0 es un campo porque:
S 2 =0 ; S [ ; = S 2 =; S \ ; =; 2 =0 y S ; = S 2 =0 :
3. = (A) = S; ;; A; A es el campo generado por el evento A: = (A) es
campo porque:
S 2 = (A) ; S [ ; = S 2 = (A) ; S \ ; =; 2 = (A) ;

S ; = S 2 =(A); A 2 = (A) ; A [ A = S 2 = (A) ;
A \ A = ; 2 = (A) ; (A [ S) = S 2 = (A) ;
(A \ S) = A 2 = (A) ; A [ S = S 2 = (A) ;
A \ S = A 2 = (A) :
4. fS; ;; A; Bg no es campo porque el evento (A [ B) no es elemento de
este conjunto, a menos que B =A:
5. fS; ;; A; B; (A [ B)g no es campo porque el evento (A \ B) no es
elemento de este conjunto, a menos que (A \ B) = ;:
6. S; A; A no es campo porque no contiene ;.
Generando un campo
Para ilustrar como se genera un campo a partir de un conjunto de eventos
de interés, considerar el caso donde el conjunto es D1 = fA; Bg : La gen-
eración del campo se hace en relación al ejemplo de ”lanzar una moneda
dos veces”, donde S2 = f(SS) ; (SA) ; (AS) ; (AA)g ; A = f(SS) ; (SA)g y
B = f(SA) ; (AS)g y el campo es el conjunto potencia P (S2 ) :
8 9
>
> S2 ; [(SS) ; (SA) ; (AS)] ; [(SS) ; (SA) ; (AA)] ; >
>
>
> >
>
< [(SS) ; (AS) ; (AA)] ; [(AA) ; (SA) ; (AS)] ; =
P (S2 ) = [(SS) ; (SA)] ; [(SS) ; (AS)] ; :
>
> >
>
>
> [(SS) ; (AA)] ; [(SA) ; (AS)] ; [(SA) ; (AA)] ; >
>
: ;
[(AS) ; (AA)] ; [SS] ; [SA] ; [AS] ; [AA]
Paso 1. Formar el conjunto D2 = S; ;; A; B; A; B que incluye los com-

plementos de A yB: En el ejempo:
A = f(AS) ; (AA)g ; B = f(SS) ; (AA)g :
Paso 2. Formar el conjunto que también incluye las intersecciones de
todos los elementos de D2 :
D3 = S; ;; A; B; A; B; (A \ B) ; A \ B ; A \ B ; A \ B : En el ejem-
plo,
(A \ B) = f(SA)g ; A \ B = f(AS)g ; A \ B = f(SS)g y A \ B =
f(AA)g :
Paso 3. Formar el conjunto que también incluye las uniones de todos los
elementos de D3 : D = D3 ; (A [ B) ; A [ B ; A [ B ; A [ B ; etc. :
En el ejemplo:
(A [ B) = f(SS) ; (SA) ; (AS)g : A [ B = f(SA) ; (AS) ; (AA)g ; A [ B =
f(SS) ; (SA) ; (AA)g ; A [ B = f(SS) ; (SA) ; (AA)g ; A \ B [ A \ B =
f(SS) ; (SA)g ; (A \ B) [ A \ B = f(SA) ; (AA)g :
El conjunto potencia de S se ha generado. Notar que D1 D2 D3 D
y D es un campo. Éste el menor campo conteniendo a D1 ; se llama el campo
generado por D1 ; y se denota por = (D1 ) = D.
Ejemplo.
En el caso de lanzar una moneda tres veces:
S3 = f(SSS) ; (SSA) ; (SAA) ; (SAS) ; (AAA) ; (AAS) ; (ASA) ; (ASS)g :
Si los eventos de interés, por ejemplo, son A1 = f(SSS)g y A2 = f(AAA)g ;

el conjunto fA1 ; A2 g no es un campo pero se puede generar un campo a partir
de este conjunto. En este caso el campo de eventos de interés es7 :
=3 = S3 ; ;; A1 ; A2 ; (A1 [ A2 ) ; A1 ; A2 ; A1 \ A2 ;
Considerar los eventos fA1 ; A2 ; :::; An g que constituyen una partición de
S, entonces el conjunto de todas las posibles uniones de elementos de A =
f;; A1 ; A2 ; :::; An g forman un campo.
= (A) = fB : B = [i2I Ai ; I f1; 2; 3; :::; ngg :

7
De los ejemplos, la generación de un campo usando operaciones teóricas de conjuntos,
a partir de eventos de interés, no es un ejercicio simple en casos donde el número inicial
de eventos de interés es mayor que 2. La excepción a esto es el caso donde los eventos
iniciales forman una partición de S:
Ejemplo.
Al lanzar una moneda tres veces:
considerar los eventos: A1 = f(SSS) ; (SSA) ; (SAA)g y A2 = f(SAS) ; (AAA) ; (AAS)g

y A3 = f(ASA) ; (ASS)g : El conjunto fA1 ; A2 ; A3 g es una partición de S3 :
El campo generado por esta partición tiene la forma:
=3 = fS3 ; ;; A1 ; A2 ; A3 ; (A1 [ A2 ) ; (A1 [ A3 ) ; (A2 [ A3 )g :
Este espacio de eventos es cerrado bajo unión, intesección y complemento.

El método anterior se puede extender al caso donde S es in…nito, de…niendo
una partición contable de él , es decir, fA1 ; A2 ; :::; An ; :::g = fAi ; i 2 Ng : El
conjunto de subconjuntos formado por A = f;; A1 ; A2 ; :::; An ; :::g toma la
forma:
= (A) = fB : B = [i2I Ai ; I Ng :
y es una extensión de la noción de campo, conocida como campo8 y

éste es cerrado bajo uniones e intersecciones contables de eventos.
Una colección = de subconjuntos de S es un campo si:
(i) S 2 =;
(ii) si A 2 =; entonces A 2 =;
(iii) si Ai 2 = para i = 1; 2; :::; n; el conjunto [1
i=1 Ai 2 =:
De (ii) y (iii) y de la ley de Morgan:
\1 1 1
i=1 Ai 2 =; dado que [i=1 Ai = \i=1 Ai :
Este es un campo, es no vacío y cerrado bajo uniones e intersecciones

contables, y proporciona la estructura matemática más general necesaria para
formalizar la noción de espacio de eventos. Un campo es siempre un caso
especial de un campo.
8
Con frecuencia se usa el término álgebra (parece más adecuado (Williams, 1991))
en lugar de campo (más por razones históricas (Kolomogorov, 1933, lo usa)).
El -campo de Borel
En teoría de probabilidad el campo más importante es el campo de
Borel (B (R))de…nido sobre R: Hasta aquí se han considerado campos
generados por un arbitrario S cuya única estructura matemática es la teoría
de conjuntos. Desde luego, la recta real no es un conjunto en el mismo sentido
del conjunto de resultados del experimento ”lanzar una moneda dos veces”.
Ésta tiene una estructura que permite de…nir orden, distancia, convergencia,
etc. de sus elementos. La estructura que aquí interesa es la que permite
de…nir convergencia, conocida como estructura topológica. Dada la densidad
de R, la mejor forma de de…nir un -campo en un conjunto in…nito es de…nirlo
a través de sus elementos que pueden generar este conjunto. En el caso de
R, se pueden usar para generar un (B (R)), un número de distintos intervalos
tales como (a; 1) ; (a; b] ; (a; b) ; ( 1; b). Para este propósito, es adecuado, en
particular, el intervalo ( 1; x]. Por ejemplo, considerar cómo estos intervalos
(( 1; x]) pueden generar el (B (R)) :
Iniciar con el un conjunto de subconjuntos de R de la forma:
Bx = f( 1; x] : x 2 Rg ;
que es cerrado bajo intersecciones …nitas, es decir, 8 (x; y) 2 R
( 1; x] \ ( 1; y] = ( 1; z] 2 Bx ; donde z = min (x; y) :

Entonces se procede a generar el -campo generado por Bx (B (R))=
(Bx )) usando operaciones de conjuntos. (Ver Galambos, 1995).
Este B (R) incluye casi todos los subconjuntos de R, pero no todos: hay
subconjuntos de R que pertenecen a P (R) pero no a B (R) ; es decir:
B (R) P (R) y B (R) 6= P (R) :

Sin embargo, B (R) incluye todos los subconjuntos que usualmente se
encuentran en la práctica, tales como:
(a; 1) ; (a; b] ; fag ; (a; b) ; 8a < b; (a; b) 2 R.

en el sentido que ellos se pueden crear usando operaciones de conjuntos de
unión, intersección y complemento en conjunción con intervalos de la forma
siguiente:
(a; 1) = ( 1; a] ) (a; 1) 2 B (R) ;

(a; b] = ( 1; b] \ (a; 1) ) (a; b] 2 B (R) ;
\1
1
fag = a ; a ) fag 2 B (R) ; etc.
n=1
n
Hasta ahora:
8 9
< [a] ) S, =
E [b] ) (=; ?) ;
: ;
[c] ) (?) :
2.6.2 Noción matemática de probabilidad

El siguiente paso en la formalización de la condición [b] que de…ne un exper-
miento aleatorio es asignar probabilidades a los eventos de interés especi…ca-
dos por el espacio de eventos. Para esto, se de…ne la probabilidad P (:) como
una función 9 del espacio de eventos = al intervalo [0; 1]:
P (:) : = ! [0; 1]
que satisface los axiomas10 :
[1] P (S) = 1; 8S;
[2] P (A) 0; 8A 2 =;
[3] Aditividad contable. Para un sucesión de eventos mutuamente ex-
cluyentes, es decir, Ai 2 =; i = P1; 2; :::; n tal que Ai \ Aj = ;; 8i 6= j; i; j =
1; 2; :::; n entonces P ([i=1 A) = 1
1
i=1 P (Ai ) :
El axioma [3] proporciona una forma de asignar probabilidades a eventos
utilizando eventos mutuamente excluyentes. Este mecanismo se describe
utilizando distintos tipos de conjuntos de resultados.
(a) Conjunto …nito de resultados S = fs1 ; s2 ; :::; sn g :
9
Una función f : A ! B es una relación (todo subconjunto del producto cartesiano
A B) entre los conjuntos A y B que satisface la restricción de que 8x 2 A, existe un
elemento único y 2 B tal que (x; y) 2 f: Los conjuntos A y B son el dominio y el codominio
de la función f ( ) : El conjunto G = f(x; y) 2 f : x 2 A; y 2 Bg es el grá…co de la función.
10
Concebir a la probabilidad como una medida en el contexto de la teoría avanzada de
la integración llamada teoría de la medida, llevó a Kolmogorov (1933) a axiomatizar la
teoría de la probabilidad.
En este caso los resultados elementales s1 ; s2 ; :::; sn son, por de…nición,

mutuamente excluyentes y además [ni=1 si = S; es decir, los eventos s1 ; s2 ; :::; sn ;
conforman una partición de S: El axioma [3] implica que
Xn
P ([ni=1 si ) = P (si ) = 1 (por axioma [1])
i=1
y sugiere que la asignación de probabilidades a los resultados proporciona
la distribución de probabilidad simple sobre S :
Xn
[p (s1 ) ; p (s2 ) ; :::; p (sn )] ; tal que p (si ) = 1:
i=1
La probabilidad del evento A en = es entonces de…nida como sigue:
1. Expresar A en términos de los resultados elementales: A = fs1 ; s2 ; :::; sk g.
2. Derivar la probabilidad de A sumando las probabilidades de los resul-
tatos s1 ; s2 ; :::; sk ; dado que ellos son mutuamente excluyentes:
Xk
P (A) = p (s1 ) + p (s2 ) +; :::; +p (sk ) = p (si ) :
i=1
Ejemplos.
1. Sea el experimento aleatorio de ”lanzar una moneda tres veces”siendo
el espacio de eventos el conjunto potencia de:
Sean A1 = f(SSS)g y A2 = f(AAA)g : Obtener las probabilidades de los

eventos A3 := (A1 [ A2 ) ; A4 := A1 ; A5 := A2 y A6 := A1 \ A2 :
1 1 1
P (A3 ) = P (A1 ) + P (A2 ) = + = ;
8 8 4
1 7
P (A4 ) = P (S3 ) P (A1 ) = 1 = ;
8 8
1 7
P (A5 ) = P (S3 ) P (A2 ) = 1 = ;
8 8
3
P (A6 ) = P A1 \ A2 = 1 P (A1 [ A2 ) =
4
2. En el experimento aleatorio ”lanzar una moneda dos veces”, consid-
erar la asignación de probabilidades al evento: A = f(SS) ; (SA) ; (AS)g : La
distribución de probabilidad toma la forma:
1 1 1
P (SS) = ; P (SA) = ; P (AS) = :
4 4 4
Esto sugiere que P (A) = P (SS) + P (SA) + P (AS) = 43 :
En el caso donde S es in…nito esta forma de asignar probabilidades no es
apropiada. Una forma más e…ciente de hacerlo es dada por el concepto de
función de densidad de…nida en el capitulo que siguiente.
(b) Conjunto contable de resultados: S = fs1 ; s2 ; :::; sn ; :::g :
Es una extensión del caso …nito donde los resultados elementales s1 ; s2 ; :::; sn ; :::
son mutuamente excluyentes y conforman una Ppartición de S; es decir, [1i=1 si =
1 1
S. El axioma [3] implica que P ([i=1 si ) = i=1 P (si ) = 1 (por axioma [1])
y sugiere que la asignación de probabilidades a los resultados proporciona la
distribución de probabilidad sobre S :
X1
[p (s1 ) ; p (s2 ) ; :::; p (sn ) ; :::] ; tal que p (si ) = 1:
i=1
La probabilidad del evento A en = (que puede coincidir con el conjunto

potencia de S) es de…nida por:
X1
P (A) = p (s1 ) + p (s2 ) + ::: + p (sn ) + ::: = p (si ) :
i=1
En contraste con el caso …nito, las probabilidades [p (s1 ) ; p (s2 ) ; :::; p (sn ) ; :::]
no pueden ser iguales porque 8pP> 0; no obstante pequeña, donde p (sn ) = p
8n = 1; 2; 3; :::; es decir 8p > 0; 1 i=1 p = 1:
Notar que la única formaPde acotar esta suma es hacer que p sea función
de n; por ejemplo, pn = n1 : 1 1
i=1 nk < 1; para k > 1:
Ejemplo.
Considerar el caso, ”lanzar una moneda no perfecta hasta que aparezca
un sol”siendo el espacio de eventos el conjunto potencia de
S4 = f(S) ; (AS) ; (AAS) ; (AAAS) ; (AAAAS) ; ::::g :
Aquí,
P (S) = y P (A) = 1 y P (AS) = (1 ) ; P (AAS) = (1 )2 ;
3 4
P (AAAS) = (1 ) ; P (AAAAS) = (1 ) ; P (AA:::AS) = (1 )n ;
etc.
(c) Conjunto no contable de resultados S:
Sin pérdida de generalidad, considerar:
S = fx : 0 x 1; x 2 Rg :
Para usar el axioma [3] este intervalo se puede expresar como unión con-
table de conjuntos disjuntos Ai ; i = 1; 2; 3; :::
[0; 1] = [1
i=1 Ai
donde Ai \ Aj = ;; i 6= j; i; j = 1; 2; ::: y P (Ai ) es la misma 8Ai ; i =

esto conduce a inconsistencias porque del axioma [3]: P ([0; 1]) =
1; 2; 3; :::Pero P
P ([i=1 Ai ) = 1
1
i=1 P (Ai ) ; y entonces P ([0; 1]) = 0; si P (Ai ) = 0, o P ([0; 1]) =
1; si P (Ai ) > 0: (En ningún caso la suma es 1).
Este intento fracasa debido a la naturaleza de los conjuntos disjuntos
Ai ; i = 1; 2; 3; :::Ellos son elementos del conjunto potencia P [(0; 1)] ; pero no
necesariamente elementos de un campo asociado a este intervalo. Como
se dijo antes, la estructura matemática necesaria para una asignación consis-
tente de probabilidades es la de un campo.
¿Cómo asignar probabilidades en el caso de un conjunto no contable de
resultados?. La cuestión es saber si se puede iniciar con una clase arbitraria
de subconjuntos de S, por ejemplo, D, con P (:) de…nida para todo elemento
de D, y entonces proceder a extenderla a un –campo generado por D. Esto
se puede hacer sólo si D es un campo. Esto se debe a que el axioma [3]
restringue la asignación de probabilidades a uniones contables de conjuntos
disjuntos. Y, dada una unión arbitraria de elementos de D, esta se puede
expresar como unión contable de conjuntos disjuntos sólo si D es un campo.
Matemáticamente, la extensión de la asignación de probabilidades de un
conjunto de eventos a un espacio de eventos se logra iniciando con un
campo D y expresándolo como una unión contable de conjuntos disjuntos so-
bre los cuales P (:) esta de…nida. Se puede entonces extender D al campo =
generado por D; denotado por = = (D) ; obtenido mediante complementos,
intersecciones y uniones contables de los elementos de D: De…nida la función
de probabilidad P (:) sobre D; se puede entonces proceder a extenderla a to-
dos los elementos de =, usando el teorema de extensión de Caratheroodory
(Williams, 1991).
Ejemplo.
Este procedimiento se ilustra mejor en el caso donde S = R y el campo
es B (R) que es generado por subconjuntos de la forma: Bx = f( 1; x] : x 2 Rg :
Primero se de…ne P (:) sobre Bx y entonces se procede a extenderla a todos los
subconjuntos de la forma: (a; 1) ; (a; b] ; fag ; (a; b) 8a; b 2 R, a < b; usando

el teorema de extensión de Caratheroodory.
Además de estas propiedades, el axioma de aditividad contable es también
necesario para asegurar la continuidad de la función de probabilidad que se
describe en la siguiente subsección.
2.6.3 Espacio de probabilidad [S; =; P (:)]

Matemáticamente, esto completa la formalización de las dos primeras condi-
ciones que de…nen un experimento aleatorio
[a] ! S;
E
[b] ! (=; P (:))
donde = es el campo de subconjuntos de S llamado espacio de eventos
y P (:) es una función (de probabilidad) que satisface los axiomas [1]-[3]. La
terna
(S; =; P (:))
de…ne un espacio de probabilidad11 . Este espacio tiene la estructura
matemática necesaria para usarse como fundamento para construir la teoría
de la probabilidad.
Generalmente, en la aproximación matemática, el siguiente paso es
lógica matemática
(S; =; P (:)) ! Teoría de probabilidad
Aquí, siendo el objetivo la modelacion:
(S; =; P (:)) ! Modelo de probabilidad ! Teoría de probabilidad
2.6.4 Deducción matemática

Como ciencia deductiva, la matemática:
lógica deductica
Axiomas (premisas) ! Teoremas
11
Pfei¤er (1978) y Khazanie (1976).
Como ilustración, se derivan algunos teoremas del espacio de probabilidad

deducido antes.
Asumiendo que los axiomas [1]-[3] son verdaderos, se derivan corolarios
que dan una descripción más completa del marco matemático de referencia.
Teorema 1. P A = 1 P (A) :
Prueba. Como A [ A = S y A \ A = ;; P (S) = 1 = P A [ A =
P A + P (A) ; ) P A = 1 P (A) q.e.d.
La primera igualdad por [1], la segunda por que A [ A = S y la tercera
porque A \ A = ; y por [3]:
Ejemplo.
Lanzar una moneda dos veces y sea A = f(SS) ; (SA) ; (AS)g : Como
A = f(AA)g ; por teorema 1, P A = 1 P (A) = 1 43 = 41 :
Usando el teorema 1 en el caso donde A = S (y entonces A = ;) se
deduce:
Teorema 2. P (;) = 0.
El teorema que sigue extiende el axioma [2] al caso de eventos no mutu-
amente excluyentes.
Teorema 3. P (A [ B) = P (A) + P (B) P (A \ B) :
Prueba. Se de…ne A [ B en términos de eventos mutuamente excluyentes
y entonces se usa [3]: Los eventos C = fA (A \ B)g y B son mutuamente
excluyentes y C [ B = A [ B: Entonces, por [3]:
P (A [ B) = P (C [ B) = P fA (A \ B)g+P (B) = P (A)+P (B) P (A \ B) :
Ejemplo.
Para A de…nido en ejemplo 1 y B = f(SS) ; (AA)g ; el teorema 3 implica
que P (A [ B) = 43 + 12 14 = 1:
El teorema que sigue es de gran interés matemático. Se da una prueba
sólo parcial. Una prueba completa está en Karr (1993).
Teorema 4. (propiedad de continuidad de la función de probabil-
idad). Para fAn g1n=1 2 =; si lim An = A 2 =; entonces lim P (An ) = P (A) :
n!1 n!1
Según este teorema, el límite de una sucesión de eventos es también un
evento. ?‘Qué signi…cado dar a esto?. Una respuesta parcial se da notando
que para dos tipos especiales de sucesiones, el límite se de…ne en términos de
uniones e intersecciones contables.
Sucesión no decreciente. Una sucesión de eventos fAn g1

n=1 es no de-
creciente si A1 A2 A n An 1 A n 2 Para tal secuencia,
1
lim An = [n=1 An :
n!1
Sucesión no creciente. Una sucesión de eventos fAn g1 n=1 es no creciente
si A1 A2 An An 1 An 2 Para tal sucesión, lim An =
n!1
\1n=1 An :
Ahora se considera una prueba parcial del teorema 4 referida sólo a suce-
siones no decrecientes. En este caso, lim An = [1 n=1 An : Este límite se
n!1
puede expresar en la forma de eventos mutuamente excluyentes de la forma
(Ak 1 Ak ) y (Aj 1 Aj ) para k 6= j; que tiene las propiedades:
(Ak 1 Ak ) \ (Aj 1 Aj ) = ;; P (Ak 1 Ak ) = P (Ak 1 ) P (Ak ) :
Usando tales eventos y asumiendo que A0 = ;; se puede de…nir An como:
[
1
lim (An ) = An = A1 + (A2 A1 ) + (A3 A2 ) +
n!1
n=1
Para A = lim (An ) ; (de la relación anterior y del axioma [3]):

n!1
P lim An = P (A1 ) + P (A2 A1 ) + + P (Ak 1 Ak ) +

n!1
= P (A1 ) + P (A2 ) P (A1 ) + + P (Ak 1 ) P (Ak ) +
= lim P (An ) :
n!1
Esto signi…ca que la función de probabilidad P es continua por la izquierda.

La prueba general del teorema requiere hacerlo para secuencias no crecientes
(continuidad por la derecha) secuencias nulas (continuidad en ;). Ver Shiryayev
(1984).
Un teorema relacionado es la desigualdad de Bonferroni. Se enuncia sin
prueba. Ver Chung (1974), Feller (1968).
T
n Pn
Teorema 5. P Ak 1 k=1 P Ak ; Ak 2 =; k = 1; 2; :::; n:
k=1
2.7. FORMALIZACIÓN DE LA CONDICIÓN [C]: PRUEBAS ALEATORIAS77
2.7 Formalización de la condición [c]: pruebas

aleatorias
La condición [c] contiene dos componentes interrelacionados:
(i) las circunstancias del experimento son las mismas en toda prueba y
(ii) el resultado de una prueba no afecta el de otra.
Para formalizar (i) (sucesión …nita de pruebas), sea esta sucesión de n
pruebas fA1 ; A2 ; :::; An g y cada prueba se asocia con un espacio de probabil-
idad (Si ; =i ; Pi (:)), i = 1; 2; :::; n; respectivamente. Para analizar la relación
entre pruebas éstas se agrupan en un espacio de probabilidad (sin él no se
puede formalizar la condición [c]): El espacio de probabilidad que ello sugiere
es el espacio de probabilidad producto :
(S1 ; =1 ; P1 (:)) (S2 ; =2 ; P2 (:)) (Sn ; =n ; Pn (:)) ;

que se concibe como una terna de la forma:
([S1 S2 Sn ] [=1 =2 =n ] [P1 P2 Pn ]) :=

:= S(n) ; =(n) ; P(n)
Este es un espacio de probabildad porque S(n) = s(n) : s(n) := (s1 ; s2 ; :::; sn ) ; si 2 Si ; i = 1; 2; :::; n
es un conjunto de resultados, =(n) tiene la estructura necesaria de un campo
(para n …nito) y P(n) es una función satisface los axiomas [1]-[3]: (Ver Parthasarathy,
1977).
Establecido que el espacio de probabilidad producto es un espacio de
probabilidad, se procede a ver la sucesión de pruebas fA1 ; A2 ; :::; An g como
un evento en S(n) ; =(n) ; P(n) ; al que se le pueden asignar probabilidades.
El componente (i) de la condición [c] se formaliza asegurando que S(n) ; =(n) ; P(n)
es el mismo en cada prueba en el sentido de que:
(Si ; =i ; Pi (:)) = (S; =; P (:)) ; 8i = 1; 2; :::; n:

Se llama condición de distribución idéntica (ID). Más formalmente,
esta condición reduce el espacio producto de probabilidad S(n) ; =(n) ; P(n) a:
(S; =; P (:)) (S; =; P (:)) (S; =; P (:)) = (S; =; P (:))n
con el mismo espacio de probabilidad asociado a cada prueba.

El componente (ii) de la condición [c] se formaliza bajo la forma de inde-

pendencia entre las pruebas: dado el resultado de una prueba j; las proba-
bilidades asociadas con los distintos resultados en la prueba i no cambian y
viceversa. La idea de ”dado el resultado de una prueba j; el resultado de la
prueba i no es afectado”se formaliza usando la noción de condicionalidad.
2.7.1 Probabilidad condicional e independencia

La noción de condicionalidad surge cuando se tiene información adicional
sobre el experimento en cuestión. En el caso de lanzar una moneda dos veces,
si se sabe que el resultado tendrá al menos una cara, esta información afectará
las probabilidades de ciertos eventos. Dada esta información el resultado
(SS) no es ya posible y entonces los resultados (SA) ; (AS) ; (AA) ahora
tienen probabilidades de 31 y no de 14 como antes.
Se obtienen probabilidades condicionales utilizando la fórmula:
P (A \ B)
P (AjB) = ; para P (B) > 0;
P (B)
8 evento A 2 =; donde P (.) es la función de probabilidad original de…nida
en =:
Ejemplo.
Veri…car esto, con A = fASg y con B: Como (A \ B) = fASg ; P (AjB) =
1
1
3 = 3:
4
4
Usando la fórmula condicional, de deduce la regla de probabilidad pro-
ducto:
P (A \ B) = P (AjB) P (B) = P (BjA) P (A)

Combinando ambas fórmulas se obtiene la de Bayes:
P (A) P (BjA)
P (AjB) = ; para P (B) > 0;
P (B)
Independencia. La noción de condicionamiento se puede usar para de-
terminar si dos eventos A y B son independientes, lo que ocurre si: P (AjB) =
P (A) ; o alternativamente, si P (A \ B) = P (A) P (B)12 :
Ejemplo. (Lanzar dos monedas).
12
Esta noción de independencia se remonta a Cardano (1550).
2.8. ESPACIO ESTADÍSTICO 79
Para A = f(SS) ; (AA)g y B = f(AA) ; (SA)g, (A \ B) = f(AA)g ; y

entonces P (A \ B) = 41 = P (A) P (B) ; implicado que A y B son independi-
entes.
Con más generalidad, los eventos A1 ; A2 ; :::; An son independientes sí y
sólo sí
P (A1 \ A2 \; :::; \An ) = P (A1 ) P (A2 ) P (Ak ) ; k = 2; 3; :::; n:
2.8 Espacio estadístico

Ahora se formaliza el componente (ii) de la condición [c]:
Espacio muestral. Una sucesión de n pruebas Gn = fA1 ; A2 ; :::; An g,
donde Ai es la prueba i-ésima del experimento, asociada con S(n) ; =(n) ; P(n) ,
es un espacio muestral.
Como se dijo antes, las n pruebas Gn = fA1 ; A2 ; :::; An g se consideran un
evento en S(n) ; =(n) ; P(n) : Como evento, se le pueden asignar probabildades
usanto la funcion P(n) : Por lo tanto, se formaliza (ii) postulando que las
pruebas son independientes si13
[ii] P(n) (A1 \ A2 \; :::; \Ak ) = P1 (A1 ) P2 (A2 ) Pk (Ak ) ; k = 2; 3; :::; n:
[ii] P(n) (Ak j A1 \ A2 \; :::; \Ak 1 ; Ak+1 ::; An ) = Pk (Ak ) ; k = 1; 2; 3; :::; n:
Tomando las condiciones I e ID se de…ne una sucesión de experimentos

aleatorios: una sucesión de pruebas GnIID = fA1 ; A2 ; :::; An g ; es decir,
P(n) (A1 \ A2 \; :::; \Ak ) = P (A1 ) P (A2 ) P (Ak ) ; k = 2; 3; :::; n:
es una sucesión de pruebas aleatorias 14 .

13
Notar que P(n) ( ) y P(k) ( ) son distintas funciones de probabilidad siendo sus espa-
cios de probabilidad, respectivamente, S(n) =(n) P(n) ( ) y S(k) =(k) P(k) ( ) (ver
Pfei¤er, 1978).
14
Notar que GnIID es una forma particular de un espacio muestral Gn asociado con
n
S(n) ; =(n) ; P(n) ( ) en el sentido que GnIID está asociado con (S; =; P ( )) :
Combinando un espacio de probabilidad producto y una sucesión de prue-

bas aleatorias se de…ne un espacio estadístico simple, denotado por:
(S; =; P (:))n ; GnIID :

Es simple porque es un caso particular de la formulación más general de
espacio estadístico:
S(n) ; =(n) ; P(n) (:) ; Gn :

donde cada prueba, por decir, A1 ; está asociada con un espacio de proba-
bilidad distinto (Si ; =i ; Pi (:)) (es decir, no ID) y las pruebas no son necesari-
amente independientes. En campos como la econometría se necesita utilizar
la formulación más general.
La primera formalización completa de la noción de experimento aleatorio
es el espacio estadístico simple (S; =; P (:))n ; GnIID : Sin embargo, esta for-
mulación es muy abstracta porque implica conjuntos arbitrarios y conjuntos
de funciones, no números ni funciones numéricas más familiares en los cursos
de cálculo. En el capítulo siguiente a dicho espacio se le da una forma más
manipulable mapeando esta estructura matemática en la recta real.
En resumen:
2 3 0 1
[a] ) S
E = 4 [b] 5 ) @ =; P (:) A ) (S; =; P (:))n ; GnIID :
[c] ) Gn
Se ha dado una introducción a la teoría de la probabilidad formalizando
un mecanismo aleatorio simple llamado experimento aleatorio. La noción de
espacio estadístico da el fundamento matemático de la teoría de la probabil-
idad. En los dos capítulos siguientes: EES ! MES, para ello:
1. EES ! = ff (x; ) ; 2 ; x 2 Rg :
2. Espacio muestral ! Modelo muestral (llamado muestra aleatoria: un
conjunto de variables aleatorias X = (X1 ; X2 ; ::; Xn ) que son IID).
4. MES ! datos.
5. En los capítulos 6-8 se extiende la noción de modelo estadístico mues-
tral para modelar datos económicos que exhiben regularidad aleatoria más
allá de la muestra aleatoria tales como ciclos comerciales, crecimiento y ‡uc-
tuaciones en tasas de cambio.
Capítulo 3
El concepto de modelo de
probabilidad
3.1 Introducción
3.1.1 La historia hasta ahora
En el capítulo anterior hemos iniciado el largo viaje para explorar la teoría
de la probabilidad que se re…ere a la con…guración de un marco de referen-
cia teórico (matemático) para modelar fenómenos estocásticos: fenómenos
observables que muestran regularidad aleatoria. El camino particular que
seguimos se inició con la formalización de la noción de un experimento aleato-
rio E, de…nido por las siguientes condiciones:
[a] todos los posibles distintos resultados se conocen a priori,
[b] en un ensayo particular, los resultados no se conocen a priori, sino que
existe una regularidad perceptible de ocurrencia, asociada con estos resulta-
dos y
[c] se puede repetir en condiciones idénticas.
La matematización tomó la forma de un espacio estadístico (S; =; P (:))n ; GnIID
donde (S; =; P (:)) es un espacio de probabilidad y GnIID es un espacio mues-
tral simple.
El objetivo principal de este capítulo es transformar el espacio abstracto
de probabilidad (S; =; P (:)) en algo apropiado para la modelación empírica
utilizando datos numéricos; algo de…nido en la recta real. El objetivo …nal de
este capítulo es la formulación de lo que llamamos un modelo de probabil-
idad, uno de los dos pilares de un modelo estadístico; y el otro es el modelo
81
82 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
muestral que será el tema del siguiente capítulo en el que consideramos la

metamorfosis de GnIID .
3.1.2 ¿Porqué nos interesa?

El espacio estadístico, aunque adecuado para propósitos matemáticos, no se
presta naturalmente para la modelación de fenómenos estocásticos. Fenó-
menos estocásticos, tales como la tasa de crecimiento y la in‡ación de la
economía, se observan a menudo en forma de datos numéricos y no en tér-
minos de eventos abstractos. Por lo tanto, para propósitos de modelización
tenemos que transformar el abstracto espacio estadístico, de…nido en térmi-
nos de eventos y funciones conjunto, en algo menos abstracto, de…nido en
términos de números y funciones numéricas.

El modus operandi de esta transformación es el concepto de variable aleato-
ria, uno de los conceptos principales de la teoría de la probabilidad. Su fun-
ción principal es que nos permite mapear el espacio estadístico (S; =; P (:))n ; GnIID
en la recta real (R). En un intento por dilucidar el papel de este importante
concepto discutimos la transformación del abstracto espacio de probabilidad
(S; =; P (:)), en un modelo de probabilidad mucho más simple, con el mínimo
de maquinaria matemática, en la sección 2 para el caso donde el conjunto de
resultados es numerable. En la sección 3 consideramos el concepto de variable
aleatoria en un entorno general. En la sección 4 completamos la cadena de
transformaciones discutiendo el último eslabón: la distribución acumulada y
las funciones de densidad que constituyen el elemento básico de un modelo
de probabilidad. En la sección 5 reunimos los resultados de las secciones
anteriores y completamos la transformación del espacio de probabilidad en
un modelo de probabilidad (intercambiamos un espacio por un modelo!).
En las secciones 6 y 7 tomamos una digresión importante en un intento
por relacionar los parámetros desconocidos (el enfoque de la inferencia es-
tadística paramétrica) con las características numéricas de las distributiones.
Introducimos numerosos conceptos de valor, como los momentos de una dis-
tribución, que resultarán imprescindibles en el contexto de la modelación,
así como de la inferencia estadística. Baste decir que la modelizaciónse hace
a menudo a través de los momentos de una distribución. En la sección 8
3.2. EL CONCEPTO DE VARIABLE ALEATORIA SIMPLE 83
exponemos varias desigualdades probabilísticas que relacionan proposiciones

probabilísticas para una variable aleatoria X y ciertos momentos.
3.2 El concepto de variable aleatoria simple

Con el …n de ayudar al lector a mantener un ojo en el bosque decimos desde
el principio que el mapeo del espacio de probabilidad (S; =; P (:)) a la recta
real (R) se llevará a cabo en tres pasos. El primer paso es mapear S en la
recta real R, de tal manera que se preserve la estructura del evento de interés
=; el concepto de variable aleatoria X. Armados con el concepto de variable
aleatoria procedemos a dar el segundo paso, que equivale a intercambiar la
función conjunto probabilidad
P (:) : = ! [0; 1]
por una función numérica mucho más simple punto a punto, la función
de distribución acumulada (fda), de…nida en términos de X :
FX (:) : R ! [0; 1]
El tercer paso es simpli…car la fda transformándola en la función de

densidad:
fX (:) : R ! [0; 1)
La noción de modelo de probabilidad se de…ne a menudo en términos de

la función de densidad.
Desde el punto de vista matemático, es siempre más satisfactorio de…nir
un concepto en toda su generalidad y luego proceder a analizar los casos
especiales. Desde el punto de vista pedagógico, sin embargo, con frecuencia
es mejor comenzar la discusión con el caso más simple y, a continuación, pro-
ceder a la formulación más general con el …n de ayudar al lector a comprender
el concepto sin maquinaria matemática indebida. En el caso del concepto de
variable aleatoria lo que hace que la de…nición sea fácil o no tan fácil, desde
el punto de vista matemático, es si el conjunto de resultados es contable o
no. En el caso de un conjunto contable de resultados, la variable aleatoria se
dice que es simple (o discreta) ya que toma un número numerable de valores.
Para ayudar al lector a comprender el concepto moderno de variable aleato-
ria y cómo se transforma el abstracto espacio estadístico en algo mucho más
fácil de manejar, la discusión se inicia con el caso más simple y después se

discuten los más complicados:
(i) el conjunto de resultados es …nito,
(ii) el conjunto de resultados es in…nito numerable,
(iii) el conjunto de resultados no es numerable
3.2.1 Conjunto …nito de resultados: S = fs1 ; s2 ; :::; sn g

Una variable aleatoria simple con respecto al espacio de eventos =, se
de…ne como una función
X (:) : S ! RX tal que AX := fs : X (s) = xg 2 = para todo x 2 R (3.1)
Heurísticamente, una variable aleatoria es una función que asigna números

a todos los elementos de S en una manera que preserva la estructura del
espacio de eventos =.
Ejemplo.
La función X (:) : S ! RX = f1; 2g ; donde S = f|; •; ; ~g de…nida
por
X (|) = X (•) = 1; X ( ) = X (~) = 2
es una variable aleatoria con respecto al espacio de eventos
= = fS; ;; f|; •g ; f ; ~gg
Esto se debe a que los eventos asociados con RX = f1; 2g:

A1 = fs : X (s) = 1g = f|; •g 2 = y A2 = fs : X (s) = 2g = f ; ~g 2 =
son eventos que pertenecen a =.
Contraejemplo
La función Y (:) : S ! RY = f0; 1g ; de…nida por
Y (~) = 0; Y (|) = Y (•) = 1; X ( ) = 1 (3.2)
no es una variable aleatoria respecto a = porque el evento fs : Y (s) = 0g =

f~g 2
= =.
Hay varias cosas que tener en cuenta sobre la de…nición anterior:
En primer lugar, el nombre de variable aleatoria es algo inapropiado. La

de…nición de variable aleatoria (3.1) no tiene nada que ver con probabilidades
y por lo tanto, no es ni aleatoria ni variable, es sólo una función real.
En segundo lugar, el concepto de variable aleatoria se de…ne siempre
en relación con un espacio para eventos =; si o no X (:) satisface la condición
(3.1) depende de =, no de P (:). El hecho de que una cierta función real no sea
una variable aleatoria con respecto a = particular, no signi…ca que no puede
ser una variable aleatoria con respecto a algún otro espacio de eventos. En
efecto, para toda función Y (:) : S ! RY podemos siempre de…nir un campo
=Y con respecto al que Y (:) es una variable aleatoria; llamamos =Y el campo
generado por Y (:); ver Bhat (1985).
Figura 3.1 La preimagen de una función.
Ejemplo
En el caso de Y (:) como se de…ne en (3.2) podemos generar un espacio
para eventos =Y con respecto al cual es una variable aleatoria simple, de la
siguiente manera
(i) de…nir todos los eventos asociados con Y (:) :
fs : Y (s) = 1g = f|; •; g ; fs : Y (s) = 0g = f~g ;

(ii) generar un campo usando los eventos derivados en (i):
=Y := (Y ) = fS; ;; f|; •; g ; f~gg ;

=Y := (Y ) es conocido como el mínimo campo generado por la variable
aleatoria Y:
Tercero, el conjunto AX no es un conjunto sobre la recta real, es la

preimagen de X en X = x que también puede ser denotada por:
1
AX = fs : X (s) = xg = X (x) ; x 2 R.
NOTE que la preimagen de X no es la función inversa habitual. El
concepto de una preimagen de un elemento del codominio se ilustra en la
…gura 3.1.
Cuarto, los valores de R que no pertenecen a Rx tienen al conjunto vacio
; como su preimagen. El conjunto vacío, sin embargo, pertenece siempre a
todo =:
1
X (x) = fs : X (s) = xg = ; 2 =; 8x 2 Rx := (R Rx ) :
En un cierto sentido, el concepto de variable aleatoria conserva la estruc-
tura de eventos de un espacio particular de eventos =, al asegurar que la
preimagen de la función X (:) : S ! RX , de…ne un mapeo
1
X (:) : R ! =
donde 8x 2 RX , X 1 (x) 2 = y 8x 2 = RX , X 1 (x) = ; 2 =. Esto divide

la recta real en dos subconjuntos, RX y RX , con el primero asociado con
la estructura de eventos de interés y el segundo con todo lo que carece de
interés.
Quinto, la naturaleza de la variable aleatoria depende fundamentalmente
del tamaño del campo en cuestión. Si = es pequeño, ser una variable aleatoria
con respecto a = es muy restrictivo. Por ejemplo en el caso =0 = fS; ;g la
única X (:) : S ! R que es una variable aleatoria con respecto a =0 es
X (s) = c; 8s 2 S; siendo c una constante X es una variable aleatoria
degenerada. Por otro lado, si es grande =, por decir el conjunto potencia,
entonces se necesita mucha extraña imaginación para de…nir una función
X (:) : S ! R que no es una variable aleatoria con respecto a el. Después de
estas observaciones sobre la de…nición de una variable aleatoria volvamos al
concepto mismo para considerar algunos ejemplos
Ejemplo.
Un ejemplo importante de una variable aleatoria simple es la función
indicador de…nida en relación con un conjunto A en = como sigue:
1; s 2 A
IA (s) =
0; s 2
=A
Vamos a demostrar que IA (s) es en realidad una variable aleatoria. Tomando

su preimagen se obtiene
IA1 (0) = A 2 = y IA1 (1) = A 2 =:

Sabemos que esto es cierto, porque si A 2 = entonces A 2 =. Esto
demuestra que la IA (:) es una variable aleatoria con respecto a =. Además,
=A = A; A; S; ; es el mínimo espacio de eventos generado por la función
indicador.
Asignando probabilidades
Utilizando el concepto de variable aleatoria mapeamos S (un conjunto
arbitrario) en un subconjunto de la recta real (un conjunto de números)
RX . Porque no queremos cambiar la estructura original de probabilidad
de (S; =; P (:)) imponemos la condición (3:1) para garantizar que todos los
eventos de…nidos en términos de la variable aleatoria X pertenezcan al es-
pacio original de eventos =. También queremos asegurarnos de que a los
mismos eventos en el espacio de probabilidad original (S; =; P (:)) y la nueva
formulación, tal como AX = fs : X (s) = xg, se les asignen las mismas prob-
abilidades. Con el …n de asegurar esto, se de…ne la función punto fX (:) que
llamamos función de densidad de la siguiente manera:
fX (:) = P (X = x) ; 8x 2 RX . (3.4)
NOTE que (X = x) es una notación abreviada para AX := fs : X (s) = xg.
= RX , X 1 (x) = ; y, por lo tanto, fX (X) = 0, para toda
Con claridad, x 2
x2= RX .
Ejemplo. En el caso de la función indicador, si permitimos que X (s) :=
IA (s), podemos de…nir la densidad de probabilidad de la siguiente manera:
fX (1) := P (X = 1) = ; y fX (0) := P (X = 0) = (1 ),
donde 0 1. Esto se conoce como la densidad de Bernoulli:
x 0 1
fX (x) (1 )
¿Qué hemos ganado?
En el contexto del espacio de probabilidad original (S; =; P (:)), donde
S = fs1 ; s2 ; :::; sn g, la estructura probabilística del experimento aleatorio se
ha especi…cado en términos de
X
n
fp (s1 ) ; p (s2 ) ; :::; p (sn )g ; tal que p (si ) = 1.
i=1
Armados con esto podemos asignar una probabilidad a cualquier evento

A 2 = como sigue. Sabemos que todos los eventos A 2 = son sólo uniones
de ciertos resultados. Dado que los resultados también son eventos elemen-
tales mutuamente excluyentes, procedemos a utilizar el axioma [3] (véase
el capítulo 2) para de…nir la probabilidad de A como igual a la suma de
las probabilidades asignadas a cada uno de los resultados que componen el
evento A, es decir, si A = fs1 ; s2 ; :::; sk g, entonces:
X
k
P (A) = p (si ) :
i=1
Ejemplo
En el caso del experimento aleatorio de "lanzar una moneda dos veces":
S = f(HH) ; (HT ) ; (T H) ; (T T )g ; = = } (S) ,

donde } (S) represesnta el conjunto potencia de S: el conjunto de todos
los subconjuntos de S (véase el capítulo 2). La variable aleatoria de interés
se de…ne por: X- el número de "caras". Esto sugiere que los acontecimientos
de interés son:
A0 = fs : X = 0g = f(T T )g ;
A1 = fs : X = 1g = f(HT ) ; (T H)g ;
A2 = fs : X = 2g = f(HH)g :
En el caso de una moneda no trucada, a los cuatro resultados se les da la

misma probabilidad y por lo tanto:
1
P (A0 ) = P fs : X = 0g = P f(T T )g = ;
4
1
P (A1 ) = P fs : X = 1g = P f(HT ) ; (T H)g = ;
2
1
P (A2 ) = P fs : X = 2g = P f(HH)g = :
4
Volviendo al tema principal de este capítulo, podemos a…rmar que usando

el concepto de variable aleatoria logramos la transformación siguiente:
X(:)
(S; =; P (:)) ) (RX ; fX (:)) ;
donde la estructura probabilistica original ha sido transformada en:
Xm
ffX (x1 ) ; fX (x2 ) ; :::; fX (xm )g ; tal que fX (xi ) = 1; m n;
i=1
esto se conoce como la distribución de probabilidad de una variable

aleatoria X.
La cuestión que se plantea en este punto es en qué medida la última de-
scripción de la estructura probabilística es preferible a la primera. A primera
vista parece como si ninguna distancia se halla ganado por esta transforma-
ción. Sin embargo, esto es engañoso y una gran distancia se ha ganado por
dos razones:
(a) En lugar de tener que especi…car ffX (x1 ) ; fX (x2 ) ; :::; fX (xn )g listán-
dolas, podemos utilizar funciones reales simples en forma de fórmulas tales
como:
fX (x; ) = x
(1 )1 x
; x = 0; 1; y 0 1; (3.6)
que especi…can la distribución implícitamente. Para cada valor de X la
función fX (x) especi…ca su probabilidad. Esta fórmula constituye una forma
más compacta de especi…car la distribución dada anteriormente.
(b) Usando tales fórmulas no es necesario conocer las probabilidades aso-
ciadas a los eventos de interés a priori. En el caso de la fórmula anterior,
podría ser desconocido y el conjunto de tales funciones de densidad se le
conoce como una familia de funciones de densidad indexadas por . Esto
es particularmente importante para los propósitos de modelización donde
dicha colección de funciones de densidad proporciona la base de modelos
de probabilidad. En cierto sentido, la incertidumbre sobre el resultado de
una prueba particular (condición [b] de…niendo un experimento aleatorio) se
ha convertido en la incertidumbre sobre el "verdadero" valor del parámetro
desconocido .
La distribución de…nida por (3.6) se conoce como la distribución de
Bernoulli. Esta distribución se puede utilizar para describir los experimen-
tos aleatorios con sólo dos resultados.
Ejemplo
Considere el experimento aleatorio de "lanzar una moneda dos veces":
S = f(HH) ; (HT ) ; (T H) ; (T T )g ; = = S; ;; A; A ;
donde el evento de interés es, por ejemplo A = f(HH) ; (HT ) ; (T H)g,
con P (A) = ; P A = 1 . De…niendo la variable aleatoria X(A) = 1
y X(A) = 0, la estructura probabilística del experimento es descrita por
la densidad de Bernoulli (3:6). Este tipo de experimento aleatorio se puede
extender fácilmente a n repeticiones del mismo experimento de dos resultado,
dando origen a la distribución llamada binomial discutida posteriormente.
Ejemplo
Considere el experimento aleatorio de "lanzar una moneda n veces y con-
tar el número de soles". El conjunto de resultados de este experimento se
de…ne por S = fS; Agn (el producto de fS; Ag n veces) con P (S) = ;
P (A) = 1 . De…nir la variable aleatoria:
X: el número total de S en n pruebas.
NOTE que el rango de valores de esta nueva variable aleatoria es RX =
f0; 1; 2; :::; ng. La variable aleatoria X está distribuida binomialmente y su
función de densidad para 0 x n es:
n
fX (x; ) = x
(1 )n x
; 0 x n; n = 1; 2; :::; 0 1; (3.7)
x
n n!
donde = (n k)!k!
; con n! = n (n 1) (n 2) (3) (2) (1).
x
Figura 3.2 Binomial (n = 10, = 0:15)
Figura 3.3 Binomial (n = 10, = 0:5).
Esta fórmula se puede representar grá…camente para valores especí…cos

de . En las …guras 3.2 y 3.3 podemos ver la grá…ca de la función de densidad
binomial (3.7) con n = 10 y dos diferentes valores del parámetro desconocido,
= 0:15 y = 0:5, respectivamente. El eje horizontal representa los valores
de la variable aleatoria X (RX = f0; 1; 2; 3; :::; ng) y el eje vertical representa
los valores de las probabilidades correspondientes, como se muestra debajo.
x 0 1 2 3 4 5 6 7
8 9 10
f (x; 0:15) 0.197 0.347 0.276 0.130 0.040 0.009 0.001 0.000 0.000
0.000 0.000
f (x; 0:5) 0.001 0.010 0.044 0.117 0.205 0.246 0.205 0.117 0.044
0.010 0.001
Para concluir esta subsección, vale la pena destacar que los bene…cios
del uso de funciones de densidad son aún más evidentes en el caso de que
el conjunto de resultados S es in…nito pero contable. Como se muestra a
continuación, en tal caso listar las probabilidades para cada s 2 S en una
tabla es imposible. La asignación de probabilidades utilizando una función
de densidad, sin embargo, hace que sea trivial.
3.2.2 Conjunto contable de resultados: S = fs1 ; s2 ; :::; sn ; :::g

Consideremos el caso del conjunto contable de resultados contables S =
fs1 ; s2 ; :::; sn ; :::g. Se trata de una simple extensión del caso de conjunto
…nito de resultados donde la estructura probabilística del experimento se

expresa en términos de:
X
1
fp (s1 ) ; p (s2 ) ; :::; p (sn ) ; :::g ; tal que p (si ) = 1:
i=1
La probabilidad de un evento A 2 =, es igual a la suma de las prob-

abilidades asignadas a cada uno de los resultados que conforman el evento
A:
y
X
k
P (A) = p (si ) :
i:fsi 2Ag
Ejemplo.
Consideremos el experimento aleatorio aleatorio "lanzar una moneda hasta
que la primera H aparece" . El conjunto de resultados es:
S = f(H) ; (T H) ; (T T H) ; (T T T H) ; (T T T T H) ; ::::g :
y sea el espacio de eventos el conjunto potencia de S. Si de…nimos la

variable aleatoria X(:) - el número de ensayos necesarios para obtener una
H, es decir
X(H) = 1; X(T H) = 2; X(T T H) = 3; etc.,
y P(S) = ; entonces la función de densidad para este experimento es:
fX (x; ) = (1 )x 1
; 0 1; x 2 RX = f1; 2; 3; :::g
Esta es la función de densidad de la distribución geométrica. Esta

función de densidad se representa grá…camente en las …guras 3.4 - 3.5 para
n = 20 y dos valores diferentes del parámetro desconocido = 0:20 y =
0:35, respectivamente. En cuanto a los grá…cos podemos ver por qué se
llama Geométrica: las probabilidades disminuyen geométricamente cuando
los valores de X crecen.
3.3. EL CONCEPTO GENERAL DE VARIABLE ALEATORIA 93
3.3 El concepto general de variable aleatoria

Después de haber introducido los conceptos básicos necesarios para la trans-
formación del espacio abstracto de probabilidad (S; =; P (:)) en algo más
apropiado (y manejable) para propósitos de modelación, utilizando el caso
más simple de conjunto contable de resultados, procederemos ahora a explicar
estos conceptos en su plena generalidad.
3.3.1 Conjunto no contable de resultados

Como preludio a la discusión que sigue, vamos a ver por qué la estrategia
anterior de asignar probabilidades a cada uno de los resultados en el caso de
un conjunto no contable, por ejemplo S = R, no funciona. La razón es muy
simple: el conjunto de resultados tiene
Figura 3.4 Geométrica (n = 20; = 0:2) :

Figura 3.5 Geométrica (n = 20; = 0:35) :
tantos elementos que es imposible colocarlos en una sucesión y por lo

tanto contarlos. Por lo tanto, cualquier intento de seguir el procedimiento
utilizado en el caso de conjunto contable de resultados dará lugar a di…cul-
tades insalvables. Intuitivamente sabemos que no podemos cubrir la recta
real punto por punto. La única manera de recubir R, o cualquiera de sus sub-
conjuntos incontables, es utilizar una sucesión de intervalos de cualesquiera
de las siguientes formas:
(a; b) ; [a; b] ; [a; b) ; ( 1; a] ; donde a < b; a; b 2 R:
Veremos en la secuela que la forma más conveniente para tales intervalos
es
f( 1; x]g 8x 2 R.
Variable aleatoria
En vista de la discusión anterior, cualquier intento de de…nir una variable
aleatoria utilizando la de…nición de una variable aleatoria simple:
1
X (:) : S ! RX tal que fs : X (s) = xg := X (x) 2 =8x 2 R (3.9)
está condenado al fracaso. Hemos convenido en que la única manera

que podemos recubir R es el uso de intervalos no de puntos. Los intervalos
semiin…nitos (3.8) sugieren la modi…cación de los eventos fs : X (s) = xg de
(3.9) en eventos de la forma fs : X (s) xg.
Una variable aleatoria relativa a = es una función X (:) : S ! R, que
satisface la restricción:
1
fs : X(s) xg := X (( 1; x]) 2 = para todo x 2 R: (3.10)
NOTE que la única diferencia entre esta de…nición y la de una variable

aleatoria simple se presenta en forma de los eventos utilizados. Además,
teniendo en cuenta el hecho de que:
fs : X(s) = xg fs : X(s) xg
3.3. EL CONCEPTO GENERAL DE VARIABLE ALEATORIA 95
esta última de…nición incluye la primera como un caso especial, de ahí el

término variable aleatoria simple. En principio, podríamos haber empezado
la discusión con la de…nición general de una variable aleatoria (3.10) y después
aplicarla a los varios distintos tipos de conjuntos de resultados.
A patir de esta de…nición podemos ver que la preimagen de la variable
aleatoria X(:) nos conduce desde intervalos ( 1; x], x 2 R, de nuevo al
espacio de eventos =. El conjunto de todos tales intervalos genera un -
campo en la recta real que llamamos el campo Borel ß (R):
ß
(R) = (( 1; x] ; x 2 R).
Por lo tanto, en un sentido formal, la preimagen de la variable aleatoria

X consituye un mapeo del campo de Borel ß (R) al espacio de eventos = y
toma la forma:
1
X (:) : ß
(R) ! =
Esto asegura que la variable aleatoria X preserve la estructura de eventos

de = debido a que la preimagen preserva el conjunto de operaciones teóricas
(ver Karr (1973)):
S S
(i) Unión: X 1 ( 1 )= 1
i=1 BiT
1
i=1 X T (Bi )
(ii) Intersección: X 1 ( i=1 Bi ) = 1
1
i=1 X
1
(Bi )
1 1
(iii) Complemento: X B = (X (Bi )).
El espacio de probabilidad inducido por una variable aleatoria
*
Vamos a hacer un balance de lo que hemos logrado hasta ahora. La
transformación del espacio de probabilidad (S; =; P (:)) en algo más apropiado
para los propósitos de la modelizaciónhasta el momento ha intercambiado
el conjunto de resultados S por un subconjunto de la recta real RX y el
espacio de eventos = por el campo Borel ß (R). El modus operandi de esta
transformación ha sido el concepto de variable aleatoria. El siguiente paso
será transformar P (:) : = ! [0; 1] en una función conjunto sobre la recta real
o, más precisamente sobre ß (R). Esta transformación de la función conjunto
de probabilidad toma la forma:
1
P (X x) = PX (( 1; x]) = PX (( 1; x]) ,
Es muy importante NOTAR en esta etapa que los eventos en los términos
primero y segundo son los elementos del espacio de eventos = pero que el de
la última igualdad es un elemento de ß (R). Ahora estamos en condiciones
para asignar probabilidades a intervalos de la forma (( 1; x] ; x 2 R) cuya
preimagen pertenece a =. Para otros intervalos de la forma (a; b), [a; b], [a; b),
( 1; a), etc podemos usar el teorema de extensión de Caratheodory para ex-
tender la función conjunto de probabilidad con el …n a asignar probabilidades
a cada elemento Bx de ß (R).
1
PX (Bx ) = PX (Bx ) para todo Bx 2 ß(R) .
Esto de…ne una nueva función conjunto de probabilidad como una función
compuesta PX 1 (:) donde P (:) : = ! [0; 1] ; X 1 : ß(R) ! =, y por lo tanto:
1
PX (:) := PX (:) : ß(R) ! [0; 1] :
Reuniendo los elementos anteriores podemos ver que, en efecto, una vari-
able aleatoria X induce un nuevo espacio de probabilidad (R; ß(R) ; PX (:))
con el que podemos reemplazar el abstracto espacio de probabilidad (S; =; P (:)).
La principal ventaja del primero sobre el segundo es que todo tiene lugar en
la recta real y no en un espacio abstracto. En analogía directa con los re-
sultados del caso de conjunto contable de resultados, el concepto general de
una variable aleatoria induce el siguiente mapeo:
X(:)
(S; =; P (:)) ! (R; ß(R) ; PX (:))
Es decir, con la ayuda de X(:) intercambiamos S por R, = por ß (R) y P (:)
por PX (:). Para …nes de referencia llamamos a (R; ß(R) ; PX (:)) el espacio
de probabilidad inducido por una variable aleatoria X; ver Galambos (1995).
Funciones Borel (medibles). En teoría de la probabilidad estamos
interesados no sólo en las variables aleatorias, sino también en funciones bien
comportadas de dichas variables aleatorias. Por funciones bien comportadas
en el cálculo, por lo general nos referimos a funciones continuas o diferen-
ciables. En teoría de la probabilidad por funciones bien comportadas nos
referimos a las funciones que conservan la estructura de eventos de su argu-
mento variable aleatoria. Una función de…nida por:
1
h(:) : R ! R tal que fh(x) xg := h (( 1; x]) 2 ß(R) , para todo x 2 R,
3.4. LA DISTRIBUCIÓN ACUMULADA Y FUNCIONES DE DENSIDAD97
recibe el nombre de función Borel (medible ). Es decir, una función

de Borel es una función que es una variable aleatoria con respecto a ß (R).
NOTE que las funciones indicador, las funciones monótonas, las funciones
continuas, así como las funciones, con un número …nito de discontinuidades,
son funciones de Borel; ver Khazanie (1976), Bierens (1994).
Igualdad de variables aleatorias. Las variables aleatorias son difer-
entes a las funciones matemáticas en la medida en que su estructura prob-
abilística es de suma importancia. Por lo tanto, la noción de igualdad para
las variables aleatorias implica esta estructura probabilística. Dos variables
aleatorias X e Y , de…nidas en el mismo espacio de probabilidad (S; =; P (:)),
se dice que son iguales con probabilidad uno (o casi seguramente) si (ver Karr
(1993)):
P (s : X(s) 6= Y (s)) = 0, para toda s 2 S;

es decir, si el conjunto (s : X(s) 6= Y (s)) es un evento con probabilidad
cero.
3.4 La distribución acumulada y funciones de

densidad
3.4.1 La función de distribución acumulada
Utilizando el concepto de una variable aleatoria X(:), hasta ahora hemos
transformado el abstracto espacio de probabilidad (S; =; P (:)) en un espacio
menos abstracto (R; ß(R) ; PX (:)). Sin embargo, no hemos alcanzado nue-
stro objetivo todavía porque PX (:) := PX 1 (:) sigue siendo una función
conjunto. Es cierto que se trata de una función conjunto mucho más fácil
porque se de…ne en la recta real, pero es una función de conjunto de todos
modos. Preferimos una función numérica punto a punto con la que estamos
familiarizados.
La manera en que transformamos la función conjunto PX en una función
numérica punto a punto es un ardid ingenioso. Visulizando a PX (:) como
sólo una función del punto …nal del intervalo ( 1; x] de…nimos la función
de distribución acumulada (fda):
FX (:) : R ! [0; 1] donde FX (x) = P fs : X(s) xg = PX (( 1; x]) :

La táctica que llevo a esta de…nición empezó hace unas cuantas páginas
cuando argumentamos que aún cuando podríamos usar cualquiera de los
siguientes intervalos (véase Galan (1995)):
(a; b) ; [a; b] ; [a; b) ; ( 1; a] ; donde a < b; a 2 R, b 2 R,
para generar el campo de Borel ß(R), optamos por los intervalos de la

forma: ( 1; x], x 2 R. En vista de esto, podemos pensar en la fda como
de…nida mediante
P fs : a < X(s) bg = P fs : X(s) bg P fs : X(s) ag

= PX ((a; b]) = FX (a) FX (b)
y entonces asumir que FX ( 1) = 0.

Las propiedades de la función de la fda FX (x) de la variable aleatoria X
están determinadas por aquellas de (S; =; P (:)). En particular, a partir de
los axiomas [1] [3] de P (:) y de la estructura matemática de los -campos =
yß (R). Resumimos las propiedades de la función de distribución acumulada
(ver Karr (1993)):
F1: FX (x) FX (y); para x y; x; y números reales,
F2: lim+ FX (x) = FX (x0 ); para todo número real x0 ,
x!x0
F3: lim FX (x) := FX (1) = 1; lim FX (x) := FX ( 1) = 0.
x!1 x! 1
donde x ! x+ +
0 se lee "cuando x tiende a x0 a través de valores superiores a
x0 ". Es decir, FX (x) es una función no decreciente, continua por la derecha
tal que que FX ( 1) = 0 y FX (1) = 1. Las propiedades F1 y F3 no
requieren más explicación pero F2 no es obvia. La propiedad de continuidad
por la derecha de la fda se deriva del axioma de aditividad contable [3] de
la función conjunto de probabilidad a la función P (:) y su valor radica en el
hecho de que en cada punto de discontinuidad x0 la propiedad F2 se cumple.
La función de distribución acumulada (fda) proporciona el último eslabón
de la cadena de la metamorfosis de (S; =; P (:)) en algo más susceptibles a
modelar. Antes de proceder a mejorar nuestra comprensión intuitiva del
concepto tenemos que relacionarlo con la noción de función de densidad in-
troducido en el contexto de variables aleatorias (discretas) simples.
El lector perspicaz se habría dado cuenta que en el contexto de variables
aleatorias (discretas) simples la metamorfosis del abstracto espacio de prob-
abilidad toma la forma:
X(:)
(S; =; P (:)) ) (RX ; fX (:)) ;
donde RX = fx1 ; x2 ; :::; xn ; :::g : La estructura probabilística original se
ha transformado en:
X
ffX (x1 ) ; fX (x2 ) ; :::; fX (xm;::: )g ; tal que fX (xi ) = 1:
xi 2RX
El último eslabón en la cadena de transformaciones fue la noción de fun-

ción de densidad:
fX (:) : RX ! [0; 1] ; fX (x) := P (X = x) , para toda x 2 R.

Por otra parte, en el contexto de una variable aleatoria continua (conjunto
no contable de resultados) la metamorfosis toma la forma
X(:)
(S; =; P (:)) ! (RX ; FX (:)) ,
con la fda siendo el último eslabón de la cadena. La razón por la cual
la función de densidad no se puede de…nir directamente en este caso ha sido
discutido ampliamente en el capítulo anterior.La esencia del argumento es
que en el caso de un conjunto no contable de resultados no podemos de…nir
la probabilidad en un punto sino sólo en un intervalo.
3.4.2 La función de densidad

En esta etapa, dos preguntas surgen de manera natural. La primera es si
podemos de…nir una función de densidad en el caso de una variable aleatoria
continua. La segunda es si podemos de…nir una función de distribución en el
caso de una variable aleatoria discreta. Ambas preguntas serán contestadas
a…rmativamente comenzando con la primera.
Una vez de…nida la función de distribución acumulada en intervalos de la
forma (( 1; a]), podemos proceder a recuperar la función de densidad fx (:)
(cuando existe) Suponiendo que existe una función de la forma:
fX (:) : R ! ( 1; x] ;
tal que se relaciona con la fda a través de:
Z x
FX (x) = fX (u) du; donde fx (u) 0, (3.14)
1
fX (:) se dice que es una función de densidad correspondiente a FX (x).

Esta recuperación presupone la existencia de una función no negativa
cuya forma uno tiene que conjeturar a priori. En los casos en los cuales
se supone que fX (:) es continua, uno puede recuperarla de FX (x) usando
el teorema fundamental del cálculo (véase Strang (1991), Binmore (1993)).
Suponiendo que fX (:) es una función continua de x:
Rx
(a) si FX (x) = 1 fX (u) du; entonces dFdx
X (x)
= fX (x),
dFX (x) Rx
(b) si dx = fX (x) ; entonces 1 fX (u) du = FX (b) FX (a).
Figura 3.6 fda exponencial.
Usando el teorema fundamental del cálculo podemos recuperar la función

de densidad mucho más fácil mediante la diferenciación usando el hecho de
que:
dFX (x)
dx
= fX (x) ; en todos los puntos de continuidad x 2 R de fX (x).
Ejemplo
Considerar el experimento aleatorio de ”medir la duración de un foco en
un hogar típico.” La función de distribución acumulada a menudo utilizada
para modelar este experimento es el de la distribución exponencial:
x
FX (x; ) = 1 e ; > 0; x 2 R+ := [0; 1)
La grá…ca de la función de distribución para = 3 se muestra en la …gura
3.6. Teniendo en cuenta el hecho de que FX (x; ) es continua para todo
x 2 R+ , podemos deducir que la función de densidad es la derivada de esta

función y tiene la forma
fX (x; ) = e x ; > 0; x 2 R+
Figura 3.7 Densidad exponencial.
La función de densidad, para variables aleatorias continuas, de…nida por

(3.14), cumple las siguientes propiedades:
f1. RfX (x) 0; 8x 2 Rx ;
x
f2. 1 fX (x) dx = 1;
Rb
f3. FX (b) FX (a) = a fX (x) dx; a 2 R; b 2 R.
Ahora centramos nuestra atención en la cuestión de si podemos de…nir una
función de distribución en el caso de variables aleatorias (discretas) simples.
La de…nición de función de distribución acumulada dada en (3.12) también
es aplicable al caso en el que X(:) toma valores en un subconjunto numerable
de R. Para Rx = fx1 ; x2 ; :::; xn g, donde x1 < x2 < ::: < xn , la fda de una
variable aleatoria X (:) se de…ne en términos de la función de densidad por:
Xk
FX (xk ) = P (fs : X(s) xk g) = fX (xi ) ; para k = 1; 2; :::; n: (3.15)
i=1
también se aplica al caso donde X(:) toma valores en un subconjunto

contable de R: Para RX = fx1 ; x2 ; :::; xn g, donde x1 < x2 <; :::; < xn ; la fdia
de una v.a. X(:); se de…ne en términos de la fde por:
Xk
FX (xk ) = P (fs : X(s) xk g) = fX (xi ) ; para k = 1; 2; :::; n:
i=1
Es decir, la fda de una variable aleatoria (discreta) simple es una función

escalón con saltos de…nidos por fX (:). El término acumulado proviene del
hecho de que la función de distribución en ambos casos (3.12) y (3.15) acu-
mula las probabilidades dadas por las funciones de densidad. Esto se hace
evidente al ordenar los valores de X en orden ascendente x1 x2 ; :::; xn
y suponiendo que FX (x0 ) = 0, entonces FX (:) y fX (:) se relacionan a través
de
fX (xi ) = FX (xi ) FX (xi 1 ) ; i = 1; 2; :::; n:

La función de densidad, en el caso de una variable aleatoria discreta,
tiene propiedades similares a las anteriores con la integral sustituida por
una suma:
f1. P
fX (x) 0; 8x 2 Rx ;
f2. xi 2Rx fX (xi ) = 1;P
f3. FX (b) FX (a) = a<xi b fX (xi ) ; a < b; a 2 R; b 2 R.
Ejemplo.
En el caso de la variable aleatoria Bernoulli la función de densidad es:
fX (1) = y fX (0) = 1 ,
donde 0 1 (ver 3.5). Esto se muestra en la …gura 3.8 para un valor
conocido de , denotado por = 0:6. La fda correspondiente toma la forma
FX (0) = ; FX (1) = 1:
8 9
< 0; x < 0 =
FX (x) = ; 0 x 1;
: ;
1; 1 x:
Figura 3.8 Densidad Bernoulli.

Como se puede observar en la …gura 3.9 la fda es una función escalón con
saltos en x = 0 de altura (1 ) = 0:4 y x = 1 de altura = 0:6. Los puntos
sobre los puntos (0; 0:4) y (1; 1) simbolizan la continuidad por la derecha de
la fda; estos puntos pertenecen a la línea superior no a la inferior.
Aunque la función de distribución parece ser la elección natural para la
asignación de probabilidades en los casos en que la variable aleatoria X(:)
toma valores en un subconjunto no contable de , la función de densidad se
ofrece más conveniente para los propósitos de modelación. Por esta razón,
concluimos esta sección por mencionar algunas distribuciones más, tanto para
variables aleatorias continuas y discretas.
Si se gra…ca se ve que fdia es una función escalonada con saltos en x = 0
de altura (1 ) = 0:4 y en x = 1 de altura = 0:6:
Aunque la fda parece la elección natural al asignar probabilidades cuando
la variable aleatoria X(:) toma valores en subconjuntos no contables de R, la
fda parece más conveniente para propósitos de modelación. Por esta razón
concluimos esta sección mencionando más distribuciones de variables aleato-
rias continuas y discretas.
Variable aleatoria continua. Una variable aleatoria X se dice que es
continua si su rango de valores es cualquier subconjunto no contable de R.
Un vistaso a la de…nición (3.13)-(3.14) sugiere que no se debe interpretar
la función de densidad de una variable aleatoria continua como una función
asignando probabilidades, ya que esta última puede tomar valores mayores
de uno!
Ejemplos
(i) La distribución más utilizada en teoría de la probabilidad y la inferen-
cia estadística es, sin duda, la distribución normal (o gaussiana) cuya función
de densidad es:
1 (x )2
fX (x; ) = p expf g; (3.16)
2 2 2
: = ; 2 2 R Rx , x 2 R.
La grá…ca de esta función de densidad, que se muestra en la …gura 3.10
con = 0 y 2 = 1, exhibe la bien conocida forma de campana con la que
la distribución normal es fácilmente reconocible. La fda para la distribución
normal es:
Zx
1 (x )2
FX (x; ) = p expf 2
gdu; (3.17)
2 2
1
2
: = ; 2R Rx , x 2 R.
La grá…ca de esta función de distribución, que se muestra en la …gura

3.11, presenta las distintas S alargadas asociadas a la distribución normal.
Figura 3.9 fda Bernoulli.
Figura 3.10 Densidad normal.

Figura 3.11 fda normal.
Figura 3.12 Densidad uniforme.
Figura 3.13 fda uniforme.

(ii) Otra distribución ampliamente utilizada es la uniforme (continua)

cuya función de densidad es de la forma:
1
fX (x; ) = , : = (a; b) 2 R2 , a x b. (3.18)
b a

para a = 1 y b = 3, presenta una forma rectangular. La fda para la distribu-
ción uniforme (continua) es la siguiente:
x a
FX (x; ) = , : = (a; b) 2 R2 , a x b. (3.19)
b a
La grá…ca de esta fda se muestra en la …gura 3.13.

Variable aleatoria discreta. Una variable aleatoria X se dice que es
discreta si su rango Rx es un subconjunto numerable (que se puede contar)
de la recta real R, y su función de densidad es de la forma:
fX (:) : R ! [0; 1].
Figura 3.14 Densidad uniforme (discreta).

Figura 3.15 fda uniforme (discreta).
En contraste con el caso de variable aleatoria continua, esta de…nición

sugiere que se podría interpretar la función de densidad de una variable
aleatoria discreta como una función de asignación de probabilidades.
Ejemplos
(i) La distribución uniforme también tiene una forma discreta, con una
función de densidad:
1
fX (x; ) = , es un entero x = 0; 1; 2; :::; . (3.20)
+1

para = 9, presenta la bien conocida forma de punta uniforme. La fda de
distribución uniforme (discreta) es la siguiente:
x+1
FX (x; ) = , es un entero, x = 0; 1; 2; :::; . (3.21)
+1
Su grá…ca se muestra en la …gura 3.15, donde los saltos son de la forma:
1
pk = , para = 9, k = 1; 2; :::; 9.
+1
Figura 3.16 Densidad Poisson.
Figura 3.17 fda Poisson.
(ii) Otra ampliamente utilizada distribución discreta es la de Poisson cuya

función de densidad es:
x
e
fX (x; ) = , > 0, x = 0; 1; 2; 3; ::: (3.22)
x!
para = 4, donde la asimetría en la forma de la densidad es evidente. La
fda para la distribución de Poisson es:
Xx e x
fX (x; ) = , > 0, x = 0; 1; 2; 3; ::: (3.23)
k=0x!
La grá…ca de la fda se muestra en la …gura 3.17.
3.5. DE UN ESPACIO DE PROBABILIDAD A UN MODELO DE PROBABILIDAD109
3.5 De un espacio de probabilidad a un mod-

elo de probabilidad
Vamos a reunir los distintos cabos. Inicamos la discusión en este capítulo
con un objetivo principal: transformar el abstracto espacio de probabilidad
(S; =; P (:)) construido en el capítulo anterior en algo más susceptible a la
modelación con datos numéricos. La primera etapa de la transformación
signi…có la introducción de la noción de una función real del espacio de los
resultados de S a la recta real R, obligada a preservar la estructura de eventos
del espacio original de eventos eventos =; el concepto de una variable aleato-
ria. En la segunda etapa utilizamos el concepto de una variable aleatoria
para mapear (S; =; P (:)) en (R; ß(R) ; PX (:)); siendo este último un edi…cio
sobre la recta real. En la tercera etapa transformamos la función conjunto
PX (:) en una función numérica punto a punto, la función de distribución
acumulada, por:
FX (x) = PX ( 1; x] .
En la última etapa hemos simpli…cado FX (:) aún más mediante la intro-
ducción de la función de densidad a través de:
Z x
FX (x) = fX (u) du, fX 0; para todo x 2 R.
1
A continuación extendimos la formulación al caso donde las probabil-

idades son funciones conocidas de ciertos parámetro desconocido(s) .
Esto se hizo mediante la introducción de estos parámetros en las fórmulas
para las funciones fda y de densidad: FX (x; , fX (x; ). Los detalles de esta
ampliación serán discutidon en el capítulo 10. Simbólicamente la transfor-
mación ha tomado la forma:
X(:)
(S; =; P (:)) ) (R; ß(R) ; PX (:)) ) ffX (x; ); 2 ; x 2 RX g :
Haciendo caso omiso de la etapa intermedia, podemos ver el mapeo a

nivel de los componentes individuales como:
S )RX y [=; P (:)] ) ffX (x; ); 2 g

El resultado …nal de esta metamorfosis es que el espacio de probabilidad

original (S; =; P (:)) se ha transformado en un modelo de probabilidad
de…nido por:
= ffX (x; ); 2 ; x 2 RX g
es un conjunto de funciones de densidad indexadas por un conjunto de

parámetros desconocidos ; una densidad para cada posible valor de en el
espacio de parámetros .
Es importante NOTAR que podríamos usar la fda en lugar de la función
de densidad como la base del modelo de probabilidad, en el sentido de que:
F = fF (x; ); 2 ; x 2 RX g
es aún más general que (3.24). Como puede verse en las grá…cos ante-
riores de las distintas fda y funciones de densidad, sin embargo, la forma
de las funciones de densidad es más fácil juzgar que la de la fda. Por ra-
zones matemáticas, a menudo pre…eren las fda, pero para los propósitos de
modelizaciónpor lo general preferimos la función de densidad. La noción
de modelo de probabilidad, tal como se de…ne en términos de funciones de
densidad, es conveniente para los propósitos de modelación, ya que, como se
muestra en el capítulo 5, existe una relación útil entre este concepto teórico
y los datos observados. Veremos cómo la noción de un función de densidad
constituye la contraparte de la teoría de la probabilidad de la noción de un
histograma en la estadística descriptiva y cómo esto se relaciona con una
grá…ca de tiempo de un conjunto de datos. En resumen, podemos construir
una relación directa entre el modelo de probabilidad y los datos reales con el
…n de ayudar en la elección de modelos adecuados.
Hay varias cosas que vale la pena enfatizar sobre el modelo de probabili-
dad de…nido en (3.24). En primer lugar, el modelo de probabilidad representa
una colección completa de densidades, a menudo un número in…nito, depen-
diendo de la naturaleza del espacio de parámetros : En cierto sentido, el
parámetro(s) encapsular la incertidumbre inicial en relación con el resul-
tado de una prueba particular, (condición [b]). En segundo lugar, el modelo
de probabilidad tiene tres componentes importantes: (i) la función de den-
sidad de una variable aleatoria X, (ii) el espacio de parámetros y (iii) el
rango de valores de la variable aleatoria que se trata RX . Para signi…car la
importancia del componente (iii) le damos un nombre especial.
El soporte de la densidad fX (:) es el rango de valores de la variable

aleatoria X para el cual la función de densidad es positiva, es decir,
RX := fx 2 RX : fX (x) > 0g.
Debido a la importancia fundamental del concepto de un modelo de prob-
abilidad consideraremos varios ejemplos a …n de permitir al lector comprender
los conceptos básicos.
Ejemplos.
(i) Considere el modelo de probabilidad de una distribución binomial
especi…cado por:
8 9
< n x n x =
f (x; ) = (1 ) ;
= x (3.25)
: ;
0 1; 0 x n; n = 1; 2; :::
En las …guras 3.18-3.21 podemos ver a varios miembros de este modelo de

probabilidad para el n = 20. Cada grá…ca representa una densidad para un
valor especí…co del parámetro desconocido: = 0:15, = 0:3, = 0:5, =
0:8. En teoría incluye una in…nidad de las densidades de este tipo (a saber
una in…nidad doble) debido a que el espacio de parámetros := [0; 1] tiene
un número no contable de elementos! Para las densidades que se muestran
en las …guras 3.18-3.21 el soporte es RX := f1; 2; :::; 20g.
(ii) Otro ejemplo interesante de un modelo de probabilidad es el Beta:
( )
1 1
x (1 x)
= f (x; ) = , = ( ; ) 2 R2+ , 0 < x < 1
B[ ; ]
En la …gura 3.22 se muestran varios miembros de esta familia de densi-

dades (uno para cada combinación de valores de ). Este modelo de prob-
abilidad tiene dos parámetros desconocidos > 0 y > 0; el espacio de
parámetros es el producto de la recta real positiva: := R2+ . Esto sugiere
que el conjunto tiene una in…nidad de elementos, uno para cada combi-
nación de elementos de dos conjuntos in…nitos. Su soporte es Rx := (0; 1).
Como puede verse, este modelo de probabilidad incluye funciones de den-
sidad de con formas muy diferentes dependiendo de los valores de los dos
parámetros desconocidos.
(iii) Otro ejemplo importante de un modelo de probabilidad es la Gama:
( )
1 1
x x
= f (x; ) = expf g, = ( ; ) 2 R2+ , x 2 R+ .
[ ]
En la …gura 3.23 se muestran varios miembros de esta familia de densi-

dades (uno para cada combinación de valores de ). Una vez más, el modelo
de probabilidad tiene dos parámetros desconocidos > 0 y > 0; el espacio
de parámetros es el producto de la recta real positiva: := R2+ . Su soporte
es Rx := (0; 1).

(iv) El último ejemplo de un modelo de probabilidad es la de Weibull:
1
x x
= f (x; ) = expf g, = ( ; ) 2 R2+ , x > 0 .
Varios miembros de esta familia de densidades (uno para cada combi-

nación de valores de ) se muestran en la …gura 3.24. Una vez más, el
modelo tiene dos parámetros desconocidos > 0 y > 0; el espacio de
parámetros es el producto de la recta real positiva: := R2+ . Su soporte es
Rx := (0; 1).
El modelo de probabilidad constituye uno de los dos pilares sobre los que
vamos a construir la noción de un modelo estadístico, la piedra angular de
la inferencia estadística (y de la modelizaciónempírica); el otro pilar es el
modelo muestral que se discutirá en el próximo capítulo.
Para propósitos de modelizaciónempírica utilizamos la noción de un mod-

elo de probabilidad de la siguiente manera. Postulamos a priori una de tales
familias de densidades como subyacente al mecanismo estocástico que dio
origen a los datos observados en cuestión: nuestra tarea como modeladores
es elegir la familia más adecuada para los datos en cuestión. A priori no nos
comprometemos con una densidad particular, por ejemplo f (x; 0 ), donde
0 es un valor especí…co de los parámetros desconocidos , proporcionando
el resumen adecuado de los datos en cuestión. En su lugar, asumimos que
esa densidad es un miembro de la familia postulada para alguna 2 . En
la modelizaciónempírica de…nimos el modelo de probabilidad en términos del
parámetro desconocido(s) y dejamos que los datos, utilizando la inferencia
estadística, elijan su valor apropiado de . La pregunta que naturalmente
surge en esta etapa es: ¿cómo tomamos la decisión inicial respecto de cual
es el modelo de probabilidad (ver apéndice A para varios modelos de este
tipo) adecuado? Una respuesta demasiado simpli…cada es que el modelador
considera de qué manera los tres componentes (i) - (iii) del modelo de prob-
abilidad se relacionan con los datos en cuestión.
El primer componente es la función de densidad. La manera más con-

veniente de evaluar la pertinencia de la función de densidad es comparar
las formas distribucionales (como las presentadas en los grá…cos anteriores)
con el histograma de los datos observados. Estas formas demostrarán ser
una de las luces guía en la elección de un modelo estadístico apropiado para
fenómeno estocástico que se trate. En el capítulo 5 vamos a demostrar cómo
Figura 3.22 Modelo de probabilidad Beta.
Figura 3.23 Modelo de probabilidad Gama.
Figura 3.24 Modelo de probabilidad Weibull.

el histograma se puede utilizar para tomar decisiones informadas con re-

specto a la densidad adecuada. Tomando el modelo de probabilidad Beta
como ejemplo, podemos ver que presenta una ‡exibilidad casi ilimitada en
relación con diferentes formas distribucionales; las formas mostradas en la
…gura 3.22 indican esta ‡exibilidad. No obstante, los otros dos modelos con-
tinuos de probabilidad, el Gamma y el Weibull también muestran ‡exibilidad
su…ciente en términos de formas lo que sugiere que no pueden por sí solos
dar respuesta a la cuestión de elegir el modelo de probabilidad adecuado.
Aquellos lectores que no están convencidos de esto deben echar un vistazo
a la …gura 3.25, donde dos densidades muy diferentes se ponen en contraste
para mostrar el resultado de que será imposible elegir entre ellas cuando se
enfrentan con datos reales. En la línea punteada tenemos la densidad normal
estándar y en la línea continua tenemos una densidad de Weibull de la forma:
( )
1
x x
= f (x; ) = expf g, = ( ; ) 2 R2+ , x > 2R .
con parámetros ( = 3:34; = 3:45; = 3). La mejor manera de

distinguir entre estas muy similares formas distribucionales es a través de
medidas de índice basadas en momentos (véase la sección siguiente) que son
invariantes a los cambios de escala y parámetros de localización; véanse más
adelante los coe…cientes de asimetría y de curtosis.
Figura 3.25 Weibull contra normal.

3.6. PARÁMETROS Y MOMENTOS 117
Además de las formas de distribución y los parámetros relacionados de

las densidades se debe considerar el soporte de la densidad en la toma de de-
cisiones sobre lo apropiado de los modelos de probabilidad. Por ejemplo, en
el caso del modelo Beta el soporte limita su utilidad a los casos en los cuales
los datos son porcentajes o se pueden expresarse como tales. Por ejemplo, en
el caso de la modelizaciónde datos que se re…ere a los resultados de exámenes
es a menudo más realista utilizar la versión beta y no la distribución normal
porque todos los resultados pueden ser fácilmente expresados en el inter-
valo [0; 1]; la distribución normal tiene soporte ( 1; 1). Por otro lado, si
los datos sólo pueden tomar valores positivos sin un claro límite superior el
modelador debe considerar los otros dos modelos de probabilidad. Por úl-
timo, una consideración importante en la toma de decisión sobre el modelo
más adecuado es la riqueza del menú a elegir; cuanto más familias de densi-
dades tengamos para elegir más alta es la probabilidad de que una de ellas
resulte ser apropiada en una situación dada . Por eso en el apéndice A
reunimos algunos de los modelos de probabilidad más importante para …nes
de referencia.
3.6 Parámetros y momentos

3.6.1 ¿Porqué nos interesa?
En la sección anterior hemos introducido el concepto de un modelo de prob-
abilidad:
= ffX (x; ); 2 ; x 2 RX g
como una formalización de las condiciones [a] - [b] de un experimento

aleatorio. Antes de que procedamos a formalizar la condición [c] (véase el
capítulo siguiente), hacemos una digresión importante para introducir una
forma más conveniente de tratar al parámetro desconocido(s) del modelo
de probabilidad. En el contexto de la inferencia estadística y la modelación
en general, la forma más e…caz de tratar a los parámetros desconocidos
es relacionarlos con los momentos de la distribución. Como se mencionó en
la sección anterior una de las consideraciones importantes en la elección de
un modelo de probabilidad son las formas que las diferentes familias de las
densidades pueden dar lugar. Estas formas están obviamente, relacionadas
con los parámetros desconocidos, pero eso no es consuelo para el modelador
que tiene que elegir un modelo tal a priori debido a que ellos son descono-
cidos! Por lo tanto, nos gustaría utilizar otro tipo de información que está
disponible a priori al hacer dicha elección. Junto con el histograma de los
datos, a menudo tenemos una serie de valores numéricos, tales como medias
aritméticas de la estadística descriptiva. Estos valores numéricos se relacio-
nan con lo que llamamos momentos de la distribución y se pueden utilizar
para hacer conjeturas con respecto a los parámetros desconocidos y por lo
tanto para las distintas formas de distribución.
Los momentos de una distribución se de…nen en términos de la esperanza
matemática de determinadas funciones de la variable aleatoria X, genérica-
mente denotados por h(X), de la siguiente manera:
Z 1
E [h(X)] = h (X) fX (x; )dx: (3.26)
1
En vista del hecho de que la integral se de…ne en términos de las funciones

de densidad fX (x; ), en general E [h(X)] es una función de , es decir,
E [h(X)] = g( ). (3.27)
Eligiendo formas especí…cas de la función h(X), tales como
h(X) = X r ; h(X) = jXjr ; r = 1; 2; :::; h, h(X) = etx ; h(X) = eitx
obtenemos varias funciones de la forma g( ) que implican lo que llamamos

momentos de fX (x; ).
En el modelación estadística, así como en la inferencia estadística, se
muestra que la mejor manera de manejar modelos de probabilidad (postular
un modelo estadístico, estimar , probar hipótesis acerca de estos parámet-
ros , etc.) es a menudo a través de los momentos de la distribución de
probabilidad postulada.
3.6.2 Características numéricas

En lo que sigue vamos a considerar algunos casos particulares de (3.26) con
el …n de discutir su papel en la modelizacióny en la inferencia.
Media
Para h(X) := X, donde X toma valores en RX , la integral anterior da
lugar a la media de la distribución:
Z 1
E [X] = xfX (x; )dx, para variables aleatorias continuas, (3.29)
1
X
E [X] = xi fX (xi ; ), para variables aleaorias discretas. (3.30)
xi 2RX
NOTE que la única diferencia en la de…nición de las variables aleatorias

continuas y discretas es la sustitución de la integral por una sumatoria. La
media es una medida de localización en el sentido de que conociendo la me-
dia X, tenemos alguna idea de donde se localiza fX (x; ). Intuitivamente,
la media representa una media ponderada de los valores de X, con las prob-
abilidades correspondientes proporcionando los pesos. Designando la media
por:
:= E [X]
la de…nición anterior sugiere que es una función de los parámetros

desconocidos , es decir ( ).
Ejemplos.
(i) Para la distribución Bernoulli:
( ) := E [X] = 0 (1 )+1 = ,
y así, la media coincide con el parámetro desconocido.
(ii) En el caso de la distribución Poisson:
x
fX (x; ) = e x! , 2 := (0; 1), x = 0; 1; 2; 3; :::,
X
1
k
X1
k 1
X1
k 1
e
( ) := E [X] = k k!
= e (k 1)!
= ya que (k 1)!
=
k=0 k=0 k=0
e.
(iii) Para la distribución Uniforme (una distribución continua):
fX (x; ) = 2 1 1 , x 2 [ 1 ; 2 ], := ( 1 ; 2 ), 1 < 1 < 2 < 1,
Z 2
( ) := E (X) = 2
x
1
dx = 12 2 1 1 x2 j 21 = 1 +2 2
1
(iv) Para la distribución Normal:
1 (x )2 2
f (x; ) = p expf 2
g; : = ; 2R R+ , x 2 R:
2 2
el parámetro es en realidad media de la distribución (de ahí la notación).
Z " #
1
1 (x )2
E (X) = x p exp 2
dx
1 2 2
Z 1
( z+ ) z2
= p exp ( ) dz
1 2 2
Z 1 Z 1
z2 1 z2
= p z exp dz + p exp dz
2 1 2 1 2 2
= 0 + (1) =
La segunda igualdad se sigue utilizando la sustitución z = x o x =

dx
z + , con dz = .
Para las variables aleatorias X1 y X2 y las constantes a; b y c, E(:) cumple
las siguientes propiedades:
E1. E [c] = c;
E2. E [aX1 + bX2 ] = aE [X1 ] + bE [X2 ] :
Estas propiedades designar a E(:) como una aplicación lineal.
Ejemplo
Sean X1 ; X2 ; :::; Xn variables P
aleatorias distribuidas Bernoulli con me-
n
dia
Pn . Hallar E
Pn[Y ] para Y = i=1 Xi . Usando [E2] podemos E [Y ] =
i=1 E (Xi ) = i=1 = n .
Varianza
Para h [X] := E [X E (X)]2 , la integral (3.26) proporciona la varianza:
Z 1
2
V ar (X) = E (X E (X)) = [X ]2 fX (x; )dx,
1
donde en el caso de variables aleatorias discretas la integral se sustituye

por la suma de costumbre (ver (3.29) y (3.30)). En nuestro contexto, la
varianza representa una medida de dispersión (variación) alrededor de la
media.
Ejemplos
(i) En el caso del modelo Bernoulli:
Var (X) = E (X E (X))2 = (0 )2 (1 )2 + (1 )2 = (1 ):

(ii) En el caso donde X tiene una distribución normal (ver (3.31)), uti-
lizando la misma sustitución, x = z + , podemos demostrar que la vari-
anza coincide con el parámetro desconocido 2 es decir, Var(X) = E [X 2 ]
(E [X])2 = 2 ya que
Z " #
1
1 (x )2
E X2 = x2 p exp 2
dx
1 2 2
Z !
1
( z + )2 z2
= p exp ( ) dz
1 2 2
Z 1 Z 1
2 z2 z2 2 z z2
= p exp dz + p p exp dz
1 2 2 2 1 2 2
Z 1 2
1 z
+ 2 p exp dz
1 2 2
= 2 + 0 + 2 = 2 + 2,
de alli la notación X~N ( ; 2 ). En la …gura 3.26 podemos ver la densidad

normal (con = 0) y diferentes valores de 2 ; cuanto mayor es el valor de
2
mayor es la dispersión.
Para variables aleatorias independientes X1 y X2 y las constantes a; b y
c, V ar(:) cumple las siguientes propiedades:
V1. Var(c) = 0;
V2. Var(aX1 + bX2 ) = a2 V ar [X1 ] + b2 V ar [X2 ] :
Lema de Bienayme. Si X1 ; X2 ; :::; Xn son variables aleatorias dis-
tribuidas independientemente:
P P
V ar ( ni=1 ai Xi ) = ni=1 a2i V ar (Xi ),
Este lema constituye una extensión directa de la propiedad V2.
Ejemplo
Sean X1 ; X2 ; :::; Xn variables aleatorias
Pnindependientes Bernoulli con me-
dia . ¿Cuál es la varianza de Y = a + i=1 Xi ?:
2
Figura 3.26 Normal: diferentes .
Usando V1 Py el lema de Bienayme

Pn podemos deducir que:
n
V ar(Y ) = i=1 V ar (Xi ) = i=1 (1 ) = n (1 ).
Una desigualdad muy útil que da testimonio de que la varianza propor-
ciona una medida de dispersión es la de Chebyshev.
desigualdad de Chebyshev: sea X una variable aleatoria con varianza
acotada:
V ar (X)
P (jX E (X)j > ") , para todo " > 0.
"2
Desviación estándar
La raíz cuadrada de la varianza, conocida como la desviación estándar,
también se utiliza como una medida de dispersión:
1
SD(X) = [V ar (X)] 2 .
El término desviación estándar fue propuesto por primera vez por Pearson
1
(1894) quien utilizó la notación = [V ar (X)] 2 . Esta medida es particular-
mente útil en inferencia estadística, ya que nos proporciona la mejor forma
de estandarizar cualquier variable aleatoria X cuya varianza existe. Una de
las reglas prácticas más útiles en la inferencia estadística es la siguiente:
Una variable aleatoria es tan "grande"como su desviación estándar (siem-
pre que exista!).
Por lo tanto, cuando tenemos que hacer una variable aleatoria libre de
sus unidades de medida la dividimos por su desviación estándar, es decir,
de…nimos la variable estandarizada:
X
X := 1 , donde V ar (X ) = 1,
[V ar(X)] 2
3.7. MOMENTOS 123
que por de…nición es sin unidades. El término error estándar se utiliza a

menudo en lugar de la desviación estándar. La terminología error estándar
se puede remontar a la tradición del siglo 18 de la teoría de errores. Galton
(1877) fue el primero en reemplazar el término de error con el de desviación.
Aunque la media y la varianza son los momentos más ampliamente uti-
lizados, no son su…cientes para determinar las principales características de
una distribución. Es decir, aunque conocemos la media y la varianza, que
sabemos muy poco acerca de las características principales de la función de
densidad. Es fácil pensar en funciones de densidad muy diferentes que tienen
la misma media y varianza. Para ser capaces de distinguir entre tales dis-
tribuciones debemos tener en cuenta los momentos de orden supserior.
3.7 Momentos
En esta sección consideramos dos tipos de momentos, los momentos crudos
de orden superior y los momentos centrales, que constituyen generalizaciones
directas de la media y la varianza, respectivamente. La idea de los momentos,
en general, se tomó prestada de la mecánica clásica, donde la media, E(X), es
la abscisa del centro de gravedad de la masa de la distribución y la varianza,
V ar(X), representa el momento de inercia de la masa de la distribución con
respecto a un eje perpendicular a través del punto x = E (X). Los seis
primeros momentos de la distribución normal fueron usados por un número
de analistas en todo el siglo 18 como Gauss y Quetelet. El primero en acuñar
el término momentos fue Pearson (1893).
3.7.1 Momentos crudos de orden superior

Una generalización directa de la media proporciona los llamados momentos
crudos. Para h(X) := X r ; r = 2; 3; 4; ::: la integral en (3.26) proporciona los
momentos crudos de…nidos por:
Z 1
0 r
r ( ) := E (X ) = xr fX (x; )dx; r = 1; 2; 3; :::
1
Ejemplos
(i) En el caso de la distribución Bernoulli:
0 r r
r ( ) = E (X ) = 0 (1 ) + 1r = ; para todo r = 1; 2; 3; 4; :::
Es decir, todos los momentos crudos son los mismos. El segundo momento
crudo es a menudo útil en la obtención de la varianza utilizando la igualdad:
V ar (X) = E (X E (X))2 = E X 2 E [(X)]2

Podemos comprobarlo en el caso de Bernoulli donde E (X 2 ) = :
2
V ar (X) = = (1 ).
(ii) En el caso donde X se distribuye normalmente con densidad (3.31):
0; para r = 3; 5; 7; :::
E (X r ) =
(1 3 (r 1)) r ; para r = 2; 4; 6; :::
(iii) Considere la variable aleatoria exponencial X con una función de
densidad:
x
fX (x; ) = e ; x>0, >0
Z 1
0 r
r ( ) : = E (X ) = xr e x
dx
0
Usando el cambio de variables, u = x; dx = 1 du :

Z 1 r Z
0 u u 1 1 [r+1] 1 u r!
r( ) = re du = r u e du = r :
1 1 !
IMPORTANTE. En relación con los momentos crudos, es interesante ob-
servar que cuando el cuarto momento existe también existen el primero, se-
gundo y tercero. El resultado general se da en el siguiente lema.
Lema (momentos inferiores). Si 0k ( ) := E X k existe para algunos
enteros positivos k; entonces todos los momentos crudos de orden menor que
k también existen, es decir, E (X r ) < 1, para todo i = 1; 2; :::; k 1.
3.7.2 Función generatriz de momentos

Una forma particularmente conveniente para calcular los momentos crudos
es mediante la función generatriz de momentos (fgm) de…nida mediante
la integral en (3.26) con h(X) = etX ; es decir:
Z 1
tX
mX (t) := E e = etX f (x)dx; para t 2 ( h; h) ; h > 0,
1
3.7. MOMENTOS 125
siempre que E etX exista para todo t en un cierto intervalo ( h; h);

para variables aleatorias discretas el cambio antes mencionado de integrales
y sumas se mantiene (ver Gnedenko (1969)).
La idea detrás de este dispositivo matemático es comprimir los momentos
en forma de cápsula los cuales estarían inmediatamente accesibles. Como se
muestra abajo la fgm puede ser utilizada para generar estos momentos por
diferenciación simple en lugar de integración.
Ejemplos.
(i) Sea X una variable aleatoria distribuida Poisson. Entonces:
X
1
e r X1
(et )
r X
1 r
= e (e 1) ya que
t
et
mX (t) = etX =e =e e =e .
r=0
r! r=0
r! r=0
r!
(ii) Sea X una variable aleatoria uniformemente distribuida en el intervalo

[a; b] :
Z b
1 ebt eat
mX (t) := etX dx = ; para t 6= 0. (3.32)
a b a (b a) t
Usando la fgm es obtienen momentos diferenciando en vez de integrar.

La intuición detrás de la de…nición de mX (t) toma la forma. En vista del
hecho de que una expansión en series de Maclaurin de etX toma la forma:
(Xt)2 (Xt)3 X1 (Xt)r

etX = 1 + Xt + + + = . (3.33)
2! 3! r=0 r!
podemos concluir que si mX (t) existe para t 2 ( h; h) y algún h > 0,
entonces podemos escribir
X1 (Xt)r
mX (t) := E etX = E
r=0 r!
e intercambiando el orden de la experanza y la suma (we use some hand
waving
here), da como resultado:
X1 tr
mX (t) := E etX = E (X r ) para t 2 ( h; h) y algún h > 0.
r=0 r!
Esto sugiere que, suponiendo que mX (t) existe, podemos recuperar el mo-
mento crudo 0r ( ) := E (X r ) como el (r + 1) ésimo término en la expansión
anterior, ya sea directamente cuando la fgm puede expandirse como una se-
rie de potencias en potencias de t, o indirectamente utilizando diferenciación
(there is some hand waving here as well) a través de:
r
E (X r ) = dtd r mX (t)jt=0 := mrX (0), r = 1; 2; :::
dmX (t) 2
0
1 := E (X) = dt
jt=0 ; 02 := E (X 2 ) = d mdtX2 (t) jt=0 ; :::; 0r := E (X r ) =
dr mX (t)
dtr
jt=0 .
La intuición detrás de este resultado es el siguiente: observando (3.33)
r
podemos ver que diferenciando mx(t) r veces, los términos hasta E (X r ) tr!
desaparecen y se convierte en el segundo:
0
E (X r ) [r(r 1)(rr! 2) 1]t = X r .
Los términos con potencia mayor que r implican a t, lo que signi…ca que
cuando sustituimos t = 0 ellos desaparecen, dejándonos sólo con E (X r ).
Ejemplo
Para una variable aleatoria distribuida Poisson X, mX (t) = e e(t 1) , y
entonces:
d
mX (t) jt=0 = e (e 1)
t et
E (X) = jt=0 = ,
dt
d2
mX (t) jt=0 = e (e 1) + e (e 1) 2 e2t jt=0 =
t et t 2
E X2 = + .
dt
Lema de unicidad. Un hecho importante acerca de la fgm es que cuando
ésta existe (no siempre), es única en el sentido de que dos variables aleatorias
X e Y que tienen la misma fgm deben tener la misma distribución y viceversa.
Usando este lema podemos probar un resultado muy útil que proporciona
la base para la simulación de variables aleatorias con características distribu-
cionales especí…cas. Esto nos permite utilizar números aleatorios generados
a partir de una distribución uniforme como la base para la generación de
números aleatorios para varias distribuciones continuas (véase el capítulo 5).
Lema de transformación de la integral de probabilidad. Para
cualquier variable aleatoria continua X, con fda FX (X) (con independen-
cia de su forma), la variable aleatoria de…nida por Y = FX (X) tiene una
distribución uniforme en el intervalo (0; 1), es decir
Y = FX (X) ~U (0; 1).
Prueba. La fda de Y toma la forma:
3.7. MOMENTOS 127
R1 tF (X) t
mY (t) := E etY = E etF (X) = 1 etF (X) f (x)dx e t j11 = e t 1 ,
ya que F (1) = 1 y F ( 1) = 0. Mirando la forma de la fgm y com-
parándola con (3:32), podemos ver que la variable aleatoria Y se distribuye
uniformemente en el intervalo (0; 1).
Hay dos funciones relacionadas con las funciones generatrices de momen-
tos, las funciones cumulantes y característica, consideradas enseguida.
Cumulantes
Una de las funciones relacionadas con la función generatriz de momentos
es la función generatriz cumulante, de…nida por:
X
1
tr
X (t) = In (m X (t)) = r r! para t 2 ( h; h), h > 0,
r=1
donde r , r = 1; 2; 3; ::: se denominan cumulantes (o semi-invariantes).
Es interesante observar que:
d X (t) 2
1 = E (X) = dt
jt=0 , 2 = V ar (X) = d dtX2 (t) jt=0 ,
y los cumulantes están directamente relacionados con los momentos crudos.
Los primeros cumulantes están relacionados con los momentos crudos de la
siguiente manera:
0
1 = 1,
2 = 2
0
( 01 )2 ,
3 = 3
0
3 02 01 + 2 ( 01 )3 ,
4 = 4
0
4 03 01 3 ( 02 )2 + 12 02 ( 01 )2 6 ( 01 )4 ,
5 = 5
0
5 04 01 10 02 03 +20 03 ( 01 )2 +30 ( 02 )2 01 60 02 ( 01 )3 +24 ( 01 )5 .
De esto podemos ver que los dos primeros cumulantes son la media y la
varianza.
El cumulantes son a menudo preferibles a los momentos por varias razones
incluyendo las siguientes:
(i) En el caso de la distribución normal: r = 0, r = 3; 4; :::
(ii) El r ésimo cumulante es homogéneo de r-ésimo orden r ( X) =
r
r (X), r = 1; 2; :::.
(iii) El r ésimo cumulante es una función de los momentos de orden hasta
r,
(iv) Para variables aleatorias independientes, el cumulante de la suma es
la sumaX denlos cumulantes: Xn
r Xk = r (Xk ), r = 1; 2; :::
k=1 k=1
Función característica
La existencia de la fgm depende fundamentalmente de que mX (t) sea
…nita en el intervalo ( h; h). En tal caso, todos los momentos E (X r ) son
…nitos para todo r. En los casos en los cuales E (X r ) no es …nito par algún
r, mX (t) no es …nito en cualquier intervalo ( h; h). Para poder hacer frente
a estos casos de…nimos la llamada función característica (véase Cramer
(1946)):
Z1
itX
p
'X (t) := E e = eitX f (x) dx = mX (it), para i = 1
1
que, a diferencia de mX (t), siempre existe, ya que para todo t, 'X (t) está
acotado:
j'X (t)j E eitX = 1,
y, por lo tanto, para muchas variables aleatorias, podemos encontrar la
función característica usando la función generatriz de momentos.
La función característica está relacionada con los momentos (cuando ex-
isten!) a través de la serie:
X1 (it)r
0
'X (t) = r para t 2 ( h; h) ; h > 0.
k=0 r!
También hay una relación directa entre la función característica de un
lado y la distribución acumulada (fda) y funciones de densidad por el otro,
en primer lugar señalado por Lyapunov en el contexto de los teoremas límite.
Teorema de inversión. Sean FX (x), f (x) y 'X (t) las funciones fda,
densidad y característica de una variable aleatoria X, respectivamente.
(a) Suponiendo que (a; b) son dos números reales (a < b) en donde F (x)
es continua:
Zn ita itb
1 e e
FX (b) FX (a) = lim 'X (t) dt
n!1 2 it
n
Z1 Zx Z1
itx
(b) Si j'X (t)j < 1, entonces FX (x) = f (u) du y f (x) = e 'X (t) dt.
1 1 1
(c) 'X (t) determina únivocamente FX (x) en el sentido que (veáse Karr
(1993)):
0 1
Zn itz itb
1 e e
FX (x) = lim @ lim 'X (t) dtA .
z! 1 n!1 2 it
n
3.7. MOMENTOS 129
3.7.3 El problema de los momentos

Como se ha dicho anteriormente, la utilidad principal de los momentos es que
nos permiten manejar las distribuciones con parámetros desconocidos para los
…nes de la modelación y de la inferencia. La pregunta que viene a la mente en
esta etapa es ¿cuando los momentos f 0k := E X k , k = 1; 2; :::g, suponiendo
que existan, determinan la distribución unívocamente? Esta cuestión es de
suma importancia, porque si los momentos no determinan la distribución
unívocamente, entonces la utilidad de los momentos se reduce. Por lo tanto,
las preguntas que surgen son las siguientes: dado el conjunto de momentos:
f 0k := E X k < 1, k = 1; 2; :::g,
Z1
(i) existencia: ¿existe una función f (x) 0 tal que: xr f (x) dx?
1
(ii) unicidad: ¿es la función f (x) única?
Z1 Z1
r
es decir, ¿ x f (x) dx = xr g (x) dx ) f (x) = g (x)?
1 1
En general, la respuesta a ambas preguntas es no! Bajo ciertas condi-
ciones, no obstante, la respuesta es sí. Veamos cómo estas condiciones están
relacionadas con la convergencia de la serie en (3.35).
Lema 1. Un resultado útil sobre la existencia de los momentos es la
siguiente.
Una condición su…ciente (pero ciertamente no necesaria) para la existen-
cia de momentos es que el soporte de la variable aleatoria X esté en un
intervalo acotado, es decir, RX := [a; b], donde 1 < a < b < 1. En este
caso todos los momentos existen:
Zb
0
k = xr f (x) dx < 1 para todo k = 1; 2; :::
a
En los casos en los cuales el rango de valores de la variable aleatoria en

cuestión no está acotada tenemos que comprobar la existencia o no de los
momentos.
Una condición su…ciente para el problema de la unicidad es proporcionada
por lema 2.
Lema 2. Los momentos f 0k , k = 1; 2; :::g (suponiendo que existen)
determinan la función de distribución únivocamente si:
h 1
i
1 0
lim sup (2n) ( 2n )
2n < 1,
n!1
NOTE que en muchas ocasiones usaremos las abreviaturas sup e inf que
representan al supremo y al ín…mo, respectivamente. Ellos son esencialmente
los bien conocidos máx y mín que representan al máximo y mínimo con una
cali…cación. A veces el máximo y / o el mínimo de un conjunto de números
pueden no existir, por ejemplo, el conjunto (0; 1) no tiene ni un mínimo ni
un máximo. En estos casos utilizamos inf y sup, que denotan la mayor cota
inferior y la menor cota superior, respectivamente, las cuales siempre existen!
Los menos matemáticamente inclinados pueden interpretarlos como máximo
mínimo, sin preocuparse demasiado.
Un comprobación útil de una determinación única de la función de dis-
tribución a través de los momentos es proporcionada por la condición Car-
leman:
X1 h i
1
( 02n ) 2n = 1.
n=1
Una condición necesaria y su…ciente para el problema de la unicidad en
el caso de variables aleatorias continuas es proporcionada por lema 3.
Lema 3. Los momentos f 0k , k = 1; 2; :::g de la variable aleatoria con-
tinua X (suponiendo que existen) con función de densidad f(x) determinan
su función de distribución unívocamente si y sólo si:
Z1
In f (x)
(1+x2 )
dx = 1.
1
Esto se conoce como la condición de Krein; ver Stoyanov (1987).
Ejemplo
Considere el caso donde la variable aleatoria X tiene una distribución
logarítmica normal con una densidad:
1 1
f (x) = p expf (In x)2 g, x 2 R+
x 2 2
Se puede demostrar que:
k2
0
k= e 2 , k = 1; 2; :::
y entonces
X1 2
1
2k
X1 k
ek = e 2 < 1,
k=1 k=1
es decir, la condición Carleman no se sostiene. Sin embargo, en vista del
hecho de que la condición Carleman sólo es su…ciente, no podemos concluir
3.7. MOMENTOS 131
que los momentos no determinan la distribución unívocamente. Por otra

parte, ya que la condición Krein no se sostiene, es decir,
Z1
1
(1+x2 )
In x 12 (In x)2 dx < 1,
0
podemos concluir que la distribución log-normal no está determinada por

sus momentos debido a la condición de Krein es a la vez necesaria y su…ciente;
ver Heyde (1963).
La línea …nal
Los lemas anteriores sugieren que, en general, los momentos no determi-
nan la distribución unívocamente, incluso si utilizamos un número in…nito
de ellos. Además, sabemos que, en general, ninguna distribución es determi-
nada por un número …nito de momentos. En vista del hecho de que, a efectos
de modelizacióne inferencia estadística podemos tratar sólo con un pequeño
número de momentos (y, ciertamente, …nito), el problema de los momentos
parece insalvable. Sin embargo, si estamos dispuestos a limitarnos a una
clase especí…ca de distribuciones el problema se vuelve manejable.
Ejemplo
Dentro de la familia Pearson se requiere un máximo de cuatro momentos
para determinar la distribución particular (ver capítulo 12).
UNA NOTA DE PRECAUCIÓN: momentos coincidentes puede ser
muy engañoso!
Tenga en cuenta la distribución que se especi…ca a continuación (ver Ro-
mano y Siegel (1986)).
p p
x 3 3 0
1 1 4 (3.36)
f (x) 6 6 6
Podemos demostrar que la variable aleatoria cuya distribución es de…nida

por (3.36) tiene momentos que coinciden con los cinco primeros momentos
de z~N (0; 1), ya que:
p 1 p 1
E (X) = 3 3 = 0,
6 6
1 1
E X2 = 3 +3 = 1,
6 6
p 3 1 p 3 1
E X2 = 3 3 = 0,
6 6
1 1
E X4 = 9 +9 = 3,
6 6
Este ejemplo puede parecer un algo extremo, pero debe servir como una
nota de precaución
3.7.4 Momentos centrales superiores

La noción de la varianza se puede extender para de…nir los momentos cen-
trales usando la sucesión de funciones h(X) := (X E(X))r ; r = 3; 4; ::: en
(3:26):
Z 1
r
r ( ) := E (X ) = (x )r f (x; )dx; r = 2; 3; :::
1
En lugar de obtener estos momentos directamente, a menudo es más

conveniente obtener los momentos centrales r utilizando su relación con los
momentos crudos y ver los cumulantes ( ver Stuart y Ord (1994)):
2 = 2
0
( 01 )2 , 2 = 2,
0 0 0 0 3
3 = 3 3 2 1 + 2 ( 1 ) , 3 = 3,
0 2
4 = 4
0 0 0
4 3 1 + 6 2 ( 1)0
3 ( 1 ) , 4 = 2 3 ( 02 )2 ,
0 4
Ejemplos
x
(i) Para la densidad de Poisson: f (x; ) = e x! , 2 (0; 1), x =
0; 1; 2; :::,
ya sabemos que = . De un ejemplo anterior, sabemos que:
t2 t3
X (t) = In (mX (t)) = et 1 = 1+t+ + +
2! 3!
Por lo tanto, podemos deducir que:

3.7. MOMENTOS 133
r
r = d dtXr (t) jt=0 = , r = 1; 2; :::
2
1 = , 2 = , 3 = , 4 = , ) 2 = , 3 = , 4 = 3 + .
(ii) En el caso de que la variable aleatoria X sea normal con densidad
(3.31):
0 2
0, r impar
1 = , 2 = , 3 = 0, 4 = 3 4 , r = r! r
(5r!)2(5r)
, r par
2
1 = , 2 = , 3 = 0, 4 = 0, r = 0, r = 5; 6; :::
En analogía directa a la función generatriz de momentos (fgm) la fgm
central se de…ne por:
X1 tr
mX (t) := E e(X )t
= eX t mX (t) = 1+ r , para t 2 ( h; h) , h > 0,
r=1 r!
siempre que exista.
Uno de los los principales usos de los momentos centrales es que se pueden
utilizar para darnos una imagen más completa de la forma de la distribución.
Mediante la estandarización de los momentos centrales anteriores de…nimos
una serie de medidas útiles que nos permiten tener una idea más completa
de la posible forma de una función de densidad. La primera característica
importante de la forma de una distribución es la de simetría alrededor de un
punto dado; a menudo a = E (X).
Simetría. Una variable aleatoria X con densidad f (x) se dice que es
simétrica alrededor de un punto a si se cumpe la siguiente condición:
f (a x) = f (a + x), para todo x 2 RX ,
o, más generalmente, en términos de la fda FX (x):
FX (a x) = FX (a + x) = 1, para todo x 2 RX ,
El coe…ciente de asimetría
El primer índice de la forma, diseñado para darnos una idea acerca de la
posible asimetría de una función de densidad alrededor de la media, es el co-
e…ciente de asimetría de…nido como el tercer momento central estandarizado
introducido por Pearson (1895):
Simetría: 3 (X) = p 3 3 ,
( 2)
p 1
NOTE que 2 = [V ar(X)] denota la desviación estándar. Si la dis-
2
tribución es simétrica alrededor de la media entonces, 3 = 0; lo contrario

no se cumple!
Ejemplo
En cuanto a la …gura 3.10 podemos ver que la densidad normal (3.10) es

simétrica y, por lo tanto 3 = 0; lo mismo ocurre con la densidad uniforme,
como se muestra en la …gura 3.12. En la …gura 3.27, sin embargo, podemos
ver dos funciones de densidad positivamente sesgadas ( 3 > 0). Ambas rep-
resentan la misma densidad, la densidad Beta:
1 1
x (1 x)
f (x; ) = , : = ( ; ) 2 R2+ , 0 < x < 1
B[ ; ]
para diferentes valores de los parámetros ( ; ), ( = 1; = 4) y ( = 2; = 4).

Como se muestra en el apéndice A el coe…ciente de asimetría de la distribu-
ción Beta es el siguiente:
p
2( ) ( + + 1)
3 = p
( + + 2)
UNA NOTA DE PRECAUCIÓN: 3 = 0 no implica que la distribución

es simétrica!
x 2 1 3
(3.37)
f (x) 0:4 0:5 0:1
E(X) = ( 2)(0:4) + 1(0:5) + 3(0:1) = 0; E(X 3 ) = ( 2)3 (0:4) + 1(0:5) +

33 (0:1) = 0.
Por lo tanto, 3 = 0 a pesar de que la distribución anterior es claramente
no simétrica (ver Romano y Siegel (1986)). Este ejemplo pone de mani…esto
la importancia de observar las grá…cas de las distribuciones y no sólo algunas
medidas de síntesis; estas últimas no son sustitutos para los grá…cos mismos!
Curtosis
El coe…ciente de asimetría permite al modelador distinguir entre una dis-
tribución simétrica y una distribución no simétrica, pero que aún nos deja
con el problema de
3.7. MOMENTOS 135
Figura 3.27 Densidad positivamente sesgada.
Figura 3.28 Densidad negativamente sesgada.
distinguir entre dos distribuciones simétricas con diferentes formas, tales

como las densidades normal y uniforme mostradas en las …guras 3.10 y 3.12.
Mirando esas dos grá…cas podemos ver que esas dos densidades son di…eren
con respecto a sus picos y a sus colas. La normal tiene un pico en forma de
campana, pero la uniforme tiene un pico plano (sin pico!). La normal tiene
cola alargada que se extiende a in…nito en ambos lados, pero la uniforme no
tiene colas. La intuición sugiere que una manera de distinguir entre ellas es
elaborar una medida que mida el apuntamiento en relación a las colas. El
coe…ciente de curtosis es tal medida, introducida originalmente por Pearson
(1895).
La curtosis es una versión estandarizada del cuarto momento central:
Curtosis: 4 (X) = (
4
2 .
2)
El término proviene de la palabra griega ! que signi…ca curvatura

de la columna vertebral y pretende ser una medida de los apuntamiento en
relación a la forma de las colas. NOTE que en algunos libros la medida
utilizada es ( 4 3) referida a un exceso de curtosis (el cuarto cumulante
estandarizado). En el caso de la distribución normal (3.31) 4 = 3, y se
conoce como una distribución mesocúrtica; meso viene del griego " o&
que signi…ca medio (centro, mitad). En el caso donde la distribución en
cuestión tenga un pico más plano que la normal ( 4 < 3), la llamamos plat-
icúrtica, y en el caso de que tenga un pico más puntiagudo que el normal
( 4 > 3), la llamamos leptocúrtica ; plati y lepto provienen de las palabras
griegas & y o& que signi…can ancho y delgado, respectivamente;
estos términos fueron introducidos por Pearson (1906).
Intuitivamente, podemos pensar en el coe…ciente de curtosis como una
medida que indica si una distribución simétrica cuando se compara con la
normal tiene colas más gruesas y picos más puntiagudos o no. Viendo la
densidad normal como una pila en forma de campana hecha de yeso el escultor
rasura parte de los hombros y lo agrega a la cola y el pico para producir una
distribución leptocúrtica.
Ejemplos
(i) Leptocúrtica. En la …gura 3.29 comparamos la densidad normal
estándar (línea punteada) y una densidad leptocúrtica, la densidad estándar
t de Student v = 5:
n o
x
exp
f (x; ) = n o 2, =( ; )2R R+ , x 2 R
x
1 + exp
con parámetros ( = 0; = 0:56) y ( = 0; = 0:628), respectivamente.

Como se muestra en el apéndice A el coe…ciente de curtosis de la dis-
tribución logística es 4 = 4:2. La …gura 3.32 muestra lo difícil que puede
ser distinguir dos distribuciones en los estudios empíricos con sólo echarles
un vistaso.
3.7. MOMENTOS 137
Figura 3.29 Densidades normal frente a t de Student normalizada por x.
Figura 3.30 Densidades normal frente a t de Student normalizada de modo

que V ar (X = 1).
(iii) Platicúrtica. En la …gura 3.33 comparamos la densidad normal

(en línea de puntos) con una densidad platicúrtica, la tipo Pearson II con
v = 3:
1 1
1 (v+1)
[v + 1] 2 x2 2
f (x) = 2
1
1+ 2 , c x c, c2 := 2 (v + 2) .
2
+v+1 c vc
La densidad normal di…ere de la de Pearson del tipo II en exactamente

la forma opuseta de lo que di…ere la t de Student. En particular,
(a) las colas de la Pearson II son más delgadas,
(b) la curvatura de la Pearson II es menos puntiaguda.

(iv) En la …gura 3.34 podemos ver la grá…ca de los una densidad simétrica
Beta simétrico con parámetros ( = 4; = 0:4):
1 1
x (1 x)
f (x; ) = , : = ( ; ) 2 R2+ , 0 < x < 1
B[ ; ]
Figura 3.31 Densidades normal (0; 1) contra logística ( = 0; = 0:56).
Figura 3.32. Densidades normal (0; 1) contra logística ( = 0; = 0:628).
Figura 3.33 Densidades normal (0; 1) contra Pearson II.
Figura 3.34 Densidad Beta ( = 4; = 0:4).

3.7. MOMENTOS 139
Una vez más podemos ver la misma forma de campana igual que en el caso
de las densidades normal, t de Student y Pearson tipo II, pero en contraste
con la t de Student es platicúrtica ya que:
3( + + 1) 2 ( + )2 + ( + 6)
4 =
( + 2) ( + 3)
y por lo tanto para todo = , 4 3.

(v) Policúrtica. Considere la distribución potencia exponencial (o
error) cuya densidad es:
( 2
)
2 ( 2 +1)
1 1 x
2j j
f (x; ) = e , =( ; ; )2R R2+ , x 2 R (3.38)
1+ 2
Esta es una distribución simétrica con 3 = 0, que incluye las distribu-

ciones normal ( = 1) y Laplace ( = 1) (ver Apéndice A). Además, pro-
porciona una parametrización conveniente del coe…ciente de curtosis, porque
anida las tres formas de los curtosis a través del parámetro . En vista del
hecho de que:
52 2
4 = 2
32
(a) para = 1, f (x; ) es mesocúrtica,

(b) para < 1, f (x; ) es platicúrtica,
(c) para > 1, f (x; ) es leptocúrtica (veáse …gura 3.35).
(vi) Platicúrtica. Es instructivo volver a la …gura 3.25, donde compara-
mos una densidad Weibull con parámetros ( = 3:345; = 3:45; = 3) y
una densidad normal estándar. Mirando la los grá…cos de las dos densidades
es evidente que la distinción entre ellas es bastante difícil. Sin embargo, uti-
lizando el coe…ciente de curtosis descubrimos que la Weibull es platicúrtica
( 4 = 2:71) a diferencia de la normal ( 4 = 3).
3.7. MOMENTOS 141
Figura 3.35 Potencia exponencial: densidad platicúrtica.
En conclusión, hay que decir que la utilidad del coe…ciente de curtosis se

reduce en el caso de distribuciones no simétricas, ya que no tiene la misma
interpretación que en los casos simétricos anteriormente (véase Balanda y
MacGillivray (1988)).
Antes de proceder a considerar otras características numéricas de las dis-
tribuciones, es instructivo discutir la derivación de los momentos en los casos
en los que la distribución no implica parámetros desconocidos.
Ejemplos
(i) Considere la variable aleatoria discreta X, con una densidad como la
dada a continuación:
x 0 1 2
f (x) 0:3 0:3 0:4
E (X) = 0 (0:3) + 1 (0:3) + 2 (0:4) = 1:1,
E (X 2 ) = 02 (0:3) + 12 (0:3) + 22 (0:4) = 1:9,
E (X 3 ) = 03 (0:3) + 13 (0:3) + 23 (0:4) = 3:5,
E (X 4 ) = 04 (0:3) + 14 (0:3) + 24 (0:4) = 6:7,
V ar (X) = [0 1:1]2 (0:3) + [1 1:1]2 (0:3) + [2 1:1]2 (0:4) = 0:69,
V ar (X) = E (X 2 ) [E (X)]2 = 1:90 1:21 = 0:69,
E (X E (X))3 = [0 1:1]3 (0:3) + [1 1:1]3 (0:3) + [2 1:1]3 (0:4) =
0:108,
E (X E (X))4 = [0 1:1]4 (0:3) + [1 1:1]4 (0:3) + [2 1:1]4 (0:4) =
0:7017,
0:108 0:7017
3 = (0:83)3 = 0:18843 , 4 = (0:83)4 = 1:4785.
( 3 = 0:1843; 4 = 1:4785).
(ii) Considere la variable aleatoria continua X con función de densidad:
f (x) = 2x; 0 < x < 1,
Z 1
2 2
E (X) = 2x2 dx = x3 j10 = ;
3 3
Z0 1
2 1
E X2 = 2x3 dx = x4 j10 = ;
4 2
Z0 1
2 2
E X3 = 2x4 dx = x5 j10 = ;
0 5 5
1 4 1
V ar (X) = E X 2 [E (X)]2 = =
2 9 18
Invarianza de la asimetría y curtosis. Concluimos la discusión de

los coe…cientes de asimetría y curtosis reiterando que su utilidad se deriva
del hecho de que son invariantes a los cambios de localización y escala. Es
decir, para cualquier variable aleatoria X cuyos primeros cuatro momentos
existan:
3 (X) = 3 (a + bX) y 4 (X) = 4 (a + bX).
3.7.5 Otras características numéricas

Es a veces el caso de que para ciertas variables aleatorias, los momentos
discutidos anteriormente no tienen sentido. Por ejemplo, en el caso de que la
variable aleatoria X indique la religión de una persona: 1 = Cristiana, 2 =
Musulmana, 3 = Judia, 4 = Budista, la media y la varianza no tienen mucho
sentido. Además, a veces la media y la varianza no existen, como en el caso
de la distribución de Cauchy (ver sección siguiente). En estos casos tenemos
que considerar otras características numéricas.
En v.a. como ”religión”los momentos anteriores no tienen sentido. Además,
hay distribuciones (como la de Cauchy) donde no existen la media ni la var-
ianza. En estos casos se requieren otras características númericas.
3.7. MOMENTOS 143
Medidas de localización
(1) La moda o valor modal m0 , es aquel valor particular de la variable aleato-

ria que se corresponde con el máximo de la función de densidad; propuesto
por Pearson (1894).
Ejemplos
(i) Para la función de densidad dada en (3.39) la moda es igual a 2.
En el caso en que f (x) es diferenciable la moda puede ser derivado como
la solución de:
df (x) df 2 (x)
= 0 sujeto a < 0: (3.40)
dx dx2 x=m0
(ii) Para una variable aleatoria lognormal X con función de densidad:
( )
1
(x ) 1 (In x )2 2
f (x; ) = exp 2
, := ; 2R R+ , x 2 R,
2 2
df 2 (x)
Teniendo en cuenta el hecho de que dx2
< 0, la moda de la
x=m0
2
densidad es: m0 = exp ( ). En la …gura 3.36 podemos ver la moda de
la densidad lognormal LN ( = 1; = 0:7). En la …gura 3.37 podemos ver la
moda de la densidad de Cauchy C ( = 0; = 1).
(2) La mediana de una variable aleatoria X es aquel valor particular
que divide la probabilidad en dos mitades iguales, es decir, corresponde a x 12
(suponiendo que es única) tal que:
P x < x 12 0:5 y P x x 21 0:5.
En el caso donde la función de distribución es continua y estrictamente
creciente, x 12 se de…ne por:
F x 12 = 0:5 y x 12 es única.
Figura 3.36 Moda de la densidad lognormal.
Figura 3.37. Moda de la densidad Cauchy
Ejemplos
(i) Para una variable aleatoria normal la mediana coincide con las otras
dos medidas de
localización:
media = mediana = moda.
NOTE que para distribuciones simétricas en general, la única igualdad
que se cumple es la siguiente:
3.7. MOMENTOS 145
media = mediana.
(ii) Para una variable aleatoria lognormal la media está dada por el valor
m tal que:
Zm ( )
2
1 1 In x 1
p exp dx = , sustituyendo y = In x,
x 2 2 2
0
Zm
In ( )
2
1 1 y 1
p exp dx = , esto se cumple para In m = ,
2 2 2
1
Por lo tanto, la mediana es:

x 21 = e .
La mediana de la densidad lognormal se muestra en la …gura 3.36 como
el punto en el centro del rectángulo negro = 1; = 7 y por lo tanto
x 21 = 2:71828). La mediana es una medida importante de localización, porque
a veces la media no existe (véase la distribución de Cauchy abajo), pero la
mediana siempre lo hace. Extendiendo la noción de mediana a otros valores
en el intervalo [0; 1], no sólo 21 , de…nimos lo que se conoce como un cuantil.
(3) Quantiles. El cuantil p-ésimo, denotado por xp , se de…ne como el
menor número satisfaciendo la relación:
FX (xp ) p, para p 2 [0; 1].
Más formalmente, el cuantil p-ésimo se de…ne por:
xp = FX (p) := inf fx : FX (x) pg ; para p 2 [0; 1] : (3.42)

x2Rx
xp = FX (p) := inf fx : FX (x) pg, para p 2 [0; 1].

x2Rx
Como se dijo antes, inf ; es tan solo el glori…cado mínimo. Esta de…nición
x2Rx
sugiere que en el caso de que la función de distribución acumulada (fda) sea
continua y estrictamente creciente, xp es único y se de…ne por:
F (xp ) = p.
El valor p se conoce como p-ésimo percentil y el valor xp el cuantil corre-
spondiente.
Es interesante NOTAR que la noción de cuartil fue introducida por McAl-
ister (1879), la noción de mediana por Galton (1883) y la de percentil por
Galton (1885).
Más allá de la mediana hay otros dos cuantiles de especial interés. El

cuartil inferior (NOTE la diferencia en el nombre) y el cuartil superior
son de…nidos por:
x 41 = F (0:25), x 34 = F (0:75).
Ejemplos
(i) En el caso de la distribución estándar normal (N (0; 1)):
x 41 = 0:6745, x 34 = 0:6745.
Por lo tanto, para una distribución normal arbitraria (N ( ; 2 )):
x 41 = 0:6745 , x 34 = + 0:6745 .
(ii) Es bien sabido que la distribución de Cauchy (C( ; )) no tiene mo-
mentos. Considere la distribución de Cauchy con fda, cuantiles y funciones
de densidad:
F (x; ; ) = 21 + 1 tan 1 x ,
F 1 (x; ; ) = + + tan x 21 ,
1
f (x; ; ) = 2 , 2 R, 2 Rx , x 2 R.
1+( x )
La función de…nida por (3.42) es interesante por derecho propio y es por
eso que vamos a tomar una breve digresión para examinar sus propiedades
en algún detalle; ver Karr (1993).
Función cuantil. La función de…nida por (3.42) en la forma de:
FX (:) : (0; 1) ! Rx
se conoce como la función cuantil. En cuanto a la de…nición no es muy
difícil ver que FX (:) no es la misma función inversa ordinaria de la fda de
distribución FX (:) ya la inversa existe sólo en casos donde FX (:) es uno a
uno y sobre, es decir, cuando FX (:) es continua y estrictamente creciente.
Ella constituye, sin embargo, una especie de inversa generalizada que existe
incluso en los casos donde la función inversa común no existe. Cuando la
función inversa ordinaria existe las dos coinciden en el sentido de que:
FX (:) = FX (:).
Como se ha indicado antes, FX (:) existe incluso en los casos donde FX (:)
no es ni continua ni estrictamente creciente. Intuitivamente, FX (:) salta
donde FX (:) es plana y FX (:) es plana en los puntos donde FX (:) salta.
Debido a su importancia tomamos nota de varias propiedades útiles de la
función cuantil:
Q1. FX (p) x si y sólo si p FX (x) para todo x 2 Rx y p 2 (0; 1),
Q2. FX (:) es creciente y continua a la izquierda,
Q3. Si FX (:) es continua, FX FX (p) = p.
Ejemplo
3.7. MOMENTOS 147
En las …guras 3.38-3.39 podemos ver la fda de Cauchy F (x; 0; 1) y la

función cuantil correspondiente:
G (x; 0; 1) := F 1 (x; 0; 1), ( = 0, = 1).
Podemos demostrar que:
Z Z Z+
1 1 1 1 1 3
2 dx = 2 , 2 dx = 4 , 2 dx = 4 .
1+( x ) 1+( x ) 1+( x )
1 1 1
Es decir, la mediana es igual a , el cuartil inferior es igual a
y el cuartil superior es igual a ( + ). Estos cuantiles a menudo pueden
ser utilizados en lugar de los momentos cuando se utiliza la distribución de
Cauchy. En la …gura 3.37 podemos ver los dos cuartiles mostrados con los
prqueños triángulos a cada lado de la media.
En relación a la función cuantil notemos un resultado muy útil que puede
ser ser visto como el inverso de la transformación integral de probabilidad
antes mencionada.
La inversa de la transformación integral de probabilidad. Para
cualquier variable aleatoria continua X, con una fda FX (x) tal que u =
FX (x) es invertible y x = FX 1 (x) .
a) Para la variable aleatoria U = FX (x):
U = FX (x) ~U (0; 1) . (3.43)
Figura 3.38 fda Cauchy ( = 0, = 1).
Figura 3.39 Función cuantil Cauchy.

(b) Sea U ~U(0; 1) y de…nir X = FX (U ). Entonces X tiene una distribu-

ción con fda FX (:).
NOTE que, en contraste con la transformación integral de probabilidad,
el resultado de la transformación inversa no asume que F (:) es continua.
El resultado anterior proporciona una manera más notable para generar
variables aleatorias con una distribución dada. Su utilidad puede ser vista
fácilmente en casos donde F (x) es invertible (véase el capítulo 5).
Ejemplo
Considere el caso donde U ~U(0; 1) y queremos transformarla en una vari-
able aleatoria X exponencialmente distribuida con:
FX (x) = 1 e x , x > 0.
Utilizando (3.43) junto con la forma especí…ca de F (x), podemos deducir
que u = 1 e x , e x = 1 u, x = 1 In (1 u), y por lo tanto:
X = FX (u) = 01 In (1 u), u 2 (0; 1).
Este resultado se puede utilizar para simular variables aleatorias dis-
tribuidas exponencialmente usando variables aleatorias distribuidas uniforme-
mente; véase el capítulo 5.
Medidas de dispersión
(1) El rango se de…ne como la diferencia entre el mayor y el menor valor
que toma la variable aleatoria que se trate, es decir,
R (X) := Xmax Xmin .
Ejemplo
En el caso de la distribución uniforme (U (a; b)):
R (X) := Xmax Xmin = b a.
(2) El rango intercuartílico, se de…ne como la diferencia entre los cuar-
3.7. MOMENTOS 149
tiles inferior y superior:

RIQ := x 3 x 1 .
4 4
Ejemplos
(i) En el caso de la distribución normal (N ( ; 2 )):
RIQ := x 3 x 1 = + 0:6745 + 0:6745 = 2 (0:6745) .
4 4
En la …gura 3.40 podemos ver la fda normal para N (0; 1) con los cuantiles
siguientes:
q x F (x) f (x)
x0:05 1:645 0:05 0:103
x0:25 0:6745 0:25 0:318
x0:75 0:6745 0:75 0:318
x0:95 1:645 0:95 0:103
En la …gura 3.41 podemos ver estos cuantiles en relación con la function
de densidad.NOTE que el máximo de la función de densidad es justamente
p1 = 0:39894 .
2
(ii) En el caso de la distribución de Cauchy considerada anteriormente,
podemos ver fácilmente que:
RIQ := ( + ) ( )=2 .
Este puede ser usado como una medida de dispersión ya que la varianza
no existe.
(3) La desviación cuartil, se de…ne como la mitad del rango intercuar-
tílico, es decir:
q (X) := 21 x 3 x 1 .
4 4
Figura 3.40 fda normal: cuantiles.

Figura 3.41 Densidad normal: cuantiles.
Ejemplos
2 1
(i) Para la distribución normal N ( ; ): q (X) := 2
x3 x1 =
4 4
(0:6745) .
1
(ii) Para la distribución de Cauchy C ( ; ): q (X) := 2
x3 x1 = .
4 4
(4) El coe…ciente de variación, propuesto por Pearson (1896), se de…ne
como el cociente de la desviación estándar respecto a la media de la variable
aleatoria que se trate, es decir,
cv (X) := .
3.8 Desigualdades
Un capítulo muy importante de la teoría de la probabilidad es el de las
desigualdades probabilísticas. La función principal de estas desigualdades
es proporcionar cotas superiores e inferiores para la evaluación de las prob-
abilidades asociadas con variables aleatorias mediante la utilización de sus
momentos. En cierto modo estas desigualdades nos proporcionan formas para
dejar de lado la distribución de ciertas variables aleatorias, pero todavía en
una posición para hacer a…rmaciones probabilísticas relativas a estas vari-
ables aleatorias; ver Shiryayev (1984), Karr (1993) y Loeve (1963).
Desigualdad general de Chebyshev. Sea X (:) : S !Rx := (0; 1)
una variable aleatoria positiva y sea g(:) : (0; 1) ! (0; 1) una función
positiva y creciente. Entonces, para todo " > 0;
3.8. DESIGUALDADES 151
E [g (X)]
P (g (X) ") (3.44)
g (")
Tomemos nota de que la desigualdad de Chebyshev encontrada anteri-
ormente es un caso especial de (3.44). Otros casos especiales, se indican a
continuación. NOTE en primer lugar que no existe una terminología estándar
para estas desigualdades.
Desigualdad de Markov. Sea X una variable aleatoria tal que E (jXjp ) <
1; para p > 0 :
E [jXjp ]
P (jXj ") :
"p
La conocida frase de que "no hay comida gratis" se puede ilustrar usando
esta desigualdad para demostrar que al postular la existencia de los momentos
superiores podemos mejorar la cota superior.
Ejemplo
Sea fXn g1n=0 := fX1 ; X2 ; :::; Xn ; :::g una sucesión de variables aleato-
rias Bernoulli independientes e idénticamente distribuidas (IID) . Se puede
demostrarX que:
n
Sn := Xk ~Bi (n ; n (1 )).
k=1
Usando la desigualdad de Chebyshev obtenemos:
(1 )
P n 1 Sn >" 2
.
n"
Por otro lado, utilizando la desigualdad de Markov para el cuarto mo-

mento:
4 E jY E (Y )j4
P jY E (Y )j > " .
"4
4
señalando que E jn 1 Sn j = n [1 + 3 (1 ) (n 2)] proporciona
3
P n 1 Sn >" .
16n2 "4
Como puede verse, la estimación de la cota superior dada por la desigual-
dad de Markov es menos crudo, ya que utiliza más información en relación
con la existencia de momentos.
La desigualdad de Bernstein. Sea X (:) : S ! Rx := (0; 1) una

variable aleatoria positiva tal que E etX < 1 para algún t 2 [0; c], c > 0:
E etX tX
P (X ") inf e E etX .
etX 0 t c
Desigualdad de Jensen. Sea ' (:) : R ! R una función convexa, es

decir:
' (x) + (1 ) ' (y) ' ( (x) + (1 ) (y)) , 2 (0; 1) ; x; y 2 R.
Suponiendo que (E(jXj)) < 1, entonces:

' (E (X)) E (' (X)).
Esta desigualdad se puede utilizar para obtener toda una serie de de-
sigualdades.
Desigualdad de Holder. Sean X, Y variables aleatorias tales que
E(jXjp ) < 1 y E(jXjp ) < 1, donde 1 < q < 1, 1 < p < 1, p1 + 1q = 1,
entonces:
1 1
E (X Y ) E(jXjp ) p E(jY jq ) q .
Desigualdad de Minkowski. Sean X, Y variables aleatorias tales que
E(jXjp ) < 1 y E(jXjp ) < 1, donde 1 < p < 1, entonces:
1 1 1
E (jX + Y jp ) p E(jXjp ) p E(jY jp ) p .
Las desigualdades anteriores se utilizan ampliamente en el contexto de
los teoremas límite considerados en el capítulo 9.
3.9 Resumen
El objetivo básico de este capítulo ha sido la transformación del abstracto es-
pacio de probabilidad (S; =; P (:)) en un modelo de probabilidad operacional.
El resultado …nal es una familia de densidades indexadas por un pequeño
número de parámetros desconocidos:
= ff (x; ); 2 ; x 2 RX g :
3.10. EJERCICIOS 153
Esta es la base del fundamento del marco de referencia matemático sobre

el que será construida la modelizacióny la inferencia estadística. Siendo los el-
ementos básicos del modelo de probabilidad (i) la función de densidad, cuyas
formas resultarán importante en la modelación, (ii) el espacio de parámetros
que también juega un papel importante en la inferencia estadística y (iii)
el soporte de la densidad. Todos estos tres elementos juegan un papel im-
portante en la elección de un modelo de probabilidad adecuado. En vista
del hecho de que las formas distribucionales dependen fundamentalmente
de los parámetros desconocidos, nos gustaría de alguna manera evaluar las
formas sugeridas por los datos observados antes de elegir el modelo de prob-
abilidad adecuado, sin tener que conocer los parámetros. En primer lugar
podemos utilizar técnicas estadísticas descriptivas, tales como el histograma,
así como calcular características de los datos observados, tales como la me-
dia aritmética. Como se muestra en el capítulo 5 éstas están directamente
relacionadas con las formas distribucionales adoptadas por las funciones de
densidad y los llamado momentos de la distribución. Esa es la razón por la
que hicimos una digresión para hablar de los momentos de una distribución
y cómo se relacionan con los parámetros.
La relación entre los parámetros desconocidos del modelo de probabili-
dad y los momentos de la distribución en cuestión viene dada por:
Z 1
r
E(X ) = xr f (x; )dx =gr ( ) ; r = 1; 2; :::
1
Los conceptos introducidos en esta digresión resultarán indispensable para

los …nes de la modelación, ya que representan elementos esenciales del fun-
damento.
En el siguiente capítulo consideramos la metamorfosis del abstracto espa-
cio muestral GnIID en un modelo muestral operacional en términos de variables
aleatorias: un conjunto de variables aleatorias X := (X1 ; X2 ; :::; Xn ), con una
estructura probabilística especí…ca.
3.10 Ejercicios
1. Explique por qué el abstracto espacio de probabilidad no es conveniente
para los propósitos de la modelación.
2. (a) "Una variable aleatoria ni es variable ni es aleatoria". Discuta.
(b) "El concepto de una variable aleatoria es un concepto relativo".

Discuta.
(c) Explicar la diferencia entre la inversa y la preimagen de una
función.
3. Considere el experimento aleatorio de lanzar dos dados y contar el
número total de puntos que aparecen en las caras superiores. La variable
aleatoria X toma el valor 0 cuando el número total de puntos es impar y 1
cuando el número total de puntos es par.
(a) Derive la función de densidad de la variable aleatoria X asumiendo
que los dos
dados son simétricos.
(b) Derive la función de densidad de la variable aleatoria X asumiendo
que los dos
dados no son simétricos.
4. Discuta la diferencia entre las siguientes funciones conjunto probabili-
dad en términos de su dominio:
P (X x) = PX 1 (( 1; x]) = PX (( 1; x]).
5. En el caso del experimento aleatorio de "lanzar una moneda dos veces":
S = f(HH); (HT ); (T H); (T T )g, = = fS; ?; A; Ag,
donde A = f(HH); (HT ); (T H)g.
Considere las siguientes funciones:
(i) X(HH) = 1; X(HT ) = 2; X(T H) = 2; X(T T ) = 1,
(ii) Y (HH) = 1; Y (HT ) = 0; Y (T H) = 0; Y (T T ) = 0,
(iii) Z(HH) = 1; Z(HT ) = 1; Z(T H) = 1; Z(T T ) = 7405926.
(a) ¿Cuáles de las funciones (i) - (iii) constituyen variables aleatorias con
respecto a =?
(b) Para las funciones que no son variables aleatorias con respecto a =,
de…na el
espacio de eventos generados por ellas.
6. Compare y contraste los conceptos de una variable aleatoria simple y
una variable aleatoria general.
7. Describa brevemente la metamorfosis del espacio de probabilidad
(S; =; P (:)) en un modelo de probabilidad de la forma:
= ff (x; ); 2 ; x 2 RX g.
Explique la relación entre los componentes del espacio de probabilidad y
el modelo de probabilidad.
8. Explique los componentes principales de un modelo de probabilidad
genérico de la forma:
= ff (x; ); 2 ; x 2 RX g.
9. ¿Por qué nos preocupamos por los momentos de una distribución?
¿Cómo los momentos proporcionar una forma de interpretar los parámetros
desconocidos?
10. La función de densidad de la distribución exponencial es:
f (x; ) = e x , > 0; x > 0.
(a) Derive su media y varianza.
(b) Derive su moda.
11. Considere la función:
f (x) = 140 x3 (1 x)3 ; 0 < x < 1.
(a) Demuestre que esta es realmente una función de densidad propia para
una variable aleatoria X.
(b) Derive la media, moda, varianza y curtosis de X.
12. Considere la variable aleatoria discreta X cuya distribución es la
siguiente:
x 1 0 1
f (x) 0:2 0:4 0:4
(a) Derive su media, varianza y coe…cientes de asimétria y curtosis.
(b) Derive su moda y coe…ciente de variación.
13. (a) Exprese las propiedades de una función de densidad.
(b) Contraste las propiedades de los operadores valor esperado y
varianza.
(c) Sean X1 y X2 dos variables aleatorias independientes con la
misma media y varianza 2 .Derive la media y la varianza de la función:
Y = 13 X1 + 23 X1 .
14. Explique cómo las propiedades de la varianza son determinadas en
realidad por las del operador media.
15. Explique cómo la función generatriz de momentos se puede utilizar
para obtener los momentos.
16. Explique el concepto de asimetría y discuta por qué = 3 no implica
que la distribución en cuestión es simétrica.
17. Explique el concepto de curtosis y discuta por qué es de valor limitado
cuando la distribución no es simétrica.
18. Para una distribución de Weibull con parámetros ( = 3:345; = 3:45)
obtenga el coe…ciente de curtosis usando las fórmulas en el apéndice A.
19. Explique por qué los momentos de coincidencia (matching mo-
ments) entre dos distribuciones puede llevar a conclusiones erróneas.
20. Compare y contraste la función de distribución acumulativa (fda) y la

función cuantil. Explique por qué la función cuantil no siempre es la inversa
de la fda.
21. Explique los conceptos de un percentil y un cuantil y cómo se rela-
cionan.
22. ¿Por qué nos interesan las desigualdades probabilísticas?
23. "Los momentos no caracterizan las distribuciones en general, y cuando
lo hacen a menudo necesitamos de un número in…nito de momentos para la
caracterización ". Discuta.
24. Explique la integral de probabilidad y la transformación integral de
probabilidad inversa. ¿Qué utilidad puede tener en la simulación de variables
aleatorias no uniformes?
Apéndice A. Modelos univariados de probabilidad
El propósito de este apéndice es resumir los modelos de probabilidad
más útiles y sus parametrizaciones, sus momentos y otras características
numéricas para …nes de referencia.
FALTA INCLUIR MODELOS.
Capítulo 4
El concepto de muestra
aleatoria
4.1 Introducción
4.1.1 Objetivo principal de este capítulo
El objetivo principal de este capítulo es completar la metamorfosis del es-
pacio estadístico simple en un modelo estadístico simple que se inició en
el capítulo anterior. En el capítulo 3 convertimos el primer componente, el
espacio de probabilidad, en un modelo de probabilidad. En este capítulo
procedemos a convertir el segundo componente, el espacio muestral, en un
modelo muestral. La metamorfosis involucra dos de los conceptos más
importantes de la teoría de la probabilidad: Independencia y Distribución
Idéntica. Al concluir la metamorfosis llegamos a uno de nuestros principales
objetivos intermedios, la formulación de un modelo estadístico simple, que
constituye la forma más sencilla de un modelo estadístico. Este último es la
piedra angular sobre la que vamos a construir tanto la modelización empírica
como la inferencia estadística. Como se mencionó en el capítulo 1, lo que
distingue a la modelización empírica de otras formas de modelización es el
uso de datos observados en conjunción con modelos estadísticos. Será muy
difícil exagerar la importancia del concepto de modelo estadístico en el con-
texto de la modelización con datos no experimentales. Esto se debe a que
la elección de un modelo estadístico, cuando se modela con datos no exper-
imentales, es el aspecto más difícil del problema y por lo tanto se necesita
un exhaustivo y profundo entendimiento de los conceptos involucrados. Este
157
158 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA
entendimiento concierne tanto a los aspectos probabilísticos (matemáticos),

como a la dimensión intuitiva que se relaciona a los datos observados.

En el capítulo 2 iniciamos la formalización de un mecanismo aleatorio simple
genéricamente conocido como un experimento aleatorio especi…cado por las
siguientes condiciones:
[a] todos los posibles distintos resultados se conocen a priori,
[b] en cualquier prueba particular los resultados no se conocen a priori
pero existe una regularidad perceptible de ocurrencia asociada con esos re-
sultados y
[c] el experimento aleatorio se puede repetir bajo idénticas condiciones.
La primera formalización en el capítulo 2 tomó la forma de un espacio
estadístico simple:
[i] espacio de probabilidad simple: (S; =; P (:))n ,
[ii] espacio muestral simple: GnIID := fA1 ; A2 ; :::; An g.
Esta formalización, aunque adecuada para propósitos matemáticos, es
demasiado abstracta para los propósitos de la modelización. En un intento
por transformarla en algo más adecuado para el análisis de datos numéricos,
hemos usado el concepto de variable aleatoria para transformar el espacio de
probabilidad en un modelo de probabilidad:
espacio de probabilidad modelo de probabilidad
(S; =; P (:)) = ff (x; ); 2 ; x 2 RX g,
donde denota un conjunto de funciones de densidad f (x; ), indexadas
por algún parámetro(s) desconocido(s) : este último tomando valores en
(ver capítulo 3).
4.1.3 De pruebas aleatorias a una muestra aleatoria: a

primer punto de vista
Como argumentamos en el capítulo 2, un espacio muestral simple GnIID :=
fA1 ; A2 ; :::; An g, es un conjunto de pruebas aleatorias que satisface las sigu-
ientes condiciones:
Yk
Independiente (I): P(n) (A1 \ A2 \; :::; \Ak ) = Pi (Ai ) ; para cada k = 2; 3; :::; n;
i=1
(4.1)
4.1. INTRODUCCIÓN 159
Idénticamente Distribuido (ID): P1 (:) = P2 (:) = = Pn (:) = P (:) : (4.2)
Independencia se relaciona con la condición de que "el resultado de una

prueba no afecta y no es afectado por el resultado de cualquier otra prueba"
o, equivalentemente:
P(n) (Ak jA1 ; A2 ; :::; Ak 1 ; Ak+1 ; :::; An ) = Pk (Ak ) , para cada k = 1; 2; :::; n
(4.3)
La condición ID tiene que ver con el "mantenimiento de la misma estruc-
tura probabilística de una prueba a otra"; las probabilidades asociadas a los
diferentes resultados siguen siendo las mismas para todas las pruebas.
Armados con el concepto de variable aleatoria, ahora consideramos la
metamorfosis del abstracto concepto de espacio muestral simple en algo
relacionado con las variables aleatorias. Observando la de…nición de prue-
bas aleatoria (4.1) - (4.2), podemos ver que la condición de Independen-
cia se de…ne en términos de las funciones conjunto de probabilidad P(n) (:)
y P(k) (:) que pertenecen a los espacios de probabilidad S(n) ; =(n) ; P(n) y
S(k) ; =(k) ; P(k) , respectivamente. Las di…cultades que hay que enfrentar en
la transformación de las pruebas aleatorias fA1 ; A2 ; :::; An g en un conjunto
de variables aleatorias X(n) := (X1 ; X2 ; :::; Xn ), tienen que ver con la de…ni-
ción de conceptos equivalentes a P(n) (:) y P(k) (:) en términos de variables
aleatorias. El concepto que corresponde a las funciones conjunto P(n) (:), es
la llamada función de distribución conjunta y la correspondiente a P(k) (:),
es la llamada función de distribución marginal. Utilizando estas dos no-
ciones podemos de…nir el concepto de muestra aleatoria: un conjunto de
variables aleatorias Independientes e Idénticamente Distribuidas (IID). El
nuevo concepto básico necesario para la formalización de ambas nociones es
el de función de distribución conjunta.

En la sección 2 introducimos la noción de distribución conjunta usando el
caso de dos variables para …nes expositivos. En la sección 3 relacionamos la
noción de distribución conjunta con la de distribución marginal introducida
en el capítulo anterior, haciendo hincapié en el hecho de que la primera im-
plica a menudo más información que las distribuciones marginales asociadas
a ella. En la sección 4 introducimos el concepto de distribución condicional

y lo relacionamos con las distribuciones conjunta y marginal. Las nociones
de condicionalidad y momentos condicionales jugarán un papel muy impor-
tante en las discusiones que siguen. En la sección 5 de…nimos el concepto
de independencia usando la relación entre las distribuciones conjunta, mar-
ginal y condicional. En la sección 6 de…nimos el concepto de Idénticamente
Distribuido en términos de las distribuciones marginales. Armados con los
conceptos de Independencia y de Distribución Idéntica procedemos a de…nir
el concepto de muestra aleatoria en la sección 7. Antes de completar la meta-
morfosis de un espacio estadístico simple en un modelo estadístico simple, en
la sección 10 hacemos una digresión importante. En la sección 8 introduci-
mos el concepto de función de variables aleatorias y su distribución como un
preludio a la discusión del concepto de muestra aleatoria ordenada en la sec-
ción 8. La noción de función de variables aleatorias es crucial en el contexto
de la inferencia estadística: la inmensa mayoría de las cantidades de interés
en la inferencia estadística (estimadores, estadísticos de prueba, predictores)
son funciones tales. El concepto de muestra ordenada es importante en el
presente contexto, porque una simple reordenación de una muestra aleato-
ria proporciona una muestra no aleatoria! El concepto de muestra ordenada
también juega un papel importante en la inferencia estadística.
4.2 Distribuciones conjuntas

El concepto de distribución conjunta es sin duda una de las nociones más
importantes tanto de la teoría de la probabilidad como de la inferencia es-
tadística. Al igual que en el caso de una sola variable aleatoria, la discusión
procederá a introducir el concepto del caso más simple al caso más general.
En este contexto, simple se re…ere al caso de conjuntos de resultados numer-
ables que dan lugar a variables aleatorias discretas. Después de introducir
las ideas básicas en este contexto simpli…cado procedemos a discutirlas en su
plena generalidad.
4.2.1 Variables aleatorias discretas

Para comprender el concepto de conjunto de variables aleatorias (un vector
aleatorio), consideremos en primer lugar el caso de dos variables aleatorias,
ya que su extensión a un número mayor de variables aleatorias es simple, en
4.2. DISTRIBUCIONES CONJUNTAS 161
principio, pero complicada en términos de notación.

Vector aleatorio. Considerar las dos variables aleatorias simples X(:)
y Y (:) de…nidas en el mismo espacio de probabilidad (S; =; P (:)), es decir,
X(:) : S !R tal que X 1 (x) 2 =, para todo x 2 R;

Y (:) : S !R tal que Y 1 (y) 2 =, parat todo y 2 R:
NOTA: recordamos al lector que Y 1 (y) = fs : Y (s) = y; s 2 Sg repre-

senta la preimagen de la función Y (:) y no su imagen inversa. Viéndolas por
separado podemos de…nir sus funciones de densidad individuales, como se
explicó en el capítulo anterior, de la siguiente manera:
P (s : X (s) = x) = fx (x) > 0; x 2 RX ;

P (s : Y (s) = y) = fy (y) > 0; y 2 RY ;
donde RX y RY representan el soporte de las funciones de densidad de X

y Y . Considerándolas juntas podemos pensar de cada par (x; y) 2 RX RY
fs : X(s) = x; Y (s) = yg := fs : X(s) = xg\fs : Y (s) = yg ; (x; y) 2 RX RY ,
En vista del hecho de que el espacio de eventos = es un -campo, y, por

lo tanto, cerrado bajo intersecciones, el mapeo:
Z (:; :) := (X (:) ; Y (:)) : S !R2

es un vector aleatorio ya que la preimagen de Z (:) pertenece al espacio de
eventos = :
1 1 1
Z (x; y) = X (x) \ Y (y) 2 =;
ya que, X 1 (x) 2 = y Y 1 (y) 2 =, por de…nición (veáse Spanos, (1986)).
Densidad conjunta. La función de densidad conjunta se de…ne por:
f (:; :) : RX RY ! [0; 1] ;
f (x; y) = P fs : X(s) = x; Y (s) = yg ; (x; y) 2 RX RY .
Ejemplo
Consideremos el caso del experimento aleatorio de lanzar una moneda no
trucada dos veces, dando lugar al conjunto de resultados: S = f(HH); (HT ); (T H); (T T )g.
De…namos las variables aleatorias X (:) e Y (:) en S de la siguiente man-
era:
X (HH) = X(HT ) = X (T H) = 1; X (T T ) = 0;
Y (HT ) = Y (T H) = Y (T T ) = 1; Y (HH) = 0:
Podemos construir las funciones de densidad individuales de la siguiente

manera:
x 0 1 y 0 1
((4.4))
f (x) 0:25 0:75 f (y) 0:25 0:75
Para de…nir la función de densidad conjunta es necesario especi…car todos
los eventos de la forma:
(X = x; Y = y) ; x 2 RX ; y 2 RY ,
y luego asignar probabilidades a estos eventos. Habida cuenta que:
(X = 0; Y = 0) = fg = ;; f (x = 0; y = 0) = 0:00;
(X = 0; Y = 1) = f(T T )g ; f (x = 0; y = 1) = 0:25;
(X = 1; Y = 0) = f(HH)g ; f (x = 1; y = 0) = 0:25;
(X = 1; Y = 1) = f(HT ) ; (T H)g ; f (x = 1; y = 1) = 0:50:
Es decir, la densidad conjunta toma la forma:
ynx 0 1
0 0:00 0:25 ((4.5))
1 0:25 0:50
Si comparamos esta densidad conjunta (4.5) con las densidades univari-
adas (4.4), no existe una relación evidente, pero como se muestra a contin-
uación, esto es engañoso. Como argumentamos en el siguiente capítulo, la
diferencia entre la probabilidad conjunta f (x; y), x 2 RX ; y 2 RY y el pro-
ducto de las probabilidades individuales (f (x) f (y)) para x 2 RX ; y 2 RY ,
re‡eja la dependencia entre las variables aleatorias X e Y . En esta etapa

es fundamental tener en cuenta que una característica muy importante de
la función de densidad conjunta f (x; y), es que proporciona una descripción
general de la dependencia entre X e Y .
Antes de proceder a examinar el caso de variables aleatorias continuas
es instructivo considerar un caso particularmente simple de una función de
densidad discreta de dos variables.
Ejemplo
El ejemplo anterior es un caso particular de una bien conocida distribución
discreta conjunta, la distribución de Bernoulli dada a continuación:
ynx 0 1
0 p (0; 0) p (1; 0) ((4.6))
1 p (0; 1) p (1; 1)
donde p(i; j) denota la probabilidad conjunta para X = i y Y = j,
i; j = 0; 1. La densidad conjunta de Bernoulli toma la forma:
f (x; y) = p (0; 0)(1 y)(1 x)

p (0; 1)(1 y)x
p (1; 0)y(1 x)
p (1; 1)xy ; x = 0; 1, y = 0; 1:
4.2.2 Variables aleatorias continuas

En el caso donde el conjunto de resultados S no es numerable, las variables
aleatorias de…nidas en él se dice que son continuas, porque su rango de valores
es un intervalo en la recta real R.
Vector aleatorio. Considere las dos variables aleatorias continuas X(:)
y Y (:) de…nidas en el mismo espacio de probabilidad (S; =; P (:)), es decir,
1
X (:) : S !R; tal que X (( 1; x]) 2 =; para todo x 2 R;
1
X (:) : S !R; tal que Y (( 1; y]) 2 =; para todo y 2 R:
Visualizándolas por separado podemos de…nir sus funciones de distribu-

ción acumulada (fda) (ver capítulo 3), de la siguiente manera:
1
P (s : X(s) x) = P X ( 1; x] = PX (( 1; x]) = FX (x); x 2 R;
1
P (s : X(s) y) = P Y ( 1; y] = PY (( 1; y]) = FY (y); y 2 R:
Visualizándolas juntas podemos asociar a cada par (x; y) 2 R R eventos

de la forma:
fs : X(s) x; Y (s) yg := fs : X(s) xg\fs : Y (s) yg ; (x; y) 2 R R.
Al igual que en el caso de variables aleatorias discretas, ya que = es un

campo (cerrado bajo intersecciones) el mapeo:
Z (:; :) := (X (:) ; Y (:)) : S !R2 ;

constituye un vector aleatorio; la preimagen de Z(:):
1 1 1
Z (( 1; x] ( 1; y]) = X (( 1; x]) \ Y (( 1; y]) 2 =;
dado que (X 1 (( 1; x])) 2 = y (Y 1 (( 1; y])) 2 = por de…nición.

La función de distribución acumulada conjunta (fda) se de…ne por:
FX;Y (:; :) : R2 ! [0; 1] ;
FXY (x; y) = P fs : X(s) x; Y (s) yg = PXY (( 1; x] ( 1; y]) ; (x; y) 2 R2 :
La fda conjunta también se puede de…nir en los intervalos de la forma

(a; b]:
P fs : x1 < X(s) x2 ; y1 < Y (s) y2 g = F (x2 ; y2 ) F (x1 ; y2 ) F (x2 ; y1 )+F (x1 ; y1 ) :
La función de densidad conjunta, asumiendo que f (x; y) 0 existe,

se de…ne a través de:
Z x Z y
F (x; y) = f (u; v)dudv:
1 1
NOTE que los subíndices a menudo se omiten cuando no hay posibilidad

de confusión. En el caso en el que F (x; y) sea diferenciable en (x; y) podemos
derivar la densidad conjunta por diferenciación parcial:
@ 2 F (x; y)
f (x; y) = ; en todos los puntos de continuidad de f (x; y):
@x@y
Ejemplo
Sea la fda conjunta la de la distribución exponencial bivariada:
x y x y @ 2 F (x; y) x y
F (x; y) = 1 e e +e ; ) f (x; y) = =e ;x 0; y 0:
@x@y
En el caso de variables aleatorias continuas podemos pensar en la densi-
dad conjunta como estando de…nida en un intervalo de la forma (x < X x + dx, y < Y y + dy)
de la siguiente manera:
P (x < X x + dx, y < Y y + dy) = f (x; y) dxdy.

Por lo tanto, como en el caso univariado (ver capítulo 3), la función de
densidad conjunta toma valores mayores de uno, es decir,
f (:; :) : R R ! [0; 1) :
En analogía directa con el caso univariado, la función de densidad
conjunta tiene que satisfacer ciertas propiedades:
[bf1] Rf (x;Ry) 0; para todo (x; y) 2 RX RY ;
1 1
[bf2] 1 1 f (x; y)dxdy = 1;
Ra Rb
[bf3] FX;Y (a; b) = 1 1 f (x; y)dxdy;
2
[bf4] f (x; y) = @ @x@y
F (x;y)
; en todos los puntos de continuidad de f (x; y):
NOTA: en el caso discreto todas las anteriores integrales se convierten en
sumatorias sobre todos los valores de X y Y , es decir, para x1 < x2 < <
xn < yPy1 <P y2 < < yn < .
[bf2] 0 1 i=1
1
j=1 f (xi ; yi ) = 1;
P P
[bf3] F (xk ; ym ) = ki=1 m
0
i=1 f (xi ; yj ).
Ejemplos
(i) Una importante distribución discreta de dos variables, es la binomial
cuya densidad toma la forma:
n! x y n x y
f (x; y; ) = 1 2 (1 1 2) , i 2 [0; 1] , i = 1; 2,
x!y! (n x y)!
: = ( 1; 2 ), n es un entero tal que x + y n, x; y = 0; 1; 2; :::; n.

(ii) La más importante distribución continua de dos variables es el Nor-
mal, cuya densidad toma la forma:
1 ( "
2 2
(1 ) 2
1 y 1 y 1 x 2 x 2
f (x; y; ) = p exp 2)
p 2 p p + p
2 11 22 2 (1 11 11 22 22
(4.7)
2
donde := ( 1 ; 2 ; 11 ; 22 ; ) 2 R R2+
[ 1; 1] ; x 2 R; y 2 R. En vista
de su complejidad evidente, la densidad bivariada dada en (4.7), a menudo
se denota por:
Y 1 11 12
~N ,
X 2 21 22
p
donde 12 := 11 22 . Un caso especial de esta distribución, conocida
como normal estándar bivariada, se de…ne cuando los parámetros toman
los valores:
1 = 2 = 0; 11 = 22 = 1:
Su función de densidad tiene la forma simpli…cada:
1 1
f (x; y; ) = p exp 2)
x2 2 xy + y 2 .
2 1 2 2 (1
Esta densidad con := (0; 0; 1; 1; 0:2) se muestra en la …gura 4.1. Los

detalles de la forma de campana de la super…cie pueden ser vistos en los
contornos añadidos que pueden ser vistos intuitivamente como las líneas que
obtenemos cortando la super…cie a diferentes alturas. Algunas otras distribu-
ciones de dos variables se listan en el apéndice B.
Figura 4.1 Densidad normal bivariada super…cie con contornos insertados.
4.2.3 Momentos conjuntos

Al igual que en el caso de las distribuciones univariadas la mejor manera
de interpretar los parámetros desconocidos es a través de los momentos. En
analogía directa con el caso univariado, de…nimos los momentos conjuntos
producto de orden (k; m) por:
0
km = E X k Y m , k; m = 0; 1; 2; :::;
y los momentos conjuntos centrales de orden (k; m) se de…nen por:
n o
k m
km = E (X E (X)) (Y E (Y )) , k; m = 0; 1; 2; :::;
Los dos primeros momentos conjunto producto y conjunto central son:
0
10 = E (X) , 10 = 0,
0
01 = E (Y ) , 01 = 0,
0 2
20 = E (X) + V ar (X) , 20 = V ar (X) ,
0 2
02 = E (Y ) + V ar (Y ) , 02 = V ar (Y ) ,
0
11 = E (XY ) , 11 = E [(X E (X)) (Y E (Y ))] .
El más importante y ampliamente utilizado momento conjunto es la co-

varianza, de…nida por
11 := Cov (X; Y ) = E f[X E (X)] [(Y E (Y ))]g (4.10)

Ejemplos
(i) Considerar la distribución normal conjunta cuya densidad está dada
en (4.7). Sabemos del capítulo 3 que los parámetros ( 1 ; 2 ; 11 ; 22 ) corre-
sponden a los momentos:
1 = E (Y ) , 2 = E (X) , 11 = V ar (Y ) , 22 = V ar (X) .
El parámetro adicional 12 resulta ser la covarianza entre las dos variables
aleatorias, es decir:
12 := Cov (X; Y ).
(ii) Vamos a obtener la covarianza entre X y Y , con la densidad conjunta
dada a continuación:
ynx 0 1 2 fY (y)
0 0:2 0:2 0:2 0:6
2 0:1 0:1 0:2 0:4
fX (x) 0:3 0:3 0:4 1
En primer lugar, tenemos que obtener los momentos de las distribuciones
univariadas:
E(X) := 0 (0:3) + 1 (0:3) + 2 (0:4) = 1:1; E(Y ) := 0 (0:6) + 2 (0:4) =
0:8; V ar(X) := [0 1:1]2 (0:3) + [1 1:1]2 (0:3) + [2 1:1]2 (0:4) = 0:69;
V ar(Y ) := [0 0:8]2 (0:6) + [2 0:8]2 (0:4) = 0:96;
Utilizando estos momentos procedemos a derivar la covarianza:
Cov(X; Y ) = E f[X E (X)] [Y E (Y )]g

= [0 1:1] [0 0:8] (0:2) + [0 1:1] [2 0:8] (0:1)
+ [1 1:1] [0 0:8] (0:2) + [1 1:1] [2 0:8] (0:1))
+ [2 1:1] [0 0:8] (0:2) + [2 1:1] [2 0:8] (0:2)
= 0:12.
Propiedades de la covarianza:
c1.Cov (X; Y ) = E (XY ) E(X) E(Y );
c2. Cov (X; Y ) = Cov (Y; X) ;
c3. Cov (aX + bY; Z) = aCov (X; Y ) + bCov(Y; Z); para (a; b) 2 R2 .
La primera propiedad muestra la relación entre los momentos centrales
conjuntos y crudos para k = m = 1. La covarianza es igual al primer mo-
mento conjunto producto E(XY ) menos el producto de las dos medias.
La segunda propiedad se re…ere a la simetría de la covarianza con respecto

a las dos variables aleatorias involucradas. La tercera propiedad se deduce
directamente de la linealidad del operador esperanza E (:).
Vamos a comprobar c1 usando el ejemplo anterior. En vista del hecho de
que:
E (XY ) = (0) (0) (0:2)+(0) (2) (0:1)+(1) (0) (0:2)+(1) (1) (0:1)+(2) (0) (0:2)+(2) (2) (0:2) = 1:0,
podemos concluir que Cov (X; Y ) = 1:0 (1:1) (0:8) = 0:12, lo cual con-
…rma el valor anterior de Cov (X; Y ).
Una digresión. Es interesante notar que usando la covarianza, podemos
extender la propiedad V2 de la varianza (ver capítulo 3), al caso en el cual las
dos variables no sean independientes. En el caso de dos variables aleatorias
X y Y arbitrarias:
V ar (aX + bY ) = a2 V ar(X) + b2 V ar(Y ) + 2abCov(X; Y ).

En el caso de que la variables aleatorias X e Y sean independientes,
Cov(X; Y ) = 0 (pero lo contrario no es cierto en general) y la relación anterior
se reduce a la que vimos en el capítulo 3: V ar (aX + bY ) = a2 V ar(X) +
b2 V ar(Y ).
Los momentos conjuntos tercero y cuarto son también de interés porque,
como en el caso univariado, se pueden utilizar para evaluar la simetría y la
forma de la distribución conjunta. Las fórmulas, sin embargo, muy rápido se
vuelven demasiado complicadas. Para …nes de referencia vamos a considerar
los coe…cientes de asimetría y de curtosis de una distribución de dos variables
en el caso donde (X; Y ) no están correlacionadas, es decir,
11 = 0, 20 = V ar (X), 02 = V ar (Y ).
2 2 2 2
Asimetría: 3 (X; Y ) = 230 + 203 + 3 2 21 + 3 212 ,
20 02 20 02 20 02
2
Curtosis: 4 (X; Y ) = 40
2 + 04
2 + 22
.
40 02 20 02
4.2.4 El caso de n variables aleatorias

Hasta ahora hemos discutido la extensión del concepto de variable aleatoria
a un vector aleatorio de dos dimensiones. Resulta que no surgen di…cultades
adicionales en la extensión de la noción de variable aleatoria para el caso n
variables X(:) := (X1 (:) ; X2 (:) ; :::; Xn (:)):
X(:) : S !Rn ,
donde Rn := R R R representa el producto Cartesiano de la
línea real (ver capítulo 2).
La función de n variables X(:) se dice que es un vector aleatorio con
respecto a = si:
X(:) : S !Rn ; tal que X 1

(( 1; x]) 2 =; para todo x 2 Rn ,
donde x := (x1 ; x2 ; :::; xn ) y ( 1; x] := ( 1; x1 ] ( 1; x2 ]

( 1; xn ].
NÓTESE que todas las variables aleatorias (X1 (:) ; X2 (:) ; :::; Xn (:)) se
de…nen en el mismo conjunto de reultados S y en relación con el mismo
espacio de eventos =.
Teniendo en cuenta el hecho de que = es un -campo sabemos que X(:)
es un vector aleatorio con respecto a = si y sólo si las variables aleatorias
(X1 (:) ; X2 (:) ; :::; Xn (:)) son variables aleatorias con respecto a =. Esto se
debe a que Xk 1 (( 1; xk ]) 2 =;para todo k = 1; 2; :::; n; y entonces:
Tn
i=1 Xk 1 (( 1; xk ]) 2 =.
Los distintos conceptos introducidos anteriormente para el caso de dos

variables aleatorias se puede extender fácilmente al caso de n variables aleato-
rias. En analogía directa con el caso de dos variables, la función de densi-
dad conjunta satisface las propiedades:
n
x1 x2 R nx)n 0;para todo (x1 ; x2 ; :::; xn ) 2 RX ;
[mf1] Rf (x1R; x2 ; :::; x
[mf2] 1 1 f (x1 ; x2 ; :::; xn ) dx1 dx2 dxn = 1;
1 R x1 R x2 R xn
[mf3] F (x1 ; x2 ; :::; xn ) = 1 1 1
f (u1 ; u2 ; :::; un ) du1 du2 dun :
Usando la misma línea de razonamiento podemos extender fácilmente las
n dimensiones del vector aleatorio X(:) a una in…nidad de dimensiones, es
decir, de…nir X1 := (X1 (:); X2 (:); :::; Xn (:); :::):
X1 (:) : S !R1 ,
que es un vector aleatorio con respecto a algún = si y sólo si cada
elemento de la sucesión X1 (:) es una variable aleatoria en relación con
=. Esto establece la existencia de un vector aleatorio in…nito y prepara
el camino para el capítulo 8, donde discutimos el concepto de proceso es-
tocástico fXn (s)g1 n=1 := X1 (:), s 2 S. El lector puede apreciar ahora por
4.3. DISTRIBUCIONES MARGINALES 171
qué se requieren campos (aditivamente numerables) y no sólo campos de

eventos para de…nir el concepto de espacio de eventos. Esto se hace aún más
evidente cuando procedemos a utilizar la estructura matemática (topológica)
del campo de Borel ß (R). Esta estructura, nos permite discutir la conver-
gencia de dichas sucesiones de variables aleatorias:
lim Xn (S) = X (S), para todo s 2 S.

n!1
Este concepto será de suma importancia en el capítulo 9, donde discuti-

mos teoremas límite; la estructura topológica del campo de Borel ß(R) nos
permite discutir los conceptos de convergencia probabilística.
4.3 Distribuciones marginales

El segundo componente de la condición [c], referido a la Independencia de
las pruebas se de…ne en términos de una relación simple entre la función de
densidad conjunta f (x1 ; x2 ; :::; xn ; ) y las funciones de densidad de las vari-
ables aleatorias individuales, X1 ; X2 ; :::; Xn , y se conocen como distribuciones
marginales. Veamos cómo la distribución marginal se relaciona con la dis-
tribución conjunta. No debería ser ninguna sorpresa saber que a partir de la
distribución conjunta siempre se puede recuperar la distribución marginal
(univariada) de las variables individuales aleatorias implicadas. En términos
de la fda conjunta, la distribución marginal se obtiene a través de un proceso
límite:
FX (x) = lim F (x; y) y FY (y) = lim F (x; y) :

y!1 x!1
Ejemplo
Consideremos el caso de la fda exponencial bivariada:
x y
F (x; y) = 1 e 1 e ; > 0; > 0; x > 0; y > 0:
n 1
Ya que lim (e )=e = 0; podemos deducir que
n!1
x y
FX (x) = lim F (x; y) = 1 e ; x > 0; FY (y) = lim F (x; y) = 1 e ; y > 0:
y!1 x!1
Veamos ahora cómo la marginalización se de…ne en términos de las fun-

ciones de densidad. En vista del hecho de que:
Z x Z y Z x Z 1
FX (x) = lim F (x; y) = lim f (x; y)dydx = f (x; y)dy dx;
y!1 y!1 1 1 1 1
y la relación entre FX (x) y fX (x), podemos deducir que

Z 1
fX (x) = f (x; y)dy; x 2 RX ; (4.12)
1
Similarmente, en términos de la función de densidad conjunta, la función

de densidad marginal de Y se obtiene a través de:
Z 1
fY (y) = f (x; y)dx; y 2 RY : (4.13)
1
Esto sugiere que la marginalización se obtiene integrando la otra variable

aleatoria.
Ejemplos
(i) Consideremos el caso de la densidad exponencial bivariada:
f (x; y) = e x y ; x > 0; y > 0;
donde las variables aleatorias X; Y son continuas. La fórmula (4.12)
sugiere que, para obtener la distribución marginal de X, es necesario integrar
la variable aleatoria Y a partir de f (x; y):
Z 1
fX (x) = e x y dy = e x .
0
(ii) considerar la densidad normal estándar bivariada (4.9). Para obtener

la densidad marginal de X, tenemos que integrar a Y y viceversa. Las ma-
nipulaciones de tal derivación son más bien complicadas (y por lo tanto se
omiten), pero el resultado es particularmente útil. Resulta que:
Z 1
1 1 2
fX (x) = f (x; y)dy = p exp x ;
1 2 2
Z 1
1 1 2
fY (y) = f (x; y)dx = p exp y ;
1 2 2
Es decir, ambas distribuciones marginales son Normal (estándar) y se

indican por:
4.3. DISTRIBUCIONES MARGINALES 173
X N (0; 1) y Y N (0; 1).
Marginalización e intuición. Podemos visualizar la derivación de la

distribución marginal de X a partir de la distribución bivariada f (x; y), como
la proyección de la super…cie de dos variables en el plano [x; f (x; y)]. Como
se muestra en la …gura 4.2, la proyección de una super…cie en forma de
campana sobre un plano opuesto produce una forma de campana para ambas
distribuciones marginales. Intuitivamente, el paso de la densidad conjunta a
la marginal signi…ca ignorar la información referente a la dimensión particular
representada por la variable aleatoria no integrada.
Figura 4.2 Densidad normal bivariada con densidades marginales

proyectadas
En el caso de una variable aleatoria discreta, podemos derivar la dis-

tribución marginal de una variable aleatoria, a partir de la densidad conjunta
f (x; y), sumando la otra variable aleatoria. Por ejemplo, la derivación de la
densidad marginal de X toma la forma de suma sobre todos los valores de
Y , digamos y1 < y2 < yn < , de la siguiente manera:
X1
fX (x) = f (x; yi ) ; x 2 RX : (4.14)
i=1
Del mismo modo, la densidad marginal de Y toma la forma de suma sobre

todos los valores de X, por ejemplo x1 < x2 < xn < :
X1
fY (y) = f (xi ; y) ; y 2 RY : (4.15)
i=1
Ejemplos
(i) La densidad conjunta de la distribución de Bernoulli está bien de…nida,
si las probabilidades p (i; j) para i; j = 0; 1, además de ser no negativas,
también satisfacen una serie de restricciones adicionales requeridas por las
distribuciones marginales. Las distribuciones marginales de X e Y son las
siguientes:
x 0 1 y 0 1
(4.16)
fX (x) p:1 p:2 fY (y) p1 : p2 :
p:1 = p (0; 0) + p (0; 1) ; p1 : = p (0; 0) + p (1; 0) ;
p:2 = p (1; 0) + p (1; 1) ; p2 : = p (0; 1) + p (1; 1) :
Para que estas distribuciones marginales tengan sentido necesitan sat-
isfacer las propiedades de las funciones de densidad univariadas f1-f3 (ver
capítulo 3). Esto sugiere que sus probabilidades deben sumar p:1 + p:2 = 1 y
p1 : p2 : = 1:
(ii) Una distribución discreta importante, es el binomial bivariada (o tri-
nomial, como a menudo se llama) cuya densidad toma la forma:
n! x y n x y
f (x; y; ) = 1 2 (1 1 2) , i 2 [0; 1] , i = 1; 2,
x!y! (n x y)!
donde : = ( 1; 2 ), n es un entero tal que x + y n, x; y = 0; 1; 2; :::; n.
X
n x
n! x1 y2 n x k
fX (x; ) = (1 1 2)
k=1
x!k! (n x k)!
n! x1 X
n x k
2 n x k
= (1 1 2)
x! k=1 k! (n x k)!
n! x X
n x
(n x)! n x k
1 k
= 2 (1 1 2)
x! (n x)! k=1
k! (n x k)!
n x n x
= 1 (1 1) .
x
(iii) Vamos a obtener la distribución marginal de X a partir de la densidad

conjunta dada a continuación:
4.4. DISTRIBUCIONES CONDICIONALES 175
ynx 0 1 2
0 0:2 0:2 0:2 (4.17)
2 0:1 0:1 0:2
La fórmula (4.12) sugiere que sumando hacia abajo las columnas obten-
emos la densidad marginal de X y sumando las …las obtenemos la densidad
marginal de Y :
x 0 1 2 y 0 2
(4.18)
fX (x) 0:3 0:3 0:4 fY (y) 0:6 0:4
Estas son claramente las funciones de densidad propias, dado que:
fX (x) 0; fX (0) + fX (1) + fX (2) = 1 y fY (y) 0; fY (0) + fY (2) = 1:
Los dos densidades marginales se muestran con la densidad conjunta a
continuación:
ynx 0 1 2 fY (y)
0 0:2 0:2 0:2 0:6
(4.19)
2 0:1 0:1 0:2 0:4
fX (x) 0:3 0:3 0:4 1
En cuanto a la última columna podemos ver que las probabilidades aso-
ciadas a los valores de Y no contienen la información relativa a X.
4.4 Distribuciones condicionales

4.4.1 Probabilidad condicional
Volvamos al capítulo 2 y recordemos la noción de probabilidad condicional
usando nuestro ejemplo favorito.
Ejemplo
Consideremos de nuevo el experimento aleatorio de "lanzar una moneda
al aire dos veces", con:
S = f(HH); (HT ); (T H); (T T )g.
Suponiendo que A = f(HH); (HT ); (T H)g es un evento de interés, sin

ninguna información adicional, el sentido común sugiere que P (A) = 43 . Sin
embargo, en el caso en que exista alguna información adicional, por de-

cir alguien anuncia que en una prueba particular, "la primera moneda es
una T ", la situación cambia. La información disponible de…ne el evento
B = f(T H); (T T )g y el conocimiento de que B ha ocurrido invalida la prob-
abilidad P (A) = 34 . Esto se debe a que la información implica que, en esta
prueba particular, los resultados (HH) y (HT ) no pueden ocurrir. Es decir,
en lugar de S, el conjunto de todos los distintos posibles resultados, dado
que B ha ocurrido, es justamente B. Esto sugiere que la nueva probabilidad
de A, dado que B ha ocurrido, que se denota por P (AjB), es diferente. El
sentido común sugiere que P (AjB) = 21 , ya que A incluye uno de los dos
distintos resultados posibles. ¿Cómo podemos formalizar este argumento?
La fórmula para la probabilidad condicional del evento A, dado el evento
B, toma la forma:
P (A \ B)
P (A j B) = ; para P (B) > 0: (4.20)
P (B)
En el ejemplo anterior, P (A \ B) = P (T H) 41 , P (B) = 12 , y por lo tanto
1
P (A \ B) = 4
1 = 12 , lo que con…rma la respuesta de sentido común.
2
4.4.2 Funciones de densidad condicional

Al igual que en el caso de las distribuciones conjunta y marginal, consid-
eramos el caso simple de variable aleatoria discreta y luego procedemos a
discutir el caso general de variable aleatoria.
Variables aleatorias discretas. En el caso de dos variables aleatoria
discreta X e Y , si de…nimos los eventos:
A = fY = yg y B = fX = xg ;
entonces la traducción de las fórmulas anteriores en términos de funciones
de densidad toma la forma:
P (X = x) = f (x);
P (Y = y; X = x) = f (x; y);
P (Y = y j X = x) = f (y j x);
dando lugar a la fórmula de la densidad condicional:
f (x; y)
f (y j x) = ; para f (x) > 0; y 2 RY ;
fX (x)
donde f (yjx) denota la densidad condicional de Y dado que X = x.

Ejemplo
Consideremos la función de densidad conjunta para las variables aleato-
rias discretas X e Y dadas en (4.19). De la fórmula anterior podemos ver
que la densidad condicional de Y dado X = 0 toma la forma:
f (x = 0; y)
f (yjx = 0) = ; y 2 RY := f0; 2g :
fX (x = 0)
Esto sugiere que las probabilidades condicionales f (yjx = 0), para y 2
RY , son probabilidades conjuntas escaladas f (xjy = 0), para x 2 RX , con la
probabilidad marginal fX (x = 0) proporcionando el peso. En particular:
f (x=0;y=0) 0:2
fX (x=0)
= 0:3
= 23 ; y = 0
f (yjx = 0) = f (x=0;y=2) 0:1
fX (x=0)
= 0:3
= 13 ; y = 2
La densidad condicional se muestra a continuación:
y 0 2
2 1
f (yjx = 0) 3 3
Variables aleatorias continuas
En el caso de dos variables aleatorias continuas X e Y no podemos usar
los eventos A = fY = yg y B = fX = xg con el …n de transformar (4.20)
en términos de funciones de densidad, porque, como sabemos, = fX = xgen
este caso P (X = x) = 0 y P (Y = y) = 0 para todo x 2 R, y 2 R. Al
igual que en el caso de la de…nición de las funciones de densidad conjunta y
marginal debemos tener en cuenta eventos de la forma:
A = fX xg y B = fY yg :
Sin embargo, incluso en el caso de variables aleatorias continuas nos gus-
taría ser capaces de referirnos a la distribución condicional de Y dado que
X = x. La forma de sortear las di…cultades matemáticas es a través de
la función de distribución condicional acumulativa de…nida de la siguiente
manera
P (Y y; x X x + h)
FY jX (y j X = x) = lim+
h!0 P (x X x + h)
donde h ! 0+ se lee "cuando h tiende a 0 através de valores mayores
que 0." Después de algunas manipulaciones matemáticas podemos demostrar
que:
Z y
P (Y y; x X x + h) f (x; u)
FY jX (y j X = x) = lim+ = du:
h!0 P (x X x + h) 1 fX (x)
Esto sugiere que en el caso de dos variables aleatorias continuas X, Y
podríamos de hecho de…nir la función de densidad condicional como en (4.21)
pero no deberiamos interpretarla como asignando probabilidades, ya que:
f (: j x) : RY ! [0; 1) :
Como podemos ver, la densidad condicional es una función de densidad
propia, en la medida en que, en el caso de variables aleatorias continuas,
cumple las propiedades:
[cf1] Rf (yjx) 0; para todo y 2 RY ;
1
[cf2] 1 f (yjx)dy = 1;
Ry
[cf1] F (yjx) = 1 f (ujx)du:
En el caso de variables aleatorias discretas las integrales son reemplazadas
por sumatorias.
Ejemplos
(i) Considere el caso donde la función de densidad conjunta toma la forma:
f (x; y) = 8xy; 0 < x < y; 0 < y < 1:

Las densidades marginales de x e y se pueden derivar de la densidad
conjunta integrando sobre y y x, respectivamente:
Z 1
fX (x) = (8xy) dy = 4xy 2 jy=1
y=x = 4x 1 x2 ; 0 < x < 1;
Zx y
fY (y) = (8xy) dx = 4x2 y jx=y 3
x=0 = 4y ; 0 < y < 1:
0
NOTA: La única di…cultad en las derivaciones anteriores es notar que el

rango de
X es restringido por Y y viceversa. Utilizando estos resultados podemos
deducir que:
8xy 2y
f (yjx) = 2
= ; x < y < 1; 0 < x < 1;
4x (1 x ) (1 x2 )
8xy 2x
f (xjy) = 3
= 2 ; 0 < x < y; 0 < y < 1:
4y y
(ii) Consideremos la distribución normal estándar de dos variables. Como

vimos en la sección anterior, en el caso en que f (x; y) sea normal, las dis-
tribuciones marginales marginales f x(x) y f y(y) son también normales. Por
lo tanto, la densidad condicional de Y dado X = x se pueden derivar de la
siguiente manera1 :
1
n o
2 2 1
2 (1 ) 2
exp [2 (1 )] (x2 2 xy + y 2 )
f (yjx) = p 1 2
;
2 exp 2
x
2
1
2 1 1
= 2 1 2
exp 2 1 x2 2 xy + y 2 + x2 :
2
Usando la igualdad:
1 1 1
2 1 2
x2 2 xy + y 2 + x2 = 2 1 2
(y x)2 ,
2
la densidad condicional toma la forma:
1
2
(1 ) 2
1
f (yjx) = p exp 2)
(y x)2 :
2 2 (1
2
Por lo tanto f (yjx) es también normal con media x y varianza (1 ),
denotado por
2
(Y j X = x) N x; 1 :
1
Las manipulaciones matemáticas no son importantes en esta etapa.
Figura 4.3 Densidad normal bivariada con densidad condicional en

x = 0:5.
La densidad condicional f (yjx = 0:5) se puede visualizar como la densidad

de una sola dimensión cortando la densidad conjunta con un plano perpen-
dicular, paralelo al eje y y pasando a través del punto x = 0:5. En la …gura
4.3 podemos ver cómo el corte de la super…cie de dos variables en x = 0:5
escalada por [1=fx ( 0:5)] proporcina una densidad normal univariada.
4.4.3 Variables aleatorias discretas/continuas

En la modelizaciónempírica hay ocasiones en que el modelador es requerido
para modelar la relación entre variables aleatorias continuas y discretas. Nat-
uralmente, estas discusiones involucran la distribución conjunta de las vari-
ables aleatorias involucradas y la pregunta que surge es: ¿cómo especi…car
tales distribuciones?. Resulta que la forma más conveniente para especi…car
una distribución conjunta es a través de la densidad condicional.
Consideremos el caso en que F (x; y) es la fda conjunta de las variables
aleatorias (X; Y ) donde X es discreta y Y es continua. Sea RX = fx1 ; x2 ; :::g
el rango de valores de la variable aleatoria X. La fda conjunta es completa-
mente determinada por la sucesión de pares de una probabilidad marginal y
la densidad condicional asociada:
[fx (xk ) ; f (y j xk )] ; para todo yk 2 RX .

Esto se puede visualizar como una sucesión de polos de probabilidad a lo
largo del eje x en los puntos fx1 ; x2 ; :::g que están manchados (smudged)
a lo largo del eje y de tal manera que la densidad en cualquier punto xk es
[fx (xk ) f (y j xk )].
La única di…cultad técnica de este resultado es cómo especi…car la densi-
dad condicional. Ésta se de…ne por:
1 d [F (xk ; y) F (xk 0; y)]

f (y j xk ) =
fX (xk ) dy
donde la notación (xk 0) indica tomar la derivada por la izquierda, de
tal manera que:
X Z y
F (x; y) = fX (xk ) f (u j xk ) du.
xk x 1
Del mismo modo, la distribución marginal de la variable aleatoria Y se

de…ne por:
X Z y
FY (y) = fX (xk ) f (u j xk ) du.
xk 2RX 1
Ejemplo
Consideremos el caso donde las variables aleatorias (X; Y ), X es Bernoulli
y Y está normalmente distribuiday la densidad conjunta toma la forma:
f (x; y; ) = f (y j xk ; ) fX (xk ; p) ; xk 2 RX ;
1 1 2
f (y j xk ; ) = p exp 2
(y 0 1 xk ) ; fX (1) = p, fX (0) = 1 p:
2 2
4.4.4 Momentos codicionales

La densidad condicional, que es una función de densidad propia, también
goza de características numéricas análogas a las funciones de densidad mar-
ginal. En particular, para variables aleatorias continuas podemos de…nir los
momentos condicionales:
Z1
r
crudo : E (Y j X = x) = y r f (y j x) dy; r = 1; 2; :::;
1
Z1
r
central : E f(Y E [Y j X = x]) j X = xg = (Y E [y j x])r f (y j x) dy;
1
r = 2; 3; :::
NOTE que la única diferencia entre los momentos marginales y condi-

cionales es que la distribución relevante con respecto a la que E(:) se de…ne
ahora es el condicional.
En el caso de variables aleatorias discretas remplazamos las integrales
con sumatorias como se ejempli…ca en el caso del primero de estos momentos
condicionales:
X
media condicional : E (Y j X = x) = y f (y j x) ;
y2RY
X
varianza condicional : V ar (Y j X = x) = [y E [y j x]]2 f (y j x) :
y2RY
Ejemplos
(i) Distribución discreta, sin parámetros desconocidos. Para la densidad
condicional (4.22)
2 1 2
E (Y j X = 0) = 0 +2 = ;
3 3 3
2 2
2 2 2 1 24
V ar (Y j X = 0) = 0 + 2 = :
3 3 3 3 27
(ii) Distribución continua, sin parámetros desconocidos. Considere el caso

donde la función de densidad conjunta toma la forma:
f (x; y) = 8xy; 0 < x < y; 0 < y < 1:
Como mostramos anteriomente, las densidades marginales de x y y son:
f (x) = 4x 1 x2 ; 0 < x < 1 y f (y) = 4y 3 ; 0 < y < 1:
Entonces,
8xy 2y
f (y j x) = 2
= ; x < y < 1; 0 < x < 1;
4x (1 x ) (1 x2 )
8xy 2x
f (x j y) = 3
= 2 ; 0 < x < y; 0 < y < 1:
4y y
Z 1 Z 1
2y 2
E (Y j X = x) = y 2)
dy = 2)
y 2 dy
x (1 x (1 x x
2 1 3 y=1 2 (1 x3 )
= y jy=x = ;
(1 x2 ) 3 3 (1 x2 )
Z y
2x 2 1 3 x=y 2 1 3 2
E (X j Y = y) = x 2
dx = 2 x jx=0 = 2 y = y;
0 y y 3 y 3 3
Z y 2 Z y
2 2x 2 4 2 4 2x
V ar (X j Y = y) = x y dx = x + y xy dx =
3 y2 9 3 y2
Z0 y 3 2
0
2x 8 8 x
= 2
+ x dx
0 y 9 3 y
x=y
x4 4 2 8 x3 1
= 2
+ x = y2:
2y 9 9 y x=0 18
(iii) Distribución continua, con parámetros desconocidos. Consideremos

el caso de la distribución normal (estándar) de dos variables discutida en la
subsección anterior. Se demostró que la distribución condicional de Y dado
que X = x toma la forma:
2
(Y j X = x) N x; 1 .
Esto sugiere que:
2
E (Y j X = x) = x y V ar (Y j X = x) = 1 .
Los momentos condicionales son de interés en la modelizaciónde la depen-
dencia ya que con frecuencia ellos proporcionan la forma más ‡exible para
capturar los aspectos importantes de la dependencia probabilística (véase el
capítulo 6).
4.4.5 Una digresión: otras formas de condicionalidad

Truncamiento
Además del condicionamiento de eventos de la forma fX = xg, a menudo
es de interés condicionar eventos eventos tal como:
fX > ag , fX < bg o fa < X bg .

Ejemplo
En el caso del experimento aleatorio de "medir la vida de un foco" po-
dríamos estar interesados en la probabilidad de que tenga una duración de n
horas dado que ha durado por lo menos m horas ya (n > m).
Consideremos el caso más general de condicionalidad del evento fa < x bg,
que se re…ere al doble truncamiento; desde la izquierda en el punto a y
desde la derecha en el punto b. La intuición sugiere que en el caso de una
variable aleatoria discreta X con un rango de valores RX := fx1 ; x2 ; :::g, la
función de probabilidad condicional de X dado fa < x bg debe estar dada
por:
f (xi )
f (xi j fa < X bg) = X , para a < xi b.
f (xj)
a<xj b
Es decir, la probabilidad de X = xi dado fa < x bg es justamente

una probabilidad ponderada. Del mismo modo, en el caso de una variable
aleatoria continua X la fórmula anterior toma la forma:
f (x) f (x)
f (xj fa < x bg) = Z b
= , para fa < x bg .
F (b) F (a)
f (x) dx
a
Ejemplo
En el caso de la distribución normal la densidad doblemente truncada
toma la forma:
( )
2
( 2 ) 1 1 x
f (x; ) = exp , fa < x bg .
(F (b) F (b)) 2
Viendo los eventos fX > ag y fX < bg como casos especiales de fa < x bg

podemos modi…car las fórmulas anteriores por consiguiente. Para los ca-
sos fX > ag = (a; 1) y fX < bg = ( 1; b), usando el resultado de la
F (1) = lim F (x) = 1, deducimos que:
x!1
f (x) f (x)
f (xjX > a) = , x > a, f (xjX < b) = , x < b, (4.24)
1 F (a) F (b)
Las funciones f (xja < x b), f (xjX > a) y f (xjX < b) se re…eren a
menudo como funciones de densidad truncadas y disfrutan de las propiedades
habituales:
[tf1] f (xja < x b) 0, para todo x 2 RX ,
Z b
[tf2] f (xja < x b) dx = 1.
a
Ejemplo
Sea X una variable aleatoria con distribución exponencial:
x x
f (x) = e y F (x) = 1 e , y > 0.
De (4.24) se deduce que:
x
e (x t)
f (xjX > t) = x
= e .
e
Función de Hazard (Riesgo)
Como puede verse en el ejemplo anterior, f (xjX > t) es una función de
x y de t. Viéndola únicamente como una función de t de…nimos lo que se
conoce como:
Función de riesgo: h (t) = 1 f F(t)(t) , x > t.
Intuitivamente, esto puede ser considerado como la tasa instantánea de
mortalidad de una persona que está viva hasta el tiempo t.
Ejemplo
Para X, una variable aleatoria distribuida exponencialmente, la función
de riesgo toma la forma:
t
e
h (t) = t
= .
e
Intuitivamente, esto signi…ca que la tasa instantánea de mortalidad es
constante. Esto sugiere que la distribución exponencial no es apropiada para
modelar la vida del foco, ya que implícitamente asume que la probabilidad
de que falle no depende de la edad del foco!
4.4.6 Marginalización frente a condicionalidad

Las densidades marginal y condicional, vistas en relación con la función de
densidad conjunta
conjunta f (:; :) : (R R) ! [0; 1) ;

marginal fY (; ) : R ! [0; 1) ;
condicional f (: j x) : R ! [0; 1) ;
tienen una cosa en común: ambas son la densidad de una variable. Es

decir, ambas reducen la dimensionalidad de la función de densidad bivariada,
pero la reducción toma diferentes formas. En el caso de la densidad marginal
fY (:) la información relativa a la otra variable aleatoria X es ignorada (se
integra fuera). Por otra parte, en el caso de la densidad condicional f (:jx) no
toda la información relativa a X se pasa por alto. La densidad condicional
conserva parte de la información relativa a X; la información de x = x.
La fórmula (4.21), de…niendo la densidad condicional se puede rearreglar
para obtener:
f (x; y) = f (yjx) :fX (x) para todo (x; y) 2 (RX RY ) (4.25)
Esto descompone la densidad bivariada f (x; y), en un producto de dos

densidades univariadas, f (yjx) y fX (x); o al menos eso parece. La importan-
cia de esta descomposición se pondrán de mani…esto en la siguiente sección
en relación con la noción de independencia. Antes de considerar esto, sin
embargo, hay buenas razones para la elaboración de la intuición subyacente
a la marginalización y condicionalidad.
Ejemplo
Consideremos la función de densidad conjunta representada a contin-
uación:
ynx 1 2 3 fy (Y )
0 0:20 0:10 0:15 0:45
1 0:10 0:25 0:05 0:40 (4.26)
2 0:1 0:6 0:8 0:15
fX (x) 0:31 0:41 0:28 1
Re‡exione sobre la situación siguiente. Se despierta en un hospital de
Chipre cubierto de yeso de la cabeza a los pies con sólo muestra los ojos y
la boca y que sufre de amnesia total. Una enfermera, que acaba de llegar
de turno, entra y le informa que, basándose en el informe que acaba de leer:
usted ha estado involucrado en un accidente automovilístico, se encuentra en

mal estado (pero fuera de peligro) y es probable que permaneza en el hospital
por un tiempo. La primera pregunta que viene a la mente es: ¿quién soy yo?
pero el segundo pensamiento que se desliza es: ¿puedo pagar las cuentas?
La enfermera parece leer su mente, pero es incapaz de ayudar. Lo único que
podría ofrecer era la tabla de arriba, donde X representa el grupo de edad y
Y grupo de ingresos:
X = 1 : (18 35) , X = 2 : (36 55) , X = 3 : (56 70) ,

Y = 0 : pobre, Y = 1 : de ingresos medios, Y = 3 : rico.
Un vistazo a las probabilidades conjuntas trae un poco más de confusión,
porque la mayor probabilidad se asocia al evento (X = 2; Y = 1) (edad media
e ingresos medio) y la probabilidad más baja se une al evento (X = 1; Y = 2)
(jovén pero rico!). En un intento por reasegurarse ignora los ingresos (como
de importancia secundaria) por un momento y mira la densidad marginal
de X. La probabilidad de estar en el grupo de edad de las personas may-
ores ( independientemente de los ingresos ) es menor que las probabilidad
de que sea joven o de mediana edad; un suspiro de alivio, pero no mucho
consuelo, porque la probabilidad de ser joven no es mucho más alta! Du-
rante este silogismo la enfermera recuerda que, según el informe usted estaba
conduciendo un Porsche! Esta pieza adicional de información cambia brus-
camente la situación. A menos que usted fuera un ladrón huyendo a toda
velocidad cuando ocurrió el accidente (un caso poco probable en un país li-
bre de crimen, como Chipre!), usted sabe que Y = 2 ha sucedido. ¿Cómo
cambia esto la probabilidad conjunta? Las probabilidades relevantes ahora
son dadas por la densidad condicional de X dado Y = 2:
8 f (x=1;y=1) 0:01
9
< fy (y=2) = 0:15 = 0:067, x = 1, >
> =
f (x=2;y=2) 0:06
f (xjy = 2) = fy (y=2)
= 0:15
= 0:400, x = 2,
>
: f (x=3;y=2) 0:08
>
;
fy (y=2)
= 0:15
= 0:533, x = 3,
Un vistazo a estas probabilidades condicionales y estrá usted pidiendo a
la enfermera que le quite el yeso para comprobar la edad que tiene, hay más
de 50 por ciento de probabilidad que sea una persona mayor!
Después de haber discutido los conceptos de distribución marginal y
condicional podemos proceder a la formalización de la noción de indepen-
dencia y distribuciones idénticas.
4.5 Independencia
4.5.1 El caso de dos variables aleatorias
Como se ha visto en el capítulo 2, dos eventos A y B que pertenecen al
espacio mismo eventos =, se dice que son independientes si:
P (A \ B) = P (A) P (B) :
Traduciendo dos eventos arbitrarios A y B en eventos de la forma: A :=
(s : X (s) x) y B := (s : Y (s) y), s 2 S, la condición anterior se con-
vierte en :
P (X x; Y y) = P (X x) P (Y y) ; para todo (x; y) 2 R2 ,

FXY (x; y) = FX (x) FY (y) ; para todo (x; y) 2 R2 ; (4.27)
donde FXY (:; :) denota la función de distribución acumulada conjunta

(fda). En términos de las funciones de densidad, se dice que X, Y son
independientes si:
f (x; y) = fX (x) fY (y) ; para todo (x; y) 2 R2 (4.28)

Es decir, la densidad conjunta es igual al producto de las dos funciones
de densidad marginales. En otras palabras, el único caso en que la densidad
conjunta no contiene ninguna información adicional a la contenida en las
funciones de densidad marginal es el caso donde las variables aleatorias son
independientes.
Es importante NOTAR que, en vista de (4.25), cuando X y Y son inde-
pendientes:
f (yjx) = fY (y) para todo y 2 RY . (4.29)

Del mismo modo, f (xjy) = fX (x) para todo x 2 RX . Es decir, cuando
X y Y son independientes, la condicionalidad sobre X no afecta a la densidad
marginal de Y y viceversa. Esto proporciona una manera más intuitiva para
comprender la noción de independencia.
Ejemplos
(i) Consideremos la densidad de dos variables (4.26). Las variables aleato-
rias X y Y no son independientes ya que para el primer valor(X; Y ) = (1; 0):
f (1; 0) = (0:20) 6= fX (1) fY (0) = (0:31) (0:45) = (0:1395) .

4.5. INDEPENDENCIA 189
(ii) Consideremos la densidad de dos variables, dada a continuación:
ynx 0 1 fY (y)
0 0:3 0:3 0:6
2 0:2 0:2 0:4
fX (x) 0:5 0:5 1
Para comprobar si X y Y son independientes, tenemos que comprobar

que la igualdad en (4.28) se cumpla, para todos los valores de X y Y :
(X; Y ) = (0; 0) , f (0; 0) = fx (0) fy (0) = (0:3) = (0:5) (0:6) ,

(X; Y ) = (0; 2) , f (0; 2) = fx (0) fy (2) = (0:2) = (0:5) (0:4) ,
(X; Y ) = (1; 0) , f (0; 0) = fx (1) fy (0) = (0:3) = (0:5) (0:6) ,
(X; Y ) = (1; 2) , f (1; 2) = fx (1) fy (2) = (0:2) = (0:5) (0:4) .
Estos resultados sugieren que X y Y son efectivamente independientes.

(iii) En el caso donde (X; Y ) están conjuntamente normalmente dis-
tribuidas, con una densidad tal como se de…ne en (4.9), podemos deducir
que cuando = 0, X y Y son independientes. Esto se deduce mediante una
simple sustitución de la restricción = 0 en la densidad conjunta:
1 !
2
(1 ) 2
1
f (x; y) = p exp 2)
x2 2 xy + y 2 j =0
2 2 (1
1 1 2 1 1 2
= exp x exp y =
2 2 2 2
= fX (x) fY (y) ,
donde fX (x) y fY (y) son densidades normales estándar.

NOTA: el último ejemplo proporciona una clave importante a la noción
de la independencia sugiriendo que la densidad conjunta f (x; y) se puede
descomponer en un producto de dos funciones no negativas u (x) y v(y) es
decir,
f (x; y) = u (x) v (y) ,

donde u (:) 0 sólo depende de x y v(:) 0 sólo depende de y, entonces
X y Y son independientes.
(iv) En el caso de que (X; Y ) estén conjuntamente exponencialmente dis-

tribuidas, con densidad:
f (x; y; ) = [(1 + x) (1 + y) ] exp f x y xyg , x > 0; y > 0; > 0.

Es obvio que X y Y son independientes únicamente cuando = 0, ya que
la factorización anterior puede lograrse sólo en ese caso.
4.5.2 Independencia en el caso de n variables

La extensión de las de…niciones anteriores de independencia de dos al caso de
n variables no es sólo una simple cuestión de notación. Como argumentamos
en el capítulo anterior, los eventos, A1 ; A2 ; :::; An son independientes si se
cumple la siguiente condición:
P (A1 \ A2 \ \ Ak ) = P (A1 ) P (A2 ) P (Ak ) , (4.31)

para todo k = 2; 3; :::; n
Es decir, esto se debe cumplir para todos los subconjuntos de fA1 ; A2 ; :::; An g.
Por ejemplo, en el caso de n = 3, las siguientes condiciones deben cumplirse
para que A1 ; A2 ; A3 sean independientes:
(a) P (A1 \ A2 \ A3 ) = P (A1 ) P (A2 ) P (A3 )

(b) P (A1 \ A2 ) = P (A1 ) P (A2 )
(c) P (A1 \ A3 ) = P (A1 ) P (A3 )
(d) P (A2 \ A3 ) = P (A2 ) P (A3 )
En el caso donde sólo se cumplen las condiciones (b) - (d) se dice que
los eventos A1 ; A2 ; A3 son independientes dos a dos. Para independencia
(completa), necesitamos las cuatro condiciones. Lo mismo vale para variables
aleatorias como se puede ver al sustituir los eventos arbitrarios A1 ; A2 ; A3 con
los eventos especiales Ai = (Xi xi ) ; i = 1; 2; 3.
Independencia. Se dice que las variables aleatorias X1 ; X2 ; : : : ; Xn son
independientes si se cumple la siguiente condición:
F (x1 ; x2 ; :::; xn ) = F1 (x1 ) F2 (x2 ) Fn (xn ) ; para todo (x1 ; x2 ; :::; xn ) 2 Rn :

4.5. INDEPENDENCIA 191
En términos de funciones de densidad, la independencia se puede escribir

en la forma:
f (x1 ; x2 ; :::; xn ) = f1 (x1 ) f2 (x2 ) fn (xn ) ; para todo (x1 ; x2 ; :::; xn ) 2 Rn :
De (4.33) podemos ver que la cuali…cación para todos los subconjuntos de

fA1 ; A2 ; :::; An g en el caso de eventos ha sido sustituida por la cuali…cación
para todo (x1 ; x2 ; :::; xn ) 2 Rn . En otras palabras, en el caso de variables
aleatorias no necesitamos comprobar (4.33) para cualesquiera subconjuntos
del conjunto de X1 ; X2 ; : : : ; Xn , pero tenemos que comprobarlo para todos los
valores de (x1 ; x2 ; :::; xn ) 2 Rn . También es importante señalar que cuando
(4.33) es válida para todos (x1 ; x2 ; :::; xn ) 2 Rn , implica que se debe cumplir
para cualquier subconjunto del conjunto X1 ; X2 ; : : : ; Xn , pero no a la inversa.
Ejemplo
Volvamos a nuestro ejemplo favorito de "lanzar una moneda al aire dos
veces" y tomar nota de los resultados: S = f(HH); (HT ); (T H); (T T )g,
siendo = el conjunto potencia. De…nir las variables aleatorias siguientes:
X(HT ) = X(HH) = 0; X(T H) = X(T T ) = 1;

Y (T H) = Y (HH) = 0; Y (T T ) = Y (HT ) = 1;
Z(T H) = Z(HT ) = 0; Z(T T ) = Z(HH) = 1:
1
PXY Z (1; 1; 1) = ; PXY Z (1; 1; 0) = 0;
4
1
PXY Z (1; 0; 0) = ; PXY Z (1; 0; 1) = 0;
4
1
PXY Z (0; 1; 0) = ; PXY Z (0; 1; 1) = 0;
4
1
PXY Z (0; 0; 1) = ; PXY Z (0; 0; 0) = 0;
4
XX 1
PX (0) = P (0; y; z) = P (0; 1; 0) + P (0; 0; 1) + P (0; 1; 1) + P (0; 0; 0) = ,
z y
2
XX 1
PX (1) = P (1; y; z) = P (1; 1; 1) + P (1; 0; 0) + P (1; 1; 0) + P (1; 0; 1) = ,
z y
2
XX 1
PY (0) = P (x; 0; z) = P (1; 0; 0) + P (0; 0; 1) + P (1; 0; 1) + P (0; 0; 0) = ,
z x
2
XX 1
PY (1) = P (x; 1; z) = P (1; 1; 1) + P (0; 1; 1) + P (1; 1; 0) + P (0; 1; 0) = ,
y x
2
XX 1
PZ (0) = P (x; y; 0) = P (1; 0; 0) + P (1; 1; 0) + P (0; 1; 0) + P (0; 0; 0) = ,
z x
2
XX 1
PZ (1) = P (x; y; 1) = P (1; 1; 1) + P (0; 0; 1) + P (1; 0; 1) + P (0; 1; 1) = ,
y x
2
En vista de estos resultados podemos deducir que (X; Y ), (X; Z) y (Y; Z)

son independientes de dos en dos ya que:
1 1
PXY (0; 0) = PX (0) PY (0) = , PY Z (0; 0) = PY (0) PZ (0) = ,
4 4
1 1
PXY (1; 0) = PX (1) PY (0) = , PY Z (1; 0) = PY (1) PZ (0) = ,
4 4
1 1
PXY (0; 1) = PX (0) PY (1) = , PY Z (0; 1) = PY (0) PZ (1) = .
4 4
1
PXZ (0; 0) = PX (0) PZ (0) = ,
4
1
PXZ (1; 0) = PX (1) PZ (0) = ,
4
1
PXZ (0; 1) = PX (0) PZ (1) = .
4
Por otra parte, las tres variables aleatorias (X; Y; Z) no son independi-
entes, ya que:
1 1
PXY Z (1; 1; 1) = 6= PX (1) PY (1) PZ (1) = .
4 8
4.6. DISTRIBUCIONES IDÉNTICAS 193
La de…nición anterior completa la primera etapa de nuestra búsqueda de

la transformación de la noción de pruebas aleatorias. La independencia dada
en la introducción en términos de pruebas (véase (4.1)) ha sido refundida en
términos de variables aleatorias tal como se indica en (4.33). Consideramos la
segunda escala de nuestra búsqueda de una muestra aleatoria en la siguiente
sección.
4.6 Distribuciones idénticas

Como se mencionó en la introducción, la noción de pruebas aleatorios tiene
dos componentes: independencia y distribuciones idénticas. Vamos a consid-
erar la refundición del componente idénticamente distribuido en términos de
variables aleatorias.
Ejemplo
Consideremos la función de densidad de Bernoulli:
f (x; ) = x
(1 )1 x
, x = 0; 1,
donde = P (X = 1). Tener una muestra de n pruebas independientes,
por ejemplo (X1 ; X2 ; : : : ; Xn ), equivale a suponer que las variables aleatorias
X1 ; X2 ; : : : ; Xn son independientes, cada Xi teniendo una función de densidad
de la forma:
xi 1 xi
f (xi ; i ) = i (1 i) , xi = 0; 1, i = 1; 2; :::; n,
donde i = P (Xi = 1), i = 1; 2; :::; n. Independencia en este caso asegura
que:
n n xi 1 xi
f (x1 ; x2 ; :::; xn ; ) = i=1 fi (xi ; i ) = i=1 i (1 i) , xi = 0; 1,
donde = ( 1 ; 2 ; :::; n ). Obviamente, esto no satisface el componente

Idénticamente Distribuido. Para que este sea el caso tenemos que imponer
la restricción de que para todas las pruebas la estructura probabilística siga
siendo la misma, es decir, que las variables aleatorias X1 ; X2 ; : : : ; Xn sean
también Idénticamente Distribuidas en el sentido:
f (xi ; i ) = xi
(1 )1 xi
, xi = 0; 1, i = 1; 2; :::; n.
Vamos a formalizar el concepto de variables aleatorias Idénticamente Dis-

tribuidas en el caso de variables aleatorias arbitrarias, pero independientes,
comenzando con el caso de dos variables. En general, la densidad conjunta
implica los parámetros desconocidos y la igualdad en (4.28) toma la forma:
f (x; y; ) = fX (x; 1) fY (y; 2) ; para todo (x; y) 2 RX RY ;
donde las distribuciones marginales fX (x; 1 ) y fY (y; 2 ) pueden ser muy

diferentes.
Dos variables aleatorias independientes se dice que son Idénticamente
Distribuidas si fX (x; 1 ) y fY (y; 2 ) son las mismas funciones de densidad,
denotado por:
fX (x; 1) fY (y; 2 ) ; para todo (x; y) 2 RX RY ;

en el sentido de que tienen la misma forma funcional y los mismos parámet-
ros desconocidos:
fX (:) = fY (:) y 1 = 2:
Ejemplos
(i) Consideremos el caso en que la densidad conjunta toma la forma:
y
1 e 2
f (x; y; ) = ;x 1; y > 0:
2 x2
Es claro que las variables aleatorias X y Y son independientes (los factores
de densidad conjunta en un producto) con densidades marginales:
1 1 y
fX (x; 1) = ;x 1; fY (y; 2) = e 2 ; y > 0:
x2 2
Sin embargo, las variables aleatorias X y Y no son Idénticamente Dis-

tribuidas, porque ninguna de las anteriores condiciones para ID se cumple.
En particular, las dos densidades marginales pertenecen a familias diferentes
densidades ( fX (x; 1 ) pertenece a la familia Pareto y fY (y; 2 ) pertenece
a la familia exponencial), ellas también dependen de diferentes parámetros
( 1 6= 2 ) y las dos variables aleatorias X, Y tienen distintos rangos de val-
ores.
(ii) Consideremos las tres distribuciones de dos variables, que se indican

a continuación:
ynx 1 2 fY (y) ynx 0 1 fY (y)

0 0:18 0:42 0:6 0 0:18 0:42 0:6
, ,
2 0:12 0:28 0:4 1 0:12 0:28 0:4
fX (x) 0:3 0:7 1 fX (x) 0:3 0:7 1
(a) (b)
ynx 0 1 fY (y)
0 0:36 0:24 0:6
2 0:24 0:16 0:4
fX (x) 0:6 0:4 1
(c)
Las variables aleatorias (X; Y ) son independientes en los tres casos (ver-
ifíquelo!). Las variables aleatorias en (a) no son Idénticamente Distribuidas
porque RX 6= RY y fX (x) 6= fY (y) para algunos (x; y) 2 RX RY . Las
variables aleatorias en (b) no son Idénticamente Distribuidas, porque aún
cuando RX = RY , fX (x) 6= fY (y) para algunos (x; y) 2 RX RY . Por
último, las variables aleatorias en (c) son Idénticamente Distribuidas porque
RX = RY y fX (x) = fY (y) para todo (x; y) 2 RX RY .
(iii) En el caso en que f (x; y; ) es normal de dos variables, tal como se
especi…ca en (4.7), las dos funciones de densidad marginal tienen la misma
forma funcional, pero : = ( 1 ; 2 ; 11 ; 22 ), 1 : = ( 1 ; 11 ) y 2 : = ( 2 ; 22 ),
suelen ser diferentes. Por lo tanto, para que las variables aleatorias X y Y
sean Idénticamente Distribuidas, las dos medias y las dos varianzas deben de
coincidir: 1 = 2 y 11 = 22 :
1 1
[x 1]
2 1 1
[y 1]
2
f (x; 1) =p e 2 11
, f (y; 2) =p e 2 11
.
2 11 2 11
El concepto de variables aleatorias Idénticamente Distribuidas se puede

extender fácilmente al caso de n variables de una manera directa.
Distribuciones idénticas. Las variables aleatorias (X1 ; X2 ; : : : ; Xn ) se
dice que son Idénticamente Distribuidas si:
fk (xk ; k) f (xk ; ) ; para todo k = 1; 2; :::; n.

Esto tiene dos dimensiones:

(i) f1 (:) f2 (:) f3 (:) fn (:) f (:),
(ii) 1 = 2 = 3 = = n= :
El signo de igualdad se utiliza para indicar que todas las distribuciones
marginales tienen la misma forma funcional.
4.6.1 Una muestra aleatoria

Nuestra primera formalización de la condición [c] de un experimento aleatorio
E, donde:
[c] este experimento se puede repetir en idénticas condiciones,
tomó la forma de un conjunto de pruebas aleatorias fA1 ; A2 ; A3 ; :::; An g
que son Independientes e Idénticamente Distribuidas (IID):
P(n) (A1 \ A2 \ \ Ak ) = P (A1 ) P (A2 ) P (Ak ) ; (4.34)

para todo k = 2; 3; :::; n:
Utilizando el concepto de muestra X : = (X1 ; X2 ; : : : ; Xn ), donde Xi

representa la i-ésima prueba, podemos proceder a formalizar la condición [c]
en la forma de una muestra donde las variables aleatorias X1 ; X2 ; : : : ; Xn son
Independientes (I) e Idénticamente Distribuidas (ID).
Muestra aleatoria. La muestra XIID (n) : = (X1 ; X2 ; : : : ; Xn ) se llama una
muestra aleatoria si las variables aleatorias (X1 ; X2 ; : : : ; Xn ) son:
(a) Independientes:
I
Yn
f (x1 ; x2 ; :::; xn ; ) = fk (xk ; k) ; para todo (x1 ; x2 ; :::; xn ) 2 Rn ;
k=1
(ii) Idénticamente Distribuidas:
fk (xk ; k) = f (xk ; ) ; para todo k = 1; 2; :::; n:

Poniendo juntos los dos la densidad conjunta de XIID
(n) : = (X1 ; X2 ; : : : ; Xn )
toma la forma:
I
Yn IID
Yn
f (x1 ; x2 ; :::; xn ; ) = fk (xk ; k) = f (xk ; ) ; para todo (x1 ; x2 ; :::; xn ) 2 Rn .
k=1 k=1
(4.35)
La primera igualdad se desprende de la condición de independencia y la

segunda de la condición de Distribución Idénticas. NOTE que fk (xk ; k )
denota la distribución marginal de Xk (:), obtenidas por la integración de
todas las otras variables aleatorias, además de Xk (:), es decir,
Z 1 Z 1 Z 1
fk (xk ; k) = f (x1 ; :::; xk 1 ; xk ; xk+1 ; :::; xn ; ) dx1 :::dxk 1 dxk+1 :::dxn :
1 1 1
Como argumentamos en el capítulo 2, la formalización de un experimento

aleatorio se escogió para motivar varios conceptos, ya que era lo su…cien-
temente simple para evitar complicaciones innecesarias. También dijimos,
sin embargo, que fenómenos estocásticos simples dentro del ámbito de apli-
cación previsto de un modelo estadístico simple se encuentra raramente en la
economía. Una de nuestras primeras tareas, una vez que la transformación se
ha completado, es extenderla. En preparación para esta extensión notemos
en esta etapa que la noción de muestra aleatoria es una forma muy especial
de lo que llamamos un modelo muestral.
Modelo muestral. Un modelo muestral es un conjunto de variables
aleatorias (X1 ; X2 ; : : : ; Xn ) (una muestra) con una estructura probabilística
determinada. El objetivo principal del modelo muestral consiste en relacionar
los datos observados con el modelo de probabilidad.
4.6.2 Un modelo estadístico simple: concluyendo las

transformaciones
Ahora estamos en condiciones de completar la búsqueda que se inició con
la formalización del concepto de experimento aleatorio E, de…nido por las
condiciones:
[a] todos los distintos posibles resultados se conocen a priori,
[b] en una prueba particular los resultados no se conoce a priori pero existe
una regularidad perceptible de ocurrencia relacionada con estos resultados y
[c] el experimento se puede repetir en condiciones idénticas.
La formalización abstracta inicial tomó la forma de un espacio estadístico
simple: (S; =; P (:))n ; GnIID . El objetivo principal del capítulo anterior fue la
metamorfosis del espacio de probabilidad simple (S; =; P (:))n en algo de…nido
en la recta real. La clave de la transformación fue la noción de variable
aleatoria X(:):
X(:)
(S; =; P (:))n ) (R; ß(R) ; PX (:)) ) ff (x; ) ; 2 ; x 2 RX g :
En este capítulo hemos transformado el espacio muestral simple en una
muestra aleatoria:
X(:)
GnIID = fA1 ; A2 ; A3 ; :::; An g ) XIID
(n) : = (X1 ; X2 ; : : : ; Xn ) .
Recopilando los principales resultados de los últimos dos capítulos, de…n-

imos un modelo estadístico genérico simple:
[i] modelo de probabilidad = ff (x; ) ; 2 ; x 2 RX g :

[ii] modelo muestral X : = (X1 ; X2 ; : : : ; Xn ) es una muestra aleatoria.
El concepto de modelo estadístico constituye el aporte básico de la teoría
de probabilidad a la teoría de la inferencia estadística. Todas las formas de
inferencia estadística paramétrica suponen un modelo estadístico particular
que, si no es válido, hace que cualquier resultado de inferencia sea erróneo.
Por lo tanto, una buena comprensión de la forma y la estructura de un
modelo estadístico simple de la forma dada anteriormente es imprescindible.
Ejemplos concretos de modelos estadísticos simples son los siguientes:
Modelo Bernoulli simple.
[i] Modelo de probabilidad: = f (x; ) = x (1 )1 x ; 0 1; x = 0; 1 ;
[ii] Modelo muestral: X := (X1 ; X2 ; : : : ; Xn ) es una muestra aleatoria.
Modelo Normal simple. n n o
1 (x )2
[i] Modelo de probabilidad: = f (x; ) = 2 exp p
2 2
; := ( ; 2 ) 2 R R+ ; x 2
Modelo Gamma generalizado n simple. n o o
[i] Modelo de probabilidad: = f (x; ) = (1 ) x 1 exp x
; 2 ; x 2 R+ ;
4.7 Un modelo estadístico simple en la mod-

elización empírica: una visión preliminar
Como se mencionó anteriormente, todas las formas de inferencia estadística
presuponen la especi…cación de un modelo estadístico particular a priori.
4.7. UN MODELO ESTADÍSTICO SIMPLE EN LA MODELIZACIÓN EMPÍRICA: UNA VISIÓN PR
Esta especi…cación supone la elección de un conjunto de supuestos proba-

bilísticos que el modelador considera apropiados para describir el mecanismo
estocástico que dio lugar al conjunto de datos en cuestión. La elección de
un modelo estadístico adecuado constituye tal vez la más difícil y, al mismo
tiempo, la decisión más crucial que un modelador tiene que hacer; en com-
paración, la decisión de elegir un buen estimador de es trivial. En el capítulo
1 argumentamos que en el caso de datos observacionales (no experimentales)
necesitamos establecer un procedimiento que tome en consideración la es-
tructura de los datos observados. Después de todo, el modelo estadístico
elegido se considera apropiado sólo cuando él captura toda la información
sistemática de los datos en cuestión.
Lo que hace al anterior modelo estadístico simple es el supuesto de mues-
tra aleatoria, es decir, (X1 ; X2 ; : : : ; Xn ) son variables aleatorias Independi-
entes e Idénticamente Distribuidas. Hacer una elección adecuada de un mod-
elo estadístico requerirá que el modelador desarrolle una comprensión tanto
intuitiva como formal de tales supuestos probabilísticos. Del mismo modo, la
postulación de una familia paramétrica de densidades requiere el modelador
para apreciar lo que esa decisión conlleva.
4.7.1 Modelo de probabilidad

En cuanto a un modelo de probabilidad de una familia paramétrica de den-
sidades:
= ff (x; ) ; 2 ; x 2 RX g (4.36)
desde el punto de vista de la modelación, distinguimos dos componentes
básicos:
(i) la forma paramétrica de la función de densidad f (x; ) ; 2 y
(ii) el soporte de la densidad RX := fx 2 R : f (x; ) > 0g.
En teoría, la modelización empírica comienza a partir del "conjunto de
todos los posibles modelos de probabilidad", por ejemplo, P , y utilizando
la información referida a la forma y estructura de los datos, el modelador
reduce este conjunto a un subconjunto P 0 P de modelos de probabilidad
admisibles , eligiendo f (x; ) y RX , felizmente.
La noción de modelo de probabilidad simple fue ilustrada en el capítulo
3 con una serie de grá…cas de densidad para diferentes valores de . Como
veremos en el capítulo 5, la elección de f (x; :) y no tiene por qué ser un
asunto de acertar o fallar; puede ser facilitado por una serie de grá…cas de
los datos. El soporte de la densidad también juega un papel importante en
la especi…cación debido a que el rango de valores de los datos observados es
una dimensión fundamental de la modelizaciónque a menudo se descuida. En
el caso donde los datos observados se re…eren a una serie de datos medidos
en términos de proporciones (es decir, los valores tomados por los datos se
encuentran en el intervalo [0; 1]), la postulación de una familia de densidades
con soporte ( 1; 1) es a menudo inadecuado. El uso de la familia de
densidades Beta a menudo puede ser una mejor idea.
Ejemplo
En el caso de los datos de las puntuaciones del examen (véase la tabla 1.6),
hay buenas razones para creer que, basándose principalmente en el soporte
de los datos, el modelo de probabilidad Beta podría de hecho ser una mejor
opción; véase el capítulo 15.
UNA NOTA DE PRECAUCIÓN. En el contexto de la inferencia estadís-
tica la escena central se le dará al parámetro(s) desconocido(s) ; estimación
y pruebas giran en torno a . Sin embargo, el modelador no debe perder
de vista el hecho de que la estimación de (utilizando los datos observados
con el …n de elegir un buen estimador b) es un medio para un …n. El ob-
jetivo principal de la modelización empírica es describir adecuadamente el
fenómeno estocástico subyacente a los datos en cuestión. Este modelo viene
en la forma del modelo de probabilidad estimado:
n o
b = f x; b ; x 2 RX , (4.37)
que constituye la base de cualquier tipo de inferencia estadística, in-

cluyendo la predicción y la simulación. Representa un mecanismo estocástico
idealizado que tiene por objeto proporcionar una descripción adecuada del
fenómeno estocástico subyacente a los datos observados en cuestión. En este
sentido, centrándose indebidamente en los parámetros desconocidos dará lu-
gar a perder de vista el bosque por los árboles.
4.7.2 Identi…cabilidad y parametrizaciones

Hay que subrayar, en primer lugar que, para propósitos de modelización, los
parámetros 2 deben estar asociado con distribuciones de probabilidad
únicas, de lo contrario la elección de un buen estimador de y, por lo tanto,
la elección del mecanismo estocástico como el indicado en (4.37) no tiene

sentido.
En otras palabras, es imperativo que para diferentes valores de 2
se correspondan diferentes distribuciones. La condición que asegura esto se
especi…ca a continuación:
Identi…cabilidad: para todo 1 = 6 2 , donde 1 2 , 2 2 ;

f (x; 1 ) 6= f (x; 2 ) ; x 2 RX .
IMPORTANTE. En lo que sigue vamos a suponer que todos los modelos

de probabilidad son identi…cables en relación con la parametrización postu-
lada.
En relación con la unicidad de la parametrización hay que destacar que
ésta se de…ne como un mapeo uno a uno. Es decir, cuando se especi…ca
el modelo de probabilidad (4:36) el modelador puede elegir un número de
parametrizaciones equivalentes, si existe un mapeo uno a uno entre los dos
espacios de parámetros. En particular, una parametrización equivalente a
(4.36) es:
= ff (x; ) ; 2 ; x 2 RX g (4.38)
sólo en el caso de que exista un mapeo uno a uno = g( ) :
g (:) : ! .
Si queremos hacer hincapié en la reparametrización podemos escribir
(4.38) en la forma:
= ff (x; ) ; = g( ); 2 ; x 2 RX g , (4.39)
qué parametrización se usará en un caso concreto depende de varios fac-
tores, entre ellos la interpretabilidad.
Ejemplo
Consideremos el caso de la distribución exponencial donde 2 la
parametrización toma la forma:
= ff (x; ) = exp [ x] ; x > 0; 2 := (0; 1)g :
Una parametrización equivalente se de…ne en términos de = 1:
1 1
= f (x; ) = exp x ; x > 0; 2 := (0; 1) .
Más allá de parametrizaciones estadísticas, un papel importante en la

modelización econométrica es jugado por las parametrizaciones teóricas. En
pocas palabras, una parametrización estadística tiene una clara inter-
pretación en términos de características de distribucionales de la familia de
las densidades de que se trate, como momentos y cuantiles. Por el contrario,
una parametrización teórica tiene una interpretación clara en términos de
la teoría económica (o teorías) de que se trate. Hasta ahora hemos encontrado
sólo parametrizaciones estadísticas. En econometría, sin embargo, estamos
interesados en última instancia en parametrizaciones teóricas (económicas)
2 A, que son a menudo diferentes de las parametrizaciones estadísticas
postuladas 2 . Más a menudo tenemos menos parámetros teóricos que es-
tadísticos de interés. En este caso tenemos que asegurarnos de que existen
mapeos muchos a uno de la forma:
h (:) : ! A,
que de…nen unívocamente (a parametrizaciones uno a uno). NOTE

que, mapeos muchos a uno h (:) reparameterizan y restringen los parámet-
ros estadísticos. Esto es a menudo necesario para reducir la especi…cidad
de los datos de un modelo estadístico, así como para hacer los parámetros
estadísticos teóricamente signi…cativos.
4.7.3 Importantes familias de distribuciones paramétri-

cas
El éxito de la modelización empírica dependerá fundamentalmente de la
riqueza de las familias de distribuciones paramétricas disponibles para el
modelador. En esta sección se consideran brevemente algunas de las familias
más importantes de las distribuciones utilizadas en la modelización empírica.
El primer avance importante en hacer familias de distribuciones paramétricas
disponibles para el modelador fue hecha por Karl Pearson (1895).
La familia Pearson
La familia de funciones de densidad de Pearson fue motivada inicialmente
por el deseo de generar distribuciones no normales (especialmente no simétri-
cas) que se utilizarán para el modelado de datos biológicos. Pearson se dió
cuenta que la función de densidad normal estándar (x) satisface la sencilla
ecuación diferencial:
d (x) (x 0) 2
= (x) , x 2 R donde := 0 y := 1.
dx 1
Luego pasó a generalizar esta ecuación diferencial a cuatro parámetros

desconocidos ( 1 ; 2 ; 3 ; 4 ):
df (x) (x 0)
= f (x) 2
, x 2 RX .
dx 1 + 2x + 3x
Dependiendo de los valores tomados por los parámetros desconocidos, esta

ecuación, además de la Normal, puede generar varias funciones de densidad
bien conocidas como: 1 1
[ 12 (v+1)]( 2 v ) 2 (v+1)
(x )2 2
t de Student: f (x; ) = 1 1 + 2 ; := ( ; 2 ) 2
[ 2 v] v
R R+ , x 2 R,
jx j
Laplace: f (x; ) = 21 e ( ) , := ( ; ) 2 R R , x 2 R,
+
( +1)
Pareto: f (x; ) = x0 x , 2 R+ , x0 > 0; x x0 ,
1 1 n o
Gamma: f (x; ) = [ ] x exp x
, := ( ; ) 2 R2+ , x 2
R+ ,
1 1
Beta: f (x; ) = x B[(1 ; x)] , := ( ; ) 2 R2+ , 0 x 1.
En el caso de variables aleatorias discretas, la ecuación diferencial corre-
spondiente es:
(k 0)
fk fk 1 = fk , k = 1; 2; 3; :::, x 2 RX .
1 + 2x + 3 x (1 x)
Además de la distribución binomial, esta ecuación se puede utilizar para

generar varias distribuciones discretas
0 bien
10 conocidas
1 como:
@
K A@
M K A
x n k
Hipergeométrica: f (x; ) = 0 1 , 0 x min (K; n),
@
M A
n
k+x 1
Binomial Negativa: f (x; ; k) = k
(1 )x , 0 < < 1,
k 1
k = 1; 2; :::, y = 0; 1; 2; :::,
x
Poisson: f (x; ; k) = e x! , > 0, x = 0; 1; 2; 3; :::.
Familia exponencial de distribuciones

Esta familia de distribuciones se introdujo inicialmente en la estadística
por Fisher (1934) como una extensión natural de la distribución Normal para
los propósitos de la inferencia. Como argumentamos en el capítulo 12, esta
familia conserva algunas de las propiedades importantes de la distribución
normal en relación con la inferencia. NOTE que la familia exponencial es
diferente de la distribución exponencial encontrada anteriormente. La fun-
ción de densidad de la familia exponencial puede expresarse en la forma:
Xk
f (x; ) = c ( ) h (x) exp gi ( ) i (x) ,
i=1
(a) c ( ) 0,
(b) h (x) 0,
(c) gi ( ), i = 1; 2; :::; k: funciones reales (sin x),
(d) i (x), i = 1; 2; :::; k: funciones reales (sin ).
Muchas distribuciones conocidas como la normal,Gama, Beta, Binomial,
Poisson y Binomial Negativas pertenecen a esta familia; ver Barndor¤-Nielsen
y Cox (1989), Azallini (1996).
Ejemplos
(i) La distribución de Poisson es un miembro discretos de la familia ex-
ponencial con función de densidad:
x
f (x; ) = e x! = ex! exp (x In ( )), > 0, x = 0; 1; 2; :::, > 0,
Por lo tanto, para esta densidad: k = 1, c ( ) = e , h (x) = x!1 , g( ) =
In ( ), (x) = x.
(ii) La distribución normal es un miembro continuo de la familia expo-
nencial con función de densidad:
2
exp
(x )2 2 2
f (x; ) = p 1 exp 2 = p exp x2 1
2 +x 2 ,x2
2 2 2 2 2 2
R,
: = ( ; 2 ) 2 R R+ . Por lo tanto, para la densidad normal: k = 2,
2
c ( ) = p21 2 exp 2 2
, h (x) = 1, g1 ( ) = 2 , g2 ( ) = 2 12 , 1 (x) = x,
2 (x) = x2 .
La familia estable (Pareto-Levy)
La familia estable de distribuciones fue inicialmente motivada por la im-
portante propiedad del dominio de atracción: la suma de variables aleatorias
independientes de una cierta distribución, debidamente normalizada, tiene la
misma distribución de las variables aleatorias individuales. Esta familia de
distribuciones se ha utilizado ampliamente para la modelización de precios

especulativos (ver Campbell et al. (1997)). Una desventaja importante de
esta familia es que la mayoría de sus miembros no tienen una función de
densidad explícita en forma cerrada y por lo tanto los modeladores trabajan
directamente con la función cumulante (logartímo de la función caracterís-
tica) (véase el capítulo 3), que viene dada por:
i t jtj 1 [sign (t)] i tan 2 , para =

6 1
log (t) = 2 ,
i t jtj 1 + [sign (t)] i In (jtj) , para = 1
Esta familia se de…ne en función de cuatro parámetros (ver Galambos

(1995)):
: el exponente característico, donde 0 < 2,
: la asimetría, donde 1 < 1,
: la ubicación, donde 2 R,
: la escala, donde 2 R+ .
Esta es una familia continua de densidades unimodales (una moda). Para
< 2, la cola de la función de densidad decae como una función potencia (de
ahí el término de Pareto), mostrando más dispersión que la normal; a menor
, más gruesa es la cola. Para = 0 la densidad es simétrica alrededor de
pero > 0 y < 0, dando lugar a densidades sesgadas a la izquierda y a la
derecha, respectivamente; el caso j j = 1 da lugar a distributiones estables
extremas.
El soporte de esta familia depende de los parámetros ( ; ):
8 9
< R, para 1; j j =
6 1, =
RX ( ; ) = ( 1; 0) , para < 1; = 1,
: ;
(0; 1) , para < 1; = 1.
Ejemplos
(i) Para = 2 y = 0, la familia estable se reduce a la distribución
normal.
(ii) Para = 1 y = 0, la familia estable se reduce a la distribución de
Cauchy con la densidad:
f (x; ; ) = , x 2 R; 2 R; 2 R+ .
2 + (x )2
NOTE que para el caso 0 < 10, no existen momentos!
(iii) Para = 12 y = 1, la familia estable se reduce a la distribución de

Levy con densidad:
r
1
f (x; ; ) = 3 exp ,x> ; 2 R; 2 R+ .
2 + (x ) 2 (x )
La familia de transformación Johnson

La familia de distribuciones de transformación Johnson fue motivada ini-
cialmente por un intento de introducir distribuciones no normales que se
pueden ver como transformaciones monótonas de la normal. Johnson (1949)
propuso la transformación:
Z
X = + h (Y ) = + h (Y ) , X~N (0; 1) ; h (:) es una función monótona.
Los miembros más importantes de esta familia se basan en las siguientes

transformaciones:
(i) SL , lognormal:
h (Y ) = In (Y ), < Z < 1
(ii) SB , rango acotado:
h (Y ) = In 1 Y Y , < Z < + .
(ii) SU , rango no p
acotado:
h (Y ) = In Y + 1 + Y 2 , 1 < Z < 1.
4.7.4 Muestra aleatoria

En lo que al modelo muestral se re…ere, notemos que, desde el punto de
vista de la modelización, los componentes básicos de una muestra aleatoria:
XIID
(n) : = (X1 ; X2 ; : : : ; Xn ) son los supuestos:
(i) Independencia y
(ii) Distribución Idéntica.
Para datos observacionales la validez de estos supuestos a menudo puede
ser evaluada utilizando una batería de técnicas grá…cas discutidas en los
capítulos 5-6. En esos capítulos discutimos la relación entre conceptos prob-
abilísticos construyendo un modelo estadístico simple (como Independencia
y Distribución Idéntica) y varias grá…cas de datos reales. La discusión es
particularmente relevante para la modelización de datos observacionales.
4.8. MUESTRAS ALEATORIAS ORDENADAS* 207
En un intento por mostrar lo fácil que es ir a dar a una muestra no

aleatoria, se muestra en la siguiente sección que una simple reorganización
de la muestra da lugar a una muestra no aleatoria.
4.8 Muestras aleatorias ordenadas*

Considere el caso donde el modelo muestral original, es una muestra aleatoria
(X1 ; X2 ; : : : ; Xn ) con fda F (x;
Qn ), es decir,
(1) F (x1 ; x2 ; :::; xn ; ) = k=1 Fk (xk ; k ),
(2) Fk (xk ; k ) = F (x; ), para k = 1; 2; :::; n.
Por varias razones, que se estudiarán en los próximos capítulos, a menudo
es interesante considerar la muestra ordenada donde las variables aleatorias
se arreglan en orden ascendente, es decir,
X[1] ; X[2] ; : : : ; X[n] donde X[1] X[2] ::: X[n] .

NOTA: es importante destacar que la muestra ordenada constituye una
construcción mental, porque antes de que la muestra se realice tal orden
no es posible! Sea como fuere, puede ser una sorpresa para el lector que,
aunque la muestra (X1 ; X2 ; : : : ; Xn ) es aleatoria (IID), la muestra ordenada
X[1] ; X[2] ; : : : ; X[n] no es aleatoria; las variables aleatorias X[1] ; X[2] ; : : : ; X[n]
no son ni Independientes ni Idénticamente Distribuidas. Veamos esto en
algún detalle.
4.8.1 Distribuciones marginales

Consideremos primero la función de distribución de la variable aleatoria
X[1] = min X[1] ; X[2] ; : : : ; X[n]

y sea su fda denotada por F[1] (x). Luego, a partir de principios básicos,
sabemos que:
F[1] (x) = P X[1] x =1 P X[1] > x .

En vista del hecho de que la variable aleatoria X[1] es la más pequeña, el
evento X[1] > x se produce si y sólo si todos los Xk superan a x, es decir,
X[1] > x = (X1 > x; X2 > x; :::; Xn > x) .

De la aleatoriedad de la muestra (X1 ; X2 ; : : : ; Xn ) sabemos que:
P (X1 > x; X2 > x; :::; Xn > x) = [1 F (x; )]n ,

y entonces:
F[1] (x) = P X[1] x =1 [1 F (x; )]n .

Consideremos ahora la función de distribución de la variable aleatoria
X[n] = max X[1] ; X[2] ; : : : ; X[n]

y sea su fda denotada por F[n] (x). Luego, a partir de primeros principios,
sabemos que:
F[x] (x) = P X[n] x .

En vista del hecho de que la variable aleatoria X[n] es la más grande, el
evento X[n] x se produce si y sólo si todos las Xk no son superadas por
x, es decir,
X[n] x = (X1 x; X2 x; :::; Xn x) .

De la aleatoriedad de la muestra (X1 ; X2 ; : : : ; Xn ) sabemos que:
P (X1 x; X2 x; :::; Xn x) = [F (x; )]n ,

y entonces:
F[n] (x) = P X[n] x = [F (x; )]n .

Notando que el evento:
X[n] x =(a menos k variables aleatorias de X1 ; X2 ; : : : ; Xn no superan
x),
podemos derivar la función de distribución de cualquier variable aleatoria
X[k] de la siguiente manera. De la distribución binomial, sabemos que:
n
P(exactamente k de X1 ; X2 ; : : : ; Xn no superen x)= [F (x; )]k [1 F (x; )]n k ,
k
y por lo tanto (véase David (1981)):
Xn n
F[k] (x) = P X[k] x = [F (x; )]m [1 F (x; )]n m
.
m=k k
4.8. MUESTRAS ALEATORIAS ORDENADAS* 209
NOTE que la fda de X[1] y X[n] constituyen casos especiales de los ante-
riores resultados.
Juntando los resultados anteriores, deducimos que la muestra ordenada
X[1] ; X[2] ; : : : ; X[n] es claramente no ID ya que la distribución de X[k] cambia
con k.
Ejemplo
Considere el caso donde (X1 ; X2 ; : : : ; Xn ) constituye una muestra aleato-
ria de una distribución uniforme:
Xk ~U (0; 1) , k = 1; 2; :::; n.
Podemos fácilmente demostrar que los dos primeros momentos de estas
variables (ver Apéndice A) son:
1 1
E (Xk ) = , V ar (Xk ) = , Cov (Xk ; Xj ) = 0, j 6= k, j; k = 1; 2; :::; n.
2 12
Por otra parte, los dos primeros momentos de la muestra ordenada X[1] ; X[2] ; : : : ; X[n]
son los siguientes:
k k (n k + 1)
E (Xk ) = , V ar (Xk ) = ,
n+1 (n + 1)2 (n + 2)
j (n k + 1)
Cov (Xk ; Xj ) = , j < k, j; k = 1; 2; :::; n.
(n + 1)2 (n + 2)
El hecho de que la covarianza sea distinta de cero indica que la muestra

ordenada no puede ser independiente (véase el capítulo 6).
4.8.2 Distribuciones conjuntas

La dependencia entre las variables aleatorias ordenadas X[1] ; X[2] ; : : : ; X[n]
puede ser mejor vista en el contexto de la distribución conjunta de dos vari-
ables, para cualesquiera dos de estas variables aleatorias, por ejemplo X[i] ,
X[j] (1 i < j n). Por de…nición:
F[i;j] (xi ; xj ) = P X[i] xi ; X[j] xj
= P(al menos i variables aleatorias de X1 ; X2 ; : : : ; Xn superen
xi y al menos j variables aleatorias de X1 ; X2 ; : : : ; Xn superen xj ).
Xn Xk
= (exactamente i variables aleatorias de
k=j l=i
X1 ; X2 ; : : : ; Xn no superen xi y exactamente j variables aleatorias de X1 ; X2 ; : : : ; Xn
no superen xj ).
Siguiendo el mismo argumento de sentido común utilizado anteriormente
podemos deducir que (véase David (1981)):
Xn Xk n!
F[i;j] (xi ; xj ) = [F (xi )]l [F (xj ) F (xi )]k l [1 F (xj )]n k
.
k=j l=i l! (k l)! (n k)!
Como podemos ver, la distribución conjunta anterior no se puede expresar
como un producto de las dos distribuciones marginales y por lo tanto las
variables aleatorias X[i] ; X[j] no son independientes.
4.9 Resumen
En este capítulo hemos completado la transformación de la formalización ini-
cial de la noción de experimento aleatorio en la forma del abstracto espacio
estadístico (S; =; P (:))n ; GnIIDn en un modelo estadístico simple. Los fenó-
menos de interés que pueden ser modelados en el contexto de este modelo
simple son los que muestran patrones de regularidad aleatoria de:
(1) Independencia y (2) Distribución Idéntica (homogeneidad).
4.9.1 ¿Qué sigue?

Con el …n de mejorar nuestra comprensión de la noción de modelo estadístico
simple relacionaremos los conceptos probabilísticos que componen este mod-
elo con los datos reales. El puente entre estos conceptos probabilísticos y las
grá…cas de los datos reales se construye en el siguiente capítulo. El problema
de la extensión de la formalización con el …n de modelar mecanismos aleato-
rios más realistas encontrados en la economía se emprenderá en los capítulos
6-8.
4.10 Ejercicios
1. Explique por qué la distribución conjunta se puede utilizar para describir
la heterogeneidad y la dependencia entre variables aleatorias.
2. "La marginalización signi…ca que desechar toda la información relativa

a la variable aleatoria que estamos sumando (integrando)." Comente.
3. Considere el experimento aleatorio de lanzar una moneda dos veces y
de…nir la variable aleatoria: X - el número de Hs y Y5 j el número de Hs -
el número de T s j.
Derivar la distribución conjunta de (X; Y ), suponiendo una moneda legal,
y comprobar si las dos variables aleatorias son independientes.
4. Sea la función de densidad conjunta de dos variables aleatorias X, Y :
ynx 1 0 1
1 0:2 0:2 0:2
1 0:1 0:1 0:2
(a) Obtenga las distribuciones marginales de X y Y .
(b) Determine si X y Y son independientes.
(c) Veri…que su respuesta en (b) usando la distribución condicional(es).
5. De…nir el concepto de la independencia de dos variables aleatorias X y
Y en términos de las funciones de densidad conjunta, marginal y condicional.
6. Explicar el concepto de muestra aleatoria y explicar por qué a menudo
es restrictiva para la mayoría de las series de datos económicos.
7. Describa brevemente la formalización de la condición: [c] podemos
repetir el experimento bajo idénticas condiciones, en la forma del concepto
de una muestra aleatoria.
8. Explique intuitivamente por qué tiene sentido que cuando la distribu-
ción conjunta f (x; y) es normal las distribuciones marginales fx (x) y fy (y)
son también normales.
9. De…na los momentos crudos y centrales y demuestre que:
Cov (X; Y ) = E (XY ) E (X) E (Y ) .

¿Por qué nos importan estos momentos?
10. Explique el concepto de una muestra ordenada.
11 Explique intuitivamente por qué una muestra aletoria ordenada no es
ni Independiente ni Idénticamente Distribuida.
12. Explique los conceptos de identi…cabilidad y parametrización.
13 "Al establecer una relación entre los modelos estadísticos y los modelos
teóricos (económicos) a menudo necesitamos reparameterizar / restringir el
primero con el …n de hacer que los parámetros estimados sean teóricamente
signi…cativos". Explique.
Apéndice B distribuciones de dos variables

FALTA INCLUIR DISTRIBUCIONES
Capítulo 5
El concepto de muestra no
aleatoria
5.1 Introducción
En este capítulo damos el primer paso para extender el modelo estadístico
simple (formalizado en los capítulos 2-4) en las direcciones que permiten
la dependencia y la heterogeneidad. Ambas dimensiones son excluidas en
el contexto del modelo estadístico simple, porque este último se basa en
la noción de muestra aleatoria: un conjunto de variables aleatorias que son
Independientes e Idénticamente Distribuidas (IID). En este capítulo nos con-
centramos en el concepto de dependencia, allanando el camino para modelos
estadísticos más elaborados en los siguientes capítulos.También extendemos
el puente entre conceptos teóricos y datos reales introducidos en el capítulo
5, mediante la introducción de algunas técnicas grá…cas adicionales.

En el capítulo 2 comenzamos nuestra búsqueda de un marco de referencia
matemático en el contexto del cual podemos modelar fenómenos estocásticos:
fenómenos exhibiendo regularidad aleatoria. Vimos la teoría de la probabil-
idad como el tringlado matemático apropiado que nos permite modelar la
información sistemática de tales fenómenos. En un intento por motivar este
marco de referencia matemático, introdujimos la teoría de la probabilidad
como una formalización (matematización) de un mecanismo aleatorio simple,
llamado experimento aleatorio , de…nido por las siguientes tres condiciones:
213
214 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
[a] todos los posibles resultados distintos se conocen a priori,

[b] en cualquier prueba particular, los resultados no se conoce a priori,
pero existe una regularidad perceptible de ocurrencia relacionada con estos
resultados,
[c] se puede repetir en condiciones idénticas.
La idea detrás de esta formalización es doble. En primer lugar, poner
de mani…esto el hecho de que la teoría de probabilidades, al igual que otras
ramas de la matemática, no es sólo una hábil sucesión de teoremas y lemas!
Es una rama de la matemática, que surgió de la necesidad de modelar cier-
tos fenómenos de interés. Además, ella cambia continuamente, ampliando
y extendiendo su ámbito de aplicación a …n de proporcionar un marco de
referencia para modelar fenómenos estocásticos.
En segundo lugar, resaltamos la conexión entre los patrones de regular-
idad aleatoria y los correspondientes conceptos matemáticos abstractos; el
primero motivando la formalización del último. El mecanismo aleatorio rep-
resentado por un experimento aleatorio fue elegido por ser muy sencillo (los
patrones de regularidad aleatoria sean manejables), pero no tan sencillo (para
parafrasear un enunciado de Einstein), con el …n de motivar los principales
conceptos que subyacen a un modele estadístico.
La formalización matemática inicial de , dada en el capítulo 2, se produjo
en la forma de un espacio estadístico simple (S; =; P (:))n ; GnIID , que
tiene dos componentes:
(i) Espacio de probabilidad: (S; =; P (:))n = (S; =; P (:)) (S; =; P (:))
(S; =; P (:))
(i) Espacio muestral: GnIID = fA1 ; A2 ; :::; An g.
Estos dos pilares constituyen la base matemática sobre la cual uno puede
construir la teoría de la probabilidad como una rama de la matemática. Desde
el punto de vista de la modelación, sin embargo, este marco matemático es
más abstracto de lo necesario porque los datos son a menudo numéricos y,
por lo tanto, en los capítulos 3 y 4, nos propusimos metamorfoserlo en una
formulación equivalente, sobre la recta real. Es importante señalar que, in-
cluso después de la metamorfosis, esta formulación abstracta sigue siendo
de interés, porque constituye la base matemática de la teoría de la proba-
bilidad. Cada vez que introducimos un nuevo concepto en el contexto de
la formulación transformada tenemos que volver a la formulación abstracta
para comprobar si tiene sentido o no. Como se muestra a continuación, en
la extensión del modelo estadístico simple mantenemos la noción de un espa-
cio de probabilidad (S; =; P (:)), pero de…nimos en él las variables aleatorias,
que pueden ser dependientes y heterogéneas (véase el capítulo 8 para el más

detalles).
La metamorfosis del abstracto espacio estadístico (S; =; P (:))n ; GnIID
tomó la forma de un modelo estadístico (general) simple.
[i] Modelo de probabilidad: = ff (x; ); 2 ; x 2 Rg,
IID
[ii] Modelo muestral: X(n) := (X1 ; X2 ; :::; Xn ) es una muestra aleatoria.
En el capítulo anterior ha sido construido un puente entre los conceptos
probabilísticos de:
(i) Distribución (una distribución acumulada o una función de densidad),
(ii) Independencia y
(iii) variables aleatorias Idénticamente Distribuida,
y los correspondientes patrones de regularidad aleatoria exhibidos en una
serie de pantallas grá…cas de los datos observados. En la extensión del modelo
estadístico simple también necesitamos extender este puente con el …n de
introducir nuevas técnicas grá…cas relevantes para los patrones de regularidad
aleatoria dependencia y heterogeneidad.
5.1.2 Extendiendo un modelo estadístico simple
El alcance previsto del modelo estadístico simple es limitado por el con-

cepto de una muestra aleatoria; este sólo se puede utilizar para modelar los
fenómenos estocásticos que exhiben independencia y homogeneidad completa
sobre t. Desafortunadamente, este es raramente el caso en los datos economi-
cos. Los datos económicos a menudo muestran características de muestra no
aleatoria: dependencia y / o heterogeneidad. Una serie de tiempo económica
típica se muestra en la …gura 6.1, donde los datos mensuales del índice de
Producción Industrial (1985 = 100) de los EE.UU, para el período de enero
1960 hasta mayo 1994, se gra…can a través del tiempo.
Figura 6.1 Índice de producción industrial.
Usando la experiencia adquirida en el capítulo anterior, podemos ver que

esta grá…ca de tiempo exhibe una dependencia positiva en forma de ciclos
económicos y una heterogeneidad distinta, en forma de una tendencia ascen-
dente y un posible patrón de estacionalidad.
El objetivo principal de los próximos capítulos es extender el modelo
estadístico simple con el …n de modelar los fenómenos observables, tales como
el comportamiento de los rendimientos de las acciones, los tipos de cambio,
la in‡ación y el crecimiento del PIB, lo cuales no pueden ser vistos como
realizaciones de una muestra aleatoria. El objetivo principal de este capítulo
es dar el primer paso hacia la extensión del modelo estadístico simple a …n
de mejorar su alcance. Este paso toma la forma de introducción de algunas
nociones de dependencia.
5.1.3 Introduciendo una taxonomía fundamental

Uno de los temas básicos que están en la base de la discusión en este libro es
una clasi…cación fundamental de los supuestos probabilísticos en tres grandes
categorías:
(D) Distribución, (M) Dependencia, (H) Heterogeneidad.

Esta taxonomía se utiliza ampliamente en los capítulos que siguen, tanto
pedagógicamente como por razones de fondo. Constituye uno de los temas
uni…cadores de la aproximación a la inferencia estadística y a la modelizaciónque
corre a través de este libro. La taxonomía no se supone que debe proporcionar
5.2. MUESTRA NO ALEATORIA: UNA VISIÓN PRELIMINAR 217
una partición del conjunto de supuestos probabilísticos; sólo un grupo am-

plio. Algunas hipótesis se extienden sobre la frontera entre estas categorías
pero que no reduce la utilidad de la taxonomía.
En esta etapa es importante destacar que, en términos de la taxonomía
anterior, un modelo estadístico simple puede ser visto como la imposición de
supuestos extremos en dos de las tres categorías. De la categoría (M) (para
memoria) se impone la Independencia y de la categoría (H) homogeneidad
completa:
(D): Distribución: distribución arbitraria,
(M) Dependencia: variables aleatorias Independientes,
(H) Heterogeneidad: variables aleatorias Idénticamente Distribuidas.
De la misma manera podemos ver los modelos estadísticos concebidos
con mayor alcance como construidos sobre los supuestos de las tres distintas
categorías anteriores que no sean las de Independencia de la categoría (M) y
Distribuciones Idénticas de la categoría (H). Esto sugiere que un prerequisito
de esta ampliación del ámbito de aplicación previsto es la disponibilidad de
las distintas nociones de dependencia y heterogeneidad más allá de los dos
casos extremos restringidos.
El concepto de modelo estadístico, en general, es de suma importancia en
la inferencia estadística. El propósito principal de un modelo estadístico es
proporcionar un resumen adecuado de la información sistemática en los datos
mediante la captura de toda la información estadística sistemática referida a
los patrones de regularidad aleatoria exhibidos por los datos.
5.2 Muestra no aleatoria: una visión prelim-

inar
¿Qué hace que una muestra aleatoria sea un concepto de fundamental impor-
tancia? La respuesta corta es que las hipótesis de Independencia y Distribu-
ción Idéntica simpli…can tanto la modelizacióncomo la inferencia estadística
referentes a modelos estadísticos simples. Esta simpli…cación es encapsulada
por la forma de la reducción de la distribución conjunta de la muestra. Para
ver esto, recordamos al lector que:
Q
n
Independencia: f (x1 ; x2 ; :::; xn ; ) = fk (xk ; k) ; para todo x 2 Rn ;
k=1
Distribución idéntica: fk (xk ; k) = f (xk ; ) ;para todo k = 1; 2; :::; n:
El resultado …nal de estos supuestos es que la distribución conjunta se

simpli…ca enormemente por su reducción a un producto de distribuciones
marginales univariadas (idénticas) :
I
Y
n
ID
Y
n
f (x1 ; x2 ; :::; xn ; ) = fk (xk ; k) = f (xk ; ) ; para todo x 2 Rn .
k=1 k=1
(6.1)
Observando este resultado podemos ver que el supuesto de muestra aleato-
ria simpli…ca drásticamente la distribución conjunta (distribución de la mues-
tra) en dos aspectos importantes:
(i) reducción de la dimensionalidad: f (x1 ; x2 ; :::; xn ; ) es n-dimensional
y f (xk ; ) es uni-dimensional y
(ii) reducción de parámetros: el número de parámetros desconocidos es
a menudo mucho más pequeños que el de .
Ejemplo
Considere el caso donde la distribución conjunta de las variables aleatorias
(X1 ; X2 ; :::; Xn ) es normal, es decir, f (x1 ; x2 ; :::; xn ; ) toma la forma:
0 1 02 3 2 31
X1 1 11 12 13 ::: 1n
B X2 C B6 7 6 21 ::: 7C
B C B6 2 7 6 22 23 2n 7C
B X3 C B6 7 6 31 ::: 7C
B C N B6 3 7 6 32 33 3n 7C : (6.2)
B .. C B6 .. 7 6 .. .. 7C
@ . A @4 . 5 4 . . 5A
Xn n n1 n2 n3 ::: nn
En su forma actual, esta distribución conjunta tiene por lo menos N =

n + 21 [n (n + 1)] parámetros desconocidos:
:= ( i ; ij ; i; j = 1; 2; ::::; n) ;
1
con medias: (E (Xi ) := i; i = 1; 2; :::; n) y 2
[n (n + 1)] covarianzas (de-
bido a la simetría)
Cov (Xi ; Xj ) = Cov (Xj ; Xi ) := ij ; i; j = 1; 2; ::::; n.

Si imponemos el supuesto de independencia de la distribución conjunta
el resultado será que las covarianzas son cero:
ii ; para i = j;
ij =
0; para i 6= j
la distribución conjunta original se reduce a:

0 1 02 3 2 31
X1 1 11 0 0 ::: 0
B X2 C B6 7 6 0 0 ::: 0 7C
B C B6 2 7 6 22 7C
B X3 C B6 7 6 0 0 ::: 0 7C
B C N B6 3 7 6 33 7C :
B .. C B6 .. 7 6 .. .. .. 7C
@ . A @4 . 5 4 . . . 5A
Xn n 0 0 0 ::: nn
En términos de la reducción (6.1), la primera igualdad es el resultado

de la imposición de Independencia, con las densidades marginales de una
variable fk (xk ; k ), k := ( k ; kk ), k = 1; 2; :::; n; estando:
Xk N( k; kk ) ; k = 1; 2; :::; n: (6.4)
Esta reducción, aunque drástica, no produce un modelo operativo, porque
hay
todavía 2n parámetros desconocidos:
k := ( k; kk ) ; k = 1; 2; :::; n;
que aumentan con el tamaño de muestra! La imposición del supuesto de
distribución idéntica en la segunda fase en (6.1) garantiza que:
2
1 = 2 = = n = := ;
y por lo tanto la densidad conjunta se reduce a un producto de densidades
marginales univariadas f (xk ; ) ; := ( ; 2 ) ; de la forma:
2
Xk N ; ; k = 1; 2; :::; n:
NOTE la reducción correspondiente en los parámetros desconocidos en
(6.1):
2
:= (( i ; ij ; i; j = 1; 2; ::::; n) k := ( k; kk ) ; k = 1; 2; :::; n) := ; .
La reducción anterior produce el modelo normal simple:
[i] Modelo de probabilidad:
( ( ) )
1 (x )2 2
= f (x; ) = p exp 2
; := ; 2R R+ ; x 2 R.
2 2
[ii] Modelo muestral: X := (X1 ; X2 ; :::; Xn ) es una muestra aleatoria.

Este ejemplo ilustra con mucha claridad la drástica reducción tanto en
la dimensión como en el número de parámetros desconocidos lograda por
el supuesto de muestra aleatoria. De la misma manera, el ejemplo anterior
también se puede utilizar para indicar el tipo de di…cultades que surgirán en
el caso de una muestra no aleatoria, donde uno o ambos de los supuestos no
se cumplen.
En cuanto a (6.2) nos damos cuenta de que las bendiciones anteriores en
el caso de una muestra aleatoria son maldiciones en el caso de una mues-
tra no aleatoria. Si no se imponen restricciones sobre la dependencia y la
heterogeneidad surgen dos problemas difíciles:
(a) la maldición de dimensionalidad: f (x1 ; x2 ; :::; xn ; ) es n dimensional,
(b) la maldición de los parámetros imprevistos: el número de parámetros
desconocidos en , por ejemplo N , crece con el tamaño muestral n:
5.2.1 Condicionalidad secuencial

Vamos a considerar en primer lugar la maldición de la dimensionalidad. Para
los efectos de la modelizacióne inferencia estadística la alta dimensionalidad
de la distribución conjunta es un problema difícil. La clave para disipar la
maldición de la dimensionalidad se presentó en el capítulo anterior en la forma
de una distribución condicional. Se mostró que en el caso de dos variables
aleatorias arbitrarias X; Y (de…nidas en el mismo espacio de probabilidad)
se cumple la siguiente relación:
f (x; y; ) = f (yjx; '2 ) fx (x; '1 ) , para todo (x; y) 2 RX RY . (6.5)
NOTAS:
(i) La reducción es simétrica con respecto a X y Y en el sentido de que:
f (x; y; ) = f (xjy; 2 ) fy (y; 1) , para todo (x; y) 2 RX RY (6.6)
(ii) f (yjx; '2 ) y f (xjy; 2 ), son ambas distribuciones de una variable.

(iii) La reducción de la dimensionalidad no va acompañada de una reduc-
ción correspondiente del número de parámetros desconocidos §. Con el …n de
evitar la introducción de una notación engorrosa considerar un ejemplo del
caso simple de dos variables.
Ejemplo
Considere el caso donde las variables aleatorias (X; Y ) están normalmente
distribuidas, es decir, f (x; y; ) toma la forma:
Y 1 11 12
~N ;
X 2 21 22
La reducción en (6.6) toma la forma (ver capítulo 4):
2
X~N ( 2 ; 22 ) ; (Y jX = x) ~N 0 + 1 x; , x 2 RX ,
2
2
donde 0 := 1 1 2, 1 := 12
22
, = 11
12
22
. Estos resultados
muestran que:
2
:= ( 1 ; 2; 11 ; 12 ; 22 ) ; '1 := ( 2 ; 22 ) , '2 := 0; 1; .
y por lo tanto el número de parámetros desconocidos sigue siendo el

mismo! Esto es cierto en el caso n dimensional pero la notación se com-
plica un poco.
Comparando (6.5) al caso en que X; Y son independientes:
f (x; y; ) = fx (x; 1 ) fy (y; 2) , para todo (x; y) 2 RX RY (6.8)
podemos ver que en el caso no independiente la distribución condicional

f (yjx; ) es la clave para una reducción de una distribución de dos variables,
a un producto de dos distribuciones univariadas.
Ejemplo
Volviendo al caso anterior, donde las variables aleatorias (X1 ; X2 ) tienen
una distribución normal, se puede observar que:
2
12 =0) 1 = 0; 0 = 1 y = 11 .
Es decir, bajo la restricción 12 = 0, f (yjx; '2 ) toma la forma:
(Y jX = x) j 12 =0 ~N ( 1 ; 11 ) , x2R
lo que implica que f (yjx; '2 ) j 12 =0 = fy (y; 2 ). Resulta que la restricción
12 = 0 es a la vez necesaria y su…ciente para que la condicional se reduzca
a la distribución marginal y por lo tanto bajo esta restricción la distribución

conjunta de (X; Y ) satisface la condición de independencia en (6.8).
La reducción en (6.5) se puede extender fácilmente al caso de n vari-
ables con condicionalidad secuencial. Consideremos el caso de tres variables
aleatorias (X1 ; X2 ; X3 ):
f (x1 ; x2 ; x3 ; ) = f (x3 jx2 ; x1 ; 3) f (x2 ; x1 ; #1 )

= f (x3 jx2 ; x1 ; 3 ) f (x2 ; x1 ; 2 ) f (x1 ; 1) , (x1 ; x2 ; x3 ) 2 R3X
donde primero condicionamos X3 sobre (X1 ; X2 ) y luego condicionamos
X2 sobre X1 . En el caso general de n variables, la condicionalidad secuencial
produce:
no IID
Y
n
f (x1 ; x2 ; x3 ; :::; xn ; ) = f1 (x1 ; 1) fk (xk jxk 1 ; :::; x1 ; k) , x 2 RnX .
k=2
(6.9)
Esto disipa la maldición de la dimensionalidad debido a que el lado dere-
cho es un producto de densidades de una variable pero surgen dos problemas
distintos:
(c) El conjunto de condicionalidad creciente: el número de variables
condicionantes cambia con el índice en el sentido de que fk (xk jxk 1 ; :::; x1 ; k )
tiene k 1 variables condicionantes pero el índice cambia K = 2; 3; :::; n, ha-
ciendo estas densidades diferentes, por ejemplo para n = 5:
f (x2 jx1 ; 2 ),
f (x3 jx2 ; x1 ; 3 ),
f (x4 jx3 ; x2 ; x1 ; 4 ),
f (x5 jx4 ; x3 ; x2 ; x1 ; 5 ).
d) El problema de condicionalidad estocástica: el lado derecho de (6.9)
es el producto de n distribuciones univariadas (n 1 condicionales y una
marginal) para todo valor de x 2 RnX , es decir, una n tupla tal para cada
valor de x 2 RnX . En la reducción en (6.5) existe una distribución conjunta
f (x; y; ) y una densidad marginal fx (x; '1 ), pero varias densidades condi-
cionales f (yjx; '2 ); una para cada valor de x 2 RX , ya que la noción de
densidad condicional se de…ne por un valor especí…co de la variable condicio-
nante.
Estos problemas son sintomáticos de la dependencia entre las variables
aleatorias en la sucesión porque las variables aleatorias implicadas nunca
olvidan. El hecho de importancia es que la manera de hacer frente a am-

bos problemas es imponer algunas restricciones sobre la dependencia y la
heterogeneidad del conjunto de variables aleatorias (X1 ; X2 ; :::; Xn ) (véase el
capítulo 8). Con el …n de convencer al lector de que necesitamos las restric-
ciones de ambas categorías, volvamos al ejemplo Normal con independencia
impuesta. La reducción en (6.10) se simpli…ca a:
I
Y
n
f (x1 ; x2 ; :::; xn ; ) = fk (xk ; k) ; para todo x 2 RnX (6.10)
k=1
pero el problema de sobre parametrización permanece: k := ( k ; kk ) ; k =

1; 2; :::; n. Esto es sintomático de la heterogeneidad de la sucesión.
Atando los distintos hilos de nuestro razonamiento anterior, concluimos
que la maldición de la dimensionalidad surgida de la noción de muestra no
aleatoria puede ser teóricamente eliminada usando condicionalidad secuen-
cial, pero esto plantea otros dos problemas (el conjunto de condicionalidad
creciente y la condicionalidad estocástica). También permanece intacto el
problema de los parámetros incidentales.
5.2.2 Manteniendo un ojo en el bosque!

Nuestro objetivo en este y en los próximos dos capítulos es ajardinar el ter-
ritorio más allá de variables aleatorias Independientes e Idénticamente Dis-
tribuidas (IID) mediante la introducción de formas alternativas de dependen-
cia y heterogeneidad que nos permitan capturar los patrones de regularidad
aleatoria exhibidos por los datos de series de tiempo, como los de la …gura
6.1.
La discusión preliminar en conexión con las di…cultades que surgen en el
caso de muestras no aleatorias trajo el papel de varios conceptos útiles que se
re…eren a las distribuciones conjunta y condicional. Dos cosas se han hecho
evidentes a partir de la discusión anterior:
(i) la clave para domesticar sucesiones no IID es la noción de condicional-
idad y
(ii) la medición de la dependencia tiene que ver con la relación entre
las distribuciones conjuntas y marginales o de forma equivalente entre las
distribuciones condicionales y marginales.
El objetivo principal de este capítulo es introducir algunas nociones de de-
pendencia en conexión con los pares de variables aleatorias, como preludio a
la discusión del caso general de una sucesión de variables aleatorias en el capí-

tulo 8. Se presta especial atención a las variables aleatorias cualitativamente
diferentes. El capítulo 7 se concentra en el problema de condicionalidad
estocástica y se discute la forma en que la distribución condicional y sus mo-
mentos se pueden ampliar para hacer frente a este problema. Los conceptos
desarrollados en estos dos capítulos son luego utilizados en el capítulo 8 para
proporcionar una discusión sistemática de sucesiones de variables aleatorias
en lo que respecta a la dependencia y la heterogeneidad. En otras palabras,
todos estos temas serán unidos en el capítulo 8 para mostrar cómo el territo-
rio recién trazado de la jungla no IID puede ayudar a modelar los patrones
de regularidad aleatoria asociados con la dependencia y / o heterogeneidad.
5.2.3 Modelos estadísticos más allá del simple: un punto

de vista preliminar
La discusión preliminar sienta las bases para extender el modelo estadístico
simple a modelos más generales que permitan alguna cierta dependencia y / o
heterogeneidad. Decimos cierta dependencia y / o heterogeneidad, porque los
modelos estadísticos con dependencia sin restricciones y / o heterogeneidad
son inalcanzables en el caso de datos no experimentales (observacionales).
En un intento por ser más concretos, volvamos al ejemplo del caso en que
la distribución conjunta de (X1 ; X2 ; :::; Xn ) es normal, es decir, f (x1 ; x2 ; :::; xn ; )
toma la forma (6.2) donde := ( i ; ij ; i; j = 1; 2; :::; n) incluye N = n +
1
2
n (n + 1) parámetros desconocidos. En el caso de los datos observacionales
tenemos justamente una sola realización de la muestra (X1 ; X2 ; :::; Xn ) es
decir, n números (x1 ; x2 ; :::; xn ) y no hay manera de que podamos estimar los
N parámetros desconocidos (véase el capítulo 11).
En el caso de datos experimentales estamos a menudo en condiciones de
generar más de una realización de la muestra, por ejemplo (x1i ; x2i ; :::; xni ),
i = 1; 2; :::; M . Estas realizaciones adicionales, bajo ciertas restricciones,
serán su…cientes para estimar todos los N parámetros desconocidos. Estos
métodos, sin embargo, están fuera del alcance de este libro que se centra en
la modelizacióny la inferencia con datos observacionales.
Volviendo a los modelos estadísticos para datos observacionales, NOTE-
MOS, como preludio a la discusión que sigue, que cada uno de estos modelos
operacionales se componen de tres componentes compatibles básicos de las
categorías generales mencionadas en el caso del modelo estadístico simple:
5.3. DEPENDENCIA ENTRE DOS VARIABLES ALEATORIAS: DISTRIBUCIÓN CONJUNTA225
( D) Distribución: univariada arbitraria,

(M) Dependencia: Independencia, Markov, martingala, no correlación, ...
(H) Heterogeneidad:. Distribución idéntica, estacionariedad débil y es-
tricta, ...
Nuestra tarea principal en este y los próximos dos capítulos es enriquecer
las categorías de Dependencia y Heterogeneidad con una variedad de concep-
tos entre los dos extremos de Independencia y Distribución Idéntica en un
extremo y dependencia sin restricciones y heterogeneidad en el otro extremo
del espectro. En la modelizaciónel objetivo es combinar los componentes
de las tres categorías de manera coherente con el …n de especi…car modelos
estadísticos operativos para datos observados. El secreto de la modelización-
radica en la utilización de toda la información sistemática en los datos. Qué
es sistemática, no obstante, depende de la e…cacia con la que usemos los
conceptos teóricos para capturar los patrones de regularidad que llamamos
regularidad aleatoria.
5.3 Dependencia entre dos variables aleato-

rias: distribución conjunta
Intuitivamente, la dependencia probabilística entre dos variables aleatorias
X y Y se re…ere a "cómo la información acerca de X nos ayuda a inferir
el valor de Y ." Si X y Y son perfectamente dependientes, conociendo X
nos permite inferir Y , con probabilidad uno. En este sentido, la dependencia
perfecta proporciona una contraparte probabilística a la noción matemática
de dependencia funcional, donde Y = h (X) para alguna función:
h (:) : RX ! RY .
Además, la independencia ofrece una contrapartida probabilística a la

idea de dependencia no funcional entre dos variables matemáticas. La prin-
cipal diferencia es que la dependencia probabilística, a diferencia de la de-
pendencia funcional, tiene sentido para los casos entre estos dos extremos.
La proposición "las variables aleatorias X y Y son altamente (pero no per-
fectamente) dependientes" es una proposición probabilística signi…cativa. La
medición del grado de dependencia probabilística, sin embargo, es un prob-
lema difícil y multifacético.
En el capítulo 2 de…nimos la independencia entre dos eventos A; B, en

= (S; =; P (:) siendo el espacio de probabilidad correspondiente) de la sigu-
iente manera:
P (A \ B) = P (A) P (B) o P (A j B) = P (A) ; para P (B) > 0:
Podríamos fácilmente extender esto a la independencia entre cualesquiera

dos subespacios de eventos ( campos) A y B de =:
P (A \ B) = P (A) P (B) ; (para todos los eventos A 2 A y B 2 B)
P (A j B) = P (A) ; (para todos los eventos A 2 A y B 2 B) ; P (B) > 0:
Esta de…nición se puede adaptar fácilmente al caso de dos variables aleato-

rias X y Y de…nidas en (S; =; P (:)) Eligiendo A := (X) y B := (Y ) ;
donde (X) denota el mínimo campo generado por X; véase el capítulo
3.
En el caso donde los dos subespacios de eventos A y B no son independi-
entes (es decir, son dependientes), esto ya no es cierto y la diferencia entre
las dos partes:
kP (A \ B) P (A) P (B)k ; o kP (A j B) P (A)k

donde kk denota cierta medida signi…cativa de distancia, se puede utilizar
como medida de dependencia.
Ilustraciones
Sean A = y B =, las siguientes son medidas de dependencia entre
ellos:
(1) (A; B) = sup jP (A \ B) P (A) P (B)j ;
A2A,B2B
(2) (A; B) = sup jP (A j B) P (A)j ; para P (B) > 0;
A2A,B2B
P(A\B) P(A) P(B)
(3) (A; B) = sup P(A) P(B)
, para P (B) > 0; P (A) > 0
A2A,B2B
Eligiendo A := (X) y B := (Y ) ; las cantidades anteriores miden la
dependencia entre las variables aleatorias X; Y .
Ejemplo
Consideremos de nuevo nuestro experimento aleatorio favorito de lan-
zar una moneda al aire dos veces y tomar nota de los resultados con S =
f(HH); (HT ); (T H); (T T )g, el espacio de eventos siendo el conjunto potencia
de S, es decir, = := P (S). De…nir las variables aleatorias
X (HH) = X (T T ) = 0; X (HT ) = X (T H) = 1;
Y (HH) = Y (HT ) = 0; Y (T T ) = X (T H) = 1;
Z (HH) = 0; X (HT ) = Z (T H) = 1; Z (T T ) = 2:
(X) : = S; ;; A; A ; A := f(HH) ; (T T )g ;
(Y ) : = S; ;; B; B ; B := f(HH) ; (HT )g ;
(Z) : = S; ;; C1 ; C2 ; C3 ; C1 ; C2 ; C3 ; C1 := f(HH)g ;
C2 : = f(HT ) ; (T H)g ; C3 := f(T T )g :
A partir de estos resultados podemos deducir que las variables aleatorias

X y Y son independientes:
1
P (A \ B) = = P (A) P (B) para todo A 2 (X) y B 2 (Y:)
4
Por otro lado, las variables aleatorias X y Z no son independientes porque

para al menos uno de los eventos de intersección:
1 1
P (A \ C1 ) = 6= P (A) P (C1 ) = :
4 8
Teniendo en cuenta el hecho de que las variables aleatorias X y Z son
dependientes podemos proceder a medir su dependencia con cualquiera de
las medidas (1) - (3).
Como X, Z son dependientes, se mide su dependencia usando cualquiera
de las medidas (1)-(3) anteriores:
1 1 1 1
= P (A \ C1 ) = P f(HH)g ; P (A) P (C1 ) = = ;
4 2 4 8
1 1 1
0 = P (A \ C2 ) = ;; P (A) P (C2 ) = = ;
2 2 4
1 1 1 1
= P (A \ C3 ) = P f(T T )g ; P (A) P (C3 ) = = ;
4 2 4 8
1 1 3 3
= P A \ C 1 = P f(T T )g ; P (A) P C 1 = = ;
4 2 4 8
1 1 1 1
= P A \ C 2 = P f(HH)g ; P (A) P C 2 = = ;
2 2 2 4
1 1 3 3
= P A \ C 3 = P f(HH)g ; P (A) P C 3 = = ;
4 2 4 8
1
( (X) ; (Z)) = sup jP (A \ B) P (A) P (B)j = :
A2 (X),B2 (Z) 4
Las otras medidas de dependencia, tales como (A; B) y (A; B) (A, B)

son evaluadas de manera similar.
En el capítulo 4 de…nimos la independencia entre dos variables aleatorias
X y Y usando la función de densidad conjunta de la siguiente manera:
f (x; y) = fX (x) fY (y) ; para todo (x; y) 2 RX RY : ((6.11))

Esta igualdad sugiere que en el caso en que las variables aleatorias X; Y son
independientes, la distribución conjunta contiene la misma información que
las dos distribuciones marginales
Ejemplo
Considere la distribución conjunta de las variables aleatorias X y Y an-
teriores:
ynx 0 1 fY (y)
0 0:25 0:25 0:50
((6.12))
1 0:25 0:25 0:50
fX (x) 0:50 0:50 1
Se puede veri…car fácilmente que estas dos variables aleatorias son real-
mente independientes.
En términos de la función de densidad condicional hemos de…nido la in-

dependencia entre dos variables aleatorias X y Y a través de:
f (y j x) = fY (y) ; para todo (x; y) 2 RX RY : ((6.13))
Debido a la simetría del concepto de independencia, ésta puede de…nirse

de forma equivalente por:
f (x j y) = fX (x) ; para toda (x; y) 2 RX RY :
En el caso donde las variables aleatorias X y Y no son independientes,

son dependientes, (6.11) ya no es cierta; la distribución conjunta contiene
más información que las dos distribuciones marginales. La información adi-
cional es de hecho la información relativa a la dependencia entre las variables
aleatorias X y Y . En este sentido las funciones de la forma:
kf (x; y) fX (x) fY (y)k ; o kf (y j x) fY (y)k (6.14)
se pueden utilizar como medidas de dependencia basada en funciones de

densidad.
Ejemplos
1. de Hoe¤ding:
Z 1 Z 1
(X; Y ) = [f (x; y) fX (x) fY (y)]2 f (x; y) dxdy :
1 1
2. Valor absoluto análogo a :
Z 1 Z 1
1 (X; Y ) = 12 jf (x; y) fX (x) fY (y)j2 f (x; y) dxdy ;
1 1
Z 1 Z 1
2 (X; Y ) = 12 jf (x; y) fX (x) fY (y)j2 fX (x) fY (y) dxdy :
1 1
3. Distancia informacional:
Z 1Z 1
f (x; y)
K (X; Y ) = In f (x; y) dxdy;
1 1 fX (x) fY (y)
donde In denota el logarítmo natural (base e); esta medida se basa en la
medida Kullback de divergencia entre dos distribuciones.
4. Coe…ciente cuadrático de contingencia:
Z 1 Z 1
2 f (x; y)
' (X; Y ) = f (x; y) dxdy 1 :
1 1 fX (x) fY (y)
5. Coe…ciente rango de Spearman:
Z 1 Z 1
S (X; Y ) = 3 [2FX (x) 1] [2FY (y) 1] f (x; y) dxdy;
1 1
donde [2FX (x) 1] es elegido en lugar de FX (x) para representar la úl-

tima distribución simétrica alrededor de cero. De hecho, se puede demostrar
que para u = FX (x), sea cual sea la naturaleza de FX (x), la distribución de
u es uniforme con el rango [0; 1], es decir, FU (u) = u, para 0 u 1 (ver
capítulo 3). Por lo tanto, la distribución de U = [2FX (x) 1] es uniforme
alrededor de 0, es decir,
[2FX (x) 1] U [ 1; 1] :
La presencia de las integrales múltiples en las medidas anteriores de de-
pendencia basadas en funciones de densidad, las hace engorrosas y muy cerca
de irrealizables en el caso de más de dos variables aleatorias. Como argu-
mentamos en la sección anterior necesitamos medidas de dependencia de una
sucesión de variables aleatorias (X1 ; X2 ; :::; Xn ). Por otra parte la mezcla
de medidas de condición (1) - (3), basadas en espacios de subeventos, son
más fáciles de manejar, ya que implican la maximización sobre conjuntos de
subconjuntos. Como se muestra en el capítulo 8, la última medida de depen-
dencia forma la base de las llamadas condiciones mixtas sobre dependencia
temporal en una sucesión de variables aleatorias.
5.4 Dependencia entre dos variables aleato-

rias: momentos
5.4.1 Momentos conjuntos y dependencia
Medir dependencia usando distancias, como aquellas mencionadas anterior-
mente, puede ser una tarea muy difícil y por lo tanto en la modelizacióna
5.4. DEPENDENCIA ENTRE DOS VARIABLES ALEATORIAS: MOMENTOS231
menudo recurrimos a medidas basadas en los momentos. La conexión entre

estas dos categorías de medidas de dependencia pasa a través del siguiente
lema.
Lema de independencia. Se dice que dos variables aleatorias X; Y son
independientes, si para cualesquiera funciones bien comportadas (Borel)
u = g (X) y v = h (Y ),
f (g (X) ; h (Y )) = fu (g (X)) fv (h (y)) ; para todo (u; v) 2 R2 : (6.15)
En términos simples, este resultado signi…ca que si X y Y son indepen-

dientes, entonces cualesquiera funciones de estas variables aleatorias, por
ejemplo u = X 2 y v = InY , también son variables aleatorias independientes.
Claramente, este lema no puede ser usado para establecer la indepen-
dencia, porque uno necesita demostrar que (6.15) se cumple para todas las
posibles funciones de Borel; una tarea imposible. Es, sin embargo, muy útil
por dos razones. En primer lugar, se puede utilizar para demostrar la no
independencia encontrando un solo contraejemplo. En segundo lugar, es de
interés teórico, porque después de establecer la independencia utilizando, por
ejemplo (6.11), se puede declarar que cualesquiera funciones de Borel de las
variables aleatorias originales son también necesariamente independientes.
UNA PALABRA DE PRECAUCIÓN: hay que destacar que en el caso
de que X y Y no sean independientes (6.15) puede ser cierta para algunas
funciones g(X) y h(Y ), como demuestra el siguiente ejemplo.
Ejemplo
Considere la distribución conjunta que se especi…ca a continuación:
ynx 1 0 1 vnu 0 1 fv (v)

1 0 0:25 0 1 0:25 0:25 0:50
, (6.16)
0 0:25 0:25 0 0 0:25 0:25 0:50
1 0 0 0:25 fx (x) 0:50 0:50 1
X y Y no son independientes porque:
f ( 1; 1) = 0 6= fx ( 1) fy ( 1) = 0:062.
Sin embargo, las variables aleatorias u = X 2 y v = Y 2 resultan inde-
pendiente, como puede comprobarse a partir de (6.16) (b). La moraleja de
esta historia es que incluso en los casos en que las variables aleatorias X y
Y no son independientes, es posible que existan algunas funciones de las que
resultan ser independientes.
Teniendo en cuenta el hecho de que la experanza E (:) está siempre
de…nida con respecto a una distribución especí…ca, no debería ser una sor-
presa saber que la condición (6.15) puede escribirse de forma equivalente en
la siguiente forma:
E (g (X) ; h (Y )) = E (g (X)) E (h (y)) ; (6.17)

suponiendo que las esperanzas existen. Es importante NOTAR que E (:)
en el lado izquierdo se de…ne en términos de f (x; y), pero los otros dos se
de…nen en términos de fx y fy :
Z 1 Z 1
E (h (X) g (Y )) = [h (X) g (Y )] f (x; y) dxdy;
1 1
Z 1
E (h (X)) = [h (X)] fX (x) dx;
1
Z 1
E (g (Y )) = [g (Y )] fY (y) dy:
1
Utilizando este resultado en conjunción con funciones simples de X y Y ,

lo cual da lugar a los momentos de la distribución conjunta, podemos de…nir
diferentes formas de independencia (y dependencia) en términos del producto
conjunto y momentos centrales.
En el caso donde todos los momentos de las variables aleatorias X y Y
existen (E X k < 1 y E Y k < 1;para todo k = 1; 2; :::), podemos usar
el lema anterior de independencia en conjunción con los momentos producto
conjuntos para deducir que X y Y son independientes si y sólo si:
0
(a) km := E X k Y m = E X k E (Y m ) ; para todo k; m = 0; 1; 2; :::.
(6.18)
Este es, otra vez, un resultado no operacional para demostrar la inde-
pendencia, porque tenemos que veri…car estas igualdades para un número
in…nito de momentos conjuntos. Sin embargo, su negación se puede utilizar
para trazar el territorio entre las dos posiciones extremas de independencia
y dependencia completa, en el sentido de que si:
E X k Y m 6= E X k E (Y m ) ; para todo k; m = 1; 2; :::, (6.19)

las variables aleatorias X y Y son dependientes de orden (k; m). De-
safortunadamente, el único caso especial de (6.19) explorado a fondo en la
literatura es el caso (1,1):
E (X Y ) 6= E (X) E (Y )
conocido como dependencia (lineal) de primer orden. En el caso
donde la igualdad se cumple:
E (X Y ) = E (X) E (Y )
se llama la independencia de primer orden.
La noción de independencia en términos de un número in…nito de mo-
mentos se puede de…nir de manera equivalente en términos de los momentos
centrales conjuntos:
n o
k m
(b) km := E [X (EX)] [Y = 0; para todo k; m = 0; 1; 2; :::
E (Y )]
(6.20)
Del mismo modo, podemos de…nir la noción de dependencia (k; m) usando
su negación:
n o
k m
E [X (EX)] [Y E (Y )] 6= 0; para todo k; m = 0; 1; 2; :::
La equivalencia de las dos de…niciones en términos de los momentos pro-

ducto conjunto y centrales se puede demostrar fácilmente en el caso k = 1,
m = 1. El concepto de independencia de primer orden es equivalente a decir
que el primer momento central, la covarianza es cero:
11 := E f[X (EX)] [Y E (Y )]g = 0:

La equivalencia de las dos de…niciones se deduce del hecho de que:
Cov(X; Y ) = E(XY ) E [X E(Y )] E [Y E(X)] + E [E(X) E(Y )] =

= E(XY ) 2 [E(X) E(Y )] + [E(X) E(Y )] = E(XY ) [E(X) E(Y )] :
Cov(X; Y ) = 0 , E(XY ) E(X) E(Y ) = 0:
Es interesante NOTAR que existe una relación directa entre la covarianza

y las distancias de dependencia utilizadas en la de…nición de independencia
en la sección anterior:
Z 1Z 1
Cov(X; Y ) = [FXY (x; y) FX (x)FY (y)] f (x; y) dxdy:
1 1
Correlación y dependencia
Una debilidad importante de la covarianza, cuando se utiliza como una
medida de dependencia entre X y Y , es que depende de sus unidades de me-
dida. La versión estandarizada de la covarianza, conocida como coe…ciente de
correlación, se propuso por primera vez por Galton (1880) como co-relación.
Coe…ciente de correlación. Para cualesquiera dos variables aleatorias
X y Y tales que V ar (X) < 1, V ar (Y ) < 1, de…nidas en el mismo espacio
de probabilidad (S; =; P (:)), el coe…ciente de correlación se de…ne por:
Cov (X; Y )
Corr(X; Y ) = p :
V ar(X)V ar(Y )
Ejemplo
Vamos a obtener el coe…ciente de correlación entre X y Y , usando densi-
dad conjunta 4.19 (see el capítulo 4):
E (X) = 1:1; E (Y ) = 0:8; V ar (X) = 0:69; V ar (Y ) = 0:96; Cov (X; Y ) = 0:12.
Por lo tanto, el coe…ciente de correlación es:

0:12
Corr(X; Y ) = p = 0:147.
(0:69) (0:96)
Propiedades del coe…ciente de correlación
1: 1 Corr(X; Y ) 1:
2 : Corr(aX + b; cY + d) = Corr(X; Y ); para a; b; c; d 2 R4 ; (a; c) > 0:
3 : Corr(X; Y ) 1; si y solo si Y = a0 + a1 X; (a0 ; a1 ) 2 R2 :
La primera propiedad en relación con el rango de valores para el coe…-
ciente de correlación se sigue de la llamada desigualdad de Schwarz :
1 1
jCov(X; Y )j [V ar(X)] 2 [V ar(Y )] 2 .
La segunda propiedad se sigue de la de…nición del coe…ciente de cor-
relación que lo invariante a transformaciones lineales. La tercera propiedad
es más complicada, pero la prueba de este resultado puede arrojar algo de

luz sobre la relación entre dependencia en general y correlación en particular.
Correlación perfecta. Dos variables aleatorias X; Y están perfecta-
mente correlacionadas, es decir, Corr(X; Y ) = 1, si y sólo si ellas están
linealmente relacionadas.
Prueba (la prueba puede omitirse sin pérdida de continuidad). La parte
si se sigue directamente asumiendo que las variables aleatorias X y Y están
linealmente relacionadas:
Y = a0 + a1 X, a1 > 0 (6.21)
Por simple álgebra y las propiedades de E (:) (ver capítulo 3), se deduce
que:
Cov(X; Y ) = E f[a0 + a1 X E (a0 + a1 X [X E (X)])]g

= a1 E f[X E (X)] [X E (X)]g = a1 V ar (X) .
Teniendo en cuenta el hecho de que V ar(Y ) = a21 V ar (x), la sustitución
en la fórmula del coe…ciente de correlación proporciona:
a1 V ar (X)
Corr(X; Y ) = p = 1:
a21 V ar (x) V ar(Y )
NOTE que en el caso a < 0, Corr(X; Y ) = 1. La parte solo si de
este resultado es un poco más complicada. Suponga que Corr(X; Y ) = 1 (el
caso Corr(X; Y ) = 1 puede ser tratado, de manera similar) y de…nir las
variables estandarizadas:
X E (X) Y E (Y )
X = p , Y =p .
V ar (X) V ar (Y )
De esto podemos deducir que:
Ef(X Y )2 g = V ar (X ) + V ar (Y ) 2E (X Y ) = 2 2 = 0.
Esto implica que P (s : X (s) 6= Y (s)) = 0, para todo s 2 S (veáse
capítulo 3) que puede ser equivalentemente escrito en la forma:
P (s : X (s) = Y (s)) = 1; s 2 S o X = Y ; con probabilidad uno.

Sustituyendo las variables originales y reordenando los términos resulta:
1
V ar (Y ) 2
Y = E (Y ) + (X E (X)) , con probabilidad uno.
V ar (X)
1
2
lo que coincide con (6.21) para: a0 = E (Y ) a1 E (X), a1 = VV ar(X)
ar(Y )
.
El resultado anterior sugiere que la correlación es una medida de de-
pendencia lineal. Este hecho se pone de mani…esto con mayor énfasis en el
siguiente ejemplo.
Ejemplo
Sea X uniformemente distribuida entre menos uno y más uno, que se
denota por
X U ( 1; 1) y Y := X 2 :
Como podemos ver, X; Y son perfectamente dependientes una de otra
(pero no linealmente); el conocimiento de una determina la otra completa-
mente. Podemos mostrar, sin embargo, que las dos no están correlacionadas.
En vista del hecho de que:
1
fX (x) =; E(X) = 0;
2
Cov(X; Y ) = E(XY ) E(X)E(Y ) = E(X 3 ) E(X) E(X 2 ):
Por tanto, X; Y no están correlacionadas si E(X 3 ) = 0. En efecto:
Z 1 1
3 3 1 1 1 4 1 1 1
E(X ) = x dx = x = = 0:
1 2 2 4 1 2 4 4
En esta etapa, es imprescindible diferenciar no correlación de indepen-

dencia. Sabemos de la discusión anterior que el coe…ciente de correlación
de…ne una medida de dependencia lineal, no dependencia en general. Por
lo tanto, la conclusión general que podemos sacar sobre la relación entre no
correlación e independencia es que:
independencia ) no correlación
5.5. MOMENTOS CONDICIONALES Y DEPENDENCIA 237
pero lo inverso no es cierto:
no correlación ; independencia
Para concluir esta sección NOTEMOS un concepto estrechamente rela-
cionado con no correlación, la noción de ortogonalidad. Se dice que dos
variables aleatorias X y Y , cuyos segundos momentos son …nitos, son ortog-
onales si:
E (X Y ) = 0
NOTE que si dos variables aleatorias no están correlacionadas, sus desvia-
ciones medias
X := [X E (X)] , Y := [Y E (Y )]
son ortogonales
E (X Y ) = 0.
5.5 Momentos condicionales y dependencia

Volviendo a la de…nición de independencia de dos variables aleatorias X; Y
en términos de la densidad condicional:
f (yjx) = fY (y) , para todo (x; y) 2 RX RY (6.22)

NOTEMOS que la condición de los momentos condicionales análoga a
(6.18) es:
E (Y r jX = x) = E (Y r ) , para todo x 2 RX , r = 1; 2; ::: (6.23)

Es interesante ver cómo estas igualdades surgen en el caso de indepen-
dencia.
Paso 1. De la de…nición de independencia, sabemos que para cua-
lesquiera funciones bien comportadas h (:) y g (:) de las variables aleatorias
X y Y:
E (h (X) g (Y )) = E (h (X)) E (g (Y )) , para todo (x; y) 2 RX RY (6.24)

Paso 2. Eligiendo las funciones:

h (X) de forma arbitraria, pero gr (Y ) := Y r , r = 1; 2; :::, (6.24) se reduce
a (suponiendo que los momentos existen):
E (h (X) Y r ) = E (h (X)) E (Y r ) ; para todo r = 1; 2; ::: (6.25)
Paso 3. En general:
E (h (X) Y r ) = [E (h (X) Y r ) j (X)] = E ((h (X)) E (Y r ) j (X)) (6.26)
donde la primera igualdad se sigue de la propiedad CE2: E(Y ) = E [E (Y j (X))]

y la segunda de la propiedad CE3 de la esperanza condicional (véase el capí-
tulo 7); recordamos al lector que (X) denota el conjunto de todos los eventos
generados por la variable aleatoria X (ver capítulo 3).
Paso 4. Comparando (6.25) con (6.26) deducimos que las dos variables
aleatorias X y Y son independientes cuando (6.23) se cumple. Al igual que
en el caso de momentos conjuntos y marginales (6.18), (6.23) no proporciona
una forma de veri…car la independencia porque implica un número in…nito
de momentos. Sin embargo, como con (6.19), su negación se puede utilizar
para trazar el territorio más allá de independencia. A diferencia de (6.19) los
momentos condicionales ofrecen una clasi…cación más sistemática de depen-
dencia en el sentido que podemos hablar de primero, segundo, tercero, etc.
órdenes de dependencia. Esta medida de dependencia se de…ne en términos
de la función distancia:
dr (X; Y ) := [E (Y r j (X)) E (Y r )] (6.27)

o equivalentemente (véase el capítulo 7):
dy (Y jx) := [E (Y r jX = x) E (Y r )] , para todo x 2 RX . (6.28)
Dependencia de r-ésimo orden. Cualesquiera dos variables aleatorias

X; Y , cuyos momentos de r-ésimo orden existen y dk (Y jx) = 0 para todo
r = 1; 2; :::r 1 son:
dependientes de r-ésimo orden si: dr (Y jx) 6= 0, para todo x 2 RX , r = 1; 2; 3; :::

Por otro lado, las variables aleatorias X; Y son
independientes de r-ésimo orden si: dr (Y jx) = 0, para todo x 2 RX , r = 1; 2; 3; :::
Esta de…nición nos permite trazar el territorio de dependencia usando este

esquema jerárquico de primero, segundo, tercero etc. orden de dependencia.
Por ejemplo, cualesquiera variables aleatorias X y Y cuyo momento de primer
orden existe:
d1 (Y jx) 6= 0, para todo x 2 RX ) X y Y son dependientes de primer orden.
El trazado anterior de la dependencia se puede hacer de forma equivalente

en términos de los momentos centrales de la función distancia:
†r (X; Y ) := [E ([Y E (Y j (X))]r j (X)) E [Y E (Y )]r ] (6.29)
o equivalententemente:
†r (Y jx) := [E ([Y E (Y jX = x)]r jX = x) E (Y )]r ] , para todo x 2 RX ,

E [Y
(6.30)
Por ejemplo la independencia de segundo orden se de…ne por:
†2 (Y jx) = 0 , V ar (Y jX = x) = V ar (Y ) , para todo x 2 RX ,
En este sentido, dos variables aleatorias X y Y pueden ser independientes

de primer orden independiente, pero dependientes de segundo orden, es decir,
E(Y jX) = E(Y ), pero V ar(Y jX) 6= V ar(Y ); véase el capítulo 8.
Es importante NOTAR que los momentos condicionales dan lugar a una
clasi…cación mucho más fácil de dependencia que las nociones de índice doble
de…nidas en términos de los momentos conjuntos en (6.19). Sin embargo, la
derivación anterior con base en (6.26) sugiere que las nociones de indepen-
dencia de…nidas en términos de los momentos condicionales son un poco más
fuertes. Para ver esto consideremos el caso de dependencia de primer orden
donde (6.26) toma la forma:
E (h (X) Y ) = E [E (h (X) Y ) jX] = E (h (X)) E (Y jX) . (6.31)
Esto sugiere que la independencia de primer orden, es más fuerte que la

no correlación, porque en el caso de esta última la función h no puede ser
arbitraria, como en independencia de primer orden sino que tiene que ser
de la forma: h(X) = X. A su vez, la independencia de primer orden es
más débil que la independencia (completa), porque para que esta última se
cumpla necesitamos que todos los momentos condicionales coincidan con los
momentos marginales. En resumen:
independencia ) independencia de primer orden ) no correlación.
5.5.1 Independencia condicional

Una forma importante de dependencia es la que llamamos independencia
condicional. En el contexto de un espacio de probabilidad (S; =; P (:)), dos
eventos A 2 = y B 2 = son condicionalmente independientes dado un tercer
evento D 2 =, para el que P (D) > 0, si:
P (A \ BjD) = P (A \ D) P (B \ D) .
Es decir, el conocimiento de que D ha ocurrido hace que los eventos A y
B sean independientes.
Las variables aleatorias X y Y se dice que son condicionalmente inde-
pendientes dada Z, si y sólo si:
f (x; yjz) = f (xjz)f (yjz), para todo x; y; z 2 (RX RY RZ ) (6.32)
RZ := fz 2 R : fZ (z) > 0g es el conjunto soporte de fZ (z). Es decir, la

densidad conjunta de (X; Y; Z) se factoriza en dos densidades condicionales.
Intuitivamente, X y Y son condicionalmente independientes dada Z, si X y
Y se relacionan únicamente con Z.
Ejemplo
Considere el caso donde (X1 ; X2 ; X3 ) se distribuyen normalmente con
distribución conjunta denotada por:
0 1 02 3 2 31
X1 1 11 12 13
@ X2 A ~N @4 2
5;4 21 22 23
5A (6.33)
X3 3 31 32 33
E (Xk ) = k , V ar (Xk ) = kk , k = 1; 2; 3, Cov (Xi ; Xj ) = ij , i 6= j,

i; j = 1; 2; 3.
NOTE que la fórmula general para la distribución normal conjunta de X
(un vector de n 1) es:
P 1 X
(det ) 2 1 1
f (x; ) = p n exp (x )T (x ) , (6.34)
2 2
X
E (X) = , Cov (X) = .
Como mostramos anteriormente, la distribución normal sólo permite de-

pendencia de primer orden y por lo tanto para cualquier i 6= j; i; j = 1; 2; 3:
ij = 0 , Xi y Xj son independientes.
Resulta ser que la independencia condicional también es fácil de de…nir en
este contexto en términos de la inversa de la matriz de varianzas-covarianzas:
2 3 1 2 3
11 12 13 ! 11 ! 12 ! 13
4 21 22 23
5 = 4 ! 21 ! 22 ! 23 5 .
31 32 33 ! 31 ! 32 ! 33
para todo i 6= j 6= k; i; j; k = 1; 2; 3:
! ij = 0 , Xi yXj son condicionalmente independientes dada Xk :
Regresando al concepto de independencia condicional entre las variables

aleatorias X y Y dado Z NOTEMOS que ella se puede de…nir de manera
equivalente por:
(M): f (yjx; z) = f (yjz) , para todo x; y; z 2 (RX RY RZ ) . (6.35)
Esta forma está directamente relacionada con el concepto ampliamente

utilizado de dependencia Markov. En el contexto de (6.35), Y y X son
condicionalmente independientes dada Z, pero si interpretamos Y como el

"futuro", X como el "pasado" y Z como el "presente" (M) dice que, dado el
presente el futuro es independiente del pasado; esto se conoce como depen-
dencia Markov. Usando los puntos 0 < t1 < t2 < t3 la dependencia Markov
se puede escribir en la forma:
(M ) : f (xt3 jxt2 ; xt1 ) = f (xt3 jxt2 ) , para todo xt1 ; xt2 ; xt3 2 R3X .
Una tercera forma útil de de…nir la independencia condicional, que no

implica ninguna referencia a las distribuciones condicionales, es:
1
f (x; y; z) = (f (x; z) f (y; z)) , para todo x; y; z 2 (RX RY RZ ) .
fZ (z)
NOTA. La independencia condicional de X y Y dado Z se denota a

menudo por:
[X ? Y ] (Z) .
Usando esta notación podemos formular algunos resultados útiles en relación
a la independencia condicional (ver Whittaker (1990):
(i) ([Y ? (X1 ; X2 )] j (Z)) ) ([Y ? X1 ] j (Z)),
(ii) ([Y ? (X1 ; X2 )] j (Z)) , ([Y ? X1 ] j (Z; X2 )) y ([Y ? X2 ] j (Z; X1 )),
(iii) ([Y ? X] j (Z)) y U = h (X) ) ([Y ? U ] j (Z)),
(iv) ([Y ? X] j (Z)) y U = h (X) ) ([Y ? X] j (Z; U )),
donde h(:) es una función de Borel. NOTE que estos resultados se
mantienen sin cambios en caso de que X, Y , Z sean vectores aleatorios.
Un concepto relacionado con la independencia condicional, pero menos
general se de…ne en términos de la covarianza de las medias condicionales.
Esto se conoce como covarianza parcial entre las variables aleatorias X y
Y dado Z y se de…ne por:
Cov (X; Y jZ) = E ([X E (XjZ)] [Y E (Y jZ)]) .

En analogía directa con la covarianza simple, la covarianza parcial mide
independencia condicional lineal. Ya que ella comparte con su hermana la
misma dependencia de las unidades de medida, se procede a estandarizarla
para de…nir la correlación parcial:
E ([X E (XjZ)] [Y E (Y jZ)])

Corr (X; Y jZ) = p
V ar (XjZ) V ar (Y jZ)
Este mide la dependencia lineal entre dos variables aleatorias X y Y
después de eliminar el efecto de una tercera variable aleatoria Z. Esto se
introdujo por primera vez por Yule (1897), quien lo llamó coe…ciente de
correlación neto.
NOTE que la correlación parcial se relaciona con las correlaciones simples
a través de:
ij ik jk
ij;k : = Corr (Xi ; Xj jXk ) = q ;
2 2
(1 ik ) 1 jk
ij
ij : =p ; i 6= j 6= k; i; j; k = 1; 2; 3.
ii jj
Ejemplo
En el caso donde (X1 ; X2 ; :::; Xn ) se distribuyen normalmente, discutido
anteriormente, se puede demostrar que las covarianzas condicionales coinci-
den con los elementos de la inversa de la matriz de varianzas-covarianzas, es
decir:
Cov (Xi ; Xj jXk ) = ! ij ; i 6= j 6= k; i; j; k = 1; 2; 3.

En vista del hecho de que para i; j; k = 1; 2; 3; i 6= j 6= k :
ij;k = 0 , ! ij = 0 deducimos que [Xi ? Yj ] jXk , ! ij = 0.
Motivados por la variedad de estructuras de dependencia entre varias vari-

ables aleatorias que se pueden ser generadas usando diferentes restricciones
de independencia condicional, una literatura llamada análisis grá…co se ha
desarrollado recientemente (ver Whittaker (1990), Edwards (1995) y Pearl
(1988)). El término deriva del hecho de que estos modelos se representan
en forma de grá…cos conectando las diferentes variables aleatorias involu-
cradas. Para dar una muestra de análisis grá…co vamos a considerar el caso
de las variables aleatorias con distribución normal (X1 ; X2 ; X3 ; X4 ) con una
distribución conjunta:
0 1 02 3 2 31
X1 1 11 12 13 14
B X2 C B6 7 6 7C
B C ~N B6 2 7;6 21 22 23 24 7C (4.36)
@ X3 A @4 3
5 4 31 32 33 34
5A
X4 4 41 42 43 44
donde, como antes, denotamos la inversa de la matriz de varianzas-

covarianzas por:
2 3 1 2 3
11 12 13 14 ! 11 ! 12 ! 13 ! 14
6 7 6 ! 21 ! 22 ! 23 ! 24 7
6 21 22 23 24 7 =6 7:
4 31 32 33 34
5 4 ! 31 ! 32 ! 33 ! 34 5
41 42 43 44 ! 41 ! 42 ! 43 ! 44
(i) Modelo 1: ! ij 6= 0, para todo i; j = 1; 2; 3; dependencia completa.
(ii) Modelo 2: ! 13 = 0, X1 condicionalmente independendiente de X3
dada X2 , X4 , ! 12 6= 0; ! 14 6= 0; ! 23 6= 0; ! 24 6= 0; ! 34 6= 0.
(iii) Modelo 3: ! 13 = 0, ! 12 6= 0; ! 14 6= 0; ! 23 6= 0; ! 34 6= 0; ! 24 = 0, X2
condicionalmente independendiente de X4 dados X1 , X3 .
(iv) Modelo 4: ! 13 = 0, ! 24 = 0; ! 12 6= 0; ! 23 6= 0; ! 34 6= 0; ! 14 = 0, X1
(v) Modelo 5: ! 13 = 0, ! 24 = 0; ! 12 6= 0; ! 14 6= 0; ! 23 6= 0; ! 34 = 0; X3
(vi) Modelo 6: ! 13 = 0, ! 24 = 0; ! 14 = 0; ! 34 = 0; ! 12 6= 0; ! 23 6= 0.
5.6 Dependencia y sistema de medida

5.6.1 Escalas de medida y dependencia
Una limitación importante del coe…ciente de correlación, como una medida de
dependencia lineal, es que la linealidad tiene sentido sólo en los casos en que
la variable aleatoria en cuestión toma valores en un sistema de medición tal
como el sistema de intervalo o el de razón. En el caso de variables aleatorias
del tipo nominal u ordinal (véase el capítulo 1 y Spanos (1986), p. 409), la
linealidad no tiene mucho sentido. En el capítulo 1 hablamos de la siguiente
jerarquía de escalas de medición:
(i) razón, (ii) intervalo, (iii) ordinal, (iv) nominal.

5.6. DEPENDENCIA Y SISTEMA DE MEDIDA 245
Como se ha dicho allí, las variables de razón tienen la más rica estructura
matemática seguidas de las variables de intervalo, ordinal y nominal en ese
orden. Los métodos estadísticos diseñados para una categoría de variables no
se aplican necesariamente a las variables de otras categorías. La única regla
general que podemos utilizar como una guía es que un método estadístico
diseñado para una categoría de variables se aplica también a las variables que
pertenecen a una categoría superior, pero no necesariamente a una categoría
inferior. Por ejemplo, un concepto estadístico diseñado para una variable
ordinal es signi…cativo para las variables de intervalo y de razón, pero no
necesariamente para las variables nominales. Para variables nominales, la
única medida de la localización que tiene sentido es la moda y para las
variables ordinales se puede agregar a la mediana. En cuanto a las medidas
de dispersión el rango intercuartil sólo tiene sentido para variables ordinales.
Todo lo que implica la media o la varianza no tiene mucho sentido para las
variables nominales y ordinales.
La medición de la dependencia entre las dos últimas categorías (nominal,
ordinal) de variables aleatorias es algo problemático, ya que no es obvio
lo que la dependencia signi…ca en su contexto. El problema es aún más
serio cuando se mide la dependencia entre las variables de las diferentes
categorías. Estos problemas fueron reconocidos a principios del siglo 20 y se
convirtió en un tema que llevó a enconadas discusiones entre K. Pearson y
Yule. Yule (1900, 1910, 1912) estuvo a favor de diseñar medidas especí…cas
de asociación entre variables discretas utilizando su carácter discreto. K.
Pearson (1910, 1913a, b), por otra parte, favoreció el uso de distribuciones
continuas para la aproximación de la distribución bivariada discreta para las
variables categóricas y usarlas para medir asociación; véase también Heron
(1911). Los argumentos de ambos lados se apasionaron y los que piensan que
la teoría de la probabilidad y la inferencia estadística son temas matemáticos
sin emociones deben leer el siguiente vilipendio de K. Pearson a su ex alumno,
ayudante y compañero de trabajo:
Lamentamos tener que llamar la atención sobre la forma en la que el
Sr. Yule se ha perdido en cada etapa de su tratamiento de la asociación,
pero la crítica de sus métodos ha sido lanzada sobre nosotros no sólo por el
reciente ataque del Señor Yule, sino también por los elogios irre‡exivos que
han sido otorgados a un libro de texto (de Yule), que en muchos puntos sólo
puede conducir a los estudiantes de estadística irremediablemente por el mal
camino. (Pearson
y Heron (1913), p. 310).
Karl Pearson no era ajeno a la controversia y después sufrió mucho a

manos de R. A. Fisher; ver los capítulos 7, 11 y 13.
Figura 6.2 Modelos grá…cos (variables aleatorias continuas).
5.6.2 Dependencia para las variables categóricas

Para variables aleatorias categóricass (ordinales y nominales) el concepto
de linealidad (y por lo tanto de momentos) no tiene mucho sentido y por lo
tanto medir la dependencia lineal con la correlación es inadecuado. La noción
de monotonicidad, sin embargo, en el sentido de que una variable tiende a
aumentar cuando la otra aumenta (concordancia) o tiende a disminuir cuando
la otra disminuye (discordancia), tiene sentido para variables ordinales. La
de…nición de dependencia entre variables nominales no es fácil porque ni
linealidad ni monotonía tienen sentido.
Una de las medidas más utilizadas de asociación (dependencia) entre vari-
ables ordinales (ya veces nominales) es la razón producto cruzado.
Razón producto cruzado
La razón producto cruzado entre dos eventos A y B se de…ne como:
P(A \ B) P(A \ B)
rpc (A; B) = :
P(A \ B) P(A \ B)
En el caso donde los eventos A y B son independientes: rpc = 1 o

In(rpc) = 0.
y=x x1 x2 fY (y)
y1 11 12 1
y2 21 22 2
fX (x) 1 2 1
La fórmula anterior se puede adaptar al caso de una distribución de dos
variables f (x; y) donde la variables aleatorias X y Y son variables ordinales
con sólo dos valores (x1 ; x2 y y1 ; y2 , repectivamente) de la forma dada ante-
riormente. En este caso, la razón producto cruzado se de…ne como la razón
de los productos 22 11 y 12 21 de probabilidades de celdas opuestas diag-
onalmente (de ahí el nombre), es decir,
22 11
rpc(X; Y ) = :
12 21
Utilizando esta medida, decimos que X y Y son independientes si y sólo

si:
In(rpc(X; Y )) = 0:
Q de Yule Q (coe…ciente de asociación)
Una cercanamente relacionada medida de dependencia es la Q de Yule
(en honor del estadista belga Quetelet) de…nida por (ver Yule (1900)):
11 22 12 21
Q= :
11 22 + 12 21
Ejemplos
(i) Considere el caso donde 11 = 0:3; 12 = 0:1; 21 = 0:2 y 22 =
(0:4)(0:3)
0:4. rpc(X; Y ) = (0:1)(0:2) = 6, y teniendo en cuenta el hecho de que
In(rpc(X; Y )) = 1:792, podemos deducir que X y Y no son independientes.
Esto es con…rmado por la Q de Yule:
(0:3) (0:4) (0:1) (0:2)

Q= = 0:07.
(0:3) (0:4) + (0:1) (0:2)
(ii) Considere el caso donde 11 = 0:2; 12 = 0:3; 21 = 0:2 y 22 = 0:3.
En vista de la hecho de que:
(0:3) (0:2)
rpc(X; Y ) = = 1 y In(rpc(X; Y )) = 0
(0:3) (0:2)
podemos concluir que la razón productos cruzado con…rma la indepen-
dencia mostrada en términos de la función de densidad conjunta (véase el
capítulo 4). Esto se ve con…rmado por la Q de Yule:
(0:3) (0:2) (0:3) (0:2)

Q= = 0.
(0:3) (0:2) + (0:3) (0:2)
Coe…ciente Gamma
La Q de Yule se puedeYextender a variables ordinales que tengan más de
dos valores notando que = 11 22 puede ser pensado como una medida
Y c
de concordancia y = 12 21 como una medida de discordancia. Dos
d
variables aleatorias X e Y se dice que son concordantes si la unidad de
mayor jerarquía con respecto a X también jerarquiza más alto con respecto
a Y , y discordantes si la unidad de mayor jerarquía en X jerarquiza inferior
en Y . En el caso donde X toma m valores y Y toma n valores, podemos
utilizar las siguientes medidas:
Y Xm Xn X X
Concordancia : =2 ij hk ;
c i=1 j=1 h>i k>j
Y Xm Xn X X
Discordancia : =2 ij hk :
d i=1 j=1 h>i k<j
Usando estas medidas podemos

Q Q decir que la asociación Q (dependencia)
Q
Q0 y negativa si ( c
entre X y Y es positiva si ( c Q d ) > d ) < 0. Una
versión a escala de la distancia ( c d ) es el llamado coe…ciente Gamma,
introducido por Goodman y Kruskal (1954)), y se de…ne por:
Q Q
( c )
= Q Qd ; donde 1 1:
( c + d)
Al igual que el coe…ciente de correlación, si j j = 1 las dos variables
aleatorias están perfectamente asociadas Además, al igual que el coe…ciente
de correlación, si = 0 las dos variables aleatorias no son necesariamente
independientes. Independencia, sin embargo, implica que = 0.
Ejemplo
Considere la función de densidad conjunta representada en (6.37), donde

X denota el grupo de edad y Y el grupo de ingresos:
X = 1 : (18 35) ; X = 2 : (36 55) ; X = 3 : (36 70) ;
Y = 0 : pobre, Y = 1 : ingreso medio, Y = 2; rico.
ynx 1 2 3 fY (y)
0 0:20 0:10 0:15 0:45
1 0:10 0:25 0:05 0:40 (6.37)
2 0:01 0:06 0:08 0:15
fX (x) 0:31 0:41 0:28 1
Considere la evaluación del coe…ciente de concordancia:
X X
i = 0; j = 1 : 01 hk = 0:20 (0:25 + 0:05 + 0:06 + 0:08) = 0:088;
h>0 k>1
X X
i = 0; j = 2 : 02 hk = 0:10 (0:05 + 0:08) = 0:013;
h>0 k>2
X X
i = 1; j = 1 : 11 hk = 0:10 (0:06 + 0:08) = 0:014;
h>1 k>1
X X
i = 1; j = 2 : 12 hk = 0:25 (0:08) = 0:020:
h>1 k>2
Y
= 2 (0:088 + 0:013 + 0:014 + 0:020) = 0:270:
c
El coe…ciente de discordancia:
X X
i = 0; j = 2 : 02 hk = 010 (0:10 + 0:01) = 0:011;
h>0 k<2
X X
i = 0; j = 3 : 03 hk = 0:15 (0:10 + 0:25 + 0:01 + 0:06) = 0:063;
h>0 k<3
X X
i = 1; j = 2 : 12 hk = 0:25 (0:01) = 0:0025;
h>1 k<2
X X
i = 1; j = 3 : 13 hk = 0:05 (0:01 + 0:06) = 0:0035:
h>1 k<3
Y
= 2 (0:011 + 0:063 + 0:0025 + 0:0035) = 0:160:
d
Por lo tanto,
Q Q
( c ) 0:270 0:160
= Q Qd = = 0:2558;
( c + d) 0:270 + 0:160
es decir, existe una baja dependencia positiva entre ingresos y edad.
5.6.3 Dependencia entre variables nominales

Como se mencionó anteriormente la de…nición de dependencia entre las vari-
ables nominales no es fácil porque ni linealidad ni monotonicidad tienes sen-
tido. La única noción de dependencia que podemos adoptar en este contexto
es en términos de:
¿cómo el conocimiento de la clasi…cación de la variable aleatoria X nos

puede ayudar a conjeturar la clasi…cación de la variable aleatoria Y ?
La incertidumbre de conjeturar la clasi…cación de Y sin la ayuda de

X se mide por la varianza de Y : V ar(Y ). Esta incertidumbre cambia a
V ar(Y jX = x1 ) para un valor especí…co x1 de la variable condicional. Dado
que la variable aleatoria X toma más de un valor, tomamos el promedio de
estos valores de varianza condicional, es decir, E(V ar(Y jX)), llevando a la
medida estandarizada:
V ar (Y ) E(V ar(Y jX)) E(V ar(Y jX))

=1 .
V ar (Y ) V ar (Y )
Esta razón ha sido utilizada por Goodman y Kruskal (1954), en relación
con la tabla de contingencia (densidad bivariado) dada a continuación:
ynx x1 x2 x3 xn fy (y)
y1 11 12 13 1n 1:
y2 21 22 23 2n 2:
y3 31 32 33 3n 3:
ym m1 m2 m3 mn m:
fx (x) :1 :2 :3 :n 1
donde la varianza de Y toma la forma:
X
m X
m
2
V ar (Y ) = k : (1 k :) = 1 k :,
k=1 k=1
y la varianza condicional dado que X = xh es:
X
m
hk
2
V ar (Y jX = xh ) = 1 k :jh, kjh = , h = 1; 2; :::; n.
k=1
:h
!
X
n X
m X
n X
m 2
2 hk
E (V ar (Y jX)) = :h 1 k jh =1 ,
h=1 k=1 h=1 k=1
:h
para sugerir la llamada tau de Goodman y Kruskal (o coe…ciente de con-

centración):
X
n X
m
2 X
m
hk 2
:h k
h=1 k=1 k=1
= .
X
m
2
1 k
k=1
Theil (1950), utiliza una medida alternativa de dispersión basada en la

entropía:
X
m
V (Y ) = k :In k:
k=1
propuso el coe…ciente de incertidumbre:
n X
X m
kh In ( kh = k : :h )
h=1 k=1
U=
X
m
k: In k:
k=1
Ambos, coe…cientes de concentración e incertidumbre son medidas de

dependencia que toman valores entre cero y uno; = 0, U = 0 implica que
las variables aleatorias X; Y son independientes.
A …n de formular medidas necesitamos la noción de condicionalidad in-
troducida en el capítulo siguiente, donde se discuten una serie de medidas
adicionales de dependencia. El principal argumento del próximo capítulo es
que la mejor manera de manejar la dependencia y las funciones de densi-
dad conjunta es a través de la noción de condicionalidad y distribuciones
condicionales.
5.6.4 La distribución de Bernoulli

La distribución de Bernoulli se puede utilizar para modelar tanto variables
ordinales como nominales y el modelador debe decidir cuándo usar las me-
didas para evaluar la dependencia entre variables. La función de densidad
Bernoulli de dos variables toma la forma:
f (x; y) = p (0; 0)(1 y)(1 x)

p (0; 1)(1 y)x
p (1; 0)y(1 x)
p (1; 1)xy , x = 0; 1, y = 0; 1.
con las distribuciones marginales y condicionales siendo otra vez Bernoulli:
fx (x) = [p (0; 0) + p (1; 0)](1 x)

[p (0; 1) + p (1; 1)]x , x = 0; 1,
fy (y) = [p (0; 0) + p (0; 1)](1 y)
[p (1; 0) + p (1; 1)]y , y = 0; 1,
De particular interés es la forma loglineal de la densidad de conjunta que

es:
p (1; 0) p (0; 1) p (1; 1) p (0; 0)

Inf (x; y) = In p (0; 0) + yIn + xIn + xyIn
p (0; 0) p (0; 0) p (1; 0) p (0; 1)
= u0 + yu1 + xu2 + xyu12 , x = 0; 1, y = 0; 1,
en una notación obvia. Esto último es conocido como la expansión de

loglineal y notemos que el término u12 es simplemente el logarítmo de la
razón producto cruzado:
p (1; 1) p (0; 0)
u12 := In (rpc (x; y)) = In .
p (1; 0) p (0; 1)
Cuando u12 = 0 decimos que las variables aleatorias Bernoulli X y Y son
independientes.
Los resultados anteriores se puede extender a la distribución Bernoulli de
tres variables, cuya función de densidad (en analogía directa con la de dos
variables) toma la forma:
f (x; y; z) = p (0; 0; 0)(1 y)(1 x)(1 z)

p (1; 1; 1)xyz , x = 0; 1, y = 0; 1, z = 0; 1.
Su forma loglineal es:

p (1; 0) p (0; 1) p (1; 1) p (0; 0)

Inf (x; y; z) = In p (0; 0) + yIn + xIn + xyIn
p (0; 0) p (0; 0) p (1; 0) p (0; 1)
= u0 + yu1 + xu2 + zu3 + yxu12 + yzu13 + xzu23 + xyzu123 ,
donde, como antes, los us representan términos de interacción:
(rpc (X; ZjY = 1))

u23 := In (rpc (X; ZjY = 0)) ; u123 := In ;
(rpc (X; ZjY = 0))
p (y1 ; 1; 1) p (y1 ; 0; 0)
rpc (X; ZjY = y1 ) = , para y1 = 0; 1.
p (y1 ; 1; 0) p (y1 ; 0; 1)
Usando esta representación podemos de…nir independencia condicional

en términos de los términos u. Las variables aleatorias X y Z son condi-
cionalmente independientes dado Y , denotado por ([X ? Z]jY ), si y sólo
si:
u23 = 0 y u123 = 0,
o de manera equivalente:
rpc (X; ZjY = y1 ) = 1 para y = 0; 1.
Para concluir esta sección es importante señalar que los valores numéricos
de los términos de interacción uij , i; j = 1; 2; 3 y u123 no son de interés
intrínseco; el interés básico se encuentra en lo ellos implica en términos de la
estructura de dependencia entre las variables aleatorias en cuestión. Usando
los modelos grá…cos introducido en la sección anterior podemos ver cómo
ellos identi…can esta estructura de dependencia.
Modelo 1: u123 = 0; uij 6= 0 para i; j = 1; 2; 3.
Modelo 2: u123 = 0; u13 = 0; u23 6= 0; u12 6= 0; ([X ? Z]jY ).
Modelo 3: u123 = 0; u13 = 0; u23 = 0; u12 6= 0; ([X ? Z]jY ); ([Y ? Z]jY ).
Figura 6.3 Modelos grá…cos (variables aleatorias discretas).
NOTE que los nodos en el caso de variables aleatorias discretas no son

ya círculos, sino discos; para más discusión sobre modelos grá…cos véase
Edwards (1995) y Lauritzen (1996).
5.6.5 Dependencia en variables aleatorias mezcladas

(discretas / continuas)
La discusión de la dependencia en este capítulo tiene un punto de enfoque:
la dependencia está inextricablemente ligada a la distribución conjunta de

las variables aleatorias involucradas.
En los casos en que todas las variables aleatorias involucradas son disc-
retas o continuas, no surgen problemas porque podemos usar distribuciones
conjuntas discretas y continuas, respectivamente, para describir la dependen-
cia. Los problemas surgen en el caso donde algunas de las variables aleatorias
son discretas y las otros son continuas y el modelador considera el problema
de la dependencia entre estas variables aleatorias.
Como se ha dicho en el capítulo 4, la función de densidad conjunta de
(X; Y; Z), donde (X; Y ) son variables aleatorias continuas y Z es una vari-
able aleatoria discreta puede ser mejor de…nida indirectamente a través del
producto:
f (x; y; z) = f (x; yjz) fz (z) para todo x; y; z 2 (RX RY RZ )

5.7. DISTRIBUCIONES CONJUNTAS Y DEPENDENCIA 255
Del mismo modo, la función de distribución acumulada conjunta se de…ne

a través de:
X Zx Zy
F (x; y; z) = fz (zk ) = f (x; yjzk ) dudv.
zk z 1 1
Esto sugiere con mayor claridad que en el caso de una mezcla de vari-
ables aleatorias continuas y discretas la estructura de dependencia entre ellas
debe ser mejor acomodada en el contexto de los momentos condicionales de
f (x; yjz). Motivados por esta observación Lauritzen y Wermuth (1989) in-
trodujeron la llamada distribución condicional Gaussiana, que en el caso de
las variables aleatorias (X; Y; Z), la densidad condicional f (x; yjz) toma la
forma:
X 1 (z) 11 (z) 12 (z)

jZ = z ~N ; ; z 2 RZ : (6.38)
Y 2 (z) 21 (z) 22 (z)
Es decir, los momentos de la distribución conjunta de (X; Y ) se supone

que son funciones de la variable condicionante; en el espíritu de las funciones
momento condicionales. Las formas funcionales que deberían ser postuladas
por un modelador para:
i (z) ; ij (z) ; i; j = 1; 2,
no es una cuestión trivial, ya que se re…ere a la parametrización de la
dependencia entre variables de distintas escalas de medición. Cualquiera que
piensa que esto es un juego de niños deben re‡exionar un momento sobre el
problema de la parametrización de la dependencia (posible) entre los ingresos
de la familia y la religión!
5.7 Distribuciones conjuntas y dependencia

Como se sugirió anteriormente, las distribuciones conjuntas constituyen la
forma por excelencia de modelar la dependencia. En este sentido los avances
en la modelación de diferentes tipos de dependencia se basa fundamental-
mente en el desarrollo de tales distribuciones conjuntas. Desafortunada-
mente, el camino de la distribución marginal a las distribuciones conjuntas
es traicionero. Hay un número in…nito de distribuciones conjuntas (multi-

variadas) distribuciones con las mismas distribuciones marginales! En este
sentido no hay manera sistemática (generalmente aplicable) para especi…car
distribuciones multivariadas. Algunos de los intentos más notables para es-
peci…car la distribución bivariada y multivariada se resumen en esta sección.
Los primeros intentos para generar distribuciones conjuntas no Normales
fueron hechos por Karl Pearson a …nales de 1890. Su éxito en la generación
de una familia muy rica de distribuciones de una variable, que hoy llamamos
la familia Pearson, utilizando una ecuación diferencial (véanse los capítulos
4, 13), le animó a tratar de extender el método a dos ecuaciones diferenciales:
@Inf (x; y) h3 (x; y)

= , donde h3 (x; y) , h4 (x; y) son polinomios de tercer y cuarto grado,
@x h4 (x; y)
@Inf (x; y) g3 (x; y)
= , y g4 (x; y) = h4 (x; y) .
@x g4 (x; y)
Resultó ser que, sin restricciones sobre los coe…cientes de los tres poli-
nomios ningún progreso era posible. Progresos importantes a lo largo de estas
líneas fueron hechos por Pretorius (1930) y luego por Van Uven (1947,1948)
quienes simpli…can tales ecuaciones a:
@Inf (x; y) h1 (x; y)

= , donde h1 (x; y) , h1 (x; y) son polinomios de 1 y 2 grado,
@x h2 (x; y)
@Inf (x; y) g1 (x; y) @ 2 Inf (x; y) @ h1 (x; y) @ g1 (x; y)
= , sujeto a = = .
@x g2 (x; y) @x@y @y h2 (x; y) @y g1 (x; y)
Los siguientes casos especiales resultaron ser de especial interés (ver Mar-
dia (1970) para los detalles):
(1) h2 (x; y) y g2 (x; y) no tienen factores comunes (como polinomios),
(2) h2 (x; y) y g2 (x; y) tienen un factor común,
(3) h2 (x; y) y g2 (x; y) son idénticos y
(4) g2 (x; y) es un factor lineal de h2 (x; y).
Caso 1. Nos proporciona las condiciones su…cientes para la independen-
cia entre X y Y ; sin factores comunes implica que:
f (x; y) = fx (x) fy (y) .

Caso 2. Asumiendo que h2 (x; y) = h12 (x; y) l (x; y) y g2 (x; y) =g12 (x; y) l (x; y)
donde todos los polinomios del lado derecho son de grado uno, se produce
una distribución conjunta de la forma general:
f (x; y) = c0 ( x + ) 1 ( y + ) 2 (ax + by + c) 3 .
Esta distribución conjunta incluye la Beta bivariada, Pareto y distribución
F (véase el apéndice B) como casos especiales.
Caso 3. Asumiendo que h2 (x; y) =g2 (x; y), da lugar a una distribución
conjunta de la forma:
m
f (x; y) = c0 ax2 + by 2 + 2 1 xy + 2 2 x + 2 3 y + c .
Esta distribución conjunta incluye la bivariada de Cauchy, la t de Stu-
dent y la distribución de Pearson tipo II (véase el apéndice B) como casos
especiales.
Caso 4. Asumiendo que h2 (x; y) = h12 (x; y) l (x; y) y g2 (x; y) = l (x; y),
da lugar a una distribución conjunta de la forma general:
2y
f (x; y) = c0 ( x + ) 1 e (ax + by + c) 3 .
Esta distribución conjunta incluye la distribución Gamma bivariada (McKay)
(véase el apéndice B) como un caso especial.
Varios otros métodos para generar distribuciones conjuntas, tales como
la expansión bivariada Edgeworth y el método de traducción, resultan ser
sólo de un valor marginal; ver Mardia (1970) para una excelente discusión.
La manera menos efectiva de crear distribuciones conjuntas es tomar combi-
naciones lineales de distribuciones marginales. El primero en proponer este
método fue Ste¤ensen (1922). Asumiendo que las dos variables aleatorias
independientes (Z1 ; Z2 ) tienen densidades marginales f1 (z1 ) y f2 (z2 ), él con-
sideró la distribución conjunta de las transformaciones lineales:
X = a1 Z 1 + b 1 Z 2 + c 1 ; Y = a2 Z 1 + b 2 Z 2 + c 2 .
Considerando el hecho de que la transformación inversa es:
Z1 = X + aY; Z2 = Y + bX,
la densidad conjunta toma la forma general (ver capítulo 11):
f (x; y) = jab 1j f1 (x + ay) f2 (y + bx) .

Esta es la forma más e…caz para generar distribuciones conjuntas porque

por construcción, la única forma de dependencia incorporada en la distribu-
ción conjunta es la de dependencia lineal (correlación). Como se ha dicho
anteriormente, sin embargo, la dependencia lineal que caracteriza la depen-
dencia distribution relacionada con distribución únicamente en el caso de la
distribución normal.
Varias extensiones de este resultado restringido se han sugerido en la lit-
eratura. Para …nes de referencia, resumimos los más importantes de estos
resultados. Sea F (x; y), FX (x) y FX (x) las distribuciones conjunta y mar-
ginales de las variables aleatorias X y Y . Las distribuciones marginales están
dadas y el modelador las combina en una variedad de formas para construir
la distribución conjunta.
1. Frechet (1951):
F (x; y) = max (0; FX (x) ; FY (y) 1)+(1 ) min (FX (x) ; FY (y)) ; 0 1.
2. Morgenstern (1956):
F (x; y) = FX (x) FY (y) [1 + a (1 FX (x)) (1 FY (y))] ; a 2 [ 1; 1] .
3. Gumbel (1960):
( InF (x; y))m = ( InFX (x))m + ( InFY (y))m ; m 1.

4. Plackett (1965): F (x; y) es la solución de la ecuación:
F (x; y) (1 FX (x) FY (y) + F (x; y)) = (FX (x) F (x; y)) (FY (y) F (x; y)) ; > 0.
5. Ali, Mikhail y Haq (1978):
FX (x) FY (y)
F (x; y) = ; a 2 [ 1; 1] .
[1 a (1 FX (x)) (1 FY (y))]
Como podemos ver, la distribución de dos variables en todos estos casos se
construye con un parámetro que conecta las distribuciones marginales. Esto
es claramente de alcance limitado porque la dependencia es ahora capturada
por este único parámetro que es a menudo relacionado con el coe…ciente de
correlación.
El método más e…caz para formular distribuciones conjuntas es por gen-

eralización directa de densidades univariadas en los casos donde la forma
funcional de la función de densidad permite la sustitución de una variable
aleatoria con un vector aleatorio como es el caso de la familia de distribu-
ciones simétricas elípticamente discutidas a continuación. Esto se debe a
que todas las características de las distribuciones univariadas se extienden
naturalmente a la conjunta y la dependencia no se restringe arti…cialmente.
La evaluación de la situación actual por el autor es que debemos centrar
nuestra atención en el desarrollo de nuevas familias paramétricas de distribu-
ciones conjuntas con miras a ampliar los conceptos existentes de dependencia
relacionada con la distribución.
5.7.1 Dependencia y la distribución normal

El primer intento de desarrollar una distribución conjunta con objeto de cap-
tar la dependencia observada en un conjunto particular de datos fue realizado
por Galton (1886) con la ayuda de su amigo matemático Dickson. Es instruc-
tivo referirse a la manera en la que Galton tropezó con la distribución normal
bivariada, porque constituye un ejemplo inicial importante de cómo los pa-
trones en los datos observados pueden ser utilizados para la construcción de
conceptos matemáticos en un intento de modelarlos. Al examinar los datos
observados de la altura medias de los padres (x) y sus descendientes (y),
Galton trazó un diagrama de dispersión (los datos (x1 ; x2 ; :::; xn ) se gra…can
contra (y1 ; y2 ; :::; yn ); véase más adelante) y observó ( por su propia cuenta):
que las líneas trazadas a través de las entradas del mismo valor forman una
serie de elipses concéntricas y similares ... (Galton (1885), p. 255).
Es decir, el diagrama de dispersión de las dos series de datos mostraron
una clara forma elíptica, que en un examen más detallado reveló que al
recoger los puntos de datos con la misma frecuencia relativa ellos formaron
formas elípticas concéntricas. Esta es una notable pieza de trabajo de de-
tective que ejempli…ca la destreza de observación de Galton. Su primera
reacción fue utilizar estas elipses concéntricas con el …n de construir la su-
per…cie de dos variables (la curva de frecuencia conjunta) que está detrás
de ellos. Sabiendo que sus habilidades matemáticas eran inadecuadas para
la tarea él llamó a su amigo Dickson (un matemático de la Universidad de
Cambridge). El resultado, publicado como un apéndice en Galton (1886),
fue la densidad normal de dos variables:
1
2
(1 ) 2
f (x; y; ) = p (6.39)
2 11 22
( !)
2 1 2 2
(1 ) y 1 y 1 x 2 x 2
exp p 2 p p + p (5.1)
2 11 11 22 22
donde los parámetros desconocidos := ( 1 ; 2; 11 ; 22 ; ) están rela-

cionados con los momentos a través de:
1 : = E (Y ) , 2 := E (X)
11 : = V ar (Y ) ; := Corr (X; Y ) ; 22 := V ar (X) .
Utilizando esta distribución bivariada Galton llegó a desarrollar los con-

ceptos de regresión (véase el capítulo siguiente) y de correlación. Como
mostramos en el capítulo 4, las densidades marginal y condicional son tam-
bién normales (pero univariadas por supuesto). Usando la notación para la
distribución normal bivariada, introducida en el capítulo 4:
X 1 11 12
~N ; .
Y 2 21 22
donde el coe…ciente de correlación se puede expresar en forma = p 12

11 22
,
deducimos que:
(a) Y N ( 1 ; 11 ) ; (Y j X = x) N ( 0 + 1 x; 21 ) ;
(b) X N ( 2 ; 22 ) ; (X j Y = y) N ( 0 + 1 x; 22 ) ;
2
2
0 := 1 1 2 ; 1 := 22 ; 1 := 11 ;
12 12
22
2
0:= 2 1 1 ; 1 := 12 11
; 22 := 22 12
11
:
La normal multivariada es, con mucho, la distribución conjunta más uti-
lizada en la modelizaciónempírica. Debido a su papel dominante en la in-
ferencia estadística es importante examinar la estructura de dependencia de
esta distribución con los conceptos desarrollados en las secciones anteriores.
En lo que al orden de la dependencia se re…ere, argumentamos que la forma
más directa de evaluarla es a través de los momentos condicionales. En el
caso de la distribución normal bivariada sabemos que:
(a) E (Y j X = x) = 0 + 1 x;
( )
r 0; para r par,
(b) E [(Y E (Y j X = x)) j X = x] = r! r1 :
(0:5r)!20:5r
; para r impar
En particular, V ar (Y j X = x) = 21 . En vista de las parametrizaciones
involucradas podemos ver que en el caso donde = 0 ( 12 = 0), todos los
momentos condicionales coinciden con los momentos marginales:
(a) E (Y j X = x) j =0 = 1;
( )
0; para r par,
(b) E [(Y E (Y j X = x)r j X = x)] j =0 = r! 0:5r
1
(0:5r)!20:5r
; para r impar
Esto sugiere que cuando el coe…ciente de correlación es cero las dos vari-
ables aleatorias son independientes, es decir:
para X y Y conjuntamente normales, = 0 ) X; Y son independientes.
(ver capítulo 4). Esto es claramente una excepción a la regla general

mencionada en el capítulo 4 que la no correlación no implica independencia.
La intuición detrás de esta excepción es que la única forma de dependencia
que se puede describir utilizando la distribución normal es la dependencia
lineal. En otras palabras, dependencia en el contexto de la distribución
normal conjunta se encapsula en el parámetro coe…ciente de correlación (o
equivalente 12 ).
Desde el punto de vista de la modelizaciónes importante NOTAR la
relación entre el coe…ciente de correlación y la forma de la densidad nor-
mal conjunta. Con el …n de tener alguna idea de cómo cambia la forma con
el valor de , vamos a comparar la densidad conjunta en la …gura 6.4, donde
= 0 con la dada en la …gura 6.5, donde = 0:8. La dependencia toma
la forma de una densidad conjunta "aplastada". Este efecto puede ser visto
fácilmente en los contornos de igual probabilidad insertados (un mapa bivari-
ado de la densidad), que son circulares en el caso = 0 y elipses en el caso
de 6= 0. NOTE que los contornos de igual probabilidad son la contraparte
teórica de la noción de Galton en términos de frecuencia relativa. De los
grá…cos anteriores, es evidente que cuanto más aplastada es la densidad (y
las elipses) mayor la correlación.
Figura 6.4 Densidad normal con = 0.
Figura 6.5 Densidad normal con = 8.
La grá…ca de los contornos de igual probabilidad es de particular interés

en relación con grá…cas de datos reales (ver sección 6) y vale la pena echar un
vistazo más de cerca. Se llaman contornos de igual probabilidad (equiproba-
bilidad) porque toda elipse de la siguiente forma:
!
2 2
y 1 y 1 x 2 x 2
p 2 p p + p = ci , i = 1; 2; :::;
11 11 22 22
(6.40)
representa un conjunto de puntos con la misma probabilidad. Intuiti-
vamente, pueden ser pensados como siendo creados rebenando la super…cie
tridimensional de la densidad, paralela al plano xy a la misma distancia,
por ejemplo (0; 001), (0:02), (0:04); :::; (0; 18), y dibujado la forma exterior
elíptica de las rebanadas comenzando con la más baja fuera de (0:001) y ter-
minando con la más alta (0.18) representando la última rebanada que incluye
el pico. En este sentido, el contorno de las grá…cas de igualdad tiene mucho
en común con las líneas de contorno de los mapas ordinarios representando
una super…cie montañosa tridimensional en un mapa de dos dimensiones. En
ambos casos el mapa surge proyectando las rebanadas de igual elevación de
una super…cie tridimensional sobre un diagrama bidimensional. Al igual que
con las líneas de contorno del mapa, cuanto más cerca de los contornos más
nítida será la elevación.
En las …guras 6.6 y 6.7 se pueden ver los contornos de igual probabilidad
de una densidad normal bivariada con correlación = 0:5 y = 0:5, re-
spectivamente. Observando la grá…ca de los contornos de igual probabilidad
debemos ser capaces de visualizar la super…cie tridimensional. Si compara-
mos la grá…ca de contorno en la …gura 6.6 con la de la …gura 6.7 podemos
ver que son diferentes en términos de su orientación, la pendiente del eje
principal de las elipses en la …gura 6.6 es positiva, mientras la de la …gura
6.7 es negativa.
Figura 6.6 Contornos de la densidad normal con = 0:5.

Figura 6.7 Contornos de la densidad normal con = 0:5.
5.7.2 Dependencia y la familia elípticamente simétrica

Desconocidos por Galton los mismos contornos de equiprobabilidad (6.40) se
pueden utilizar para generar toda una familia de distribuciones simétricas,
conocida como la familia elípticamente simétrica (seeKelker (1970)), que in-

cluye la normal como un caso especial. La forma bivariada de estas distribu-
ciones depende de (a) la forma cuadrática generando las elipses concéntricas
2 2
y 1 y 1 x 2 x 2
l (x; y) = p 2 p p + p ;
11 11 22 22
y (b) del determinante de

X 11 12
:=
12 22
P 2 2
donde det ( ) = 11 22 12 = [(1 ) 11 22 ] :
La forma genérica de esta familia en general se puede escribir como:
X
f (x; y; ) = c0 det h (l (x; y))
donde (:) y h (:) son funciones positivas arbitrarias en el rango RX RY

y c0 una constante normalizada que asegura que f (x; y; ) es una densidad
propiamente, es decir,
ZZ
f (x; y; ) dxdy = 1:
RX RY
Esta familia se puede extender fácilmente al caso de m variables (m > 2)

de…niendo l (:) como:
X Z Z
T 1
l (x1 ; x2 ; :::; xn ) := (x ) (x ); y f (x1 ; x2 ; :::; xm ; ) dx1 dxm = 1;
RX R Y Rm
2 3 0 1
11 12 1m x1 1
X 6 7 B x2 C
6 21 22 2m 7 B 2 C
:= 6 .. .. 7 ; (x ) := B .. C:
4 . . 5 @ . A
m1 m2 mm xm m
Además de la normal, la familia elípticamente simétrica incluye la t de

Student, la Pearson del tipo II y una forma de la distribución logística (véase
Fang et al. (1990)). Por ejemplo, la densidad bivariada de la t de Student
toma la forma:
1
( )
1 2 1
(v ) [(v + 2)] (1 ) 1
[v+2]
f (x; y; ) = 1
p 2
P 1+ [l (x; y)] 2 ; (x; y) 2 R2 :
2
v det ( ) v
Los contornos de misma probabilidad de esta densidad de = 0:5 y

= 0:5 se muestran en las …guras 6.8 y 6.9, respectivamente. Comparando
las …guras 6.6 y 6.8 podemos ver que los contornos de igual probabilidad de
la t de Student están más cercanos entre sí que los de la Normal y el pico de
la primera es mayor que la de esta última. Esto se con…rma por comparación
de la …gura 6.7 con la 6.9.
La diferencia entre las distribuciones t de Student y normal se vuelve
aún más evidente cuando comparamos la …gura 6.10 (normal con = 0:2)
con la …gura 6.11 (t de Student con = 0:2 y v = 5). Como podemos ver
la diferencia principal entre ambas es que la distribución t de Student es
leptocúrtica (kurtosis > 3). Podemos detectar la leptocurtosis observando
las medidas en el eje z (picos de la t de Student en 0:30 y de la normal
en 0:18) y los contornos (los de la t de Student son mucho más cercanos
unos de otros). Para una discusión extensa de la distribución t de Student
multivariada ver Spanos (1994).
La comparación entre las densidades t de Student y normal se hace más
evidente cuando estas dos distribuciones se comparan con otro miembro de
la familia elíptica, la llamada distribución de Pearson tipo II cuya densidad
toma la forma:
P 1
! ( )v
2 1
det ( ) 2 (v + 1) (1 )
f (x; y; ) = 1 [l (x; y)] :
2 (v + 2) 2 (v + 2)
En contraste con la distribución t de Student la de Pearson es platicúrtica

(ver capítulo 3). La densidad bivariada de Pearson tipo II, junto con sus
contornos de equiprobabilidad, se muestran en la …gura 6.12.
Figura 6.8 Contornos de la densidad t de Student con = 0:5.
Figura 6.9 Contornos de la densidad t de Student con = 0:5.

Figura 6.10 Densidad normal bivariada.
Figura 6.11 Densidad t de Studen bivariada.

Figura 6.12 Densidad bivariada Pearson tipo II.
La anterior comparación sugiere que en el caso de la familia elíptica

podemos distinguir entre los distintos miembros sólo mediante un examen
cuidadoso de cómo están hacinados los contornos de equiprobabilidad. En
todos los casos, sin embargo, la correlación se puede evaluar por que tan
aplastados son los contornos elípticos. Sin embargo, una palabra de precau-
ción es: correlación cero no implica independencia para la familia elíptica,
excepto en el caso de la distribución normal. Veamos esto con más detalle.
La pregunta que surge naturalmente en esta etapa se re…ere a la estruc-
tura de dependencia de la familia elípticamente simétrica. El conjunto de
la familia elíptica tiene la misma media condicional, la misma media condi-
cional que encontramos anteriormente en relación a la distribución normal,
pero los momentos condicionales superiores son en general funciones de la
variable condicionante, es decir,
(a) E (Y jX = x) = 0 + 1 x,
0 para r impar,
(b) E [(Y E (Y jX = x))r jX = x] ,
qr (x) para r par.
Por ejemplo, en el caso de la t de Student y Pearson tipo II las varianzas
condicionales (véase el apéndice B) toman la forma:
2
2 v 1 (x 2)
t de Student: V ar (Y jX = x) = 1 v 1
1+ v 22
,
2
Pearson tipo II: V ar (Y jX = x) = 21 2v+31
1 (x 222 ) ,
Este resultado sugiere que en el caso de que = 0 todos los miembros de
la familia elíptica se convierten en independientes de primer orden, pero la
única distribución para la que esto es equivalente a independencia completa
es la normal. Por ejemplo, en el caso de la distribución t de Student:
!
2
v 11 1 (x 2 )
V ar (Y jX = x) j =0 = 1+ ,
v 1 v 22
que es claramente diferente de la varianza marginal, V ar(Y ) = vv 112 .

En este sentido, la distribución t de Student es dependiente de segundo orden
incluso después de imponer la restricción de correlación cero.
5.7.3 Dependencia y las distribuciones sesgadas

Es importante considerar algunas distribuciones conjuntas adicionales que
no son simétricas en forma de campana como lo es la familia elíptica, con el
…n de proporcionar al lector una visión equilibrada de las distribuciones de
dos variables. Desafortunadamente, no hay forma sistemática de presentar

las distribuciones y el lector debe considerar esta sección como una colección
de ejemplos cuyo objetivo básico es proporcionar al lector una imagen menos
distorsionada de la literatura de libros de texto dominada por la Normal.
Densidad logística bivariada
La densidad logística bivariada toma la forma:
n o
y x
2 exp p 1
11
p 2
22
f (x; y; ) = p h n oi ; 2 R2 R2+ ; (x; y) 2 R2 ;
y x
11 22 1 + exp p 1
11
+ exp p 2
22
donde := ( 1 ; 2 ; 11 ; 22 ). En la …gura 6.13 podemos ver la forma es-

tandarizada de esta densidad bivariada con := (0; 0; 1; 1). Como podemos
ver, esta densidad no es simétrica, con contornos que le recuerdan a uno
una hacha paleolítica. Sin embargo, es importante señalar que las densi-
dades marginales son simétricas (siendo logística). Desafortunadamente, la
estructura de dependencia de esta distribución es bastante in‡exible, porque
da lugar a un coe…ciente de correlación constante: := Corr(X; Y ) = 0:5,
independientemente de los valores de .
Para una estructura de correlación más ‡exible esta distribución bivariada
se ha generalizado mediante la introducción de un parámetro adicional para
formar:
h 1
i h 1
i 1
F (x; y; ) = 1 + exp ( x) + exp ( y) :
dando
1
1
:= Corr(X; Y ) = 1 2
; donde 1;
2 2
que incluye el caso anterior como un caso especial con a = 1. Es in-
teresante notar que hay una forma de la distribución logística bivariada que
pertenece a la familia elípticamente simétrica pero no tiene una forma cer-
rada (ver Fang et al. (1990)). Note que la extensión tmultivariada de esta
distribución toma la forma:
" 1
# 1
Xm xk k
f (x1 ; x2 ; :::; xm ; ) = 1 + exp p , 1;
k=1 kk
siendo la logística ordinaria un caso especial con = 1.
Figura 6.13 Densidad logística bivariada (estándar).
que incluye como caso especial el anterior con = 1:

Densidad Gamma bivariada
La distribución gamma bivariada viene en un número de formas diferentes
(véase el apéndice B para tres de estas formas), cada una con su propia
estructura de dependencia. En esta sección vamos a considerar dos de estas
formas.
La densidad Gamma Cherian bivariada toma la forma:
Z min(x;y)
e (x+y) 1 1
f (x; y; ) = ez z 0 1
(x z) 1
(y z) 2
dz; (x; y) 2 R2 ;
( 0) ( 1) ( 2) 0
donde := ( 0 ; 1; 2) 2 R3+ : El coe…ciente de correlación es:
0
:= Corr(X; Y ) = p ; 0< 1:
( 0 + 1) ( 0 + 2)
En las …guras 6.14 - 6.15 podemos ver la densidad bivariada con los con-
tornos insertados para dos conjuntos de parámetros := (1; 3; 3) con = 0:25
y := (8; 3; 3) con = 0:727, respectivamente.
La forma McKay de la densidad bivariada Gamma es la siguiente:
a( 1 + 2 ) ay 1 1
f (x; y; ) = e x 1
(y x) 2
; := (a; 1; 2) 2 R3+ ; (x; y) 2 R2 ;
( 1) ( 2)
con coe…ciente de correlación:

s
1
:= Corr(X; Y ) = p :
( 1 + 2)
En las …guras 6.16-6.17 podemos ver la densidad Gamma bivariada (McKay)

densidad con los contornos insertados para dos conjuntos de parámetros
:= (2; 2; 6) con = 0:5 y := (2; 6; 4) con = 0:775, respectivamente. En
estas …guras, la asimetría es diferente de la de las …guras 6.14-6.15.
Figura 6.14 Densidad Gamma bivariada (Cherian) (1; 3; 3).

Figura 6.15 Densidad Gamma bivariada (Cherian) (8; 3; 3).
Densidad exponencial bivariada

Al igual que en el caso de la distribución Gamma bivariada, la exponencial

bivariada tiene varias formas. La densidad exponencial bivariada de Gumbel
toma la forma:
f (x; y; ) = [(1 + x) (1 + y) ] exp f x y xyg ; 2 R+ ; (x; y) 2 R2+ :
Esta densidad, junto con sus contornos de equiprobabilidad, para dos

diferentes valores de , se muestra en las …guras 6.18 y 6.19. En el caso
de la …gura 6.18 = 0:2 lo que implica un coe…ciente de correlation =
0:148. En el caso de la …gura 6.19 = 0:1 que implica un coe…ciente de
correlación = 0:404. NOTE que esta densidad bivariada da lugar sólo a
una correlación negativa. Una comparación directa entre las dos super…cies y
los contornos de equiprobabilidad sugiere que la mayor correlación se puede
detectar por una mayor concentración de probabilidad en los brazos de la
densidad.
Densidad bivariada F
Esta densidad bivarida F toma la forma:
Y
2
vi0:5vi 0:5v
f (x; y; ) = [0:5v] (v0 + v1 x + v2 y) x0:5v x0:5v1 1 y 0:5v2 1 ; (x; y) 2 R2+ ;
i=0
[0:5vi ]
donde (v0 ; v1 ; v2 ) 2 R3+ ; v = (v0 + v1 + v2 ) : Esta densidad, junto con sus

contornos de equiprobabilidad, para dos diferentes valores de , se muestra en
las …guras 6.20 y 6.21. En el caso de la …gura 6.20 := (v0 = 12; v1 = 8; v2 = 8),
lo que implica un coe…ciente de correlación = 0:444. En el caso de la
…gura 6.21 := (v0 = 5; v1 = 60; v2 = 60), lo que implica un coe…ciente de
correlación = 0:953. Comparando las dos super…cies y sus contornos de
equiprobabilidad podemos ver que cuanto mayor sea la correlación más aplas-
tada es la densidad. Sin embargo, esto debe interpretarse con cautela debido
a que el coe…ciente de correlación no es su…ciente para capturar la estruc-
tura de dependencia de la distribución F (véase la sección siguiente). Con el
…n de obtener una imagen más completa considerar otras dos formas de la
distribución bivariada F en las …guras 6.22 y 6.23 cuyas correlaciones no son
muy diferentes, pero los parámetros son := (v0 = 80; v1 = 4; v2 = 2), con
coe…ciente de correlación = 0:035 y := (v0 = 200; v1 = 20; v2 = 20), con
correlación = 0:092. NOTE que en el caso de que la correlación es cero la F
bivariada se parece a la exponencial bivariada sin la curvatura hacia adentro.
Figura 6.16 Densidad Gamma bivariada (McKay) (2; 2; 6).
Figura 6.17 Densidad Gamma bivariada (McKay) (2; 6; 4).
Figura 6.18 Exponencial Gumbel bivariada = 0:2.

Figura 6.19 Exponencial Gumbel bivariada = 1:0.
Figura 6.20 Densidad F bivariada := (12; 8; 8).
Figura 6.21 Densidad F bivariada := (5; 60; 60).

5.8. DE LOS CONCEPTOS PROBABILÍSTICOS A LOS DATOS OBSERVADOS275
Densidad bivariada Beta

Al igual que en el caso de la exponencial de dos variables, hay varias
distribuciones conjuntas llamadas Beta. La densidad Filón-Isserlis Beta
bivariada toma la forma:
(v1 ; v2 ; v3 )
f (x; y; ) = y v 1 1 x v2 1
(1 x y)v3 1
,x 0; y 0; x+y 1.
(v1 ) (v2 ) (v3 )
donde (v1 ; v2 ; v3 ) 2 R3+ . Esta densidad, junto con sus contornos de
equiprobabilidad, para dos diferentes valores de , se muestra en las …g-
uras 6.24 y 6.25. En el caso de la …gura 6.24 la densidad bivariada tiene
valores de los parámetros := (v1 = 3; v2 = 3; v3 = 6), lo que supone un co-
e…ciente de correlación = 0:333. En el caso de la …gura 6.25 la densidad
bivariada := (v1 = 6; v2 = 6; v3 = 8), lo que supone un coe…ciente de cor-
relación = 0:429. La comparación de las dos super…cies sobre la base
del coe…ciente de correlación no es tan buena idea en este caso debido a que
la distribución exhibe una gran ‡exibilidad y la correlación por sí misma no
proporciona una guía con…able.
En la discusión anterior de dependencia en el contexto de distribuciones
bivariadas no simétricas se utilizó el coe…ciente de correlación con el …n de
explorar cómo cambian estas densidades cuando cambia la dependencia. Esto
es claramente insatisfactorio porque sabemos que el coe…ciente de correlación
mide sólo dependencia de primer orden. Está claro que necesitamos un án-
gulo de visión más general con el …n de evaluar la estructura de dependencia
de las diferentes distribuciones conjuntas. Como una extensión del coe…ciente
de correlación podríamos considerar el uso de los primeros momentos condi-
cionales, por decir hasta orden cuatro, con el …n de obtener una imagen más
completa de la estructura de la dependencia. Esto se tratará más adelante en
el siguiente capítulo en relación con algunas pocas funciones condicionales.
5.8 De los conceptos probabilísticos a los datos

observados
5.8.1 Generación de números pseudo aleatorios*
Las técnicas para generar números pseudo aleatorios introducidas en el capí-
tulo 5 se pueden extender a las distribuciones conjuntas. En el caso de
varibles aleatorias Independientes e Idénticamente Distribuidas la extensión

es trivial porque la relación:
IID
Y
n
f (x1 ; x2 ; :::; xn ) = f (xk ) para todo x 2 Rn .
k=1
sugiere que la generación de números pseudo aleatorios para la distribu-

ción conjunta del vector aleatorio X := (X1 ; X2 ; :::; Xn ) se puede hacer para
cada variable aleatoria Xk por separado. Las cosas no son apreciablemente
más complicadas en el caso de que (X1 ; X2 ; :::; Xn ) sean Independientes, pero
no Idénticamente Distribuidas ya que:
I, no IID
Y
n
f (x1 ; x2 ; :::; xn ) = fk (xk ) para todo x 2 Rn .
k=1
Esto sugiere que, al menos teóricamente, la heterogeneidad se puede

manejar sin di…cultades insuperables. Las cosas se vuelven mucho más com-
plicadas en el caso de que (X1 ; X2 ; :::; Xn ) sean dependientes debido a que el
sistema generador tiene que manejar las dependencias entre estas variables
aleatorias. En esta sección vamos a considerar varios métodos para generar
números pseudo aleatorios para un vector aleatorio X := (X1 ; X2 ; :::; Xn ).
Figura 6.22 Densidad bivariada F con := (80; 4:2).

Figura 6.23 Densidad bivariada F con := (200; 20; 20).
Figura 6.24 Densidad bivariada Beta con := (3; 3; 6).
Figura 6.24 Densidad bivariada Beta con := (6; 6; 8).

La aproximación de distribución condicional

En la sección 2 anterior se argumentó que en el caso donde (X1 ; X2 ; :::; Xn )
no son ni Independientes ni Idénticamente Distribuidas la única reducción
posible a un producto de distribuciones univariadas es la derivada por condi-
cionamiento secuencial y toma la forma (6.9) que, al simpli…carse haciendo
caso omiso de los parámetros desconocidos, es:
no IID
Y
n
f (x1 ; x2 ; :::; xn ) = f1 (x1 ) fk (xk jxk 1 ; xk 2 ; :::; 1) para todo x 2 Rn .
k=2
(6.41)
Esta reducción sugiere que la generación de números pseudo aleatorios
para el vector aleatorio (X1 ; X2 ; ::; Xn ) equivale a usar distribuciones uni-
variadas de forma secuencial:
1. Generar las observaciones para X1 usando la distribución marginal
f1 (x1 ).
2. Generar las observaciones para X2 usando la distribución condicional
f2 (x2 jx1 ) dado X1 = x1 .
3. Generar las observaciones para X3 usando la distribución condicional
f3 (x3 jx2 ; x1 ) dado X2 = x2 , X1 = x1 .
..
.
n. Generar las observaciones para Xn usando la distribución condicional
fn (xn jxn 1 ; :::; x1 ), dado Xn 1 = xn 1 ; Xn 2 = xn 2 ; :::; X2 = x2 y X1 = x1 .
La implementación de este resultado requiere que el modelador especi…que
explícitamente estas fda condicionales.
Ejemplo
Considere el caso n = 2 donde la función de densidad conjunta toma la
forma:
f (x; y) = exp fc ax by + xyg , a > 0; b > 0; 0; (x; y) 2 R2+

Las correspondientes densidades marginales y condicionales toman la
forma (cf. Arnold et al (1992)):
Z 1 1
abe ax z 1
fX (x) = h , x > 0 donde h (u) = e (1 + uz) dz
ab b x 0
(b x)y
f (yjx) = (b x) e ,y>0:
Esto sugiere que el modelador puede generar números pseudo aleatorios

para X usando el método de rechazo (véase el capítulo 5.7) y luego proceder
a utilizar los valores simulados de X para generar Y utilizando el método
de la función de distribución inversa (véase el capítulo 5.7) a través de la
densidad condicional f (yjx). En términos de las funciones de distribución
acumulativa (fda) la reducción (6.41) toma la forma:
no IID
Y
n
F (x1 ; x2 ; :::; xn ) = F1 (x1 ) Fk (xk jxk 1 ; xk 2 ; :::; 1) para todo x 2 Rn .
k=2
Utilizando este resultado Rosenblatt (1952) extendió la transformación in-

tegral de probabilidad (véase el capítulo 4) para el caso de un vector aleatorio
de la siguiente manera.
Transformación integral de probabilidad condicional. Sea (X1 ; X2 ; ::; Xn )
un vector aleatorio continuo con función de distribución conjunta F (x1 ; x2 ; ::; xn ),
entonces las n variables aleatorias de…nidas por:
Z1 := F1 (X1 ) ; Z2 := F2 (X2 jX1 ) ; Z3 := F3 (X3 jX2 ; X1 ) ; :::; Zn := Fn (Xn jXn 1 ; :::; X1 )
son variables aleatorias IID distribuidas uniformemente, es decir:
Z1 = F1 (X1 ) ~U (0; 1) ; Zk := Fk (Xk jXk 1 ; Xk 2 ; :::; X1 ) ~U (0; 1) ; k = 2; 3; :::; n.
Rosenblatt sugirió el uso de números pseudo aleatorios a partir de un

vector aleatorio de variables aleatoria IID uniformes a través del uso de las
transformaciones inversas:
Xk := Fk 1 (Zk ) ; k = 1; 2; :::; n
generar los números pseudo aleatorios para el vector aleatorio (X1 ; X2 ; ::; Xn ).
Ejemplo
Considere el caso n = 2 donde la función de densidad conjunta toma la
forma:
f (x; y) = exp f yg , x < y; (x; y) 2 R2+

Las correspondientes densidades marginales y condicionales toman la
forma
FX (X) = 1 exp ( x) ; x > 0; F (yjx) = 1 exp (x y) ; 0 < x < y < 1.
La transformación integral de probabilidad condicional sugiere que:
Z1 := FX (X) = 1 exp ( X) ~U (0; 1)

0 < X < Y < 1.
Z2 := F (Y jX) = 1 exp (X Y ) ~U (0; 1)
El método de distribución de la función inversa puede ser fácilmente uti-
lizado en el presente caso para generar números pseudo aleatorios para el
vector aleatorio (X; Y ). Este resultado se puede veri…car directamente con
el siguiente lema (ver Devroye (1986)).
Lema. Sea (Z1 ; Z2 ) uniforme bivariado con densidad conjunta g(z1 ; z2 ).
Sean f1 y f2 dos funciones marginales preespeci…cadas con las fda correspon-
dientes F1 y F2 . Entonces, la densidad conjunta de (X; Y ) := F1 1 (Z1 ) ; F2 1 (Z2 ) ,
toma la forma:
f (x; y) = f1 (x) f2 (y) g (F1 (x) F2 (y))

Por el contrario, si el vector aleatorio (X; Y ) tiene densidad conjunta
f (x; y) como la dada anteriormente, entonces, (f1 ; f2 ) son las funciones de
densidad marginales de X e Y , respectivamente. Además, (Z1 ; Z2 ) = (F1 (x) F2 (y))
es un vector de dos variables aleatorias con densidad conjunta:
f F1 1 (Z1 ) ; F2 1 (Z2 )
g (z1 ; z2 ) = ; z1 2 [0; 1] ; z2 2 [0; 1]
f1 F1 1 (Z1 ) f2 F2 1 (Z2 )
que es una densidad uniforme de dos variables.
El método de rechazo
El método de rechazo para generar números pseudo aleatorios en el caso
de las distribuciones univariadas se encontró en el capítulo 5.7. En teoría, este
método se puede extender al caso de un vector aleatorio X sin ninguna di…cul-
tad. En la práctica, sin embargo, varias trampas esperan a los desprevenidos;
ver Devroye (1986) y Johnson (1987). El resultado básico fundamental de
este método es el siguiente.
Lema del método de rechazo. Sea f (x) la función de densidad con-
junta del vector aleatorio X. Supongamos que f (x) se puede representar en
la forma:
f (x) = c h (x) g (x) , donde c > 1, 0 < h (x) < 1 y g (x) 0, h (x) 2 RnX
Sea Z~N (0; 1) y Y un vector aleatorio con densidad conjunta g (y); Y y
Z independientes. Entonces la distribución condicional de Y dado Z g (y)
coincide con la distribución de X, es decir,
F (yjZ g (y)) = F (x) :

El método función de dependencia
Un método prometedor para la generación de números pseudo-aleatorios,
que aún no se ha explorado, podría basarse en la función de dependencia (ver
Castillo (1988)).
Función de dependencia. Sea F (x; y) la fda de las variables aleatorias
(x; y) con fda marginales FX (x) y FY (y). La función de la dependencia se
de…ne como la transformación que mapea las fda marginales uniforme en una
fda conjunta:
d (FX (x) ; FY (y)) = F (x; y) ; (x; y) 2 RX RY , donde d (:; :) : [0; 1]2 ! [0; 1]:
(6.42)
En el caso donde F (x; y) es una fda continua con fda marginales univari-
adas (FX (:) ; FY (:)) y funciones cuantil FX 1 (:) ; FY 1 (:) , entonces:
d (z1 ; z2 ) = F FX 1 (z1 ) ; FY 1 (z2 ) = (z1 ; z2 ) 2 R1 R2 . (6.43)

La función de la dependencia constituye un medio importante para aislar
la estructura de dependencia de variables aleatorias distribuidas conjunta-
mente.
Podemos utilizar esta última forma de la función de dependencia a …n
de obtener una idea adicional. En el capítulo 3 nos encontramos con la
transformación integral de probabilidad que establece que para cualesquiera
fda continuas FX (:) ; FY (:), las variables aleatorias Z1 = FX (x) y Z2 =
FY (y) se distribuyen uniformemente, es decir,
Z1 = FX (x) ~U (0; 1) , Z2 = FY (y) ~U (0; 1) ,

y la inversa de la transformación integral de probabilidad que garantiza
que
FX 1 (z1 ) ~FX (:) , FY 1 (z2 ) ~FY (:) .

Por lo tanto, podemos ver la función de dependencia en (6.43) como
un mapeo mixto de variables aleatorias (independientes) uniformemente dis-
tribuidas que dan lugar a variables aleatorias dependientes con fda F (x; y).
Por lo tanto, dada la función de dependencia el modelador puede utilizar
números uniformes pseudo-aleatorios para generar números para el vector
aleatorio (X; Y ).
Ejemplos (ver Castillo (1988))
(i) Considere la distribución exponencial Gumbel cuya fda toma la forma:
F (x; y) = exp ( x y + xy) + 1 exp ( x) exp ( y)

En vista del hecho de que la transformación integral inversa de la fda
FX (x) = 1 exp ( x) es FX 1 (z1 ) = In (1 z1 )

podemos mostra que
d (z1 ; z2 ) = F ( In (1 z1 ) ; In (1 z2 ))
= exp [In (1 z1 ) + In (1 z2 ) + In (1 z1 ) In (1 z2 )]
1 + z1 + z2
la función de dependencia es
d (x; y) = (1 x) (1 y) exp [ In (1 z1 ) In (1 z2 )] 1 + x + y:
(ii) Consideremos la distribución exponencial Mardia cuya función de

distribución toma la forma:
1
F (x; y) = [exp (x) + exp (y) 1] +1 exp ( x) exp ( y) :
Una vez más, utilizando la misma transformación integral inversa de prob-

abilidad podemos demostrar que:
d (z1 ; z2 ) = F ( In (1 z1 ) ; In (1 z2 ))
1
1 1
= + 1 +1 (1 z1 ) (1 z2 )
z1 1 z2 1
1
1 1
= + 1 1 + z1 + z2
z1 1 z1 1
Por lo tanto, la función de dependencia es:
1
1 1
d (x; y) = + 1 1 + x + y:
x1 1 x2 1
5.8.2 Una representación grá…ca: el diagrama de dis-

persión
En el capítulo anterior hemos introducido la representación grá…ca de una
grá…ca de tiempo y otras representaciones grá…cas relacionadas de los
datos observacionales, tales como el histograma y el histograma suavizado,
para proporcionar un vínculo entre los conceptos teóricos y los datos reales.
En esta sección llevamos la historia un paso más allá mediante la introducción
de otra importante representación grá…ca que puede establecer una relación
entre las nociones probabilísticas de densidad conjunta y dependencia y los
datos observados. Esto se conoce como el diagrama de dispersión (o cross-
plot) y sus raíces se remontan a la mitad del sigulo XIX. Un diagrama de
dispersión es una representación grá…ca de dos dimensiones de la forma
diagrama de dispersión: f(xt ; yt ) ; t = 1; 2; :::; T g :

Figura 6.26. Datos normales bivariados simulados con ( = 0)
donde el eje y representa el rango de valores de la variable aleatoria Yt

y el eje X representa el rango de valores de la variable aleatoria Xt . En
las …guras 6.26 y 6.27 podemos ver dos de esas grá…cas de dispersión de
datos bivariados IID normales simulados. Como podemos ver, la …gura 6.26
muestra una cierta forma circular con el número de observaciones cada vez
mayor conforme se avanza desde la periferia hacia el centro de la forma
circular. La …gura 6.27 exhibe una forma elíptica, con la misma tendencia
para el número de observaciones a aumentar a medida que se pasa de las
colas al eje principal de la forma elíptica. Resulta que la única diferencia
entre las dos grá…cas es el coe…ciente de correlación que es = 0 para la
…gura 6.26 y = 0:8 para la …gura 6.27.
La clave para relacionar esas grá…cas de datos con el concepto teórico
de función de densidad conjunta nos fue dada por Galton (1886) que fue
capaz de unir los puntos de igual frecuencia en curvas elípticas y entonces
derivar la densidad misma. Con las técnicas grá…cas de hoy en día podemos
formalizar el procedimiento de Galton y hacer las distinciones necesarias
entre los conceptos teóricos y sus contrapartes empíricas.
Figura 6.26. Datos normales bivariados simulados con ( = 0:8)
Estereograma suavizado. Al igual que en el caso de una única serie de

datos discutido en el capítulo 5, el primer paso para relacionar el diagrama
de dispersión en la …gura 6.26 con una función de densidad de densidad
conjunta teórica es construir el histograma de dos dimensiones, llamado es-
tereograma por Pearson, y luego suavizarlo. La suavización más utilizada
es una extensión del kernel de una dimensión discutido en el capítulo 5. Un

kernel suavizado de un histograma toma la forma:
Z
1 Xn xk x
b h (x) =
g K ; h > 0; K (z) 0; K (z) dz = 1;
nh k=1 h z2Rz
donde K (:) es el kernel; para ejemplos de este kernel veáse el capítulo 5.

El kernel más utilizado es el que se basa en la densidad normal produciendo
el histograma suavizado:
( )
1 Xn 1 xk x
2
1
b h (x) =
g p exp ;h ' (1:06) n 5 :
nh 2 k=1 2 h
La forma más simple del estereograma alisado extiende este a:
1 Xn Xn xi x yj x
b h (x; y) =
g K ; h > 0;
nh j=1 i=1 h h
donde el kernel toma la forma (Cacoullos, 1966):
Z Z
K (x; y) 0; K (x; y) dxdy = 1.
x2RX y2RY
Las formas más generales de kernels suavizado permite anchos de banda
diferentes y / o de correlación (ver Silverman (1986)). El estereograma
suavizado de los datos en la …gura 6.26 se muestra en la …gura 6.28. Esto
puede ser comparado con la densidad normal bivariada teórica con = 0,
que se muestra en la …gura 6.29. Como podemos ver, el estereograma alisado
es muy similar a la super…cie teórica.
Figura 6.28. Estereograma suavizado de datos normales simulados con

( = 0)
Figura 6.29. Datos normales bivariados con ( = 0)

Contornos. El segundo paso es evaluar qué tan buena aproximación es el
estereograma suavizado a la función de densidad bivariada. Esta evaluación
puede hacerse en términos de los contornos de estas dos super…cies. En
la …gura 6.30 podemos ver los contornos del estereograma suavizado y en la
…gura 6.31 los mismos contornos se superponen con los de la densidad normal
bivariada ( = 0).
Como podemos ver, esta superposición proporciona una representación
grá…ca donde las diferencias entre la densidad bivariada y su contraparte
empírica puede ser fácilmente evaluada a diferentes alturas. En este ejemplo,
es evidente que las dos están muy cerca para la mayoría de las alturas, excepto
la parte superior donde se detecta una cierta diferencia. Para el principiante
notemos que estas pequeñas (pero insigni…cantes) diferencias son la regla y
no la excepción en la modelación empírica, así que no espere que las dos
coincidan!
Este ejercicio se repite para el diagrama de dispersión en la …gura 6.27.
En las …guras 6.32-6.33 podemos ver el estereograma suavizado y la densidad
normal bivariada con ( = 0:8), respectivamente. Un vistazo a estas grá…-
cas sugiere que esta última es una buena aproximación del primero. Esta
conclusión se ve con…rmada por la grá…ca de los contornos del estereograma
suavizado en la …gura 6.34 que se superponen con los de la densidad bivariada
con ( = 0:8), que se muestra en la …gura 6.35.
Una comparación entre las …guras 6.26 y 6.28 a 6.31 por un lado, y las
…gura 6.27 y 6.32 a 6.35, por otro lado, puede ser utilizada como un marco
de referencia en el contexto del cual el modelador puede evaluar la dependen-

cia en datos IID Normales (donde I se re…ere a la independencia temporal).
Quizás la mejor manera de resumir los dos grupos de grá…cas es la super-
posición de los contornos del estereograma suavizado con el diagrama de
dispersión. En cifras 6.36 y 6.37 podemos ver estas dos grá…cas para los
datos simulados de una normal bivariada con diferente correlación.
La forma elíptica, junto con la creciente concentración de los puntos del
diagrama de dispersión cuando el ojo se mueve hacia la intersección de los
dos ejes principales, apuntan hacia la hipótesis de normalidad y el grado de
excentricidad de la forma elíptica (cómo se ve aplastado) indica el nivel de
correlación.
La discusión en la sección anterior, sin embargo, sugirió que la forma elíp-
tica del diagrama de dispersión no es una característica únicamente de la Nor-
mal sino una característica de toda una familia de distribuciones conjuntas
que llamamos elípticamente simétricas. Para ilustrar este punto, volvamos a
los datos de la tasa de cambio Cánada/EEUU introducidos en el capítulo 1 y
discutidos en el capítulo 5 en relación con sus características distribucionales.
En el capítulo 1 observamos los patrones de regularidad aleatoria exhibidos
por la grá…ca de tiempo de estos datos, incluyendo la simetría en forma de
campana. La conclusión preliminar en el capítulo 5, basada en las grá…cas
P-P normalizadas, era que los datos presentaban una simetría en forma de
campana cercana a la distribución t de Student con 4 grados de libertad en
lugar de la distribución normal. Además, a primera vista los datos no pare-
cen presentar ninguna dependencia temporal signi…cativa de primer orden o
cualquier heterogeneidad.
Figura 6.30 Contornos de estereograma suavizado

de datos normales simulados ( = 0)
Figura 6.31 Estereograma suavizado y contornos normales ( = 0)

Figura 6.32 Estereograma suavizado y datos normales simulados ( = 0:8)
Figura 6.33. Densidad normal bivariada con ( = 0:8)

Figura 6.34. Contornos de estereograma suavizado

de datos normales simulados ( = 0:8)
Figura 6.35 Estereograma suavizado y contornos normales ( = 0:8)


y diagrama de dispersión de datos normales ( = 0)

y diagrama de dispersión de datos normales ( = 0:8)
Figura 6.38 Diagrama de dispersión (xt ; xt 1 ) de los datos de la tasa de

cambio
En este capítulo se procede a examinar la cuestión de la dependencia

temporal de la distribución relacionada. A pesar de la importancia de la dis-
tinción entre la dependencia contemporáneas y temporal en el contexto de la
modelación, en relación con la evaluación de la dependencia de la distribu-
ción relacionada, la distinción es sólo una cuestión de notación. Usando la
distribución conjunta apropiada podemos discutir la dependencia relacionada
con la distribución f (xt ; yt ) con la misma facilidad que la de f (xt ; xt 1 ); la

diferencia es sólo de notación. En el contexto actual, podemos utilizar el
diagrama de dispersión:
f(xt ; yt ) ; t = 1; 2; :::; T g
mostrado en la …gura 6.38, para evaluar la dependencia temporal entre

elementos sucesivos del proceso estocástico fXt g1 t=1 . El diagrama de dis-
persión muestra una clara forma elíptica (casi circular) con la concentración
de observaciones cada vez mayor a medida que avanzamos hacia el centro
de esta forma elíptica. Con el ojo de nuestra mente podemos visualizar la
super…cie de dos dimensiones (estereograma) sugerido por esta grá…ca. Ya
que el número de observaciones aumenta movimiéndose hacia el centro de
la forma elíptica, el correspondientes estereograma aumenta en altura. El
stereograma suavizado se grá…ca en la …gura 6.39 y representa los datos de
manera similar a la super…cie de dos dimensiones que representa la función
de densidad. Observando esta grá…ca podemos decir que está muy cerca de
la densidad teórica bivariada para la distribución de la t de Student.
Figura 6.39 Estereograma suavizado/contornos de los datos de la tasa de

cambio.
En la …gura 6.39 podemos ver también las correspondientes densidades

marginales suavizadas, así como los contornos insertados en el margen dere-
cho. La …gura 6.39 con…rma que la t de Student bivariada constituye un
supuesto de distribución mucho más apropiado que la normal debido a que
un vistazo a las …guras 6.10 y 6.11, que representan a esas densidades bivari-
adas, sugieren más claramente que la densidad bivariada suavizada de estos
datos está más cerca de la densidad mostrada en la Figura 6.11 que a la de la
…gura 6.10; es importante tener en cuenta las medidas en el eje vertical. Esto
se con…rma en la …gura 6.40, donde los contornos del estereograma suavizado
en la …gura 6.39 se superponen a los de la densidad t de Student bivariada
con 4 grados de libertad.
La correlación (dependencia de primer orden) entre Xt y Xt 1 no parece
ser signi…cativa debido a que las formas elípticas son cercanas a círculos.
Cabe señalar que la correlación cero en este contexto no signi…ca que el
proceso estocástico fXt g1
t=1 sea temporalmente independiente. Como hemos
dicho anteriormente, no correlación no implica independencia en el caso de
la distribución t de Student. Para una evaluación más precisa, sin embargo,
tenemos que aplicar procedimientos adecuados de prueba (véase el capítulo
15).
A …n de garantizar que las conclusiones sobre la dependencia de la dis-
tribución relacionada sobre la base del diagrama de dispersión f(xt ; xt 1 ) ; t = 1; 2; :::; T g,
son de hecho válido para el proceso estocástico fXt g1t=1 , tenemos que consid-
erar los diagramas de dispersión adicionales de la forma:
f(xt ; xt k ) ; k 2; t = 1; 2; :::; T g :
Figura 6.40 Estereograma suavizado (xt ; xt 1 ) y contornos t de Student

(v = 4).
Con …nes ilustrativos consideremos el diagrama de dispersión en el caso

de k = 2 en la …gura 6.42 y el correspondiente estereograma suavizado en
la …gura 6.43; podemos asegurar al lector que las grá…cas adicionales para
valores k > 2 son muy similares. Como podemos ver, estas dos representa-
ciones grá…cas con…rman las conclusiones obtenidas con base en las grá…cas
6.38 a 6.40. Esto se ve reforzado por la …gura 6.41, donde los contornos de
la estereograma suavizado en la …gura 6.43 se superponen a los de densidad
de la t de Student bivariada con 4 grados de libertad.
En la sección anterior hemos discutido la importancia de superar la in-
debida in‡uencia de la distribución normal en la modelizaciónempírica. El
ejemplo empírico anterior lleva al modelador un paso más allá de la dis-
tribución Normal y a la familia elíptica. Otros pasos son necesarios, sin
embargo, con el …n de escaparse del hechizo de la Normalidad. Con esto
en mente vamos a considerar algunos diagramas de dispersión adicionales de
datos simulados a partir de distribuciones asimétricas con el …n de garantizar
que el lector no concluya este capítulo con la impresión errónea de que los
diagramas de dispersión aparecen como formas simétricas elípticas.
Figura 6.41 Estereograma suavizado (xt ; xt 2 ) y contornos t de Student
(v = 4).
La distribución bivariada no simétricas que consideramos en primer lu-
gar es la distribución Gamma (Cherian). Elegimos los parámetros de tal
manera que generemos una distribución casi simétrica en un intento por ilus-
trar algunas de las formas más sutiles de la asimetría. En la …gura 6.44
podemos ver un diagrama de dispersión de una distribución gamma bivari-
ada con parámetros ( 0 = 2; 1 = 16; 2 = 16), que implica un coe…ciente de
correlación = 0:111; NOTE que la forma Cherian de la distribución gamma
bivariada sólo permite correlación positiva. Figura 6.45 muestra los contornos
de la correspondiente densidad teórica, que presentan una asimetría en forma

de huevo con la yema (la moda) más cerca del extremo más puntiagudo apun-
tando hacia el origen.
La asimetría del diagrama de dispersión no es tan evidente, pero un ex-
amen detallado del diagrama de dispersión de los datos en la …gura 6.44,
en conjunción con los contornos de la densidad teórica que se muestra en la
…gura 6.45 pone de mani…esto la relación de asimetría.
En relación al diagrama de dispersión en la …gura 6.44 vale la pena señalar
que si el modelador decide declarar algunas de las observaciones en las colas
como valores atípicos, la asimetría expuesta podría muy fácilmente perderse
y con ella la información que conduciría directamente al modelador hacie la
distribución correcta.
Figura 6.42 Diagrama de dispersión (xt ; xt 2 ) de los datos de la tasa de

cambio.
Figura 6.43 Estereograma suavizado/contornos de los datos de la tasa de

cambio.
Figura 6.44 Datos simulados: Gamma (Cherian) ( 0 = 2; 1 = 16; 2 = 16).
Figura 6.45 Contornos de una densidad Gamma (Cherian)

( 0 = 2; 1 = 16; 2 = 16).
La misma asimetría en forma de huevo se exhibe en las …guras 6.46-

6.47, donde el coe…ciente de correlación es = 0:5. Al igual que en el caso
de la distribución normal, la alta correlación se visualizada como contornos
aplastados.
En las …guras 6.48-6.49 la correlación aumenta a = 0:8 y la compresión
de los contornos aumenta.
Como ejemplo de una distribución muy sesgada consideramos diagramas
de dispersión de datos simulados de la distribución exponencial (Gumbel)
con correlación, = 0:01 y = 0:36, en las …guras 6.50-6.51, respectiva-
mente. Estos diagramas de dispersión corresponden aproximadamente a las
densidades bivariadas mostradas en las …guras 6.18-6.19, respectivamente.
Como podemos ver, la correlación negativa en una distribución Gumbel ex-

ponencial es exhibida por la concentración de las observaciones a lo largo de
los ejes en forma de cola de pez. Aunque la exponencial bivariada Gumbel no
permite la correlación positiva, otras formas permiten una gama completa de
correlationes 1 1 (ver Devroye (1986)). En la …gura 6.52 podemos
ver un diagrama de dispersión de los datos simulados de una exponencial no
Gumbel con correlación positiva = 0:36. La dependencia positiva se visu-
aliza en la …gura 6.52 como acercándose a la forma triangular en la …gura
6.50. Esto se hace más evidente en la …gura 6.53, donde la correlación se ha
incrementado a = 0:9 induciendo una forma similar a un cometa para el
diagrama de dispersión.
Concluimos esta sección haciendo hincapié una vez más que las grá…cas
anteriores son sólo de carácter indicativo y constituyen sólo la punta del
iceberg en términos de la variedad de formas y patrones que uno debería
esperar en la modelación con datos reales. Es altamente recomendable que
el lector genere diagramas de dispersión y las correspondientes densidades
suavizadas con el …n de apreciar la riqueza de la información que tales grá…cas
pueden proporcionar.
UNA NOTA DE PRECAUCIÓN. En esta sección discutimos el problema

de relacionar el diagrama de dispersión de la serie de datos f(xt ; yt ) ; t = 1; 2; :::; T g
con la estructura de la distribución de la densidad de dos variables f (x; y),
(x; y) 2 RX RY . Yendo a tres series de datos, el diagrama de dispersión se
convierte en una nube de dispersión y se plantean algunos problemas en la
rotación de la nube para obtener una visión más …able. Cuando el modelador
intenta relacionar la nube de dispersión para la distribución conjunta, él / ella
tiene la obligación de pensar en cuatro dimensiones. En la discusión anterior
nos centramos exclusivamente en dos series de datos porque la cognición hu-
mana se limita a tres dimensiones. Por lo tanto, a menudo es más práctico
considerar el caso de m series de datos viendo dos series y juntándolas en
una película más completa usando instantáneas tridimensionales.
Figura 6.46 Datos simulados: Gamma bivarida (Cherian)

( 0 = 16; 1 = 16; 2 = 16).

( 0 = 16; 1 = 16; 2 = 16).
Figura 6.48 Datos simulados: Gamma bivarida (Cherian)

( 0 = 32; 1 = 16; 2 = 16).
( 0 = 32; 1 = 16; 2 = 16).
Figura 6.50 Datos simulados de una exponencial Gumbel bivariada con

= 0:01:
Figura 6.51 Datos simulados de una exponencial bivariada no Gumbel con
= 0:36:
Figura 6.52 Datos simulados de una exponencial bivariada no Gumbel con
= 0:09:
5.9 ¿Qué sigue?

Después de la discusión anterior de dependencia, procedemos a examinar
el problema planteado por la condicionalidad estocástica. El capítulo 7 se
concentra en las distribuciones condicionales y sus momentos y como ellos
se relacionan con la dependencia y / o la homogeneidad concentrándones de
nuevo en el caso simple de dos variables
f (x; y; ) = f (yjx : '2 ) fx (x : '1 ) , para todo (x; y) 2 RX RY :

De particular interés en el capítulo 7 será el concepto de dependencia de
la distribución relacionada y cómo se relaciona con las distribuciones condi-
cionales f (yjx : '2 ), para todo x 2 RX . Se argumenta que la forma más
efectiva para modelar tales formas de dependencia es a través del concepto
de funciones momento condicionales:
E (Y r jX = x) = hr (x) ; x 2 RX ; r = 1; 2; :::
Los conceptos desarrollados en estos dos capítulos se extienden entonces
en el capítulo 8 más allá del caso simple de dos variables con el …n de propor-
cionar un marco de referencia general para modelar dependencia y hetero-
geneidad en lo que respecta a las sucesiones de variables aleatorias. Es decir,
regresamos al caso general donde la reducción de la distribución conjunta
toma la forma:
no IID
Y
f (x1 ; x2 ; :::; xn ; ) = f1 (x1 ; 1) fk (xk jxk 1 ; :::; x1 ; k) , para todo x 2 RnX ;
y proceder a examinar el problema de la imposición de restricciones de
dependencia y heterogeneidad para que la anterior reducción de lugar a mod-
elos operativos.
5.10 Ejercicios
1. ¿Por qué nos preocupamos por la heterogeneidad y la dependencia en los
modelos estadísticos?
2. Explicar cómo la idea de condicionamiento secuencial ayuda a lidiar
con el problema de múltiples dimensiones de la distribución conjunta de una
muestra no aleatoria.
3. De…nir los siguientes conceptos:

(a) momentos conjuntos, (b) momentos condicionales, (c) no correlación,
(d) ortogonalidad, (e) relación producto cruzado y (e) el coe…ciente Gamma.
4. Sea la función de densidad conjunta de dos variables aleatorias X e Y:
xny 0 1 2
0 0:1 0:2 0:2
1 0:2 0:1 0:2
(a) Deduzca las distribuciones condicionales: f (yjx), x = 0; 1.
(b) Deducir los siguientes momentos:
E(X), E(Y ), V ar(X), V ar(Y ), Cov(X; Y ), E(XY ), Corr(X; Y ),
E(Y jX = 0), E(Y jX = 1), V ar(Y jX = 0).
5. Explique la diferencia entre dependencia, correlación y no ortogonali-
dad.
6. Explique el concepto de dependencia de r-ésimo orden y compárela
con la de dependencia de (m; k)-ésimo orden.
7. Explique el concepto de independencia condicional y su relación con
el de dependencia de Markov.
8. Explique por qué no correlación implica independencia en el caso de
una distribución normal bivariada. ¿Cómo se puede evaluar la correlación al
observar un diagrama de dispersión de los datos observados?
9. Explique cómo se puede distinguir entre los contornos de equiproba-
bilidad
de las densidades bivariadas, Normal, t de Student y de Pearson tipo II.
10. Explique por qué correlación cero no implica independencia en el caso
de las distribuciones bivariadas t de Student y Pearson tipo II.
11 Explique cómo un aumento en la correlación afectará la densidad ex-
ponencial bivariada. ¿Qué signi…ca esto para el diagrama de dispersión?
12 Explique por qué la noción de correlación no tiene sentido en el caso
de variables aleatorias medidas en la escala nominal.
13 Considere la variable aleatoria X~(0; 1) y de…na la variable aleatoria
Y = X 2 1.
Demuestre que: Cov(X; Y ) = 0, pero las dos variables aleatorias no son
independientes.
Capítulo 6
Regresión y conceptos
relacionados
6.1 Introducción
En el capítulo anterior dimos el primer paso en el territorio de la muestra no
aleatoria de la teoría de probabilidad. El lector se habría dado cuenta ahora
que este territorio puede ser peligroso y emocionante al mismo tiempo. Basta
con SEÑALAR que se trataba de un territorio en gran parte inexplorado
hasta el primer trimestre del siglo 20. El objetivo principal de la discusión
que sigue es extender el concepto de modelo estadístico simple, y, en partic-
ular, el concepto de muestra aleatoria (variables aleatorias Independientes e
Idénticamente Distribuidas), hacia formulaciones más realistas. Estos mod-
elos permitirán variables aleatorias que están dotadas de dependencia y / o
heterogeneidad. En este capítulo continuamos este viaje y descubrimos que
hemos estado sosteniendo la llave del territorio de la muestra no aleatoria
desde el capítulo 4: el concepto de condicionalidad. La manejabilidad del
modelo estadístico simple se deriva del hecho de que la distribución conjunta
de la muestra se puede simpli…car mucho por su reducción a un producto de
distribuciones marginales univariadas (idénticas):
I
Y
n
IID
Y
n
f (x1 ; x2 ; :::; xn ; ) = fk (xk ; k) = f (xk ; ) ; para todo x := (x1 ; x2 ; :::; xn ) 2 Rn :
k=1 k=1
(7.1)
En el caso de una muestra no aleatoria, si consideramos la no aleatoriedad
303
304 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS
negativamente como la falta de independencia y homogeneidad (ID), el único

resultado disponible es el siguiente:
no IID Y
n
f (x1 ; x2 ; :::; xn ; ) 6= f (xk ; ) ; para todo x := (x1 ; x2 ; :::; xn ) 2 Rn :
k=1
(7.2)
En el capítulo 6 vimos no aleatoriedad de manera positiva como la pres-
encia de dependencia y / o heterogeneidad y se argumentó que la clave para
lidiar con la distribución conjunta de una muestra no aleatoria fue el con-
cepto de condicionamiento secuencial simpli…cando la distribución conjunta
a:
no IID
Y
n
f (x1 ; x2 ; :::; xn ; ) = f1 (x1 ; 1) fk (xk j xk 1 ; :::; x1 ; k ) ; 8x 2 RnX :
k=2
(7.3)
Una comparación directa entre (7.1) y (7.3) revela que las muestras no
aleatorias intercambiaron distribuciones marginales por condicionales. Es-
tas distribuciones condicionales proporcionarán los medios para modelar la
dependencia y / o heterogeneidad.
El primer problema que debemos abordar cuando se modela la dependen-
cia de modelos en el contexto de la reducción (7.3) es el problema condicional-
idad estocástica. Este problema surge porque el lado derecho de (7.3) no es
sólo un producto, de una densidad marginal (f1 (x1 ; 1 )) y (n 1) densidades
condicionales (fk (xk j xk 1 ; :::; x1 ; k )) como podría parecer a primera vista.
En vista del hecho de que el concepto de función de densidad condicional se
de…ne para un valor especí…co de las variables condicionantes, para cada k,
el conjunto de densidades condicionales:
ffk (xk j xk 1 ; :::; x1 ; k )g ; para todo (xk 1 ; :::; x1 ) 2 RnX 1

(7.4)
representa a toda una familia de funciones de densidad, una para cada

valor de (xk 1 ; :::; x1 ) en RnX 1 , y que cambia con k. Hacer frente a estos
problemas en su generalidad en el contexto de (7.3) y (7.4), sin embargo,
sería muy enredado. Por esta razón, simpli…camos el problema eludiendo los
problemas de dependencia y heterogeneidad asociada con un general K > 2
y nos concentramos exclusivamente en el caso K = 2. En cierto sentido,

evitamos los problemas de (a) el conjunto de condicionalidad cambiante (el
número de variables condicionantes cambia con k) y (b) la heterogeneidad
de las densidades condicionales (que cambian con k). Estas dos cuestiones
se discutirán en el próximo capítulo.
Una vista panorámica del capítulo

En la sección 2 discutimos el problema de la condicionalidad en el contexto
del caso más sencillo de dos variables aleatorias.
f (x; y; ) = f (yjx; '2 ) fX (x; '1 ) ; para todo (x; y) 2 RX RY : (7.5)
NOTE que, como en el capítulo anterior, con el …n de simpli…car la no-

tación utilizamos (x; y) en lugar de (x1 ; x2 ). En este caso sencillo, los prob-
lemas del conjunto de condicionalidad creciente y el de heterogeneidad no
se presentan. En este contexto, el problema de condicionalidad se trata de
forma e…caz mediante la extensión del concepto de momentos condicionales a
funciones de los valores de la variable condicionante. En la sección 3 exten-
demos el concepto de funciones momento condicional para tener en cuenta la
presencia de la distribución marginal f1 (x1 ; '1 ). Esto da lugar al concepto
de funciones momento condicional estocástico. En la sección 4 consideramos
la pregunta: ¿en qué circunstancias puede el modelador ignorar la distribu-
ción marginal? - la respuesta conduce al concepto de exogeneidad débil. En
la sección 5 se introduce un nuevo componente al concepto de modelo es-
tadístico, además de los modelos de probabilidad y muestral. Este nuevo
componente se llama mecanismo generador estadístico (MG) y constituye
un puente entre los modelos estadísticos y teóricos. En la sección 6 hace-
mos una breve excursión histórica para rastrear las raíces de la regresión a
Francis Galton (1822-1911) y Karl Pearson (1857-1936) con el …n de propor-
cionar una breve descripción de la tradición biométrica en estadística. Esta
tradición fue reformulada posteriormente por R.A Fisher (1890 - 1962) en
la inferencia estadística moderna. Recordamos al lector que en el capítulo 1
hemos mencionado brevemente dos de las tradiciones más antiguas en la es-
tadística, la teoría de los errores y el diseño experimental, argumentando que
son más adecuadas para el análisis estadístico de datos experimentales; o de
datos que puede ser visto como generados por un sistema casi aislado. Una
línea especialmente importante de la argumentación que corre a través de
este libro es que la tradición biométrica es más adecuada para la modelación

de datos observacionales (no experimentales).
6.2 Condicionalidad y regresión

6.2.1 Reducción y funciones condicionales momento
Como se ha dicho anteriormente, la igualdad en la reducción (7.5) no rep-
resenta una distribución conjunta a la izquierda y un producto de una dis-
tribución condicional y una marginal de la derecha! El concepto de dis-
tribución condicional discutido en el capítulo 6 se de…ne con respecto a un
valor especí…co de la variable condicionante, pero el cuanti…cador para todo
(x; y) 2 RX RY signi…ca que para cada valor de la variable condicionante,
x 2 RX , existe una distribución condicional. Desde el punto de vista de
la modelación, el problema de la condicionalidad tiene dos dimensiones. La
primera dimensión es que:
f (yjx; '2 ) ; (x; y) 2 RX RY ; (7.6)
de…ne una (posiblemente in…nita) familia de densidades condicionales in-

dexada por los diferentes valores de la variable aleatoria X. La segunda
dimensión es que cada densidad condicional en (7.5) es ponderada por la
probabilidad marginal asociada con el correspondiente valor condicionante
de la variable aleatoria X. En esta sección consideramos el problema de mu-
chos (posiblemente un número in…nito de) distribuciones condicionales. La
dimensión de la ponderación será discutido en las secciones 3-4. Para hacer la
discusión menos abstracta consideremos esta cuestión usando algunos ejem-
plos.
Ejemplos
(i) Considere la distribución conjunta y marginal como se indica a con-
tinuación:
y/x 1 2 3 fY (y)
0 0.20 0.10 0.15 0.45
1 0.10 0.25 0.05 0.40 (7.7)
2 0.01 0.06 0.08 0.15
fX (x) 0.31 0.41 0.28 1
6.2. CONDICIONALIDAD Y REGRESIÓN 307
De acuerdo con (7.6) esta distribución conjunta dará lugar a tres difer-
entes distribuciones condicionales, f (y j X = x) para x = 1; 2 y 3; dadas
por:
8 f (x=1;y=0) 0:20
9
>
< fX (x=1)
= 0:31
;y = 0; >
=
f (x=1;y=1) 0:10
f (yjx = 1) = fX (x=1)
= 0:31
;y = 1;
>
: f (x=1;y=2) 0:01
>
;
fX (x=1)
= 0:31
;y = 2;
y 0 1 2
!
f (yjx = 1) 0.645 0.323 0.032
8 f (x=2;y=0) 0:10
9
>
< fX (x=2)
= 0:41
;y = 0; >
=
f (x=2;y=1) 0:25
f (yjx = 2) = fX (x=2)
= 0:41
;y = 1; (7.8)
>
: f (x=2;y=2) 0:06
>
;
fX (x=2)
= 0:41
;y = 2;
y 0 1 2
!
f (y j x = 2) 0.244 0.610 0.146
8 f (x=3;y=0) 0:15
9
>
< fX (x=3)
= 0:28
;y = 0; >
=
f (x=3;y=1) 0:05
f (yjx = 3) = fX (x=3)
= 0:28
;y = 1;
>
: f (x=3;y=2) 0:08
>
;
fX (x=3)
= 0:28
;y = 2;
y 0 1 2
!
f (yjx = 3) 0.536 0.179 0.285
f (x=2;y=1)
NOTA. En f (yjx = 3) hay un error en el texto. Dice fX (x=3)
y
f (x=2;y=2) f (x=3;y=1) f (x=3;y=2)
fX (x=3)
;
debería decir, fX (x=3)
y fX (x=3)
:
ii) Considere el caso en que f (x; y; ) es normal bivariada de la forma:
Y 1 11 12
N ; : (7.9)
X 2 21 22
NOTAR que 1 = E(Y ); 2 = E(X); 11 = V ar(Y ); 22 = V ar(X);

12 = Cov(X; Y ): Las distribuciones condicional y marginal en (7.5) toman
la forma:
2
(Y jX = x) N 0 + 1 x; ; x 2 R; X N ( 2; 22 ) ; (7.10)
2
12 2 12
0 = 1 1 2; 1 = ; = 11 :
22 22
Esto muestra que la distribución condicional representa una familia in-

…nita de las densidades condicionales, una para cada valor de x 2 R.
Los ejemplos anteriores sugieren que cualquier intento de tratar con la
modelación de la reducción (7.5), concentrándose en los momentos de las
distribuciones implicadas está condenado. Esto se debe a la presencia de una
densidad condicional para cada valor de la variable condicionante. Es decir,
aún cuando la distribución conjunta de la izquierda y la distribución marginal
de la derecha puedan (posiblemente) ser modeladas a través de sus momentos,
las densidades condicionales dan lugar a un número posiblemente in…nito de
momentos condicionales (un conjunto para cada valor de la variable aletoria
X). Es decir, el uso de los momentos condicionales no trata con la reducción
de manera efectiva. Esto se debe a que los momentos condicionales se de…nen
para cada miembro de la familia (7.6) por separado y el modelador se enfrenta
a la pregunta: ¿qué conjunto de momentos condicionales usar?
Ejemplo
En el caso de la distribución conjunta dada en (7.7), le corresponden tres
distribuciones condicionales (véase (7.8)), una para cada valor de X. Por lo
tanto, hay tres pares de medias y varianzas condicionales:
f (yjx = 1) : E (Y jx = 1) = 0:387; V ar (Y jx = 1) = 0:301;

f (yjx = 2) : E (Y jx = 2) = 0:902; V ar (Y jx = 2) = 0:380;
f (yjx = 3) : E (Y jx = 3) = 0:749; V ar (Y jx = 3) = 0:758:
La respuesta a la pregunta de qué conjunto de momentos condicionales

utilizar es, en pocas palabras, todas ellos combinados extendiendo los mo-
mentos condicionales de una manera análoga a la familia (7.6). Es decir,
extendiendo el concepto de momentos condicionales para dar cuenta de to-
dos los valores de la variable aleatoria X, de…nimos las funciones momento
condicional:
Crudo: E (Y r jX = x) = hr (x) ; x 2 R; r = 1; 2; :::

Central: E (Y E [Y jX = x]r j X = x) = gr (x) ; x 2 R; r = 2; 3; :::;

(7.11)
donde para un valor especi…cado X = x, estos momentos condicionales
se de…nen (ver capítulo 4) por:
Z
r
E (Y jX = x) = y r f (yjx) dy; r = 1; 2; :::
Zy2RY
E ([Y E (Y jX = x)]r jX = x) = [y E (yjx)]r f (yjx) dy; r = 2; 3; :::
y2RY
Ejemplo
En el caso de la distribución conjunta dada en (7.7) y los momentos
condicionales como los dados en el ejemplo anterior, las funciones asociadas
con la media y la varianza condicional toman la forma:
x E (Y jX = x) = h1 (x) x V ar (Y jX = x) =g2 (x)

1 0.387 1 0.301
2 0.902 2 0.380
3 0.749 3 0.758
La utilización del concepto de funciones trata directamente con el prob-

lema de muchos sistemas diferentes de momentos condicionales al hacer los
momentos funciones de los valores de la variable condicionante. En los casos
en los cuales estas funciones pueden ser de…nidas en términos de formas fun-
cionales especí…cas, ellas ofrecen formas sencillas de modelar la dependencia.
Como argumentamos en lo que sigue, para la mayoría de las distribuciones
de dos variables, podemos obtener estas funciones de forma explícita.
6.2.2 Regresión y funciones cedásticas

En la modelación de la dependencia a menudo nos concentramos sólo en las
primeras de estas funciones relacionadas con la familia de densidades (7.6).
En particular, el objetivo principal de los modelos de regresión es el mod-
elo (7.6) a través de las primeras pocas funciones momento condicional tal
como se de…nen en (7.11). La literatura actual sobre los modelos de regre-

sión se concentra casi exclusivamente en las dos primeras de tales funciones
momento condicional.
(i) La función de regresión se de…ne como la media condicional de Y
dado X = x, interpretada como una función de x:
E (Y jX = x) = h (x) ; x 2 RX : (7.12)
NOTE que el término Regresión fue acuñado por primera vez por Galton
(1885); véase más adelante
ii) La función cedática se de…ne como la varianza condicional interpre-
tada como una función de x:
V ar (Y jX = x) = g (x) ; x 2 RX : (7.13)
El término cedástico fue acuñado por Pearson (1905) y se basa en las
palabras griegas " = dispersión (scattering) y " o& = disperso
(scattered).
OBSERVACIÓN: las grá…cas (h (x) ; x) y (g (x) ; x) para todo x 2 RX ;
constituyen lo que llamamos las curvas de regresión y cedástica, respec-
tivamente.
(1) Normal bivariada. Como se ha mostrado antes, en el caso de la
distribución normal de dos variables (7.9) con := ( 1 ; 2 ; 11 ; 12 ; 22 ) ; la
densidad condicional de Y dado X = x es también normal de la forma
2
12 12
(yjX = x) N 1+ (x 2) ; 11 ; x 2 R; (7.14)
22 22
2
Esto muestra que '1 := ( 2 ; '22 ) ; '2 := ( 0 ; 1; ) y las funciones de
regresión y cedástica toman la forma dada antes:
2
E (Y jX = x) = 0 + 1 x; V ar (Y jX = x) = ; x 2 R;
2
12 2 12
0 = ( 1 1 2 ) 2 R; 1 = 2 R; = 11 2
(7.15)
R+ :
22 22
Como podemos ver, la función de regresión para la normal conjunta es

una función lineal de x y la función cedástica está libre de x.
Las funciones de regresión y cedástica (7.15) se muestran en las …guras 7.1

y 7.2, respectivamente, con valores de los parámetros 1 = 1:5, 2 = 1, 11 =
1, 22 = 1 y tres distintos valores de 12 = 0:8, 0:1, 0:9. Como podemos
ver, la pendiente de la recta de regresión depende del signo de la covarianza.
En la …gura 7.2 podemos ver las correspondientes curvas cedásticas que son
paralelas al eje x, como se esperaba. El modelo de regresión Normal es uno de
los pocos modelos donde la distribución marginal de X puede ser ignorada, ya
que, como se muestra en la sección 4, X es débilmente exógena con respecto
a la parámetros '2 .
Regresión lineal. En el caso donde la media condicional tiene la forma
dada en (7.15), la función de regresión se dice que es lineal en x.
PRECAUCIÓN. Es importante distinguir entre la linealidad en x y la
linealidad en los parámetros. El polinomio de segundo grado de la forma:
h (x) = a0 + a1 x + a2 x2
no es lineal en x pero es lineal en los parámetros (a0 ; a1 ; a2 ). Por otra
parte, la función
2
h (x) = 1 3 (x 2)
no es lineal, tanto en los parámetros ( 1 ; 2 ; 3 ) como en x. NOTE que

hay una relación directa entre los dos conjuntos de parámetros: a0 = 1
2
3 2 , a1 = 2 2 3 , a2 = 3 . Esto sugiere que la parametrización de interés
particular es a menudo una cuestión de elección.
La función de regresión (7.15) es lineal en x y en los parámetros ( 0 ; 1 ),
pero a partir de (7.14) es obvio que no es lineal en los parámetros primarios
( 1 ; 2 ; 11 ; 22 ; 12 ).
Figura 7.1 Líneas de regresión Normal.
Figura 7.2 Líneas cedástica Normales.
Homocedasticidad. En el caso de que la varianza condicional no de-

penda de la
variable condicionante, es decir, para alguna constante c0 2 R:
V ar (Y jX = x) = c0 ; x 2 RX ;
se dice que es homocedástica (Ver (7.15)).
Heterocedasticidad. En el caso de que función cedástica dependa de
los valores de la
variable condicionante, es decir:
V ar (Y jX = x) = g (x) ; x 2 RX ;
se dice que es heterocedástica.
Es interesante NOTAR que los conceptos (y la terminología) de homo-
cedasticidad/heterocedasticidad se introdujo por primera vez por Pearson
(1905). (2) t de Student bivariada. En el caso de la distribución t de
Student de dos variables con v > 2 grados de libertad, que se denota por:
Y 1 11 12
St ; ;v ; (7.17)
X 2 21 22
la densidad condicional de Y dado X = x y la densidad marginal de X

son también t de Student (veáse Apéndice B). Las funciones de regresión y
cedástica toman la forma dada a continuación:
v 2 1 2
E (Y jX = x) = 0+ 1 x; V ar (Y jX = x) = 1+ [x 2] ; x 2 R;
v 1 v 22
2
12 2 12
0 = 1 1 2 2 R; 1 = 2 R; = 11 2 R+ : (7.18)
22 22
Como podemos ver, los parámetros 0 ; 1 y 2 coinciden con los de la

Normal condicional en (7.10). La función cedástica di…ere de la Normal
en la medida en que (7.18) es heterocedástica: una función de la variable
condicionante. En la …gura 7.3 podemos ver tres funciones cedásticas t de
Student (v = 4; 8; 20) con los parámetros 2 = 1, 22 = 1, 12 = 0:8.
La curvatura de la curva cedástica está inversamente relacionada con los
grados de libertad de parámetros: cuanto menor sea el valor de v mayor es la
curvatura de la función cedástica. Es interesante NOTAR que en el caso de
que v = 20, la curva cedástica está muy cerca de una línea recta (una línea
Normal cedástica).
Figura 7.3 Curvas cedásticas t de Student.
(3) Exponencial bivariada. En contraste con la forma de las funciones

de regresión y cedástica de la Normal de dos variables, en el caso de la
distribución exponencial bivariada las funciones de regresión y cedástica son
altamente no lineales en x (y por lo tanto heterocedásticas):
1+ + x (1 + + x)2 2 2
E (Y jX = x) = ; V ar (Y jX = x) = , x 2 R+ ; > 0:
(1 + x)2 [1 + x]4
El parámetro se relaciona de forma no lineal con el coe…ciente de cor-

relación a través de:
Z 1
e x
:= 1 + dx
0 1+ x
con algunos valores típicos dados enseguida:
= 0.01 0.2 0.5 1 2 3 4 8 12
20 600
= 0.01 0.148 0.278 0.404 0.538 0.614 0.665 0.770 0.820 0.870
0.990
En la …gura 7.4 podemos ver tres curvas de regresión Exponencial ( = 1; 2; 3)
y las curvas cedásticas correspondientes se muestran en la …gura 7.5.
Figura 7.4 Curvas de regresión Exponencial.
Figura 7.4 Curvas cedásticas Exponenciales.

Regresión. Distribuciones continuas adicionales

Varios ejemplos de funciones de regresión y cedásticas asociadas a otras
distribuciones conjuntas se muestran a continuación en un intento de disipar
la impresión errónea de que la linealidad de la función de regresión y la
homocedasticidad de la función cedástica es la regla.
(4) Bivariada tipo Pearson II.
p p
E (Y jX = x) = 0 + 1 x; [ 2 (v + 2) 22 ] < x < [2 (v + 2) 22 ]
( !)
2
2 1 (x 2 )
V ar (Y jX = x) = 1 ,x2R
2v + 3 22
2
12 2 12
0 = ( 1 1 2 ) 2 R; 1 = 2 R; = 11 2 R+ .
22 22
La función de regresión de las distribuciones Pearson tipo II coincide con

las de las distribuciones Normal y t de Student. Su función cedástica, que
se muestra en la …gura 7.6 para tres valores diferentes para los grados de
libertad (v = 1; 2; 3) y ( 2 = 1; 22 = 1; 12 = 0:8), es heterocedástica pero
a diferencia de la t de Student, tiene un rango …nito (compare las …guras 7.3
y 7.6).
Figura 7.6. Curvas cedásticas tipo Pearson II.
Familia simétricas elípticamente. El hecho de que las funciones de

regresión de las distribuciones Normal, t de Student y Pearson tipo II co-
incidan es un caso especial de un resultado general. Las tres distribuciones
pertenecen a la familia de distribuciones simétricas elípticamente que com-

parten la misma función de regresión (cuando los momentos requeridos ex-
isten). Por otra parte, la función cedástica para todas las distribuciones
excepto la Normal, son heterocedásticas (véase Spanos (1994) para más dis-
cusión). La diferencia básica entre estas tres distribuciones simétricas elípti-
camente es en términos de su curtosis: la Normal es mesocúrtica (curtosis =
3), la distribución t de Student es leptocúrtica (kurtosis > 3) y la tipo II de
Pearson es platicúrtica (curtosis < 3).
(5) Pareto bivariada.
1 3
E (Y jX = x) = 1 + x
2
2
1 (1 + 3 ) 2
V ar (Y jX = x) = x , x 2 R+
2 (1 + 3 ) 23
y > 1 > 0, x > 2 > 0, 3 > 0:
En las …guras 7.7 y 7.8 podemos ver la regresión Pareto y las curvas
cedásticas con parámetros ( 1 = 1, 2 = 1:5) y tres diferentes valores de 3 =
3; 4; 8, respectivamente.
Figura 7.7. Líneas de regresión Pareto.

Figura 7.8. Curvas cedásticas Pareto.
(6) Logística bivariada.
(x )
E (Y jX = x) = 1 loge 1 + exp ,x2R
1 2
V ar (Y jX = x) = 1 = 2:29, 2 R, 2 R+
3
En las …guras 7.9 y 7.10 podemos ver las curvas de regresión y cedásticas
de la distribución Logística con parámetros ( 1 , = 0:5, 1:2, 4:5), respec-
tivamente. Como podemos ver, la distribución Logística bivariada produce
una curva de regresión altamente no lineal y una función varianza condicional
homocedástica. Cabe señalar que la Logística bivariada es una de las pocas
distribuciones con una función de cedasticidad constante.
Figura 7.9 Curvas de regresión logística.

Figura 7.9 Líneas cedásticas logísticas.
(5) Beta bivariada.
2
E (Y jX = x) = (1 x)
[ 2 + 3]
2 3
V ar (Y jX = x) = 2 (1 x)2 ,
( 2 + 3 ) (1 + 2 + 3 )
para x 2 [0; 1] , donde 1 > 0, 2 > 0, 3 > 0.
En la …gura 7.11 podemos ver las curvas cedásticas de la distribución Beta

con parámetros ( 1 = 20; 2 = 20; 3 = 1), ( 1 = 4; 2 = 4; 3 = 4), ( 1 = 1; 2 = 1; 3 = 8).
Teniendo en cuenta el hecho de que el coe…ciente de correlación toma la forma:
s
1 2
= 1 ,
( 1 + 3) ( 2 + 3)
podemos ver que la pendiente de estas líneas está directamente rela-

cionada con la correlación. En la …gura 7.12 podemos ver las correspondientes
curvas cedásticas.
Figura 7.11 Líneas de regresión Beta.
Figura 7.12 Curvas cedásticas Beta.
(8) Gamma Bivariada (Kibble).
E (Y jX = x) = 2 (1 1 ) + 1 x, x 2 R+ , 1 2 [0; 1], 2 2 R+
V ar (Y jX = x) = (1 1 ) [ 2 (1 1 ) + 2 1 x] , x 2 R+ .
para x 2 [0; 1] , donde 1 > 0, 2 > 0, 3 > 0.
En las …guras 7.13 a 14 podemos ver las curvas de regresión y cedásticas de

distribución gamma (Kibble) con parámetros ( 1 = 1:0, 1:5, 2:0, 2 = 2:0).
NOTE que 1 es el coe…ciente de correlación.
Figura 7.13 Regresiones Gamma (Kibbel).
Figura 7.14 Curvas cedásticas Gamma (Kibbel).
(9) Gamma Bivariada (Cherian).
0
E (Y jX = x) = 2 + x, x 2 R+ , ( 0 ; 1; 2) 2 R3+
( 1+ 0)
0 1
V ar (Y jX = x) = 2 + 2 x 2 , x 2 R+ .
( 1 + 0) (1 + 1 + 0)
En las …guras 7.15-7.16 podemos ver las curvas de regresión y cedástica de

la distribución Gamma (Cherian) con parámetros ( 0 = 0:1; 0:2;q20, 1 = 2:0, 2 = 1).
NOTE que el coe…ciente de correlación toma la forma = ( 1 + 0 )(0 2 + 0 ) ,
y por lo tanto, para los tres valores anteriores de 0 la correlación toma los
valores: 0,066, 0,577, 0,930, respectivamente. La pendiente de las líneas de

regresión es mayor cuanto mayor sea la correlación y la curvatura de las
curvas cedásticas es mayor cuanto mayor sea la correlación.
Figura 7.15 Regresiones Gamma (Cherian).
Figura 7.16 Curvas cedásticas Gamma (Cherian).

(10) Gamma Bivariada (McKay).
1
E (Y jX = x) = + x, x 2 R+ , ( 1 ; 2 ; a) 2 R3+ ,
a
1
V ar (Y jX = x) = , x 2 R+ ,
a2
1
E (XjY = y) = y, y > x 2 R+ , ( 1 ; 2 ; a) 2 R3+ ,
( 1+ 2)
1 2
V ar (XjY = y) = 2 y 2 , y > x 2 R+ .
( 1 + 2) (1 + 1 + 2)
NOTA IMPORTANTE. Esta distribución Gamma bivariada ilustra una

cuestión importante en relación a los modelos tipo regresión. Dado el pre-
dominio de la distribución Normal bivarida, hay una idea equivocada de que
todas las distribuciones de dos variables son simétricas con respecto a las
variables aleatorias X e Y . En el caso anterior de la distribución Gamma bi-
variada McKay las distribuciones condicionales f (yjx; ) y f (xjy; ) son muy
diferentes, dando lugar a momentos condicionales que no se parecen el uno
al otro. Por ejemplo f (yjx; ) da lugar a una función homoscedástica pero
f (xjy; ) da lugar a una función heterocedástica.
(11) F Bivariada.
0 1
E (Y jX = x) = + x, x 2 R+ , ( 0 ; 1; 2) 2 R3+
( 0 + 1 2) ( 0 + 1 2)
2 ( 1 + 2 + 0 2) 2
V ar (Y jX = x) = ( 0 + 1 x) , x 2 R+ , ( 1 + 2) >4
2( 1+ 0 4) ( 1 + 0 2)2
En las …guras 7.17-7.18, podemos ver tres curvas de regresión y cedásticas
de la distribución F con parámetros ( 0 = 80, 1 = 4, 2 = 2), ( 0 = 12, 1 = 8, 2 = 8),
( 0 = 5, 1 = 60, 2 = 60). NOTE que el coe…ciente de correlación toma la
forma:
s
1 2
= ,
( 1 + 0 2) ( 2 + 0 2)
y por lo tanto para estos tres conjuntos de valores la correlación es de
0.035, 0.444 y 0.952, respectivamente. Las líneas de regresión tienen una
pendiente mayor cuanto mayor sea la correlación y las curvas cedásticas pre-
sentan mayor curvatura cuanto mayor es la correlación.
Figura 7.17 Líneas de regresión F.
Figura 7.18 Curvas cedásticas F.
(12) Log Normal Bivariada.
2
x 1
1+ 2
2 2 12
E (Y jX = x) = e , x 2 R+ , = 11 2 R+ ,
2 22
2
x 2 2 12
V ar (Y jX = x) = e2 1+ e 1 , x 2 R+ , = 2 R.
2 22
La …gura 7.19 muestra tres funciones de regresión de una distribución log-

arítmica normal con parámetros ( 1 = 1, 2 = 1, 2 = 0:4) y tres diferentes
valores de = 0:2; 0:4; 0:8. NOTE que la diferencia principal entre estas
curvas de regresión y las correspondientes curvas cedásticas mostradas en la
2
…gura 7.20 es el factor de escala e 1 .
Figura 7.19 Curvas de regresión Lognormales.
Figura 7.20 Curvas cedásticas Lognormales.
Regresión: distribuciones discretas

(13) Binomial bivariada.
E (Y jX = x) = (1 2 1 ) (n x) ,
2 (1 1 2)
V ar (Y jX = x) = (n x) ,
(1 1)
1 2 [0; 1], 2 2 [0; 1], n = 1; 2; :::; 1 + 2 < 1, x = 0; 1; :::
(14) Poisson bivariada.
1
E (Y jX = x) = ( 2 3) + x, x = 0; 1; 2; :::; 1 > 0, 2 > 0; 3 > 0,
3
3
V ar (Y jX = x) = ( 2 3) + [ 1 3] 2 x; x = 0; 1; :::; 3 < min ( 1 ; 2) .
1
1 2 [0; 1], 2 2 [0; 1], n = 1; 2; :::; 1 + 2 < 1, x = 0; 1; :::
(15) Binomial negativa bivariada.
2
E (Y jX = x) = ( 1 + x) , x = 0; 1; 2; :::; 2 2 (0; 1) > 0, 1 > 0,
(1 2)
2
V ar (Y jX = x) = 2 ( 1 + x) , x = 0; 1; 2; :::
(1 2)
Concluimos esta subsección SEÑALANDO que entre los ejemplos anteri-

ores, la normal es la única distribución conjunta con una función de regresión
lineal y una varianza condicional homoscedástica. La mayoría de las distribu-
ciones anteriores tienen varianza condicional heterocedástica y varias curvas
de regresión no lineales.
6.2.3 Funciones clíticas y cúrticas

La pregunta que surge naturalmente en esta etapa es: ¿por qué considerar
sólo las dos primeras funciones momento condicional (regresión y cedástica)
en la modelación de la dependencia? Sabemos que en general necesitamos
muchos (a menudo un número in…nito) momentos para caracterizar distribu-
ciones (ver capítulo 3). El hecho de importancia es que no hay ningún argu-
mento convincente que demuestre que el modelador debe considerar sólo las
dos primeras funciones condicionales momento a menos que se asuma que la
distribución es normal; véase el capítulo 3. Una vez más esta situación surgió
debido a que la distribución normal ha ejercido indebidamente su bien cono-
cida in‡uencia. En la modelación econométrica hay un enfoque casi exclusivo
en la función de regresión con raras excursiones en el territorio de la función
cedástica. Una mirada super…cial a la literatura econométrica tradicional ac-
tual revela, no obstante, una especie de esquizofrenia sobre la especi…cación
del modelo lineal como es llamado tradicionalmente. Por un lado, los libros
de texto tradicionales ensalzan las virtudes del teorema de Gauss Markov,
basado en una regresión lineal y una función homocedástica (véase el capí-
tulo 13), debido a su falta de con…anza en el supuesto de Normalidad. La
cuestión, sin embargo, que se plantea es: ¿por qué sólo especi…car los dos
primeros momentos condicionales si uno no asume normalidad? Por otro
lado, hay un apego inexplicable a la distribución normal, incluso en los casos
en los cuales la heterocedasticidad es explícitamente modelada (véase Spanos
(1995a)). Además, la tendencia en la modelación de la heterocedasticidad
es a usar funciones ad hoc en lugar de formas funcionales especí…cas rela-
cionadas con la distribución conjunta que no sea la Normal. Los ejemplos
anteriores sugieren que hay varias otras distribuciones que dan lugar a difer-
entes formas de heterocedasticidad que permanecen sin explorar; ver Spanos
(1994) sobre los resultados relativos a la familia simétrica elíptica.
La teoría de la probabilidad sugiere que existen buenas razones para creer
que cuando se trata con distribuciones conjuntas elípticas no simétricas, serán
necesarias algunas funciones condicional momento para capturar la depen-
dencia de orden superior. Las siguientes dos funciones momento condicional

central, introducida por primera vez por Pearson (1905), son los siguientes:
(iii) función clítica: E [Y E (Y jX = x)]3 jX = x =g3 (x), x 2 RX ,
(iii) función cúrtica: E [Y E (Y jX = x)]4 jX = x =g4 (x), x 2 RX .
Ejemplos
(i) En el caso de la distribución Beta bivariada estas funciones toman
la forma:
E [Y E (Y jX = x)]3 jX = x =
2 2 3( 3 2)
3 (1 x)3 , x 2 [0; 1]
( 2 + 3 ) (1 + 2 + 3 ) (2 + 2 + 3 )
E [Y E (Y jX = x)]4 jX = x
" #
2 2 2 2
3 2 3 2 2 2 2 3 + 2 3 +2 3 2 3
= 4 (1 x)4 ,
( 2 + 3 ) (1 + 2 + 3 ) (2 + 2 + 3 ) (3 + 2 + 3)
Como podemos ver, la distribución Beta bivariada proporciona funciones

heteróclitas y heterocúrticas. Los conceptos y la terminología homóclita /
heteróclita fue introducida por Pearson (1905).
(ii) En el caso de la distribución t de Student bivariada estas funciones
tienen la forma:
E [Y E (Y jX = x)]3 jX = x = 0, x 2 R,
3 (v 1)
E [Y E (Y jX = x)]4 jX = x = [V ar (Y jX)]2 , x 2 R.
(v 3)
Como podemos ver, la distribución t de Student bivariada produce fun-

ciones homóclitas y heterocúrticas; esta última es una forma especial siendo
una función de la función cedástica. Ambas características se deben a la
naturaleza elíptica de la distribución.
6.3. REDUCCIÓN Y CONDICIONALIDAD ESTOCÁSTICA 327
6.3 Reducción y condicionalidad estocástica

Después de haber tratado el problema de muchas distribuciones condicionales
mediante la ampliación del concepto de momentos a funciones condicionales
momento, regresemos a la reducción original:
f (x; y; ) = f (yjx; '2 ) fX (x; '1 ) , para todo (x; y) 2 RX RY . (7.19)
Observemos que en el lado derecho existe una familia de densidades condi-

cionales, donde se pondera cada una por la probabilidad marginal correspon-
diente. En la de…nición de las funciones momento condicional:
hr (x) = E (Y r jX = x) , x 2 RX
ignoramos el peso marginal y nos concentramos exclusivamente en la fa-
milia de las densidades condicionales ff (yjX = x; '2 ) , (x; y) 2 RX RY g.
En cierto sentido, esto equivale a suponer que los diferentes valores que toma
la variable aleatoria X ocurren con una probabilidad de uno:
hr (x) = E (Y r jX = x) , donde P (X = x) = 1, para todo x 2 RX . (7.20)
Sin embargo, como se muestra en (7.19) esto no es del todo correcto. Una
forma más apropiada de especi…car estas funciones es la de tener en cuenta
las probabilidades marginales asociadas a los diferentes valores x 2 RX . El
problema es especi…car estas funciones sin dejar de lado el hecho de que los
diferentes valores de X ocurren con diferentes probabilidades dadas por la
densidad marginal f (x; '1 ). NOTE una vez más que en el caso de variables
aleatorias continuas, como se mencionó en el capítulo 3, los pesos no son
probabilidades propias.
La manera formal de hacer frente a este problema consiste en ampliar el
concepto de condicionalidad un paso más allá: para dar cuenta de todos los
eventos asociados con la variable aleatoria X; no sólo de su rango de valores.
Es decir, en vez de concentrarse exclusivamente en los eventos condicionantes
de la forma:
fs : X (s) = xg , para todo x 2 RX ,

en el contexto del espacio de probabilidad (S; =; P (:)), consideramos el -

campo generado por la variable aleatoria X (para todos los posibles eventos
asociados a X; ver capítulo 3):
1
(X) := X ( 1; x] 2 = para todo x 2 RX .
Esto nos permite de…nir las funciones estocásticas condicional momento:
hr (x) = E (Y r j (X)) , para X~DX (:) , (7.21)

donde DX (:) denota la distribución marginal de la variable aleatoria X.
Este condicionamiento es signi…cativo, porque (X) =. La cuestión, sin
embargo, es: ¿qué sentido atribuimos a tales funciones estocásticas condi-
cionales? Es obvio que las funciones hr (x) = E (Y r j (X)) son diferentes
de aquellas en (7.20), porque las primeras son variables aleatorias, siendo
una función de la variable aleatoria X; por lo tanto una variable aleatoria
en sí misma! Se ven como momentos condicionales pero son estocásticos en
naturaleza!
NOTA: sin pérdida de generalidad nos concentramos en el caso simple
r = 1. Esto se debe a que para cualquier variable aleatoria Z y cualquier
función de la forma Z r podemos de…nir una nueva variable aleatoria Y = Z r .
6.3.1 Signi…cado de E (Y r j (X))

En primer lugar, encontramos condicionamiento en el contexto del espacio de
probabilidad (S; =; P (:)) en relación con los eventos A; B 2 =. Recordamos
al lector que el concepto matemático de probabilidad P (:) requiere que el
modelador especi…que el conjunto de todos los eventos de interés relacionados
con S, por ejemplo, =, y la con…guración de matemática es de…nida por
el espacio de probabilidad (S; =; P (:)). En este contexto, la probabilidad
condicional de A dado B toma la forma:
A\B
P (AjB) = , para P (B) > 0,
P (B)
y el condicionamiento sobre B puede ser intuitivamente entendido como
"se sabe que el evento B ha ocurrido. " El condicionamiento en general se
de…ne en relación al conocimiento de que cierto evento(s) ha ocurrido. En
este sentido, la densidad condicional:
f (x; y)
f (yjx) = , y 2 RY ,
fX (x)
debe ser entendida como la densidad revisada de la variable aleatoria Y ,
dado que el evento fs : X (s) = xg ha ocurrido. En este punto es fundamental
hacer hincapié una vez más que una distribución condicional se de…ne en un
valor particular de la variable condicionante. Usando la densidad condicional
podemos de…nir la esperanza condicional sin ambigüedades como:
Z
E (Y jX = x) = yf (yjx) dy.
y2RY
En vista de la discusión anterior la expresión:
E (Y jX) (7.22)
no tiene sentido matemático porque la condicionalidad no es relativa a un
evento; una variable aleatoria no es un evento (un subconjunto del conjunto
de resultados de referencia S). Intuitivamente, sin embargo, sabemos que
para cada valor X = x, está bien de…nida y así uno puede pensar en (7.22)
como una función de X y, por lo tanto, una variable aleatoria en sí misma.
Nuestra intuición es ciertamente correcta, pero necesitamos formalizarla.
Para una variable aleatoria X de…nida sobre S, el evento fs : X (s) = xg
constituye un elemento de =, en el sentido de que X 1 (x) 2 =. En efecto,
por de…nición (ver capítulo 3):
1
X (x) 2 =, para todos lo valores x 2 RX .
En vista de esto podemos deducir que la única forma en la cual (7.22)
podría tener sentido matemático es convertir la variable aleatoria condicio-
nante en un conjunto de eventos. Es decir, de…nir (X): el -campo de…nido
por la variable aleatoria X (ver capítulo 3). En este sentido, la esperanza
condicional:
E (Y j (X)) (7.23)
debe ser signi…cativa, ya que, al menos intuitivamente, ésta representa
la experanza dado que "algún evento relacionado con X ha ocurrido". El
sentido común sugiere que la experanza normal E(Y ) se puede ver desde
este punto de vista como
E (Y jÐ0 ) , donde Ð0 = fS; ?g , el espacio trivial de evento (no informativo).
Desde este punto de vista (X) constituye una restricción sobre = (todo
informativo) en el sentido de que (ver capítulo 3):
fS; ?g (X) =.
Habiendo acordado que (7.23) tiene sentido intuitivo necesitamos asegurar
que también tiene sentido matemático.
Un caso simple. Antes de considerar el caso general, vamos a discutir
primero el caso en que ambas variables aleatorias X e Y son discretas y
toman solamente un número …nito de valores, es decir:
RY := fy1 ; y2 ; :::; yn g , RX := fx1 ; x2 ; :::; xm g .

En este caso la media condicional (7.23) se puede pensar en términos de
los eventos:
ß:= fBk , k = 1; 2; :::; mg , donde Bk := fs : X (s) = xk g , (7.24)
que constituyen una partición de S, en el sentido de que:

[m
S= Bk , y Bk \ Bi = ?, i 6= k, i; k = 1; 2; :::; m.
k=1
En términos de estos eventos podemos pensar en (X) como de…nido por

sus 2m uniones; ni intersecciones ni complementos son necesarios porque ß
constituye una partición de S.
Ejemplo
Consideremos el ejemplo de lanzar una moneda dos veces, S = f(HH); (HT ); (T H); (T T )g,
se elige que = sea el conjunto potencia y se de…nen las variables aleatorias:
X(T T ) = 0; X(HT ) = X(T H) = 1; X(HH) = 2;

Y (T T ) = Y (HH) = 2; Y (HT ) = Y (T H) = 1.
Tomando la preimagen de la variable aleatoria X podemos ver que:

1 1 1
B0 = X (0) = f(T T )g; B1 = X (1) = f(HT ); (T H)g; B2 = X (2) = f(HH)g;
mostrando que esto constituye una partición de S, ya que:
B0 \ B1 = ?; B1 \ B2 = ?; B0 \ B2 = ? y S = B0 [ B1 [ B2 .
Por lo tanto,
(X) = fS; ?; B0 ; B1 ; B2 ; B0 [ B1 ; B0 [ B2 ; B1 [ B2 g.
Regresando a la media condicional (7.23), podemos verla en términos de
los eventos Bk :
Xn
E (Y jXk = xk ) = yi P (Y = yi jX = xk ) , k = 1; 2; :::; m, (7.25)
i=1
que de…ne una sucesión de medias condicionales, una para cada valor de
X, donde:
P (Y = yi , X = xk )
P (Y = yi jX = xk ) = , i = 1; 2; :::; n k = 1; 2; :::; m.
P (X = xk )
(7.26)
En este sentido las diferentes medias condicionales en (7.25) pueden in-
terpretarse en términos de la variable aleatoria:
Z (:) := E (Y (:) j (X(:))) : S ! R, (7.27)

de tal manera que cuando X(s) = xk entonces Z(s) = zk ; k = 1; 2; :::; m.
Además, sustituyendo (7.26) en (7.25) y reordenando los términos resulta:
Xn
E (Y jXk = xk ) P (X = xk ) = yi P (Y = yi ; X = xk ) , k = 1; 2; :::; m.
i=1
En esta etapa debemos resistir la tentación de interpretar la media condi-

cional (7.23) como la suma:
Xm Xm Xn
E (Y jXk = xk ) P (X = xk ) = yi P (Y = yi ; X = xk ) ,
k=1 k=1 i=1
(7.28)
porque,
[m como se mostró anteriomente, (X) involucra más eventos que
sólo Bk . Un momento de re‡exión, sin embargo, sugiere que esta suma
k=1
(7.28) de…ne la media condicional estocástica:
E (Y (:) jß
) : S ! R.
Recordemos que yendo de ßtal como se de…ne en (7.24) (no un -campo)
a (X) sumamos todas las uniones de los eventos Bk 2ß , la variable aleatoria
(7.27) se puede pensar en términos de todos los eventos de B 2 (X) como:
X X Xn
E (Y j (X)) P (B) = yi P (Y = yi ; B) , para todo B 2 (X)
B2 (X) B2 (X) i=1
(7.29)
Es claro que E (Y j (X)) es una variable aleatoria en relación con (X).
Ejemplo
Considere la siguiente distribución conjunta:
x/y -1 0 1 f (x)
-1 0.1 0.2 0.1 0.4
(7.30)
1 0.2 0.1 0.3 0.6
f (y) 0.3 0.3 0.4 1
La distribución(s) condicional de (Y jX = x) para x = 1 y x = 1 son
las siguientes:
y 1 0 1 y 1 0 1
1 1 1 , 1 1 1 (7.31)
f (yjx = 1) 4 2 4
f (yjx = 1) 3 6 2
Además, las medias condicionales en estos casos son:
1 1 1
E (Y jX = 1) = ( 1) + 0 + 1 = 0,
4 2 4
1 1 1 1
E (Y jX = 1) = ( 1) + 0 + 1 = .
3 6 2 6
E (Y j (X)) es una variable aleatoria en relación con (X) en el sentido
de que puede tomar dos valores 0; 16 , con probabilidades (0:4; 0:6), respec-
tivamente:
x 1 1
P (X = x) 0:4 0:6 (7.32)
1
E (Y j (X)) 0 6
El caso más general. Libros matemáticamente más inclinados expresan
(7.29) en el caso general, donde (X; Y ) son variables aleatorias arbitrarias,
utilizando la expresión más bien poco apetecible:
Z Z
E (Y j (X)) dP = Y dP para todo B 2 (X) . (7.33)
B B
Esto dice que el promedio de E (Y j (X)) sobre B es el mismo mismo
que la media de Y misma sobre todos los subconjuntos B (X) =.
NOTE que en general Y 6= E (Y j (X)) porque Y no es necesariamente
una variable aleatoria en relación con (X). Este resultado fue probado
por primera vez por Kolmogorov (1933a), pero las matemáticas necesarias
para deducir la relación anterior con rigor son bastante exigentes (ver Ash
(1972) para una deducción más rigurosa). Sin embargo, una comprensión
intuitiva de (7.33) puede ser adquirida viendo la esperanza como un operador
suavizado.
La manera más conveniente para deshacerse de las integrales poco apeteci-
bles (o sumatorias) en (7.33) (y (7.29)) es utilizar la función indicador en
combinación con el operador esperanza, es decir:
Z
Z dP := E [Z IB ] .
B
1, si s 2 B,
donde IB denota la función indicador del conjunto B: IB (s) = .
0, si s 2
= B.
Esto nos permite expresar (7.33) en la forma menos intimidante:
Z
E [E (Y j (X)) IB ] = E [Y IB ] Y dP para todo B 2 (X) . (7.34)
B
NOTA: en vista del hecho de que (X) incluye todas las posibles fun-
ciones de Borel de la variable aleatoria X, podemos de…nir E (Y j (X)) en
términos de dichas funciones a través de:
E [E (Y j (X)) g (X)] = E [Y g (X)] , para toda función Borel g (X) .

(7.34)
suponiendo que E [Y g (X)] < 1; ver Parzen (1962).

Una extensión más. La anterior de…nición de esperanza condicional
(7.34) en el contexto del espacio de probabilidad (S; =; P (:)), se puede ex-
tender aún más a:
E [E (Y jÐ) ID ] = E [Y ID ] , para toda D 2 Ð =,

donde la de…nición de la variable aleatoria E (Y jÐ) gira en torno a la
elección de Ð. En uno de los extremos del espectro podemos elegir que Ð sea
subcampo no informativo: Ð:= fS; Og en cuyo caso:
E (Y jÐ0 ) = E (Y ) ,
donde Y0 := E (Y jÐ0 ) puede ser visto como una variable aleatoria degen-
erada de la forma:
Y0 (:) : S ! E (Y ) , con probabilidad uno (w:p:1) .

NOTE que esta es una variable aleatoria con respecto a cualquier Ð =;
todos los -campos incluyen fS; Og. Vista como una operación suavizada,
la variable aleatoria Y es completamente suavizada a una constante. En el
otro extremo del espectro podemos elegir que Ð sea el sub campo todo
informativo (para Y ): ÐY := (Y ), en cuyo caso el condicionamiento da
lugar a:
E (Y jÐY ) = Y , donde Y (:) : S ! RX .

Viendo las esperanzas condicionales como una operación de suavizado,
la variable aletoria Y se deja intacta. NOTE que, en general, Y no es una
variable aleatoria con respecto a Ð0 . Entre esos dos casos extremos, podemos
elegir que Ð sea cualquier sub -campo, tal que:
Ð \ ÐY = Ð 6= ?. (7.35)
Esto nos permite pensar en Ð como la cantidad de información acerca
de Y que Ð contiene y E (Y jÐ) puede ser vista como una operación de
suavizado cuyo efecto es inversamente proporcional a la proximidad de Ð a
Ð. En particular, la elección Ð0 := fS; ?g no contiene información acerca de
Y (obteniéndose una variable aleatoria degenerada) y la elección ÐY contiene
toda la información relevante acerca de Y (obteniéndose la variable aleatoria
Y misma). La elección ÐX := (X) para la que (7.35) se mantiene, dará

lugar a cierta suavización de Y que se encuentra entre estos dos extremos.
Función estocástica esperanza condicional. Recopilando los hilos
de todo lo expuesto, de…nimos E (Y j (X)) como una variable aleatoria que
satisface las siguientes propiedades:
(i) E (Y j (X)) es una variable aleatoria en relación con (X),
(ii) E (Y j (X)) = h (X) para alguna h (:) : R ! R,
(iii) E [E (Y j (X)) IB ] = E ([Y IB ]), para toda B 2 (X).
NOTE que necesitamos establecer la existencia, así como la unicidad
de E (Y j (X)). La existencia es establecida por la derivación matemática
de (7.33) (utilizando la derivada llamada de Radon-Nikodym). La unici-
dad de la esperanza condicional E (Y j (X)) = h (X) también se deriva del
mismo aparato matemático, pero es una unicidad casi segura (c.s) (véase el
capítulo 3) que dice que para cualesquiera par de esperanzas condicionales
E (Y j (X)) = h1 (X) y E (Y j (X)) = h2 (X), debe ser cierto que:
P (h1 (X) = h2 (X)) = 1 o h1 (X) = h2 (X) c.s.

Este concepto de esperanza condicional se puede extender a cualquier sub
-campo Ð =, ya que siempre podemos encontrar una variable aleatoria X
tal que (X) =Ð, en el sentido de que todos los eventos (X x) 2Ð, para
todo x 2 R. Esta es otra manera de decir que la información Ð transmite
al modelador lo que la variable aleatoria X tiene. NOTE que X podría ser
fácilmente un vector aleatorio.
Ejemplo
Es interesante observar los dos casos extremos de dicha esperanza condi-
cional los cuales que son:
E (Y jfS; ?g) = E (Y ) , E (Y j=) = Y .

La primero se sigue del hecho de que Ð0 no es informativo y lo segundo
porque = incluye toda la información relevante incluyendo (X).
6.3.2 Determinando hr (X) = E (Y r j (X))

Una vez establecida la existencia y la unicidad c.s. de E (Y r j (X)), pro-
cedemos a considerar el problema de determinar la forma funcional de hr (X) =
E (Y r j (X)). El sentido común sugiere que la similitud entre (7.20) y (7.21)
se trasladará a las formas funcionales. Es decir, cuando las funciones ordi-

narias condicional momento toman la forma:
E (Y r jX = x) = hr (x) , x 2 RX , r = 1; 2; :::;
interpretamos las funciones estocásticas condicionales momento como
E (Y r j (X)) = hr (X) , para X~DX (:) , r = 1; 2; ::: (7.36)

En este sentido se puede conjeturar que:
E (Y r jX = xi ) = hr (xi ) , para todo xi 2 RX ) E (Y r j (X)) = hr (X) .

(7.37)
Esta conjetura resulta ser válida. Es decir, la forma funcional ordinaria y
las correspondientes funciones estocásticas momento condicional coinciden.
La única diferencia es que las funciones estocásticas momento condicional
son variables aleatorias.
La pregunta que surge naturalmente es ¿cómo se determina la función
hr (x) en primer lugar. La respuesta desde el punto de vista de modelación
es que tanto las densidades condicionales como las funciones condicionales
momento se determinan por la densidad conjunta como se muestra en (7.19).
Sin embargo, esta respuesta no siempre es posible y necesitamos que consid-
erar formas alternativas para determinar estas funciones. Una vez más, sin
pérdida de generalidad consideramos el caso simple r = 1.
De…niendo la propiedad. Sean X e Y dos variables aleatorias de…nidas
en el mismo espacio de probabilidad (S; =; P (:)) tal que E(jY j) < 1, en-
tonces:
E (Y j (X)) = h (X) , de…nida a través de: E [(Y h (X)) g (X)] = 0, para toda g (:) .
(7.38)
donde g(:) : R ! R es cualquier función acotada Borel.
6.3.3 Propiedades de la esperanza condicional estocás-

tica
De la discusión anterior es evidente que cualquier intento de poner en prác-
tica la reducción de la distribución conjunta en (7.3) requerirá no sólo la
distribución condicional ordinaria o la forma encontrada en el capítulo 6,

sino productos de la forma:
f (x; y; ) = f (yjx; 2) f (x; 1) , para todo (x; y) 2 RX RY . (7.39)
Como se dijo antes, el concepto de las correspondientes funciones condi-

cionales momento cambian a:
E (Y r j (X)) = hr (X) , r = 1; 2; :::

Con el …n de ser capaces de manejar esos momentos aleatorios pro-
cedemos a establecer ciertas propiedades útiles de la esperanza condicional
E (Y j (X)). Observemos en primer lugar que, para los propósitos de la dis-
cusión que sigue E (Y jX = x) puede ser provechosamente visto como un caso
especial de E (Y j (X)).
Considere las tres variables aleatorias X, Y y Z de…nidas en el mismo
espacio de probabilidad (S; =; P (:)), cuyos momentos, como se requiere en
cada caso, existen. La primera propiedad importante es que la esperanza
condicional tiene la misma estructura matemática lineal que la experanza
ordinaria (ver capítulo 3).
Linealidad
EC[1]. E (aX + bY j (Z)) = aE (Xj (Z)) + bE (Y j (Z)), a; b, con-
stantes.
Esta propiedad puede ser fácilmente adaptada al caso especial: E (aX + bY jZ = z).
Una segunda propiedad importante es que la esperanza condicional está
relacionada con la experanza ordinaria, tomando otra experanza con respecto
a la variable condicionante.
La ley del logaritmo iterado (lie)
EC[2]. E (Y ) = E [E (Y j (X))].
Esta propiedad se deduce directamente de la de…nición de esperanza
condicional ya que:
E E (Y j (X)) I (X) =E Y I (X) = E (Y ) .

NOTA: la esperanza doble se de…ne como sigue:
2 3
Z1 Z1
E [E (Y jX)] = 4 y f (yjx) dy 5 f (x) dx.
1 1
En otras palabras, para derivar la media (marginal) haciendo uso de la

media condicional, tomamos esperanzas de la esperanza condicional, con re-
specto a la distribución marginal de la variable aleatoria X.
Ejemplo
Considere la distribución conjunta (7.30) junto con las densidades condi-
cionales (7.31). Vamos a obtener E(Y ) a través de las experanzas condi-
cionales. La propiedad CE2 sugiere tomar esperanzas de E(Y jX) sobre X
es decir,
E(Y ) = (0:4)E(Y jX = 1) + (0:6)E(Y jX = 1) = 0:1;

que coincide con la evaluación directa de la esperanza:
E(Y ) = ( 1)(0:3)0(0:3) + 1(0:4) = 0:1:

Del mismo modo, la distribución(es) condicional de x dado y = 1; 0; 1
se dan a continuación:
x 1 1 x 1 1 x 1 1
1 2 , 2 1 ; 1 3
f (xjy = 1) 3 3
f (xjy = 0) 3 3
f (xjy = 1) 4 4
E (XjY = 1) = ( 1) 31 + (1) 23 = 13 ,
E (XjY = 0) = ( 1) 32 + (1) 13 = 13 ,
E (XjY = 1) = ( 1) 41 + (1) 34 = 12 ,
E (X) = (0:3) E (XjY = 1) + (0:3) E (XjY = 0) + (0:4) E (XjY = 1) =
0:2,
lo cual coincide con la evaluación directa: E (X) = ( 1) (0:4)+(1) (0:6) =
0:2.
Una tercera propiedad de la esperanza condicional es que cualquier fun-
ción de Borel de la variable aleatoria X (que es una variable aleatoria en
relación con (X)) pasa a través del condicionamiento inalterada.
Tomando lo que es propiedad conocida
EC3. E (h (Y ) g (X) j (X)) =g(X) E (h (Y ) j (X)).
Esta propiedad implica que en el caso donde Y es una variable aleatoria
en relación con (X):
E (Y j (X)) = Y c.s.
El propiedad EC3 puede ser fácilmente adaptada al caso especial E (h (Y ) g (X) jX = x),
y se puede utilizar para mejorar nuestra intuición. Cuando una variable
aleatoria condicionante es "clavada" en un cierto valor X = x, esto indirec-

tamente "clava" todas las funciones de X.
Ejemplo p
Considere las funciones h (Y ) = Y , g(X) = X 2 :
p p
E (h (Y ) g (X) jX = 1) = ( 1)2 E Y jX = 1 = E Y jX = 1 .
Estas propiedades son especialmente útiles en el contexto de modelos de
regresión por numerosas razones que se discutirán en las próximas secciones.
En este punto es instructivo utilizar estas propiedades a …n de obtener un
resultado importante en relación a las regresiones lineales.
Ejemplo. En el caso de la distribución normal bivariada la media condi-
cional toma la forma:
E (Y j (X)) = 0 + 1X (7.40)
donde los parámetros ( 0 ; 1 ) adoptan la forma dada en (7.10). Si par-
timos de (7.40), la pregunta que surge es: ¿cómo los parámetros 0 y 1
se relacionan con los momentos de f (x; y)? Usando la lie (EC2) podemos
deducir que E (Y ) = 0 + 1 E (X), es decir,
0 = E (Y ) 1E (X) . (7.41)
Aplicando las propiedades lie (EC2) y el "sacar lo que se conoce" (EC3)
podemos deducir que:
E (X Y ) = E [E (X Y j (X))] = E [X E (Y j (X))] .
Sustituyendo la forma de la media estocástica condicional signi…ca que
podemos deducir que:
E (X Y ) = E [X E ( 0 + 1 X)] = E fX E (Y ) 1 [E (X) + 1 X]g

= E (X) E (Y ) + 1 E f[X E (X)] Xg
= E (X) E (Y ) + 1 EX 2 E (X) E (X)
= E (X) E (Y ) + 1 E X 2 [E (X)]2
= E (X) E (Y ) + 1 V ar (X)
) Cov (X; Y ) = E (X Y ) E (X) E (Y ) = 1V ar (X) ,
Cov (X; Y )
1 = . (7.42)
V ar (X)
Este resultado implica que, independientemente de la naturaleza de la

densidad conjunta f (x; y), si la función de regresión es lineal, cuando se ex-
presa en la forma E (Y j (X)) = 0 + 1 X, los parámetros 0 y 1 están
relacionados con los momentos de f (x; y) a través de (7.41) y (7.42). Tam-
bién tenga en cuenta que, en vista de la relación entre la covarianza y el
coe…ciente de correlación Corr(X; Y ) = p Cov(X;Y p) 5, b1 también se
V ar(X) V ar(Y )
puede expresar en forma equivalente:
"s #
V ar (Y )
1 = Corr (X; Y ) .
V ar (X)
Esta es la razón por la cual en la sección 2 relacionamos las funciones

de regresión lineal con el coe…ciente de correlación, incluso en los casos de
distribuciones no simétricas donde la correlación no es una medida adecuada
de la dependencia de distribución. La conclusión es que cuando uno postula
(7.40) la parametrización implícita coincide con la parametrización bajo el
supuesto de normalidad bivariada dado en (7.10).
La propiedad mejor pronóstico de mínimos cuadrados
[EC4]. E [Y E (Y j (X))]2 E [Y g (X)]2 para toda g(:).
Esto signi…ca que de entre todas las posibles funciones g(:) de X, E [Y g (X)]2 ,
la distancia, conocida como el error cuadrático medio (ECM): E [Y g (X)]2 ,
es minimizada por la función: g(X) = E (Y j (X)).
Es decir, la media condicional proporciona el mejor predictor del error
cuadrático medio. Esta es una propiedad particularmente muy útil porque
hace a la esperanza condicional la opción obvia para un predictor (regla de
pronóstico).
La última propiedad de esperanza condicional estocástica está relacionado
con el tamaño del conjunto de información condicionante.
La propiedad del corsé
[EC5]. E fE (Y j (X; Z) j (X))g = E ffE (Y j (X))g j (X; Z)g = E (Y j (X)).
La intuición que subyace a esta propiedad es que en condicionamiento se-
cuencial el conjunto más pequeño de información (note que (X) (X; Y ))
domina el condicionamiento. Igual que usar dos corsés; el más pequeño dom-
inará independientemente del orden en el que los lleve puestos!
6.4. EXOGENEIDAD DÉBIL 341
6.4 Exogeneidad débil

En las dos secciones anteriores hemos discutido la cuestión de hacer frente a
la reducción:
f (x; y; ) = f (yjx; '2 ) f (x; '1 ) , para todo (x; y) 2 RX RY . (7.43)
En la sección 2 ignoramos la distribución marginal f (x; '1 ) y se argu-

mentó que podemos hacer frente a las muchas distribuciones condicionales
(una para cada valor de X) extendiendo el concepto de momentos condi-
cionales a funciones. En la sección 3 hemos extendido el concepto de fun-
ciones condicionales momento a su versión estocástica que toma en cuenta
los pesos como los de…nidos por la distribución marginal.
La pregunta que naturalmente surge en esta etapa es si existen circun-
stancias en las que el modelador pueda en realidad hacer caso omiso de la
distribución marginal y modelar en términos de las funciones momento condi-
cional. Esto sería útil porque haciendo caso omiso de la distribución marginal
reducimos el número de parámetros desconocidos y por lo tanto resolvemos
el problema de sobreparametrización. Como se ha dicho en la introducción,
la reducción en (7.3) no ofrece ningún alivio al problema de la sobrepara-
metrización. A …n de que la discusión sea menos abstracta vamos a discutir
esta cuestión en relación con un ejemplo especí…co.
Ejemplo
Como mostramos anteriormente, en el caso en el cual f (x; y; ) es nor-
mal bivariada como la dada en (7.9), las densidades condicional y marginal
también son normales:
2
(Y jX = x) ~N 0 + 1 X; , x 2 R, X~N ( 2 ; 22 ) ;
2
12 2 12
0 = 1 1 2; 1 = ; = 11 (7.44)
22 22
La reducción ha provocado una reparametrización de la forma: !

('1 ; '2 ) :
:= ( 1 ; 2 ; 12 ; 11 ; 22 ) 2 := R3 R2+ ;
'1 := ( 2 ; 22 ) 2 1 := (R R+ ) ;
'2 := ( 0 ; 1 ; 2 ) 2 2 := (R2 R+ ) ;
pero el número de parámetros desconocidos no ha cambiado.
Esto sugiere que a menos que haya alguna forma de ignorar ciertos parámet-
ros, por ejemplo los parámetros '1 de la distribución marginal, no hay una
verdadera simpli…cación del problema de la modelación, ya que, en cierto
sentido, todavía estamos tratando con la distribución conjunta. La pregunta
que surge naturalmente en esta etapa es en qué medida podemos concen-
trarnos exclusivamente en la distribución condicional y sus parámetros en el
caso donde la distribución marginal no es de interés intrínseco. La respuesta
en pocas palabras es que depende de cómo los dos conjuntos de parámet-
ros '1 2 1 , '2 2 2 se restrinjan entre sí. La respuesta es a…rmativa en
el caso de que 2 (el conjunto de valores permisibles de '2 ) no es afectado
por cualquiera de los valores tomados por '1 2 1 y viceversa; pero no de
otra manera. El concepto que necesitamos es el llamado variación libre
(variation freeness).
Variación libre. Decimos que '1 y '2 son de variación libre si para
todos los valores de '1 2 1 , el rango de valores posibles de '2 permanece
en el espacio original de parámetros y no en algún subconjunto propio de él.
Utilizando el concepto de variación libre, podemos dar una respuesta
más formal a la pregunta anterior sobre si podemos concentrarnos en la
distribución condicional.
Exogeneidad débil. En el caso donde los parámetros de interés son
sólo aquellos de '2 (o alguna función de ellos) y '1 y '2 son variación libre,
entonces se dice que X es débilmente exógena con respecto a '1 y f (x; '1 )
puede ser ignorada. En los casos donde X no es débilmente exógena con
respecto a '1 necesitamos construir el modelo estadístico teniendo en cuenta
las distribuciones condicional y marginal en (7.43); (véase Engle, Hendry y
Richard (1983)).
El concepto de exogeneidad débil se ilustra a continuación en el contexto
de ejemplos especí…cos, empezando por el caso Normal de dos variables.
(i) Normal bivariada. En el caso donde f (x; y; ) es Normal bivariada,
como aparece en (7.9), notemos que '1 2 1 := R R+ y '2 := ( 0 ; 1 ; 2 ) 2
2
2 := R R+ . Por lo tanto, se puede argumentar que X es débilmente
exógena con respecto a '2 , ya que no importa qué valores de '1 en 1 se
eligen, los parámetros '2 pueden tomar todos sus posibles valores en 2 .
(ii) t de Student bivariada. En el caso de la distribución t de Student
bivariada con v > 2 grados de libertad, denotada por:
Y 1 11 12
~St ; ; v (7.45)
X 2 21 22
6.4. EXOGENEIDAD DÉBIL 343
la densidad condicional de Y dado X = x y la densidad marginal de X

también son también t de Student de la forma:
v 2 1 2
(yjX = x) ~St 0+ 1 X; 1+ [x 2] v + 1 , x 2 R.
v 1 v 22
X~St ( 2 ; 22 ; v) (7.46)
donde los parámetros ( 0 ; 1 ; 2 ) coinciden con los de la Normal bivariada

(ver (7.44)). La parametrización involucrada toma la forma:
:= ( 1 ; 2 ; 12 ; 11 ; 22 ) 2 := R3 R2+ ;
'1 := ( 2 ; 22 ) 2 1 := (R R+ ) ;
'2 := ( 0 ; 1 ; 2 ; 22 ; 2 ) 2 2 := R3 R2+ .
En vista de estos resultados podemos argumentar que X no es débilmente
exógena con respecto a '2 , porque los valores de parámetros tomados por
'2 en 2 pueden ser directamente restringidos a través de '1 debido a que
( 2 ; 22 ) aparecen en los dos conjuntos de parámetros desconocidos. Como
resultado de esto, la modelación no puede ignorar la distribución marginal de
X, incluso si los parámetros de interés son aquellos en '2 . En este sentido,
la condicionalidad anterior es bastante engañosa; deberíamos haber utilizado
en su lugar condicionalidad sobre -campo (X), con la regresión y curvas
cedásticas siendo:
v 2 1 2
E (Y j (X)) = 0 + 1 X, V ar (Y j (X)) = 1+ [x 2]
v 1 v 22
(7.47)
Concluimos esta sección haciendo notar dos características importantes
de exogeneidad débil.
(i) El concepto de exogeneidad débil está inextricablemente ligado a la
distribución conjunta y su parametrización en relación a la de las distribu-
ciones condicionales y marginales.
(ii) Teniendo en cuenta los resultados en las dos secciones anteriores, es
probable que exogeneidad débil sea la excepción y no la regla en la práctica.
6.5 El concepto de mecanismo generador es-

tadístico (MG)
Como se ha argumentado en el capítulo 1, para que los datos observados pro-
porcionen evidencia sin prejuicios en la evaluación de la validez de una cierta
teoría, es imperativo que construyamos el modelo estadístico (un resumen
conveniente de los datos) en términos de conceptos no teóricos (non-theory
concepts). En los capítulos 2-6 introdujimos varios conceptos probabilísti-
cos que tienen por objeto sentar los fundamentos y el andamiaje del marco
de referencia en el contexto del cual tales modelos estadísticos se pueden
construir. El concepto de modelo estadístico de…nido hasta el momento sólo
cuenta con dos componentes, los modelos de probabilidad y muestral. Aunque
esto es su…ciente para modelos estadísticos simples, para la modelación de
fenómenos económicos que muestran dependencia y heterogeneidad necesita-
mos introducir un tercer componente que llamamos mecanismo generador
estadístico (MG). El objetivo principal de este componente es proporcionar
un puente entre el modelo estadístico y el modelo teórico sugerido por la
teoría económica. El objetivo último de la modelación empírica no es sólo
el resumen de la información sistemática en los datos en forma de un mod-
elo paramétrico parsimonioso, sino el uso de estos modelos para entender
fenómenos económicos. En este sentido, relacionar tales modelos estadísti-
cos con los modelos de la teoría económica es de fundamental importancia.
En este libro relacionar un modelo estadístico adecuado con los modelos de
la teoría económica en cuestión se llama identi…cación (ver también Spanos
(1986,1990)).
6.5.1 El ángulo de visión de la teoría

La tesis anterior debe ser contrastada con el enfoque de libro de texto tradi-
cional a la modelación econométrica (véase, en particular Gujarati (1995)),
que asume desde el principio que el MG estadístico y el modelo teórico coinci-
den, además de algún término de error, independientemente de la naturaleza
y la estructura de los datos observados. Consideremos la teoría-modelo cono-
cida como la hipótesis de ingreso absoluto:
Ct = + Y D , donde > 0, 1 < < 1,

NOTA. En el libro de Spanos dice "Ct = a + Y D , donde > 0,
6.5. EL CONCEPTO DE MECANISMO GENERADOR ESTADÍSTICO (MG)345
1 < b < 1" (p. 68). En la ecuación y en las desigualdades los

coe…cientes no son los mismos.
donde C y Y D designan las variables teóricas consumo e ingreso, respec-
tivamente. Este modelo es metamorfoseado en el Modelo de Regresión lineal:
Ct = + YtD + "t , "t ~N IID 0; 2

, t = 1; 2; :::; Y . (7.48)
(I) pretendiendo que estas variables de la teoría coinciden con lo que los
datos observados disponibles pretenden medir y
(ii) adjuntando un término de error ruido blanco (normal) al modelo de
la teoría.
Ni que decir tiene que (i) es infantil ingenuo y (ii) destruye al principio
cualquier posibilidad de que los datos podrían proporcionar evidencia sin pre-
juicios en la evaluación de la validez de la teoría en cuestión. El modelador
simplemente forza la teoría a los datos y luego procede a jugar morfogeométri-
camente ("Procrustes"); corta los trozos que parecen sobresalir! Además,
este punto de vista da la impresión de que un modelo teórico en la forma
de una ecuación lineal entre dos variables observables es un requisito previo
para que el modelador sea capaz de especi…car un modelo de regresión lineal.
Esto constituye el ángulo de visión de la teoría: viendo (7.48) de derecha
a izquierda, como un mecanismo que genera Ct dado YtD ; "t . El argumento
es que este punto de vista asume que:
(a) el término de error "t es una prótesis autónoma al modelo teórico,
(b) los parámetros teóricos ( ; ) gozan de una interpretación clara de
la teoría ( es el ingreso de subsistencia, es la propensión marginal al
consumo), que son los invariantes del sistema y sin relación con las vari-
ables YtD ; "t . Este ángulo de visión es adecuado para analizar los aspectos
teóricos del modelo de la teoría como un sistema, pero puede ser miope y
engañoso cuando se utiliza para analizar los aspectos estadísticos del modelo.
Para este último caso tenemos que introducir un punto de vista alternativo
que contemple (7.48) en términos puramente probabilísticos y está directa-
mente integrado en la estructura de los datos observados. Este punto de vista
contempla (7.48) como un MG estadístico que, en pocas palabras, constituye
una descomposición ortogonal de la variable aleatoria Ct dado la conjunto
de información asociado con el valor de la variable aleatoria YtD . Vamos a
considerar este concepto con algún detalle.
6.5.2 El concepto de conjunto de información condi-

cional
Sea el espacio de probabilidad de interés (S; =; P (:)). En vista del hecho de
que todos los eventos de interés son elementos de =, de…nimos información
en términos de subconjuntos de =, es decir, Ð constituye información en el
contexto del espacio de probabilidad (S; =; P (:)) si Ð =, donde Ð abarca
desde el caso no informativo Ð0 = fS; ?g, lo sabemos a priori, al caso com-
pletamente informativo Ð = =, lo sabemos todo. En vista del hecho de que
siempre podemos de…nir una variable aleatoria X tal que el mínimo -campo
generado por X coincide con Ð, es decir, (X) =ÐX , podemos pensar la in-
formación como una restricción sobre el espacio de eventos = relativo a algún
aspecto observable del mecanismo aleatorio de que se trate. Esto nos per-
mitirá poner en práctica las expresiones de la forma E(Y jÐ), que se puede
interpretar como la esperanza condicional de la variable aleatoria Y dado el
subconjunto Ð: un conjunto de eventos conocidos por el modelador. Además,
sabemos que por la transformación de la información no hay posibilidad de
aumentarlo, pero hay una cierta posibilidad de que la transformación podría
reducirlo. Más formalmente, para cualquier función (Borel) bien comportada
g(:) de X :
(g (:)) (X) ,
pero lo contrario también es cierto sólo en el caso de que la función es
uno a uno, es decir,
(g (:)) = (X) , sólo si g (:) : RX ! R es uno a uno.
6.5.3 Descomposiciones ortogonales del MG estadís-

tico
El MG estadístico en relación con el primer momento condicional estocástico
de una variable aleatoria Y respuesta (asumiendo que E jY j2 < 1 , referido
al conjunto de información Ð se especi…ca para ser la descomposición ortog-
onal de la forma:
Y = E(Y jÐ) + u, (7.49)

E(Y jÐ): el componente sistemático,
u = Y E(Y jÐ): el componente no sistemático,

en relación con el conjunto de información condicionante Ð. La existen-
cia de tal descomposición ortogonal está garantizada por la existencia de un
segundo momento (integrabilidad cuadrática para los peritos en matemática)
de la variable aleatoria Y . Su unicidad es la equivalencia casi segura (o con
probabilidad uno) discutida anteriormente; véase también el capítulo 9. Al
ver las variables aleatorias con varianza acotada como elementos de un espa-
cio lineal, E(Y jÐ) representa una proyección ortogonal y la descomposición
(7.49) es análoga al teorema de proyección ortogonal (ver Luenberger (1969)),
con E(Y jÐ), el mejor predictor en el sentido de…nido por la propiedad EC4
anterior. La conexión entre las proyecciones ortogonales y esperanzas condi-
cionales se remonta a Kolmogorov (1941a, b), extendieno el trabajo de Wold
(1938).
El componente no sistemático a menudo se llama término error o pertur-
bación. Los dos componentes cumplen las siguientes propiedades:
(i) E(ujÐ) = 0;
(ii) E(u2 jÐ) = V ar (Y jÐ) < 1; (7.50)
(iii) E(u [E(Y jÐ)]) = 0:
La descomposición ortogonal anterior es puesta en funcionamiento cuando

el conjunto de información condicionante Ð es relacionado con variables
aleatorias observables como en el caso donde: Ð= (X), donde X es un
vector de variables aleatorias de…nidas en el mismo espacio de probabilidad
(S; =; P (:)). NOTE que en este caso (7.49) es una descomposición de la
función de regresión. La descomposición ortogonal anterior se puede exten-
der fácilmente a las funciones momento condicional de orden superior en el
sentido de que (asumiendo que los momentos requeridos existen):
ur = E (ur jÐ) + vr ; r = 2; 3; :::

donde u = Y E(Y jÐ). De particular interés son los primeros momentos
centrales condicionales.
IMPORTANTE: las descomposiciones anteriores suponen implícitamente
la existencia de momentos hasta un cierto orden. En general, la descomposi-
ción ortogonal de r-ésimo momento condicional existe cuando los momentos
hasta orden 2r están acotados, por ejemplo, E jY j2r < 1.
En la sección 2 se argumentó que el objetivo principal de los modelos de

regresión es modelar (7.6) a través de las primeras funciones momento condi-
cional tal como se de…nen en (7.11). Usando las anteriores descomposiciones
ortogonales podemos proceder a especi…car los modelos de regresión en tér-
minos de las primeras cuatro funciones momento condicional de la siguiente
manera:
Yt = E (Yt j (Xt )) + ut ,
urt = E (urt j (Xt )) + vrt , r = 2; 3; 4.
Consideremos varios ejemplos de tales descomposiciones.
MG estadístico simple
Para entender el papel del conjunto de información condicionante Ð, con-
sideremos primero el caso en que no hay información de dependencia. En este
caso elegimos que Ð sea el conjunto no informativo conjunto Ð0 = fS; ?g.
Se dice que no es informativo porque, como se mencionó anteriormente, para
cualquier variable aleatoria Y de…nida sobre S, E(Y jÐ0 ) = E (Y ). En este
caso, la descomposición en (7.49) toma la forma:
Yk = E (Yk ) + "k , k 2 N,
y las condiciones [i] - [iii] son trivialmente ciertas.
Modelo Normal simple
[1] MG estadístico: Yk = E (Yk ) + "k , k 2 N,
[2] Modelo de probabilidad:
( 1
)
( 11 )
2 1 2
= ff (y; )g = p exp (y 1) ; 2R R+ , x2R;
2 2 11
: = ( 1; 11 ) ; E (X) = 1; V ar (X) = 11 .
[3] Modelo muestral: Y := (Y1 ; Y2 ; :::; Yn ) es una muestra aleatoria.

Este es un ejemplo particularmente importante de un modelo estadístico
simple que se utiliza ampliamente en los capítulos 11-15. Por lo tanto, en
el caso de modelos estadísticos simples (una muestra aleatoria se postula),
podemos complementar los modelos de probabilidad y muestral con un MG
estadístico de la forma simple dada anteriormente.
MG estadístico de Regresión.
En el caso donde Ð incluye alguna información de dependencia como en
el caso de los modelos de regresión donde:
Ðt = (Xk = xk ),
el MG estadístico toma la forma general:
Yk = E (Yk jXk = xk ) + uk , k 2 N.
Por diseño, los componentes sistemático y no sistemático, se de…nen por:
(xk ) := E (Yk jXk = xk ) ; uk = Yk E (Yk jXk = xk ), k 2 N,
respectivamente, son ortogonales. Esto se deduce directamente de las
propiedades de esperanza condicional EC1-EC3 (véase más atrás):
[i] E (uk jXk = xk ) = E fYk E [(Yk jXk = xk )] jXk = xk g

= E (Yk jXk = xk ) E (Yk jXk = xk ) = 0, k 2 N.
es decir, uk condicionada Xk = xk , no tiene efectos sistemáticos medios.
Además,
[ii] E fuk (xk )g = E (E fuk E [(Yk jXk = xk )]g jXk = xk )

= E (Yk jXk = xk ) E f(uk jXk = xk )g = 0, k 2 N.
de EC2, EC3, y [i], es decir, uk y E (Yk jXk = xk ), condicional a Xk = xk ,
son mutuamente ortogonales; denotado por:
uk ? E (Yk jXk = xk ), k 2 N.
Además de las propiedades [i] - [ii] podemos mostrar que uk y Yk tienen
la misma varianza condicional:
[iii] E (u2k jXk = xk ) = V ar (Yk jXk = xk ), k 2 N,
de EC1. Por otra parte, la media no condicional de uk también es cero
[iv] E (uk ) = E (E (uk jXk = xk )) = 0, k 2 N,
de EC2, EC2 y EC3, es decir uk es ortogonal a Xk .
IMPORTANTE: es importante tener en cuenta que media condicional
cero para el componente no sistemático implica media no condicional cero:
E (uk jXk = xk ) = 0 ) E (uk ) = 0,

pero lo contrario no es cierto :
E (uk ) = 0 ; E (uk jXk = xk ) = 0.

Para ver esto consideremos el siguiente ejemplo.
Ejemplo
Volviendo a la distribución conjunta (7.7) y las distribuciones condi-
cionales relacionadas, se observa que ninguna de estas esperanzas condi-
cionales es cero. Por otro lado, la esperanza no condicional de Y , evaluada
usando la ley de esperanzas iteradas es:
1 1
E (Y ) = E fE (Y jX = x)g = (0:5) (0:5) = 0.
5 5
Del mismo modo, ortogonalidad condicional entre Xk y uk implica ortog-
onalidad no condicional:
E (Xk uk jXk = xk ) = 0 ) E (Xk uk ) = 0,
pero lo contrario no es cierto:
E (Xk uk ) = 0 ; E (Xk uk jXk = xk ) = 0.
NOTA: la intuición detrás de este resultado es que para la media no
condicional hay un promedio más (sobre los valores de X), más allá de la
media condicional.
Regresión lineal/Normal. El modelo de regresión más ampliamente
utilizado es el de regresión Lineal/Normal, cuyo MG estadístico toma la
forma:
donde el término de error ut , satisface las propiedades [i] - [v] obtenidas
anteriormente. La especi…cación completa del modelo de regresión lin-
eal/Normal toma la forma:
[1] MG estadístico: Yt = 0 + 1 Xt + ut , t 2T,
( ( ) )
2
1 (y 0 1 xt )
= ff (yt jxt ; )g = p exp 2
; 2 , yt 2R ;
2 2
2
: = 0; 1; ; := R2 R+ ,
Cov (Xt ; Yt ) 2 [Cov (Xt ; Yt )]2
0 : = E (Yt ) 1 E (Xt ) , 1 = , := V ar (Yt ) .
V ar (Xt ) V ar (Xt )
[3] Modelo muestral: Y := (X1 ; X2 ; :::; Xn ) es una muestra independiente
secuencialmente extraída de f (yt jxt ; ), t = 1; 2; :::; T .
Una comparación directa entre los modelos Normal simple y de regresión
lineal/Normal revela algunas diferencias interesantes. Al comparar los dos
modelos de probabilidad, podemos ver que el modelo de regresión se expresa
en términos de la distribución condicional f (yt jxt ; ), pero el modelo Normal
simple en términos de la distribución marginal f (yt ; ). Una comparación de
los modelos muestrales revela que en el caso de la regresión la muestra ya no
aleatoria (independientes e idénticamente distribuida), es sólo independiente.
Este es el caso, ya que las densidades condicionales f (yt jxt ; ), t 2T, están
cambiando con t, porque las medias condicionales están cambiando con xt :
2
(Yt jXt = xt ) ~N I ( 0 + 1 xt ; ), t 2T;
es decir, ellas no están idénticamente distribuidas.
Como argumentamos antes, utilizando las funciones momento condicional
(a menudo las funciones de regresión y cedástica) introducidas en la sección
anterior, podemos especi…car un modelo de regresión diferente para cada
distribución bivariada. El modelo de regresión lineal/Normal puede ser muy
engañoso como la base de los modelos de regresión en general, debido a
que una serie de temas importantes no surgen en su contexto. Más allá del
modelo de regresión lineal/Normal se plantean varias cuestiones nuevas. Se
puede obtener alguna idea de las di…cultades planteadas por otros modelos
de regresión al considerar el modelo de regresión lineal t de Student.
Regresión lineal t de Student
[1] MG estadístico:
h Yt = 0 +i 1 Xt + ut , t 2T,
2 v 2 1 2
ut = (v 1) 1 + v 22 [Xt 2] + v2t
2
= f (yt jxt ; ) f (x; 2) ; := 0; 1; 2; ; 22 2 R3 R2+ , (xt ; yt ) 2 R2 ;
! ( ) 1
(v+2)
1 2 2
2
[v + 2] 1 (yt 0 1 xt )
ff (yt jxt ; )g = 1
((v 1) ht (xt )) 2 1+
2
[v + 1] (v 1) ht (xt )
! 1
1 (v+1)
2
[v + 1] 1 1 2
2
f (xt ; 2) = 1
[v 22 ]
2 1+ [Xt 2] , 2 = E (Xt ) ;
2
v v 22
Cov (Xt ; Yt )
22 = V ar (Xt ) ; 0 = E (Yt ) 1 2; 1 = ,
V ar (Xt )
2 [Cov (Xt ; Yt )]2
: = V ar (Yt ) .
V ar (Xt )
[3] Modelo muestral: Y := (X1 ; X2 ; :::; Xn ) es una muestra independiente
secuencialmente extraída de f (yt jxt ; ), t = 1; 2; :::; T .
Este modelo di…ere del de regresión lineal/Normal en dos aspectos im-
portantes:
(i) X no es débilmente exógena con respecto a los parámetros de la dis-
tribución condicional, y por lo tanto no podemos ignorar la distribución mar-
ginal f (x; 2 ).
(ii) La varianza condicional es heterocedástica, por lo que necesitamos

completar la descomposición ortogonal de la función de regresión con la de
la función cedástica.
Para concluir esta subsección notamos que la literatura econométrica
tradicional hasta la década de 1980 se limitó a la función de regresión. Recien-
temente, sin embargo, ha habido intentos por relacionar la teoría económica
con la función cedástica, especialmente en relación con los modelos teóricos
en …nanzas. El hecho de que los momentos condicionales de orden superior
no se hallan tenido en cuenta es el resultado de ver estos momentos desde el
ángulo de visión de la teoría que exige la teoría económica para introducir
las relaciones conectadas con estos momentos.
6.5.4 El ángulo de visión estadístico

El MG estadístico como se de…ne en (7.49) con las propiedades (7.50) de…ne
el punto de vista estadístico, en contraste con el teórico discutido en la
subsección anterior. Como podemos ver, el MG estadístico se de…ne para
todos los modelos estadísticos, no sólo para los modelos de regresión, y tiene
una interpretación puramente probabilística. Por ejemplo, en el caso del
modelo lineal/Normal el ángulo de visión estadístico considera:
Yt = 0 + 1 xt + ut ; t 2 T; (7.53)
de izquierda a derecha como una descomposición ortogonal de la variable
aleatoria observable (Yt ) en un componente sistemático E (Yt jXt = xt ) y un
componente no sistemático (no modelado) ut = Yt E (Yt jXt = xt ). En
contraste con los supuestos implícitos (a) - (b) del ángulo de visión de la
teoría, el ángulo de visión estadístico postula explícitamente que:
(a)* el término de error ut es deducido y vinculado a la estructura prob-
abilística de (Yt ; Xt ),
(b)* los parámetros estadísticos ( 0 ; 1 ; 2 ) gozan de una interpretación
probabilística clara y que están indisolublemente ligados a la estructura prob-
abilística de (Yt ; Xt ).
Una mirada más de cerca a los otros modelos estadísticos especidica-
dos anteriormente pone de mani…esto que todos los parámetros tienen una
interpretación probabilística en términos de los momentos de las variables
aleatorias observables involucradas y no hay parte de…nida en términos de
los conceptos de la teoría. En los próximos capítulos de estos modelos se ex-
tenderán en una serie de direcciones, pero su estructura básica seguirá siendo

la misma.
Un mecanismo generador estocástico.
Resulta que para ciertos aspectos del análisis estadístico, el MG estadís-
tico podría ser provechosamente visto como un mecanismo generador estocás-
tico. Es decir, un punto de vista que contemple (7.53) de derecha a izquierda,
como un mecanismo que genera a Yt dado (xt ; ut ). Esta interpretación alter-
nativa parece en un primer momento tener una cierta a…nidad con el punto
de vista teórico, pero, de hecho, la semejanza resulta para ser más aparente
que real.
El MG estadístico del modelo Normal simple, cuando se ve como un
mecanismo generador estocástico, se expresa en la forma:
1
Yk = 1 +( 11 )
2
k ; k ~N IID (0; 1) ; k 2 N: (7.54)
La forma más fácil de interpretar esto es como el mecanismo que cuando
se simula utilizando números pseudoaleatorios (véase el capítulo 5) dará datos
con la misma estructura probabilística que la muestra postulada;Normal In-
dependiente e Idénticamente Distribuida (NIID). Del mismo modo, el MG
estadístico de los modelos de regresión Normal y t de Student, como mecan-
ismos generadores estocásticos, toman la forma:
Yt = 0 + 1 xt + t ; t ~N IID (0; 1) ; t 2T
1
Yt = + 1 Xt + (h (Xt ))
0
2
t ; t ~St (0; 1; v + 1) ; Xt ~St ( 2 ; 22 ; v) ; t 2T
v 2 1 2
donde h (Xt ) = 1+ [Xt 2] , respectivamente. (7.55)
(v 1) v 22
Hay varias cosas que tener en cuenta sobre esta interpretación.

En primer lugar, se trata de una interpretación estadística porque el prin-
cipal objetivo es simular (utilizando números pseudo aleatorios) una estruc-
tura probabilística de la muestra (Y1 ; Y2 ; :::; Yn ) como se de…ne por su dis-
tribución conjunta. En segundo lugar, una parte integral del punto de vista
de la simulación es la interpretación estadística de los parámetros involu-
crados. Como hemos visto, estos parámetros se de…nen en términos de los
momentos de las variables aleatorias observables implicadas, por lo que las
simulaciones bien diseñadas deben tener esto en cuenta, ya que representan
restricciones implícitas. Esto es particularmente crucial cuando se diseñan
simulaciones Monte Carlo para abordar los difíciles problemas de distribu-

ción muestral. Un diseño que ignore cualquiera de las restricciones implícitas
sobre los parámetros y los momentos de las distribuciones subyacentes es
problable que puedan dar lugar a resultados engañosos. En tercer lugar, la
interpretación del mecanismo generador estocástico se basa en el MG estadís-
tico del primero momento condicional, pero debe ser modi…cado para incluir
la información contenida en los momentos condicionales de orden superior.
En el caso de los modelos Normal simple y de regresión lineal /Normal no
hay ninguna información adicional porque el segundo momento es constante.
En el caso del modelo de regresión t de Student, sin embargo, esto ya no es
así y la información adicional deberá integrarse en el MG estadístico como
se mostró anteriormente.
6.5.5 Razón de dependencia*

El concepto de mecanismo generador estadístico (GM), introducido anteri-
ormente, sugiere una forma natural para medir la dependencia entre Y y la
variable aleatoria(s) X, de…niendo el conjunto de información condicional.
Correspondiente a la descomposición ortogonal basada en la media condi-
cional:
Y = E (Y jX) + u,
existe una relación entre las varianzas de los tres términos:
V ar (Y ) = V ar [E (Y jX)] + V ar (u) : (7.56)

Esto se deduce directamente de la ortogonalidad de los componentes sis-
temático y no sistemático e indirectamente de la igualdad:
V ar (Y ) = E [V ar (Y jX)] + V ar [E (Y jX)] ,
y del hecho de que (propiedad EC2 anterior):
E [V ar (Y jX)] = E E u2 jX = E u2 = V ar (u) .
Dado que u representa el componente no sistemático (la parte no mod-
elada) del MG estadístico, una medida de dependencia que se sugiere en si
misma, es la razón de dependencia:
V ar fE (Y jX)g E fV ar (Y jX)g V ar (u)

Dr (Y jX) = =1 =1 .
V ar (Y ) V ar (Y ) V ar (Y )
Esto se introdujo por primera vez por Kolmogorov (1933a), quien lo llamó
razón de correlación, atribuyendo la idea a Pearson (1903). Como se
mencionó en el capítulo 6, esta medida es de dependencia que se puede uti-
lizar cualquiera que sea el sistema de medición de las variables aleatorias en
cuestión.
La razón de dependencia, como una medida de dependencia, satisface
ciertas propiedades deseables:
[1]. 0 Dr (Y jX) 1.
[2]. Dr (Y jX) = 0, si X y Y son independientes.
[3]. Dr (Y jX) = 1, si y sólo si Y = h (X) c.s.
La primera propiedad se deriva de (7.56) directamente. La segunda
propiedad se deduce del hecho de que cuando X e Y son independientes:
E (Y jX) = E (Y ) ) V ar [E (Y jX)] = 0.
La parte si de la tercera propiedad es trivial ya que Dr (Y jX) = 1 implica
que:
E [Y E (Y jX)]2 = 0 ) Y = h (X) c.s.

La parte sólo si se deduce del hecho de que si Y = h (X), entonces la
función h (X) (X), y por lo tanto h (X) = E (Y jX) con probabilidad
uno (c.s).
En vista de la propiedad [3], Dr (Y jX) se puede interpretar como una
medida de dependencia probabilística análoga a la noción matemática de de-
pendencia funcional Y = h (X), donde la función h (:) coincide con la función
de regresión de Y dado X = x. Para dar un paso más, esta propiedad puede
ser utilizada para caracterizar la función de regresión. Es decir, Dr (Y jX)
se puede interpretar como la correlación máxima entre Y y todas las posi-
bles funciones h(X), con el máximo alcanzado por la función de regresión
h0 (X) = E (Y jX):
Dr (Y jX) maxCorr2 [Y; h (:)] = Corr2 [Y; h0 (:)] (7.57)

h(:)
Renyi (1970) introduce tal caracterización añadiendo las siguientes condi-

ciones:
[1]. E [h0 (X)] = E (Y ),
[2]. V ar [h0 (X)] = V ar (Y ) Dr (Y jX),
[3]. E [h0 (X) Y ] > 0.
Esto se deduce de la propiedad EC4 que dice que la media condicional de

Y dado X proporciona el mejor predictor (en el sentido de error cuadrático
medio) de Y .
OBSERVACIONES:
(i) La razón de dependencia no es una función simétrica de Y y X, como
lo es el coe…ciente de correlación. La razón intuitiva para la asimetría es el
hecho de que las dos funciones de regresión, por ejemplo E (Y jX) = h (X) y
E (XjY ) = g (Y ) no necesariamente tienen la misma forma funcional.
(ii) En el caso donde la función de regresión es lineal en X, E(Y jX) =
0 + 1 X, la razón de dependencia coincide con el coe…ciente de correlación
al cuadrado:
Dr (Y jX) = [Corr (X; Y )]2 .

Esto se deduce del hecho, de que en este caso:
[Cov (X; Y )]2

V ar [E (XjY )] = .
V ar (X)
Para concluir esta sección observamos que una ventaja importante de la
razón de dependencia es que se puede extender fácilmente al caso en que X
es un vector de variables aleatorias, por ejemplo X := (X1 ; X2 ; :::; Xm ):
V ar fE (Y jX)g E fV ar (Y jX)g
Dr (Y jX) = =1 .
V ar (Y ) V ar (Y )
En el caso donde la función de regresión E (Y jX) es lineal en X, Dr (Y jX)
coincide con el coe…ciente de correlación múltiple R2 , donde: R2 = maxCorr2 (Y; 0
X),
Xm
0 2
X= i Xi y Corr (:), la correlación al cuadrado (ver Spanos (1986),
i=1
capítulo 15).
6.6 La tradición biométrica en estadística

Como se ha dicho en Spanos (1995b), el enfoque de los libros de texto tradi-
cionales puede ser visto como un híbrido de dos antiguas tradiciones en es-
tadística: la teoría de los errores y las tradiciones de diseño experimental.
También se a…rma que ambas tradiciones son más adecuadas para la mod-
elación de datos experimentales en lugar de datos observacionales (no exper-
imentales); el resultado de la observación pasiva de un sistema sin los medios
6.6. LA TRADICIÓN BIOMÉTRICA EN ESTADÍSTICA 357
para interferir o controlar el proceso de generación de datos. Se mencionó en

el capítulo 1 que la tradición biométrica, desarrollada a …nales del siglo 19 y
20 es más adecuada para la modelación con datos observacionales.
En esta sección hacemos una breve digresión para rastrear las raíces de la
tradición biométrica. Para una discusión más amplia ver entre otros, Stigler
(1986), Porter (1986), MacKenzie (1981) y Kevles (1985)).
6.6.1 Galton
El concepto de regresión es uno de los muy pocos conceptos en estadística,
cuyas raíces son a la vez claras e incuestionables. El concepto fue propuesto
por primera vez por Galton (1877), formalizado en Galton (1885,1886), exten-
dido por Pearson (1894,1895,1896) y relacionado con la tradición de mínimos
cuadrados por Yule (1897). El padre de la moderna inferencia estadística R.
A Fisher acredita a Galton y sus estudios pioneros en la herencia de propor-
cionar los fundamentos de la estadística moderna. En el prólogo de Fisher
(1956) él alaba los estudios pioneros de Galton y continúa:
El gran regalo de Galton estaba en su conciencia, que creció durante su
vida, de la vaguedad de muchas de las frases en las que los hombres trataron
de expresar la descripción de fenómenos naturales. Se adelanto a su tiempo
en su reconocimiento de que la imprecisión podría ser eliminada y una cierta
precisión de pensamiento intentada encontrando de…niciones cuantitativas
en condiciones de tomar el lugar de frases tales como "el hombre medio",
"variabilidad", "la fuerza de la herencia", y así sucesivamente, a través del
conjunto de datos objetivos, y su examen sistemático ... (Fisher (1956), p.
2).
Galton fue muy impresionado por la variedad de variables medidas cuya
histograma Quetelet (1849) fue capaz de describir utilizando la distribución
normal (conocido en ese tiempo como la ley de error), abarcando desde
el número de suicidios y violaciones en París en un año a algunas medidas
antropomór…cas. El interés de Galton estabe principalmente en la eugenesia:
la mejora de la raza humana de Gran Bretaña mediante la reproducción
selectiva (ver Kevles (1985)). Según MacKenzie (1981, p. 11):
Un conjunto especí…co de objetivos sociales es común a la obra de Galton,
Karl Pearson y R. A Fisher. Todos eran eugenistas. A…rmaron que la carac-
terística humana más importante, como la capacidad mental, eran heredada
de una generación a la siguiente. Los ancestros de la gente, en lugar de su
entorno, es fundamental para determinar sus características. La única forma
segura a largo plazo para mejorar la sociedad, argumentaron, era mejorar

las características de los individuos en ella, y la mejor manera de hacer esto
es asegurar que los de la generación actual con buenas características (el
"apto") tengan más hijos que aquellos con malas características (el "no apto
") ...
En un giro terrible del destino, la atroz causa de la eugenesia utilizada
por Hitler para dar una justi…cación seudo cientí…ca a sus políticas racistas,
proporcionó el impulso principal para el desarrollo de la estadística moderna.
Vamos a recorrer los primeros pasos de la estadística moderna que llevaron
a la regresión y correlación.
Quetelet aplicó ampliamente la más temprana tradición estadística, la
teoría de errores (ver Spanos (1995b)), desarrollada por primera vez en la
astronomía y la geodesia, al análisis estadístico de las medidas sociales con
la esperanza de desarrollar la física social. En la tradición de la teoría de los
errores, el centro de atención fue dado a los errores de medición. Los datos
observados se consideraron como medida de la misma (verdadera), variable
pero cada observación tenía un error de medición que podría ser descrito
como aleatorio. Además, cuando algunas observaciones se recolectaron ellas
tendían a mostrar el patrón de regularidad aleatoria asociado a la distribu-
ción Normal en forma de campana. En este contexto, el objetivo principal
de la modelación era descubrir la verdadera variable reduciendo al mínimo
los errores de medición. Gauss introdujo la distribución normal como la que,
bajo ciertas restricciones, descubre la verdadera variable a través de la me-
dia de la distribución. Quetelet adapto este procedimiento para dar lugar a
la física social, mediante la asociación de la media con l’homme moyen (el
hombre promedio), representando una especie de ideal y viendo el compor-
tamiento social como desviaciones del hombre promedio; ver Stigler (1986),
Porter (1986).
Galton, continuando con la tradición asociada a Quetelet, utilizó la curva
de frecuencia de la ley de error (Normal) para describir algunos conjuntos
de datos de medidas antropomór…cas, como la capacidad mental y carac-
terísticas físicas de las poblaciones humanas, tales como altura y peso, y se
sorprendió por lo bien que la curva normal describía estos datos. El primer
problema que Galton tuvo que enfrentar fue la interpretación de las desvia-
ciones de la media heredado de Quetelet. Al describir la capacidad mental
usando la curva normal, la pregunta obvia es si ¿un genio constituye un error
de la naturaleza y la mente promedio el ideal? Para una eugenista la re-
spuesta era ciertamente no! Además, para Galton la variación alrededor de
la media no era un error a ser minimizado. En sus memorias Galton (1908,

p. 305) explica cómo tuvo que romper con la tradición de la teoría de errores:
Los objetos principales de la Ley de Gauss de los errores se oponían
exactamente, en un sentido, a aquellos a los que se les aplica. Ellos tenían
que ser eliminados o proporcionar una asignación justa de los errores. Pero
estos errores o desviaciones fueron las mismas cosas que yo quería preservar
y conocer...
En este sentido, Galton volcó la mesa a la teoría de la tradición errores
viendo la aleatoriedad como inherente a la naturaleza y no introducida como
un intento de observar y medir. Además, la variabilidad asociada con esta
aleatoriedad era precisamente en lo que se interesaba. Como resultado de este
cambio de actitud las variables aleatorias observables tomaron el centro del
escenario y la media fue sólo una característica de la distribución describiendo
esta variabilidad. De hecho, Galton (1875a) fue un paso más allá y propuso
sustituir la noción de media y de error probable con los conceptos de mediana
y rango intercuartil (ver capítulo 3), como medidas más adecuadas para las
mediciones antropomór…cas. El rompimiento de Galton con la tradición de
la teoría de los errores pueden ser fácilmente discernida de su propuesta de
sustituir el término de error estándar (conocida en ese entonces como error
probable) con el término desviación estándar; las desviaciones de la media
ya no eran vistas como errores.
La segunda principal separación de la teoría de errores iniciada por Galton
fue motivada por su interés en el descubrimiento de la dependencia entre
las variables lo cual condujo naturalmente a las distribuciones conjuntas y
condicionales. Los conceptos más in‡uyentes introducido por Galton fueron
los de regresión y correlación, que, como se muestra en este y en los últimos
capítulos, se basan en las distribuciones condicionales y conjuntas y se pueden
utilizar para modelar (y cuanti…car) la dependencia entre variables aleatorias.
El término regresión fue acuñado por Galton (1885) en el contexto del
estudio de la herencia en las poblaciones humanas. En su intento de descubrir
una relación entre la altura de los padres y la altura de sus hijos, introdujo
el concepto de curva de regresión en el contexto de poblaciones Normales.
Es bastante interesante que él formuló el concepto de regresión mediante
el estudio de la relación entre dos conjuntos de datos usando diagramas de
dispersión. Veamos esto en detalle.
El concepto de regresión, se propuso por primera vez por Galton (1877) al
estudiar las características heredadas entre dos generaciones de chícharos y se
llamó inicialmente reversión. El documento que puso regresión en estadística
fue Galton (1885), estudiando la relación entre la altura del padre y el de

la descendencia.Galton (1885), examinando la distribución de la altura de
una generación de seres humanos a la siguiente, observó que la distribución
de la altura (histograma) de su población muestral parece seguir siendo la
misma, como en el caso de los chícharos (véase Galton (1877 )). Para ser
más especí…co, en su estudio de la herencia, Galton notó que el histograma
de las mediciones:
Xt - la altura de la mitad de los padres y Yt - la altura de la descendencia,
se podría describir con una curva de frecuencia casi idéntica a la Normal.
Él de…ne la altura de la mitad de los padres como:
X1t + (1:08) X2t

Xt :=
2
donde X1t es la altura del padre y X2t es la altura de la madre. La escala
de 1:08 se basó en la diferencia entre la altura media de los hombres frente a
la de las mujeres.
La pregunta que naturalmente surge en la mente de Galton fue la misma
que en el caso de los chícharos:
¿Cómo es que, aunque cada individuo no tiene como regla, dejar detrás
de él, sin embargo, las sucesivas generaciones se parecen entre sí con gran
exactitud en todas sus características generales? ...
(Galton
(1877), p. 492)
Su explicación última de este aparente enigma se basó principalmente en
la línea de regresión de…nida por:
Cov (Yt ; Xt )
[E (Yt jXt = xt ) E (Yt )] = [xt E (Xt )] , xt 2 R.
V ar (Xt )
Cómo Galton derivó la línea de regresión es una historia fascinante que

vale la pena contar con algún detalle.
Paso 1. Trazó el diagrama de dispersión de los dos conjuntos de datos
f(xt ; yt ) ; t = 1; 2; :::; T g.
Paso 2. Unió los puntos de datos con aproximadamente la misma fre-
cuencia de ocurrencia y se dio cuenta de que estas curvas de igual frecuencia
forman curvas elípticas concéntricas.
Paso 3. Usando el argumento de que "cuando el número de observaciones

aumenta las curvas de igual frecuencia se obtienen curvas más lisas y suaves",
supone que en el límite ellas forman elipses perfectas.
Paso 4. Al darse cuenta de que su formación matemática no fue su…ciente
para aprovechar estos contornos concéntricos elípticos de la distribución bi-
variada correspondiente, él requisó la ayuda de su amigo matemático Dick-
son. Con la ayuda de Dickson, deriva la densidad normal bivariada (véase el
apéndice de Galton (1886)).
Paso 5. Utilizando un argumento ingenioso, Galton sugirió que la línea
que describe mejor la relación entre (Xt ; Yt ) (lo que él llama la línea de
regresión) es la que pasa por el centro de las elipses (el punto en el que los
dos ejer principales se encuentran) y corta las elipses en su punto de tangencia
con las líneas paralelas al eje y. En la …gura 7.21 podemos ver los contornos
de una densidad Normal bivariada con parámetros:
E (Yt ) = 1:0, E (Xt ) = 2:0, V ar (Yt ) = 0:8, V ar (Xt ) = 1:8, Cov (Xt ; Yt ) =
0:6,
y las dos líneas de regresión:
E (Yt jXt = xt ) = 0:333 + 0:333xt ,
E (Yt jXt = xt ) = 1:25 + 0:75yt .
Tenga en cuenta que la línea de regresión:
[E (Xt jYt = yt ) E (Xt )] = Cov(Y t ;Xt )
V ar(Yt )
[yt E (Yt )], yt 2 R,
también pasan por el centro de las elipses, pero las corta en el punto de
tangencia con las líneas rectas paralelas al eje x; otra idea de Galton!
Figura 7.27. Normal bivariada (= 0:5) contornos y lineas de regresión.

Lo que es fascinante desde nuestro punto de vista es que Galton fue capaz
de proceder a partir de los datos observados, generar la densidad teórica
bivariada subyacente a estos datos usando al diagrama de dispersión y luego

proceder a de…nir la línea de regresión.
OBSERVACIONES:
(i) Galton asume implícitamente que E (Yt ) = E (Xt ) := y V ar (Xt ) =
V ar (Yt ), en cuyo caso la línea de regresión anterior se reduce a la relación
proporcional:
[E (Yt jXt = xt ) ] = (xt ) , xt 2 R (7.59)
:= Corr (Xt ; Yt ) ; j j 1 (7.60)

A partir de esto Galton concluyó que hay una tendencia a regresar a la
media (debido a j j 1) en el sentido de que padres muy altos producen
vástagos que no son tan altos y padres muy bajos producen descendientes
que no son tan bajos.
(ii) Galton vio (7,59) como la ley de la herencia que subyace a la aparente
estabilidad de las características de la población en las generaciones sucesivas.
Galton estaba claramente equivocado en la elaboración de las implicaciones
de causalidad basado únicamente en la curva de regresión, porque por la
misma razón, desde el punto de vista estadístico, la regresión inversa:
[E (Xt jYt = yt ) ] = (yt ) , yt 2 R

tiene tanto justi…cación como la original. La regresión inversa corta las
elipses en su punto de tangencia con las líneas paralelas al eje x (véase la
…gura 7.21).
(iii) Cabe señalar que Galton supone implícitamente normalidad conjunta
y marginal, para las variables aleatorias Xt y Yt .
Para un estudiante moderno de estadística parece muy extraño que la
noción de correlación fue introducida por Galton (1888) (inicialmente como
co-relación) a través de la regresión utilizando las pendientes de las líneas de
regresión y regresión inversa:
Cov (Xt ; Yt )
[E (Yt jXt = xt ) ]= [xt ] , xt 2 R.
V ar (Xt )
Cov (Xt ; Yt )
[E (Xt jYt = yt ) ]= [yt ] , yt 2 R.
V ar (Yt )
La multiplicación de las dos pendientes da lugar al cuadrado del coe…-

ciente de correlación:
Cov (Xt ; Yt ) Cov (Xt ; Yt )

Corr (Xt ; Yt ) = .
V ar (Xt ) V ar (Yt )
Para los detalles de esta fascinante historia ver Stigler (1986).
6.6.2 Karl Pearson

Karl Pearson fue el primero en apreciar la importancia de las contribuciones
de Galton en relación a la regresión y correlación y procedió a formalizar y
ampliar ambas en direcciones diferentes.
La primera contribución fundamental de Pearson (1895,1896) fue la for-
malización del procedimiento de curvas de frecuencia de ajuste a los datos
observados, mediante la utilización de los cuatro primeros momentos (veáse
capítulo 3); el ajuste de la distribución Normal antes de Pearson tomó la
forma de dibujar la curva en forma de campana en el histograma de los datos
observados. Es interesante NOTAR que el concepto de momentos se ha uti-
lizado durante los siglos 18 y 19, pero Pearson acuñó el término e introdujo el
concepto en la estadística; Chebyshev utilizó el concepto de momentos en la
teoría de probabilidades en relación con el Teorema Central del Límite en la
década de 1870 , pero los dos hechos fueron separados en gran medida hasta
mediados del siglo 20. Pearson (1895) también fue el primero en introducir
los conceptos de asimetría y curtosis.
Pearson comenzó su trabajo estadístico sobre las cuestiones planteadas
por el intento de Weldon para aplicar los resultados de Galton a la correlación
de las poblaciones de cangrejos; Weldon fue un distinguido zoólogo en la Uni-
versity College donde Pearson fue profesor de Matemática Aplicada. Resultó
que el histograma de las mediciones de los cangrejos de Nápoles era a la
vez asimétrico y bimodal y Pearson (1894), en su primer documento estadís-
tico, intentó demostrar que el histograma puede ser descrito por la suma de
dos curvas normales con diferentes medias y varianzas; el primer intento por
tratar con el problema de heterogeneidad. La asimetría mostrada por los
datos biológicos y los datos de precios de Edgeworth convenció a Pearson de
que la distribución normal no era de aplicación universal, como previamente
había creido Quetelet y Galton. Esta situación llevó a la segunda contribu-
ción importante de Pearson a la tradición biométrica que llegó en la forma
de lo que hoy llamamos la familia de distribuciones Pearson, que incluye la
normal y la mayoría de las distribuciones más utilizadas, incluyendo varias

distribuciones no simétricas, como casos especiales (ver capítulo 4).
Relacionado con el procedimiento de modelación de las curvas de fre-
cuencias de ajuste de la familia Pearson a los datos observados es la tercera
contribución importante de Pearson, la prueba de chi cuadrado para eval-
uar la bondad de ajuste como parte de su estrategia de modelación; véase
Pearson (1900). Esta prueba constituye la primera prueba de errores de es-
peci…cación (ver capítulo 15), que tuvo un impacto crucial en el desarrollo
de la inferencia estadística en el siglo 20. Pearson es el más conocido por los
cientí…cos sociales con algún interés en estadística por esta prueba que por
cualquiera de sus otras contribuciones.
La cuarta contribución importante de Pearson fue la formalización y ex-
tensión de la regresión y la correlación de distribuciones bivariadas a multi-
variadas; véase Pearson (1896,1901,1902,1903,1904). Las fórmulas modernas
para los coe…cientes de correlación y regresión son en gran parte debidas
a Pearson. En relación con estas fórmulas también debemos mencionar a
Yule (1895-96,1896) que fue el primer alumno de Pearson, y más tarde su
ayudante; en sus publicaciones él le da todo el crédito a este maestro. Las
extensiones de correlación y regresión incluyen no sólo la correlación múlti-
ple, sino también la correlación parcial. Es interesante notar que Pearson
fue también el primero en advertir el modelador del problema de correlación
espuria en el caso de las variables medidas como razones con denominadores
comunes y / o numeradores (véase Pearson (1897)).
La quinta, y posiblemente la menos in‡uyente de sus aportaciones, es su
extensión de la regresión y las funciones momento condicional de orden supe-
rior a distribuciones conjuntas no Normales; véase Pearson (1905,1906,1920,1923
a-b, 1924,1925). Pearson fue el primero en apreciar la generalidad del con-
cepto de regresión y procedió a argumentar que el concepto se aplica a todas
las distribuciones conjuntas cuyos dos primeros momentos existen. Él conje-
tura que la linealidad y la homocedasticidad están inextricablemente ligados
con el supuesto de normalidad conjunta e instó a los modeladores a explorar
distribuciones conjuntas no simétricas. La investigación conjunta de Pear-
son con Weldon sobre poblaciones de cangrejos le llevó a las distribuciones
no simétricas y conjeturó que la curva de regresión es poco probable que
sea lineal y homoscedástica en estos casos. Sin embargo, Pearson no podría
ofrecer ejemplos concretos de otras formas funcionales de las curvas de re-
gresión, porque no había otras distribuciones de dos variables en ese tiempo.
Desafortunadamente, antes de tales distribuciones estuvieran ampliamente
disponibles su propuesta fue superada por ciertos acontecimientos cruciales.

En un artículo seminal Yule (1897) fue más allá de Galton y de Pearson
y propuso una relación directa entre la regresión de Galton y la relación
lineal entre dos variables como sugiere la tradición de la teoría de los errores
(mínimos cuadrados):
2
Yt = 0 + 1 xt + "t , "t ~IID 0; , t = 1; 2; ::::; T .
Luego pasó a señalar que:
(a) (7.58) se puede estimar mediante el método de mínimos cuadrados
(véase el capítulo 13) y
(b) el supuesto de normalidad no juega ningún papel en la estimación.
Él procedió a argumentar en favor del uso de los mínimos cuadrados
para aproximar una línea de regresión, incluso en los casos en que la línea
imaginaria a través de la grá…ca" no es del todo una línea recta" (Yule (1897),
p. 817).
Karl Pearson se opuso de inmediato a la generalidad aparente de Yule
y argumentó a favor de mantener la normalidad de la distribución conjunta
para propósitos de especi…cación:
Pearson quería empezar con una super…cie de frecuencia y, si una línea
de regresión se buscaba, encontrar esa línea apropiada a la super…cie. Si
la super…cie sigue la ley normal, entonces se podría aceptar el camino de
las líneas rectas de ajuste por mínimos cuadrados. Pero, "¿ pero, por qué
no debería otra ley incluso de frecuencia simétrica conducir a las p-ésimas
potencias de los residuos siendo mínimos? "... (Stigler (1986), p. 352)?" ...
(Stigler (1986), p. 352)
Desafortunadamente para la estadística Pearson fue mucho menos per-
suasivo que Yule y como resultado, el modelo de regresión lineal se confunde
a menudo con un número de diferentes modelos lineales, como el modelo lin-
eal de Gauss (ver Spanos (1986,1999)). La convicción de Pearson no tuvo
impacto en la estadística porque sus esfuerzos por generar distribuciones bi-
varidas no simétricas a través de un par de ecuaciones diferenciales parciales
estuvo en gran parte sin éxito hasta la década de 1930 (véase el capítulo 6 y
Mardia (1970). El principal obstáculo fue la disponibilidad de distribuciones
conjuntas cuyas funciones momento condicional pudieran derivarse analíti-
camente y luego usadas para especi…car modelos de regresión. Los intentos
parcialmente exitosos por Pretorius (1930) y después por Van Uven (1947a,
b, 48a,b) tuvieron muy poco impacto debido a que en los 1930 el éxito de
Yule fue completo . Desde el punto de vista de la regresión, los resultados de

Van Uven (véase el capítulo 6) son interesantes en la medida en que las dis-
tribuciones condicionales implícitas en las ecuaciones diferenciales parciales
restringidas pertenecen a la familia Pearson en el sentido de que cumplen la
relación general:
@Inf (yjx) g1 (x; y)

=
@y g2 (x; y)
El grado de éxito de Yule era tal que incluso el éxito anterior de Narumi
(1923a, b), que invierte el procedimiento especi…cando las funciones de re-
gresión y cedástica y luego procede a derivar la distribución conjunta, pasó
desapercibido. Los resultados de Narumi son de interés en el contexto actual
y se resumen para …nes de referencia; para más detalles vea la Mardia (1970).
El impacto de Yule, puede ser parcialmente explicado por el hecho de que
él escribió el primer libro de texto ampliamente utilizado en estadística (ver
Yule (1911)). Motivado por la relación:
f (x; y; ) = f (yjx; '2 ) fX (x; '1 ) , para todo (x; y) 2 RX RY .
la función de densidad bivariada de Narumi toma la forma restringida:
y h1 (x) x h2 (y)
f (x; y) = 1 (x) '1 , f (y; x) = 2 (y) '2 .
g1 (x) g2 (y)
Esta distribución bivariada está restringida poque pertenece a la familia
de distribuciones localización-escala. Las densidades condicionales tienen la
forma:
y h1 (x) x h2 (y)
f (yjx) = c1 '1 , f (xjy) = c2 '2 ,
g1 (x) g2 (y)
donde c1 y c2 son dos constantes de normalización. Aunque Narumi
exploró varios casos mediante la especi…cación de la forma funcional de las
funciones de regresión y cedástica, los más interesantes desde nuestro punto
de vista son los siguientes.
1. Regresión lineal y varianza condicional homocedástica. Pos-
tulando:
(yjx) = 0 + 1 x, (xjy) = 0 + 1 x,
2 2 2
(yjx) = 1, (xjy) = 22 ,
derivó densidades condicional y marginal que resultaron ser Normales,

produciendo una distribución Normal bivariada.
Regresión lineal y varianza condicional heterscedástica (lineal).
Al postular
(yjx) = 0 + 1 x, (xjy) = 0 + 1 x,
2
(yjx) = a1 + x, 2 (xjy) = a2 + y,
deriva una densidad conjunta de la forma general:
f (x; y) = c0 ( x + ) 1 ( y + ) 2 (ax + by + c) 3 .
Esta distribución conjunta incluye las distribuciones Beta bivariada, Pareto
y la F (véase el apéndice B) como casos especiales. Al restringir la varianza
condicional de Y dado X a ser:
2
(yjx) = a1 ,
Narumi deriva la densidad de dos variables:
2y
f (x; y) = c0 ( x + ) 1 e (ax + by + c) 3 ,
que incluye la distribución Gamma (McKay) (véase el apéndice B) como
un caso especial.
Regresión lineal y varianza heterocedástica condicional (parabólica).
Al postular
(yjx) = + 1 x, (xjy) = 0 + 1 x,
p0 p
2
(yjx) = a1 + x2 , (xjy) = a2 + y 2 ,
muestra que la densidad conjunta toma la forma general:

m
f (x; y) = c0 ax2 + by 2 + 2 1 xy + 2 2 x + 2 3 y + c .
Esta distribución conjunta incluye las distribución bivariada de Cauchy,

la t Student y la Pearson tipo II (véase el apéndice B) como casos especiales.
NOTA: el lector perspicaz habría dado cuenta de la conexión entre los
resultados de Narumi y de Van Uven (véase el capítulo 6).
Un siglo después del primer intento fallido de Pearson para generar dis-
tribuciones conjuntas podemos ahora argumentar que Pearson estaba en lo
cierto desde el principio. La sección 2 anterior se puede interpretar como
prueba de la tesis de Pearson presentando varios modelos de regresión aso-
ciados con diferentes distribuciones bivariadas. En efecto, si la sugerencia
de Yule se sigue cuando se estiman modelos de regresión, tal como la asoci-
ada a la distribución exponencial bivariada, el resultado es probable que esté
lejos de su objetivo! En la subsección siguiente regresamos a la estrategia de
modelación de Pearson.
6.6.3 Revisando la estrategia de modelación de Pear-

son
Desde el punto de vista de la modelación empírica, la estrategia de mod-
elación de Pearson (véase Pearson (1905, 1923a, b, 1924,1925)) tiene perfecta-
mente buen sentido y proporciona el fundamento para el planteamiento adop-
tado en este libro. La aproximación de Galton a la regresión lineal/Normal
se puede extender fácilmente a algunos otros modelos de regresión como se
discute en la sección 2. En el capítulo 6 consideramos la cuestión de utilizar
los diagramas de dispersión con el …n de tener una idea de la naturaleza de la
densidad bivariada por suavizamiento del estereograma (histograma bivari-
ado). Esto es simplemente una versión moderna del procedimiento de Galton
como se describio anteriormente. La super…cie suavizada del estereograma
(véase el capítulo 6) da al modelador ideas en cuanto a la distribución bivari-
ada más acorde, y esta información se puede utilizar con el …n de postular el
modelo de regresión adecuado.
Para ilustrar la relación entre la densidad bivariada y las curvas de re-
gresión volvamos a las distribuciones bivariadas en el capítulo 6. En las
…guras 7.22-7.23 podemos ver la densidad bivariada F con := (12; 8; 8) y
los contornos de equiprobabilidad correspondientes que son claramente no
elípticos y asimétricos. La relación entre la distribución conjunta y la línea
de regresión se puede ver en la …gura 7.23 que tiene una cierta a…nidad con
la de la distribución conjunta Normal en la …gura 7.21, pero también hay
una diferencia obvia. Las líneas de regresión Normales y F son similares en

tanto que el signo del coe…ciente de correlación determina su pendiente, pero
di…eren en la medida en cuanto que este último no pasa por la moda de la
densidad bivariada.
Además, no existe una relación evidente simple entre la pendiente de los
contornos en los puntos de intersección con la línea de regresión como señaló
Galton en el caso de la densidad Normal bivariada. NOTE que el coe…ciente
de correlación en las …guras 7.22 a 7.23 es = 0:444.
Figura 7.22. Bivariada F (23,8,8) la densidad de la super…cie.
Figura 7.23. Bivariada F (12,8,8) contornos y línea de regresión.
En las …guras 7.24-7.25 podemos ver las misma grá…cas en el caso en que la
correlación entre las variables aleatorias (X; Y ) es bastante alta ( = 0:953).
Como podemos ver la línea de regresión está mucho más cerca a (pero no
coincide con) el eje principal de los contornos elípticos casi simétricos. Al

igual que en el caso de la distribución normal, aumentando el coe…ciente de
correlación tiene el efecto de aplastar los contornos.
Figura 7.25. Bivariada F (5,60,60) contornos y la línea de regresión.
La conexión entre el coe…ciente de correlación y la recta de regresión se

hace más clara en las …guras 7.26-7.27 donde la correlación entre las variables
aleatorias (X; Y ) es baja ( = 0:035), con…rmando la relación directa entre
el coe…ciente de correlación y la pendiente de la línea de regresión.

Figura 7.27. Bivariada F (80,4,1) contornos y la línea de regresión.
En las …guras 7.28-7.29 podemos ver la densidad Gamma bivariada (Cherian)

(2,3,4) y los contornos correspondientes con la línea de regresión insertada,
respectivamente. Como podemos ver, la Gamma bivariada es muy similar
a la distribución F, pero con una forma diferente de asimetría. La línea de
regresión es similar a las líneas de regresión Normal y F en la medida en que
están directamente relacionadas con el coe…ciente de correlación. Este es el
resultado general que se deriva en la sección 3 anterior que dice que en el
caso de regresiones lineales, la línea toma la forma:
Cov (X; Y )
E (Y j (X)) = E (Y ) [X E (X)] . (7.61)
V ar (X)
En las …guras 7.30-7.31 podemos ver la densidad versión Beta bivariada
(3,3,6) y la densidad de los contornos correspondientes con la línea de regre-
sión insertda, respectivamente. Una vez más, la asimetría mostrada por los
contornos es muy diferente tanto de la distribución F como de la Gamma
bivariada. Como se muestra en el apéndice B, esta forma de la distribución
Beta bivariada sólo permite correlación negativa y por lo tanto la línea de
regresión, también de la forma general (7.61), sólo puede tener pendiente
negativa.
Figura 7.30. Beta bivarida (3,3,6). Super…cie de la densidad.
Figura 7.31. Beta bivarida (3,3,6) contornos y línea de regresión.

En un intento por evitar la impresión errónea de que "las curvas de re-

gresión son normalmente las líneas rectas" presentamos dos distribuciones
bivariadas con funciones de regresión no lineales.
En las …guras 7.32 a 7.33 podemos ver la densidad bivariada Exponencial
y los contornos correspondientes con la curva de regresión insertada, respec-
tivamente. Una vez más notamos la aparente falta de conexión entre la pen-
diente de los contornos y la curva de regresión en los puntos de intersección.
La forma de las funciones de regresión para esta y las otras distribuciones
discutidas anteriormente fueron señaladas en la sección 2 anterior.
Figura 7.32. Bivariada Exponencial ( = 1) densidad de la super…cie.
Figura 7.33. Exponencial bivariada ( = 1) contornos y curva de regresión.

En las …guras 7.34 y 7.35 podemos ver la densidad logística bivariada

(estándar) la y los correspondientes contornos con la curva de regresión in-
sertada, respectivamente.
Figura 7.34. Super…cie de la densidad logística bivariada.
Figura 7.35. Logística bivariada contornos y línea de regresión.
Una comparación entre las …guras 7.35 y 7.29 sugiere que decidir si la re-
gresión es lineal o no lineal con sólo mirar el diagrama de dispersión puede ser
peligroso! Una mejor estrategia de modelación será evaluar los contornos del
estereograma suavizado (véase el capítulo 6) antes tomar cualquier decisión
relativa a la naturaleza de la función de regresión. De hecho, la estrategia de
modelación de Pearson puede ser la mejor elección: primero decidir sobre la
distribución conjunta (utilizando los contornos del estereograma suavizado)

y luego proceder a la regresión y otras funciones momento condicional; véase
Pearson (1905,1920,1923 a-b, 1924,1925 ). Esta estrategia puede ser com-
plementada por la regresión suavizada de kernel no paramétrico discutido a
continuación a …n de evaluar la idoneidad de la distribución conjunta postu-
lada.
6.6.4 Kernel suavizado y regresión

Las técnicas de kernel suavizado introducidas en los capítulos 5-6 se pueden
utilizar para proporcionar al modelador una ayuda visual para decidir sobre
la idoneidad del modelo de regresión postulado. La idea básica es utilizar
la información transmitida por el diagrama de dispersión para evaluar una
curva de regresión no paramétrica directamente.
Como se ha dicho anteriormente, la función de regresión se de…ne por:
Z
E (Y jX = x) = y f (yjx) dy = h (x) , x 2 RX .
y2RY
f (x;y)
Sustituyendo f (yjx) = fX (x)
en esta de…nición resulta:
Z
f (x; y)
E (Y jX = x) = y dy = h (x) , x 2 RX .
y2RY fX (x)
A partir de esta relación podemos observar que el modelador puede obtener
una evaluación no paramétrica de la curva de regresión a partir del his-
tograma suavizado (véase el capítulo 5) y estereograma (véase el capítulo 6),
que representan los equivalentes empíricos de las densidades fX (x) y f (x; y),
respectivamente:
1 Xn xk x
fbX (x) = Kx ; hx > 0
nhx k=1 hx
1 Xn xk x yk y
fb(x; y) = Kx Ky ; hx > 0; hy > 0,
nhx hy k=1 hx hy
donde ambos kernels

Z satisfacen las propiedades:
[a] K (z) 0, [b] K (z) dz = 1.
z2RZ
La función de regresión puede ser evaluada empíricamente a través de:
Z
b =x f (x; y)
E Y jX = y dy
y2RY fX (x)
Xn
xk x
Kx hx
yk
k=1
= Xn (7.62)
xk x
Kx hx
k=1
Xn
= wk yk , x 2 RX .
k=1
donde las ponderaciones la forma:
xk x
Kx hx
wk = Xn .
xk x
Kx hx
k=1
El lado derecho de (7.62) se deduce del hecho de que:

Z Z
KY (y) dy = 1 y y KY (y) dy = 0.
y2RY y2RY
El evaluador no paramétrico de la función de regresión en (7.62) se conoce

como el "estimador" Nadaraya-Watson. Para más so…sticados evaluadores
de la función de regresión basado en técnicas de suavizado de kernel y otros
ver Hardle (1990).
Intuitivamente, las anteriores curvas suavizadas de regresión equivalen a
tomar una media ponderada (siendo los pesos wk , k = 1; 2; :::; n) de todos los
6.7. RESUMEN 377
puntos (xk ; yi ) en el intervalo (xk hx ) cuando k varía sobre todos los valores
de X. En la …gura 7.36 podemos ver un intervalo de este tipo (0:6 0:1)
dentro del cual varios puntos se promediarán verticalmente para reducirlos a
un punto.
En este libro consideramos el anterior evaluador no paramétrico de la
función de regresión no como un sustituto de la estrategia de modelación
expuesta anteriormente, sino como un complemento de la evaluación de la
idoneidad del modelo de regresión postulado. Esto se debe a que el evaluador
de la regresión suavizada hace caso omiso de las otras funciones condicionales
momento. Por el contrario, postulando una distribución bivariada permite
al modelador derivar las funciones momento condicional de orden superior.
Como hemos visto en la sección 2 anterior, la mayoría de las distribuciones
bivariadas dan lugar a funciones de varianza condicional heterocedástica.
Por lo tanto, el mejor uso de la regresión suavizada es para el modelador
superponer la curva de regresión teórica (que corresponde a la distribución
bivariada postulada) y la curva de regresión empírica no paramétrica en un
diagrama de dispersión para evaluar visualmente lo adecuado de la primera.
Para otros usos de tales evaluadores no paramétricos véase el capítulo 15.
6.7 Resumen
El principal objetivo de los anteriores tres últimos capítulos ha sido la exten-
sión del modelo estadístico simple, construido sobre el concepto de muestra
aleatoria, hacia modelos más realistas que pueden acoger alguna dependencia
y / o heterogeneidad. Después de haber argumentado que la mejor manera
de modelar la dependencia y la heterogeneidad es a través de distribuciones
conjuntas, se procedió a encontrar formas de lidiar con los problemas de
la multidimensionalidad y sobreparametrización derivados de tales distribu-
ciones. En el capítulo 6, además de desarrollar una serie de conceptos de
dependencia, se mostró que la condicionalidad secuencial proporciona una
manera más e…caz de lidiar con el problema de la dimensionalidad planeado
por las distribuciones conjuntas. Cualquier distribución conjunta se puede
reducir a un producto de distribuciones condicionales univariadas. Sin em-
bargo, este producto a menudo representa una familia in…nita de densidades
cuya información no puede ser modelada utilizando los momentos condi-
cionales ordinarios. El objetivo principal de este capítulo ha sido el desarrollo
del concepto de función estocástica momento condicional. Estas funciones
se de…nen en términos de los momentos condicional, pero se consideran fun-

ciones de las variables condicionantes. Las funciones condicional momento
más conocidas son las funciones de regresión y cedástica. Otro de los obje-
tivos de este capítulo ha sido mostrar que las funciones momento condicional
(regresión, cedástica, clítica y curtica) pueden ser integradas en la especi…-
cación de modelos estadísticos mediante la introducción de un componente
adicional, el mecanismo generador estadístico (MG). El MG estadístico ten-
drá un papel importante en la estimación y en la etapa de identi…cación:
relacionando un modelo estadístico a un modelo teórico.
El enfoque propuesto en este capítulo para modelar la dependencia / het-
erogeneidad utilizando modelos de regresión general se remonta a la tradición
biométrica fundada por Galton, formalizada y ampliada por Karl Pearson (y
hasta cierto punto Yule) y transformada en la estadística moderna por Fisher
(véanse los capítulos 11-15). Nuestro interés en la tradición biométrica se ha
restringido a su dimensión de modelación empírica y no se ha hecho referen-
cia a su relación con el tema de la Biología; para esto ver a MacKenzie (1981)
y Kevles (1985). Sin embargo, es importante mencionar la lección fundamen-
tal que se aprendió del fracaso de la tradición biométrica para dar lugar a la
biología estadística, como fue originalmente pensado por Karl Pearson. La
lección es que los modelos estadísticos por sí solos proporcionan una descrip-
ción y no una explicación. Para esto último necesitamos sintetizar modelos
estadísticos empíricamente adecuados con los modelos teóricos (ver capítulo
1). Cuando Fisher (1930) sintetiza la tradición estadística biométrica con
la teoría de la herencia de Mendel, el híbrido resultó ser un gran éxito! La
demanda de Fisher a la fama no es sólo como el padre de la estadística mod-
erna, sino también como una …gura importante en la genética del siglo 20;
véase MacKenzie (1981).
6.8 Ejercicios
1. Explique cómo la noción de condicionamiento nos permite tratar con el
problema de la dimensionalidad planeatdo por las distribuciones conjuntas
de las muestras.
2. Explique por qué en la reducción f (x; y) = f (yjx) fx (x), usando
momentos condicionales para los propósitos de la modelación, plantea un
problema en relación con x 2 RX .
3. Considere la distribución conjunta dada enseguida:
6.8. EJERCICIOS 379
xny 1 2 3 fx (x)
-1 0.10 0.08 0.02 0.2
0 0.15 0.06 0.09 0.3
1 0.02 0.20 0.10 0.5
fY (y) 0.45 0.34 0.21 1
(a) Deduzca las distribuciones condicionales de (Y jX = x) para todos los

valores de la variable aleatoria X.
(b) Derive la regresión y funciones cedásticas de las distribuciones en (a).
4. Sea la función de densidad conjunta de dos variables aleatorias X e Y:
xny 0 1 2
0 0.1 0.2 0.2
1 0.2 0.1 0.2
(a) Derive los siguientes momentos condicionales:
E(Y jX = 1), V ar(Y jX = 1), Ef[Y E(Y jX = 1)]3 jX = 1g.
(b) Veri…que las igualdades:
(i) V ar(Y jX = 1) = E(Y 2 jX = 1) fE[Y jX = 1]g2 .
(ii) E(Y ) = EfE(Y jX)g.
(iii) * V ar(Y ) = EfV ar(Y jX)g + V arfE(Y jX)g.
5. Compare y contraste los conceptos E[Y jX = X] y E[Y j (X)].
6. De…na y explique los siguientes conceptos:
(a) Funciones condicionales momento,
(b) función de regresión,
(c) función Cedástica,
(d) homoscedasticidad,
(e) heterocedasticidad.
7. De las distribuciones de dos variables del capítulo 7, recoger las fun-
ciones de regresión que son lineales y las funciones cedásticas que son ho-
moscedásticas.
8. Explique el concepto de regresión lineal. Explique la diferencia entre
la linealidad en x y la linealidad en los parámetros.
9. Considere la distribución normal conjunta representada por:
Y 1 11 12
~N ; .
X 2 21 22
(a) Para los valores 1 = 1, 2 = 1:5, 11 = 1; 12 = 0:8, 22 =

2, gra…que la esperanza condicional E (Y jX = x) y la varianza condicional
V ar (Y jX = x) para x = 0; 1; 2.
b) Gra…que E (Y jX = x) y V ar (Y jX = x) para x = 0; 1; 2, para una dis-

tribución t de Student bivariada, cuyos momentos toman los mismos valores
que los indicados en (a) para v = 3; 5; 7.
(c) Exprese las distribuciones marginales de Y y X.
10. Explique el concepto de función estocástica momento condicional.¿Porqué
nos importa?
11. Explique el concepto de exogenedad débil. ¿Porqué nos importa?
12. Explique el concepto de mecanismo generador estadístico. ¿Porqué
lo necesitamos?
13. Sea Y una variable aleatoria y de…na el término de error por: u =
Y E (Y j (X)).
Muestre que, por de…nición, esta variable aleatoria cumple las siguientes
propiedades:
[i] E (uj (X)) = 0,
[ii] E (u Xj (X)) = 0,
[iii] E (u) = 0,
[iv] E fu [E (Y j (X))] j (X)g = 0.
14 Explique la diferencia entre dependencia temporal y contemporánea.
15 Compare y contraste el MG estadístico de:
(a) el modelo Normal simple,
(b) el modelo de regresión lineal /Normal, y
(c) el modelo lineal/autorregresivo Normal.
16. Compare y contraste los modelos de regresión Normal simple y lin-
eal/Normal en términos de sus modelos de probabilidad y muestral.
17 Compare y contraste los modelos de regresión lineal/Normal y t de
Student en términos de sus modelos de probabilidad y muestral.
18 Explique la estrategia de Karl Pearson en la postulación de modelos
de regresión.
19 "El argumento de que, observando las exposiciones grá…cas de distribu-
ciones bivariadas y la grá…ca de contorno asociada a la curva de regresión,
es muy engañoso cuando se tienen m > 2 variables, es equivalente a decirle
a los astrónomos que abandonen sus telescopios, ya que sólo pueden ver dos
por ciento del universo a lo más". Discuta.
Capítulo 7
Procesos estocásticos
7.1 introducción
En el capítulo 6 nos propusimos ampliar el alcance previsto del modelo es-
tadístico simple basado en el concepto de muestra aleatoria (un conjunto
de (X1 ; X2 ; :::; Xn ) variables aleatorias independientes e idénticamente dis-
tribuidas (IID)) para incluir fenómenos estocásticos que no pueden ser con-
siderados como realizaciones de muestras aleatorias. En este capítulo anal-
izamos el concepto de dependencia en general. El problema de la mod-
elización de la dependencia se prosiguió en el capítulo 7, donde llegamos
a la conclusión de que una forma e…caz de abordar las cuestiones planteadas
por la modelización fue través de las distribuciones condicionales y, en par-
ticular, a través de las funciones condicionales momento estocásticas. La
discusión en ambos capítulos se limito al caso de dos variables con el …n de
eludir algunos problemas adicionales planteados por el caso general. El obje-
tivo principal de este capítulo es regresar al caso general de n variables y unir
los cabos sueltos. El concepto básico requerido es el de proceso estocástico
que extiende el concepto de variable aleatoria.

Como se muestra en los capítulos 6 y 7, el cali…cativo simple en un modelo
estadístico simple proviene del hecho de que el supuesto de muestra aleato-
ria simpli…ca considerablemente el análisis; la distribución conjunta de la
muestra es reducida a un producto distribuciones marginales univariadas
381
382 CAPÍTULO 7. PROCESOS ESTOCÁSTICOS
(idénticas)1 :
I
Y
n
IID
Y
n
f (x1 ; x2 ; :::; xn ; ) = fk (xk ; k) = f (xk ; ) ; para todo x := (x1 ; x2 ; :::; xn ) 2 RnX :
k=1 k=1
(8.1)
Como se muestra en el capítulo 6, en el caso de una muestra no aleatoria
la correspondiente reducción basada en el condicionamiento secuencial toma
la forma:
no IID
Y
n
f (x1 ; x2 ; :::; xn ; ) = f1 (x1 ; 1) fk (xk j xk 1 ; :::; x1 ; k ) ; 8x 2 RnX :
k=2
(8.2)
Al comparar las dos reducciones (8.1) y (8.2) podemos ver que la clave
para la modelización de la no aleatoriedad se presenta en la forma de dis-
tribuciones condicionales. En efecto, de la discusión preliminar del problema
de medir la dependencia en el capítulo 6 concluimos que la vía más promete-
dora se presenta en forma de momentos condicionales. En el capítulo 7, sin
embargo, se hizo evidente que los momentos condicionales no podíaa hacer
el trabajo porque para cada k:
fk (xk jxk 1 ; :::; x1 ; k ) ; (xk 1 ; :::; x1 ) 2 RkX 1 : (8.3)
representa una colección completa de funciones de densidad; una para

cada valor posible en RkX 1 , cada una con sus propios momentos condicionales.
La solución a este problema viene bajo la forma de funciones condicionales
momento, tales como la función de regresión y cedástica. Incluso estas fun-
ciones, sin embargo, no son su…cientes para hacer frente al problema, ya
que ignoran la estructura probabilística de la variable condicionante. En el
capítulo 7 extendemos las funciones condicionales momento para tener en
cuenta la estructura probabilística de las variables condicionantes en forma
de funciones estocásticas condicionales momento.
A lo largo de la discusión en los dos capítulos anteriores nos hemos con-
centrado en el caso simple de dos variables:
1
En el libro de Spanos (1999), la expresión 8.1 en lugar de la primera igualdad aparece
sólo I y en lugar de la segunda aparece III.
f (x; y; ) = f (yjx; '2 ) fx (xj; '1 ) ; para todo (x; y) 2 RX RY : (8.4)
por una razón muy buena: esquivar dos problemas interrelacionados que
surgen en el contexto de las distribuciones condicionales secuenciales (8.3):
(i) El conjunto de información condicionante cambiante: el número de
cambios en las variables condicionantes con el índice en el sentido de que
el número de variables condicionantes que intervienen en (xk jxk 1 ; :::; x1 ; k )
cambia con k = 2; 3; :::; n, haciendo estas densidades diferentes, por ejemplo
para el n = 5:
f2 (x2 jx1 ; 2 )
f3 (x3 jx2 ; x1 ; 3 )
f4 (x4 jx3 ; x2 ; x1 ; 4 )
f5 (x5 jx4 ; x3 ; x2 ; x1 ; 5 ) :
ii) La heterogeneidad inherente: además del hecho de que las densidades
condicionales puede ser diferentes para cada k (fk (:j:) ; k = 1; 2; :::; n), ex-
iste también el problema de la heterogeneidad introducida por el cambiante
conjunto de información condicionante.
Con el …n de motivar la discusión que sigue, vamos a proceder a aplicar las
soluciones propuestas en el capítulo 7 para el caso general (8.3). En partic-
ular, vamos a considerar los conceptos de funciones condicionales momento
en el caso de la secuencia de densidades condicionales (8.3). Lo primero
que se hace evidente observando estas densidades es que no podemos utilizar
las funciones ordinarias condicionadas momento debido a que las densidades
marginales son sin duda relevantes.Con la excepción de las últimas Xn vari-
ables aleatorias, las otras aparecen a ambos lados del condicionamiento. Por
lo tanto, debemos tener en cuenta las funciones estocásticas condicionales
momento. Las dos primeras funciones estocásticas condicionales momento,
conocidas como funciones autorregresivas y autocedásticas, toman la forma
general:
E (Xk j (Xk 1 ; :::; X1 )) = hk (Xk 1 ; :::; X1 ) ; k = 2; 3; :::; n

V ar (Xk j (Xk 1 ; :::; X1 )) = gk (Xk 1 ; :::; X1 ) ; k = 2; 3; :::; n (8.5)
Un vistazo a (8.5) revela que esas no producen modelos operativos, porque

ellas cambian con el índice k. Esto indica que sin algunas restricciones
sobre la dependencia y la heterogeneidad del conjunto de variables aleato-

rias (X1 ; X2 ; :::; Xn ), no surgen modelos operativos a través de los momentos
condicionales estocásticos; el problema de la imposición de tales restricciones
se llevará a cabo en este capítulo.
7.1.2 Variables aleatorias y ordenamiento

En el caso de una muestra aleatoria (X1 ; X2 ; :::; Xn ), el ordenamiento de las
variables aleatorias involucradas, aunque se especi…ca, es irrelevante debido a
que las variables aleatorias son réplicas de cada una y no podemos distinguir
entre, por ejemplo X1 y X3 , incluso si quisiéramos, a menos que la realización
de estos valores se lleve a cabo en sucesivos momentos y su orden se tome
en cuenta. Esto es evidente en (8.1), porque cualquier reorganización de
la secuencia no hará ninguna diferencia en el lado derecho. En contraste
con esto, en el caso de una muestra no aleatoria la reducción de (8.2) hace
perfectamente claro que el orden es muy importante.
El concepto de variable aleatoria X (ver capítulo 3) de…nida en un espacio
de probabilidad (S; =; P (:)), (donde S denota el conjunto de resultados, =
el conjunto apropiado de eventos de interés y P (:) una función conjunto de
probabilidad), como una función de la forma:
1
X (:) : S ! R tal que X ( 1; x] 2 =
es, básicamente, adimensional y no puede ser dotado de dependencia
y heterogeneidad. En nuestro intento de de…nir el concepto de muestra no
aleatoria necesitamos dotar al concepto de variable aleatoria con dependencia
y heterogeneidad. Ambos conceptos se de…nen en relación con algún orde-
namiento de las variables aleatorias involucradas. Esto hace que debamos
dotar al concepto de variable aleatoria de una dimensión (un índice) que rep-
resenta a este ordenamiento y representa a menudo tiempo, posición, espacio,
etc. La sucesión indexada de variables aleatorias fX1 ; X2 ; :::; Xn g, llamada
proceso estocástico, es la extensión requerida. El lector perspicaz habrá
notado que el concepto de proceso estocástico fue implícitamente utilizado
en los tres capítulos anteriores, cuando la muestra fue especi…cada.

El objetivo principal de este capítulo es de…nir y explicar el concepto de
proceso estocástico y las restricciones relacionadas de dependencia y hetero-
geneidad, necesarias para especi…car modelos estadísticos operacionales que

se pueden utilizar para la modelización de datos no IID.
La discusión de los procesos estocásticos puede llegar a ser una de las
partes más enmarañadas y confusas de la teoría de la probabilidad, debido
principalmente a los numerosos tipos de procesos estocásticos traslapados que
uno encuentra. Las di…cultades de dominar el material se mitigan cuando la
discusión se estructura de una manera que hace que sea más fácil comparar
y contrastar los distintos procesos estocásticos. En un intento por mitigar
la confusión para los no iniciados utilizamos las siguientes ayudas de apren-
dizaje:
i) Comenzamos la discusión con una breve reseña de los primeros desar-
rollos en procesos estocásticos. Esto se hace para aminorar el problema de
introducir demasiados conceptos muy rápidamente y establecer cierta termi-
nología básica.
(ii) La estructura probabilística de procesos estocásticos se discute en
relación con las tres categorías básicas de supuestos probabilísticos:
(D)Distribución, (M)Dependencia, (H)Homogeneidad. ((8.6))

Esto hace la comparación entre los diferentes procesos mucho más clara
y más intuitiva.
(iii) Utilizamos varias taxonomías de procesos estocásticos, comenzando
la discusión con la distinción discreto / continuo.
(iv) En vista del hecho de que la mayoría de los procesos estocásticos se
especi…can indirectamente como funciones de otros procesos estocásticos (a
menudo más simples), hacemos hincapié en la distinción entre los puntos de
vista distrbucional y constructivista.
En la sección 2 de…nimos el concepto de proceso estocástico y dis-
cutimos su estructura básica. En la sección 3, consideramos brevemente
los primeros desarrollos de algunos de los procesos estocásticos más impor-
tantes y las asociadas restricciones de dependencia y heterogeneidad. Una
discusión más completa de las restricciones de dependencia y heterogeneidad
de los procesos estocásticos se da en las secciones 4 y 5, respectivamente. Se
hace hincapié en la distinción entre los enfoques distribucional y construc-
cionista a la especi…cación de los procesos estocásticos; la primera se re…ere
a la especi…cación a través de la distribución conjunta de un número …nito
de elementos del proceso y la segunda a la especi…cación de un proceso es-
tocástico a través de una función de otro proceso (a menudo más simple). La
sección 6 se presentan algunos de los procesos estocásticos utilizados como

bloques de construcción para la construcción de tales procesos. Las prin-
cipales categorías de procesos estocásticos, procesos Markov, procesos de
caminata aleatoria, procesos martingala, procesos de Gaussianos y procesos
Punto, se discuten en las secciones 7-11. En relación con la especi…cación
de un proceso estocástico, concluimos el problema de la especi…cación de
modelos estadísticos operativos mediante la imposición de restricciones de
dependencia y heterogeneidad en la sección 10.
7.2 El concepto de proceso estocástico

7.2.1 De…nición de un proceso estocástico
Un proceso estocástico es simplemente una colección indexada de vari-
ables aleatorias fXt ; t 2 T g de…nidas en el mismo espacio de probabilidad
(S; =; P (:)), es decir, Xt es una variable aleatoria en relación a (S; =; P (:)),
para cada t en el conjunto índice T .
Ejemplo
El número de llamadas telefónicas llegando a una central telefónica en el
intervalo [0; t] se puede modelar usando una secuencia indexada de variables
aleatorias, donde Xt mide el número de llamadas hasta el momento t; sus
valores posibles son: 0; 1; 2; 3; :::
Recordando que una variable aleatoria X es una función del conjunto de
resultados S a la línea real R, observamos que un proceso estocástico es una
función con dos argumentos:
X (:; :) : S T ! R:
Una notación más atenta de un proceso estocástico es:
fX (s; t) ; s 2 S; t 2 T g :
Teniendo en cuenta los dos argumentos, podemos considerar un proceso
estocástico a partir de dos diferentes pero interrelacionados entre sí ángulos
de visión.
(i) El ángulo de visión variable aleatoria. Para un determinado t = t,
X s; t ; s 2 S :
X :; t : S ! R,
7.2. EL CONCEPTO DE PROCESO ESTOCÁSTICO 387
es una variable aleatoria ordinaria respecto a (S; =; P (:)) con sus propias
funciones de distribución y densidad, como antes. Para un determinado sub-
conjunto de T , por ejemplo ft1 ; t2 ; :::; tn g, fX (:; t1 ) ; X (:; t2 ) ; :::; X (:; tn )g
es simplemente una colección de variables aleatorias, similar a la que us-
amos para de…nir el concepto de muestra en los capítulos anteriores. La
estructura probabilística de esta colección está completamente descrita por
su distribución conjunta acumulada o por su función de densidad conjunta
f (x (t1 ) ; x (t2 ) ; :::; x (tn )).
(ii) El ángulo de visión funcional. Para un determinado s = s, fX (s; t) ; t 2 T g:
X (s; :) : T ! R,
es solo una función ordinaria de T a R. La grá…ca de esta función se

llama a menudo trayectoria muestral (o realización muestral), porque ésta es
la característica del proceso estocástico que a menudo asociamos con los datos
observados. En las …guras 8.1 y 8.2 podemos ver las trayectorias muestrales
de un proceso estocástico discreto y continuo, respectivamente.
Figura 8.1. Una trayectoria muestral discreta

Figura 8.2. Una trayectoria muestral continua
Permitiendo que s cambie (siempre dentro de S) y tomando los valores,

por ejemplo fs1 ; s2 ; s2 ; :::; sk g, las funciones fX (s1 ; :) ; X (s2 ; :) ; :::; X (sk ; :)g,
t 2 T , de…nen una colección de diferentes trayectorias muestrales, que se
llama un ensamble. La estructura matemática del ensamble también de-
sempeña un papel importante en la formalización del concepto de proceso
estocástico.
NOTAS:
(a) Es importante destacar en esta etapa que es una práctica común
conectar los puntos de un trayectoria muestral de un proceso discreto. Esto
sugiere una cierta precaución cuando se observan grá…cas para evitar con-
fundir un proceso discreto con uno continuo, debido a que uno observa una
trayectoria muestral continua (ver …gura 8.2).
(b) A menudo no se puede resistir la tentación de interpretar a t como el
tiempo por conveniencia, pero fácilmente podría haber alguna otra dimensión
que nos interese, como el espacio y la posición geográ…ca, siempre y cuando
el conjunto índice para la dimensión particular esté ordenado.
(c) El índice t puede fácilmente ser multidimensional en el sentido de que
el proceso estocástico fXt ; t 2 R3 g podría representar la velocidad de una
partícula suspendida en un líquido con t siendo su posición en el espacio
euclidiano tridimensional.
(d) El proceso estocástico fXt ; t 2 T g se puede extender fácilmente al caso
en que Xt es un vector k 1 de variables aleatorias k31: Xt = (X1t ; X2t ; :::; Xkt )T .
Desde el punto de vista de la modelización hay una diferencia muy im-
portante entre tener una realización xt := (x1 ; x2 ; :::; xT ) a partir de una
muestra aleatoria (X1 ; X2 ; :::; XT ) o a partir de un proceso estocástico no
IID fXt ; t 2 T g. En el caso de la muestra aleatoria, debido al hecho de que

cada valor de xt proviene de la misma distribución f (x; ), la fecha t carece
de importancia ya que las variables aleatorias son réplicas de cada una. Como
resultado de esto, podemos utilizar los promedios t (momentos muestrales),
tales como:
1 XT
xrt , r = 1; 2; ::: (8.7)
T t=1
para estimar los correspondientes momentos de la distribución (promedios

de probabilidad):
Z
r
E (X ) = xr f (x) dx, r = 1; 2; ::: (8.8)
x2RX
En cierto sentido, (8.7) se de…ne promediando sobre t 2 T y (8.8) prome-

diando s 2 S; recuerde el espacio de probabilidad (S; =; P (:)).
Esos dos tipos de promedio puede ser visualizados en el contexto de la
…gura 8.3 que representa 5 trayectorias muestrales de un proceso estocástico
IID Normal. El promedio t se realiza en sentido horizontal y el promedio
de distribución se realiza verticalmente. Cuando estas trayectorias mues-
trales constituyen realizaciones de muestras IID los promedios t (momentos
muetrales) convergen a los promedios de distribución (momentos), porque
sabemos que las variables aleatorias involucradas tienen momentos comunes
XT
y como se muestra en el capítulo 9 los promedios t, T1 xrt , convergen a
t=1
estos momentos comunes. Sin embargo, la situación en el contexto de una
muestra no aleatoria es radicalmente diferente, ya que, sin ninguna restric-
ción de dependencia y heterogeneidad, cada valor de Xt , proviene de una
distribución diferente y por lo tanto no hay momentos comunes a los que los
promedios t converjan!
Figura 8.3 Un ensamble de cinco trayectorias muestrales
Otra forma de ver este problema es observar que para un proceso estocás-
tico no IID los parámetros desconocidos t en f (xt ; t ) son, por de…nición,
funciones de los momentos que cambian con t:
E (Xtr ) = r ( t ; t), r = 1; 2; :::; t 2 T .
En cierto sentido, el problema es que tenemos sólo una observación para

cada conjunto de parámetros desconocidos t . La pregunta que se sugiere
en esta etapa, es si sólo en el caso de variables aleatorias IID los promedios
t convergerán a los promedios distribución (momentos). La respuesta es no
necesariamente, pero las variables aleatorias involucradas tienen que tener
algo en común para que la convergencia tenga lugar. Este algo en común
se de…ne en términos de las restricciones sobre la estructura probabilística
del proceso en cuestión a …n de permitir al modelador utilizar promedios t
tales como (8.7) como estimaciones con…ables de los parámetros desconocidos
(momentos). Esto requiere restricciones de dependencia/heterogeneidad que
serán el centro de este capítulo.
7.2.2 Clasi…cación de los procesos estocásticos

La estructura del proceso estocástico fXt ; t 2 T g depende parcialmente de la
naturaleza de dos conjuntos: el conjunto índice T y el rango de la variable
aleatoria X, por ejemplo RX . Dado que el rango de la aleatoria Xt puede
cambiar con t, de…nimos el rango del proceso estocástico fXt ; t 2 T g como
la unión de la conjuntos de valores de X (:; T ) para cada t, digamos RX(t) :
<x = [t2T RX(t)
conocido como el espacio de estado del proceso estocástico. Lo que hace

que al proceso estocástico matemáticamente diferente es que los conjuntos
(T , <x ) sean numerables o no numerables; una distinción ya encontrada en
el capítulo 2.
(a) En el caso en que T es un conjunto numerable, tal como T = f0; 1; 2; 3; :::g,
llamamos a fXt ; t 2 T g un proceso estocástico de índice discreto. Por
otro lado, cuando T es un conjunto no numerable, tal como T = [0; 1),
llamamos a fXt ; t 2 T g un proceso estocástico de índice continuo.
Cuando tenemos que enfatizar la distinción entre procesos de índice continuo
y discreto para …nes expositivos, utilizaremos la NOTACIÓN: fXt ; t 2 T g
para un proceso de índice continuo.
(b) Del mismo modo, el espacio de estado <x del proceso estocástico
fXt ; t 2 T g, puede ser numerable o no numerable, introduciendo una cuarta
forma de conjunto índice/espacio de estado (T , <) de los procesos estocásti-
cos:
Conjunto índice T Espacio de estado < Ejemplo

D-D numerable numerable Caminata aleatoria simple
D-C numerable no numerable Proceso Normal
C-D no numerable numerable Proceso Poisson
C-C no numerable no numerable Proceso movimiento Browniano
Esta clasi…cación constituye una representación esquemática, agrupando

procesos estocásticos mutuamente excluyentes que es útil para organizar nue-
stros pensamientos en las etapas iniciales de la interiorización del material,
pero no es la única, o aún la clasi…cación más útil, ya que hace caso omiso
de la estructura probabilística de un proceso estocástico. Varias otras clasi-
…caciones traslapadas de procesos estocásticos, tales como estacionario/no
estacionario, Markov/no Markov, Gaussiano /no Gaussiano, ergódica / no
ergódico, se basan en su estructura probabilística y proporcionar agrupa-
ciones útiles de los procesos estocásticos. Una vista panorámica de una clasi-
…cación basada en la estructura probabilística de procesos estocásticos se da
en la …gura 8.4 (véase Srinivasan y Mehata (1988) para más detalles).
Figura 8.4 Una taxonomía de los procesos estocásticos
7.2.3 Especi…cación de un proceso estocástico

Dado que la estructura probabilística de un conjunto de variables aleatorias
se describe mejor por su distribución conjunta, es natural utilizar el mismo
dispositivo para especi…car la estructura probabilística de un proceso estocás-
tico. Sin embargo, esto plantea el problema de especi…car distribuciones de
dimensión in…nita porque el proceso astochastic fXt ; t 2 T g tiene a menudo
un conjunto índice in…nito. Una solución efectiva a este problema fue prop-
uesta por Kolmogorov en el mismo libro de 1933 que fundó la moderna teoría
de probabilidad.
RECURSO DE NOTACIÓN. En muchos casos, durante la exposición
que sigue vamos a discutir los conceptos que son aplicables a ambos procesos
estocásticos de índices discreto y de ínidce continuo. La notación para los
procesos de índice discretos es, por supuesto, más natural y menos complicada
que la de procesos de índice continuo y las más de las veces se utilizará la
primera. Sin embargo, en los casos en que queremos hacer hincapié en la
aplicabilidad general de un concepto, usamos un recurso de notación que en
cierto sentido nos permite utilizar la notación discreta para cubrir ambos
casos. En lugar de utilizar la sucesión fXk g1 k=1 , que es claramente discreta,
usamos fXtk g1k=1 , de tal manera que:
0 < t1 < t2 < < tn < < 1, donde tk 2 T , para k = 1; 2; :::; n; :::
Se dice que un proceso estocástico fXt ; t 2 T g está especi…cado si es …nita

la función de distribución acumulativa conjunta (fda):
F (xt1 ; xt2 ; :::; xtn ),

se de…ne para todos los subconjuntos …nitos ft1 ; t2 ; :::; tn g T . Este
resultado es muy útil debido a que su opuesto también es cierto (ver Kol-
mogorov (1933a)).
El teorema de extensión de Kolmogorov
Para cada n, sea Fn (xt1 ; xt2 ; :::; xtn ) la función de distribución acumulada
conjunta. Si la condición de consistencia se cumple:
lim Fn+1 xt1 ; xt2 ; :::; xtn ; xtn+1 = Fn (xt1 ; xt2 ; :::; xtn ),
xtn+1 !1
para cada (n + 1) > 1 y (xt1 ; xt2 ; :::; xtn ) 2 Rn , existe un espacio de

probabilidad (S; =; P (:)) y un proceso estocástico fXt ; t 2 T g de…nido en él,
tal que Fn (xt1 ; xt2 ; :::; xtn ) es la función de distribución acumulada conjunta
de (Xt1 ; Xt2 ; :::; Xtn ) para cada n (ver Billinsgley (1986)). En este sentido,
estamos seguros para asumir que la estructura probabilística de un proceso
estocástico se puede describir por completo usando solamente distribuciones
conjuntas de dimensión …nita.
Es interesante NOTAR que el precedente teorema de extensión permite
al modelador de pasar de la distribución conjunta F2 (xt1 ; xt2 ) a la mar-
ginal lim F2 (xt1 ; xt2 ) = F1 (xt1 ) y luego a la condicional F2j1 (xt2 jxt1 ) =
Z x2 xt2 !1
f (xt1 ;u)
f (xt1 )
du.
1
La visualización de un proceso estocástico a través de la distribución
conjunta de un subconjunto …nito de componentes se llama punto de vista
distributivo. Históricamente, sin embargo, el concepto de proceso estocástico
surgió en el siglo 20 como función de procesos IID simples. Este punto de vista
construccionista es equivalente a la especi…cación de un proceso estocástico
fYk ; k 2 Ng de…niéndolo como una función de un proceso estocástico simple
(a menudo IID o únicamente independiente) fXt ; t 2 T g:
Yk = g (Xt1 ; Xt2 ; :::; Xtn ) ; k 2 N: ((8.9))

Esto signi…ca que podemos pensar en una gran cantidad de procesos es-
tocásticos como sistemas construidos usando bloques de construcción simples.
La estructura probabilística del proceso construido fYk ; k 2 Ng se determina
a partir de la del proceso más simple fXt ; t 2 T g vía el mapero (8.9).
Ejemplos
(i) Considere la siguiente función:
2
Yk = X1 cos !k + X2 sen !k, Xi ~N IID (0; ), i = 1; 2, k 2 N.
Esto de…ne un proceso estocástico fYk ; k 2 Ng.

(ii) un mapeo muy importante que desempeña un papel fundamental
para el punto de vista constructivista es la de…nición de mapeos como sumas
parciales de un proceso fXk ; k 2 Ng:
Xk
Yk = Xi , k 2 N
i=1
El proceso estocástico fYk ; k 2 Ng ha jugado un papel importante en el

desarrollo del concepto de proceso estocástico como se ha señalado.
Debe hacerse hincapié, sin embargo, que incluso en el contexto de la
aproximación construccionista la mejor manera de comprender la estructura
de un proceso estocástico es deducir la distribución conjunta de los procesos
construidos.
Volviendo a la distribución conjunta de un subconjunto …nito de elemen-
tos de un proceso estocástico, como la descripción más general de un pro-
ceso estocástico, notemos que para propósitos de modelización necesitamos
domesticar el proceso mediante la imposición de algún tipo de estructura
probabilística sobre el mismo. La razón es que tal y como está (sin restric-
ciones) la distribución conjunta no proporciona modelos operativos. Par-
tiendo de un proceso estocástico general fXk ; k 2 Ng, procedemos a domarlo
imponiéndole ciertas restricciones de distribución, heterogeneidad y depen-
dencia. Estas restricciones nos permitirán hacer frente tanto a los problemas
de dimensionalidad como a los de sobreparametrización planteados en los
capítulos 6-7.
En un intento por explorar algunos de los conceptos relativos a las re-
stricciones de dependencia y la heterogeneidad, proporcionamos una breve
perspectiva histórica de algunos de los primeros intentos para enfrentarse con
el concepto de proceso estocástico.
7.3 Procesos estocásticos: una visión prelim-

inar
El concepto matemático de proceso estocástico, dado anteriormente, fue for-
mulado en la década de 1930. Antes de ese momento el concepto de proceso
7.3. PROCESOS ESTOCÁSTICOS: UNA VISIÓN PRELIMINAR 395
estocástico sólo existía en la forma de un modelo para determinados fenó-

menos estocásticos. Estos modelos de los fenómenos estocásticos eran casi
exclusivamente en la física. La notable excepción a esto es el intento de
Bachelier (1900) para presentar un modelo para el comportamiento de los
precios en el mercado de valores de París. Desde el punto de vista proba-
bilístico, los conceptos necesarios para de…nir un proceso estocástico no se
desarrollaron hasta la década de 1920. De hecho, desde la época de Car-
dano (1501-1576), cuando el concepto de independencia entre dos eventos se
encontró por primera vez y luego formalizado por Moivre en la década de
1730, hasta …nales del siglo 19, la dependencia fue vista como un estorbo
e interpretada negativamente como la falta de independencia. Más allá del
bien conocido territorio de la independencia se encuentra un territorio inex-
plorado conocido como no independencia/heterogeneidad. Comenzamos con
una breve reseña de los primeros intentos por formular un modelo para el
fenómeno físico conocido como movimiento browniano.
7.3.1 El movimiento browniano y los fundamentos de

la probabilidad
El proceso movimiento browniano, acuñado después de que el botánico Robert
Brown (1773-1858) observó el movimiento errático de una partícula de polen
suspendida en ‡uido, se remonta a 1827. Se pensaba erróneamente en ese
momento que el comportamiento errático era el resultado de las moléculas
que viajan a toda velocidad. Resultó ser que este movimiento fue el resultado
del bombardeo de las partículas por millones de moléculas de ‡uido causado
por difusión térmica. El efecto de la colisión de una particula con una de
cualesquiera de las moléculas es insigni…cante, pero el efecto acumulativo de
millones de tales colisiones produce la comportamiento errático observable
que exhibe ciertos patrones de regularidad aleatoria.
El primer intento sistemático para modelar patrones observables de reg-
ularidad aleatoria del comportamiento errático de las partículas fue hecho
por Einstein en 1905 utilizando una ecuación diferencial estocástica de la
siguiente forma:
@f (x;t) @ 2 f (x;t)
@t
= @x2
,
( x)2
donde := lim 2 t
, es el coe…ciente de difusión y f (x:t) dx es la
t!0
probabilidad de que X(t) se encuentre en el intervalo (x; x + dx). Resolviendo
esta ecuación diferecial sujeta a la condición inicial X(0) = 0, se puede

demostrar que la distribución del desplazamiento de partículas (después de
un tiempo t su…cientemente largo) toma la forma:
n o
pn x2
f (x; t) = 4 t
exp 4 t
Esta es la densidad Normal con momentos:
E (X (t)) = 0, V ar (X (t)) = 2 t.
Intuitivamente, esto puede explicarse por el hecho de que el desplaza-

miento neto de la partícula X( ) durante cualquier intervalo de tiempo X(t,
t + ) será la suma de numerosas pequeñas contribuciones (en gran parte
independientes) de impactos de moléculas individuales. El Teorema Central
del Límite (véase el capítulo 9) sugiere que en estas condiciones el desplaza-
miento errático de la partícula se puede aproximar por una variable aleatoria
Normalmente distribuida X( ).
El movimiento browniano como un proceso estocástico puede verse como
la integral de un proceso NIID:
Z t
X(t) = Z (u) du, Z (t) ~N IID (0; 1), t 2 (0; 1) .
0
El primer intento por formular este proceso como un modelo para los
cambios de las tasas de cambio de las acciones, fue hecha por Bachelier
(1900). Desafortunadamente, su tesis no fue apreciada por matemáticos
como Poincaré (uno de sus dos examinadores) y sus resultados, publicados
en su libro The Calculus of Probability (publicado en 1912), pasaron de-
sapercibidos hasta principios de 1930, cuando Kolmogorov (1931) se re…ere
en términos poco halagadores a su rigor matemático. Dejando a un lado
el rigor matemático, a Bachelier debe atribuirse la primera formulación del
proceso estocástico que hoy conocemos como movimiento browniano. Es in-
teresante notar que Bachelier entendió el problema de la modelización mucho
mejor que algunos de los matemáticos en la década de 1920. Él llegó incluso
a reconocer la necesidad de restricciones de dependencia/heterogeneidad y a
introducir lo que llegó a ser conocido más tarde como dependencia Markov
y homogeneidad Markov (véase Von Plato (1994)). La primera formulación
matemática rigurosa del proceso estocástico movimiento Browniano fue dada

por Wiener en 1920 y desarrollada más ampliamente por Levy en los años
1930 y 1940.
El movimiento browniano es con mucho el más importante proceso es-
tocástico de índice continuo cuyo estudio inicial se basó en sus trayectorias
muestrales. Sin embargo, las trayectoias seguidas por el movimiento irregular
de las partículas resultaron ser continuas pero no diferenciables en ninguna
parte. Eso fue una conmoción para la comunidad cientí…ca porque eso signi…-
caba que las partículas viajan a velocidades in…nitas! La teoría de Einstein
fue con…rmada en 1916 por Pierre Perrin, quien recibió el premio Nobel en
1926 por sus esfuerzos. La pelota estaba de lleno en el patio de los proba-
bilistas que no tenían una teoría consistente de la probabilidad para cubrir el
modelo de Einstein. La teoría clásica de la probabilidad basada en el mod-
elo de una lotería era muy insu…ciente para tal …n. En la década de 1920
Wiener demostró la existencia de probabilidades para el modelo de Einstein,
pero una teoría consistente de la probabilidad que cubriera este modelo tuvo
que esperar hasta 1933, cuando Kolmogorov publicó su libro clásico sobre los
fundamentos de la teoría de la probabilidad (1933a).
El teorema de extensión de Kolmogorov, en términos generales, sugiere
que los fenómenos que presentan regularidad aleatoria se pueden modelar
dentro del marco de referencia matemático delimitado por el espacio de prob-
abilidad (S; =; P (:)), dotado de la estructura matemática dada en el capítulo
2, a menos que contengan inconsistencias de la forma mencionada en el teo-
rema. El fundamento de Kolmogorov se convirtió en un éxito inmediato ya
que aclaró todo el asunto creado con el estudio del movimiento browniano y
liberó al tema de la camisa de fuerza impuesta por el modelo de lotería de la
probabilidad.
7.3.2 Sumas parciales y procesos estocásticos asocia-

dos
Un número importante de procesos estocásticos, tales como Markov, cami-
nata aleatoria, incrementos independientes y martingalas y sus restricciones
de dependencia y heterogeneidad asociadas, se pueden ver en el contexto del
enfoque construccionista como sumas parciales de variables aleatorias inde-
pendientes. Es natural que los primeros intentos por extender los procesos
estocásticos IID fZt gt2T se asociaran con funciones simples de tales proce-
sos, como la suma. En efecto, el proceso movimiento browniano tal como se

de…ne por (8.10) es la integral (suma sobre un continuo) de un proceso NIID.
Considere una sucesión de variables aleatorias IID fZt gt2T que para 0 <
t1 < < tk < < 1, tk 2 T , k = 1; 2; :::; es parcialmente sumada para
crear un proceso derivado fSk g1 k=1 :
Xk
Sk = Zti ; k = 1; 2; 3; ::: ((8.13))
i=1
El primero en aventurarse en el territorio desconocido de los procesos
estocásticos no IID desde el punto de vista probabilístico fue Markov en
1908 quien se percató que el proceso derivado fSk g1 k=1 ya no es IID; tiene
tanto dependencia como heterogeneidad. Para ver esto vamos a simpli…car el
problema considerando los dos primeros momentos (suponiendo que existen)
de la sucesión IID:
(i) E (Ztk ) = , k = 1; 2; 3; :::;
(ii) V ar (Ztk ) = 2 , k = 1; 2; 3; :::;
Utilizando la linealidad de la esperanza (ver capítulo 3) podemos deducir
que:
(a) E (Sk ) = k ; k = 1; 2; 3; :::;

(b) V ar (Sk ) = k 2 ; k = 1; 2; 3; :::;
(c) Cov (Sk ; Sm ) = 2 min (k; m) ; k; m = 1; 2; 3; ::: ((8.12))
Los resultados (a) y (b) son triviales de obtener pero (c) puede demostrarse
como sigue:
Cov (Sk ; Sm ) = E f(Sk k ) (Sm m )g

( k ! m !)
X X
= E (Zti ) Ztj
i=1 j=1
X
k X
m
= E (Zti ) Ztj
i=1 j=1
min(k;m)
X
2
= E (Zti )= min (k; m) ,
i=1
ya que Cov Zti ; Zttj = 0, i 6= j. La sucesión de las sumas parciales

fSk g1k=1 fue llamada más tarde, un proceso de caminata aleatoria proporcionó
el impulso para numerosos avances en los procesos estocásticos.
PRECAUCIÓN. Se recuerda al lector una vez más que la estructura an-
terior es sólo indicativa de la estructura de dependencia más general de las
sumas parciales, debido a que nos hemos concentrado exclusivamente en los
dos primeros momentos, los que, en general, ni siquiera pueden existir!
Markov estaba trabajando en un marco de referencia espacio de estado
discreto/conjunto índice discreto y se concentró principalmente en la estruc-
tura de dependencia de tales procesos. En particular, se dio cuenta de dos
cosas:
(i) todos los elementos del proceso fSk g1
k=1 son mutuamente dependientes,
independientemente de la distancia entre ellos, pero
(ii) la dependencia se vuelve más fácil modelar cuando se ve a través de
la distribución condicional.
¿Qué es tan especial de este proceso?
La distribución condicional de Sk dado su pasado (Sk 1 ; Sk 2 ; :::; S1 ) de-
pende sólo del pasado más reciente, es decir,
= fk (sk jsk 1 ; 'k ) , para todo sk 2 Rk , k = 2; 3; :::

fk (sk jsk 1 ; :::; s1 ; k)
(8.13)
Es decir, la estructura de dependencia entre Sk y su pasado (Sk 1 ; Sk 2 ; :::; S1 )
es totalmente capturada por su distribución condicional dado su pasado más
reciente Sk 1 ; lo llamamos dependencia Markov. Los procesos que satisfacen
esta restricción de dependencia se llaman procesos Markov. El resultado de
Markov se formalizó en su generalidad por Kolmogorov (1928b, 1931); ver
sección 7.
Es muy importante destacar que la Markovenes no implica restricción
alguna de heterogeneidad. Una forma evidente de tratar el problema de
heterogeneidad en este contexto es asumir homogeneidad de las distribuciones
condicionales, es decir
fk xtk jxtk 1 ; 'k = f xtk jxtk 1 ; ' , k = 2; 3; :::; n

que podríamos llamar homogeneidad Markov. NOTE que esto involucra
sólo las densidades condicionales; no hay supuesto de homogeneidad para
la densidad marginal f1 xt1 jxtk 1 ; 1 , que todavía puede ser una fuente de
heterogeneidad.
Otro proceso estocástico importante que surge sumando parcialmente

variables aleatorias independientes es el proceso de caminata aleatoria.
El proceso estocástico fSk g1
k=1 se dice que es una caminata aleatoria si se
puede especi…car como la suma parcial de variables aleatorias IID fZt gt2T ,
es decir, para 0 < t1 < < tk < < 1, tk 2 T , k = 1; 2; :::; es decir:
Xk
Sk = Zti , donde Zti ~IID (:) , i = 1; 2; :::; k = 1; 2; 3; ::: ((8.14))
i=1
NOTE que esta notación nos permite de…nir el proceso de suma parcial
(un proceso de índice discreto) en términos de un proceso IID fZtk g1 k=1 que
puede ser o bien un proceso de índice discreto o continuo. Para un proceso
continuo de suma parcial es necesario sustituir la suma por una integral como
en (8.10).
En términos de nuestra taxonomía de los supuestos probabilísticos, los
procesos Markov y de caminata aleatoria se de…nen sin ningún tipo de supuesto
de distribución y por lo tanto se debe tener cuidado cuando se discute su es-
tructura de dependencia y de heterogeneidad en términos de momentos. La
tendencia a concentrarse en los dos primeros momentos del proceso puede
ser muy engañoso debido a que:
(a) ellos podrían no existir (Zi ~Cauchy (0,1), i = 1; 2; :::),
(b) ellos capturan sólo formas limitadas de dependencia/heterogeneidad.
En cierto sentido, el concepto de proceso de caminata aleatoria es una
caja vacía que se puede llenar con numerosos casos especiales, mediante la
imposición de algún tipo de estructura probabilística adicional. Eligiendo la
distribución a ser discreta (por ejemplo, de Poisson) o continua (por ejem-
plo, Normal) podemos de…nir algunos distintos tipos de procesos estocásticos
los cuales, sin embargo, comparten una estructura común determinada. Es
instructivo examinar brevemente esta estructura común.
La estructura probabilística impuesta al concepto genérico de caminata
aleatoria se realiza a través de su de…nición como una sucesión de sumas
parciales de variables aleatorias IID. La estructura probabilística del proceso
de IID fZtk g1 k=1 (utilizamos la notación índice discreto por conveniencia)
es transformada a través de las sumas parciales para determinar indirecta-
mente la estructura probabilística del proceso de caminata aleatoria fSk g1 k=1 .
Vamos a considerar el problema de la determinación de la estructura proba-
bilística de fSk g1
k=1 partir de los principios básicos.
En primer lugar, vamos a considerar la estructura de la dependencia de
un proceso de caminata aleatoria. A partir de (8.14) podemos deducir que

el proceso de suma parcial se puede escribir en la forma:
Sk = S k 1 + Zk , k = 1; 2; 3; :::; con S0 = 0.
Como podemos ver, el proceso de caminata aleatoria tiene una estructura
de dependencia Markov porque:
f (sk jsk 1 ; sk 1 ; :::; s1 ) = f (sk jsk 1 ) , k = 2; 3; :::

Es importante señalar que el concepto de proceso de Markov es consider-
ablemente más general que el de caminata aleatoria. En el caso de esta úl-
tima, la Markovenes es inducida por la transformación de las sumas parciales.
La dependencia Markov, sin embargo, no depende de la transformación suma
parcial como lo muestra el siguiente ejemplo.
Ejemplo
Sea fZtk g1
k=1 un proceso IID con media cero (E (Zk ) = 0, k = 1; 2; :::).
Entonces la sucesión de…nida por la recursión:
Yk = h (Yk 1 ) + Zk , k = 2; 3; :::;
para cualquier función (Borel) bien comportada h (:) es un proceso Markov.

Esto demuestra más claramente que la estructura de dependencia Markov
no depende de la linealidad de la transformación, sino de su recursividad.
Regresando a la estructura de dependencia de un proceso de caminata
aleatoria, llegamos a la conclusión de que su forma se restringe a la de de-
pendencia Markov. En vista de la discusión anterior, no debería ser una
sorpresa descubrir que la estructura de heterogeneidad de un proceso de
caminata aleatoria también es de un tipo especial. Esto también surge del
hecho de que, como mostramos anteriormente, el proceso fSk g1 k=1 tiene in-
1
crementos fSk Sk 1 gk=1 que son variables aleatorias IID. Por lo tanto, la
distribución conjunta toma forma:
Y
n Y
n
f (s1 ; s2 ; :::; sn ; ) = f1 (s1 ; 1) fk (sk sk 1 ; k ) = f1 (s1 ; 1) f (sk sk 1 ; ) , s 2 Rn
k=2 k=2
((8.16))
donde la primera igualdad se sigue del hecho de que el proceso de incre-
mentos fSk Sk 1 g1
k=1 es independiente y el segundo del supuesto ID para el
mismo proceso. Esto sugiere que la estructura de heterogeneidad del proceso

de caminata aleatoria fSk g1k=1 tendrá un componente que es común a todos
los subconjuntos del proceso y un componente que depende de la distancia
desde la condición inicial S0 = 0; lo que llamamos heterogeneidad separable.
Esto es mejor empli…cado utilizando los dos primeros momentos deduci-
dos anteriormente (asumiendo que existen!). Observando (8.12), podemos ver
que los dos primeros momentos son separables en el sentido de que tienen
un componente ID (el momento correspondiente del proceso IID) y un com-
ponente heterogéneo que es una función del índice de las variables aleatorias
involucradas. Una formulación más general de este tipo de heterogeneidad,
conocido como heterogeneidad separable de segundo orden, toma la forma:
(a) E (Xk ) : = k = h (k) , k = 1; 2; :::;

(c) Cov (Xk ; Xm ) : = vk;m = q (k; m) 2 , k; m = 1; 2; ::: ((8.17))
Nótese que en el caso de un proceso de caminata aleatoria fSk g1k=1 :

h (k) = k, q (k; m) = min (k; m).
Tales formas de heterogeneidad dan lugar a modelos operativos en un
número de casos interesantes encontrados en la práctica. Esto debe con-
trastarse con la heterogeneidad arbitraria que signi…ca que los momentos son
funciones del índice con el tipo de dependencia funcional sin especi…car (la
primera igualdad en (a) y (b)).
Históricamente, el concepto de proceso Markov se introdujo a principios
de 1900 y a principios de 1920 (ver Kolmogorov (1928a, b)) otras formas de
procesos estocásticos, a menudo motivadas por la formulación de suma par-
cial, hicieron su aparición. Ya hemos encontrado el proceso de incrementos
IID asociado con un proceso de caminata aleatoria. Una extensión natural
de esto es relajar el supuesto ID y de…nir un proceso fXt gt2T que tiene in-
crementos independientes para todo 0 < t0 < t1 < t2 < < tn < 1, los
n
incrementos fXtk Xtk 1 gk 1 son independientes:
Y
n
f (xt1 ; xt2 ; :::; xtn ; ) = f1 (xt1 ; 1) fk xtk xtk 1 ; k , x 2 Rn . ((8.18))
k=2
En términos de su estructura de la dependencia, sabemos de la discusión

anterior que un proceso de incrementos independientes fXt gt2T es dependi-
ente Markov:
fk xtk jxtk 1 ; 'k = fk xtk xtk 1 ; k , k = 2; 3; ::: ((8.19))
Lo que una sucesión de incrementos independiente tiene además, sin em-

bargo, es un tipo de linealidad incorporada a la estructura de la sucesión
de variables aleatorias fXt gt2T , cuando se toma la diferencia entre variables
aleatorias adyacentes. Esto puede verse mediante la de…nición de sucesión
independiente fYtk g1 k=1 , donde:
Yt1 := Xt1 , Ytk := Xtk Xtk 1 , k = 2; 3; :::;
y observando que:
Xk
Xtk = Yti , k = 1; 2; 3; :::; n
i=1
De esto podemos deducir que Xtk se relaciona linealmente con los incre-
mentos anteriores: Xk
Xtk = Xt1 + Xti Xti 1 .
i=2
Esta linealidad suma parcial restringe la distribución conjunta f (xt1 ; xt2 ; :::; xtn ; )
en la medida en que la distribución de Xt3 Xt2 debe ser la misma que la dis-
tribución de la suma (Xt3 Xt2 ) + (Xt2 Xt1 ). Por el contrario, si fYtk g1 k=1
es un proceso independiente, entonces, por alguna variable aleatoria arbi-
traria Xt1 , el proceso fXtk g1 k=1 de…nido por:
Xn
Xtn Xt1 = Yti , n 1,
i=1
es un proceso estocástico con incrementos independientes.
Regresando a (8.18), se observa que la de…nición de una sucesión con in-
crementos independientes plantea un problema de homogeneidad más allá del
supuesto de Distribución Idéntica, en la medida en que la de…nición implica
la marginal así como las distribuciones de las diferencias fk xtk xtk 1 ; k ,
k = 2; 3; :::Una solución obvia es la de imponer el supuesto ID sobre las
distribuciones marginales de ambas sucesiones fXtk g1 k=1 y fXtk Xtk 1 g1 k=1 :
(i) fk (xtk ; k ) = f (xtk ; ), k = 1; 3; :::
(ii) fk xtk xtk 1 ; k = f xtk xtk 1 ; , k = 2; 3; :::
El supuesto de homogeneidad (ii) se podría llamar incrementos Idén-
ticamente Distribuidos. Nótese que en vista de la relación (8.19), esto es
equivalente a homogeneidad Markov.
Las condiciones de homogeneidad presentadas anteriormente han con-
ducido al importante concepto de Estacionariedad. Khinchine (1934) se dio
cuenta de que la condición de homogeneidad (ii) es equivalente a la restric-
ción de que la distribución conjunta de dos variables aleatorias adyacentes
sólo depende de la diferencia de las fechas no de las fechas reales, es decir,

para cualesquiera dos fechas: 0 < t1 < t2 < 1:
ft1 ;t2 (xt1 ; xt2 ; ) = ft2 t1 (xt1 ; xt2 ; ).
Siguiendo la misma línea, esto se puede extender al caso de n variables
fXt1 ; Xt2 ; :::; Xt1n g, 0 < t1 < < tk < 1, tk 2 T , k = 1; 2; :::; de tal man-
era que la densidad conjunta depende únicamente de las (N 1) diferencias
ft2 t1 ; t3 t1 ; t4 t1 ; :::; tn t1 g es decir
(iii) ft1 ;t2 ;:::;tn (xt1 ; xt2 ; :::; xtn ; ) = ft2 t1 ;t3 t1 ;t4 t1 ;:::;tn t1 (xt1 ; xt2 ; :::; xtn ; ).
Khinchine mostró que esas condiciones de homogeneidad equivalen a la
restricción de que la distribución conjunta de fXt1 ; Xt2 ; :::; Xt1n g es invariante
a un cambio de las fechas, es decir,
ft1 ;t2 ;:::;tn (xt1 ; xt2 ; :::; xtn ; ) = ft1 +

(xt1 + ; xt2 + ; :::; xtn + ; ) :
;:::;tn +
((8.20))
Esto se conoce como la condición de estacionariedad estricta que se con-
virtió en la restricción de homogeneidad dominante en el desarrollo de dichas
sucesiones de variables aleatorias.
Otro proceso estocástico importante motivado por la formulación de sumas
parciales es el proceso martingala. La importancia de este proceso se deriva
del hecho de que permite su…ciente dependencia y heterogeneidad para que el
proceso de sumas parciales se comporte asintóticamente como un proceso IID
simple. El concepto de proceso martingala se introdujo a …nales de 1930 pero
su importancia no se aprecia plenamente hasta los años 1950. El concepto
de proceso martingala, en contraste con el proceso de Markov, se concentra
principalmente en el primer momento condicional en lugar de la distribución
misma.
Consideremos el proceso estocástico de sumas parciales fSk g1 k=1 donde
Xk
Sk = Zi , donde Zi ~D (0; :) , i = 1; 2; :::; k = 1; 2; 3; ::: ((8.21))
i=1
son variables aleatorias independientes pero no distribuidas ID con medias

cero (E (Zk ) = 0, k = 1; 2; :::; n). Como se muestra anteriormente, el proceso
de sumas parciales se puede escribir en la forma:
Sk = Sk 1 + Zk ; S0 = 0; k = 1; 2; 3; :::
Podemos mostrar que la esperanza condicional de Sk dado su pasado toma
la forma:
E (Sk jSk 1 ; Sk 2 ; :::; S1 ) = E (Sk 1 + Zk jSk 1 ; Sk 2 ; :::; S1 ) ((8.22))

= Sk 1 ; k = 2; 3; :::; n.
Esto se deduce de la propiedad CE4 “taking what is known out”

(véase el capítulo 7) y el hecho de que (Sk 1 ; Sk 2 ; :::; S1 ) = (Zk 1 ; Zk 2 ; :::; Z1 ),
es decir, los dos espacios de eventos coinciden en vista del mapero uno a uno
entre ellos, y por lo tanto:
E (Zk jSk 1 ; Sk 2 ; :::; S1 ) = E (Zk jZk 1 ; Zk 2 ; :::; Z1 ) = E (Zk ) = 0
El elemento esencial de este argumento no es la independencia de los Zk s

sino la combinación de las medias cero condicionales y no condicionales:
(a) E (Zk ) = 0, k = 1; 2; ::::;
(b) E (Zk jZk 1 ; Zk 2 ; :::; Z1 ) = 0, k = 2; 3; :::
ninguno de los cuales requiere independencia sino la existencia del primer
momento. En la sección 8 llamaremos al proceso fZk g1 k=1 satisfaciendo (a) -
(b) un proceso martigala diferencia.
Recolectando juntos los elementos anteriormente señalados, podemos de-
cir que el proceso estocástico fYk g1 k=1 es una martingala si
(i) E (jYk j) < 1, k = 1; 2; :::;

(ii) E (Yk j (Yk 1 ; Yk 2 ; :::; Y1 )) = Yk 1 , k = 2; 3; :::; n: ((8.23))
Un proceso martingala se especi…ca exclusivamente en términos del primer

momento condicional en el que también implícitamente se impone una restric-
ción de heterogeneidad. Esto se debe a la condición de dependencia martin-
gala (8.23) implica que si usamos la propiedad CE1 "la ley de esperanzas
iteradas" tenemos:
(ii) E (E (Yk j (Yk 1 ; Yk 2 ; :::; Y1 ))) = E (Yk ) = E (Yk 1 ), k = 2; 3; :::; n,
que se cumple sólo en el caso en que la media del proceso es constante.
Esta es una restricción de homogeneidad que se de…ne en términos del primer
momento y llama homogeneidad de primer orden (o media).
En la …gura 8.5 resumimos la relación entre los procesos estocásticos dis-
cutidos anteriormente para …nes de referencia. Como podemos ver, la cam-
inata aleatoria y los procesos incrementos independientes son subconjuntos
de la categoría proceso Markov. Por otro lado, los procesos martingala no

son un subconjunto propio de la categoría de procesos Markov, porque el
primero impone la restricción adicional de un primer momento acotado que
ninguna de las otras categorías requiere.
Figura 8.5 Procesos Markov y relacionados con él
7.3.3 Proceso Gaussiano

Como se ha mencionado en muchas ocasiones hasta ahora, la Normal (gaus-
siana) es con mucho la distribución más importante en la teoría de la probabil-
idad y en la inferencia estadística. Cuando aplicamos los anteriores conceptos
de dependencia (Markov, incrementos independientes, martingala) a un pro-
ceso estocástico Normal (Gaussiano) fXk g1 k=1 nos encontramos observando
distribuciones Normales bivariadas de la forma (ver capítulo 4):
1 (
2 2 1 2
(1 ) 2
(1 ) x1 1 x1 1 x2 2
fx1 ;x2 (xt1 ; xt2 ; 12 ) = p exp p 2 p p
2 11 22 2 11 11 22
((8.24))
donde 12 := ( 1 ; 2 ; 11 ; 22 ; ) 2 R2 R2+ [ 1; 1] ; (x1 ; x2 ) 2 R2 . Esto
es debido a que estas formas de dependencia pueden ser capturadas por
variables aleatorias contiguas. Como se argumentó en el capítulo 6, bajo
Normalidad la única forma posible de dependencia es dependencia de primer
orden capturada por el coe…ciente de correlación .
El razonamiento anterior en relación con la distribución Normal dio lugar
a una forma de dependencia especi…cada en términos de los dos primeros
7.4. RESTRICCIONES DE DEPENDENCIA 407
momentos de cualesquiera variables aleatorias Xk y Xm (m > k); conocida

como dependencia lineal de…nida por (véase el capítulo 6):
k;m := Corr (Xk ; Xm ) 6= 0. ((8.25))

Como con los otros conceptos de dependencia, el concepto de variables
aleatorias correlacionadas plantea el problema de la homogeneidad asociada
con él. En analogía directa con la estacionariedad estricta (8.20) podemos
especi…car las siguientes condiciones en términos de los dos primeros momen-
tos:
(a) E (Xk ) = E (Xk+ ), para todo k; = 1; 2; :::
(b) E (Xk Xm ) = E (Xk+ Xm+ ), para todo k; m; = 1; 2; :::
Estas condiciones garantizan que la correlación (8.25) estará libre de fe-
chas. Una manera más transparente, pero equivalente de expresar esto es que
los dos primeros momentos no dependen ni de k ni de m, sino de la diferencia
jm kj:
(a) E (Xk ) = , para todo k = 1; 2; :::;
(b) E [Xk E (Xk )]2 = 2 , para todo k = 1; 2; :::;
(c) E f[Xk E (Xk )] [Xm E (Xm )]g = h (jm kj) 2 , k; m = 1; 2; :::
Las condiciones (a) - (c) de…nen lo que se conoce como estacionariedad
débil (o de segundo orden).
7.4 Restricciones de dependencia

Después de haber introducido una serie de conceptos importantes utilizando
el desarrollo histórico de los procesos estocásticos, procedemos a de…nir al-
gunas restricciones de dependencia y heterogeneidad. Nos limitamos a muy
pocos ejemplos, porque el resto de este capítulo estará dedicado a la utili-
dad de los conceptos introducidos en esta sección en el contexto de distintos
procesos estocásticos. Por conveniencia de notación utilizamos la notación
de índice discreto, pero con ligeras modi…caciones los siguientes conceptos
pueden ser escritos en la notación más general 0 < t1 < < tk < 1.
7.4.1 Conceptos basados en distribución

Históricamente, la primera restricción de dependencia adoptada fue el caso
extremo de no dependencia.
Independencia. Se dice que el proceso estocástico fYt ; t 2 T g es inde-

pendiente de si:
YT
f (y1 ; y2 ; :::; yT ; ) = f (yt ; t) , para todo y := (y1 ; y2 ; :::; yT ) 2 <Y .
i=1
Este concepto ha sido discutido ampliamente en los capítulos anteriores.

Procedemos a de…nir supuestos menos restrictivos en relación a la dependen-
cia.
Dependencia Markov. El proceso estocástico fYt ; t 2 T g se dice que es
Markov dependiente si:
fk (yk jyk 1 ; yk 2 ; :::; y1 ; 'k ) = fk (yk jyk 1 ; k) , k = 2; 3; :::

Esta noción de dependencia se puede extender fácilmente a órdenes may-
ores de la siguiente manera.
Dependencia Markov de orden m. El proceso estocástico fYt ; t 2 T g se
dice que es Markov dependiente de orden m si para m 1:
fk (yk jyk 1 ; yk 2 ; :::; y1 ; 'k ) = fk (yk jyk 1 ; :::; yk m; k) , k = m + 1; m + 2; :::.
La intuición detrás de este tipo de dependencia es que la información

condicional relevante para predecir yn es sólo el pasado reciente que se re-
monta a sólo m periodos.
Dependencia diferencia martingala. El proceso estocástico fYt ; t 2 T g
se dice que es dependiente diferencia martingala si E (Yk ) = 0, k = 1; 2; :::;
y:
E (Yk j (Yk 1 ; Yk 2 ; :::; T1 )) = 0, k = 2; 3; :::

Es decir, el proceso es de primer orden condicionalmente independiente
de su pasado.
m-dependencia. El proceso estocástico fYt ; t 2 T g se dice que es m-
dependiente si para m > 0:
f y1 ; :::; yn ; yn+ ; yn+ +1 ; y2n+ ; n; = f (y1 ; :::; yn ; n) f yn+ ; :::; y2n+ ; n; .

7.4. RESTRICCIONES DE DEPENDENCIA 409
La intuición detrás de esta forma de dependencia es que cuando los ele-

mentos del proceso estocástico están m o más períodos separados son inde-
pendientes. Esta forma de dependencia surge naturalmente cuando el mod-
elador considera una sucesión IID fYk g1k=1 con media cero y de…ne:
Yk := Xk Xk+m , k = 1; 2; :::
El proceso estocástico fYk g1
k=1 es un proceso m-dependiente.
Independencia asintótica. El proceso estocástico fYt ; t 2 T g se dice
que es asintóticamente independiente si cuando ! 1:
f yn+ jyn ; yn 1 ; :::; y1 ; n; ' f yn+ ; n; .

La intuición detrás de esta forma de dependencia es que los elementos
del proceso estocástico llegan a ser independientes cuando la distancia entre
ellos aumenta hasta in…nito.
Capítulo 8
Estimación I: Propiedades de
los estimadores
8.1 Introducción
Para cualquier forma de inferencia estadística (paramétrica), como se de-
scribe en el capítulo anterior, el modelador necesita dos componentes básicos:
(A) modelo estadístico: S := ( ; X), - modelo de probabilidad, X -
modelo muestral,
(B) conjunto de datos: x := (x1 ; x2 ; :::; xn ).
Los datos son entonces interpretados una realización del mecanismo aleato-
rio especi…cado por el modelo estadístico. El objetivo principal de la inferen-
cia estadística es utilizar la información de los datos para extraer conclusiones
en relación con el mecanismo de probabilidad de que se trate. La estimación
equivale a utilizar la información en los datos para elegir un determinado
valor de de . Una vez que el parámetro es estimado por algún estimador
b, tenemos una descripción probabilística del mecanismo aleatorio en cuestión
Sb := b ; X . En el caso de un modelo estadístico simple, este mecanismo
estocástico se puede describir utilizando el modelo de probabilidad estimado:
n o
b := f x; b ; x 2 RX . (12.1)
Es importante destacar, en primer lugar que la estimación de no es el

último objetivo de la modelación; la estimación de es un medio para un …n.
El objetivo …nal es obtener una descripción estadística empírica adecuada
411
412CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADES DE LOS ESTIMADORES
del mecanismo estocástico que dió origen a los datos que, en el caso anterior,
es el modelo estadístico estimado (12.1).
La teoría de la estimación en su forma moderna comienza con el tra-
bajo seminal de 1922 de Fisher "Sobre los fundamentos matemáticos de la
estadística teórica", donde algunos de los conceptos fundamentales de la es-
timación, tales como verosimilitud, información, e…ciencia y consistencia, se
propusieron por primera vez.
8.1.1 Vista panorámica del capítulo

En la sección 2 discutimos el concepto de estimador y conceptos relacionados,
y lps ilustramos con dos ejemplos básicos que forman la columna vertebral
de la discusión en este capítulo. Un concepto fundamental es el de distribu-
ción muestral que forma la base de la discusión de lo que constituye un buen
estimador. El concepto de buen estimador se formaliza en términos de varias
propiedades de…nidas en términos de la distribución muestral del estimador.
Las propiedades de los estimadores se dividen en las propiedades de muestra
…nita (insesgamiento y e…ciencia) examinadas en la sección 3 y propiedades
asintóticas (consistencia, Normalidad asintótica y e…ciencia asintótica) ex-
aminadas en la sección 4. A lo largo de la discusión utilizamos dos modelos
estadísticos muy simple, el Bernoulli y el Normal (de un parámetro) con el
…n de ilustrar las diversas ideas y conceptos. Estos ejemplos son elegidos
para mantener las manipulaciones matemáticas a un mínimo absoluto. En
la sección 5 discutimos el modelo estadístico más ampliamente utilizado, el
modelo Normal simple, en un intento de hacer resaltar algunas de las car-
acterísticas más sutiles de la estimación óptima. En la sección 6 discutimos
la propiedad de un estadístico (en función de la muestra), el cual se puede
utilizar para diseñar estimadores óptimos: la propiedad de su…ciencia.
8.2 La de…nición de un estimador

La estimación del parámetro desconocido, es equivalente a la de…nición de
una función de la forma:
h (x) : X !
donde es el espacio muestral (el conjunto de todas las posiblres realiza-
ciones de la muestra), y representa el espacio de parámetros (el conjunto
8.2. LA DEFINICIÓN DE UN ESTIMADOR 413
de todos los valores posibles de ). La función, que se denota por:
b = h (X1 ; X2 ; :::; Xn ) ,
se conoce como un estimador de . Un estimador, (que es una función

de las variables aleatorias (X1 ; X2 ; :::; Xn ), es en mismo una variable aleato-
ria que toma diferentes valores dependiendo de la realización muestral. Un
valor particular de este estimador, basado en una realización particular de la
` ` `
muestra x1 ; x2 ; :::; xn , se llama una estimación de y se representa por:
` ` `
b=h x 1 ; x2 ; :::; xn .
El signi…cado de siempre está claro por el contexto, dependiendo de

si representa una variable aleatoria o un valor de una variable aleatoria (un
número).
Ejemplo 1
Considere el modelo Bernoulli simple:
[i] MG estadístico: Xi = + "i , i 2 N.
[ii] Modelo de probabilidad: = f (x; ) = x (1 )1 x , 0 1; x = 0; 1 ;
[iii] Modelo muestral: X := (X1 ; X2 ; :::; Xn ) es una muestra aleatoria.
Las siguientes funciones constituyen estimadores probables de :
(a) b1 = X1 , (b) b2 = 12 (X1 + X2 ),
Xn
(c) b3 = 21 (X1 + X2 + X3 ), (d) bn = n1 Xi ,
Xn i=1 X
n
(e) bn+1 = n+11
Xi , (f) bn+2 = n+2 1
Xi .
i=1 i=1
Nota. En Spanos (pg. 603) en el inciso (c) dice b3 = 12 (X1 + X2 + Xn );
debería decir b3 = 21 (X1 + X2 + X3 ).
Contraejemplos
Las siguientes funciones f (X1 ; X2 ; :::; Xn ) no constituyen estimadores de
:
g) b4 = (X1 Xn )u 45 (X12Xn). El rango de esta función no es = [0; 1];
puede tomar valores
Xnfuera de el X1 = 0 y Xn = 1.
(h) b5 = n 1
Xi . El dominio de la función no es el espacio mues-
i=1
tral, sino que depende de algún escalar desconocido .
(i) b5 = 0:8. Su dominio no es el espacio muestral.
Ejemplo 2
Considere el modelo Normal simple (de un parámetro):
[i] MG estadístico: Xi = + "i , i 2 N.
[ii] Modelo
n de probabilidad: o
= f (x; ) = p12 exp 1
2
(x )2 , := 2 R; x 2 R ;
NOTE que el modelo de probabilidad se de…ne en términos de: X~N ( ; 1).
Las siguientes funciones constituyen estimadores posibles de :
(i) b1 = X1 , (ii) b2 = 12 (X1 + X2 ),
Xn
(iii) b3 = (X1 Xn ), (iv) bn = n1 Xi ,
Xn i=1X
n
1 1
(v) bn+1 = n+1 Xi , (vi) bn+2 = n+2 Xi .
i=1 i=1
Dado que el parámetro toma valores en el conjunto de la recta real (R),
será imposible de…nir una función de la muestra (X1 ; X2 ; :::; Xn ), que no sea
un estimador de . En vista del hecho de que es muy fácil de…nir numerosos
posibles estimadores, la pregunta que surge naturalmente es: ¿cómo se puede
elegir uno entre tales estimadores? Intuitivamente, la respuesta a esta pre-
gunta es obvia: se elige el estimador que se aproxima al verdadero parámetro
desconocido 0 con la mayor precisión posible. La formalización del concepto
de aproximación precisa resulta ser complicado porque no podemos de…nirlo
en la forma matemática usual b 0 ' 0. Esto se debe a que tal distancia:
(a) depende del parámetro desconocido 0 , y

(b) b = h (X1 ; X2 ; :::; Xn ) es una variable aleatoria que puede tomar mu-
chos valores diferentes.
Sin embargo, el hecho de que un estimador b = h (X1 ; X2 ; :::; Xn ) sea una
variable aleatoria, sugiere que cualquier formalización del concepto de aproxi-
mación precisa implicará su distribución, la cual podemos llamar distribución
muestral de .
Distribuciones muestrales de los estimadores

La distribución muestral de un estimador de b = h (X1 ; X2 ; :::; Xn ) :=
h (X) se de…ne como la distribución de la función h (X1 ; X2 ; :::; Xn ). Su
función de densidad se representa por:
f b; x1 ; x2 ; :::; xn := f b; x ,
con el …n de enfatizar su dependencia de la muestra (X1 ; X2 ; :::; Xn ).

Como argumentamos en el capítulo 11, el problema del establecimiento de
tales distribuciones muestrales fue considerado por Fisher como uno de los
8.2. LA DEFINICIÓN DE UN ESTIMADOR 415
tres aspectos básicos de la inferencia estadística, siendo las otras dos especi-
…caciones la especi…cación y la estimación:
(iii) Problemas de distribución incluyen la deducción matemática de la
naturaleza exacta de las distribuciones en muestras aleatorias de nuestras
estimaciones de los parámetros ... (Fisher (1925b), p. 8).
De la discusión en los capítulos 4 y 11, sabemos que matemáticamente
podemos de…nir la función de distribución acumulada (cdf) de cualquier fun-
ción b = h (X1 ; X2 ; :::; Xn ) a través de:
ZZ Z
P b y = f x1 ; x2 ; :::; xn ; b dx1 dx2 dxn (12.2)
fh(X1 ;X2 ;:::;Xn ) g
donde
(a) (X) := fh (X1 ; X2 ; :::; Xn ) yg representa el rango de valores Y =
h (X1 ; X2 ; :::; Xn ) para todo (x1 ; x2 ; :::; xn ) 2 X .
(b) f x1 ; x2 ; :::; xn ; b denota la distribución de la muestra: la dis-
tribución conjunta de las variables aleatorias X := (X1 ; X2 ; :::; Xn ).
Ejemplo 1. Bernoulli (continuación).
Armados con un lema del capítulo 11, que dice que una suma de variables
aletorias distribuidas Bernoulli IID es Binomialmente distribuida, podemos
proceder a derivar la distribución muestral de los estimadores (a) - (e). En
vista del hecho de que todos estos estimadores son funciones lineales de la
muestra, podemos deducir que sus distribuciones muestrales son todas Bi-
nomiales. Todo lo que resta es obtener su media y varianza utilizando las
propiedades deX E(:) (véase el capítulo 3). Por ejemplo, la distribución mues-
n
b
tral de n = n 1
Xi es Binomial con media y varianza:
i=1
1 Xn 1
E bn = E Xi = n ,
n i=1 n
1
2 Xn 1
2
1
V ar bn = V ar (Xi ) = (n (1 )) = (1 ).
n i=1 n n
Estos resultados se obtienen usando la independencia de la muestra y las

propiedades de la media y la varianza (ver capítulo 3). Por lo tanto, las
distribuciones muestrales son las siguientes:
(a) b1 = Bi ( ; (1 ) ; 1), (d) bn = Bi ; (1 )

n
;n ,
(b) b2 = Bi ; 12 (1 );2 , (e) bn+1 = Bi n
n+1
; n(n+1)
(1 )
2 ;n ,
(b) b2 = Bi ; 31 (1 );3 , (f) bn+2 = Bi n+2 n

; n(n+2)
(1 )
2 ;n .
Estos resultados distribucionales sugieren que los estimadores (a) - (d)

tienen distribuciones muestrales con la misma media (igual al parámetro
que pretenden estimar), pero diferentes varianzas. La varianza de bn es
menor que cualquiera de los otros, para cualquier tamaño muestral n > 3.
En efecto, la varianza de bn es n veces más pequeña que la varianza de las
variables aleatorias en en la muestra! La distribución muestral de bn+1 no
está centrada en , pero su varianza es menor que la de los otros. Sobre la
base de su distribución muestral, bn parece ser el mejor estimador de en
este grupo. Este argumento intuitivo de mejor estimador se formalizará en
la próxima sección.
Ejemplo 2. Normal (continuación).
Utilizando el lema 2 del capítulo 11, que dice que la suma de vari-
ables aleatorias Independientes Normalmente variables es Normalmente dis-
tribuida, podemos deducir que para el modelo Normal las distribuciones
muestrales de los estimadores (i) - (vi) son:
(i) b1 = N ( ; 1), (ii) b2 = N ; 21 ,
(iii) b3 = N (0; 2), (iv) bn = N ; n1 ,
n n n n
(v) bn+1 = N n+1 ; (n+1)2 , (vi) bn+2 = N n+2 ; (n+2)2 .
Por razones intuitivas bn parece ser el mejor estimador en este grupo

porque su distribución muestral tiene una media igual a (el parámetro
2
que tiene por objeto estimar) y su varianza V ar (bn ) = n es n veces más
pequeña que la varianza de las variables aleatorias individuales V ar (Xi ),
i = 1; 2; :::; n. En la …gura 12.1 podemos ver cuánto se reduce la varianza
por un tamaño muestral tan pequeño como n = 12. Este es un resultado
importante que a menudo es explotado por diversas técnicas de muestreo
tales como los métodos Monte Carlo y bootstrap (véase el capítulo 11.8).
Figura 12.1. Xi ~N (0; 2 ) frente a bn ~N (0; 2n ) para 2 = 4, n = 12.
NOTA: el lector perspicaz habrá notado que los mejores estimadores en los
modelos Normal y Bernoulli coinciden. La pregunta que surge naturalmente
es:
¿Es una coincidencia que para los parámetros y de los modelosXnBernoulli

1
y Normal, respectivamente, el mejor estimador parece ser n Xi ?
i=1
8.3. PROPIEDADES DE MUESTRA FINITA 417
El hecho de importancia es que hay una buena razón para este resultado.
En ambos casos el parámetro que queremosXn estimar es la media de la dis-
1
tribución E(X) y el mejor estimador n Xi es la media muestral. La
i=1
idea de la estimación de un momento de la distribución usando el correspon-
diente momento muestral tiene una larga historia en la estadística que se
remontan al siglo XIX (véase el capítulo 13, sección 2).
8.3 Propiedades de muestra …nita

8.3.1 Motivación: el estimador ideal
Como mostramos en la sección anterior, es muy fácil de…nir estimadores.
Esto plantea el problema de elegir el mejor entre estos estimadores. Dado
que los estimadores son funciones de la muestra (variables aleatorias) ellas
son variables aleatorias en sí mismas. Por lo tanto, cualquier discusión de
mejor estaría relacionadaa con su distribución.
El problema de la de…nición de un buen estimador se asemeja a una
situación en la que un arquero está parado al pie de una colina con el objetivo
en el otro lado de la colina más allá de su visión. Lo que tiene que hacer es
diseñar una estrategia (regla) en relación con los factores dentro de su control,
tales como el ángulo de disparo y la potencia de tiro, lo cual asegurará que la
‡echa caiga lo más cerca que sea posible del objetivo. El modelador tiene que
elegir una regla (un estimador) de una manera que garantice la proximidad
al valor desconocido del parámetro .
Con el …n de motivar a algunas de las propiedades óptimas de los, vamos
a considerar en primer lugar el concepto del estimador ideal. Idealmente,

queremos tener un estimador, por ejemplo: = h (X), que toma sólo un
valor ( 0 el verdadero valor de ), con probabilidad uno, independientemente
de la realización muestral. Es decir, la distribución muestral de toma la
forma:
P( = 0) = 1,
es decir, es igual a 0 con probabilidad uno; tiene una distribución
degenerada. En la …gura 12.2 podemos ver el estimador ideal y lo que parece
ser una buena aproximación de su distribución muestral.
Figura 12.2 La distribución del estimador ideal y una posible "buena"

aproximación.
En cuanto a la analogía del arquero, estimador ideal equivale a un proced-

imiento que asegure que el arquero acierte al blanco cada vez. Desafortunada-
mente, para un dado tamaño muestral n, no existe tal estimador.Estimadores
factibles generalmente proporcionan diferentes estimaciones para diferentes
realizaciones muestrales. Por lo tanto, necesitamos tener en cuenta criterios
de optimización que se basen en un distribución muestral no degenerada del
estimador en cuestión. El mejor entre tales estimadores será el que más se
aproxime al estimador ideal. ¿Cómo formalizar el concepto más próximo al
estimador ideal?
En vista del hecho de que ningún estimador factible podría aproximar
la distribución muestral del estimador ideal (siendo degenerada), vamos a
considerar aproximaciones basadas en los dos primeros momentos. Heurís-

ticamente, podemos ver el estimador ideal en términos de sus dos primeros
momentos:
(i) E ( ) = 0, (ii) V ar ( ) = 0.
Esto sugiere que un estimador óptimo será uno cuya media está localizada
en el verdadero valor del parámetro que pretende estimar y su varianza es
cero. Para un tamaño de muestra …nito n, la segunda propiedad no puede
ser emulada por los estimadores factibles, pero cuando n tiende a in…nito
algunos estimadores pueden de hecho emularla. Debido a esto podemos dis-
tinguir entre las propiedades de muestra …nita (válidas para cualquier n) y
propiedades asintóticas (válidas cuando n tiende a in…nito).
Insesgamiento
Formalizamos la propiedad de localización en la forma de insesgamiento.
Una estimador b se dice que es un estimador insesgado de si su
distribución muestral tiene una media igual al parámetro 0 que tiene por
objeto estimar, es decir,
E b = 0.
De lo contrario u se dice que es sesgado, el sesgo se de…ne por: ð b; 0 =

E b 0.
NOTA: Para evitar notación engorrosa, el subíndice de 0 será omitido

cuando no parezca no ser necesario.
Ejemplo 1. (continuación)
En el caso de los anteriores estimadores (a) - (f), podemos ver que b1 ; b2 ; b3
y bn son estimadores insesgados de pero bn+1 y bn+2 no. El sesgo de estos
estimadores es:
(e) ð bn+1 = 1
n+1
, (f) ð bn+2 = 1
n+2
.
¿Signi…ca esto que los estimadores bn+1 y bn+2 son inferiores a los otros
estimadores? Como se muestra a continuación, la respuesta no es tan obvia
como parece a primera vista, debido a que el insesgamiento no es la única
propiedad, o incluso la propiedad más deseable para buenos estimadores.
Otras propiedades relacionadas con los momentos de orden superior suelen

ser más importantes.
El concepto de insesgamiento es intuitivamente atractivo, pero no deja de
tener sus problemas.
1. Estimadores insesgados no siempre existen.
Ejemplo 2
Considere el modelo Exponencial simple:
[i] MG estadístico: Xk = 1 + uk , k 2 N.
[ii] Modelo de probabilidad:
= ff (x; ) = f exp f xg , > 0; x > 0gg ;
Se puede demostrar (véase Schervish (1995), p. 297) que ningún esti-
mador insesgado de existe!
2. Estimadores insesgados no son invariantes a transformaciones de los
parámetros desconocidos. Es decir, si bn := h (X) es un estimador insesgado
de , es decir,
E bn = ,
entonces, en general, para # = g ( ), donde g (:) : ! bn = g bn :

y#
bn 6= #.
E #
Ejemplo 3. Exponencial (continuación).

Considere el modelo Exponencial simple como se especi…có anteriormente.
Hemos visto que ningún estimador insesgado X de existe, pero podemos
n
1
demostrar que para # = , el estimador #bn = 1
Xi es insesgado. Esto
n i=1
se sigue del hecho de que:
Xn Xn
bn = 1
E # E (Xi ) =
1
#=
1
n# = #.
n i=1 n i=1 n
E…ciencia
La idea de que la distribución muestral debe ser lo más concentrada que sea
posible alrededor del verdadero valor de se puede formalizar en términos
de la varianza de la distribución muestral de un estimador. Esta propiedad
se conoce como e…ciencia: qué tan disperso está el estimador alrededor del
verdadero valor de . Consideramos dos tipos de e…ciencia: e…ciencia relativa

y e…cienciaompleta.
E…ciencia relativa. Para dos estimadores insesgados b y # b de , se dice
que b es relativamente más e…ciente que #
b si:
V ar b b .
V ar #
Ejemplo 1. Bernoulli (continuación).

En el caso de los estimadores insesgados b1 ; b2 ; b3 y bn , b2 es relativa-
mente más e…ciente que b1 , b3 es relativamente más e…ciente que b2 y bn es
relativamente más e…ciente que b3 , es decir,
V ar bn V ar b3 V ar b2 V ar b1 .
La e…cacia relativa no es una propiedad muy valiosa, porque la compara-

ción es siempre relativa a algunos estimadores alternativos especí…cos. Esto,
sin embargo, sugiere que un estimador que es mejor que algunos estimadores
terribles no es necesariamente un buen estimador. Por lo tanto, la pregunta
que inmediatamente viene a la mente es si existe un punto más bajo a partir
del cual la varianza del estimador no puede pasar. Esto plantea la cuestión
de la e…ciencia absoluta o total.
El desafío de diseñar una cota absoluta inferior se cumplió con éxito en
1945- 6 por dos pioneros de la estadística moderna H. Cramer (1946a) y C. R.
Rao (1945). Utilizando diferentes enfoques ambos llegaron a la misma con-
clusión. La cota absoluta inferior para los estimadores insesgados se relaciona
con un concepto introducido por Fisher (1922a) y, posteriormente, llamado
información de Fisher.
Información de Fisher para la muestra
En el contexto de la teoría de la Probabilidad de…nimos información
en el contexto de nuestro universo de discurso, el espacio de probabilidad
(S; =; P (:)), de una manera muy sencilla. Cualquier forma de conocimiento
que reduce = a un cierto subconjunto del mismo, se considera como infor-
mación. Es decir, sabiendo que nuestro espacio de eventos se ha reducido de
= a =1 donde:
=1 =,
se considera como información.
En la inferencia estadística, la información tiene que ver con cómo el

modelador utiliza la información para sacar conclusiones relacionadas con el
mecanismo estocástico que dió origen a los datos. Intuitivamente, la informa-
ción tiene que ver con lo bien que el modelador puede …ltrar la información
sistemática que sale de los datos observados. El grado de nuestra utilización
de la información sistemática de los datos será re‡ejado en la precisión de
nuestras estimaciones y pruebas estadísticas relativas a los parámetros de-
sconocidos . Una medida de tal información es la información de Fisher
para la muestra de los modelos de probabilidad regulares.
Modelos regulares probabilidad. Se dice que un modelo de probabil-
idad es regular si la distribución de la muestra f (x; ) := (x1 ; x2 ; :::; xn ; )
satisface las siguientes condiciones de regularidad:
(Rf1) el espacio de parámetros es un subconjunto abierto de Rm ,
m < n,
(Rf2) el soporte de la distribución: X0 := fx : f (x; ) > 0g es la misma
para todo 2 ,
(Rf3) @Inf@ (x; ) existe y es …nita para todo 2 , x 2X0 ,
(Rf3) h ((X) podemos intercambiar diferenciación e integración, es decir,
Z Z
@
h ((X) f (x; ) dx1 dx2 ; :::; dxn =
@
Z Z
@
h ((X) f (x; ) dx1 dx2 ; :::; dxn < 1.
@
La primera condición excluye los puntos fronterizos para garantizar que

las derivadas (de ambos lados de un punto) existan. Para este tipo de mod-
elos regulares de probabilidad podemos proceder a de…nir la información de
Fisher para la muestra que está diseñada para proporcionar una medida de
la información emitida por la muestra para un parámetro 2 .
La información de Fisher para la muestra (X1 ; X2 ; :::; Xn ) se de…ne
por:. ( )
2
dInf (x; )
In ( ) := E . (12.3)
d
Hay varias cosas que NOTAR sobre este concepto.

(1) Surgen di…cultades cuando el rango de X depende de ; véase el
ejemplo 4 anterior.
(2) Bajos las condiciones de regularidad (I) - (III) se puede demostrar

que:
( )
2
dInf (x; ) d2 Inf (x; )
In ( ) := E =E .
d d 2
Esto a menudo proporciona una manera más conveniente para obtener la
información de Fisher y por lo tanto la cota inferior de Cramer-Rao.
(3) La forma de la información de Fisher depende fundamentalmente
del modelo estadístico postulado y no tiene nada que ver con estimadores o
estadísticos de prueba. Por ejemplo, en el caso de una muestra independiente:
df (x; ) Xn df (x; )
E = .
d i=1 d
en el caso de la muestra aleatoria la información de Fisher toma la forma
aún más simple:
( )
2
dInf (x; )
In ( ) = nI ( ) := nE ,
d
donde f (x; ) representa la función de densidad de cualquier variable

aleatoria Xk IID, k = 1; 2; :::; n y:
( )
2
dInf (x; )
I ( ) := E ,
d
representa la información de Fisher para una observación individual. Su
dependencia de la forma del modelo de probabilidad puede ser ilustrada en
el caso de una muestra aleatoria de una distribuciónNormal (un parámetro):
Xk ~N ( ; 1), k = 1; 2; :::n, es decir,
1 1
(x )2 d
f (x; ) = e 2 , f (x; ) = (x ) , I ( ) = 1, In ( ) = n.
2 d
NOTA: el término información de la muestra proviene del hecho de que
la varianza de la mejor estimador insesgado es igual a la inversa de ésta. A
medida que la información aumenta esto reduce la varianza y por lo tanto se
gana más información acerca de .
La desigualdad de Cramer-Rao. Utilizando la información de Fisher

para la muestra Cramer (1946a) y Rao (1945) propusieron una cota inferior
absoluta para estimadores insesgados.
Cota inferior de Cramer-Rao. Asumiendo que la información de
Fisher para la muestra existe y In ( ) > 0 para todo 2 , la varianza
de cualquier estimador de un parámetro , por decir, b, no puede ser menor
que la inversa de In ( ), es decir,
( ) 1
2
dInf (x; )
V ar b 1
CR ( ) := In ( ) := E . (12.4)
d
En el caso de que el modelador se interese en alguna función diferenciable

de , por ejemplo q ( ) y qb ( ) es un estimador de q ( ), la cota inferior de
Cramer-Rao adopta la forma:
1
d
Var (b
q ( )) 1
CR (q ( )) := In (q ( )) := E (q ( ))2 In 1 ( ) . (12.5)
d
Utilizando (12.5) podemos ampliar la cota inferior de Cramer-Rao para

el caso de cualquier estimador, por ejemplo e (no necesariamente insesgado):
0 12 ( )
d E b dInf (x; )
2 1
Var b @ A E . (12.6)
db d
para todo estimador e de .

El siguiente ejemplo ilustra la utilidad de la condición Rf2 para la derivación
de la cota inferior de Cramer-Rao.
Ejemplo 4
Considere el modelo Uniforme simple:
[i] MG estadístico: Xk = E (Xk ) + k , k 2 N.
= f (x; ) = 1 ; 2 (0; 1) ; 0 < x < ;
En este caso, el rango de X depende de y la condición de regularidad
Rf2 no se cumple. Si utilizamos la cota mínima de Cramer-Rao (C-R) en
este caso vamos a obtener resultados muy engañosos, porque lo que parece
ser una cota mínima C-R:
dInf (x; ) dIn 1 dIn n n 2

= n = ( nIn ) = ) In ( ) = ,
d d d
en realidad no es aplicable.
E…ciencia completa. Una estimador insesgado b se dice que es un
estimador plenamente e…ciente si su varianza alcanza la cota mínima C-R:
V ar b = CR ( ) := In 1 ( ) .
Una condición necesaria y su…ciente para que un estimador insesgado b

de alcance este límite es que b se pueda expresar en la forma:
b d In f (x; )
= h (x) , (12.7)
d
para alguna función h (x).
Ejemplo 2. Normal (continuación)
En el caso del modeloNormal (un parámetro), la distribución de la mues-
tra toma la forma:
( )
1X 1X
n n n
1 n
f (x; ) := exp (xi )2 , In f (x; ) = In 2 (xi )2 .
2 2 i=1 2 2 i=1
La primera y segunda derivadas toman la forma:
d In f (x; ) X
n
d2 In f (x; )
= (xi ), = n.
d i=1
d 2
Por lo tanto, In ( ) = n y la cota mínima C-R es CR ( ) := In 1 ( ) = n1 ,
X
n
1
lo que con…rma que el estimador bn = n Xi es un estimador totalmente
i=1
e…ciente. En este caso se cumple la igualdad (12.7) ya que:
1X
n
1 d In f (x; )
(bn )= = (Xi ).
n d n i=1
Ejemplo 1. Bernoulli (continuación)

Como mostramos anteriormente, la distribución de la muestra para el
modelo de Bernoulli es:
X
n X
n
xi (1 xi )
f (x; ) := i=1 (1 ) i=1 .
Por lo tanto:
! !
X
n X
n
In f (x; ) = xi In + [1 xi ] In (1 ).
i=1 i=1
! !
d In f (x; ) Xn
1 X
n
1
= xi [1 xi ] .
d i=1 i=1
(1 )
! !
2
d In f (x; ) Xn
1 Xn
1
2
= xi [1 xi ] .
d 2 i=1
2
i=1
(1 )
2
d In f (x; ) n
E = .
d 2 (1 )
Esto se sigue del hecho que:
! !
X
n X
n X
n
E xi =n , E [1 xi ] =n E (xi ) = n (1 ),
i=1 i=1 i=1
y entonces:
(1 )
CR ( ) = .
n
Si volvemos a los estimadores (a) - (d) para , podemos ver que el único
estimador insesgado de , que es plenamente e…ciente es bn , ya que:
(1 ) (1 )
V ar bn = = = CR ( ) .
n n
Ejemplo 4? . Uniforme (continuación)
Considere el estimador insesgado bn = n+1
n
max (X1 ; X2 ; :::; Xn ) de . Se
puede demostrar que la distribución muestral del estadístico de mayor orden
n 1
Y := max (X1 ; X2 ; :::; Xn ) es f (y; ) = ny n , 0 < y < (ver capítulo 10).
El uso de este, nos lleva a la conclusión errónea de que bn es un estimador
super plenamente e…ciente, pues:
Z 1 2 2
n+1 ny n 1
E bn := y n = , V ar bn := < .
n 0 n (n + 2) n2
2
en el supuesto de que In 1 ( ) := n2 es la cota mínima. Por supuesto, este
argumento es erróneo porque la información de Fisher no se puede de…nir en el
caso de la distribución Uniforme debido a que las condiciones de regularidad
no se cumplen.
Estimadores mínimo ECM

Las medidas anteriores de e…ciencia nos permite elegir entre estimadores
insesgados pero no ofrecen una guía sobre la cuestión de elegir entre un
estimador sesgado y uno insesgado tal como bn+1 , bn+2 y b1 ; b2 ; b3 , re-
spectivamente, en el contexto del modelo de Bernoulli. Esto es interesante
porque los estimadores plenamente e…cientes e insesgados no siempre existen
y los estimadores insesgados no siempre son buenos estimadores. Hay casos
en los que podemos elegir un estimador sesgado en lugar de uno insesgado,
porque el primero tiene menor varianza. En el caso de los anteriores b1 ; b2 y
b3 , podemos ver que su varianza puede ser considerablemente mayor que la
de bn+1 , bn+2 para cualquier valor razonable de n.
¿Cómo podemos comparar estimadores sesgados e insesgados?

b no debemos usar su
Si queremos penalizar el sesgo de un estimador #,
varianza como una medida de su dispersión, ya que esto pasa por alto el
hecho de que E # b 6= 0 . En su lugar, debemos utilizar una medida de la
variación en torno a 0 . La medida más ampliamente utilizada es el Error
Cuadrático Medio de…nido en = 0 como:
2
b
ECM #; 0 := E b
# 0 .
NOTE que en el caso de un estimador insesgado b, ECM b; 0 = V ar b ,

pero en el caso de un estimador sesgado:
2 h i
b
ECM #; 0 := E b
# b +E #
E # b 0
b + g #;
= V ar # b 0 ,
donde el sesgo se ha de…nido anteriormente para ser:
b
#; 0
b
=E # 0.
Esto se puede deducir directamente de la de…nición de la ECM (veri-

…quelo!).
Un estimador b se dice que es un estimador mínimo ECM de si:
ECM b; b
ECM #; 0 ,
b y todos los valores de .

para cualquier otro estimador #
En términos del ECM, bn+1 , bn+2 son mejores estimadores de b1 ; b2 y
b3 , ya que para n > 3:
2
n
ECM bn+1 = (1 )+
(n + 1)2 (n + 1)
n (1 )+ 2
= ECM bi ; i = 1; 2; 3,
(n + 1)2
2
n
ECM bn+2 = (1 )+
(n + 2)2 (n + 2)
n (1 )+ 2
= ECM bi ; i = 1; 2; 3,
(n + 2)2
y la mayoría de los valores de . Además, ECM bn+1 >ECM bn+2 .

Inadmisibilidad de los estimadores. La anterior propiedad de mínimo
ECM puede ser utilizada como una extensión de las formas de la e…ciencia
b2 y #
de…nidas anteriormente. En el caso de cualesquiera dos estimadores, # b1 ,
si:
b2
ECM # b1
ECM # para todo 2 ,
decimos que #b2 domina a #b1 en el sentido de ECM y se dice que #

b1 es
inadmisible.
En el caso de bn+1 , bn+2 :
ECM bn+2 ECM bn+1 para todo 2 [0; 1] ,
y por lo tanto bn+1 es inadmisible. Sin embargo, ambos estimadores

alcanza sus respectivas cotas inferiores de Cramer-Rao:
n dE b n
E bn+1 = , = ,
n+1 db n+1
n dE b n
E bn+2 = , = .
n+2 db n+2
Por lo tanto, de (12.6) las cotas inferiores de Cramer-Rao para estos
estimadores sesgados son:
2
n (1 ) n (1 )
CR bn+1 = = 2 ,
n+1 n (n + 1)
2
n (1 ) n (1 )
CR bn+2 = = 2 .
n+2 n (n + 2)
que son iguales a sus respectivas varianzas.
Hay otro sentido en el que bn+1 , bn+2 son estimadores mucho mejores
que los estimadores insesgados b1 ; b2 y b3 . Esto surge del hecho de que las
varianzas de b1 ; b2 y b3 no sólo son más grandes que las de bn+1 , bn+2 , sino
que ellas no disminuyen a medida que se añaden observaciones adicionales a
la muestra.
Esto nos lleva convenientemente a las propiedades asintóticas de los esti-
madores. Llamamos a tales propiedades asintóticas porque, a diferencia de
las anteriores propiedades de muestra …nita que se re…eren a la distribu-

ción muestral …nita f b; x , ellas se re…eren a las propiedades de suce-
n o1
siones de distribuciones de muestreo f bn ; x . En pocas palabras, las
n=1
propiedades asintóticas equivalenX a extender los teoremas límite discutidos
n
en el capítulo 9 (para la función Xk ), al caso de funciones arbitrarias
k=1
bn := h (X1 ; X2 ; :::; Xn ).
8.4 Propiedades asintóticas

Debido a que el estimador ideal de…nido por P ( = ) = 1, no es posible
para un tamaño de muestra n …jo, al modelador le gustaría tener estimadores
que alcancen su forma ideal a medida que el tamaño de la muestra aumenta
hacia in…nito. Es decir, estimadores cuya distribución muestral se aproxima
a la distribución muestral ideal P ( = ) = 1, en un sentido probabilístico
cuando n ! 1.
El sentido probabilístico en términos del cual esto se puede lograr asintóti-
camente viene en dos versiones: convergencia en probabilidad y convergen-
cia casi segura encontradas en relación con la Ley de los Grandes Números
(LGN) discutida en el capítulo 9. La convergencia en probabilidad, asociada
a la Ley Débil de los Grandes Números da lugar a la propiedad conocida
como consistencia, mientras que la convergencia casi segura da lugar a la
propiedad conocida como consistencia fuerte. Además, el Teorema Central
del límite a menudo puede ser utilizado para determinar la distribución de
bn := h (X1 ; X2 ; :::; Xn ) cuando n ! 1. Este último puede ser utilizado
como una aproximación de la distribución de muestra …nita del estimador en
cuestión. Cabe señalar una vez más que sin una distribución de muestreo no
es posible la inferencia estadística.
8.4.1 Consistencia
Una estimador bn se dice que es un estimador consistente de , si para
cualquier " > 0:
bn P
lim P < " = 1, representado por: bn ! (12.8)
n!1
8.4. PROPIEDADES ASINTÓTICAS 431
Esto se lee "el límite de la probabilidad del evento que bn di…era del
verdadero por menos de alguna constante positiva " > 0, tiende a uno
cuando n tiende a in…nito"; véase el capítulo 9.
OBSERVACIONES:
(i) bn en esta de…nición es sinónimo de un estimador genérico y no el
estimador particular utilizado en el ejemplo 1; el subíndice n se utiliza para
destacar el papel del tamaño de la muestra.
(ii) En cierto sentido, la consistencia es una extensión de la LGN para las
funciones de la muestra, por ejemplo h (X1 ; X2 ; :::; Xn ), que no sea la suma.
(iii) En el caso de que bn tenga una varianza acotada, podemos comprobar
su consistencia utilizando la desigualdad de Chebyshev (ver capítulo 3):
2
E bn
P bn " 1 .
"2
2
Esto se debe a que E bn es simplemente el error cuadrado medio
2
E (bn )
de bn . Por lo tanto, si ECM bn ! 0 cuando T ! 1, entonces "2
!0
y (12.8) se mantiene.
h i2
Usando la de…nición ECM bn ; = V ar bn + bn ; , podemos ver
que:
ECM bn ! 0 si V ar bn ! 0 y bn ; ! 0.
Esto sugiere dos condiciones fácilmente veri…cables para que bn sea un

estimador consistente de cuando los momentos necesarios de su distribución
muestral existen:
(a) limn!1 E bn = , (b) limn!1 V ar bn = 0.
Esto sugiere que en el caso de que bn tenga una varianza acotada, podemos
comprobar su consistencia mediante la comprobación de las anteriores condi-
ciones (su…cientes): ellas son sólo condiciones su…cientes debido a que bn
puede ser consistente, aunque su varianza no podría existir. El concepto de
consistencia basado en (a) - (b) se llama a veces consistencia en media
cuadrática.
En el caso de los estimadores b1 ; b2 y b3 y sabemos que son insesgados de

modo que (i) se cumple automáticamente. Sin embargo, dado que:
1 1
(a) V ar b1 = (1 ) , (b) V ar b2 = (1 ) , (b) V ar b3 = (1 ),
2 3
podemos deducir que ninguno de estos estimadores cumple la segunda

condición, y por lo tanto todos ellos son inconsistentes. Otra forma de
ver esto es que el segundo momento de las distribuciones muestrales de estos
estimadores no cambia cuando n cambia. En otras palabras, para la precisión
de estos estimadores no importa si uno tiene n = 5 o n = 105 . En contraste,
los estimadores (bn+1 ; bn+2 ), son consistentes, ya que:
n n (1 )
(e) lim E bn+1 = lim E = , lim V ar bn+1 = lim E 2 = 0,
n!1 n!1 (n + 1) n!1 n!1 (n + 1)
n n (1 )
(f ) lim E bn+2 = lim E = , lim V ar bn+2 = lim E 2 = 0,
n!1 n!1 (n + 2) n!1 n!1 (n + 2)
Es importante hacer hincapié en el hecho de que la consistencia es una

propiedad mínima. Es decir, cuando un estimador es inconsistente, no es
digno de una consideración sreia, pero el hecho de que sea consistente no
lo hace un buen estimador. Hay numerosos ejemplos de estimadores con-
sistentes, sin embargo, que son prácticamente inservibles (ver Rao (973), p.
344). Los estimadores b1 ; b2 y b3 , siendo inconsistentes se pueden eliminar
de la lista de buenos estimadores de y la elección está entre bn y bn+1 .
Dado que bn es a la vez sesgado y plenamente e…ciente y bn+1 es sesgado,
preferimos bn a bn+1 .
Uso de las distribuciones muestrales de los estimadores (i) - (vi), derivado
anterioremte, podemos ver que:
(i) E (b1 ) = , V ar (b1 ) = 1, es decir, insesgado pero consistente,

1
(ii) E (b2 ) = , V ar (b2 ) = , es decir, insesgado pero consistente,
2
(iii) E (b3 ) = 0, V ar (b3 ) = 2, es decir, sesgado e inconsistente,
1
(iv) E (bn ) = , V ar (bn ) = , es decir, insesgado plenamente e…ciente,
n
n n
(v) E bn+1 = , V ar bn+1 = , es decir, sesgado pero inconsistente,
n+1 (n + 1)2
n n
(vi) E bn+2 = , V ar bn+2 = , es decir, sesgado pero inconsistente,
n+2 (n + 2)2
Xn
De la comparación anterior podemos concluir que bn = n1 Xi es el
i=1
mejor estimador de .
NOTA. En Spanos (p. 617) en (vi) dice: V ar bn+1 ; debería
decir V ar bn+2 .
Es importante señalar que en el caso de los ejemplos anteriores (y en mu-
chos casos en la práctica), utilizamos sólo sus primeros dos momentos cuando
se decide la optimalizdad de los distintos estimadores; la distribución mues-
tral no es explícitamente utilizada. Para efectos de la inferencia estadística
en general, sin embargo, a menudo requerimos la distribución muestral en sí,
no sólo sus primeros dos momentos.
8.4.2 Consistencia fuerte

Un estimador bn se dice que es un estimador fuertemente consistente de
si:
a:s:
P lim bn = n = 1 representado por: bn ! n.
n!1
Esta es exactamente la versión asintótica de la propiedad de estimador

ideal de…nida anteriormente. El concepto de convergencia subyacente a con-
sistencia fuerte se conoce como convergencia casi segura (c.s.). En el
capítulo 9 se muestra que la convergencia caso segura es más fuerte que la
convergencia en probabilidad y no es sorprendente que la primera implique
la segunda.
En el caso del estimador bn de n discutido anteriormente, podemos uti-

lizar LGN fuerte de Borel (véase el capítulo 9) directamente para deducir
a:s:
que: bn ! n
En el caso del estimador bn de discutido anteriormente, podemos utilizar
la segunda LGN fuerte de Kolmogorov (véase el capítulo 9) para deducir que:
a:s:
bn ! n .
Como se mencionó anteriormente, la consistencia (débil y fuerte) es una
extensión de la Ley de los Grandes NúmerosX a funciones de la muestra, por
n
ejemplo h (X1 ; X2 ; :::; Xn ), más allá de suma Xi . De la misma manera,
i=1
la siguiente propiedad asintótica, conocida como Normalidad asintótica, es
una extensión del Teorema Central del Límite (TCL), discutido en el
capítulo 9.
8.4.3 Normalidad asintótica

Una estimador bn de n se dice que es asintóticamente Normal si podemos
encontrar una sucesión de normalización fcn g1
n=1 tal que:
cn bn ~N (0; V1 ( )) , para V1 ( ) 6= 0
a
OBSERVACIONES:
(a) "~" se lee "asintóticamente distribuida".
a
(b) V1 ( ) denota la varianza asintótica de bn .
(c) La sucesión fcn g1
n=1 es una función de n. Por ejemplo, en el caso
p de
una muestra aleatoria la sucesión de normalización se de…ne por cn = n.
En el caso de los estimadores bn y bn+1 de discutidos anteriormente,
podemos demostrar que tienen la misma distribución asintóticamente Nor-
mal:
p p
n bn ~N (0; (1 )) , n bn+1 ~N (0; (1 )) . (12.9)
a a

En el caso de los estimadores bn y bn+1 de discutidos anteriormente,
podemos demostrar que tienen la misma distribución asintóticamente Nor-
mal:
p p
n (bn ) ~N (0; 1) , n bn+1 ~N (0; 1) . (12.10)
a a
Para estimadores consistentes y asintóticamente normales (CAN)

de , utilizamos la varianza asintótica para elegir entre ellos. La varianza as-
intótica más pequeña posible, en el caso de que las condiciones de regularidad
de Cramer-Rao se cumplen, está dada por la información asintótica de
Fisher de…nida en términos de:
!
2
1
I1 ( ) = lim In ( ) , CR1 ( ) = [I1 ( )] 1 .
n!1 cn
donde CR1 ( ) signi…ca cota inferior asintótica de Cramer-Rao.
d2 In f (x; )
En el caso del modelo de Bernoulli se mostró anteriormente que E d 2
=
n
(1 )
. Por lo tanto:
1 n 1
I1 ( ) = lim = ) CR1 ( ) = (1 ).
n!1 n (1 ) (1 )

En el caso del modelo Normal discutido anteriormente, hemos demostrado
d2 In f (x; )
que E d 2
= n. Por lo tanto:
1
I1 ( ) = lim n = 1 ) CR1 ( ) = 1.
n!1 n
8.4.4 E…ciencia asintótica

Un estimador CAN bn de se dice que es asintóticamente e…ciente si:
cn bn ~N 0; [I1 ( )] 1
, asumiendo I1 ( ) 6= 0.
a
Es decir, la varianza asintótica es igual a la cota mínima asintótica de

Cramer-Rao.
En el caso del modelo de Bernoulli hemos demostrado anteriormente que
los estimadores en (12.9) son, en efecto asintóticamente e…cientes.

En el caso del modelo normal hemos demostrado anteriormente que los
estimadores de (12.10) son, en efecto asintóticamente e…cientes.
Esto sugiere que los estimadores CAN bn y bn+1 son asintóticamente
e…cientes, porque alcanzan cota mínima asintótica de Cramer-Rao. Como
podemos ver el estimador bn se se se distingue porque satisface todas las
propiedades deseables, muestra …nita y asintótica.
8.4.5 Distribuciones muestrales y propiedades de los

estimadores
La discusión en esta sección y las anteriores giraba principalmente en torno
a los dos primeros momentos de las distribuciones muestrales de los esti-
madores. Esto podría dar la impresión errónea de que la distribución mues-
tral en sí misma no es necesaria y sólo los dos primeros momentos son re-
queridos. De…nimos insesgamiento y e…ciencia en términos de la media y
la varianza de la distribución muestral de un estimador, respectivamente.
Aunque la de…nición de la consistencia:
lim P bn /
< " = 1,
n!1
pone de relieve el papel de la distribución muestral en la evaluación de la

sucesión de probabilidades:
fpn g1 bn
n=1 , donde pn := P <" ,
la forma más conveniente de probar la consistencia es a menudo el com-

portamiento asintótico del ECM; este último involucra sólo los dos primeros
momentos. Del mismo modo, las otras propiedades asintóticas implican la
distribución muestral, pero a menudo esto no es explícitamente claro. El
hecho de importancia es que en la inferencia estadística lo que a menudo se
necesita es la distribución muestral del estimador mismo, no sólo los primeros
momentos. Nuestro enfoque en los dos primeros momentos se basa princi-
palmente en la conveniencia. Hay varias otras propiedades que no están
de…nidas en términos de los momentos de la distribución muestral, sino en
algunas otras características numéricas.
Insesgamietno de moda (mode unbiasedness). Un estimador bn de
se dice que es moda insesgada si la distribución muestral de b1 tiene una
moda que coincide con el parámetro desconocido :
Moda bn = , para toda 2 .
Ejemplo 4 *. Uniforme (continuación)

Considere el estimador de de…nido por:
b[n] = max (X1 ; X2 ; :::; Xn ) ,
Se puede demostrar (véase el capítulo 11) que la distribución muestral de

b[n] es:
nxn 1
f (x; ) = n ,0<x< .
En vista del hecho de que para cualquier > 0 la función de densidad

f (x; ) tiene un máximo único en el punto h ( ) = , el estimador b[n] es un
estimador moda insesgada de :
Moda bn = , para toda 2 (0; 1) .

En el caso delXmodelo normal hemos mostrado anteriormente que el es-
n
1
timador bn = n Xk es media insesgada con una distribución muestral
k=1
Normal. Esto último implica que bn también es estimador moda y mediana
insesgada.
Además utilizando las características numéricas de la distribución mues-
tral, hay otras maneras de de…nir la cercanía de un estimador al verdadero
valor del parámetro que ponen de relieve el papel de la distribución muestral
con mayor claridad. Por ejemplo, podemos de…nir el concepto de la cercanía
de dos estimadores b y e del parámetro desconocido al veradero valor 0
utilizando la siguiente medida de concentración:
P b 0 c P e 0 c , para todo c > 0.
En el caso donde la condición anterior sea válido y la desigualdad estricta

se cumpla para algunos valores de c > 0, entonces se dice que b está más
concentrado en torno a 0 que e. Como podemos ver, la comparación anterior
involucra directamente las distribuciones muestrales de los dos estimadores.
Una medida de la cercanía a lo largo de estas líneas es la medida de cercanía

de Pitman (ver Pitman (1937)):
b 1
P 0 < e 0 , para todo 2 .
2
Estas medidas no se proseguirán más allá en este libro, pero se señalan
para destacar el papel de la distribución muestral en la evaluación de la
optimalidad de los estimadores.
8.5 El modelo Normal simple

En la sección anterior utilizamos dos ejemplos muy simples en un intento
por mantener las di…cultades técnicas en un mínimo y concentrarse en las
ideas y conceptos. En esta sección utilizamos el modelo (posiblemente) más
ampliamente discutido en estadística en un esfuerzo por ilustrar algunos de
los puntos más …nos de los buenos estimadores.
8.5.1 La distribución muestral de la media de la mues-

tra
Ejemplo 5
Considere el modelo Normal simple (dos parámetros):
Modelo Normal simple
[1] MG estadístico: Xk = + "k , k 2 N,
1 1
= ff (y; )g = p exp 2
(x )2 ; := ; 2
2R R+ ,
2 2
[3] Modelo muestral: X := (X1 ; X2 ; :::; Xn ) es una muestra aleatoria.

Ya hemos decidido que el mejor estimador de , en el caso de un modelo
Normal de un parámetro es:
1 Xn
bn = Xk . (12.11)
n k=1
El argumento intuitivo de por qué este estimador resulta ser un buen

estimador fue dado anteriormente como la coincidencia entre la distribución
8.5. EL MODELO NORMAL SIMPLE 439
y los momentos muestrales, lo que llamamos el principio de los momentos

coincidentes (moment matching principle) en el próximo capítulo. Es
decir, parece como si bn resulta ser un estimador óptimo debido a que el
parámetro desconocido es la media de la distribución Normal (E(X) = )
y el estimador anterior es justamente la media de la muestra (X1 ; X2 ; :::; Xn ).
Usando el mismo argumento intuitivo para 2 , donde sabemos que V ar (X) =
2
, debemos considerar la varianza de la muestra como un estimador posible
de 2 :
1 Xn
b2n = (Xi bn )2 . (12.12)
n i=1
Utilizando el lema 2 del capítulo 11 se puede deducir que la distribución

muestral de bn toma la forma:
2
bn ~N ; .
n
Esta distribución muestral se puede utilizar para establecer las propiedades

de este estimador. En el caso del modelo normal de un parámetro ( 2 = 1),
hemos visto que bn es un estimador insesgado, plenamente e…ciente y fuerte-
mente consistente de . Lo único que cambia es la cota inferior de Cramer-
Rao límite, pero como se muestra a continuación bn es totalmente e…ciente
ya que alcanza la nueva cota mínima.
Considere la nueva distribución de la muestra:

1 Xn
n
1
f x; ; 2
= p exp 2
(xi )2 ,
2 2 i=1
n n 1 Xn
In f x; ; 2
= In (2 ) In 2
(xi )2 ,
2 2 2 2 i=1
@In f (x; ; 2
) 1 Xn
= 2
(xi ),
@ i=1
@In f (x; ; 2
) n 1 Xn
= + (xi )2 ,
@ 2 2 2 2 ( 2 )2 i=1
@ 2 In f (x; ; 2
) 1 Xn
= ( 1) ,
@ 2 2 i=1
2
@ In f (x; ; 2
) n 1 Xn
= (xi )2 ,
@ ( 2 )2 2 4 6 i=1
@ 2 In f (x; ; 2
) 1 Xn
= (xi )2 .
@ 2@ 4 i=1
En este caso, la matriz de información de Fisher para la muestra toma

la forma:
0 1
@ 2 In f (x; ; 2
) @ 2 In f (x; ; 2
)
B E @ 2
E @ 2@ C
In ; 2
:= B
@
C
A
@ 2 In f (x; ; 2
) @ 2 In f (x; ; 2
)
E @ 2@
E @( 2 )2
y la cota mínima de Cramer-Rao para cualesquiera estimador insesgado

de ( ; 2 ) es:
2 2 1
CR ; := In ; .
@ 2 In f (x; ; 2
)
Debido a que E @ 2@
= 0, la matriz de información de Fisher
toma la forma:
n
2 2 0
In ; := n ,
0 2 4
y así la cota mínima de Cramer-Rao para cualesquiera estimadores inses-
gados de los dos parámetros es la siguiente:
2
2 4 2
CR ( ) := , CR. (12.13)
:=
n n
Como podemos ver, bn alcanza esta cota. Además, es fácil demostrar que
bn goza de todas las propiedades óptimas asintótica: consistencia, Normali-
dad asintótica y e…ciencia:
p 2
n (bn ) ~N 0; .
a
8.5.2 La distribución muestral de la varianza de la

muestra
Con el …n de derivar la distribución muestral de b2n observamos que ésta
es una función cuadrática de variables aleatorias normalmente distribuidas;
(X1 ; X2 ; :::; Xn ) se asume que son NIID y bn es normal como una combi-
nación lineal de estas variables aleatorias. Usando el lema 4 (la suma de los
cuadrados de n variables aleatorias independientes Normal estándar es chi
cuadrado con n grados de libertad), podemos deducir que:
Xi Xn Xn Xi
2
dado que Zi = ~N (0; 1) ) Zi2 = ~ 2
(n) .
i=1 i=1
Nuestro estimador, sin embargo, no es exactamente de esta forma porque

involucra bn en lugar de y los dos son muy diferentes; el primero es una vari-
able aleatoria; el último es una constante. Sin embargo, podemos demostrar
que:
Xn Xi
2 Xn Xi bn
2
bn
2
= +n . (12.14)
i=1 i=1
(ver Spanos (1986), p. 240). Teniendo en cuenta (12.11) podemos deducir

que:
2
bn 2
n ~ (n) .
2 Xn 2
Además, podemos demostrar que n bn y Xi bn
son inde-
i=1
pendientes ya que este último se puede escribir como una función únicamente
de (X2 bn ; X3 bn ; :::; Xn bn ), y estas cantidades son independientes de

bn . En primer lugar, observamos que:
Xn Xn
(Xi bn )2 = (Xi bn )2 + (Xi bn )2
i=1 i=2
hX n i2 X n
= (Xi bn ) + (Xi bn )2 ,
i=2 i=2
Xn Xn
por el hecho de que (Xi bn ) = 0 y entonces (Xi bn ) = (Xi bn ),
i=1 i=2
es decir:
b2n = g (X2 bn ; X3 bn ; :::; Xn bn ) .

La independencia de b2n y bn se deduce del hecho de que cuando cua-
lesquiera variables aleatorias son independientes también lo son las funciones
de ellas (véase el capítulo 4).
En vista del hecho de que el lado izquierdo de (12.14) se distribuye como
2
(n) y el lado derecho se compone de dos variables aleatorias independientes
y una tiene una distribución 2 (1), se sigue del lema (8b) (véase el capítulo
11) que:
n b2n Xn Xi bn
2
2
2
= ~ (n 1) . (12.15)
i=1
Usando el hecho de que la media de una variable aleatoria distribuida chi

cuadrado es igual a los grados de libertad (ver Apéndice A), podemos deducir
2
que E n b2n = (n 1), lo que implica que b2n es un estimador sesgado de
2
debido a que:
(n 1)
E b2n = . 2
6= 2
n
Debido a este sesgo, el estimador insesgado alternativo:
n n Xn
s2n := b2n = (Xi bn )2 , E s2n := 2
,
n 1 n 1 i=2
a menudo se pre…ere en la práctica.

La cuestión que se plantea es si s2n , además de insesgadez, tiene otras
ventajas sobre b2n . Para obtener la varianza del estimador insesgado s2n dos
usamos el resultado de que la varianza de una variable aleatoria distribuida
chi cuadrado es igual al doble de sus grados de libertad (ver Apéndice A),
para deducir que:
(n 1) s2n 2 4 2 4
V ar 2
= 2 (n 1) ) V ar s2n = > CR 2
= .
n 1 n
Es decir, el estimador s2n no alcanza la cota mínima de Cramer-Rao.

La búsqueda de estimadores e…cientes plenamente con la cota mínima de
Cramer-Rao ha dejado a dos preguntas importantes sin respuesta. En primer
lugar: ¿qué hacer cuando las condiciones de regularidad no se cumplen? Una
respuesta parcial a esta es proporcionada por la desigualdad de Chapman
Robbins (véase Stuart y Ord (1991)). En segundo lugar: ¿cómo jusgamos a
los estimadores, como s2n , que no alcanzan la cota mínima? La respuesta es
proporcionada por (12.7), puesto que
@In f (x; ; 2
) n 1 Xn
= + (xi )2 2
,
@ 2 2 4 n i=1
lo que implica que:
1 Xn 2 4 @In f (x; ; 2
)
(xi )2 2
= , (12.16)
n i=1 n @ 2
Por lo tanto, el húnico

Xnestimador 2insesgado
i de 2 que alcanza la cota
mínima CR ( 2 ) es n1 (xi ) , que constituye un estimador, sin
i=1
embargo, sólo si es conocido. En otras palabras, sabemos que no hay
estimador insesgado que alcance esta cota a menos que sea conocido. En
vista de esta información: ¿cómo podemos juzgar la optimalidad de s2n ?
Comparemos s2n con b2n = (nn 1) s2n :
n 1 2 2 4 2(n 1)
(i) V ar b2n = n n 1
= n2
4
,
2(n 1) 2 2 2(n 1)
(ii) ECM b2n = n2
+ n 1
n
2
= n2
4
.
Esto nos permite a…rmar que en términos del Error Cuadrático Medio b2n
tiene menor concentración en torno al verdadero valor de 2 que s2n :
2 (n 1) 2
ECM b2n = 4
< ECM s2n = 4
.
n2 n 1
A su vez, s2n no alcanza la cota mínima de Cramer-Rao para estimadores

sesgados ya que:
!2 ( ) 1
2
2 dE b2n d In f (x; ; 2
)
CRB = E
d 2 d 2
!
2
n 1 2 4 2 (n 1)2 4
= = .
n n n3
Después de todas las comparaciones anteriores entre los estimadores b2n

y s2n no somos más acertados en cuanto a cuál es el óptimo en términos de
su concentración en torno al verdadero valor de 2 , principalmente porque
la cota mínima de Cramer-Rao no puede ser alcanzada por cualquiera de
estos estimadores. Sabemos por (12.16) que no existe estimador insesgado
de 2 que alcance la CR ( 2 ). La pregunta que surge naturalmente en esta
etapa es: ¿existe algún otro estimador que esté más cerca a este límite? La
respuesta es proporcionada por otra cota inferior que es más alcanzable.
Bhattacharyya (1946), viendo que la desigualdad de Cramer-Rao se basa
en la correlación entre un estimador h (X) y d In df (x; ) = f (x;
1
)
d f (x; )
d
, pro-
puso una desigualdad más nítida sobre la base de la correlación múltiple entre
h (X) y:
1 d f (x; ) 1 d 2 f (x; ) 1 d 3 f (x; ) 1 d m f (x; )

; ; ; :::; ,m 1.
f (x; ) d f (x; ) d 2 f (x; ) d 3 f (x; ) d m
En lugar de ser capaz de expresar la diferencia bn como una función

lineal de la primera derivada (véase (12.7)), se extiende para incluir mayores
derivadas en el sentido de que:
1 Xm d k f (x; )
bn = h( ) ak ,m 1, (12.17)
f (x; ) k=1 d k
para una función h ( ) y las constantes k = 1; 2; :::; m. En el caso de que
(12.7) se cumpla, podemos usar la cota inferior Bhattacharyya:
Xm
V ar b cij ( ) ai aj , para algún m 1,
i;j=1
d f (x; ) i d f (x; ) j
1 1
donde cij = E f (x; ) d i f (x; ) d j
, los coe…cientes se de-
…nen por el sistema de ecuaciones:
Xm
cij ( ) aj , i = 1; 2; :::; m.
;j=1
En el caso donde [cij ( )]m i;j=1 es de…nida positiva con un inverso de la

m
forma [c ( )]i;j=1 , la cota mínima Bhattacharyya es:
ij
Xm
V ar b cij ( ) , para algún m 1.
i;j=1
En nuestro caso tenemos dos parámetros desconocidos y no podemos usar

(12.17) directament; debe ampliarse para incluir los términos de productos
cruzados. Para mostrar que el estimador insesgado s2n alcanza esta cota
observemos que:
2
1 @ f (x; ; ) @In f (x; ; 2 )
: =
f (x; ) @ 2 @ 2
n 1 Xn 2 n
= + (x i b n ) + (b )2 ,
2 2 2 4 i=1 2 4 n
2
1 @ 2 f (x; ; 2
) @In f (x; ; 2 ) @In f (x; ; 2 )
: = +
f (x; ) @ 2 @ 2 @
2
n n
= 2
+ 4 (bn )2 .
Tomando la siguiente combinación lineal de estas dos derivadas podemos

mostrar que:
2 4 n @In f (x; ; 2
) 1 1 @ 2 f (x; ; 2
)
s2n 2
=
n n 1 @ 2 2 (n 1) f (x; ) @ 2
lo que con…rma que el estimador insesgado s2n es el mejor en el sentido de

se alcanza la cota mínima Bhattacharyya.
En términos de sus propiedades asintóticas ambos estimadores b2n y s2n
disfrutan de todas las propiedades asintóticas óptimas: consistencia, Nor-
malidad asintótica y e…ciencia asintótica:
p p
n b2n 2
~N 0; 2 4
, n s2 2
~N 0; 2 4
,
a a
en vista del hecho de que la matriz asintótica de información de Fisher

es:
1 1
2 2 2 0
I1 ; := lim In ; := 1 .
n!1 n 0 2 4
8.5.3 Reduciendo el sesgo: estimadores navaja (jack-

knife estimators)
Hay ocasiones en la práctica, donde necesitamos reducir el sesgo de ciertos
estimadores. Sea bn (X) un estimador sesgado del parámetro desconocido
y el sesgo expresado en la siguiente forma conveniente:
a1 ( ) a2 ( ) ak ( )
E bn (X) =+ 2
+ + (12.19)
n n nk
NOTE que en muchos casos encontrados hasta el momento el sesgo es de
la forma de primer orden, es decir,
a1 ( )
E bn (X) . =
n
Plegamiento (Jackkni…ng). Considere la sucesión de estimadores de
especi…cada con n 1 observaciones:
en 1 X(k) , k = 1; 2; :::; n, (12.20)

donde X(k) := (X1 ; X2 ; :::; Xk 1 ; Xk+1 ; :::; Xn ). Es decir, utilizamos la
misma fórmula que la de bn (X), pero dejamos la k-ésima observación fuera
en todo momento. Procedemos a de…nir el promedio (la media aritmética)
de estos estimadores:
Xn
en (X) = 1 en 1 X(k) , (12.21)
n k=1
luego tomamos una combinación convexa de éste y el estimador original

para de…nir el estimador navaja:
n (X) = nbn (X) (n 1) en (X) . (12.22)

Quenouille (1956) demostró que para el nuevo estimador n (X) el sesgo
de primer orden desaparece, es decir,
a2 ( ) ak ( )
E n (X)2
+ = + (12.23)
n nk
En el caso donde el sesgo fue de primer orden el estimador navaja es ahora
insesgado. Además, el sesgo de primer orden se puede estimar utilizando:
h i
Sesgo bn (X) = (n 1) en (X) bn (X) . (12.24)
Ejemplo
Considere el modelo Normal como se especi…có anteriormente y la esti-
mación del parámetro 2 . Apliquemos el estimador navaja en el caso del
estimador sesgado:
1 Xn
(Xk X)2 .
2
n :=
n k=1
Como se muestra anteriormente, el sesgo de este estimador es de primer
orden y toma la forma:
2
E b2n 2
.
=
n
Xn 1 Xn 1 Xn
bn (X) = 1
2
(Xi X)2 = Xi2 Xi .
n i=1 n i=1 n2 i=1
!2
1 Xn 1 Xn
en 1 X(k) = Xi2 + Xi .
(n 1) i=1
i6=k
(n 1) i=1
i6=k
Xn
en (X) = 1 en 1 X(i)
n i=1
1 Xn 1 1 Xn 1 Xn
= Xi2 X i
2
+ (n 2) Xi2 .
n i=1 n (n 1)2 n i=1 n i=1
Después de la sustitución de éstos en el estimador navaja obtenemos:
Xn 1 Xn 2 n 1 Xn 1 Xn (n 2) X
n (X) = Xi2 Xi Xi2 + Xi2 +
i=1 n i=1 n i=1 n (n 1) i=1 n (n 1)
1 Xn 1 Xn 2 1 Xn 2
= Xi2 Xi = Xi X
(n 1) i=1 n (n 1) i=1 (n 1) i=1
Como podemos ver el estimador navaja coincide con el estimador s2 dis-

cutido en la subsección anterior.
La idea de sentido común en la que se basa el concepto de plegamiento

(jackkni…ng) es casi trivial, pero su intuición intrínseca es de gran alcance.
Veamos cómo trabaja el plegamiento para eliminar el sesgo de primer orden
de un estimador. A partir de la forma general de la sesgo como se indica en
(12.19) se puede argumentar que el estimador en 1 X(k) satisface la relación
similar pero basada en (n 1) observaciones:
a1 ( ) a2 ( ) ak ( )
E en (X) = + + +
n 1 (n 1)2 (n 1)k
a2 ( )
E nbn (X) (n 1) en (X) = +
n (n 1)
Lo que hace de plegamiento una idea muy interesante, sin embargo, es el

hecho de que involucra la operación de suavizamiento en la forma de promedio
como se muestra en (12.21). Esto se ve mejor en el contexto del ejemplo donde
el suavizamiento equivale a un promedio de los promedios:
2 !2 3
Xn 1 Xn 4 1 Xn Xn
en (X) := 1 en 1 X(k) = Xi2 +
1
Xi 5.
n k=1 n i=1 (n 1) i=1
i6=k (n 1)2 i=1
i6=k
Esta idea tiene sus raíces en la teoría matemática de sumabilidad Cesaro

de series divergentesnque se remontao a …nales de los siglos 19 y 20. Hay
Xn 1
casos en que la serie sn = ak diverge, pero su versión suavizada
n Xn o1 k=1 n=1
1
n = n sk converge (véase Knopp (1947)). Además, cuando la
n Xk=1
n
n=1o1 n Xn o1
serie sn = ak converge entonces n = n1 sk también
k=1 n=1 k=1 n=1
converge al mismo límite, es decir:
si lim sn = s ) lim n = s.
n!1 n!1
Concluimos esta sección haciendo notar que la idea de plegamiento se

puede extender fácilmente a la reducción de sesgo de orden superior.
8.6. ESTADÍSTICOS SUFICIENTES Y ESTIMADORES ÓPTIMOS *449
8.6 Estadísticos su…cientes y estimadores óp-

timos *
La discusión de estimadores óptimos hasta el momento no ha arrojado ninguna
luz sobre las circunstancias bajo las cuales se pueden obtener mejores esti-
madores. Regresando a la analogía de un arquero parado al pie de una colina
con el blanco en el otro lado más allá de su visión, sólo hemos discutido la
cuestión de la evaluación de la cercanía una vez que la ‡echa ha sido clavada.
La cuestión de la elaboración de una estrategia relativa a los factores dentro
de su control, tales como el ángulo de disparo y la potencia de tiro a …n de
garantizar que la ‡echa se clave tan cerca del blanco como sea posible, no
se ha discutido. La propiedad de los estimadores conocida como su…cien-
cia aborda esta pregunta y en términos de esta analogía se propone colocar
una especie de red a la ‡echa diseñada de una manera que garantice una
cobertura óptima.
8.6.1 Su…ciencia
La idea de su…ciencia se remonta a Fisher (1922b), pero el concepto se for-
malizó a principios de 1930. El concepto de su…ciencia plantea la posibilidad
de reducir la dimensionalidad de los datos observados sin ninguna pérdida
de información. La información de la muestra original viene en forma de un
conjunto de datos x := (x1 ; x2 ; :::; xn ), considerado como una realización de
una muestra en particular X := (X1 ; X2 ; :::; Xn ) especi…cada a priori por el
modelo estadístico S := ( ; X). Un estadístico h (X), una función de…nida
en el espacio muestral X (no necesariamente un estimador), es su…ciente si
resume toda la información relevante para el modelo estadístico postulado
S. A menudo se llama un estadístico su…ciente para , porque el modelo
estadístico se determina una vez que se determina. Intuitivamente, la su…-
ciencia se re…ere a qué tan bien un estimador (una función de un estadístico)
utiliza la información de la muestra en relación con el modelo estadístico
postulado . La utilidad del concepto de su…ciencia surge del hecho de que
el estadístico h (X) es a menudo de la dimensión mucho menor que la mues-
tra n-dimensional. Antes de embarcarse en las de…niciones es importante
explicar la intuición en que se basa la propiedad mediante un ejemplo.
En el caso del modelo de Bernoulli, sabemos que la muestra X := (X1 ; X2 ; :::; Xn )
se compone de variables aleatorias IID distribuidas Bernoulli con P (Xk = 1) =

y P (Xk = 0) = (1 ). Una realización de la muestra incluirá una sucesión
de ceros y unos, por ejemplo,
x := (0; 1; 0; 0; 1; :::; 1) .
En vista del hecho de que la localización exacta de unos en esta real-
ización es irrelevante debido a los supuestos IID, es intuitivamente evidente
que el conocimiento de la suma es equivalente a conocer Xn la realización ex-
acta. En este caso parece que el estadístio h (X) = Xk contiene toda
k=1
la información relevante en relación con el modelo estadístico de Bernoulli
. Es decir, el conocimento de la realizaciónX completa x es equivalente al
n
conocimiento únicamente de la suma h (x) = xk . El resutlado …nal es
k=1
que en vez de portar los n números de la realización de la muestra portamos
sólo uno, su suma; una reducción signi…cativa en la dimensión. Por lo tanto,
intuitivamente parece que este estadístico es su…ciente para (o ).
Este ejemplo pone de mani…esto la conveniencia de un estadístico su…-
ciente, mostrando que el estadístico en si mismo contiene la misma informa-
ción sobre que la muestra original, pero tiene una dimensión mucho menor.
El atractivo de un estadístico su…ciente surge del hecho de que si existe un
mejor estimador entonces es necesariamente una función del estadístico su-
…ciente. Además, la búsqueda de un estadístioa su…ciente se puede utilizar
como el primer paso para de…nir un estimador óptimo. Vamos a discutir
todos estos resultados iniciando con la de…nición de su…ciencia.
Intuitivamente, la su…ciencia de un estadístico Y = h (X) para un parámetro
signi…ca que cuando el valor de la estadística se da, cualquier otra forma
de información es irrelevante para . Esto sugiere que el conocimiento de la
realización de toda la muestra X, cuando el valor de Y = h (X) es conocido,
no añade información relevante para (o ). La formalización de esta idea
intuitiva da lugar a la siguiente de…nición de la su…ciencia.
Su…ciencia. Se dice que un estadístico h (X) es un estadístico su…ciente
para si y sólo si la distribución condicional de la muestra X dado h (X) = y
no depende de :
f (xjh (x) = y; ) = q (x) , para todo x 2X, 2 . (12.25)

Esta de…nición, aunque intuitiva, no provee al modelador de una forma
directa de encontrar estadísticos su…cientes. El modelador tiene que conje-
turar h (X) y luego proceder a veri…car (12.25), lo cual no parece trivial. El
siguiente teorema, debido a Halmos y Savage (1949), simpli…can la tarea del

modelador considerablemente.
Teorema de factorización. Un estadístico h (X) se dice que es un
estadístico su…ciente para si y sólo si existen funciones g (h (X) ; ) y v (X),
donde la primera depende de X sólo a través de h (X), mientras que la
segunda es libre de , tal que la distribución de los factores de la muestra en
el producto:
f (x; ) = g (h (x) ; ) v (x) , para todo x 2X, 2 . (12.26)

Encontrar un estadístico su…ciente usando este teorema implica la inspec-
ción de la distribución de la muestra y algo de imaginación para poder darse
cuenta de la factorización.
Considere el modelo Normal (un parámetro) ( 2 se supone conocido):
n
Y 1 (x )2
1 Xn
n
1 2 2 k
1 2
f (x; ) = p e = 2
exp 2
(xk )2
k=1
2 2 2 k=1
n
1 2 1 Xn
= 2
exp 2
(xk x+x )2
2 2 k=1
n
1 2 1 Xn
= 2
exp 2
(xk x)2 + n (x )2 .
2 2 k=1
Este resultado se puede utilizar para factorizar la distribución de la mues-

tra en (12.26):
" #
h n n oi 1
n
2 1 Xn
2 2
f (x; ) = exp (x ) exp (xk x) .
2 2 2 2 2 2 k=1
donde el primer Xfactor entre corchetes depende de sólo a través del

n
1
estadístico X = n Xi y el segundo es libre de . En vistas del teorema
i=1
anterior, el estadístioa es su…ciente para .
Es importante NOTAR que el teorema de factorización está directamente
relacionado con la condición necesaria y su…ciente para e…ciencia plena de
un estimador b de en el sentido de que la condición:
b d In f (x; )
= h( ) ,
d
implica que la distribución de la muestra tiene la forma (12.26). Esto
sugiere que existe un estimador e…ciente si y sólo si existe un estadístico
su…ciente; lo contrario, sin embargo, no es necesariamente cierto.
Ejemplo 5. Normal de 5 (continuación)
Considere el modelo Normal (de dos parámetros) ( 2 supuesto descono-
cido). Usando la igualdad:
Xn hX n i hX n i
2
(Xk ) = Xk2 2 Xk + n 2
k=1 k=1 k=1
= h2 (X) 2 [h1 (X)] + n 2 ,
podemos proceder a factorizar la distribución de la muestra en:
n
1 2 1 Xn
f x; ; 2
= 2
exp 2
(xk )2 = g h (x) ; ; 2
v (x)
2 2 k=1
" n
#
1 2 1 2
= 2
exp 2
h2 (X) 2 [h1 (X)] + n [1] .
2 2
Xn Xn
Por lo tanto, los estadísticos h1 (X) := Xk , h2 (X) := Xk2 ,
k=1 k=1
son su…cientes para los parámetros desconocidos ( ; 2 ). Utilizando estos
estadísticos podemos de…nir los estimadores:
1 1 Xn
bn = h1 (X) = Xk ,
n n k=1
1 1 Xn
s2n : = h2 (X) (h1 (X))2 = (Xk bn )2 ,
n 1 n 1 k=1
para los parámetros ( ; 2 ), respectivamente. En la sección anterior se

demostró que estos dos estimadores son, en efecto, óptimos.
Ejemplo 4. Uniforme (continuación)
La distribución de la muestra en este caso toma la forma:
Y
n
1 1
f (x; ) = = n , para 0 x[1] x[n] ,
k=1
donde X[1] = min (X1 ; X2 ; :::; Xn ) y X[n] = max (X1 ; X2 ; :::; Xn ) son los
dos extremos para los estadísticos. Usando la función heaviside (pesantez):
0, para x < 0,
h (x) =
1, para x 1,
podemos expresar f (x; ) como: f (x; ) = 1n h x[n] h x[1] .
Esto sugiere que X[n] es un estadístic o su…ciente para y en la búsqueda de
estimadores óptimos debemos considerar las funciones de X[n] . Recordamos
al lector que utilizamos el estimador bn = n+1
n
X[n] , en una de las ilustraciones
relacionadas con la cota mínima de Cramer-Rao.
8.6.2 Su…ciencia e insesgamiento

Volvamos a nuestro objetivo principal que es diseñar una estrategia para
la de…nición de estimadores óptimos. Veremos en esta sección que existe
una relación directa entre estadísticos su…cientes y estimadores insesgados.
Intuitivamente, la relación entre su…ciencia y insesgamiento es que si el mod-
elador comienza con algún estimador insesgado arbitrario y a continuación
de…ne otro estimador por condicionamiento de un estadístico su…ciente, el
estimador resultante a menudo tendrá una varianza más pequeña que el es-
timador insesgado original.
Con el …n de deducir esta relación recordamos dos propiedades impor-
tantes de la esperanza condicional para cualesquiera dos variables aleatorias
X y Y tales que V ar (X) < 1, V ar (Y ) < 1:
(a) E (E (Y jX)) = E (Y ),
(b) V ar (Y ) = E (V ar (Y jX)) + V ar (Y jX) = E (Y ); véase el capítulo 7,
sección 3.
Teorema de Rao-Blackwell (véase Blackwell (1947), Rao (1949)). Sea
b un estimador insesgado de E b = , y sea h(X) un estadístico su…-
ciente para . El estadístico de…nido por:
e = E bjh(X) ,
satisface las siguientes propiedades:

(i) e es un estimador de ,
(ii) insesgado: E e = ,
(iii) relativamente más e…ciente que b: V ar e V ar b .
La propiedad (ii) se deduce del hecho de que:
h i
E b = E E jh(X) = E e = ,
b
y la propiedad (iii) a partir de:
h i
V ar b = V ar E bjh(X) + E V ar bjh(X)
h i
= V ar e + E V ar bjh(X) V ar e .
El lector perspicaz podría preguntarse si la su…ciencia se requiere para

los resultados que acabamos para tener, ya que no se usó la su…ciencia en la
deducción de (ii) - (iii). El hecho de importancia es que e es un estimador
(que no depende de parámetros desconocidos) precisamente porque h(X) es
un estadístico su…ciente.
El teorema de Rao-Blackwell proporciona una forma de mejorar un es-
timador insesgado, ofreciendo un estimador relativamente más e…ciente que
el original, pero no nos dice nada acerca de la e…ciencia plena del estimador
resultante. El modelador puede proceder a inspeccionar la cota mínima de
Cramer-Rao, pero si el estimador resultante no la alcanza, ella no es acertada.
8.6.3 Su…ciencia mínima

Los resultados anteriores sugieren que en la búsqueda de mejores estimadores
insesgados la mejor estrategia para el modelador es comprobar la presencia de
estadísticos su…cientes y, a continuación proceder a de…nir los estimadores
óptimos en términos de estos estadísticos su…cientes usando el teorema de
Rao-Blackwell o sólo inspiración. Sin embargo, la propia muestra X (y de
cualquier función uno a uno de ella) es un estadístico su…ciente (el estadístico
su…ciente trivial) y esta estrategia sólo será fructífera si se puede basar en
un estadístico su…ciente que economice sobre las dimensiones. Esto lleva al
concepto de estadístico su…ciente mínimo que alcanza la máxima reducción
posible de datos sin pérdida de información. Teniendo en cuenta el hecho de
que en la búsqueda de estimadores óptimos de debemos considerar las fun-

ciones de un estadístico su…ciente h (X), por ejemplo g (h(X)), llamamos al
último estadístico necesario. El estadístico necesario no contiene necesaria-
mente toda la información relevante en los datos. Pero cuando un estadístico
es a la vez necesario y su…ciente debe ser un estadístico su…ciente mínimo.
Estadístico su…ciente mínimo. Un estadístico su…ciente h (X) es mín-
imo si todo otro estadístico su…ciente g (X) es una función de él, es decir,
para cualquier estadístico su…ciente g (X):
g (X) = q (h (X)) para alguna función q (:) .

Es importante tener en cuenta que para cualquier modelo estadístico, tal
como se de…ne en este libro, siempre existe un estadístico su…ciente mínimo;
sin excluir a la propia muestra en dimensión.
Ni la de…nición de estadístico su…ciente ni el teorema de factorización
proporciona una manera fácil de concebir estadísticos su…cientes. El sigu-
iente resultado, sin embargo, proporciona una manera relativamente fácil
de obtener estadísticos su…cientes mínimos. La idea se debe a Lehmann y
Sche¤é (1950).
Teorema de Lehmann-Sche¤é 1. Supongamos que existe un estadís-
tico h (X) tal que para dos diferentes realizaciones de la muestra x y z (x 2X,
z 2X), la razón:
f (x; )
es libre de si y sólo si h (X) = h (Z) ,
f (z; )
entonces h (X) es un estadístico su…ciente mínimo para .
En el caso del modelo Bernoulli, la razón:
Xn Xn
f (x; ) xk (1 ) (1 xk ) Xn
= Xk=1
n Xk=1
n = (xk zk ) ,
f (z; ) zk (1 ) (1 zk ) 1 k=1
k=1 k=1
Xn Xn
es libre de si y sólo si: Xk = Zk . Por lo tanto, el estadístico
Xn k=1 k=1
Xk no sólo es su…ciente sino su…ciente mínimo.
k=1
2
Considere el modelo Normal (de dos parámetros) ( desconocido). La
razón:
n
n Xn o
f (x; ; 2
) 2
1
2
2
exp 2
1
2 (xk )2
k=1
2)
= n
n Xn o
f (z; ; 1 2
exp 1
(zk )2
2 2 2 2
k=1
1 h X n Xn i n hX n Xn i
= exp 2
x2k zk2 + 2 xk zk ,
2 k=1 k=1 k=1 k=1
2
es libre de ( ; ) si y sólo si:
Xn XnXn Xn
Xk2 Zk2 ; Xk Zk .
k=1 k=1 k=1 k=1
Xn Xn
Por lo tanto, los estadísticos Xk2 , Xk no sólo son su…-
k=1 k=1
cientes, sino su…cientes mínimos.
8.6.4 Completitud
Volviendo a nuestro objetivo principal que es encontrar estimadores óptimos
utilizando estadísticos su…cientes, observamos que el concepto de estadístico
su…ciente mínimo no puede garantizar la unicidad de este estimador porque
cualquier función uno a uno de un estadístico su…ciente mínimo es también
su…ciente y mínima. Para garantizar la unicidad de los estimadores ópti-
mos necesitamos otra característica de los estadísticos su…cientes llamada
exhaustividad.
La exhaustividad es una propiedad de una familia de densidades e intuiti-
vamente signi…ca que el único estimador insesgado de cero es cero sí mismo.
La familia de densidades = ffX (x; ) ; 2 g se dice que es completa si,
para cada función (X), se cumple la siguiente relación:
E ( (X)) = 0 ) (X) = 0 (c.s.) para todo x 2 fx : fX (x; ) > 0g .
Esta idea puede ser trasplantados sin cambios para el caso de la distribu-
ción de la muestra f (x; ), mediante la sustitución de X por la muestra X
en la relación anterior. En el caso de un estadístico su…ciente, tenemos que
de…nir la completitud en términos de la distribución de este estadístico.
Completitud. Una estadístico su…ciente Y = h (X) se dice que es com-

pleto si la familia de las densidades Ģ:= ffY (y; ) ; 2 g es completa.
NOTA: la utilidad de la propiedad de completitud se deriva del hecho
de que si h (X) es un estadístico su…ciente completo y b = g (h (X)), un
estimador insesgado de , es decir
E (g (h (X))) = ,
entonces este estimador es único.
La relación entre un estadístico su…ciente completo y un estadístico su-
…ciente mínimo es que un estadístico su…ciente completo es su…ciente mín-
imo (véase Lehmann y Sche¤é (1950)). Esto nos lleva al …nal de nuestra
búsqueda de mejores estimadores insesgados mediante la utilización de es-
tadísticos su…cientes. El resultado principal es dado por el siguiente teorema
(véase Lehmann y Sche¤é (1955)).
Teorema de Lehmann-Sche¤é 2. Sea h (X) un estadístico su…ciente
completo para (o mejor, de un modelo estadístico S). Si existe un estimador
insesgado b de , que es una función de h (X) (es decir, b = g (h (X))),
entonces este estimador es el mejor y el único.
Ejemplo 4. Uniforme (continuación
En un intento de ilustrar algunos de los resultados anteriores, volvamos a
la problemática del modelo Uniforme discutido anteriormente. En vista del
hecho de que:
E (X) = ,
2
podría ser tentador usar la correspondencia entre los momentos
Xn de la
b
distribución y de la muestra para obtener el estimador = 2 n 1
Xk .
k=1
Este ciertamente no es un mal estimador porque es a la vez insesgado:
1 Xn 2 n
E b =2 (Xk ) = = ,
n k=1 n 2
y consistente:
2
V ar b = ! 0 cuando n ! 1.
3n
Sin embargo, no es la mejor estimator. Sabemos de la discusión anterior
que:
X[n] = max (X1 ; X2 ; :::; Xn ) ,

es un estadístico su…ciente para . Usando el teorema de Rao-Blackwell
procedemos a de…nir el estimador:
e = E bjX[n] = E 2 1 Xn n
(Xk ) jX[n] = X[n] .
n k=1 n+1
Resulta que la familia de las densidades consideradas es completa y, por
lo tanto, este estimador es el mejor estimador de insesgado de ; es también
único.
La principal desventaja de la estrategia anteriormente mencionada se en-
cuentra en asegurar que un cierto estadístico su…ciente mínimo también es
completo. Para hacerse una idea de las di…cultades considerar el caso relati-
vamente simple en el ejemplo siguiente.
Ejemplo 1. Bernoulli (continuación) Xn
En el caso del modelo de Bernoulli el estadístico Sn := Xk es
k=1
su…ciente mínimo, con una distribución muestral (véase el lema 1) de la
forma:
n
f (sn ; ) = s
(1 )n s
, 2 [0; 1] .
s
Considere un estimador ÷
(X) tal que E (÷(X)) = 0, para todo 2 [0; 1]:
Xn n
÷
(X) s
(1 )n s
= 0, para todo 2 [0; 1].
s=0 s
n Xn
Teniendo en cuenta el hecho de que la función g ( ) = s
(1 ÷
(X) )n s
=
s s=0
0 es un polinomio en 1 con raíces a lo más n, es igual a cero si y sólo si:
Xn
÷(X) = 0 para todo s = 1; 2; :::; n. Esto sugiere que Sn := Xk también
k=1
es un estadístico su…ciente completo.
Combinando el teorema anterior con el de Rao-Blackwell, el modelador
puede formar la siguiente estrategia: en el caso de que un estadístico su…-
ciente completo exista, ella debe comenzar con un estimador insesgado arbi-
trario y luego proceder a obtener la esperanza condicional dado el estadístico
su…ciente; ver Casela y Berger (1990).
8.7. ¿QUÉ VIENE A CONTINUACIÓN? 459
Volviendo a la analogía de un arquero parado al pie de una colina con el

objetivo en el otro lado más allá de su visión, la cuestión de la elaboración de
una estrategia relativa a los factores dentro de su control, ahora pueden ser
contestada: conectar una red que llamamos un estadístico su…ciente completo
sobre la ‡echa en un intento de especi…car un estimador insesgado.
8.6.5 Exponencial de la familia de distribuciones

Hay una familia importante de densidades para la cual el problema de en-
contrar un estadístico su…ciente mínimo, que también es completo, es relati-
vamente fácil. Esta es la familia exponencial (no el modelo exponencial).
Familia exponencial de las densidades. Un modelo de probabilidad
= ff (x; ) ; 2 g se dice que pertenece a la familia exponencial si la
función de densidad se puede expresar en la forma:
Xk
f (x; ) = c ( ) h (x) exp gi ( ) i (x) ,
i=1
(a) c ( ) 0,
(b) h (x) 0,
(c) gi ( ), i = 1; 2; :::; k, funciones reales (sin x),
(d) i (x), i = 1; 2; :::; k, funciones reales (sin ).
Muchas distribuciones conocidas como la Normal, Gamma, Beta, Bino-
mial, Poisson y Binomial Negativa pertenecen a esta familia. Para esta fa-
milia, los estadísticos:
Xn
i (xj ) , i = 1; 2; :::; k ,
j=1
son estadísticos su…cientes mínimos para (gi ( ), i = 1; 2; :::; k), y en el

caso de que el número de parámetros desconocidos es es k, estos estadísticos
son también completos.
8.7 ¿Qué viene a continuación?

El objetivo de este capítulo ha sido formalizar el concepto de estimador
óptimo. Usando el concepto intuitivo de estimador ideal motivamos las
propiedades de muestra …nita de insesgamiento y e…ciencia y las propiedades
asintóticas de consistencia, normalidad asintótica y e…ciencia asintótica. Us-
ando el concepto de reducción óptima de la información relevante en los datos
motivamos la propiedad de su…ciencia. En el siguiente capítulo procedemos a

discutir los métodos de estimación que a menudo dan lugar a los estimadores
óptimos.
8.8 Ejercicios
1. Explique brevemente lo que hacemos cuando construimos un estimador.
¿Por qué un estimador es una variable aleatoria?
2. "De…nir la distribución muestral de un estimador es teórcamente triv-
ial, pero deducirla es muy difícil". Discuta.
3. Para el modelo estadístico Bernoulli:
(i) Discutir si las siguientes funciones constituyen estimadores posibles de
:
1 1
(a) b1 = Xn ; (b) b2 = (X2 X1 ) ; (c) b3 = (X1 X2 + Xn ) ;
2 3
1 Xn 1 Xn
(d) bn = Xi ; (e) bn + 1 = Xi .
n i=1 n+1 i=1
(ii) Para aquellos que constituyen estimadores obtienen sus distribuciones

de muestreo.
4. Explique brevemente las propiedades de insesgamiento y e…ciencia de
los estimadores.
5. "En la evaluación de la optimalidad de un estimador tenemos que
observar solamente los dos primeros momentos de su distribución muestral."
Discuta.
6. Explique brevemente qué es un estimador consistente. ¿Cuál es la
manera más fácil de probar la consistencia de los estimadores con segundos
momentos acotados?
7. Explique brevemente la diferencia entre consistencia débil y fuerte de
los estimadores.
8. "La normalidad asintótica de un estimador es una extensión del Teo-
rema Central del Límite para las funciones de la muestra más allá de la media
muestral." Discuta.
9. Explique la diferencia entre e…ciencia completa y e…ciencia asintótica.
10. Explicar el concepto de estimador ideal y explicar intuitivamente
cómo su de…nición se relaciona con las propiedades de insesgamiento, e…cien-
cia y consistencia.
8.8. EJERCICIOS 461
11. Explique la diferencia entre las cotas inferiores de Cramer-Rao y de

Bhattacharyya.
12. Explique el concepto de su…ciencia.
13. Explique el concepto de estadístico su…ciente mínimo y cómo se
relaciona con el mejor estimador insesgado.
14. Explique el teorema de Rao-Blackwell y cómo puede ser utilizado
para obtener los mejores estimadores insesgados.
15. Considere el modelo estadístico normal (dos parámetros).
(a) Derive (no conjeture!) las distribuciones muestrales de los estimadores
siguientes:
1
(i) b1 = Xn , (ii) b2 = (X1 + X2 + X3 )
3
1 Xn
(iii) b3 = (X1 Xn ) , (iv) bn = Xi ,
n i=1
(SUGERENCIA: indicar explícitamente las propiedades de E (:) o cualquier

lema que utilice).
(b) Compare estos estimadores en términos de las propiedades óptimas,
insesgamiento, e…ciencia y consistencia. Xn
c) Compare y contraste los estimadores b2n = n1 (Xi bn )2 y sb2n =
Xn i=1
1
n+1
(Xi bn )2 , en términos de sus propiedades.
i=1
Capítulo 9
Estimación II: métodos de

estimación
9.1 Introducción
En el capítulo anterior discutimos estimadores y sus propiedades. Las prin-

cipales propiedades deseables de muestra …nita discutidas en el capítulo 12
fueron:
Insesgamiento, E…ciencia,
siendo la su…ciencia una propiedad relacionada con los modelos especí…-
cos de probabilidad. Las propiedades asintóticas deseables discutidas en el
capítulo anterior fueron los siguientes:
Consistencia, Normalidad Asintótica, E…ciencia Asintótica.
El concepto de estimador ideal se usó como vara de comparación con el
…n de mejorar la comprensión intuitiva de estas propiedades. La cuestión
de cómo se pueden construir buenos estimadores se eludió en el capítulo
anterior. El objetivo principal de este capítulo es examinar esta cuestión con
cierto detalle discutiendo cuatro métodos de estimación:
1. El principio de momento de coincidencia,
2. El método de mínimos cuadrados,
3. El método de momentos y
4. El método de máxima verosimilitud.
463
464 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN

En la sección 2 se discute una aproximación a la estimación que tiene un
atractivo intuitivo, pero carece de generalidad. Llamamos a este proced-
imiento el principio de momento de coincidencia porque estimamos los parámet-
ros desconocidos haciendo coincidir la distribución y los momentos de la
muestra. La relación entre la distribución y los momentos de la muestra es
también de interés en el contexto de los otros métodos. La sección 3 presenta
el método de mínimos cuadrados, en primer lugar como un método de aprox-
imación matemática y después como un método de estimación característico
de la inferencia estadística moderna. En la sección 4 discutimos el método
de momentos de Pearson y luego lo comparamos con el método paramétrico
de momentos, una adaptación del método original para el paradigma actual
de la inferencia estadística El método de máxima verosimilitud se discute en
la sección 5.
9.1.2 Métodos de estimación: una visión preliminar

La discusión que sigue se diferencia de la discusión de libros de texto tradi-
cionales en una serie de formas que resumimos desde el principio. Se argu-
menta que el principio de momentos coincidentes surgio durante el siglo 19
y 20 como parte de la confusión general entre frecuencias relativas y proba-
bilidades. La misma confusión impregna el método de momentos en la forma
propuesta por Pearson en 1895, diseñado para utilizar los datos con el …n
de elegir una descripción adecuada en la forma de una curva de frecuencias
de la familia Pearson. Ambos procedimientos se desarrollaron en el contexto
de lo que hoy llamamos estadística descriptiva. El método de Pearson, sin
embargo, se adaptó más tarde para satisfacer a la aproximación moderna a
la inferencia estadística. A …n de distinguir entre el método de Pearson y
el método adaptado nos referimos a este último como el método paramétrico
de momentos. Una tesis particular adoptada en la discusión que sigue es
que todos los métodos de estimación se entienden mejor en el contexto del
marco de referencia estadístico (paradigmas) en el que se desarrollaron por
primera vez. En este sentido, el único método de estimación especí…camente
desarrollado para el enfoque moderno de la inferencia estadística, que implica
postular un modelo estadístico a priori y la interpretación de los datos como
una realización del mecanismo estocástico descrito por este modelo, es el de
máxima verosimilitud, propuesto por Fisher en la década de 1920; sus raíces
9.2. PRINCIPIO DE MOMENTOS COINCIDENTES 465
se remontan a Fisher (1912). Los otros tres métodos se han desarrollado

en el contexto de paradigmas diferentes y es importante tenerlo en mente
cuando hablamos de estos métodos. El método de mínimos cuadrados, como
una técnica de aproximación matemática (la aproximación de una función
desconocida en un intervalo), se desarrolló a principios de 1800 en el con-
texto de un paradigma estadístico conocido como la teoría de errores. En la
sección 3 proponemos una interpretación alternativa de los mínimos cuadra-
dos como el equivalente muestral a la descomposición ortogonal usada para
de…nir el concepto de mecanismo generador estadístico (MG) en el capítulo
7.
El método de máxima verosimilitud (MV) fue desarrollado especí…ca-
mente para utilizar toda la información disponible en la fase de especi…cación
de la modelación: el modelo estadístico y los datos observados. Por eso, el
método MV tiene ciertas ventajas evidentes sobre los otros métodos. Por
ejemplo, el principio de momentos coincidentes y el método de momentos
con frecuencia producen estimadores menos e…cientes, ya que no utilizan
toda la información disponible en el modelo estadístico; ellos ignoran parte
de la información relativa al modelo de probabilidad. Esto puede explicarse
por el hecho de que el paradigma en el contexto del cual estos métodos se han
desarrollado, no implica postular un modelo estadístico a priori. En su lugar,
la modelación procedió de los datos al mejor modelo descriptivo en el forma
de una curva de frecuencias. Del mismo modo, mínimos cuadrados se desar-
rolló originalmente como una técnica de ajuste de curvas para las funciones
de…nidas sobre un dominio determinado. La estructura probabilística se in-
trodujo posteriormente en la formulación a través del error de aproximación
de una manera no esencial. En contraste, el método de máxima verosimili-
tud ha sido diseñado para un enfoque donde el modelador postula un modelo
estadístico a priori y los datos observados son vistos como una realización
del mecanismo aleatorio especi…cado por el modelo estadístico postulado.
9.2 Principio de momentos coincidentes

El principio de momento coincidentes no puede ser acreditado a ningún
estadistico famoso porque se puede decir que el caso, esencialmente, surgió
de una confusión fundamental entre los momentos de la distribución y los
momentos de la muestra. En su artículo clásico, que sentó las bases de
la inferencia estadística moderna, Fisher atribuye el abandono de las bases
teóricas de los métodos estadísticos a dos razones:

(i) Una razón …losó…ca: ya que la estadística es "un tema en el que todos
los resultados están sujetos a errores mayores o menores, la de…nición precisa
de las ideas o conceptos es, si no imposible, al menos no una necesidad
práctica" (Fisher (1922b), p. 311).
(ii) Una razón metodológica: "ha ocurrido que en estadística una con-
fusión puramente verbal ha di…cultado la formulación de los distintos prob-
lemas estadísticos; es costumbre aplicar el mismo nombre, media, desviación
estándar, coe…ciente de correlación, etc, tanto al verdadero valor que nos
gustaría conocer, pero sólo se puede estimar, como al valor particular al que
queremos llegar por nuestros métodos de estimación" (Fisher (1922b), p.
311).
Fisher señaló una confusión entre tres conceptos distintos: el momento
de una distribución de probabilidad, su estimador y la estimación correspon-
diente basada en una realización de la muestra especí…ca. Una confusión
provocada debido a la utilización del mismo término para los tres distintos
conceptos. Desafortunadamente para la estadística esta elección de termi-
nología inadecuada todavía impregna el tema. El precio de esta inadecuada
y a menudo confusa terminología es pagado por los estudiantes y profesores
de estadística que tienen que perder mucho tiempo valioso tratando de dis-
tinguir entre distintos conceptos que llevan implícita la misma terminología.
La tabla 13.1 presenta tres grupos muy diferentes de momentos que ll-
evan el mismo nombre. La primera columna presenta estos momentos en
el contexto de la estadística descriptiva donde ellos representan formas de
resumir los datos observados utilizando medidas de localización, dispersión,
etc. Como tales, estos momentos se re…eren a los momentos de lo que lla-
mamos las frecuencias relativas de los datos observados y que denotan sólo
un resumen de números. Estos números deben compararse con los momentos
de la muestra en la tercera columna, donde las fórmulas son idénticas aparte
del hecho de que usamos letras mayúsculas en lugar de minúsculas para X. A
pesar de la apariencia los momentos de la muestra son cualitativamente muy
diferentes de los momentos de la estadística descriptiva. Los momentos de la
muestra son funciones de una muestra (X1 ; X2 ; :::; Xn ), cuya estructura prob-
abilística se determina a priori por el modelo estadístico elegido. Como tal,
los momentos muestrales representan variables aleatorias en lugar de sólo los
números como en el caso de los momentos de estadística descriptiva. Estos
últimos, como señala Fisher, también di…eren cualitativamente de los valores
particulares adoptados por los momentos muestrales basados en la realización
de la muestra en particular, a pesar de que a menudo utilizamos notación

idéntica; ellos representan un valor particular de una variable aleatoria no
sólo un resumen de números. Por último, los momentos de una distribución
de probabilidad se diferencian de todos esos otros momentos, en la medida en
que representan constantes desconocidas que se de…nen en términos de fun-
ciones de densidad particulares. Optamos por de…nir estos momentos para
variables aleatorias continuas en términos de integrales con el …n de hacer
el contraste más evidente. Para variables aleatorias discretas los momentos
crudos se de…nen a través de:
X
0 r
r := E (X ) = xr f (x) ; r = 1; 2; :::
x2RX
Tabla 13.1 Momentos
Lo que distingue a estos momentos de todos los demás es la presencia de

una función de densidad particular en la de…nición. Como se ha dicho en el
capítulo 3, los momentos de la distribución de probabilidad son a menudo la
mejor manera de tratar con los parámetros desconocidos . Esto se sigue del
hecho de que estos momentos dependen fundamentalmente de la naturaleza
de la función de densidad, que a su vez es una función de y, por lo tanto, los
momentos son funciones de . Esta relación se ejempli…ca en los momentos
crudos siguientes:
Z
0 r
r := E (X ) = xr f (x; ) dx = 0r ( ) ; r = 1; 2; :::
x2RX
La confusión entre los diversos usos del término momentos se ve agravada

por el hecho de que en la inferencia estadística a menudo hablamos de los
momentos de los momentos de la muestra. En un intento por hacer frente

a esta di…cultad, utilizamos la notación ( 0r (:) , r (:)) que nos permite ser
especí…cos respecto a qué momentos nos estamos re…riendo cuando no es
evidente por el contexto. Por lo tanto, la notación 0r X , r = 1; 2; :::, denota
los momentos crudos de la distribución muestral de la media muestral.
Durante los siglos 18 y 19 la distinción entre probabilidades y frecuencias
relativas no existía; en la mente de los matemáticos de la época las dos
coinciden. En vista de esto, no debería ser una sorpresa para nadie saber
que la transición de la estadística descriptiva a la inferencia estadística en
la primera parte del siglo 20, pasó casi desapercibida, incluso por pioneros
como Karl Pearson (ver más adelante). Por lo tanto, la práctica endémica
de confundir los momentos de la distribución y los momentos muestrales
(estadística descriptiva) durante este período de transición, mucho más tarde
se convirtió en el principio de momento coincidentes:
la de…nición de estimadores, haciendo coincidir los momentos de la dis-
tribución con los momentos de la muestra.
El principio de momentos coincidentes se lleva a cabo en dos pasos:
Paso 1. Relacionar el parámetro desconocido con los momentos de la
distribución en términos de los cuales se especi…ca el modelo de probabilidad,
por ejemplo,
= g ( 01 ; 0
2) .
Paso 2. Sustituir los momentos muestrales en el lugar de los momentos

de la distribución:
1 Xn 1 Xn
b01 = Xi , b02 = Xi2 .
n i=1 n i=1
es decir, construir un estimador de , a través de b =g b01 ; b02 .

NOTA: vale la pena señalar en este procedimiento es al revés del utilizado
por el Método de Momentos (véase más adelante), donde tenemos la relación
especi…cada en términos de los momentos, por ejemplo 01 = h1 ( 1 ; 2 ), 02 =
h2 ( 1 ; 2 ), sustituir los momentos muestrales en lugar de ( 01 ; 02 ) y resolver
para ( 1 ; 2 ) para de…nir sus estimadores.
Ejemplo 1. Considere el modelo Bernoulli simple:
[i] MG estadístico: Xk = + "k , k 2 N,
[ii] Modelo de probabilidad: = ff (x; ) = x (1 )1 x ; 2 [0; 1] ; x =
0; 1g,

Teniendo en cuenta el hecho de que para el modelo Bernoulli el parámetro
desconocido coincide con la media de X:
E (X) = ,
el principio de momentos coincidentes sugiere que un estimador natural
de es la media muestral:
Xn
b= 1 Xi .
n i=1
Ejemplo 2
Considere el modelo Normal simple:
[i] MG estadístico: Xk = + uk , k 2 N,
1 1
= f (x; ) = p exp 2
(x )2 ; := ; 2
2R R+ ; x 2 R ,
2 2
Para el modelo Normal especi…cado anteriormente los parámetros de-
sconocidos := ( ; 2 ) están relacionados con los momentos de distribución
a través de:
2
E (X) = , V ar (X) = .
El principio de momentos coincidentes propone la media muestral y la
varianza muestral, respectivamente, como los estimadores evidentes de estos
parámetros, es decir,
1 Xn 1 Xn
b= Xi , b2 = (Xi b)2 .
n i=1 n i=1
Ejemplo 3
Considere el modelo de regresión lineal Normal:
[i] MG estadístico: Yt = 0 + 1 xt + ut , t 2 N,
1
1 2 2
= f (yt jxt ; ) = p exp 2
(Yt 0 1 xt ) ; := ; 2 R2 R + ; yt 2 R ,
2 2
,
[iii] Modelo muestral: Y := (Y1 ; Y2 ; :::; Yn ) es una muestra aleatoria ex-
traída secuencialmente de f (yt jxt ; ), t = 1; 2; :::; T .
En este caso los parámetros desconocidos están relacionados con los mo-
mentos de las variables aleatorias y y X a través de:
Cov (Yt ; Xt ) 2 (Cov (Yt ; Xt ))2

0 = E (Yt ) 1E (Xt ) , 1 = , = V ar (Yt ) .
V ar (Xt ) V ar (Xt )
Mediante la sustitución de los momentos muestrales en lugar de los mo-

mentos de la distribución, obtenemos los siguientes estimadores del principio
de momentos coincidentes:
XT XT
1 1
T
Yt Y (xt x) 1 XT 2 T
Yt Y
b =Y b = t=1
, b2 = t=1
0 1 x, 1 XT Yt Y XT
1
(xt x)2 T t=1 1
(xt
T t=1 T t=1
En todos los casos anteriores los estimadores sugeridos por el principio de

momentos coincidentes disfrutan de varias propiedades óptimas. Por ejemplo,
como se muestra en el capítulo anterior, b es un estimador insesgado, e…ciente
y consistente de y b es un estimador insesgado, e…ciente y consistente de
. La pregunta que naturalmente surge es si los estimadores sugeridos por el
principio de momentos coincidentes disfrutan siempre de tales propiedades
óptimas. La respuesta es que dichos estimadores tienden con tener buenas
propiedades, pero a menudo no tan buenas como sugieren estos ejemplos.
Consideremos esta proposición con algún detalle más.
9.2.1 Momentos muestrales y sus propiedades

Como se ha dicho anteriormente, los momentos crudos y centrales de una
variable aleatoria univariada X:
Z Z
0
r ( ) := r
x f (x; ) dx; r = 1; 2; ::: r ( ) := (x )r f (x; ) dx; r = 2; 3; :::
x2RX x2RX
corresponden a los momentos muestrales:

1 Xn 1 Xn
b0r = Xi ; r = 1; 2; 3; ::: br ( ) = (Xi b)r ; r = 2; 3; :::.
n i=1 n i=1
Del mismo modo, en el capítulo 4 de…nimos los momentos crudos y cen-

trales de la distribución conjunta:
Z Z
b0r;s ( ) : = xr y s f (x; y; ) dxdy; r; s = 1; 2; 3; :::
x2RX y2RY
Z Z
r s
br;s ( ) : = (x x) y y y s f (x; y; ) dxdy; r; s = 1; 2; 3; :::
x2RX y2RY
Los correspondientes momentos conjuntos crudos y centrales son:
1 Xn 1 Xn s
b0r;s = Xir Yis ; r;s = (Xi bx )r Yi by , r; s = 1; 2; 3; :::.
n i=1 n i=1
Para la aplicación del principio de momentos coincidentes, en el cuadro

13.2 se resumen las primeras distribuciones y los momentos muestrales cor-
respondientes.
Tabla 13.2 Momentos
De interés en el contexto actual son las distribuciones muestrales de los

momentos muestrales anteriores y sus propiedades. En general, la distribu-
ción de cualquier momento muestral depende fundamentalmente de los mod-
elos de probabilidad y muestral postulados. Como vimos en el capítulo an-
terior, en el caso de una muestra aleatoria de la distribución Bernoulli, el
Xn
estimador b = n1 Xi (la media de la muestra) se distribuye Binomial y
i=1
resulta ser un estimador insesgado, plenamente e…ciente y consistente Xnde .
1
Además, en el caso del modelo Normal simple, el estimador b = n Xi
i=1
tiene una distribución Normal y resulta ser un estimador insesgado, plena-
mente e…ciente y consistente de .
En la práctica los estimadores del principio de momentos coincidentes se
utilizan a menudo en los casos de modelos estadísticos simples incompletos
donde no se postula explícitamente a priori ningún modelo de probabilidad.
En tales casos, por supuesto, no podemos determinar la distribución muestral
de un estimador (a menos que se recurra a la teoría asintótica) y los resultados
disponibles a menudo se re…eren a los primeros momentos de esta distribución
desconocida. En el caso de un modelo estadístico simple incompleto (es decir,
independientemente de la naturaleza explícita de , pero asumiendo que los
momentos necesarios existen) podemos obtener los resultados en la tabla 13.3
para la momentos muestrales crudos.
Tabla 13.3 Momentos muestrales crudos
Estos resultados sugieren que, en el caso de una muestra aleatoria, in-

dependientemente de la distribución subyacente (suponiendo que los mo-
mentos requeridos existen), los momentos muestrales crudos proporcionan
estimadores insesgados y consistentes para los momentos crudos de la
distribución.
La consistencia se deduce del hecho de que la varianza de los momentos
muestrales crudos V ar ( 0r ) tiende a cero cuando n ! 1.
Un ejemplo particularmente importante de estos momentos es la media
muestral cuyos primeros momentos se muestran en la tabla 13.4.
Xn
1
Tabla 13.4 Media muestral b = n
Xi
i=1
Las fórmulas para los momentos centrales muestrales no son tan sim-
ples como las de los momentos muestrales crudos porque implican la variación
de muestreo de la media muestral. La tabla 13.5 muestra la aproximación
de los dos primeros momentos de los momentos centrales muestrales (véase
Stuart y Ord (1994)) donde la notación o nk y O nk indican el orden de
aproximación.
Tabla 13.5 Momentos centrales muestrales
La NOTACIÓN an =o nk , para algún k 6= 0, indica una sucesión

fan g1 k
n=1 de orden menor que n , es decir,
an
lim = 0,
n!1 nk
y la notación an =O nk indica una sucesión fan g1

n=1 a lo más de orden
k
n , es decir,
jan j
lim K, donde 0 < K < 1,
n!1 nk
(ver Spanos (1986)). Nótese que para k > 0: an =O nk ) an =o nk+1 .

Para tener una idea de lo que estas aproximaciones re…eren, vamos a
considerar los momentos de la varianza de la muestra, que se muestran en la
tabla 13.6. La covarianza de b2 y b sugiere que en el caso de que la muestra
aleatoria provenga de una distribución simétrica ( 3 = 0), b y b2 no están
correlacionados, es decir Cov b; b2 = 0.
Tabla 13.6 Varianza muestral

NOTE que r , r = 2; 3; 4 indican los momentos de la distribución del
modelo de probabilidad subyacente. En el caso de los momentos muestrales
centrales de orden superior, los resultados en la tabla 13.5 son sólo resultados
aproximados en el sentido de que en el caso en que r sea par:
1
Cov (b; br ) = r 2 r 1 +o n 1 ,
n r+1
y por lo tanto para una distribución simétrica r+1 ; r 1 serán cero, ya
que son momentos impares y por lo tanto no correlacionados para el orden
n 1:
1
Cov (b; br ) = 0 + o n .
Los resultados de los momentos centrales muestrales indican que ya que:
P
(a) lim E (br ) = r, (b) lim V ar (br ) = 0, para r = 2; 3; ::: ) br ! r,
n!1 n!1
es decir, br es un estimador consistente de r , para r = 2; 3; :::

En el caso de los momentos muestrales conjuntos crudos podemos demostrar
(véase la tabla 13.7) que los resultados son muy similares para los momentos
muestrales crudos ordinarios (véase Stuart y Ord (994)).
Tabla 13.7 Momentos muestrales conjuntos

El estadístico más utilizado basado en el segundo momento muestral
conjunto es el coe…ciente de correlación:
Xn
(Xi b x ) Yi by
i=1
b = rh X i hX n i.
n 2 2
(Xi bx ) Yi by
i=1 i=1
Como podemos ver, la varianza del coe…ciente de correlación muestral es

una función muy complicada de varios momentos conjuntos de la distribución
subyacente al modelo de probabilidad postulado. En el caso de un modelo
Normal de dos variables, con varianzas unitarias (véase el capítulo 6) esta
expresión se reduce a:
1 2 2 1
V ar (b) = 1 +o n .
n
Tabla 13.8 Coe…ciente de correlación muestral
Resulta que los resultados anteriores para los momentos muestrales se

simpli…can notablemente en el caso del modelo Normal simple; en el cuadro
13.9 se resumen estas simpli…caciones (véase Stuart y Ord (1994)).
Tabla 13.9. Varianzas de estadísticos frecuentes
Los resultados en relación a los primeros momentos de los momentos

muestrales muestran más claramente la di…cultad de deducir y operacionalizar
tales resultados. Obtener resultados aún aproximados para los momentos
muestrales superiores al cuarto resulta ser muy enmarañado y complicado.
Fisher (1929), sin embargo, nos demostró que esto no es la mejor manera
de proceder. En su lugar, demostró que los llamados estadísticos k rela-
cionados con los cumulantes son mucho más fáciles de manejar porque sus
cumulantes muestrales se pueden obtener utilizando métodos combinatorios
(ver McCullagh (1987)).
Hasta ahora hemos encontrado que en el caso de una muestra aleatoria,
los estimadores sugeridos por el principio de los momentos coincidentes, son
en general consistentes y a veces insesgados; el principal ejemplo de éxito de
este procedimiento es el caso de los momentos crudos.
¿Qué pasa con la e…ciencia y normalidad asintótica?
Los estimadores sugeridos por el principio de los momentos coincidentes
suelen ser ine…cientes porque los estimadores ignoran información importante
relacionada con el modelo de probabilidad: la naturaleza de la distribución
subyacente. Ellos son, sin embargo, asintóticamente normales. Este resul-
tado se sigue del hecho de que una forma estandarizada de los momentos
muestrales crudos es normal con media cero y varianza 02r ( 0r )2 es de-
cir:
p h i
0 2
n b0r 0
r ~N 0; 0
2r ( r ) ,
a
donde, ~ se lee "asintóticamente distribuido como". Del mismo modo:

a
p 2
n [br r ] ~N (0; V1 ( r )) , donde V1 ( r ) = 2r 2r r 1 r+1 r + r2 2
2 r 1 .
a
9.2.2 Funciones de los momentos de la muestra

Como argumentamos anteriormente, la estimación de un parámetro uti-
lizando el principio de momentos coincidentes implica relacionarlo con cier-
tos momentos de la distribución y sustituirlo en esta última con los corre-
spondientes momentos muestrales. Por lo tanto, a menudo los resultados
anteriores no se puede utilizar directamente a menos que coincida con un
cierto momento de la distribución. En este sentido, es de interés consid-
erar la distribución muestral de la función, digamos g(:), de los momentos
muestrales.
La forma más fácil de hacer frente a este problema es obtener resultados
aproximados sobre la base de expansiones en series de Taylor de la función
del momento muestral (ver Ser‡ing (1980)):
@g ( 0r ) 0 1 @ 2 g ( 0r ) 0 0 2
g b0r = g ( 0r ) + br 0
r + br r +
@ 0r 2 @ ( 0r )2
Tomando en cuenta que E b0r 0

r = 0, esta expansión se puede uti-
lizar para deducir resultados aproximados de los primeros momentos de esta
función (véase Sargan (1974)):
1 @ 2 g ( 0r ) 0 2
E g b0r ' g ( 0r ) + 2 0
E b0r r ,
2 @ r
2
@ 2 g ( 0r ) 0 2
V ar g b0r ' E b0r r ,
@ ( 0r )2
dónde ' indica aproximación asintótica. Utilizando estos resultados
podemos deducir que en el caso de una función diferenciable g(:) de los
momentos muestrales cuya derivada en 0r (el verdadero valor) no es cero, es
0)
decir, @g(
@ 0r
r
6= 0:
!
0 2h i
p 0 @g ( r ) 2
n g br g ( 0r ) ~N 0; 0
2r ( 0r ) .
a @ 0r
Las derivaciones son un poco más complicadas cuando la función g(:) in-
volucra más de un momento muestral. Considere el caso donde g b01 ; b02 ; :::; b0m ,
m < n:
Xm @g ( 0 ) 0
g b01 ; b02 ; :::; b0m = g ( 01 ; 0
2 ; :::;
0
m) + bk 0
k O n 1
,
k=1 @ 0
k
donde = b01 ; b02 ; :::; b0m . De esto podemos deducir que:
E g b01 ; b02 ; :::; b0m ' g ( 01 ; 02 ; :::; 0m )

Xm @g ( 0 ) 0 2
V ar g b01 ; b02 ; :::; b0m ' E bk 0
k
k=1 @ 0
k
Xm @g ( 0 )
2
0
Xm Xm @g ( 0 ) @g ( 0 )
= V ar b k +
k=1 @ 0k k=1 l=1 @ 0k @ 0l
k6=l
Recordamos al lector una vez más que estos resultados se basan en el

supuesto restrictivo de muestra aleatoria.
9.3 El método de mínimos cuadrados

9.3.1 El principio de mínimos cuadrados
El principio de mínimos cuadrados fue originalmente propuesto como un
procedimiento de aproximación matemática por Legendre en 1805; ver Harter
(1974-76). El principio proporciona una forma para aproximar:
una función desconocida y =g(x), mediante una función casi conocida
Xk
h (x) = ai i (x), donde 0 (x) ; 1 (x) ; 2 (x) ; :::; k (x) son funciones
i=0
conocidas de x apropiadamente elegidas:
(por ejemplo, 0 (x) = 1; 1 (x) = x; 2 (x) = x2 ; :::; k (x) = xk ),
de una manera que asegura que g(x) y h (x) coinciden tanto como sea
posible en un cierto dominio D; a menudo un conjunto de T puntos discretos
(T > k). El concepto de aproximación óptima, en el sentido de mínimos
cuadrados se de…ne en términos de minimizar la suma de errores al cuadrado,
donde el error se de…ne por:
9.3. EL MÉTODO DE MÍNIMOS CUADRADOS 479
Xk
t = yt ai i (xt ) ,
i=0
en el dominio D = f(yt ; xt ) , t = 1; 2; :::; T g. Es decir, los parámetros

a0 ; a1 ; a2 ; :::; ak se eligen para minimizar la función objetivo:
XT Xk 2
l (a0 ; a1 ; a2 ; :::; ak ) = yt ai i (xt ) .
t=1 i=0
NOTA:
(i) Para el método de mínimos cuadrados la linealidad que importa es la
linealidad en los parámetros a0 ; a1 ; a2 ; :::; ak , no la linealidad en x como en el
caso del modelo de regresión lineal/Normal (ver Spanos (1986, disponible)),
(ii) no hay supuestos probabilísticos que estén involucrados en el problema
anterior.
Ejemplo
En el caso simple donde k = 1 y 0 (x) = 1; 1 (x) = x, la función objetivo
toma la forma:
XT
l (a0 ; a1 ) = (yt a0 a1 xt )2 .
t=1
Considerando que la función es in…nitamente diferenciable podemos en-

contrar el mínimo usando cálculo. Las condiciones de primer orden darán
lugar a las llamadas ecuaciones normales:
@l XT @l XT
= ( 2) (yt a0 a1 xt ) = 0, = ( 2) (yt a0 a1 xt ) xt = 0,
@a0 t=1 @a1 t=1
cuya solución da como resultado:
XT
(yt y) (xt x) XT
b
a0 = y b
a1 x, b
a1 = t=1
XT , para (xt x)2 6= 0.
2 t=1
(xt x)
t=1
Xn Xn
donde y = T1 yt y x = T1 xt . Esto se puede ver geométrica-
t=1 t=1
mente como el ajuste de una línea a un grá…co de dispersión de f(yt ; xt ) , t = 1; 2; :::; T g,
como se muestra en la …gura 13.1.
Figura 13.1. Línea ajustada de mínimos cuadrados
NOTA. En Spanos (1999) pg. 648 se escriben las soluciones

como: b 0 y b 1 ; creo que deberían escribirse: b a0 y ba1 .
La principal justi…cación de Legendre para el método de mínimos cuadra-
dos fue que en el caso donde la función de aproximación es una constante, es
decir, h (x) = a0 , el valor de a0 que minimiza la función:
XT
l (a0 ) = (yt a0 )2 ,
t=1
coincide con la media aritmética:
1 XT
b
a0 = yt .
T t=1
Esto se deduce de la condición de primer orden:
dl XT
= ( 2) (yt a0 ) = 0.
da0 t=1
En ese momento, la media aritmética se consideró la mejor manera de

resumir la información contenida en los T puntos de datos y1 ; y2 ; :::; yT .
NOTA. En Spanos (1999) pg. 649 se escribe la solución como:
b 0 ; creo que debería escribirse como b a0 .
La primera interpretación probabilística de mínimos cuadrados fue prop-
uesta por Gauss en 1809. Sostuvo que para una sucesión de T variables
aleatorias independientes y1 ; y2 ; :::; yt , cuyas funciones de densidad f (yt ) sat-
isfacen ciertas condiciones de regularidad, si la media aritmética y es la com-
binación más probable de todos los valores de las variables aleatorias y cada
2
T 1, entonces para algún > 0 (véase Heyde y Seneta (1977)) su función
de densidad es Normal:
2
1 1
f (yt ) = 2 2
exp y2
2 t
.
2
Utilizando este argumento, Gauss iba refundar el argumento de aproxi-
mación por mínimos cuadrados en la forma probabilística siguiente:
Xk
2
yt = ai i (xt ) + t , t ~N IID 0; , t = 1; 2; :::; T .
i=0
y 0 (x) ; 1 (x) ; :::; k (x) son funciones conocidas de x; NIID signi…ca

Normal, Independientes e Idénticamente Distribuidas.
Un argumento más convincente para el uso de la distribución Normal de
los errores fue proporcionada por Laplace en 1812 en la forma de la ley de
los errores; conocida como el Teorema Central del Límite (véase el capítulo
9). La idea era que en los casos en que los errores representan la suma
de varios factores que in‡uyen, que individualmente no dominan la suma, la
distribución de la suma se aproxima a la normal, cuando el número de factores
que in‡uyen aumenta a in…nito. Laplace también señaló que la mínimización
de:
XT
(yt h (xt ))2 ,
t=1
es equivalente de la maximización del logaritmo de la distribución con-

junta de los errores:
T 1 XT
In f ( 1 ; 2 ; :::; T) = In 2 2
2
(yt h (xt ))2 .
2 2 t=1
Esta idea puede ser vista como un precursor del método conocido hoy
como el método de máxima verosimilitud (ver más adelante).
En términos de propiedades de muestra …nita de los estimadores de
mínimos cuadrados, el resultado el resultado más célebre es el teorema de
Gauss-Markov discutido enseguida.
9.3.2 Teorema de Gauss-Markov.

Sea la relación estadística entre yt y las xit :
Xk
yt = ai i (xt ) + t , t = 1; 2; :::; T ,
i=0
donde 0 (x) ; 1 (x) ; :::; k (x) son funciones conocidas de x. Bajo los
supuestos:
(i) E ( t ) = 0, t = 1; 2; :::; T ,
2
, t 6= s
(ii) Cov ( t ; s ) = t; s = 1; 2; :::; T; ,
0, t = s
0 (x) ; 1 (x) ; :::; k (x) son funciones linealmente independientes (en el
sentido matemático) de x,
podemos deducir que los estimadores de mínimos cuadrados:
XT
b
ai = t (i) yt , i = 0; 1; 2; :::; k, (13.1)
t=1
(donde t (i) son funciones de 0 (x) ; 1 (x) ; :::; k (x)) son:

`
a) mejores (relativamente e…ciente): V ar (b
ai ) V ar ai , para cualquier
`
otro estimador lineal ai que sea también insesgado,
(b) funciones lineales de (y1 ; y2 ; :::; yt ),
(c) estimadores insesgados de ai : E (b ai ) = ai , i = 0; 1; 2; :::; k.
Es decir, los estimadores de mínimos cuadrados (13.1) son los mejores,
dentro de la clase de los estimadores lineales (en términos de yt ) e insesgados
(MELI).
NOTAS:
(a) No hay ninguna hipótesis de distribución involucrada en las especi-
…caciones anteriores y por lo tanto no podemos considerar la cuestión de la
e…ciencia completa.
(b) El teorema de Gauss-Markov depende fundamentalmente de la lineali-
dad del MG estadístico en términos de los parámetros desconocidos (a0 ; a1 ; a2 ; :::; ak ).
Por otra parte, la linealidad de la regresión lineal/Normal, discutida en el
capítulo 7, es con respecto a las variables condicionantes.
(c) El teorema de Gauss-Markov es útil en los casos en los que sólo quer-
emos tener en cuenta los estimadores que son lineales en yt . Si permitimos
que los estimadores no sean lineales en yt podemos hacer mucho más que
estimadores de mínimos cuadrados (ver Judge et al. (1988)).
Propiedades asintóticas
Se puede mostrar que b a1 es consistente y asintóticamente normal bajo
XT
ciertas restricciones sobre el comportamiento de x2t cuando T ! 1.
t=1
En particular:
XT P
(i) x2t ! 1 cuando T ! 1 implica b
a1 ! a1 .
t=1
XT p
(ii) lim x2t = qx implica T (b
a1 a1 ) ~N (0; 2
[1=qx ]).
T !1 t=1 a
Antes de proceder a una interpretación más estadística del método de
los mínimos cuadrados, es importante destacar que a pesar de la introduc-
ción de terminologías probabilísticas, tales como distribuciones y medias, el
método, como se describió anteriormente, es esencialmente uno de aprox-
imación matemática. Además, su interpretación probabilística no es tan
robusta ante cambios en el supuesto de distribución de Normalidad como a
menudo se supone (véase Pearson (1920)).
9.3.3 El método estadístico de mínimos cuadrados

El propósito de esta sección es el de reinterpretar el método de mínimos
cuadrados como método de estimación general en el contexto de la especi…-
cación del modelo estadístico dado en el capítulo 7. En particular, relacionar
el método de mínimos cuadrados con la especi…cación del Mecanismo Gen-
erador Estadístico (MG).
Como se ha dicho en el capítulo 7, el MG estadístico para los modelos
estadísticos en este libro se basan en el siguiente esquema de descomposición:
yt = E (yt jDt ) + ut , t 2 T (13.2)

donde yt es una variable aleatoria tal que V ar (yt ) < 1. El objetivo prin-
cipal para el modelador es elegir Dt a …n de asegurar que no hay información
sistemática en los datos que se deje en el componente no sistemático (error)
ut . La idea es elegir Dt con el …n de minimizar el componente no sistemático
ut , que se de…ne como la parte no modelada de yt :
ut = y t E (yt jDt ) , t 2 T,
o de forma equivalente elegir Dt con el …n de maximizar el componente
sistemático:
ut = E (yt jDt ) , t 2 T.
Por construcción el error no es sistemático en relación con el conjunto de

información Dt , es decir,
(i) E (ut jDt ) = 0

; T 2 T: (13.3)
(ii) E ( t ut jDt ) = 0
(véase el capítulo 7). Sobre la base de los supuestos probabilísticos, el
componente sistemático tendrá una forma paramétrica, por ejemplo:
E (yt jDt ) = g (xt ; ) , t 2 T. (13.4)

El método de mínimos cuadrados se asegura de que las propiedades (13.3)
se cumplan por los componentes estimados sistemático y no sistemático. Esto
se consigue eligiendo el valor del parámetro desconocida , por ejemplo bM C ,
que minimiza la suma de los cuadrados de los errores fut , t = 1; 2; ::; T g.
Es decir, mínimos cuadrados sugiere minimizar la función absoluta (loss
function):
XT
l( ) = (yt g (xt ; ))2 ,
t=1
con respecto a . Para el valor bM C la función absoluta tiene su mínimo

en el punto:
XT 2
l b = yt g xt ; bM C ,
t=1
y los componentes estimados sistemático y no sistemático son:
bt = g xt ; bM C bt = yt
y u g xt ; bM C .
La optimalidad de los estimadores de mínimos cuadrados se deriva del he-

cho de que las condiciones (13.3) son válidas para los componentes estimados
en el sentido de que:
1 XT 1 XT
bt = 0 y
u g xt ; bM C bt = 0.
u
T t=1 T t=1

El MG estadístico del modelo Bernoulli toma la forma:
Xi = E (Xi jDi ) + ui , i 2 N = f1; 2; 3; :::g ,

donde Di = fS; g (el conjunto no informativo) y, por lo tanto, E (Xi jDi ) =

E (Xi ) = 0. El método de mínimos cuadrados para la estimación de sobre
la base de la muestra (X1 ; X2 ; ::; Xn ) equivale a minimizar:
Xn
l( ) = (Xk )2 .
k=1
Del cálculo elemental sabemos que la forma más fácil de localizar el mín-
imo de una función diferenciable es resolver la condición de primer orden:
dl Xn Xn
= ( 2) (Xk ) = 0 para , que da como resultado: bM C = Xk .
d k=1 k=1
Xn 2
Sabemos que l bM C = Xk bM C es un mínimo de l ( )
k=1
= 2n > 0. bM C y u bM C
2
puesto que: dd 2l j =bM C bk = Xk cumple
con las propiedades:
1 Xn 1 XT b
bk = 0 y
u bt = 0,
MC u
T k=1 T t=1
puesto que:
Xn Xn Xn Xn
Xk bM C = Xk nbM C = Xk Xk = 0
Xn h k=1 i k=1
Xn
k=1 k=1
bM C Xk bM C = bM C Xk bM C = 0.
k=1 k=1
NÓTESE que el estimador de mínimos cuadrados de coincide con el es-

timador propuesto por el principio de los momentos coincidentes y comparte
las mismas propiedades óptimas: insesgado, plenamente e…ciente consistente
y asintóticamente normal.
El MG estadístico del modelo Normal tiene la misma forma:
Xt = + ut , t 2 N,
y por lo tanto el método de mínimos cuadrados para estimar sobre la
base de la muestra (X1 ; X2 ; ::; Xn ) equivale a minimizar:
Xn
l( ) = (Xk )2 .
k=1
Xn
dl
Resolviendo la condición de primer orden d
= ( 2) (Xk )=0
k=1
para da como resultado:
XT
bM C = Xt :
t=1
Como en el caso Bernoulli bM C yb ut = (Xk bM C ) satisfacen los equiv-

alentes muestrales de las condiciones (13.3). Una vez más, el estimador de
mínimos cuadrados de coincide con el estimador sugerido por el principio
de los momento coincidentes y goza de las mismas propiedades óptimas como
insesgamiento, e…ciencia completa, consistencia y Normalidad asintótica (ver
capítulo 12). El método de mínimos cuadrados no sugiere un estimador de 2 ,
pero la intuición sugiere que podemos usar el mínimo de la función objetivo
l ( ) para de…nir el siguiente estimador de 2 :
1 XT
b2 = (Xt bM C )2 .
T t=1
Este es también el estimador propuesto por el principio de los momen-

tos coincidentes. Como se muestra en el capítulo anterior, la distribución
muestral de b2 toma la forma:
T b2 XT Xt b
2
2
2
= ~ (n 1) .
t=1
y por lo tanto b2 es un estimador sesgado de 2 puesto que E b2 =

(T 1) 2
T
6= 2 . Debido a este sesgo, el estimador de alternativo:
1 XT
s2 = (Xt bM C )2 ~ 2
(n 1) ,
T 1 t=1
se utiliza a menudo en la práctica (ver la discusión en el capítulo 12).
9.3.4 Propiedades de estimadores de mínimos cuadra-

dos
En la anterior interpretación estadística de mínimos cuadrados, está claro que
las propiedades de muestra …nita de los estimadores de mínimos cuadrados
dependen fundamentalmente de los supuestos probabilísticos sobre la variable
aleatoria yt y el conjunto de información condicionante Dt . En vista de ello,
los únicos resultados generales de optimalidad para los estimadores mínimos
9.4. EL MÉTODO DE MOMENTOS 487
cuadrados son asintóticos. Bajo ciertas condiciones de regularidad y en vista

del hecho de que los componentes estimados sistemático y no sistemático:
bt = g xt ; bM C bt = yt
y u g xt ; bM C ,
respectivamente, satisfacen las condiciones de ortogonalidad:
1 XT 1 XT h i
bt = 0 y
u g xt ; bM C bt = 0,
u
T t=1 T t=1
podemos demostrar que el estimador de mínimos cuadrados bM C de , es a

la vez consistente y asintóticamente Normal. Las condiciones de regularidad
se re…eren a la función g(xt ; ), garantizando la existencia y unicidad del
estimador de mínimos cuadrados bM C como una solución a la minimización
de la función absoluta:
Xn
l( ) = (yk g (xt ; ))2 .
k=1
En particular, en el caso de una muestra independiente:

P
bM C ! ,
y:
p
T bM C ~N (0; V1 ( )) ,
a
pero bM C no es necesariamente asitóticamente e…ciente.
9.4 El método de momentos

El método de momentos fue propuesto originalmente en 1895 por Karl Pear-
son en el contexto de lo que hoy llamamos (so…sticado) estadística descriptiva.
El método original fue propuesto como un método de especi…cación y de es-
timación, pero más tarde (en la década de 1920) fue adaptado simplemente
como un método de estimación en el contexto de la inferencia estadística mod-
erna. Para entender las limitaciones del método en este último contexto, es
aconsejable considerar el método en el contexto originalmente concebido. El
enfoque actual a la inferencia estadística sustituye la estadística descriptiva
sólo de forma gradual y en cierta medida, este cambio pasó desapercibido.
El cambio de paradigmas de la estadística descriptiva a la inferencia estadís-

tica propiamente estaba en marcha en la década de 1910 pero no se terminó
hasta mediados de 1930. La confusión entre los momentos de la distribu-
ción y muestrales en la literatura estadística del primer trimestre del siglo
20 da testimonio del hecho de que el cambio de paradigmas no era ni obvio
ni claro para muchos participantes. Karl Pearson murió en 1936 sin darse
cuenta de que su método era inferior al método de máxima verosimilitud,
principalmente porque fue desarrollado para un enfoque muy diferente a la
estadística; un enfoque para el cual el método de máxima verosimilitud fue
inútil.
9.4.1 Método de momentos de Pearson

La estadística descriptiva, como una aproximación al modelado de datos,
procede a partir de los datos y utilizando técnicas como el histograma busca
un resumen parsimonioso de los datos en términos de una curva de frecuen-
cia: un modelo descriptivo.Cuando Pearson propuso su método de momentos
la idea era que el modelador utilizara los momentos crudos de los datos para
elegir la curva de frecuencia más apropiada de una familia especí…ca, la fa-
milia Pearson. Esto es muy diferente del enfoque clásico de la estadística
donde un modelo estadístico (un mecanismo aleatorio) se postula a priori
y los datos observados se interpretan como una realización del mecanismo
aleatorio postulado.
El enfoque de Pearson a la estadística se puede resumir como se muestra
en la …gura 13.2.
Figura 13. 2. El método de momentos de Person
La familia Pearson de curvas de frecuencia se puede expresar en

términos de la siguiente ecuación diferencial en cuatro parámetros descono-
cidos:
df (x) (x a)
= f (x) .
dx b0 + b1 x + b2 x 2
Dependiendo de los valores tomados por los parámetros (a; b0 ; b1 ; b2 ), esta

ecuación puede generar numerosas curvas de frecuencia, como la Normal, la
t de Student, la Beta, la Gamma, la Laplace y la Pareto; en el contexto de la
probabilidad moderna ellas se conocen como funciones de densidad. Pearson
invento esta familia de curvas de frecuencia al observar que la función de
densidad normal (x) satisface la siguiente ecuación diferencial:
d (x) (x a) 2
= (x) , donde =ay = b0 .
dx b0
Usando las correspondientes ecuaciones en diferencia asociadas con las
distribuciones Binomial e hipergeométrica, pasó a extender esto a la ecuación
diferencial (13.5).
En el contexto de la teoría de la probabilidad, hemos visto que podemos
relacionar los parámetros desconocidos, por ejemplo ( 1 ; 2 ; 3 ; 4 ), con los
momentos de una función de densidad dada f (x; 1 ; 2 ; 3 ; 4 ) (véase el capí-
tulo 3) a través de:
Z
0
r ( 1; 2; 3; 4) = xr f (x; 1 ; 2 ; 3 ; 4 ) dx, para r = 1; 2; :::
x2RX
Al interpretar las curvas de frecuencia como funciones de densidad, se

puede adaptar la relación anterior en conjunción con la ecuación diferencial
(13.5) para relacionar la familia Pearson con los momentos crudos mediante
la integración de ambos lados:
Z Z
r 2
x b0 + b1 x + b2 x df = xr f (x a) f (x) dx, para r = 1; 2; :::
x2RX x2RX
Reuniendo los términos de la misma potencia en x, obtenemos la siguiente

relación recursiva entre los momentos y los parámetros (véase Stuart y Ord
(1991)):
0 0 0
kb0 k 1 + f(k + 1) b1 ag k + f(k + 2) b2 + 1g k+1 = 0, k = 1; 2; :::
De esto podemos ver que primeros cuatro momentos 01 , 02 , 03 y 04 son

su…cientes para seleccionar la f (x) particular de la familia Pearson a través
de las cuatro primeras ecuaciones:
0
(b1 a) + 2 (b2 + 1) 1 = 0
b0 + (2b1 a) 01 + 3 (b2 + 1) 0
2 = 0
2b0 01 + (3b1 a) 02 + 4 (b2 + 1) 0
3 = 0
3b0 02 + (4b1 a) 03 + 5 (b2 + 1) 0
4 = 0.
Pearson propuso sustituir los cuatro primeros cuatro momentos crudos

de los datos b01 , b02 , b03 y b04 , en el sistema anterior y resolverlo para los
parámetros (a; b0 ; b1 ; b2 ). La solución a estas ecuaciones se ocuparía de los
dos problemas simultáneamente:
(a) especi…cación: la elección de un modelo descriptivo (una curva de
frecuencia), sobre la base de los valores particulares de b01 , b02 , b03 y b04 y
(b) estimación: la atribución de valores numéricos a los parámetros de-
sconocidos (a; b0 ; b1 ; b2 ). Por ejemplo, en el caso de que los valores numéricos
obtenidos de los parámetros fueran: b0 < 0, b1 ' 0 y b2 ' 0, los datos
sugieren que el modelo descriptivo más apropiado, entre los de la familia
Pearson, es la curva de frecuencia Normal.
Es instructivo ver el anterior procedimiento en el contexto de la inferencia
estadística clásica, donde el modelo estadístico se elige a priori y los datos son
vistos como una realización del mecanismo aleatorio descrito por el modelo
postulado. La primera diferencia importante entre los dos enfoques es que no
hay ningún argumento inductivo integrado en el enfoque de Pearson, que es
esencialmente uno de estadística descriptiva. En segundo lugar, el enfoque de
Pearson parece ignorar el concepto de modelo muestral. En efecto, el enfoque
involucra el supuesto implícito de que los datos constituyen una realización de
una muestra aleatoria. En otras palabras, sólo considera modelos estadísticos
simples. La tercera limitación importante del enfoque de Pearson es que la
familia de modelos descriptivos se limita a los de la familia Pearson.
Además de ser importante desde el punto de vista histórico, el método
de Pearson de seleccionar una función de densidad utilizando los momentos
estimados es también de cierto interés en el contexto de la inferencia estadís-
tica, en los casos en que la distribución de muestra …nita de un estadístico es
desconocida y se sospecha que la distribución asintóticamente Normal induce
a error. En tales casos, podría ser de interés considerar ajustes de la familia
de Pearson con el …n de tener una idea sobre la naturaleza de la falta de
normalidad.
9.4.2 El método paramétrico de momentos

El método paramétrico de momentos (MPM) es una adaptación del método
anterior para su aplicación adecuada a la inferencia estadística. En este
último caso el modelo de probabilidad adecuado es elegido a priori y, por
lo tanto, el único papel que queda para el método de momentos es el de
estimar sus parámetros usando los momentos muestrales. Como se ha dicho
en el capítulo 3, la mejor manera de tratar los parámetros desconocidos es
relacionarlos con los momentos de la función de densidad de que se trate a
través de:
Z
0
r ( 1 ; 2 ; :::; k ) = xr f (x; 1 ; 2 ; :::; k ) dx, r = 1; 2; :::
x2RX
La idea detrás de la MPM es que coincidan los momentos poblacionales
crudos requeridos con sus momentos muestrales correspondientes:
1 XT
b0r = Xtr , t = 1; 2; 3.
T t=1
y resolver el resultante sistema de ecuaciones para los parámetros de-
sconocidos ( 1 ; 2 ; :::; k ).
En el caso del modelo Normal, tenemos dos parámetros desconocidos
:= ( ; 2 ) y por lo tanto necesitamos al menos dos momentos crudos. El
primer paso es obtener la relación entre estos parámetros y los momentos de
la población:
Z
0 2
r ; = xr f x; ; 2 dx, r = 1; 2.
x2RX
Considerando el hecho de que la función generatriz de momentos (fgm)

1 2 2
es: mx (t) = e t+ 2 t (ver capítulo 3), podemos deducir que:
0 dmx (t) 1 2 2 1 2
1 = jt=0 = e t+ 2 t + t jt=0 =
dt 2
" #
2
0 d2 mx (t) t+ 12 2 t2 1 2 t+ 12 2 t2 2 2 2
2 = jt=0 = e + t + e = + .
dt2 2
t=0
El segundo paso es igualar los momentos poblacionales y los muestrales y

resolver para los parámetros desconocidos, es decir,
1 XT 1 XT
b01 = Xt = , b02 = Xt2 = 2
+ 2
.
T t=1 T t=1
Resolviéndolas para y 2 x,
1 XT 1 XT
b= Xt = , b2 = (Xt b)2 .
T t=1 T t=1
De nuestra discusión anterior, sabemos que estos estimadores coinciden

con los estimadores sugeridos por el principio de momento coincidentes y el
método de mínimos cuadrados y disfrutan de varias propiedades óptimas.
En particular, b es un estimador insesgado, completamente e…ciente y con-
sistente de . b2 no es insesgado pero se puede transformar en un estimador
insesgado usando s2 = T T 1 b2 . s2 no es sólo insesgado, es también un esti-
mador relativamente e…ciente, consistente y asintóticamente Normal de 2 .
Ejemplo 4. Considere el modelo Gamma simple:
[i] MG estadístico: Xt = + ut , t 2 N,
( )
1
1 x x
= f (x; ) = exp ; := ( ; ) 2 R2+ ; x > 0 ,
( )
,
Tomando en cuenta el hecho de que la fgm es: mx (t) = (1 t) ,
podemos deducir que (ver capítulo 3):
dmx (t) h i
1
1 = jt=0 = ( ) (1 t) = .
dt t=0
d2 mx (t) h i
2 2 2
2 = jt=0 = ( + 1) (1 t) = ( + 1) ,
dt2 t=0
o forma equivalente E (X) = , V ar (X) = ( + 1) 2 . Por lo tanto,

los estimadores MPM se obtienen resolviendo el sistema de ecuaciones: b01 =
, b02 = ( + 1) 2 , resultando:
2
!
b= X b2
,b= ,
b2 X
XT XT 2
donde X = T1 Xt y b2 = T1 Xt X .
t=1 t=1
Ejemplo 5. Considere el modelo log-Normal simple:
[i] MG estadístico: Xt = + ut , t 2 N,
( ( ) )
2
1 In x
= f (x; ) = p exp 2
; := ( ; 2
), x > 0 ,
x 2 2

En este ejemplo va a poner de mani…esto la no invarianza del estimador
MPM a las transformaciones. Teniendo en cuenta las siguientes relaciones:
0 + 21 2 0 + 12 2 2
1 =e , 2 = e e ,
2
el camino más directo para obtener los estimadores MPM de := ( ; )
es resolver las siguientes ecuaciones para los parámetros desconocidos:
1 Xn 1 2 1 Xn + 12 2 2
Xk = e + 2 , Xk2 = e e .
n k=1 n k=1
Esto produce los siguientes estimadores:
8 9 8 9
>
> p h 1 XT i2 > XT
< T T Xt > = >
< 1
T
Xt2 >
=
b = In r t=1
, b2 = In h XT i2 > .
t=1
>
> X T >
> >
: 1 ;
: Xt2 ; T
Xt
t=1 t=1
Otra forma de obtener los estimadores de MPM de := ( ; 2 ) en este

caso es utilizar la información de que: E (In X) = , V ar (In X) = 2 , para
deducir los estimadores MPM alternativos:
1 XT 1 XT
b= Xt , b2 = (In Xt b)2 ,
T t=1 T t=1
que son de hecho muy diferentes de los anteriores.
Por último, es importante señalar que los estimadores MPM no coinciden
con los estimadores sugeridos por el principio de los momentos coincidentes.
El contra ejemplo evidente es proporcionado por el modelo de regresión lineal,
discutido anteriormente, donde el método de momentos no se puede aplicar
directamente porque estamos tratando con momentos condicionales.
9.4.3 Propiedades de los estimadores MPM

En general, las únicas propiedades óptimas que los estimadores MPM disfru-
tan son asintóticas. Como se ha indicado anteriormente, en el caso de una
muestra aleatoria (X1 ; X2 ; :::; Xn ), los momentos muestrales crudos:
1 XT
b0r = Xtr , r = 1; 2; :::,
T t=1
son estimadores consistentes de los momentos poblacionales crudos (suponiendo

que existan), es decir,
P
b0r ! 0
r.
En el caso de que 0r ( 1 ; 2 ; :::; k ) sea una función bien comportada de

las s podemos deducir que para los estimadores MPM b := b1 ; b2 ; :::; bk ,
donde bi := bi b0 ; b0 ; :::; b0 , i = 1; 2; :::; k:
1 2 k
P p
bM P M ! y T bM P M ~N (0; V1 ( )) ,
a
pero estos estimadores no son necesariamente asintóticamente e…cientes.

La cuestión de las propiedades óptimas de los estimadores MPM frente
a las de los estimadores de máxima verosimilitud, discutida a continuación,
se remonta a la década de 1930. Fisher (1937) argumentó que el método de
momentos dio lugar a estimadores ine…cientes, salvo en los casos en que la
distribución en cuestión estaba cerca de la normal. Karl Pearson montó una
respuesta enérgica, pero perdió el argumento porque no se dio cuenta de que
Fisher había cambiado las reglas del juego de las de estadística descriptiva
(utilizar los datos para elegir un modelo descriptivo) a las de la inferencia
estadística (postular un modelo estadístico a priori y utilizar los datos para
estimar los parámetros de este modelo). Como se argumenta a continuación
el método de máxima verosimilitud está hecho a la medida para la inferen-
cia estadística, pero es completamente inútil en el contexto del enfoque de
Pearson. El hecho de que el método MPM a menudo da lugar a estimadores
menos e…cientes no debe resultar una sorpresa debido a que un vistazo a la
discusión anterior revela que el método no utiliza toda la información con-
tenida en el modelo postulado. A partir del modelo de probabilidad utiliza
sólo la parte de la información referente a algunos de los momentos de la
densidad postulada y es bien sabido que, la mayoría de las veces, conocer un
9.5. EL MÉTODO DE MÁXIMA VEROSIMILITUD 495
número …nito de momentos no es equivalente a conocer la distribución propia

(véase el capítulo 3).
9.5 El método de máxima verosimilitud

9.5.1 La función de verosimilitud
Como se mencionó en la introducción, el método de máxima verosimilitud
(MV) fue desarrollado especí…camente para el enfoque moderno de la infer-
encia estadística propuesto por Fisher (1912,1922 b, 1925a). Este enfoque
postula un modelo estadístico S := ( ; X) que tiene por objeto describir
(probabilísticamente) el mecanismo estocástico que dio origen a los datos
observados x := (x1 ; x2 ; :::; xn ). Como se muestra en la …gura 13.3, la in-
formación a priori en la forma del modelo estadístico es encapsulada por la
distribución de la muestra X := (X1 ; X2 ; :::; Xn ):
D (X1 ; X2 ; :::; Xn ; ) ,
la distribución conjunta de las variables aleatorias que conforman la mues-
tra.
NOTACIÓN: para subrayar la diferencia entre la muestra y la realización
de la muestra, se usa la notación D (X1 ; X2 ; :::; Xn ; ) y no la notación
f (x1 ; x2 ; :::; xn ; ) utilizada en los capítulos anteriores.
Figura 13.3. La aproximación clásica a la inferencia estadística
El método de verosimilitud, visualizando los datos observados x como

una realización de la muestra, de…ne a la función de verosimilitud como
proporcional a la distribución de la muestra, pero interpretada como una

función de :
L ( ;x1 ; x2 ; :::; xn ) / D (X1 ; X2 ; :::; Xn ; ) .

En este sentido, la función de verosimilitud evalúa la posibilidad, asociada
con los diferentes valores de , de que han sido los verdaderos parámetros
del mecanismo estocástico los que dieron lugar a la realización muestral par-
ticular x. NOTE que la proporcionalidad es importante para propósitos
matemáticos porque L ( ;x1 ; x2 ; :::; xn ) se interpreta como una función de ,
pero D (X1 ; X2 ; :::; Xn ; ) es una función de X y por lo general tienen di-
mensiones muy diferentes. Una forma equivalente de de…nir la función de
verosimilitud es:
L ( ;x1 ; x2 ; :::; xn ) := k (x) D (X1 ; X2 ; :::; Xn ; ) ,

donde k (x) sólo depende de la realización de la muestra x y no de .
Formalmente, la función de verosimilitud viene de…nida por:
L (:; x) := ! [0; 1),

y por lo tanto la verosimiltud no se podría interpretar como la asignación
de probabilidades a .
El hecho de que el método de máxima verosimilitud esté hecho a la me-
dida para el enfoque moderno a la inferencia estadística se puede ver en el
diagrama. 13.3, donde la distribución de la muestra se de…ne a …n de in-
corporar toda la información relevante contenida en el modelo estadístico
postulado. Esto está en contraste con el método paramétrico de momentos
donde sólo la información referida a los momentos de f (x; ) es utilizada.
En un intento por proporcionar una cierta comprensión intuitiva del con-
cepto de función de verosimilitud, consideremos el siguiente ejemplo.
En el caso del modelo Bernoulli, la distribución muestral toma la forma:
Xn Xn
Y
n Y
n
1 xk xk (1 xk )
xk
D (X1 ; X2 ; :::; Xn ; ) = f (xk ; ) = (1 ) = k=1 (1 ) k=1 .
k=1 k=1
La primera igualdad se deduce del supuesto de muestreo de una muestra

aleatoria (variables aleatorias IID) y la segunda del supuesto de probabilidad
de que las Xk s se distribuyen Bernoulli. La función de verosimilitud viene

de…nida por:
Xn Xn
xk (1 xk )
L ( ; x) / k=1 (1 ) k=1 .
En la …gura 13.4 la función de verosimilitud L ( ; x) se muestra en el
caso en que k (x) = 1000 (elegido para evitar números muy pequeños) y la
realización muestral es:
x := (0; 0; 0; 1; 0; 0; 1; 0; 0; 1) .
Como podemos ver, L ( ; x) es una función continua de , en contraste
con
XnD (x; ) que es una función discreta de x o de forma equivalente yn =
xk .
k=1
Figura 13.4. Una función de verosimilitud
9.5.2 Estimadores de máxima verosimilitud

Con el …n de poder obtener resultados con cierta generalidad limitamos la
discusión a los modelos estadísticos regulares que cumplen las restricciones
Rf1-TRf4 que aseguran la existencia de la información de Fisher (ver capí-
tulo 12). La medida en que estas condiciones de regularidad restringen los
modelos de probabilidad se ha discutido en el capítulo anterior; ver Gourier-
oux y Monfort (1995) para más detalles.
Por simplicidad de exposición y conveniencia de notación, vamos a con-
siderar el caso en que es un escalar. La estimación de máxima verosimilitud
signi…ca encontrar el valor particular b = h (x) que maximiza la función de

verosimilitud, es decir,
L b; x = maxL b; x .
2
b = h (X) se conoce como el estimador de máxima verosimilitud

(EMV) de y b = h (x) como la estimación de máxima verosimilitud. Hay
varias cosas a destacar en esta de…nición:
(a) el EMV puede no existir,
(b) el EMV puede no ser único,
(c) el EMV pueden no tener una expresión de forma cerrada b = h (x).
A pesar de los casos patológicos para los que la existencia y unicidad
del EMV no está garantizada (Gourieroux y Monfort (1995)), en la inmensa
mayoría de los casos en la práctica b existe y es único.
A …n de reducir los casos patológicos para los que b puede no existir a
menudo restringimos nuestra discusión a los casos en los que:
Rf5. L (:; x) := ! [0; 1), es continua en todos los puntos 2 .
Además, en un intento por reducir los casos patológicos para los que b
puede no ser única, restringimos nuestro análisis a los casos en que b es
identi…cable:
Rf5. Para todo 1 6= 2 donde 1 2 , 2 2 , f (x; 1 ) 6= f (x; 1 ),
x 2 RnX M .
En el caso donde la función de verosimilitud es diferenciable, se puede
encontrar el máximo diferenciando L ( ; x). El EMV se obtiene mediante la
resolución de las condiciones de primer orden:
dL ( ; x) d2 L ( ; x)
= g bM V = 0, dado que j =bM V < 0.
d d 2
A menudo, es preferible máximizar la función de log-verosimilitud en su
lugar, porque tienen el mismo máximo (el logaritmo es una transformación
monótona):
dInL ( ; x) 1 dL ( ; x) 1
= l bM V = = g bM V = 0, dado L 6= 0.
d l d l
En el caso del modelo Bernoulli la función de verosimilitud es:
Xn Xn
InL ( ; x) = const + xk In + (1 xk ) In (1 ),
k=1 k=1
donde const representa la constante de proportionalidad. Diferenciando

la función de log-verosimilitud con respecto a resulta:
d 1 Xn 1 Xn
InL ( ; x) = xk (1 xk ) = 0,
d k=1 1 k=1
o bien
Xn Xn 1 Xn
xk 1 b =b n xk ) bM V = Xi .
k=1 k=1 n i=1
NOTA. En Spanos Xn p. 663, la suma después de la primeraXn igual-

dad está escrita xk ; creo que debería escribirse xk .
i=1 k=1
Como podemos ver, el estimador de máxima verosimilitud (EMV) coin-
cide con el estimador propuesto por los tres métodos anteriores, el principio
de los momentos coincidentes, mínimos cuadrados y el método paramétrico
de momentos (MPM). Podemos asegurar que en efecto esto es un máximo,
considerando b b
Xn la segunda derivada evaluada en = M V . Puesto que M V > 0
yn > xi podemos deducir que bM V de…ne un máximo ya que la
i=1
condición de segundo orden evaluada en bM V es negativa:
" #
d2 1 Xn 1
2 Xn
InL ( ; x) = xk (1 xk ) < 0.
d 2 2 k=1 1 k=1
=bEM V
La función puntuación (score function)

La cantidad dd InL ( ; x) se encontró en el capítulo 12 en relación a la
e…ciencia completa, pero en ese momento utilizamos el log de la distribución
de la muestra Inf (x; ) en lugar de InL ( ; x) para de…nir la información
de Fisher:
( )
2
@ In f (x; )
In ( ) := E (13.6)
@
En términos de la función logaritmo de verosimilitud la desigualdad de

Cramer-Rao toma la forma:
" ( )# 1
2
@ In f (x; )
V ar b E , (13.7)
@
para cualquier estimador insesgado b de .

La función s ( ; X) := dd InL ( ; X), cuando se ve como una función de X,
se llama función puntuación y goza de las siguientes propiedades:
(sc1) E [s ( ; X)] = 0,
d2
(sc2) V ar [s ( ; X)] = E [s ( ; X)]2 = E d 2
InL ( ; X) := In ( ).
Como se muestra en el capítulo anterior, un estimador insesgado b de
alcanza la cota mínima de Cramer-Rao si y sólo si b puede expresarse
en la forma:
b = h ( ) s ( ; X)
para alguna función h ( ).

En el caso del modelo Bernoulli la función puntuación toma la forma:
d 1 Xn 1 Xn
s ( ; X) := InL ( ; X) = Xk (1 Xk ) .
d k=1 1 k=1
Tomando en cuenta el hecho de que:
bM V (1 )
= s ( ; X) ,
n
Xn
podemos deducir que bM V = n1 Xi es de hecho completamente e…-
i=1
ciente. Esto se con…rma usando la información de Fisher:
d2 InL ( ; x) Xn 1 Xn 1
2
= Xi (1 Xi ) .
d 2 i=1 2 i=1 1
d2 InL ( ; x) n (1 )
E = ) CR ( ) = .
d 2 (1 ) n
Caso de un solo parámetro

Ejemplo 6. Considere el modelo exponencial simple:
[i] MG estadístico: Xt = + uk , k 2 N,
[ii] Modelo de probabilidad: = f (x; ) = 1 exp x
; > 0; x > 0 ,
La distribución de la muestra toma la forma:
Y
n Y
n
1 1 1
n
1 Xn
D (X1 ; X2 ; :::; Xn ; ) = f (xk ; ) = exp xk = exp xk ,
k=1
k=1 k=1
y por lo tanto la función de log-verosimilitud es:
1 Xn
InL ( ; x) = const nIn xk ,
k=1
d n 1 Xn 1 Xn
InL ( ; X) = + 2 xk = 0 ) bM V = Xk .
d k=1 n k=1
Considerando el hecho de que E (Xt ) = , este estimador coincide con los

estimadores sugeridos por el principio de los momentos coincidente, el método
paramétrico de momentos, así como el método de mínimos cuadrados. La
condición de segundo orden:
d2 n 2
InL ( ; x) = < 0,
d 2 2 3
=bM V
asegura que L b; x es un máximo y no mínimo o un punto de in‡exión.

Usando la segunda derivada de la función log-verosimilitud podemos obtener
la información de Fisher:
d2 n
In ( ) := E InL ( ; x) =
d 2 2
9.5.3 Caso multiparámetros

En el caso donde contiene más de un parámetro, por ejemplo := ( 1 ; 2 ),
las condiciones de primer orden para los EMV adoptan la forma de un sistema
de ecuaciones:
@InL ( ; x) @InL ( ; x)
= 0, = 0,
@ 1 @ 2
que necesita ser resuelto simultáneamente a …n de obtener los EMV.
En el caso del modelo Normal, el supuesto de muestra aleatoria implica
que la función de verosimilitud tiene la forma:
Y
n
1 1 2 1
n
1 Xn
2
L ; ;x / p exp 2
(xk ) = p exp 2
(xk )
k=1
2 2 2 2 k=1
La función de log-verosimilitud es:

n 1 Xn
In L ; 2
In 2
; x = const 2
(xk )2 .
2 2 k=1
Por lo tanto, podemos obtener los EMV de y 2 mediante las condiciones

de primer orden:
@InL ( ; x) 1 Xn
= ( 2)
(xk ) = 0,
@ 2 2 k=1
@InL ( ; x) n 1 Xn
= + (xk ) = 0.
@ 2 2 2 2 4 k=1
2
Al resolver este sistema para y resulta:
1 Xn 1 Xn
bM V = Xk y b2M V = (Xk bM V )2 .
n k=1 n k=1
Una vez más, los EMV coinciden con los estimadores sugeridos por los
otros tres métodos. InL b; x para b := b; b2 es de hecho un máximo ya
que las segundas derivadas en = b toman los siguientes signos:
@ 2 InL ( ; x) n n
j =bEM V = j =bEM V = < 0,
@ 2 2
b2
@ 2 InL ( ; x) 1 Xn
j =bEM V = (xk )j =bEM V = 0,
@ 2@ 4 k=1
@ 2 InL ( ; x) n 1 Xn n2
j =bEM V = (xk )2 j =bEM V = < 0,
@ 4 2 4 6 k=1 b6
y entonces
@ 2 InL ( ; x) @ 2 InL ( ; x) @ 2 InL ( ; x)

j =bEM V > 0.
@ 2 @ 4 @ 2@
Por el modelo Normal simple las segundas derivadas de la función log-
verosimilitud y sus valores esperados son:
@ 2 InL ( ; x) n n @ 2 InL ( ; x) n
= = , E = 2,
@ 2 2
b2 @ 2
@ 2 InL ( ; x) 1 Xn 2
@ InL ( ; x)
= (xk ), E = 0,
@ 2@ 4 k=1 @ 2@
@ 2 InL ( ; x) n 1 Xn @ 2 InL ( ; x) n
= (xk )2 , E = 4.
@ 4 2 4 6 k=1 @ 4 2
Estos resultados sugieren que matriz de información de Fisher toma la
forma:
n
2 0
In ( ) := n .
0 2 4
Por lo tanto, las cotas inferiores de Cramer-Rao para cualesquiera esti-
madores insesgados de y 2 son (ver capítulo 12):
2 4
(a) CR( ) = n (b) CR( 2 ) = 2n .
Teniendo en cuenta el hecho de que (véase el capítulo 12):
2 2
(i) bM V ~N ; n , (ii) nbM2 V ~ 2 (n 1).
bM V es un estimador insesgado, e…ciente y consistente de , pero b2M V
no es insesgado, es, sin embargo, consistente y asintóticamente Normal y
asintóticamente e…ciente (véase el capítulo 12 para los detalles).
En este punto es importante hacer una digresión por unos segundos con
el …n de introducir un concepto a veces utilizado en lugar de la matriz de
información de Fisher. El concepto se llama la matriz de información
observada y se de…ne por:
@ 2 InL ( ; x)
Jn ( ) = .
@ @ 0
En el caso del modelo Normal simple esta matriz toma la forma:
Xn !
n 1
2 4 (xk )
Jn ( ) = Xn Xn
k=1 .
1
4 (xk ) n
2 4
+ 1
6 (xk )2
k=1 k=1
Como podemos ver que esto es mucho más fácil de evaluar porque no hay
esperanzas que deban tomarse.
Antes de que el lector llege a la conclusión errónea de que los tres métodos
de estimación proporcionan estimadores idénticos, consideremos el siguiente
ejemplo, donde EMV y los estimadores MPM son diferentes.
En el caso del modelo Gamma, la distribución de la muestra toma la
forma:
Y
n Y
n
xk 1
xk
D (X1 ; X2 ; :::; Xn ; ; ) = f (xk ; ; ) = exp .
k=1 k=1
[ ]
La función log-verosimilitud con := ( ; ) toma la forma:
1 Xn Xn xk
InL ( ; x) = const nIn [ ] n In +( 1) 2
In xk ,
2 k=1 k=1
donde [ ] es la función Gamma (ver Apéndice A).
@InL ( ; x) n 1 Xn
= + 2 xk = 0,
@ k=1
@InL ( ; x) Xn
0
= n [ ] n In + In xk = 0,
@ k=1
donde 0 [z] := dz
d
In [z] se conoce como la función di-gamma (véase
Abramowitz y Stegum (1970)). XAl resolver la primera ecuación se obtiene:
n
b Xn 1
M V = b , donde X n = n Xk . Sustituyendo esto en la segunda
k=1
ecuación resulta:
0 X n Xn
l( ) = n [ ] n In + In Xk = 0, (13.9)
b k=1
que no pueden ser resueltas explícitamente para b ; pueden resolverse

numéricamente. Antes de considerar la cuestión de la evaluación numérica
vale la pena señalar que estos EMV son diferentes de los estimadores MPM
de y :
2
b Xn b2
MP M = , b MP M = ,
b2 Xn
obtenido en la sección anterior.
Evaluación numérica
Al igual que en el caso del modelo Gamma simple discutido anteriormente,
cuando se resuelven las condiciones de primer orden para EMV el modelador
a menudo tiene que utilizar métodos numéricos ya que ninguna expresión en
forma cerrada b = h (X) se puede obtener. El problema es entonces resolver
numéricamente la ecuación función puntuación:
l ( ) = 0,
que es una función no lineal de . Hay varios algoritmos numéricos que se
pueden utilizar para resolver este problema, que son apropiados para difer-
entes circunstancias. Uno de los algoritmos más simples y más utilizado es
el de Newton-Raphson, que podemos describir brevemente de la siguiente
manera.
Paso 1. Elija una solución inicial (tentativa): 0 .
Paso 2. El algoritmo de Newton-Raphson mejora esta solución eligiendo:
1 dl ( 0 )
1 = 0 [l0 ( 0 )] l ( 0 ) , donde l0 ( 0 ) =
.
d
Esto se basa en tomar una aproximación de primer orden de Taylor:
0
l ( 1) ' l ( 0) + ( 0 1) l ( 0)
igualándola a cero l ( 1 ) = 0 y resolviéndola para 1 . Esto proporciona
una aproximación cuadrática de la función l ( ).
Paso 3. Continuar iterando usando el algoritmo:
h i 1
bk+1 = bk l 0 b
k l bk , k = 1; 2; :::; N + 1,
hasta que la diferencia entre bk+1 y bk sea menor que un pequeño valor
preasignado , por ejemplo = 0:00001, es decir,
bN +1 bN < .
h i
NOTE que l0 bk es la información observada (matriz) encontrada
anteriormente.
Paso 4. El EMV se elige sea el valor bN +1 para el que: l0 bN +1 ' 0.
Como se puede ver, este algoritmo requiere la elección de una conjetura
inicial para el estimador que a menudo se elige sea el estimador de MPM.
Un algoritmo numérico relacionado, conocido como el método de pun-
tuación, sustituye l0 bk con la información de Fisher In ( ), siendo la justi-
…cación el resultado de convergencia:
1 0 b c:s:
l k ! In ( ) ,
n
dando el esquema de iteración:
bk+1 = bk 1h i 1
In bk l bk , k = 1; 2; :::; N + 1.
n
IMPORTANTE: resulta que todo lo que modelador tiene que hacer para
lograr estimadores asintóticamente e…cientes es usar cualquiera de los esque-
mas de iteración anteriores para una iteración! Una iteración es su…ciente
para la e…ciencia asintótica. Para una discusión extensa de estos algoritmos
numéricos utilizados en la econometría, veáse Gourieroux y Monfort (1995),
Hendry (1995) y Davidson y McKinnon (1993).
Ejemplo 7
Consideremos el modelo Logístico simple (un parámetro):
[i] MG estadístico: Xk = E (Xk ) +
n k , k 2 N, o
exp( (x ))
[ii] Modelo de probabilidad: = f (x; ) = [1+exp( (x ))]2
; 2 R > 0; x 2 R ,
La función de log-verosimilitud y las condiciones de primer orden son:
Xn Xn
InL ( ; x) = (xk ) 2 In [1 + exp ( (xk ))] ,
k=1 k=1
dInL ( ; x) Xn exp ( (xk ))

=n 2 = 0.
d k=1 [1 + exp ( (xk ))]
El EMV de se puede obtener utilizando el algoritmo de Newton-Raphson

con:
Xn exp ((xk ))
l0 ( ) = 2 ,
k=1 [1 + exp ((xk ))]2
y X n como un valor inicial para . Para efectos de comparación OB-
SERVEMOS que:
p 2 2 p
n Xn ~N 0; , donde = 3:2899 y n bEM V ~N (0; 3) .
a 3 3 a
Ejemplo 4. (continuación).
En el caso del modelo Gamma, los EMV de := ( ; ) puede ser
obtenidos a través del algoritmo de Newton-Raphson con:
00 1
!
0
( )
l ( )=n 1 2X n ,
3
2
donde 00 (z) = dz
d
2 In [z] se conoce como la función tri-gamma (véase
Abramowitz y Stegum (1970)). El método de puntuación simpli…ca esto a:
!
00
( ) 1
In ( ) = n 1 .
2
Ambos algoritmos numéricos requieren algunas estimaciones iniciales para

( ; ) para las que el modelador puede utilizar las estimaciones de MPM
(13.10). Usando el algoritmo de Newton-Raphson para evaluar (13.9) se
obtiene el esquema de iteración:
Xn
1 0
n
In Xk In X n [b k ] + In [b k ]
k=1
b k+1 = b k + 00 1 , k = 1; 2; :::.
[b k ] bk
Verosimilitud y la distancia de Kullback-Leibler*

Alguna intuición sobre lo tratan los EMV se puede obtener al considerar
la relación entre la función de log-verosimilitud y la distancia de Kullback-
Leibler (véase Kullback (1959)). Considere el modelo estadístico simple cuyo
modelo de probabilidad toma la forma:
= ff (x; ) = [p1 ( ) ; p2 ( ) ; :::; pm ( )] , que corresponde a [x1 ; x2 ; :::; xm ] , 2 g
Asumiendo que nk representa el número de Xi s que toman el valor xk , la

función log-verosimilitud promedio en este caso toma la forma:
1 Xn Xm nk
InL ( ; x) = In f (xk ; ) = In pk ( ) .
n k=1 k=1 n
La última expresión puede estar relacionada con la información de la
distancia de Kullback-Leibler entre dos densidades:
Z
f0 (x) f0 (x)
K (f0 ; f1 ) = E In = In f0 (x) dx,
f1 (x) x2RX f1 (x)
encontrada por primera vez en el capítulo 6, en relación a la medición de la
dependencia. Esta medida en el caso donde las dos distribuciones implicadas
son:
n1 n2 nm
fb(x) := ; ; :::; y f (x; ) := [p1 ( ) ; p2 ( ) ; :::; pm ( )] ,
n n n
toma la forma:
" (n ) #
Xm nk k Xm nk Xm nk nk
K fb; f = In n
= In pk ( )+ In .
k=1 n pk ( ) k=1 n k=1 n n
Teniendo en cuenta el hecho de que el último término es una constante,

esto sugiere que una manera equivalente a ver la deducción del EMV bM V
es minimizando la distancia de Kullback-Leibler. Intuitivamente, esto im-
plica que el EMV se obtiene minimizando la distancia entre el modelo de
probabilidad postulado y las frecuencias empíricas. Para los conocedores en
matemática esto se puede escribir de manera más formal en términos de la
distancia entre la función de distribución acumulada empírica y la fda pos-
tulada usando la integral de Riemann-Stieltjes (véase Stuart y Ord (1994)):
Z " #
dFb (x)
K Fb; F = In dFb (x) .
x2@ dF (x; )
Esta observación refuerza el caso que se argumentó en el capítulo 10 que

la función de distribución acumulada estimada proporciona el puente entre
la teoría de la probabilidad y la inferencia estadística.
Ejemplo
Por conveniencia del argumento asumamos que en el caso del modelo
Bernoulli, toma sólo dos valores, digamos = f0:2g [ f0:8g; en lugar del
habitual [0; 1]. Recordando que = P (X = 1): ¿Cuál es el valor probable
de que ha dado lugar a la realización muestal
x := (0; 0; 0; 1; 0; 0; 1; 0; 0; 1)?
Tomando en cuenta el hecho de que el evento X = 1, se ha producido

sólo en tres de los diez casos, la intuición sugiere que el verdadero valor de
es más probable que sea = 0:2 en lugar de = 0:8. En términos de la
3
distancia de Kullback-Leibler la frecuencia empírica 10 está mucho más cerca
de = 0:2 que de = 0:8.
9.5.4 Propiedades de los EMV

Propiedades de muestra …nita
Los estimadores de máxima verosimilitud no son insesgados en general
pero en su lugar disfrutan de una propiedad muy útil: que son invariantes
con respecto a parametrizaciones funcionales bien comportadas.
[1] Invarianza con respecto a parametrización
Para =g( ) una función bien comportada (Borel) de , el EMV de
viene dado por:
b = g bM V .
MV
En el caso del modelo Exponencial se especi…cado anteriormente, a
menudo estamos interesados en = 1 . A partir de esta propiedad del EMV
podemos deducir que el EMV de es:
bM V = 1 n
= Xm . (13.11)
bM V Xk
k=1
Con el …n de con…rmar esto vamos a expresar la función de densidad en

términos de decir:
f (x; ) = exp f xg ,
y obtenemos el EMV de mediante la maximización de la función log-
verosimilitud:
Xn
InL ( ; x) = const + n In xk .
k=1
Xn
Dado que @@ InL ( ; x) = n xk = 0, el resultado es (13.11).
k=1
Esta propiedad es particularmente útil en el contexto del enfoque defen-
dido en este libro, porque los parámetros teóricos de interés rara vez coinci-
den con los parámetros estadísticos y esta propiedad nos permite deducir los
EMV de los primeros. Tomando en cuenta el hecho de que, en general:
E bM V 6= g bM V ,
podemos pensar en el sesgo en algunos EMV como el precio que tenemos

que pagar por la propiedad invariancia. Por lo tanto, si bM V es un estimador
insesgado de , es decir, E bM V = , no hay ninguna razón para creer que
b va a ser un estimador insesgado de , en general E bM V 6= .
MV
[2] Insesgamiento - e…ciencia completa
En un modelo estadístico regular (véase el capítulo 12), si un estimador
insesgado, que también alcanza la cota mínima de Cramer-Rao, existe, por
ejemplo bU , entonces coincide con el estimador de máxima verosimilitud bM V ,
es decir, bU = bM V .
Ejemplo 8
Consideremos el modelo Poisson simple:
[i] MG estadístico: Xk = E (Xk ) + n k , k 2 N, o
x
e
[ii] Modelo de probabilidad: = f (x; ) = x!
; > 0; x 2 N0 = f0; 1; 2; :::g ,
Tomando en cuenta el hecho de que E (Xt ) = , podemos deducir que
el estimador
Xn propuesto por los tres últimos métodos de estimación sería:
bU = 1 Xk . Usando la linealidad de E (:) (ver capítulo 3) podemos
n k=1
demostrar que:
E bU = y V ar bU = .
n
De la distribución de la muestra:
Xn
Y
n Y
n
1 xk 1
xk n
D (X1 ; X2 ; :::; Xn ; ) = f (xk ; ) = e = k=1 e ,
k=1 k=1
xk ! xk !
podemos deducir la cota mínima de Cramer-Rao. Teniendo en cuenta:
d2 d 1 Xn 1 Xn
2 InL (x; ) = n+ Xk = 2 Xk .
d d k=1 k=1
d2 n
In ( ) = E InL (x; ) = ) CR ( ) = .
d 2 n
Esto sugiere que bU es a la vez insesgado y totalmente e…ciente. En vista
de la propiedad anterior de EMV, bU debe coincidir con el EMV de . Con
el …n de veri…car este resultado, vamos a obtener el EMV de . La condición
de primer orden:
d 1 Xn 1 Xn
InL (x; ) = n + Xk ) bM V = Xk .
d k=1 n k=1
Este, efectivamente, coincide con el estimador insesgado, completamente

e…ciente bU .
[3] Su…ciencia
Como se ha dicho en el capítulo 12, el concepto de estadístico su…ciente
se analiza mejor utilizando el teorema de Factorización.
Un estadístic h (X) se dice que es un estadístico su…ciente para si y sólo
si existen funciones g(h (X) ; ) y v (X), donde la primera depende de X sólo
a través de h (X), mientras que la última es libre de , de tal manera que la
distribución de la muestra se factoriza en el producto:
f (x; ) = g (h (X) ; ) v (X) , para todo x 2 X, 2 . (13.12)
Esto sugiere que si existe un estadístico su…ciente h (X), entonces el EMV

es una función de él porque:
L (x; ) = [k (X) v (X)] g (h (X) ; ) ,

y la maximización de la función de verosimilitud es equivalente a max-

imizar g(h (X) ; ), que depende de la muestra sólo a través del estadístico
su…ciente.
Propiedades asintóticas (muestra aleatoria)
Vamos a considerar las propiedades asintóticas de EMV en el caso de
muestra aleatoria simple cuando
In ( ) = nI ( ) . (13.13)
Con el …n de poder obtener resultados generales necesitamos imponer al-
gunas condiciones de regularidad, además de Rf1-Rf6 utilizadas hasta ahora.
Rf7. E (In f (x; )) existe,
c:s:
Rf8. n1 In L ( ; x) ! E (In f (x; )) para todo 2 .
[4] Consistencia
(a) Consistencia débil. Bajo estas condiciones de regularidad, los EMV
son débilmente consistentes, es decir:
c:s:
P lim bM V = = 1, denotado por: bM V ! .
n!1
Véase el capítulo 9 para una discusión acerca de estos dos distintos tipos
de convergencia.
[5] Normalidad asintótica
Para Normalidad asintótica de los EMV tenemos que asegurarnos de que,
además de las condiciones de regularidad Rf1-Rf6, mencionadas anterior-
mente, se cumplen las siguientes condiciones (Gourieroux y Monfort (1995)):
Rf9. La información de Fisher para una observación: 0 <I( ) < 1,
donde
!
2
dInf (x; ) d2 Inf (x; )
I ( ) := E =E ,
d d 2
Rf10. In L ( ; x) es dos veces diferenciable en un intervalo abierto alrede-
dor de .
Bajo las condiciones de regularidad Rf1-Rf10, los EMV son asintótica-
mente normales, es decir:
p
n bM V ~N (0; V1 ( ))
a
donde V1 ( ) denota la varianza asintótica de bM V .

[6] E…ciencia asintótica

Bajo las mismas condiciones de regularidad la varianza asintótica de los
estimadores de máxima verosimilitud alcanza la cota mínima asintótica de
Cramer-Rao, que, en vista de (3.13) toma la forma:
V1 bM V =I 1
( ).
Ejemplos
(1) El modelo Bernoulli. Los resultados anteriores en relación con este
modelo indican que:
p
n bM V ~N (0; (1 )) .
a
(2) El modelo Exponencial. Los resultados anteriores en relación con este

modelo indican que:
p
n bM V ~N 0; 2
.
a
3) El modelo Normal. A la vista de los resultados en (13.8) se puede

deducir que:
p p
n (bM V ) ~N 0; 2
, n b2M V ~N 0; 2 4
.
a a
Propiedades asintóticas (muestra no ID, pero independiente)

Las propiedades asintóticas anteriores necesitan modi…carse en cierta me-
dida en el caso de que la muestra sea independiente pero no idénticamente
distribuida. En este caso, la relación entre la información de observación
individual de Fisher I( ) y la información de Fisher de la muestra In ( ) no se
relacionan como en (13.13). En su lugar, las dos están relacionadas a través
de:
!
Xn dInf (xk ; )
2
In ( ) = Ik ( ) , donde Ik ( ) = E , (13.14)
k=1 d
debido a la independencia. Para que las anteriores propiedades se cum-

plan necesitamos imponer determinadas restricciones sobre In ( ). Estas re-
stricciones estarán relacionadas con su comportamiento asintótico y, en par-
ticular, su orden de magnitud (ver Spanos (1986), cap. 10). En términos
brutos estas condiciones equivalen a:
(1). lim In ( ) = 1,
n!1
(2). Existe una sucesión fcn g1
n=1 tal que
1
lim In ( ) = I1 ( ) donde 0 < I11 ( ) < 1.
n!1 c2n
La primera condición asegura consistencia y la segunda asegura Normal-
idad asintótica. La Normalidad asintótica en estas condiciones toma la
forma:
cn bM V ~N 0; I11 ( ) .
a
Considere el modelo de regresión lineal normal simple. Resulta que los
EMV de := ( 0 ; 1 ; 2 ) coinciden con los estimadores principio de momen-
tos coincidentes:
Xn Xn
1
(yk y) (xk x) 1 Xn n
(yk y) (xk
b0 = y b1 x, b1 = k=1
Xn , b2 = (yk y)2 k=1
Xn
(xk x)2 n k=1 1
(xk x)
k=1 n k=1
(13.15)
Para ver esto vamos a de…nir la función de verosimilitud:
Yn 1 1 2
2
L 0; 1; ;y / p exp 2
(yk 0 1 xk )
k=1 2 2
2 n
n 1 Xn 2
= (2 ) 2 exp 2
(yk 0 1 xk ) .
2 k=1
Como suele ser el caso, para localizar los EMV utilizamos la función log-
verosimilitud, que en el presente caso es:
n 2 1 Xn 2
InL ( ; y) = const In 2
(yk 0 1 xk ) .
2 2 k=1
Por lo tanto, al resolver las condiciones de primer orden:

@In L ( ; y) 1 Xn
= 2
( 2) (yk 0 1 xk ) = 0,
@ 0 2 k=1
@In L ( ; y) 1 Xn
= ( 2)
(yk 0 1 xk ) xk = 0,
@ 1 2 2 k=1
@In L ( ; y) n 1 Xn 2
= + (yk 0 1 xk ) = 0,
@ 2 2 2 2 4 k=1
tenemos los EMV (13.15). Para ver las di…cultades en relación con el
orden de magnitud de la matriz de información de Fisher la deducimos. Las
segundas derivadas y sus valores esperados producen:
@ 2 In L ( ; y) n @ 2 In L ( ; y) n
= , )E = 2,
@ 20 2
@ 02
@In L ( ; y) 1 Xn @In L ( ; y) 1 Xn
= x2k , )E = x2k ,
@ 21 2 k=1 @ 21 2 k=1
@ 2 In L ( ; y) 1 Xn @ 2 In L ( ; y) 1 Xn
= 2
xk , )E = 2 xk ,
@ 1@ 0 k=1 @ 1@ 0 k=1
@ 2 In L ( ; y) 1 Xn @ 2 In L ( ; y)
= uk , )E = 0,
@ 2@ 0 4 k=1 @ 2@ 0
@ 2 In L ( ; y) 1 Xn @ 2 In L ( ; y)
= uk xk , )E = 0,
@ 2@ 1 4 k=1 @ 2@ 1
@In L ( ; y) n 1 Xn @In L ( ; y) n
= u2k = 0, )E = 4,
@ 4 2 4 6 k=1 @ 4 2
donde ut = yt 0 1 xt . Por lo tanto, la matriz de información toma

la forma:
0 Xn 1
n 1
2 2 xk 0
2 B Xn Xk=1
n C
In 0; 1; =@ 1
2 xk 1
2 x2k 0 A (13.16)
k=1 k=1
n
0 0 2 4
Para la consistencia requerimos que esta matriz de información converja

a in…nito como en (1). Esto se logra si:
Xn
x2k ! 1.
k=1 n!1
Sin embargo, para la normalidad asintótica del estimador b1 el modelador

Xn
también necesita saber la tasa de convergencia de x2k con el …n de
k=1
de…nir la sucesión de normalización fcn g1
n=1 . A falta de dicha información él
o ella siempre pueden utilizar:
Xn 1 Xn
cn = x2k
2
) x2k b1 1 ~N 0; 2
.
k=1 k=1 a
@ 2 In L( ;y) T
NOTA. En Spanos, p. 674, dice E @ 20
= 2 ; creo debería
2
@ In L( ;y)
decir E @ 20
= n2 .
Propiedades asintóticas (muestra no aleatoria)*
En el caso de una muestra no aleatoria Xn := (X1 ; X2 ; :::; Xn ) la infor-
mación de Fisher no satisface (13.13) ni (13.14). La forma más sencilla de
obtener una forma comparable es a través del condicionamiento secuencial
utilizado en los capítulos 6-8 para muestras no aleatorias. Tomando en cuenta
el hecho de que:
Y
n
D (X1 ; X2 ; :::; Xn ; ) = D (X1 ; 1) Dk (Xk jXk 1 ; :::; X1 ; k) , X 2 @.
k=2
En los casos en que el índice de dependencia del parámetro pueda ser

restringido por la imposición de una cierta restricción de heterogeneidad,
cuya forma débil es: lim n = , la función de log-verosimilitud se puede
n!1
expresar en la forma:
Xn
InLn ( ; x) / In Dk (Xk jXk 1 ; :::; X1 ; ) , 2 ,
k=1
donde por k = 1 la distribución es marginal inicial D (X1 ; ). La función
puntuación toma la forma:
@ Xn @ Xn
sn ( ; x) = InLn ( ; x) = In Dk (Xk jXk 1 ; :::; X1 ; ) := uk ( ; x) , 2 .
@ k=1 @ k=1
Por lo tanto, viendo sk ( ; :) y uk ( ; :) como funciones de la historia

pasada de Xt+1 :
Xk := (X1 ; X2 ; :::; Xk ) ,
podemos deducir que para s0 ( ) = 0:
(i) uk ( ; Xk ) = X
sk ( ; Xk ) sk 1 ( ; Xk 1 ), k = 1; 2; :::; n,
n
(ii) sn ( ; X) = [sk ( ; Xk ) sk 1 ( ; Xk 1 )],
k=1
o de manera equivalente:
sk ( ; Xk ) = sk 1 ( ; Xk 1 ) + uk ( ; Xk ), k = 1; 2; :::; n.
Estos resultados sugieren que los procesos fsk ( ; Xk )g1 1
k=1 y fuk ( ; Xk )gk=1
son, respectivamente, un proceso martingala y un proceso de diferencia mar-
tingala con respecto a (Xk 1 ), ya que:
(iii) E (uk ( ; Xk ) j (Xk 1 )) = 0, k = 1; 2; :::; n,
(iv) E (sk ( ; Xk ) j (Xk 1 )) = sk 1 ( ; Xk 1 ), k = 1; 2; :::; n;
véase el capítulo 8. Además, fsk ( ; Xk )g1 k=1 es una martingala de media
cero debido a que:
E (sk ( ; Xk )) = E fE (sk ( ; Xk ) j (Xk 1 ))g = 0; k = 1; 2; :::; n,
con…rmando la propiedad sc1 de la función puntuación antes mencionada.

Dado que el EMV bM V es una raíz de la ecuación de la función puntuación
sn ( ; X) = 0 y fsk ( ; Xk ) , (Xk 1 )g1
k=1 es una martingala de media cero
que puede ser escrita como la suma:
Xn
sn ( ; X) = uk ( ; Xk ) ,
k=1
podemos usar los teoremas límite del capítulo 9 para probar tanto la
consistencia como la Normalidad asintótica. La forma más sencilla de ver
esto es de…nir el proceso (segundo orden) de información condicional:
Xn
n ( ; X) = E u2k ; Xk j (Xk 1 ) ,
k=1
que también es una martingala, porque el proceso de diferencia martingala

fuk ( ; Xk )g1
k=1 se comporta como un proceso no correlacionado (véase el
capítulo 8) NOEA que la información de Fisher es sólo la media de este
proceso, es decir:
In ( ) = E s2n ( ; X) = E n ( ; X) .
Bajo ciertas condiciones regularidad similares a las condiciones de la ma-

triz de información en el caso no ID, se puede demostrar que:
1
Xn c:s:
(a) [In ( )] uk ( ; Xk ) ! 0.
k=1 n!1
1 Xn D
(b) [In ( )] 2 uk ( ; Xk ) ! N (0; 1) .
k=1 n!1
Ejemplo 9
Consideremos el modelo autorregresivo Normal:
[i] MG estadístico: Xk = Xk 1 +(uk , k 2 N,
Y
n
[ii] Modelo de probabilidad: = f (x1 ; x2 ; :::; xn ; ) = f (x1 ; ) f (xk jxk 1 ; ) , 2( 1
t=2
p n o
1p 2 (1 2
) x2k 1 1 (xk xk 1)
2
f (x1 ; ) = 0 2
exp 2 2 , f (xk jxk 1 ; ) = 0
p
2
exp 2 2 ,
0 0
2 E(Xk 1 Xk ) 2 [E(Xk 1 Xk )]2

:=( ; 0 ), = E (Xk2 1 )
, 0 = E Xk2 1 E (Xk2 1 )
[iii] Modelo muestral: (X1 ; X2 ; :::; Xn ) es una muestra estacionaria depen-
diente Markov extraída secuencialmente de f (xk jxk 1 ; ), k 2 N.
La distribución de la muestra X := (X1 ; X2 ; :::; Xn ) se determina a través
de:
2
0
X1 ~N 0; 2
,
1
0 2 2 2
31
0 0 j j
Xk 0 1 2 1 2
~N @ ;4 2 2
5A ,
Xk 0 0
2
j j 0
2
1 1
k; = 1; 2; :::; n.
La función de log-verosimilitud toma la forma:
1 2 n 2 1 2
InL ( ; x) = In 1 In 0 2
d00 2 d01 + d11 ,
2 2 2 0
Xn i
di;j = xk xk+i j , i; j = 0; 1.
k=j+1
Las condiciones de primer orden son:
( @In L( ;x)
)
@ 20
= 2n2 + 2 1 4 fd00 2 d01 + 2
d11 g = 0
@In L( ;x)
0 0
d11 2d01 )
@
= (1 2) 2 20
= 0,
1
b20 = d00 2b d01 + b 2 d11 ,
n
n 1 n 2 d00
d11 b 3 + d01 b 2 d11 + b + d01 = 0.
n n n
La primera ecuación da el EMV de 2 , pero la segunda es una ecuación

cúbica con tres raíces, pero la única relevante es la raíz relacionada con el
intervalo (21,1). Aunque hay una solución de forma cerrada a esta ecuación
es muy complicada y a menudo se estima utilizando un algoritmo de aprox-
imación numérica, como el de Newton-Raphson descrito anteriormente.
La derivación se puede simpli…car de manera signi…cativa, dejando la
distribución de la observación fuera y obtener el EMV aproximado basado
en:
n 1 1 Xn
InL ( ; x) = In 2
0 2
(xk xk 1 )2 .
2 2 0
k=2
Por lo tanto, obtenemos los EMV aproximados resolviendo las condiciones

de primer orden:
Xn
@In L ( ; x) 1 Xn xk xk 1
= 2
(xk xk 1 ) xk 1 = 0, ) b = Xk=2
n ,
@ 0
k=1
x2k
k=2 1
@In L ( ; x) n 1 1 Xn 1 Xn
= + (xk xk 1 )2 = 0, ) b20 = (xk b xk 1 )2 ,
@ 20 2 20 2 4
0
k=2 n 1 k=2
@ 2 In L ( ; x) 1 X n @ In L ( ; x) 2
1 Xn
= 2
x2k 1 , ) E j (Xk 1 ) = 2 x2k 1 ,
@ 2 k=2
0 @ 2 0
k=2
@In L ( ; x) 1 Xn @In L ( ; x)
= (xk x k 1 ) xk 1 , ) E j (Xk 1 ) = 0,
@ 20 @ 4
0
k=2 @ 20 @
@In L ( ; x) n 1 1 Xn @In L ( ; x) n 1
= (xk xk 1 )2 = 0, ) E j (Xk 1 ) = .
@ 40 4
2 0 6
0
k=2 @ 04
2 40
La matriz de información condicional toma la forma:
Xn !
1
2 2 x2k 1 0
n ; 0; X = 0 k=2
n 1
0 2 40
que recuerda a una de la regresión lineal discutida anteriormente. Te-

niendo en cuenta que:
@ 2 In L ( ; x) 1 Xn 1 2
1
0
In ( ) = E E j (Xk 1 ) = 2
E x2k 1 = 2
= .
@ 2 0
k=2
0 1 2 1 2
Por lo tanto, podemos concluir que:

p p
n (b ) ~N 0; 1 2
, n b20 2
0 ~N 0; 2 4
0 .
a a
Heyde (1975) sugiere el uso de la información condicional para la normal-

ización:
r
Xn
x2k 1 (b ) ~N 0; 20 .
k=2 a
9.5.5 El método de máxima verosimilitud y sus críticos

Los resultados relativos a los EMV discutidos anteriormente justi…can la
amplia aceptación de la máxima verosimilitud (ML) como el método elegido
para los propósitos de estimación. Resulta que hay buenas razones para
que también el método ML se pre…era para propósitos de prueba (véase el
capítulo 14). A pesar de la amplia aceptación del método MV hay también
críticos que señalan varios ejemplos en los que el método no produce resulta-
dos satisfactorios. Estos ejemplos incluyen los casos en que (a) el tamaño de
la muestra es excesivamente pequeño, (b) las condiciones de regularidad no
se cumplen y (c) el modelo postulado está mal especi…cado. En cuanto a lo
que se re…ere a la primera categoría de ejemplos, investigando para un buen
estimador en los casos en que el tamaño de la muestra es excesivamente pe-
queño, la crítica está completamente fuera de lugar porque el modelador está
buscando el famoso almuerzo gratis. La crítica del método de MV basada en
ejemplos que no cumplen las condiciones de regularidad está también fuera
de lugar porque si el modelador busca métodos con cualquier caracter general
las condiciones de regularidad son inevitables. Sin condiciones de regulari-
dad cada problema de estimación será considerado único; ningún principios
uni…cador es posible. La tercera categoría merece más discusión, ya que

pone de mani…esto un problema importante en la modelación empírica. En
esta categoría clasi…camos todos los modelos estadísticos que especi…can los
parámetros desconocidos que, o bien crecen con el tamaño de la muestra
o bien se relacionan con alguna operación extrañamente impuesta tal como
truncamiento o censura de la muestra (véase Cohen (1991)). De esta última
categoría vamos a considerar el ejemplo por excelencia.
Ejemplo 10
Consideremos el modelo de Neyman y Scott (1948):
[i] MG estadístico: Xij = E (Xij ) (
+ ij , i 2 N, j 2 N, donde E (Xij ) = i , )
Y n YN
1 2
[ii] Modelo de probabilidad: = f (x; ) = p1 ef 2 2 (xij i) g
; 2Rn R+ , xij 2R ,
2
i=1 j=1
[iii] Modelo muestral: X := (X1 ; X2 ; :::; Xn ) es una muestra independi-
ente.
Los "EMV" se obtienen de la resolución de las condiciones de primer
orden:
8 XN 9
< @In L( ;x)
= 1
2 (Xij i) = 0
=
@ i
Xj=1
n XN )
: @In L( ;x)
= nM
+ 1
(Xij 2 ;
@ 2 2 2 2 4 i) = 0
i=1 j=1
1 XN 1 Xn XN 1 Xn 2
bi = Xij , 2
= (Xij bi )2 = si ,
N j=1 nN i=1 j=1 n i=1
XN
donde s2i := n1 (Xij bi )2 . El argumento comúnmente utilizado
j=1
contra el método de MV se basa en el resultado de que:
(N 1) c:s: (N 1)
E s2i = 2
,2
) b2 !
N N
y por lo tanto b2 es un estimador inconsistente de 2 .
Un momento de re‡exión, sin embargo, revela que el argumento de incon-
sistencia sobre la base de n ! 1, está mal pensado, porque al mismo tiempo,
el número de parámetros desconocidos ( 1 ; 2 ; :::; m ) aumenta hasta in…nito!
El modelador debe ser escéptico de cualquier método de estimación que pro-
porciona un estimador consistente de 2 sin imponer algunas restricciones
adicionales relativas a lo que ocurre con n cuando n ! 1. Consideramos el
hecho de que el método MV no proporciona estimadores óptimos en los casos

en los que el modelo estadístico está mal especi…cado como un argumento a
su favor, no en contra!
9.6 Ejercicios
1. Compare los dos primeros momentos crudos de la muestra y los momentos
centrales de la muestra en relación con los parámetros que pretenden estimar.
2. Compare mínimos cuadrados como método de aproximación matemática
y el método estadístico de mínimos cuadrados.
3. Compare y contraste el método de momentos de Pearson con el método
paramétrico de momentos.
4. Explique por qué constituye un anacronismo comparar el método de
máxima verosimilitud con el método paramétrico de momentos.
5. "La comparación de los estimadores de máxima verosimilitud y del
método paramétrico momentos por razones de e…ciencia no es un ejercicio
muy interesante." Discuta.
6. Describa los principales inconvenientes del método de Pearson para
deducir un modelo descriptivo.
7. Explique el principio de los momentos coincidentes y comparelo con el
método paramétrico de momentos.
8. Para el modelo estadístico Bernoulli obtenga el estimador de mínimos
cuadrados de , su distribución muestral y sus propiedades.
9. Considere el modelo estadísticoNormal simple.
(a) Obtenga los EMV de ( ; 2 ) y sus distribuciones muestrales.
(b) Obtenga los estimadores de mínimos cuadrados de ( ; 2 ) y sus
distribuciones muestrales.
(c) Compare estos estimadores en términos de las propiedades óptimas,
insesgamiento, e…cacia completa y consistencia.
10. Considere el modelo estadísticoNormal simple con = 0, es decir, el
modelo de probabilidad es:
1 1
= f (x; ) = p exp 2
x2 ; := 2
> 0, x2R .
2 2
Deducir el EMV de y compararlo con el estimador:

9.6. EJERCICIOS 523
1 Xn
e2 = Xk ,
n+2 k=1
en términos de su ECM.
11. Considere el modelo estadístico simple de Laplace basado en el modelo
de probabilidad:
1 1
jxj
= f (x; ) = e , > 0, x2R .
2
Deducir el EMV de y compararlo con los estimadores MPM y de míni-
mos cuadrados.
12. Consideremos el modelo estadístico simple de Pareto basado en el
modelo de probabilidad:
( +1)
= f (x; ) = x0 x ; > 0, x > x0 > 0, x2R .
13. Exponga las propiedades óptimas de los estimadores de máxima
verosimilitud (muestras …nitas y asintóticas).
14. Explique la diferencia entre:
(a) información de la muestra y de observación individual de Fisher,
(b) matrices de información y de información observada de Fisher,.
(c) matrices de información y de información condicional de Fisher.
15. "El método de máxima verosimilitud minimiza la distancia entre las
probabilidades teóricas y sus contrapartes empíricas según su de…nición por
la función de distribución acumulada empírica (fdae)." Discuta.
16* Obtenga el esquema iterativo para el método de puntuación en la
evaluación del EMV de las condiciones de primer orden en el caso del modelo
logístico simple.
17* Obtenga el esquema iterativo para el método de puntuación en la
evaluación del EMV de uno en el caso del modelo Gamma simple.
18* Explique por qué los procesos fsk ( ; Xk )g1 1
k=1 y fuk ( ; Xk )gk=1 , de…nidos
en la sección 5.4, constituyen, respectivamente, un martingala y un proceso
de diferencia martingala con respecto a (Xk 1 ).
Capítulo 10
Prueba de hipótesis
10.1 Introducción
10.1.1 Las di…cultades inherentes en el dominio de las
pruebas de hipótesis
Las prueba de hipótesis es una de los más importantes, pero también una de
las partes más confusas de la inferencia estadística, por varias razones, entre
ellas las siguientes:
(i) la necesidad de introducir numerosos nuevos conceptos antes de que
uno sea capaz de de…nir el problema de manera adecuada,
(ii) el hecho de que la discusión actual de libros de texto del problema
constituye un híbrido inepto de dos enfoques fundamentalmente diferentes a
las pruebas (lo que Gigerenzer (1987) llama la "teoría híbrida") y
(iii) el hecho de que no existe un método único para la construcción de
"buenas" pruebas en la mayoría de circunstancias, comparable con el método
de estimación de máxima verosimilitud.
Se hace un intento para mitigar estos problemas mediante la utilización
de una serie de técnicas de enseñanza, la más importante de las cuales es
el desarrollo histórico de las pruebas desde …nales del siglo 19. Hay que
decir que esta se utiliza como un recurso de enseñanza y no intenta dar
una explicación completa del desarrollo histórico de las pruebas: una tarea
importante que aún no se ha realizado. La dimensión histórica de la prueba se
utiliza principalmente para facilitar el problema de la introducción de muchos
conceptos demasiado rápido y para poner de mani…esto las diferencias entre
525
526 CAPÍTULO 10. PRUEBA DE HIPÓTESIS
los enfoques de Fisher y Neyman-Pearson a la prueba.

Como preludio a la discusión resumimos una serie de diferencias funda-
mentales entre la explicación tradicional de las pruebas y las interpretaciones
propuestas en la discusión que sigue:
(a) la prueba híbrida "forjada" por los libros de texto de estadística en
la década de 1960 es de…ciente,
(b) la formulación de Neyman-Pearson no ha superado la de Fisher,
(c) las dos formulaciones son diferentes pero complementarias,
(d) el enfoque de Neyman-Pearson se adapta mejor a las pruebas dentro
de los límites demarcados por el modelo postulado y
(e) el enfoque de Fisher se adapta mejor a las pruebas fuera de los mismos
límites.
La discusión en este capítulo se entremezcla con ejemplos y algunos de
los conceptos más difíciles se han introducido a través de ejemplos de este
tipo.

En la sección 2 discuimos el enfoque de Fisher (a menudo llamado pruebas
de signi…cancia pura), considerado como una extensión natural de los pro-
cedimientos de prueba heredados de Edgeworth y Pearson. En la sección 3
se examina el enfoque de Neyman-Pearson, prestando especial atención a su
relación con el enfoque de Fisher. La sección 4 discute brevemente los tres
procedimientos de prueba asintótica: la razón de verosimilitud, puntuación
e…ciente y los procedimientos de prueba de Wald. En la sección 5 de los
dos enfoques se comparan y contrastan. Se argumenta que el enfoque de
Fisher es más adecuado para la prueba de hipótesis que van más allá de los
límites demarcados por el modelo estadístico postulado. Por otro lado, el
enfoque de Neyman-Pearson es esencialmente pruebas dentro de los límites
del modelo estadístico postulado. En este sentido, los dos enfoques, aunque
fundamentalmente diferentes, son considerados como complementarios.
IMPORTANTE: como todas las demás formas de inferencia estadística,
la prueba de hipótesis comienza con la postulación por parte del modelador
de un modelo estadístico que pretende describir el mecanismo estocástico que
dio origen a los datos observados en cuestión y por lo tanto los resultados de
inferencia dependen fundamentalmente de la su…cienca del modelo estadístico
postulado.
10.2. PRELIMINARES AL ENFOQUE DE FISHER 527
10.2 Preliminares al enfoque de Fisher

La prueba de hipótesis en el principio del siglo 19 alcanzó a nada más que
una comparación informal entre los valores de los parámetros especi…cados
por la hipótesis considerada y de las estimaciones correspondientes. Es decir,
la prueba de una hipótesis de la forma:
= 0, (14.1)
tomó la forma de comprobar si la discrepancia entre una estimación b de

y el valor especi…cado 0 era "cercano a cero" o no, es decir,
b 0 0. (14.2)
Qué tan grande debe ser la diferencia para ser considerada "lo su…ciente-
mente grande" nunca se formalizó adecuadamente.
En esta primera etapa podemos distinguir varias características que serán
conservadas en el desarrollo posterior de las pruebas de hipótesis. Estas
características incluyen:
(i) una noción primitiva de una hipótesis de interés: = 0 y
(ii) una función distancia: b 0 .
Esta es claramente la prehistoria de la prueba. La historia real de la
prueba comienza con Edgeworth.
10.2.1 Edgeworth
Un ejemplo típico de un procedimiento de prueba a …nales del siglo 19 es pro-
porcionado por Edgeworth (1885) al comparar la diferencia entre dos medias.
La idea fue comparar dos muestras diferentes (o submuestras) para evaluar
si tienen la misma media o no. Una forma de ver este problema es comenzar
con una muestra X := (X1 ; X2 ; :::; Xn ) y dividirla en dos submuestras de
tamaño n1 > 2 y n2 > 2 observaciones, respectivamente (n = n1 + n1 ):
X := (X1 ; X2 ; :::; Xn1 ; Xn1+1 ; :::; Xn ) .

El sentido común y el conocimiento estadístico de la época sugirió buscar
en los dos primeros momentos submuestrales (a posteriori interpretados como
estimadores momento principio de coincidencia):
n1 n1 n1
1 X 1 X 1 X 1 X
n
b1 = Xi , b21 = (Xi b1 )2 , b2 = Xi , b22 = (Xi b2 )2 ,
n1 i=1 n1 i=1 n2 i=n +1 n2 i=n +1
1 1
Edgeworth argumentó que si la distancia estandarizada entre las dos me-

dias submuestrales es mayor que una constante preespeci…cada:
jb b2 j p
(X) := q 1 > 2 2, (14.3)
b21 + b22
la diferencia entre las dos medias no se puede justi…car como "accidental"

y parecerá ser signi…cativa. ¿De dónde proviene la constante? En aquel
entonces la única distribución disponible para este tipo de análisis estadístico
fue la Normal y, de manera inevitable, la constante 2 fue relacionada con
ella.p Resulta que la probabilidad de la distribución Normal más allá del valor
2 2 es igual a 0.005; el valor de ocurrencia accidental. Retrospectivamente,
la prueba de Edgeworth podría interpretarse como una prueba de la hipótesis:
1 = 2 = .
permitiendo la posibilidad de que las varianzas sean diferentes, es decir,
2 2
Xk ~N 1; 1 , k = 1; 2; :::; n1 , Xk ~N 2; 2 , k = n1 + 1; :::; n,
en el contexto de un modelo Normal simple:

[i] MG estadístico: Xk = E (Xk ) +
n uk , k 2 N, 1
)2 g
[ii] Modelo de probabilidad: = f (x; ) = p1
2
ef 2 2
(x
; := ( ; 2
) 2R R+ , x2R
Comparando este resultado con el concepto primitivo de prueba antes de
la época de Edgeworth, podemos ver que añadió dos características:
(iii) el concepto de distancia (estandarizada):
p (X),
(iv) una regla de rechazo: (X) > 2 2.
Las cuatro características fueron desarrolladas aún más por Pearson y
posteriormente formalizadas por Fisher en el siglo 20.
10.2.2 Pearson
La primera prueba importante que se extiende tanto a la tradición estadística
de Pearson como a la de Fisher (ver capítulo 13), es la llamada prueba chi
cuadrada de Pearson. Pearson (1900) propuso esta prueba como una forma
de medir la "bondad de ajuste" en el caso de elegir un modelo descriptivo
de un conjunto particular de datos dentro de la familia Pearson (Pearson
(a; b0 ; b1 ; b2 )), como se describe en el capítulo 13.
Utilizando los primeros cuatro momentos crudos de la "muestra" X :=
(X1 ; X2 ; :::; Xn ), el procedimiento de Pearson estima los cuatro parámetros
que de…nen la familia Pearson. A su vez estas estimaciones b := b a; bb0 ; bb1 ; bb2
selecciona un miembro de la familia Pearson, por ejemplo f0 (x), que describe
mejor los datos con f0 x; b , su contraparte empírica. La hipótesis de interés
de Pearson era si la elección de f0 (x) es válida, es decir,
f (x) = f0 (x) , donde f (x) 2 Pearson (a; b0 ; b1 ; b2 ) (14.5)
Dado que el procedimiento de Pearson alcanzó a ajustar una curva en

el histograma, no es sorprendente descubrir que Pearson obtuvo su prueba
al comparar las frecuencias empíricas (no las frecuencias relativas) (fbi , i =
1; 2; :::; m) con las correspondientes frecuencias teóricas (fi , i = 1; 2; :::; m)
(según lo especi…cado por f0 (x)), donde los intervalos (i = 1; 2; :::; m) son
mutamente excluyentes y cubren el rango de los valores de la variable aleato-
ria considerada . La función distancia estandarizada tomó la forma de suma
de cuadrados estandarizados:
2
X
m fbi fi
(X) = . (14.6)
i=1
fi
Se demostró que, suponiendo que la curva de frecuencia teórica f0 (x) es

apropiada, (X) tiene una distribución asintótica chi cuadrada con (m 1)
grados de libertad, es decir,
2
(X) ~ (m 1) (14.7)
a
NOTAS:
(i) El uso de las distribuciones asintóticas se utilizó rutinariamente du-

rante los siglos 19 y 20. Lo que cambio con el tiempo esta práctica fue el
resultado seminal de Gosset (1908).
(ii) Lo importante de este resultado es que la distribución (asintótica) no
depende ni de la naturaleza de la curva de frecuencia elegida por los datos
ni del número de puntos de datos; es muy sensible, sin embargo, al número
de intervalos m.
(iii) El resultado distribucional en (14.7) se obtiene del supuesto implícito
de que la hipótesis de interés es válida; este es un supuesto que fue hehco
explícitamente por Fisher.
La intuición sugiere que cuanto mayor sea el valor de , peor es el ajuste.
Por lo tanto, para un valor dado de (X), por ejemplo (x) (basado en los
datos observados x), el modelador decidiría si la distancia era lo su…ciente-
mente grande como para indicar una "mal ajuste" usando la probabilidad de
la cola 2 (m 1):
P ( (X) > (x)) = p. (14.8)

Un pequeño valor de p corresponde a un valor grande de y, por lo tanto,
cuanto menor sea el valor de p, peor será el ajuste.
Las contribuciones Karl Pearson a las pruebas se puede resumir de la
siguiente manera:
(a) la ampliación de la especi…cación de la hipótesis de interés,
(b) la deducción de una función distancia, cuya distribución es libre de
f0 (x) y,
(c) el uso de la probabilidad de una cola para evaluar la validez de la
hipótesis de interés.
El uso de probabilidad de una cola está implícito en Edgeworth, pero
Pearson lo formalizó al poner en escena de manera explícita la distribución
(asintótica) de la función distancia. Por lo tanto, Pearson, además de mejorar
algunas de las características heredadas, agregó algo más:
(v) la distribución (14.7) de una función de distancia y
(vi) la probabilidad de una cola (14.8).
La lógica del sentido común de la probabilidad de una cola era que si
el valor de (X) pasara a pertenecer a una área de alta probabilidad de la
distribución chi cuadrado entonces los datos observados parecerían apoyar la
hipótesis de interés, pero si cae en una área de muy baja probabilidad (en la
remota cola derecha de la distribución) no la apoya.
A pesar de que la anterior prueba de ajuste fue desarrollada por Pearson

para pruebas dentro de la familia Pearson, cuando se ve en el contexto de
la inferencia estadística, su aplicabilidad es más amplia que su ámbito de
aplicación original, como lo ilustra ejemplo siguiente.
Ejemplo
Considere uno de los ejemplos históricos más importantes usando datos
de Mendel basado en su experimento clásico de mejoramiento de la forma y
el color de las plantas de chícharos. La teoría de Mendel sobre la herencia en
relación con las variables aleatorias X-forma, Y -color, de…nida de la siguiente
manera:
X(round) = 0, X(rugoso) = 1, Y (amarillo) = 0, Y (verde) = 1,
dio lugar a una distribución bivariada de la forma:
ynx 0 1 fy (y)
0 0:5625 0:1875 0:750
1 0:1875 0:0625 0:250
fx (x) 0:750 0:250 1:000
Tabla 14.1. Distribución de dos variables f (x; y)
En una muestra aleatoria de tamaño 556, los datos de Mendel dieron

lugar a las frecuencias observadas tal como se indican en el cuadro 14.2.
ynx 0 1 fby (y)

315 101
0 556
= 0:566 556
= 0:182 0:748
108 32
1 556
= 0:194 556
= 0:058 0:252
b
fx (x) 0:760 0:240 1:000
Tabla 14.2. Frecuencias relativas observadas
Aplicando la prueba chi cuadrada de Pearson usando las frecuencias es-

peradas:
(0:5625)(556) = 312:75; (0:1875)(556) = 104:25; (0:0625)(556) = 34:75;

! ! !
(315 312:75)2 (108 104:25)2 (32 34:75)2
(X) = + + = 0:470.
312:75 104:25 34:75
Utilizando la probabilidad de la cola de 2 (3) se obtiene: P ( (X) > 0:470) =

0:925.
En vista de este valor, los datos proporcionan un excelente apoyo a la
teoría de Mendel. Cabe señalar que muchos estadísticos, incluido Fisher,
consideran estos datos sospechosamente "exactos".
Para concluir este apartado observamos que cuando uno ve la contribución
de Pearson de forma retrospectiva (desde el punto de vista de la inferencia es-
tadística moderna y no en el contexto de la estadística descriptiva de Pearson
(ver capítulo 13)), dos cuestiones importantes son evidentes:
(i) las hipótesis son en última instancia, proposiciones acerca de la dis-
tribución y no de los parámetros como tales,
(ii) las pruebas puede ser dentro o fuera de los límites del modelo estadís-
tico postulado.
En el caso de la prueba chi cuadrada dada anteriormente la prueba es
fuera porque la hipótesis va más allá de los límites del modelo postulado;
prueba su validez.
10.2.3 Gosset
El trabajo seminal de Gosset 1908 proporciona la piedra angular sobre la que
Fisher fundó la inferencia estadística moderna. En ese momento se sabía que
X
n
en el caso del modelo Normal simple (véase (14.4)), el estimador b = n1 Xi
i=1
tenía la siguiente distribución "muestral ":
2 2
1 p
2
2
n (bn )
bn ~N ; ) X; ; := (bn )= ~N (0; 1) .
n n
Se sabía también que en el caso de que 2 se sustituya por el estimador

Xn
1
s= n 1 (Xi bn )2 , la distribución de la función:
i=1
p
n (bn )
(X; ) = N (0; 1) , (14.9)
s
donde se lee "no se distribuye como." Era bien sabido que era normal
sólo asintóticamente:
p
n (bn )
(X; ) = N (0; 1) . (14.10)
s a
p
Esto se debe a que (X; ) = n(bsn ) es una razón de una variable
aleatoria con distribución normal y la raíz cuadrada de la variable aleatoria
s2 , cuya distribución no se conocía. Gosset iba a "adivinar" la distribución
de s2 deduciendo sus primeros cuatro momentos crudos y sustituyéndolos en
las cuatro ecuaciones de la familia Pearson (ver capítulo 13). Este ejerci-
cio le llevó a concluir que s2 muy probablemente tenía una distribución chi
cuadrada. Después de establecer que bn y s2 no estaban correlacionadas
(y pensar erróneamente que era lo mismo que ser independientes), pasó a
obtener la distribución de la relación (14.9) usando un argumento casi heurís-
ticoa para los estándares actuales. En la terminología de hoy, usando el lema
7 del capítulo 11, (X; ) es la prazón entre dos variables aleatorias inde-
pendientes, el numerador U = n(bn ) es normalmente distribuido y el
2
denominador, V = (n 1)s 2 es distribuido chi cuadrado, por lo tanto:
p
n (bn )
(X; ) = St (n 1) , (14.11)
s
donde St(n 1) designa la distribución t de Student con (n 1) grados de
libertad. Lo más destacable de este resultado es que, en contraste con (14.10),
fue el primer resultado de muestra …nita; un resultado distribucional que era
válido para cualquier tamaño de la muestra, no sólo para grandes n.
El resulado de Gosset (14.11) es importante para las pruebas de hipótesis
porque representa la primera cantidad clave (pivotal quantity), la quin-
taesencia de muchos estadísticos de prueba.
Una función clave (pivotal function) para es una función monótona
de de la forma q (X; ):
q (:; :) : X ! R,
cuya distribución de "muestreo" está libre de los parámetros desconocidos
( ). Es decir, adada la distribución de la muestra D (X; ), la distribución
de q (X; ) es la misma para todo 2 .

La función (14.11) es clave, porque su distribución es conocida y está
excenta de los parámetros desconocidos ( ; 2 ) del modelo estadístico sub-
yacente porque St(n 1) no involucra estos parámetros. Otra importante
cantidad clave ya ha sido encontrada anteriormente:
2 (n 1) s2 2
v X; = 2
(n 1) .
Una vez más su distribución está libre de parámetros desconocidos.

Un estadístico h (X), a diferencia del concepto de función clave, es una
función de la forma:
h (:) : X ! R.
Es decir, no involucra ningún parámetro desconocido (ver capítulo 11).
10.2.4 La formulación de Fisher

El resultado (14.11) fue formalmente comprobado y ampliado por Fisher
(1915) y utilizado subsecuentemente como base para varias pruebas de hipóte-
sis asociadas a una serie de diferentes modelos estadísticos en una serie de
trabajos, que culminó con su libro de 1925.
Fisher usó el resultado (14.11) para obtener una prueba de lo que él llamó:
Hipótesis nula: H0 : = 0.
En términos del marco de referencia de la inferencia estadística moderna,

Fisher considerá la cuestión de deducir una prueba para la hipótesis nula
anterior en el contexto del modelo Normal simple (véase (14.4)). Su ra-
zonamiento se basó en la de…nición de distancia estandarizada de tal manera
que cuanto más lejos el "verdadero" valor de esté del valor especi…cado por
H0 , cuanto mayor sea la distancia, lleva a:
p
(bn 0) n (bn 0)
q = .
s 2 s
n
Fisher llegó a deducir un estadístico de prueba argumentando que a pesar

de que (14.11) sea válida para el "verdadero" valor de , bajo el supuesto de
que H0 es válida, el verdadero valor es 0 y se puede inferir:
p
n (bn 0) H0
(X) = St (n 1) , (14.12)
s
H
donde " 0 " se lee "bajo H0 se distribuye como".
Un estadístico de prueba. La esencia del resultado de Fisher (14.12)
es que él transformó la función clave de Gosset (X; ) en un estadístico
de prueba (X): la función distancia de la muestra (un estadístico) cuya
distribución es conocida y no depende de los parámetros desconocidos . Esto
se logró deduciendo la distribución del estadístico (X; 0 ), que no involucra
ningún parámetro desconocido bajo H0 : = 0 ; es decir, deduciendo la
distribución muestral de (X; ), asumiendo que la hipótesis nula es válida .
Utilizando este resultado, Fisher procedió a derivar una medida de "cuánto
se desvía una realización muestral particular de H0 ", sobre la base de la
probabilidad del área de la cola de la distribución (14.12) más allá del valor
observado (x) del estadístico (X). Esta medida, conocida como el valor
de probabilidad o p-value por brevedad, toma la forma:
P ( (X) (x) ; H0 es válida) = p. (14.13)

Por de…nición, el p-value evalúa el peor escenario posible para la hipótesis
nula en el sentido de que involucra el valor observado del estadístico y las
realizaciones más dañinas para la nula. Mide la probabilidad de observar una
realización de la muestra que produciría un valor estadístico igual o peor que
el que ya se ha observado. La interpretación de Fisher del p-value puede ser
considerada como una formalización de la opinión heredada:
si el p-value es pequeño, esto implica que o bien la realización observada
del estadístico de prueba constituye un suceso muy raro o bien la hipótesis
nula postulada no es válida.
En los casos en que el p-value es pequeño, la primera opción se considera
prácticamente imposible y el modelador adopta el punto de vista de que la
hipótesis postulada no es válida.
En vista del hecho de que cuanto mayor es el valor de (x), menor es
el p-value, el modelador puede interpretar los valores pequeños de p como
evidencia contra H0 ; cuanto menor sea el valor de p, menos plausible es H0 .
En cierto sentido, el p-value puede ser interpretado como una medida de qué
tan adecuadamente la hipótesis nula describe el mecanismo que da lugar a
los datos observados. En las primeras etapas de su trabajo, Fisher sugirió
p-values de 0.05 y 0.01 para ser utilizado como umbrales intuitivos. Más
tarde, sin embargo, insistió en que hay que separar el p-value de la decisión
de aceptar o rechazar H0 (véase Fisher (1935a, 1956)).
En resumen, Fisher construye obre el trabajo previo de Edgeworth y Pear-
son pero proporciona más estructura al procedimiento de prueba de hipótesis:
(a) introduciendo explícitamente el concepto de hipótesis nula,
(b) utilizando el concepto de función clave (pivotal function),
(c) introduciendo el concepto de distribución de muestra …nita de la clave
bajo H0 ,
(d) formalizando el concepto de p-value,
(e) introduciendo la naturaleza inferencial de la prueba de hipótesis.
En el contexto del enfoque de Fisher, para de…nir una prueba se requiere
de una "función distancia" que utiliza un "buen" estimador del parámetro
en cuestión. Esta es, entonces, transformada en una función clave, tal como
(14.11). Esta función clave, bajo H0 , no involucra parámetros desconocidos
y por lo tanto se convierte en un estadístico de prueba. Para tomar una de-
cisión sobre la validez de H0 , se utiliza una medida de cuánto una realización
particular se desvía de H0 . Para Fisher, la decisión que se deberá tomar es
si la evidencia sugiere que la hipótesis nula es creíble o no
Ejemplos
1. En el caso del modelo Normal simple (véase (14.4)), utilizando los
datos de las puntuaciones del cuadro 1.6 (véase el capítulo 1), considerar la
prueba de la hipótesis nula:
H0 : = 70.
Para los datos de puntuaciones (ver tabla 1.6): bn = 71:686, s2 = 13:606
y n = 70. Sustituyendo estos en la función clave (14.12) se obtiene:
p !
70 (71:686 70)
(X) = = 3:824, P (j (X)j > 3:824; 0 = 70) = 0:00014,
13:606
donde el valor 0.00014 se encuentra en las tablas St(69). El p-value rela-

tivamente bajo indica que los datos no apoyan la validez de H0 .
2. Conjetura de Arbuthnot. La hipótesis más ampliamente discutida
durante el siglo 18 fue la famosa hipótesis de Arbuthnot (1710), basada en la
observación de que en la ciudad de Londres, por un período de 82 años con-
secutivos, nacieron sistemáticamente más hombres que mujeres en cualquier
año; la conjetura de Arbuthnot era que las probabilidades de hombres a mu-

jeres en los recién nacidos no es "justa".La hipótesis de "juego justo" pueden
formularse en el contexto del modelo simple de Bernoulli:
[i] MG estadístico: Xi = E (Xi ) + i ; i 2 N,

[ii] Modelo de probabilidad : = f (x; ) = x (1 )1 x ; 2 [0; 1] , x =(14.14)
0; 1 ,
[iii]Modelo muestral : X := (X1 ; X2 ; :::; Xn ) es una muestra aleatoria.
La variable aleatoria se de…ne por: {mujeres}= fX = 1g, {hombres}= fX =

0g, y la hipótesis nula se especi…ca como sigue:
H0 : = 0:5.
3. La conjetura de N. Bernoulli. N. Bernoulli llevo la conjetura un
paso más allá y propuso las probabilidades 18:17 para los hombres (véase
Hacking (1965)). La conjetura de Bernoulli puede ser formulado en forma de
la hipótesis nula:
H0 : = 0:4857.
Las dos hipótesis toman la forma general: H0 : = 0 , 0 2 (0; 1).
La función distancia que se sugiere en este caso es: nb b
0 , donde n =
Xn
1
n
Xk ; se muestra en el capítulo 12 que es el "mejor" estimador de .
k=1
Dado que bn es una variable aleatoria, bn 0 es un evento cuya probabil-
idad de ocurrencia puede ser evaluada utilizando la distribución muestral de
bn . En el capítulo 12, se demostró también que bn Binomialmente distribuida
con media y [ (1 ) =n], denotado por:
bn (1 )
Bi ; ;n .
n
p
( n bn 0 )
Esto sugiere que: (X; ) = p Bi(( 0 ) ; 1; n). Por lo tanto,
0 (1 0)
podemos proceder a obtener el estadístico de prueba:
p
n bn 0 H0
(X; ) = p Bi (0; 1; n) . (14.15)
0 (1 0)
Prueba de la conjetura de Bernoulli. Los datos observados se re…eren

al número de nacimientos (hombre, mujer) durante el período 1974-6 en
Chipre: n = 25928, 13375 hombres y 12553 mujeres.
p
bn = 12553 = 0:48415, (x) =
25928(0:48415 0:4857)
p = 0:49988.
25928 0:4857(0:5143)
P (j (X)j > 0:49988; = 0:4857) = 0:617.

El alto p-value sugiere que la evidencia es fuerte en favor de H0 ; la con-
jetura de Bernoulli es apoyada por los datos en el caso de Chipre!
Aunque Fisher ofreció inicialmente algunas reglas empiricas en relación
con los p-values y la solidez de la evidencia a favor o en contra de la hipótesis
nula, posteriormente hizo un gran esfuerzo por explicar que no eran más que
toscas orientaciones. En la siguiente tabla ofrecemos similares orientaciones
de "reglas empíricas " para ayudar a los no iniciados, a sabiendas de que
puede ser fácilmente criticada como ad hoc e injusti…cada.
p > 0:10: datos que indican un fuerte apoyo para H0 ,

0:05 < p < 0:10: datos que indican poco apoyo para H0 ,
0:02 < p < 0:05: datos que indican falta de apoyo para H0 ,
p < 0:01: datos que indican una fuerte falta de apoyo para H0 .
10.2.5 Resumen
Pruebas en el contexto del enfoque de Fisher comienzan con la especi…cación
de una hipótesis nula, cuya forma más simple es:
H0 : = 0.
A pesar de las apariencias, una hipótesis nula no es sólo una proposi-

ción acerca de un parámetro, ella es, en última instancia, una proposición
sobre el modelo estadístico subyacente y, como tal, puede tomar varias for-
mas diferentes. Para simpli…car, nos limitamos a esta forma simple en esta
sección.
La construcción de una prueba se puede resumir en los siguientes pasos.
Paso 1. Especi…car una "distancia", que intuitivamente tiene sentido

para considerar H0 como válida cuando esta distancia es "pequeña". Por
lo general, esto implica la elección de un buen estimador, por ejemplo b del
parámetro desconocido y tomar una función de la diferencia entre este
estimador y el valor especi…cado por la hipótesis nula tal como como b 0
2
o b 0 .
Paso 2. Transformar la función distancia en una función clave. Esto
a menudo implica la estandarización de la distancia b 0 utilizando la
distribución de b bajo H0 (asumiendo que H0 es válida):
2
b 0
b 0
(X) = h i 21 o (X) = ,
V ar b V ar b
y determinar la distribución de (X). Esto a veces implica la sustitución

de los parámetros desconocidos y después deducir la distribución de (X)
suponiendo H0 es válida. En los casos en los que la distribución exacta de
(X) bajo H0 es desconocida, la aproximamos, en su lugar, con la distribu-
ción asintótica de (X) bajo H0 .
Paso 3. Utilizando la distribución de (X) bajo H0 , especi…car los p-
values de la siguiente manera:
P ( (X) (x) ; H0 es válida) = p. (14.16)

Por lo tanto, los principales elementos de una prueba de Fisher
f (X) ; pg son las siguientes:
(i) una hipótesis nula H0,
(ii) un estadístico de prueba (X),
(iii) la distribución de (X) bajo H0 ,
(iv) el p-value P ( (X) (x) ; H0 es válida) = p,
donde (x) denota el valor del estadístico de prueba (X), dada la re-
alización muestral particular X = x. El p-value puede ser visto como una
indicación de que tan satisfactoria es H0 , dados los datos observados. En
cierto sentido, el p-value representa el peor de los escenarios para la hipótesis
nula, teniendo en cuenta no sólo la realización muestral observada, sino tam-
bién realizaciones más desfavorable. La cuestión de la aceptación o rechazo
de H0 es un problema aparte y el p-value no debe confundirse con el nivel
de signi…cancia del marco de referencia de las pruebas de Neyman-Pearson

discutido a continuación.
10.3 El marco de referencia de Neyman-Pearson

El resumen anterior pone de mani…esto una importante limitación del enfoque
de Fisher:
¿Cómo debe el modelador elegir el estadístico de prueba (X)?
Los argumentos de sentido común utilizados por Fisher no constituyen

un procedimiento óptimo para deducir la "mejor" prueba posible, de forma
análoga a la de un "mejor" estimador. Esto proporcionó la motivación para
Neyman y Pearson (1928a), cuyo objetivo declarado era hacer frente a esta
limitación del enfoque de Fisher; algo que Fisher nunca Fisher acepto y que
dio lugar a numerosas discusiones acaloradas entre Neyman y Fisher (véase,
por ejemplo, Fisher (1956) ). Neyman y Pearson (b 1928a, de 1933 a, b)
motivaron su propio enfoque de prueba argumentando que Fisher no tenía
una base lógica para:
(a) su elección de estadísticos de pruebas tales como (14.12) y
(b) su uso del p-value como una medida de la credibilidad otorgada a H0
por la realización muestral.
Estaba claro que para cada hipótesis nula se podría construir varios es-
tadísticos de prueba y el enfoque de Fisher no proporciona una forma de
decidir cuál es el más adecuado entre estas funciones. Su solución a este
problema fue ver las pruebas de hipótesis como una elección entre hipótesis
rivales y así cambiar el enfoque de la prueba de hipótesis de proporcionar
una medida de la cantidad de credibilidad que los datos observados dan a la
hipótesis nula, a decidir si aceptar o rechazar la hipótesis nula sobre la base
de los datos observados. La clave de su enfoque fue la introducción del con-
cepto de hipótesis alternativa para complementar el concepto de hipótesis
nula y por lo tanto transformar la prueba en una elección entre diferentes
hipótesis.
En un intento por mantener nuestros ojos en el bosque vamos a considerar
el desarrollo del argumento de Neyman-Pearson en etapas. Antes de dispon-
ernos a estudiar el procedimiento de Neyman-Pearson vale la pena repetir
una vez más que subyacente a todo tipo de inferencia estadística existe (a)
un modelo estadístico ( ; X) postulado a priori y (b) un conjunto de datos
10.3. EL MARCO DE REFERENCIA DE NEYMAN-PEARSON 541
observados x := (x1 ; x2 ; :::; xn ), vistos como una realización de la muestra

x := (X1 ; X2 ; :::; Xn ); x es un punto en el espacio muestral n-dimensional:
@ Rnx (véanse los capítulos 10 - 11).
10.3.1 Etapa I - El concepto de hipótesis alternativa

La hipótesis de interés en conexión con los modelos Normal simple y de
Bernoulli fue de la forma simple:
H0 : = 0.
La especi…cación de Neyman-Pearson de la hipótesis nula y alternativa a

menudo toma la forma:
H0 : = 0 conta H1 : 6= 0, pero 2 f 0g . (14.17)

Esta especi…cación divide el espacio de parámetros del modelo estadís-
tico que se considere, en dos subconjuntos mutuamente excluyentes:
0 := f 0 g y 1 := f 0 g , donde 0 \ 1 = ?, 0 [ 1 = .
Ejemplos
(a) En el caso del modelo Normal simple la hipótesis nula H0 : =
10, ahora puede ser reconsiderada en la formulación de Neyman-Pearson en
conjunción con una hipótesis alternativa, tomando la forma: H0 : = 10
contra H1 : 2 R f10g, donde 0 := f10g es un número único y 1 :=
R f10g; R excluido el número 10.
(b) En el caso del modelo simple de Bernoulli la hipótesis nula H0 : =
0:5, ahora puede ser reconsiderada en la formulación de Neyman-Pearson en
conjunción con una hipótesis alternativa, tomando la forma: H0 : = 0:5
contra H1 : 2 [0; 1] f0:5g, donde 0 := f0:5g y 1 := [0; 1] (0:5) es el
intervalo [0; 1] excluyendo el número 0:5.
Una formulación más general de la especi…cación Neyman-Pearson de la
hipótesis nula y la hipótesis alternativa toma la forma:
H0 : 2 0 contra H1 : 2 1 := 0. (14.18)
Ejemplos
(i) En el caso del modelo Normal simple (véase (14.4)) la hipótesis

nula y alternativa pueden ser de la forma: H0 : 2 [40; 100] contra H1 : 2
R [40; 100], donde 0 := [40; 100] y 1 := R [40; 100].
(ii) En el caso del modelo simple de Bernoulli la hipótesis nula y alterna-
tiva pueden ser de la forma: H0 : 2 [0; 0:5] contra H1 : 2 (0:5; 1].
La especi…cación Neyman-Pearson de la hipótesis nula y la alternativa
dada en (14.18), divide, en efecto, el modelo de probabilidad (original) pos-
tulado:
= ff (x; ) ; 2 ; x 2 Rx g ,
en subconjuntos mutuamente excluyentes usando la partición del espacio
de parámetros = 0 [ 1 :
0 = ff (x; ) ; 2 0; x 2 Rx g , 1 = ff (x; ) ; 2 1; x 2 Rx g .
Esta fórmula pone de mani…esto el hecho de que las hipótesis nula y
alternativa son en última instancia acerca de la distribución y no de los
parámetros como parece a primera vista. Por lo tanto, asumiendo que la
"verdadera" distribución de probabilidad para los datos considerados es f (x),
un manera más atenta de especi…car estas hipótesis es en términos de sus
modelos de probabilidad implícitos en cada caso:
H0 : f (x) 2 0 contra H1 : f (x) 2 1. (14.19)

Hipótesis simples frente a hipótesis compuestas
En el caso de que 0 o 1 incluyan sólo un elemento (distribución), se
dice que la hipótesis nula o la alternativa es simple, respectivamente; de lo
contrario la llamamos compuesta. En los ejemplos (a) y (b) anteriores la
hipótesis nula es simple, pero la alternativa es compuesta. En los ejemplos
(i) y (ii) tanto la hipótesis nula como la alternativa son compuestas.
Ejemplo
Considere el modelo Normal simple (véase (14.4)) y la hipótesis:
Considere el modelo simple normal (véase (14.4)) y las hipótesis:
H0 : = 0 contra H1 : = 1, ( 1 > 0) .
Caso A: 2 es conocido. Las hipótesis nula y alternativa H0 y H1 son

simples porque los modelos de probabilidad bajo H0 y H1 son, respectiva-
mente:
0 = ff (x; 0) ; x 2 Rx g y 1 = ff (x; 1) ; x 2 Rx g .
Es decir, H0 y H1 son simples porque 0 y 1 contienen sólo un elemento.
Caso B: 2 es desconocido. En este caso la hipótesis nula: H0 : = 0
es compuesta porque 0 = ff (x; 0 ; 2 ) ; 2 2 R+ , x 2 Rx g , representa una
familia completa de funciones de densidad, una para cada valor de 2 > 0.
De la misma manera, la especi…cación:
2 2 2 2
H0 : = 0, = 0 contra H1 : = 1, = 1 ,
tiene una H0 simple y una H1 simple, ya que ambos 0 y 1 son únicos:
2 2
0 = f x; 0; 0 ; x 2 Rx y 1 = f x; 1; 1 ; x 2 Rx .
Una forma aún más ‡exible de la especi…cación Neyman-Pearson de la

hipótesis nula y alternativa es:
H0 : 2 0 contra H1 : 2 1 , 1 \ 0 = ?. (14.20)
Ejemplos
(i) En el caso del modelo Normal simple la hipótesis nula y alternativa
pueden ser de la forma: H0 : = 0 contra H1 : > 0 .
(ii) En el caso de la conjetura de N. Bernoulli, la especi…cación de la
hipótesis nula y la hipótesis alternativa sería adoptar la forma: H0 : = 0:4857
contra H1 : > 0:4857. Esto se debe a que sólo estamos interesados en las
alternativas en la dirección de un "juego justo".
En estos casos la hipótesis alternativa no está de…nida en términos del
complemento de 0 con respecto a , sino como un subconjunto de la misma.
Ésta es diseñada para proporcionar al modelador la ‡exibilidad de ignorar
ciertas partes del espacio de parámetros de ningún interés a …n de mejorar
las propiedades de la prueba (en términos de potencia; véase más adelante).
10.3.2 Etapa II - La región de rechazo

El objetivo principal de la prueba se convierte en la formulación de una regla
de decisión la que, para cualquier realización x de la muestra postulada X,
permite al modelador decidir si acepta o rechaza H0 . En el caso de una
hipótesis nula como se especi…ca en (14.17), la decisión de aceptar o rechazar
H0 se basará en un estadístico de prueba (X). En efecto, el estadístico de

prueba implica una partición del espacio muestral @ en dos conjuntos com-
plementarios C0 y C1 , conocidas como las regiones de aceptación y rechazo,
respectivamente:
C0 [ C1 = @ y C0 \ C1 = ?.
Las decisiones de aceptar o rechazar H0 se pueden especi…car en términos
de estas dos regiones (véase la …gura 14.4):
(i) si x 2C0 : aceptar H0 , (ii) si x 2C1 : rechazar H0 .
Figura 14.4. c para una prueba de una cola
Ejemplos
(i) En el caso del modelo Normal simple, la prueba de las hipótesis: H0 :
= 70 contra H1 : 6= 70, podría basarse en el estadístico de prueba:
p
n (bn 70) H0
(X) = St (n 1) ,
s
y la intuición sugiere que es probable que la región de rechazo sea de la
forma:
C1 = fx : j (X)j > cg ,
para alguna c > 0 elegido apropiadamente.
(ii) En el caso del modelo simple de Bernoulli, la prueba de la conjetura

de Bernoulli:
H0 : = 0:48 contra H1 : > 0:48; (14.21)
p !
n (b 0:48) H0
(X) := p n Bi (0; 1; n) ,
0:48(0:52)
y otra vez la intuición sugiere que es probable que la región de rechazo
sea de la forma:
C1 = fx : j (X)j > cg ,
para alguna c > 0 elegida apropiadamente.
NOTA. En Spanos, p. 695 esta última igualdad se escribe: C1 =
fx : (X) > cg; creo debería escrbirse: C1 = fx : j (X)j > cg.
10.3.3 Etapa III - Los dos tipos de errores

En el caso de las dos hipótesis que se han especi…cado anteriormente la de-
cisión de aceptar o rechazar H0 es acompañada por la posibilidad de cometer
uno de los dos tipos de errores:
(i) error tipo I: rechazar la hipótesis nula cuando en realidad es válida,
(ii) error de tipo II: Aceptar la hipótesis nula cuando en realidad no es
válida.
Es interesante observar que Neyman y Pearson (1928a) criticó a Fisher
para reconocer sólo el error tipo I haciendo caso omiso del error de tipo II.
Esta crítica, sin embargo, estaba fuera de lugar porque Fisher no vio las prue-
bas de hipótesis como una decisión de aceptar o rechazar H0 . Consideraba
las pruebas de hipótesis como un procedimiento inferencial que permite al
modelador evaluar el apoyo otorgado por los datos a la hipótesis de que se
trate.
H0 válida H0 no válida
Aceptar H0 decisión correcta error tipo II
Rechazar H0 error tipo I decisión incorrecta
(a) La probabilidad del error tipo I

La probabilidad de error tipo I en un punto = 0, en su forma general

se puede expresar por:
P (x 2 C1 ; = 0) = .
Considere el modelo simple de Bernoulli (véase (14.14)) y la hipótesis
especi…cada por:
H0 : = 0:5 contra H1 : 6= 0:5.

La intuición sugiere que la región de rechazo para H0 tomará la forma
j n 0:5j > c, donde c es alguna constante y la proposición "cuando en
realidad H0 es válida", sugiere que la distribución relevante para evaluar la
probabilidad del error tipo I es (14.15). Es decir, necesitamos evaluar:
P bn 0:5 > c; H0 es válida = ,

para diferentes valoes de c = 0:005, 0:01, 0:02, 0:05, 0:1, 0:2, utilizando
las tablas de probabilidades Binomial1 :
P bn 0:5 > 0:005 ' 0:472, P bn 0:5 > 0:050 ' 0:239,
P bn 0:5 > 0:010 ' 0:444, P bn 0:5 > 0:100 ' 0:078,
P bn 0:5 > 0:020 ' 0:388, P bn 0:5 > 0:200 ' 0:0024.
NOTE que n = 50. Como podemos ver, haciendo el intervalo alrededor
b
de n más pequeño, la probabilidad de error tipo I aumenta (véase la …gura
14.1). La pregunta que surge naturalmente en esta etapa es:
¿Por qué no simplemente hacemos este intervalo muy grande?
En el caso de que el intervalo sea bastante grande, digamos 0:1 < bn 0; 9,
es decir, c = 0:4, la probabilidad de tomar la decisión equivocada es muy
cercana a cero. En particular:
P bn 0:5 > 0:4 ' 0:000.

El problema con esta sugerencia es que, cuando ampliamos este intervalo
incrementamos la probabilidad de tomar otra decisión incorrecta: aceptar la
hipótesis nula cuando no es válida (error tipo II ).
1
Cómo obtener estas probabilidades no es importante en esta etapa.
Figura 14.1. De…nición de una prueba de Neyman-Pearson
(b) La probabilidad del error de tipo II

La probabilidad de error de tipo II en un punto = 1, en su forma
general se puede expresar por:
P (x 2 C0 ; = 1) = ( 1) .
En el caso del modelo simple de Bernoulli, para poder evaluar la prob-

abilidad del error de tipo II necesitamos la distribución del estadístico de
prueba (14.15):
p p !
n bn 0:5 H1 n (0:55 0:5)
(X) = p Bi p ; 1; n . (14.22)
(1 ) 0:55 (1 0:55)
En el caso del error de tipo II, tomar la decisión equivocada signi…ca acep-
tar H0 ; decidir que la diferencia bn 0:5 no es "signi…cativamente distinta
de cero". Utilizando la distribución (14.22) podemos evaluar la probabilidad
del error tipo II usando los mismos valores de c como para la probabilidad del
error tipo I c = 0:005, 0:01, 0:02, 0:05, 0:1, 0:2, P bn 0:5 c; = 0:55 =
(0:55), de la siguiente manera:
P bn 0:5 > 0:005 ' 0:043, P bn 0:5 > 0:050 ' 0:422,
P bn 0:5 > 0:010 ' 0:089, P bn 0:5 > 0:100 ' 0:645,
P bn 0:5 > 0:020 ' 0:178, P bn 0:5 > 0:200 ' 0:984.
A partir de estas probabilidades, podemos ver que a diferencia del error

tipo I, la probabilidad de error tipo II disminuye cuando el intervalo alrededor
de la hipótesis nula se hace más pequeño.
¿Cómo interpretar los dos tipos de errores? La interpretación de Neyman
y Pearson es en términos de repetir el experimento un gran número de veces
(el largo plazo). Es decir, una probabilidad 0:05 de error tipo I signi…ca
que en pruebas repetidas del mismo experimento (modelo estadístico) 5 por
ciento de estos casos serán erróneamente rechazados (ver Neyman y Pearson
(1933a)). Esta interpretación fue el tema central de desacuerdo entre Neyman
y Fisher durante varias décadas. Fisher siguió insistiendo en que aún si este
procedimiento es apropiado para largas sucesiones de pruebas de control de
calidad, es completamente inapropiado para la inferencia cientí…ca (véase
Fisher (1956)).
Región de rechazo P (error tipo I; = 0:5) P (error tipo I; = 0:55)

P x: bn 0:5 0:005 0:472, 0:043,
P x: bn 0:5 0:010 0:444, 0:089,
P x: bn 0:5 0:020 0.388, 0.178,
P x: bn 0:5 0:050 0.239, 0.422,
P x: bn 0:5 0:100 0.078, 0.645,
P x: bn 0:5 0:200 0.002, 0.984.
La tabla de arriba y la …gura 14.1 sugieren que existe un intercambio

(trade-o¤) entre las probabilidades de los errores tipo I y tipo II: a medida
que disminuye la probabilidad del error tipo I la probabilidad del error tipo
II aumenta y viceversa.
¿Cómo podemos resolver este problema de intercambio?

10.3.4 Etapa IV - Construcción de pruebas óptimas

La solución de Neyman-Pearson (1928a, b, 1933a, b) es darle más impor-
tancia a la hipótesis nula que a la alternativa. Esto signi…ca que preferimos
asegurar que la probabilidad de rechazar la hipótesis nula cuando válida
(error tipo I) es pequeña, y luego elegir una prueba que minimice la proba-
bilidad del error tipo II. En el contexto anterior, esto equivale a decidir que
la probabilidad del error tipo I es pequeña, por ejemplo = 0:05 o = 0:01,
y elegir una prueba que minimice el error tipo II. Es decir, asumiendo que
rechazamos la hipótesis nula cuando j (X)j > c , para alguna constante c ,
elegimos el estadístico de prueba j (X)j, de tal manera que:
(a) P (j (X)j > c ; H0 válida) = ,
(b) P (j (X)j c ; H1 ( ) válida) = ( ), para 2 1 se minimiza.
NOTA: la notación H1 ( ) se usa para enfatizar la dependencia de H1 de
ya que ésta varía en el espacio de parámetros 1 .
La anterior solución representa una convención que considera el error tipo
I como mucho más grave y, por lo tanto, las hipótesis nula y alternativa son
tratadas asimétricamente. Al …jar el error tipo I a ser un número pequeño,
digamos 0:01, lo consideremoa como mucho más importante que el error
tipo II. Por lo tanto, consideramos que el error de rechazar la hipótesis nula
cuando es válida es mucho más grave que el de aceptar la hipótesis nula
cuando es falsa. Una forma emocionalmente cargada de racionalizar esta
opción convencional es en términos de la analogía con una prueba de delito
penal. El jurado en una prueba de delito penal es instruido por
el juez para no encontrar al acusado culpable hasta que se han
convencido de que "más allá de cualquier duda razonable" por la
evidencia presentada en la corte durante las deliberaciones.

Traduccion de Capitulos Del Libro de Aris Spanos PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Traduccion de Capitulos Del Libro de Aris Spanos PDF

Cargado por

Copyright:

Formatos disponibles

Teoría de la Probabilidad e Inferencia

Estadística: Modelización Econométrica con

Traducción: Versión: Semestre 2012-2

0.1 A quién se dirige y características distintivas . . . . . . . . . . 11

1 1 Una introducción a la modelización empírica 13

2 Teoría de probabilidad: un marco de referencia para la mod-

2.3 Teoría de la probabilidad: una introducción . . . . . . . . . . . 60

3 El concepto de modelo de probabilidad 81

3.10 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153

4 El concepto de muestra aleatoria 157

4.9 Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210

5 El concepto de muestra no aleatoria 213

6 Regresión y conceptos relacionados 303

7 Procesos estocásticos 381

7.3.3 Proceso Gaussiano . . . . . . . . . . . . . . . . . . . . 406

8 Estimación I: Propiedades de los estimadores 411

9 Estimación II: métodos de estimación 463

9.3 El método de mínimos cuadrados . . . . . . . . . . . . . . . . 478

10 Prueba de hipótesis 525

ARIS SPANOS es un destacado investigador y profesor en econometría.

0.1 A quién se dirige y características distin-

Modelizacion empírica se re…ere a la descripción parsimoniosa de

La delimitación anterior es apenas esclarecedora porque involucra los tér-

sección 4). En contraste con un modelo teórico, un modelo estadístico es

1.1.1 Una vista panorámica del capítulo

1.2 Fenómenos estocásticos, una vista pre-

Fenómenos estocásticos y regularidad aleatoria

excluimo el caso en el que los dados terminan en uno de los bordes!

Tabla 1.1. Resultados en el lanzamiento de dos dados

En esta etapa es interesante hacer una pausa y considerar la noción de

intuición se convirtió en algo más sistemático, que eventualmente condujo a

Figura 1.1 Una sucesión de 100 lanzamientos de dos dados.

En la …gura 1.1 se representan los datos sobre el índice del número de

pero después de numerosos lanzamientos de los dados. La pregunta que surge

¿Cómo es el histograma en la …gura 1.2 relacionado con los datos en la

Hoy en día, los patrones de regularidad aleatoria son perceptibles medi-

Figura 1.2 Histograma de la suma de los dos datos dados.

siguiente. Repita esto a lo largo del eje de la observación del índice y si

[2] Independencia: en cualquier sucesión de pruebas el resultado de

Experimento mental 3. Tome una ventana ancha (para incluir la dis-

[3] Homogeneidad: las probabilidades asociadas a los diferentes resultados

NOTE que en el caso donde el patrón en una grá…ca de tiempo es tal

datos no muestran ningún patrón aleatorio, ellos exhiben lo que se conoce

Regularidad aleatoria y estructura probabilística

Figura 1.3 Regularidad en el agregado.

Tabla 3. La suma de dos dados: una distribución de probabilidad.

La distribución de probabilidad en la tabla 1.3 representa un concepto

Tabla 1.4 La suma de dos dados: impares y pares

resultados A = f3; 5; 7; 9; 11g B = f2; 4; 6; 8; 10; 12g

Concluimos esta subsección reiterando que el fenómeno estocástico de

[1] Distribución (triangular), [2] Independencia y [3] Homogeneidad.

Para propósitos de referencia, es importante señalar que los anteriores

la probabilidad de obtener al menos un 6 en cuatro lanzamientos de un

Tabla 1.5 Distribución de probabilidad de un dado

Regularidad aleatoria en fenómenos económicos

En el caso del experimento de lanzar dos dados, el mecanismo aleatorio es

Figura 1.4 Cambios en las tasas de cambio de los datos.

(b) no se puede pretender la presencia de algún mecanismo aleatorio ex-

(b) la banda de variación alrededor de la media parece ser relativamente

Figura 1.5 Histograma de las tasas de cambio.

grá…cas de tiempo. Sin embargo, un aspecto importante de la modelización

1.3 Regularidad aleatoria y modelos estadís-

constituyen el elemento vital de la modelización estadística debido a que su