Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Traduccion de Capitulos Del Libro de Aris Spanos PDF
Traduccion de Capitulos Del Libro de Aris Spanos PDF
Aris Spanos
3
4 CONTENIDO
Esta es una traducción de los capítulos del libro de Spanos (1999) prop-
uestos para el curso de Estadística del campo de Economía Aplicada del Pos-
grado en Economía de la UNAM. Es el resultado de mis exposiciones y res-
olución de problemas en el taller de Estadística y estuvo destinado a los estu-
diantes que cursaron esta asignatura en el semestre 2013-1. Gracias a cada
uno de ellos por sus valiosas observaciones al contenido de este documento.
Actualmente estoy traduciendo las partes restantes del libro. En cuanto
concluya la traducción del libro completo, la pondré a disposición del pos-
grado.
Errores en esta versión de la traducción son, desde luego, mi responsabil-
idad y trataré de corregirlos en versiones siguientes.
Teoría de la probabilidad e Inferencia Estadística
Este importante nuevo libro de texto de un econometrista distinguido
está dirigido a estudiantes que toman cursos de introducción a la teoría de la
probabilidad y a la inferencia estadística. Ningún conocimiento previo que
no sea un conocimiento básico de estadística descriptiva se presupone.
El objetivo principal de este libro es establecer el marco de referencia
para la modelización empírica de datos observacionales (no experimentales).
Este marco se ha formulado con el …n de acomodar las peculiaridades de
los datos observacionales (no experimentales) de una manera uni…cadores y
lógica coherente. Teoría de la Probabilidad e Inferencia Estadística di…ere
de los libros de texto tradicionales en la medida en que hace hincapié en
los conceptos, ideas, nociones y procedimientos que son apropiados para la
modelización de datos observacionales. Se hace especial énfasis en relacionar
conceptos probabilísticos a los patrones de regularidad aleatoria exhibidos
por los datos observados.
Dirigido principalmente a estudiantes de segundo año de nivel universi-
tario y más allá del estudio de la econometría y la economía, este libro de
texto también será útil para los estudiantes de otras disciplinas que hacen uso
extensivo de datos observacionales, incluidas …nanzas, biología, sociología,
educación, psicología y climatología.
0.1. A QUIÉN SE DIRIGE Y CARACTERÍSTICAS DISTINTIVAS 11
1 Una introducción a la
modelización empírica
1.1 Introducción
En un intento de dar una idea de lo que la modelación empírica trata, comen-
zamos la discusión con una demarcación epigramática de su ámbito de apli-
cación:
13
14CAPÍTULO 1. 1 UNA INTRODUCCIÓN A LA MODELIZACIÓN EMPÍRICA
{ 2,3,4,5,6,7,8,9,10,11,12}
1.2. FENÓMENOS ESTOCÁSTICOS, UNA VISTA PRELIMINAR 17
[1] Distribución: después de varias pruebas los resultados forman una ley
(aparentemente) estable.
Experimento mental 2. Ocultar las observaciones siguientes hasta un
cierto valor del índice, por ejemplo t = 40, y tratar de adivinar el resultado
20CAPÍTULO 1. 1 UNA INTRODUCCIÓN A LA MODELIZACIÓN EMPÍRICA
resultados 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 5 4 3 2 1
probabilidades 36 36 36 36 36 36 36 36 36 36 36
B fuera un ganador de…nitivo porque hay más números pares que impares.
Los soldados medievales, sin embargo, sabían por observación empírica que
esto no era cierto! En efecto, si volvemos a la tabla 1.3 y evaluamos la
probabilidad de que el evento A ocurra, descubrimos que los soldados estaban
en lo correcto: la probabilidad de ambos eventos es 21 ; la distribución de
probabilidad se da en la tabla 1.4.
resultados 1 2 3 4 5 6
1 1 1 1 1 1
probabilidades 6 6 6 6 6 6
Probabilidad de un seis = 16
n
Probabilidad de un seis en n lanzamientos = 16 ,
n
Probabilidad de no seis en n lanzamientos = 65
5 n
Probabilidad de al menos un seis en n lanzamienos = 1 6
= q.
1.2. FENÓMENOS ESTOCÁSTICOS, UNA VISTA PRELIMINAR 25
54
Para n = 4, q = 1 6
= 0:5177469.
Las dos probabilidades p = 0.4914039 y q = 0.5177469 con…rman la reg-
ularidad empírica de Mere y no hay paradoja de ningún tipo! Esto muestra
claramente que las frecuencias empíricas de Mere fueron correctas, pero su
razonamiento por analogía era defectuoso.
Los patrones de regularidad aleatoria de imprevisibilidad, que relacionamos
con el concepto de probabilidad de [2] Independencia y el de uniformidad
que relacionamos con [3]homogeneidad utilizando la …gura 1.1, son implícita-
mente utilizados en el intercambio entre Pascal y Fermat. Es interesante no-
tar que estos conceptos no se formalizaron explícitamente hasta bien entrado
el siglo 20. Los supuestos probabilísticos de Independencia y Homogenei-
dad (Distribución Idéntica) subyacen a la mayoría de las formas de análisis
estadístico antes de 1920’s.
En esta etapa es importante poner de relieve que la noción de probabil-
idad subyacente a la distribución de probabilidad en las tablas 1.3 a 1.5, es
la de frecuencia relativa como la utilizada por De Mere para establecer su
regularidad después de un gran número de ensayos. No hay nada controver-
sial sobre esta noción de probabilidad y el uso de modelos estadísticos para
discutir cuestiones relativas a los juegos de azar, donde el mecanismo de azar
es explícitamente una parte integral del fenómeno que está siendo modelado.
No es, sin embargo, evidente que tal noción de probabilidad pueda ser uti-
lizada en la modelación de los fenómenos observables en donde el mecanismo
de azar no es explícito.
(c) los datos en la …gura 1.4 presentan una cierta simetría en forma de
campana (parece que hay tantos puntos por encima de la media como por
debajo, pero las frecuencias relativas se desvanecen cuando el valor de X se
aleja del centro a las colas) . Esta regularidad se puede ver en la grá…ca de
las frecuencias relativas dada en la …gura 1.5.
Cómo las grá…cas en las …guras 1.4 y 1.5 se relacionan será discutido
ampliamente en el capítulo 5, junto con una descripción más detallada de
cómo se pueden reconocer los patrones (a) - (c) mencionados anteriormente.
Además de los patrones de regularidad encontrados en la …gura 1.1, cabe
señalar que los datos en la …gura 1.4 muestran el patrón de regularidad
aleatoria siguiente:
(d) parece haber una sucesión de conglomerados de pequeños y grandes
cambios que se suceden unos a otros.
En esta etapa es improbable que el lector esté convencido de que las carac-
terísticas señaladas anteriormente son fácilmente discernibles a partir de las
28CAPÍTULO 1. 1 UNA INTRODUCCIÓN A LA MODELIZACIÓN EMPÍRICA
Esta taxonomía básica está diseñada para proporcionar una forma lógi-
camente coherente de ver y utilizar información estadística para …nes de
modelización. Estas amplias categorías puede verse como la de…nición de
los componentes básicos de un modelo estadístico en el sentido de que todo
modelo estadístico puede ser visto como una suave mezcla de ingredientes de
las tres categorías. La suavidad de la mezcla en este contexto se re…ere a la
consistencia interna de los supuestos que constituyen un modelo estadístico.
La primera recomendación a tener en cuenta en la modelación empírica es:
1 Un modelo estadístico es sólo un conjunto de supuestos probabilísticos
compatibles (internamente) de las tres grandes categorías: (D), (M) y (H).
NOTA: a aquellos lectores bien informados que no están convencidos de
que este es ciertamente el caso, mencionamos de paso que los supuestos de
distribución son a veces indirectos, en forma de suavidad y existencia de
momentos condicionales; ver el capítulo 10.
El modelo estadístico elegido representa una descripción de un mecanismo
aleatorio tentativo con el cual el modelador intenta capturar la información
sistemática en los datos (los patrones de regularidad aleatoria). Un modelo
estadístico di…ere de otros tipos de modelos en la medida en que especi…ca una
situación, un mecanismo o un proceso en términos de una cierta estructura
probabilística, que será formalmente de…nida en los capítulos 2-4.
Conceptos matemáticos tales como distribución de probabilidad, indepen-
dencia y distribución idéntica constituyen formas de estructura probabilís-
tica. De hecho, el objetivo principal de la primera parte del libro es introducir
muchos conceptos adicionales que permiten al modelador especi…car una var-
iedad de formas de estructura probabilística, su…cientemente rica como para
capturar, esperemos que todo, patrón de regularidad aleatoria. El mod-
elo estadístico se especi…ca exclusivamente en términos de tales supuestos
30CAPÍTULO 1. 1 UNA INTRODUCCIÓN A LA MODELIZACIÓN EMPÍRICA
si p entonces q.
1.3. REGULARIDAD ALEATORIA Y MODELOS ESTADÍSTICOS 35
tado de un proceso continuo con numerosos factores que in‡uyen más allá del
potencial control del modelador. La sexta recomendación en la modelación
empírica de que hay que tener en cuenta es:
6 Nunca suponga que los datos disponibles miden el concepto de la teoría
que el modelador tiene en mente sólo porque los nombres son muy similares
(o incluso coinciden)!
Un ejemplo notable es el concepto teórico de demanda contra los datos que
con frecuencia suelen estar disponibles en forma de cantidades de transacción;
ver Spanos (1995b). Como resultado de esta brecha, la modelación empírica
a menudo trata de responder a cuestiones teóricas de interés mediante la
utilización de datos que no contienen esa información.
Como argumentamos en las tres secciones anteriores, la información es-
tadística sistemática está:
(a) relacionada con los patrones de regularidad aleatoria exhibidos por
los datos observados,
(b) de…nida exclusivamente en términos de conceptos probabilísticos y
(c) carece (inicialmente) de cualesquiera connotación de teoría económica.
La clara distinción entre la información estadística sistemática y teórica,
constituye uno de los pilares básicos de la metodología de modelación em-
pírica expuesta en este libro; véase también Spanos (1986, 1995b, en preparación).
Teoría y modelos estadísticos constituyen entidades distintas construidas so-
bre información distinta, el comportamiento de los agentes económicos y la
información estadística sistemática, respectivamente. Esto constituye una
condición necesaria para el modelo estadístico que se utiliza como un testigo
imparcial sobre la base de cuyo testimonio la su…ciencia empírica del modelo
teórico se puede evaluar.
La teoría in‡uye en la elección de un modelo estadístico apropiado de
dos maneras. En primer lugar, la teoría determina la elección de los datos
observados de interés. Si bien la elección de los datos observados es cargada
de teoría, una vez elegidos, los datos adquieren una existencia objetiva que
está libre de teoría. La única in‡uencia adicional que la teoría tiene en la
especi…cación del modelo estadístico es que este último debe ser lo su…ciente-
mente general para permitir que el modelador plantee cuestiones teóricas de
interés en su contexto. Por lo tanto, las pruebas de errores de especi…cación
y reespeci…cation, facetas de la modelación empírica, no tienen nada que ver
con el modelo teórico; ellas son puramente procedimientos estadísticos deter-
minados por la noción de información estadística. La séptima recomendación
en la modelación empírica es:
1.5. DATOS OBSERVADOS 39
R+ = (0; 1)
¿Es x1 diferente de x2 ?
Las anteriores escalas de medición han sido considerados en una jerarquía
descendente de la más alta (razón, la más rica en estructura matemática) a
la más baja (nominal). Es importante señalar que los conceptos y métodos
estadísticos diseñados para una categoría de variables no se aplican necesari-
amente a las variables de otras categorías (véase el capítulo 6). Por ejemplo,
la media, la varianza y covarianza (los componentes básicos del análisis de
regresión) no tienen sentido en el caso de variables ordinales y nominales, la
mediana tiene sentido en el caso de las variables ordinales, pero no en el caso
de las nominales. En este último caso la única medida de la localización que
tiene un signi…cado es la moda. La única regla general para los métodos de
análisis de diferentes variables con escalas de medición, que se puede a…rmar
en este momento es que un método apropiado para una escala de medida de-
terminada en la jerarquía es también apropiado para escalas más altas, pero
no para las más bajas. Hay varios libros que discuten los métodos de análisis
de los llamados datos categóricos: datos medidos en la escala nominal u
ordinal (ver Bishop, Fienberg y Holland (1975), Agresti (1990), entre otras
cosas).
TERMINOLOGÍA. Es importante señalar que en la literatura estadística
hay una confusión generalizada entre las escalas de medición y tres clasi…ca-
ciones diferentes: variables discretas / continuas, cualitativas / cuantitativas
y no categóricas - categóricas. Las variables discretas se pueden medir en las
cuatro escalas y las variables continuas en ocasiones pueden ser agrupadas en
un pequeño número de categorías. Las variables categóricas son las únicas
variables que pueden medirse ya sea en la escala ordinal o en la nominal pero
la categoría de variables cualitativas confusa. En algunos libros las variables
cualitativas son sólo las que se miden en la escala nominal, pero en otros
también se incluyen las variables ordinales.
Escalas de medición y conjunto índice. Los ejemplos de escalas de
medición utilizados en la discusión anterior se re…eren exclusivamente al con-
junto Rx : el rango de valores de una variable X. Sin embargo, la discusión
también es relevante para el conjunto índice N. En el caso de la variable
consumo de los hogares discutida anteriormente, el conjunto índice (1:1) se
mide en una escala nominal. Por otra parte, en el caso de los gastos de los
consumidores el conjunto índice (1:2) se mide en la escala de intervalo. Esto
se debe a que la dimensión temporal no tiene un origen natural (cero es por
convención) y en el análisis estadístico el conjunto índice (1:2) a menudo se
sustituye por un conjunto de la forma T := f1; 2; :::; T g. Tomemos nota de
1.5. DATOS OBSERVADOS 47
razones para creer que existe una relación entre las puntuaciones y el
orden alfabético de los nombres de los estudiantes; sólo para estar seguros
se podría evaluar esta conjetura mediante la comparación de esta grá…ca
de tiempo con la que se muestra en la …gura 1.1. Por otro lado, ordenar
las observaciones de acuerdo a la disposición con que se sientan durante el
examen, como se muestra en la …gura 1.10, parece ser más interesante en el
sentido de que podría arrojar información interesante. De hecho, observando
la …gura 1.10, podemos ver una representación grá…ca bastante diferente.
Los altibajos de la última grá…ca son un poco más ordenados que los de
la …gura 1.9; ellos muestran algún tipo de comportamiento cíclico. Como se
explica en el capítulo 5, este patrón de ciclos no idénticos revela que los datos
muestran algún tipo de dependencia positiva entre el examen y el lugar donde
se sientan. En inglés franco, esto signi…ca que hubo una gran cantidad de
trampas que tuvieron lugar en el salón durante el examen! Como resultado
del análisis estadístico de los datos como se ordenan en la …gura 1.10 (véanse
los capítulos 5 y 15) fue el último examen de opción múltiple aplicado por el
autor.
Tabla 1.6. Datos de las puntuaciones del examen de Principios de Economía
98.0 43.0 77.0 51.0 93.0 85.0 76.0 56.0 59.0 62.0
67.0 79.0 66.0 98.0 57.0 80.0 73.0 68.0 71.0 74.0
83.0 75.0 70.0 76.0 56.0 84.0 80.0 53.0 70.0 67.0
100.0 78.0 65.0 77.0 88.0 81.0 66.0 72.0 65.0 58.0
45.0 63.0 57.0 87.0 51.0 40.0 70.0 56.0 75.0 92.0
73.0 59.0 81.0 85.0 62.0 93.0 84.0 68.0 76.0 62.0
65.0 84.0 59.0 60.0 76.0 81.0 69.0 95.0 66.0 87.0
La moraleja de esta historia es que aunque no hay orden natural para los
datos de sección transversal, puede haber muchas dimensiones interesantes
con respecto a las que se pueden ordenar. La décima recomendación en la
modelación empírica es:
10 las clasi…caciones de los datos, por sí mismas, no determinan la forma
y la estructura probabilística del modelo estadístico adecuado.
Como argumentamos antes, los modelos estadísticos toman en cuenta
una variedad de diferentes dimensiones y características de los datos. La
clasi…cación de los modelos de acuerdo a la clasi…cación de datos basada en
una sola de tales dimensiones, es miope.
50CAPÍTULO 1. 1 UNA INTRODUCCIÓN A LA MODELIZACIÓN EMPÍRICA
1.7 Ejercicios
1 ¿Cómo decidimos que los fenómenos económicos de interés son susceptibles
de modelación empírica?
2 Explique intuitivamente la noción de regularidad aleatoria.
3 Explique brevemente la conexión entre los patrones de regularidad
aleatoria y los conceptos de la teoría de la probabilidad.
4 Explique brevemente la conexión entre los patrones de regularidad
aleatoria y los modelos estadísticos.
5 Explique la relación entre un histograma y una distribución de proba-
bilidad con la paradoja de De Mere.
1.7. EJERCICIOS 53
fxk ; xk 2 Rx , k 2 Ng
Teoría de probabilidad: un
marco de referencia para la
modelación
2.1 Introducción
2.1.1 Objetivo principal
Objetivo: estructurar la teoría de la probabilidad para modelar fenómenos
estocásticos observables (experimentos aleatorios) que exhiben regulari-
dad aleatoria. Se modela utilizando un modelo estadístico (ME).
Se inicia informalmente, se concluye en el capítulo cuatro con un ME que
es la forma matemática de un experimento aleatorio.
55
56CAPÍTULO 2. TEORÍA DE PROBABILIDAD: UN MARCO DE REFERENCIA PARA LA
1
x
= f (x; ) = R1 exp f xg ; 2 ; x 2 R+ ,
( )= u 1 exp f ug du
0
x 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 5 4 3 2 1
f (x) 36 36 36 36 36 36 36 36 36 36 36
y
y 0 1
1 1
f (y) 2 2
P (X = x) = f (x); 8x 2 RX
y cumple
X
(a) fX (x) 0; 8x 2 RX ; (b) xi2RX fX (xi ) = 1:
y 0 1 y 0 1
1 1 !
f (y) 2 2
f (y; ) 1
que se puede escribir como
f (y; ) = y
(1 )1 y
; 2 [0; 1] ; y = 0; 1:
que es la densidad Bernoulli, con [0; 1] y Ry = f0; 1g :
2.2. MODELO ESTADÍSTICO SIMPLE: UNA VISIÓN INFORMAL 59
n
f (x; ) = x
(1 )1 x
; 2 [0; 1] ; x = 0; 1; n = 1; 2; :::;
x
n
donde = (n n!x)!x! ; n! = n (n 1) (n 2) (3) (2) (1) :
x
de Moivre y Laplace (s. XIX) incorporan la distribución normal con
densidad:
1 1
f (x; ) = p exp 2
(x )2 ; = ; 2
2 R R+ ; x 2 R:
2 2
df (x) (x 0)
= f (x) 2
; x 2 Rx :
dx 1 + 2x + 3x
Parámetros
Los parámetros se relacionarán con sus momentos. En esta etapa basta con
notar que los parámetros tienen un papel importante en la modelizaciónem-
pírica y en la inferencia estadística.
2
Conviene notar que lo apropiado de los supuestos IID en datos experimentales, en
contraste con datos observacionales, es materia de buen diseño.
3
La aproximación axiomática, como una rama de la matemática, se remonta a Euclides
que especi…ca los axiomas básicos de objetos primitivos y entonces desarrolla la teoría
(teoremas, lemmas, etc.) usando lógica deductiva
2.4. EXPERIMENTO ALEATORIO 61
S1 = fSAg ;
S2 = f(SS) ; (SA) ; (AS) ; (AA)g ;
S3 = f(SSS) ; (SSA) ; (ASS) ; (ASA) ; (AAA) ; (SAA) ; (SAS) ; (AAS)g ;
S4 = f(S) ; (AS) ; (AAS) ; (AAAS) ; (AAAAS) ; (AAAAAS) ; :::g ;
S5 = fx : x 2 Ng :
Para el experimento [7] :
S7 = fx : x 2 R; 0 x < 1g :
Eventos especiales
El conjunto (universal) S es un evento seguro: cualquiera sea el resultado,
S ocurre. Como S es subconjunto de sí mismo (S S), se tiene el conjunto
vacío: ; = S S; llamado evento imposible: cualquiera sea el resultado, ;
no ocurre6 .
Usando ; se dice que dos eventos A y B son mutuamente excluyentes
si A \ B = ;:
Usando (A \ B = ;) ^ S; se dice que los eventos A1 ; A2 ; :::; An forman una
partición de S si los eventos son:
(a)Ai \ Aj = ;; 8i 6= j; i; j = 1; 2; :::; m; (mutuamente excluyentes) y
S
m
(b) Ai = S; (exhaustivos).
i=1
6
Notar que ; es siempre subconjunto de todo S:
64CAPÍTULO 2. TEORÍA DE PROBABILIDAD: UN MARCO DE REFERENCIA PARA LA
8 9
>
> S2 ; [(SS) ; (SA) ; (AS)] ; [(SS) ; (SA) ; (AA)] ; >
>
>
> >
>
< [(SS) ; (AS) ; (AA)] ; [(AA) ; (SA) ; (AS)] ; =
P (S2 ) = [(SS) ; (SA)] ; [(SS) ; (AS)] ; :
>
> >
>
>
> [(SS) ; (AA)] ; [(SA) ; (AS)] ; [(SA) ; (AA)] ; >
>
: ;
[(AS) ; (AA)] ; [SS] ; [SA] ; [AS] ; [AA]
al lanzar una moneda tres veces, S tiene ocho elementos lo que implica que
P (S) = 28 = 256 elementos; muchos para enumeralos.
Esto se complica más si S es contable pero in…nito (como en ej. 6). En
este caso P (S) ; aunque no es in…nito, tendrá el orden de in…nitud de los
reales. Además, cuando S no es contable, P (S) incluye subconjuntos que
no se pueden considerar eventos y no se les puede asignar probabilidades
(Billingsley, 1986). .
La forma de superar estas di…cultades es evitar al conjunto potencia y
dotar al espacio de eventos de una estructura matemática especí…ca (un
campo o un -campo) que asegure que si A y B son eventos, todo otro evento
que resulte de combinar estos eventos con operaciones teóricas de conjuntos
serán también elementos del mismo espacio de eventos. (Homeomor…smo).
Ejemplo.
Sea el ejemplo ”lanzar una moneda tres veces” y asumir que los eventos
de interés son sólo A1 = f(SSS)g y A2 = f(AAA)g ; entonces no se necesita
de…nir al conjunto potencia como el espacio de eventos. En su lugar se puede
de…nir:
=3 = S3 ; ;; A1 ; A2 ; (A1 [ A2 ) ; A1 ; A2 ; A1 \ A2
con ocho elementos y no 36 que contendría el conjunto potencia. Se
veri…ca que =3 es cerrado bajo operaciones teóricas:
(S3 [ ;) = S3 2 =3 ; (S3 \ ;) = ; 2 =3 ; S3 = ; 2 =3 ;
A1 [ A2 = A1 \ A2 2 =3 ; etc.
Campo
Una colección = de subconjuntos de S es un campo si cumple:
(i) S 2 =;
(ii) si A 2 =; A 2 =;
66CAPÍTULO 2. TEORÍA DE PROBABILIDAD: UN MARCO DE REFERENCIA PARA LA
(iii) si A; B 2 =; (A [ B) 2 =:
Signi…ca que = = 6 ; (por (i)), es cerrado bajo complemento (debido a
(ii)), uniones …nitas (debido a (iii)) e intersecciones …nitas (debido a (ii) y
(iii)).
Ejemplos.
1. El conjunto potencia de un conjunto …nito de resultados, como P (S2 ) ;
es un campo.
2. =0 = fS; ;g es el campo trivial de todo conjunto …nito de resultados
S. =0 es un campo porque:
S 2 =0 ; S [ ; = S 2 =; S \ ; =; 2 =0 y S ; = S 2 =0 :
3. = (A) = S; ;; A; A es el campo generado por el evento A: = (A) es
campo porque:
Generando un campo
Para ilustrar como se genera un campo a partir de un conjunto de eventos
de interés, considerar el caso donde el conjunto es D1 = fA; Bg : La gen-
eración del campo se hace en relación al ejemplo de ”lanzar una moneda
dos veces”, donde S2 = f(SS) ; (SA) ; (AS) ; (AA)g ; A = f(SS) ; (SA)g y
B = f(SA) ; (AS)g y el campo es el conjunto potencia P (S2 ) :
8 9
>
> S2 ; [(SS) ; (SA) ; (AS)] ; [(SS) ; (SA) ; (AA)] ; >
>
>
> >
>
< [(SS) ; (AS) ; (AA)] ; [(AA) ; (SA) ; (AS)] ; =
P (S2 ) = [(SS) ; (SA)] ; [(SS) ; (AS)] ; :
>
> >
>
>
> [(SS) ; (AA)] ; [(SA) ; (AS)] ; [(SA) ; (AA)] ; >
>
: ;
[(AS) ; (AA)] ; [SS] ; [SA] ; [AS] ; [AA]
2.6. FORMALIZACION DE [B] 67
=3 = S3 ; ;; A1 ; A2 ; (A1 [ A2 ) ; A1 ; A2 ; A1 \ A2 ;
Considerar los eventos fA1 ; A2 ; :::; An g que constituyen una partición de
S, entonces el conjunto de todas las posibles uniones de elementos de A =
f;; A1 ; A2 ; :::; An g forman un campo.
Ejemplo.
Al lanzar una moneda tres veces:
= (A) = fB : B = [i2I Ai ; I Ng :
\1 1 1
i=1 Ai 2 =; dado que [i=1 Ai = \i=1 Ai :
El -campo de Borel
En teoría de probabilidad el campo más importante es el campo de
Borel (B (R))de…nido sobre R: Hasta aquí se han considerado campos
generados por un arbitrario S cuya única estructura matemática es la teoría
de conjuntos. Desde luego, la recta real no es un conjunto en el mismo sentido
del conjunto de resultados del experimento ”lanzar una moneda dos veces”.
Ésta tiene una estructura que permite de…nir orden, distancia, convergencia,
etc. de sus elementos. La estructura que aquí interesa es la que permite
de…nir convergencia, conocida como estructura topológica. Dada la densidad
de R, la mejor forma de de…nir un -campo en un conjunto in…nito es de…nirlo
a través de sus elementos que pueden generar este conjunto. En el caso de
R, se pueden usar para generar un (B (R)), un número de distintos intervalos
tales como (a; 1) ; (a; b] ; (a; b) ; ( 1; b). Para este propósito, es adecuado, en
particular, el intervalo ( 1; x]. Por ejemplo, considerar cómo estos intervalos
(( 1; x]) pueden generar el (B (R)) :
Iniciar con el un conjunto de subconjuntos de R de la forma:
Bx = f( 1; x] : x 2 Rg ;
que es cerrado bajo intersecciones …nitas, es decir, 8 (x; y) 2 R
Hasta ahora:
8 9
< [a] ) S, =
E [b] ) (=; ?) ;
: ;
[c] ) (?) :
P (:) : = ! [0; 1]
que satisface los axiomas10 :
[1] P (S) = 1; 8S;
[2] P (A) 0; 8A 2 =;
[3] Aditividad contable. Para un sucesión de eventos mutuamente ex-
cluyentes, es decir, Ai 2 =; i = P1; 2; :::; n tal que Ai \ Aj = ;; 8i 6= j; i; j =
1; 2; :::; n entonces P ([i=1 A) = 1
1
i=1 P (Ai ) :
El axioma [3] proporciona una forma de asignar probabilidades a eventos
utilizando eventos mutuamente excluyentes. Este mecanismo se describe
utilizando distintos tipos de conjuntos de resultados.
(a) Conjunto …nito de resultados S = fs1 ; s2 ; :::; sn g :
9
Una función f : A ! B es una relación (todo subconjunto del producto cartesiano
A B) entre los conjuntos A y B que satisface la restricción de que 8x 2 A, existe un
elemento único y 2 B tal que (x; y) 2 f: Los conjuntos A y B son el dominio y el codominio
de la función f ( ) : El conjunto G = f(x; y) 2 f : x 2 A; y 2 Bg es el grá…co de la función.
10
Concebir a la probabilidad como una medida en el contexto de la teoría avanzada de
la integración llamada teoría de la medida, llevó a Kolmogorov (1933) a axiomatizar la
teoría de la probabilidad.
2.6. FORMALIZACION DE [B] 71
1 1 1
P (A3 ) = P (A1 ) + P (A2 ) = + = ;
8 8 4
1 7
P (A4 ) = P (S3 ) P (A1 ) = 1 = ;
8 8
1 7
P (A5 ) = P (S3 ) P (A2 ) = 1 = ;
8 8
3
P (A6 ) = P A1 \ A2 = 1 P (A1 [ A2 ) =
4
2. En el experimento aleatorio ”lanzar una moneda dos veces”, consid-
erar la asignación de probabilidades al evento: A = f(SS) ; (SA) ; (AS)g : La
distribución de probabilidad toma la forma:
72CAPÍTULO 2. TEORÍA DE PROBABILIDAD: UN MARCO DE REFERENCIA PARA LA
1 1 1
P (SS) = ; P (SA) = ; P (AS) = :
4 4 4
Esto sugiere que P (A) = P (SS) + P (SA) + P (AS) = 43 :
En el caso donde S es in…nito esta forma de asignar probabilidades no es
apropiada. Una forma más e…ciente de hacerlo es dada por el concepto de
función de densidad de…nida en el capitulo que siguiente.
(b) Conjunto contable de resultados: S = fs1 ; s2 ; :::; sn ; :::g :
Es una extensión del caso …nito donde los resultados elementales s1 ; s2 ; :::; sn ; :::
son mutuamente excluyentes y conforman una Ppartición de S; es decir, [1i=1 si =
1 1
S. El axioma [3] implica que P ([i=1 si ) = i=1 P (si ) = 1 (por axioma [1])
y sugiere que la asignación de probabilidades a los resultados proporciona la
distribución de probabilidad sobre S :
X1
[p (s1 ) ; p (s2 ) ; :::; p (sn ) ; :::] ; tal que p (si ) = 1:
i=1
En contraste con el caso …nito, las probabilidades [p (s1 ) ; p (s2 ) ; :::; p (sn ) ; :::]
no pueden ser iguales porque 8pP> 0; no obstante pequeña, donde p (sn ) = p
8n = 1; 2; 3; :::; es decir 8p > 0; 1 i=1 p = 1:
Notar que la única formaPde acotar esta suma es hacer que p sea función
de n; por ejemplo, pn = n1 : 1 1
i=1 nk < 1; para k > 1:
Ejemplo.
Considerar el caso, ”lanzar una moneda no perfecta hasta que aparezca
un sol”siendo el espacio de eventos el conjunto potencia de
Aquí,
P (S) = y P (A) = 1 y P (AS) = (1 ) ; P (AAS) = (1 )2 ;
3 4
P (AAAS) = (1 ) ; P (AAAAS) = (1 ) ; P (AA:::AS) = (1 )n ;
etc.
(c) Conjunto no contable de resultados S:
Sin pérdida de generalidad, considerar:
2.6. FORMALIZACION DE [B] 73
S = fx : 0 x 1; x 2 Rg :
Para usar el axioma [3] este intervalo se puede expresar como unión con-
table de conjuntos disjuntos Ai ; i = 1; 2; 3; :::
[0; 1] = [1
i=1 Ai
[a] ! S;
E
[b] ! (=; P (:))
donde = es el campo de subconjuntos de S llamado espacio de eventos
y P (:) es una función (de probabilidad) que satisface los axiomas [1]-[3]. La
terna
(S; =; P (:))
de…ne un espacio de probabilidad11 . Este espacio tiene la estructura
matemática necesaria para usarse como fundamento para construir la teoría
de la probabilidad.
Generalmente, en la aproximación matemática, el siguiente paso es
lógica matemática
(S; =; P (:)) ! Teoría de probabilidad
Aquí, siendo el objetivo la modelacion:
lógica deductica
Axiomas (premisas) ! Teoremas
11
Pfei¤er (1978) y Khazanie (1976).
2.6. FORMALIZACION DE [B] 75
Ejemplo.
Para A de…nido en ejemplo 1 y B = f(SS) ; (AA)g ; el teorema 3 implica
que P (A [ B) = 43 + 12 14 = 1:
El teorema que sigue es de gran interés matemático. Se da una prueba
sólo parcial. Una prueba completa está en Karr (1993).
Teorema 4. (propiedad de continuidad de la función de probabil-
idad). Para fAn g1n=1 2 =; si lim An = A 2 =; entonces lim P (An ) = P (A) :
n!1 n!1
Según este teorema, el límite de una sucesión de eventos es también un
evento. ?‘Qué signi…cado dar a esto?. Una respuesta parcial se da notando
que para dos tipos especiales de sucesiones, el límite se de…ne en términos de
uniones e intersecciones contables.
76CAPÍTULO 2. TEORÍA DE PROBABILIDAD: UN MARCO DE REFERENCIA PARA LA
[
1
lim (An ) = An = A1 + (A2 A1 ) + (A3 A2 ) +
n!1
n=1
Este es un espacio de probabildad porque S(n) = s(n) : s(n) := (s1 ; s2 ; :::; sn ) ; si 2 Si ; i = 1; 2; :::; n
es un conjunto de resultados, =(n) tiene la estructura necesaria de un campo
(para n …nito) y P(n) es una función satisface los axiomas [1]-[3]: (Ver Parthasarathy,
1977).
Establecido que el espacio de probabilidad producto es un espacio de
probabilidad, se procede a ver la sucesión de pruebas fA1 ; A2 ; :::; An g como
un evento en S(n) ; =(n) ; P(n) ; al que se le pueden asignar probabilidades.
El componente (i) de la condición [c] se formaliza asegurando que S(n) ; =(n) ; P(n)
es el mismo en cada prueba en el sentido de que:
P (A \ B)
P (AjB) = ; para P (B) > 0;
P (B)
8 evento A 2 =; donde P (.) es la función de probabilidad original de…nida
en =:
Ejemplo.
Veri…car esto, con A = fASg y con B: Como (A \ B) = fASg ; P (AjB) =
1
1
3 = 3:
4
4
Usando la fórmula condicional, de deduce la regla de probabilidad pro-
ducto:
P (A) P (BjA)
P (AjB) = ; para P (B) > 0;
P (B)
Independencia. La noción de condicionamiento se puede usar para de-
terminar si dos eventos A y B son independientes, lo que ocurre si: P (AjB) =
P (A) ; o alternativamente, si P (A \ B) = P (A) P (B)12 :
Ejemplo. (Lanzar dos monedas).
12
Esta noción de independencia se remonta a Cardano (1550).
2.8. ESPACIO ESTADÍSTICO 79
El concepto de modelo de
probabilidad
3.1 Introducción
3.1.1 La historia hasta ahora
En el capítulo anterior hemos iniciado el largo viaje para explorar la teoría
de la probabilidad que se re…ere a la con…guración de un marco de referen-
cia teórico (matemático) para modelar fenómenos estocásticos: fenómenos
observables que muestran regularidad aleatoria. El camino particular que
seguimos se inició con la formalización de la noción de un experimento aleato-
rio E, de…nido por las siguientes condiciones:
[a] todos los posibles distintos resultados se conocen a priori,
[b] en un ensayo particular, los resultados no se conocen a priori, sino que
existe una regularidad perceptible de ocurrencia, asociada con estos resulta-
dos y
[c] se puede repetir en condiciones idénticas.
La matematización tomó la forma de un espacio estadístico (S; =; P (:))n ; GnIID
donde (S; =; P (:)) es un espacio de probabilidad y GnIID es un espacio mues-
tral simple.
El objetivo principal de este capítulo es transformar el espacio abstracto
de probabilidad (S; =; P (:)) en algo apropiado para la modelación empírica
utilizando datos numéricos; algo de…nido en la recta real. El objetivo …nal de
este capítulo es la formulación de lo que llamamos un modelo de probabil-
idad, uno de los dos pilares de un modelo estadístico; y el otro es el modelo
81
82 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
P (:) : = ! [0; 1]
por una función numérica mucho más simple punto a punto, la función
de distribución acumulada (fda), de…nida en términos de X :
FX (:) : R ! [0; 1]
fX (:) : R ! [0; 1)
Ejemplo
En el caso de Y (:) como se de…ne en (3.2) podemos generar un espacio
para eventos =Y con respecto al cual es una variable aleatoria simple, de la
siguiente manera
(i) de…nir todos los eventos asociados con Y (:) :
1
AX = fs : X (s) = xg = X (x) ; x 2 R.
NOTE que la preimagen de X no es la función inversa habitual. El
concepto de una preimagen de un elemento del codominio se ilustra en la
…gura 3.1.
Cuarto, los valores de R que no pertenecen a Rx tienen al conjunto vacio
; como su preimagen. El conjunto vacío, sin embargo, pertenece siempre a
todo =:
1
X (x) = fs : X (s) = xg = ; 2 =; 8x 2 Rx := (R Rx ) :
En un cierto sentido, el concepto de variable aleatoria conserva la estruc-
tura de eventos de un espacio particular de eventos =, al asegurar que la
preimagen de la función X (:) : S ! RX , de…ne un mapeo
1
X (:) : R ! =
1; s 2 A
IA (s) =
0; s 2
=A
3.2. EL CONCEPTO DE VARIABLE ALEATORIA SIMPLE 87
fX (:) = P (X = x) ; 8x 2 RX . (3.4)
NOTE que (X = x) es una notación abreviada para AX := fs : X (s) = xg.
= RX , X 1 (x) = ; y, por lo tanto, fX (X) = 0, para toda
Con claridad, x 2
x2= RX .
Ejemplo. En el caso de la función indicador, si permitimos que X (s) :=
IA (s), podemos de…nir la densidad de probabilidad de la siguiente manera:
fX (1) := P (X = 1) = ; y fX (0) := P (X = 0) = (1 ),
donde 0 1. Esto se conoce como la densidad de Bernoulli:
x 0 1
fX (x) (1 )
¿Qué hemos ganado?
En el contexto del espacio de probabilidad original (S; =; P (:)), donde
S = fs1 ; s2 ; :::; sn g, la estructura probabilística del experimento aleatorio se
ha especi…cado en términos de
88 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
X
n
fp (s1 ) ; p (s2 ) ; :::; p (sn )g ; tal que p (si ) = 1.
i=1
X
k
P (A) = p (si ) :
i=1
Ejemplo
En el caso del experimento aleatorio de "lanzar una moneda dos veces":
A0 = fs : X = 0g = f(T T )g ;
A1 = fs : X = 1g = f(HT ) ; (T H)g ;
A2 = fs : X = 2g = f(HH)g :
1
P (A0 ) = P fs : X = 0g = P f(T T )g = ;
4
1
P (A1 ) = P fs : X = 1g = P f(HT ) ; (T H)g = ;
2
1
P (A2 ) = P fs : X = 2g = P f(HH)g = :
4
3.2. EL CONCEPTO DE VARIABLE ALEATORIA SIMPLE 89
Xm
ffX (x1 ) ; fX (x2 ) ; :::; fX (xm )g ; tal que fX (xi ) = 1; m n;
i=1
fX (x; ) = x
(1 )1 x
; x = 0; 1; y 0 1; (3.6)
que especi…can la distribución implícitamente. Para cada valor de X la
función fX (x) especi…ca su probabilidad. Esta fórmula constituye una forma
más compacta de especi…car la distribución dada anteriormente.
(b) Usando tales fórmulas no es necesario conocer las probabilidades aso-
ciadas a los eventos de interés a priori. En el caso de la fórmula anterior,
podría ser desconocido y el conjunto de tales funciones de densidad se le
conoce como una familia de funciones de densidad indexadas por . Esto
es particularmente importante para los propósitos de modelización donde
dicha colección de funciones de densidad proporciona la base de modelos
de probabilidad. En cierto sentido, la incertidumbre sobre el resultado de
una prueba particular (condición [b] de…niendo un experimento aleatorio) se
ha convertido en la incertidumbre sobre el "verdadero" valor del parámetro
desconocido .
La distribución de…nida por (3.6) se conoce como la distribución de
Bernoulli. Esta distribución se puede utilizar para describir los experimen-
tos aleatorios con sólo dos resultados.
90 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
Ejemplo
Considere el experimento aleatorio de "lanzar una moneda dos veces":
S = f(HH) ; (HT ) ; (T H) ; (T T )g ; = = S; ;; A; A ;
donde el evento de interés es, por ejemplo A = f(HH) ; (HT ) ; (T H)g,
con P (A) = ; P A = 1 . De…niendo la variable aleatoria X(A) = 1
y X(A) = 0, la estructura probabilística del experimento es descrita por
la densidad de Bernoulli (3:6). Este tipo de experimento aleatorio se puede
extender fácilmente a n repeticiones del mismo experimento de dos resultado,
dando origen a la distribución llamada binomial discutida posteriormente.
Ejemplo
Considere el experimento aleatorio de "lanzar una moneda n veces y con-
tar el número de soles". El conjunto de resultados de este experimento se
de…ne por S = fS; Agn (el producto de fS; Ag n veces) con P (S) = ;
P (A) = 1 . De…nir la variable aleatoria:
X: el número total de S en n pruebas.
NOTE que el rango de valores de esta nueva variable aleatoria es RX =
f0; 1; 2; :::; ng. La variable aleatoria X está distribuida binomialmente y su
función de densidad para 0 x n es:
n
fX (x; ) = x
(1 )n x
; 0 x n; n = 1; 2; :::; 0 1; (3.7)
x
n n!
donde = (n k)!k!
; con n! = n (n 1) (n 2) (3) (2) (1).
x
3.2. EL CONCEPTO DE VARIABLE ALEATORIA SIMPLE 91
X
1
fp (s1 ) ; p (s2 ) ; :::; p (sn ) ; :::g ; tal que p (si ) = 1:
i=1
X
k
P (A) = p (si ) :
i:fsi 2Ag
Ejemplo.
Consideremos el experimento aleatorio aleatorio "lanzar una moneda hasta
que la primera H aparece" . El conjunto de resultados es:
S = f(H) ; (T H) ; (T T H) ; (T T T H) ; (T T T T H) ; ::::g :
fX (x; ) = (1 )x 1
; 0 1; x 2 RX = f1; 2; 3; :::g
f( 1; x]g 8x 2 R.
Variable aleatoria
En vista de la discusión anterior, cualquier intento de de…nir una variable
aleatoria utilizando la de…nición de una variable aleatoria simple:
1
X (:) : S ! RX tal que fs : X (s) = xg := X (x) 2 =8x 2 R (3.9)
1
fs : X(s) xg := X (( 1; x]) 2 = para todo x 2 R: (3.10)
fs : X(s) = xg fs : X(s) xg
3.3. EL CONCEPTO GENERAL DE VARIABLE ALEATORIA 95
ß
(R) = (( 1; x] ; x 2 R).
1
X (:) : ß
(R) ! =
1
P (X x) = PX (( 1; x]) = PX (( 1; x]) ,
96 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
Es muy importante NOTAR en esta etapa que los eventos en los términos
primero y segundo son los elementos del espacio de eventos = pero que el de
la última igualdad es un elemento de ß (R). Ahora estamos en condiciones
para asignar probabilidades a intervalos de la forma (( 1; x] ; x 2 R) cuya
preimagen pertenece a =. Para otros intervalos de la forma (a; b), [a; b], [a; b),
( 1; a), etc podemos usar el teorema de extensión de Caratheodory para ex-
tender la función conjunto de probabilidad con el …n a asignar probabilidades
a cada elemento Bx de ß (R).
1
PX (Bx ) = PX (Bx ) para todo Bx 2 ß(R) .
Esto de…ne una nueva función conjunto de probabilidad como una función
compuesta PX 1 (:) donde P (:) : = ! [0; 1] ; X 1 : ß(R) ! =, y por lo tanto:
1
PX (:) := PX (:) : ß(R) ! [0; 1] :
Reuniendo los elementos anteriores podemos ver que, en efecto, una vari-
able aleatoria X induce un nuevo espacio de probabilidad (R; ß(R) ; PX (:))
con el que podemos reemplazar el abstracto espacio de probabilidad (S; =; P (:)).
La principal ventaja del primero sobre el segundo es que todo tiene lugar en
la recta real y no en un espacio abstracto. En analogía directa con los re-
sultados del caso de conjunto contable de resultados, el concepto general de
una variable aleatoria induce el siguiente mapeo:
X(:)
(S; =; P (:)) ! (R; ß(R) ; PX (:))
Es decir, con la ayuda de X(:) intercambiamos S por R, = por ß (R) y P (:)
por PX (:). Para …nes de referencia llamamos a (R; ß(R) ; PX (:)) el espacio
de probabilidad inducido por una variable aleatoria X; ver Galambos (1995).
Funciones Borel (medibles). En teoría de la probabilidad estamos
interesados no sólo en las variables aleatorias, sino también en funciones bien
comportadas de dichas variables aleatorias. Por funciones bien comportadas
en el cálculo, por lo general nos referimos a funciones continuas o diferen-
ciables. En teoría de la probabilidad por funciones bien comportadas nos
referimos a las funciones que conservan la estructura de eventos de su argu-
mento variable aleatoria. Una función de…nida por:
1
h(:) : R ! R tal que fh(x) xg := h (( 1; x]) 2 ß(R) , para todo x 2 R,
3.4. LA DISTRIBUCIÓN ACUMULADA Y FUNCIONES DE DENSIDAD97
La táctica que llevo a esta de…nición empezó hace unas cuantas páginas
cuando argumentamos que aún cuando podríamos usar cualquiera de los
siguientes intervalos (véase Galan (1995)):
X(:)
(S; =; P (:)) ) (RX ; fX (:)) ;
donde RX = fx1 ; x2 ; :::; xn ; :::g : La estructura probabilística original se
ha transformado en:
X
ffX (x1 ) ; fX (x2 ) ; :::; fX (xm;::: )g ; tal que fX (xi ) = 1:
xi 2RX
X(:)
(S; =; P (:)) ! (RX ; FX (:)) ,
con la fda siendo el último eslabón de la cadena. La razón por la cual
la función de densidad no se puede de…nir directamente en este caso ha sido
discutido ampliamente en el capítulo anterior.La esencia del argumento es
que en el caso de un conjunto no contable de resultados no podemos de…nir
la probabilidad en un punto sino sólo en un intervalo.
fX (:) : R ! ( 1; x] ;
tal que se relaciona con la fda a través de:
100 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
Z x
FX (x) = fX (u) du; donde fx (u) 0, (3.14)
1
x
FX (x; ) = 1 e ; > 0; x 2 R+ := [0; 1)
La grá…ca de la función de distribución para = 3 se muestra en la …gura
3.6. Teniendo en cuenta el hecho de que FX (x; ) es continua para todo
3.4. LA DISTRIBUCIÓN ACUMULADA Y FUNCIONES DE DENSIDAD101
Xk
FX (xk ) = P (fs : X(s) xk g) = fX (xi ) ; para k = 1; 2; :::; n: (3.15)
i=1
Xk
FX (xk ) = P (fs : X(s) xk g) = fX (xi ) ; para k = 1; 2; :::; n:
i=1
102 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
fX (1) = y fX (0) = 1 ,
donde 0 1 (ver 3.5). Esto se muestra en la …gura 3.8 para un valor
conocido de , denotado por = 0:6. La fda correspondiente toma la forma
FX (0) = ; FX (1) = 1:
8 9
< 0; x < 0 =
FX (x) = ; 0 x 1;
: ;
1; 1 x:
3.4. LA DISTRIBUCIÓN ACUMULADA Y FUNCIONES DE DENSIDAD103
1 (x )2
fX (x; ) = p expf g; (3.16)
2 2 2
: = ; 2 2 R Rx , x 2 R.
La grá…ca de esta función de densidad, que se muestra en la …gura 3.10
con = 0 y 2 = 1, exhibe la bien conocida forma de campana con la que
la distribución normal es fácilmente reconocible. La fda para la distribución
normal es:
104 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
Zx
1 (x )2
FX (x; ) = p expf 2
gdu; (3.17)
2 2
1
2
: = ; 2R Rx , x 2 R.
1
fX (x; ) = , : = (a; b) 2 R2 , a x b. (3.18)
b a
x a
FX (x; ) = , : = (a; b) 2 R2 , a x b. (3.19)
b a
1
fX (x; ) = , es un entero x = 0; 1; 2; :::; . (3.20)
+1
x+1
FX (x; ) = , es un entero, x = 0; 1; 2; :::; . (3.21)
+1
1
pk = , para = 9, k = 1; 2; :::; 9.
+1
108 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
FX (x) = PX ( 1; x] .
En la última etapa hemos simpli…cado FX (:) aún más mediante la intro-
ducción de la función de densidad a través de:
Z x
FX (x) = fX (u) du, fX 0; para todo x 2 R.
1
X(:)
(S; =; P (:)) ) (R; ß(R) ; PX (:)) ) ffX (x; ); 2 ; x 2 RX g :
= ffX (x; ); 2 ; x 2 RX g
F = fF (x; ); 2 ; x 2 RX g
es aún más general que (3.24). Como puede verse en las grá…cos ante-
riores de las distintas fda y funciones de densidad, sin embargo, la forma
de las funciones de densidad es más fácil juzgar que la de la fda. Por ra-
zones matemáticas, a menudo pre…eren las fda, pero para los propósitos de
modelizaciónpor lo general preferimos la función de densidad. La noción
de modelo de probabilidad, tal como se de…ne en términos de funciones de
densidad, es conveniente para los propósitos de modelación, ya que, como se
muestra en el capítulo 5, existe una relación útil entre este concepto teórico
y los datos observados. Veremos cómo la noción de un función de densidad
constituye la contraparte de la teoría de la probabilidad de la noción de un
histograma en la estadística descriptiva y cómo esto se relaciona con una
grá…ca de tiempo de un conjunto de datos. En resumen, podemos construir
una relación directa entre el modelo de probabilidad y los datos reales con el
…n de ayudar en la elección de modelos adecuados.
Hay varias cosas que vale la pena enfatizar sobre el modelo de probabili-
dad de…nido en (3.24). En primer lugar, el modelo de probabilidad representa
una colección completa de densidades, a menudo un número in…nito, depen-
diendo de la naturaleza del espacio de parámetros : En cierto sentido, el
parámetro(s) encapsular la incertidumbre inicial en relación con el resul-
tado de una prueba particular, (condición [b]). En segundo lugar, el modelo
de probabilidad tiene tres componentes importantes: (i) la función de den-
sidad de una variable aleatoria X, (ii) el espacio de parámetros y (iii) el
rango de valores de la variable aleatoria que se trata RX . Para signi…car la
importancia del componente (iii) le damos un nombre especial.
3.5. DE UN ESPACIO DE PROBABILIDAD A UN MODELO DE PROBABILIDAD111
( )
1 1
x (1 x)
= f (x; ) = , = ( ; ) 2 R2+ , 0 < x < 1
B[ ; ]
( )
1 1
x x
= f (x; ) = expf g, = ( ; ) 2 R2+ , x 2 R+ .
[ ]
1
x x
= f (x; ) = expf g, = ( ; ) 2 R2+ , x > 0 .
114 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
El modelo de probabilidad constituye uno de los dos pilares sobre los que
vamos a construir la noción de un modelo estadístico, la piedra angular de
la inferencia estadística (y de la modelizaciónempírica); el otro pilar es el
modelo muestral que se discutirá en el próximo capítulo.
( )
1
x x
= f (x; ) = expf g, = ( ; ) 2 R2+ , x > 2R .
= ffX (x; ); 2 ; x 2 RX g
que tiene que elegir un modelo tal a priori debido a que ellos son descono-
cidos! Por lo tanto, nos gustaría utilizar otro tipo de información que está
disponible a priori al hacer dicha elección. Junto con el histograma de los
datos, a menudo tenemos una serie de valores numéricos, tales como medias
aritméticas de la estadística descriptiva. Estos valores numéricos se relacio-
nan con lo que llamamos momentos de la distribución y se pueden utilizar
para hacer conjeturas con respecto a los parámetros desconocidos y por lo
tanto para las distintas formas de distribución.
Los momentos de una distribución se de…nen en términos de la esperanza
matemática de determinadas funciones de la variable aleatoria X, genérica-
mente denotados por h(X), de la siguiente manera:
Z 1
E [h(X)] = h (X) fX (x; )dx: (3.26)
1
E [h(X)] = g( ). (3.27)
Eligiendo formas especí…cas de la función h(X), tales como
Z 1
E [X] = xfX (x; )dx, para variables aleatorias continuas, (3.29)
1
X
E [X] = xi fX (xi ; ), para variables aleaorias discretas. (3.30)
xi 2RX
:= E [X]
1 (x )2 2
f (x; ) = p expf 2
g; : = ; 2R R+ , x 2 R:
2 2
120 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
Z " #
1
1 (x )2
E (X) = x p exp 2
dx
1 2 2
Z 1
( z+ ) z2
= p exp ( ) dz
1 2 2
Z 1 Z 1
z2 1 z2
= p z exp dz + p exp dz
2 1 2 1 2 2
= 0 + (1) =
(ii) En el caso donde X tiene una distribución normal (ver (3.31)), uti-
lizando la misma sustitución, x = z + , podemos demostrar que la vari-
anza coincide con el parámetro desconocido 2 es decir, Var(X) = E [X 2 ]
(E [X])2 = 2 ya que
Z " #
1
1 (x )2
E X2 = x2 p exp 2
dx
1 2 2
Z !
1
( z + )2 z2
= p exp ( ) dz
1 2 2
Z 1 Z 1
2 z2 z2 2 z z2
= p exp dz + p p exp dz
1 2 2 2 1 2 2
Z 1 2
1 z
+ 2 p exp dz
1 2 2
= 2 + 0 + 2 = 2 + 2,
2
Figura 3.26 Normal: diferentes .
V ar (X)
P (jX E (X)j > ") , para todo " > 0.
"2
Desviación estándar
La raíz cuadrada de la varianza, conocida como la desviación estándar,
también se utiliza como una medida de dispersión:
1
SD(X) = [V ar (X)] 2 .
El término desviación estándar fue propuesto por primera vez por Pearson
1
(1894) quien utilizó la notación = [V ar (X)] 2 . Esta medida es particular-
mente útil en inferencia estadística, ya que nos proporciona la mejor forma
de estandarizar cualquier variable aleatoria X cuya varianza existe. Una de
las reglas prácticas más útiles en la inferencia estadística es la siguiente:
Una variable aleatoria es tan "grande"como su desviación estándar (siem-
pre que exista!).
Por lo tanto, cuando tenemos que hacer una variable aleatoria libre de
sus unidades de medida la dividimos por su desviación estándar, es decir,
de…nimos la variable estandarizada:
X
X := 1 , donde V ar (X ) = 1,
[V ar(X)] 2
3.7. MOMENTOS 123
3.7 Momentos
En esta sección consideramos dos tipos de momentos, los momentos crudos
de orden superior y los momentos centrales, que constituyen generalizaciones
directas de la media y la varianza, respectivamente. La idea de los momentos,
en general, se tomó prestada de la mecánica clásica, donde la media, E(X), es
la abscisa del centro de gravedad de la masa de la distribución y la varianza,
V ar(X), representa el momento de inercia de la masa de la distribución con
respecto a un eje perpendicular a través del punto x = E (X). Los seis
primeros momentos de la distribución normal fueron usados por un número
de analistas en todo el siglo 18 como Gauss y Quetelet. El primero en acuñar
el término momentos fue Pearson (1893).
Ejemplos
(i) En el caso de la distribución Bernoulli:
0 r r
r ( ) = E (X ) = 0 (1 ) + 1r = ; para todo r = 1; 2; 3; 4; :::
124 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
Es decir, todos los momentos crudos son los mismos. El segundo momento
crudo es a menudo útil en la obtención de la varianza utilizando la igualdad:
0; para r = 3; 5; 7; :::
E (X r ) =
(1 3 (r 1)) r ; para r = 2; 4; 6; :::
(iii) Considere la variable aleatoria exponencial X con una función de
densidad:
x
fX (x; ) = e ; x>0, >0
Z 1
0 r
r ( ) : = E (X ) = xr e x
dx
0
X
1
e r X1
(et )
r X
1 r
= e (e 1) ya que
t
et
mX (t) = etX =e =e e =e .
r=0
r! r=0
r! r=0
r!
Z b
1 ebt eat
mX (t) := etX dx = ; para t 6= 0. (3.32)
a b a (b a) t
X1 tr
mX (t) := E etX = E (X r ) para t 2 ( h; h) y algún h > 0.
r=0 r!
126 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
Esto sugiere que, suponiendo que mX (t) existe, podemos recuperar el mo-
mento crudo 0r ( ) := E (X r ) como el (r + 1) ésimo término en la expansión
anterior, ya sea directamente cuando la fgm puede expandirse como una se-
rie de potencias en potencias de t, o indirectamente utilizando diferenciación
(there is some hand waving here as well) a través de:
r
E (X r ) = dtd r mX (t)jt=0 := mrX (0), r = 1; 2; :::
dmX (t) 2
0
1 := E (X) = dt
jt=0 ; 02 := E (X 2 ) = d mdtX2 (t) jt=0 ; :::; 0r := E (X r ) =
dr mX (t)
dtr
jt=0 .
La intuición detrás de este resultado es el siguiente: observando (3.33)
r
podemos ver que diferenciando mx(t) r veces, los términos hasta E (X r ) tr!
desaparecen y se convierte en el segundo:
0
E (X r ) [r(r 1)(rr! 2) 1]t = X r .
Los términos con potencia mayor que r implican a t, lo que signi…ca que
cuando sustituimos t = 0 ellos desaparecen, dejándonos sólo con E (X r ).
Ejemplo
Para una variable aleatoria distribuida Poisson X, mX (t) = e e(t 1) , y
entonces:
d
mX (t) jt=0 = e (e 1)
t et
E (X) = jt=0 = ,
dt
d2
mX (t) jt=0 = e (e 1) + e (e 1) 2 e2t jt=0 =
t et t 2
E X2 = + .
dt
Lema de unicidad. Un hecho importante acerca de la fgm es que cuando
ésta existe (no siempre), es única en el sentido de que dos variables aleatorias
X e Y que tienen la misma fgm deben tener la misma distribución y viceversa.
Usando este lema podemos probar un resultado muy útil que proporciona
la base para la simulación de variables aleatorias con características distribu-
cionales especí…cas. Esto nos permite utilizar números aleatorios generados
a partir de una distribución uniforme como la base para la generación de
números aleatorios para varias distribuciones continuas (véase el capítulo 5).
Lema de transformación de la integral de probabilidad. Para
cualquier variable aleatoria continua X, con fda FX (X) (con independen-
cia de su forma), la variable aleatoria de…nida por Y = FX (X) tiene una
distribución uniforme en el intervalo (0; 1), es decir
Y = FX (X) ~U (0; 1).
Prueba. La fda de Y toma la forma:
3.7. MOMENTOS 127
R1 tF (X) t
mY (t) := E etY = E etF (X) = 1 etF (X) f (x)dx e t j11 = e t 1 ,
ya que F (1) = 1 y F ( 1) = 0. Mirando la forma de la fgm y com-
parándola con (3:32), podemos ver que la variable aleatoria Y se distribuye
uniformemente en el intervalo (0; 1).
Hay dos funciones relacionadas con las funciones generatrices de momen-
tos, las funciones cumulantes y característica, consideradas enseguida.
Cumulantes
Una de las funciones relacionadas con la función generatriz de momentos
es la función generatriz cumulante, de…nida por:
X
1
tr
X (t) = In (m X (t)) = r r! para t 2 ( h; h), h > 0,
r=1
donde r , r = 1; 2; 3; ::: se denominan cumulantes (o semi-invariantes).
Es interesante observar que:
d X (t) 2
1 = E (X) = dt
jt=0 , 2 = V ar (X) = d dtX2 (t) jt=0 ,
y los cumulantes están directamente relacionados con los momentos crudos.
Los primeros cumulantes están relacionados con los momentos crudos de la
siguiente manera:
0
1 = 1,
2 = 2
0
( 01 )2 ,
3 = 3
0
3 02 01 + 2 ( 01 )3 ,
4 = 4
0
4 03 01 3 ( 02 )2 + 12 02 ( 01 )2 6 ( 01 )4 ,
5 = 5
0
5 04 01 10 02 03 +20 03 ( 01 )2 +30 ( 02 )2 01 60 02 ( 01 )3 +24 ( 01 )5 .
De esto podemos ver que los dos primeros cumulantes son la media y la
varianza.
El cumulantes son a menudo preferibles a los momentos por varias razones
incluyendo las siguientes:
(i) En el caso de la distribución normal: r = 0, r = 3; 4; :::
(ii) El r ésimo cumulante es homogéneo de r-ésimo orden r ( X) =
r
r (X), r = 1; 2; :::.
(iii) El r ésimo cumulante es una función de los momentos de orden hasta
r,
(iv) Para variables aleatorias independientes, el cumulante de la suma es
la sumaX denlos cumulantes: Xn
r Xk = r (Xk ), r = 1; 2; :::
k=1 k=1
Función característica
La existencia de la fgm depende fundamentalmente de que mX (t) sea
…nita en el intervalo ( h; h). En tal caso, todos los momentos E (X r ) son
128 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
…nitos para todo r. En los casos en los cuales E (X r ) no es …nito par algún
r, mX (t) no es …nito en cualquier intervalo ( h; h). Para poder hacer frente
a estos casos de…nimos la llamada función característica (véase Cramer
(1946)):
Z1
itX
p
'X (t) := E e = eitX f (x) dx = mX (it), para i = 1
1
que, a diferencia de mX (t), siempre existe, ya que para todo t, 'X (t) está
acotado:
j'X (t)j E eitX = 1,
y, por lo tanto, para muchas variables aleatorias, podemos encontrar la
función característica usando la función generatriz de momentos.
La función característica está relacionada con los momentos (cuando ex-
isten!) a través de la serie:
X1 (it)r
0
'X (t) = r para t 2 ( h; h) ; h > 0.
k=0 r!
También hay una relación directa entre la función característica de un
lado y la distribución acumulada (fda) y funciones de densidad por el otro,
en primer lugar señalado por Lyapunov en el contexto de los teoremas límite.
Teorema de inversión. Sean FX (x), f (x) y 'X (t) las funciones fda,
densidad y característica de una variable aleatoria X, respectivamente.
(a) Suponiendo que (a; b) son dos números reales (a < b) en donde F (x)
es continua:
Zn ita itb
1 e e
FX (b) FX (a) = lim 'X (t) dt
n!1 2 it
n
Z1 Zx Z1
itx
(b) Si j'X (t)j < 1, entonces FX (x) = f (u) du y f (x) = e 'X (t) dt.
1 1 1
(c) 'X (t) determina únivocamente FX (x) en el sentido que (veáse Karr
(1993)):
0 1
Zn itz itb
1 e e
FX (x) = lim @ lim 'X (t) dtA .
z! 1 n!1 2 it
n
3.7. MOMENTOS 129
Zb
0
k = xr f (x) dx < 1 para todo k = 1; 2; :::
a
1 1
f (x) = p expf (In x)2 g, x 2 R+
x 2 2
Se puede demostrar que:
k2
0
k= e 2 , k = 1; 2; :::
y entonces
X1 2
1
2k
X1 k
ek = e 2 < 1,
k=1 k=1
es decir, la condición Carleman no se sostiene. Sin embargo, en vista del
hecho de que la condición Carleman sólo es su…ciente, no podemos concluir
3.7. MOMENTOS 131
p p
x 3 3 0
1 1 4 (3.36)
f (x) 6 6 6
p 1 p 1
E (X) = 3 3 = 0,
6 6
1 1
E X2 = 3 +3 = 1,
6 6
p 3 1 p 3 1
E X2 = 3 3 = 0,
6 6
1 1
E X4 = 9 +9 = 3,
6 6
Este ejemplo puede parecer un algo extremo, pero debe servir como una
nota de precaución
Ejemplos
x
(i) Para la densidad de Poisson: f (x; ) = e x! , 2 (0; 1), x =
0; 1; 2; :::,
ya sabemos que = . De un ejemplo anterior, sabemos que:
t2 t3
X (t) = In (mX (t)) = et 1 = 1+t+ + +
2! 3!
X1 tr
mX (t) := E e(X )t
= eX t mX (t) = 1+ r , para t 2 ( h; h) , h > 0,
r=1 r!
siempre que exista.
Uno de los los principales usos de los momentos centrales es que se pueden
utilizar para darnos una imagen más completa de la forma de la distribución.
Mediante la estandarización de los momentos centrales anteriores de…nimos
una serie de medidas útiles que nos permiten tener una idea más completa
de la posible forma de una función de densidad. La primera característica
importante de la forma de una distribución es la de simetría alrededor de un
punto dado; a menudo a = E (X).
Simetría. Una variable aleatoria X con densidad f (x) se dice que es
simétrica alrededor de un punto a si se cumpe la siguiente condición:
f (a x) = f (a + x), para todo x 2 RX ,
o, más generalmente, en términos de la fda FX (x):
FX (a x) = FX (a + x) = 1, para todo x 2 RX ,
El coe…ciente de asimetría
El primer índice de la forma, diseñado para darnos una idea acerca de la
posible asimetría de una función de densidad alrededor de la media, es el co-
e…ciente de asimetría de…nido como el tercer momento central estandarizado
introducido por Pearson (1895):
Simetría: 3 (X) = p 3 3 ,
( 2)
p 1
NOTE que 2 = [V ar(X)] denota la desviación estándar. Si la dis-
2
1 1
x (1 x)
f (x; ) = , : = ( ; ) 2 R2+ , 0 < x < 1
B[ ; ]
p
2( ) ( + + 1)
3 = p
( + + 2)
x 2 1 3
(3.37)
f (x) 0:4 0:5 0:1
Curtosis: 4 (X) = (
4
2 .
2)
n o
x
exp
f (x; ) = n o 2, =( ; )2R R+ , x 2 R
x
1 + exp
1 1
1 (v+1)
[v + 1] 2 x2 2
f (x) = 2
1
1+ 2 , c x c, c2 := 2 (v + 2) .
2
+v+1 c vc
Una vez más podemos ver la misma forma de campana igual que en el caso
de las densidades normal, t de Student y Pearson tipo II, pero en contraste
con la t de Student es platicúrtica ya que:
3( + + 1) 2 ( + )2 + ( + 6)
4 =
( + 2) ( + 3)
( 2
)
2 ( 2 +1)
1 1 x
2j j
f (x; ) = e , =( ; ; )2R R2+ , x 2 R (3.38)
1+ 2
52 2
4 = 2
32
x 0 1 2
f (x) 0:3 0:3 0:4
E (X) = 0 (0:3) + 1 (0:3) + 2 (0:4) = 1:1,
E (X 2 ) = 02 (0:3) + 12 (0:3) + 22 (0:4) = 1:9,
E (X 3 ) = 03 (0:3) + 13 (0:3) + 23 (0:4) = 3:5,
E (X 4 ) = 04 (0:3) + 14 (0:3) + 24 (0:4) = 6:7,
V ar (X) = [0 1:1]2 (0:3) + [1 1:1]2 (0:3) + [2 1:1]2 (0:4) = 0:69,
V ar (X) = E (X 2 ) [E (X)]2 = 1:90 1:21 = 0:69,
E (X E (X))3 = [0 1:1]3 (0:3) + [1 1:1]3 (0:3) + [2 1:1]3 (0:4) =
0:108,
E (X E (X))4 = [0 1:1]4 (0:3) + [1 1:1]4 (0:3) + [2 1:1]4 (0:4) =
0:7017,
0:108 0:7017
3 = (0:83)3 = 0:18843 , 4 = (0:83)4 = 1:4785.
142 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
( 3 = 0:1843; 4 = 1:4785).
(ii) Considere la variable aleatoria continua X con función de densidad:
Z 1
2 2
E (X) = 2x2 dx = x3 j10 = ;
3 3
Z0 1
2 1
E X2 = 2x3 dx = x4 j10 = ;
4 2
Z0 1
2 2
E X3 = 2x4 dx = x5 j10 = ;
0 5 5
1 4 1
V ar (X) = E X 2 [E (X)]2 = =
2 9 18
Medidas de localización
df (x) df 2 (x)
= 0 sujeto a < 0: (3.40)
dx dx2 x=m0
( )
1
(x ) 1 (In x )2 2
f (x; ) = exp 2
, := ; 2R R+ , x 2 R,
2 2
df 2 (x)
Teniendo en cuenta el hecho de que dx2
< 0, la moda de la
x=m0
2
densidad es: m0 = exp ( ). En la …gura 3.36 podemos ver la moda de
la densidad lognormal LN ( = 1; = 0:7). En la …gura 3.37 podemos ver la
moda de la densidad de Cauchy C ( = 0; = 1).
(2) La mediana de una variable aleatoria X es aquel valor particular
que divide la probabilidad en dos mitades iguales, es decir, corresponde a x 12
(suponiendo que es única) tal que:
P x < x 12 0:5 y P x x 21 0:5.
En el caso donde la función de distribución es continua y estrictamente
creciente, x 12 se de…ne por:
F x 12 = 0:5 y x 12 es única.
144 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
Ejemplos
(i) Para una variable aleatoria normal la mediana coincide con las otras
dos medidas de
localización:
media = mediana = moda.
NOTE que para distribuciones simétricas en general, la única igualdad
que se cumple es la siguiente:
3.7. MOMENTOS 145
media = mediana.
(ii) Para una variable aleatoria lognormal la media está dada por el valor
m tal que:
Zm ( )
2
1 1 In x 1
p exp dx = , sustituyendo y = In x,
x 2 2 2
0
Zm
In ( )
2
1 1 y 1
p exp dx = , esto se cumple para In m = ,
2 2 2
1
Ejemplos
2 1
(i) Para la distribución normal N ( ; ): q (X) := 2
x3 x1 =
4 4
(0:6745) .
1
(ii) Para la distribución de Cauchy C ( ; ): q (X) := 2
x3 x1 = .
4 4
(4) El coe…ciente de variación, propuesto por Pearson (1896), se de…ne
como el cociente de la desviación estándar respecto a la media de la variable
aleatoria que se trate, es decir,
cv (X) := .
3.8 Desigualdades
Un capítulo muy importante de la teoría de la probabilidad es el de las
desigualdades probabilísticas. La función principal de estas desigualdades
es proporcionar cotas superiores e inferiores para la evaluación de las prob-
abilidades asociadas con variables aleatorias mediante la utilización de sus
momentos. En cierto modo estas desigualdades nos proporcionan formas para
dejar de lado la distribución de ciertas variables aleatorias, pero todavía en
una posición para hacer a…rmaciones probabilísticas relativas a estas vari-
ables aleatorias; ver Shiryayev (1984), Karr (1993) y Loeve (1963).
Desigualdad general de Chebyshev. Sea X (:) : S !Rx := (0; 1)
una variable aleatoria positiva y sea g(:) : (0; 1) ! (0; 1) una función
positiva y creciente. Entonces, para todo " > 0;
3.8. DESIGUALDADES 151
E [g (X)]
P (g (X) ") (3.44)
g (")
Tomemos nota de que la desigualdad de Chebyshev encontrada anteri-
ormente es un caso especial de (3.44). Otros casos especiales, se indican a
continuación. NOTE en primer lugar que no existe una terminología estándar
para estas desigualdades.
Desigualdad de Markov. Sea X una variable aleatoria tal que E (jXjp ) <
1; para p > 0 :
E [jXjp ]
P (jXj ") :
"p
La conocida frase de que "no hay comida gratis" se puede ilustrar usando
esta desigualdad para demostrar que al postular la existencia de los momentos
superiores podemos mejorar la cota superior.
Ejemplo
Sea fXn g1n=0 := fX1 ; X2 ; :::; Xn ; :::g una sucesión de variables aleato-
rias Bernoulli independientes e idénticamente distribuidas (IID) . Se puede
demostrarX que:
n
Sn := Xk ~Bi (n ; n (1 )).
k=1
Usando la desigualdad de Chebyshev obtenemos:
(1 )
P n 1 Sn >" 2
.
n"
4 E jY E (Y )j4
P jY E (Y )j > " .
"4
4
señalando que E jn 1 Sn j = n [1 + 3 (1 ) (n 2)] proporciona
3
P n 1 Sn >" .
16n2 "4
Como puede verse, la estimación de la cota superior dada por la desigual-
dad de Markov es menos crudo, ya que utiliza más información en relación
con la existencia de momentos.
152 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
E etX tX
P (X ") inf e E etX .
etX 0 t c
3.9 Resumen
El objetivo básico de este capítulo ha sido la transformación del abstracto es-
pacio de probabilidad (S; =; P (:)) en un modelo de probabilidad operacional.
El resultado …nal es una familia de densidades indexadas por un pequeño
número de parámetros desconocidos:
= ff (x; ); 2 ; x 2 RX g :
3.10. EJERCICIOS 153
3.10 Ejercicios
1. Explique por qué el abstracto espacio de probabilidad no es conveniente
para los propósitos de la modelación.
2. (a) "Una variable aleatoria ni es variable ni es aleatoria". Discuta.
154 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
= ff (x; ); 2 ; x 2 RX g.
9. ¿Por qué nos preocupamos por los momentos de una distribución?
¿Cómo los momentos proporcionar una forma de interpretar los parámetros
desconocidos?
10. La función de densidad de la distribución exponencial es:
f (x; ) = e x , > 0; x > 0.
(a) Derive su media y varianza.
(b) Derive su moda.
11. Considere la función:
f (x) = 140 x3 (1 x)3 ; 0 < x < 1.
(a) Demuestre que esta es realmente una función de densidad propia para
una variable aleatoria X.
(b) Derive la media, moda, varianza y curtosis de X.
12. Considere la variable aleatoria discreta X cuya distribución es la
siguiente:
x 1 0 1
f (x) 0:2 0:4 0:4
(a) Derive su media, varianza y coe…cientes de asimétria y curtosis.
(b) Derive su moda y coe…ciente de variación.
13. (a) Exprese las propiedades de una función de densidad.
(b) Contraste las propiedades de los operadores valor esperado y
varianza.
(c) Sean X1 y X2 dos variables aleatorias independientes con la
misma media y varianza 2 .Derive la media y la varianza de la función:
Y = 13 X1 + 23 X1 .
14. Explique cómo las propiedades de la varianza son determinadas en
realidad por las del operador media.
15. Explique cómo la función generatriz de momentos se puede utilizar
para obtener los momentos.
16. Explique el concepto de asimetría y discuta por qué = 3 no implica
que la distribución en cuestión es simétrica.
17. Explique el concepto de curtosis y discuta por qué es de valor limitado
cuando la distribución no es simétrica.
18. Para una distribución de Weibull con parámetros ( = 3:345; = 3:45)
obtenga el coe…ciente de curtosis usando las fórmulas en el apéndice A.
19. Explique por qué los momentos de coincidencia (matching mo-
ments) entre dos distribuciones puede llevar a conclusiones erróneas.
156 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD
El concepto de muestra
aleatoria
4.1 Introducción
4.1.1 Objetivo principal de este capítulo
El objetivo principal de este capítulo es completar la metamorfosis del es-
pacio estadístico simple en un modelo estadístico simple que se inició en
el capítulo anterior. En el capítulo 3 convertimos el primer componente, el
espacio de probabilidad, en un modelo de probabilidad. En este capítulo
procedemos a convertir el segundo componente, el espacio muestral, en un
modelo muestral. La metamorfosis involucra dos de los conceptos más
importantes de la teoría de la probabilidad: Independencia y Distribución
Idéntica. Al concluir la metamorfosis llegamos a uno de nuestros principales
objetivos intermedios, la formulación de un modelo estadístico simple, que
constituye la forma más sencilla de un modelo estadístico. Este último es la
piedra angular sobre la que vamos a construir tanto la modelización empírica
como la inferencia estadística. Como se mencionó en el capítulo 1, lo que
distingue a la modelización empírica de otras formas de modelización es el
uso de datos observados en conjunción con modelos estadísticos. Será muy
difícil exagerar la importancia del concepto de modelo estadístico en el con-
texto de la modelización con datos no experimentales. Esto se debe a que
la elección de un modelo estadístico, cuando se modela con datos no exper-
imentales, es el aspecto más difícil del problema y por lo tanto se necesita
un exhaustivo y profundo entendimiento de los conceptos involucrados. Este
157
158 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA
Yk
Independiente (I): P(n) (A1 \ A2 \; :::; \Ak ) = Pi (Ai ) ; para cada k = 2; 3; :::; n;
i=1
(4.1)
4.1. INTRODUCCIÓN 159
P(n) (Ak jA1 ; A2 ; :::; Ak 1 ; Ak+1 ; :::; An ) = Pk (Ak ) , para cada k = 1; 2; :::; n
(4.3)
La condición ID tiene que ver con el "mantenimiento de la misma estruc-
tura probabilística de una prueba a otra"; las probabilidades asociadas a los
diferentes resultados siguen siendo las mismas para todas las pruebas.
Armados con el concepto de variable aleatoria, ahora consideramos la
metamorfosis del abstracto concepto de espacio muestral simple en algo
relacionado con las variables aleatorias. Observando la de…nición de prue-
bas aleatoria (4.1) - (4.2), podemos ver que la condición de Independen-
cia se de…ne en términos de las funciones conjunto de probabilidad P(n) (:)
y P(k) (:) que pertenecen a los espacios de probabilidad S(n) ; =(n) ; P(n) y
S(k) ; =(k) ; P(k) , respectivamente. Las di…cultades que hay que enfrentar en
la transformación de las pruebas aleatorias fA1 ; A2 ; :::; An g en un conjunto
de variables aleatorias X(n) := (X1 ; X2 ; :::; Xn ), tienen que ver con la de…ni-
ción de conceptos equivalentes a P(n) (:) y P(k) (:) en términos de variables
aleatorias. El concepto que corresponde a las funciones conjunto P(n) (:), es
la llamada función de distribución conjunta y la correspondiente a P(k) (:),
es la llamada función de distribución marginal. Utilizando estas dos no-
ciones podemos de…nir el concepto de muestra aleatoria: un conjunto de
variables aleatorias Independientes e Idénticamente Distribuidas (IID). El
nuevo concepto básico necesario para la formalización de ambas nociones es
el de función de distribución conjunta.
1 1 1
Z (x; y) = X (x) \ Y (y) 2 =;
ya que, X 1 (x) 2 = y Y 1 (y) 2 =, por de…nición (veáse Spanos, (1986)).
Densidad conjunta. La función de densidad conjunta se de…ne por:
f (:; :) : RX RY ! [0; 1] ;
f (x; y) = P fs : X(s) = x; Y (s) = yg ; (x; y) 2 RX RY .
162 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA
Ejemplo
Consideremos el caso del experimento aleatorio de lanzar una moneda no
trucada dos veces, dando lugar al conjunto de resultados: S = f(HH); (HT ); (T H); (T T )g.
De…namos las variables aleatorias X (:) e Y (:) en S de la siguiente man-
era:
X (HH) = X(HT ) = X (T H) = 1; X (T T ) = 0;
Y (HT ) = Y (T H) = Y (T T ) = 1; Y (HH) = 0:
x 0 1 y 0 1
((4.4))
f (x) 0:25 0:75 f (y) 0:25 0:75
Para de…nir la función de densidad conjunta es necesario especi…car todos
los eventos de la forma:
(X = x; Y = y) ; x 2 RX ; y 2 RY ,
(X = 0; Y = 0) = fg = ;; f (x = 0; y = 0) = 0:00;
(X = 0; Y = 1) = f(T T )g ; f (x = 0; y = 1) = 0:25;
(X = 1; Y = 0) = f(HH)g ; f (x = 1; y = 0) = 0:25;
(X = 1; Y = 1) = f(HT ) ; (T H)g ; f (x = 1; y = 1) = 0:50:
ynx 0 1
0 0:00 0:25 ((4.5))
1 0:25 0:50
Si comparamos esta densidad conjunta (4.5) con las densidades univari-
adas (4.4), no existe una relación evidente, pero como se muestra a contin-
uación, esto es engañoso. Como argumentamos en el siguiente capítulo, la
diferencia entre la probabilidad conjunta f (x; y), x 2 RX ; y 2 RY y el pro-
ducto de las probabilidades individuales (f (x) f (y)) para x 2 RX ; y 2 RY ,
4.2. DISTRIBUCIONES CONJUNTAS 163
ynx 0 1
0 p (0; 0) p (1; 0) ((4.6))
1 p (0; 1) p (1; 1)
donde p(i; j) denota la probabilidad conjunta para X = i y Y = j,
i; j = 0; 1. La densidad conjunta de Bernoulli toma la forma:
1
X (:) : S !R; tal que X (( 1; x]) 2 =; para todo x 2 R;
1
X (:) : S !R; tal que Y (( 1; y]) 2 =; para todo y 2 R:
1
P (s : X(s) x) = P X ( 1; x] = PX (( 1; x]) = FX (x); x 2 R;
1
P (s : X(s) y) = P Y ( 1; y] = PY (( 1; y]) = FY (y); y 2 R:
164 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA
1 1 1
Z (( 1; x] ( 1; y]) = X (( 1; x]) \ Y (( 1; y]) 2 =;
@ 2 F (x; y)
f (x; y) = ; en todos los puntos de continuidad de f (x; y):
@x@y
Ejemplo
Sea la fda conjunta la de la distribución exponencial bivariada:
x y x y @ 2 F (x; y) x y
F (x; y) = 1 e e +e ; ) f (x; y) = =e ;x 0; y 0:
@x@y
En el caso de variables aleatorias continuas podemos pensar en la densi-
dad conjunta como estando de…nida en un intervalo de la forma (x < X x + dx, y < Y y + dy)
de la siguiente manera:
f (:; :) : R R ! [0; 1) :
En analogía directa con el caso univariado, la función de densidad
conjunta tiene que satisfacer ciertas propiedades:
[bf1] Rf (x;Ry) 0; para todo (x; y) 2 RX RY ;
1 1
[bf2] 1 1 f (x; y)dxdy = 1;
Ra Rb
[bf3] FX;Y (a; b) = 1 1 f (x; y)dxdy;
2
[bf4] f (x; y) = @ @x@y
F (x;y)
; en todos los puntos de continuidad de f (x; y):
NOTA: en el caso discreto todas las anteriores integrales se convierten en
sumatorias sobre todos los valores de X y Y , es decir, para x1 < x2 < <
xn < yPy1 <P y2 < < yn < .
[bf2] 0 1 i=1
1
j=1 f (xi ; yi ) = 1;
P P
[bf3] F (xk ; ym ) = ki=1 m
0
i=1 f (xi ; yj ).
Ejemplos
(i) Una importante distribución discreta de dos variables, es la binomial
cuya densidad toma la forma:
n! x y n x y
f (x; y; ) = 1 2 (1 1 2) , i 2 [0; 1] , i = 1; 2,
x!y! (n x y)!
166 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA
1 ( "
2 2
(1 ) 2
1 y 1 y 1 x 2 x 2
f (x; y; ) = p exp 2)
p 2 p p + p
2 11 22 2 (1 11 11 22 22
(4.7)
2
donde := ( 1 ; 2 ; 11 ; 22 ; ) 2 R R2+
[ 1; 1] ; x 2 R; y 2 R. En vista
de su complejidad evidente, la densidad bivariada dada en (4.7), a menudo
se denota por:
Y 1 11 12
~N ,
X 2 21 22
p
donde 12 := 11 22 . Un caso especial de esta distribución, conocida
como normal estándar bivariada, se de…ne cuando los parámetros toman
los valores:
1 = 2 = 0; 11 = 22 = 1:
1 1
f (x; y; ) = p exp 2)
x2 2 xy + y 2 .
2 1 2 2 (1
0
km = E X k Y m , k; m = 0; 1; 2; :::;
y los momentos conjuntos centrales de orden (k; m) se de…nen por:
n o
k m
km = E (X E (X)) (Y E (Y )) , k; m = 0; 1; 2; :::;
Los dos primeros momentos conjunto producto y conjunto central son:
0
10 = E (X) , 10 = 0,
0
01 = E (Y ) , 01 = 0,
0 2
20 = E (X) + V ar (X) , 20 = V ar (X) ,
0 2
02 = E (Y ) + V ar (Y ) , 02 = V ar (Y ) ,
0
11 = E (XY ) , 11 = E [(X E (X)) (Y E (Y ))] .
Ejemplos
(i) Considerar la distribución normal conjunta cuya densidad está dada
en (4.7). Sabemos del capítulo 3 que los parámetros ( 1 ; 2 ; 11 ; 22 ) corre-
sponden a los momentos:
1 = E (Y ) , 2 = E (X) , 11 = V ar (Y ) , 22 = V ar (X) .
El parámetro adicional 12 resulta ser la covarianza entre las dos variables
aleatorias, es decir:
12 := Cov (X; Y ).
(ii) Vamos a obtener la covarianza entre X y Y , con la densidad conjunta
dada a continuación:
ynx 0 1 2 fY (y)
0 0:2 0:2 0:2 0:6
2 0:1 0:1 0:2 0:4
fX (x) 0:3 0:3 0:4 1
En primer lugar, tenemos que obtener los momentos de las distribuciones
univariadas:
E(X) := 0 (0:3) + 1 (0:3) + 2 (0:4) = 1:1; E(Y ) := 0 (0:6) + 2 (0:4) =
0:8; V ar(X) := [0 1:1]2 (0:3) + [1 1:1]2 (0:3) + [2 1:1]2 (0:4) = 0:69;
V ar(Y ) := [0 0:8]2 (0:6) + [2 0:8]2 (0:4) = 0:96;
Utilizando estos momentos procedemos a derivar la covarianza:
Propiedades de la covarianza:
c1.Cov (X; Y ) = E (XY ) E(X) E(Y );
c2. Cov (X; Y ) = Cov (Y; X) ;
c3. Cov (aX + bY; Z) = aCov (X; Y ) + bCov(Y; Z); para (a; b) 2 R2 .
La primera propiedad muestra la relación entre los momentos centrales
conjuntos y crudos para k = m = 1. La covarianza es igual al primer mo-
mento conjunto producto E(XY ) menos el producto de las dos medias.
4.2. DISTRIBUCIONES CONJUNTAS 169
E (XY ) = (0) (0) (0:2)+(0) (2) (0:1)+(1) (0) (0:2)+(1) (1) (0:1)+(2) (0) (0:2)+(2) (2) (0:2) = 1:0,
podemos concluir que Cov (X; Y ) = 1:0 (1:1) (0:8) = 0:12, lo cual con-
…rma el valor anterior de Cov (X; Y ).
Una digresión. Es interesante notar que usando la covarianza, podemos
extender la propiedad V2 de la varianza (ver capítulo 3), al caso en el cual las
dos variables no sean independientes. En el caso de dos variables aleatorias
X y Y arbitrarias:
X(:) : S !Rn ,
donde Rn := R R R representa el producto Cartesiano de la
línea real (ver capítulo 2).
La función de n variables X(:) se dice que es un vector aleatorio con
respecto a = si:
Ejemplo
Consideremos el caso de la fda exponencial bivariada:
x y
F (x; y) = 1 e 1 e ; > 0; > 0; x > 0; y > 0:
n 1
Ya que lim (e )=e = 0; podemos deducir que
n!1
x y
FX (x) = lim F (x; y) = 1 e ; x > 0; FY (y) = lim F (x; y) = 1 e ; y > 0:
y!1 x!1
Z x Z y Z x Z 1
FX (x) = lim F (x; y) = lim f (x; y)dydx = f (x; y)dy dx;
y!1 y!1 1 1 1 1
Z 1
1 1 2
fX (x) = f (x; y)dy = p exp x ;
1 2 2
Z 1
1 1 2
fY (y) = f (x; y)dx = p exp y ;
1 2 2
Ejemplos
(i) La densidad conjunta de la distribución de Bernoulli está bien de…nida,
si las probabilidades p (i; j) para i; j = 0; 1, además de ser no negativas,
también satisfacen una serie de restricciones adicionales requeridas por las
distribuciones marginales. Las distribuciones marginales de X e Y son las
siguientes:
x 0 1 y 0 1
(4.16)
fX (x) p:1 p:2 fY (y) p1 : p2 :
p:1 = p (0; 0) + p (0; 1) ; p1 : = p (0; 0) + p (1; 0) ;
p:2 = p (1; 0) + p (1; 1) ; p2 : = p (0; 1) + p (1; 1) :
Para que estas distribuciones marginales tengan sentido necesitan sat-
isfacer las propiedades de las funciones de densidad univariadas f1-f3 (ver
capítulo 3). Esto sugiere que sus probabilidades deben sumar p:1 + p:2 = 1 y
p1 : p2 : = 1:
(ii) Una distribución discreta importante, es el binomial bivariada (o tri-
nomial, como a menudo se llama) cuya densidad toma la forma:
n! x y n x y
f (x; y; ) = 1 2 (1 1 2) , i 2 [0; 1] , i = 1; 2,
x!y! (n x y)!
X
n x
n! x1 y2 n x k
fX (x; ) = (1 1 2)
k=1
x!k! (n x k)!
n! x1 X
n x k
2 n x k
= (1 1 2)
x! k=1 k! (n x k)!
n! x X
n x
(n x)! n x k
1 k
= 2 (1 1 2)
x! (n x)! k=1
k! (n x k)!
n x n x
= 1 (1 1) .
x
ynx 0 1 2
0 0:2 0:2 0:2 (4.17)
2 0:1 0:1 0:2
La fórmula (4.12) sugiere que sumando hacia abajo las columnas obten-
emos la densidad marginal de X y sumando las …las obtenemos la densidad
marginal de Y :
x 0 1 2 y 0 2
(4.18)
fX (x) 0:3 0:3 0:4 fY (y) 0:6 0:4
Estas son claramente las funciones de densidad propias, dado que:
fX (x) 0; fX (0) + fX (1) + fX (2) = 1 y fY (y) 0; fY (0) + fY (2) = 1:
Los dos densidades marginales se muestran con la densidad conjunta a
continuación:
ynx 0 1 2 fY (y)
0 0:2 0:2 0:2 0:6
(4.19)
2 0:1 0:1 0:2 0:4
fX (x) 0:3 0:3 0:4 1
En cuanto a la última columna podemos ver que las probabilidades aso-
ciadas a los valores de Y no contienen la información relativa a X.
P (A \ B)
P (A j B) = ; para P (B) > 0: (4.20)
P (B)
En el ejemplo anterior, P (A \ B) = P (T H) 41 , P (B) = 12 , y por lo tanto
1
P (A \ B) = 4
1 = 12 , lo que con…rma la respuesta de sentido común.
2
P (X = x) = f (x);
P (Y = y; X = x) = f (x; y);
P (Y = y j X = x) = f (y j x);
f (x; y)
f (y j x) = ; para f (x) > 0; y 2 RY ;
fX (x)
4.4. DISTRIBUCIONES CONDICIONALES 177
f (x = 0; y)
f (yjx = 0) = ; y 2 RY := f0; 2g :
fX (x = 0)
Esto sugiere que las probabilidades condicionales f (yjx = 0), para y 2
RY , son probabilidades conjuntas escaladas f (xjy = 0), para x 2 RX , con la
probabilidad marginal fX (x = 0) proporcionando el peso. En particular:
f (x=0;y=0) 0:2
fX (x=0)
= 0:3
= 23 ; y = 0
f (yjx = 0) = f (x=0;y=2) 0:1
fX (x=0)
= 0:3
= 13 ; y = 2
La densidad condicional se muestra a continuación:
y 0 2
2 1
f (yjx = 0) 3 3
Variables aleatorias continuas
En el caso de dos variables aleatorias continuas X e Y no podemos usar
los eventos A = fY = yg y B = fX = xg con el …n de transformar (4.20)
en términos de funciones de densidad, porque, como sabemos, = fX = xgen
este caso P (X = x) = 0 y P (Y = y) = 0 para todo x 2 R, y 2 R. Al
igual que en el caso de la de…nición de las funciones de densidad conjunta y
marginal debemos tener en cuenta eventos de la forma:
A = fX xg y B = fY yg :
Sin embargo, incluso en el caso de variables aleatorias continuas nos gus-
taría ser capaces de referirnos a la distribución condicional de Y dado que
X = x. La forma de sortear las di…cultades matemáticas es a través de
la función de distribución condicional acumulativa de…nida de la siguiente
manera
P (Y y; x X x + h)
FY jX (y j X = x) = lim+
h!0 P (x X x + h)
donde h ! 0+ se lee "cuando h tiende a 0 através de valores mayores
que 0." Después de algunas manipulaciones matemáticas podemos demostrar
que:
178 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA
Z y
P (Y y; x X x + h) f (x; u)
FY jX (y j X = x) = lim+ = du:
h!0 P (x X x + h) 1 fX (x)
Esto sugiere que en el caso de dos variables aleatorias continuas X, Y
podríamos de hecho de…nir la función de densidad condicional como en (4.21)
pero no deberiamos interpretarla como asignando probabilidades, ya que:
f (: j x) : RY ! [0; 1) :
Como podemos ver, la densidad condicional es una función de densidad
propia, en la medida en que, en el caso de variables aleatorias continuas,
cumple las propiedades:
[cf1] Rf (yjx) 0; para todo y 2 RY ;
1
[cf2] 1 f (yjx)dy = 1;
Ry
[cf1] F (yjx) = 1 f (ujx)du:
En el caso de variables aleatorias discretas las integrales son reemplazadas
por sumatorias.
Ejemplos
(i) Considere el caso donde la función de densidad conjunta toma la forma:
Z 1
fX (x) = (8xy) dy = 4xy 2 jy=1
y=x = 4x 1 x2 ; 0 < x < 1;
Zx y
fY (y) = (8xy) dx = 4x2 y jx=y 3
x=0 = 4y ; 0 < y < 1:
0
8xy 2y
f (yjx) = 2
= ; x < y < 1; 0 < x < 1;
4x (1 x ) (1 x2 )
8xy 2x
f (xjy) = 3
= 2 ; 0 < x < y; 0 < y < 1:
4y y
4.4. DISTRIBUCIONES CONDICIONALES 179
1
n o
2 2 1
2 (1 ) 2
exp [2 (1 )] (x2 2 xy + y 2 )
f (yjx) = p 1 2
;
2 exp 2
x
2
1
2 1 1
= 2 1 2
exp 2 1 x2 2 xy + y 2 + x2 :
2
Usando la igualdad:
1 1 1
2 1 2
x2 2 xy + y 2 + x2 = 2 1 2
(y x)2 ,
2
la densidad condicional toma la forma:
1
2
(1 ) 2
1
f (yjx) = p exp 2)
(y x)2 :
2 2 (1
2
Por lo tanto f (yjx) es también normal con media x y varianza (1 ),
denotado por
2
(Y j X = x) N x; 1 :
1
Las manipulaciones matemáticas no son importantes en esta etapa.
180 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA
X Z y
FY (y) = fX (xk ) f (u j xk ) du.
xk 2RX 1
Ejemplo
Consideremos el caso donde las variables aleatorias (X; Y ), X es Bernoulli
y Y está normalmente distribuiday la densidad conjunta toma la forma:
f (x; y; ) = f (y j xk ; ) fX (xk ; p) ; xk 2 RX ;
1 1 2
f (y j xk ; ) = p exp 2
(y 0 1 xk ) ; fX (1) = p, fX (0) = 1 p:
2 2
Z1
r
crudo : E (Y j X = x) = y r f (y j x) dy; r = 1; 2; :::;
1
Z1
r
central : E f(Y E [Y j X = x]) j X = xg = (Y E [y j x])r f (y j x) dy;
1
r = 2; 3; :::
X
media condicional : E (Y j X = x) = y f (y j x) ;
y2RY
X
varianza condicional : V ar (Y j X = x) = [y E [y j x]]2 f (y j x) :
y2RY
Ejemplos
(i) Distribución discreta, sin parámetros desconocidos. Para la densidad
condicional (4.22)
2 1 2
E (Y j X = 0) = 0 +2 = ;
3 3 3
2 2
2 2 2 1 24
V ar (Y j X = 0) = 0 + 2 = :
3 3 3 3 27
Entonces,
8xy 2y
f (y j x) = 2
= ; x < y < 1; 0 < x < 1;
4x (1 x ) (1 x2 )
8xy 2x
f (x j y) = 3
= 2 ; 0 < x < y; 0 < y < 1:
4y y
4.4. DISTRIBUCIONES CONDICIONALES 183
Z 1 Z 1
2y 2
E (Y j X = x) = y 2)
dy = 2)
y 2 dy
x (1 x (1 x x
2 1 3 y=1 2 (1 x3 )
= y jy=x = ;
(1 x2 ) 3 3 (1 x2 )
Z y
2x 2 1 3 x=y 2 1 3 2
E (X j Y = y) = x 2
dx = 2 x jx=0 = 2 y = y;
0 y y 3 y 3 3
Z y 2 Z y
2 2x 2 4 2 4 2x
V ar (X j Y = y) = x y dx = x + y xy dx =
3 y2 9 3 y2
Z0 y 3 2
0
2x 8 8 x
= 2
+ x dx
0 y 9 3 y
x=y
x4 4 2 8 x3 1
= 2
+ x = y2:
2y 9 9 y x=0 18
2
(Y j X = x) N x; 1 .
Esto sugiere que:
2
E (Y j X = x) = x y V ar (Y j X = x) = 1 .
Los momentos condicionales son de interés en la modelizaciónde la depen-
dencia ya que con frecuencia ellos proporcionan la forma más ‡exible para
capturar los aspectos importantes de la dependencia probabilística (véase el
capítulo 6).
Ejemplo
En el caso del experimento aleatorio de "medir la vida de un foco" po-
dríamos estar interesados en la probabilidad de que tenga una duración de n
horas dado que ha durado por lo menos m horas ya (n > m).
Consideremos el caso más general de condicionalidad del evento fa < x bg,
que se re…ere al doble truncamiento; desde la izquierda en el punto a y
desde la derecha en el punto b. La intuición sugiere que en el caso de una
variable aleatoria discreta X con un rango de valores RX := fx1 ; x2 ; :::g, la
función de probabilidad condicional de X dado fa < x bg debe estar dada
por:
f (xi )
f (xi j fa < X bg) = X , para a < xi b.
f (xj)
a<xj b
f (x) f (x)
f (xj fa < x bg) = Z b
= , para fa < x bg .
F (b) F (a)
f (x) dx
a
Ejemplo
En el caso de la distribución normal la densidad doblemente truncada
toma la forma:
( )
2
( 2 ) 1 1 x
f (x; ) = exp , fa < x bg .
(F (b) F (b)) 2
f (x) f (x)
f (xjX > a) = , x > a, f (xjX < b) = , x < b, (4.24)
1 F (a) F (b)
4.4. DISTRIBUCIONES CONDICIONALES 185
Las funciones f (xja < x b), f (xjX > a) y f (xjX < b) se re…eren a
menudo como funciones de densidad truncadas y disfrutan de las propiedades
habituales:
[tf1] f (xja < x b) 0, para todo x 2 RX ,
Z b
[tf2] f (xja < x b) dx = 1.
a
Ejemplo
Sea X una variable aleatoria con distribución exponencial:
x x
f (x) = e y F (x) = 1 e , y > 0.
De (4.24) se deduce que:
x
e (x t)
f (xjX > t) = x
= e .
e
Función de Hazard (Riesgo)
Como puede verse en el ejemplo anterior, f (xjX > t) es una función de
x y de t. Viéndola únicamente como una función de t de…nimos lo que se
conoce como:
Función de riesgo: h (t) = 1 f F(t)(t) , x > t.
Intuitivamente, esto puede ser considerado como la tasa instantánea de
mortalidad de una persona que está viva hasta el tiempo t.
Ejemplo
Para X, una variable aleatoria distribuida exponencialmente, la función
de riesgo toma la forma:
t
e
h (t) = t
= .
e
Intuitivamente, esto signi…ca que la tasa instantánea de mortalidad es
constante. Esto sugiere que la distribución exponencial no es apropiada para
modelar la vida del foco, ya que implícitamente asume que la probabilidad
de que falle no depende de la edad del foco!
ynx 1 2 3 fy (Y )
0 0:20 0:10 0:15 0:45
1 0:10 0:25 0:05 0:40 (4.26)
2 0:1 0:6 0:8 0:15
fX (x) 0:31 0:41 0:28 1
Re‡exione sobre la situación siguiente. Se despierta en un hospital de
Chipre cubierto de yeso de la cabeza a los pies con sólo muestra los ojos y
la boca y que sufre de amnesia total. Una enfermera, que acaba de llegar
de turno, entra y le informa que, basándose en el informe que acaba de leer:
4.4. DISTRIBUCIONES CONDICIONALES 187
4.5 Independencia
4.5.1 El caso de dos variables aleatorias
Como se ha visto en el capítulo 2, dos eventos A y B que pertenecen al
espacio mismo eventos =, se dice que son independientes si:
P (A \ B) = P (A) P (B) :
Traduciendo dos eventos arbitrarios A y B en eventos de la forma: A :=
(s : X (s) x) y B := (s : Y (s) y), s 2 S, la condición anterior se con-
vierte en :
ynx 0 1 fY (y)
0 0:3 0:3 0:6
2 0:2 0:2 0:4
fX (x) 0:5 0:5 1
1 !
2
(1 ) 2
1
f (x; y) = p exp 2)
x2 2 xy + y 2 j =0
2 2 (1
1 1 2 1 1 2
= exp x exp y =
2 2 2 2
= fX (x) fY (y) ,
1
PXY Z (1; 1; 1) = ; PXY Z (1; 1; 0) = 0;
4
1
PXY Z (1; 0; 0) = ; PXY Z (1; 0; 1) = 0;
4
1
PXY Z (0; 1; 0) = ; PXY Z (0; 1; 1) = 0;
4
1
PXY Z (0; 0; 1) = ; PXY Z (0; 0; 0) = 0;
4
192 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA
XX 1
PX (0) = P (0; y; z) = P (0; 1; 0) + P (0; 0; 1) + P (0; 1; 1) + P (0; 0; 0) = ,
z y
2
XX 1
PX (1) = P (1; y; z) = P (1; 1; 1) + P (1; 0; 0) + P (1; 1; 0) + P (1; 0; 1) = ,
z y
2
XX 1
PY (0) = P (x; 0; z) = P (1; 0; 0) + P (0; 0; 1) + P (1; 0; 1) + P (0; 0; 0) = ,
z x
2
XX 1
PY (1) = P (x; 1; z) = P (1; 1; 1) + P (0; 1; 1) + P (1; 1; 0) + P (0; 1; 0) = ,
y x
2
XX 1
PZ (0) = P (x; y; 0) = P (1; 0; 0) + P (1; 1; 0) + P (0; 1; 0) + P (0; 0; 0) = ,
z x
2
XX 1
PZ (1) = P (x; y; 1) = P (1; 1; 1) + P (0; 0; 1) + P (1; 0; 1) + P (0; 1; 1) = ,
y x
2
1 1
PXY (0; 0) = PX (0) PY (0) = , PY Z (0; 0) = PY (0) PZ (0) = ,
4 4
1 1
PXY (1; 0) = PX (1) PY (0) = , PY Z (1; 0) = PY (1) PZ (0) = ,
4 4
1 1
PXY (0; 1) = PX (0) PY (1) = , PY Z (0; 1) = PY (0) PZ (1) = .
4 4
1
PXZ (0; 0) = PX (0) PZ (0) = ,
4
1
PXZ (1; 0) = PX (1) PZ (0) = ,
4
1
PXZ (0; 1) = PX (0) PZ (1) = .
4
Por otra parte, las tres variables aleatorias (X; Y; Z) no son independi-
entes, ya que:
1 1
PXY Z (1; 1; 1) = 6= PX (1) PY (1) PZ (1) = .
4 8
4.6. DISTRIBUCIONES IDÉNTICAS 193
f (x; ) = x
(1 )1 x
, x = 0; 1,
donde = P (X = 1). Tener una muestra de n pruebas independientes,
por ejemplo (X1 ; X2 ; : : : ; Xn ), equivale a suponer que las variables aleatorias
X1 ; X2 ; : : : ; Xn son independientes, cada Xi teniendo una función de densidad
de la forma:
xi 1 xi
f (xi ; i ) = i (1 i) , xi = 0; 1, i = 1; 2; :::; n,
donde i = P (Xi = 1), i = 1; 2; :::; n. Independencia en este caso asegura
que:
n n xi 1 xi
f (x1 ; x2 ; :::; xn ; ) = i=1 fi (xi ; i ) = i=1 i (1 i) , xi = 0; 1,
f (xi ; i ) = xi
(1 )1 xi
, xi = 0; 1, i = 1; 2; :::; n.
194 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA
fX (:) = fY (:) y 1 = 2:
Ejemplos
(i) Consideremos el caso en que la densidad conjunta toma la forma:
y
1 e 2
f (x; y; ) = ;x 1; y > 0:
2 x2
Es claro que las variables aleatorias X y Y son independientes (los factores
de densidad conjunta en un producto) con densidades marginales:
1 1 y
fX (x; 1) = ;x 1; fY (y; 2) = e 2 ; y > 0:
x2 2
ynx 0 1 fY (y)
0 0:36 0:24 0:6
2 0:24 0:16 0:4
fX (x) 0:6 0:4 1
(c)
Las variables aleatorias (X; Y ) son independientes en los tres casos (ver-
ifíquelo!). Las variables aleatorias en (a) no son Idénticamente Distribuidas
porque RX 6= RY y fX (x) 6= fY (y) para algunos (x; y) 2 RX RY . Las
variables aleatorias en (b) no son Idénticamente Distribuidas, porque aún
cuando RX = RY , fX (x) 6= fY (y) para algunos (x; y) 2 RX RY . Por
último, las variables aleatorias en (c) son Idénticamente Distribuidas porque
RX = RY y fX (x) = fY (y) para todo (x; y) 2 RX RY .
(iii) En el caso en que f (x; y; ) es normal de dos variables, tal como se
especi…ca en (4.7), las dos funciones de densidad marginal tienen la misma
forma funcional, pero : = ( 1 ; 2 ; 11 ; 22 ), 1 : = ( 1 ; 11 ) y 2 : = ( 2 ; 22 ),
suelen ser diferentes. Por lo tanto, para que las variables aleatorias X y Y
sean Idénticamente Distribuidas, las dos medias y las dos varianzas deben de
coincidir: 1 = 2 y 11 = 22 :
1 1
[x 1]
2 1 1
[y 1]
2
f (x; 1) =p e 2 11
, f (y; 2) =p e 2 11
.
2 11 2 11
I
Yn
f (x1 ; x2 ; :::; xn ; ) = fk (xk ; k) ; para todo (x1 ; x2 ; :::; xn ) 2 Rn ;
k=1
I
Yn IID
Yn
f (x1 ; x2 ; :::; xn ; ) = fk (xk ; k) = f (xk ; ) ; para todo (x1 ; x2 ; :::; xn ) 2 Rn .
k=1 k=1
(4.35)
4.6. DISTRIBUCIONES IDÉNTICAS 197
Z 1 Z 1 Z 1
fk (xk ; k) = f (x1 ; :::; xk 1 ; xk ; xk+1 ; :::; xn ; ) dx1 :::dxk 1 dxk+1 :::dxn :
1 1 1
X(:)
(S; =; P (:))n ) (R; ß(R) ; PX (:)) ) ff (x; ) ; 2 ; x 2 RX g :
En este capítulo hemos transformado el espacio muestral simple en una
muestra aleatoria:
X(:)
GnIID = fA1 ; A2 ; A3 ; :::; An g ) XIID
(n) : = (X1 ; X2 ; : : : ; Xn ) .
= ff (x; ) ; 2 ; x 2 RX g (4.36)
desde el punto de vista de la modelación, distinguimos dos componentes
básicos:
(i) la forma paramétrica de la función de densidad f (x; ) ; 2 y
(ii) el soporte de la densidad RX := fx 2 R : f (x; ) > 0g.
En teoría, la modelización empírica comienza a partir del "conjunto de
todos los posibles modelos de probabilidad", por ejemplo, P , y utilizando
la información referida a la forma y estructura de los datos, el modelador
reduce este conjunto a un subconjunto P 0 P de modelos de probabilidad
admisibles , eligiendo f (x; ) y RX , felizmente.
La noción de modelo de probabilidad simple fue ilustrada en el capítulo
3 con una serie de grá…cas de densidad para diferentes valores de . Como
veremos en el capítulo 5, la elección de f (x; :) y no tiene por qué ser un
200 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA
asunto de acertar o fallar; puede ser facilitado por una serie de grá…cas de
los datos. El soporte de la densidad también juega un papel importante en
la especi…cación debido a que el rango de valores de los datos observados es
una dimensión fundamental de la modelizaciónque a menudo se descuida. En
el caso donde los datos observados se re…eren a una serie de datos medidos
en términos de proporciones (es decir, los valores tomados por los datos se
encuentran en el intervalo [0; 1]), la postulación de una familia de densidades
con soporte ( 1; 1) es a menudo inadecuado. El uso de la familia de
densidades Beta a menudo puede ser una mejor idea.
Ejemplo
En el caso de los datos de las puntuaciones del examen (véase la tabla 1.6),
hay buenas razones para creer que, basándose principalmente en el soporte
de los datos, el modelo de probabilidad Beta podría de hecho ser una mejor
opción; véase el capítulo 15.
UNA NOTA DE PRECAUCIÓN. En el contexto de la inferencia estadís-
tica la escena central se le dará al parámetro(s) desconocido(s) ; estimación
y pruebas giran en torno a . Sin embargo, el modelador no debe perder
de vista el hecho de que la estimación de (utilizando los datos observados
con el …n de elegir un buen estimador b) es un medio para un …n. El ob-
jetivo principal de la modelización empírica es describir adecuadamente el
fenómeno estocástico subyacente a los datos en cuestión. Este modelo viene
en la forma del modelo de probabilidad estimado:
n o
b = f x; b ; x 2 RX , (4.37)
g (:) : ! .
Si queremos hacer hincapié en la reparametrización podemos escribir
(4.38) en la forma:
= ff (x; ) ; = g( ); 2 ; x 2 RX g , (4.39)
qué parametrización se usará en un caso concreto depende de varios fac-
tores, entre ellos la interpretabilidad.
Ejemplo
Consideremos el caso de la distribución exponencial donde 2 la
parametrización toma la forma:
1 1
= f (x; ) = exp x ; x > 0; 2 := (0; 1) .
202 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA
h (:) : ! A,
d (x) (x 0) 2
= (x) , x 2 R donde := 0 y := 1.
dx 1
df (x) (x 0)
= f (x) 2
, x 2 RX .
dx 1 + 2x + 3x
(k 0)
fk fk 1 = fk , k = 1; 2; 3; :::, x 2 RX .
1 + 2x + 3 x (1 x)
(a) c ( ) 0,
(b) h (x) 0,
(c) gi ( ), i = 1; 2; :::; k: funciones reales (sin x),
(d) i (x), i = 1; 2; :::; k: funciones reales (sin ).
Muchas distribuciones conocidas como la normal,Gama, Beta, Binomial,
Poisson y Binomial Negativas pertenecen a esta familia; ver Barndor¤-Nielsen
y Cox (1989), Azallini (1996).
Ejemplos
(i) La distribución de Poisson es un miembro discretos de la familia ex-
ponencial con función de densidad:
x
f (x; ) = e x! = ex! exp (x In ( )), > 0, x = 0; 1; 2; :::, > 0,
Por lo tanto, para esta densidad: k = 1, c ( ) = e , h (x) = x!1 , g( ) =
In ( ), (x) = x.
(ii) La distribución normal es un miembro continuo de la familia expo-
nencial con función de densidad:
2
exp
(x )2 2 2
f (x; ) = p 1 exp 2 = p exp x2 1
2 +x 2 ,x2
2 2 2 2 2 2
R,
: = ( ; 2 ) 2 R R+ . Por lo tanto, para la densidad normal: k = 2,
2
c ( ) = p21 2 exp 2 2
, h (x) = 1, g1 ( ) = 2 , g2 ( ) = 2 12 , 1 (x) = x,
2 (x) = x2 .
La familia estable (Pareto-Levy)
La familia estable de distribuciones fue inicialmente motivada por la im-
portante propiedad del dominio de atracción: la suma de variables aleatorias
independientes de una cierta distribución, debidamente normalizada, tiene la
misma distribución de las variables aleatorias individuales. Esta familia de
4.7. UN MODELO ESTADÍSTICO SIMPLE EN LA MODELIZACIÓN EMPÍRICA: UNA VISIÓN PR
f (x; ; ) = , x 2 R; 2 R; 2 R+ .
2 + (x )2
NOTE que para el caso 0 < 10, no existen momentos!
206 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA
r
1
f (x; ; ) = 3 exp ,x> ; 2 R; 2 R+ .
2 + (x ) 2 (x )
Z
X = + h (Y ) = + h (Y ) , X~N (0; 1) ; h (:) es una función monótona.
Xn n
F[k] (x) = P X[k] x = [F (x; )]m [1 F (x; )]n m
.
m=k k
4.8. MUESTRAS ALEATORIAS ORDENADAS* 209
NOTE que la fda de X[1] y X[n] constituyen casos especiales de los ante-
riores resultados.
Juntando los resultados anteriores, deducimos que la muestra ordenada
X[1] ; X[2] ; : : : ; X[n] es claramente no ID ya que la distribución de X[k] cambia
con k.
Ejemplo
Considere el caso donde (X1 ; X2 ; : : : ; Xn ) constituye una muestra aleato-
ria de una distribución uniforme:
Xk ~U (0; 1) , k = 1; 2; :::; n.
Podemos fácilmente demostrar que los dos primeros momentos de estas
variables (ver Apéndice A) son:
1 1
E (Xk ) = , V ar (Xk ) = , Cov (Xk ; Xj ) = 0, j 6= k, j; k = 1; 2; :::; n.
2 12
Por otra parte, los dos primeros momentos de la muestra ordenada X[1] ; X[2] ; : : : ; X[n]
son los siguientes:
k k (n k + 1)
E (Xk ) = , V ar (Xk ) = ,
n+1 (n + 1)2 (n + 2)
j (n k + 1)
Cov (Xk ; Xj ) = , j < k, j; k = 1; 2; :::; n.
(n + 1)2 (n + 2)
Xn Xk n!
F[i;j] (xi ; xj ) = [F (xi )]l [F (xj ) F (xi )]k l [1 F (xj )]n k
.
k=j l=i l! (k l)! (n k)!
Como podemos ver, la distribución conjunta anterior no se puede expresar
como un producto de las dos distribuciones marginales y por lo tanto las
variables aleatorias X[i] ; X[j] no son independientes.
4.9 Resumen
En este capítulo hemos completado la transformación de la formalización ini-
cial de la noción de experimento aleatorio en la forma del abstracto espacio
estadístico (S; =; P (:))n ; GnIIDn en un modelo estadístico simple. Los fenó-
menos de interés que pueden ser modelados en el contexto de este modelo
simple son los que muestran patrones de regularidad aleatoria de:
4.10 Ejercicios
1. Explique por qué la distribución conjunta se puede utilizar para describir
la heterogeneidad y la dependencia entre variables aleatorias.
4.10. EJERCICIOS 211
ynx 1 0 1
1 0:2 0:2 0:2
1 0:1 0:1 0:2
(a) Obtenga las distribuciones marginales de X y Y .
(b) Determine si X y Y son independientes.
(c) Veri…que su respuesta en (b) usando la distribución condicional(es).
5. De…nir el concepto de la independencia de dos variables aleatorias X y
Y en términos de las funciones de densidad conjunta, marginal y condicional.
6. Explicar el concepto de muestra aleatoria y explicar por qué a menudo
es restrictiva para la mayoría de las series de datos económicos.
7. Describa brevemente la formalización de la condición: [c] podemos
repetir el experimento bajo idénticas condiciones, en la forma del concepto
de una muestra aleatoria.
8. Explique intuitivamente por qué tiene sentido que cuando la distribu-
ción conjunta f (x; y) es normal las distribuciones marginales fx (x) y fy (y)
son también normales.
9. De…na los momentos crudos y centrales y demuestre que:
El concepto de muestra no
aleatoria
5.1 Introducción
En este capítulo damos el primer paso para extender el modelo estadístico
simple (formalizado en los capítulos 2-4) en las direcciones que permiten
la dependencia y la heterogeneidad. Ambas dimensiones son excluidas en
el contexto del modelo estadístico simple, porque este último se basa en
la noción de muestra aleatoria: un conjunto de variables aleatorias que son
Independientes e Idénticamente Distribuidas (IID). En este capítulo nos con-
centramos en el concepto de dependencia, allanando el camino para modelos
estadísticos más elaborados en los siguientes capítulos.También extendemos
el puente entre conceptos teóricos y datos reales introducidos en el capítulo
5, mediante la introducción de algunas técnicas grá…cas adicionales.
213
214 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
Q
n
Independencia: f (x1 ; x2 ; :::; xn ; ) = fk (xk ; k) ; para todo x 2 Rn ;
k=1
Distribución idéntica: fk (xk ; k) = f (xk ; ) ;para todo k = 1; 2; :::; n:
218 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
I
Y
n
ID
Y
n
f (x1 ; x2 ; :::; xn ; ) = fk (xk ; k) = f (xk ; ) ; para todo x 2 Rn .
k=1 k=1
(6.1)
Observando este resultado podemos ver que el supuesto de muestra aleato-
ria simpli…ca drásticamente la distribución conjunta (distribución de la mues-
tra) en dos aspectos importantes:
(i) reducción de la dimensionalidad: f (x1 ; x2 ; :::; xn ; ) es n-dimensional
y f (xk ; ) es uni-dimensional y
(ii) reducción de parámetros: el número de parámetros desconocidos es
a menudo mucho más pequeños que el de .
Ejemplo
Considere el caso donde la distribución conjunta de las variables aleatorias
(X1 ; X2 ; :::; Xn ) es normal, es decir, f (x1 ; x2 ; :::; xn ; ) toma la forma:
0 1 02 3 2 31
X1 1 11 12 13 ::: 1n
B X2 C B6 7 6 21 ::: 7C
B C B6 2 7 6 22 23 2n 7C
B X3 C B6 7 6 31 ::: 7C
B C N B6 3 7 6 32 33 3n 7C : (6.2)
B .. C B6 .. 7 6 .. .. 7C
@ . A @4 . 5 4 . . 5A
Xn n n1 n2 n3 ::: nn
Xk N( k; kk ) ; k = 1; 2; :::; n: (6.4)
Esta reducción, aunque drástica, no produce un modelo operativo, porque
hay
todavía 2n parámetros desconocidos:
k := ( k; kk ) ; k = 1; 2; :::; n;
que aumentan con el tamaño de muestra! La imposición del supuesto de
distribución idéntica en la segunda fase en (6.1) garantiza que:
2
1 = 2 = = n = := ;
y por lo tanto la densidad conjunta se reduce a un producto de densidades
marginales univariadas f (xk ; ) ; := ( ; 2 ) ; de la forma:
2
Xk N ; ; k = 1; 2; :::; n:
NOTE la reducción correspondiente en los parámetros desconocidos en
(6.1):
2
:= (( i ; ij ; i; j = 1; 2; ::::; n) k := ( k; kk ) ; k = 1; 2; :::; n) := ; .
La reducción anterior produce el modelo normal simple:
[i] Modelo de probabilidad:
( ( ) )
1 (x )2 2
= f (x; ) = p exp 2
; := ; 2R R+ ; x 2 R.
2 2
220 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
NOTAS:
(i) La reducción es simétrica con respecto a X y Y en el sentido de que:
Ejemplo
Considere el caso donde las variables aleatorias (X; Y ) están normalmente
distribuidas, es decir, f (x; y; ) toma la forma:
Y 1 11 12
~N ;
X 2 21 22
2
X~N ( 2 ; 22 ) ; (Y jX = x) ~N 0 + 1 x; , x 2 RX ,
2
2
donde 0 := 1 1 2, 1 := 12
22
, = 11
12
22
. Estos resultados
muestran que:
2
:= ( 1 ; 2; 11 ; 12 ; 22 ) ; '1 := ( 2 ; 22 ) , '2 := 0; 1; .
2
12 =0) 1 = 0; 0 = 1 y = 11 .
(Y jX = x) j 12 =0 ~N ( 1 ; 11 ) , x2R
lo que implica que f (yjx; '2 ) j 12 =0 = fy (y; 2 ). Resulta que la restricción
12 = 0 es a la vez necesaria y su…ciente para que la condicional se reduzca
222 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
no IID
Y
n
f (x1 ; x2 ; x3 ; :::; xn ; ) = f1 (x1 ; 1) fk (xk jxk 1 ; :::; x1 ; k) , x 2 RnX .
k=2
(6.9)
Esto disipa la maldición de la dimensionalidad debido a que el lado dere-
cho es un producto de densidades de una variable pero surgen dos problemas
distintos:
(c) El conjunto de condicionalidad creciente: el número de variables
condicionantes cambia con el índice en el sentido de que fk (xk jxk 1 ; :::; x1 ; k )
tiene k 1 variables condicionantes pero el índice cambia K = 2; 3; :::; n, ha-
ciendo estas densidades diferentes, por ejemplo para n = 5:
f (x2 jx1 ; 2 ),
f (x3 jx2 ; x1 ; 3 ),
f (x4 jx3 ; x2 ; x1 ; 4 ),
f (x5 jx4 ; x3 ; x2 ; x1 ; 5 ).
d) El problema de condicionalidad estocástica: el lado derecho de (6.9)
es el producto de n distribuciones univariadas (n 1 condicionales y una
marginal) para todo valor de x 2 RnX , es decir, una n tupla tal para cada
valor de x 2 RnX . En la reducción en (6.5) existe una distribución conjunta
f (x; y; ) y una densidad marginal fx (x; '1 ), pero varias densidades condi-
cionales f (yjx; '2 ); una para cada valor de x 2 RX , ya que la noción de
densidad condicional se de…ne por un valor especí…co de la variable condicio-
nante.
Estos problemas son sintomáticos de la dependencia entre las variables
aleatorias en la sucesión porque las variables aleatorias implicadas nunca
5.2. MUESTRA NO ALEATORIA: UNA VISIÓN PRELIMINAR 223
I
Y
n
f (x1 ; x2 ; :::; xn ; ) = fk (xk ; k) ; para todo x 2 RnX (6.10)
k=1
h (:) : RX ! RY .
Ejemplo
Consideremos de nuevo nuestro experimento aleatorio favorito de lan-
zar una moneda al aire dos veces y tomar nota de los resultados con S =
f(HH); (HT ); (T H); (T T )g, el espacio de eventos siendo el conjunto potencia
de S, es decir, = := P (S). De…nir las variables aleatorias
X (HH) = X (T T ) = 0; X (HT ) = X (T H) = 1;
Y (HH) = Y (HT ) = 0; Y (T T ) = X (T H) = 1;
Z (HH) = 0; X (HT ) = Z (T H) = 1; Z (T T ) = 2:
(X) : = S; ;; A; A ; A := f(HH) ; (T T )g ;
(Y ) : = S; ;; B; B ; B := f(HH) ; (HT )g ;
(Z) : = S; ;; C1 ; C2 ; C3 ; C1 ; C2 ; C3 ; C1 := f(HH)g ;
C2 : = f(HT ) ; (T H)g ; C3 := f(T T )g :
1
P (A \ B) = = P (A) P (B) para todo A 2 (X) y B 2 (Y:)
4
1 1
P (A \ C1 ) = 6= P (A) P (C1 ) = :
4 8
Teniendo en cuenta el hecho de que las variables aleatorias X y Z son
dependientes podemos proceder a medir su dependencia con cualquiera de
las medidas (1) - (3).
Como X, Z son dependientes, se mide su dependencia usando cualquiera
de las medidas (1)-(3) anteriores:
228 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
1 1 1 1
= P (A \ C1 ) = P f(HH)g ; P (A) P (C1 ) = = ;
4 2 4 8
1 1 1
0 = P (A \ C2 ) = ;; P (A) P (C2 ) = = ;
2 2 4
1 1 1 1
= P (A \ C3 ) = P f(T T )g ; P (A) P (C3 ) = = ;
4 2 4 8
1 1 3 3
= P A \ C 1 = P f(T T )g ; P (A) P C 1 = = ;
4 2 4 8
1 1 1 1
= P A \ C 2 = P f(HH)g ; P (A) P C 2 = = ;
2 2 2 4
1 1 3 3
= P A \ C 3 = P f(HH)g ; P (A) P C 3 = = ;
4 2 4 8
1
( (X) ; (Z)) = sup jP (A \ B) P (A) P (B)j = :
A2 (X),B2 (Z) 4
ynx 0 1 fY (y)
0 0:25 0:25 0:50
((6.12))
1 0:25 0:25 0:50
fX (x) 0:50 0:50 1
Se puede veri…car fácilmente que estas dos variables aleatorias son real-
mente independientes.
5.3. DEPENDENCIA ENTRE DOS VARIABLES ALEATORIAS: DISTRIBUCIÓN CONJUNTA229
Z 1 Z 1
(X; Y ) = [f (x; y) fX (x) fY (y)]2 f (x; y) dxdy :
1 1
Z 1 Z 1
1 (X; Y ) = 12 jf (x; y) fX (x) fY (y)j2 f (x; y) dxdy ;
1 1
Z 1 Z 1
2 (X; Y ) = 12 jf (x; y) fX (x) fY (y)j2 fX (x) fY (y) dxdy :
1 1
3. Distancia informacional:
Z 1Z 1
f (x; y)
K (X; Y ) = In f (x; y) dxdy;
1 1 fX (x) fY (y)
donde In denota el logarítmo natural (base e); esta medida se basa en la
medida Kullback de divergencia entre dos distribuciones.
230 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
Z 1 Z 1
2 f (x; y)
' (X; Y ) = f (x; y) dxdy 1 :
1 1 fX (x) fY (y)
Z 1 Z 1
S (X; Y ) = 3 [2FX (x) 1] [2FY (y) 1] f (x; y) dxdy;
1 1
[2FX (x) 1] U [ 1; 1] :
La presencia de las integrales múltiples en las medidas anteriores de de-
pendencia basadas en funciones de densidad, las hace engorrosas y muy cerca
de irrealizables en el caso de más de dos variables aleatorias. Como argu-
mentamos en la sección anterior necesitamos medidas de dependencia de una
sucesión de variables aleatorias (X1 ; X2 ; :::; Xn ). Por otra parte la mezcla
de medidas de condición (1) - (3), basadas en espacios de subeventos, son
más fáciles de manejar, ya que implican la maximización sobre conjuntos de
subconjuntos. Como se muestra en el capítulo 8, la última medida de depen-
dencia forma la base de las llamadas condiciones mixtas sobre dependencia
temporal en una sucesión de variables aleatorias.
f ( 1; 1) = 0 6= fx ( 1) fy ( 1) = 0:062.
Sin embargo, las variables aleatorias u = X 2 y v = Y 2 resultan inde-
pendiente, como puede comprobarse a partir de (6.16) (b). La moraleja de
232 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
esta historia es que incluso en los casos en que las variables aleatorias X y
Y no son independientes, es posible que existan algunas funciones de las que
resultan ser independientes.
Teniendo en cuenta el hecho de que la experanza E (:) está siempre
de…nida con respecto a una distribución especí…ca, no debería ser una sor-
presa saber que la condición (6.15) puede escribirse de forma equivalente en
la siguiente forma:
Z 1 Z 1
E (h (X) g (Y )) = [h (X) g (Y )] f (x; y) dxdy;
1 1
Z 1
E (h (X)) = [h (X)] fX (x) dx;
1
Z 1
E (g (Y )) = [g (Y )] fY (y) dy:
1
0
(a) km := E X k Y m = E X k E (Y m ) ; para todo k; m = 0; 1; 2; :::.
(6.18)
Este es, otra vez, un resultado no operacional para demostrar la inde-
pendencia, porque tenemos que veri…car estas igualdades para un número
in…nito de momentos conjuntos. Sin embargo, su negación se puede utilizar
para trazar el territorio entre las dos posiciones extremas de independencia
y dependencia completa, en el sentido de que si:
5.4. DEPENDENCIA ENTRE DOS VARIABLES ALEATORIAS: MOMENTOS233
n o
k m
(b) km := E [X (EX)] [Y = 0; para todo k; m = 0; 1; 2; :::
E (Y )]
(6.20)
Del mismo modo, podemos de…nir la noción de dependencia (k; m) usando
su negación:
n o
k m
E [X (EX)] [Y E (Y )] 6= 0; para todo k; m = 0; 1; 2; :::
Correlación y dependencia
Una debilidad importante de la covarianza, cuando se utiliza como una
medida de dependencia entre X y Y , es que depende de sus unidades de me-
dida. La versión estandarizada de la covarianza, conocida como coe…ciente de
correlación, se propuso por primera vez por Galton (1880) como co-relación.
Coe…ciente de correlación. Para cualesquiera dos variables aleatorias
X y Y tales que V ar (X) < 1, V ar (Y ) < 1, de…nidas en el mismo espacio
de probabilidad (S; =; P (:)), el coe…ciente de correlación se de…ne por:
Cov (X; Y )
Corr(X; Y ) = p :
V ar(X)V ar(Y )
Ejemplo
Vamos a obtener el coe…ciente de correlación entre X y Y , usando densi-
dad conjunta 4.19 (see el capítulo 4):
Y = a0 + a1 X, a1 > 0 (6.21)
Por simple álgebra y las propiedades de E (:) (ver capítulo 3), se deduce
que:
a1 V ar (X)
Corr(X; Y ) = p = 1:
a21 V ar (x) V ar(Y )
NOTE que en el caso a < 0, Corr(X; Y ) = 1. La parte solo si de
este resultado es un poco más complicada. Suponga que Corr(X; Y ) = 1 (el
caso Corr(X; Y ) = 1 puede ser tratado, de manera similar) y de…nir las
variables estandarizadas:
X E (X) Y E (Y )
X = p , Y =p .
V ar (X) V ar (Y )
De esto podemos deducir que:
Ef(X Y )2 g = V ar (X ) + V ar (Y ) 2E (X Y ) = 2 2 = 0.
Esto implica que P (s : X (s) 6= Y (s)) = 0, para todo s 2 S (veáse
capítulo 3) que puede ser equivalentemente escrito en la forma:
1
V ar (Y ) 2
Y = E (Y ) + (X E (X)) , con probabilidad uno.
V ar (X)
1
2
lo que coincide con (6.21) para: a0 = E (Y ) a1 E (X), a1 = VV ar(X)
ar(Y )
.
El resultado anterior sugiere que la correlación es una medida de de-
pendencia lineal. Este hecho se pone de mani…esto con mayor énfasis en el
siguiente ejemplo.
Ejemplo
Sea X uniformemente distribuida entre menos uno y más uno, que se
denota por
X U ( 1; 1) y Y := X 2 :
Como podemos ver, X; Y son perfectamente dependientes una de otra
(pero no linealmente); el conocimiento de una determina la otra completa-
mente. Podemos mostrar, sin embargo, que las dos no están correlacionadas.
En vista del hecho de que:
1
fX (x) =; E(X) = 0;
2
Cov(X; Y ) = E(XY ) E(X)E(Y ) = E(X 3 ) E(X) E(X 2 ):
Z 1 1
3 3 1 1 1 4 1 1 1
E(X ) = x dx = x = = 0:
1 2 2 4 1 2 4 4
independencia ) no correlación
5.5. MOMENTOS CONDICIONALES Y DEPENDENCIA 237
no correlación ; independencia
Para concluir esta sección NOTEMOS un concepto estrechamente rela-
cionado con no correlación, la noción de ortogonalidad. Se dice que dos
variables aleatorias X y Y , cuyos segundos momentos son …nitos, son ortog-
onales si:
E (X Y ) = 0
NOTE que si dos variables aleatorias no están correlacionadas, sus desvia-
ciones medias
X := [X E (X)] , Y := [Y E (Y )]
son ortogonales
E (X Y ) = 0.
Paso 3. En general:
o equivalententemente:
P (A \ BjD) = P (A \ D) P (B \ D) .
Es decir, el conocimiento de que D ha ocurrido hace que los eventos A y
B sean independientes.
Las variables aleatorias X y Y se dice que son condicionalmente inde-
pendientes dada Z, si y sólo si:
0 1 02 3 2 31
X1 1 11 12 13
@ X2 A ~N @4 2
5;4 21 22 23
5A (6.33)
X3 3 31 32 33
P 1 X
(det ) 2 1 1
f (x; ) = p n exp (x )T (x ) , (6.34)
2 2
X
E (X) = , Cov (X) = .
ij = 0 , Xi y Xj son independientes.
Resulta ser que la independencia condicional también es fácil de de…nir en
este contexto en términos de la inversa de la matriz de varianzas-covarianzas:
2 3 1 2 3
11 12 13 ! 11 ! 12 ! 13
4 21 22 23
5 = 4 ! 21 ! 22 ! 23 5 .
31 32 33 ! 31 ! 32 ! 33
para todo i 6= j 6= k; i; j; k = 1; 2; 3:
(M ) : f (xt3 jxt2 ; xt1 ) = f (xt3 jxt2 ) , para todo xt1 ; xt2 ; xt3 2 R3X .
1
f (x; y; z) = (f (x; z) f (y; z)) , para todo x; y; z 2 (RX RY RZ ) .
fZ (z)
[X ? Y ] (Z) .
Usando esta notación podemos formular algunos resultados útiles en relación
a la independencia condicional (ver Whittaker (1990):
(i) ([Y ? (X1 ; X2 )] j (Z)) ) ([Y ? X1 ] j (Z)),
(ii) ([Y ? (X1 ; X2 )] j (Z)) , ([Y ? X1 ] j (Z; X2 )) y ([Y ? X2 ] j (Z; X1 )),
(iii) ([Y ? X] j (Z)) y U = h (X) ) ([Y ? U ] j (Z)),
(iv) ([Y ? X] j (Z)) y U = h (X) ) ([Y ? X] j (Z; U )),
donde h(:) es una función de Borel. NOTE que estos resultados se
mantienen sin cambios en caso de que X, Y , Z sean vectores aleatorios.
Un concepto relacionado con la independencia condicional, pero menos
general se de…ne en términos de la covarianza de las medias condicionales.
Esto se conoce como covarianza parcial entre las variables aleatorias X y
Y dado Z y se de…ne por:
ij ik jk
ij;k : = Corr (Xi ; Xj jXk ) = q ;
2 2
(1 ik ) 1 jk
ij
ij : =p ; i 6= j 6= k; i; j; k = 1; 2; 3.
ii jj
Ejemplo
En el caso donde (X1 ; X2 ; :::; Xn ) se distribuyen normalmente, discutido
anteriormente, se puede demostrar que las covarianzas condicionales coinci-
den con los elementos de la inversa de la matriz de varianzas-covarianzas, es
decir:
0 1 02 3 2 31
X1 1 11 12 13 14
B X2 C B6 7 6 7C
B C ~N B6 2 7;6 21 22 23 24 7C (4.36)
@ X3 A @4 3
5 4 31 32 33 34
5A
X4 4 41 42 43 44
Como se ha dicho allí, las variables de razón tienen la más rica estructura
matemática seguidas de las variables de intervalo, ordinal y nominal en ese
orden. Los métodos estadísticos diseñados para una categoría de variables no
se aplican necesariamente a las variables de otras categorías. La única regla
general que podemos utilizar como una guía es que un método estadístico
diseñado para una categoría de variables se aplica también a las variables que
pertenecen a una categoría superior, pero no necesariamente a una categoría
inferior. Por ejemplo, un concepto estadístico diseñado para una variable
ordinal es signi…cativo para las variables de intervalo y de razón, pero no
necesariamente para las variables nominales. Para variables nominales, la
única medida de la localización que tiene sentido es la moda y para las
variables ordinales se puede agregar a la mediana. En cuanto a las medidas
de dispersión el rango intercuartil sólo tiene sentido para variables ordinales.
Todo lo que implica la media o la varianza no tiene mucho sentido para las
variables nominales y ordinales.
La medición de la dependencia entre las dos últimas categorías (nominal,
ordinal) de variables aleatorias es algo problemático, ya que no es obvio
lo que la dependencia signi…ca en su contexto. El problema es aún más
serio cuando se mide la dependencia entre las variables de las diferentes
categorías. Estos problemas fueron reconocidos a principios del siglo 20 y se
convirtió en un tema que llevó a enconadas discusiones entre K. Pearson y
Yule. Yule (1900, 1910, 1912) estuvo a favor de diseñar medidas especí…cas
de asociación entre variables discretas utilizando su carácter discreto. K.
Pearson (1910, 1913a, b), por otra parte, favoreció el uso de distribuciones
continuas para la aproximación de la distribución bivariada discreta para las
variables categóricas y usarlas para medir asociación; véase también Heron
(1911). Los argumentos de ambos lados se apasionaron y los que piensan que
la teoría de la probabilidad y la inferencia estadística son temas matemáticos
sin emociones deben leer el siguiente vilipendio de K. Pearson a su ex alumno,
ayudante y compañero de trabajo:
Lamentamos tener que llamar la atención sobre la forma en la que el
Sr. Yule se ha perdido en cada etapa de su tratamiento de la asociación,
pero la crítica de sus métodos ha sido lanzada sobre nosotros no sólo por el
reciente ataque del Señor Yule, sino también por los elogios irre‡exivos que
han sido otorgados a un libro de texto (de Yule), que en muchos puntos sólo
puede conducir a los estudiantes de estadística irremediablemente por el mal
camino. (Pearson
y Heron (1913), p. 310).
246 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
P(A \ B) P(A \ B)
rpc (A; B) = :
P(A \ B) P(A \ B)
5.6. DEPENDENCIA Y SISTEMA DE MEDIDA 247
y=x x1 x2 fY (y)
y1 11 12 1
y2 21 22 2
fX (x) 1 2 1
La fórmula anterior se puede adaptar al caso de una distribución de dos
variables f (x; y) donde la variables aleatorias X y Y son variables ordinales
con sólo dos valores (x1 ; x2 y y1 ; y2 , repectivamente) de la forma dada ante-
riormente. En este caso, la razón producto cruzado se de…ne como la razón
de los productos 22 11 y 12 21 de probabilidades de celdas opuestas diag-
onalmente (de ahí el nombre), es decir,
22 11
rpc(X; Y ) = :
12 21
In(rpc(X; Y )) = 0:
Q de Yule Q (coe…ciente de asociación)
Una cercanamente relacionada medida de dependencia es la Q de Yule
(en honor del estadista belga Quetelet) de…nida por (ver Yule (1900)):
11 22 12 21
Q= :
11 22 + 12 21
Ejemplos
(i) Considere el caso donde 11 = 0:3; 12 = 0:1; 21 = 0:2 y 22 =
(0:4)(0:3)
0:4. rpc(X; Y ) = (0:1)(0:2) = 6, y teniendo en cuenta el hecho de que
In(rpc(X; Y )) = 1:792, podemos deducir que X y Y no son independientes.
Esto es con…rmado por la Q de Yule:
(0:3) (0:2)
rpc(X; Y ) = = 1 y In(rpc(X; Y )) = 0
(0:3) (0:2)
podemos concluir que la razón productos cruzado con…rma la indepen-
dencia mostrada en términos de la función de densidad conjunta (véase el
capítulo 4). Esto se ve con…rmado por la Q de Yule:
Y Xm Xn X X
Concordancia : =2 ij hk ;
c i=1 j=1 h>i k>j
Y Xm Xn X X
Discordancia : =2 ij hk :
d i=1 j=1 h>i k<j
ynx 1 2 3 fY (y)
0 0:20 0:10 0:15 0:45
1 0:10 0:25 0:05 0:40 (6.37)
2 0:01 0:06 0:08 0:15
fX (x) 0:31 0:41 0:28 1
Considere la evaluación del coe…ciente de concordancia:
X X
i = 0; j = 1 : 01 hk = 0:20 (0:25 + 0:05 + 0:06 + 0:08) = 0:088;
h>0 k>1
X X
i = 0; j = 2 : 02 hk = 0:10 (0:05 + 0:08) = 0:013;
h>0 k>2
X X
i = 1; j = 1 : 11 hk = 0:10 (0:06 + 0:08) = 0:014;
h>1 k>1
X X
i = 1; j = 2 : 12 hk = 0:25 (0:08) = 0:020:
h>1 k>2
Y
= 2 (0:088 + 0:013 + 0:014 + 0:020) = 0:270:
c
El coe…ciente de discordancia:
X X
i = 0; j = 2 : 02 hk = 010 (0:10 + 0:01) = 0:011;
h>0 k<2
X X
i = 0; j = 3 : 03 hk = 0:15 (0:10 + 0:25 + 0:01 + 0:06) = 0:063;
h>0 k<3
X X
i = 1; j = 2 : 12 hk = 0:25 (0:01) = 0:0025;
h>1 k<2
X X
i = 1; j = 3 : 13 hk = 0:05 (0:01 + 0:06) = 0:0035:
h>1 k<3
Y
= 2 (0:011 + 0:063 + 0:0025 + 0:0035) = 0:160:
d
Por lo tanto,
Q Q
( c ) 0:270 0:160
= Q Qd = = 0:2558;
( c + d) 0:270 + 0:160
es decir, existe una baja dependencia positiva entre ingresos y edad.
250 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
ynx x1 x2 x3 xn fy (y)
y1 11 12 13 1n 1:
y2 21 22 23 2n 2:
y3 31 32 33 3n 3:
ym m1 m2 m3 mn m:
fx (x) :1 :2 :3 :n 1
donde la varianza de Y toma la forma:
X
m X
m
2
V ar (Y ) = k : (1 k :) = 1 k :,
k=1 k=1
X
m
hk
2
V ar (Y jX = xh ) = 1 k :jh, kjh = , h = 1; 2; :::; n.
k=1
:h
5.6. DEPENDENCIA Y SISTEMA DE MEDIDA 251
!
X
n X
m X
n X
m 2
2 hk
E (V ar (Y jX)) = :h 1 k jh =1 ,
h=1 k=1 h=1 k=1
:h
X
n X
m
2 X
m
hk 2
:h k
h=1 k=1 k=1
= .
X
m
2
1 k
k=1
X
m
V (Y ) = k :In k:
k=1
n X
X m
kh In ( kh = k : :h )
h=1 k=1
U=
X
m
k: In k:
k=1
p (1; 1) p (0; 0)
u12 := In (rpc (x; y)) = In .
p (1; 0) p (0; 1)
Cuando u12 = 0 decimos que las variables aleatorias Bernoulli X y Y son
independientes.
Los resultados anteriores se puede extender a la distribución Bernoulli de
tres variables, cuya función de densidad (en analogía directa con la de dos
variables) toma la forma:
p (y1 ; 1; 1) p (y1 ; 0; 0)
rpc (X; ZjY = y1 ) = , para y1 = 0; 1.
p (y1 ; 1; 0) p (y1 ; 0; 1)
u23 = 0 y u123 = 0,
o de manera equivalente:
Para concluir esta sección es importante señalar que los valores numéricos
de los términos de interacción uij , i; j = 1; 2; 3 y u123 no son de interés
intrínseco; el interés básico se encuentra en lo ellos implica en términos de la
estructura de dependencia entre las variables aleatorias en cuestión. Usando
los modelos grá…cos introducido en la sección anterior podemos ver cómo
ellos identi…can esta estructura de dependencia.
Modelo 1: u123 = 0; uij 6= 0 para i; j = 1; 2; 3.
Modelo 2: u123 = 0; u13 = 0; u23 6= 0; u12 6= 0; ([X ? Z]jY ).
Modelo 3: u123 = 0; u13 = 0; u23 = 0; u12 6= 0; ([X ? Z]jY ); ([Y ? Z]jY ).
254 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
En los casos en que todas las variables aleatorias involucradas son disc-
retas o continuas, no surgen problemas porque podemos usar distribuciones
conjuntas discretas y continuas, respectivamente, para describir la dependen-
cia. Los problemas surgen en el caso donde algunas de las variables aleatorias
son discretas y las otros son continuas y el modelador considera el problema
de la dependencia entre estas variables aleatorias.
Como se ha dicho en el capítulo 4, la función de densidad conjunta de
(X; Y; Z), donde (X; Y ) son variables aleatorias continuas y Z es una vari-
able aleatoria discreta puede ser mejor de…nida indirectamente a través del
producto:
X Zx Zy
F (x; y; z) = fz (zk ) = f (x; yjzk ) dudv.
zk z 1 1
Esto sugiere con mayor claridad que en el caso de una mezcla de vari-
ables aleatorias continuas y discretas la estructura de dependencia entre ellas
debe ser mejor acomodada en el contexto de los momentos condicionales de
f (x; yjz). Motivados por esta observación Lauritzen y Wermuth (1989) in-
trodujeron la llamada distribución condicional Gaussiana, que en el caso de
las variables aleatorias (X; Y; Z), la densidad condicional f (x; yjz) toma la
forma:
i (z) ; ij (z) ; i; j = 1; 2,
no es una cuestión trivial, ya que se re…ere a la parametrización de la
dependencia entre variables de distintas escalas de medición. Cualquiera que
piensa que esto es un juego de niños deben re‡exionar un momento sobre el
problema de la parametrización de la dependencia (posible) entre los ingresos
de la familia y la religión!
Resultó ser que, sin restricciones sobre los coe…cientes de los tres poli-
nomios ningún progreso era posible. Progresos importantes a lo largo de estas
líneas fueron hechos por Pretorius (1930) y luego por Van Uven (1947,1948)
quienes simpli…can tales ecuaciones a:
Los siguientes casos especiales resultaron ser de especial interés (ver Mar-
dia (1970) para los detalles):
(1) h2 (x; y) y g2 (x; y) no tienen factores comunes (como polinomios),
(2) h2 (x; y) y g2 (x; y) tienen un factor común,
(3) h2 (x; y) y g2 (x; y) son idénticos y
(4) g2 (x; y) es un factor lineal de h2 (x; y).
Caso 1. Nos proporciona las condiciones su…cientes para la independen-
cia entre X y Y ; sin factores comunes implica que:
Caso 2. Asumiendo que h2 (x; y) = h12 (x; y) l (x; y) y g2 (x; y) =g12 (x; y) l (x; y)
donde todos los polinomios del lado derecho son de grado uno, se produce
una distribución conjunta de la forma general:
f (x; y) = c0 ( x + ) 1 ( y + ) 2 (ax + by + c) 3 .
Esta distribución conjunta incluye la Beta bivariada, Pareto y distribución
F (véase el apéndice B) como casos especiales.
Caso 3. Asumiendo que h2 (x; y) =g2 (x; y), da lugar a una distribución
conjunta de la forma:
m
f (x; y) = c0 ax2 + by 2 + 2 1 xy + 2 2 x + 2 3 y + c .
Esta distribución conjunta incluye la bivariada de Cauchy, la t de Stu-
dent y la distribución de Pearson tipo II (véase el apéndice B) como casos
especiales.
Caso 4. Asumiendo que h2 (x; y) = h12 (x; y) l (x; y) y g2 (x; y) = l (x; y),
da lugar a una distribución conjunta de la forma general:
2y
f (x; y) = c0 ( x + ) 1 e (ax + by + c) 3 .
Esta distribución conjunta incluye la distribución Gamma bivariada (McKay)
(véase el apéndice B) como un caso especial.
Varios otros métodos para generar distribuciones conjuntas, tales como
la expansión bivariada Edgeworth y el método de traducción, resultan ser
sólo de un valor marginal; ver Mardia (1970) para una excelente discusión.
La manera menos efectiva de crear distribuciones conjuntas es tomar combi-
naciones lineales de distribuciones marginales. El primero en proponer este
método fue Ste¤ensen (1922). Asumiendo que las dos variables aleatorias
independientes (Z1 ; Z2 ) tienen densidades marginales f1 (z1 ) y f2 (z2 ), él con-
sideró la distribución conjunta de las transformaciones lineales:
X = a1 Z 1 + b 1 Z 2 + c 1 ; Y = a2 Z 1 + b 2 Z 2 + c 2 .
Considerando el hecho de que la transformación inversa es:
Z1 = X + aY; Z2 = Y + bX,
la densidad conjunta toma la forma general (ver capítulo 11):
F (x; y) = max (0; FX (x) ; FY (y) 1)+(1 ) min (FX (x) ; FY (y)) ; 0 1.
2. Morgenstern (1956):
3. Gumbel (1960):
F (x; y) (1 FX (x) FY (y) + F (x; y)) = (FX (x) F (x; y)) (FY (y) F (x; y)) ; > 0.
FX (x) FY (y)
F (x; y) = ; a 2 [ 1; 1] .
[1 a (1 FX (x)) (1 FY (y))]
Como podemos ver, la distribución de dos variables en todos estos casos se
construye con un parámetro que conecta las distribuciones marginales. Esto
es claramente de alcance limitado porque la dependencia es ahora capturada
por este único parámetro que es a menudo relacionado con el coe…ciente de
correlación.
5.7. DISTRIBUCIONES CONJUNTAS Y DEPENDENCIA 259
1
2
(1 ) 2
f (x; y; ) = p (6.39)
2 11 22
( !)
2 1 2 2
(1 ) y 1 y 1 x 2 x 2
exp p 2 p p + p (5.1)
2 11 11 22 22
1 : = E (Y ) , 2 := E (X)
X 1 11 12
~N ; .
Y 2 21 22
!
2 2
y 1 y 1 x 2 x 2
p 2 p p + p = ci , i = 1; 2; :::;
11 11 22 22
(6.40)
representa un conjunto de puntos con la misma probabilidad. Intuiti-
vamente, pueden ser pensados como siendo creados rebenando la super…cie
tridimensional de la densidad, paralela al plano xy a la misma distancia,
5.7. DISTRIBUCIONES CONJUNTAS Y DEPENDENCIA 263
por ejemplo (0; 001), (0:02), (0:04); :::; (0; 18), y dibujado la forma exterior
elíptica de las rebanadas comenzando con la más baja fuera de (0:001) y ter-
minando con la más alta (0.18) representando la última rebanada que incluye
el pico. En este sentido, el contorno de las grá…cas de igualdad tiene mucho
en común con las líneas de contorno de los mapas ordinarios representando
una super…cie montañosa tridimensional en un mapa de dos dimensiones. En
ambos casos el mapa surge proyectando las rebanadas de igual elevación de
una super…cie tridimensional sobre un diagrama bidimensional. Al igual que
con las líneas de contorno del mapa, cuanto más cerca de los contornos más
nítida será la elevación.
En las …guras 6.6 y 6.7 se pueden ver los contornos de igual probabilidad
de una densidad normal bivariada con correlación = 0:5 y = 0:5, re-
spectivamente. Observando la grá…ca de los contornos de igual probabilidad
debemos ser capaces de visualizar la super…cie tridimensional. Si compara-
mos la grá…ca de contorno en la …gura 6.6 con la de la …gura 6.7 podemos
ver que son diferentes en términos de su orientación, la pendiente del eje
principal de las elipses en la …gura 6.6 es positiva, mientras la de la …gura
6.7 es negativa.
2 2
y 1 y 1 x 2 x 2
l (x; y) = p 2 p p + p ;
11 11 22 22
X Z Z
T 1
l (x1 ; x2 ; :::; xn ) := (x ) (x ); y f (x1 ; x2 ; :::; xm ; ) dx1 dxm = 1;
RX R Y Rm
2 3 0 1
11 12 1m x1 1
X 6 7 B x2 C
6 21 22 2m 7 B 2 C
:= 6 .. .. 7 ; (x ) := B .. C:
4 . . 5 @ . A
m1 m2 mm xm m
1
( )
1 2 1
(v ) [(v + 2)] (1 ) 1
[v+2]
f (x; y; ) = 1
p 2
P 1+ [l (x; y)] 2 ; (x; y) 2 R2 :
2
v det ( ) v
P 1
! ( )v
2 1
det ( ) 2 (v + 1) (1 )
f (x; y; ) = 1 [l (x; y)] :
2 (v + 2) 2 (v + 2)
n o
y x
2 exp p 1
11
p 2
22
f (x; y; ) = p h n oi ; 2 R2 R2+ ; (x; y) 2 R2 ;
y x
11 22 1 + exp p 1
11
+ exp p 2
22
dando
1
1
:= Corr(X; Y ) = 1 2
; donde 1;
2 2
que incluye el caso anterior como un caso especial con a = 1. Es in-
teresante notar que hay una forma de la distribución logística bivariada que
pertenece a la familia elípticamente simétrica pero no tiene una forma cer-
rada (ver Fang et al. (1990)). Note que la extensión tmultivariada de esta
distribución toma la forma:
" 1
# 1
Xm xk k
f (x1 ; x2 ; :::; xm ; ) = 1 + exp p , 1;
k=1 kk
270 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
Z min(x;y)
e (x+y) 1 1
f (x; y; ) = ez z 0 1
(x z) 1
(y z) 2
dz; (x; y) 2 R2 ;
( 0) ( 1) ( 2) 0
0
:= Corr(X; Y ) = p ; 0< 1:
( 0 + 1) ( 0 + 2)
En las …guras 6.14 - 6.15 podemos ver la densidad bivariada con los con-
tornos insertados para dos conjuntos de parámetros := (1; 3; 3) con = 0:25
y := (8; 3; 3) con = 0:727, respectivamente.
La forma McKay de la densidad bivariada Gamma es la siguiente:
a( 1 + 2 ) ay 1 1
f (x; y; ) = e x 1
(y x) 2
; := (a; 1; 2) 2 R3+ ; (x; y) 2 R2 ;
( 1) ( 2)
5.7. DISTRIBUCIONES CONJUNTAS Y DEPENDENCIA 271
Y
2
vi0:5vi 0:5v
f (x; y; ) = [0:5v] (v0 + v1 x + v2 y) x0:5v x0:5v1 1 y 0:5v2 1 ; (x; y) 2 R2+ ;
i=0
[0:5vi ]
(v1 ; v2 ; v3 )
f (x; y; ) = y v 1 1 x v2 1
(1 x y)v3 1
,x 0; y 0; x+y 1.
(v1 ) (v2 ) (v3 )
donde (v1 ; v2 ; v3 ) 2 R3+ . Esta densidad, junto con sus contornos de
equiprobabilidad, para dos diferentes valores de , se muestra en las …g-
uras 6.24 y 6.25. En el caso de la …gura 6.24 la densidad bivariada tiene
valores de los parámetros := (v1 = 3; v2 = 3; v3 = 6), lo que supone un co-
e…ciente de correlación = 0:333. En el caso de la …gura 6.25 la densidad
bivariada := (v1 = 6; v2 = 6; v3 = 8), lo que supone un coe…ciente de cor-
relación = 0:429. La comparación de las dos super…cies sobre la base
del coe…ciente de correlación no es tan buena idea en este caso debido a que
la distribución exhibe una gran ‡exibilidad y la correlación por sí misma no
proporciona una guía con…able.
En la discusión anterior de dependencia en el contexto de distribuciones
bivariadas no simétricas se utilizó el coe…ciente de correlación con el …n de
explorar cómo cambian estas densidades cuando cambia la dependencia. Esto
es claramente insatisfactorio porque sabemos que el coe…ciente de correlación
mide sólo dependencia de primer orden. Está claro que necesitamos un án-
gulo de visión más general con el …n de evaluar la estructura de dependencia
de las diferentes distribuciones conjuntas. Como una extensión del coe…ciente
de correlación podríamos considerar el uso de los primeros momentos condi-
cionales, por decir hasta orden cuatro, con el …n de obtener una imagen más
completa de la estructura de la dependencia. Esto se tratará más adelante en
el siguiente capítulo en relación con algunas pocas funciones condicionales.
IID
Y
n
f (x1 ; x2 ; :::; xn ) = f (xk ) para todo x 2 Rn .
k=1
I, no IID
Y
n
f (x1 ; x2 ; :::; xn ) = fk (xk ) para todo x 2 Rn .
k=1
no IID
Y
n
f (x1 ; x2 ; :::; xn ) = f1 (x1 ) fk (xk jxk 1 ; xk 2 ; :::; 1) para todo x 2 Rn .
k=2
(6.41)
Esta reducción sugiere que la generación de números pseudo aleatorios
para el vector aleatorio (X1 ; X2 ; ::; Xn ) equivale a usar distribuciones uni-
variadas de forma secuencial:
1. Generar las observaciones para X1 usando la distribución marginal
f1 (x1 ).
2. Generar las observaciones para X2 usando la distribución condicional
f2 (x2 jx1 ) dado X1 = x1 .
3. Generar las observaciones para X3 usando la distribución condicional
f3 (x3 jx2 ; x1 ) dado X2 = x2 , X1 = x1 .
..
.
n. Generar las observaciones para Xn usando la distribución condicional
fn (xn jxn 1 ; :::; x1 ), dado Xn 1 = xn 1 ; Xn 2 = xn 2 ; :::; X2 = x2 y X1 = x1 .
La implementación de este resultado requiere que el modelador especi…que
explícitamente estas fda condicionales.
Ejemplo
Considere el caso n = 2 donde la función de densidad conjunta toma la
forma:
Z 1 1
abe ax z 1
fX (x) = h , x > 0 donde h (u) = e (1 + uz) dz
ab b x 0
(b x)y
f (yjx) = (b x) e ,y>0:
5.8. DE LOS CONCEPTOS PROBABILÍSTICOS A LOS DATOS OBSERVADOS279
no IID
Y
n
F (x1 ; x2 ; :::; xn ) = F1 (x1 ) Fk (xk jxk 1 ; xk 2 ; :::; 1) para todo x 2 Rn .
k=2
Xk := Fk 1 (Zk ) ; k = 1; 2; :::; n
generar los números pseudo aleatorios para el vector aleatorio (X1 ; X2 ; ::; Xn ).
Ejemplo
Considere el caso n = 2 donde la función de densidad conjunta toma la
forma:
f F1 1 (Z1 ) ; F2 1 (Z2 )
g (z1 ; z2 ) = ; z1 2 [0; 1] ; z2 2 [0; 1]
f1 F1 1 (Z1 ) f2 F2 1 (Z2 )
que es una densidad uniforme de dos variables.
El método de rechazo
El método de rechazo para generar números pseudo aleatorios en el caso
de las distribuciones univariadas se encontró en el capítulo 5.7. En teoría, este
método se puede extender al caso de un vector aleatorio X sin ninguna di…cul-
tad. En la práctica, sin embargo, varias trampas esperan a los desprevenidos;
ver Devroye (1986) y Johnson (1987). El resultado básico fundamental de
este método es el siguiente.
Lema del método de rechazo. Sea f (x) la función de densidad con-
junta del vector aleatorio X. Supongamos que f (x) se puede representar en
la forma:
5.8. DE LOS CONCEPTOS PROBABILÍSTICOS A LOS DATOS OBSERVADOS281
f (x) = c h (x) g (x) , donde c > 1, 0 < h (x) < 1 y g (x) 0, h (x) 2 RnX
Sea Z~N (0; 1) y Y un vector aleatorio con densidad conjunta g (y); Y y
Z independientes. Entonces la distribución condicional de Y dado Z g (y)
coincide con la distribución de X, es decir,
d (FX (x) ; FY (y)) = F (x; y) ; (x; y) 2 RX RY , donde d (:; :) : [0; 1]2 ! [0; 1]:
(6.42)
En el caso donde F (x; y) es una fda continua con fda marginales univari-
adas (FX (:) ; FY (:)) y funciones cuantil FX 1 (:) ; FY 1 (:) , entonces:
d (z1 ; z2 ) = F ( In (1 z1 ) ; In (1 z2 ))
= exp [In (1 z1 ) + In (1 z2 ) + In (1 z1 ) In (1 z2 )]
1 + z1 + z2
la función de dependencia es
d (x; y) = (1 x) (1 y) exp [ In (1 z1 ) In (1 z2 )] 1 + x + y:
1
F (x; y) = [exp (x) + exp (y) 1] +1 exp ( x) exp ( y) :
d (z1 ; z2 ) = F ( In (1 z1 ) ; In (1 z2 ))
1
1 1
= + 1 +1 (1 z1 ) (1 z2 )
z1 1 z2 1
1
1 1
= + 1 1 + z1 + z2
z1 1 z1 1
Por lo tanto, la función de dependencia es:
1
1 1
d (x; y) = + 1 1 + x + y:
x1 1 x2 1
1 Xn Xn xi x yj x
b h (x; y) =
g K ; h > 0;
nh j=1 i=1 h h
donde el kernel toma la forma (Cacoullos, 1966):
Z Z
K (x; y) 0; K (x; y) dxdy = 1.
x2RX y2RY
Las formas más generales de kernels suavizado permite anchos de banda
diferentes y / o de correlación (ver Silverman (1986)). El estereograma
suavizado de los datos en la …gura 6.26 se muestra en la …gura 6.28. Esto
puede ser comparado con la densidad normal bivariada teórica con = 0,
que se muestra en la …gura 6.29. Como podemos ver, el estereograma alisado
es muy similar a la super…cie teórica.
286 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
f(xt ; yt ) ; t = 1; 2; :::; T g
un vistazo a las …guras 6.10 y 6.11, que representan a esas densidades bivari-
adas, sugieren más claramente que la densidad bivariada suavizada de estos
datos está más cerca de la densidad mostrada en la Figura 6.11 que a la de la
…gura 6.10; es importante tener en cuenta las medidas en el eje vertical. Esto
se con…rma en la …gura 6.40, donde los contornos del estereograma suavizado
en la …gura 6.39 se superponen a los de la densidad t de Student bivariada
con 4 grados de libertad.
La correlación (dependencia de primer orden) entre Xt y Xt 1 no parece
ser signi…cativa debido a que las formas elípticas son cercanas a círculos.
Cabe señalar que la correlación cero en este contexto no signi…ca que el
proceso estocástico fXt g1
t=1 sea temporalmente independiente. Como hemos
dicho anteriormente, no correlación no implica independencia en el caso de
la distribución t de Student. Para una evaluación más precisa, sin embargo,
tenemos que aplicar procedimientos adecuados de prueba (véase el capítulo
15).
A …n de garantizar que las conclusiones sobre la dependencia de la dis-
tribución relacionada sobre la base del diagrama de dispersión f(xt ; xt 1 ) ; t = 1; 2; :::; T g,
son de hecho válido para el proceso estocástico fXt g1t=1 , tenemos que consid-
erar los diagramas de dispersión adicionales de la forma:
f(xt ; xt k ) ; k 2; t = 1; 2; :::; T g :
la …gura 6.43; podemos asegurar al lector que las grá…cas adicionales para
valores k > 2 son muy similares. Como podemos ver, estas dos representa-
ciones grá…cas con…rman las conclusiones obtenidas con base en las grá…cas
6.38 a 6.40. Esto se ve reforzado por la …gura 6.41, donde los contornos de
la estereograma suavizado en la …gura 6.43 se superponen a los de densidad
de la t de Student bivariada con 4 grados de libertad.
En la sección anterior hemos discutido la importancia de superar la in-
debida in‡uencia de la distribución normal en la modelizaciónempírica. El
ejemplo empírico anterior lleva al modelador un paso más allá de la dis-
tribución Normal y a la familia elíptica. Otros pasos son necesarios, sin
embargo, con el …n de escaparse del hechizo de la Normalidad. Con esto
en mente vamos a considerar algunos diagramas de dispersión adicionales de
datos simulados a partir de distribuciones asimétricas con el …n de garantizar
que el lector no concluya este capítulo con la impresión errónea de que los
diagramas de dispersión aparecen como formas simétricas elípticas.
Figura 6.41 Estereograma suavizado (xt ; xt 2 ) y contornos t de Student
(v = 4).
La distribución bivariada no simétricas que consideramos en primer lu-
gar es la distribución Gamma (Cherian). Elegimos los parámetros de tal
manera que generemos una distribución casi simétrica en un intento por ilus-
trar algunas de las formas más sutiles de la asimetría. En la …gura 6.44
podemos ver un diagrama de dispersión de una distribución gamma bivari-
ada con parámetros ( 0 = 2; 1 = 16; 2 = 16), que implica un coe…ciente de
correlación = 0:111; NOTE que la forma Cherian de la distribución gamma
bivariada sólo permite correlación positiva. Figura 6.45 muestra los contornos
294 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
Concluimos esta sección haciendo hincapié una vez más que las grá…cas
anteriores son sólo de carácter indicativo y constituyen sólo la punta del
iceberg en términos de la variedad de formas y patrones que uno debería
esperar en la modelación con datos reales. Es altamente recomendable que
el lector genere diagramas de dispersión y las correspondientes densidades
suavizadas con el …n de apreciar la riqueza de la información que tales grá…cas
pueden proporcionar.
E (Y r jX = x) = hr (x) ; x 2 RX ; r = 1; 2; :::
Los conceptos desarrollados en estos dos capítulos se extienden entonces
en el capítulo 8 más allá del caso simple de dos variables con el …n de propor-
cionar un marco de referencia general para modelar dependencia y hetero-
geneidad en lo que respecta a las sucesiones de variables aleatorias. Es decir,
regresamos al caso general donde la reducción de la distribución conjunta
toma la forma:
no IID
Y
f (x1 ; x2 ; :::; xn ; ) = f1 (x1 ; 1) fk (xk jxk 1 ; :::; x1 ; k) , para todo x 2 RnX ;
y proceder a examinar el problema de la imposición de restricciones de
dependencia y heterogeneidad para que la anterior reducción de lugar a mod-
elos operativos.
5.10 Ejercicios
1. ¿Por qué nos preocupamos por la heterogeneidad y la dependencia en los
modelos estadísticos?
2. Explicar cómo la idea de condicionamiento secuencial ayuda a lidiar
con el problema de múltiples dimensiones de la distribución conjunta de una
muestra no aleatoria.
5.10. EJERCICIOS 301
xny 0 1 2
0 0:1 0:2 0:2
1 0:2 0:1 0:2
(a) Deduzca las distribuciones condicionales: f (yjx), x = 0; 1.
(b) Deducir los siguientes momentos:
E(X), E(Y ), V ar(X), V ar(Y ), Cov(X; Y ), E(XY ), Corr(X; Y ),
E(Y jX = 0), E(Y jX = 1), V ar(Y jX = 0).
5. Explique la diferencia entre dependencia, correlación y no ortogonali-
dad.
6. Explique el concepto de dependencia de r-ésimo orden y compárela
con la de dependencia de (m; k)-ésimo orden.
7. Explique el concepto de independencia condicional y su relación con
el de dependencia de Markov.
8. Explique por qué no correlación implica independencia en el caso de
una distribución normal bivariada. ¿Cómo se puede evaluar la correlación al
observar un diagrama de dispersión de los datos observados?
9. Explique cómo se puede distinguir entre los contornos de equiproba-
bilidad
de las densidades bivariadas, Normal, t de Student y de Pearson tipo II.
10. Explique por qué correlación cero no implica independencia en el caso
de las distribuciones bivariadas t de Student y Pearson tipo II.
11 Explique cómo un aumento en la correlación afectará la densidad ex-
ponencial bivariada. ¿Qué signi…ca esto para el diagrama de dispersión?
12 Explique por qué la noción de correlación no tiene sentido en el caso
de variables aleatorias medidas en la escala nominal.
13 Considere la variable aleatoria X~(0; 1) y de…na la variable aleatoria
Y = X 2 1.
Demuestre que: Cov(X; Y ) = 0, pero las dos variables aleatorias no son
independientes.
302 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA
Capítulo 6
Regresión y conceptos
relacionados
6.1 Introducción
En el capítulo anterior dimos el primer paso en el territorio de la muestra no
aleatoria de la teoría de probabilidad. El lector se habría dado cuenta ahora
que este territorio puede ser peligroso y emocionante al mismo tiempo. Basta
con SEÑALAR que se trataba de un territorio en gran parte inexplorado
hasta el primer trimestre del siglo 20. El objetivo principal de la discusión
que sigue es extender el concepto de modelo estadístico simple, y, en partic-
ular, el concepto de muestra aleatoria (variables aleatorias Independientes e
Idénticamente Distribuidas), hacia formulaciones más realistas. Estos mod-
elos permitirán variables aleatorias que están dotadas de dependencia y / o
heterogeneidad. En este capítulo continuamos este viaje y descubrimos que
hemos estado sosteniendo la llave del territorio de la muestra no aleatoria
desde el capítulo 4: el concepto de condicionalidad. La manejabilidad del
modelo estadístico simple se deriva del hecho de que la distribución conjunta
de la muestra se puede simpli…car mucho por su reducción a un producto de
distribuciones marginales univariadas (idénticas):
I
Y
n
IID
Y
n
f (x1 ; x2 ; :::; xn ; ) = fk (xk ; k) = f (xk ; ) ; para todo x := (x1 ; x2 ; :::; xn ) 2 Rn :
k=1 k=1
(7.1)
En el caso de una muestra no aleatoria, si consideramos la no aleatoriedad
303
304 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS
no IID Y
n
f (x1 ; x2 ; :::; xn ; ) 6= f (xk ; ) ; para todo x := (x1 ; x2 ; :::; xn ) 2 Rn :
k=1
(7.2)
En el capítulo 6 vimos no aleatoriedad de manera positiva como la pres-
encia de dependencia y / o heterogeneidad y se argumentó que la clave para
lidiar con la distribución conjunta de una muestra no aleatoria fue el con-
cepto de condicionamiento secuencial simpli…cando la distribución conjunta
a:
no IID
Y
n
f (x1 ; x2 ; :::; xn ; ) = f1 (x1 ; 1) fk (xk j xk 1 ; :::; x1 ; k ) ; 8x 2 RnX :
k=2
(7.3)
Una comparación directa entre (7.1) y (7.3) revela que las muestras no
aleatorias intercambiaron distribuciones marginales por condicionales. Es-
tas distribuciones condicionales proporcionarán los medios para modelar la
dependencia y / o heterogeneidad.
El primer problema que debemos abordar cuando se modela la dependen-
cia de modelos en el contexto de la reducción (7.3) es el problema condicional-
idad estocástica. Este problema surge porque el lado derecho de (7.3) no es
sólo un producto, de una densidad marginal (f1 (x1 ; 1 )) y (n 1) densidades
condicionales (fk (xk j xk 1 ; :::; x1 ; k )) como podría parecer a primera vista.
En vista del hecho de que el concepto de función de densidad condicional se
de…ne para un valor especí…co de las variables condicionantes, para cada k,
el conjunto de densidades condicionales:
y/x 1 2 3 fY (y)
0 0.20 0.10 0.15 0.45
1 0.10 0.25 0.05 0.40 (7.7)
2 0.01 0.06 0.08 0.15
fX (x) 0.31 0.41 0.28 1
6.2. CONDICIONALIDAD Y REGRESIÓN 307
De acuerdo con (7.6) esta distribución conjunta dará lugar a tres difer-
entes distribuciones condicionales, f (y j X = x) para x = 1; 2 y 3; dadas
por:
8 f (x=1;y=0) 0:20
9
>
< fX (x=1)
= 0:31
;y = 0; >
=
f (x=1;y=1) 0:10
f (yjx = 1) = fX (x=1)
= 0:31
;y = 1;
>
: f (x=1;y=2) 0:01
>
;
fX (x=1)
= 0:31
;y = 2;
y 0 1 2
!
f (yjx = 1) 0.645 0.323 0.032
8 f (x=2;y=0) 0:10
9
>
< fX (x=2)
= 0:41
;y = 0; >
=
f (x=2;y=1) 0:25
f (yjx = 2) = fX (x=2)
= 0:41
;y = 1; (7.8)
>
: f (x=2;y=2) 0:06
>
;
fX (x=2)
= 0:41
;y = 2;
y 0 1 2
!
f (y j x = 2) 0.244 0.610 0.146
8 f (x=3;y=0) 0:15
9
>
< fX (x=3)
= 0:28
;y = 0; >
=
f (x=3;y=1) 0:05
f (yjx = 3) = fX (x=3)
= 0:28
;y = 1;
>
: f (x=3;y=2) 0:08
>
;
fX (x=3)
= 0:28
;y = 2;
y 0 1 2
!
f (yjx = 3) 0.536 0.179 0.285
f (x=2;y=1)
NOTA. En f (yjx = 3) hay un error en el texto. Dice fX (x=3)
y
f (x=2;y=2) f (x=3;y=1) f (x=3;y=2)
fX (x=3)
;
debería decir, fX (x=3)
y fX (x=3)
:
ii) Considere el caso en que f (x; y; ) es normal bivariada de la forma:
Y 1 11 12
N ; : (7.9)
X 2 21 22
2
(Y jX = x) N 0 + 1 x; ; x 2 R; X N ( 2; 22 ) ; (7.10)
2
12 2 12
0 = 1 1 2; 1 = ; = 11 :
22 22
Z
r
E (Y jX = x) = y r f (yjx) dy; r = 1; 2; :::
Zy2RY
E ([Y E (Y jX = x)]r jX = x) = [y E (yjx)]r f (yjx) dy; r = 2; 3; :::
y2RY
Ejemplo
En el caso de la distribución conjunta dada en (7.7) y los momentos
condicionales como los dados en el ejemplo anterior, las funciones asociadas
con la media y la varianza condicional toman la forma:
E (Y jX = x) = h (x) ; x 2 RX : (7.12)
NOTE que el término Regresión fue acuñado por primera vez por Galton
(1885); véase más adelante
ii) La función cedática se de…ne como la varianza condicional interpre-
tada como una función de x:
V ar (Y jX = x) = g (x) ; x 2 RX : (7.13)
El término cedástico fue acuñado por Pearson (1905) y se basa en las
palabras griegas " = dispersión (scattering) y " o& = disperso
(scattered).
OBSERVACIÓN: las grá…cas (h (x) ; x) y (g (x) ; x) para todo x 2 RX ;
constituyen lo que llamamos las curvas de regresión y cedástica, respec-
tivamente.
(1) Normal bivariada. Como se ha mostrado antes, en el caso de la
distribución normal de dos variables (7.9) con := ( 1 ; 2 ; 11 ; 12 ; 22 ) ; la
densidad condicional de Y dado X = x es también normal de la forma
2
12 12
(yjX = x) N 1+ (x 2) ; 11 ; x 2 R; (7.14)
22 22
2
Esto muestra que '1 := ( 2 ; '22 ) ; '2 := ( 0 ; 1; ) y las funciones de
regresión y cedástica toman la forma dada antes:
2
E (Y jX = x) = 0 + 1 x; V ar (Y jX = x) = ; x 2 R;
2
12 2 12
0 = ( 1 1 2 ) 2 R; 1 = 2 R; = 11 2
(7.15)
R+ :
22 22
h (x) = a0 + a1 x + a2 x2
no es lineal en x pero es lineal en los parámetros (a0 ; a1 ; a2 ). Por otra
parte, la función
2
h (x) = 1 3 (x 2)
V ar (Y jX = x) = c0 ; x 2 RX ;
se dice que es homocedástica (Ver (7.15)).
Heterocedasticidad. En el caso de que función cedástica dependa de
los valores de la
variable condicionante, es decir:
V ar (Y jX = x) = g (x) ; x 2 RX ;
se dice que es heterocedástica.
Es interesante NOTAR que los conceptos (y la terminología) de homo-
cedasticidad/heterocedasticidad se introdujo por primera vez por Pearson
(1905). (2) t de Student bivariada. En el caso de la distribución t de
Student de dos variables con v > 2 grados de libertad, que se denota por:
Y 1 11 12
St ; ;v ; (7.17)
X 2 21 22
v 2 1 2
E (Y jX = x) = 0+ 1 x; V ar (Y jX = x) = 1+ [x 2] ; x 2 R;
v 1 v 22
2
12 2 12
0 = 1 1 2 2 R; 1 = 2 R; = 11 2 R+ : (7.18)
22 22
1+ + x (1 + + x)2 2 2
E (Y jX = x) = ; V ar (Y jX = x) = , x 2 R+ ; > 0:
(1 + x)2 [1 + x]4
314 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS
p p
E (Y jX = x) = 0 + 1 x; [ 2 (v + 2) 22 ] < x < [2 (v + 2) 22 ]
( !)
2
2 1 (x 2 )
V ar (Y jX = x) = 1 ,x2R
2v + 3 22
2
12 2 12
0 = ( 1 1 2 ) 2 R; 1 = 2 R; = 11 2 R+ .
22 22
1 3
E (Y jX = x) = 1 + x
2
2
1 (1 + 3 ) 2
V ar (Y jX = x) = x , x 2 R+
2 (1 + 3 ) 23
y > 1 > 0, x > 2 > 0, 3 > 0:
En las …guras 7.7 y 7.8 podemos ver la regresión Pareto y las curvas
cedásticas con parámetros ( 1 = 1, 2 = 1:5) y tres diferentes valores de 3 =
3; 4; 8, respectivamente.
(x )
E (Y jX = x) = 1 loge 1 + exp ,x2R
1 2
V ar (Y jX = x) = 1 = 2:29, 2 R, 2 R+
3
En las …guras 7.9 y 7.10 podemos ver las curvas de regresión y cedásticas
de la distribución Logística con parámetros ( 1 , = 0:5, 1:2, 4:5), respec-
tivamente. Como podemos ver, la distribución Logística bivariada produce
una curva de regresión altamente no lineal y una función varianza condicional
homocedástica. Cabe señalar que la Logística bivariada es una de las pocas
distribuciones con una función de cedasticidad constante.
2
E (Y jX = x) = (1 x)
[ 2 + 3]
2 3
V ar (Y jX = x) = 2 (1 x)2 ,
( 2 + 3 ) (1 + 2 + 3 )
para x 2 [0; 1] , donde 1 > 0, 2 > 0, 3 > 0.
s
1 2
= 1 ,
( 1 + 3) ( 2 + 3)
E (Y jX = x) = 2 (1 1 ) + 1 x, x 2 R+ , 1 2 [0; 1], 2 2 R+
V ar (Y jX = x) = (1 1 ) [ 2 (1 1 ) + 2 1 x] , x 2 R+ .
para x 2 [0; 1] , donde 1 > 0, 2 > 0, 3 > 0.
0
E (Y jX = x) = 2 + x, x 2 R+ , ( 0 ; 1; 2) 2 R3+
( 1+ 0)
0 1
V ar (Y jX = x) = 2 + 2 x 2 , x 2 R+ .
( 1 + 0) (1 + 1 + 0)
1
E (Y jX = x) = + x, x 2 R+ , ( 1 ; 2 ; a) 2 R3+ ,
a
1
V ar (Y jX = x) = , x 2 R+ ,
a2
1
E (XjY = y) = y, y > x 2 R+ , ( 1 ; 2 ; a) 2 R3+ ,
( 1+ 2)
1 2
V ar (XjY = y) = 2 y 2 , y > x 2 R+ .
( 1 + 2) (1 + 1 + 2)
322 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS
0 1
E (Y jX = x) = + x, x 2 R+ , ( 0 ; 1; 2) 2 R3+
( 0 + 1 2) ( 0 + 1 2)
2 ( 1 + 2 + 0 2) 2
V ar (Y jX = x) = ( 0 + 1 x) , x 2 R+ , ( 1 + 2) >4
2( 1+ 0 4) ( 1 + 0 2)2
En las …guras 7.17-7.18, podemos ver tres curvas de regresión y cedásticas
de la distribución F con parámetros ( 0 = 80, 1 = 4, 2 = 2), ( 0 = 12, 1 = 8, 2 = 8),
( 0 = 5, 1 = 60, 2 = 60). NOTE que el coe…ciente de correlación toma la
forma:
s
1 2
= ,
( 1 + 0 2) ( 2 + 0 2)
y por lo tanto para estos tres conjuntos de valores la correlación es de
0.035, 0.444 y 0.952, respectivamente. Las líneas de regresión tienen una
pendiente mayor cuanto mayor sea la correlación y las curvas cedásticas pre-
sentan mayor curvatura cuanto mayor es la correlación.
6.2. CONDICIONALIDAD Y REGRESIÓN 323
2
x 1
1+ 2
2 2 12
E (Y jX = x) = e , x 2 R+ , = 11 2 R+ ,
2 22
2
x 2 2 12
V ar (Y jX = x) = e2 1+ e 1 , x 2 R+ , = 2 R.
2 22
E (Y jX = x) = (1 2 1 ) (n x) ,
2 (1 1 2)
V ar (Y jX = x) = (n x) ,
(1 1)
1 2 [0; 1], 2 2 [0; 1], n = 1; 2; :::; 1 + 2 < 1, x = 0; 1; :::
1
E (Y jX = x) = ( 2 3) + x, x = 0; 1; 2; :::; 1 > 0, 2 > 0; 3 > 0,
3
3
V ar (Y jX = x) = ( 2 3) + [ 1 3] 2 x; x = 0; 1; :::; 3 < min ( 1 ; 2) .
1
1 2 [0; 1], 2 2 [0; 1], n = 1; 2; :::; 1 + 2 < 1, x = 0; 1; :::
2
E (Y jX = x) = ( 1 + x) , x = 0; 1; 2; :::; 2 2 (0; 1) > 0, 1 > 0,
(1 2)
2
V ar (Y jX = x) = 2 ( 1 + x) , x = 0; 1; 2; :::
(1 2)
6.2. CONDICIONALIDAD Y REGRESIÓN 325
E [Y E (Y jX = x)]3 jX = x =
2 2 3( 3 2)
3 (1 x)3 , x 2 [0; 1]
( 2 + 3 ) (1 + 2 + 3 ) (2 + 2 + 3 )
E [Y E (Y jX = x)]4 jX = x
" #
2 2 2 2
3 2 3 2 2 2 2 3 + 2 3 +2 3 2 3
= 4 (1 x)4 ,
( 2 + 3 ) (1 + 2 + 3 ) (2 + 2 + 3 ) (3 + 2 + 3)
E [Y E (Y jX = x)]3 jX = x = 0, x 2 R,
3 (v 1)
E [Y E (Y jX = x)]4 jX = x = [V ar (Y jX)]2 , x 2 R.
(v 3)
hr (x) = E (Y r jX = x) , x 2 RX
ignoramos el peso marginal y nos concentramos exclusivamente en la fa-
milia de las densidades condicionales ff (yjX = x; '2 ) , (x; y) 2 RX RY g.
En cierto sentido, esto equivale a suponer que los diferentes valores que toma
la variable aleatoria X ocurren con una probabilidad de uno:
Sin embargo, como se muestra en (7.19) esto no es del todo correcto. Una
forma más apropiada de especi…car estas funciones es la de tener en cuenta
las probabilidades marginales asociadas a los diferentes valores x 2 RX . El
problema es especi…car estas funciones sin dejar de lado el hecho de que los
diferentes valores de X ocurren con diferentes probabilidades dadas por la
densidad marginal f (x; '1 ). NOTE una vez más que en el caso de variables
aleatorias continuas, como se mencionó en el capítulo 3, los pesos no son
probabilidades propias.
La manera formal de hacer frente a este problema consiste en ampliar el
concepto de condicionalidad un paso más allá: para dar cuenta de todos los
eventos asociados con la variable aleatoria X; no sólo de su rango de valores.
Es decir, en vez de concentrarse exclusivamente en los eventos condicionantes
de la forma:
1
(X) := X ( 1; x] 2 = para todo x 2 RX .
Esto nos permite de…nir las funciones estocásticas condicional momento:
A\B
P (AjB) = , para P (B) > 0,
P (B)
y el condicionamiento sobre B puede ser intuitivamente entendido como
"se sabe que el evento B ha ocurrido. " El condicionamiento en general se
de…ne en relación al conocimiento de que cierto evento(s) ha ocurrido. En
este sentido, la densidad condicional:
6.3. REDUCCIÓN Y CONDICIONALIDAD ESTOCÁSTICA 329
f (x; y)
f (yjx) = , y 2 RY ,
fX (x)
debe ser entendida como la densidad revisada de la variable aleatoria Y ,
dado que el evento fs : X (s) = xg ha ocurrido. En este punto es fundamental
hacer hincapié una vez más que una distribución condicional se de…ne en un
valor particular de la variable condicionante. Usando la densidad condicional
podemos de…nir la esperanza condicional sin ambigüedades como:
Z
E (Y jX = x) = yf (yjx) dy.
y2RY
E (Y jX) (7.22)
no tiene sentido matemático porque la condicionalidad no es relativa a un
evento; una variable aleatoria no es un evento (un subconjunto del conjunto
de resultados de referencia S). Intuitivamente, sin embargo, sabemos que
para cada valor X = x, está bien de…nida y así uno puede pensar en (7.22)
como una función de X y, por lo tanto, una variable aleatoria en sí misma.
Nuestra intuición es ciertamente correcta, pero necesitamos formalizarla.
Para una variable aleatoria X de…nida sobre S, el evento fs : X (s) = xg
constituye un elemento de =, en el sentido de que X 1 (x) 2 =. En efecto,
por de…nición (ver capítulo 3):
1
X (x) 2 =, para todos lo valores x 2 RX .
En vista de esto podemos deducir que la única forma en la cual (7.22)
podría tener sentido matemático es convertir la variable aleatoria condicio-
nante en un conjunto de eventos. Es decir, de…nir (X): el -campo de…nido
por la variable aleatoria X (ver capítulo 3). En este sentido, la esperanza
condicional:
E (Y j (X)) (7.23)
debe ser signi…cativa, ya que, al menos intuitivamente, ésta representa
la experanza dado que "algún evento relacionado con X ha ocurrido". El
sentido común sugiere que la experanza normal E(Y ) se puede ver desde
este punto de vista como
330 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS
Desde este punto de vista (X) constituye una restricción sobre = (todo
informativo) en el sentido de que (ver capítulo 3):
fS; ?g (X) =.
Habiendo acordado que (7.23) tiene sentido intuitivo necesitamos asegurar
que también tiene sentido matemático.
Un caso simple. Antes de considerar el caso general, vamos a discutir
primero el caso en que ambas variables aleatorias X e Y son discretas y
toman solamente un número …nito de valores, es decir:
1 1 1
B0 = X (0) = f(T T )g; B1 = X (1) = f(HT ); (T H)g; B2 = X (2) = f(HH)g;
mostrando que esto constituye una partición de S, ya que:
B0 \ B1 = ?; B1 \ B2 = ?; B0 \ B2 = ? y S = B0 [ B1 [ B2 .
Por lo tanto,
(X) = fS; ?; B0 ; B1 ; B2 ; B0 [ B1 ; B0 [ B2 ; B1 [ B2 g.
Regresando a la media condicional (7.23), podemos verla en términos de
los eventos Bk :
Xn
E (Y jXk = xk ) = yi P (Y = yi jX = xk ) , k = 1; 2; :::; m, (7.25)
i=1
que de…ne una sucesión de medias condicionales, una para cada valor de
X, donde:
P (Y = yi , X = xk )
P (Y = yi jX = xk ) = , i = 1; 2; :::; n k = 1; 2; :::; m.
P (X = xk )
(7.26)
En este sentido las diferentes medias condicionales en (7.25) pueden in-
terpretarse en términos de la variable aleatoria:
Xn
E (Y jXk = xk ) P (X = xk ) = yi P (Y = yi ; X = xk ) , k = 1; 2; :::; m.
i=1
Xm Xm Xn
E (Y jXk = xk ) P (X = xk ) = yi P (Y = yi ; X = xk ) ,
k=1 k=1 i=1
(7.28)
332 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS
porque,
[m como se mostró anteriomente, (X) involucra más eventos que
sólo Bk . Un momento de re‡exión, sin embargo, sugiere que esta suma
k=1
(7.28) de…ne la media condicional estocástica:
E (Y (:) jß
) : S ! R.
Recordemos que yendo de ßtal como se de…ne en (7.24) (no un -campo)
a (X) sumamos todas las uniones de los eventos Bk 2ß , la variable aleatoria
(7.27) se puede pensar en términos de todos los eventos de B 2 (X) como:
X X Xn
E (Y j (X)) P (B) = yi P (Y = yi ; B) , para todo B 2 (X)
B2 (X) B2 (X) i=1
(7.29)
Es claro que E (Y j (X)) es una variable aleatoria en relación con (X).
Ejemplo
Considere la siguiente distribución conjunta:
x/y -1 0 1 f (x)
-1 0.1 0.2 0.1 0.4
(7.30)
1 0.2 0.1 0.3 0.6
f (y) 0.3 0.3 0.4 1
La distribución(s) condicional de (Y jX = x) para x = 1 y x = 1 son
las siguientes:
y 1 0 1 y 1 0 1
1 1 1 , 1 1 1 (7.31)
f (yjx = 1) 4 2 4
f (yjx = 1) 3 6 2
1 1 1
E (Y jX = 1) = ( 1) + 0 + 1 = 0,
4 2 4
1 1 1 1
E (Y jX = 1) = ( 1) + 0 + 1 = .
3 6 2 6
E (Y j (X)) es una variable aleatoria en relación con (X) en el sentido
de que puede tomar dos valores 0; 16 , con probabilidades (0:4; 0:6), respec-
tivamente:
6.3. REDUCCIÓN Y CONDICIONALIDAD ESTOCÁSTICA 333
x 1 1
P (X = x) 0:4 0:6 (7.32)
1
E (Y j (X)) 0 6
El caso más general. Libros matemáticamente más inclinados expresan
(7.29) en el caso general, donde (X; Y ) son variables aleatorias arbitrarias,
utilizando la expresión más bien poco apetecible:
Z Z
E (Y j (X)) dP = Y dP para todo B 2 (X) . (7.33)
B B
Esto dice que el promedio de E (Y j (X)) sobre B es el mismo mismo
que la media de Y misma sobre todos los subconjuntos B (X) =.
NOTE que en general Y 6= E (Y j (X)) porque Y no es necesariamente
una variable aleatoria en relación con (X). Este resultado fue probado
por primera vez por Kolmogorov (1933a), pero las matemáticas necesarias
para deducir la relación anterior con rigor son bastante exigentes (ver Ash
(1972) para una deducción más rigurosa). Sin embargo, una comprensión
intuitiva de (7.33) puede ser adquirida viendo la esperanza como un operador
suavizado.
La manera más conveniente para deshacerse de las integrales poco apeteci-
bles (o sumatorias) en (7.33) (y (7.29)) es utilizar la función indicador en
combinación con el operador esperanza, es decir:
Z
Z dP := E [Z IB ] .
B
1, si s 2 B,
donde IB denota la función indicador del conjunto B: IB (s) = .
0, si s 2
= B.
Esto nos permite expresar (7.33) en la forma menos intimidante:
Z
E [E (Y j (X)) IB ] = E [Y IB ] Y dP para todo B 2 (X) . (7.34)
B
NOTA: en vista del hecho de que (X) incluye todas las posibles fun-
ciones de Borel de la variable aleatoria X, podemos de…nir E (Y j (X)) en
términos de dichas funciones a través de:
E (Y jÐ0 ) = E (Y ) ,
donde Y0 := E (Y jÐ0 ) puede ser visto como una variable aleatoria degen-
erada de la forma:
Ð \ ÐY = Ð 6= ?. (7.35)
Esto nos permite pensar en Ð como la cantidad de información acerca
de Y que Ð contiene y E (Y jÐ) puede ser vista como una operación de
suavizado cuyo efecto es inversamente proporcional a la proximidad de Ð a
Ð. En particular, la elección Ð0 := fS; ?g no contiene información acerca de
Y (obteniéndose una variable aleatoria degenerada) y la elección ÐY contiene
toda la información relevante acerca de Y (obteniéndose la variable aleatoria
6.3. REDUCCIÓN Y CONDICIONALIDAD ESTOCÁSTICA 335
E (Y r jX = x) = hr (x) , x 2 RX , r = 1; 2; :::;
interpretamos las funciones estocásticas condicionales momento como
E (Y j (X)) = h (X) , de…nida a través de: E [(Y h (X)) g (X)] = 0, para toda g (:) .
(7.38)
donde g(:) : R ! R es cualquier función acotada Borel.
x 1 1 x 1 1 x 1 1
1 2 , 2 1 ; 1 3
f (xjy = 1) 3 3
f (xjy = 0) 3 3
f (xjy = 1) 4 4
E (XjY = 1) = ( 1) 31 + (1) 23 = 13 ,
E (XjY = 0) = ( 1) 32 + (1) 13 = 13 ,
E (XjY = 1) = ( 1) 41 + (1) 34 = 12 ,
E (X) = (0:3) E (XjY = 1) + (0:3) E (XjY = 0) + (0:4) E (XjY = 1) =
0:2,
lo cual coincide con la evaluación directa: E (X) = ( 1) (0:4)+(1) (0:6) =
0:2.
Una tercera propiedad de la esperanza condicional es que cualquier fun-
ción de Borel de la variable aleatoria X (que es una variable aleatoria en
relación con (X)) pasa a través del condicionamiento inalterada.
Tomando lo que es propiedad conocida
EC3. E (h (Y ) g (X) j (X)) =g(X) E (h (Y ) j (X)).
Esta propiedad implica que en el caso donde Y es una variable aleatoria
en relación con (X):
E (Y j (X)) = Y c.s.
El propiedad EC3 puede ser fácilmente adaptada al caso especial E (h (Y ) g (X) jX = x),
y se puede utilizar para mejorar nuestra intuición. Cuando una variable
6.3. REDUCCIÓN Y CONDICIONALIDAD ESTOCÁSTICA 339
E (Y j (X)) = 0 + 1X (7.40)
donde los parámetros ( 0 ; 1 ) adoptan la forma dada en (7.10). Si par-
timos de (7.40), la pregunta que surge es: ¿cómo los parámetros 0 y 1
se relacionan con los momentos de f (x; y)? Usando la lie (EC2) podemos
deducir que E (Y ) = 0 + 1 E (X), es decir,
0 = E (Y ) 1E (X) . (7.41)
Aplicando las propiedades lie (EC2) y el "sacar lo que se conoce" (EC3)
podemos deducir que:
E (X Y ) = E [E (X Y j (X))] = E [X E (Y j (X))] .
Sustituyendo la forma de la media estocástica condicional signi…ca que
podemos deducir que:
"s #
V ar (Y )
1 = Corr (X; Y ) .
V ar (X)
2
(Y jX = x) ~N 0 + 1 X; , x 2 R, X~N ( 2 ; 22 ) ;
2
12 2 12
0 = 1 1 2; 1 = ; = 11 (7.44)
22 22
Esto sugiere que a menos que haya alguna forma de ignorar ciertos parámet-
ros, por ejemplo los parámetros '1 de la distribución marginal, no hay una
verdadera simpli…cación del problema de la modelación, ya que, en cierto
sentido, todavía estamos tratando con la distribución conjunta. La pregunta
que surge naturalmente en esta etapa es en qué medida podemos concen-
trarnos exclusivamente en la distribución condicional y sus parámetros en el
caso donde la distribución marginal no es de interés intrínseco. La respuesta
en pocas palabras es que depende de cómo los dos conjuntos de parámet-
ros '1 2 1 , '2 2 2 se restrinjan entre sí. La respuesta es a…rmativa en
el caso de que 2 (el conjunto de valores permisibles de '2 ) no es afectado
por cualquiera de los valores tomados por '1 2 1 y viceversa; pero no de
otra manera. El concepto que necesitamos es el llamado variación libre
(variation freeness).
Variación libre. Decimos que '1 y '2 son de variación libre si para
todos los valores de '1 2 1 , el rango de valores posibles de '2 permanece
en el espacio original de parámetros y no en algún subconjunto propio de él.
Utilizando el concepto de variación libre, podemos dar una respuesta
más formal a la pregunta anterior sobre si podemos concentrarnos en la
distribución condicional.
Exogeneidad débil. En el caso donde los parámetros de interés son
sólo aquellos de '2 (o alguna función de ellos) y '1 y '2 son variación libre,
entonces se dice que X es débilmente exógena con respecto a '1 y f (x; '1 )
puede ser ignorada. En los casos donde X no es débilmente exógena con
respecto a '1 necesitamos construir el modelo estadístico teniendo en cuenta
las distribuciones condicional y marginal en (7.43); (véase Engle, Hendry y
Richard (1983)).
El concepto de exogeneidad débil se ilustra a continuación en el contexto
de ejemplos especí…cos, empezando por el caso Normal de dos variables.
(i) Normal bivariada. En el caso donde f (x; y; ) es Normal bivariada,
como aparece en (7.9), notemos que '1 2 1 := R R+ y '2 := ( 0 ; 1 ; 2 ) 2
2
2 := R R+ . Por lo tanto, se puede argumentar que X es débilmente
exógena con respecto a '2 , ya que no importa qué valores de '1 en 1 se
eligen, los parámetros '2 pueden tomar todos sus posibles valores en 2 .
(ii) t de Student bivariada. En el caso de la distribución t de Student
bivariada con v > 2 grados de libertad, denotada por:
Y 1 11 12
~St ; ; v (7.45)
X 2 21 22
6.4. EXOGENEIDAD DÉBIL 343
v 2 1 2
(yjX = x) ~St 0+ 1 X; 1+ [x 2] v + 1 , x 2 R.
v 1 v 22
X~St ( 2 ; 22 ; v) (7.46)
v 2 1 2
E (Y j (X)) = 0 + 1 X, V ar (Y j (X)) = 1+ [x 2]
v 1 v 22
(7.47)
Concluimos esta sección haciendo notar dos características importantes
de exogeneidad débil.
(i) El concepto de exogeneidad débil está inextricablemente ligado a la
distribución conjunta y su parametrización en relación a la de las distribu-
ciones condicionales y marginales.
(ii) Teniendo en cuenta los resultados en las dos secciones anteriores, es
probable que exogeneidad débil sea la excepción y no la regla en la práctica.
344 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS
(I) pretendiendo que estas variables de la teoría coinciden con lo que los
datos observados disponibles pretenden medir y
(ii) adjuntando un término de error ruido blanco (normal) al modelo de
la teoría.
Ni que decir tiene que (i) es infantil ingenuo y (ii) destruye al principio
cualquier posibilidad de que los datos podrían proporcionar evidencia sin pre-
juicios en la evaluación de la validez de la teoría en cuestión. El modelador
simplemente forza la teoría a los datos y luego procede a jugar morfogeométri-
camente ("Procrustes"); corta los trozos que parecen sobresalir! Además,
este punto de vista da la impresión de que un modelo teórico en la forma
de una ecuación lineal entre dos variables observables es un requisito previo
para que el modelador sea capaz de especi…car un modelo de regresión lineal.
Esto constituye el ángulo de visión de la teoría: viendo (7.48) de derecha
a izquierda, como un mecanismo que genera Ct dado YtD ; "t . El argumento
es que este punto de vista asume que:
(a) el término de error "t es una prótesis autónoma al modelo teórico,
(b) los parámetros teóricos ( ; ) gozan de una interpretación clara de
la teoría ( es el ingreso de subsistencia, es la propensión marginal al
consumo), que son los invariantes del sistema y sin relación con las vari-
ables YtD ; "t . Este ángulo de visión es adecuado para analizar los aspectos
teóricos del modelo de la teoría como un sistema, pero puede ser miope y
engañoso cuando se utiliza para analizar los aspectos estadísticos del modelo.
Para este último caso tenemos que introducir un punto de vista alternativo
que contemple (7.48) en términos puramente probabilísticos y está directa-
mente integrado en la estructura de los datos observados. Este punto de vista
contempla (7.48) como un MG estadístico que, en pocas palabras, constituye
una descomposición ortogonal de la variable aleatoria Ct dado la conjunto
de información asociado con el valor de la variable aleatoria YtD . Vamos a
considerar este concepto con algún detalle.
346 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS
(g (:)) (X) ,
pero lo contrario también es cierto sólo en el caso de que la función es
uno a uno, es decir,
(i) E(ujÐ) = 0;
(ii) E(u2 jÐ) = V ar (Y jÐ) < 1; (7.50)
(iii) E(u [E(Y jÐ)]) = 0:
( 1
)
( 11 )
2 1 2
= ff (y; )g = p exp (y 1) ; 2R R+ , x2R;
2 2 11
: = ( 1; 11 ) ; E (X) = 1; V ar (X) = 11 .
Yk = E (Yk jXk = xk ) + uk , k 2 N.
Por diseño, los componentes sistemático y no sistemático, se de…nen por:
(xk ) := E (Yk jXk = xk ) ; uk = Yk E (Yk jXk = xk ), k 2 N,
respectivamente, son ortogonales. Esto se deduce directamente de las
propiedades de esperanza condicional EC1-EC3 (véase más atrás):
1 1
E (Y ) = E fE (Y jX = x)g = (0:5) (0:5) = 0.
5 5
Del mismo modo, ortogonalidad condicional entre Xk y uk implica ortog-
onalidad no condicional:
E (Xk uk jXk = xk ) = 0 ) E (Xk uk ) = 0,
pero lo contrario no es cierto:
E (Xk uk ) = 0 ; E (Xk uk jXk = xk ) = 0.
NOTA: la intuición detrás de este resultado es que para la media no
condicional hay un promedio más (sobre los valores de X), más allá de la
media condicional.
Regresión lineal/Normal. El modelo de regresión más ampliamente
utilizado es el de regresión Lineal/Normal, cuyo MG estadístico toma la
forma:
donde el término de error ut , satisface las propiedades [i] - [v] obtenidas
anteriormente. La especi…cación completa del modelo de regresión lin-
eal/Normal toma la forma:
[1] MG estadístico: Yt = 0 + 1 Xt + ut , t 2T,
[2] Modelo de probabilidad:
( ( ) )
2
1 (y 0 1 xt )
= ff (yt jxt ; )g = p exp 2
; 2 , yt 2R ;
2 2
2
: = 0; 1; ; := R2 R+ ,
Cov (Xt ; Yt ) 2 [Cov (Xt ; Yt )]2
0 : = E (Yt ) 1 E (Xt ) , 1 = , := V ar (Yt ) .
V ar (Xt ) V ar (Xt )
[3] Modelo muestral: Y := (X1 ; X2 ; :::; Xn ) es una muestra independiente
secuencialmente extraída de f (yt jxt ; ), t = 1; 2; :::; T .
Una comparación directa entre los modelos Normal simple y de regresión
lineal/Normal revela algunas diferencias interesantes. Al comparar los dos
modelos de probabilidad, podemos ver que el modelo de regresión se expresa
en términos de la distribución condicional f (yt jxt ; ), pero el modelo Normal
simple en términos de la distribución marginal f (yt ; ). Una comparación de
los modelos muestrales revela que en el caso de la regresión la muestra ya no
aleatoria (independientes e idénticamente distribuida), es sólo independiente.
Este es el caso, ya que las densidades condicionales f (yt jxt ; ), t 2T, están
cambiando con t, porque las medias condicionales están cambiando con xt :
6.5. EL CONCEPTO DE MECANISMO GENERADOR ESTADÍSTICO (MG)351
2
(Yt jXt = xt ) ~N I ( 0 + 1 xt ; ), t 2T;
es decir, ellas no están idénticamente distribuidas.
Como argumentamos antes, utilizando las funciones momento condicional
(a menudo las funciones de regresión y cedástica) introducidas en la sección
anterior, podemos especi…car un modelo de regresión diferente para cada
distribución bivariada. El modelo de regresión lineal/Normal puede ser muy
engañoso como la base de los modelos de regresión en general, debido a
que una serie de temas importantes no surgen en su contexto. Más allá del
modelo de regresión lineal/Normal se plantean varias cuestiones nuevas. Se
puede obtener alguna idea de las di…cultades planteadas por otros modelos
de regresión al considerar el modelo de regresión lineal t de Student.
Regresión lineal t de Student
[1] MG estadístico:
h Yt = 0 +i 1 Xt + ut , t 2T,
2 v 2 1 2
ut = (v 1) 1 + v 22 [Xt 2] + v2t
[2] Modelo de probabilidad:
2
= f (yt jxt ; ) f (x; 2) ; := 0; 1; 2; ; 22 2 R3 R2+ , (xt ; yt ) 2 R2 ;
! ( ) 1
(v+2)
1 2 2
2
[v + 2] 1 (yt 0 1 xt )
ff (yt jxt ; )g = 1
((v 1) ht (xt )) 2 1+
2
[v + 1] (v 1) ht (xt )
! 1
1 (v+1)
2
[v + 1] 1 1 2
2
f (xt ; 2) = 1
[v 22 ]
2 1+ [Xt 2] , 2 = E (Xt ) ;
2
v v 22
Cov (Xt ; Yt )
22 = V ar (Xt ) ; 0 = E (Yt ) 1 2; 1 = ,
V ar (Xt )
2 [Cov (Xt ; Yt )]2
: = V ar (Yt ) .
V ar (Xt )
[3] Modelo muestral: Y := (X1 ; X2 ; :::; Xn ) es una muestra independiente
secuencialmente extraída de f (yt jxt ; ), t = 1; 2; :::; T .
Este modelo di…ere del de regresión lineal/Normal en dos aspectos im-
portantes:
(i) X no es débilmente exógena con respecto a los parámetros de la dis-
tribución condicional, y por lo tanto no podemos ignorar la distribución mar-
ginal f (x; 2 ).
352 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS
Yt = 0 + 1 xt + ut ; t 2 T; (7.53)
de izquierda a derecha como una descomposición ortogonal de la variable
aleatoria observable (Yt ) en un componente sistemático E (Yt jXt = xt ) y un
componente no sistemático (no modelado) ut = Yt E (Yt jXt = xt ). En
contraste con los supuestos implícitos (a) - (b) del ángulo de visión de la
teoría, el ángulo de visión estadístico postula explícitamente que:
(a)* el término de error ut es deducido y vinculado a la estructura prob-
abilística de (Yt ; Xt ),
(b)* los parámetros estadísticos ( 0 ; 1 ; 2 ) gozan de una interpretación
probabilística clara y que están indisolublemente ligados a la estructura prob-
abilística de (Yt ; Xt ).
Una mirada más de cerca a los otros modelos estadísticos especidica-
dos anteriormente pone de mani…esto que todos los parámetros tienen una
interpretación probabilística en términos de los momentos de las variables
aleatorias observables involucradas y no hay parte de…nida en términos de
los conceptos de la teoría. En los próximos capítulos de estos modelos se ex-
6.5. EL CONCEPTO DE MECANISMO GENERADOR ESTADÍSTICO (MG)353
Yt = 0 + 1 xt + t ; t ~N IID (0; 1) ; t 2T
1
Yt = + 1 Xt + (h (Xt ))
0
2
t ; t ~St (0; 1; v + 1) ; Xt ~St ( 2 ; 22 ; v) ; t 2T
v 2 1 2
donde h (Xt ) = 1+ [Xt 2] , respectivamente. (7.55)
(v 1) v 22
V ar (Y ) = E [V ar (Y jX)] + V ar [E (Y jX)] ,
y del hecho de que (propiedad EC2 anterior):
E [V ar (Y jX)] = E E u2 jX = E u2 = V ar (u) .
Dado que u representa el componente no sistemático (la parte no mod-
elada) del MG estadístico, una medida de dependencia que se sugiere en si
misma, es la razón de dependencia:
Esto se introdujo por primera vez por Kolmogorov (1933a), quien lo llamó
razón de correlación, atribuyendo la idea a Pearson (1903). Como se
mencionó en el capítulo 6, esta medida es de dependencia que se puede uti-
lizar cualquiera que sea el sistema de medición de las variables aleatorias en
cuestión.
La razón de dependencia, como una medida de dependencia, satisface
ciertas propiedades deseables:
[1]. 0 Dr (Y jX) 1.
[2]. Dr (Y jX) = 0, si X y Y son independientes.
[3]. Dr (Y jX) = 1, si y sólo si Y = h (X) c.s.
La primera propiedad se deriva de (7.56) directamente. La segunda
propiedad se deduce del hecho de que cuando X e Y son independientes:
E (Y jX) = E (Y ) ) V ar [E (Y jX)] = 0.
La parte si de la tercera propiedad es trivial ya que Dr (Y jX) = 1 implica
que:
V ar fE (Y jX)g E fV ar (Y jX)g
Dr (Y jX) = =1 .
V ar (Y ) V ar (Y )
En el caso donde la función de regresión E (Y jX) es lineal en X, Dr (Y jX)
coincide con el coe…ciente de correlación múltiple R2 , donde: R2 = maxCorr2 (Y; 0
X),
Xm
0 2
X= i Xi y Corr (:), la correlación al cuadrado (ver Spanos (1986),
i=1
capítulo 15).
6.6.1 Galton
El concepto de regresión es uno de los muy pocos conceptos en estadística,
cuyas raíces son a la vez claras e incuestionables. El concepto fue propuesto
por primera vez por Galton (1877), formalizado en Galton (1885,1886), exten-
dido por Pearson (1894,1895,1896) y relacionado con la tradición de mínimos
cuadrados por Yule (1897). El padre de la moderna inferencia estadística R.
A Fisher acredita a Galton y sus estudios pioneros en la herencia de propor-
cionar los fundamentos de la estadística moderna. En el prólogo de Fisher
(1956) él alaba los estudios pioneros de Galton y continúa:
El gran regalo de Galton estaba en su conciencia, que creció durante su
vida, de la vaguedad de muchas de las frases en las que los hombres trataron
de expresar la descripción de fenómenos naturales. Se adelanto a su tiempo
en su reconocimiento de que la imprecisión podría ser eliminada y una cierta
precisión de pensamiento intentada encontrando de…niciones cuantitativas
en condiciones de tomar el lugar de frases tales como "el hombre medio",
"variabilidad", "la fuerza de la herencia", y así sucesivamente, a través del
conjunto de datos objetivos, y su examen sistemático ... (Fisher (1956), p.
2).
Galton fue muy impresionado por la variedad de variables medidas cuya
histograma Quetelet (1849) fue capaz de describir utilizando la distribución
normal (conocido en ese tiempo como la ley de error), abarcando desde
el número de suicidios y violaciones en París en un año a algunas medidas
antropomór…cas. El interés de Galton estabe principalmente en la eugenesia:
la mejora de la raza humana de Gran Bretaña mediante la reproducción
selectiva (ver Kevles (1985)). Según MacKenzie (1981, p. 11):
Un conjunto especí…co de objetivos sociales es común a la obra de Galton,
Karl Pearson y R. A Fisher. Todos eran eugenistas. A…rmaron que la carac-
terística humana más importante, como la capacidad mental, eran heredada
de una generación a la siguiente. Los ancestros de la gente, en lugar de su
entorno, es fundamental para determinar sus características. La única forma
358 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS
Cov (Yt ; Xt )
[E (Yt jXt = xt ) E (Yt )] = [xt E (Xt )] , xt 2 R.
V ar (Xt )
Cov (Xt ; Yt )
[E (Yt jXt = xt ) ]= [xt ] , xt 2 R.
V ar (Xt )
Cov (Xt ; Yt )
[E (Xt jYt = yt ) ]= [yt ] , yt 2 R.
V ar (Yt )
6.6. LA TRADICIÓN BIOMÉTRICA EN ESTADÍSTICA 363
2
Yt = 0 + 1 xt + "t , "t ~IID 0; , t = 1; 2; ::::; T .
Luego pasó a señalar que:
(a) (7.58) se puede estimar mediante el método de mínimos cuadrados
(véase el capítulo 13) y
(b) el supuesto de normalidad no juega ningún papel en la estimación.
Él procedió a argumentar en favor del uso de los mínimos cuadrados
para aproximar una línea de regresión, incluso en los casos en que la línea
imaginaria a través de la grá…ca" no es del todo una línea recta" (Yule (1897),
p. 817).
Karl Pearson se opuso de inmediato a la generalidad aparente de Yule
y argumentó a favor de mantener la normalidad de la distribución conjunta
para propósitos de especi…cación:
Pearson quería empezar con una super…cie de frecuencia y, si una línea
de regresión se buscaba, encontrar esa línea apropiada a la super…cie. Si
la super…cie sigue la ley normal, entonces se podría aceptar el camino de
las líneas rectas de ajuste por mínimos cuadrados. Pero, "¿ pero, por qué
no debería otra ley incluso de frecuencia simétrica conducir a las p-ésimas
potencias de los residuos siendo mínimos? "... (Stigler (1986), p. 352)?" ...
(Stigler (1986), p. 352)
Desafortunadamente para la estadística Pearson fue mucho menos per-
suasivo que Yule y como resultado, el modelo de regresión lineal se confunde
a menudo con un número de diferentes modelos lineales, como el modelo lin-
eal de Gauss (ver Spanos (1986,1999)). La convicción de Pearson no tuvo
impacto en la estadística porque sus esfuerzos por generar distribuciones bi-
varidas no simétricas a través de un par de ecuaciones diferenciales parciales
estuvo en gran parte sin éxito hasta la década de 1930 (véase el capítulo 6 y
Mardia (1970). El principal obstáculo fue la disponibilidad de distribuciones
conjuntas cuyas funciones momento condicional pudieran derivarse analíti-
camente y luego usadas para especi…car modelos de regresión. Los intentos
parcialmente exitosos por Pretorius (1930) y después por Van Uven (1947a,
b, 48a,b) tuvieron muy poco impacto debido a que en los 1930 el éxito de
366 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS
y h1 (x) x h2 (y)
f (x; y) = 1 (x) '1 , f (y; x) = 2 (y) '2 .
g1 (x) g2 (y)
Esta distribución bivariada está restringida poque pertenece a la familia
de distribuciones localización-escala. Las densidades condicionales tienen la
forma:
y h1 (x) x h2 (y)
f (yjx) = c1 '1 , f (xjy) = c2 '2 ,
g1 (x) g2 (y)
donde c1 y c2 son dos constantes de normalización. Aunque Narumi
exploró varios casos mediante la especi…cación de la forma funcional de las
funciones de regresión y cedástica, los más interesantes desde nuestro punto
de vista son los siguientes.
1. Regresión lineal y varianza condicional homocedástica. Pos-
tulando:
6.6. LA TRADICIÓN BIOMÉTRICA EN ESTADÍSTICA 367
(yjx) = 0 + 1 x, (xjy) = 0 + 1 x,
2 2 2
(yjx) = 1, (xjy) = 22 ,
(yjx) = 0 + 1 x, (xjy) = 0 + 1 x,
2
(yjx) = a1 + x, 2 (xjy) = a2 + y,
f (x; y) = c0 ( x + ) 1 ( y + ) 2 (ax + by + c) 3 .
Esta distribución conjunta incluye las distribuciones Beta bivariada, Pareto
y la F (véase el apéndice B) como casos especiales. Al restringir la varianza
condicional de Y dado X a ser:
2
(yjx) = a1 ,
Narumi deriva la densidad de dos variables:
2y
f (x; y) = c0 ( x + ) 1 e (ax + by + c) 3 ,
que incluye la distribución Gamma (McKay) (véase el apéndice B) como
un caso especial.
Regresión lineal y varianza heterocedástica condicional (parabólica).
Al postular
(yjx) = + 1 x, (xjy) = 0 + 1 x,
p0 p
2
(yjx) = a1 + x2 , (xjy) = a2 + y 2 ,
En las …guras 7.24-7.25 podemos ver las misma grá…cas en el caso en que la
correlación entre las variables aleatorias (X; Y ) es bastante alta ( = 0:953).
Como podemos ver la línea de regresión está mucho más cerca a (pero no
370 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS
Cov (X; Y )
E (Y j (X)) = E (Y ) [X E (X)] . (7.61)
V ar (X)
En las …guras 7.30-7.31 podemos ver la densidad versión Beta bivariada
(3,3,6) y la densidad de los contornos correspondientes con la línea de regre-
sión insertda, respectivamente. Una vez más, la asimetría mostrada por los
contornos es muy diferente tanto de la distribución F como de la Gamma
bivariada. Como se muestra en el apéndice B, esta forma de la distribución
Beta bivariada sólo permite correlación negativa y por lo tanto la línea de
regresión, también de la forma general (7.61), sólo puede tener pendiente
negativa.
Una comparación entre las …guras 7.35 y 7.29 sugiere que decidir si la re-
gresión es lineal o no lineal con sólo mirar el diagrama de dispersión puede ser
peligroso! Una mejor estrategia de modelación será evaluar los contornos del
estereograma suavizado (véase el capítulo 6) antes tomar cualquier decisión
relativa a la naturaleza de la función de regresión. De hecho, la estrategia de
modelación de Pearson puede ser la mejor elección: primero decidir sobre la
6.6. LA TRADICIÓN BIOMÉTRICA EN ESTADÍSTICA 375
que representan los equivalentes empíricos de las densidades fX (x) y f (x; y),
respectivamente:
1 Xn xk x
fbX (x) = Kx ; hx > 0
nhx k=1 hx
1 Xn xk x yk y
fb(x; y) = Kx Ky ; hx > 0; hy > 0,
nhx hy k=1 hx hy
Z
b =x f (x; y)
E Y jX = y dy
y2RY fX (x)
Xn
xk x
Kx hx
yk
k=1
= Xn (7.62)
xk x
Kx hx
k=1
Xn
= wk yk , x 2 RX .
k=1
xk x
Kx hx
wk = Xn .
xk x
Kx hx
k=1
puntos (xk ; yi ) en el intervalo (xk hx ) cuando k varía sobre todos los valores
de X. En la …gura 7.36 podemos ver un intervalo de este tipo (0:6 0:1)
dentro del cual varios puntos se promediarán verticalmente para reducirlos a
un punto.
En este libro consideramos el anterior evaluador no paramétrico de la
función de regresión no como un sustituto de la estrategia de modelación
expuesta anteriormente, sino como un complemento de la evaluación de la
idoneidad del modelo de regresión postulado. Esto se debe a que el evaluador
de la regresión suavizada hace caso omiso de las otras funciones condicionales
momento. Por el contrario, postulando una distribución bivariada permite
al modelador derivar las funciones momento condicional de orden superior.
Como hemos visto en la sección 2 anterior, la mayoría de las distribuciones
bivariadas dan lugar a funciones de varianza condicional heterocedástica.
Por lo tanto, el mejor uso de la regresión suavizada es para el modelador
superponer la curva de regresión teórica (que corresponde a la distribución
bivariada postulada) y la curva de regresión empírica no paramétrica en un
diagrama de dispersión para evaluar visualmente lo adecuado de la primera.
Para otros usos de tales evaluadores no paramétricos véase el capítulo 15.
6.7 Resumen
El principal objetivo de los anteriores tres últimos capítulos ha sido la exten-
sión del modelo estadístico simple, construido sobre el concepto de muestra
aleatoria, hacia modelos más realistas que pueden acoger alguna dependencia
y / o heterogeneidad. Después de haber argumentado que la mejor manera
de modelar la dependencia y la heterogeneidad es a través de distribuciones
conjuntas, se procedió a encontrar formas de lidiar con los problemas de
la multidimensionalidad y sobreparametrización derivados de tales distribu-
ciones. En el capítulo 6, además de desarrollar una serie de conceptos de
dependencia, se mostró que la condicionalidad secuencial proporciona una
manera más e…caz de lidiar con el problema de la dimensionalidad planeado
por las distribuciones conjuntas. Cualquier distribución conjunta se puede
reducir a un producto de distribuciones condicionales univariadas. Sin em-
bargo, este producto a menudo representa una familia in…nita de densidades
cuya información no puede ser modelada utilizando los momentos condi-
cionales ordinarios. El objetivo principal de este capítulo ha sido el desarrollo
del concepto de función estocástica momento condicional. Estas funciones
378 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS
6.8 Ejercicios
1. Explique cómo la noción de condicionamiento nos permite tratar con el
problema de la dimensionalidad planeatdo por las distribuciones conjuntas
de las muestras.
2. Explique por qué en la reducción f (x; y) = f (yjx) fx (x), usando
momentos condicionales para los propósitos de la modelación, plantea un
problema en relación con x 2 RX .
3. Considere la distribución conjunta dada enseguida:
6.8. EJERCICIOS 379
xny 1 2 3 fx (x)
-1 0.10 0.08 0.02 0.2
0 0.15 0.06 0.09 0.3
1 0.02 0.20 0.10 0.5
fY (y) 0.45 0.34 0.21 1
Y 1 11 12
~N ; .
X 2 21 22
Procesos estocásticos
7.1 introducción
En el capítulo 6 nos propusimos ampliar el alcance previsto del modelo es-
tadístico simple basado en el concepto de muestra aleatoria (un conjunto
de (X1 ; X2 ; :::; Xn ) variables aleatorias independientes e idénticamente dis-
tribuidas (IID)) para incluir fenómenos estocásticos que no pueden ser con-
siderados como realizaciones de muestras aleatorias. En este capítulo anal-
izamos el concepto de dependencia en general. El problema de la mod-
elización de la dependencia se prosiguió en el capítulo 7, donde llegamos
a la conclusión de que una forma e…caz de abordar las cuestiones planteadas
por la modelización fue través de las distribuciones condicionales y, en par-
ticular, a través de las funciones condicionales momento estocásticas. La
discusión en ambos capítulos se limito al caso de dos variables con el …n de
eludir algunos problemas adicionales planteados por el caso general. El obje-
tivo principal de este capítulo es regresar al caso general de n variables y unir
los cabos sueltos. El concepto básico requerido es el de proceso estocástico
que extiende el concepto de variable aleatoria.
381
382 CAPÍTULO 7. PROCESOS ESTOCÁSTICOS
(idénticas)1 :
I
Y
n
IID
Y
n
f (x1 ; x2 ; :::; xn ; ) = fk (xk ; k) = f (xk ; ) ; para todo x := (x1 ; x2 ; :::; xn ) 2 RnX :
k=1 k=1
(8.1)
Como se muestra en el capítulo 6, en el caso de una muestra no aleatoria
la correspondiente reducción basada en el condicionamiento secuencial toma
la forma:
no IID
Y
n
f (x1 ; x2 ; :::; xn ; ) = f1 (x1 ; 1) fk (xk j xk 1 ; :::; x1 ; k ) ; 8x 2 RnX :
k=2
(8.2)
Al comparar las dos reducciones (8.1) y (8.2) podemos ver que la clave
para la modelización de la no aleatoriedad se presenta en la forma de dis-
tribuciones condicionales. En efecto, de la discusión preliminar del problema
de medir la dependencia en el capítulo 6 concluimos que la vía más promete-
dora se presenta en forma de momentos condicionales. En el capítulo 7, sin
embargo, se hizo evidente que los momentos condicionales no podíaa hacer
el trabajo porque para cada k:
por una razón muy buena: esquivar dos problemas interrelacionados que
surgen en el contexto de las distribuciones condicionales secuenciales (8.3):
(i) El conjunto de información condicionante cambiante: el número de
cambios en las variables condicionantes con el índice en el sentido de que
el número de variables condicionantes que intervienen en (xk jxk 1 ; :::; x1 ; k )
cambia con k = 2; 3; :::; n, haciendo estas densidades diferentes, por ejemplo
para el n = 5:
f2 (x2 jx1 ; 2 )
f3 (x3 jx2 ; x1 ; 3 )
f4 (x4 jx3 ; x2 ; x1 ; 4 )
f5 (x5 jx4 ; x3 ; x2 ; x1 ; 5 ) :
ii) La heterogeneidad inherente: además del hecho de que las densidades
condicionales puede ser diferentes para cada k (fk (:j:) ; k = 1; 2; :::; n), ex-
iste también el problema de la heterogeneidad introducida por el cambiante
conjunto de información condicionante.
Con el …n de motivar la discusión que sigue, vamos a proceder a aplicar las
soluciones propuestas en el capítulo 7 para el caso general (8.3). En partic-
ular, vamos a considerar los conceptos de funciones condicionales momento
en el caso de la secuencia de densidades condicionales (8.3). Lo primero
que se hace evidente observando estas densidades es que no podemos utilizar
las funciones ordinarias condicionadas momento debido a que las densidades
marginales son sin duda relevantes.Con la excepción de las últimas Xn vari-
ables aleatorias, las otras aparecen a ambos lados del condicionamiento. Por
lo tanto, debemos tener en cuenta las funciones estocásticas condicionales
momento. Las dos primeras funciones estocásticas condicionales momento,
conocidas como funciones autorregresivas y autocedásticas, toman la forma
general:
1
X (:) : S ! R tal que X ( 1; x] 2 =
es, básicamente, adimensional y no puede ser dotado de dependencia
y heterogeneidad. En nuestro intento de de…nir el concepto de muestra no
aleatoria necesitamos dotar al concepto de variable aleatoria con dependencia
y heterogeneidad. Ambos conceptos se de…nen en relación con algún orde-
namiento de las variables aleatorias involucradas. Esto hace que debamos
dotar al concepto de variable aleatoria de una dimensión (un índice) que rep-
resenta a este ordenamiento y representa a menudo tiempo, posición, espacio,
etc. La sucesión indexada de variables aleatorias fX1 ; X2 ; :::; Xn g, llamada
proceso estocástico, es la extensión requerida. El lector perspicaz habrá
notado que el concepto de proceso estocástico fue implícitamente utilizado
en los tres capítulos anteriores, cuando la muestra fue especi…cada.
X (:; :) : S T ! R:
Una notación más atenta de un proceso estocástico es:
fX (s; t) ; s 2 S; t 2 T g :
Teniendo en cuenta los dos argumentos, podemos considerar un proceso
estocástico a partir de dos diferentes pero interrelacionados entre sí ángulos
de visión.
(i) El ángulo de visión variable aleatoria. Para un determinado t = t,
X s; t ; s 2 S :
X :; t : S ! R,
7.2. EL CONCEPTO DE PROCESO ESTOCÁSTICO 387
es una variable aleatoria ordinaria respecto a (S; =; P (:)) con sus propias
funciones de distribución y densidad, como antes. Para un determinado sub-
conjunto de T , por ejemplo ft1 ; t2 ; :::; tn g, fX (:; t1 ) ; X (:; t2 ) ; :::; X (:; tn )g
es simplemente una colección de variables aleatorias, similar a la que us-
amos para de…nir el concepto de muestra en los capítulos anteriores. La
estructura probabilística de esta colección está completamente descrita por
su distribución conjunta acumulada o por su función de densidad conjunta
f (x (t1 ) ; x (t2 ) ; :::; x (tn )).
(ii) El ángulo de visión funcional. Para un determinado s = s, fX (s; t) ; t 2 T g:
X (s; :) : T ! R,
1 XT
xrt , r = 1; 2; ::: (8.7)
T t=1
Z
r
E (X ) = xr f (x) dx, r = 1; 2; ::: (8.8)
x2RX
Otra forma de ver este problema es observar que para un proceso estocás-
tico no IID los parámetros desconocidos t en f (xt ; t ) son, por de…nición,
funciones de los momentos que cambian con t:
0 < t1 < t2 < < tn < < 1, donde tk 2 T , para k = 1; 2; :::; n; :::
2
Yk = X1 cos !k + X2 sen !k, Xi ~N IID (0; ), i = 1; 2, k 2 N.
Xk
Yk = Xi , k 2 N
i=1
n o
pn x2
f (x; t) = 4 t
exp 4 t
E (X (t)) = 0, V ar (X (t)) = 2 t.
El primer intento por formular este proceso como un modelo para los
cambios de las tasas de cambio de las acciones, fue hecha por Bachelier
(1900). Desafortunadamente, su tesis no fue apreciada por matemáticos
como Poincaré (uno de sus dos examinadores) y sus resultados, publicados
en su libro The Calculus of Probability (publicado en 1912), pasaron de-
sapercibidos hasta principios de 1930, cuando Kolmogorov (1931) se re…ere
en términos poco halagadores a su rigor matemático. Dejando a un lado
el rigor matemático, a Bachelier debe atribuirse la primera formulación del
proceso estocástico que hoy conocemos como movimiento browniano. Es in-
teresante notar que Bachelier entendió el problema de la modelización mucho
mejor que algunos de los matemáticos en la década de 1920. Él llegó incluso
a reconocer la necesidad de restricciones de dependencia/heterogeneidad y a
introducir lo que llegó a ser conocido más tarde como dependencia Markov
y homogeneidad Markov (véase Von Plato (1994)). La primera formulación
7.3. PROCESOS ESTOCÁSTICOS: UNA VISIÓN PRELIMINAR 397
Los resultados (a) y (b) son triviales de obtener pero (c) puede demostrarse
como sigue:
X
k X
m
= E (Zti ) Ztj
i=1 j=1
min(k;m)
X
2
= E (Zti )= min (k; m) ,
i=1
fSk g1k=1 fue llamada más tarde, un proceso de caminata aleatoria proporcionó
el impulso para numerosos avances en los procesos estocásticos.
PRECAUCIÓN. Se recuerda al lector una vez más que la estructura an-
terior es sólo indicativa de la estructura de dependencia más general de las
sumas parciales, debido a que nos hemos concentrado exclusivamente en los
dos primeros momentos, los que, en general, ni siquiera pueden existir!
Markov estaba trabajando en un marco de referencia espacio de estado
discreto/conjunto índice discreto y se concentró principalmente en la estruc-
tura de dependencia de tales procesos. En particular, se dio cuenta de dos
cosas:
(i) todos los elementos del proceso fSk g1
k=1 son mutuamente dependientes,
independientemente de la distancia entre ellos, pero
(ii) la dependencia se vuelve más fácil modelar cuando se ve a través de
la distribución condicional.
¿Qué es tan especial de este proceso?
La distribución condicional de Sk dado su pasado (Sk 1 ; Sk 2 ; :::; S1 ) de-
pende sólo del pasado más reciente, es decir,
Xk
Sk = Zti , donde Zti ~IID (:) , i = 1; 2; :::; k = 1; 2; 3; ::: ((8.14))
i=1
NOTE que esta notación nos permite de…nir el proceso de suma parcial
(un proceso de índice discreto) en términos de un proceso IID fZtk g1 k=1 que
puede ser o bien un proceso de índice discreto o continuo. Para un proceso
continuo de suma parcial es necesario sustituir la suma por una integral como
en (8.10).
En términos de nuestra taxonomía de los supuestos probabilísticos, los
procesos Markov y de caminata aleatoria se de…nen sin ningún tipo de supuesto
de distribución y por lo tanto se debe tener cuidado cuando se discute su es-
tructura de dependencia y de heterogeneidad en términos de momentos. La
tendencia a concentrarse en los dos primeros momentos del proceso puede
ser muy engañoso debido a que:
(a) ellos podrían no existir (Zi ~Cauchy (0,1), i = 1; 2; :::),
(b) ellos capturan sólo formas limitadas de dependencia/heterogeneidad.
En cierto sentido, el concepto de proceso de caminata aleatoria es una
caja vacía que se puede llenar con numerosos casos especiales, mediante la
imposición de algún tipo de estructura probabilística adicional. Eligiendo la
distribución a ser discreta (por ejemplo, de Poisson) o continua (por ejem-
plo, Normal) podemos de…nir algunos distintos tipos de procesos estocásticos
los cuales, sin embargo, comparten una estructura común determinada. Es
instructivo examinar brevemente esta estructura común.
La estructura probabilística impuesta al concepto genérico de caminata
aleatoria se realiza a través de su de…nición como una sucesión de sumas
parciales de variables aleatorias IID. La estructura probabilística del proceso
de IID fZtk g1 k=1 (utilizamos la notación índice discreto por conveniencia)
es transformada a través de las sumas parciales para determinar indirecta-
mente la estructura probabilística del proceso de caminata aleatoria fSk g1 k=1 .
Vamos a considerar el problema de la determinación de la estructura proba-
bilística de fSk g1
k=1 partir de los principios básicos.
En primer lugar, vamos a considerar la estructura de la dependencia de
7.3. PROCESOS ESTOCÁSTICOS: UNA VISIÓN PRELIMINAR 401
Sk = S k 1 + Zk , k = 1; 2; 3; :::; con S0 = 0.
Como podemos ver, el proceso de caminata aleatoria tiene una estructura
de dependencia Markov porque:
Yk = h (Yk 1 ) + Zk , k = 2; 3; :::;
Y
n Y
n
f (s1 ; s2 ; :::; sn ; ) = f1 (s1 ; 1) fk (sk sk 1 ; k ) = f1 (s1 ; 1) f (sk sk 1 ; ) , s 2 Rn
k=2 k=2
((8.16))
donde la primera igualdad se sigue del hecho de que el proceso de incre-
mentos fSk Sk 1 g1
k=1 es independiente y el segundo del supuesto ID para el
402 CAPÍTULO 7. PROCESOS ESTOCÁSTICOS
Y
n
f (xt1 ; xt2 ; :::; xtn ; ) = f1 (xt1 ; 1) fk xtk xtk 1 ; k , x 2 Rn . ((8.18))
k=2
Xk
Sk = Zi , donde Zi ~D (0; :) , i = 1; 2; :::; k = 1; 2; 3; ::: ((8.21))
i=1
Sk = Sk 1 + Zk ; S0 = 0; k = 1; 2; 3; :::
Podemos mostrar que la esperanza condicional de Sk dado su pasado toma
la forma:
7.3. PROCESOS ESTOCÁSTICOS: UNA VISIÓN PRELIMINAR 405
1 (
2 2 1 2
(1 ) 2
(1 ) x1 1 x1 1 x2 2
fx1 ;x2 (xt1 ; xt2 ; 12 ) = p exp p 2 p p
2 11 22 2 11 11 22
((8.24))
donde 12 := ( 1 ; 2 ; 11 ; 22 ; ) 2 R2 R2+ [ 1; 1] ; (x1 ; x2 ) 2 R2 . Esto
es debido a que estas formas de dependencia pueden ser capturadas por
variables aleatorias contiguas. Como se argumentó en el capítulo 6, bajo
Normalidad la única forma posible de dependencia es dependencia de primer
orden capturada por el coe…ciente de correlación .
El razonamiento anterior en relación con la distribución Normal dio lugar
a una forma de dependencia especi…cada en términos de los dos primeros
7.4. RESTRICCIONES DE DEPENDENCIA 407
YT
f (y1 ; y2 ; :::; yT ; ) = f (yt ; t) , para todo y := (y1 ; y2 ; :::; yT ) 2 <Y .
i=1
Estimación I: Propiedades de
los estimadores
8.1 Introducción
Para cualquier forma de inferencia estadística (paramétrica), como se de-
scribe en el capítulo anterior, el modelador necesita dos componentes básicos:
(A) modelo estadístico: S := ( ; X), - modelo de probabilidad, X -
modelo muestral,
(B) conjunto de datos: x := (x1 ; x2 ; :::; xn ).
Los datos son entonces interpretados una realización del mecanismo aleato-
rio especi…cado por el modelo estadístico. El objetivo principal de la inferen-
cia estadística es utilizar la información de los datos para extraer conclusiones
en relación con el mecanismo de probabilidad de que se trate. La estimación
equivale a utilizar la información en los datos para elegir un determinado
valor de de . Una vez que el parámetro es estimado por algún estimador
b, tenemos una descripción probabilística del mecanismo aleatorio en cuestión
Sb := b ; X . En el caso de un modelo estadístico simple, este mecanismo
estocástico se puede describir utilizando el modelo de probabilidad estimado:
n o
b := f x; b ; x 2 RX . (12.1)
411
412CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADES DE LOS ESTIMADORES
del mecanismo estocástico que dió origen a los datos que, en el caso anterior,
es el modelo estadístico estimado (12.1).
La teoría de la estimación en su forma moderna comienza con el tra-
bajo seminal de 1922 de Fisher "Sobre los fundamentos matemáticos de la
estadística teórica", donde algunos de los conceptos fundamentales de la es-
timación, tales como verosimilitud, información, e…ciencia y consistencia, se
propusieron por primera vez.
h (x) : X !
donde es el espacio muestral (el conjunto de todas las posiblres realiza-
ciones de la muestra), y representa el espacio de parámetros (el conjunto
8.2. LA DEFINICIÓN DE UN ESTIMADOR 413
b = h (X1 ; X2 ; :::; Xn ) ,
[ii] Modelo
n de probabilidad: o
= f (x; ) = p12 exp 1
2
(x )2 , := 2 R; x 2 R ;
[iii] Modelo muestral: X := (X1 ; X2 ; :::; Xn ) es una muestra aleatoria.
NOTE que el modelo de probabilidad se de…ne en términos de: X~N ( ; 1).
Las siguientes funciones constituyen estimadores posibles de :
(i) b1 = X1 , (ii) b2 = 12 (X1 + X2 ),
Xn
(iii) b3 = (X1 Xn ), (iv) bn = n1 Xi ,
Xn i=1X
n
1 1
(v) bn+1 = n+1 Xi , (vi) bn+2 = n+2 Xi .
i=1 i=1
Dado que el parámetro toma valores en el conjunto de la recta real (R),
será imposible de…nir una función de la muestra (X1 ; X2 ; :::; Xn ), que no sea
un estimador de . En vista del hecho de que es muy fácil de…nir numerosos
posibles estimadores, la pregunta que surge naturalmente es: ¿cómo se puede
elegir uno entre tales estimadores? Intuitivamente, la respuesta a esta pre-
gunta es obvia: se elige el estimador que se aproxima al verdadero parámetro
desconocido 0 con la mayor precisión posible. La formalización del concepto
de aproximación precisa resulta ser complicado porque no podemos de…nirlo
en la forma matemática usual b 0 ' 0. Esto se debe a que tal distancia:
f b; x1 ; x2 ; :::; xn := f b; x ,
tres aspectos básicos de la inferencia estadística, siendo las otras dos especi-
…caciones la especi…cación y la estimación:
(iii) Problemas de distribución incluyen la deducción matemática de la
naturaleza exacta de las distribuciones en muestras aleatorias de nuestras
estimaciones de los parámetros ... (Fisher (1925b), p. 8).
De la discusión en los capítulos 4 y 11, sabemos que matemáticamente
podemos de…nir la función de distribución acumulada (cdf) de cualquier fun-
ción b = h (X1 ; X2 ; :::; Xn ) a través de:
ZZ Z
P b y = f x1 ; x2 ; :::; xn ; b dx1 dx2 dxn (12.2)
fh(X1 ;X2 ;:::;Xn ) g
donde
(a) (X) := fh (X1 ; X2 ; :::; Xn ) yg representa el rango de valores Y =
h (X1 ; X2 ; :::; Xn ) para todo (x1 ; x2 ; :::; xn ) 2 X .
(b) f x1 ; x2 ; :::; xn ; b denota la distribución de la muestra: la dis-
tribución conjunta de las variables aleatorias X := (X1 ; X2 ; :::; Xn ).
Ejemplo 1. Bernoulli (continuación).
Armados con un lema del capítulo 11, que dice que una suma de variables
aletorias distribuidas Bernoulli IID es Binomialmente distribuida, podemos
proceder a derivar la distribución muestral de los estimadores (a) - (e). En
vista del hecho de que todos estos estimadores son funciones lineales de la
muestra, podemos deducir que sus distribuciones muestrales son todas Bi-
nomiales. Todo lo que resta es obtener su media y varianza utilizando las
propiedades deX E(:) (véase el capítulo 3). Por ejemplo, la distribución mues-
n
b
tral de n = n 1
Xi es Binomial con media y varianza:
i=1
1 Xn 1
E bn = E Xi = n ,
n i=1 n
1
2 Xn 1
2
1
V ar bn = V ar (Xi ) = (n (1 )) = (1 ).
n i=1 n n
El hecho de importancia es que hay una buena razón para este resultado.
En ambos casos el parámetro que queremosXn estimar es la media de la dis-
1
tribución E(X) y el mejor estimador n Xi es la media muestral. La
i=1
idea de la estimación de un momento de la distribución usando el correspon-
diente momento muestral tiene una larga historia en la estadística que se
remontan al siglo XIX (véase el capítulo 13, sección 2).
P( = 0) = 1,
es decir, es igual a 0 con probabilidad uno; tiene una distribución
degenerada. En la …gura 12.2 podemos ver el estimador ideal y lo que parece
ser una buena aproximación de su distribución muestral.
(i) E ( ) = 0, (ii) V ar ( ) = 0.
Esto sugiere que un estimador óptimo será uno cuya media está localizada
en el verdadero valor del parámetro que pretende estimar y su varianza es
cero. Para un tamaño de muestra …nito n, la segunda propiedad no puede
ser emulada por los estimadores factibles, pero cuando n tiende a in…nito
algunos estimadores pueden de hecho emularla. Debido a esto podemos dis-
tinguir entre las propiedades de muestra …nita (válidas para cualquier n) y
propiedades asintóticas (válidas cuando n tiende a in…nito).
Insesgamiento
Formalizamos la propiedad de localización en la forma de insesgamiento.
Una estimador b se dice que es un estimador insesgado de si su
distribución muestral tiene una media igual al parámetro 0 que tiene por
objeto estimar, es decir,
E b = 0.
E bn = ,
bn 6= #.
E #
E…ciencia
La idea de que la distribución muestral debe ser lo más concentrada que sea
posible alrededor del verdadero valor de se puede formalizar en términos
de la varianza de la distribución muestral de un estimador. Esta propiedad
se conoce como e…ciencia: qué tan disperso está el estimador alrededor del
8.3. PROPIEDADES DE MUESTRA FINITA 421
V ar b b .
V ar #
V ar bn V ar b3 V ar b2 V ar b1 .
=1 =,
se considera como información.
422CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADES DE LOS ESTIMADORES
Z Z
@
h ((X) f (x; ) dx1 dx2 ; :::; dxn =
@
Z Z
@
h ((X) f (x; ) dx1 dx2 ; :::; dxn < 1.
@
df (x; ) Xn df (x; )
E = .
d i=1 d
en el caso de la muestra aleatoria la información de Fisher toma la forma
aún más simple:
( )
2
dInf (x; )
In ( ) = nI ( ) := nE ,
d
1 1
(x )2 d
f (x; ) = e 2 , f (x; ) = (x ) , I ( ) = 1, In ( ) = n.
2 d
NOTA: el término información de la muestra proviene del hecho de que
la varianza de la mejor estimador insesgado es igual a la inversa de ésta. A
medida que la información aumenta esto reduce la varianza y por lo tanto se
gana más información acerca de .
424CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADES DE LOS ESTIMADORES
( ) 1
2
dInf (x; )
V ar b 1
CR ( ) := In ( ) := E . (12.4)
d
1
d
Var (b
q ( )) 1
CR (q ( )) := In (q ( )) := E (q ( ))2 In 1 ( ) . (12.5)
d
Var b @ A E . (12.6)
db d
este caso vamos a obtener resultados muy engañosos, porque lo que parece
ser una cota mínima C-R:
V ar b = CR ( ) := In 1 ( ) .
b d In f (x; )
= h (x) , (12.7)
d
para alguna función h (x).
Ejemplo 2. Normal (continuación)
En el caso del modeloNormal (un parámetro), la distribución de la mues-
tra toma la forma:
( )
1X 1X
n n n
1 n
f (x; ) := exp (xi )2 , In f (x; ) = In 2 (xi )2 .
2 2 i=1 2 2 i=1
d In f (x; ) X
n
d2 In f (x; )
= (xi ), = n.
d i=1
d 2
Por lo tanto, In ( ) = n y la cota mínima C-R es CR ( ) := In 1 ( ) = n1 ,
X
n
1
lo que con…rma que el estimador bn = n Xi es un estimador totalmente
i=1
e…ciente. En este caso se cumple la igualdad (12.7) ya que:
1X
n
1 d In f (x; )
(bn )= = (Xi ).
n d n i=1
426CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADES DE LOS ESTIMADORES
xi (1 xi )
f (x; ) := i=1 (1 ) i=1 .
Por lo tanto:
! !
X
n X
n
In f (x; ) = xi In + [1 xi ] In (1 ).
i=1 i=1
! !
d In f (x; ) Xn
1 X
n
1
= xi [1 xi ] .
d i=1 i=1
(1 )
! !
2
d In f (x; ) Xn
1 Xn
1
2
= xi [1 xi ] .
d 2 i=1
2
i=1
(1 )
2
d In f (x; ) n
E = .
d 2 (1 )
Esto se sigue del hecho que:
! !
X
n X
n X
n
E xi =n , E [1 xi ] =n E (xi ) = n (1 ),
i=1 i=1 i=1
y entonces:
(1 )
CR ( ) = .
n
Si volvemos a los estimadores (a) - (d) para , podemos ver que el único
estimador insesgado de , que es plenamente e…ciente es bn , ya que:
(1 ) (1 )
V ar bn = = = CR ( ) .
n n
Ejemplo 4? . Uniforme (continuación)
Considere el estimador insesgado bn = n+1
n
max (X1 ; X2 ; :::; Xn ) de . Se
puede demostrar que la distribución muestral del estadístico de mayor orden
8.3. PROPIEDADES DE MUESTRA FINITA 427
n 1
Y := max (X1 ; X2 ; :::; Xn ) es f (y; ) = ny n , 0 < y < (ver capítulo 10).
El uso de este, nos lleva a la conclusión errónea de que bn es un estimador
super plenamente e…ciente, pues:
Z 1 2 2
n+1 ny n 1
E bn := y n = , V ar bn := < .
n 0 n (n + 2) n2
2
en el supuesto de que In 1 ( ) := n2 es la cota mínima. Por supuesto, este
argumento es erróneo porque la información de Fisher no se puede de…nir en el
caso de la distribución Uniforme debido a que las condiciones de regularidad
no se cumplen.
2 h i
b
ECM #; 0 := E b
# b +E #
E # b 0
b + g #;
= V ar # b 0 ,
b
#; 0
b
=E # 0.
ECM b; b
ECM #; 0 ,
2
n
ECM bn+1 = (1 )+
(n + 1)2 (n + 1)
n (1 )+ 2
= ECM bi ; i = 1; 2; 3,
(n + 1)2
2
n
ECM bn+2 = (1 )+
(n + 2)2 (n + 2)
n (1 )+ 2
= ECM bi ; i = 1; 2; 3,
(n + 2)2
b2
ECM # b1
ECM # para todo 2 ,
n dE b n
E bn+1 = , = ,
n+1 db n+1
n dE b n
E bn+2 = , = .
n+2 db n+2
Por lo tanto, de (12.6) las cotas inferiores de Cramer-Rao para estos
estimadores sesgados son:
2
n (1 ) n (1 )
CR bn+1 = = 2 ,
n+1 n (n + 1)
2
n (1 ) n (1 )
CR bn+2 = = 2 .
n+2 n (n + 2)
que son iguales a sus respectivas varianzas.
Hay otro sentido en el que bn+1 , bn+2 son estimadores mucho mejores
que los estimadores insesgados b1 ; b2 y b3 . Esto surge del hecho de que las
varianzas de b1 ; b2 y b3 no sólo son más grandes que las de bn+1 , bn+2 , sino
que ellas no disminuyen a medida que se añaden observaciones adicionales a
la muestra.
Esto nos lleva convenientemente a las propiedades asintóticas de los esti-
madores. Llamamos a tales propiedades asintóticas porque, a diferencia de
430CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADES DE LOS ESTIMADORES
8.4.1 Consistencia
Una estimador bn se dice que es un estimador consistente de , si para
cualquier " > 0:
bn P
lim P < " = 1, representado por: bn ! (12.8)
n!1
8.4. PROPIEDADES ASINTÓTICAS 431
Esto se lee "el límite de la probabilidad del evento que bn di…era del
verdadero por menos de alguna constante positiva " > 0, tiende a uno
cuando n tiende a in…nito"; véase el capítulo 9.
OBSERVACIONES:
(i) bn en esta de…nición es sinónimo de un estimador genérico y no el
estimador particular utilizado en el ejemplo 1; el subíndice n se utiliza para
destacar el papel del tamaño de la muestra.
(ii) En cierto sentido, la consistencia es una extensión de la LGN para las
funciones de la muestra, por ejemplo h (X1 ; X2 ; :::; Xn ), que no sea la suma.
(iii) En el caso de que bn tenga una varianza acotada, podemos comprobar
su consistencia utilizando la desigualdad de Chebyshev (ver capítulo 3):
2
E bn
P bn " 1 .
"2
2
Esto se debe a que E bn es simplemente el error cuadrado medio
2
E (bn )
de bn . Por lo tanto, si ECM bn ! 0 cuando T ! 1, entonces "2
!0
y (12.8) se mantiene.
h i2
Usando la de…nición ECM bn ; = V ar bn + bn ; , podemos ver
que:
ECM bn ! 0 si V ar bn ! 0 y bn ; ! 0.
Esto sugiere que en el caso de que bn tenga una varianza acotada, podemos
comprobar su consistencia mediante la comprobación de las anteriores condi-
ciones (su…cientes): ellas son sólo condiciones su…cientes debido a que bn
puede ser consistente, aunque su varianza no podría existir. El concepto de
consistencia basado en (a) - (b) se llama a veces consistencia en media
cuadrática.
Ejemplo 1. Bernoulli (continuación)
432CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADES DE LOS ESTIMADORES
1 1
(a) V ar b1 = (1 ) , (b) V ar b2 = (1 ) , (b) V ar b3 = (1 ),
2 3
n n (1 )
(e) lim E bn+1 = lim E = , lim V ar bn+1 = lim E 2 = 0,
n!1 n!1 (n + 1) n!1 n!1 (n + 1)
n n (1 )
(f ) lim E bn+2 = lim E = , lim V ar bn+2 = lim E 2 = 0,
n!1 n!1 (n + 2) n!1 n!1 (n + 2)
cn bn ~N (0; V1 ( )) , para V1 ( ) 6= 0
a
OBSERVACIONES:
(a) "~" se lee "asintóticamente distribuida".
a
(b) V1 ( ) denota la varianza asintótica de bn .
(c) La sucesión fcn g1
n=1 es una función de n. Por ejemplo, en el caso
p de
una muestra aleatoria la sucesión de normalización se de…ne por cn = n.
Ejemplo 1. Bernoulli (continuación)
En el caso de los estimadores bn y bn+1 de discutidos anteriormente,
podemos demostrar que tienen la misma distribución asintóticamente Nor-
mal:
p p
n bn ~N (0; (1 )) , n bn+1 ~N (0; (1 )) . (12.9)
a a
p p
n (bn ) ~N (0; 1) , n bn+1 ~N (0; 1) . (12.10)
a a
1 n 1
I1 ( ) = lim = ) CR1 ( ) = (1 ).
n!1 n (1 ) (1 )
1
I1 ( ) = lim n = 1 ) CR1 ( ) = 1.
n!1 n
cn bn ~N 0; [I1 ( )] 1
, asumiendo I1 ( ) 6= 0.
a
lim P bn /
< " = 1,
n!1
fpn g1 bn
n=1 , donde pn := P <" ,
nxn 1
f (x; ) = n ,0<x< .
b 1
P 0 < e 0 , para todo 2 .
2
Estas medidas no se proseguirán más allá en este libro, pero se señalan
para destacar el papel de la distribución muestral en la evaluación de la
optimalidad de los estimadores.
1 1
= ff (y; )g = p exp 2
(x )2 ; := ; 2
2R R+ ,
2 2
1 Xn
b2n = (Xi bn )2 . (12.12)
n i=1
2
bn ~N ; .
n
1 Xn
n
1
f x; ; 2
= p exp 2
(xi )2 ,
2 2 i=1
n n 1 Xn
In f x; ; 2
= In (2 ) In 2
(xi )2 ,
2 2 2 2 i=1
@In f (x; ; 2
) 1 Xn
= 2
(xi ),
@ i=1
@In f (x; ; 2
) n 1 Xn
= + (xi )2 ,
@ 2 2 2 2 ( 2 )2 i=1
@ 2 In f (x; ; 2
) 1 Xn
= ( 1) ,
@ 2 2 i=1
2
@ In f (x; ; 2
) n 1 Xn
= (xi )2 ,
@ ( 2 )2 2 4 6 i=1
@ 2 In f (x; ; 2
) 1 Xn
= (xi )2 .
@ 2@ 4 i=1
0 1
@ 2 In f (x; ; 2
) @ 2 In f (x; ; 2
)
B E @ 2
E @ 2@ C
In ; 2
:= B
@
C
A
@ 2 In f (x; ; 2
) @ 2 In f (x; ; 2
)
E @ 2@
E @( 2 )2
2 2 1
CR ; := In ; .
@ 2 In f (x; ; 2
)
Debido a que E @ 2@
= 0, la matriz de información de Fisher
toma la forma:
n
2 2 0
In ; := n ,
0 2 4
y así la cota mínima de Cramer-Rao para cualesquiera estimadores inses-
gados de los dos parámetros es la siguiente:
8.5. EL MODELO NORMAL SIMPLE 441
2
2 4 2
CR ( ) := , CR. (12.13)
:=
n n
Como podemos ver, bn alcanza esta cota. Además, es fácil demostrar que
bn goza de todas las propiedades óptimas asintótica: consistencia, Normali-
dad asintótica y e…ciencia:
p 2
n (bn ) ~N 0; .
a
Xi Xn Xn Xi
2
dado que Zi = ~N (0; 1) ) Zi2 = ~ 2
(n) .
i=1 i=1
Xn Xi
2 Xn Xi bn
2
bn
2
= +n . (12.14)
i=1 i=1
Xn Xn
(Xi bn )2 = (Xi bn )2 + (Xi bn )2
i=1 i=2
hX n i2 X n
= (Xi bn ) + (Xi bn )2 ,
i=2 i=2
Xn Xn
por el hecho de que (Xi bn ) = 0 y entonces (Xi bn ) = (Xi bn ),
i=1 i=2
es decir:
n b2n Xn Xi bn
2
2
2
= ~ (n 1) . (12.15)
i=1
(n 1)
E b2n = . 2
6= 2
n
Debido a este sesgo, el estimador insesgado alternativo:
n n Xn
s2n := b2n = (Xi bn )2 , E s2n := 2
,
n 1 n 1 i=2
chi cuadrado es igual al doble de sus grados de libertad (ver Apéndice A),
para deducir que:
(n 1) s2n 2 4 2 4
V ar 2
= 2 (n 1) ) V ar s2n = > CR 2
= .
n 1 n
@In f (x; ; 2
) n 1 Xn
= + (xi )2 2
,
@ 2 2 4 n i=1
1 Xn 2 4 @In f (x; ; 2
)
(xi )2 2
= , (12.16)
n i=1 n @ 2
2 (n 1) 2
ECM b2n = 4
< ECM s2n = 4
.
n2 n 1
444CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADES DE LOS ESTIMADORES
!2 ( ) 1
2
2 dE b2n d In f (x; ; 2
)
CRB = E
d 2 d 2
!
2
n 1 2 4 2 (n 1)2 4
= = .
n n n3
1 Xm d k f (x; )
bn = h( ) ak ,m 1, (12.17)
f (x; ) k=1 d k
para una función h ( ) y las constantes k = 1; 2; :::; m. En el caso de que
(12.7) se cumpla, podemos usar la cota inferior Bhattacharyya:
Xm
V ar b cij ( ) ai aj , para algún m 1,
i;j=1
8.5. EL MODELO NORMAL SIMPLE 445
d f (x; ) i d f (x; ) j
1 1
donde cij = E f (x; ) d i f (x; ) d j
, los coe…cientes se de-
…nen por el sistema de ecuaciones:
Xm
cij ( ) aj , i = 1; 2; :::; m.
;j=1
Xm
V ar b cij ( ) , para algún m 1.
i;j=1
2
1 @ f (x; ; ) @In f (x; ; 2 )
: =
f (x; ) @ 2 @ 2
n 1 Xn 2 n
= + (x i b n ) + (b )2 ,
2 2 2 4 i=1 2 4 n
2
1 @ 2 f (x; ; 2
) @In f (x; ; 2 ) @In f (x; ; 2 )
: = +
f (x; ) @ 2 @ 2 @
2
n n
= 2
+ 4 (bn )2 .
2 4 n @In f (x; ; 2
) 1 1 @ 2 f (x; ; 2
)
s2n 2
=
n n 1 @ 2 2 (n 1) f (x; ) @ 2
1 1
2 2 2 0
I1 ; := lim In ; := 1 .
n!1 n 0 2 4
a1 ( ) a2 ( ) ak ( )
E bn (X) =+ 2
+ + (12.19)
n n nk
NOTE que en muchos casos encontrados hasta el momento el sesgo es de
la forma de primer orden, es decir,
a1 ( )
E bn (X) . =
n
Plegamiento (Jackkni…ng). Considere la sucesión de estimadores de
especi…cada con n 1 observaciones:
a2 ( ) ak ( )
E n (X)2
+ = + (12.23)
n nk
En el caso donde el sesgo fue de primer orden el estimador navaja es ahora
insesgado. Además, el sesgo de primer orden se puede estimar utilizando:
h i
Sesgo bn (X) = (n 1) en (X) bn (X) . (12.24)
Ejemplo
Considere el modelo Normal como se especi…có anteriormente y la esti-
mación del parámetro 2 . Apliquemos el estimador navaja en el caso del
estimador sesgado:
1 Xn
(Xk X)2 .
2
n :=
n k=1
Como se muestra anteriormente, el sesgo de este estimador es de primer
orden y toma la forma:
2
E b2n 2
.
=
n
Xn 1 Xn 1 Xn
bn (X) = 1
2
(Xi X)2 = Xi2 Xi .
n i=1 n i=1 n2 i=1
!2
1 Xn 1 Xn
en 1 X(k) = Xi2 + Xi .
(n 1) i=1
i6=k
(n 1) i=1
i6=k
Xn
en (X) = 1 en 1 X(i)
n i=1
1 Xn 1 1 Xn 1 Xn
= Xi2 X i
2
+ (n 2) Xi2 .
n i=1 n (n 1)2 n i=1 n i=1
Xn 1 Xn 2 n 1 Xn 1 Xn (n 2) X
n (X) = Xi2 Xi Xi2 + Xi2 +
i=1 n i=1 n i=1 n (n 1) i=1 n (n 1)
1 Xn 1 Xn 2 1 Xn 2
= Xi2 Xi = Xi X
(n 1) i=1 n (n 1) i=1 (n 1) i=1
a1 ( ) a2 ( ) ak ( )
E en (X) = + + +
n 1 (n 1)2 (n 1)k
a2 ( )
E nbn (X) (n 1) en (X) = +
n (n 1)
2 !2 3
Xn 1 Xn 4 1 Xn Xn
en (X) := 1 en 1 X(k) = Xi2 +
1
Xi 5.
n k=1 n i=1 (n 1) i=1
i6=k (n 1)2 i=1
i6=k
si lim sn = s ) lim n = s.
n!1 n!1
8.6.1 Su…ciencia
La idea de su…ciencia se remonta a Fisher (1922b), pero el concepto se for-
malizó a principios de 1930. El concepto de su…ciencia plantea la posibilidad
de reducir la dimensionalidad de los datos observados sin ninguna pérdida
de información. La información de la muestra original viene en forma de un
conjunto de datos x := (x1 ; x2 ; :::; xn ), considerado como una realización de
una muestra en particular X := (X1 ; X2 ; :::; Xn ) especi…cada a priori por el
modelo estadístico S := ( ; X). Un estadístico h (X), una función de…nida
en el espacio muestral X (no necesariamente un estimador), es su…ciente si
resume toda la información relevante para el modelo estadístico postulado
S. A menudo se llama un estadístico su…ciente para , porque el modelo
estadístico se determina una vez que se determina. Intuitivamente, la su…-
ciencia se re…ere a qué tan bien un estimador (una función de un estadístico)
utiliza la información de la muestra en relación con el modelo estadístico
postulado . La utilidad del concepto de su…ciencia surge del hecho de que
el estadístico h (X) es a menudo de la dimensión mucho menor que la mues-
tra n-dimensional. Antes de embarcarse en las de…niciones es importante
explicar la intuición en que se basa la propiedad mediante un ejemplo.
Ejemplo 1. Bernoulli (continuación)
En el caso del modelo de Bernoulli, sabemos que la muestra X := (X1 ; X2 ; :::; Xn )
450CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADES DE LOS ESTIMADORES
x := (0; 1; 0; 0; 1; :::; 1) .
En vista del hecho de que la localización exacta de unos en esta real-
ización es irrelevante debido a los supuestos IID, es intuitivamente evidente
que el conocimiento de la suma es equivalente a conocer Xn la realización ex-
acta. En este caso parece que el estadístio h (X) = Xk contiene toda
k=1
la información relevante en relación con el modelo estadístico de Bernoulli
. Es decir, el conocimento de la realizaciónX completa x es equivalente al
n
conocimiento únicamente de la suma h (x) = xk . El resutlado …nal es
k=1
que en vez de portar los n números de la realización de la muestra portamos
sólo uno, su suma; una reducción signi…cativa en la dimensión. Por lo tanto,
intuitivamente parece que este estadístico es su…ciente para (o ).
Este ejemplo pone de mani…esto la conveniencia de un estadístico su…-
ciente, mostrando que el estadístico en si mismo contiene la misma informa-
ción sobre que la muestra original, pero tiene una dimensión mucho menor.
El atractivo de un estadístico su…ciente surge del hecho de que si existe un
mejor estimador entonces es necesariamente una función del estadístico su-
…ciente. Además, la búsqueda de un estadístioa su…ciente se puede utilizar
como el primer paso para de…nir un estimador óptimo. Vamos a discutir
todos estos resultados iniciando con la de…nición de su…ciencia.
Intuitivamente, la su…ciencia de un estadístico Y = h (X) para un parámetro
signi…ca que cuando el valor de la estadística se da, cualquier otra forma
de información es irrelevante para . Esto sugiere que el conocimiento de la
realización de toda la muestra X, cuando el valor de Y = h (X) es conocido,
no añade información relevante para (o ). La formalización de esta idea
intuitiva da lugar a la siguiente de…nición de la su…ciencia.
Su…ciencia. Se dice que un estadístico h (X) es un estadístico su…ciente
para si y sólo si la distribución condicional de la muestra X dado h (X) = y
no depende de :
n
Y 1 (x )2
1 Xn
n
1 2 2 k
1 2
f (x; ) = p e = 2
exp 2
(xk )2
k=1
2 2 2 k=1
n
1 2 1 Xn
= 2
exp 2
(xk x+x )2
2 2 k=1
n
1 2 1 Xn
= 2
exp 2
(xk x)2 + n (x )2 .
2 2 k=1
" #
h n n oi 1
n
2 1 Xn
2 2
f (x; ) = exp (x ) exp (xk x) .
2 2 2 2 2 2 k=1
b d In f (x; )
= h( ) ,
d
implica que la distribución de la muestra tiene la forma (12.26). Esto
sugiere que existe un estimador e…ciente si y sólo si existe un estadístico
su…ciente; lo contrario, sin embargo, no es necesariamente cierto.
Ejemplo 5. Normal de 5 (continuación)
Considere el modelo Normal (de dos parámetros) ( 2 supuesto descono-
cido). Usando la igualdad:
Xn hX n i hX n i
2
(Xk ) = Xk2 2 Xk + n 2
k=1 k=1 k=1
= h2 (X) 2 [h1 (X)] + n 2 ,
n
1 2 1 Xn
f x; ; 2
= 2
exp 2
(xk )2 = g h (x) ; ; 2
v (x)
2 2 k=1
" n
#
1 2 1 2
= 2
exp 2
h2 (X) 2 [h1 (X)] + n [1] .
2 2
Xn Xn
Por lo tanto, los estadísticos h1 (X) := Xk , h2 (X) := Xk2 ,
k=1 k=1
son su…cientes para los parámetros desconocidos ( ; 2 ). Utilizando estos
estadísticos podemos de…nir los estimadores:
1 1 Xn
bn = h1 (X) = Xk ,
n n k=1
1 1 Xn
s2n : = h2 (X) (h1 (X))2 = (Xk bn )2 ,
n 1 n 1 k=1
Y
n
1 1
f (x; ) = = n , para 0 x[1] x[n] ,
k=1
donde X[1] = min (X1 ; X2 ; :::; Xn ) y X[n] = max (X1 ; X2 ; :::; Xn ) son los
dos extremos para los estadísticos. Usando la función heaviside (pesantez):
0, para x < 0,
h (x) =
1, para x 1,
podemos expresar f (x; ) como: f (x; ) = 1n h x[n] h x[1] .
Esto sugiere que X[n] es un estadístic o su…ciente para y en la búsqueda de
estimadores óptimos debemos considerar las funciones de X[n] . Recordamos
al lector que utilizamos el estimador bn = n+1
n
X[n] , en una de las ilustraciones
relacionadas con la cota mínima de Cramer-Rao.
e = E bjh(X) ,
(i) e es un estimador de ,
(ii) insesgado: E e = ,
(iii) relativamente más e…ciente que b: V ar e V ar b .
La propiedad (ii) se deduce del hecho de que:
h i
E b = E E jh(X) = E e = ,
b
h i
V ar b = V ar E bjh(X) + E V ar bjh(X)
h i
= V ar e + E V ar bjh(X) V ar e .
f (x; )
es libre de si y sólo si h (X) = h (Z) ,
f (z; )
entonces h (X) es un estadístico su…ciente mínimo para .
Ejemplo 1. Bernoulli (continuación)
En el caso del modelo Bernoulli, la razón:
Xn Xn
f (x; ) xk (1 ) (1 xk ) Xn
= Xk=1
n Xk=1
n = (xk zk ) ,
f (z; ) zk (1 ) (1 zk ) 1 k=1
k=1 k=1
Xn Xn
es libre de si y sólo si: Xk = Zk . Por lo tanto, el estadístico
Xn k=1 k=1
Xk no sólo es su…ciente sino su…ciente mínimo.
k=1
Ejemplo 5. Normal (continuación)
456CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADES DE LOS ESTIMADORES
2
Considere el modelo Normal (de dos parámetros) ( desconocido). La
razón:
n
n Xn o
f (x; ; 2
) 2
1
2
2
exp 2
1
2 (xk )2
k=1
2)
= n
n Xn o
f (z; ; 1 2
exp 1
(zk )2
2 2 2 2
k=1
1 h X n Xn i n hX n Xn i
= exp 2
x2k zk2 + 2 xk zk ,
2 k=1 k=1 k=1 k=1
2
es libre de ( ; ) si y sólo si:
Xn XnXn Xn
Xk2 Zk2 ; Xk Zk .
k=1 k=1 k=1 k=1
Xn Xn
Por lo tanto, los estadísticos Xk2 , Xk no sólo son su…-
k=1 k=1
cientes, sino su…cientes mínimos.
8.6.4 Completitud
Volviendo a nuestro objetivo principal que es encontrar estimadores óptimos
utilizando estadísticos su…cientes, observamos que el concepto de estadístico
su…ciente mínimo no puede garantizar la unicidad de este estimador porque
cualquier función uno a uno de un estadístico su…ciente mínimo es también
su…ciente y mínima. Para garantizar la unicidad de los estimadores ópti-
mos necesitamos otra característica de los estadísticos su…cientes llamada
exhaustividad.
La exhaustividad es una propiedad de una familia de densidades e intuiti-
vamente signi…ca que el único estimador insesgado de cero es cero sí mismo.
La familia de densidades = ffX (x; ) ; 2 g se dice que es completa si,
para cada función (X), se cumple la siguiente relación:
Esta idea puede ser trasplantados sin cambios para el caso de la distribu-
ción de la muestra f (x; ), mediante la sustitución de X por la muestra X
en la relación anterior. En el caso de un estadístico su…ciente, tenemos que
de…nir la completitud en términos de la distribución de este estadístico.
8.6. ESTADÍSTICOS SUFICIENTES Y ESTIMADORES ÓPTIMOS *457
E (g (h (X))) = ,
entonces este estimador es único.
La relación entre un estadístico su…ciente completo y un estadístico su-
…ciente mínimo es que un estadístico su…ciente completo es su…ciente mín-
imo (véase Lehmann y Sche¤é (1950)). Esto nos lleva al …nal de nuestra
búsqueda de mejores estimadores insesgados mediante la utilización de es-
tadísticos su…cientes. El resultado principal es dado por el siguiente teorema
(véase Lehmann y Sche¤é (1955)).
Teorema de Lehmann-Sche¤é 2. Sea h (X) un estadístico su…ciente
completo para (o mejor, de un modelo estadístico S). Si existe un estimador
insesgado b de , que es una función de h (X) (es decir, b = g (h (X))),
entonces este estimador es el mejor y el único.
Ejemplo 4. Uniforme (continuación
En un intento de ilustrar algunos de los resultados anteriores, volvamos a
la problemática del modelo Uniforme discutido anteriormente. En vista del
hecho de que:
E (X) = ,
2
podría ser tentador usar la correspondencia entre los momentos
Xn de la
b
distribución y de la muestra para obtener el estimador = 2 n 1
Xk .
k=1
Este ciertamente no es un mal estimador porque es a la vez insesgado:
1 Xn 2 n
E b =2 (Xk ) = = ,
n k=1 n 2
y consistente:
2
V ar b = ! 0 cuando n ! 1.
3n
Sin embargo, no es la mejor estimator. Sabemos de la discusión anterior
que:
458CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADES DE LOS ESTIMADORES
e = E bjX[n] = E 2 1 Xn n
(Xk ) jX[n] = X[n] .
n k=1 n+1
Resulta que la familia de las densidades consideradas es completa y, por
lo tanto, este estimador es el mejor estimador de insesgado de ; es también
único.
La principal desventaja de la estrategia anteriormente mencionada se en-
cuentra en asegurar que un cierto estadístico su…ciente mínimo también es
completo. Para hacerse una idea de las di…cultades considerar el caso relati-
vamente simple en el ejemplo siguiente.
Ejemplo 1. Bernoulli (continuación) Xn
En el caso del modelo de Bernoulli el estadístico Sn := Xk es
k=1
su…ciente mínimo, con una distribución muestral (véase el lema 1) de la
forma:
n
f (sn ; ) = s
(1 )n s
, 2 [0; 1] .
s
Considere un estimador ÷
(X) tal que E (÷(X)) = 0, para todo 2 [0; 1]:
Xn n
÷
(X) s
(1 )n s
= 0, para todo 2 [0; 1].
s=0 s
n Xn
Teniendo en cuenta el hecho de que la función g ( ) = s
(1 ÷
(X) )n s
=
s s=0
0 es un polinomio en 1 con raíces a lo más n, es igual a cero si y sólo si:
Xn
÷(X) = 0 para todo s = 1; 2; :::; n. Esto sugiere que Sn := Xk también
k=1
es un estadístico su…ciente completo.
Combinando el teorema anterior con el de Rao-Blackwell, el modelador
puede formar la siguiente estrategia: en el caso de que un estadístico su…-
ciente completo exista, ella debe comenzar con un estimador insesgado arbi-
trario y luego proceder a obtener la esperanza condicional dado el estadístico
su…ciente; ver Casela y Berger (1990).
8.7. ¿QUÉ VIENE A CONTINUACIÓN? 459
(a) c ( ) 0,
(b) h (x) 0,
(c) gi ( ), i = 1; 2; :::; k, funciones reales (sin x),
(d) i (x), i = 1; 2; :::; k, funciones reales (sin ).
Muchas distribuciones conocidas como la Normal, Gamma, Beta, Bino-
mial, Poisson y Binomial Negativa pertenecen a esta familia. Para esta fa-
milia, los estadísticos:
Xn
i (xj ) , i = 1; 2; :::; k ,
j=1
8.8 Ejercicios
1. Explique brevemente lo que hacemos cuando construimos un estimador.
¿Por qué un estimador es una variable aleatoria?
2. "De…nir la distribución muestral de un estimador es teórcamente triv-
ial, pero deducirla es muy difícil". Discuta.
3. Para el modelo estadístico Bernoulli:
(i) Discutir si las siguientes funciones constituyen estimadores posibles de
:
1 1
(a) b1 = Xn ; (b) b2 = (X2 X1 ) ; (c) b3 = (X1 X2 + Xn ) ;
2 3
1 Xn 1 Xn
(d) bn = Xi ; (e) bn + 1 = Xi .
n i=1 n+1 i=1
1
(i) b1 = Xn , (ii) b2 = (X1 + X2 + X3 )
3
1 Xn
(iii) b3 = (X1 Xn ) , (iv) bn = Xi ,
n i=1
9.1 Introducción
463
464 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN
= g ( 01 ; 0
2) .
1 Xn 1 Xn
b01 = Xi , b02 = Xi2 .
n i=1 n i=1
E (X) = ,
el principio de momentos coincidentes sugiere que un estimador natural
de es la media muestral:
Xn
b= 1 Xi .
n i=1
Ejemplo 2
Considere el modelo Normal simple:
[i] MG estadístico: Xk = + uk , k 2 N,
[ii] Modelo de probabilidad:
1 1
= f (x; ) = p exp 2
(x )2 ; := ; 2
2R R+ ; x 2 R ,
2 2
[iii] Modelo muestral: X := (X1 ; X2 ; :::; Xn ) es una muestra aleatoria.
Para el modelo Normal especi…cado anteriormente los parámetros de-
sconocidos := ( ; 2 ) están relacionados con los momentos de distribución
a través de:
2
E (X) = , V ar (X) = .
El principio de momentos coincidentes propone la media muestral y la
varianza muestral, respectivamente, como los estimadores evidentes de estos
parámetros, es decir,
1 Xn 1 Xn
b= Xi , b2 = (Xi b)2 .
n i=1 n i=1
Ejemplo 3
Considere el modelo de regresión lineal Normal:
[i] MG estadístico: Yt = 0 + 1 xt + ut , t 2 N,
[ii] Modelo de probabilidad:
1
1 2 2
= f (yt jxt ; ) = p exp 2
(Yt 0 1 xt ) ; := ; 2 R2 R + ; yt 2 R ,
2 2
470 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN
,
[iii] Modelo muestral: Y := (Y1 ; Y2 ; :::; Yn ) es una muestra aleatoria ex-
traída secuencialmente de f (yt jxt ; ), t = 1; 2; :::; T .
En este caso los parámetros desconocidos están relacionados con los mo-
mentos de las variables aleatorias y y X a través de:
XT XT
1 1
T
Yt Y (xt x) 1 XT 2 T
Yt Y
b =Y b = t=1
, b2 = t=1
0 1 x, 1 XT Yt Y XT
1
(xt x)2 T t=1 1
(xt
T t=1 T t=1
Z Z
0
r ( ) := r
x f (x; ) dx; r = 1; 2; ::: r ( ) := (x )r f (x; ) dx; r = 2; 3; :::
x2RX x2RX
1 Xn 1 Xn
b0r = Xi ; r = 1; 2; 3; ::: br ( ) = (Xi b)r ; r = 2; 3; :::.
n i=1 n i=1
Z Z
b0r;s ( ) : = xr y s f (x; y; ) dxdy; r; s = 1; 2; 3; :::
x2RX y2RY
Z Z
r s
br;s ( ) : = (x x) y y y s f (x; y; ) dxdy; r; s = 1; 2; 3; :::
x2RX y2RY
1 Xn 1 Xn s
b0r;s = Xir Yis ; r;s = (Xi bx )r Yi by , r; s = 1; 2; 3; :::.
n i=1 n i=1
Xn
1
Tabla 13.4 Media muestral b = n
Xi
i=1
Las fórmulas para los momentos centrales muestrales no son tan sim-
ples como las de los momentos muestrales crudos porque implican la variación
de muestreo de la media muestral. La tabla 13.5 muestra la aproximación
de los dos primeros momentos de los momentos centrales muestrales (véase
Stuart y Ord (1994)) donde la notación o nk y O nk indican el orden de
aproximación.
an
lim = 0,
n!1 nk
jan j
lim K, donde 0 < K < 1,
n!1 nk
474 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN
1
Cov (b; br ) = 0 + o n .
Los resultados de los momentos centrales muestrales indican que ya que:
P
(a) lim E (br ) = r, (b) lim V ar (br ) = 0, para r = 2; 3; ::: ) br ! r,
n!1 n!1
Xn
(Xi b x ) Yi by
i=1
b = rh X i hX n i.
n 2 2
(Xi bx ) Yi by
i=1 i=1
1 2 2 1
V ar (b) = 1 +o n .
n
p 2
n [br r ] ~N (0; V1 ( r )) , donde V1 ( r ) = 2r 2r r 1 r+1 r + r2 2
2 r 1 .
a
@g ( 0r ) 0 1 @ 2 g ( 0r ) 0 0 2
g b0r = g ( 0r ) + br 0
r + br r +
@ 0r 2 @ ( 0r )2
1 @ 2 g ( 0r ) 0 2
E g b0r ' g ( 0r ) + 2 0
E b0r r ,
2 @ r
2
@ 2 g ( 0r ) 0 2
V ar g b0r ' E b0r r ,
@ ( 0r )2
dónde ' indica aproximación asintótica. Utilizando estos resultados
podemos deducir que en el caso de una función diferenciable g(:) de los
momentos muestrales cuya derivada en 0r (el verdadero valor) no es cero, es
0)
decir, @g(
@ 0r
r
6= 0:
!
0 2h i
p 0 @g ( r ) 2
n g br g ( 0r ) ~N 0; 0
2r ( 0r ) .
a @ 0r
478 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN
Las derivaciones son un poco más complicadas cuando la función g(:) in-
volucra más de un momento muestral. Considere el caso donde g b01 ; b02 ; :::; b0m ,
m < n:
Xm @g ( 0 ) 0
g b01 ; b02 ; :::; b0m = g ( 01 ; 0
2 ; :::;
0
m) + bk 0
k O n 1
,
k=1 @ 0
k
de una manera que asegura que g(x) y h (x) coinciden tanto como sea
posible en un cierto dominio D; a menudo un conjunto de T puntos discretos
(T > k). El concepto de aproximación óptima, en el sentido de mínimos
cuadrados se de…ne en términos de minimizar la suma de errores al cuadrado,
donde el error se de…ne por:
9.3. EL MÉTODO DE MÍNIMOS CUADRADOS 479
Xk
t = yt ai i (xt ) ,
i=0
NOTA:
(i) Para el método de mínimos cuadrados la linealidad que importa es la
linealidad en los parámetros a0 ; a1 ; a2 ; :::; ak , no la linealidad en x como en el
caso del modelo de regresión lineal/Normal (ver Spanos (1986, disponible)),
(ii) no hay supuestos probabilísticos que estén involucrados en el problema
anterior.
Ejemplo
En el caso simple donde k = 1 y 0 (x) = 1; 1 (x) = x, la función objetivo
toma la forma:
XT
l (a0 ; a1 ) = (yt a0 a1 xt )2 .
t=1
@l XT @l XT
= ( 2) (yt a0 a1 xt ) = 0, = ( 2) (yt a0 a1 xt ) xt = 0,
@a0 t=1 @a1 t=1
XT
(yt y) (xt x) XT
b
a0 = y b
a1 x, b
a1 = t=1
XT , para (xt x)2 6= 0.
2 t=1
(xt x)
t=1
Xn Xn
donde y = T1 yt y x = T1 xt . Esto se puede ver geométrica-
t=1 t=1
mente como el ajuste de una línea a un grá…co de dispersión de f(yt ; xt ) , t = 1; 2; :::; T g,
como se muestra en la …gura 13.1.
480 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN
1 XT
b
a0 = yt .
T t=1
dl XT
= ( 2) (yt a0 ) = 0.
da0 t=1
2
T 1, entonces para algún > 0 (véase Heyde y Seneta (1977)) su función
de densidad es Normal:
2
1 1
f (yt ) = 2 2
exp y2
2 t
.
2
Utilizando este argumento, Gauss iba refundar el argumento de aproxi-
mación por mínimos cuadrados en la forma probabilística siguiente:
Xk
2
yt = ai i (xt ) + t , t ~N IID 0; , t = 1; 2; :::; T .
i=0
T 1 XT
In f ( 1 ; 2 ; :::; T) = In 2 2
2
(yt h (xt ))2 .
2 2 t=1
Esta idea puede ser vista como un precursor del método conocido hoy
como el método de máxima verosimilitud (ver más adelante).
En términos de propiedades de muestra …nita de los estimadores de
mínimos cuadrados, el resultado el resultado más célebre es el teorema de
Gauss-Markov discutido enseguida.
Xk
yt = ai i (xt ) + t , t = 1; 2; :::; T ,
i=0
donde 0 (x) ; 1 (x) ; :::; k (x) son funciones conocidas de x. Bajo los
supuestos:
(i) E ( t ) = 0, t = 1; 2; :::; T ,
2
, t 6= s
(ii) Cov ( t ; s ) = t; s = 1; 2; :::; T; ,
0, t = s
0 (x) ; 1 (x) ; :::; k (x) son funciones linealmente independientes (en el
sentido matemático) de x,
podemos deducir que los estimadores de mínimos cuadrados:
XT
b
ai = t (i) yt , i = 0; 1; 2; :::; k, (13.1)
t=1
En particular:
XT P
(i) x2t ! 1 cuando T ! 1 implica b
a1 ! a1 .
t=1
XT p
(ii) lim x2t = qx implica T (b
a1 a1 ) ~N (0; 2
[1=qx ]).
T !1 t=1 a
Antes de proceder a una interpretación más estadística del método de
los mínimos cuadrados, es importante destacar que a pesar de la introduc-
ción de terminologías probabilísticas, tales como distribuciones y medias, el
método, como se describió anteriormente, es esencialmente uno de aprox-
imación matemática. Además, su interpretación probabilística no es tan
robusta ante cambios en el supuesto de distribución de Normalidad como a
menudo se supone (véase Pearson (1920)).
ut = y t E (yt jDt ) , t 2 T,
o de forma equivalente elegir Dt con el …n de maximizar el componente
sistemático:
ut = E (yt jDt ) , t 2 T.
484 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN
bt = g xt ; bM C bt = yt
y u g xt ; bM C .
1 XT 1 XT
bt = 0 y
u g xt ; bM C bt = 0.
u
T t=1 T t=1
dl Xn Xn
= ( 2) (Xk ) = 0 para , que da como resultado: bM C = Xk .
d k=1 k=1
Xn 2
Sabemos que l bM C = Xk bM C es un mínimo de l ( )
k=1
= 2n > 0. bM C y u bM C
2
puesto que: dd 2l j =bM C bk = Xk cumple
con las propiedades:
1 Xn 1 XT b
bk = 0 y
u bt = 0,
MC u
T k=1 T t=1
puesto que:
Xn Xn Xn Xn
Xk bM C = Xk nbM C = Xk Xk = 0
Xn h k=1 i k=1
Xn
k=1 k=1
bM C Xk bM C = bM C Xk bM C = 0.
k=1 k=1
Xt = + ut , t 2 N,
y por lo tanto el método de mínimos cuadrados para estimar sobre la
base de la muestra (X1 ; X2 ; ::; Xn ) equivale a minimizar:
Xn
l( ) = (Xk )2 .
k=1
486 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN
Xn
dl
Resolviendo la condición de primer orden d
= ( 2) (Xk )=0
k=1
para da como resultado:
XT
bM C = Xt :
t=1
T b2 XT Xt b
2
2
2
= ~ (n 1) .
t=1
bt = g xt ; bM C bt = yt
y u g xt ; bM C ,
1 XT 1 XT h i
bt = 0 y
u g xt ; bM C bt = 0,
u
T t=1 T t=1
df (x) (x a)
= f (x) .
dx b0 + b1 x + b2 x 2
9.4. EL MÉTODO DE MOMENTOS 489
d (x) (x a) 2
= (x) , donde =ay = b0 .
dx b0
Usando las correspondientes ecuaciones en diferencia asociadas con las
distribuciones Binomial e hipergeométrica, pasó a extender esto a la ecuación
diferencial (13.5).
En el contexto de la teoría de la probabilidad, hemos visto que podemos
relacionar los parámetros desconocidos, por ejemplo ( 1 ; 2 ; 3 ; 4 ), con los
momentos de una función de densidad dada f (x; 1 ; 2 ; 3 ; 4 ) (véase el capí-
tulo 3) a través de:
Z
0
r ( 1; 2; 3; 4) = xr f (x; 1 ; 2 ; 3 ; 4 ) dx, para r = 1; 2; :::
x2RX
Z Z
r 2
x b0 + b1 x + b2 x df = xr f (x a) f (x) dx, para r = 1; 2; :::
x2RX x2RX
0 0 0
kb0 k 1 + f(k + 1) b1 ag k + f(k + 2) b2 + 1g k+1 = 0, k = 1; 2; :::
0
(b1 a) + 2 (b2 + 1) 1 = 0
b0 + (2b1 a) 01 + 3 (b2 + 1) 0
2 = 0
2b0 01 + (3b1 a) 02 + 4 (b2 + 1) 0
3 = 0
3b0 02 + (4b1 a) 03 + 5 (b2 + 1) 0
4 = 0.
0 dmx (t) 1 2 2 1 2
1 = jt=0 = e t+ 2 t + t jt=0 =
dt 2
" #
2
0 d2 mx (t) t+ 12 2 t2 1 2 t+ 12 2 t2 2 2 2
2 = jt=0 = e + t + e = + .
dt2 2
t=0
1 XT 1 XT
b01 = Xt = , b02 = Xt2 = 2
+ 2
.
T t=1 T t=1
Resolviéndolas para y 2 x,
1 XT 1 XT
b= Xt = , b2 = (Xt b)2 .
T t=1 T t=1
( )
1
1 x x
= f (x; ) = exp ; := ( ; ) 2 R2+ ; x > 0 ,
( )
,
[iii] Modelo muestral: X := (X1 ; X2 ; :::; Xn ) es una muestra aleatoria.
Tomando en cuenta el hecho de que la fgm es: mx (t) = (1 t) ,
podemos deducir que (ver capítulo 3):
dmx (t) h i
1
1 = jt=0 = ( ) (1 t) = .
dt t=0
d2 mx (t) h i
2 2 2
2 = jt=0 = ( + 1) (1 t) = ( + 1) ,
dt2 t=0
( ( ) )
2
1 In x
= f (x; ) = p exp 2
; := ( ; 2
), x > 0 ,
x 2 2
0 + 21 2 0 + 12 2 2
1 =e , 2 = e e ,
2
el camino más directo para obtener los estimadores MPM de := ( ; )
es resolver las siguientes ecuaciones para los parámetros desconocidos:
1 Xn 1 2 1 Xn + 12 2 2
Xk = e + 2 , Xk2 = e e .
n k=1 n k=1
Esto produce los siguientes estimadores:
8 9 8 9
>
> p h 1 XT i2 > XT
< T T Xt > = >
< 1
T
Xt2 >
=
b = In r t=1
, b2 = In h XT i2 > .
t=1
>
> X T >
> >
: 1 ;
: Xt2 ; T
Xt
t=1 t=1
1 XT
b0r = Xtr , r = 1; 2; :::,
T t=1
P p
bM P M ! y T bM P M ~N (0; V1 ( )) ,
a
D (X1 ; X2 ; :::; Xn ; ) ,
la distribución conjunta de las variables aleatorias que conforman la mues-
tra.
NOTACIÓN: para subrayar la diferencia entre la muestra y la realización
de la muestra, se usa la notación D (X1 ; X2 ; :::; Xn ; ) y no la notación
f (x1 ; x2 ; :::; xn ; ) utilizada en los capítulos anteriores.
Xn Xn
Y
n Y
n
1 xk xk (1 xk )
xk
D (X1 ; X2 ; :::; Xn ; ) = f (xk ; ) = (1 ) = k=1 (1 ) k=1 .
k=1 k=1
x := (0; 0; 0; 1; 0; 0; 1; 0; 0; 1) .
Como podemos ver, L ( ; x) es una función continua de , en contraste
con
XnD (x; ) que es una función discreta de x o de forma equivalente yn =
xk .
k=1
L b; x = maxL b; x .
2
dL ( ; x) d2 L ( ; x)
= g bM V = 0, dado que j =bM V < 0.
d d 2
A menudo, es preferible máximizar la función de log-verosimilitud en su
lugar, porque tienen el mismo máximo (el logaritmo es una transformación
monótona):
dInL ( ; x) 1 dL ( ; x) 1
= l bM V = = g bM V = 0, dado L 6= 0.
d l d l
Ejemplo 1. (continuación)
En el caso del modelo Bernoulli la función de verosimilitud es:
9.5. EL MÉTODO DE MÁXIMA VEROSIMILITUD 499
Xn Xn
InL ( ; x) = const + xk In + (1 xk ) In (1 ),
k=1 k=1
d 1 Xn 1 Xn
InL ( ; x) = xk (1 xk ) = 0,
d k=1 1 k=1
o bien
Xn Xn 1 Xn
xk 1 b =b n xk ) bM V = Xi .
k=1 k=1 n i=1
" #
d2 1 Xn 1
2 Xn
InL ( ; x) = xk (1 xk ) < 0.
d 2 2 k=1 1 k=1
=bEM V
b = h ( ) s ( ; X)
d 1 Xn 1 Xn
s ( ; X) := InL ( ; X) = Xk (1 Xk ) .
d k=1 1 k=1
bM V (1 )
= s ( ; X) ,
n
Xn
podemos deducir que bM V = n1 Xi es de hecho completamente e…-
i=1
ciente. Esto se con…rma usando la información de Fisher:
d2 InL ( ; x) Xn 1 Xn 1
2
= Xi (1 Xi ) .
d 2 i=1 2 i=1 1
d2 InL ( ; x) n (1 )
E = ) CR ( ) = .
d 2 (1 ) n
9.5. EL MÉTODO DE MÁXIMA VEROSIMILITUD 501
Y
n Y
n
1 1 1
n
1 Xn
D (X1 ; X2 ; :::; Xn ; ) = f (xk ; ) = exp xk = exp xk ,
k=1
k=1 k=1
1 Xn
InL ( ; x) = const nIn xk ,
k=1
d n 1 Xn 1 Xn
InL ( ; X) = + 2 xk = 0 ) bM V = Xk .
d k=1 n k=1
d2 n 2
InL ( ; x) = < 0,
d 2 2 3
=bM V
d2 n
In ( ) := E InL ( ; x) =
d 2 2
@InL ( ; x) @InL ( ; x)
= 0, = 0,
@ 1 @ 2
que necesita ser resuelto simultáneamente a …n de obtener los EMV.
Ejemplo 2. (continuación)
En el caso del modelo Normal, el supuesto de muestra aleatoria implica
que la función de verosimilitud tiene la forma:
Y
n
1 1 2 1
n
1 Xn
2
L ; ;x / p exp 2
(xk ) = p exp 2
(xk )
k=1
2 2 2 2 k=1
@InL ( ; x) 1 Xn
= ( 2)
(xk ) = 0,
@ 2 2 k=1
@InL ( ; x) n 1 Xn
= + (xk ) = 0.
@ 2 2 2 2 4 k=1
2
Al resolver este sistema para y resulta:
1 Xn 1 Xn
bM V = Xk y b2M V = (Xk bM V )2 .
n k=1 n k=1
Una vez más, los EMV coinciden con los estimadores sugeridos por los
otros tres métodos. InL b; x para b := b; b2 es de hecho un máximo ya
que las segundas derivadas en = b toman los siguientes signos:
@ 2 InL ( ; x) n n
j =bEM V = j =bEM V = < 0,
@ 2 2
b2
@ 2 InL ( ; x) 1 Xn
j =bEM V = (xk )j =bEM V = 0,
@ 2@ 4 k=1
@ 2 InL ( ; x) n 1 Xn n2
j =bEM V = (xk )2 j =bEM V = < 0,
@ 4 2 4 6 k=1 b6
9.5. EL MÉTODO DE MÁXIMA VEROSIMILITUD 503
y entonces
@ 2 InL ( ; x) n n @ 2 InL ( ; x) n
= = , E = 2,
@ 2 2
b2 @ 2
@ 2 InL ( ; x) 1 Xn 2
@ InL ( ; x)
= (xk ), E = 0,
@ 2@ 4 k=1 @ 2@
@ 2 InL ( ; x) n 1 Xn @ 2 InL ( ; x) n
= (xk )2 , E = 4.
@ 4 2 4 6 k=1 @ 4 2
Estos resultados sugieren que matriz de información de Fisher toma la
forma:
n
2 0
In ( ) := n .
0 2 4
Por lo tanto, las cotas inferiores de Cramer-Rao para cualesquiera esti-
madores insesgados de y 2 son (ver capítulo 12):
2 4
(a) CR( ) = n (b) CR( 2 ) = 2n .
Teniendo en cuenta el hecho de que (véase el capítulo 12):
2 2
(i) bM V ~N ; n , (ii) nbM2 V ~ 2 (n 1).
bM V es un estimador insesgado, e…ciente y consistente de , pero b2M V
no es insesgado, es, sin embargo, consistente y asintóticamente Normal y
asintóticamente e…ciente (véase el capítulo 12 para los detalles).
En este punto es importante hacer una digresión por unos segundos con
el …n de introducir un concepto a veces utilizado en lugar de la matriz de
información de Fisher. El concepto se llama la matriz de información
observada y se de…ne por:
@ 2 InL ( ; x)
Jn ( ) = .
@ @ 0
En el caso del modelo Normal simple esta matriz toma la forma:
504 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN
Xn !
n 1
2 4 (xk )
Jn ( ) = Xn Xn
k=1 .
1
4 (xk ) n
2 4
+ 1
6 (xk )2
k=1 k=1
Como podemos ver que esto es mucho más fácil de evaluar porque no hay
esperanzas que deban tomarse.
Antes de que el lector llege a la conclusión errónea de que los tres métodos
de estimación proporcionan estimadores idénticos, consideremos el siguiente
ejemplo, donde EMV y los estimadores MPM son diferentes.
Ejemplo 4. (continuación)
En el caso del modelo Gamma, la distribución de la muestra toma la
forma:
Y
n Y
n
xk 1
xk
D (X1 ; X2 ; :::; Xn ; ; ) = f (xk ; ; ) = exp .
k=1 k=1
[ ]
1 Xn Xn xk
InL ( ; x) = const nIn [ ] n In +( 1) 2
In xk ,
2 k=1 k=1
@InL ( ; x) n 1 Xn
= + 2 xk = 0,
@ k=1
@InL ( ; x) Xn
0
= n [ ] n In + In xk = 0,
@ k=1
donde 0 [z] := dz
d
In [z] se conoce como la función di-gamma (véase
Abramowitz y Stegum (1970)). XAl resolver la primera ecuación se obtiene:
n
b Xn 1
M V = b , donde X n = n Xk . Sustituyendo esto en la segunda
k=1
ecuación resulta:
0 X n Xn
l( ) = n [ ] n In + In Xk = 0, (13.9)
b k=1
9.5. EL MÉTODO DE MÁXIMA VEROSIMILITUD 505
l ( ) = 0,
que es una función no lineal de . Hay varios algoritmos numéricos que se
pueden utilizar para resolver este problema, que son apropiados para difer-
entes circunstancias. Uno de los algoritmos más simples y más utilizado es
el de Newton-Raphson, que podemos describir brevemente de la siguiente
manera.
Paso 1. Elija una solución inicial (tentativa): 0 .
Paso 2. El algoritmo de Newton-Raphson mejora esta solución eligiendo:
1 dl ( 0 )
1 = 0 [l0 ( 0 )] l ( 0 ) , donde l0 ( 0 ) =
.
d
Esto se basa en tomar una aproximación de primer orden de Taylor:
0
l ( 1) ' l ( 0) + ( 0 1) l ( 0)
igualándola a cero l ( 1 ) = 0 y resolviéndola para 1 . Esto proporciona
una aproximación cuadrática de la función l ( ).
Paso 3. Continuar iterando usando el algoritmo:
h i 1
bk+1 = bk l 0 b
k l bk , k = 1; 2; :::; N + 1,
hasta que la diferencia entre bk+1 y bk sea menor que un pequeño valor
preasignado , por ejemplo = 0:00001, es decir,
506 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN
bN +1 bN < .
h i
NOTE que l0 bk es la información observada (matriz) encontrada
anteriormente.
Paso 4. El EMV se elige sea el valor bN +1 para el que: l0 bN +1 ' 0.
Como se puede ver, este algoritmo requiere la elección de una conjetura
inicial para el estimador que a menudo se elige sea el estimador de MPM.
Un algoritmo numérico relacionado, conocido como el método de pun-
tuación, sustituye l0 bk con la información de Fisher In ( ), siendo la justi-
…cación el resultado de convergencia:
1 0 b c:s:
l k ! In ( ) ,
n
dando el esquema de iteración:
bk+1 = bk 1h i 1
In bk l bk , k = 1; 2; :::; N + 1.
n
IMPORTANTE: resulta que todo lo que modelador tiene que hacer para
lograr estimadores asintóticamente e…cientes es usar cualquiera de los esque-
mas de iteración anteriores para una iteración! Una iteración es su…ciente
para la e…ciencia asintótica. Para una discusión extensa de estos algoritmos
numéricos utilizados en la econometría, veáse Gourieroux y Monfort (1995),
Hendry (1995) y Davidson y McKinnon (1993).
Ejemplo 7
Consideremos el modelo Logístico simple (un parámetro):
[i] MG estadístico: Xk = E (Xk ) +
n k , k 2 N, o
exp( (x ))
[ii] Modelo de probabilidad: = f (x; ) = [1+exp( (x ))]2
; 2 R > 0; x 2 R ,
[iii] Modelo muestral: X := (X1 ; X2 ; :::; Xn ) es una muestra aleatoria.
La función de log-verosimilitud y las condiciones de primer orden son:
Xn Xn
InL ( ; x) = (xk ) 2 In [1 + exp ( (xk ))] ,
k=1 k=1
p 2 2 p
n Xn ~N 0; , donde = 3:2899 y n bEM V ~N (0; 3) .
a 3 3 a
Ejemplo 4. (continuación).
En el caso del modelo Gamma, los EMV de := ( ; ) puede ser
obtenidos a través del algoritmo de Newton-Raphson con:
00 1
!
0
( )
l ( )=n 1 2X n ,
3
2
donde 00 (z) = dz
d
2 In [z] se conoce como la función tri-gamma (véase
Abramowitz y Stegum (1970)). El método de puntuación simpli…ca esto a:
!
00
( ) 1
In ( ) = n 1 .
2
Xn
1 0
n
In Xk In X n [b k ] + In [b k ]
k=1
b k+1 = b k + 00 1 , k = 1; 2; :::.
[b k ] bk
n1 n2 nm
fb(x) := ; ; :::; y f (x; ) := [p1 ( ) ; p2 ( ) ; :::; pm ( )] ,
n n n
toma la forma:
" (n ) #
Xm nk k Xm nk Xm nk nk
K fb; f = In n
= In pk ( )+ In .
k=1 n pk ( ) k=1 n k=1 n n
x := (0; 0; 0; 1; 0; 0; 1; 0; 0; 1)?
b = g bM V .
MV
Ejemplo 6. (continuación)
En el caso del modelo Exponencial se especi…cado anteriormente, a
menudo estamos interesados en = 1 . A partir de esta propiedad del EMV
podemos deducir que el EMV de es:
bM V = 1 n
= Xm . (13.11)
bM V Xk
k=1
f (x; ) = exp f xg ,
y obtenemos el EMV de mediante la maximización de la función log-
verosimilitud:
Xn
InL ( ; x) = const + n In xk .
k=1
Xn
Dado que @@ InL ( ; x) = n xk = 0, el resultado es (13.11).
k=1
Esta propiedad es particularmente útil en el contexto del enfoque defen-
dido en este libro, porque los parámetros teóricos de interés rara vez coinci-
den con los parámetros estadísticos y esta propiedad nos permite deducir los
EMV de los primeros. Tomando en cuenta el hecho de que, en general:
E bM V 6= g bM V ,
E bU = y V ar bU = .
n
9.5. EL MÉTODO DE MÁXIMA VEROSIMILITUD 511
De la distribución de la muestra:
Xn
Y
n Y
n
1 xk 1
xk n
D (X1 ; X2 ; :::; Xn ; ) = f (xk ; ) = e = k=1 e ,
k=1 k=1
xk ! xk !
d2 d 1 Xn 1 Xn
2 InL (x; ) = n+ Xk = 2 Xk .
d d k=1 k=1
d2 n
In ( ) = E InL (x; ) = ) CR ( ) = .
d 2 n
Esto sugiere que bU es a la vez insesgado y totalmente e…ciente. En vista
de la propiedad anterior de EMV, bU debe coincidir con el EMV de . Con
el …n de veri…car este resultado, vamos a obtener el EMV de . La condición
de primer orden:
d 1 Xn 1 Xn
InL (x; ) = n + Xk ) bM V = Xk .
d k=1 n k=1
In ( ) = nI ( ) . (13.13)
Con el …n de poder obtener resultados generales necesitamos imponer al-
gunas condiciones de regularidad, además de Rf1-Rf6 utilizadas hasta ahora.
Rf7. E (In f (x; )) existe,
c:s:
Rf8. n1 In L ( ; x) ! E (In f (x; )) para todo 2 .
[4] Consistencia
(a) Consistencia débil. Bajo estas condiciones de regularidad, los EMV
son débilmente consistentes, es decir:
c:s:
P lim bM V = = 1, denotado por: bM V ! .
n!1
Véase el capítulo 9 para una discusión acerca de estos dos distintos tipos
de convergencia.
[5] Normalidad asintótica
Para Normalidad asintótica de los EMV tenemos que asegurarnos de que,
además de las condiciones de regularidad Rf1-Rf6, mencionadas anterior-
mente, se cumplen las siguientes condiciones (Gourieroux y Monfort (1995)):
Rf9. La información de Fisher para una observación: 0 <I( ) < 1,
donde
!
2
dInf (x; ) d2 Inf (x; )
I ( ) := E =E ,
d d 2
Rf10. In L ( ; x) es dos veces diferenciable en un intervalo abierto alrede-
dor de .
Bajo las condiciones de regularidad Rf1-Rf10, los EMV son asintótica-
mente normales, es decir:
p
n bM V ~N (0; V1 ( ))
a
V1 bM V =I 1
( ).
Ejemplos
(1) El modelo Bernoulli. Los resultados anteriores en relación con este
modelo indican que:
p
n bM V ~N (0; (1 )) .
a
!
Xn dInf (xk ; )
2
In ( ) = Ik ( ) , donde Ik ( ) = E , (13.14)
k=1 d
(1). lim In ( ) = 1,
n!1
(2). Existe una sucesión fcn g1
n=1 tal que
1
lim In ( ) = I1 ( ) donde 0 < I11 ( ) < 1.
n!1 c2n
La primera condición asegura consistencia y la segunda asegura Normal-
idad asintótica. La Normalidad asintótica en estas condiciones toma la
forma:
cn bM V ~N 0; I11 ( ) .
a
Ejemplo 3. (continuación)
Considere el modelo de regresión lineal normal simple. Resulta que los
EMV de := ( 0 ; 1 ; 2 ) coinciden con los estimadores principio de momen-
tos coincidentes:
Xn Xn
1
(yk y) (xk x) 1 Xn n
(yk y) (xk
b0 = y b1 x, b1 = k=1
Xn , b2 = (yk y)2 k=1
Xn
(xk x)2 n k=1 1
(xk x)
k=1 n k=1
(13.15)
Para ver esto vamos a de…nir la función de verosimilitud:
Yn 1 1 2
2
L 0; 1; ;y / p exp 2
(yk 0 1 xk )
k=1 2 2
2 n
n 1 Xn 2
= (2 ) 2 exp 2
(yk 0 1 xk ) .
2 k=1
Como suele ser el caso, para localizar los EMV utilizamos la función log-
verosimilitud, que en el presente caso es:
n 2 1 Xn 2
InL ( ; y) = const In 2
(yk 0 1 xk ) .
2 2 k=1
@In L ( ; y) 1 Xn
= 2
( 2) (yk 0 1 xk ) = 0,
@ 0 2 k=1
@In L ( ; y) 1 Xn
= ( 2)
(yk 0 1 xk ) xk = 0,
@ 1 2 2 k=1
@In L ( ; y) n 1 Xn 2
= + (yk 0 1 xk ) = 0,
@ 2 2 2 2 4 k=1
tenemos los EMV (13.15). Para ver las di…cultades en relación con el
orden de magnitud de la matriz de información de Fisher la deducimos. Las
segundas derivadas y sus valores esperados producen:
@ 2 In L ( ; y) n @ 2 In L ( ; y) n
= , )E = 2,
@ 20 2
@ 02
@In L ( ; y) 1 Xn @In L ( ; y) 1 Xn
= x2k , )E = x2k ,
@ 21 2 k=1 @ 21 2 k=1
@ 2 In L ( ; y) 1 Xn @ 2 In L ( ; y) 1 Xn
= 2
xk , )E = 2 xk ,
@ 1@ 0 k=1 @ 1@ 0 k=1
@ 2 In L ( ; y) 1 Xn @ 2 In L ( ; y)
= uk , )E = 0,
@ 2@ 0 4 k=1 @ 2@ 0
@ 2 In L ( ; y) 1 Xn @ 2 In L ( ; y)
= uk xk , )E = 0,
@ 2@ 1 4 k=1 @ 2@ 1
@In L ( ; y) n 1 Xn @In L ( ; y) n
= u2k = 0, )E = 4,
@ 4 2 4 6 k=1 @ 4 2
0 Xn 1
n 1
2 2 xk 0
2 B Xn Xk=1
n C
In 0; 1; =@ 1
2 xk 1
2 x2k 0 A (13.16)
k=1 k=1
n
0 0 2 4
Xn
x2k ! 1.
k=1 n!1
Y
n
D (X1 ; X2 ; :::; Xn ; ) = D (X1 ; 1) Dk (Xk jXk 1 ; :::; X1 ; k) , X 2 @.
k=2
@ Xn @ Xn
sn ( ; x) = InLn ( ; x) = In Dk (Xk jXk 1 ; :::; X1 ; ) := uk ( ; x) , 2 .
@ k=1 @ k=1
Xk := (X1 ; X2 ; :::; Xk ) ,
podemos deducir que para s0 ( ) = 0:
(i) uk ( ; Xk ) = X
sk ( ; Xk ) sk 1 ( ; Xk 1 ), k = 1; 2; :::; n,
n
(ii) sn ( ; X) = [sk ( ; Xk ) sk 1 ( ; Xk 1 )],
k=1
o de manera equivalente:
sk ( ; Xk ) = sk 1 ( ; Xk 1 ) + uk ( ; Xk ), k = 1; 2; :::; n.
Estos resultados sugieren que los procesos fsk ( ; Xk )g1 1
k=1 y fuk ( ; Xk )gk=1
son, respectivamente, un proceso martingala y un proceso de diferencia mar-
tingala con respecto a (Xk 1 ), ya que:
(iii) E (uk ( ; Xk ) j (Xk 1 )) = 0, k = 1; 2; :::; n,
(iv) E (sk ( ; Xk ) j (Xk 1 )) = sk 1 ( ; Xk 1 ), k = 1; 2; :::; n;
véase el capítulo 8. Además, fsk ( ; Xk )g1 k=1 es una martingala de media
cero debido a que:
podemos usar los teoremas límite del capítulo 9 para probar tanto la
consistencia como la Normalidad asintótica. La forma más sencilla de ver
esto es de…nir el proceso (segundo orden) de información condicional:
Xn
n ( ; X) = E u2k ; Xk j (Xk 1 ) ,
k=1
In ( ) = E s2n ( ; X) = E n ( ; X) .
518 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN
1
Xn c:s:
(a) [In ( )] uk ( ; Xk ) ! 0.
k=1 n!1
1 Xn D
(b) [In ( )] 2 uk ( ; Xk ) ! N (0; 1) .
k=1 n!1
Ejemplo 9
Consideremos el modelo autorregresivo Normal:
[i] MG estadístico: Xk = Xk 1 +(uk , k 2 N,
Y
n
[ii] Modelo de probabilidad: = f (x1 ; x2 ; :::; xn ; ) = f (x1 ; ) f (xk jxk 1 ; ) , 2( 1
t=2
p n o
1p 2 (1 2
) x2k 1 1 (xk xk 1)
2
f (x1 ; ) = 0 2
exp 2 2 , f (xk jxk 1 ; ) = 0
p
2
exp 2 2 ,
0 0
2
0
X1 ~N 0; 2
,
1
0 2 2 2
31
0 0 j j
Xk 0 1 2 1 2
~N @ ;4 2 2
5A ,
Xk 0 0
2
j j 0
2
1 1
k; = 1; 2; :::; n.
1 2 n 2 1 2
InL ( ; x) = In 1 In 0 2
d00 2 d01 + d11 ,
2 2 2 0
Xn i
di;j = xk xk+i j , i; j = 0; 1.
k=j+1
Las condiciones de primer orden son:
9.5. EL MÉTODO DE MÁXIMA VEROSIMILITUD 519
( @In L( ;x)
)
@ 20
= 2n2 + 2 1 4 fd00 2 d01 + 2
d11 g = 0
@In L( ;x)
0 0
d11 2d01 )
@
= (1 2) 2 20
= 0,
1
b20 = d00 2b d01 + b 2 d11 ,
n
n 1 n 2 d00
d11 b 3 + d01 b 2 d11 + b + d01 = 0.
n n n
Xn
@In L ( ; x) 1 Xn xk xk 1
= 2
(xk xk 1 ) xk 1 = 0, ) b = Xk=2
n ,
@ 0
k=1
x2k
k=2 1
@In L ( ; x) n 1 1 Xn 1 Xn
= + (xk xk 1 )2 = 0, ) b20 = (xk b xk 1 )2 ,
@ 20 2 20 2 4
0
k=2 n 1 k=2
@ 2 In L ( ; x) 1 X n @ In L ( ; x) 2
1 Xn
= 2
x2k 1 , ) E j (Xk 1 ) = 2 x2k 1 ,
@ 2 k=2
0 @ 2 0
k=2
@In L ( ; x) 1 Xn @In L ( ; x)
= (xk x k 1 ) xk 1 , ) E j (Xk 1 ) = 0,
@ 20 @ 4
0
k=2 @ 20 @
@In L ( ; x) n 1 1 Xn @In L ( ; x) n 1
= (xk xk 1 )2 = 0, ) E j (Xk 1 ) = .
@ 40 4
2 0 6
0
k=2 @ 04
2 40
La matriz de información condicional toma la forma:
520 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN
Xn !
1
2 2 x2k 1 0
n ; 0; X = 0 k=2
n 1
0 2 40
@ 2 In L ( ; x) 1 Xn 1 2
1
0
In ( ) = E E j (Xk 1 ) = 2
E x2k 1 = 2
= .
@ 2 0
k=2
0 1 2 1 2
8 XN 9
< @In L( ;x)
= 1
2 (Xij i) = 0
=
@ i
Xj=1
n XN )
: @In L( ;x)
= nM
+ 1
(Xij 2 ;
@ 2 2 2 2 4 i) = 0
i=1 j=1
1 XN 1 Xn XN 1 Xn 2
bi = Xij , 2
= (Xij bi )2 = si ,
N j=1 nN i=1 j=1 n i=1
XN
donde s2i := n1 (Xij bi )2 . El argumento comúnmente utilizado
j=1
contra el método de MV se basa en el resultado de que:
(N 1) c:s: (N 1)
E s2i = 2
,2
) b2 !
N N
y por lo tanto b2 es un estimador inconsistente de 2 .
Un momento de re‡exión, sin embargo, revela que el argumento de incon-
sistencia sobre la base de n ! 1, está mal pensado, porque al mismo tiempo,
el número de parámetros desconocidos ( 1 ; 2 ; :::; m ) aumenta hasta in…nito!
El modelador debe ser escéptico de cualquier método de estimación que pro-
porciona un estimador consistente de 2 sin imponer algunas restricciones
adicionales relativas a lo que ocurre con n cuando n ! 1. Consideramos el
522 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN
9.6 Ejercicios
1. Compare los dos primeros momentos crudos de la muestra y los momentos
centrales de la muestra en relación con los parámetros que pretenden estimar.
2. Compare mínimos cuadrados como método de aproximación matemática
y el método estadístico de mínimos cuadrados.
3. Compare y contraste el método de momentos de Pearson con el método
paramétrico de momentos.
4. Explique por qué constituye un anacronismo comparar el método de
máxima verosimilitud con el método paramétrico de momentos.
5. "La comparación de los estimadores de máxima verosimilitud y del
método paramétrico momentos por razones de e…ciencia no es un ejercicio
muy interesante." Discuta.
6. Describa los principales inconvenientes del método de Pearson para
deducir un modelo descriptivo.
7. Explique el principio de los momentos coincidentes y comparelo con el
método paramétrico de momentos.
8. Para el modelo estadístico Bernoulli obtenga el estimador de mínimos
cuadrados de , su distribución muestral y sus propiedades.
9. Considere el modelo estadísticoNormal simple.
(a) Obtenga los EMV de ( ; 2 ) y sus distribuciones muestrales.
(b) Obtenga los estimadores de mínimos cuadrados de ( ; 2 ) y sus
distribuciones muestrales.
(c) Compare estos estimadores en términos de las propiedades óptimas,
insesgamiento, e…cacia completa y consistencia.
10. Considere el modelo estadísticoNormal simple con = 0, es decir, el
modelo de probabilidad es:
1 1
= f (x; ) = p exp 2
x2 ; := 2
> 0, x2R .
2 2
1 Xn
e2 = Xk ,
n+2 k=1
en términos de su ECM.
11. Considere el modelo estadístico simple de Laplace basado en el modelo
de probabilidad:
1 1
jxj
= f (x; ) = e , > 0, x2R .
2
Deducir el EMV de y compararlo con los estimadores MPM y de míni-
mos cuadrados.
12. Consideremos el modelo estadístico simple de Pareto basado en el
modelo de probabilidad:
( +1)
= f (x; ) = x0 x ; > 0, x > x0 > 0, x2R .
13. Exponga las propiedades óptimas de los estimadores de máxima
verosimilitud (muestras …nitas y asintóticas).
14. Explique la diferencia entre:
(a) información de la muestra y de observación individual de Fisher,
(b) matrices de información y de información observada de Fisher,.
(c) matrices de información y de información condicional de Fisher.
15. "El método de máxima verosimilitud minimiza la distancia entre las
probabilidades teóricas y sus contrapartes empíricas según su de…nición por
la función de distribución acumulada empírica (fdae)." Discuta.
16* Obtenga el esquema iterativo para el método de puntuación en la
evaluación del EMV de las condiciones de primer orden en el caso del modelo
logístico simple.
17* Obtenga el esquema iterativo para el método de puntuación en la
evaluación del EMV de uno en el caso del modelo Gamma simple.
18* Explique por qué los procesos fsk ( ; Xk )g1 1
k=1 y fuk ( ; Xk )gk=1 , de…nidos
en la sección 5.4, constituyen, respectivamente, un martingala y un proceso
de diferencia martingala con respecto a (Xk 1 ).
524 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN
Capítulo 10
Prueba de hipótesis
10.1 Introducción
10.1.1 Las di…cultades inherentes en el dominio de las
pruebas de hipótesis
Las prueba de hipótesis es una de los más importantes, pero también una de
las partes más confusas de la inferencia estadística, por varias razones, entre
ellas las siguientes:
(i) la necesidad de introducir numerosos nuevos conceptos antes de que
uno sea capaz de de…nir el problema de manera adecuada,
(ii) el hecho de que la discusión actual de libros de texto del problema
constituye un híbrido inepto de dos enfoques fundamentalmente diferentes a
las pruebas (lo que Gigerenzer (1987) llama la "teoría híbrida") y
(iii) el hecho de que no existe un método único para la construcción de
"buenas" pruebas en la mayoría de circunstancias, comparable con el método
de estimación de máxima verosimilitud.
Se hace un intento para mitigar estos problemas mediante la utilización
de una serie de técnicas de enseñanza, la más importante de las cuales es
el desarrollo histórico de las pruebas desde …nales del siglo 19. Hay que
decir que esta se utiliza como un recurso de enseñanza y no intenta dar
una explicación completa del desarrollo histórico de las pruebas: una tarea
importante que aún no se ha realizado. La dimensión histórica de la prueba se
utiliza principalmente para facilitar el problema de la introducción de muchos
conceptos demasiado rápido y para poner de mani…esto las diferencias entre
525
526 CAPÍTULO 10. PRUEBA DE HIPÓTESIS
= 0, (14.1)
b 0 0. (14.2)
Qué tan grande debe ser la diferencia para ser considerada "lo su…ciente-
mente grande" nunca se formalizó adecuadamente.
En esta primera etapa podemos distinguir varias características que serán
conservadas en el desarrollo posterior de las pruebas de hipótesis. Estas
características incluyen:
(i) una noción primitiva de una hipótesis de interés: = 0 y
(ii) una función distancia: b 0 .
Esta es claramente la prehistoria de la prueba. La historia real de la
prueba comienza con Edgeworth.
10.2.1 Edgeworth
Un ejemplo típico de un procedimiento de prueba a …nales del siglo 19 es pro-
porcionado por Edgeworth (1885) al comparar la diferencia entre dos medias.
La idea fue comparar dos muestras diferentes (o submuestras) para evaluar
si tienen la misma media o no. Una forma de ver este problema es comenzar
con una muestra X := (X1 ; X2 ; :::; Xn ) y dividirla en dos submuestras de
tamaño n1 > 2 y n2 > 2 observaciones, respectivamente (n = n1 + n1 ):
n1 n1 n1
1 X 1 X 1 X 1 X
n
b1 = Xi , b21 = (Xi b1 )2 , b2 = Xi , b22 = (Xi b2 )2 ,
n1 i=1 n1 i=1 n2 i=n +1 n2 i=n +1
1 1
jb b2 j p
(X) := q 1 > 2 2, (14.3)
b21 + b22
1 = 2 = .
2 2
Xk ~N 1; 1 , k = 1; 2; :::; n1 , Xk ~N 2; 2 , k = n1 + 1; :::; n,
10.2.2 Pearson
La primera prueba importante que se extiende tanto a la tradición estadística
de Pearson como a la de Fisher (ver capítulo 13), es la llamada prueba chi
cuadrada de Pearson. Pearson (1900) propuso esta prueba como una forma
de medir la "bondad de ajuste" en el caso de elegir un modelo descriptivo
de un conjunto particular de datos dentro de la familia Pearson (Pearson
(a; b0 ; b1 ; b2 )), como se describe en el capítulo 13.
Utilizando los primeros cuatro momentos crudos de la "muestra" X :=
(X1 ; X2 ; :::; Xn ), el procedimiento de Pearson estima los cuatro parámetros
que de…nen la familia Pearson. A su vez estas estimaciones b := b a; bb0 ; bb1 ; bb2
selecciona un miembro de la familia Pearson, por ejemplo f0 (x), que describe
mejor los datos con f0 x; b , su contraparte empírica. La hipótesis de interés
de Pearson era si la elección de f0 (x) es válida, es decir,
2
X
m fbi fi
(X) = . (14.6)
i=1
fi
2
(X) ~ (m 1) (14.7)
a
NOTAS:
530 CAPÍTULO 10. PRUEBA DE HIPÓTESIS
ynx 0 1 fy (y)
0 0:5625 0:1875 0:750
1 0:1875 0:0625 0:250
fx (x) 0:750 0:250 1:000
! ! !
(315 312:75)2 (108 104:25)2 (32 34:75)2
(X) = + + = 0:470.
312:75 104:25 34:75
10.2.3 Gosset
El trabajo seminal de Gosset 1908 proporciona la piedra angular sobre la que
Fisher fundó la inferencia estadística moderna. En ese momento se sabía que
X
n
en el caso del modelo Normal simple (véase (14.4)), el estimador b = n1 Xi
i=1
tenía la siguiente distribución "muestral ":
2 2
1 p
2
2
n (bn )
bn ~N ; ) X; ; := (bn )= ~N (0; 1) .
n n
p
n (bn )
(X; ) = N (0; 1) , (14.9)
s
donde se lee "no se distribuye como." Era bien sabido que era normal
sólo asintóticamente:
p
n (bn )
(X; ) = N (0; 1) . (14.10)
s a
p
Esto se debe a que (X; ) = n(bsn ) es una razón de una variable
aleatoria con distribución normal y la raíz cuadrada de la variable aleatoria
s2 , cuya distribución no se conocía. Gosset iba a "adivinar" la distribución
de s2 deduciendo sus primeros cuatro momentos crudos y sustituyéndolos en
las cuatro ecuaciones de la familia Pearson (ver capítulo 13). Este ejerci-
cio le llevó a concluir que s2 muy probablemente tenía una distribución chi
cuadrada. Después de establecer que bn y s2 no estaban correlacionadas
(y pensar erróneamente que era lo mismo que ser independientes), pasó a
obtener la distribución de la relación (14.9) usando un argumento casi heurís-
ticoa para los estándares actuales. En la terminología de hoy, usando el lema
7 del capítulo 11, (X; ) es la prazón entre dos variables aleatorias inde-
pendientes, el numerador U = n(bn ) es normalmente distribuido y el
2
denominador, V = (n 1)s 2 es distribuido chi cuadrado, por lo tanto:
p
n (bn )
(X; ) = St (n 1) , (14.11)
s
donde St(n 1) designa la distribución t de Student con (n 1) grados de
libertad. Lo más destacable de este resultado es que, en contraste con (14.10),
fue el primer resultado de muestra …nita; un resultado distribucional que era
válido para cualquier tamaño de la muestra, no sólo para grandes n.
El resulado de Gosset (14.11) es importante para las pruebas de hipótesis
porque representa la primera cantidad clave (pivotal quantity), la quin-
taesencia de muchos estadísticos de prueba.
Una función clave (pivotal function) para es una función monótona
de de la forma q (X; ):
q (:; :) : X ! R,
cuya distribución de "muestreo" está libre de los parámetros desconocidos
( ). Es decir, adada la distribución de la muestra D (X; ), la distribución
534 CAPÍTULO 10. PRUEBA DE HIPÓTESIS
2 (n 1) s2 2
v X; = 2
(n 1) .
h (:) : X ! R.
Es decir, no involucra ningún parámetro desconocido (ver capítulo 11).
Hipótesis nula: H0 : = 0.
p
n (bn 0) H0
(X) = St (n 1) , (14.12)
s
H
donde " 0 " se lee "bajo H0 se distribuye como".
Un estadístico de prueba. La esencia del resultado de Fisher (14.12)
es que él transformó la función clave de Gosset (X; ) en un estadístico
de prueba (X): la función distancia de la muestra (un estadístico) cuya
distribución es conocida y no depende de los parámetros desconocidos . Esto
se logró deduciendo la distribución del estadístico (X; 0 ), que no involucra
ningún parámetro desconocido bajo H0 : = 0 ; es decir, deduciendo la
distribución muestral de (X; ), asumiendo que la hipótesis nula es válida .
Utilizando este resultado, Fisher procedió a derivar una medida de "cuánto
se desvía una realización muestral particular de H0 ", sobre la base de la
probabilidad del área de la cola de la distribución (14.12) más allá del valor
observado (x) del estadístico (X). Esta medida, conocida como el valor
de probabilidad o p-value por brevedad, toma la forma:
tarde, sin embargo, insistió en que hay que separar el p-value de la decisión
de aceptar o rechazar H0 (véase Fisher (1935a, 1956)).
En resumen, Fisher construye obre el trabajo previo de Edgeworth y Pear-
son pero proporciona más estructura al procedimiento de prueba de hipótesis:
(a) introduciendo explícitamente el concepto de hipótesis nula,
(b) utilizando el concepto de función clave (pivotal function),
(c) introduciendo el concepto de distribución de muestra …nita de la clave
bajo H0 ,
(d) formalizando el concepto de p-value,
(e) introduciendo la naturaleza inferencial de la prueba de hipótesis.
En el contexto del enfoque de Fisher, para de…nir una prueba se requiere
de una "función distancia" que utiliza un "buen" estimador del parámetro
en cuestión. Esta es, entonces, transformada en una función clave, tal como
(14.11). Esta función clave, bajo H0 , no involucra parámetros desconocidos
y por lo tanto se convierte en un estadístico de prueba. Para tomar una de-
cisión sobre la validez de H0 , se utiliza una medida de cuánto una realización
particular se desvía de H0 . Para Fisher, la decisión que se deberá tomar es
si la evidencia sugiere que la hipótesis nula es creíble o no
Ejemplos
1. En el caso del modelo Normal simple (véase (14.4)), utilizando los
datos de las puntuaciones del cuadro 1.6 (véase el capítulo 1), considerar la
prueba de la hipótesis nula:
H0 : = 70.
Para los datos de puntuaciones (ver tabla 1.6): bn = 71:686, s2 = 13:606
y n = 70. Sustituyendo estos en la función clave (14.12) se obtiene:
p !
70 (71:686 70)
(X) = = 3:824, P (j (X)j > 3:824; 0 = 70) = 0:00014,
13:606
H0 : = 0:5.
3. La conjetura de N. Bernoulli. N. Bernoulli llevo la conjetura un
paso más allá y propuso las probabilidades 18:17 para los hombres (véase
Hacking (1965)). La conjetura de Bernoulli puede ser formulado en forma de
la hipótesis nula:
H0 : = 0:4857.
Las dos hipótesis toman la forma general: H0 : = 0 , 0 2 (0; 1).
La función distancia que se sugiere en este caso es: nb b
0 , donde n =
Xn
1
n
Xk ; se muestra en el capítulo 12 que es el "mejor" estimador de .
k=1
Dado que bn es una variable aleatoria, bn 0 es un evento cuya probabil-
idad de ocurrencia puede ser evaluada utilizando la distribución muestral de
bn . En el capítulo 12, se demostró también que bn Binomialmente distribuida
con media y [ (1 ) =n], denotado por:
bn (1 )
Bi ; ;n .
n
p
( n bn 0 )
Esto sugiere que: (X; ) = p Bi(( 0 ) ; 1; n). Por lo tanto,
0 (1 0)
podemos proceder a obtener el estadístico de prueba:
p
n bn 0 H0
(X; ) = p Bi (0; 1; n) . (14.15)
0 (1 0)
538 CAPÍTULO 10. PRUEBA DE HIPÓTESIS
p
bn = 12553 = 0:48415, (x) =
25928(0:48415 0:4857)
p = 0:49988.
25928 0:4857(0:5143)
10.2.5 Resumen
Pruebas en el contexto del enfoque de Fisher comienzan con la especi…cación
de una hipótesis nula, cuya forma más simple es:
H0 : = 0.
H0 : = 0.
0 := f 0 g y 1 := f 0 g , donde 0 \ 1 = ?, 0 [ 1 = .
Ejemplos
(a) En el caso del modelo Normal simple la hipótesis nula H0 : =
10, ahora puede ser reconsiderada en la formulación de Neyman-Pearson en
conjunción con una hipótesis alternativa, tomando la forma: H0 : = 10
contra H1 : 2 R f10g, donde 0 := f10g es un número único y 1 :=
R f10g; R excluido el número 10.
(b) En el caso del modelo simple de Bernoulli la hipótesis nula H0 : =
0:5, ahora puede ser reconsiderada en la formulación de Neyman-Pearson en
conjunción con una hipótesis alternativa, tomando la forma: H0 : = 0:5
contra H1 : 2 [0; 1] f0:5g, donde 0 := f0:5g y 1 := [0; 1] (0:5) es el
intervalo [0; 1] excluyendo el número 0:5.
Una formulación más general de la especi…cación Neyman-Pearson de la
hipótesis nula y la hipótesis alternativa toma la forma:
H0 : 2 0 contra H1 : 2 1 := 0. (14.18)
Ejemplos
542 CAPÍTULO 10. PRUEBA DE HIPÓTESIS
= ff (x; ) ; 2 ; x 2 Rx g ,
en subconjuntos mutuamente excluyentes usando la partición del espacio
de parámetros = 0 [ 1 :
0 = ff (x; ) ; 2 0; x 2 Rx g , 1 = ff (x; ) ; 2 1; x 2 Rx g .
Esta fórmula pone de mani…esto el hecho de que las hipótesis nula y
alternativa son en última instancia acerca de la distribución y no de los
parámetros como parece a primera vista. Por lo tanto, asumiendo que la
"verdadera" distribución de probabilidad para los datos considerados es f (x),
un manera más atenta de especi…car estas hipótesis es en términos de sus
modelos de probabilidad implícitos en cada caso:
0 = ff (x; 0) ; x 2 Rx g y 1 = ff (x; 1) ; x 2 Rx g .
Es decir, H0 y H1 son simples porque 0 y 1 contienen sólo un elemento.
Caso B: 2 es desconocido. En este caso la hipótesis nula: H0 : = 0
es compuesta porque 0 = ff (x; 0 ; 2 ) ; 2 2 R+ , x 2 Rx g , representa una
familia completa de funciones de densidad, una para cada valor de 2 > 0.
De la misma manera, la especi…cación:
2 2 2 2
H0 : = 0, = 0 contra H1 : = 1, = 1 ,
tiene una H0 simple y una H1 simple, ya que ambos 0 y 1 son únicos:
2 2
0 = f x; 0; 0 ; x 2 Rx y 1 = f x; 1; 1 ; x 2 Rx .
H0 : 2 0 contra H1 : 2 1 , 1 \ 0 = ?. (14.20)
Ejemplos
(i) En el caso del modelo Normal simple la hipótesis nula y alternativa
pueden ser de la forma: H0 : = 0 contra H1 : > 0 .
(ii) En el caso de la conjetura de N. Bernoulli, la especi…cación de la
hipótesis nula y la hipótesis alternativa sería adoptar la forma: H0 : = 0:4857
contra H1 : > 0:4857. Esto se debe a que sólo estamos interesados en las
alternativas en la dirección de un "juego justo".
En estos casos la hipótesis alternativa no está de…nida en términos del
complemento de 0 con respecto a , sino como un subconjunto de la misma.
Ésta es diseñada para proporcionar al modelador la ‡exibilidad de ignorar
ciertas partes del espacio de parámetros de ningún interés a …n de mejorar
las propiedades de la prueba (en términos de potencia; véase más adelante).
C0 [ C1 = @ y C0 \ C1 = ?.
Las decisiones de aceptar o rechazar H0 se pueden especi…car en términos
de estas dos regiones (véase la …gura 14.4):
Ejemplos
(i) En el caso del modelo Normal simple, la prueba de las hipótesis: H0 :
= 70 contra H1 : 6= 70, podría basarse en el estadístico de prueba:
p
n (bn 70) H0
(X) = St (n 1) ,
s
y la intuición sugiere que es probable que la región de rechazo sea de la
forma:
C1 = fx : j (X)j > cg ,
para alguna c > 0 elegido apropiadamente.
10.3. EL MARCO DE REFERENCIA DE NEYMAN-PEARSON 545
p !
n (b 0:48) H0
(X) := p n Bi (0; 1; n) ,
0:48(0:52)
y otra vez la intuición sugiere que es probable que la región de rechazo
sea de la forma:
C1 = fx : j (X)j > cg ,
para alguna c > 0 elegida apropiadamente.
NOTA. En Spanos, p. 695 esta última igualdad se escribe: C1 =
fx : (X) > cg; creo debería escrbirse: C1 = fx : j (X)j > cg.
H0 válida H0 no válida
Aceptar H0 decisión correcta error tipo II
Rechazar H0 error tipo I decisión incorrecta
P (x 2 C1 ; = 0) = .
Considere el modelo simple de Bernoulli (véase (14.14)) y la hipótesis
especi…cada por:
P bn 0:5 > 0:005 ' 0:472, P bn 0:5 > 0:050 ' 0:239,
P bn 0:5 > 0:010 ' 0:444, P bn 0:5 > 0:100 ' 0:078,
P bn 0:5 > 0:020 ' 0:388, P bn 0:5 > 0:200 ' 0:0024.
NOTE que n = 50. Como podemos ver, haciendo el intervalo alrededor
b
de n más pequeño, la probabilidad de error tipo I aumenta (véase la …gura
14.1). La pregunta que surge naturalmente en esta etapa es:
¿Por qué no simplemente hacemos este intervalo muy grande?
En el caso de que el intervalo sea bastante grande, digamos 0:1 < bn 0; 9,
es decir, c = 0:4, la probabilidad de tomar la decisión equivocada es muy
cercana a cero. En particular:
P (x 2 C0 ; = 1) = ( 1) .
p p !
n bn 0:5 H1 n (0:55 0:5)
(X) = p Bi p ; 1; n . (14.22)
(1 ) 0:55 (1 0:55)
En el caso del error de tipo II, tomar la decisión equivocada signi…ca acep-
tar H0 ; decidir que la diferencia bn 0:5 no es "signi…cativamente distinta
de cero". Utilizando la distribución (14.22) podemos evaluar la probabilidad
del error tipo II usando los mismos valores de c como para la probabilidad del
error tipo I c = 0:005, 0:01, 0:02, 0:05, 0:1, 0:2, P bn 0:5 c; = 0:55 =
(0:55), de la siguiente manera:
548 CAPÍTULO 10. PRUEBA DE HIPÓTESIS
P bn 0:5 > 0:005 ' 0:043, P bn 0:5 > 0:050 ' 0:422,
P bn 0:5 > 0:010 ' 0:089, P bn 0:5 > 0:100 ' 0:645,
P bn 0:5 > 0:020 ' 0:178, P bn 0:5 > 0:200 ' 0:984.