Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Apunte Estadística II - Nassif
Apunte Estadística II - Nassif
2. Variables aleatorias 31
2.1. Concepto y definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.2. La distribución de una variable aleatoria . . . . . . . . . . . . . . . . . 34
2.2.1. La función de distribución y sus propiedades . . . . . . . . . . . 35
2.3. Clasificación de variables aleatorias . . . . . . . . . . . . . . . . . . . . 37
2.4. Esperanza matemática, varianza y momentos de la distribución . . . . 38
2.5. Algunas distribuciones usuales . . . . . . . . . . . . . . . . . . . . . . . 43
2.5.1. Algunas familias de distribuciones continuas . . . . . . . . . . . 44
2.5.2. Algunas familias de distribuciones discretas . . . . . . . . . . . 47
2.6. Consideraciones finales . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
1
ÍNDICE GENERAL 2
3. Transformadas de la distribución 53
3.1. Función generadora de momentos . . . . . . . . . . . . . . . . . . . . . 53
3.2. Función generadora de probabilidad . . . . . . . . . . . . . . . . . . . . 61
3.3. Otras funciones generadoras usuales . . . . . . . . . . . . . . . . . . . . 67
3.3.1. Función característica . . . . . . . . . . . . . . . . . . . . . . . 67
3.3.2. Cumulantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4. Vectores aleatorios 70
4.1. Distribución conjunta de variables aleatorias . . . . . . . . . . . . . . . 70
4.1.1. Función de distribución conjunta . . . . . . . . . . . . . . . . . 71
4.1.2. Clasificación de vectores aleatorios y cálculo de probabilidades . 73
4.1.3. Distribuciones marginales . . . . . . . . . . . . . . . . . . . . . 76
4.1.4. Esperanza de una función de varias variables . . . . . . . . . . . 78
4.1.5. Distribución conjunta de variables independientes . . . . . . . . 80
4.2. Distribución condicional . . . . . . . . . . . . . . . . . . . . . . . . . . 82
4.2.1. Esperanza condicional . . . . . . . . . . . . . . . . . . . . . . . 84
4.3. Covarianza y correlación . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.3.1. Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.3.2. Coeficiente de correlación lineal . . . . . . . . . . . . . . . . . . 90
5. Teoría asintótica 92
5.1. Distribución asintótica de una sucesión de variables aleatorias . . . . . 92
5.1.1. Convergencia en distribución . . . . . . . . . . . . . . . . . . . . 94
5.1.2. Convergencia de la función generadora de momentos . . . . . . 99
5.2. Teorema central del límite . . . . . . . . . . . . . . . . . . . . . . . . . 100
5.3. Convergencia en probabilidad y Ley de los grandes números. . . . . . . 104
5.3.1. Convergencia en probabilidad . . . . . . . . . . . . . . . . . . . 104
5.3.2. La ley de los grandes números . . . . . . . . . . . . . . . . . . . 107
Cuando se realiza un experimento aleatorio —es decir, uno cuyo resultado no pue-
de predecirse con precisión, sino solo esperar que ocurra una de varias alternativas,
teniendo variadas expectativas sobre las «chances» de que determinada situación rela-
cionada al resultado del experimento se verifique o no— se puede formalizar la situación
mediante los conceptos de espacio muestral, evento (o suceso aleatorio) y función de
probabilidad.
1. Una vez que el dado deja de moverse podría mostrar en su cara superior cualquiera
de las seis que posee, identificadas cada una de ellas con un diseño de uno a seis
puntos. Si lo que observamos entonces es cuál es dicha cara, que queda orientada
hacia arriba, tenemos seis posibles resultados y podría definirse como espacio
6
CAPÍTULO 1. INTRODUCCIÓN: ESPACIOS DE PROBABILIDAD 7
muestral
Ω1 = {1, 2, 3, 4, 5, 6},
o bien
Ω01 = {uno, dos, tres, cuatro, cinco, seis},
e incluso
. ..
Ω001 = { · ,˙. , . . , : : , :·: , .. .. },
etc. Es importante entender que no estamos observando valores numéricos en sí
mismos, sino diferentes posibles estados de la realidad que —una vez recopilados
en forma excluyente y exhaustiva— pueden representarse con notaciones de lo
más variadas y hasta cierto punto arbitrarias.
Ω2 = {mesa, f uera}.
Ω3 = {(1, m), (1, f ), (2, m), (2, f ), (3, m), (3, f ), (4, m), (4, f ), (5, m), (5, f ), (6, m), (6, f )}.
Ω4 = (0, +∞),
5. Se podrían registrar incluso todos los aspectos mencionados del resultado, para
lo que sería útil definir el espacio muestral
primer caso el dado se habrá detenido luego de 10,3 segundos y en algún momento
habrá caído de la mesa, mientras que en el segundo caso se detendría sobre la
mesa y esto habría llevado sensiblemente menos tiempo: apenas 4,8 segundos.
Obviamente, la cantidad de posibles «resultados» es infinita (es decir, #Ω = ∞).
Desde ya, con suficiente creatividad se podrían definir infinidad de espacios mues-
trales que «representen» el experimento en cuestión: para ello se podría tener en cuenta
si al momento de detenerse el dado llueve o no en donde tiene lugar el experimento (si
es por precisar la definición, podríamos chequear si a través de determinada ventana de
la casa se observa lluvia), o en algún otro lugar determinado —tal vez en una ciudad del
otro lado del océano—; también se podría, en cualquiera de esos casos, directamente
registrar la cantidad de lluvia caída durante los diez minutos posteriores a que el dado
se detenga; se puede considerar si durante el tiempo en que el dado está moviéndose
fallece o no algún/a jefe/a de estado; también contar cuántas personas que se encuen-
tran dentro de un determinado radio tienen tantos/as hijos/as como el número de la
cara que salió en el dado; combinar algunas o todas ellas... En fin: las posibilidades
son infinitas (e ilimitadamente absurdas, tal vez). De todos modos, para cada uno de
esos posibles «enfoques» podríamos definir un espacio muestral, para el que apenas
habrá que asegurarse de que la definición involucre todas las alternativas posibles1 y
de que cada una excluya a las demás. Ese cuidado en la definición del espacio muestral
garantiza que una vez realizado el experimento, su resultado corresponderá a uno y
solo uno de los elementos ωi ∈ Ω.
Todos estos «hechos posibles» que pueden terminar ocurriendo o no cuando arroje-
mos el dado —es decir, son de ocurrencia aleatoria o eventual— no son necesariamente
incompatibles unos con otros, y de hecho en este caso podrían ocurrir simultáneamente
los tres: en particular, si sucede C, entonces también sucede B, y podría pasar que ese
«dos» que cae fuera de la mesa se pueda observar con el dado detenido dentro de los
primeros diez segundos tras arrojarlo, en cuyo caso también sucedería A.
En realidad, cada uno de los hechos que planteamos involucra no a uno sino a varios
de los resultados ωi considerados en Ω5 (infinitos de hecho) y puede —en consecuencia—
representarse como un subconjunto de este. Por ejemplo:
A = {(n; c; t) ∈ Ω5 : t ≤ 10}
B = (n; c; t) ∈ Ω5 : n ∈ {2; 4; 6}
C = {(n; c; t) ∈ Ω5 : n = 2 ∧ c = f }.
E ∈ E, F ∈ E y G ∈ E.
Esta propiedad pareciera indicar que es suficiente asignar probabilidades a los sin-
gletons (en cierto sentido, a cada uno de los resultados posibles del experimento), y que
de allí se deducirían las probabilidades de cualquier evento que hubiéramos definido
como tal. Pero tal estrategia resulta inaplicable en muchos casos donde el espacio mues-
tral es infinito. Por ese motivo la función de probabilidad se definira sobre el conjunto
de posibles eventos E, y no sobre el conjunto de posibles «resultados» (i.e. el espacio
muestral Ω).5
En cualquier caso, este conjunto de eventos E no puede ser arbitrario si se quiere
cierta consistencia. Por ejemplo: sería bastante extraño que dejemos abierta la opción
de preguntar por la probabilidad de que ocurra el evento A pero que no podamos
preguntar por la probabilidad de que este no ocurra. Lo razonable es que si A es un
evento, también lo sea AC . También es coherente que si consideramos eventos a A y a
B, sea admisible preguntar cual es la probabilidad de que al menos uno de ellos ocurra
(A o B) o la probabilidad de que ocurran en simultáneo (A y B), por lo que deberíamos
incluir a A ∪ B y a A ∩ B entre los eventos si A y B están incluidos. Además, si dos
eventos no pueden ocurrir al mismo tiempo eso da una intersección vacía, por lo que ∅
se debe considerar un evento, y su complemento Ω también.
Incluso para dar un poco más de generalidad, pensemos que el espacio muestral se
definió como Ω4 y que consideramos eventos a
A1 = (0; 1],
A2 = (1; 2],
que correspondería al evento el dado deja de moverse durante el segundo número dos
(por no decir «el segundo segundo»); y en general, para cada k ∈ N
Ak = (k − 1; k],
A1 ∪ A3 ∪ A5 ∪ . . . ,
por lo que en general también es razonable pedir que dada una sucesión infinita de
eventos la unión de todos ellos también sea un evento.
5
Notar que esto incluye la posibilidad de que uno, varios o todos los «resultados individuales»
ωi no correspondan a ningún evento simple, y que por lo tanto no esté definida su probabilidad
individualmente.
CAPÍTULO 1. INTRODUCCIÓN: ESPACIOS DE PROBABILIDAD 12
∅ ∈ E y Ω ∈ E;
si A ∈ E entonces también AC ∈ E; y
si A1 , A2 , . . . ∈ E entonces también A1 ∪ A2 ∪ . . . ∈ E,
los seis (6) singletons {1}, {2}, {3}, {4}, {5} y {6}, y a su vez seis (6) conjuntos
de cinco elementos que son los complementos de los anteriores: {2, 3, 4, 5, 6},
{1, 3, 4, 5, 6}, etc.;
CAPÍTULO 1. INTRODUCCIÓN: ESPACIOS DE PROBABILIDAD 13
todos los posibles conjuntos de dos elementos como {1, 2},{1, 3},{2, 5}, etc., que
mediante un cálculo combinatorio se ve que son quince (15) en total;
a su vez, los quince (15) complementos de estos últimos, que dan todos los posibles
subconjuntos de cuatro elementos ({3, 4, 5, 6}, {2, 4, 5, 6}, {1, 3, 4, 6}, etc.;
y finalmente, todos los subconjuntos de tres elementos, como {2, 5, 6} o {1, 2, 5},
entre muchos otros, que en total suman otros veinte (20).
#P(A) = 2#A .
Todo esto hace parecer una muy mala idea nuestro plan de asignar probabilidades
a eventos en lugar de a los resultados del experimento, o al menos una complicación in-
necesaria. Para el ejemplo anterior, se trata de asignar 64 probabilidades, mientras que
si se hiciera sobre los elementos de Ω serían apenas 6. Peor aún, esas 64 probabilidades
no pueden ser arbitrarias, sino que deben cumplir algunas reglas que mencionamos más
abajo.
Sobre esto caben algunos comentarios:
que es fácil verificar que se trata de una σ-álgebra y tiene 4 elementos, mientras
que Ω1 tiene 6.
Ahora bien, cuando el espacio muestral Ω es infinito, la situación puede llegar a ser
radicalmente distinta, y esto es porque para los conjuntos infinitos su conjunto de
partes se vuelve esencialmente más complejo (en cierto sentido es «más infinito»
que el original). De todos modos, si Ω es un conjunto infinito numerable6 , lo dicho
para conjuntos finitos —sobre la posibilidad de asignar probabilidades a eventos
simples y de allí extenderlas a los demás— sigue siendo válido, aunque ahora las
sumas de probabilidades «puntuales» se vuelven sumas infinitas, es decir series.
— salvo por ejemplos triviales que son esencialmente equivalentes a los casos ya
considerados, es lisa y llanamente imposible definir una probabilidad para
cada elemento de P(Ω4 ) —es decir, que cualquier función que uno pretenda
asignar como si fuera una función de probabilidad, no podrá cumplir todas
las propiedades necesarias para serlo (ver el siguiente apartado)—;
— La consecuencia inmediata de esto es que en esos casos siempre deberá
tomarse un conjunto de eventos E P(Ω);
— sobre esos espacios y conjuntos de eventos, se pueden definir funciones de
probabilidad que asignen probabilidad 0 a cada evento simple {ω} ⊂ Ω
(existen numerosos ejemplos de esto, muy relevantes por cierto): y es claro
que en estos casos no se podría obtener sumando probabilidades nulas una
probabilidad positiva para ningún evento compuesto, lo que probaría que
el procedimiento mencionado antes para espacios finitos o numerables, no
siempre es aplicable.
Por todos estos motivos es que se hace necesario definir una σ-álgebra que esta-
blezca claramente cuáles subconjuntos del espacio muestral se consideran eventos, y
6
Para una definición de este concepto, ver el ??.
CAPÍTULO 1. INTRODUCCIÓN: ESPACIOS DE PROBABILIDAD 15
Sin embargo, la idea intuitiva que tenemos del concepto de probabilidad, establece
ciertas restricciones sobre una tal función P que la represente adecuadamente. En el
siguiente apartado aclaramos este punto.
lleva a esperar que alguno de estos casos deba ocurrir más que algún otro,
lo que los vuelve, para nosotros, igualmente posibles.7
Desde mediados del S. XIX la noción clásica fue puesta en cuestión, tanto por
quienes consideraban que se aplicaba solo a situaciones específicas, como por quienes
la consideraban en realidad inaplicable.
Esto último tiene sentido si pensamos que antes de arrojar un dado por primera
vez, no hay motivos más allá de la confianza ciega para suponer que el mismo esté
7
La traducción es propia.
CAPÍTULO 1. INTRODUCCIÓN: ESPACIOS DE PROBABILIDAD 18
equilibrado, condición necesaria para aplicar las ideas clásicas. En realidad, sería más
razonable arrojar el dado una cantidad de veces para ver si los seis posibles resultados
presentan una «tendencia» a ocurrir la misma cantidad de veces (es decir, con la misma
«frecuencia», que denotaremos f ), o si alguno tiende a presentar mayor frecuencia que
otro.
Resulta bastante intuitivo razonar que si un resultado —digamos el «uno»— ocu-
rriera notoriamente con más frecuencia que otro —como el «seis»—, esto debe ser así
porque en realidad la probabilidad de que ocurra el «uno» es mayor que la de que
ocurra el «seis» (lo que claramente volvería inaplicables las ideas clásicas).
Además, esto resulta más razonable (o podríamos decir, «menos cuestionable»),
cuanto mayor sea el número de repeticiones del experimento que dio lugar a tal con-
clusión.
Así, quienes plantearon las ideas que denominaremos «frecuencistas» (y que ha-
cia fines del S. XIX estaban ya bien establecidas), entendían que la relación entre la
frecuencia (f ) de un evento y el número total de repeticiones (n) —a veces denomina-
da frecuencia relativa (fr )— era una buena aproximación de la probabilidad de dicho
evento, al menos para valores grandes de n. Esto es,
f (A)
P(A) ≈ ;
n
es decir que para un valor fijo de n podemos aproximar la probabilidad de A mediante
la expresión anterior, pero no calcular su valor exacto.
De hecho los proponentes de la noción frecuencista sugirieron —al menos en la
interpretación más extendida— que la probabilidad de un evento es un valor bien
definido (aunque tal vez imposible de calcular con exactitud), que está dado por el
valor límite de la frecuencia relativa cuando el número de repeticiones del experimento
tiende a infinito. Es decir,
f (A)
P(A) = lı́m .
n→∞ n
Sin embargo, es claro que esta noción presenta también sus limitaciones. Además del
hecho de que en realidad solo permite aproximar probabilidades —pero no calcularlas
exactamente—, es claro que no resulta aplicable en aquellas situaciones en que se
necesita estimar la probabilidad previamente a la realización del experimento (o tras
muy pocas repeticiones del mismo), como puede ocurrirle a un jugador que se enfrenta a
un juego desconocido y debe tomar decisiones de inmediato. Pero tampoco es aplicable
a situaciones cuya naturaleza las vuelve esencialmente irrepetibles, como las que se
ejemplifican en el siguiente apartado.
CAPÍTULO 1. INTRODUCCIÓN: ESPACIOS DE PROBABILIDAD 19
Uno de los principales motivos (aunque no el único) por el que las nociones anterio-
res pueden ser inaplicables, es que existen muchísimas situaciones donde el resultado
aleatorio no puede pensarse en un espacio equiprobable y a la vez el «experimento»
que lo genera es en algún sentido «irrepetible».
Esto ocurre, por ejemplo si nos preguntamos por la posibilidad de que un día y en
un lugar determinados haya algún tipo de precipitación, o de recibir un llamado telefó-
nico de cierta persona durante las próximas dos horas. O más aún, que determinado/a
candidato/a gane la próxima elección presidencial (esa en particular y no otra, que
tendrá lugar en un contexto necesariamente diferente). En todos estos casos, las con-
diciones en que se desarrolla el experimento aleatorio son tan específicas e irrepetibles
(el último ejemplo probablemente sea el más extremo), que no tiene sentido pensar
en la posibilidad de reiterarlo en iguales condiciones —o, equivalentemente, revisar
ocurrencias anteriores para estimar probabilidades usando las frecuencias relativas8 —,
así como tampoco habrá en general motivos para suponer que los diferentes posibles
resultados tienen igual probabilidad.
Sin embargo, en todos los ejemplos dados es muy común que asignemos explícita o
implícitamente una estimación probabilística para los posibles resultados. En el caso de
las precipitaciones es común que los pronósticos meteorológicos asignen explícitamente
una probabilidad, y si no fuera el caso, de todos modos solemos manejarnos en términos
probabilísticos implícitamente, lo que se plasma en nuestras decisiones acerca de qué
ropa usar, si llevar o no un paraguas o un impermeable, si planificar determinada
determinada actividad al aire libre o no, etc.
Por este motivo, es necesario considerar una noción de probabilidad que tenga
sentido en estas situaciones, para lo cual se suele acudir a la interpretación bayesiana 9
de la probabilidad.
La interpretación usual bayesiana considera la probabilidad como un valor que
refleja creencias sobre la posibilidad de que ocurra un cierto evento, en vez de una
8
Es cierto que esto se hace a veces revisando situaciones anteriores en las que al menos algunas
condiciones hayan sido iguales o similares, pero debe tenerse siempre presente que esto puede dar
lugar a un gran margen de error y en muchos casos resulta en mera especulación. Así, por ejemplo,
el historial electoral de un candidato o un partido político puede dar alguna idea de sus posibilidades
para la próxima elección, pero sin duda esta tendrá lugar bajo una infinidad de condiciones específicas
que no coincidirán con las de elecciones anteriores; por lo tanto cualquier conclusión obtenida de dicho
análisis es esencialmente especulativa.
9
El término refiere a Thomas Bayes, quien a mediados del S. XVII propuso un caso particular
del teorema que hoy lleva su nombre y que fue desarrollado con más generalidad por Laplace; dicho
teorema es además el punto de partida para los métodos estadísticos que hoy denominamos —en
consecuencia— métodos bayesianos.
CAPÍTULO 1. INTRODUCCIÓN: ESPACIOS DE PROBABILIDAD 20
que pueden leerse como el resultado es par y el resultado es menor a tres, respectiva-
mente.
También resultarán eventos (porque E es una σ-álgebra)
(es decir, sale un número par o menor a tres —o ambas cosas a la vez—) y
A ∩ B = {dos}
(es decir, sale un número par y es menor a tres, que es lo mismo que decir que sale un
dos).
También serán eventos
AC = {uno, tres, cinco}
(no sale un número par, o sea que es impar), así como
(no sale un número menor a tres, o sea que sale un número mayor o igual a tres), y
(A ∪ B)C , (A ∩ B)C , etc.
Ahora bien, si el espacio es equiprobable (es decir, el dado está equilibrado), usando
la noción «clásica» de la probabilidad podemos asignar las siguientes probabilidades:
#A 3
P(A) = = ,
#Ω 6
#B 2
P(B) = = ,
#Ω 6
#(A ∪ B) 4
P(A ∪ B) = = ,
#Ω 6
#(A ∩ B) 1
P(A ∩ B) = = .
#Ω 6
Sin embargo, estas probabilidades guardan una relación entre sí, que surge de cómo
podemos contar los elementos de los diferentes conjuntos. En el conjunto A ∪ B están
tanto los elementos de A como los de B. Sin embargo, no sucede que #(A∪B) sea igual
a la suma de #A y #B, ya que como hay elementos en común, sumar los cardinales
CAPÍTULO 1. INTRODUCCIÓN: ESPACIOS DE PROBABILIDAD 22
equivale a contar dos veces todos los elementos que se encuentran en la intersección
(A ∩ B). Pero si a esa suma le restamos la cantidad de elementos repetidos, entonces
sí obtendremos el cardinal de la unión, es decir:
Es claro que esto es una fórmula que debe valer en general, y no es específica
para nuestro ejemplo. Es decir, que cualquier definición formal de la probabilidad que
razonablemente represente nociones intuitivas como la clásica o la frecuencista (y no
es difícil convencerse de que lo mismo tiene sentido para la noción bayesiana), deberá
tener la propiedad de que para todo par de eventos A, B ∈ E, se cumpla
Pero esta es solo una de muchas propiedades que es de esperar que tenga la definición
matemática de probabilidad. Por poner otro ejemplo sencillo, si queremos calcular la
probabilidad de B C , podemos notar que
#B C = #Ω − #B,
ya que B C contiene a todos los elementos del espacio que no están en B (y luego,
podemos determinar su cardinal por diferencia).
Si dividimos por #Ω, obtenemos la igualdad
#B C #B
=1− ,
#Ω #Ω
por lo que si asignamos probabilidades usando la noción clásica, esto da lugar a la
igualdad
P(B C ) = 1 − P(B).
Un análisis sencillo, que se deja como ejercicio, prueba que lo mismo debe ocurrir si
se usa la noción frecuencista (e incluso puede argumentarse que lo mismo tiene sentido
bajo la interpretación bayesiana). Por lo tanto, esta propiedad también debería tenerla
cualquier función que definamos matemáticamente como una probabilidad.
Existen muchas otras propiedades que son consecuencia necesaria de las nociones
intuitivas que podemos usar para asignar probabilidades. Entre otras, podemos men-
cionar:
CAPÍTULO 1. INTRODUCCIÓN: ESPACIOS DE PROBABILIDAD 24
P(Ω) = 1 y P(∅) = 0;
y en particular si A ⊂ B se tiene
y se denomina σ-aditividad.
Todo esto muestra que definir matemáticamente la probabilidad, de modo que sus
propiedades reflejen las nociones reales o intuitivas con las que deseamos trabajar, im-
plica buscar una definición que garantice el cumplimiento de una cantidad de relaciones
como las que mencionamos en los párrafos anteriores, e incluso tal vez otras que no
mencionamos en el listado anterior. Sin embargo, en el próximo apartado veremos que
esto es mucho menos engorroso de lo que parece.
que dan lugar a la idea de probabilidad, es necesario que satisfaga una cantidad de
propiedades, como las estudiadas en el apartado anterior.
Sin embargo, en 1933 el matemático ruso Andrey Kolmogorov probó que alcanza
con exigir que la probabilidad del espacio muestral entero sea 1 y que valga la σ-
aditividad10 : todas las demás propiedades que analizamos, pueden deducirse de estas.
Por lo tanto, damos la siguiente definición:
Definición 1. Dado un espacio muestral Ω y una σ-álgebra de eventos E sobre Ω,
decimos que una función P : E −→ [0, 1] es una probabilidad, si y solo si
P(Ω) = 1
Es realmente interesante que, todas las propiedades que mencionamos como razo-
nables para una probabilidad (y otras que no mencionamos), pueden deducirse de estos
axiomas. Por ejemplo, es bastante inmediato12 probar que
P(∅) = 0
y que la aditividad también se cumple para una sucesión finita de eventos, aunque
lo dejamos como ejercicio. En cualquier caso, usando esto, podemos ver fácilmente a
modo de ejemplo que debe valer necesariamente la propiedad del complemento.
Efectivamente, si A es un evento cualquiera, es claro que
A ∩ AC = ∅
10
Estas propiedades son los denominados axiomas de Kolmogorov.
11
Es decir, tales que la intersección entre dos cualesquiera de ellos sea vacía.
12
Para ello es necesario usar el segundo axioma tomando A1 = Ω y Ak = ∅ para k > 1 (esto da
lugar a una sucesión de eventos disjuntos dos a dos cuya unión es Ω), y junto con el primer axioma se
tiene
∞ ∞ ∞
!
[ X X
1 = P(Ω) = P Ak = P(Ak ) = 1 + P(∅).
k=1 k=1 k=2
P(A ∪ AC ) = P(Ω) = 1
P(A) + P(AC ) = 1,
y despejando resulta
P(AC ) = 1 − P(A),
como queríamos probar.
Es un ejercicio interesante y recomendable intentar probar todas las demás pro-
piedades que mencionamos en el apartado anterior, usando únicamente los axiomas
de Kolmogorov y otras propiedades ya demostradas (por ejemplo, en esta instancia,
es válido usar directamente la propiedad del complemento sin necesidad de volver a
demostrarla).
En cualquier caso, es de destacar que solo dos propiedades muy fundamentales se
consideran axiomas de la teoría (propiedades que deben cumplirse para que el concep-
to matemático de probabilidad sea útil en la aplicación a problemas del mundo real,
cualquiera sea la noción de probabilidad subyacente), y esto basta para que la pro-
babilidad cumpla con todas las demás propiedades razonables que mencionamos en el
apartado anterior. En los capítulos que siguen usaremos todas esas propiedades de la
probabilidad sin mayor discusión.
es ω0 , sino solamente que el resultado que ocurrió es alguno de los ω que pertenecen
al evento B. Sabemos que «sucedió B», pero no cuál fue el resultado específico del
espacio muestral. Por lo tanto, en general no tenemos certezas de la ocurrencia o no
ocurrencia de A.13
Esto es así, porque si supiéramos a ciencia cierta que el resultado fue ω0 , sería
cuestión de verificar si ω0 ∈ A o bien ω0 ∈
/ A. Pero si ocurre (y en general es lo que
sucede), que algunos de los elementos de B pertenecen también a A y otros no, saber
que ocurrió B (es decir que el resultado fue uno de los elementos de B), no permite
decidir con certeza si A ocurrió o no.
Sin embargo, saber que el resultado fue uno de los elementos de B, en cierto sentido
restringe el espacio muestral: ahora los únicos resultados realmente posibles son, no
todos los de Ω, sino todos los de B. Por otro lado, si A ocurrió (además de B), es
porque el resultado es un elemento tanto de A como de B, es decir que pertenece al
evento A ∩ B.
Si tuviéramos un espacio equiprobable, podríamos usar la noción clásica de proba-
bilidad y decir que, si damos por cierto que el evento B ocurrió:
los casos «posibles» son todos los de B, es decir que en total son #B;
los casos «favorables» (los correspondientes a A), ahora en total son #(A ∩ B),
porque los resultados de A que no están en B, sabemos que no pueden haber
ocurrido.
Definición 2. Dados dos sucesos A y B, con P(B) > 0, definimos la probabilidad del
suceso A condicional a B como
P(A ∩ B)
P(A|B) = .
P(B)
Esto indica que saber que ocurrió el suceso B no tiene efecto alguno sobre la probabili-
dad de que haya ocurrido A. De igual modo, la información de que el suceso A ocurrió
no importa a los fines de calcular la probabilidad de que haya ocurrido el suceso B; es
información irrelevante, sin relación alguna. Esto motiva la siguiente
cuáles son los posibles resultados del experimento, entendidos estos como un lis-
tado exhaustivo y excluyente de posibles estados de la realidad una vez concluido
el experimento aleatorio (listado que puede realizarse de diferentes maneras según
los aspectos de la realidad que decidamos observar o medir);
probabilidad, que es una función (P) de E en el intervalo real [0, 1], que satisface
los axiomas de Kolmogorov.
espacio (que de todos modos se entenderá que subyace a todo lo demás), y surgirán
otros elementos y herramientas que permitirán responder más fácilmente las preguntas
relevantes en la teoría y en la práctica. Uno de los concepto fundamentales para esto
será el de variable aleatoria, que abordamos en el próximo capítulo.
Capítulo 2
Variables aleatorias
31
CAPÍTULO 2. VARIABLES ALEATORIAS 32
(en general, este será el conjunto R de los números reales o algún subconjunto del
mismo). Dicha asignación de un (y solo un) valor de R a cada posible resultado ω ∈ Ω
es en última instancia una función de Ω a R. Dichas funciones suelen representarse con
letras mayúsculas (X, Y , Z, etc.), y bajo ciertas condiciones bastante generales se de-
nominan variables aleatorias. Estas pueden interpretarse como variables numéricas que
tomarán valores al azar dependiendo de cuál sea el resultado del experimento aleatorio
representado por el espacio de probabilidad.
Existe, sin embargo, un detalle «técnico» importante: como se verá luego, dada una
variable aleatoria X resultará fundamental para la teoría de la probabilidad considerar
eventos de la forma
{ω ∈ Ω : X(ω) ≤ a}
para cada a ∈ R y sus respectivas probabilidades. Pero dada una función cualquiera
X : Ω −→ R,
nada garantiza que para cada a ∈ R tales subconjuntos del espacio muestral sean,
efectivamente, eventos (elementos de la σ-álgebra E), por lo que no siempre tendrá
sentido asignarles una probabilidad.
Luego, esta es una condición que debe exigirse en la definición de variable aleatoria,
y que presentamos a continuación.1
Definición 4. Dado un espacio de probabilidad (Ω, E, P ), se dice que una función
X : Ω −→ R
{ω ∈ Ω : X(ω) ≤ a} ∈ E.
{ω ∈ Ω : X(ω) ≤ a}
como
{X ≤ a},
1
La definición de variable aleatoria (real) es por este motivo un tanto técnica, pero los detalles solo
son relevantes cuando existen subconjuntos de Ω que no son eventos. En lo subsiguiente este tecnicismo
no tendrá mayor relevancia en los razonamientos, aunque haremos uso permanentemente del hecho
de que {X ≤ a} es un evento, y por tanto tiene sentido referirse a su probabilidad, P(X ≤ a). En
cualquier caso, lo central es recordar que una variable aleatoria es una función que asigna un valor
numérico a cada posible resultado del experimento aleatorio.
CAPÍTULO 2. VARIABLES ALEATORIAS 33
sin hacer referencia explícita al espacio muestral, aun cuando se trata de un subconjunto
de este. Como se dijo, si X es una variable aleatoria, tal conjunto es un evento, y al
representar su probabilidad suelen omitirse las llaves, es decir, escribimos
P(X ≤ a).
El hecho de omitir las referencias al espacio muestral Ω y sus posibles resultados ω es
razonable, precisamente porque una de las ventajas de trabajar con variables aleatorias
es que permite omitir las referencias al espacio muestral subyacente, que eventualmente
puede ser muy complicado de representar y de manipular. Desde ya, esto tiene sentido
siempre que seamos capaces de captar todos los aspectos relevantes del experimento
aleatorio mediante los valores que toman una o más variables aleatorias.2
La notación abreviada que se mencionó, se aplica en otros casos similares: así, el
subconjunto de Ω
{ω ∈ Ω : X(ω) = a}
suele representarse simplemente como
{X = a},
y su probabilidad como
P(X = a).
De igual modo se interpretan las expresiones {X < a}, {a ≤ X ≤ b}, etc. Y en general,
si B es un boreliano de R, se escribe
{ω ∈ Ω : X(ω) ∈ B}
como
{X ∈ B}.
{X ∈ B},
si B es un boreliano de R.3
Una noción que será de utilidad en los próximos capítulos es la de variables aleato-
rias independientes. Si bien la interpretación de esta noción resulta intuitiva, conviene
precisar la definición, que se basa en la noción previa de eventos independientes.
Definición 5. Dadas dos variables aleatorias X e Y , decimos que estas son variables
aleatorias independientes, sii para cualquier par de borelianos B1 y B2 se tiene que los
eventos
{X ∈ B1 } e {Y ∈ B2 }
son independientes.
P(X ∈ B),
P(X ≥ a) = 1 − FX (a− )
FX (t0 ) = FX (t+
0 ), ∀t0 ∈ R;
3. lı́m FX (t) = 0;
t→−∞
4. lı́m FX (t) = 1.
t→+∞
Más aún, puede probarse que si F es una función con esas cuatro propiedades, entonces
es una distribución (es decir, existe una variable aleatoria X tal que F = FX ).
En particular:
Entre las VA continuas se destacan aquellas para las cuales existe una función fX
integrable en R con la propiedad
Z t
FX (t) = f (x) dx
−∞
∀t ∈ R.
Cuando existe una función fX con dicha propiedad, X se dice absolutamente con-
tinua y decimos que fX es una (función de) densidad para X. Si X es discreta, la
herramienta análoga es la función de probabilidad (o de probabilidad puntual, o de
masa de probabilidad, según la fuente), que definimos como
pX : RX → [0; 1] / pX (x) = P (X = x) .
(También es usual pensar a pX con dominio en R, en cuyo caso se anula en todos los
x∈/ RX ).
8
Esta suma está bien definida, ya que RX , por ser el conjunto de discontinuidades de una función
monótona, es necesariamente finito o infinito numerable. Informalmente, esto significa que puede
hacerse una lista —finita o infinita— que enumere todos los elementos de RX (cosa que no es posible
—por ejemplo— con todos los elementos de R); luego, si RX = {x1 , x2 , ...}, la suma en cuestión es la
serie
P(X = x1 ) + P(X = x2 ) + · · · ,
que puede probarse fácilmente que converge y su suma no depende del orden de los términos (i.e.,
converge absolutamente).
CAPÍTULO 2. VARIABLES ALEATORIAS 38
También cabe agregar que existen VA continuas que no son absolutamente continuas
(i.e., continuas pero sin densidad), pero los ejemplos de estas y de sus correspondientes
distribuciones son bastante complejos y su análisis requiere conocimientos de teoría
de la medida (en particular, de la medida de Lebesgue en R); además, dichos casos
están lejos de ser relevantes para la aplicación de métodos estadísticos en el ámbito
actuarial y económico, salvo tal vez en algunos contextos muy específicos. Por ese
motivo, en pos de la brevedad, en lo subsiguiente a veces usaremos expresiones como
«X es una V.A.continua con densidad fX (x). . . », sin aclarar que se trata de una
variable absolutamente continua; pero esto de todos modos es cierto por existir una
densidad de la distribución.
9
Una definición general —aunque existen otras incluso más convenientes— puede darse en términos
de una integral de Riemann-Stieltjes (una extensión de la integral de Riemann) como
Z +∞
E(X) = x dFX (x).
−∞
CAPÍTULO 2. VARIABLES ALEATORIAS 39
Observación 4. La E(X) puede tomar un valor finito, infinito (positivoR0 o negati-
vo) o no existir. Esto último ocurre, por ejemplo, si de la integrales −∞ xfX (x) dx y
R +∞
0
xfX (x) dx una diverge a −∞ y la otra diverge a +∞, ya que en ese caso la integral
entre −∞ y +∞ se considera no definida.
E(aX + b) = a E(X) + b;
E(a) = a;
E(X + Y ) = E(X) + E(Y );
si X e Y son independientes, se tiene E(XY ) = E(X) E(Y ).
Cabe aclarar que las dos últimas propiedades serán probadas en el capítulo 4, pero
las enunciamos aquí ya que serán de utilidad en lo que sigue. Por otro lado, sin la hipó-
tesis de independencia, la esperanza de un producto puede o no ser igual al producto
de las respectivas esperanzas; la caracterización completa de cuándo esto se verifica y
cuándo no resultará del estudio de la covarianza en el capítulo 4.
Si se define una nueva variable en función de X como Y = g(X) (por ejemplo,
Y = X 2 , Y = e2X , etc.), en principio puede calcularse E(Y ) en base a su función de
probabilidad pY (y) o densidad fY (y), según el caso. Sin embargo, es posible también
hacerlo conociendo solo pX (x) o fX (x), según lo establece el siguiente teorema:
Si esa integral fuera entre a y b, existiría por ser g(x) = x una función continua y FX monótona. En
última instancia, la existencia de la esperanza (finita o infinita) dependerá de cómo se comporte la
misma cuando a → −∞ y b → +∞.
CAPÍTULO 2. VARIABLES ALEATORIAS 40
RY = g(RX ),
P(Y = y0 )
está dada por la suma de las probabilidades puntuales de todos los x ∈ RX tales que
g(x) = y0 . Esto es,
X X
pY (y0 ) = P(Y = y0 ) = P(X = x) = pX (x).
x∈RX x∈RX
g(x)=y0 g(x)=y0
es decir,
X X X X X X
E(Y ) = y
p X (x)
= y · p X (x) = g(x) · pX (x) =
y∈RY x∈RX y∈RY x∈RX y∈RY x∈RX
g(x)=y g(x)=y g(x)=y
X
= g(x) · pX (x).
x∈RX
CAPÍTULO 2. VARIABLES ALEATORIAS 41
3
permite calcular en base a la distribución de X, valores como E(X ),
Este teorema
E X(X − 1) , etc., y otros que definimos a continuación y resultan de interés teórico
y práctico.
Definición 9. Dada una variable aleatoria X, se denominan momentos de la distribu-
ción de X a las siguientes cantidades:
En particular,
µ0 = E (X − m1 )0 = 1,
µ1 = E (X − m1 ) = E(X) − E(m1 ) = m1 − m1 = 0,
y además se define como varianza de X a
var(X) = µ2 = E (X − m1 )2 .
y
ϕ2 = E X (2) = E X(X − 1) = E(X 2 ) − E(X) = m2 − m1 .
ϕ 1 = m1 y ϕ2 = m2 − m1 .
Como esto es también la varianza, se tiene lo que se conoce como «fórmula de cálculo»
de la varianza:
var(X) = m2 − m21 .
Por lo visto antes, la varianza también puede escribirse en términos de momentos
factoriales, como
var(X) = ϕ2 + ϕ1 − ϕ21 .
y a µ4 como
var(aX + b) = a2 var(X);
CAPÍTULO 2. VARIABLES ALEATORIAS 43
var(a) = 0;
si X e Y son independientes, se tiene var(X + Y ) = var(X) + var(Y ).
Observación 5. Nótese que la propiedad
var(aX) = a2 var(X)
σ(aX) = |a|σ(X).
Cabe aclarar también que aún en el caso de variables independientes, puede no ser
cierto que el desvío estándar de una suma sea la suma de los desvíos.
µk (aX + b) = ak µk (X).
Es decir, los momentos centrados son invariantes ante un cambio de posición, pero no
ante un cambio de escala.
Esto, junto a la propiedad mencionada para el desvío estándar, implica que si a > 0,
entonces
µk (aX + b) ak µk (X) ak µk (X)
αk (aX + b) = k = k = k = αk (X),
σ(aX + b) aσ(X) a σ(X)k
lo que prueba que los momentos estandarizados son invariantes tanto ante cambios de
posición, como de escala (aunque los de orden impar son sensibles a cambios de signo).
Además, si α = 0 se tiene
1 si t > 0
F (t) =
0 si t < 0,
pero F (0) no está bien definida.
Es un buen ejercicio verificar que únicamente cuando α > 0 la función F resultante
está bien definida para todos los valores reales de t y resulta además una función de
distribución (es decir, cumple las cuatro condiciones mencionadas en la propiedad 4).
Por este motivo, podemos decir que F (t) definida como lo hicimos, para α > 0,
constituye una familia de distribuciones (no una única distribución, ya que para cada
valor de α la función de distribución da diferentes valores). Más precisamente, dicha
familia de distribuciones es el conjunto de todas las funciones Fα (t) tales que α > 0 y
α
1 − α+t si t ≥ 0
Fα (t) =
0 si t < 0.
λα α−1 −λx
Γ(α, λ) Γ(α)
x e
α α
Gamma — λ λ2
(α, λ > 0) (x > 0)
1
Beta(α, β) B(α,β)
xα−1 (1 − x)β−1
α αβ
Beta — α+β (α+β)2 (α+β+1)
(α, β > 0) (0 < x < 1)
N (µ, σ 2 )
1 2
Normal √ 1 e− 2σ2 (x−µ) — µ σ2
2πσ 2
(σ 2 > 0)
C(a, b)
1 1 x−a 1
Cauchy πb(1+( x−a )2 ) π
arctan b
+ 2
— —
b
(b > 0)
45
CAPÍTULO 2. VARIABLES ALEATORIAS
Nombre Notación F. de densidad F. de distribución Esperanza Varianza
1 x−a
U(a, b) b−a b−a
a+b (b−a)2
Uniforme 2 12
(a < b) (a < x < b) (a < x < b)
(ln x−µ)2
LogN (µ, σ 2 ) 1√
2xσ 2π
e− 2σ 2
σ2 2 2
Log-normal — eµ+ 2 (eσ − 1)e2µ+σ
(σ > 0) (x > 0)
x α x α
x α−1 −( λ )
α
1 − e−( λ )
W (α, λ) λ λ
e
1
λ2 Γ 1 + α2 − Γ2 1 + α1
Weibull λΓ 1 + α
(α, λ > 0) (x > 0) (x > 0)
1 λx
L(λ) 2
e , (x < 0)
λ −λ|x| 2
Laplace 2
e 0 λ2
(λ > 0) 1 − 12 e−λx , (x ≥ 0)
αmα m α αm m2 α
P ar(m, α) xα+1
1− x α−1 (α−1)2 (α−2)
Pareto
(m, α > 0) (x > m) (x > m) (si α > 1) (si α > 2)
46
CAPÍTULO 2. VARIABLES ALEATORIAS 47
X ∼ G(p).
Sin embargo, existe una situación muy interesante de estudiar que no encuadra
con precisión en estos esquemas. Si quisiéramos analizar cuántas llamadas telefónicas
entran a un call-center de una gran empresa a lo largo de una hora en particular, no
es preciso suponer que cada minuto, o cada segundo, corresponde a una realización
del experimento dicotómico por el que se determina si ingresa o no una llamada. Más
allá de la discusión de los supuestos de independencia y probabilidad constante, podría
ser que en un minuto en particular —e incluso en un segundo en particular— no
ingresen llamadas, o bien que ingrese una... ¡pero también que ingresen dos, tres o más!
Podríamos pensar a cada «instante» (cada sección infinitesimal de tiempo) como una
realización del experimento aleatorio, que tendrá lugar por tanto una infinidad de veces
a lo largo de la hora en cuestión, y por lo tanto tampoco habrá un límite teórico a la
cantidad de éxitos (llamadas) que puedan ocurrir.
La situación límite suele representarse en forma idealizada11 mediante la distribu-
ción de Poisson, caracterizada por un parámetro λ que representa el promedio de éxitos
que se esperan a lo largo del período analizado. Si X cuenta la cantidad de «éxitos» u
ocurrencias totales del resultado buscado, notaremos
X ∼ P(λ).
11
En la mayoría, sino en todas las aplicaciones reales, esto representa una aproximación imperfecta;
por ejemplo, no es cierto que en una décima de segundo pueda recibirse un número cualquiera de
llamadas, ya que existe un límite antes de que las líneas se saturen.
CAPÍTULO 2. VARIABLES ALEATORIAS
Nombre Notación Rango Función de probabilidad Esperanza Varianza
Be(p)
Bernoulli {0, 1} px (1 − p)1−x p p(1 − p)
(0 < p < 1)
Bin(n, p)
n
x
Binomial {0, 1, . . . , n} x
p (1 − p)n−x np np(1 − p)
(n ∈ N, 0 < p < 1)
P(λ)
e−λ λx
Poisson N0 x!
λ λ
(λ > 0)
G(p)
1 1−p
Geométrica N p(1 − p)x−1 p p2
(0 < p < 1)
Binomial BN (r, p)
x−1 r pr
Negativa {r, r + 1, . . .} r−1
pr (1 − p)x−r 1−p (1−p)2
(Pascal) (r ∈ N, 0 < p < 1)
49
CAPÍTULO 2. VARIABLES ALEATORIAS 50
que los valores posibles, con probabilidad positiva (lo que denominamos el rango
de X), son 0, 1 y 2;
1
y que pX (0) = pX (2) = 4
y pX (1) = 21 .
A su vez, exactamente lo mismo vale para Y , lo que implica que ambas variables tienen
la misma distribución.
Sin embargo, X e Y no son iguales como variables aleatorias, ya que si ω0 = (C, C)
entonces X = 0 e Y = 2, es decir, X(ω0 ) 6= Y (ω0 ) y lo contrario ocurre en ω1 = (X, X).
Y aunque valga que X = Y para los otros elementos, alcanza con que difieran sobre un
elemento del dominio para que sean diferentes funciones, es decir, distintas variables
aleatorias.
Puesto de otro modo:
CAPÍTULO 2. VARIABLES ALEATORIAS 51
y si bien se trata de otra variable con la misma distribución que X e Y , los valores que
toma Z en cada ω ∈ Ω difieren del de X y del de Y (verificarlo). Por lo que el conjunto
de resultados de Ω donde X y Z toman el mismo valor de R es vacío, y por lo tanto
{X = Z} tiene probabilidad cero (al igual que {Y = Z}).
Por otro lado, como se vio en el ejemplo anterior, si la probabilidad del suceso
{X = Y } es menor a uno, entonces necesariamente las variables son distintas. Sin
embargo, no vale la recíproca: existe una diferencia entre variables «iguales» y variables
«iguales con probabilidad uno».
Ejemplo 3. Supongamos que en un cierto espacio muestral están definidas una variable
Z ∼ N (0, 1) y otra variable X ∼ Be( 12 ) (ver las definiciones de la distribución nomal
y la distribución de Bernoulli en el apartado 2.5). Definamos entonces
(
0 si Z = 0
Y =
X si Z 6= 0.
Con esta definición es posible que Y ≡ X o que no lo sean (es decir, que sean o no
idénticas como funciones Ω → R). Esto es así porque si Z = 0 entonces por definición
Y = 0, pero no es evidente (ni cierto en general) que también tenga que ocurrir en tal
CAPÍTULO 2. VARIABLES ALEATORIAS 52
caso que X = 0 (y si esto no ocurre, se tendrá Y 6= X). Bien podría ser el caso que
para aquellos resultados ω para los que Z está definida como igual a cero, X también
esté definida como cero; pero también podría ser que esté definida como X = 1 en
esos casos; incluso podría ser que a veces tome un valor y otras otro. De todos modos,
solo en el primer caso tendríamos que X(ω) = Y (ω) en todos los ω ∈ Ω, es decir, que
X ≡Y.
Sin embargo, en este o en cualquiera de los otros casos —incluso si fuera X 6= 0—
tendríamos que la probabilidad de X = Y es uno, puesto que:
P (X = Y ) = P (Z 6= 0) + P (Z = 0 ∧ X = 0) ≥ P (Z 6= 0) = 1 − P (Z = 0) = 1 − 0 = 1,
Transformadas de la distribución
53
CAPÍTULO 3. TRANSFORMADAS DE LA DISTRIBUCIÓN 54
plemente la distribución
de la variable X. En particular, cada una de estas expresiones
tX
de la forma E e (t ∈ R) devuelve un valor numérico (si la esperanza en cuestión
está bien definida y es finita), aunque dicho resultado depende del valor t en particu-
lar. Podemos entonces pensar en esta asignación de valores a cada número t como una
función que denominamos provisoriamente h, definida por
h(t) = E etX ,
cuyo dominio será algún subconjunto de R (el de los t para los cuales la esperanza que
se calcula es finita).
Para entender heurísticamente la importancia de esta función, supongamos que
para una expresión de la forma g(t, X) (como etX ), bajo ciertas condiciones vale la
propiedad
d ∂
E g(t, X) = E g(t, X) .
dt ∂t
por lo que no se cumple la condición necesaria de convergencia de la integral impropia (el límite
debería ser cero), y se tiene E(etX ) = +∞.
Por otro lado, si t < 0 sí se cumple
etx
lı́m = 0,
x→+∞ x2
existe y da valores finitos (es decir, la integral converge) si y solamente si t ∈ (−∞, 0].
Dado que no cualquier variable aleatoria X tiene definido el valor E(etX ) para valo-
res de t en un entorno del cero, y teniendo en cuenta que la mayoría de las propiedades
interesantes de esta función solo se cumplen cuando esto sí sucede, damos la siguiente
definición.
Definición 10. Dada una variable aleatoria X, consideremos el conjunto AX de los
t ∈ R tales que E(etX ) existe y es finita. Si existe algún δ > 0 tal que (−δ, δ) ⊂ AX ,
se define la función generadora (o generatriz ) de momentos de X como MX : AX → R
dada por
MX (t) = E(etX ).
(Si no existe un intervalo con la condición pedida, diremos que no existe MX ).2
Observación 6. Si X tiene la distribución del ejemplo 4, entonces como la condición
dada en la definición 10 no se verifica —ya que E(etX ) no es finita para ningún t > 0,
es decir, el dominio no contiene a ningún intervalo abierto que contenga al 0—, para la
variable aleatoria X de ese ejemplo no existe la función generadora de momentos .
m2 2 m3 3
= 1 + m1 · t + ·t + · t + ··· .
2! 3!
Si esta fórmula vale, y MX está definida (es decir, la serie converge) en un entorno de
t = 0, es posible derivar término a término aunque la suma sea infinita (por tratarse
de una serie de potencias —algo así como un «polinomio de grado infinito»—).
Luego, se tiene que
2 3 1
MX0 (t) = 0 + m1 + m2 · t + m3 · t2 + · · · = m1 + m2 · t + m3 · t2 + · · · ,
2! 3! 2!
y de la misma manera
2 3 1
MX00 (t) = 0 + m2 + m3 · t + m4 · t2 + · · · = m2 + m3 · t + m4 · t2 + · · · .
2! 3! 2
En general,
(k) 1
MX (t) = mk + mk+1 · t + mk+2 · t2 + · · · ,
2
y entonces resulta
(k)
MX (0) = mk .
3. Ma (t) = eat
CAPÍTULO 3. TRANSFORMADAS DE LA DISTRIBUCIÓN 58
Finalmente, el siguiente teorema expresa que si una VA tiene FGM, esta permite
identificar unívocamente la distribución de probabilidad.
Teorema 3. Dadas X e Y variables aleatorias con FGM bien definidas, entonces
MX = MY ⇐⇒ FX = FY .
pero dicha serie infinita corresponde a la serie de Taylor antes mencionada para la
exponencial, solo que evaluada en λet . Es decir que
t t
MX (t) = e−λ eλe = eλ(e −1) .
CAPÍTULO 3. TRANSFORMADAS DE LA DISTRIBUCIÓN 59
Ejemplo 6. Como ejemplo de una distribución continua, calculemos la FGM para una
distribución normal, es decir X ∼ N (µ, σ 2 ). En este caso resulta
Z +∞ Z +∞
1 1 2
tX
MX (t) = E(e ) = tx
e fX (x) dx = etx √ e− 2σ2 (x−µ) dx =
−∞ −∞ 2πσ 2
Z +∞
1 1 2
= √ e− 2σ2 (x−µ) +tx dx.
−∞ 2πσ 2
Concentrémonos en el exponente de la exponencial, y reescribámoslo como el cua-
drado de un binomio más una constante independiente de x, de la siguiente manera:
1 2 1 2 2 1
= − 2 (x2 − 2µx + µ2 − 2σ 2 tx) =
− 2
(x − µ) + tx = − 2
(x − µ) − 2σ tx
2σ 2σ 2σ
1 2 2 2
=− x − 2(µ + σ t)x + µ ,
2σ 2
que completando cuadrados resulta igual a
1 2 1
− 2 x−(µ+σ 2 t) −(µ+σ 2 t)2 +µ2 = − 2 (x−(µ+σ 2 t))2 −µ2 −2µσ 2 t−σ 4 t2 +µ2 =
2σ 2σ
1 2 1
=− 2
x − (µ + σ 2 t) − 2 (−2µσ 2 t − σ 4 t2 ) =
2σ 2σ
1 2
2 σ2 2
= − 2 x − (µ + σ t) + µt + t .
2σ 2
Esto implica que
Z +∞ 2 Z +∞ 2
1 1
x−(µ+σ 2 t)
2
+µt+ σ2 t2
2
µt+ σ2 t2 1 1
x−(µ+σ 2 t)
MX (t) = √ e− 2σ2 dx = e √ −
e 2σ 2 dx;
−∞ 2πσ 2 −∞ 2πσ 2
pero el integrando corresponde a la función de densidad de una v.a. N (µ + σ 2 t, σ 2 ), y
por lo tanto la integral es igual a uno.
En consecuencia,
σ2 2
MX (t) = eµt+ 2
t
.
En particular, si X ∼ N (0, 1), tenemos
t2
MX (t) = e 2 .
n
Bin(n, p) (1 − p) + pet t∈R
t
P(λ) eλ(e −1) t∈R
pet 1
G(p) 1−(1−p)et
|t| < 1−p
r
pet 1
BN (r, p) 1−(1−p)et
|t| < 1−p
σ2 2
N (µ, σ 2 ) eµt+ 2
t
t∈R
λ
E(λ) λ−t
t<λ
λ α
Γ(α, λ) λ−t
t<λ
ebt −eat
U[a, b] (b−a)t
t∈R
no tiene sentido para t = 0, se sobreentiende que para t = 0 la FGM vale 1, como ocurre
para cualquier distribución.
Es decir que la FMG tiene la misma forma que tendría la FGM de una variable aleatoria
de Poisson, cuyo parámetro en lugar de λ es λ + µ.
Pero entonces, el teorema de inversión garantiza que
Z ∼ P(λ + µ),
Observación 9. Puede probarse fácilmente que esa suma converge al menos cuando
t ∈ [−1, 1], por lo que el dominio de una FGP siempre incluye ese intervalo (aunque,
dependiendo de las particularidades de cada pX (x), puede ser un conjunto más amplio).
CAPÍTULO 3. TRANSFORMADAS DE LA DISTRIBUCIÓN 62
También se prueba que todas las derivadas de GX existen al menos en (−1, 1), si bien
podrían no existir a partir de cierto orden en los bordes del dominio4 .
En particular, si el rango RX es finito y n es el máximo valor que contiene (es
decir, suponiendo que pX (n) > 0 pero pX (x) = 0, ∀x > n) —v.g. una variable con
distribución Bi(n, p)—, entonces GX es un polinomio de grado n y por lo tanto la FGP
existe y es continua e infinitamente derivable para todo t ∈ R.
y en general
(n)
GX (0) = n!pX (n),
por lo que conocida la FGP las probabilidades puntuales pueden calcularse fácilmente.
Propiedad 8. Si X es una VA discreta con RX ⊂ N0 y su FGP es GX , entonces:
(n)
G (0)
pX (n) = X .
n!
Observación 10. Esto implica que a iguales FGP corresponden iguales funciones de
probabilidad (y la recíproca es evidente por la definición 11). Sabemos también que
conocer la función de probabilidad es equivalente a conocer la distribución, por lo
que también las FGP (así como las FGM), cuando pueden definirse, identifican la
distribución de probabilidad.
Más precisamente:
Propiedad 9. Si X e Y son VA discretas, ambas con rango incluido en N0 , vale que
GX = GY ⇐⇒ pX = pY ⇐⇒ FX = FY .
4
Todo esto es cierto por tratarse de una serie de potencias centrada en t = 0, y porque el radio de
convergencia es al menos igual a 1 ya que
X ∞
X ∞
X
X
GX (t) = E(t ) = x
t pX (x) = x
t p(1 − p) x−1
= p(1 − p)−1 tx (1 − p)x =
x∈RX x=1 x=1
∞
p X x
= (1 − p)t .
1 − p x=1
La serie infinita es una serie geométrica de la forma ∞ x
P
x=1 a , cuya suma (si |a| < 1)
a
es 1−a , con a = (1 − p)t.
1
Por lo tanto, si |(1 − p)t| < 1 (o equivalentemente |t| < 1−p
), resulta
p (1 − p)t pt
GX (t) = · = .
1 − p 1 − (1 − p)t 1 − (1 − p)t
1
Cabe notar que 1−p > 1, por lo que en este caso la FGP está definida en un intervalo
abierto que contiene estrictamente a [−1, 1]. Como veremos luego, este último es el
mínimo intervalo en el cual la FGP está definida siempre.
(n)
1. ϕn = GX (1− ),
Por lo tanto,
1
E(X) = φ1 = ,
p
y
2q 1 1 2q + p − 1
var(X) = φ2 + φ1 − φ21 = + − = =
p2 p p2 p2
2(1 − p) + p − 1 1−p
= 2
= .
p p2
t
Ejemplo 10. Si recordamos que para X ∼ P(λ) tenemos MX (t) = eλ(e −1) , entonces
ln(t)
para t > 0 vale que GX (t) = MX ln(t) = eλ(e −1) = eλ(t−1) . Pero esto implica que
esa es la FGP para todo t donde la misma está definida.
Observación 11. Más en general, pueden obtenerse las FGP de algunas distribuciones
discretas usuales en base a la tabla de FGM presentada anteriormente, reemplazando
todas las expresiones et simplemente por t. El ejemplo anterior, da un ejemplo de
ello.
Otras propiedades de la FGP, que guardan cierta analogía con las propiedades de
la FGM, son:
Propiedad 11. Si X e Y son VA discretas independientes, ambas con rango incluido
en N0 , y si α ∈ N0 , entonces:
CAPÍTULO 3. TRANSFORMADAS DE LA DISTRIBUCIÓN 65
1. Gα (t) = tα ,
Si bien la FGP es de aplicación bastante más limitada que la FGM —y muchas de sus
propiedades son análogas—, su interés reside en parte en que suele dar lugar a cálculos
más simples y en que posee algunas propiedades adicionales interesantes (que en general
solo tienen sentido en el caso de variables aleatorias discretas en N0 ). Una de las más
notables y útiles —especialmente para estudiar procesos de nacimiento-muerte, teoría
de «colas» (es decir, líneas de espera), etc.— es la que se refiere a la distribución de
una suma de variables aleatorias independientes idénticamente distribuidas (v.a.i.i.d.)
con una cantidad aleatoria de términos.
(si N vale 0 se define S = 0). Si GX es la FGP de todas las Xn (que son ID y por lo
tanto tienen la misma FGP), entonces la FGP de S está dada por
GS (t) = GN GX (t) ,
es decir,
GS = GN ◦ GX .
Además, vale aclarar que hay una probabilidad pN (0) de que N = 0 y en ese caso se
entiende que S = 0, por lo que GS (t) = t0 = 1).
Entonces resulta:5
GS (t) = pN (0) · 1 + pN (1) · GX1 (t) + pN (2) · GX1 (t) · GX2 (t) + · · ·
5
Este es el único paso de la demostración que no es completamente formal y requiere alguna
precisión; para formalizarlo puede hacerse uso del concepto de esperanza condicional, ya que los
valores de GS (t) para cada posibleQvalor n de la variable aleatoria N son esperanzas condicionales,
n
más precisamente: E(tS |N = n) = k=1 GXk (t).
6
La fórmula es válida sin necesidad de tratar aparte el término correspondiente a n = 0, que indica
que la productoria debe realizarse con k aumentando desde 1 a 0, ya que en realidad esto último es
una abreviatura para la condición imposible de verificar 1 ≤ k ≤ 0. Al tratarse de una contradicción
no se puede considerar ningún valor de k; pero esta se salva con la convención usual en todas las
áreas de la matemática (salvo indicación en contrario) de que, si en una productoria el índice varía
sobre un conjunto vacío, el valor del producto es 1. La utilidad de esta convención se ve en numerosas
situaciones: por ejemplo, se puede definir el factorial de un número n ∈ N0 como
n
Y
n! = k
k=1
sin necesidad de aclarar que 0! = 1. La convención análoga para sumatorias es que una «suma vacía»
es igual a 0.
CAPÍTULO 3. TRANSFORMADAS DE LA DISTRIBUCIÓN 67
que tiene interés por sí sola, ya que es aplicable al caso en que se suma una cantidad
aleatoria N de variables X1 , X2 , ..., todas independientes, pero no necesariamente todas
con la misma distribución.
3.3.2. Cumulantes
Cuando existe la FGM, se puede definir al menos en un entorno de t = 0 la función
KX (t) = ln MX (t) ,
κ1 = E(X),
al igual que m1 . Pero a diferencia del momento natural de orden 2, se tiene directamente
κ2 = var(X).
t
Ejemplo 11. Sea X ∼ P(λ), y por lo tanto MX (t) = eλ(e −1) . La función de cumulantes
de X vendrá dada por
y por lo tanto todos los cumulantes de orden mayor o igual a uno son
(n)
κn = KX (0) = λ.
E(X) = κ1 = λ y var(X) = κ2 = λ,
κn (X + Y ) = κn (X) + κn (Y ).
Vectores aleatorios
70
CAPÍTULO 4. VECTORES ALEATORIOS 71
Observación 13. Desde ya, también es posible definir la distribución conjunta de tres,
cuatro, o cualquier cantidad de variables aleatorias. En general, así como la función de
distribución conjunta de X e Y es un campo escalar en R2 , la función de distribución
conjunta de n variables será un campo escalar en Rn . Por ejemplo, la distribución
conjunta de X1 , X2 , . . . , Xn se define como la función FX1 X2 ...Xn : Rn → [0, 1] tal que
FX1 X2 ...Xn (t1 , t2 , . . . , tn ) = P(X1 ≤ t1 ∧ X2 ≤ t2 ∧ . . . ∧ Xn ≤ tn ).
Así como en el caso unidimensional conocer FX permitía mucho más que simplemente
calcular probabilidades de la forma P(X ≤ t), conocer FXY también permite calcular
otras probabilidades, si bien las expresiones resultan menos evidentes. Resulta util para
simplificarlas la notación de diferencias parciales1 ∆i,h , con i indicando respecto de qué
variable se hace la diferencia (i = 1 indica la primera, por ejemplo) y h indicando el
incremento. Es decir:
∆1,h g(x, y) = g(x + h, y) − g(x, y)
y
∆2,h g(x, y) = g(x, y + h) − g(x, y).
1.
P(a < X ≤ a + h ∧ b < Y ≤ b + k) =
= FXY (a + h, b + k) − FXY (a, b + k) − FXY (a + h, b) + FXY (a, b),
es decir
2.
P(X = a ∧ Y = b) =
= FXY (a, b) − FXY (a− , b) − FXY (a, b− ) + FXY (a− , b− ),
o sea
P(X = a ∧ Y = b) = lı́m− ∆1,h ∆2,h FXY (a, b).
h→0
Propiedad 14. Toda función de distribución conjunta tiene las siguientes propieda-
des2 :
2
Cabe aclarar que, a diferencia del caso univariado, estas propiedades no caracterizan a las funciones
de distribución conjunta (es decir, no garantizan que una F (s, t) que cumpla estas propiedades sea
una función de distribución conjunta de algún par (X, Y ) de variables aleatorias). Podría pasar, por
ejemplo, que aun cumpliendo todo esto el cálculo de ∆1,h ∆2,k FXY (a, b) pudiera dar valores negativos
en ciertos casos, lo cual es absurdo por la propiedad 13. De hecho, puede probarse que si se cambia la
monotonía en cada variable por la condición más fuerte de que
Cabe observar que para que FXY tienda a 1 se tomaron ambas variables tendiendo a
infinito y no solo una. Por cierto, tomarlas individualmente no daría 1 como resultado,
sino que devuelve las funciones de distribución individuales (o «marginales») de las
variables en cuestión. Es decir:
y
lı́m FXY (s, t) = FX (s).
t→+∞
etc.
es decir, si tiene toda su probabilidad distribuida entre una cantidad finita o numerable
de puntos del plano.
CAPÍTULO 4. VECTORES ALEATORIOS 74
Observación 14. Según la conveniencia, pXY puede pensarse como definida solo en el
rango RXY del vector aleatorio (X, Y ) —como en nuestra definición— o en todo R2 ,
ya que en cualquier otro punto valdrá 0. Incluso puede ser útil pensarla definida en
RX × RY —expresión que tiene sentido porque X e Y también son variables discretas
(ver más adelante)—, teniendo en cuenta que en general RXY ⊂ RX × RY pero no
necesariamente vale la igualdad, como muestra un ejemplo sencillo.
En general, cuando la distribución conjunta sea discreta el dato «natural» será preci-
samente pXY y también será el más útil a la hora de realizar cálculos, como veremos.
Sin embargo, como en el caso univariado, la función de distribución puede recuperarse
fácilmente sumando probabilidades puntuales.
3
Recordar que el producto cartesiano de A y B, donde A y B son conjuntos, es el conjunto
A × B formado por todos los pares ordenados posibles con su primera componente en A y su segunda
componente en B.
CAPÍTULO 4. VECTORES ALEATORIOS 75
Cuando el vector aleatorio no es discreto (es decir que no acumula toda la probabilidad
en un conjunto finito o numerable de puntos), existen muchas situaciones posibles, lo
que dificulta una clasificación completa aún más que en el caso unidimensional. Para
los efectos prácticos, la otra situación de interés es la análoga al caso de variables
absolutamente continuas.
En ese caso, una tal fXY se denomina una densidad conjunta de X e Y (o una
densidad del vector (X, Y )).
En general, en este caso FXY es derivable dos veces, salvo tal vez en ciertos puntos
o curvas (que tienen área nula), y puede hallarse una densidad derivando en ambas
variables.
∂2
f (x, y) = FXY (x, y)
∂x∂y
es una función de densidad (definiendo f (x, y) de cualquier manera en los puntos donde
no existe dicha derivada).
El interés en estas dos clases de distribuciones surge del hecho de que, como vimos,
calcular probabilidades usando la función de distribución conjunta FXY es en general
bastante engorroso. Por el contrario, a partir de pXY o fXY (según el caso), resulta
relativamente sencillo calcular
P (X, Y ) ∈ B
para conjuntos B ⊂ R2 «razonables», que como dijimos, llamamos borelianos de R2 .
Aunque no los definiremos con total precisión, basta con saber que en esta clase de con-
juntos se incluyen todos los abiertos y cerrados, la unión o intersección de una sucesión
(finita o infinita) de cualesquiera de estos, sus complementos, la unión o intersección
de una sucesión de cualesquiera de los que así se hayan obtenido, y sus complementos,
y así sucesivamente. Es decir, se trata de una clase realmente amplia de subconjuntos
de R2 .
CAPÍTULO 4. VECTORES ALEATORIOS 76
si (X, Y ) es discreto,
X
P (X, Y ) ∈ B = pXY (x, y);
(x,y)∈B∩RXY
y
FY (t) = lı́m FXY (s, t).
s→+∞
Por cierto, la recíproca es válida en el primer caso (si ambas son discretas, el vector
será discreto), pero no en el segundo, aunque pueda resultar poco intuitivo.4
Para encontrar funciones de probabilidad o densidad marginales basta con sumar
o integrar en la variable que queremos hacer «desaparecer», como se explica en las
siguientes propiedades.
Propiedad 20. Si (X, Y ) es un vector aleatorio discreto valen las siguientes relaciones:
X
pX (x) = pXY (x, y)
y∈RY
y X
pY (y) = pXY (x, y).
x∈RX
4
Puede darse, por ejemplo, el caso en que toda la probabilidad, o al menos una parte, se concentre
sobre una recta (o en general sobre una curva), por cumplirse determinadas relaciones funcionales
exactas entre X e Y . En tal caso, no puede haber una densidad ya que las integrales dobles sobre
curvas o, en general, sobre conjuntos de área nula, valen cero. Por ejemplo, si X ∼ U(0, 1) y se define
Y = 1 − X, toda la probabilidad se concentrará en el segmento de recta que une el (1, 0) y el (0, 1). Se
suele hablar en estos casos de distribuciones «degeneradas», ya que en realidad con transformaciones
apropiadas se podrían tratar como vectores de menor dimensión (en este caso, dimensión 1).
Un ejemplo menos trivial podría ser el siguiente. Si X ∼ N (0, 1), Z ∼N(0,1) y U ∼ Be( 12 ) son
independientes dos a dos, y se define Y = U · X 2 + (1 − U ) · Z, se tiene que P(Y = X 2 ) = 21 , (que es la
probabilidad de U = 1). En ese caso, la mitad de la probabilidad conjunta de X e Y «se concentra»
sobre la parábola y = x2 , mientras que la otra mitad (cuando U = 0) se distribuye sobre el resto del
plano. En este caso, una densidad solo alcanzaría a representar la distribución de esta última mitad.
Vale aclarar que tampoco se acumula probabilidad en ningún punto, por lo que no existe una «parte
discreta» de la distribución, que si bien es continua —es decir, FXY es una función continua en R2 —
no es absolutamente continua.
Cabe mencionar que estas situaciones no son del todo infrecuentes en determinadas áreas de apli-
cación o en el desarrollo de modelos estadísticos de cierta complejidad.
CAPÍTULO 4. VECTORES ALEATORIOS 78
Conociendo todas estas relaciones, en general suele haber más de un camino posible
para resolver problemas como, por ejemplo, hallar la densidad marginal fX conocida
la distribución conjunta FXY .
por un lado, se podría derivar FXY en sus dos variables para obtener fXY , y luego
integrar en y para obtener la densidad marginal fX ;
Ejemplo 13. Volviendo a la distribución discreta del ejemplo 12, podemos calcular,
por ejemplo, E(XY ) (esta cantidad es útil, como se verá, en el cálculo de la covarianza).
Si no tuviéramos en cuenta la propiedad anterior deberíamos considerar la distribu-
ción de la variable Z = XY . Esta es de hecho discreta y los únicos valores posibles son
0 —con probabilidad 32 , ya que corresponde a los vectores (1, 0) y (0, 1)— y 1 —con
probabilidad 13 , que es la del vector (1, 1)—. En resumen
Z = XY ∼ Be( 13 ),
y por lo tanto
E(XY ) = 13 .
Sin embargo, no es necesario conocer la distribución de la nueva variable, ya que por
la propiedad anterior
X
E(XY ) = xy · pXY (x, y) = 1 · 0 · 31 + 0 · 1 · 31 + 1 · 1 · 13 = 13 ,
(x,y)∈RXY
Así resulta:
Propiedad 24. Si X e Y son independientes, entonces
FXY (s, t) = FX (s) · FY (t).
Esto muestra que FXY no agrega en este caso nada de información a lo que ya aportan
FX y FY en conjunto.
También es inmediato probar que:
Propiedad 25. Si X e Y son independientes, entonces
Por otro lado, las proposiciones recíprocas son ciertas, lo cual a veces resulta una
herramienta útil para probar que dos variables aleatorias son independientes.
si (X, Y ) es discreto y
pXY (x, y) = pX (x) · pY (y);
entonces X e Y son independientes;
salvo —tal vez— sobre un conjunto de área nula, entonces X e Y son indepen-
dientes.
Ejemplo 14. Volviendo al ejemplo 13, se probó que E(XY ) = 31 . También se vio con
anterioridad que tanto X como Y podían valer cero con probabilidad 13 y uno con
probabilidad 23 ; es decir que son variables de Bernoulli con parámetro p = 23 , por lo
que E(X) = E(Y ) = 32 . Así, E(XY ) es distinta a E(X) · E(Y ) = 49 , lo que prueba que
X e Y no son independientes. (Pero atención: si hubiesen sido iguales eso no permitía
afirmar nada).
6
Ídem nota 5.
CAPÍTULO 4. VECTORES ALEATORIOS 82
x pX (x)
0 1/3
1 2/3
e Y tiene la misma distribución marginal (ambas tienen distribución Be(2/3)).
Recalculemos la función de probabilidad si se sabe que Y = 1: es decir, calculamos
la función de probabilidad de X condicional a Y = 1, o visto de otra manera, la función
de probabilidad puntual de la variable X|Y =1 . Siguiendo la definición dada, se tiene
pXY (0, 1) 1/3 1
pX|Y =1 (0) = = = ;
pY (1) 2/3 2
y también
pXY (1, 1) 1/3 1
pX|Y =1 (1) = = = .
pY (1) 2/3 2
En resumen
x pX|Y =1 (x)
0 1/2
1 1/2
CAPÍTULO 4. VECTORES ALEATORIOS 84
estocásticos. Existen dos nociones similares que pueden confundirse, pero es necesario
distinguir para comprender el sentido de ciertas propiedades.
Consideremos un vector aleatorio bidimensional (X, Y ). En primer lugar, cuando
condicionamos a un evento específico (como {X = 2} o {X > 5}), como ya vimos,
tiene sentido considerar la distribución de Y condicional a dichos eventos «basados en
X», esto es, obtenemos las distribuciones condicionales FY |X=2 (y) o FY |X>5 (y), que son
en sí mismas funciones de distribución (verifican las condiciones de la propiedad 4) y
entonces podemos pensar en variables con dichas distribuciones, que podemos notar
como Y|X=2 o Y|X>5 . A las esperanzas de dichas variables, se las suele notar
etc.
Esto es una primera noción relacionada con la esperanza condicional, que no es
otra cosa que la esperanza de una distribución condicional, y por lo tanto representa
un valor numérico si dicha esperanza existe.
Supongamos ahora que para cada valor x del soporte o rango (según el caso) de la
variable Y|X=x existe y es finita la esperanza E(Y |X = x); llamemos A a dicho soporte
o rango. Esto define una función
g : A −→ R,
dada por
g(x) = E(Y |X = x);
es decir, para cada x, la función g devuelve el valor de la esperanza de Y condicional
al evento {X = x}.
Ahora bien, aunque parezca una sutileza, esto permite definir una nueva varia-
ble aleatoria g(X), como se discutió en el capítulo 2. A esta variable aleatoria se la
denomina esperanza de Y condicional a X, y la notamos E(Y |X).
Definición 16. Sea X una variable aleatoria con rango o soporte A (según se trate de
una VA discreta o continua, respectivamente); supongamos que para todo x ∈ A (tal
vez salvo un subconjunto de probabilidad cero) está definida y es finita la esperanza
E(Y |X = x).
CAPÍTULO 4. VECTORES ALEATORIOS 86
Veamos un ejemplo.
2. E(c|X) = c;
siempre que las esperanzas involucradas estén bien definidas y sean finitas.
CAPÍTULO 4. VECTORES ALEATORIOS 87
Ejemplo 17. Retomando el ejemplo anterior, supongamos que Y|X=x ∼ E(x), y que
X ∼ Γ(4, 1). Si bien es posible en base a esta información buscar la distribución
marginal de Y (ver nota 7), cuando solo se necesita la esperanza de Y , puede evitarse
dicho procedimiento.
Efectivamente, teniendo en cuenta la propiedad anterior, podemos decir que
E(Y ) = E E(Y |X) ,
4.3.1. Covarianza
Con la covarianza se busca analizar si existe alguna relación probabilística entre los
valores «altos» y «bajos» de una variable y los valores «altos» y «bajos» de la otra.
Para precisar esa idea, se toman como puntos de referencia para definir qué es un valor
alto y un valor bajo las respectivas esperanzas (si existen) de las variables en cuestión.
Así, valores «altos» de X, por ejemplo, serán los que hagan positiva la diferencia
X − E(X), y valores «bajos» los que la hagan negativa. Además, el valor absoluto de
esta cantidad indicará si son valores «apenas», «moderadamente» o «extremadamente»
bajos o altos, etc.
Si consideramos ahora la variable aleatoria
U = X − E(X) · Y − E(Y ) ,
podemos ver que el signo de U depende del signo de cada factor.
Es decir que si hubiese un predominio, o una probabilidad muy alta, de que U tome
valores positivos, esto indicaría que cada vez que X da valores por encima de su media
lo mismo suele ocurrir para Y , y viceversa, y que cuando una da valores por debajo de
su media, frecuentemente o con alta probabilidad lo mismo le ocurrirá a la otra.
Por el contrario, una elevada probabilidad (o frecuencia, si se lo piensa ex post) de
valores negativos de U implicaría que valores «altos» de X tienden a ir de la mano de
valores «bajos» de Y y viceversa. Esto no significa que no pueda ocurrir otra situación,
pero sí que la distribución de probabilidad conjunta de X e Y se concentra sobre todo
en los puntos o regiones donde X está por encima de su media e Y por debajo y
viceversa. Para tener una idea gráfica: si las esperanzas de X e Y fueran ambas nulas
(o si los ejes se corrieran para coincidir con las esperanzas), esto equivaldría a que la
mayor parte de la probabilidad se concentre en el segundo y el cuarto cuadrante del
plano xy, mienras que el caso anterior mostraría una concentración de la probabilidad
en el primer y el tercer cuadrante.
Claramente, si con alta probabilidad U diera valores cercanos a cero o si la proba-
bilidad concentrada en el primer y tercer cuadrante estuviera compensada aproxima-
damente por la que se distribuye por el segundo y el cuarto cuadrante, se entendería
que no predomina ninguna de las dos situaciones.
Sin embargo, como los diferentes posibles valores de U tienen diferentes probabili-
dades y en última instancia la distribución de U sigue sin ser una medida sencilla de la
relación que se analiza, se suele tomar su esperanza para analizar qué tipo de valores
predominan. Este valor se denomina covarianza de X e Y .
Definición 17. Se denomina covarianza de X e Y , cuando exista y sea finito, al valor
cov(X, Y ) = E X − E(X) · Y − E(Y ) .
CAPÍTULO 4. VECTORES ALEATORIOS 89
cov(aX + b, cY + d) = ab cov(X, Y );
en particular, cov(X, k) = 0;
cov(X, X) = var(X);
la última fórmula —además de ser útil para el cálculo— prueba algo que intuitivamente
era esperable:
Sin embargo, no vale la recíproca, y existen muchos ejemplos triviales (como el que se
2
mencionó de Y = X − E(X) , al menos para ciertas distribuciones) y no triviales
de este hecho. Por eso cuando la covarianza es nula se suele decir que las variables
están «incorrelacionadas» (linealmente), pero no se puede afirmar su independencia.
Por cierto, esta expresión permite caracterizar casi tautológicamente los casos en que
vale separar la esperanza de un producto como el producto de las esperanzas: la relación
es válida si y solo si X e Y están incorrelacionadas.
| cov(X, Y )| ≤ σX · σY ,
De esta manera se obtiene una medida que siempre está entre −1 y 1. Y usando las
propiedades de la covarianza puede probarse que estas cotas se alcanzan (es decir que
esas cotas no se pueden mejorar).
Propiedad 31. Dadas dos VA X e Y con cov(X, Y ) finita, se tiene que
|ρXY | ≤ 1.
Esto último, por un lado, permite tener una noción «absoluta» del grado de correlación
(más allá de los valores que se suelen dar en los textos introductorios como referencia,
CAPÍTULO 4. VECTORES ALEATORIOS 91
es claro que valores como 0,002 o −0,032 indican una correlación prácticamente nula
mientras que otros como −0,992 o 0,986 marcan una fuerte correlación, tal vez casi
«exacta») a la vez que refuerza la idea de que la correlación que se mide es la de tipo
lineal.
Desde ya, como el signo de ρXY es el mismo que el de cov(X, Y ), valen las mismas
interpretaciones sobre el tipo de correlación, a la vez que si X e Y son independientes,
necesariamente se tendrá ρXY = 0 (pero no al revés).
Capítulo 5
Teoría asintótica
92
CAPÍTULO 5. TEORÍA ASINTÓTICA 93
tantas veces como queramos). Por simplicidad, pensemos en una moneda equilibrada
que arrojamos sucesivamente una y otra vez, y en la sucesión infinita de variables
aleatorias X1 , X2 , . . . , Xn , . . ., que representa el resultado de cada tirada, digamos con
un 1 si sale cara y un 0 si sale ceca.
Es claro que en este caso, para cada n se tiene Xn ∼ Be( 12 ). Es decir que las
funciones de distribución FX1 (t), FX2 (t), FX3 (t), etc., son todas iguales1 , por lo que es
razonable decir que la distribución asintótica es también Be( 21 ).
Sin embargo, una vez realizado el experimento (si es que pudieran realizarse las
infinitas repeticiones), el resultado es una sucesión de —digamos— caras (c) y cecas
(×). Más precisamente, el espacio muestral (el conjunto de posibles resultados del
experimento) en este caso podemos definirlo como
Ω = (m1 , m2 , . . . , mn , . . .) : mn ∈ {c, ×}, ∀n ∈ N .
(×, c, ×, ×, ×, . . . , ×, . . .)
(×, c, ×, c, ×, c, . . . , ×, c, . . .)
(×, c, ×, ×, c, ×, ×, ×, c, . . .)
y desde ya, también cualquier otra sucesión de c y ×, siga o no un patrón que podamos
describir. Además, es llamativo ponerse a pensar que necesariamente (de manera similar
a lo que ocurre con los posibles valores de una variable aleatoria continua) cada una
de las sucesiones tiene probabilidad nula, ya que la independencia entre las sucesivas
tiradas y la equiprobabilidad entre {m1 = c} y {m1 = ×} (y entre {m2 = c} y
{m2 = ×}, etc.) implica que ninguna sucesión de × y c tendrá más probabilidad que
otra.
Si definimos entonces para cada n ∈ N
(
0 mn = ×
Xn =
1 mn = c,
1
A saber, para cada n ∈ N se tiene
0
t<0
1
FXn (t) = 0≤t<1
2
1 t ≥ 1.
CAPÍTULO 5. TEORÍA ASINTÓTICA 94
(0, 1, 0, 0, 0, . . . , 0, . . .)
(0, 1, 0, 1, 0, 1, . . . , 0, 1, . . .)
(0, 1, 0, 0, 1, 0, 0, 0, 1, . . .)
Si este fuera el caso, aún podría ocurrir que dicha función F (t) no tenga las propie-
dades necesarias para ser una función de distribución. Si lo fuera, sería natural decir
que la «distribución límite» o «asintótica» es F (t), pero si no, la situación no es tan
inmediata. Veamos unos ejemplos.
CAPÍTULO 5. TEORÍA ASINTÓTICA 95
n
Ejemplo 19. Supongamos que cada Xn tiene una distribución U[0, n+1 ]. En ese caso
la función de distribución de Xn es
0
t<0
(n+1) n
FXn (t) = n
t 0 ≤ t < n+1
n
1 t ≥ n+1
(ver figura 5.1) que es una función de distribución y es de hecho la distribución U[0, 1].
Ejemplo 20. Supongamos ahora que para cada n, Xn ∼ E(1/n). La función de distri-
bución de Xn es (
0 t<0
FXn (t) = −
t
1 − e n t ≥ 0.
Obviamente para los t < 0 el límite es 0. Pero para cada t ≥ 0 (fijo), cuando n → ∞
se ve que nt → 0, por lo que FXn (t) → 1 − e−0 = 0 también. Es decir,
pero la función constante igual a 0 no es una función de distribución (de hecho, falla
la propiedad lı́mt→+∞ F (t) = 1). En este caso no hay una distribución «límite».3
2
Este cálculo tiene algunas sutilezas ya que, por ejemplo, FXn (0,85) se calcula mirando la tercera
5
línea para n ≤ 5 (porque 5+1 = 56 = 0,83 ≤ 0,85, es decir que t ≥ n+1 n
), pero cuando n ≥ 6
6 6 n
corresponde ver la segunda línea (notar que 6+1 = 7 ≈ 0,8571 > 0,85, o sea que t < n+1 ). Es decir
que los primeros valores de la sucesión FXn (0,85) son
6+1 7+1 8+1
1, 1, 1, 1, 1, · 0,85 = 0,9916, · 0,85 ≈ 0,9714, · 0,85 = 0,95625, . . . ,
6 7 8
y esta sucesión sigue decreciendo y su límite es lı́mn→∞ n+1
n · 0,85 = 0,85. Se deja como ejercicio
dar un argumento general de que cuando n → ∞ se tiene para cualquier t ∈ (0, 1) que FXn (t) → t.
3
Esto es razonable. Si tenemos en cuenta que por propiedades de la distribución exponencial en
este caso tenemos E(Xn ) = n y var(Xn ) = n2 , vemos que el centro de la distribución se corre hacia
más infinito a la vez que la dispersión se hace infinita; intuitivamente no sería esperable en este caso
que ese proceso dé lugar a una distribución que actúe como «límite».
CAPÍTULO 5. TEORÍA ASINTÓTICA 96
1.0
0.8
0.6 n=1
n=2
F(t)
n=4
0.4
n=10
U[0,1]
0.2
0.0
Figura 5.1: Gráfico de F y FXn para algunos valores de n. Observar que para valores de
t ∈ [0,5, 1), se tiene FXn (t) = 1 para los primeros valores y a partir de un momento este
valor empieza a decrecer hasta el límite F (t) = t (en el gráfico la línea gris punteada
corresponde a t = 0,7; se tiene FX1 (0,7) = FX2 (0,7) = 1. Sin embargo, FXn (0,7) < 1
para n > 2, como se ve en el gráfico para n = 4 y n = 10).
Ejemplo 21. Supongamos que cada Xn tiene una distribución dada por
0 t<0
1 − 1 (1 − 2t)n
0 ≤ t < 12
FXn (t) = 21 12 1
2
+ 2 (2t − 1)n 2
≤t<1
t ≥ 1.
1
En este, como en todos los ejemplos anteriores, la alternancia entre desigualdades
estrictas y no estrictas busca asegurar sin necesidad de mayor análisis que las funciones
dadas sean continuas a derecha en todos los puntos. Este cuidado no es necesario ya que
en todos los casos —se sugiere chequearlo en este último— se trataba de distribuciones
continuas.
Aún así, en todos los casos se debe analizar con cuidado el comportamiento del
límite de FXn (t) en los puntos donde cambia la definición. Por ejemplo, para este caso,
se ve que FXn (0) = 21 − 21 (1 − 2 · 0)n = 0 para cada n, por lo que FXn (0) → 0. De igual
modo se ve que FXn ( 12 ) = 21 → 12 y FXn (1) = 1 → 1. En realidad, lo mismo que ocurre
en t = 0 ocurre cuando t < 0 y la situación en t = 1 se repite para cada t > 1.
Finalmente, si 0 < t < 21 , como 0 < 1 − 2t < 1, se tiene (1 − 2t)n → 0, y luego
FXn (t) = 1
2
− 21 (1 − 2t)n → 12 .
CAPÍTULO 5. TEORÍA ASINTÓTICA 97
Distribución de Xn
1.0
0.8
0.6
F
0.4
n=1
n=2
0.2
n=3
n=6
n=15
0.0
Figura 5.2: Se puede observar cómo las sucesivas FXn se «pegan» a una recta horizontal
de ordenada 12 , aunque siempre quedan «atadas» a los puntos (0, 0) y (1, 1).
1
Y del mismo modo, si 2
< t < 1, vale 0 < 2t − 1 < 1 y luego
FXn (t) = 1
2
+ 12 (2t − 1)n → 12 .
Teniendo especial cuidado en dar los valores correctos en los bordes de los intervalos
de definición, podemos resumir todo esto como
0 t ≤ 0
FXn (t) → F (t) = 12 0 < t < 1
1 t ≥ 1.
Pero aquí tampoco el límite resulta una función de distribución, ya que F (t) es
discontinua a derecha en t = 0 (no así en t = 1, su otro punto de discontinuidad). En la
figura 5.2 (pág. 97) y figura 5.3 (pág. 98) pueden verse los gráficos de FXn para varios
valores de n y el gráfico de F (t), respectivamente.
F(t)
1.0
0.8
0.6
F
0.4
0.2
0.0
límite es discontinua, por lo que si el límite de las FXn (t) cumple todas las demás
condiciones para ser una función de distribución pero eventualmente es discontinua a
derecha en ciertos puntos, es fácil identificarla con una distribución (definiendo F en
esos puntos para que coincida con el límite por derecha) y además esto no da lugar a
ambigüedad.
Teniendo estas cuestiones en mente, definimos a continuación la noción de límite
en distribución.
Definición 19. Dada una función de distribución F (t), se dice que una sucesión de
variables aleatorias X1 , X2 , . . . , Xn , . . . converge en distribución a F y notamos
D
Xn −→ F
4
Es de destacar también que en este ejemplo una sucesión de variables continuas tiene como límite
una distribución discreta. La situación contraria también es posible: por ejemplo, es conocido que el
límite de una distribución binomial —adecuadamente estandarizada— cuando n tiende a infinito es
la distribución normal estándar.
CAPÍTULO 5. TEORÍA ASINTÓTICA 99
Observación 15. Si Y es una variable aleatoria cualquiera, suele también decirse que
la sucesión X1 , X2 , . . . converge en distribución a Y , y se nota
D
Xn −→ Y,
cuando
D
Xn −→ FY .
Sin embargo, esta notación parece sugerir que los valores de Xn tienden a ser similares
a los de Y con alta probabilidad, cosa que no surge en absoluto de la definición; incluso
Y podría ser independiente de todas las Xn . Por ese motivo, evitaremos este enfoque
y esta notación, a menos que sea inevitable o que sea realmente útil y no se preste a
confusión.
Luego, para t 6= 0
nt
e n+1 − 1 et − 1
FXn (t) = nt −−−→
n+1
n→∞ t
(y claramente FXn (0) → 1).
Es decir que el límite de FXn (t) es
(
et −1
t
t 6= 0
F (t) = ,
1 t=0
que es igual a la FGM de una variable U[0, 1]. Por lo tanto, el teorema 5 implica que
D
Xn −→ U[0, 1],
Pero como las Yk tienen la misma distribución, podemos llamar simplemente MY (t) a
cada una de las FGM, y de la expresión anterior se obtiene
n " 2 #n
t 1 t t
MZn (t) = MY √ = 1+ · √ +R √ ,
n 2 n n
Si se prueba que
2nR √t −−−→ 0
n n→∞
la expresión entre llaves presentaría una indeterminación del tipo «1∞ », pero por ser
1
de la forma (1 + an ) an con an → 0 su límite sería e. También se habría probado que el
2
último exponente tiende a t2 .
Ahora bien,
R √t
n
2nR √t
n
= 2t2 · 2
√t
n
R(u)
−−→ 0
u2 u→0
por el teorema de Taylor, como se dijo.
Volviendo a lo anterior, esto prueba que la expresión entre llaves tiene como límite
e, y que el exponente al que se eleva toda esa expresión —el de más a la derecha—
2
tiende a t2 . Luego,
t2
MZn (t) → e 2
y por lo tanto
D
Zn −→ N (0, 1).
CAPÍTULO 5. TEORÍA ASINTÓTICA 104
X̄n − µ D
−→ N (0, 1)
√σ
n
o —equivalentemente— que
Pn
Xk − nµ D
k=1
√ −→ N (0, 1),
nσ
D D
pero en ningún caso se dice que X̄ −→ N (0, 1) ni que nk=1 Xk −→ N (0, 1).
P
etc.
Existen relaciones entre las dos formas de convergencia vistas, de las cuales la más
notable es la que muestra el siguiente teorema, que enunciamos sin demostrar.
Teorema 7. Dada la sucesión X1 , X2 , . . . de variables aleatorias, supongamos que se
tiene otra variable X tal que
P
Xn −→ X;
entonces
D
Xn −→ FX .
Es inmediato preguntarse si valdrá la recíproca: pero es fácil ver que esto no tiene
sentido.
Supongamos que se tiene una sucesión X1 , X2 , . . . tal que
D
Xn −→ N (0, 1).
(Vale la pena insistir: esto es así por mera definición, o incluso convención.)
Supongamos por un momento que fuera cierto que la convergencia en distribución
implica convergencia en probabilidad; necesariamente podríamos afirmar ahora que
P
Xn −→ Z
(no perdamos de vista que esto significaría que los valores de Xn van a ser cada vez más
parecidos y con más alta probabilidad a los de Z, si aumentamos n). Pero si tenemos
otra variable Z̃ independiente de Z y también con Z̃ ∼ N (0, 1), también podríamos
escribir
D
Xn −→ Z̃
y concluir equivocadamente que
P
Xn −→ Z̃.
Pero esto implica que los valores que toman las Xn para cada posible resultado del
espacio muestral son cada vez más parecidos —con muy alta probabilidad— tanto a
los valores de Z como a los de Z̃, que no tienen por qué tomar valores similares entre
sí ya que de hecho son independientes. Luego la recíproca del teorema 7 no puede valer
en general.
¿Habrá alguna situación particular en la que sí sea posible afirmar que la conver-
gencia en distribución también implica convergencia en probabilidad? ¿Qué pasa si
para cierta distribución no existen Z y Z̃ independientes y que puedan dar valores
diferentes? Analicemos el siguiente ejemplo.
Ejemplo 23. Supongamos ahora que tenemos una sucesión con las distribuciones
(
enx x < 0
FXn =
1 x ≥ 0.
Como para x < 0 se tiene nx → −∞ si n → +∞, es inmediato ver que para cada
t∈R (
0 t<0
FXn (t) → F (t) =
1 t ≥ 0,
que es la distribución degenerada en la constante 0, lo que podemos notar como
D
Xn −→ 0.
D
Entonces, como por hipótesis Xn −→ Fc ,
es decir que
P
Xn −→ c.
X̄n −−−→ µ
n→∞
(donde µ representa los valores E(X1 ), E(X2 ), etc., que son por hipótesis todos iguales)
es poco precisa en cuanto a la noción de convergencia involucrada.
Por supuesto, una posibilidad sería afirmar que
P
X̄n −→ µ.
Pero, ¿por qué debería ser cierto esto más allá de la intuición?
Recordemos que los únicos axiomas que damos por sentados son los axiomas de Kol-
mogorov que hablan de las propiedades básicas de la probabilidad (aunque sabemos
que otras muchas propiedades son consecuencia inmediata de estos axiomas). Por otro
lado, la definición de variable aleatoria, y posteriormente la definición de esperanza (pa-
ra variables discretas o continuas), resulten o no intuitivas, no encierran directamente
esta idea de convergencia de promedios muestrales. Más aún, la noción de convergencia
en probabilidad, lejos de ser una extensión inmediata del límite de sucesiones de nú-
meros, es un concepto complejo que involucra la evolución de la distribución conjunta
de probabilidad de las variables X1 , . . . , Xn para cada n ∈ N y, en última instancia, la
P
expresión X̄n −→ µ significa (entre otras expresiones posibles —ver observación 16—)
que dado un número positivo cualquiera ε, existe un número N ∈ N para el cual puede
afirmarse que
X 1 + · · · + XN
P − µ ≤ ε ≥ 1 − ε,
N
CAPÍTULO 5. TEORÍA ASINTÓTICA 109
Demostración. Tenemos que probar que, dado un ε > 0 arbitrario, vale que
Si llamamos Kn = √ ε
, podemos aplicar la desigualdad de Tchebycheff y obtener
var(X̄n )
1 var(X̄n )
q
P |X̄n − µ̄n | ≤ ε = P |(X̄n − µ̄n ) − 0| ≤ Kn var(X̄n ) ≥ 1 − 2 = 1 − .
Kn ε2
Pero como ε está fijo y por hipótesis var(X̄n ) → 0, el último miembro tiende a 1 y por
lo tanto
lı́m P |X̄n − µ̄n | ≤ ε = 1,
n→∞
como queríamos.
CAPÍTULO 5. TEORÍA ASINTÓTICA 110
Observación 18. Es fácil ver que podemos aplicar esta ley a cualquier transformación
de las variables Xk que siga verificando las hipótesis. Por ejemplo, llamemos Yk = Xk2
y supongamos que la sucesión de las Yk verifica las hipótesis del teorema6 . Podemos
afirmar entonces que
n
1X P
Ȳn = Yi −→ E(Y1 )
n i=1
(por supuesto, E(Y1 ) podría reemplazarse por la esperanza de Y2 , Y3 , etc.). Pero esto
significa en realidad,
n
1X 2 P
(X 2 )n = X −→ E(X12 ) = m2 .
n i=1 i
El valor n1 ni=1 Xik se suele denominar momento muestral de orden k, y en ese contexto
P
mk suele llamarse momento poblacional, para evitar confusión. Así, la expresión anterior
puede resumirse diciendo que «cuando n tiende a infinito, el momento muestral de orden
k converge (en probabilidad) al momento poblacional de orden k». Esta propiedad es
la base del método de estimación por momentos, que veremos más adelante.
y por lo tanto no es posible decir que X̄n tienda en probabilidad a constante alguna. En
particular, no tiende a 0, que es la moda, mediana y centro de simetría, como podría
haberse esperado; esto ocurre porque la esperanza no está bien definida.9
la demostración del teorema 6, si se desarrolla MX por Taylor hasta orden 1 es fácil probar que
D
MX̄n (t) −−−−→ eµt , y esto implica (teorema 5) que X̄n −−→ µ. Pero como µ es una constante, también
n→∞
P
resulta (teorema 8) que X̄n −−→ µ.
9
Esto sucede porque una densidad de la distribución es
1
fX (x) = .
π(1 + x2 )
Luego se tiene Z 0
x · fX (x) dx = −∞
−∞
y Z +∞
x · fX (x) dx = +∞,
0
por lo que la integral impropia Z +∞
x · fX (x) dx
−∞
En este capítulo estudiamos algunas expresiones frecuentes que involucran las variables
de una muestra aleatoria, es decir, X1 , . . . , Xn v.a.i.i.d., y las distribuciones que siguen
bajo ciertas condiciones, con especial énfasis en al caso en que la distribución de las
Xk es N (µ, σ 2 ).
Cabe aclarar que dada una muestra aleatoria X1 , . . . , Xn , es usual denominar es-
tadístico a cualquier función g(X1 , . . . , Xn ) (que de por sí es también una variable
aleatoria, digamos T = g(X1 , . . . , Xn )). Incluso un par, una terna o en general una
k-upla de estadísticos, puede pensarse como un estadístico multidimensional ya que
se trata de una función de Rn en Rk . Sin embargo, en esta sección consideramos solo
estadísticos unidimensionales, es decir, funciones «sueltas».
Dicho esto, ejemplos de estadísticos muestrales usuales son
n n
1X 1X nS 2 X̄ − µ
Xk = X̄, (Xk − X̄)2 = S 2 , , ,
n k=1 n k=1 σ2 √S
n−1
etc.
Estudiamos a continuación algunas distribuciones de probabilidad que aparecen
naturalmente al estudiar este tipo de estadísticos.
112
CAPÍTULO 6. DISTRIBUCIÓN DE ESTADÍSTICOS MUESTRALES 113
si X ∼ χ21 , entonces
1
MX (t) = (1 − 2t)− 2 .
Demostración. Hay varios caminos posibles para esta demostración. Una vez más, una
herramienta útil son las funciones generadoras de momentos. Si se prueba que, cuando
Z ∼ N (0, 1), la FGM de Z 2 es
1 12
1
MZ 2 (t) = 1
2
= (1 − 2t)− 2
2
−t
eso completaría la demostración. Para eso es importante notar que
2 Z +∞ 2
MZ 2 (t) = E etZ = etz fZ (z) dz,
−∞
z2
y como FZ0 es la densidad fZ (z) = √1 e− 2 , que es simétrica respecto de z = 0,
2π
√ 1
1 √ 1 1 ( x)2 (1/2) 2 1 −1 − 1 x
fX (x) = 2 · √ · fZ ( x) = x− 2 √ e− 2 = x2 e 2 ,
2 x 2π Γ 12
cuando x > 0. Claramente la densidad da 0 para x < 0, por lo visto al principio. Esta
es, efectivamente, una densidad para la distribución Γ 21 , 12 .
Observación 19. Es inmediato probar que la suma de variables χ2n y χ2m independien-
tes tiene una distribución χ2n+m .
Sin embargo, no vale lo mismo para la resta, aunque bajo ciertas condiciones puede
darse una propiedad que guarda cierta analogía.
Propiedad 34. Sean W ∼ χ2n , V ∼ χ2m (m < n), y sea U una variable aleatoria
independiente de V tal que W = U + V . Entonces,
U = W − V ∼ χ2n−m .
es decir n 2
nσ̂n2 X
Xi − µ
= .
σ2 i=1
σ
Como la expresión entre paréntesis tiene distribución N (0, 1), su cuadrado tiene
distribución χ21 . Y al ser cada término independiente de los demás, la suma es una χ2n .
Resumiendo:
nσ̂n2
2
∼ χ2n . 1
σ
Sin embargo, la mayoría de las veces que no se conoce σ 2 tampoco se conoce µ; entonces
un estadístico mucho más útil es la varianza muestral
n
1X 2
Sn2 = Xi − X̄ .
n i=1
y las variables Xiσ−X̄ si bien son normales (y su esperanza es 0), ni tienen varianza 1 ni,
menos aún son independientes entre sí (o al menos no tendrían por qué serlo, ya que,
por ejemplo, tanto X1σ−X̄ como X2σ−X̄ dependen de las n variables X1 , . . . Xn (porque
X̄ depende de todas ellas).
2
Por lo tanto, no puede afirmarse que nS
σ2
n
tenga distribución χ2n , y en principio no
habría siquiera motivos para suponer que su distribución sea de la familia χ2 . Pero sin
1
En este capítulo recuadramos para mayor claridad todas las fórmulas sobre distribuciones exactas
y asintóticas que serán de utilidad para desarrollar intervalos de confianza y pruebas de hipótesis (ver
capítulo 8 y capítulo 9).
CAPÍTULO 6. DISTRIBUCIÓN DE ESTADÍSTICOS MUESTRALES 117
embargo, el caso es que dicho estadístico sí sigue una distribución χ2 , aunque no con
n grados de libertad.
Para este punto, resultará fundamental el siguiente teorema —conocido como Lema
de Fisher —, que es útil en sí mismo y volveremos a usar en varias ocasiones. Lo
enunciamos sin demostración.
Teorema 10 (Lema de Fisher). Si X1 , . . . , Xn son v.a.i.i.d., con Xi ∼ N (µ, σ 2 ), en-
tonces las variables aleatorias
n n
X X 2
Xi y Xi − X̄
i=1 i=1
nSn2
∼ χ2n−1 .
σ2
Pero el término general de la última sumatoria es constante (para cada i), así que
n
X
(X̄ − µ)2 = n(X̄ − µ)2
i=1
CAPÍTULO 6. DISTRIBUCIÓN DE ESTADÍSTICOS MUESTRALES 118
y en el segundo término son constantes (para cada i) los factores 2 y (X̄ − µ), que
pueden sacarse de la suma como factor común, es decir
n
X n
X
2(Xi − X̄)(X̄ − µ) = 2(X̄ − µ) (Xi − X̄).
i=1 i=1
Pero
n
X n
X n
X n
X n
X n
X
(Xi − X̄) = Xi − X̄ = Xi − nX̄ = Xi − Xi = 0,
i=1 i=1 i=1 i=1 i=1 i=1
Sobre el miembro izquierdo sabemos que tiene, bajo las hipótesis del teorema, dis-
2
tribución χ2n , mientras que el último término de la derecha es la variable X̄ ∼ N (µ, σn )
menos su esperanza y dividida por su desvío (es decir, estandarizada) elevada al cua-
drado: por lo tanto, su distribución es χ21 .
2
El primer término de la derecha es, precisamente, nSσ2
n
, cuya distribución queremos
calcular. Lo esperable es que «por diferencia», se trate de una distribución del mismo
tipo, pero restando los grados de libertad de las otras dos, es decir, con distribución
χ2n−1 .
La propiedad 34 afirma que ese análisis es posible, siempre que sean independientes
las variables «que se suman» (en este caso, las del miembro derecho).
La variable de la izquierda depende de todas las Xi y la de la derecha también 2
(porque X̄ depende de todas). Sin embargo, la primera depende de ni=1 Xi − X̄ y
P
nada más (o de Sn2 , como se prefiera) y la segunda depende de X̄ y nada más. Como
por el Lema de Fisher esas dos variables son independientes, cualquier transformación
de una es independiente de cualquier transformación de la otra y por lo tanto vale
aplicar la propiedad 34 para concluir que la distribución es χ2n−1 , como se quería.
6.2.2. El «estadístico t»
Son varios los estadísticos con distribución t que surgen «naturalmente» en este con-
texto, y casi por regla general involucran algún cociente entre medias y varianzas
CAPÍTULO 6. DISTRIBUCIÓN DE ESTADÍSTICOS MUESTRALES 119
muestrales. Si bien más comúnmente se usa ese nombre para el estadístico de prueba
de un cierto test de comparación de medias poblacionales, en el contexto de una sola
muestra «el» estadístico t refiere a
X̄ − µ
t= .
√S
n−1
El nombre surge de la siguiente propiedad, que muestra una vez más la utilidad del
Lema de Fisher:
X̄ − µ
∼ tn−1 .
√S
n−1
2
Demostración. Dado que X̄ ∼ N (µ, σn ), tenemos que
X̄ − µ
∼ N (0, 1).
√σ
n
por construcción.
Pero cancelando factores repetidos (hacer la cuenta), esta expresión es exactamente
X̄ − µ
,
√S
n−1
y
Y1 , Y2 , . . . , YnY ∼ N (µY , σY2 );
es decir una muestra de tamaño nX de variables con distribución normal y otra muestra
también normal pero con tamaño nY (posiblemente con nX 6= nY ) y con una media y
una varianza no necesariamente iguales a las de la primera muestra. Excede el objeto de
este capítulo discutir en qué contexto o a través de qué procedimiento surgen muestras
independientes, pero caben dos observaciones:
El hecho de que X1 , . . . , XnX sea una muestra aleatoria implica que las variables
2
Xi —además de tener todas la misma distribución (v.g., N (µX , σX ))— son inde-
pendientes entre sí, y lo mismo sucede con las variables Yj ; pero la independencia
entre muestras implica además que las variables Xi son independientes de las
variables Yj para cada i y cada j, o más generalmente, que las variables
X1 , X2 , . . . , XnX , Y1 , Y2 , . . . , YnY
Esto implica que se trata de una situación esencialmente distinta al caso deno-
minado de muestras apareadas, en el que la primera observación de una muestra
«se corresponde» (en algún sentido probabilístico) con la primera observación de
la segunda muestra —es decir, X1 e Y1 —, y lo mismo ocurre con X2 e Y2 , con X3
e Y3 , etc., en cuyo caso —por cierto— se tiene necesariamente nX = nY .
Diferencia de medias
por lo que
(X̄ − Ȳ ) − (µX − µY )
q 2 2
∼ N (0, 1).
σX σY
nX
+ nY
Sin embargo, es usual querer realizar el mismo análisis sin necesidad de conocer los
2
valores σX y σY2 . Y si bien para el caso general no se tiene una solución completamente
2
satisfactoria de este problema, es usual estudiar el caso en que se supone que σX = σY2 ,
2
aun cuando este valor común —digamos σ — sea desconocido.
X1 , X2 , . . . , XnX ∼ N (µX , σ 2 )
e
Y1 , Y2 , . . . , YnY ∼ N (µY , σ 2 ),
se tiene
(X̄ − Ȳ ) − (µX − µY )
q ∼ tnX +nY −2 ,
Sp n1X + n1Y
donde
2
nX SX + nY SY2
Sp2 = .
nX + nY − 2
Pero reordenando la expresión puede verse que esta variable es exactamente la del
enunciado del teorema.
Cociente de varianzas
2
Puede obtenerse una expresión más sencilla si se utilizan en lugar de SX y SY2 las
denominadas cuasivarianzas. En ese caso se tiene
∗2
SX σY2
· 2 ∼ FnX −1,nY −1 .
SY∗2 σX
n 6
0 n−2
0 n−4
Γ( n+1
− n+1
2 )
x2 2
t-Student tn √
nπΓ( n
1+ (no definida)
2)
n
(si n ≥ 2) (si n ≥ 3) (si n ≥ 4) (si n ≥ 5)
123
CAPÍTULO 6. DISTRIBUCIÓN DE ESTADÍSTICOS MUESTRALES 124
X1 ≤ X 2 ≤ . . . ≤ Xn .
(X1 , X2 , X3 , X4 ) = (4, 2, 6, 2)
tenemos
(X(1) , X(2) , X(3) , X(4) ) = (2, 2, 4, 6).
Y podríamos pensar que existe ambigüedad en el hecho de que no sabemos si en este
caso es
X(1) = X2 y X(2) = X4
o
X(1) = X4 y X(2) = X2 ,
pero es un error pensarlo de este modo, ya que en este caso todas son ciertas porque
de hecho, como resulta obvio, ocurrió que
X(1) = X(2) = X2 = X4 .
CAPÍTULO 6. DISTRIBUCIÓN DE ESTADÍSTICOS MUESTRALES 125
Es decir, a los estadísticos de orden se les asignan los valores de las observaciones, pero
no es necesariamente cierto que a cada uno le asignemos una de las variables de la
muestra en forma biunívoca.2
Es claro que estos estadísticos tendrán una distribución de probabilidad (son va-
riables aleatorias, ya que sus valores solo se determinan una vez conocido el resultado
[aleatorio] de la extracción de la muestra). De hecho, esta distribución dependerá de la
distribución de las Xi . Empecemos por un ejemplo.
M = máx{X1 , X2 , . . . , Xn }.
Podríamos pensar que M tiene la misma distribución F que las Xi , ya que resulta
siempre igual a una de ellas. Pero en realidad este modo de razonar no tiene sentido
(como se dijo, M no es una de las variables de la muestra, sino otra variable que toma
el mismo valor que una de ellas al menos —la que resulte mayor—).
Por ejemplo si se tuviera Xi ∼ U[0, 1] y n = 1000, es razonable pensar que la
probabilidad de que M > 0,95 es relativamente alta, ya que entre mil repeticiones, casi
con certeza habrá al menos una (probablemente varias) que superen el valor 0,95, y en
ese caso el máximo M de todas las observaciones también lo superará. Sin embargo, si
M tuviera también distribución U[0, 1], se tendría apenas P(M > 0,95) = 0,05, lo cual
es claramente absurdo.
Para convencernos, calculemos dicha probabilidad exactamente. Como dijimos, bas-
ta con que una de las variables X1 , . . . , X1000 supere el valor 0,95 para que M también
lo haga. Puesto de otro modo podríamos también decir que
Esto es cierto, puesto que si el máximo valor es menor o igual que 0,95, también
lo serán todos los de la muestra dado que son menores o iguales que el máximo. Y
recíprocamente, si todos los valores en la muestra son menores o iguales a 0,95, el
máximo de todos —que es uno de ellos— también lo será. Esto prueba la equivalencia.
Pero los mil sucesos aleatorios {Xi ≤ 0,95} son independientes entre sí, porque las
variables Xi lo son, por lo que tenemos
P(M ≤ 0,95) = P(X1 ≤ 0,95∧. . .∧X1000 ≤ 0,95) = P(X1 ≤ 0,95)·. . .·P(X1000 ≤ 0,95).
Ahora bien, como todas las Xi tienen distribución U[0, 1], resulta P(Xi ≤ 0,95) = 0,95,
por lo que
P(M ≤ 0,95) = 0,951000 = 5,3 × 10−23 ,
y entonces
P(M > 0,95) = 1 − 0,951000 ' 1.
Más en general, el mismo razonamiento dice que si las Xi tienen función de distri-
bución F , entonces
es decir
FM (t) = [F (t)]n .
Y por lo tanto,
FX(1) (t) = 1 − P(X(1) > t) = 1 − [1 − F (t)]n .
CAPÍTULO 6. DISTRIBUCIÓN DE ESTADÍSTICOS MUESTRALES 127
suceda {Y ≥ 1}.
De igual modo, {X(2) ≤ t} tiene la misma probabilidad que {Y ≥ 2} y, en general,
y
FX(n) (t) = [F (t)]n .
X̄n − µ D
−→ N (0, 1).
√σ
n
D
Observación 21. Es importante recordar que la expresión Xn −→ X es una notación
D
alternativa a Xn −→ FX , que usamos en este caso por simplicidad, pero que no implica
que haya una alta probabilidad de que los valores de Xn tiendan al valor de X, ni nada
similar; solo estamos afirmando que las sucesivas funciones de distribución FXn tienden
a los valores de la función FX para todos los valores de t donde esta última es continua.
D
Alternativamente, podríamos enunciar el teorema diciendo que si Xn −→ F y F̃
es la distribución de una variable que resulta de multiplicar c por una variable con
distribución F , es decir,
F̃ (t) = F ct ,
3
Como regla práctica es usual en contextos pedagógicos aceptar dicha aproximación cuando n ≥ 30,
si bien esta idea es obviamente una sobresimplificación.
CAPÍTULO 6. DISTRIBUCIÓN DE ESTADÍSTICOS MUESTRALES 129
P
entonces si además Yn −→ c, se tiene
D
Xn · Yn −→ F̃ .
al igual que Xn .
X̄n − µ σ D
· −→ N (0, 1),
√σ S
n
4
Para esto, reexpresamos S 2 como
1X 2
Xn − (X̄)2 ,
n
y bajo condiciones que garanticen la LGN (como las Xn2 son v.a.i.i.d., al igual que las Xn , alcanza con
suponer que m1 y m2 son finitos) esto implica que
P
S 2 −−→ m2 − m21 = σ 2 .
CAPÍTULO 6. DISTRIBUCIÓN DE ESTADÍSTICOS MUESTRALES 130
es decir
X̄n − µ D
−→ N (0, 1).
√S
n
Esta conclusión vale si las Xi son v.a.i.i.d. con momentos finitos al menos de segundo
orden, y resultará útil para hacer inferencia en contextos en que de la distribución
subyacente no se conozca siquiera la varianza (aunque sí se tenga certeza de que esta
existe y es finita).
Proporción muestral
Un caso frecuente de inferencia con una distribución no normal que satisface las
condiciones mencionadas es aquel en que las Xi ∼ Be(p). En este caso —en el que
X̄ suele notarse por p̄ y representa la proporción de éxitos entre las n observaciones
realizadas—, como E(Xi ) = p y var(Xi ) = p(1 − p), resulta del TCL que
p̄ − p D
qn −→ N (0, 1).
p(1−p)
n
Es decir,
p̄ − p D
qn −→ N (0, 1).
p̄n (1−p̄n )
n
se tiene
nX
→ λ > 0, 5
nY
entonces
(X̄ − Ȳ ) − (µX − µY ) D
q 2 2
−→ N (0, 1) .
σX σY
nX
+ nY
5
Esto garantiza que ni nX crece «mucho más rápido» que nY (en cuyo caso el cociente tendería
a ∞, ni nY crece mucho más rápido que nX , en cuyo caso el cociente tendería a 0; en realidad
ambos tamaños muestrales tienden a crecer en una cierta proporción. Por ejemplo, imaginemos que
tomáramos un par de muestras de tamaño (nX , nY ) = (1, 1), luego de tamaño (2, 4), luego (3, 9),
después (4, 16), y que en general el n-ésimo par de muestras fuera de tamaño (n, n2 ). En ese caso no
tendríamos garantizada la conclusión, ya que
nX n 1
= 2 = −−−−→ 0.
nY n n n→∞
Es decir que a medida que tomamos las sucesivas muestras, podría ocurrir que la distribución del
estadístico en cuestión no converja a una distribución normal, o incluso que no converja a ninguna
distribución (notar que en la muestra número 100 se tendrá nX = 100, pero nY = 10 000 será cien veces
mayor). En cualquier caso, no es tan sencillo dilucidar las consecuencias prácticas de este tecnicismo.
6
Este resultado es menos obvio de lo que parece, ya que en realidad el límite en cuestión involucra
una indeterminación del tipo «cero sobre cero»; en cualquier caso, puede probarse que es válido
haciendo uso de la condición nnX
Y
→ λ > 0.
CAPÍTULO 6. DISTRIBUCIÓN DE ESTADÍSTICOS MUESTRALES 132
es decir
(X̄ − Ȳ ) − (µX − µY ) D
q 2 −→ N (0, 1).
SX SY2
nX
+ nY
Comparación de proporciones
aunque esta expresión no es muy útil para estudiar pX − pY ya que depende también
de los valores individuales de cada parámetro.
Resulta útil, nuevamente, aplicar el teorema de Slutsky, para concluir que
También es de interés una expresión que surge en el caso particular en que se supone
que la diferencia entre ambos parámetros es nula, es decir, que pX = pY . Si llamamos p
a ese valor común, tenemos que tanto Xk como Yk siguen una distribución Be(p), por
lo que
E(p̄X − p̄Y ) = p − p = 0
y
p(1 − p) p(1 − p) p(1 − p)
var(p̄X − p̄Y ) = + = .
nX nY nX + nY
Luego,
p̄ − p̄Y D
qX −→ N (0, 1).
p(1−p)
nX +nY
CAPÍTULO 6. DISTRIBUCIÓN DE ESTADÍSTICOS MUESTRALES 133
cuando nX + nY → +∞.
Luego, el teorema de Slutzky garantiza que si nX , nY → +∞ (en cuyo caso también
nX + nY → +∞), con la condición nnXY → λ > 0, entonces también
q
p(1−p)
p̄ − p̄Y nX +nY D
qX ·q −→ N (0, 1).
p(1−p) p̂(1−p̂)
nX +nY nX +nY
O simplificando la expresión,
p̄ − p̄Y D
qX −→ N (0, 1).
p̂(1−p̂)
nX +nY
Capítulo 7
Estimadores puntuales
134
CAPÍTULO 7. ESTIMADORES PUNTUALES 135
Puede ser que exista efectivamente una población, es decir, un conjunto (finito)
de unidades sobre las cuales se puede medir la variable o característica de interés
(por ejemplo, las personas que viven en una ciudad —sobre las que podemos
considerar variables como la estatura, la edad, el tiempo que llevan viviendo
allí, etc.—), en cuyo caso la variable en cuestión tiene una cierta distribución
de frecuencias a la que teóricamente se podría acceder si se realizara un censo
completo sin errores ni omisiones.
Puede ser que en cambio la característica que se quiere medir surja como repe-
tición de un experimento que idealmente puede reiterarse una infinidad de veces
en forma controlada (por lo que suele hablarse de «experimento de laboratorio»)
a tal extremo que se logre mantener la independencia entre una y otra realización
del mismo y que las condiciones al comienzo de y durante cada repetición sean
idénticas al punto de que pueda asignarse a la característica de interés una misma
distribución de probabilidad antes de cada realización del experimento aleatorio.
vez considerado este detalle, si hubiese entre las cien unidades de la población
exactamente tres de ellas con una estatura de 1,72 m (con precisión a cm) —es
decir, una frecuencia relativa fr = 0,03—, entonces al elegir una persona/unidad
1
al azar (cada una con probabilidad 100 ), la probabilidad de que el resultado de
3
medir la estatura de la persona seleccionada al azar sea 1,72 m es claramente 100 ,
igual a la frecuencia relativa. Pero para que al elegir n unidades la distribución
aleatoria sea cada vez la misma que al principio debe ocurrir o bien
— que la extracción sea con reposición, por lo que cada unidad puede salir
ninguna, una, dos o hasta n veces entre las n extracciones; o bien
— que por más que la extracción sea sin reposición, el tamaño muestral sea
muy inferior al poblacional (n << N ), de modo que si bien cada unidad que
se extrae y no se repone modifica la distribución de frecuencias sobre la que
se muestrea, tal efecto sea prácticamente inapreciable y resulte despreciable
en la práctica.
Medidas de tendencia central : indican en torno a qué valores caerán las realiza-
ciones de θ̂ si se usa varias veces ese estimador para diferentes muestras, ya sea
que pensemos en los valores de mayor probabilidad o densidad (valores modales
o modas), los que separan cantidades iguales de observaciones (por ejemplo las
mayores y las menores, como la mediana), el valor que aparece como promedio
de muchas repeticiones (la media o esperanza), etc.
Medidas de dispersión: indican si las reiteradas estimaciones realizadas con θ̂
presentarán valores similares o cercanos a los valores centrales, o si por el contrario
habrá gran variabilidad.
Medidas directas del error de estimación: son cuantificaciones basadas en la di-
ferencia θ − θ̂, que indica el error cometido si se toma la estimación θ̂ como valor
aproximado del parámetro desconocido θ. En general existen varias maneras de
obtener un valor que represente la situación genérica, entre las cuales se desta-
can especialmente el error cuadrático medio o ECM (ver más adelante), el error
absoluto medio, el error mediano absoluto, etc.
Es claro que el error debería ser pequeño, que las estimaciones deberían distribuirse
en torno al valor verdadero y que sería interesante que lo hicieran con poca dispersión.
El inconveniente es que en la mayoría de los casos relevantes algunas de estas propie-
dades suelen ir en detrimento de las otras. Por ello, llamaremos propiedades deseables a
las «buenas» propiedades de un estimador, aun cuando no se las pueda considerar esen-
ciales. Es decir que no serán en general propiedades irrenunciables, a veces ni siquiera
serán alcanzables: pero basta con pensar que entre la posibilidad de que se verifiquen o
no se verifiquen, si eso no obliga a cambiar nada más, sin dudas elegiríamos que dichas
propiedades estén presentes.
En los próximos apartados estudiamos algunas de ellas, muchas de las cuales están
claramente motivadas en la discusión que antecede.
Mencionamos a continuación algunas propiedades que pueden definirse para valores fijos
de n. En general si se hace un análisis para n ∈ N genérico, usualmente la propiedad se
verifica para cada valor posible de n o para ninguno, aunque si solo fuera cierta para
algunos valores bastaría con dicha aclaración.
Empezamos con una definición que no se refiere en sí a la distribución de probabi-
lidad de θ̂, sino a su forma funcional.
Definición 25 (Linealidad). Un estimador basado en la muestra X1 , . . . , Xn se deno-
~ ni del parámetro
mina lineal si existen constantes α0 , α1 , . . . , αn no dependientes de X
CAPÍTULO 7. ESTIMADORES PUNTUALES 140
Eθ (θ̂) = θ, ∀θ ∈ Θ.
Observación 22. Cuando se quiere indicar en la notación que los cálculos son válidos
bajo cierto valor del parámetro θ, es usual agregarlo como subíndice del operador de
esperanza, varianza, etc.
5
No obstante, pueden —y suelen— depender de n y eventualmente de otros parámetros que sean
conocidos.
CAPÍTULO 7. ESTIMADORES PUNTUALES 141
Definición 27 (Eficiencia relativa y absoluta). Dados θ̂0 y θ̂1 , ambos estimadores insesgados
de θ:
Determinar que un estimador insesgado es eficiente6 (es decir el mejor entre todos
los insesgados), no es sencillo ni inmediato en general. La principal dificultad radica
en que no es posible usualmente dar una expresión general de todos los estimadores
insesgados de θ que a su vez sea útil para el cálculo de la varianza. Por ese motivo,
para probar que un estimador es eficiente se suele recurrir a determinados resultados
teóricos de los cuales el más conocido es el Teorema de Cramér-Rao (ver apartado 7.4).
Sin embargo, sí es sencillo representar a todos los estimadores insesgados y calcular
su varianza si nos restringimos a la clase de los operadores lineales. En ese caso, se
tiene la siguiente definición:
Definición 28 (Mejor estimador lineal insesgado). Sea θ̂0 un estimador lineal e inses-
gado de θ. Si para todo otro estimador θ̂ lineal e insesgado para θ vale
Varθ (θ̂0 ) ≤ Varθ (θ̂), ∀θ ∈ Θ,
se dice que θ̂0 es un estimador MELI 7 para θ.
Dicho todo esto, cabe hacer notar que estamos comparando siempre las varianzas de
estimadores insesgados. Si se desea comparar la performance de un estimador insesgado
con uno que no lo es o si se trata de dos sesgados, la situación es menos obvia, como
muestra la figura 7.1 (pág. 142). Por caso:
6
También son usuales las expresiones MEI (Mejor Estimador Insesgado) y estimador IMVU (In-
sesgado de Mínima Varianza Uniformemente).
7
Abreviatura de Mejor Estimador Lineal Insesgado. También es usual la sigla ELIO (Estimador
Lineal Insesgado Óptimo) y en inglés BLUE (Best Linear Unbiased Estimate).
CAPÍTULO 7. ESTIMADORES PUNTUALES 142
p(1)=0.89 p(2)=0.16
m(1) m(2)
2.0 2.5 3.0 3.5 4.0
theta=3
p(2)=0.4
p(1)=0.21
m(1) m(2)
0 1 2 3 3.5 4 5 6
theta=3
Figura 7.1: Para θ = 3 se presentan en cada imagen las distribuciones de dos esti-
madores: en ambos ejemplos uno es insesgado y el otro tiene un sesgo igual a −0,5.
La diferencia en las varianzas afecta la performance relativa de ambos, en este caso
representada por el valor de P(|θ̂ − θ| ≤ 0,4), equivalente al área sombreada. (Aclara-
ción: las escalas verticales difieren entre ambas imágenes —y también las horizontales,
desde ya—, por lo cual solo son comparables las áreas dentro de un mismo gráfico; para
referencia es útil recordar que el área bajo cada curva es igual a uno).
Entre un estimador insesgado con varianza «grande», y otro sesgado con varianza
muy «chica» —eventualmente nula— es posible que resulte mejor el primero
(imagen superior): el segundo tiene su densidad muy concentrada alrededor de su
media, que no es el valor que se busca estimar. El primero, en cambio, apunta en
la dirección correcta, y si bien tiene bastante dispersión, al menos puede a veces
caer más cerca de θ que el que casi sistemáticamente toma valores lejanos.
Sin embargo, esto tampoco implica que el insesgamiento sea una condición sine
qua non: un estimador insesgado pero con demasiada dispersión tal vez falla por
mucho y mucho más frecuentemente que uno que tiene un pequeño sesgo y una
varianza relativamente baja (imagen inferior).
Definición 29 (Error cuadrático medio). Se define el error cuadrático medio del esti-
mador θ̂ para el parámetro θ como
CAPÍTULO 7. ESTIMADORES PUNTUALES 143
Esta fórmula no solo es útil en el cálculo, sino que conceptualmente reafirma las ideas
que comentamos sobre cómo un sesgo y una varianza pequeños colaboran a mejorar la
estimación y tanto esta como aquel deben ser tenidos en cuenta.
Propiedades asintóticas
donde cada uno se aplica a un tamaño de muestra distinto. Este es el concepto que
analizaremos en este apartado.
La primera propiedad asintótica que mencionamos es un «second best» para la
propiedad de insesgamiento. Si el sesgo no es nulo, pero tiende a cero con n → ∞ ,
entonces para n suficientemente grande dicho sesgo resultará despreciable.
Eθ (θ̂n ) −−−−→ θ, ∀θ ∈ Θ.
n→∞
es decir, si
CAPÍTULO 7. ESTIMADORES PUNTUALES 145
y además
Varθ (θ̂n ) −−−−→ 0;
n→∞
(que en realidad es una sucesión de estimadores, uno para cada tamaño muestral).
Es inmediato ver que
n2 n3
Eλ (λ̂n ) = λ y Varλ (λ̂n ) = λ.
n2 + 1 (n2 + 1)2
En particular vemos que —para cada n— λ̂n es un estimador sesgado, con sesgo
λ
n2 +1
pero como el sesgo tiende a 0 o —equivalentemente— Eλ (λ̂n ) −−−−→ λ, se trata
;
n→∞
de un estimador asintóticamente insesgado.
Además, comparando los grados del numerador y el denominador, vemos que
y esto prueba que el estimador λ̂n (es decir, la sucesión de estimadores) es consistente
para λ.
CAPÍTULO 7. ESTIMADORES PUNTUALES 146
Figura 7.2: Área sombreada: P(θ − ε ≤ θ̂n ≤ θ + ε); de arriba a abajo ε = 0,5 y ε = 0,1;
de izquierda a derecha n = 10, n = 100 y n = 500. (Las escalas no son comparables
entre gráficos, por lo que la probabilidad representada por el área sombreada debe
interpretarse en relación al área total bajo la curva correspondiente).
h : R n → Rm
si la muestra es de tamaño n y las variables toman valores reales; m puede ser un número natural
cualquiera, mayor, igual o menor que n. Esto permite pensar a varios estadísticos como uno solo (es
decir, un vector de estadísticos) cuando es conveniente.
CAPÍTULO 7. ESTIMADORES PUNTUALES 148
Como metáfora muy pero muy simplista, si pensamos en una casa y en los ladri-
llos usados para su construcción, encontramos que ciertas propiedades corresponden a
la casa como un todo, como producto final (y tales propiedades resultan de factores
tan variados como los materiales, las técnicas y prácticas de construcción utilizadas,
decoraciones, oportunidad... ¡un poco de buena suerte, por cierto!); y algunas otras
son propiedades específicas de los materiales de construcción, como los ladrillos. Unos
ladrillos débiles o mal formados darán lugar a una construcción débil e inestable casi
con seguridad. En cambio, unos ladrillos resistentes bien usados daran una estructura
resistente a la casa; aunque mal usados, en cambio, podrían ser inútiles.
fX|T
~ =τ (~
x)
no depende de θ (es decir, es constante como función de θ). Esta definición aplica al
caso en que X~ es un vector absolutamente continuo; la definición es en términos de
pX|T ~
~ =τ si el vector X es discreto.
es decir, un producto de dos factores: el primero, uno que no depende de θ y tal vez sí
de la muestra; el segundo puede depender de θ pero si depende de la muestra esto solo
ocurre por medio de t(~x).
Ahora bien,
fXT
~ (~ x, τ ; θ) f ~ (~x, τ ; θ)
fX|T
~ =τ (~
x; θ) = = R XT
fT (τ ; θ) f ~ (~x, τ ; θ) d~x
Rn XT
En estas condiciones, si suponemos t(~x) = τ , resulta fXT ~ (~x, τ ; θ) = h(~x) · g(τ, θ), por
lo que
h(~x) · g(τ, θ) h(~x)
fX|T
~ =τ (~x; θ) = R =R .
Rn
h(~x) · g(τ, θ) d~x Rn
h(~x) d~x
Por otro lado, si t(~x) 6= τ , entonces fXT
~ (~
x, τ ; θ) = 0 y también se anula fX|T
~ =τ (~
x).
En cualquier caso se tiene que
fX|T
~ =τ (~
x; θ)
Puede probarse que esto es equivalente (si también existe la derivada segunda) a
2
∂
IX~ (θ) = − E ln fX~ (X1 , ..., Xn ; θ) (7.3)
∂θ2
que en muchos casos conlleva cálculos más simples.
10
Si el vector es discreto valen las mismas expresiones usando la función de probabilidad puntual
en lugar de la función de densidad.
CAPÍTULO 7. ESTIMADORES PUNTUALES 151
∂2
IX~ (θ) = −n · E ln fX (X; θ) . (7.5)
∂θ2
por lo que cuando se desea calcular IX~ (θ) así como hallar el estimador de máxima vero-
similitud θ̂M V , parte del procedimiento es redundante y pueden abreviarse los cálculos.
fX (x; θ),
podemos concluir que el valor de X que se obtuvo tiene más sentido al suponer valores
de θ que dan una densidad o probabilidad puntual alta; en cambio, debemos pensar que
ocurrió un suceso muy extraño o inesperado si suponemos otros valores de θ (aquellos
que impliquen que el suceso {X = x} tenía muy baja probabilidad o densidad).
Sin embargo, aun cuando el análisis de pX (10) para diferentes valores de λ puede ser
útil para obtener una estimación λ̂, esto no da una idea inmediata de qué tan precisa
es esa estimación.
CAPÍTULO 7. ESTIMADORES PUNTUALES 153
∂
ln pX (10; λ),
∂λ
obtendríamos una cierta medida de la sensibilidad de pX (10; λ) a cambios en λ para el
valor observado.
Para entender esto, recordemos en primer lugar que la derivada del logaritmo de
una función da un valor aproximado de la variación relativa (o porcentual, si se la
piensa multiplicada por 100 %) por cada unidad que aumenta la variable respecto de
la que se deriva. Es decir, en nuestro ejemplo, si pasamos de evaluar la probabilidad de
nuestra observaciónsuponiendo λ0 a calcularla para λ1 = λ0 + ∆λ, la variación relativa
∆pX (10;λ0 )
de la probabilidad pX (10;λ0 ) se puede aproximar mediante la fórmula
Sin embargo, al analizar qué tanto nos puede llegar a decir sobre λ el hecho de obser-
var la variable X, en lugar de cuantificar la información que nos da un caso particular
ya observado (en nuestro ejemplo, x = 10), se debería analizar una situación genérica
13
A fines comparativos, cabe mencionar que en este ejemplo la variación relativa de pX (10) al pasar
de λ = 7, 5 a λ = 8 es de un nada despreciable 15, 6 %; el score evaluado en λ = 7, 5 es 13 , que
multiplicado por ∆λ = 0, 5 da un valor razonablemente aproximado de 16 , es decir, un 16, 7 %.
Desde ya, cuanto menor sea ∆λ, más precisa tiende a ser la aproximación. Por ejemplo, la variación
relativa de λ = 7,5 a λ = 7,6 es 3,298 %, y la aproximación daría 13 · 0,1 ' 3,33 %.
CAPÍTULO 7. ESTIMADORES PUNTUALES 154
Podría suponerse, por ejemplo, que una buena medida de resumen sería tomar sim-
plemente la esperanza de los scores; sin embargo, como las variaciones relativas de fX o
pX pueden ser tanto positivas como negativas, al tomar la esperanza habrá cierta cance-
lación. De hecho, puede probarse que, en condiciones muy generales, dicha cancelación
es exacta y la esperanza de los scores es igual a 0. Es por esto que interesa transformar
los scores de manera que sean siempre positivos antes de tomar su esperanza: la opción
elegida para la definición de IX (θ), como es frecuente, es elevar al cuadrado los scores
antes de calcular su esperanza, es decir, calcular su momento de orden 2 (de hecho, su
varianza, ya que tienen esperanza nula). A saber:
2
∂
E ln pX (X; λ) .
∂λ
Ejemplo 29. Para entender mejor el cálculo y las aclaraciones hechas, podemos ver
que en nuestro ejemplo anterior de una observación X a partir de una distribución de
Poisson daría
2 2
e−λ λX
∂ ∂
IX (λ) = E ln pX (X; λ) = E ln =
∂λ ∂λ X!
2 2
∂ X
=E (−λ + X ln λ − ln X!) = E −1 =
∂λ λ
E(X 2 ) E(X) λ + λ2 λ 1
= 2
− 2 + 1 = 2
−2 +1= .
λ λ λ λ λ
CAPÍTULO 7. ESTIMADORES PUNTUALES 155
una varianza pequeña, es decir, muy precisos (aunque no siempre habrá estimadores
que alcancen dicha cota); por el contrario, si la muestra brinda poca información, eso
conlleva que la varianza de los estimadores insesgados necesariamente será grande, lo
que coincide con la idea intuitiva de que con poca información la estimación será muy
imprecisa.
La utilidad del teorema 14 es notable cuando se conoce un estimador θ̂ insesgado y
cuya varianza coincide con la cota de Cramèr-Rao, esto es:
1
E(θ̂) = θ y var(θ̂) = ~ (θ)
IX
.
En ese caso, como cualquier otro estimador insesgado tendrá varianza mayor o igual a
la cota, en particular tendrá varianza mayor o igual que la de θ̂. Esto coincide con la
definición de estimador eficiente (en el sentido de eficiencia absoluta).
Ejemplo 30. Para el caso del ejemplo 29 un estimador usual para el parámetro des-
conocido es n
1X
λ̂ = Xi = X̄n
n i=1
(ver apartado siguiente), que es insesgado para λ, ya que
n
! n
! n n
1 X 1 X 1X 1X 1
E λ̂ = E Xi = E Xi = E (Xi ) = λ = · nλ = λ.
n i=1 n i=1
n i=1 n i=1 n
Pero además, tenemos que
n
! n
! n n
1X 1 X 1 X 1 X 1 λ
var λ̂ = var Xi = 2 var Xi = 2 var(Xi ) = 2 λ = 2 ·nλ = ,
n i=1 n i=1
n i=1 n i=1 n n
donde se tuvo en cuenta que las Xi son independientes, por lo que la varianza de la
suma es la suma de las varianzas, y que var(Xi ) = λ en la distribución de Poisson.
Como se vio también en el ejemplo 29, si se toma una muestra aleatoria de tamaño
n de una distribución P(λ), la información de Fisher es
n
IX~ (λ) = ,
λ
y esto implica que la cota de Cramér-Rao es
1 λ
CCR = = = var λ̂ .
IX~ (λ) n
Luego, como λ̂ es insesgado y su varianza coincide con la CCR, no puede existir otro
estimador insesgado de menor varianza: por lo tanto, λ es eficiente.
CAPÍTULO 7. ESTIMADORES PUNTUALES 157
~ no depende de θ.14
IX~ (θ) ≥ 0, y solo vale 0 si la distribución de X
~ es un estadístico suficiente para θ, entonces I ~ (θ) = I ~ (θ).15
Si t(X) X t(X)
Esto sugiere que X̄n es un estimador razonable de λ, ya que al menos resulta consistente:
para tamaños de muestra grandes, el sesgo será pequeño al igual que su varianza, por
lo que se tendrá un bajo ECMλ (X̄). Por cierto, vimos en el apartado anterior que este
estimador de λ es en particular insesgado y eficiente.
También podríamos haber tenido en cuenta que E(Xi2 ) = var(Xi )+E(Xi )2 = λ+λ2 ,
por lo que, como también se vio en su momento
n
1X 2 P
X −→ λ + λ2 .
n i=1 i
CAPÍTULO 7. ESTIMADORES PUNTUALES 159
a saber,
n 2
1X 2 1 1
X = + λ̂ −
n i=1 i 2 4
es decir —teniendo en cuenta que la estimación debe tomar valores positivos—,
v
u n
u1 1 X 1
λ̂ = t + Xi2 − .
4 n i=1 2
n
1X
X̄ = Xi = E(Xi )|(α,λ)=(α̂,λ̂)
n i=1
y
n
1X 2
(X 2 ) = X = E(Xi2 )|(α,λ)=(α̂,λ̂) .
n i=1 i
CAPÍTULO 7. ESTIMADORES PUNTUALES 160
Esto puede resultar adecuado ya que entre estos dos momentos aparecen ambos pará-
metros al menos una vez (de hecho ambos figuran en las dos igualdades). Entonces:
α̂
X̄ =
λ̂
α̂(α̂ + 1)
(X 2 ) = .
λ̂
Y despejando se obtiene
(X 2 ) − X̄ (X 2 ) − X̄
α̂M = λ̂M = .
X̄ (X̄)2
Ejemplo 32. No siempre es posible utilizar el primer momento cuando solo se busca
estimar un parámetro: si un momento no depende del parámetro que se busca estimar,
no será de utilidad. Consideremos por ejemplo la distribución N (0, σ 2 ); es decir, una
distribución normal en la que µ es conocido y se sabe que vale 0, pero se desconoce σ 2 .
En ese caso, podríamos intentar buscar σ̂ 2 tal que
pero como en este ejemplo E(Xi ) = 0, esto da un absurdo (X̄ = 0) y no define ningún
2
estimador de momentos σ̂M .
Lo usual en estos casos es pasar a un momento de orden superior, segundo orden
por ejemplo, y plantear
(X 2 ) = E(Xi2 )|σ2 =σ̂2 ,
es decir
(X 2 ) = E(Xi )2 + var(Xi ) = 02 + σ̂ 2 ,
2
= n1
P 2
de donde se obtiene el estimador σ̂M Xi .
CAPÍTULO 7. ESTIMADORES PUNTUALES 161
0.0008
likelihood
0.0000
0 5 10 15
0
log−likelihood
−5
−15
0 5 10 15
Ahora bien, teniendo en cuenta que efectivamente obtuvimos la muestra (8, 11, 6)
—es decir, que este es un suceso aleatorio que ocurrió en la realidad y por lo tanto
tendría sentido suponer que no se trata de un suceso demasiado improbable—, si por
algún motivo teórico o práctico tuviéramos la certeza de que los dos únicos posibles
valores de λ en este problema son 8 y 5, ¿cuál elegiríamos como estimación?
Desde ya es mucho más razonable suponer que si la muestra (8, 11, 6) ocurrió, es
porque λ debe ser 8, y no 5, ya que en el segundo caso resultaba mucho menos probable
(o menos «esperable») que ocurriera lo que finalmente ocurrió16 .
Ahora bien, como en nuestro caso no estamos restringidos a los valores 5 y 8, sino
que podemos elegir como estimación cualquier valor λ > 0, parece razonable elegir como
estimación aquel valor que haga más probable la muestra que efectivamente obtuvimos:
el punto λ̂ donde se maximiza la función L(λ). Esta será la estimación por máxima
verosimilitud de λ para esta muestra.
La función L parece tener un solo máximo según el gráfico. Más allá de esto, sabe-
mos que L está definida sobre el intervalo (0, +∞), que es un conjunto abierto, y es
evidente (viendo su definición) que es una función C ∞ . Luego, donde haya un máximo,
necesariamente su derivada primera será igual a cero. Veamos:
1 e−3λ λ24
L0 (λ) = −3e−3λ λ25 + 25e−3λ λ24 = · (−3λ + 25)
A A
Igualando a cero, dado que e−3λ 6= 0 y que λ 6= 0, se obtiene que necesariamente
−3λ + 25 = 0,
que se cumple para λ = 25 3
. Como este es el único punto crítico y además es claro que
a la izquierda de este valor la función crece y a la derecha decrece17 , en ese punto hay
un máximo absoluto.
Sin embargo, aún en este caso sencillo los cálculos no fueron tan simples ni inme-
diatos. Pero consideremos la función que se obtiene al aplicar un logaritmo (digamos
16
Por poner una analogía más cualitativa y menos numérica. Sabemos que en verano, en la Ciudad
de Buenos Aires, es común que la temperatura máxima del día supere los 30◦ C, mientras que en
invierno esto resulta más bien excepcional, aunque no es completamente imposible. Si entonces un día
nos despertamos completamente desorientados/as al mediodía y no tenemos en ese momento noción
siquiera de en qué estación del año estamos, pero al salir comprobamos que la temperatura es superior
a los 30◦ C (en un termómetro, o simplemente lo sentimos en el cuerpo), sin dudas ante la disyuntiva
de si estamos en verano o en invierno (no habiendo más información), nos inclinaremos por la primera
opción. De todos modos, suponer que estamos en invierno (en un día excepcionalmente caluroso) no
sería totalmente incorrecto en términos lógicos: pero sí sería una hipótesis inverosímil.
17
Como L0 es una función continua y solo se anula en 25
λ = 3 , el teorema de Bolzano implica que el
25 25
signo se mantiene en el intervalo 0, 3 y en 3 , +∞ . En particular, en el primero el signo es el de,
por ejemplo, L0 (1) > 0 y en el segundo el de L0 (10) < 0, y esto implica que L es creciente en 0, 25
3
y decreciente en 25 3 , +∞ .
CAPÍTULO 7. ESTIMADORES PUNTUALES 164
Ejemplo 34. Si ahora quisiéramos estimar λ con tres observaciones para el mismo
modelo, pero obtuviéramos una muestra diferente —digamos x1 = 7, x2 = 7 y x3 =
13— en principio deberíamos repetir todo el procedimiento hasta obtener la función
de verosimilitud
e−3λ λ27
L(λ) = ,
A
donde A es un número distinto al del ejemplo anterior pero que no influirá en el
resultado, y de allí se puede obtener λ̂M V = 27
3
= 9.
Sin embargo, para evitar repetir el procedimiento cada vez, podemos pensar en una
muestra genérica (x1 , x2 , x3 ), donde los xi ∈ N0 , y obtener la expresión del cálculo que
debemos hacer en cada caso. Esto, además, permitirá estudiar las propiedades de la
estimación por máxima verosimilitud para este modelo en particular.
Veamos:
e−λ λx1 e−λ λx2 e−λ λx3
l(λ; x1 , x2 , x3 ) = ln L(λ; x1 , x2 , x3 ) = ln · · =
x1 ! x2 ! x3 !
= −3λ + (x1 + x2 + x3 ) ln λ − ln(x1 !x2 !x3 !).
Aquí hemos escrito a l como función de λ, x1 , x2 y x3 , mientras que en el primer ejemplo
solo habíamos escrito λ: ocurre que en el primer ejemplo cada xi se reemplazaba por
un valor numérico, por lo que «desaparecía» de la expresión de L y de l. Lo cierto
es que tanto el valor del parámetro como los de las xi influyen en el valor de l, pero
mientras que cuando pensamos en un valor fijo, predeterminado, del parámetro λ y en
los valores (x1 , x2 , x3 ) como variables, la expresión anterior corresponde a la función
de probabilidad conjunta pX1 X2 X3 (x1 , x2 , x3 ), cuando hacemos lo contrario (las xi se
piensan como valores ya dados —(8, 11, 6) en el ejemplo que vimos al comienzo de esta
sección, o (7, 7, 13) en el más reciente—), la expresión queda solo en función de λ y
corresponde a la función de verosimilitud L(λ). Es decir que si tenemos en cuenta todas
las variables que influyen, en realidad
L(λ; x1 , x2 , x3 ) = pX1 X2 X3 (x1 , x2 , x3 ; λ), ∀λ > 0, ∀x1 , x2 , x3 ∈ N0 .
Observación 25. Cabe aclarar que en la definición anterior, como a lo largo de todo
este capítulo, θ puede ser un vector y por lo tanto la función de verosimilitud puede
ser función de uno o más parámetros desconocidos.
Definición 34. Dada una muestra X1 , . . . , Xn de una distribución (de v.a. discreta o
absolutamente continua) de la que se desconoce un parámetro θ, se denomina estimador
de máxima verosimilitud (EMV) de θ —y lo notamos θ̂M V — al valor de θ donde
la función de verosimilitud L(θ) alcanza su máximo global (si es que dicho valor es
único).
Cabe destacar que la observación 25 recuerda el hecho de que θ podría ser un vector,
algo que a veces podemos remarcar usando la notación θ. ~ Para ser más explícitos,
digamos que si se desconocen los parámetros θ1 , . . . , θp (p es la cantidad de parámetros
desconocidos), los estimadores de máxima verosimilitud de θ1 , . . . , θp (o también «el»
estimador de máxima verosimilitud del vector de parámetros θ~ = (θ1 , . . . , θp )) son las
respectivas coordenadas del punto del espacio paramétrico Θ ⊂ Rp donde se maximiza
la función de verosimilitud L(θ1 , . . . , θp ) (o bien podemos decir que el punto en sí mismo
ˆ
es el estimador θ~ —como vector— del parámetro θ~ —también como vector—)18 .
Ejemplo 35. Si deseamos volver al ejemplo anterior, pero suponiendo que tomaremos
una muestra de tamaño n arbitrario, podemos buscar una expresión del estimador de
máxima de verosimilitud para este caso general, en lugar de hacerlo específicamente
para muestras de tamaño n = 3, como lo hicimos hasta ahora. Es en estos casos en los
que se ve aún más claro las ventajas que genera trabajar con la log-verosimilitud l en
lugar de la verosimilitud L.
Por definición n
Y
L(λ) = pXi (xi )
i=1
y
n n n
Y X X e−λ λxi
l(λ) = ln L(λ) = ln pXi (xi ) = ln pXi (xi ) = ln ,
i=1 i=1 i=1
xi !
que por propiedades del logaritmo es
n
X n
−λ xi
X
l(λ) = ln e + ln λ − ln(xi !) = (−λ + xi · ln λ − ln(xi !)) .
i=1 i=1
ˆ
En este caso podemos usar tanto la notación θˆ1M V , . . . , θˆp M V como θ~M V , o incluso θ̂M V según la
18
claridad y la conveniencia.
CAPÍTULO 7. ESTIMADORES PUNTUALES 168
Por otro lado, las propiedades de la sumatoria (donde todo lo que no depende del índice
i es una «constante», i.e. algo que se repite en cada término de la suma) implican que
n
X n
X n
X n
X
l(λ) = (−λ) + xi · ln λ − ln(xi !) = −nλ + ln λ · xi + A(~x),
i=1 i=1 i=1 i=1
de donde surge Pn
i=1 xi
λ̂M V = = x̄n ,
n
o escrito como variable aleatoria,
Pn
i=1 Xi
λ̂M V = = X̄n .
n
Ejemplo 36. Consideremos la distribución N (µ, σ 2 ), y calculemos la log-verosimilitud
del parámetro (µ, σ 2 ).
n
! n
Y X
2 2
l(µ, σ ) = ln L(µ, σ ) = ln f (xi ) = ln f (xi ) ,
i=1 i=1
n
X 1 1 2 1 2
= − ln(2π) − ln(σ ) − 2 (xi − µ) =
i=1
2 2 2σ
19
Por confusa que pueda parecer la expresión de l, para entender sus propiedades conviene recordar
que solo es una verdadera función P λ, para lo que incluso se le pueden dar valores a n
Pen la «variable»
y las xi . Por ejemplo, si n = 10, xi = 109 y ln(xi !) = 154, se tiene l(λ) = −10λ + 109 ln λ − 154.
Se ve entonces claramente que l es la suma de una función logarítmica y un polinomio de grado uno.
CAPÍTULO 7. ESTIMADORES PUNTUALES 169
n
n n 2 1 X
= − ln(2π) − ln(σ ) − 2 (xi − µ)2 .
2 2 2σ i=1
se tiene n Pn
X
i=1 xi
xi − nµ = 0 ⇐⇒ µ= ,
i=1
n
es decir que
µ̂M V = x̄,
lo cual resulta sumamente intuitivo.
Supongamos, por el contrario, que el valor de µ es conocido, y es en realidad σ 2 el
parámetro a estimar. En lo sucesivo, para evitar la dificultad de derivar respecto de σ 2
como un todo, hacemos la sustitución α = σ 2 y buscamos el EMV de α. Es decir:
n
n n 1 X
l(α) = − ln(2π) − ln(α) − (xi − µ)2 ,
2 2 2α i=1
y como esto es una función derivable buscamos el máximo igualando a cero la derivada
n
n 1 X
l0 (α) = − + 2 (xi − µ)2
2α 2α i=1
Ejemplo 37. Si se tuviera Xi ∼ Γ(θ, 2), se tendría m1 (θ) = 2θ , por lo que la condición
de insesgamiento sería
θ
α0 + (α1 + · · · + αn ) = θ, ∀θ > 0.
2
Como las constantes αk no dependen de θ, es fácil ver que necesariamente debe ser
α0 = 0, 22 y luego
θ
(α1 + · · · + αn ) = θ, ∀θ > 0,
2
que implica
α1 + · · · + αn = 2.
22
Existen varias maneras de ver esto. Las más simples son dar dos valores particulares a θ > 0, por
ejemplo 1 y 2 y de ahí llegar a la conclusión buscada, o bien observar que tanto el miembro izquierdo
como el miembro derecho de la igualdad pueden pensarse como polinomios de grado uno en la variable
θ y que por lo tanto su término independiente y su coeficiente principal —es decir, la pendiente—
deben coincidir. Esto implica que α0 = 0 y que 12 (α1 + · + α2 ) = 1. Una tercera forma es decir que
como la igualdad vale para todo θ > 0, también es cierto que
θ
lı́m α0 + (α1 + · · · + αn ) · = lı́m+ θ
θ→0+ 2 θ→0
y esto equivale a α0 = 0.
CAPÍTULO 7. ESTIMADORES PUNTUALES 173
Mínimos cuadrados
Ejemplo 38. Supongamos que se estudia una variable aleatoria con distribución N (µ, σ 2 )
para la que se desea estimar µ. En tal caso, siendo µ la media de la distribución, po-
dríamos decir que el valor más razonable que deberían tomar las observaciones xi de
las variables Xi sería en cada caso xi = µ. Por ese motivo, tendría sentido definir para
cada observación el residuo
ûi = xi − µ.
Otra manera de interpretar esto es que si Xi ∼ N (µ, σ 2 ), también podemos escribir
X i = µ + εi ,
ûi = xi − µ,
Como resulta razonable desear que esta cantidad sea pequeña, el estimador de mínimos
cuadrados de µ se define como el valor µ̂M C que minimiza SCR(µ).
23
Como en tantas otras instancias, considerar la suma de los cuadrados es solo una alternativa,
que resulta conveniente por determinados motivos teóricos y prácticos,
P 4 Ppero existen infinidad de otras
posibilidades que también resultarían razonables, como tomar ûi , |ûi |, máx{|ûi |}1≤i≤n , etc.
CAPÍTULO 7. ESTIMADORES PUNTUALES 174
µ̂M C = X̄.
Un reparo que puede plantearse sobre este método es que, como se ve en el ejemplo
anterior, la distribución de las variables Xi no juega ningún rol en la deducción del
estimador en tanto valor que minimiza la SCR. Es cierto, sin embargo, que sí se tu-
vo en cuenta la distribución informalmente a la hora de elegir una definición para los
residuos ûi . Es claro entonces que los estimadores así obtenidos serán razonables siem-
pre y cuando la definición de los residuos sea adecuada en términos de la distribución
subyacente y de cómo la misma se ve afectada por variaciones en el parámetro que se
busca estimar.
24
Vale la pena notar que la única complicación en los cálculos surge de la notación de sumato-
ria, que en cualquier caso nos permite obtener un resultado genérico para cualquier n y justificarlo
adecuadamente. Alternativamente, se puede recurrir a una notación con puntos suspensivos
o incluso realizar los cálculos cada vez a partir de los valores observados. Por ejemplo, si n = 3,
x1 = 1,3, x2 = 2,4 y x3 = 1,5, se tiene
Intervalos de confianza
Entonces, por ejemplo, z0,05 = Φ−1 (0,95) ≈ 1,64, z0,95 = Φ−1 (0,05) ≈ −1,64 y
z0,025 = Φ−1 (0,975) ≈ 1,96.1
El mismo sentido tienen las notaciones χ2n;α , tn;α y Fm,n;α , en relación a las distri-
buciones χ2n , tn y Fm,n , respectivamente.
1
Aquí Φ representa la función de distribución (acumulada) de la distribución N (0, 1) y Φ−1 es su
inversa, denominada a veces función de cuantiles de la distribución normal estándar. Notar que la
función que asigna a cada valor α ∈ [0, 1] el valor zα , no es la inversa de Φ, sino la inversa de 1 − Φ.
175
CAPÍTULO 8. INTERVALOS DE CONFIANZA 176
Es decir que, por ej., una expresión para intervalos de 95 % de confianza dará como
resultado el 95 % de las veces —en promedio— intervalos numéricos que contienen al
parámetro que se busca estimar, mientras que el 5 % restante de las veces dejará afuera
(por exceso o por defecto) el verdadero valor de dicho parámetro.
CAPÍTULO 8. INTERVALOS DE CONFIANZA 177
X̄ − µ
Z=
√σ
n
es un pivote para µ.
En primer lugar, es evidente que el valor de Z depende del valor de µ. Sin embargo,
sabemos que
Z ∼ N (0, 1),
es decir que la distribución de Z es la misma independientemente del valor de µ.
Para aclarar esto, notemos que si se tiene Xi ∼ N (10, 16), entonces
X̄ − 10
Z= ∼ N (0, 1),
√4
n
X̄ − 45
Z= ∼ N (0, 1);
√4
n
en ambos casos la distribución es N (0, 1), aunque el valor de µ difiere. Sin embargo,
para una muestra dada, los estadísticos toman diferentes valores. Por ejemplo, si n = 1
y x1 = 20, en el primer caso resulta Z = 2,5, mientras que en el segundo se tiene
Z = −6,25. Es decir, el valor numérico de Z (una vez tomada la muestra) depende del
valor de µ, pero no su distribución (antes de tomar la muestra).
CAPÍTULO 8. INTERVALOS DE CONFIANZA 178
Veamos que contar con un pivote para un parámetro desconocido θ puede ser útil
para hallar intervalos de confianza para el mismo.
Dado un cierto nivel de confianza 1 − α, siguiendo la notación de la definición
~ θ) es un pivote para θ. Si se conoce la distribución
anterior, supongamos que T = g(X;
de T , se pueden encontrar números cα y dα tales que
P(cα ≤ T ≤ dα ) = 1 − α.
Cabe notar dos cuestiones:
es decir
σ σ σ σ
P z α2 · √ ≥ −X̄ + µ ≥ −z α2 · √ = P −z α2 · √ ≤ −X̄ + µ ≤ z α2 · √ = 1−α.
n n n n
por lo que
σ σ
X̄ − z α2 · √ , X̄ + z α2 · √
n n
es un intervalo de confianza de nivel 1 − α para µ, siempre que σ 2 sea conocida.
Ejemplo 41. Si recordamos que para una muestra de una distribución N (µ, σ 2 ) se
tiene que
X̄ − µ
S
∼ tn−1 ,
√
n−1
Es de notar que en los dos ejemplos anteriores, la expresión que da ambos extremos
de los intervalos podría resumirse como
σ
X̄ ± z α2 · √
n
o
S
X̄ ± tn−1; α2 · √ ,
n−1
respectivamente. A este tipo de intervalos, que se expresan como un valor central
(usualmente un estimador razonable del parámetro en cuestión), al que se resta y
suma cierta cantidad (que suele denominarse precisión y se representa como ε), se los
denomina informalmente intervalos aditivos.
En cualquier caso, no todos los intervalos resultan de esta forma, como se ve en el
ejemplo siguiente.
nS 2
P cα ≤ 2 ≤ dα = 1 − α.
σ
Como los tres miembros de la desigualdad anterior son no negativos, esto equivale a
σ2
1 1
P ≥ ≥ = 1 − α,
cα nS 2 dα
o bien
σ2
1 1
P ≤ ≤ = 1 − α.
dα nS 2 cα
Pero esto es lo mismo que
2
nS 2
2
nS nS 2
nS 2 2
P ≤σ ≤ =P σ ∈ , = 1 − α,
dα cα d α cα
CAPÍTULO 8. INTERVALOS DE CONFIANZA 181
2
por lo que un posible intervalo de nivel 1 − α para σ está dado por
" #
nS 2 nS 2
, .
χ2α χ21− α
2 2
Hasta ahora todos los ejemplos de intervalos fueron para estimar uno de los dos
parámetros de la distribución normal. Como un ejemplo alternativo, veamos cómo
obtener un pivote para el parámetro λ de una distribución exponencial y el intervalo
que se deduce de aquel.
Ejemplo 43. Supongamos que se cuenta con una muestra aleatoria X1 , ..., Xn con
Xk ∼ E(λ). Puede probarse (se deja como ejercicio3 ) que
n
X
2λnX̄ = 2λ Xi ∼ χ22n . (8.1)
i=1
Resulta claro entonces que el estadístico 2λnX̄ es un pivote para λ, ya que es una
función no constante de λ, pero su distribución —χ22n — no depende del valor de λ. Por
esto último, dado un nivel de confianza 1 − α es posible encontrar (si se conocen los
cuantiles de la distribución χ22n ) constantes cα y dα (solo dependientes de α) tales que
P(cα ≤ 2λnX̄ ≤ dα ) = 1 − α.
y por definición
cα dα
,
2nX̄ 2nX̄
es un intervalo de confianza de nivel 1 − α para λ.
Desde ya, como se vio en ejemplos anteriores, los valores cα y dα no están uní-
vocamente determinados; por el contrario, cualquier elección del tipo cα = χ22n;1−γ y
dα = χ22n;δ con γ + δ = α es válida. Como se verá en el apartado 8.3, la elección de
un par de valores específico puede basarse en criterios de optimalidad (como abarcar
la región de mayor densidad de la distribución en cuestión, obtener el intervalo de
menor longitud posible, etc.) que salvo en casos triviales solo pueden llevarse adelante
mediante métodos numéricos, o bien se puede privilegiar la simplicidad conceptual y
práctica, que es lo que lleva a tomar γ = δ = α2 . En este último caso, por ejemplo, se
obtiene el intervalo " 2
χ2n;1− α χ22n; α
#
2 2
, .
2nX̄ 2nX̄
Cabe aclarar que si bien el método del pivote da un procedimiento para hallar
intervalos de confianza bastante general (y muy útil, por cierto), es posible deducir
fórmulas a partir de otros procedimientos. Damos un ejemplo a continuación.
Ejemplo 44. Supongamos que la muestra aleatoria surge de una población normal de
media µ. Como µ es —entre otras cosas— la mediana de la distribución, resulta que
para k = 1, 2, . . . , n,
1
P(Xk ≤ µ) = P(Xk ≥ µ) = .
2
Entonces es fácil ver que
n
1
P máx{Xk } ≤ µ =
2
(pues esto equivale a que todas las observaciones sean menores o iguales a µ) y de igual
modo n
1
P mı́n{Xk } ≥ µ = .
2
Tratándose claramente de sucesos incompatibles4 , resulta que
n n n−1
1 1 1
P mı́n{Xk } ≥ µ ∨ máx{Xk } ≤ µ = + = ,
2 2 2
4
En realidad, podrían darse simultáneamente si máx{Xk } = mı́n{Xk } = µ, pero esto equivale
a que todas los observaciones coincidan con µ. Como la distribución de las variables observadas es
absolutamente continua, esto tiene probabilidad nula.
CAPÍTULO 8. INTERVALOS DE CONFIANZA 183
que es equivalente a
n−1
1
P mı́n{Xk } ≤ µ ≤ máx{Xk } = 1 − .
2
Pero esto prueba que
mı́n{Xk }, máx{Xk }
n−1
es un intervalo de confianza de nivel 1 − 12 para µ (por ejemplo, si n = 10, el nivel
10−1
de confianza será de 1 − 21
≈ 0,998).
~ B(X)].
para el intervalo [A(X), ~
Entonces podríamos preguntarnos cuál es la elección de valores cα y dα que generan
el intervalo de menor longitud. La respuesta a este problema varía de un caso al otro;
el siguiente ejemplo se ocupa de un caso particular, que puede extenderse a otras
situaciones.
Ejemplo 45. Notemos, en primer lugar, que para el caso general el intervalo que se
obtiene para σ 2 con nivel 1 − α es
2
nS nS 2
, ,
d α cα
por lo que la longitud es
~ = nS 2 1 1
L(X) − ,
cα d α
CAPÍTULO 8. INTERVALOS DE CONFIANZA 184
Por lo tanto, el intervalo óptimo se obtiene para los valores c∗ y d∗ que resuelven el
problema de optimización
1 1
mı́n L ∝ −
(c,d) c d
sujeto a
F (d) − F (c) = 1 − α.
y
F (d∗ ) − F (c∗ ) = 1 − α
(donde f y F son, respectivamente, las funciones de densidad y de distribución y de
una v.a. χ2n−1 ). En general, no se puede encontrar una expresión sencilla para c∗ y d∗ ,
aunque en cada caso particular pueden aplicarse métodos numéricos para resolver este
problema. Una vez hallados dichos valores, el intervalo óptimo en términos de longitud
será 2
nS nS 2
, .
d ∗ c∗
Si bien este intervalo en general no coincide con el que se dedujo en el ejemplo
anterior, las dificultades de cálculo hacen que aquel sea de uso más frecuente que el
intervalo de menor longitud.
Para mayor claridad, veamos como se plasma todo esto en un ejemplo numérico.
Ejemplo 46. Asumamos que se toma una muestra aleatoria de tamaño n = 8 de una
población N (µ, σ 2 ). Supongamos además que de la misma resulta que
X X
xi = 128,4 y x2i = 3121.
CAPÍTULO 8. INTERVALOS DE CONFIANZA 185
y
dα = χ27; α = χ27;0,025 ≈ 16,01;
2
2
el intervalo que se obtiene para σ con un 95 % de confianza es
[66,2, 627,4],
cα = c∗ = 2,1473
y
dα = d∗ = 23,794
(valores que se obtienen mediante métodos númericos-computacionales) y el intervalo
que se obtendría para σ 2 con un 95 % de confianza es
[44,5, 493,6],
0.12
0.08
0.04
f
0.00
c Mo d
0 5 10 15 20
186
CAPÍTULO 8. INTERVALOS DE CONFIANZA 187
que claramente da un pivote de nivel asintótico para p. Esto implica que si n es sufi-
cientemente grande
p̄n − p
P −zα/2 ≤ q ≤ zα/2 ≈ 1 − α.
p(1−p)
n
CAPÍTULO 8. INTERVALOS DE CONFIANZA 189
que equivale a
2
)p2 − (2np̄ + zα/2
2
)p + np̄2 ≤ 0 ≈ 1 − α.
P (n + zα/2
Y como la expresión que se busca sea menor o igual a cero representa una parábola
convexa, la condición buscada se cumple si p está entre ambas raíces la parábola. Es
decir que
P(p1 ≤ p ≤ p2 ) ≈ 1 − α
con q
2 2 2
2np̄ + zα/2 ± (2np̄ + zα/2 )2 − 4(n + zα/2 )np̄2
p1,2 = 2
.
2(n + zα/2 )
Desarrollando esta expresión puede verse que, entre otras posibles expresiones, las raíces
pueden escribirse como
2 2
zα/2 zα/2
p1 = p̄ − 2
· p̄ y p2 = p̄ + 2
· (1 − p̄),
n + zα/2 n + zα/2
que también da un pivote asintótico para p, con la ventaja práctica de que el parámetro
p aparece una sola vez en la expresión. Luego, si n es suficientemente grande,
p̄n − p
P −zα/2 ≤ q ≤ zα/2 ≈ 1 − α,
p̄(1−p̄)
n
es decir que otro intervalo de nivel asintótico 1 − α para p está dado por
q q
p̄(1−p̄) p̄(1−p̄)
p̄n − zα/2 · n
, p̄n + zα/2 · n
.
Este intervalo es de uso más frecuente por su simplicidad, aunque es esperable que
la aproximación a la distribución N (0, 1) del pivote del que se deduce sea menos precisa
que la del pivote del cual se dedujo la expresión vista anteriormente. Otra diferencia
entre ambas opciones es que, mientras el primer intervalo visto para p siempre estará
contenido en el intervalo (0, 1) (los valores posibles de p)5 , el intervalo más «simple»
puede extenderse más allá del mismo, si se toma α suficientemente cercano a 0.
Ejemplo 49. En el ejemplo 43 vimos como obtener un IC de nivel exacto para el
parámetro λ de una distribución exponencial. Veamos que mediante el TCL podemos
obtener un intervalo de nivel asintótico para el mismo parámetro.
En primer lugar, recordemos que si X ∼ E(λ), entonces E(X) = λ1 y var(X) = λ12 .
Luego, por el TCL, si se tiene una muestra X1 , . . . , Xn con dicha distribución, sabemos
que
X̄n − λ1 √ D
Z= 1 = n(λX̄n − 1) −−−−→ N (0, 1),
√ n→∞
λ n
(X̄ − Ȳ ) − (µX − µY )
q 2 2
∼ N (0, 1),
σX σY
nX
+ nY
2
de donde se deduce que si las varianzas σX y σY2 son conocidas, entonces
(X̄ − Ȳ ) − (µX − µY )
q 2
σX σ2
nX
+ nYY
Pruebas de hipótesis
En esta sección desarrollamos las ideas básicas sobre las pruebas de hipótesis. En el
apartado 9.1 presentamos los conceptos generales, cuya aplicación a un caso específico
ejemplificamos en el apartado 9.2. En el apartado 9.3 recopilamos los resultados del
capítulo 6 en base a los cuales se pueden obtener estadísticos para diversas pruebas
de hipótesis paramétricas usuales. Finalmente, en el ?? desarrollamos un ejemplo de
prueba no paramétrica o de distribución libre: el test de Mann-Withney-Wilcoxon.
192
CAPÍTULO 9. PRUEBAS DE HIPÓTESIS 193
puede expresarse diciendo que θ toma valores en un cierto subconjunto Θ0 del espacio
paramétrico. Por ejemplo, si el modelo tiene un solo parámetro (unidimensional), la
hipótesis H de que «θ es un valor positivo» puede representarse como
H: θ ∈ (0, +∞),
Definición 37. Dada una muestra aleatoria de tamaño n para un modelo estadístico y
un par de hipótesis mutuamente excluyentes H0 vs. H1 para dicho modelo, se denomina
test o prueba de hipótesis a cualquier función
ϕ : Rn → {0, 1},
CAPÍTULO 9. PRUEBAS DE HIPÓTESIS 194
Estadísticos de prueba
etc., ya que las hipótesis estadísticas no representan en realidad sucesos aleatorios en la perspectiva
clásica, sino simplemente hechos ciertos o falsos, aunque desconocidos.
5
Esto es consencuencia del denominado Teorema de Neyman-Pearson.
6
Podrían ser también intervalos cerrados en kα ; en la mayoría de los casos esto no tiene mayor
relevancia, y menos aún si se usan estadísticos continuos.
CAPÍTULO 9. PRUEBAS DE HIPÓTESIS 197
o
~ > kα ,
se rechaza H0 si g(X)
donde se hace uso del conocimiento que se tiene de la distribución del estadístico bajo
H0 para determinar el valor kα que garantiza un nivel de significación α dado.
En cualquier caso, la elección de una u otra opción depende de cada caso particular,
lo que quedará más claro al ver ejemplos de aplicación.
Tests unilaterales
Supongamos ahora que la hipótesis nula es, como antes, simple, pero la hipótesis
alternativa resulta compuesta. En particular, estudiamos en este apartado los tests de
la forma
H0 : θ = θ0 vs. H1 : θ > θ0 ,
y su análogo
H0 : θ = θ0 vs. H1 : θ < θ0 .
Supongamos, para empezar, que se determinó para el caso del contraste de hipótesis
simples
H0 : θ = θ0 vs. H1 : θ = θ1
que la elección razonable para Rc es de la forma (kα , +∞)7 siempre que sea θ1 > θ0 .8
Entonces, cuando la hipótesis alternativa es θ > θ0 , aun con la dificultad de que la
hipótesis alternativa no supone ningún valor específico, tiene sentido tomar la misma
regla de decisión, ya que en caso de que H0 sea falsa resultará que θ = θ1 para algún
valor θ1 > θ0 .
El mismo razonamiento valdrá cuando se tenga un test razonable para
H0 : θ = θ0 vs. H1 : θ = θ1
7
Esto es solo un ejemplo: como se verá en el apartado 9.2, bien podría ser que la opción adecuada
fuera (−∞, kα ).
8
Desde ya, podría ocurrir que para ciertos θ1 > θ0 la región crítica óptima —la de mayor potencia—
sea una, y para otros valores una distinta. Sin embargo, en gran cantidad de casos de interés teórico y
práctico, incluyendo los que estudiaremos en el curso, los parámetros vienen de familias de distribucio-
nes donde tal «modificación» no ocurre, en cuyo caso se habla de familias de cociente de verosimilitud
monótono.
CAPÍTULO 9. PRUEBAS DE HIPÓTESIS 198
H0 : θ ∈ Θ0 ,
~ para testear H0 , se denomina nivel de significación del test
y un test de hipótesis ϕ(X)
al valor
α = sup Pθ (ϕ(X) ~ = 1).
θ∈Θ0
Con esta definición es claro que si se tiene un test de nivel α para contrastar
H0 : θ = θ0 vs. H1 : θ > θ0 ,
el mismo también es un test de nivel α (teniendo en cuenta la definición 39) para testear
H0 : θ ≤ θ0 vs. H1 : θ > θ0 ,
H0 : θ = θ0 vs. H1 : θ 6= θ0 .
Resulta usual que cuando una de las prueba unilaterales mencionadas en el apartado
anterior resulta óptima si la Rc es de la forma (k1,α , +∞), la prueba contraria (es
9
Desde ya, lo mismo vale si se invierten las desigualdades.
CAPÍTULO 9. PRUEBAS DE HIPÓTESIS 199
decir, con las desigualdades invertidas), resulta óptima al elegir una región de la forma
(−∞, k2,α ) y viceversa. Por este motivo, si la hipótesis alternativa incluye tanto valores
menores como mayores a θ0 , cualquier test con una Rc de esa forma sólo resultará
óptimo para rechazar H0 cuando θ esté de un lado de θ0 . Más aún, en general, si θ
toma un valor al otro lado de θ0 , se tendrá que —aunque H0 es falsa— será menos
probable rechazarla incluso que si fuera cierta. Esto es, de ese «lado de la hipótesis
nula», la potencia será menor que α.
Para resolver o atenuar esta dificultad, en la mayoría de los casos (incluyendo los
de cociente de verosimilitud monótono), el testeo de hipótesis bilaterales se hace con
una región crítica de la forma
Rc = (−∞, k1,α ) ∪ (k2,α , +∞),
donde los valores k1,α y k2,α se eligen de modo de alcanzar el nivel de significación
deseado.
Más aún, idealmente dichos valores podrían elegirse de tal manera que la prueba
tenga la siguiente propiedad deseable:
Definición 40. Se dice que un test ϕ para contrastar
H0 : θ ∈ Θ0 vs. H1 : θ ∈ Θ1
es insesgado si y solo si
~ = 1) ≤ ı́nf Pθ (ϕ(X)
α = sup Pθ (ϕ(X) ~ = 1).
θ∈Θ0 θ∈Θ1
• H0 : λ = 2 vs. H1 : λ = 3
• H0 : λ = 2 vs. H1 : λ > 2
• H0 : λ ≤ 2 vs. H1 : λ > 2
• H0 : λ = 2 vs. H1 : λ 6= 2, etc.
para el caso de hipótesis simples suele ser razonable e incluso óptimo definir Rc
como el conjunto de valores superiores o inferiores a una cierta constante kα ;
para el caso de una hipótesis alternativa bilateral suele tomarse Rc como la unión
de dos intervalos.
Basados en el estadístico hallado, podemos plantear un test que nos permita con-
trastar
H0 : λ = 2 vs. H1 : λ = 3.
En este caso ambas hipótesis son simples: del espacio paramétrico de λ que es
(0, +∞), solo se consideran posibles los valores 2 y 3, por cuestiones que hacen a las
características del problema específico. Además, resulta que el χT EST = 2 · 2nX̄ = 4nX̄
solo puede tomar valores también en (0, +∞) (aunque no necesariamente deba darse
siempre esa coincidencia entre espacio paramétrico y soporte del estadístico).
Si se tiene noción del papel que λ juega en la distribución (por ejemplo, recordemos
que si λ es «grande» la esperanza de las Xi es «chica» —cercana a cero— y viceversa),
puede hacerse un análisis intuitivo de la situación. Notemos que como en última ins-
tancia χT EST es creciente en X̄, un valor «grande» del estadístico (y por tanto de X̄
y en última instancia de la mayoría, sino de todas, las Xi ) sugiere un valor «pequeño»
para λ. De la misma manera, los valores «bajos» del estadístico indican que deberíamos
inclinarnos por valores «altos» de λ. Como en este caso solo hay dos posibles valores,
si χT EST resulta elevado, el valor λ = 2 (el menor) será más razonable y se mantendrá
H0 . Por el contrario, si χT EST es bajo tenderemos a rechazar H0 y concluir que es más
razonable asumir que λ = 3.
En base a todo esto lo más razonable parece ser fijar un valor kα para establecer
una regla de decisión de la forma
Pero esa decisión debe respetar el nivel de significación α que se haya prefijado, lo
que justifica la notación kα . Esta condición implica:
Como con H0 verdadera se tiene la distribución χ22n para el estadístico, por definición
kα = χ22n,1−α , es decir, el valor de tabla que acumula probabilidad 1 − α a su derecha
(y consecuentemente, α a su izquieda, como se busca).
En conclusión, se tiene
Rc = (0, χ22n,1−α ),
es decir, la siguiente regla de decisión:
Puede probarse que si —por ejemplo— α = 0,1 y n = 10, con la hipótesis alternativa
en cuestión se tiene Π = 0,4562.
Resulta interesante, sin embargo, que si se hubiese planteado al revés la condición
de rechazo (rechazar cuando χT EST > χ22n,1−α ), el mismo análisis daría, para los mismos
α y n, una potencia Π = 0,0023, un valor bajísimo, más aún cuando se compara con
el obtenido en el caso anterior. Esto justifica en parte la elección hecha para Rc .
Es claro que si se hubiera tenido, en cambio, H1 : λ = 1, el mismo análisis habría
dado la regla de decisión opuesta, lo que explica por qué decimos que una buena elección
de Rc (y eventualmente una elección óptima) implica considerar tanto el riesgo α como
la hipótesis alternativa (H1 ).
H0 : λ = 2 vs. H1 : λ > 2
14
Notemos una vez más que aunque la alternativa λ = 3 es mayor que el valor λ = 2 de H0 , esta
se rechaza cuando el estadístico toma valores bajos, en el extremo izquierdo de la distribución χ22n .
Esto es una simple consecuencia de la relación inversa entre λ y E(X̄), y si bien no tiene mayores
consecuencias, muestra la importancia de un análisis detallado y el riesgo de basarse en reglas rígidas,
muchas veces erróneas y cuya justificación la mayoría de las veces se desconoce, así como su utilidad
real y sus limitaciones.
CAPÍTULO 9. PRUEBAS DE HIPÓTESIS 204
Rc = (0, χ22n,1−α ),
Rc = (0, χ22n,1−α ),
que indica la potencia (es decir, la probabilidad de rechazar H0 ) para cada uno de los
posibles valores que puede tomar λ si H0 es falsa (es decir, para cada valor considerado
en H1 . El gráfico de esta función se denomina curva de potencia del test y muestra,
por ejemplo, qué tan «rápido» mejora la potencia del test cuando suponemos valores
de λ > 2 cada vez más alejados de λ0 = 2.
En la Figura 9.1 (pág. 205) se observan las curvas de potencia para diferentes valores
de n y α.
15
También se podría haber planteado H1 : λ > 3 o H1 : 4 < λ < 10, entre una infinidad de
posibilidades. En este caso se dice que las hipótesis son no contiguas, mientras que en el caso que
se analiza en este apartado H0 y H1 son hipótesis contiguas: no hay puntos de la recta entre {2} y
(2, +∞).
CAPÍTULO 9. PRUEBAS DE HIPÓTESIS
alpha=0.1 n=10 alpha=0.1 n=50 alpha=0.1 n=100 alpha=0.1 n=1000
1.0
1.0
1.0
0.8
0.8
0.8
0.8
0.6
potencia
potencia
potencia
potencia
0.6
0.6
0.6
0.4
0.4
0.4
0.4
0.2
0.2
0.2
0.2
2.0 3.0 4.0 5.0 2.0 3.0 4.0 5.0 2.0 3.0 4.0 5.0 2.0 3.0 4.0 5.0
1.0
1.0
1.0
0.5
0.8
0.8
0.8
0.4
0.6
0.6
0.6
potencia
potencia
potencia
potencia
0.3
0.4
0.4
0.4
0.2
0.2
0.2
0.2
0.1
0.0
0.0
0.0
0.0
2.0 3.0 4.0 5.0 2.0 3.0 4.0 5.0 2.0 3.0 4.0 5.0 2.0 3.0 4.0 5.0
205
CAPÍTULO 9. PRUEBAS DE HIPÓTESIS 206
H0 : λ ≤ 2 vs. H1 : λ > 2
También este caso puede tratarse en base al análisis previo. La diferencia con res-
pecto a los casos anteriores es que H0 es ahora una hipótesis compuesta que cubre los
posibles valores de λ ≤ 2 (el intervalo (0, 2]). La principal consecuencia de esto es que
ya no tiene sentido hablar de la probabilidad de cometer ET I (es decir, rechazar H0
en el caso de que esta sea correcta), a menos que se indique para qué valor específico
de λ ≤ 2 se indica esa probabilidad.
Sin embargo, puede probarse en este caso (y también en los que se mencionan en los
próximos apartados, dado el tipo de distribuciones que involucran16 ) que si se define
Rc igual que en el caso anterior, entonces
Pλ (ET I)
alcanza su máximo valor (suponiendo H0 cierta, o sea λ ≤ 2) cuando λ = 2 = λ0 (o
sea, en el borde, donde H0 se «toca» con H1 ). Por lo cual, simplemente se debe dar una
nueva (y definitiva) definición del nivel de significación α como la máxima probabilidad
de cometer ET I, y así α es un valor independiente del valor real que tome λ dentro de
los incluidos en H0 . Hecha esta aclaración, la Rc se elige igual que en los casos anteriores
y valen las mismas consideraciones hechas sobre la potencia en el último apartado.
H0 : λ = 2 vs. H1 : λ 6= 2
se habría optado por el planteo opuesto: rechazar H0 para valores «grandes» del esta-
dístico. Más precisamente, se habría elegido en cualquiera de los tres casos
Rc = (χ22n,α , +∞).
Es fácil ver que ninguna de estas dos opciones para Rc puede dar buenos resultados
en el test bilateral. Si definiéramos, como en los primeros ejemplos,
Rc = (0, χ22n,α ).
el test seguiría teniendo nivel α de significación, y cuando se tenga λ > 2 (que implica
que H0 es falsa), la probabilidad de rechazar en general será mayor que α (siendo esta
última, recordemos, la probabilidad de rechazar cuando λ = 2 —que implica cometer
ET I —). Incluso es fácil calcular e intuir que si λ >> 2 la potencia será mucho mayor
que α y hasta puede probarse que Π −→ 1 si λ −→ +∞.
Pero si ocurriera que en realidad λ < 2, lo que en este caso también indica que H0
es falsa, surge de lo dicho en el ítem anterior sobre la redefinición de α que ahora la
probabilidad de rechazar H0 , la potencia de la prueba, será menor que α. Incluso puede
verse que esa potencia será menor cuanto menor sea λ y tenderá a 0 cuando también
λ lo haga.
Es decir que si H0 fuera falsa porque en realidad λ > 2, tendríamos buenas chances
de obtener una muestra que nos haga tomar la decisión deseable de rechazarla, una
alta potencia. Pero si H0 fuera igualmente falsa, pero por el motivo opuesto (λ < 2), la
probabilidad de rechazarla sería aun más baja que si en realidad fuera cierta (λ = 2).
Y esta situación claramente no deseable se profundizaría cuanto «más falsa» sea H0 en
esa dirección, es decir, cuanto más se aleje λ del valor 2 hacia la izquierda.
Sobra decir que la elección de
Rc = (χ22n,α , +∞)
generaría la situación opuesta: mucha potencia para detectar que H0 es falsa porque
λ < 2, pero poca o casi nula probabilidad de hacerlo si λ > 2 (incluso menos que la
probabilidad de, equivocadamente, rechazarla cuando λ = 2).
CAPÍTULO 9. PRUEBAS DE HIPÓTESIS 208
Esto sugiere la idea de dividir la Rc en dos partes, de manera que tanto valores
de λ sensiblemente menores a 2 como aquellos claramente mayores a 2 puedan ser
detectados con alta probabilidad. Es decir que la región crítica tendrá la forma
0.8
0.8
0.8
0.8
potencia
potencia
potencia
potencia
0.4
0.4
0.4
0.4
0.0
0.0
0.0
0.0
0.0 1.0 2.0 0.0 1.0 2.0 0.0 1.0 2.0 0.0 1.0 2.0
0.8
0.8
0.8
potencia
potencia
potencia
potencia
0.4
0.4
0.4
0.4
0.0
0.0
0.0
0.0
0.0 1.0 2.0 0.0 1.0 2.0 0.0 1.0 2.0 0.0 1.0 2.0
209
CAPÍTULO 9. PRUEBAS DE HIPÓTESIS 210
Estimación de µ
X̄ − µ
Z= ∼ N (0, 1)
√σ
n
X̄ − µ0
ZT EST = ∼ N (0, 1),
√σ
n
X̄ − µ
t= ∼ tn−1
√S
n−1
X̄ − µ0
tT EST = ∼ tn−1 ,
√S
n−1
Estimación de σ 2
nσ̂µ2
χ = 2 ∼ χ2n
σ
17
En realidad, en este como otros casos similares que aparecen más abajo, el resultado que se da es
—desde ya— independiente de que σ 2 sea un número conocido o no, y dado que no utiliza ese dato
puede aplicarse en cualquiera de los casos. Sin embargo, dado que el estadístico presentado antes —en
las pocas situaciones en que se tiene la información para usarlo— da lugar en general a tests más
potentes y los intervalos que surgen al tomarlo como pivote son más precisos en la mayoría de los
casos, el estadístico de la t − Student se reserva para cuando no hay otra opción viable.
CAPÍTULO 9. PRUEBAS DE HIPÓTESIS 212
nσ̂µ2
χT EST = 2 ∼ χ2n
σ0
nS 2
χ = 2 ∼ χ2n−1 ,
σ
que es un pivote para σ 2 ; luego, bajo la hipótesis H0 : σ 2 = σ02 ,
nS 2
χT EST = 2
∼ χ2n−1 .
σ0
Suponemos en este apartado que las Xi son independientes y todas tienen igual
distribución, aunque no se especifica cuál. Solo se supone que E(Xi ) = µ y var(Xi ) = σ 2
existen y son valores finitos. Los resultados que se presentan son asintóticos, por lo que
si n no es lo suficientemente grande, los resultados pueden ser notoriamente erróneos.
Por cierto, a partir de qué valor de n es válida la aproximación es una cuestión que varía
según las particularidades de la distribución poblacional en cuestión y de la precisión
requerida en cada aplicación.
Estimación de µ
X̄ − µ D
Z= −→ N (0, 1).
√σ
n
CAPÍTULO 9. PRUEBAS DE HIPÓTESIS 213
X̄ − µ D
Z= −→ N (0, 1).
√S
n
Estimación de µX − µY
2
Varianzas conocidas. Si se conocen σX y σY2 puede usarse como pivote de la
diferencia µX − µY el estadístico
(X̄ − Ȳ ) − (µX − µY )
Z= q 2 2
∼ N (0, 1),
σX σY
nX
+ nY
CAPÍTULO 9. PRUEBAS DE HIPÓTESIS 214
y bajo la hipótesis H0 : µX − µY = d0
(X̄ − Ȳ ) − d0
ZT EST = q 2 2
∼ N (0, 1)
σX σY
nX
+ nY
(El estadístico del test de igualdad de medias se obtiene en el caso particular d0 = 0).
2
Varianzas desconocidas iguales. Si no se conocen σX ni σY2 pero puede supo-
nerse que son iguales, puede usarse como pivote de µX − µY :
(X̄ − Ȳ ) − (µX − µY )
t= q ∼ tnX +nY −2 ,
Sp n1X + n1Y
donde
2
nX SX + nY SY2
Sp2 = .
nX + nY − 2
Procediendo análogamente al ítem anterior se obtiene un estadístico para la hipótesis
nula H0 : µX − µY = d0 .
2
Varianzas desconocidas distintas. Si no se conocen σX ni σY2 y no es razonable
suponer que son iguales o se sabe que no es así, se puede usar el hecho de que
(X̄ − Ȳ ) − (µX − µY )
tW = q 2
SX S2
nX
+ nYY
nX SX2
nY − 1 σY2 Sn2X −1 σY2
F = · · = · 2 ∼ F(nX −1,nY −1) ,
nY SY2 nX − 1 σX 2
Sn2Y −1 σX
2
σX 2
σX
que da un pivote para 2
σY
o su inversa, y un estadístico de prueba para H0 : 2
σY
= c0 ,
2
σY
si se toma 2
σX
= c10 . En particular, si se lo reemplaza por 1 (es decir, se lo omite del
estadístico), sirve para testear la igualdad de varianzas.
Estimación de µX − µY
2
Varianzas conocidas. Si se conocen σX y σY2 puede usarse que
(X̄ − Ȳ ) − (µX − µY ) D
Z= q 2 2
−→ N (0, 1)
σX σY
nX
+ nY
(X̄ − Ȳ ) − (µX − µY ) D
Z= q 2 −→ N (0, 1),
SX SY2
nX
+ nY
esta expresión no es útil para hacer inferencia sobre pX − pY , ya que no solo depende de
dicha diferencia, sino también de los valores individuales de pX y pY , que se desconocen
(de hecho, si se los conociera no tendría sentido estimar su diferencia). Sin embargo,
se tienen los siguientes resultados:
Caso general. Puede usarse tanto para estimar pX − pY como para testear H0 :
pX − pY = d0 el hecho de que
donde
nX p̄X + nY p̄Y
p̂ = .
nX + nY
µD = E(Di ) = E(Xi − Yi ) = µX − µY
y
2
σD = var(Di ) = var(Xi − Yi ) =
2
= var(Xi ) + var(Yi ) − 2 cov(Xi , Yi ) = σX + σY2 − 2ρσX σY .
En particular, esto muestra que hacer inferencia (puntual, por intervalo o por tests)
para µX − µY es lo mismo que hacerlo para µD . Es decir que, en principio, el problema
se reduce a uno de los casos más simples: inferencia para la media de una sola muestra
de una distribución normal. No obstante, existen algunos detalles a considerar.
Es claro que σD̄−µ
√D ∼ N (0, 1), pero como en general los parámetros necesarios para
D/ n
calcular σD se desconocen, esto es de poca utilidad. En cualquier caso, también vale
que
D̄ − µD
t= SD
∼ tn−1 ,
√
n−1
D̄ − d0
tT EST = ∼ tn−1
√SD
n−1
si vale H0 : µD = d0 .
18
Claramente esto implica que si ρ 6= 0 Xi e Yi son dependientes (de hecho, ρ es el coeficiente de
correlación lineal ). Pero como la muestra es aleatoria, (Xi , Yi ) y (Xj , Yj ) son vectores independientes
si i 6= j; en particular, Xi e Yj son independientes, al igual que Yi e Yj , etc. En cualquier caso, el hecho
de que exista correlación entre Xi e Yi impide usar los procedimientos anteriores. Pero además puede
probarse que mediante procedimientos que den cuenta de estas relaciones —y si la correlación no es
demasiado débil— pueden lograrse estimaciones más eficientes, intervalos más precisos y tests más
potentes para analizar la diferencia de medias que si se hubiesen tomado dos muestras independientes
de igual tamaño y con las mismas varianzas.
CAPÍTULO 9. PRUEBAS DE HIPÓTESIS 218
Suponemos que E(Xi ), E(Yi ), var(Xi ), var(Yi ) y cov(Xi , Yi ) son finitas y tienen las
expresiones ya mencionadas.
En esta situación las variables de la muestra D1 , ..., Dn también son IID y su media
y varianza son finitas, con las expresiones ya vistas. En tal caso, por TCL, la Ley de
los Grandes Números y el T. de Slutzky
D̄ − µD D
Z= SD
−→ N (0, 1)
√
n
19
Es decir, el vector (Xi , Yi ) es independiente de (Xj , Yj ) si i 6= j y ambos tienen la misma distri-
bución conjunta. Notar que esto implica que las Xk son IID (entre ellas) así como las Yk .
Capítulo 10
Métodos bayesianos
En este capítulo presentamos las principales ideas del enfoque bayesiano para la
inferencia estadística. Las nociones generales, incluyendo la fórmula de Bayes para el
cálculo de la distribución a posteriori se presentan en el apartado 10.1. En el aparta-
do 10.2 se definen los estimadores puntuales bayesianos correspondientes a una deter-
minada función de riesgo, y la versión bayesiana de los intervalos de confianza —los
intervalos creíbles— se desarrollan en el apartado 10.3.
219
CAPÍTULO 10. MÉTODOS BAYESIANOS 220
teriores o, más en general, por cualquier experiencia previa); luego se toma una muestra
aleatoria, y la información resultante de esta se utiliza para revisar la distribución a
priori y —mediante la fórmula de Bayes— calcular una distribución actualizada por
la información muestral, que se denomina distribución a posteriori.
Para aclarar la notación que utilizaremos, debemos distinguir entonces:
FX|Θ=θ
~ (~x).
fX|Θ=θ
~ (~x) o pX|Θ=θ
~ (~x),
~ es
respectivamente. Consecuentemente, la densidad conjunta de la muestra X
n
Y
fX|Θ=θ
~ (~x) = fX|Θ=θ (xi ), 2
i=1
1
Para los parámetros representados con letras minúsculas del alfabeto griego es usual representar a
su «versión aleatoria» con la correspondiente mayúscula griega. Tal es el caso aquí, donde el parámetro
θ se interpreta como el valor que toma una variable aleatoria Θ. (Nótese además que esto difiere de
la convención de los capítulos anteriores, donde Θ representaba el conjunto de posibles valores del
parámetro θ —es decir, el espacio paramétrico—).
2
Aquí fX|Θ=θ es la distribución condicional a Θ = θ de cada una de las Xi , que por hipótesis son
idénticamente distribuidas.
CAPÍTULO 10. MÉTODOS BAYESIANOS 221
o la probabilidad condicional
pΘ|X=~
~ x (θ)
tanto para representar una densidad como una función de probabilidad, donde la letra
π remite al término priori (prior en inglés).
En resumen, tenemos la siguiente notación:
θ variable numérica que representa los posibles valores del parámetro desconocido,
que son los posibles valores que asume la variable aleatoria Θ;3
fX|Θ=θ
~ (~x) o fX1 ...Xn (x1 . . . xn |Θ = θ) o incluso fX|Θ
~ (~x|θ), etc.: densidad o proba-
bilidad conjunta de la muestra ~x = (x1 . . . xn ) dado el valor del parámetro Θ = θ
(notar que más allá de diferencias conceptuales esto coincide con la función de
verosimilitud de θ dada la muestra);
fΘ|X=~
~ x (θ), etc.: densidad (o probabilidad) a posteriori de Θ como función de la
variable θ.
fX|Θ=θ
~ (~x).
Luego, la única información relevante del planteo del problema que no surge inme-
diatamente es la distribución a posteriori de Θ
fΘ|X=~
~ x (θ).
fXΘ
~ (~ x, θ)
fΘ|X=~
~ x (θ) = .
fX~ (~x)
Pero Z
fX~ (~x) = fXΘ x, θ) dθ, 4
~ (~
R
y también
fXΘ
~ (~
x, θ) = fX|Θ=θ
~ (~x) · πΘ (θ) ,
por lo que se obtiene:
fX|Θ=θ
~ (~x) · πΘ (θ)
fΘ|X=~
~ x (θ) = R .
R
fX|Θ=θ
~ (~x) · πΘ (θ) dθ
Donde en la práctica se integra sobre los posibles valores de θ, ya que fuera de ese
conjunto la densidad πΘ (θ) es nula.
~ x (θ) ∝ fX|Θ=θ
fΘ|X=~ ~ (~x) · πΘ (θ) ,
5
Para otros casos, la densidad de X se convierte en una función de probabilidad puntual, si X
es discreta, y la integral se transforma en una sumatoria como en la nota 4, si Θ es discreta (y la
densidad a posteriori también resultará una función de probabilidad puntual).
CAPÍTULO 10. MÉTODOS BAYESIANOS 224
Ejemplo 51. Así, por ejemplo, si se desea calcular la distribución a posteriori del
parámetro Λ de la distribución de Poisson, suponiendo que a priori Λ ∼ Γ(α0 , l0 ),6 se
tiene
n
!
e−λ λxi l0 α0 α0 −1 −l0 λ
Y
~ x (λ) ∝ pX|Λ=λ
fΛ|X=~ ~ (~x) · πΛ (λ) = · λ e =
i=1
xi ! Γ (α0 )
Pn α0
e−nλ λ xi
i=1 l0 α0 −1 −l0 λ
= Qn · λ e .
i=1 (xi !) Γ (α0 )
Pn
Puede verse que si llamamos α∗ = α0 + i=1 xi y l∗ = l0 + n, se tiene
∗ −1 ∗λ
~ x (λ) ∝ λ
fΛ|X=~ α
e−l
y como lo único que falta es un factor que haga de la expresión de la derecha una
densidad, puede deducirse que
∗ ∗
~ x ∼ Γ (α , l ) .
Λ|X=~
donde n
X
α ∗ = α0 + xi y l∗ = l0 + n.
i=1
Es decir que la distribución a posteriori cae en la misma familia: sólo se modifica («se
actualiza», en la jerga bayesiana) el valor de los parámetros, que en este contexto suelen
6
Es decir, suponemos una distribución Gamma de parámetros α = α0 y λ = l0 ; el cambio de λ
por l obedece a que λ representa en este caso el parámetro de la distribución de Poisson que sigue la
variable X a muestrear.
CAPÍTULO 10. MÉTODOS BAYESIANOS 225
α∗ = α0 + n
λ en la distr. E (λ) Λ ∼ Γ(α0 , l0 ) α0 , l0 Pn
l∗ = l0 + i=1 xi
Pn
µ0 i=1 xi
2+
σ0 σ 2
µ∗ = =
1 n
σ02 + σ2
Pn
∗ µ0 xi
µ en la distr. N (µ, σ 2 ), σ 2 conocida M ∼ N (µ0 , σ02 ) µ0 , σ02 = σ2 σ02
+ i=1
σ2
−1
∗ 1 n
σ2 = σ02
+ σ2
226
CAPÍTULO 10. MÉTODOS BAYESIANOS 227
1
πK (κ) = , κ = 1, 2, . . . .
2κ
Entonces
n
Y
~ x (κ) ∝ fX|K=κ
pK|X=~ ~ (~x) · πK (κ) = fXi |K=κ (xi ) · πK (κ),
i=1
1
si |A| < 1 (condición que se verifica ya que A = 2(1+x1 )
y además x1 > 0).
Es decir que, si por ejemplo se tiene una muestra de tamaño n = 1 con x1 = 3,5,
1
es decir A = 2(1+3,5) = 91 , resulta
64κ
pK|X=3,5
~ (κ) = .
9κ+1
Cabe destacar que entre los últimos dos ejemplos y los presentados en la tabla de
distribuciones conjugadas, surgieron cuatro combinaciones alternativas:
~
(calculado teniendo en cuenta la distribución conjunta de Θ y X).
~ es el estimador bayesiano para la función de riesgo R si para
Es decir, θ̂B = g X
~ (que no sea función de θ) se cumple
cualquier estadístico muestral h(X)
! !
E R Θ, g X ~ ≤ E R Θ, h X ~ .
CAPÍTULO 10. MÉTODOS BAYESIANOS 231
R (θ, a) = |θ − a| (pérdida lineal) =⇒ θ̂B = M e Θ|X=~
~ x ;
(
0 θ=a
R (θ, a) = (pérdida discreta) =⇒ θ̂B = M o Θ|X=~
~ x .
6 a
1 θ=
Ejemplo 54. Volviendo al ejemplo 51, supongamos que la distribución a priori fuera
más precisamente
Λ ∼ Γ(3, 4),
y que se toma una muestra de tamaño n = 5 cuya suma es 5i=1 xi = 7. En tal caso,
P
se tiene a posteriori
~ x ∼ Γ(10, 9).
Λ|X=~
Sin embargo, para obtener una estimación bayesiana de λ esto es solo una parte de
la historia, ya que se debe elegir una función de riesgo apropiada para el problema en
cuestión y esto indicará cómo obtener una estimación puntual.
Si por ejemplo, supusiéramos una pérdida de tipo cuadrática, resultaría
λ̂B = E Λ|X=~
~ x .
Ahora bien, sabiendo que la esperanza de una variable con distribución Γ(α, λ) es igual
a αλ , tenemos
10
λ̂B = ≈ 1,111.
9
7
En general, se requiere que R verifique R(θ, θ) = 0 y R(θ, a) creciente en a para a > θ y decreciente
en a para a < θ (la monotonía no es necesariamente estricta, en ambos casos).
CAPÍTULO 10. MÉTODOS BAYESIANOS 232
Por otro lado, si se utiliza una función de pérdida lineal, debemos calcular la media-
na de la variable Λ|X=~
~ x . Y si bien no existe una expresión simple para el caso general,
para la distribución Γ(10, 9) puede calcularse numéricamente que
~ x ≈ 1,074.
λ̂B = M e Λ|X=~
Finalmente, si se supone una pérdida discreta, debe hallarse la moda, que es el valor
de λ > 0 que maximiza la densidad
910 9 −9λ
fΛ|X=~
~ x (λ) = λe ,
Γ(10)
y puede verse que este valor es
λ̂B = M o Λ|X=~
~ x = 1.
Ejemplo 55. Volviendo al ejemplo 52, donde se buscaba estimar el parámetro n de
la distribución Bi(n; 0,5), si se supone una pérdida cuadrática y se observa x = 2, la
estimación bayesiana será
(como este no es un valor posible, para efectos prácticos como calcular una probabilidad
por ejemplo, tal vez sería razonable usar como estimación n̂B = 4; tal vez sería más
razonable usar otra función de pérdida que asegure estimaciones correspondientes a
posibles valores de n).
Si se observara, en cambio, x = 4 y se tomara una pérdida discreta, se tendría
n̂B = M o(N|X=4 ) = 5,
resulta que
κ̂B = 1
(ya que la probabilidad acumulada en ese valor supera 0,5).
A primera vista puede resultar confuso y hasta poco confiable el hecho de que
se puedan obtener diferentes estimaciones según la función de pérdida elegida; pero
esto no es necesariamente distinto a lo que ocurre en los métodos clásicos al aplicar
diferentes métodos de estimación. En todo caso, debe reconocerse que la elección de
una función de pérdida (así como de la distribución a priori del parámetro) tiene un
impacto fundamental en la estimación, por lo que debe realizarse a conciencia, teniendo
en cuenta las particularidades de cada problema.
es decir
[7,07 ; 9,91] .
Visto de otra manera, una vez obtenida la muestra mencionada, podríamos decir
que condicionando a la misma se tiene
Cabe notar que en la inferencia bayesiana tienen sentido expresiones como la ante-
rior, mientras que en la inferencia clásica no tiene sentido la expresión
∗ 8
P(7,07 ≤ µ ≤ 9,91) = 0,95,
8 ∗
El asterisco indica precisamente que la expresión que se muestra es incorrecta.
Apéndice A
235
APÉNDICE A. LAS FUNCIONES GAMMA Y BETA 236
es decir que Γ(1) = 1 (notar que solo la variable z se sustituyó por 1; la variable x se
mantiene ya que es la variable de integración).
De la misma manera, podríamos calcular Γ(5) como
Z +∞ Z +∞
5−1 −x
Γ(5) = x e dx = x4 e−x dx;
0 0
sin embargo encontrar el valor exacto de esta integral por los métodos usuales implicaría
aplicar cuatro veces consecutivas la regla de integración por partes.
Veamos qué sucede al integrar por partes en un contexto más general:
Z +∞ Z +∞
(z+1)−1 −x
Γ(z + 1) = x e dx = xz e−x dx =
0 0
Z +∞
= xz (−e−x )|+∞
x=0 − zxz−1 (−e−x ) dx.
0
Pero
xz
xz (−e−x )|+∞ + 0z e−0 = 0
x=0 = lı́m −
x
x→+∞ e
(que puede probarse aplicando repetidamente la regla de L’Hospital), de donde surge
Z +∞
Γ(z + 1) = z xz−1 e−x dx,
0
es decir
Γ(z + 1) = zΓ(z).
Pero esto no es suficiente si desconocemos Γ(4). Sin embargo, podemos aplicar la misma
fórmula reiteradas veces para descender hasta el único valor que conocemos por el
momento, i.e. Γ(1) = 1. Así obtenemos
Γ(z) = (z − 1)!.
Esto nos da el valor de Γ para infinitos valores de z y también muestra que en cierto
sentido Γ funciona como una generalización continua del factorial. Pero, el cálculo de
APÉNDICE A. LAS FUNCIONES GAMMA Y BETA 237
De todos modos, cabe notar que conocer o aproximar el valor de Γ en (0, 1] permite
hacer lo mismo con cualquier otro valor, ya que por ejemplo
13 8 8 8 8 3 8 3 3 8 3
Γ =Γ + 1 = ·Γ = ·Γ + 1 = · ·Γ ≈ · ·1,489 ≈ 1,429.
5 5 5 5 5 5 5 5 5 5 5
1 √ √
Z +∞
u2
e− 2 du = · 2 π,
0 2
por lo que
√ Z +∞ − u2 √ 1 √ √ √
1
Γ = 2 e 2 du = 2 · · 2 π = π.
2 0 2
calcular otros valores como Γ 32 , Γ 5
Desde ya, este resultado permite 2
y en general
cualquier de la forma Γ n2 con n ∈ N.
Si n ∈ N,
Γ(n) = (n − 1)!;
1
√
Γ 2
= π.
Volviendo al ejemplo anterior, podríamos haber usado este teorema para ver que
Γ(2) · Γ(1) 1! · 0! 1
B(2, 1) = = = ,
Γ(2 + 1) 2! 2
que obviamente coincide con el resultado obtenido antes.
APÉNDICE A. LAS FUNCIONES GAMMA Y BETA 239
que con los métodos usuales podría calcularse aplicando ocho veces la fórmula de inte-
gración por partes.
Claramente podemos reescribir dicha integral como
Z +∞
x9−1 e−x dx = Γ(9) = 8!.
0
Ejemplo 59. Análogamente, si queremos calcular la integral (impropia)
Z 1r
x
dx,
0 1−x
podemos reescribirla y calcularla como
3 1
Z 1 Z 1
·
1 1 3 1 3 1 Γ Γ
x 2 (1 − x)− 2 dx = x 2 −1 (1 − x) 2 −1 dx = B , = 2
3 1
2 =
0 0 2 2 Γ 2
+ 2
1
· Γ 12 · Γ 21
π
= 2 = .
Γ(2) 2
En los dos ejemplos anteriores la integral que se pretendía calcular coincidía con un
valor de la imagen de Γ o de B. Pero existen también casos en los que si bien a simple
vista no es posible realizar el mismo procedimiento, una cierta sustitución resuelve esta
dificultad.
APÉNDICE A. LAS FUNCIONES GAMMA Y BETA 240