Apunte Estadística II - Nassif

Fundamentos de probabilidad y estadística
Prof. Alejandro Nasif Salum

Índice general
1. Introducción: espacios de probabilidad 6

1.1. El espacio muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2. La σ-álgebra de eventos . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3. La función de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3.1. Diferentes nociones de probabilidad . . . . . . . . . . . . . . . . 15
1.3.2. Propiedades «esperables» de una función de probabilidad . . . . 20
1.3.3. Definición de la probabilidad: axiomas de Kolmogorov y sus con-
secuencias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.3.4. Probabilidad condicional e independencia . . . . . . . . . . . . . 26
1.4. Conclusión: el espacio de probabilidad como representación matemática
de un experimento aleatorio. . . . . . . . . . . . . . . . . . . . . . . . . 29
2. Variables aleatorias 31
2.1. Concepto y definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.2. La distribución de una variable aleatoria . . . . . . . . . . . . . . . . . 34
2.2.1. La función de distribución y sus propiedades . . . . . . . . . . . 35
2.3. Clasificación de variables aleatorias . . . . . . . . . . . . . . . . . . . . 37
2.4. Esperanza matemática, varianza y momentos de la distribución . . . . 38
2.5. Algunas distribuciones usuales . . . . . . . . . . . . . . . . . . . . . . . 43
2.5.1. Algunas familias de distribuciones continuas . . . . . . . . . . . 44
2.5.2. Algunas familias de distribuciones discretas . . . . . . . . . . . 47
2.6. Consideraciones finales . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
1
ÍNDICE GENERAL 2
3. Transformadas de la distribución 53
3.1. Función generadora de momentos . . . . . . . . . . . . . . . . . . . . . 53
3.2. Función generadora de probabilidad . . . . . . . . . . . . . . . . . . . . 61
3.3. Otras funciones generadoras usuales . . . . . . . . . . . . . . . . . . . . 67
3.3.1. Función característica . . . . . . . . . . . . . . . . . . . . . . . 67
3.3.2. Cumulantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4. Vectores aleatorios 70
4.1. Distribución conjunta de variables aleatorias . . . . . . . . . . . . . . . 70
4.1.1. Función de distribución conjunta . . . . . . . . . . . . . . . . . 71
4.1.2. Clasificación de vectores aleatorios y cálculo de probabilidades . 73
4.1.3. Distribuciones marginales . . . . . . . . . . . . . . . . . . . . . 76
4.1.4. Esperanza de una función de varias variables . . . . . . . . . . . 78
4.1.5. Distribución conjunta de variables independientes . . . . . . . . 80
4.2. Distribución condicional . . . . . . . . . . . . . . . . . . . . . . . . . . 82
4.2.1. Esperanza condicional . . . . . . . . . . . . . . . . . . . . . . . 84
4.3. Covarianza y correlación . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.3.1. Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.3.2. Coeficiente de correlación lineal . . . . . . . . . . . . . . . . . . 90
5. Teoría asintótica 92
5.1. Distribución asintótica de una sucesión de variables aleatorias . . . . . 92
5.1.1. Convergencia en distribución . . . . . . . . . . . . . . . . . . . . 94
5.1.2. Convergencia de la función generadora de momentos . . . . . . 99
5.2. Teorema central del límite . . . . . . . . . . . . . . . . . . . . . . . . . 100
5.3. Convergencia en probabilidad y Ley de los grandes números. . . . . . . 104
5.3.1. Convergencia en probabilidad . . . . . . . . . . . . . . . . . . . 104
5.3.2. La ley de los grandes números . . . . . . . . . . . . . . . . . . . 107
6. Distribución de estadísticos muestrales 112

ÍNDICE GENERAL 3
6.1. Distribuciones usuales en el muestreo . . . . . . . . . . . . . . . . . . . 112

6.1.1. La distribución «chi-cuadrado» . . . . . . . . . . . . . . . . . . 113
6.1.2. Las distribuciones «t-Student» y «F-Snedecor» . . . . . . . . . 115
6.2. Distribución de algunos estadísticos . . . . . . . . . . . . . . . . . . . . 115
6.2.1. El Lema de Fisher y la distribución de S 2 . . . . . . . . . . . . 115
6.2.2. El «estadístico t» . . . . . . . . . . . . . . . . . . . . . . . . . . 118
6.2.3. Estadísticos basados en dos muestras normales . . . . . . . . . . 120
6.3. Distribución de estadísticos de orden . . . . . . . . . . . . . . . . . . . 124
6.4. Algunas distribuciones asintóticas relevantes . . . . . . . . . . . . . . . 128
6.4.1. Distribución asintótica de medias muestrales . . . . . . . . . . . 129
6.4.2. Comparación de medias de muestras independientes . . . . . . . 130
7. Estimadores puntuales 134

7.1. Introducción a la inferencia estadística . . . . . . . . . . . . . . . . . . 134
7.1.1. Población: concepto. Muestra aleatoria (muestreo aleatorio simple).135
7.1.2. Modelos estadísticos paramétricos y no paramétricos. . . . . . . 137
7.2. Estimadores puntuales. Propiedades deseables. . . . . . . . . . . . . . . 138
7.2.1. Distribución de un estimador. Características relevantes y pro-
piedades deseables . . . . . . . . . . . . . . . . . . . . . . . . . 138
7.3. Propiedades deseables de estadísticos muestrales . . . . . . . . . . . . . 147
7.3.1. Estadísticos y estimadores. . . . . . . . . . . . . . . . . . . . . . 147
7.3.2. Estadísticos suficientes . . . . . . . . . . . . . . . . . . . . . . . 148
7.4. Información de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
7.4.1. Interpretación de la definición . . . . . . . . . . . . . . . . . . . 152
7.4.2. Información y eficiencia. Cota de Cramér-Rao. . . . . . . . . . . 155
7.4.3. Otras propiedades de la información de Fisher . . . . . . . . . . 157
7.5. Métodos de estimación . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
7.5.1. Métodos de momentos . . . . . . . . . . . . . . . . . . . . . . . 158
7.5.2. Método de máxima verosimilitud . . . . . . . . . . . . . . . . . 161
7.5.3. Otros métodos de estimación . . . . . . . . . . . . . . . . . . . . 171
ÍNDICE GENERAL 4
8. Intervalos de confianza 175

8.1. Conceptos generales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
8.2. Obtención de intervalos de confianza. Pivotes. . . . . . . . . . . . . . . 177
8.3. Criterios de optimalidad . . . . . . . . . . . . . . . . . . . . . . . . . . 183
8.4. Intervalos de nivel asintótico . . . . . . . . . . . . . . . . . . . . . . . . 187
8.5. Comparación de dos poblaciones usando intervalos de confianza . . . . 191
9. Pruebas de hipótesis 192

9.1. Test de hipótesis: conceptos fundamentales . . . . . . . . . . . . . . . . 192
9.1.1. Hipótesis estadísticas . . . . . . . . . . . . . . . . . . . . . . . . 192
9.1.2. Prueba de hipótesis: definición formal. . . . . . . . . . . . . . . 193
9.1.3. Contraste de hipótesis simples; tipos de error; potencia. . . . . . 195
9.1.4. Casos de hipótesis compuestas . . . . . . . . . . . . . . . . . . . 197
9.2. Ejemplo: tests para una distribución exponencial . . . . . . . . . . . . . 199
9.2.1. Estadístico de prueba para testear λ = λ0 . . . . . . . . . . . . 200
9.2.2. Criterios para definir la región crítica . . . . . . . . . . . . . . . 201
9.3. Casos usuales de prueba de hipótesis . . . . . . . . . . . . . . . . . . . 210
9.3.1. Tests paramétricos para una muestra . . . . . . . . . . . . . . . 210
9.3.2. Intervalos y tests paramétricos con dos muestras independientes 213
9.3.3. Intervalos y tests paramétricos con dos muestras apareadas . . . 216
10.Métodos bayesianos 219

10.1. Enfoque bayesiano del problema de inferencia . . . . . . . . . . . . . . 219
10.1.1. Cálculo de la distribución a posteriori. Fórmula de Bayes. . . . . 222
10.1.2. Distribuciones conjugadas . . . . . . . . . . . . . . . . . . . . . 224
10.2. Estimadores puntuales bayesianos . . . . . . . . . . . . . . . . . . . . . 230
10.2.1. Funciones de riesgo usuales . . . . . . . . . . . . . . . . . . . . 231
10.3. Intervalos de credibilidad bayesianos . . . . . . . . . . . . . . . . . . . 233
A. Las funciones Gamma y Beta 235

ÍNDICE GENERAL 5
A.1. La función Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235

A.2. La función Beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238
A.3. Aplicaciones al cálculo de integrales . . . . . . . . . . . . . . . . . . . . 239
Capítulo 1
Introducción: espacios de probabilidad
Cuando se realiza un experimento aleatorio —es decir, uno cuyo resultado no pue-
de predecirse con precisión, sino solo esperar que ocurra una de varias alternativas,
teniendo variadas expectativas sobre las «chances» de que determinada situación rela-
cionada al resultado del experimento se verifique o no— se puede formalizar la situación
mediante los conceptos de espacio muestral, evento (o suceso aleatorio) y función de
probabilidad.
1.1. El espacio muestral

Mediante el espacio muestral, que se representa como un conjunto que llamare-
mos Ω, se consideran los posibles resultados del experimento aleatorio —los elementos
ωi ∈ Ω— en forma exhaustiva y excluyente, es decir, de modo que todas las posibilida-
des estén consideradas y que la ocurrencia de una de ellas descarte necesariamente la
ocurrencia de cualquier otra. En general, existen diferentes maneras de definir Ω, que
pueden tener en cuenta diferentes aspectos del resultado del experimento aleatorio de-
pendiendo de cuáles sean relevantes para el análisis en cuestión. Por ejemplo, al arrojar
un dado sobre una mesa dentro de una habitación y observar «qué sucede», podrían
obtenerse los siguientes resultados con sus respectivos espacios muestrales definidos en
forma más o menos esquemática:
1. Una vez que el dado deja de moverse podría mostrar en su cara superior cualquiera
de las seis que posee, identificadas cada una de ellas con un diseño de uno a seis
puntos. Si lo que observamos entonces es cuál es dicha cara, que queda orientada
hacia arriba, tenemos seis posibles resultados y podría definirse como espacio
6
CAPÍTULO 1. INTRODUCCIÓN: ESPACIOS DE PROBABILIDAD 7
muestral
Ω1 = {1, 2, 3, 4, 5, 6},
o bien
Ω01 = {uno, dos, tres, cuatro, cinco, seis},
e incluso
. ..
Ω001 = { · ,˙. , . . , : : , :·: , .. .. },
etc. Es importante entender que no estamos observando valores numéricos en sí
mismos, sino diferentes posibles estados de la realidad que —una vez recopilados
en forma excluyente y exhaustiva— pueden representarse con notaciones de lo
más variadas y hasta cierto punto arbitrarias.
2. También podríamos centrar nuestro interés en ver si el dado al detenerse se en-

cuentra aún sobre la mesa o bien si en algún momento sale de ella y —por lo
tanto— cuando deja de moverse está fuera de la misma (por ejemplo sobre el
suelo, sobre el asiento de una silla, etc.). Abreviando, podemos notar:
Ω2 = {mesa, f uera}.
3. Podrían tenerse en cuenta ambas cuestiones y definir el siguiente espacio muestral

(donde se abrevian mesa y fuera por simplicidad):
Ω3 = {(1, m), (1, f ), (2, m), (2, f ), (3, m), (3, f ), (4, m), (4, f ), (5, m), (5, f ), (6, m), (6, f )}.
4. Si lo que se toma en cuenta es el tiempo en segundos que tarda el dado en quedarse

quieto desde que se arroja, en principio podría considerarse
Ω4 = (0, +∞),
o cualquier alternativa que con certeza incluya todas las posibilidades.
5. Se podrían registrar incluso todos los aspectos mencionados del resultado, para
lo que sería útil definir el espacio muestral
Ω5 = {(n; c; t) : n ∈ N, 1 ≤ n ≤ 6, c ∈ {m; f }, t ∈ (0; +∞)},
donde la terna ordenada (n; c; t) indicará el número (n) de puntos presentes en la

cara superior cuando el dado quede quieto, si finalmente cae (c) sobre la mesa o
fuera de esta, y en cuánto tiempo (t) eso sucede, respectivamente. Por ejemplo,
(4; f ; 10,3) y (4; m; 4,8) representan dos posibles resultados del experimento en
base a este espacio muestral: en ambos casos se tendría el 4 (o «cuatro», o «::»)
como resultado (es decir, esa sería la cara que queda hacia arriba), pero en el
primer caso el dado se habrá detenido luego de 10,3 segundos y en algún momento
habrá caído de la mesa, mientras que en el segundo caso se detendría sobre la
mesa y esto habría llevado sensiblemente menos tiempo: apenas 4,8 segundos.
Obviamente, la cantidad de posibles «resultados» es infinita (es decir, #Ω = ∞).
Desde ya, con suficiente creatividad se podrían definir infinidad de espacios mues-
trales que «representen» el experimento en cuestión: para ello se podría tener en cuenta
si al momento de detenerse el dado llueve o no en donde tiene lugar el experimento (si
es por precisar la definición, podríamos chequear si a través de determinada ventana de
la casa se observa lluvia), o en algún otro lugar determinado —tal vez en una ciudad del
otro lado del océano—; también se podría, en cualquiera de esos casos, directamente
registrar la cantidad de lluvia caída durante los diez minutos posteriores a que el dado
se detenga; se puede considerar si durante el tiempo en que el dado está moviéndose
fallece o no algún/a jefe/a de estado; también contar cuántas personas que se encuen-
tran dentro de un determinado radio tienen tantos/as hijos/as como el número de la
cara que salió en el dado; combinar algunas o todas ellas... En fin: las posibilidades
son infinitas (e ilimitadamente absurdas, tal vez). De todos modos, para cada uno de
esos posibles «enfoques» podríamos definir un espacio muestral, para el que apenas
habrá que asegurarse de que la definición involucre todas las alternativas posibles1 y
de que cada una excluya a las demás. Ese cuidado en la definición del espacio muestral
garantiza que una vez realizado el experimento, su resultado corresponderá a uno y
solo uno de los elementos ωi ∈ Ω.
1.2. La σ-álgebra de eventos

El objetivo último de este enfoque, como es fácil imaginar, es asignar a las dife-
rentes situaciones que puedan o no resultar tras la realización del experimento valores
numéricos que representen esas diferentes «chances» o «grados de posibilidad» (cual-
quiera sea la base objetiva o subjetiva de tal asignación). Estas últimas expresiones
entre comillas evitan deliberadamente el término probabilidad, que será precisamente
la medida de esa posibilidad en términos de un número real entre 0 (para un resultado
«imposible») y 1 (para uno «seguro» o cierto).2
1
En verdad, si incluyera también resultados imposibles, eso no sería problema: en última instancia,
cualquier evento solo compuesto de resultados imposibles tendría probabilidad cero.
2
Esta es en realidad la interpretación más «popular» de las probabilidades iguales a 0 y a 1. Sin
embargo, como se mostrará luego, en muchos casos la única interpretación lógicamente consistente
de tales valores es que representan la probabilidad de un evento casi imposible y de uno casi seguro
(c.s.), respectivamente; esto es: eventos que muestran el máximo grado posible de certeza acerca de
su no ocurrencia o de su ocurrencia.
Un hecho central para comprender el sentido de este apartado, es que en un marco

general de la teoría de la probabilidad, tales probabilidades no se asignan directa-
mente a los «resultados» del experimento —v.g., los elementos de Ω—, sino a ciertos
subconjuntos del mismo que se denominan eventos o sucesos aleatorios. Esta decisión
metodológica no es fácil de justificar desde el comienzo, pero la iremos analizando a
lo largo de esta sección. En cualquier caso, es claro que tiene sentido hacernos pre-
guntas sobre la eventual ocurrencia o no3 de diferentes «situaciones» que no tienen por
que excluirse unas a otras, como sí lo hacen (por definición) los diferentes posibles
«resultados» del experimento, que constituyen los elementos del espacio muestral.
Por ejemplo, en el marco del espacio muestral que definimos como Ω5 , podríamos
plantear cuál es la probabilidad de que:
A: el dado deje de moverse durante los primeros diez segundos;
B: al detenerse muestre un número par en la cara superior (que «salga» un número

par);
C: caiga fuera de la mesa y «salga» el dos.
Todos estos «hechos posibles» que pueden terminar ocurriendo o no cuando arroje-
mos el dado —es decir, son de ocurrencia aleatoria o eventual— no son necesariamente
incompatibles unos con otros, y de hecho en este caso podrían ocurrir simultáneamente
los tres: en particular, si sucede C, entonces también sucede B, y podría pasar que ese
«dos» que cae fuera de la mesa se pueda observar con el dado detenido dentro de los
primeros diez segundos tras arrojarlo, en cuyo caso también sucedería A.
En realidad, cada uno de los hechos que planteamos involucra no a uno sino a varios
de los resultados ωi considerados en Ω5 (infinitos de hecho) y puede —en consecuencia—
representarse como un subconjunto de este. Por ejemplo:
A = {(n; c; t) ∈ Ω5 : t ≤ 10}

B = (n; c; t) ∈ Ω5 : n ∈ {2; 4; 6}
C = {(n; c; t) ∈ Ω5 : n = 2 ∧ c = f }.
Por lo tanto, además de definir el conjunto de los posibles resultados (entendidos

estos en función del enfoque que le demos a nuestro análisis del experimento) —es
decir, el espacio muestral Ω—, también deberíamos definir cuáles serán los denominados
eventos: los sucesos cuya probabilidad de ocurrir o no tras la realización del experimento
aleatorio podremos evaluar.
3
Más propiamente, nos preguntaremos por las probabilidades de ocurrencia de dichas situaciones.
Para esto, se elije una familia de subconjuntos de Ω lo suficientemente amplia como

para contener a aquellos subconjuntos a los que sea razonable o de interés asignarles
una probabilidad de ocurrencia. En este punto, tener claro de qué manera vamos a
analizar nuestro experimento es relevante, ya que solo estos subconjuntos E ⊂ Ω serán
llamados eventos y tendrán asignada una probabilidad.
A la familia o conjunto de eventos la denominamos E, y se entiende que (previa
realización del experimento) preguntas como
¿cuál es la probabilidad de que ocurra E?
¿cuál probabilidad es mayor: la de que ocurra E o la de que no ocurra F?
¿cuál es la probabilidad de que ocurran E o F (o ambos), pero sin que ocurra G?
solo tienen sentido y se podrán responder siempre que
E ∈ E, F ∈ E y G ∈ E.
Esto no quita generalidad alguna, ya que si quisiéramos también poder considerar la

probabilidad de uno de los resultados específicos que consideramos cuando definimos Ω
—por ejemplo, de que un 2 caiga sobre la mesa exactamente a los 3,4seg. de arrojar
el dado, sería cuestión —por sutil que pueda parecer— de calcular la probabilidad
del conjunto (con un solo elemento) {(2; m; 3,4)} ⊂ Ω5 (que tendrá que ser uno de
los eventos de E) en lugar de hacerlo para el elemento (2; m; 3,4) ∈ Ω5 . Incluso si la
notación más recargada fuera un inconveniente, podría fijarse la convención (cuando
no haya riesgo de confusión) de que cualquier mención del «evento» ωi (que no es un
evento, sino uno de los resultados posibles) debe entenderse más precisamente como
referida al evento {ωi }, lo que permitirá en esos casos excluir las llaves. Lo central
es que la probabilidad se definirá sobre ciertos subconjuntos «de interés» de Ω y no
sobre sus elementos individuales (aunque estos podrían también ser «eventos» si se
los toma como subconjuntos de un solo elemento4 y se los agrega a E). Los eventos
correspondientes a un único resultado se denominan eventos simples.
Dado que las funciones de probabilidad, como veremos en la próxima sección, no
pueden ser arbitrarias, sino que deberán cumplir una serie de condiciones (conocidas
generalmente como axiomas de Kolmogorov —ver apartado 1.3—), veremos que —
por ejemplo— si E ∈ E es un conjunto finito E = {ω1 , . . . , ωn }, su probabilidad
necesariamente debe ser igual a la suma de las probabilidades de {ω1 } a {ωn } (siempre
que estos últimos sean también eventos). Incluso en ciertos conjuntos infinitos también
se puede proceder de manera análoga mediante una suma infinita o serie.
4
En teoría de conjuntos es usual denominar singleton a un conjunto con un solo elemento.
Esta propiedad pareciera indicar que es suficiente asignar probabilidades a los sin-
gletons (en cierto sentido, a cada uno de los resultados posibles del experimento), y que
de allí se deducirían las probabilidades de cualquier evento que hubiéramos definido
como tal. Pero tal estrategia resulta inaplicable en muchos casos donde el espacio mues-
tral es infinito. Por ese motivo la función de probabilidad se definira sobre el conjunto
de posibles eventos E, y no sobre el conjunto de posibles «resultados» (i.e. el espacio
muestral Ω).5
En cualquier caso, este conjunto de eventos E no puede ser arbitrario si se quiere
cierta consistencia. Por ejemplo: sería bastante extraño que dejemos abierta la opción
de preguntar por la probabilidad de que ocurra el evento A pero que no podamos
preguntar por la probabilidad de que este no ocurra. Lo razonable es que si A es un
evento, también lo sea AC . También es coherente que si consideramos eventos a A y a
B, sea admisible preguntar cual es la probabilidad de que al menos uno de ellos ocurra
(A o B) o la probabilidad de que ocurran en simultáneo (A y B), por lo que deberíamos
incluir a A ∪ B y a A ∩ B entre los eventos si A y B están incluidos. Además, si dos
eventos no pueden ocurrir al mismo tiempo eso da una intersección vacía, por lo que ∅
se debe considerar un evento, y su complemento Ω también.
Incluso para dar un poco más de generalidad, pensemos que el espacio muestral se
definió como Ω4 y que consideramos eventos a
A1 = (0; 1],
que correspondería al evento el dado deja de moverse durante el primer segundo; a
A2 = (1; 2],
que correspondería al evento el dado deja de moverse durante el segundo número dos
(por no decir «el segundo segundo»); y en general, para cada k ∈ N
Ak = (k − 1; k],
que correspondería al evento el dado deja de moverse durante el k-ésimo segundo. Si

quisiéramos preguntar por la probabilidad de que el dado deje de moverse durante un
segundo impar, eso sería la probabilidad del evento
A1 ∪ A3 ∪ A5 ∪ . . . ,
por lo que en general también es razonable pedir que dada una sucesión infinita de
eventos la unión de todos ellos también sea un evento.
5
Notar que esto incluye la posibilidad de que uno, varios o todos los «resultados individuales»
ωi no correspondan a ningún evento simple, y que por lo tanto no esté definida su probabilidad
individualmente.
La intersección de una sucesión infinita también se justifica con ideas similares. En

cualquier caso, puede probarse que si la familia de subconjuntos E de otro conjunto Ω
cumple
∅ ∈ E y Ω ∈ E;
si A ∈ E entonces también AC ∈ E; y
si A1 , A2 , . . . ∈ E entonces también A1 ∪ A2 ∪ . . . ∈ E,
necesariamente se cumple la propiedad correspondiente para intersecciones infinitas,

y también para la unión o intersección de cualquier cantidad finita, así como para
la diferencia entre dos conjuntos —que notamos como A \ B— y para la diferencia
simétrica, definida como A 4 B = (A ∪ B) \ (A ∩ B). A una familia de subconjuntos
que cumple las tres condiciones anteriores (y por lo tanto también todas las que se
deducen de ellas) se la denomina una σ-álgebra («sigma-álgebra») de conjuntos sobre
Ω.
Es decir que hasta ahora el análisis de la situación experimental implica la necesidad
de elegir un conjunto que represente a todos los posibles resultados: el espacio muestral
Ω; y también elegir una σ-álgebra de conjuntos sobre Ω cuyos elementos (que son
ciertos subconjuntos de Ω) representen aquellos hechos a los que se pretende asignar
una probabilidad: la familia de eventos E, de la cual el propio Ω, así como ∅ son
miembros obligatorios.
Una posibilidad que siempre dará como resultado una σ-álgebra (pensar por qué)
puede ser tomar simplemente todos los posibles subconjuntos de Ω, lo que se denomina
el conjunto de partes de Ω o el conjunto potencia de Ω y se representa como P(Ω). En
algunos casos este no es especialmente extraño ni numeroso: por ejemplo, si volvemos
a Ω2 = {m, f }, se tiene que
P(Ω2 ) = {∅, {m}, {f }, Ω2 }.
Si tuviéramos un conjunto finito con más elementos, como Ω1 u Ω3 , desde ya el

conjunto de partes será mucho más numeroso y complicado (o al menos tedioso) de
describir extensivamente. Por ejemplo, Ω1 tiene como subconjuntos a:
el propio Ω1 (1 evento) y ∅ (1);
los seis (6) singletons {1}, {2}, {3}, {4}, {5} y {6}, y a su vez seis (6) conjuntos
de cinco elementos que son los complementos de los anteriores: {2, 3, 4, 5, 6},
{1, 3, 4, 5, 6}, etc.;
todos los posibles conjuntos de dos elementos como {1, 2},{1, 3},{2, 5}, etc., que
mediante un cálculo combinatorio se ve que son quince (15) en total;
a su vez, los quince (15) complementos de estos últimos, que dan todos los posibles
subconjuntos de cuatro elementos ({3, 4, 5, 6}, {2, 4, 5, 6}, {1, 3, 4, 6}, etc.;
y finalmente, todos los subconjuntos de tres elementos, como {2, 5, 6} o {1, 2, 5},
entre muchos otros, que en total suman otros veinte (20).
Es decir que #P(Ω1 ) = 2 · 1 + 2 · 6 + 2 · 15 + 20 = 64 = 26 . Y este resultado podía

preverse porque es conocida la siguiente
Propiedad 1. Si A es un conjunto finito cualquiera (#A < ∞), entonces
#P(A) = 2#A .
Demostración. (Se demuestra por inducción en n = #A).
Observación 1. Es notable que la fórmula vale incluso si #A = 0 (es decir, A = ∅,

en cuyo caso P(A) = {∅}, o sea que el único elemento de P(A) es el propio conjunto
vacío y #P(A) = 20 = 1) y si #A = 1 (ya que si, por ejemplo, A = {a}, entonces
P(A) = {∅, {a}} = {∅, A}, es decir #P(A) = 21 = 2).
Todo esto hace parecer una muy mala idea nuestro plan de asignar probabilidades
a eventos en lugar de a los resultados del experimento, o al menos una complicación in-
necesaria. Para el ejemplo anterior, se trata de asignar 64 probabilidades, mientras que
si se hiciera sobre los elementos de Ω serían apenas 6. Peor aún, esas 64 probabilidades
no pueden ser arbitrarias, sino que deben cumplir algunas reglas que mencionamos más
abajo.
Sobre esto caben algunos comentarios:
Como ya se mencionó al comienzo de esta sección, si el espacio muestral es fi-

nito, considerar como eventos a todos los subconjuntos de Ω (es decir, tomar
E = P(Ω)), asignar probabilidades solo a los eventos simples y luego calcular las
probabilidades de los demás eventos sumando estas probabilidades «puntuales»,
es un procedimiento que efectivamente da lugar a una función de probabilidad,
en el sentido que definimos en el próximo apartado.
De todos modos, en realidad esta mayor complejidad de asignar probabilidades

a todos los eventos (en vez de hacerlo solo para los simples) se presenta cuando
elegimos E = P(Ω), que es la opción más extrema, o con elecciones que den
lugar a una cantidad relativamente grande de eventos. Por el contrario, si ciertos
subconjuntos del espacio muestral no se consideran eventos, el cardinal de E

se reducirá: tal vez incluso resulte menor que el del propio Ω. Por ejemplo, si
supiéramos que a los efectos prácticos solo nos interesa saber la paridad del
número que salió al arrojar el dado, podríamos tomar
E = {∅, {1, 3, 5}, {2, 4, 6}, Ω1 } P(Ω1 );
que es fácil verificar que se trata de una σ-álgebra y tiene 4 elementos, mientras
que Ω1 tiene 6.
Ahora bien, cuando el espacio muestral Ω es infinito, la situación puede llegar a ser
radicalmente distinta, y esto es porque para los conjuntos infinitos su conjunto de
partes se vuelve esencialmente más complejo (en cierto sentido es «más infinito»
que el original). De todos modos, si Ω es un conjunto infinito numerable6 , lo dicho
para conjuntos finitos —sobre la posibilidad de asignar probabilidades a eventos
simples y de allí extenderlas a los demás— sigue siendo válido, aunque ahora las
sumas de probabilidades «puntuales» se vuelven sumas infinitas, es decir series.
Pero si Ω es infinito no numerable, una serie de dificultades técnicas hacen inviable

la opción de basar la asignación de las probabilidades en los eventos simples. Por
ejemplo, si el espacio muestral fuera un intervalo de números reales, como Ω4 ,
puede probarse que:
— salvo por ejemplos triviales que son esencialmente equivalentes a los casos ya
considerados, es lisa y llanamente imposible definir una probabilidad para
cada elemento de P(Ω4 ) —es decir, que cualquier función que uno pretenda
asignar como si fuera una función de probabilidad, no podrá cumplir todas
las propiedades necesarias para serlo (ver el siguiente apartado)—;
— La consecuencia inmediata de esto es que en esos casos siempre deberá
tomarse un conjunto de eventos E P(Ω);
— sobre esos espacios y conjuntos de eventos, se pueden definir funciones de
probabilidad que asignen probabilidad 0 a cada evento simple {ω} ⊂ Ω
(existen numerosos ejemplos de esto, muy relevantes por cierto): y es claro
que en estos casos no se podría obtener sumando probabilidades nulas una
probabilidad positiva para ningún evento compuesto, lo que probaría que
el procedimiento mencionado antes para espacios finitos o numerables, no
siempre es aplicable.
Por todos estos motivos es que se hace necesario definir una σ-álgebra que esta-
blezca claramente cuáles subconjuntos del espacio muestral se consideran eventos, y
6
Para una definición de este concepto, ver el ??.
es necesario pensar a la probabilidad como una función con dominio en E y no en Ω.

El enfoque que deja de lado la definición de los eventos (o bien asume siempre que
E = P(Ω) y define las probabilidades sobre Ω) solo es aplicable a los casos más simples
y no permite abordar rigurosamente muchos casos tan interesantes para la teoría como
relevantes por sus aplicaciones.
1.3. La función de probabilidad

Como se planteó en el apartado anterior, en el caso más general resulta conveniente
—o más bien necesario— definir a la probabilidad como una función que asigne a cada
evento de E (no a cada resultado de Ω) un número en el intervalo [0, 1], es decir una
función
P : E −→ [0, 1].
Sin embargo, la idea intuitiva que tenemos del concepto de probabilidad, establece
ciertas restricciones sobre una tal función P que la represente adecuadamente. En el
siguiente apartado aclaramos este punto.
1.3.1. Diferentes nociones de probabilidad

Todas o casi todas las personas utilizan en su vida cotidiana alguna noción como la
que solemos denominar —en el lenguaje común— «probabilidad». Podría incluso decir-
se que permanentemente hacemos una interpretación probabilística de la realidad, que
nos lleva a tomar ciertas decisiones, rechazar otros posibles cursos de acción, siempre
sobre la idea de que la posibilidad de que un hecho ocurra o no es de algún modo algo
cuantificable, o al menos comparable con la posibilidad de que ocurran otros hechos.
Esto vale tanto para aquellos hechos que consideramos tan probables que ni siquiera
los cuestionamos conscientemente (asumimos que, si soltamos un objeto, caerá hacia
el centro de la tierra; o que si tocamos una estufa prendida, nos provocará dolor y una
quemadura, etc.), como para otros más inciertos, como que llueva mientras caminamos
por la calle (y en función de eso podemos decidir cómo vestirnos o si llevar un paraguas)
o que tengamos que hacer un gasto no planeado el próximo mes (lo que puede influir en
nuestras decisiones de consumo y ahorro), entre muchísimos otros ejemplos posibles.
Esta cuestión fue abordada desde diferentes perspectivas, incluyendo las corrientes
empiristas de la filosofía o la biología evolutiva; incluso no sería absurdo asumir que la
percepción probabilística de la realidad está en alguna medida codificada en nuestros
genes y que representa una ventaja evolutiva. Hay incluso estudios del comportamiento
animal que extienden esta conclusión a especies animales no humanas.
Pero la intención de los párrafos anteriores es muy simple: la idea de «probabilidad»

existe en nuestras mentes, forma parte de nuestra cotidianeidad casi permanentemente
y, sin embargo, no tenemos del todo claro de qué se trata.
Sin embargo, en los últimos tres o cuatro siglos tuvo lugar un estudio cada vez más
profundo de esta cuestión, con resultados variados. Para empezar por el final, digamos
que actualmente existe una definición matemática precisa y completamente abstracta
de la probabilidad, gracias a los estudios de muchos matemáticos y fundamentalmente
gracias a la síntesis lograda por Andrey Kolmogorov (como veremos más adelante).
En ese sentido, la probabilidad será una función definida entre ciertos conjuntos que
verificará dos simples axiomas.
Pero, como veremos también, ese enfoque matemático abstracto es a la vez conse-
cuencia y punto de partida de un estudio de la idea de «probabilidad» en los diferentes
contextos de la realidad a los que se aplica. Más precisamente, se trata de un concepto
que se estudió y discutió antes que nada en relación a diferentes situaciones reales; y
la variedad de dichas situaciones, dio lugar incluso a diferentes nociones o interpreta-
ciones, que no necesariamente coinciden, ni pueden intercambiarse.
En cierto sentido, el concepto de probabilidad refiere a varias ideas diferentes, que
sin embargo —a los fines prácticos— pueden traducirse matemáticamente en una misma
definición.
En los siguientes apartados analizamos tres nociones/interpretaciones distintas de
la probabilidad, que ni son equivalentes, ni pueden aplicarse en cualquier situación real;
en realidad, podríamos decir que cada noción se corresponde con cierto tipo de situación
de la realidad que involucra un «experimento» cuyo resultado no puede predecirse con
precisión. Sin embargo, más adelante veremos qué hay en común entre las diferentes
nociones de probabilidad y cómo podemos abstraer esas coincidencias en una definición
matemática precisa.
La noción clásica de la probabilidad
La noción o interpretación clásica de la probabilidad es probablemente la que más

frecuentemente relacionamos con el estudio de los juegos de azar. Comienza a formarse
—de hecho— a mediados del S. XVII con las investigaciones de Blaise Pascal y Pierre
de Fermat en relación a este tipo de juegos, y es desarrollada con más detalle décadas
después por Jacob Bernoulli entre otros. Pero es a principios del S. XIX que Pierre-
Simon Laplace establece con precisión matemática esta noción. Puntualmente, en su
«Teoría analítica de las probabilidades», explica:
La probabilidad de un evento es el cociente entre el número de casos

favorables al mismo y el número total de casos posibles, cuando nada nos
lleva a esperar que alguno de estos casos deba ocurrir más que algún otro,
lo que los vuelve, para nosotros, igualmente posibles.7
De esta simple oración pueden extraerse varias conclusiones. En primer lugar, si

se trata de considerar el número total de casos posibles (y luego el número de los
mismos que se corresponden con la ocurrencia de cierto evento aleatorio, digamos A),
necesariamente está implícita la idea de que el espacio muestral (el conjunto de todos
los resultados posibles) es un conjunto finito: de otro modo, no tendría sentido dividir
por el total de casos posibles.
Más aún, en tales condiciones, calcular el número de casos «favorables» a A (es
decir, cuántos resultados se corresponden con la ocurrencia de A) y el número de casos
totales, equivale a calcular —respectivamente— #A y #Ω, y luego la probabilidad de
A se calcula como
#A
P(A) = .
#Ω
Pero la segunda parte de la oración plantea una condición bajo la cual puede con-
siderarse aplicable esta definición: ningún caso (es decir, ninguno de los posibles re-
sultados enumerados en el espacio muestral) debe considerarse que tenderá a ocurrir
con más frecuencia que otro; todos los posibles resultados deben considerarse —si ha-
cemos la vista gorda a la circularidad de la definición— como «igualmente probables».
Decimos en ese caso que Ω es un espacio muestral equiprobable.
Pero esto dice que solo tendrá sentido interpretar la realidad en base a esta noción de
probabilidad cuando tengamos buenos motivos para suponer que dicha condición ocurre
(por ejemplo, al arrojar un dado «equilibrado» y ver cuál de las seis caras queda hacia
arriba), no que la misma deba imponerse sin mayor discusión. Es precisamente esta
cuestión la que limita la aplicabilidad de la noción clásica, y la que hizo que algunos/as
críticos/as de la misma la consideraran lisa y llanamente inaplicable o errónea, en favor
de otra noción de probabilidad —en cierto sentido— más conectada con la evidencia
empírica que con consideraciones teóricas.
La noción frecuencista de la probabilidad
Desde mediados del S. XIX la noción clásica fue puesta en cuestión, tanto por
quienes consideraban que se aplicaba solo a situaciones específicas, como por quienes
la consideraban en realidad inaplicable.
Esto último tiene sentido si pensamos que antes de arrojar un dado por primera
vez, no hay motivos más allá de la confianza ciega para suponer que el mismo esté
7
La traducción es propia.
equilibrado, condición necesaria para aplicar las ideas clásicas. En realidad, sería más
razonable arrojar el dado una cantidad de veces para ver si los seis posibles resultados
presentan una «tendencia» a ocurrir la misma cantidad de veces (es decir, con la misma
«frecuencia», que denotaremos f ), o si alguno tiende a presentar mayor frecuencia que
otro.
Resulta bastante intuitivo razonar que si un resultado —digamos el «uno»— ocu-
rriera notoriamente con más frecuencia que otro —como el «seis»—, esto debe ser así
porque en realidad la probabilidad de que ocurra el «uno» es mayor que la de que
ocurra el «seis» (lo que claramente volvería inaplicables las ideas clásicas).
Además, esto resulta más razonable (o podríamos decir, «menos cuestionable»),
cuanto mayor sea el número de repeticiones del experimento que dio lugar a tal con-
clusión.
Así, quienes plantearon las ideas que denominaremos «frecuencistas» (y que ha-
cia fines del S. XIX estaban ya bien establecidas), entendían que la relación entre la
frecuencia (f ) de un evento y el número total de repeticiones (n) —a veces denomina-
da frecuencia relativa (fr )— era una buena aproximación de la probabilidad de dicho
evento, al menos para valores grandes de n. Esto es,
f (A)
P(A) ≈ ;
n
es decir que para un valor fijo de n podemos aproximar la probabilidad de A mediante
la expresión anterior, pero no calcular su valor exacto.
De hecho los proponentes de la noción frecuencista sugirieron —al menos en la
interpretación más extendida— que la probabilidad de un evento es un valor bien
definido (aunque tal vez imposible de calcular con exactitud), que está dado por el
valor límite de la frecuencia relativa cuando el número de repeticiones del experimento
tiende a infinito. Es decir,
f (A)
P(A) = lı́m .
n→∞ n
Sin embargo, es claro que esta noción presenta también sus limitaciones. Además del
hecho de que en realidad solo permite aproximar probabilidades —pero no calcularlas
exactamente—, es claro que no resulta aplicable en aquellas situaciones en que se
necesita estimar la probabilidad previamente a la realización del experimento (o tras
muy pocas repeticiones del mismo), como puede ocurrirle a un jugador que se enfrenta a
un juego desconocido y debe tomar decisiones de inmediato. Pero tampoco es aplicable
a situaciones cuya naturaleza las vuelve esencialmente irrepetibles, como las que se
ejemplifican en el siguiente apartado.
La noción bayesiana de la probabilidad
Uno de los principales motivos (aunque no el único) por el que las nociones anterio-
res pueden ser inaplicables, es que existen muchísimas situaciones donde el resultado
aleatorio no puede pensarse en un espacio equiprobable y a la vez el «experimento»
que lo genera es en algún sentido «irrepetible».
Esto ocurre, por ejemplo si nos preguntamos por la posibilidad de que un día y en
un lugar determinados haya algún tipo de precipitación, o de recibir un llamado telefó-
nico de cierta persona durante las próximas dos horas. O más aún, que determinado/a
candidato/a gane la próxima elección presidencial (esa en particular y no otra, que
tendrá lugar en un contexto necesariamente diferente). En todos estos casos, las con-
diciones en que se desarrolla el experimento aleatorio son tan específicas e irrepetibles
(el último ejemplo probablemente sea el más extremo), que no tiene sentido pensar
en la posibilidad de reiterarlo en iguales condiciones —o, equivalentemente, revisar
ocurrencias anteriores para estimar probabilidades usando las frecuencias relativas8 —,
así como tampoco habrá en general motivos para suponer que los diferentes posibles
resultados tienen igual probabilidad.
Sin embargo, en todos los ejemplos dados es muy común que asignemos explícita o
implícitamente una estimación probabilística para los posibles resultados. En el caso de
las precipitaciones es común que los pronósticos meteorológicos asignen explícitamente
una probabilidad, y si no fuera el caso, de todos modos solemos manejarnos en términos
probabilísticos implícitamente, lo que se plasma en nuestras decisiones acerca de qué
ropa usar, si llevar o no un paraguas o un impermeable, si planificar determinada
determinada actividad al aire libre o no, etc.
Por este motivo, es necesario considerar una noción de probabilidad que tenga
sentido en estas situaciones, para lo cual se suele acudir a la interpretación bayesiana 9
de la probabilidad.
La interpretación usual bayesiana considera la probabilidad como un valor que
refleja creencias sobre la posibilidad de que ocurra un cierto evento, en vez de una
8
Es cierto que esto se hace a veces revisando situaciones anteriores en las que al menos algunas
condiciones hayan sido iguales o similares, pero debe tenerse siempre presente que esto puede dar
lugar a un gran margen de error y en muchos casos resulta en mera especulación. Así, por ejemplo,
el historial electoral de un candidato o un partido político puede dar alguna idea de sus posibilidades
para la próxima elección, pero sin duda esta tendrá lugar bajo una infinidad de condiciones específicas
que no coincidirán con las de elecciones anteriores; por lo tanto cualquier conclusión obtenida de dicho
análisis es esencialmente especulativa.
9
El término refiere a Thomas Bayes, quien a mediados del S. XVII propuso un caso particular
del teorema que hoy lleva su nombre y que fue desarrollado con más generalidad por Laplace; dicho
teorema es además el punto de partida para los métodos estadísticos que hoy denominamos —en
consecuencia— métodos bayesianos.
propensión a ocurrir en ensayos repetidos. Y en todo caso, se trata de creencias fundadas

en la información disponible al momento de estimar la probabilidad.
En particular existen dos interpretaciones sobre cómo se desarrollan estas creen-
cias. Las probabilidades objetivas, asumen que existe una forma «correcta» de estimar
probabilidades en base a la información disponible en cada caso, y que siguiendo dicho
procedimiento cualquier persona debería llegar a la misma probabilidad si parte de la
misma información conocida. Por otro lado, las probabilidades subjetivas surgen de un
análisis a conciencia pero específico de cada individuo, por lo que dos personas con la
misma información conocida podrían terminar estimando dos probabilidades distintas
para el mismo evento.
En cualquier caso, lo importante es entender que la interpretación bayesiana de
la probabilidad se refiere al grado de confianza o credibilidad que se le asigna a la
posibilidad de que ocurra un cierto evento aleatorio, aun si no es repetible en las
mismas condiciones. Esta interpretación será esencial para entender el sentido de lo
que denominaremos distribución a priori y distribución a posteriori de un parámetro
cuando estudiemos métodos estadísticos bayesianos en el capítulo 10.
Finalmente, cabe agregar que la noción de probabilidad suele aplicarse tanto a
eventos que podrían ocurrir como consecuencia de realizar un experimento aleatorio
que aún no tuvo lugar, como a los mismos eventos una vez realizado dicho experimento,
si es que aún desconocemos el resultado. Esta distinción, que abre el camino a la noción
de probabilidad condicional (ver apartado 1.3.4), requiere tal vez de la noción bayesiana
para dejar en claro cuál es el sentido de considerar que a un evento que o bien ya ocurrió
o bien ya no ocurrió se le pueda asignar una probabilidad, con nuestra ignorancia del
resultado como única excusa.
1.3.2. Propiedades «esperables» de una función de probabili-

dad
Si tenemos en cuenta que a la hora de definir matemáticamente la probabilidad
estamos intentando captar las propiedades fundamentales de esas diferentes nociones
que en la práctica llamamos «probabilidad» (ya sea desde la perspectiva clásica, fre-
cuencista o bayesiana), es fácil ver que lo que definamos como probabilidad deberá
necesariamente cumplir ciertas propiedades. En lo que sigue, nos centramos en las no-
ciones clásica y frecuencista, para simplificar, pero es intuitivo que las propiedades que
enumeraremos también tienen sentido si la noción aplicable es la bayesiana.
Volvamos al ejemplo de un dado, donde el espacio muestral es
Ω = {uno, dos, tres, cuatro, cinco, seis}.

Consideremos que E = P(Ω) y definamos los eventos
A = {dos, cuatro, seis} y B = {uno, dos},
que pueden leerse como el resultado es par y el resultado es menor a tres, respectiva-
mente.
También resultarán eventos (porque E es una σ-álgebra)
A ∪ B = {uno, dos, cuatro, seis}
(es decir, sale un número par o menor a tres —o ambas cosas a la vez—) y
A ∩ B = {dos}
(es decir, sale un número par y es menor a tres, que es lo mismo que decir que sale un
dos).
También serán eventos
AC = {uno, tres, cinco}
(no sale un número par, o sea que es impar), así como
B C = {tres, cuatro, cinco, seis}
(no sale un número menor a tres, o sea que sale un número mayor o igual a tres), y
(A ∪ B)C , (A ∩ B)C , etc.
Ahora bien, si el espacio es equiprobable (es decir, el dado está equilibrado), usando
la noción «clásica» de la probabilidad podemos asignar las siguientes probabilidades:
#A 3
P(A) = = ,
#Ω 6
#B 2
P(B) = = ,
#Ω 6
#(A ∪ B) 4
P(A ∪ B) = = ,
#Ω 6
#(A ∩ B) 1
P(A ∩ B) = = .
#Ω 6
Sin embargo, estas probabilidades guardan una relación entre sí, que surge de cómo
podemos contar los elementos de los diferentes conjuntos. En el conjunto A ∪ B están
tanto los elementos de A como los de B. Sin embargo, no sucede que #(A∪B) sea igual
a la suma de #A y #B, ya que como hay elementos en común, sumar los cardinales
equivale a contar dos veces todos los elementos que se encuentran en la intersección
(A ∩ B). Pero si a esa suma le restamos la cantidad de elementos repetidos, entonces
sí obtendremos el cardinal de la unión, es decir:
#(A ∪ B) = #A + #B − #(A ∩ B),
que en nuestro ejemplo corresponde a la igualdad 4 = 3 + 2 − 1.

Como esto vale en general para conjuntos finitos, si dividimos por el cardinal del
espacio, obtenemos
#(A ∪ B) #A #B #(A ∩ B)
= + − ;
#Ω #Ω #Ω #Ω
es decir que usando la noción clásica de probabilidad
P(A ∪ B) = P(A) + P(B) − P(A ∩ B).
¿Pero qué ocurre si el dado no estuviera equilibrado? Supongamos, pues, que se

trata de un dado cargado, por lo que para aproximar las probabilidades anteriores se
arroja el dado 10 000 veces y se anota la frecuencia de cada resultado. Por ejemplo:
cara uno dos tres cuatro cinco seis

frecuencia 1935 2434 2523 954 1840 314
Siguiendo la noción «frecuencista», vemos que el evento A ocurrió 2434+954+314 =

3702 veces, y el evento B ocurrió 1935 + 2434 = 4369 veces, por lo que (dejando de lado
el que en este caso solo estamos aproximando las probabilidades reales), asignaremos
a A y a B las probabilidades
3702 4369
P(A) = y P(B) = .
10000 10000
De la misma manera, como el evento A ∪ B ocurrio 1935 + 2434 + 954 + 314 = 5637
veces y A ∩ B ocurrió 2434 veces, les asignamos las probabilidades
5637 2434
P(A ∪ B) = y P(A ∩ B) = .
10000 10000
Pero análogamente a lo hecho anteriormente, podemos obtener la cantidad de veces

que ocurrió la unión de A y B sumando la cantidad de veces que ocurrió cada uno
de ambos eventos, y restando los casos que se contaron dos veces, que equivale a la
cantidad de veces que ocurrieron ambos simultáneamente (es decir que ocurrió A ∩ B);
esto es:
3702 + 4369 − 2434 = 5637.
En el fondo, tenemos en términos de frecuencias absolutas, que
f (A ∪ B) = f (A) + f (B) − f (A ∩ B).
Y si dividimos por n = 10 000 obtenemos las frecuencias relativas, que asignamos

como probabilidades a los respectivos eventos, por lo que también en este caso ocurre
necesariamente que las probabilidades asignadas deberán cumplir la relación
P(A ∪ B) = P(A) + P(B) − P(A ∩ B).
Es claro que esto es una fórmula que debe valer en general, y no es específica
para nuestro ejemplo. Es decir, que cualquier definición formal de la probabilidad que
razonablemente represente nociones intuitivas como la clásica o la frecuencista (y no
es difícil convencerse de que lo mismo tiene sentido para la noción bayesiana), deberá
tener la propiedad de que para todo par de eventos A, B ∈ E, se cumpla
P(A ∪ B) = P(A) + P(B) − P(A ∩ B).
Pero esta es solo una de muchas propiedades que es de esperar que tenga la definición
matemática de probabilidad. Por poner otro ejemplo sencillo, si queremos calcular la
probabilidad de B C , podemos notar que
#B C = #Ω − #B,
ya que B C contiene a todos los elementos del espacio que no están en B (y luego,
podemos determinar su cardinal por diferencia).
Si dividimos por #Ω, obtenemos la igualdad
#B C #B
=1− ,
#Ω #Ω
por lo que si asignamos probabilidades usando la noción clásica, esto da lugar a la
igualdad
P(B C ) = 1 − P(B).
Un análisis sencillo, que se deja como ejercicio, prueba que lo mismo debe ocurrir si
se usa la noción frecuencista (e incluso puede argumentarse que lo mismo tiene sentido
bajo la interpretación bayesiana). Por lo tanto, esta propiedad también debería tenerla
cualquier función que definamos matemáticamente como una probabilidad.
Existen muchas otras propiedades que son consecuencia necesaria de las nociones
intuitivas que podemos usar para asignar probabilidades. Entre otras, podemos men-
cionar:
P(Ω) = 1 y P(∅) = 0;
si A ∩ B = ∅ (eventos disjuntos o mutuamente excluyentes), entonces
P(A ∪ B) = P(A) + P(B)
(que es un caso particular de la expresión que discutimos anteriormente);
si A ⊂ B, entonces P(A) ≤ P(B);
para todo par de eventos A y B vale que
P(B \ A) = P(B) − P(A ∩ B),
y en particular si A ⊂ B se tiene
P(B \ A) = P(B) − P(A);
si se tiene una sucesión infinita A1 , A2 , . . . de sucesos disjuntos dos a dos, entonces
P(A1 ∪ A2 ∪ . . .) = P(A1 ) + P(A2 ) + · · · ,
que también puede expresarse como

∞
! ∞
[ X
P Ak = P(Ak )
k=1 k=1
y se denomina σ-aditividad.
Todo esto muestra que definir matemáticamente la probabilidad, de modo que sus
propiedades reflejen las nociones reales o intuitivas con las que deseamos trabajar, im-
plica buscar una definición que garantice el cumplimiento de una cantidad de relaciones
como las que mencionamos en los párrafos anteriores, e incluso tal vez otras que no
mencionamos en el listado anterior. Sin embargo, en el próximo apartado veremos que
esto es mucho menos engorroso de lo que parece.
1.3.3. Definición de la probabilidad: axiomas de Kolmogorov y

sus consecuencias.
Por todas las consideraciones previas, resulta que la probabilidad se define como
una función con dominio en el conjunto de eventos que toma valores reales entre 0
y 1. Pero además, para que dicha función se corresponda con las diferentes nociones
que dan lugar a la idea de probabilidad, es necesario que satisfaga una cantidad de
propiedades, como las estudiadas en el apartado anterior.
Sin embargo, en 1933 el matemático ruso Andrey Kolmogorov probó que alcanza
con exigir que la probabilidad del espacio muestral entero sea 1 y que valga la σ-
aditividad10 : todas las demás propiedades que analizamos, pueden deducirse de estas.
Por lo tanto, damos la siguiente definición:
Definición 1. Dado un espacio muestral Ω y una σ-álgebra de eventos E sobre Ω,
decimos que una función P : E −→ [0, 1] es una probabilidad, si y solo si
P(Ω) = 1
y si para toda sucesión infinita de eventos A1 , A2 , . . . —disjuntos dos a dos11 —, vale

que
∞
! ∞
[ X
P Ak = P(Ak ).
k=1 k=1
Es realmente interesante que, todas las propiedades que mencionamos como razo-
nables para una probabilidad (y otras que no mencionamos), pueden deducirse de estos
axiomas. Por ejemplo, es bastante inmediato12 probar que
P(∅) = 0
y que la aditividad también se cumple para una sucesión finita de eventos, aunque
lo dejamos como ejercicio. En cualquier caso, usando esto, podemos ver fácilmente a
modo de ejemplo que debe valer necesariamente la propiedad del complemento.
Efectivamente, si A es un evento cualquiera, es claro que
A ∩ AC = ∅
10
Estas propiedades son los denominados axiomas de Kolmogorov.
11
Es decir, tales que la intersección entre dos cualesquiera de ellos sea vacía.
12
Para ello es necesario usar el segundo axioma tomando A1 = Ω y Ak = ∅ para k > 1 (esto da
lugar a una sucesión de eventos disjuntos dos a dos cuya unión es Ω), y junto con el primer axioma se
tiene
∞ ∞ ∞
!
[ X X
1 = P(Ω) = P Ak = P(Ak ) = 1 + P(∅).
k=1 k=1 k=2
Esto implica que

∞
X
P(∅) = 0,
k=2
que solo es posible si P(∅) = 0.

(es decir, A y AC son eventos disjuntos), por lo que
P(A ∪ AC ) = P(A) + P(AC ).
Pero además, por definición de complemento, se tiene que A ∪ AC = Ω, por lo que
P(A ∪ AC ) = P(Ω) = 1
(por el primer axioma de Kolmogorov). Luego, igualando se obtiene
P(A) + P(AC ) = 1,
y despejando resulta
P(AC ) = 1 − P(A),
como queríamos probar.
Es un ejercicio interesante y recomendable intentar probar todas las demás pro-
piedades que mencionamos en el apartado anterior, usando únicamente los axiomas
de Kolmogorov y otras propiedades ya demostradas (por ejemplo, en esta instancia,
es válido usar directamente la propiedad del complemento sin necesidad de volver a
demostrarla).
En cualquier caso, es de destacar que solo dos propiedades muy fundamentales se
consideran axiomas de la teoría (propiedades que deben cumplirse para que el concep-
to matemático de probabilidad sea útil en la aplicación a problemas del mundo real,
cualquiera sea la noción de probabilidad subyacente), y esto basta para que la pro-
babilidad cumpla con todas las demás propiedades razonables que mencionamos en el
apartado anterior. En los capítulos que siguen usaremos todas esas propiedades de la
probabilidad sin mayor discusión.
1.3.4. Probabilidad condicional e independencia

Antes de concluir, definiremos una noción de importancia fundamental: la de «pro-
babilidad condicional».
La idea es estudiar cómo varía la probabilidad de un cierto suceso A, si es conocido
el hecho de que ocurrió otro suceso B. Esto permitirá dar un marco general a la idea
de que la probabilidad de un suceso (A en este caso) puede revisarse o «recalcularse»
incorporando información nueva (en este caso la información con la que se cuenta es
que ocurrió el suceso B).
Para ser más precisos: supongamos que se realizó el experimento y se obtuvo un
determinado resultado, digamos ω0 ∈ B, pero en realidad no sabemos que el resultado
es ω0 , sino solamente que el resultado que ocurrió es alguno de los ω que pertenecen
al evento B. Sabemos que «sucedió B», pero no cuál fue el resultado específico del
espacio muestral. Por lo tanto, en general no tenemos certezas de la ocurrencia o no
ocurrencia de A.13
Esto es así, porque si supiéramos a ciencia cierta que el resultado fue ω0 , sería
cuestión de verificar si ω0 ∈ A o bien ω0 ∈
/ A. Pero si ocurre (y en general es lo que
sucede), que algunos de los elementos de B pertenecen también a A y otros no, saber
que ocurrió B (es decir que el resultado fue uno de los elementos de B), no permite
decidir con certeza si A ocurrió o no.
Sin embargo, saber que el resultado fue uno de los elementos de B, en cierto sentido
restringe el espacio muestral: ahora los únicos resultados realmente posibles son, no
todos los de Ω, sino todos los de B. Por otro lado, si A ocurrió (además de B), es
porque el resultado es un elemento tanto de A como de B, es decir que pertenece al
evento A ∩ B.
Si tuviéramos un espacio equiprobable, podríamos usar la noción clásica de proba-
bilidad y decir que, si damos por cierto que el evento B ocurrió:
los casos «posibles» son todos los de B, es decir que en total son #B;
los casos «favorables» (los correspondientes a A), ahora en total son #(A ∩ B),
porque los resultados de A que no están en B, sabemos que no pueden haber
ocurrido.
Por lo tanto, la probabilidad de que haya ocurrido A si tenemos la certeza de que B

ocurrió —que notaremos P(A|B) y leeremos como probabilidad de A dado B—, puede
calcularse como
#(A ∩ B)
P(A|B) = .
#B
Y si dividimos numerador y denominador por el cardinal del espacio, obtenemos
#(A ∩ B)/#Ω P(A ∩ B)

P(A|B) = = .
#B/#Ω P(B)
Siguiendo esta idea, definimos la probabilidad condicional más en general.

13
Notar que, sin embargo, el suceso A ocurrió o no ocurrió, una de ambas opciones: simplemente no
sabemos cuál es el caso; esto es así porque el experimento ya fue realizado. Desde cierta perspectiva,
A ya no pareciera ser un suceso aleatorio, sin embargo, nuestro desconocimiento nos permite seguir
tratándolo como tal, lo cual podría justificarse en base a la noción bayesiana de la probabilidad. En
el fondo, si nos obligaran a apostar por la ocurrencia o no ocurrencia de A —aún sabiendo que la
respuesta ya está dada— analizaríamos la situación en un marco probabilístico.
Definición 2. Dados dos sucesos A y B, con P(B) > 0, definimos la probabilidad del
suceso A condicional a B como
P(A ∩ B)
P(A|B) = .
P(B)
Supongamos ahora que valen las igualdades
P(A|B) = P(A) y P(B|A) = P(B).
Esto indica que saber que ocurrió el suceso B no tiene efecto alguno sobre la probabili-
dad de que haya ocurrido A. De igual modo, la información de que el suceso A ocurrió
no importa a los fines de calcular la probabilidad de que haya ocurrido el suceso B; es
información irrelevante, sin relación alguna. Esto motiva la siguiente
Definición 3. Decimos que dos sucesos A y B son independientes si y solo si se cumple

que
P(A|B) = P(A) y P(B|A) = P(B).

Finalmente, observemos que si (como ocurre muchas veces) la probabilidad condi-

cional es un dato conocido, y también se conoce la probabilidad de B, esto permite
calcular la probabilidad de la intersección, que se conoce como probabilidad conjunta
de A y B.
Propiedad 2. Dados dos sucesos A y B, la probabilidad conjunta de ambos puede

calcularse como
P(A ∩ B) = P(A|B) · P(B)
o bien como
P(A ∩ B) = P(B|A) · P(A).
En particular, si A y B son independientes, resulta
P(A ∩ B) = P(A) · P(B).

1.4. Conclusión: el espacio de probabilidad como re-

presentación matemática de un experimento alea-
torio.
En conclusión, para modelizar matemáticamente cualquier situación real en la que
se realice un experimento aleatorio, debemos tener en cuenta:
cuáles son los posibles resultados del experimento, entendidos estos como un lis-
tado exhaustivo y excluyente de posibles estados de la realidad una vez concluido
el experimento aleatorio (listado que puede realizarse de diferentes maneras según
los aspectos de la realidad que decidamos observar o medir);
qué condiciones nos interesa verificar si se cumplen o no luego de realizar el ex-

perimento, condiciones que pueden ocurrir tal vez para varios posibles resultados
del experimento (por ejemplo, «el dado arroja un número par» se cumple tanto
cuando el resultado es «dos», como cuando es «cuatro» o «seis»); el listado de
condiciones que interesa considerar no tiene por qué ser excluyente;
finalmente, a cada una de las condiciones o situaciones que tras el experimento

nos interesa verificar si ocurrieron o no se les debe asignar un número entre 0 y
1 (su probabilidad), y esto debe hacerse necesariamente siguiendo ciertas reglas.
Estas tres cuestiones a tener en cuenta se corresponden, respectivamente, con las

nociones matemáticas de
espacio muestral (Ω), que es simplemente un conjunto (de resultados), finito o

infinito;
conjunto de eventos (E), que es una σ-álgebra sobre Ω; y
probabilidad, que es una función (P) de E en el intervalo real [0, 1], que satisface
los axiomas de Kolmogorov.
Estos tres elementos necesarios para representar matemáticamente cualquier expe-

rimento aleatorio, se pueden ordenar en un terna (Ω, E, P), que bajo las condiciones
mencionadas se denomina espacio de probabilidad.
Es decir, la noción matemática de espacio de probabilidad, con sus tres compo-
nentes, es el objeto matemático con el que de ahora en más modelizaremos cualquier
experimento aleatorio real (cualquiera sea la noción de probabilidad aplicable en par-
ticular), sin perjuicio de que en muchos casos podrá omitirse la definición precisa del
espacio (que de todos modos se entenderá que subyace a todo lo demás), y surgirán
otros elementos y herramientas que permitirán responder más fácilmente las preguntas
relevantes en la teoría y en la práctica. Uno de los concepto fundamentales para esto
será el de variable aleatoria, que abordamos en el próximo capítulo.
Capítulo 2
Variables aleatorias
Estudiaremos en este capítulo uno de los conceptos centrales de la teoría de la

probabilidad: el de variable aleatoria. Desarrollamos esta noción y precisamos su de-
finición en el apartado 2.1, y en el apartado 2.2 explicamos la idea de distribución
de una variable (y el de función de distribución en el apartado 2.2.1). Luego clasifi-
caremos las variables aleatorias según ciertas características de su distribución en el
apartado 2.3 y para los casos de variables discretas y continuas desarrollamos la noción
de esperanza matemática, varianza y momentos de una distribución en el apartado 2.4.
Finalmente, presentamos algunos ejemplos clásicos de distribuciones de probabilidad
continuas y discretas en el apartado 2.5 y agregamos ciertas consideraciones teóricas
para profundizar la comprensión de los conceptos de este capítulo en el apartado 2.6.
2.1. Concepto y definición

Cuando se define un espacio de probabilidad, la definición del espacio muestral
puede hacer referencia a los resultados posibles entendidos como hechos de cualquier
naturaleza. Sin embargo, son particularmente útiles —especialmente en las ciencias
económicas— los resultados que pueden representarse (con algún sentido) en forma
numérica. Esto es así porque con resultados numéricos se pueden realizar las operaciones
matemáticas usuales, se pueden comparar según el orden en la recta numérica, etc.
Pero los resultados ω del espacio muestral Ω en principio no tienen por qué repre-
sentar valores numéricos; de hecho, se supone que representan ciertos aspectos —no
necesariamente cuantitativos— de los posibles estados de la realidad una vez concluido
el experimento aleatorio.
Sin embargo, es posible asignar un valor numérico a cada uno de los posibles re-
sultados, lo que equivale a redefinir el espacio muestral como un conjunto numérico
31
CAPÍTULO 2. VARIABLES ALEATORIAS 32
(en general, este será el conjunto R de los números reales o algún subconjunto del
mismo). Dicha asignación de un (y solo un) valor de R a cada posible resultado ω ∈ Ω
es en última instancia una función de Ω a R. Dichas funciones suelen representarse con
letras mayúsculas (X, Y , Z, etc.), y bajo ciertas condiciones bastante generales se de-
nominan variables aleatorias. Estas pueden interpretarse como variables numéricas que
tomarán valores al azar dependiendo de cuál sea el resultado del experimento aleatorio
representado por el espacio de probabilidad.
Existe, sin embargo, un detalle «técnico» importante: como se verá luego, dada una
variable aleatoria X resultará fundamental para la teoría de la probabilidad considerar
eventos de la forma
{ω ∈ Ω : X(ω) ≤ a}
para cada a ∈ R y sus respectivas probabilidades. Pero dada una función cualquiera
X : Ω −→ R,
nada garantiza que para cada a ∈ R tales subconjuntos del espacio muestral sean,
efectivamente, eventos (elementos de la σ-álgebra E), por lo que no siempre tendrá
sentido asignarles una probabilidad.
Luego, esta es una condición que debe exigirse en la definición de variable aleatoria,
y que presentamos a continuación.1
Definición 4. Dado un espacio de probabilidad (Ω, E, P ), se dice que una función
X : Ω −→ R
es una variable aleatoria sii ∀a ∈ R
{ω ∈ Ω : X(ω) ≤ a} ∈ E.
En general, abreviaremos el conjunto
{ω ∈ Ω : X(ω) ≤ a}
como
{X ≤ a},
1
La definición de variable aleatoria (real) es por este motivo un tanto técnica, pero los detalles solo
son relevantes cuando existen subconjuntos de Ω que no son eventos. En lo subsiguiente este tecnicismo
no tendrá mayor relevancia en los razonamientos, aunque haremos uso permanentemente del hecho
de que {X ≤ a} es un evento, y por tanto tiene sentido referirse a su probabilidad, P(X ≤ a). En
cualquier caso, lo central es recordar que una variable aleatoria es una función que asigna un valor
numérico a cada posible resultado del experimento aleatorio.
sin hacer referencia explícita al espacio muestral, aun cuando se trata de un subconjunto
de este. Como se dijo, si X es una variable aleatoria, tal conjunto es un evento, y al
representar su probabilidad suelen omitirse las llaves, es decir, escribimos
P(X ≤ a).
El hecho de omitir las referencias al espacio muestral Ω y sus posibles resultados ω es
razonable, precisamente porque una de las ventajas de trabajar con variables aleatorias
es que permite omitir las referencias al espacio muestral subyacente, que eventualmente
puede ser muy complicado de representar y de manipular. Desde ya, esto tiene sentido
siempre que seamos capaces de captar todos los aspectos relevantes del experimento
aleatorio mediante los valores que toman una o más variables aleatorias.2
La notación abreviada que se mencionó, se aplica en otros casos similares: así, el
subconjunto de Ω
{ω ∈ Ω : X(ω) = a}
suele representarse simplemente como
{X = a},
y su probabilidad como
P(X = a).
De igual modo se interpretan las expresiones {X < a}, {a ≤ X ≤ b}, etc. Y en general,
si B es un boreliano de R, se escribe
{ω ∈ Ω : X(ω) ∈ B}
como
{X ∈ B}.
A su vez, la probabilidad de estos conjuntos se suele escribir omitiendo las llaves,

pero tal expresión solo tendrá sentido si dichos conjuntos son efectivamente eventos
(elementos de E). Aunque no es totalmente evidente, puede probarse que si X es una
variable aleatoria, esto es así. Es decir:
2
De hecho, esta idea de «dejar oculto» el espacio muestral puede formalizarse como explicamos a
continuación.
Dado un espacio de probabilidad (Ω, E, P) y dada una variable X, se puede definir un nuevo espacio
de probabilidad tomando como espacio muestral R (interpretamos como resultados del experimento
directamente los valores que toma X); en ese caso, el conjunto de eventos está formado por los
borelianos de R (que notamos como B(R)), y la función de probabilidad PX de cada evento/boreliano
se define en función de la probabilidad original P como
PX (B) = P(X ∈ B).

Puede probarse que con esta definición R, B(R), PX es un espacio de probabilidad.
Propiedad 3. Si X es una variable aleatoria, es decir, si los subconjuntos de Ω de la

forma {X ≤ a} (a ∈ R) son eventos, entonces también son eventos los conjuntos
{X < a}, {X > a}, {X ≥ a}, {X = a},
etc., y en general es un evento todo conjunto de la forma
{X ∈ B},
si B es un boreliano de R.3
Una noción que será de utilidad en los próximos capítulos es la de variables aleato-
rias independientes. Si bien la interpretación de esta noción resulta intuitiva, conviene
precisar la definición, que se basa en la noción previa de eventos independientes.
Definición 5. Dadas dos variables aleatorias X e Y , decimos que estas son variables
aleatorias independientes, sii para cualquier par de borelianos B1 y B2 se tiene que los
eventos
{X ∈ B1 } e {Y ∈ B2 }
son independientes.
2.2. La distribución de una variable aleatoria

Como se dijo, al definir una variable aleatoria en un espacio de probabilidad se
puede realizar el cálculo de diversas probabilidades sin hacer referencia explícita al
espacio muestral subyacente Ω. Puede pensarse simplemente que se redefine el espacio
muestral como el conjunto de los números reales, o algún subconjunto del mismo. Esto
tiene sentido siempre que se busque calcular probabilidades del tipo
P(X ∈ B),
donde B es un conjunto boreliano. Al conocimiento de tales probabilidades para cada

B boreliano se lo denomina genéricamente distribución de probabilidad de X.
3
Desde ya, esto último incluye a los mencionados más arriba, ya que —por ejemplo—
{X < a} = {X ∈ (−∞, a)},
y todos los intervalos reales son borelianos.

Más específicamente, podemos decir que la distribución de X es la función4 que a

cada B boreliano de R le asigna la probabilidad
P(X ∈ B).5
2.2.1. La función de distribución y sus propiedades

Aún cuando el concepto de distribución de probabilidad puede parecer amplio y
difícil de representar, es posible probar que alcanza con conocer las probabilidades de
la forma
P(X ≤ a)
para poder calcular cualquier otra probabilidad del tipo
P(X ∈ B),
siendo B un boreliano de R (en lo que sigue veremos algunos resultados que apuntan
en este sentido).
Es por esto que la herramienta fundamental para conocer la distribución de una
variable aleatoria cualquiera se basa en los valores P(X ≤ a), que dan lugar a la
siguiente definición.
Definición 6. Dada una variable aleatoria X, se define su función de distribución
como
FX : R → [0; 1]
dada por
FX (t) = P(X ≤ t).

Observación 2. Vista de otro modo, la definición 6 muestra que, conocida FX (t), las
probabilidades de la forma P(X ≤ a) pueden calcularse como
P(X ≤ a) = FX (a).
Sin embargo, como se adelantó, hay más información en FX que la aparente;6 tam-
bién permite calcular —entre otras— las probabilidades que aparecen en las siguientes
fórmulas:
4
No se debe confundir la distribución de X con la función de distribución de X, que definiremos a
continuación, y que cuando sea necesario enfatizar esta distinción mencionaremos como «función de
distribución (o probabilidad) acumulada».
5
En términos de la nota 2, la distribución de X sería simplemente la probabilidad PX .
6
De hecho, el nombre«función de distribución» hace referencia a que contiene toda la información
relevante sobre la distribución de probabilidad de X, es decir, los valores de P(X ∈ B) para cualquier
B ⊂ R «razonable» (es decir un conjunto boreliano).
P(X < a) = FX (a− ) 7
P(X ≥ a) = 1 − FX (a− )
P(X > a) = 1 − FX (a)
P(X = a) = FX (a) − FX (a− )
P(a < X ≤ b) = P(X ≤ b) − P(X ≤ a) = FX (b) − FX (a)
P(a ≤ X ≤ b) = P(X ≤ b) − P(X < a) = FX (b) − FX (a− ), etc.
Propiedad 4. Si FX es la función de distribución de una variable aleatoria X, enton-

ces:
1. FX (t) es no decreciente en R, es decir:
t0 < t1 =⇒ FX (t0 ) ≤ FX (t1 ), ∀t0 , t1 ∈ R;
2. FX (t) es continua a derecha (aunque no necesariamente a izquierda), es decir:
FX (t0 ) = FX (t+
0 ), ∀t0 ∈ R;
3. lı́m FX (t) = 0;
t→−∞
4. lı́m FX (t) = 1.
t→+∞
Más aún, puede probarse que si F es una función con esas cuatro propiedades, entonces
es una distribución (es decir, existe una variable aleatoria X tal que F = FX ).
De la observación 2 surge, en particular, que P(X = a) > 0 si y solo si FX es

discontinua (por izquierda) en t = a y que P(X = a) = 0 para todos los puntos t = a
donde la función de distribución es continua.
7
En general, para los límites laterales en un punto usaremos por simplicidad la notación f (x+
0) =
lı́m+ f (x) y f (x−
0 ) = lı́m− f (x).
x→x0 x→x0
2.3. Clasificación de variables aleatorias

El análisis de las discontinuidades de FX es de interés para clasificar las variables
aleatorias y sus distribuciones. Las dos clases más importantes de variables aleatorias
surgen de las siguientes definiciones:
Definición 7. Dada una variable aleatoria X, llamamos RX al conjunto de puntos de

discontinuidad de FX , es decir,
RX = {t ∈ R : P(X = t) > 0}.
En particular:
si RX = ∅ (o sea, FX es continua), se dice que X es una VA continua;

P
si P(X = x) = 1, se dice que X es una VA discreta y RX se denomina rango
x∈RX
8
de X.
Entre las VA continuas se destacan aquellas para las cuales existe una función fX
integrable en R con la propiedad
Z t
FX (t) = f (x) dx
−∞
∀t ∈ R.
Cuando existe una función fX con dicha propiedad, X se dice absolutamente con-
tinua y decimos que fX es una (función de) densidad para X. Si X es discreta, la
herramienta análoga es la función de probabilidad (o de probabilidad puntual, o de
masa de probabilidad, según la fuente), que definimos como
pX : RX → [0; 1] / pX (x) = P (X = x) .
(También es usual pensar a pX con dominio en R, en cuyo caso se anula en todos los
x∈/ RX ).
8
Esta suma está bien definida, ya que RX , por ser el conjunto de discontinuidades de una función
monótona, es necesariamente finito o infinito numerable. Informalmente, esto significa que puede
hacerse una lista —finita o infinita— que enumere todos los elementos de RX (cosa que no es posible
—por ejemplo— con todos los elementos de R); luego, si RX = {x1 , x2 , ...}, la suma en cuestión es la
serie
P(X = x1 ) + P(X = x2 ) + · · · ,
que puede probarse fácilmente que converge y su suma no depende del orden de los términos (i.e.,
converge absolutamente).
Observación 3. Existen otras clases de variables aleatorias: en particular, existen VA

que no son discretas ni continuas, sino una combinación de ambas (por lo que se las
suele denominar mixtas). Por ejemplo, la distribución
(
0 t<0
FX (t) = t
1 − e /2 t ≥ 0
es discontinua en t = 0 (y continua en cualquier otro lado). Entonces obviamente no
corresponde a una VA continua, pero tampoco a una VA discreta, ya que viendo el
único punto de probabilidad positiva (en este caso RX = {0}) vale
X 1
P(X = x) = P (X = 0) = F (0) − F (0− ) = ,
x∈R
2
X
que es estrictamente menor que 1.
También cabe agregar que existen VA continuas que no son absolutamente continuas
(i.e., continuas pero sin densidad), pero los ejemplos de estas y de sus correspondientes
distribuciones son bastante complejos y su análisis requiere conocimientos de teoría
de la medida (en particular, de la medida de Lebesgue en R); además, dichos casos
están lejos de ser relevantes para la aplicación de métodos estadísticos en el ámbito
actuarial y económico, salvo tal vez en algunos contextos muy específicos. Por ese
motivo, en pos de la brevedad, en lo subsiguiente a veces usaremos expresiones como
«X es una V.A.continua con densidad fX (x). . . », sin aclarar que se trata de una
variable absolutamente continua; pero esto de todos modos es cierto por existir una
densidad de la distribución.
2.4. Esperanza matemática, varianza y momentos de

la distribución
Si bien existe una definición de la esperanza matemática E(X) para cualquier va-
riable aleatoria en términos de su función de distribución FX , la misma está fuera del
alcance de este curso.9 Sin embargo, para las variables aleatorias discretas y para las con-
tinuas con una densidad (es decir, absolutamente continuas), se pueden dar definiciones
alternativas en términos de sus funciones de probabilidad y densidad, respectivamente.
9
Una definición general —aunque existen otras incluso más convenientes— puede darse en términos
de una integral de Riemann-Stieltjes (una extensión de la integral de Riemann) como
Z +∞
E(X) = x dFX (x).
−∞
Definición 8. Se define la esperanza matemática de X de la siguiente manera:
si X es discreta con función de probabilidad pX (x) y rango RX , como

X
E(X) = x · pX (x);
x∈RX
si X es continua con función de densidad fX (x), como

Z +∞
E(X) = x · fX (x) dx.
−∞

Observación 4. La E(X) puede tomar un valor finito, infinito (positivoR0 o negati-
vo) o no existir. Esto último ocurre, por ejemplo, si de la integrales −∞ xfX (x) dx y
R +∞
0
xfX (x) dx una diverge a −∞ y la otra diverge a +∞, ya que en ese caso la integral
entre −∞ y +∞ se considera no definida.
De la definición de la esperanza surgen las siguientes propiedades, que enunciamos

sin demostración:
Propiedad 5 (Propiedades de la esperanza). Si X e Y son variables aleatorias y
a, b ∈ R, valen las siguientes propiedades:
E(aX + b) = a E(X) + b;
E(a) = a;
E(X + Y ) = E(X) + E(Y );
si X e Y son independientes, se tiene E(XY ) = E(X) E(Y ).
Cabe aclarar que las dos últimas propiedades serán probadas en el capítulo 4, pero
las enunciamos aquí ya que serán de utilidad en lo que sigue. Por otro lado, sin la hipó-
tesis de independencia, la esperanza de un producto puede o no ser igual al producto
de las respectivas esperanzas; la caracterización completa de cuándo esto se verifica y
cuándo no resultará del estudio de la covarianza en el capítulo 4.
Si se define una nueva variable en función de X como Y = g(X) (por ejemplo,
Y = X 2 , Y = e2X , etc.), en principio puede calcularse E(Y ) en base a su función de
probabilidad pY (y) o densidad fY (y), según el caso. Sin embargo, es posible también
hacerlo conociendo solo pX (x) o fX (x), según lo establece el siguiente teorema:
Si esa integral fuera entre a y b, existiría por ser g(x) = x una función continua y FX monótona. En
última instancia, la existencia de la esperanza (finita o infinita) dependerá de cómo se comporte la
misma cuando a → −∞ y b → +∞.
Teorema 1 (Esperanza de una función de una variable aleatoria). Si

Y = g(X), vale que:
si X es discreta con función de probabilidad pX (x) y rango RX , entonces

X
E(Y ) = E(g(X)) = g(x) · pX (x);
x∈RX
si X es continua con función de densidad fX (x), entonces

Z +∞
E(Y ) = E(g(X)) = g(x) · fX (x) dx.
−∞
Demostración. Veamos la prueba para el caso discreto.

Si Y = g(X) es fácil ver que Y es también discreta, y su rango es
RY = g(RX ),
es decir la imagen de g para los valores del rango. Además, si y ∈ RY , la probabilidad
P(Y = y0 )
está dada por la suma de las probabilidades puntuales de todos los x ∈ RX tales que
g(x) = y0 . Esto es,
X X
pY (y0 ) = P(Y = y0 ) = P(X = x) = pX (x).
x∈RX x∈RX
g(x)=y0 g(x)=y0
Ahora bien, la esperanza de Y , por definición es

X
E(Y ) = y · pY (y),
y∈RY
es decir,
 
X X  X X X X
E(Y ) = y
 p X (x) 
 = y · p X (x) = g(x) · pX (x) =
y∈RY x∈RX y∈RY x∈RX y∈RY x∈RX
g(x)=y g(x)=y g(x)=y
X
= g(x) · pX (x).
x∈RX
3
permite calcular en base a la distribución de X, valores como E(X ),
Este teorema
E X(X − 1) , etc., y otros que definimos a continuación y resultan de interés teórico
y práctico.
Definición 9. Dada una variable aleatoria X, se denominan momentos de la distribu-
ción de X a las siguientes cantidades:
El k-ésimo momento natural de X (o momento a secas) se define, si existe, como

mk = E(X k ).
En particular, m1 es simplemente la esperanza de X. Además, es claro que como
X 0 = 1, resulta m0 = 1.
El k-ésimo momento centrado de X se define, si existe, como
µk = E (X − m1 )k .

En particular,
µ0 = E (X − m1 )0 = 1,

µ1 = E (X − m1 ) = E(X) − E(m1 ) = m1 − m1 = 0,
y además se define como varianza de X a
var(X) = µ2 = E (X − m1 )2 .

La varianza se nota a veces también como σ 2 , ya que su raíz cuadrada suele

notarse como σ y se denomina desvío estándar de X.
El k-ésimo momento estandarizado de X se define, si existe, como
µk
αk = k .
σ
En particular, es fácil ver que α0 = α2 = 1 y que α1 = 0. Los momentos α3 y α4
se denominan coeficiente de asimetría de X (notado como A(X)) y coeficiente
de curtosis de X (notado como C(X)), respectivamente.
El k-ésimo momento factorial de X se define, si existe, como

(k)
X!
ϕk = E X =E = E X(X − 1)(X − 2) . . . (X − k + 1) .
(X − k)!
En particular,
ϕ1 = E X (1) = E(X) = m1

y
ϕ2 = E X (2) = E X(X − 1) = E(X 2 ) − E(X) = m2 − m1 .

Además, es claro que X (0) = 1, por lo que el momento factorial de orden 0 es

ϕ0 = 1.
En general, es posible establecer diversas relaciones, entre los distintos tipos de

momentos de una distribución. Como se mencionó, se tiene que
ϕ 1 = m1 y ϕ2 = m2 − m1 .
Esto también implica que m2 = ϕ2 + ϕ1 .

También es posible relacionar momentos centrados y naturales, desarrollando las
potencias de binomios que definen a aquellos. Por ejemplo:
µ2 = E (X − m1 )2 = E(X 2 − 2m1 X + m21 ).

Pero como m1 es una constante, esto implica que
µ2 = E(X 2 ) − 2m1 E(X) + m21 = m2 − 2m1 · m1 + m21 = m2 − m21 .
Como esto es también la varianza, se tiene lo que se conoce como «fórmula de cálculo»
de la varianza:
var(X) = m2 − m21 .
Por lo visto antes, la varianza también puede escribirse en términos de momentos
factoriales, como
var(X) = ϕ2 + ϕ1 − ϕ21 .
De la misma manera, podemos expresar a µ3 como
µ3 = E (X − m1 )3 = E(X 3 − 3m1 X 2 + 3m21 X − m31 ) = m3 − 3m1 m2 + 2m31 ;

y a µ4 como
µ4 = E (X − m1 )4 = E(X 4 − 4m1 X 3 + 6m21 X 2 − 4m31 X + m41 ) =

= m4 − 4m1 m3 + 6m21 m2 − 3m41 ,

etc.
Al igual que la esperanza matemática, la varianza también presenta algunas pro-
piedades de gran interés teórico y práctico.
Propiedad 6 (Propiedades de la varianza). Si X e Y son variables aleatorias y a, b ∈

R, valen las siguientes propiedades:
var(aX + b) = a2 var(X);
var(a) = 0;
si X e Y son independientes, se tiene var(X + Y ) = var(X) + var(Y ).
Observación 5. Nótese que la propiedad
var(aX) = a2 var(X)
se traduce en la siguiente propiedad para el desvío estándar:
σ(aX) = |a|σ(X).
Cabe aclarar también que aún en el caso de variables independientes, puede no ser
cierto que el desvío estándar de una suma sea la suma de los desvíos.
También es fácil generalizar la propiedad var(aX + b) = a2 var(X) a todos los

momentos centrados, como:
µk (aX + b) = ak µk (X).
Es decir, los momentos centrados son invariantes ante un cambio de posición, pero no
ante un cambio de escala.
Esto, junto a la propiedad mencionada para el desvío estándar, implica que si a > 0,
entonces
µk (aX + b) ak µk (X) ak µk (X)
αk (aX + b) = k = k = k = αk (X),
σ(aX + b) aσ(X) a σ(X)k
lo que prueba que los momentos estandarizados son invariantes tanto ante cambios de
posición, como de escala (aunque los de orden impar son sensibles a cambios de signo).
2.5. Algunas distribuciones usuales

Por diferentes motivos, existen ciertas distribuciones de probabilidad de uso fre-
cuente en diferentes situaciones teóricas y prácticas. Es decir que es usual suponer la
existencia de variables aleatorias cuya distribución está más o menos bien identificada
en la literatura a través de un nombre o una notación determinada.
Más aún, cuando se da nombre a una cierta distribución en general se hace referencia
no a una, sino a toda una familia de distribuciones que difieren entre sí en el valor de
uno o más valores denominados parámetros (sobre esto hablaremos en más detalle al
abordar el problema de la estimación puntual en modelos paramétricos). Veamos un
ejemplo.
Ejemplo 1. Consideremos la función

α

1 − α+t si t ≥ 0
F (t) =
0 si t < 0.
Es intencional el hecho de haber notado a la función F como función solo de la

variable t, aun cuando en la expresión anterior figura también el símbolo α; esto es así
porque se pretende pensar en las diferentes funciones de una variable que se obtienen
cuando α toma un valor determinado. Por ejemplo, si α = 1 se tiene la función
1

1 − 1+t si t ≥ 0
F (t) =
0 si t < 0
y si α = −2 resulta
2

1 + t−2 si t ≥ 0
F (t) =
0 si t < 0.
Además, si α = 0 se tiene

1 si t > 0
F (t) =
0 si t < 0,
pero F (0) no está bien definida.
Es un buen ejercicio verificar que únicamente cuando α > 0 la función F resultante
está bien definida para todos los valores reales de t y resulta además una función de
distribución (es decir, cumple las cuatro condiciones mencionadas en la propiedad 4).
Por este motivo, podemos decir que F (t) definida como lo hicimos, para α > 0,
constituye una familia de distribuciones (no una única distribución, ya que para cada
valor de α la función de distribución da diferentes valores). Más precisamente, dicha
familia de distribuciones es el conjunto de todas las funciones Fα (t) tales que α > 0 y
α

1 − α+t si t ≥ 0
Fα (t) =
0 si t < 0.
Presentamos a continuación algunas de las familias de distribuciones de mayor im-

portancia teórica y práctica.

2.5.1. Algunas familias de distribuciones continuas

Presentamos en las siguientes tablas algunos ejemplos de familias de distribuciones
(absolutamente) continuas.
CAPÍTULO 2. VARIABLES ALEATORIAS
Nombre Notación Función de densidad Función de distribución Esperanza Varianza
E(λ) λe−λx 1 − e−λx

1 1
Exponencial λ λ2
(λ > 0) (x > 0) (x > 0)
λα α−1 −λx
Γ(α, λ) Γ(α)
x e
α α
Gamma — λ λ2
(α, λ > 0) (x > 0)
1
Beta(α, β) B(α,β)
xα−1 (1 − x)β−1
α αβ
Beta — α+β (α+β)2 (α+β+1)
(α, β > 0) (0 < x < 1)
N (µ, σ 2 )
1 2
Normal √ 1 e− 2σ2 (x−µ) — µ σ2
2πσ 2
(σ 2 > 0)
C(a, b)
1 1 x−a 1

Cauchy πb(1+( x−a )2 ) π
arctan b
+ 2
— —
b
(b > 0)
45
Nombre Notación F. de densidad F. de distribución Esperanza Varianza
1 x−a
U(a, b) b−a b−a
a+b (b−a)2
Uniforme 2 12
(a < b) (a < x < b) (a < x < b)
(ln x−µ)2
LogN (µ, σ 2 ) 1√
2xσ 2π
e− 2σ 2
σ2 2 2
Log-normal — eµ+ 2 (eσ − 1)e2µ+σ
(σ > 0) (x > 0)
x α x α
x α−1 −( λ )
α
1 − e−( λ )

W (α, λ) λ λ
e
1
λ2 Γ 1 + α2 − Γ2 1 + α1

Weibull λΓ 1 + α
(α, λ > 0) (x > 0) (x > 0)
1 λx
L(λ) 2
e , (x < 0)
λ −λ|x| 2
Laplace 2
e 0 λ2
(λ > 0) 1 − 12 e−λx , (x ≥ 0)
αmα m α αm m2 α

P ar(m, α) xα+1
1− x α−1 (α−1)2 (α−2)
Pareto
(m, α > 0) (x > m) (x > m) (si α > 1) (si α > 2)
46
2.5.2. Algunas familias de distribuciones discretas

Existe, obviamente, una infinidad de distribuciones de variables aleatorias discretas,
y una gran variedad de familias de distribuciones «con nombre». Sin embargo, las que
son —por mucho— más conocidas (que se presentan en la tabla que mostramos a con-
tinuación), surgen al considerar la noción de experimento dicotómico, y su reiteración
en realizaciones independientes y bajo las mismas condiciones.
Se denomina experimento dicotómico a un experimento aletorio cuyo resultado se
clasifica entre dos posibilidades, que convencionalmente se denominan «éxito» y «fra-
caso»10 . Si la probabilidad de éxito es p ∈ [0, 1] (y por lo tanto la probabilidad de
fracaso es q = 1 − p) y si definimos la variable aleatoria X como

1 si ocurre «éxito»
X=
0 si ocurre «fracaso»,
decimos que X tiene distribución de Bernoulli con parámetro p, y notamos
X ∼ Be(p).
En particular, la distribución binomial surge cuando se considera que el experimento

dicotómico se repite n veces en condiciones similares (de modo que la probabilidad de
éxito es cada vez p) y siendo cada realización independiente de las demás. Si se define
como X a la cantidad total de éxitos obtenidos (que puede ser cualquier número entero
entre 0 y n), se dice que la distribución de X es Binomial de parámetros n y p, o
X ∼ Bin(n, p).
Es claro, en particular, que si n = 1 esto se reduce a la distribución Be(p).

Por otro lado, si en lugar de fijar una cantidad de repeticiones del experimento
dicotómico, fijáramos una cantidad r de éxitos y repitiéramos el experimento hasta
alcanzar el total de r éxitos, lo aleatorio ya no sería la cantidad de éxitos (que nece-
sariamente será r), sino cuántas repeticiones deberán ocurrir hasta que los r éxitos se
alcancen efectivamente.
Si definimos a X como la cantidad de realizaciones del experimento dicotómico que
tienen lugar hasta la ocurrencia del r-ésimo éxito, se dice que la distribución de X es
Binomial negativa o de Pascal, con parámetros r y p. Lo notamos:
X ∼ BN (r, p).
10
Estos términos son puramente convencionales y no implican ningún tipo de valoración en particu-
lar. Así, si se quisiera analizar la cantidad de veces que la aplicación de un medicamento da lugar a la
muerte del/la paciente en cuestión, podría denominarse «éxito» al caso en que se produce la muerte,
lo cual sin duda es un resultado no deseable.
El caso particular de la distribución binomial negativa para un éxito (r = 1), suele

denominarse simplemente distribución geométrica de parámetro p, que notaremos
X ∼ G(p).
Sin embargo, existe una situación muy interesante de estudiar que no encuadra
con precisión en estos esquemas. Si quisiéramos analizar cuántas llamadas telefónicas
entran a un call-center de una gran empresa a lo largo de una hora en particular, no
es preciso suponer que cada minuto, o cada segundo, corresponde a una realización
del experimento dicotómico por el que se determina si ingresa o no una llamada. Más
allá de la discusión de los supuestos de independencia y probabilidad constante, podría
ser que en un minuto en particular —e incluso en un segundo en particular— no
ingresen llamadas, o bien que ingrese una... ¡pero también que ingresen dos, tres o más!
Podríamos pensar a cada «instante» (cada sección infinitesimal de tiempo) como una
realización del experimento aleatorio, que tendrá lugar por tanto una infinidad de veces
a lo largo de la hora en cuestión, y por lo tanto tampoco habrá un límite teórico a la
cantidad de éxitos (llamadas) que puedan ocurrir.
La situación límite suele representarse en forma idealizada11 mediante la distribu-
ción de Poisson, caracterizada por un parámetro λ que representa el promedio de éxitos
que se esperan a lo largo del período analizado. Si X cuenta la cantidad de «éxitos» u
ocurrencias totales del resultado buscado, notaremos
X ∼ P(λ).
En última instancia, la ocurrencia o no de éxito se analiza a lo largo de una mag-

nitud continua —el tiempo en este caso, aunque es aplicable también en relación a
longitudes, áreas, volúmenes, etc.—, y tiene sentido bajo ciertas condiciones, siendo
la más importante que la relación entre número de éxitos y unidades de dicha magni-
tud (por ejemplo, «llamados por minuto») se mantenga estable durante el período (o
longitud, área, etc.) bajo estudio.
Presentamos en la siguiente tabla las características básicas de cada una de estas
familias de distribuciones.
11
En la mayoría, sino en todas las aplicaciones reales, esto representa una aproximación imperfecta;
por ejemplo, no es cierto que en una décima de segundo pueda recibirse un número cualquiera de
llamadas, ya que existe un límite antes de que las líneas se saturen.
Nombre Notación Rango Función de probabilidad Esperanza Varianza
Be(p)
Bernoulli {0, 1} px (1 − p)1−x p p(1 − p)
(0 < p < 1)
Bin(n, p)
n
x
Binomial {0, 1, . . . , n} x
p (1 − p)n−x np np(1 − p)
(n ∈ N, 0 < p < 1)
P(λ)
e−λ λx
Poisson N0 x!
λ λ
(λ > 0)
G(p)
1 1−p
Geométrica N p(1 − p)x−1 p p2
(0 < p < 1)
Binomial BN (r, p)
x−1 r pr

Negativa {r, r + 1, . . .} r−1
pr (1 − p)x−r 1−p (1−p)2
(Pascal) (r ∈ N, 0 < p < 1)
49
2.6. Consideraciones finales

Es importante entender que la igualdad de distribución de dos variables aleatorias
X e Y es muy distinta a la igualdad de las variables: dado que X e Y son funciones
de Ω a R, serán iguales únicamente si asignan a cada elemento del espacio muestral el
mismo valor en R. Para precisar esta idea veamos el siguiente ejemplo:
Ejemplo 2. Consideremos el experimento de arrojar una moneda equilibrada dos veces

y anotar el resultado (C o X), que se puede representar con el espacio de probabilidad
(Ω, E, P ), donde
Ω = {(C; C), (C; X), (X; C), (X; X)},
E = P(Ω),
P (ω) = 41 , ∀ω ∈ Ω.
En este espacio definimos las variables aleatorias X e Y , dadas por

 

 0 ω = (C, C) 0 ω = (X, X)

X(ω) = 2 ω = (X, X) , Y (ω) = 2 ω = (C, C)
 
1 otro caso, 1 otro caso.
 
Podríamos decir que X: cantidad de cecas e Y: cantidad de caras.

Es fácil ver
que X es una variable aleatoria,
que los valores posibles, con probabilidad positiva (lo que denominamos el rango
de X), son 0, 1 y 2;
1
y que pX (0) = pX (2) = 4
y pX (1) = 21 .
A su vez, exactamente lo mismo vale para Y , lo que implica que ambas variables tienen
la misma distribución.
Sin embargo, X e Y no son iguales como variables aleatorias, ya que si ω0 = (C, C)
entonces X = 0 e Y = 2, es decir, X(ω0 ) 6= Y (ω0 ) y lo contrario ocurre en ω1 = (X, X).
Y aunque valga que X = Y para los otros elementos, alcanza con que difieran sobre un
elemento del dominio para que sean diferentes funciones, es decir, distintas variables
aleatorias.
Puesto de otro modo:
— Antes de realizar el experimento aleatorio, la probabilidad de obtener un valor

0 es 41 tanto para X como para Y y lo mismo ocurre para cada una con la
posibilidad de tomar el valor 2. También coinciden en la probabilidad de valer 1,
que asciende a 12 . Es decir, antes de realizar el experimento X e Y son iguales en
cuanto a los valores que pueden tomar y las probabilidades de cada uno de estos
casos: tienen la misma distribución de probabilidad.
— Sin embargo, una vez realizado el experimento, X e Y podrían ser «iguales»

(si interpretamos esto como «tomar el mismo valor»), si es que se obtienen una
cara y una ceca en cualquier orden. Pero si salen dos cecas o dos caras X e Y
valdrán una 0 y la otra 2 y por lo tanto «serán» diferentes (en realidad ya «eran»
diferentes... como funciones).
Incluso se ve claro a partir de lo anterior que el suceso {X = Y } solo tiene probabilidad

1
2
, por lo que es claro que no son la misma variable aleatoria. Más todavía: podríamos
definir en el mismo espacio la variable

0 ω = (X, C)

Z(ω) = 2 ω = (C, X)

1 otro caso,

y si bien se trata de otra variable con la misma distribución que X e Y , los valores que
toma Z en cada ω ∈ Ω difieren del de X y del de Y (verificarlo). Por lo que el conjunto
de resultados de Ω donde X y Z toman el mismo valor de R es vacío, y por lo tanto
{X = Z} tiene probabilidad cero (al igual que {Y = Z}).
Por otro lado, como se vio en el ejemplo anterior, si la probabilidad del suceso
{X = Y } es menor a uno, entonces necesariamente las variables son distintas. Sin
embargo, no vale la recíproca: existe una diferencia entre variables «iguales» y variables
«iguales con probabilidad uno».
Ejemplo 3. Supongamos que en un cierto espacio muestral están definidas una variable
Z ∼ N (0, 1) y otra variable X ∼ Be( 12 ) (ver las definiciones de la distribución nomal
y la distribución de Bernoulli en el apartado 2.5). Definamos entonces
(
0 si Z = 0
Y =
X si Z 6= 0.
Con esta definición es posible que Y ≡ X o que no lo sean (es decir, que sean o no
idénticas como funciones Ω → R). Esto es así porque si Z = 0 entonces por definición
Y = 0, pero no es evidente (ni cierto en general) que también tenga que ocurrir en tal
caso que X = 0 (y si esto no ocurre, se tendrá Y 6= X). Bien podría ser el caso que
para aquellos resultados ω para los que Z está definida como igual a cero, X también
esté definida como cero; pero también podría ser que esté definida como X = 1 en
esos casos; incluso podría ser que a veces tome un valor y otras otro. De todos modos,
solo en el primer caso tendríamos que X(ω) = Y (ω) en todos los ω ∈ Ω, es decir, que
X ≡Y.
Sin embargo, en este o en cualquiera de los otros casos —incluso si fuera X 6= 0—
tendríamos que la probabilidad de X = Y es uno, puesto que:
P (X = Y ) = P (Z 6= 0) + P (Z = 0 ∧ X = 0) ≥ P (Z 6= 0) = 1 − P (Z = 0) = 1 − 0 = 1,
por lo que P (X = Y ) = 1, aún si pudieran ocurrir resultados del experimento que

asignen distintos valores a X y a Y (que de todos modos serán en extremo improbables).

Capítulo 3
Transformadas de la distribución
En este capítulo estudiamos ciertas funciones que caracterizan la distribución de

probabilidad de una variable aleatoria, pero que presentan dicha «información» de
manera distinta a como lo hace la función de distribución (acumulada). Las llamaremos,
en general, funciones transformadas de la distribución.
La utilidad de estas representaciones alternativas se basa en al menos dos cuestiones:
En muchos casos es más simple probar determinadas propiedades de la distribu-

ción de una variable (o de la suma de dos variables, de la distribución asintótica de
una sucesión, etc.) a partir de transformadas de la distribución que de la función
de distribución en sí misma.
Se trata de transformaciones de la función de distribución FX que, en condiciones
más o menos generales, mantienen la información de la distribución original; es
decir, se obtienen a partir del conocimiento de FX , pero a partir de estas puede
recuperarse la función FX original. Dicho más brevemente, son transformaciones
inversibles.
Centraremos nuestra atención en la función generadora de momentos y la función

generadora de probabilidad. Al final del capítulo mencionamos también brevemente la
función generadora de cumulantes y la función característica.
3.1. Función generadora de momentos

de unavariable aleatoria g(X),
El teorema sobre esperanza de una transformación
3
permite calcular expresiones como E eX , E e2X , E e− 2 X , etc., conociendo sim-

53
CAPÍTULO 3. TRANSFORMADAS DE LA DISTRIBUCIÓN 54
plemente la distribución
de la variable X. En particular, cada una de estas expresiones
tX
de la forma E e (t ∈ R) devuelve un valor numérico (si la esperanza en cuestión
está bien definida y es finita), aunque dicho resultado depende del valor t en particu-
lar. Podemos entonces pensar en esta asignación de valores a cada número t como una
función que denominamos provisoriamente h, definida por
h(t) = E etX ,

cuyo dominio será algún subconjunto de R (el de los t para los cuales la esperanza que
se calcula es finita).
Para entender heurísticamente la importancia de esta función, supongamos que
para una expresión de la forma g(t, X) (como etX ), bajo ciertas condiciones vale la
propiedad
d ∂
E g(t, X) = E g(t, X) .
dt ∂t
Si asumimos además que h es derivable una cierta cantidad de veces, tendríamos

0 d tX ∂ tX
= E(XetX ),

h (t) = E e =E e
dt ∂t

00 ∂ tX
h (t) = E Xe = E(X 2 etX ),
∂t
..
.
h(k) (t) = E(X k etX ).
Si en particular, el punto t = 0 está en el dominio (veremos que siempre lo está),

surge que
h(0) = E(e0X ) = E(1) = 1

h0 (0) = E(X · e0X ) = E(X · 1) = E(X)
h00 (0) = E(X 2 · e0X ) = E(X 2 )
y en general valdrá para cualquier k ∈ N0 que
h(k) (0) = E(X k ).
Es decir que las sucesivas derivadas de h en t = 0 devuelven los valores mk = E(X k ),

denominados momentos naturales de la distribución. Esto le da a la función E(etX ) el
nombre de «función generadora de momentos», aunque la definición formal la damos

más adelante (ver definición 10). Antes, analizamos ciertos detalles técnicos.
Es claro que para que lo anterior tenga validez, es necesario derivar h en t = 0, y
para que esto tenga sentido h(t) no solo debe estar definida en t = 0, sino también «un
poco a la izquierda» y «un poco a la derecha» de ese punto. Más precisamente, h debe
estar definida al menos en un entorno de cero (un conjunto de la forma (−δ, δ) para
algún número real δ > 0).
Claramente E(etX ) siempre existe y es finita para t = 0 ya que
E(e0·X ) = E(1) = 1,
pero la condición mencionada en el párrafo anterior requiere que lo mismo ocurra en
un entorno de t = 0. El siguiente ejemplo muestra que esto no ocurre para cualquier
distribución de probabilidad.
Ejemplo 4. Si X es continua con densidad
(
1
x2
x≥1
fX (x) =
0 x<1
entonces podemos probar1 que

+∞ +∞
etx
Z Z
tX tx
E(e ) = e fX (x) dx = dx
−∞ 1 x2
1
Como se dijo, es claro que E(e0X ) = 1. Por otro lado, para que E(etX ) sea finita, debe converger
la integral Z +∞
1
etx · 2 dx.
1 x
Pero si t > 0, resulta de la regla de L’Hospital que
etx
lı́m = +∞,
x→+∞ x2
por lo que no se cumple la condición necesaria de convergencia de la integral impropia (el límite
debería ser cero), y se tiene E(etX ) = +∞.
Por otro lado, si t < 0 sí se cumple
etx
lı́m = 0,
x→+∞ x2
pero esta condición es necesaria para la convergencia de la integral, no suficiente.

Sin embargo, como para todo x > 1 vale
etx
0< < etx ,
x2
y como la integral
+∞
et
Z
etx dx =
1 −t
existe y da valores finitos (es decir, la integral converge) si y solamente si t ∈ (−∞, 0].

Dado que no cualquier variable aleatoria X tiene definido el valor E(etX ) para valo-
res de t en un entorno del cero, y teniendo en cuenta que la mayoría de las propiedades
interesantes de esta función solo se cumplen cuando esto sí sucede, damos la siguiente
definición.
Definición 10. Dada una variable aleatoria X, consideremos el conjunto AX de los
t ∈ R tales que E(etX ) existe y es finita. Si existe algún δ > 0 tal que (−δ, δ) ⊂ AX ,
se define la función generadora (o generatriz ) de momentos de X como MX : AX → R
dada por
MX (t) = E(etX ).
(Si no existe un intervalo con la condición pedida, diremos que no existe MX ).2
Observación 6. Si X tiene la distribución del ejemplo 4, entonces como la condición
dada en la definición 10 no se verifica —ya que E(etX ) no es finita para ningún t > 0,
es decir, el dominio no contiene a ningún intervalo abierto que contenga al 0—, para la
variable aleatoria X de ese ejemplo no existe la función generadora de momentos .
Veamos cómo deducir la propiedad característica de la función generadora de mo-

mentos siguiendo un razonamiento algo diferente al visto al principio de este capítulo.
A partir del desarrollo en serie de Taylor de la exponencial, es decir
z2 z3
ez = 1 + z + + + ··· ,
2! 3!
puede obtenerse la siguiente expresión3 de la FGM:
E(X 2 ) 2 E(X 3 ) 3
MX (t) = E(etX ) = 1 + E(X) · t + ·t + · t + ··· =
2! 3!
es convergente, por comparación también debe converger
Z +∞ tx
e
dx
1 x2
(si bien no tenemos una expresión simple para el resultado).
En cualquier caso, hemos probado que E(etX ) existe y es finita para t ≤ 0, pero no para t > 0.
2
Algunos/as autores/as consideran que MX está definida sobre AX para cualquier variable alea-
toria, independientemente de que AX incluya o no un entorno de t = 0. La principal consecuencia
en esos casos es que la mayoría de los teoremas importantes sobre la FGM necesitan agregar dicha
condición como una hipótesis adicional.
3
La posibilidad de distribuir la esperanza con la suma infinita requeriría de una justificación formal
(que omitimos), ya que no es una consecuencia inmediata de la correspondiente propiedad para sumas
finitas y puede no valer en algunos casos. Sin embargo, existen resultados «técnicos» que la justifican
en este caso.
m2 2 m3 3
= 1 + m1 · t + ·t + · t + ··· .
2! 3!
Si esta fórmula vale, y MX está definida (es decir, la serie converge) en un entorno de
t = 0, es posible derivar término a término aunque la suma sea infinita (por tratarse
de una serie de potencias —algo así como un «polinomio de grado infinito»—).
Luego, se tiene que
2 3 1
MX0 (t) = 0 + m1 + m2 · t + m3 · t2 + · · · = m1 + m2 · t + m3 · t2 + · · · ,
2! 3! 2!
y de la misma manera
2 3 1
MX00 (t) = 0 + m2 + m3 · t + m4 · t2 + · · · = m2 + m3 · t + m4 · t2 + · · · .
2! 3! 2
En general,
(k) 1
MX (t) = mk + mk+1 · t + mk+2 · t2 + · · · ,
2
y entonces resulta
(k)
MX (0) = mk .
Más generalmente, podemos enunciar el siguiente teorema, cuya demostración ri-

gurosa omitimos.
Teorema 2. Si MX (t) está bien definida y es al menos n veces derivable en t = 0,
entonces existen y son finitos los momentos naturales m1 , m2 , ..., mn , y valen
(k)
mk = MX (0)
(k)
para k = 1, 2, . . . , n (MX es la derivada de orden k de MX ).
Recíprocamente, si existen y son finitos los momentos naturales de X hasta orden n
al menos y existe MX , entonces esta es derivable hasta orden n al menos, y se verifica
la expresión anterior.
Otras propiedades útiles para el cálculo de la FGM son:

Propiedad 7. Si X e Y son variables aleatorias independientes y sus FGM existen, y
si a ∈ R, vale:
1. MaX (t) = MX (at)
2. MX+a (t) = MX (t) · eat
3. Ma (t) = eat
4. MX+Y (t) = MX (t) · MY (t).
Finalmente, el siguiente teorema expresa que si una VA tiene FGM, esta permite
identificar unívocamente la distribución de probabilidad.
Teorema 3. Dadas X e Y variables aleatorias con FGM bien definidas, entonces
MX = MY ⇐⇒ FX = FY .
Observación 7. El teorema anterior es fundamental, ya que permite identificar la

distribución si se conoce la F GM . Es decir que, por caso, si sabemos que la FGM de
2
una variable aleatoria U ∼ N (0, 1) es MU (t) = et /2 y encontramos otra variable V de
2
la que solo se sabe que MV (t) = et /2 , no solo podemos afirmar que tiene la misma FGM
que U —es decir, la misma FGM que una VA con distribución normal estándar—, sino
que V necesariamente tiene distribución normal estándar, como U .
Esto puede parecer razonable y hasta natural, pero no es obvio y tampoco lo de-
mostraremos aquí. Pero si no fuera por esto, las FGM serían de poca utilidad ya que
en la mayoría de las aplicaciones se requiere no solo ir de las distribuciones a las FGM
—y esto porque ciertas propiedades resultan mucho más simples en términos de la
FGM que de la función de distribución (por ejemplo, la que se refiere a la suma de
VA independientes)—, sino también poder reconocer las distribuciones de las nuevas
variables que surjan a partir del conocimiento de sus FGM.
Ejemplo 5. Supongamos que X ∼ P(λ) y busquemos su FGM. Debemos calcular
∞ −λ x ∞
tX
X
tx
X
t xe λ −λ
X (λet )x
MX (t) = E(e ) = e pX (x) = (e ) =e ;
x∈RX x=0
x! x=0
x!
pero dicha serie infinita corresponde a la serie de Taylor antes mencionada para la
exponencial, solo que evaluada en λet . Es decir que
t t
MX (t) = e−λ eλe = eλ(e −1) .
Es importante notar que si tuviéramos otra v.a., digamos Y , y supiéramos que

t
MY (t) = eλ(e −1) ,
es decir, igual a la que se obtiene para una v.a. con distribución P(λ), el teorema de
inversión garantiza que, de hecho,
Y ∼ P(λ).

Ejemplo 6. Como ejemplo de una distribución continua, calculemos la FGM para una
distribución normal, es decir X ∼ N (µ, σ 2 ). En este caso resulta
Z +∞ Z +∞
1 1 2
tX
MX (t) = E(e ) = tx
e fX (x) dx = etx √ e− 2σ2 (x−µ) dx =
−∞ −∞ 2πσ 2
Z +∞
1 1 2
= √ e− 2σ2 (x−µ) +tx dx.
−∞ 2πσ 2
Concentrémonos en el exponente de la exponencial, y reescribámoslo como el cua-
drado de un binomio más una constante independiente de x, de la siguiente manera:
1 2 1 2 2 1
= − 2 (x2 − 2µx + µ2 − 2σ 2 tx) =

− 2
(x − µ) + tx = − 2
(x − µ) − 2σ tx
2σ 2σ 2σ
1 2 2 2

=− x − 2(µ + σ t)x + µ ,
2σ 2
que completando cuadrados resulta igual a
1 2 1
− 2 x−(µ+σ 2 t) −(µ+σ 2 t)2 +µ2 = − 2 (x−(µ+σ 2 t))2 −µ2 −2µσ 2 t−σ 4 t2 +µ2 =

2σ 2σ
1 2 1
=− 2
x − (µ + σ 2 t) − 2 (−2µσ 2 t − σ 4 t2 ) =
2σ 2σ
1 2
2 σ2 2
= − 2 x − (µ + σ t) + µt + t .
2σ 2
Esto implica que
Z +∞ 2 Z +∞ 2
1 1
x−(µ+σ 2 t)
2
+µt+ σ2 t2
2
µt+ σ2 t2 1 1
x−(µ+σ 2 t)
MX (t) = √ e− 2σ2 dx = e √ −
e 2σ 2 dx;
−∞ 2πσ 2 −∞ 2πσ 2
pero el integrando corresponde a la función de densidad de una v.a. N (µ + σ 2 t, σ 2 ), y
por lo tanto la integral es igual a uno.
En consecuencia,
σ2 2
MX (t) = eµt+ 2
t
.
En particular, si X ∼ N (0, 1), tenemos
t2
MX (t) = e 2 .
Resumimos estos y otros resultados sobre FGM en la siguiente tabla.

Distribución FGM Dominio
Be(p) (1 − p) + pet t∈R
n
Bin(n, p) (1 − p) + pet t∈R
t
P(λ) eλ(e −1) t∈R
pet 1
G(p) 1−(1−p)et
|t| < 1−p
r
pet 1
BN (r, p) 1−(1−p)et
|t| < 1−p
σ2 2
N (µ, σ 2 ) eµt+ 2
t
t∈R
λ
E(λ) λ−t
t<λ
λ α

Γ(α, λ) λ−t
t<λ
Γ(α, β) (1 − βt)−α t< 1

β
ebt −eat
U[a, b] (b−a)t
t∈R
Observación 8. En el caso de la distribución Γ, los parámetros β y λ son inversos

multiplicativos uno del otro, es decir que β = λ1 . En el mismo sentido, suele hablarse
de la distribución E(β), aunque es común en la bibliografía en ese caso reemplazar β
por θ.
En casos como el de la distribución uniforme, en los que la expresión que se muestra
no tiene sentido para t = 0, se sobreentiende que para t = 0 la FGM vale 1, como ocurre
para cualquier distribución.
Ejemplo 7. Supongamos ahora que X e Y son v.a. independientes, con X ∼ P(λ) e

Y ∼ P(µ). Si definimos Z = X + Y , ¿cuál será la distribución de Z?
Muchas veces es posible resolver este tipo de problemas acudiendo a las propiedades
de la FGM. Esto es así, porque si MZ resulta de la forma de alguna distribución
conocida, el teorema de inversión permitirá afirmar que esa es la distribución de Z.
En este caso, teniendo en cuenta la independencia entre X e Y , tenemos:
t t t
MZ (t) = MX+Y (t) = MX (t) · MY (t) = eλ(e −1) eµ(e −1) = e(λ+µ)(e −1) .
Es decir que la FMG tiene la misma forma que tendría la FGM de una variable aleatoria
de Poisson, cuyo parámetro en lugar de λ es λ + µ.
Pero entonces, el teorema de inversión garantiza que
Z ∼ P(λ + µ),
lo que contesta la pregunta planteada.

3.2. Función generadora de probabilidad

Para ciertas variables discretas también se puede definir la llamada función gene-
radora de probabilidad (FGP), con algunas propiedades análogas a las de la FGM y
otras que le dan un interés especial en ciertas aplicaciones.
Definición 11. Si X es una variable aleatoria discreta con RX ⊂ N0 = {0, 1, 2, . . .},

se define la función generadora de probabilidad de X como GX (t) = E(tX ), es decir
∞
X
GX (t) = tx · pX (x) = pX (0) + pX (1) · t + pX (2) · t2 + . . . .
x=0
Observación 9. Puede probarse fácilmente que esa suma converge al menos cuando
t ∈ [−1, 1], por lo que el dominio de una FGP siempre incluye ese intervalo (aunque,
dependiendo de las particularidades de cada pX (x), puede ser un conjunto más amplio).
También se prueba que todas las derivadas de GX existen al menos en (−1, 1), si bien
podrían no existir a partir de cierto orden en los bordes del dominio4 .
En particular, si el rango RX es finito y n es el máximo valor que contiene (es
decir, suponiendo que pX (n) > 0 pero pX (x) = 0, ∀x > n) —v.g. una variable con
distribución Bi(n, p)—, entonces GX es un polinomio de grado n y por lo tanto la FGP
existe y es continua e infinitamente derivable para todo t ∈ R.
Es fácil ver que

GX (0) = pX (0),
G0X (0) = pX (1),
G00X (0) = 2pX (2)
G000
X (0) = 6pX (3)
y en general
(n)
GX (0) = n!pX (n),
por lo que conocida la FGP las probabilidades puntuales pueden calcularse fácilmente.
Propiedad 8. Si X es una VA discreta con RX ⊂ N0 y su FGP es GX , entonces:
(n)
G (0)
pX (n) = X .
n!
Observación 10. Esto implica que a iguales FGP corresponden iguales funciones de
probabilidad (y la recíproca es evidente por la definición 11). Sabemos también que
conocer la función de probabilidad es equivalente a conocer la distribución, por lo
que también las FGP (así como las FGM), cuando pueden definirse, identifican la
Más precisamente:
Propiedad 9. Si X e Y son VA discretas, ambas con rango incluido en N0 , vale que
GX = GY ⇐⇒ pX = pY ⇐⇒ FX = FY .
4
Todo esto es cierto por tratarse de una serie de potencias centrada en t = 0, y porque el radio de
convergencia es al menos igual a 1 ya que
GX (1) = pX (0) + pX (1) + · · · = 1 < +∞.

Ejemplo 8. Consideremos una v.a. X con distribución geométrica (X ∼ G(p), 0 <

p < 1). Calculemos su FGP:
X ∞
X ∞
X
X
GX (t) = E(t ) = x
t pX (x) = x
t p(1 − p) x−1
= p(1 − p)−1 tx (1 − p)x =
x∈RX x=1 x=1
∞
p X x
= (1 − p)t .
1 − p x=1
La serie infinita es una serie geométrica de la forma ∞ x
P
x=1 a , cuya suma (si |a| < 1)
a
es 1−a , con a = (1 − p)t.
1
Por lo tanto, si |(1 − p)t| < 1 (o equivalentemente |t| < 1−p
), resulta
p (1 − p)t pt
GX (t) = · = .
1 − p 1 − (1 − p)t 1 − (1 − p)t
Por simplicidad, usaremos la sustitución q = 1 − p, y así tenemos

pt
GX (t) = .
1 − qt
1
Cabe notar que 1−p > 1, por lo que en este caso la FGP está definida en un intervalo
abierto que contiene estrictamente a [−1, 1]. Como veremos luego, este último es el
mínimo intervalo en el cual la FGP está definida siempre.

También se cumplen ciertas relaciones entre la FGP, la FGM y los momentos de la

distribución de X, aunque los momentos que más directamente surgen de la FGP no
son los absolutos sino los momentos factoriales.
Algunas relaciones entre la FGP, la FGM y los momentos de la distribución se ven
en las siguientes propiedades:
Propiedad 10. Si X es una VA discreta con RX ⊂ N0 , entonces:
(n)
1. ϕn = GX (1− ),
2. GX (et ) = MX (t) (y por lo tanto, GX (t) = MX (ln t) para t > 0).

Ejemplo 9. Volviendo al ejemplo 8, podemos usar la FGP de una distribución G(p)

para calcular su esperanza y su varianza. En particular, podemos obtener los momentos
factoriales φ1 y φ2 a partir de la misma.
En primer lugar, notar que
p(1 − qt) − pt(−q)
G0X (t) = = p(1 − qt)−2 ,
(1 − qt)2
y que
2pq
G00X (t) = −2p(1 − qt)−3 (−q) = .
(1 − qt)3
Luego,
p p 1
φ1 = G0X (1) = 2
= 2 = ,
(1 − q) p p
y
2pq 2pq 2q
φ2 = G00X (1) = 3
= 3 = 2.
(1 − q) p p
Por lo tanto,
1
E(X) = φ1 = ,
p
y
2q 1 1 2q + p − 1
var(X) = φ2 + φ1 − φ21 = + − = =
p2 p p2 p2
2(1 − p) + p − 1 1−p
= 2
= .
p p2

t
Ejemplo 10. Si recordamos que para X ∼ P(λ) tenemos MX (t) = eλ(e −1) , entonces
ln(t)
para t > 0 vale que GX (t) = MX ln(t) = eλ(e −1) = eλ(t−1) . Pero esto implica que
esa es la FGP para todo t donde la misma está definida.
Observación 11. Más en general, pueden obtenerse las FGP de algunas distribuciones
discretas usuales en base a la tabla de FGM presentada anteriormente, reemplazando
todas las expresiones et simplemente por t. El ejemplo anterior, da un ejemplo de
ello.
Otras propiedades de la FGP, que guardan cierta analogía con las propiedades de
la FGM, son:
Propiedad 11. Si X e Y son VA discretas independientes, ambas con rango incluido
en N0 , y si α ∈ N0 , entonces:
1. Gα (t) = tα ,
2. GαX (t) = GX (tα ),
3. GX+α (t) = GX (t) · tα ,
4. GX+Y (t) = GX (t) · GY (t).
Si bien la FGP es de aplicación bastante más limitada que la FGM —y muchas de sus
propiedades son análogas—, su interés reside en parte en que suele dar lugar a cálculos
más simples y en que posee algunas propiedades adicionales interesantes (que en general
solo tienen sentido en el caso de variables aleatorias discretas en N0 ). Una de las más
notables y útiles —especialmente para estudiar procesos de nacimiento-muerte, teoría
de «colas» (es decir, líneas de espera), etc.— es la que se refiere a la distribución de
una suma de variables aleatorias independientes idénticamente distribuidas (v.a.i.i.d.)
con una cantidad aleatoria de términos.
Teorema 4. Supongamos que X1 , X2 , . . . , Xn , . . . es una sucesión de v.a.i.i.d. con una

distribución discreta cuyo rango está incluido en N0 , y que N es otra VA discreta con
rango también dentro de N0 (aunque no necesariamente el mismo ni con la misma
distribución) e independiente de todas las Xn . Definimos la variable aleatoria:
N
X
S= X n = X1 + X2 + . . . + XN ,
n=1
(si N vale 0 se define S = 0). Si GX es la FGP de todas las Xn (que son ID y por lo
tanto tienen la misma FGP), entonces la FGP de S está dada por

GS (t) = GN GX (t) ,
es decir,
GS = GN ◦ GX .
Demostración. La idea de la demostración es que hay una probabilidad pN (1) de que

N = 1, que es la probabilidad de que la suma —en consecuencia— sea simplemente
S = X1 ; en ese caso se tendrá
GS (t) = GX1 (t).
También habrá una probabilidad pN (2) de que S = X1 + X2 , y en ese caso
GS (t) = GX1 (t) · GX2 (t)
(por ser S suma de VA independientes).

Siguiendo el mismo razonamiento, podemos decir que en general, con probabilidad

pN (n),
n
Y
GS (t) = GX1 (t) · GX2 (t) · . . . · GXn (t) = GXk (t).
k=1
Además, vale aclarar que hay una probabilidad pN (0) de que N = 0 y en ese caso se
entiende que S = 0, por lo que GS (t) = t0 = 1).
Entonces resulta:5
GS (t) = pN (0) · 1 + pN (1) · GX1 (t) + pN (2) · GX1 (t) · GX2 (t) + · · ·
o más suscintamente (aunque no es necesariamente sea más claro):6

∞
X n
Y
GS (t) = pN (n) · GXk (t).
n=0 k=1
Para el caso particular de variables idénticamente distribuidas se tiene que todas

las GXn se pueden representar como una única función GX y esto se simplifica a
∞
2 X x
GS (t) = pN (0) + pN (1) · GX (t) + pN (2) · GX (t) + · · · = pN (x) · GX (t)
x=0
Pero esto equivale a evaluar la FGP de N, que es

∞
X
GN (t) = pN (x) · tx ,
x=0
5
Este es el único paso de la demostración que no es completamente formal y requiere alguna
precisión; para formalizarlo puede hacerse uso del concepto de esperanza condicional, ya que los
valores de GS (t) para cada posibleQvalor n de la variable aleatoria N son esperanzas condicionales,
n
más precisamente: E(tS |N = n) = k=1 GXk (t).
6
La fórmula es válida sin necesidad de tratar aparte el término correspondiente a n = 0, que indica
que la productoria debe realizarse con k aumentando desde 1 a 0, ya que en realidad esto último es
una abreviatura para la condición imposible de verificar 1 ≤ k ≤ 0. Al tratarse de una contradicción
no se puede considerar ningún valor de k; pero esta se salva con la convención usual en todas las
áreas de la matemática (salvo indicación en contrario) de que, si en una productoria el índice varía
sobre un conjunto vacío, el valor del producto es 1. La utilidad de esta convención se ve en numerosas
situaciones: por ejemplo, se puede definir el factorial de un número n ∈ N0 como
n
Y
n! = k
k=1
sin necesidad de aclarar que 0! = 1. La convención análoga para sumatorias es que una «suma vacía»
es igual a 0.
en GX (t) (porque GX (t) ocupa el lugar de t en la expresión anterior si vemos la fórmula

obtenida para GS ); esto es una composición, es decir,

GS (t) = GN GX (t) ,
como queríamos probar.
Observación 12. En la demostración del teorema anterior surgió la fórmula
∞
X n
Y
GS (t) = pN (n) · GXk (t),
n=0 k=1
que tiene interés por sí sola, ya que es aplicable al caso en que se suma una cantidad
aleatoria N de variables X1 , X2 , ..., todas independientes, pero no necesariamente todas
con la misma distribución.
3.3. Otras funciones generadoras usuales

Mencionamos brevemente dos tipos adicionales de funciones generadoras en esta sec-
ción.
3.3.1. Función característica

La función característica de una variable aleatoria X (que suele notarse como φX ) usa
la noción de variable aleatoria compleja y algunas nociones de integración de funciones
con valores en el conjunto de los números complejos (C), por lo que suele omitirse en
cursos y textos de nivel introductorio y algunos de nivel intermedio. Su definición es
muy similar a la de la FGM:
φX (t) = E(eitX ),
donde i es la unidad imaginaria (un número —no real— que cumple i2 = −1).
La similitud con la FGM es clara (el exponente es itX en lugar de tX), al punto
de que cuando ambas existen, la función característica puede obtenerse a partir de la
FGM como MX (it) y la FGM de X puede calcularse a partir de la característica como
φX ti = φX (−it). Por ejemplo, cuando X ∼ N (µ, σ 2 ) la FGM es
σ2 2
MX (t) = eµt+ t
2 ,
mientras que la función característica resulta

σ2 σ2 2
µit+ (it)2 µit− t
φX (t) = e 2 =e 2 .
La principal ventaja de la función característica es que existe para cualquier variable

aleatoria con cualquier distribución, y queda definida para todo t ∈ R, incluso si la
FGM no está definida. Y aun en esos casos mantiene la propiedad de identificar la
distribución unívocamente, como lo hace —cuando existe— la FGM. Lo mismo ocurre
con la mayoría de las propiedades, que son análogas cuando ambas están bien definidas
(en algunos cálculos, de todos modos, puede ser un poco más simple el uso de la FGM,
aunque las diferencias no son demasiado relevantes). Por eso, en niveles y programas de
estudio en los que no se tienen las herramientas matemáticas necesarias para definir y
manipular funciones características, la FGM resulta un sustituto adecuado que puede
aplicarse en la gran mayoría de las situaciones que se presentan a dicho nivel.
3.3.2. Cumulantes
Cuando existe la FGM, se puede definir al menos en un entorno de t = 0 la función

KX (t) = ln MX (t) ,
que se denomina función (generadora) de cumulantes (notar la diferencia con la expre-

sión GX (t) = MX ln(t) , vista en la propiedad 10).
Los cumulantes son valores relacionados con los momentos de la distribución, pero
que suelen dar una idea más intuitiva de determinadas características de la misma. Se
obtienen a partir de KX como
(n)
κn = KX (0)
(κn se denomina el n-ésimo cumulante de la distribución).
Por ejemplo, es fácil probar que
κ1 = E(X),
al igual que m1 . Pero a diferencia del momento natural de orden 2, se tiene directamente
κ2 = var(X).
Los cumulantes κ3 y κ4 , una vez estandarizados (divididos por σ 3 y σ 4 , respectivamen-

te), corresponden al coeficiente de asimetría de X y a la curtosis excedente de X, es
decir,
κ3 κ4
A(X) = 3 y CE(X) = 4 .
σ σ
Ambos valores enriquecen la descripción de la forma de la distribución de la variable:
el primero mide la simetría o asimetría de la distribución, y el segundo si las colas de
la distribución son más «pesadas» o «livianas» que las de la distribución normal (entre
otras interpretaciones posibles).
t
Ejemplo 11. Sea X ∼ P(λ), y por lo tanto MX (t) = eλ(e −1) . La función de cumulantes
de X vendrá dada por
KX (t) = ln MX (t) = λ(et − 1).

Esto implica que todas las derivadas de KX son iguales, en particular

(n)
KX (t) = λet (n ≥ 1),
y por lo tanto todos los cumulantes de orden mayor o igual a uno son
(n)
κn = KX (0) = λ.
De aquí se deducen las conocidas propiedades de que
E(X) = κ1 = λ y var(X) = κ2 = λ,
pero también que

κ3 λ 1
A(X) = 3
= √ =√
σ ( λ)3 λ
y
κ4 λ 1
CE(X) = 4
= √ = .
σ ( λ)4 λ
Es decir, para cualquier valor de λ la distribución P(λ) tiene asimetría positiva y es
platicúrtica.
En general, los sucesivos cumulantes a partir de κ5 pueden ser de utilidad en ciertos

contextos, pero una interpretación intuitiva de sus valores en relación a características
«visibles» o «perceptibles» de la distribución resulta cada vez de mayor dificultad.
De todos modos, los cumulantes se consideran útiles e intuitivos dado que verifican
la siguiente propiedad aditiva, que surge enseguida de la definición:
Propiedad 12. Si X e Y son variables aleatorias independientes con cumulantes de

orden n bien definidos κn (X) y κn (Y ), entonces
κn (X + Y ) = κn (X) + κn (Y ).
Demostración. Se deja como ejercicio.

Capítulo 4
Vectores aleatorios
En general, hasta ahora se consideraron problemas donde intervenían dos o más

variables aleatorias solo en el caso en que eran independientes dos a dos, y en tales
casos nunca fue necesaria más información que la distribución de probabilidad de cada
una.
Sin embargo, cuando la hipótesis de independencia no es válida se requiere más
información que el simple hecho de la «no independencia». Es necesario representar
en qué medida y de qué manera lo que ocurra con una variable puede influir en la
distribución de probabilidad de la otra.
4.1. Distribución conjunta de variables aleatorias

Una de las maneras en que puede resumirse la información sobre la distribución de
dos o más variables y de las relaciones de dependencia entre ellas en una forma en
algún sentido «simétrica» (es decir, donde todas son tratadas por igual) es mediante
el concepto de distribución conjunta. Por ejemplo, para un par (X, Y ) de variables
aleatorias (un vector aleatorio bidimensional) la distribución conjunta en sentido amplio
se refiere al valor que toman las probabilidades de la forma

P (X, Y ) ∈ B
para conjuntos B ⊂ R2 «razonables» (los denominados borelianos de R2 ). Sin embargo,

como en el caso univariado, alcanza con mucha menos información para poder calcular
cualquiera de estas probabilidades.
70
CAPÍTULO 4. VECTORES ALEATORIOS 71
4.1.1. Función de distribución conjunta
Definición 12. Dado un par de variables aleatorias X e Y , se denomina función de

distribución conjunta de X e Y a la función FXY : R2 → [0, 1] definida por
FXY (s, t) = P(X ≤ s ∧ Y ≤ t).

Observación 13. Desde ya, también es posible definir la distribución conjunta de tres,
cuatro, o cualquier cantidad de variables aleatorias. En general, así como la función de
distribución conjunta de X e Y es un campo escalar en R2 , la función de distribución
conjunta de n variables será un campo escalar en Rn . Por ejemplo, la distribución
conjunta de X1 , X2 , . . . , Xn se define como la función FX1 X2 ...Xn : Rn → [0, 1] tal que
FX1 X2 ...Xn (t1 , t2 , . . . , tn ) = P(X1 ≤ t1 ∧ X2 ≤ t2 ∧ . . . ∧ Xn ≤ tn ).
En casos como este es más práctico hablar del vector aleatorio

~ = (X1 , X2 , . . . , Xn ), y lo usual es referirse a la función de distribución (a secas)
X
~ usando la notación
de X
FX~ o FX~ ~t

(donde obviamente ~t = (t1 , t2 , . . . , tn )).

En adelante se tratarán las definiciones y propiedades para el caso de dos variables
(es decir, vectores bidimensionales), entendiendo que la generalización de las mismas
al caso n-dimensional es inmediata.
Así como en el caso unidimensional conocer FX permitía mucho más que simplemente
calcular probabilidades de la forma P(X ≤ t), conocer FXY también permite calcular
otras probabilidades, si bien las expresiones resultan menos evidentes. Resulta util para
simplificarlas la notación de diferencias parciales1 ∆i,h , con i indicando respecto de qué
variable se hace la diferencia (i = 1 indica la primera, por ejemplo) y h indicando el
incremento. Es decir:
∆1,h g(x, y) = g(x + h, y) − g(x, y)
y
∆2,h g(x, y) = g(x, y + h) − g(x, y).
Entre muchas fórmulas posibles, destacamos las siguientes:

1
Es decir, diferencias respecto de una variable, manteniendo constantes las demás variables.
Propiedad 13. Si FXY es la función de distribución conjunta de X e Y , entonces:
1.
P(a < X ≤ a + h ∧ b < Y ≤ b + k) =
= FXY (a + h, b + k) − FXY (a, b + k) − FXY (a + h, b) + FXY (a, b),
es decir
P(a < X ≤ a + h ∧ b < Y ≤ b + k) = ∆1,h ∆2,k FXY (a, b).
2.
P(X = a ∧ Y = b) =
= FXY (a, b) − FXY (a− , b) − FXY (a, b− ) + FXY (a− , b− ),
o sea
P(X = a ∧ Y = b) = lı́m− ∆1,h ∆2,h FXY (a, b).
h→0
Propiedad 14. Toda función de distribución conjunta tiene las siguientes propieda-
des2 :
1. FXY (s, t) es no decreciente en cada variable.
2. FXY (s, t) es continua a derecha en cada variable.
3. lı́ms→−∞ FXY (s, t) = 0 y, del mismo modo, lı́mt→−∞ FXY (s, t) = 0.
4. lı́ms,t→+∞ FXY (s, t) = 1
2
Cabe aclarar que, a diferencia del caso univariado, estas propiedades no caracterizan a las funciones
de distribución conjunta (es decir, no garantizan que una F (s, t) que cumpla estas propiedades sea
una función de distribución conjunta de algún par (X, Y ) de variables aleatorias). Podría pasar, por
ejemplo, que aun cumpliendo todo esto el cálculo de ∆1,h ∆2,k FXY (a, b) pudiera dar valores negativos
en ciertos casos, lo cual es absurdo por la propiedad 13. De hecho, puede probarse que si se cambia la
monotonía en cada variable por la condición más fuerte de que
∀a, b, h, k ∈ R (h, k > 0) : ∆1,h ∆2,k FXY (a, b) ≥ 0,
entonces sí puede afirmarse que se trata de una función de distribución conjunta.

Cabe observar que para que FXY tienda a 1 se tomaron ambas variables tendiendo a
infinito y no solo una. Por cierto, tomarlas individualmente no daría 1 como resultado,
sino que devuelve las funciones de distribución individuales (o «marginales») de las
variables en cuestión. Es decir:
Propiedad 15. Dadas dos variables aleatorias X e Y , vale que
lı́m FXY (s, t) = FY (t)

s→+∞
y
lı́m FXY (s, t) = FX (s).
t→+∞
Es fácil ver que en situaciones más generales se tendrán relaciones como:
lı́m FXY Z (r, s, t) = FY Z (s, t),

r→+∞
lı́m FXY Z (r, s, t) = FXZ (r, t),

s→+∞
lı́m FXY Z (r, s, t) = FZ (t),

r,s→+∞
etc.
4.1.2. Clasificación de vectores aleatorios y cálculo de probabi-

lidades
Una vez más partimos del análisis de los puntos que acumulan probabilidad positiva.
Definimos para ello el conjunto
RXY = {(a, b) ∈ R2 : P(X = a ∧ Y = b) > 0},

que puede probarse que es un conjunto finito, o infinito numerable, lo que le da sentido
a la siguiente definición:
Definición 13. Decimos que (X, Y ) es un vector aleatorio discreto sii

X
P(X = a ∧ Y = b) = 1,
(a,b)∈RXY
es decir, si tiene toda su probabilidad distribuida entre una cantidad finita o numerable
de puntos del plano.
En ese caso se denomina a RXY rango de (X, Y ) y definimos la función de pro-

babilidad conjunta de X e Y (o función de probabilidad del vector (X, Y )) como
pXY : RXY ⊂ R2 → R tal que
pXY (x, y) = P(X = x ∧ Y = y).
Observación 14. Según la conveniencia, pXY puede pensarse como definida solo en el
rango RXY del vector aleatorio (X, Y ) —como en nuestra definición— o en todo R2 ,
ya que en cualquier otro punto valdrá 0. Incluso puede ser útil pensarla definida en
RX × RY —expresión que tiene sentido porque X e Y también son variables discretas
(ver más adelante)—, teniendo en cuenta que en general RXY ⊂ RX × RY pero no
necesariamente vale la igualdad, como muestra un ejemplo sencillo.
Ejemplo 12. Consideremos un vector (X, Y ) discreto y definamos su rango como

RXY = {(1, 0), (0, 1), (1, 1)} (asignando, por caso, probabilidad 31 en cada punto). Es
claro que X puede valer 0 (con probabilidad 31 ) al igual que Y . Es decir, 0 ∈ RX y
0 ∈ RY , por lo que (0, 0) ∈ RX × RY .3
Pero (0, 0) ∈/ RXY , por definición (es decir, P(X = 0 ∧ Y = 0) = 0), así que en este
caso la inclusión RXY ⊂ RX × RY es estricta.
En general, cuando la distribución conjunta sea discreta el dato «natural» será preci-
samente pXY y también será el más útil a la hora de realizar cálculos, como veremos.
Sin embargo, como en el caso univariado, la función de distribución puede recuperarse
fácilmente sumando probabilidades puntuales.
Propiedad 16. Si (X, Y ) es un vector aleatorio discreto, entonces

X X X
FXY (s, t) = pXY (x, y) = pXY (x, y).
x≤s,y≤t x≤s y≤t
(x,y)∈RXY x∈RX y∈RY
3
Recordar que el producto cartesiano de A y B, donde A y B son conjuntos, es el conjunto
A × B formado por todos los pares ordenados posibles con su primera componente en A y su segunda
componente en B.
Cuando el vector aleatorio no es discreto (es decir que no acumula toda la probabilidad
en un conjunto finito o numerable de puntos), existen muchas situaciones posibles, lo
que dificulta una clasificación completa aún más que en el caso unidimensional. Para
los efectos prácticos, la otra situación de interés es la análoga al caso de variables
absolutamente continuas.
Definición 14. Decimos que (X, Y ) es un vector aleatorio absolutamente continuo si

existe fXY : R2 → R tal que para cada (s, t) ∈ R2 vale
Z t Z s
FXY (s, t) = fXY (x, y) dx dy.
−∞ −∞
En ese caso, una tal fXY se denomina una densidad conjunta de X e Y (o una
densidad del vector (X, Y )).
En general, en este caso FXY es derivable dos veces, salvo tal vez en ciertos puntos
o curvas (que tienen área nula), y puede hallarse una densidad derivando en ambas
variables.
Propiedad 17. Si (X, Y ) es absolutamente continuo, entonces FXY es C 2 , salvo tal

vez en un conjunto de área nula y
∂2
f (x, y) = FXY (x, y)
∂x∂y
es una función de densidad (definiendo f (x, y) de cualquier manera en los puntos donde
no existe dicha derivada).
El interés en estas dos clases de distribuciones surge del hecho de que, como vimos,
calcular probabilidades usando la función de distribución conjunta FXY es en general
bastante engorroso. Por el contrario, a partir de pXY o fXY (según el caso), resulta
relativamente sencillo calcular
P (X, Y ) ∈ B
para conjuntos B ⊂ R2 «razonables», que como dijimos, llamamos borelianos de R2 .
Aunque no los definiremos con total precisión, basta con saber que en esta clase de con-
juntos se incluyen todos los abiertos y cerrados, la unión o intersección de una sucesión
(finita o infinita) de cualesquiera de estos, sus complementos, la unión o intersección
de una sucesión de cualesquiera de los que así se hayan obtenido, y sus complementos,
y así sucesivamente. Es decir, se trata de una clase realmente amplia de subconjuntos
de R2 .
Propiedad 18. Si (X, Y ) es un vector aleatorio y B ⊂ R2 es un «boreliano», entonces:
si (X, Y ) es discreto,
X
P (X, Y ) ∈ B = pXY (x, y);
(x,y)∈B∩RXY
si (X, Y ) es absolutamente continuo,

ZZ

P (X, Y ) ∈ B = fXY (x, y) dA.
B
4.1.3. Distribuciones marginales

Dado que X e Y son en sí mismas variables aleatorias, es válido preguntarse qué
relación guardan sus distribuciones con la distribución conjunta. En este contexto, las
distribuciones de X e Y suelen denominarse distribuciones «marginales» para distinguir
de la distribución conjunta, pero en sí se trata lisa y llanamente de las distribuciones
de probabilidad de las variables consideradas individualmente.
En 4.1.1 se vio que las funciones de distribución marginales pueden recuperarse a
partir de la función de distribución conjunta como
FX (s) = lı́m FXY (s, t)

t→+∞
y
FY (t) = lı́m FXY (s, t).
s→+∞
También las densidades o funciones de probabilidad marginales, según el caso, pue-

den obtenerse a partir de las correspondientes densidades o funciones de probabilidad
conjuntas. Pero para esto, vale hacer notar antes una propiedad que si bien es intuitiva
y tal vez se da por sobreentendida, no es necesariamente evidente:
Propiedad 19. Sean X e Y variables aleatorias:
1. si el vector (X, Y ) es discreto, entonces X e Y son variables aleatorias discretas;
2. si el vector (X, Y ) es absolutamente continuo, entonces X e Y son variables

aleatorias absolutamente continuas.
Por cierto, la recíproca es válida en el primer caso (si ambas son discretas, el vector
será discreto), pero no en el segundo, aunque pueda resultar poco intuitivo.4
Para encontrar funciones de probabilidad o densidad marginales basta con sumar
o integrar en la variable que queremos hacer «desaparecer», como se explica en las
siguientes propiedades.
Propiedad 20. Si (X, Y ) es un vector aleatorio discreto valen las siguientes relaciones:
X
pX (x) = pXY (x, y)
y∈RY
y X
pY (y) = pXY (x, y).
x∈RX
Propiedad 21. Si (X, Y ) es un vector aleatorio absolutamente continuo valen las

siguientes relaciones: Z +∞
fX (x) = fXY (x, y) dy
−∞
y Z +∞
fY (y) = fXY (x, y) dx.
−∞
4
Puede darse, por ejemplo, el caso en que toda la probabilidad, o al menos una parte, se concentre
sobre una recta (o en general sobre una curva), por cumplirse determinadas relaciones funcionales
exactas entre X e Y . En tal caso, no puede haber una densidad ya que las integrales dobles sobre
curvas o, en general, sobre conjuntos de área nula, valen cero. Por ejemplo, si X ∼ U(0, 1) y se define
Y = 1 − X, toda la probabilidad se concentrará en el segmento de recta que une el (1, 0) y el (0, 1). Se
suele hablar en estos casos de distribuciones «degeneradas», ya que en realidad con transformaciones
apropiadas se podrían tratar como vectores de menor dimensión (en este caso, dimensión 1).
Un ejemplo menos trivial podría ser el siguiente. Si X ∼ N (0, 1), Z ∼N(0,1) y U ∼ Be( 12 ) son
independientes dos a dos, y se define Y = U · X 2 + (1 − U ) · Z, se tiene que P(Y = X 2 ) = 21 , (que es la
probabilidad de U = 1). En ese caso, la mitad de la probabilidad conjunta de X e Y «se concentra»
sobre la parábola y = x2 , mientras que la otra mitad (cuando U = 0) se distribuye sobre el resto del
plano. En este caso, una densidad solo alcanzaría a representar la distribución de esta última mitad.
Vale aclarar que tampoco se acumula probabilidad en ningún punto, por lo que no existe una «parte
discreta» de la distribución, que si bien es continua —es decir, FXY es una función continua en R2 —
no es absolutamente continua.
Cabe mencionar que estas situaciones no son del todo infrecuentes en determinadas áreas de apli-
cación o en el desarrollo de modelos estadísticos de cierta complejidad.
Conociendo todas estas relaciones, en general suele haber más de un camino posible
para resolver problemas como, por ejemplo, hallar la densidad marginal fX conocida
la distribución conjunta FXY .
por un lado, se podría derivar FXY en sus dos variables para obtener fXY , y luego
integrar en y para obtener la densidad marginal fX ;
pero también se podría tomar límite de la segunda variable de FXY tendiendo

a +∞ para hallar FX y luego derivar (en la única variable restante) para hallar
una densidad fX .
Desde ya (salvo por el margen de indeterminación inherente a cualquier función de

densidad), ambos procedimientos darán resultados consistentes.
4.1.4. Esperanza de una función de varias variables

Así como al definir nuevas variables aleatorias aplicando transformaciones a una va-
riable dada no era necesario obtener las nuevas distribuciones de probabilidad para
el cálculo de las esperanzas matemáticas, tampoco es necesario esto si, por ejemplo, a
partir de dos variables X e Y cuya distribución conjunta es conocida se define una nue-
va variable U = g(X, Y ). De hecho, para los dos casos aquí considerados las fórmulas
de cálculo son muy similares a las ya vistas.
Propiedad 22. Sean X e Y variables aleatorias y g : R2 → R. Entonces:
1. si (X, Y ) es un vector aleatorio discreto,

X X X
E g(X, Y ) = g(x, y) · pXY (x, y) = g(x, y) · pXY (x, y)
(x,y)∈RXY x∈RX y∈RY
(el orden de la suma puede invertirse);
2. si (X, Y ) es un vector aleatorio absolutamente continuo,

ZZ Z +∞ Z +∞

E g(X, Y ) = g(x, y) · fXY (x, y) dA = g(x, y) · fXY (x, y) dy dx
R2 −∞ −∞
(el orden de integración puede invertirse).

Ejemplo 13. Volviendo a la distribución discreta del ejemplo 12, podemos calcular,
por ejemplo, E(XY ) (esta cantidad es útil, como se verá, en el cálculo de la covarianza).
Si no tuviéramos en cuenta la propiedad anterior deberíamos considerar la distribu-
ción de la variable Z = XY . Esta es de hecho discreta y los únicos valores posibles son
0 —con probabilidad 32 , ya que corresponde a los vectores (1, 0) y (0, 1)— y 1 —con
probabilidad 13 , que es la del vector (1, 1)—. En resumen
Z = XY ∼ Be( 13 ),
y por lo tanto
E(XY ) = 13 .
Sin embargo, no es necesario conocer la distribución de la nueva variable, ya que por
la propiedad anterior
X
E(XY ) = xy · pXY (x, y) = 1 · 0 · 31 + 0 · 1 · 31 + 1 · 1 · 13 = 13 ,
(x,y)∈RXY
que es el mismo valor hallado con el otro procedimiento.
La propiedad 22 también permite probar que la esperanza de una suma de variables

aleatorias es la suma de sus esperanzas.5
Propiedad 23. Si X e Y son variables aleatorias, la esperanza de la variable aleatoria

X + Y puede calcularse como
E(X + Y ) = E(X) + E(Y ).
Demostración. Lo probaremos para el caso continuo. El caso discreto es análogo.

Por la propiedad 22, sabemos que
ZZ ZZ ZZ
E(X + Y ) = (x + y)fXY (x, y) dA = xfXY (x, y) dA + yfXY (x, y) dA.
R2 R2 R2
En principio, el último miembro resulta igual a E(X) + E(Y ), si consideramos que

en la primera integral g(x, y) = x (en términos de la propiedad 22) y en la segunda
g(x, y) = y.
5
Esta propiedad se utilizó en frecuentemente en capítulos anteriores. Sin embargo, puede verse
fácilmente que este capítulo no utiliza ninguno de los resultados que dependen de esta propiedad,
por lo que esta postergación no da lugar a argumentos circulares. La decisión de postergar hasta
este capítulo las nociones que permiten probar una propiedad tan fundamental como esta se debe a
consideraciones pedagógicas, pero no da lugar a razonamientos falaces.
De todos modos, si esto no resulta claro, podemos integrar primero en y y luego en

x para primera integral y al revés para la segunda; de esto resulta que
Z Z Z Z
E(X + Y ) = x fXY (x, y) dy dx + y fXY (x, y) dx dy =
R R R R
Z Z
= xfX (x) dx + yfY (y) dy = E(X) + E(Y ).
R R
4.1.5. Distribución conjunta de variables independientes

Al inicio de este artículo mencionamos el hecho de que cuando X e Y eran indepen-
dientes no había sido necesario, al menos por ahora, recurrir a más información que las
distribuciones marginales de cada una. En realidad, esto es así porque en el caso de in-
dependencia las distribuciones marginales de las variables determinan completamente
la distribución conjunta, ya que {X ≤ s} e {Y ≤ t} son sucesos independientes, y por
lo tanto
P(X ≤ s ∧ Y ≤ t) = P(X ≤ s) · P(Y ≤ t).
Así resulta:
Propiedad 24. Si X e Y son independientes, entonces
FXY (s, t) = FX (s) · FY (t).
Esto muestra que FXY no agrega en este caso nada de información a lo que ya aportan
FX y FY en conjunto.
También es inmediato probar que:
Propiedad 25. Si X e Y son independientes, entonces
si (X, Y ) es discreto con función de probabilidad pXY ,

pXY (x, y) = pX (x) · pY (y);
si (X, Y ) es absolutamente continuo y fXY es una densidad,

fXY (x, y) = fX (x) · fY (y),
salvo tal vez en un conjunto de área nula. En cualquier caso, dadas densidades
cualesquiera de dos variables independientes X e Y —fX y fY —, si se define
f (x, y) = fX (x) · fY (y) esto siempre resulta una densidad para (X, Y ).
Por otro lado, las proposiciones recíprocas son ciertas, lo cual a veces resulta una
herramienta útil para probar que dos variables aleatorias son independientes.
Propiedad 26. Si X e Y son variables aleatorias tales que ∀(s, t) ∈ R2
FXY (s, t) = FX (s) · FY (t),
entonces X e Y son independientes. En particular, esto implica que:
si (X, Y ) es discreto y
pXY (x, y) = pX (x) · pY (y);
entonces X e Y son independientes;
si (X, Y ) es absolutamente continuo y
fXY (x, y) = fX (x) · fY (y),
salvo —tal vez— sobre un conjunto de área nula, entonces X e Y son indepen-
dientes.
Usando la propiedad 22 y las fórmulas de la propiedad 25 es sencillo probar para

vectores absolutamente continuos y discretos (aunque vale en general), la siguiente
propiedad útil de la esperanza6 :
Propiedad 27. Sean X e Y variables aleatorias independientes con esperanza finita.

Entonces U = X · Y también tiene esperanza finita y
E(X · Y ) = E(X) · E(Y ).
Ejemplo 14. Volviendo al ejemplo 13, se probó que E(XY ) = 31 . También se vio con
anterioridad que tanto X como Y podían valer cero con probabilidad 13 y uno con
probabilidad 23 ; es decir que son variables de Bernoulli con parámetro p = 23 , por lo
que E(X) = E(Y ) = 32 . Así, E(XY ) es distinta a E(X) · E(Y ) = 49 , lo que prueba que
X e Y no son independientes. (Pero atención: si hubiesen sido iguales eso no permitía
afirmar nada).
6
Ídem nota 5.
4.2. Distribución condicional

Otra clase de funciones que dan información sobre la relación de dependencia entre
dos variables aleatorias (aunque no permiten por sí solas conocer las distribuciones
marginales) es la de las funciones de distribución condicional, probabilidad condicional
y densidad condicional.
En sentido amplio, conocer la distribución condicional de X dada Y equivale a co-
nocer la distribución de probabilidad de X (la probabilidad del suceso {X ∈ B} para
diferentes conjuntos borelianos) cuando se cuenta con la información de que efectiva-
mente sucedió Y ∈ B0 para cierto B0 ⊂ R (y esto para cada posible B0 ). Es decir,
equivale a conocer para cada par de conjuntos B y B0 (borelianos) la probabilidad

P X ∈ B Y ∈ B0 .
Aunque, como es usual, alcanza con considerar conjuntos B de la forma (−∞; t]

para resumir toda la información, y así surgen las funciones de distribución condicional.
Por otro lado, los sucesos a los que se condiciona suelen ser de la forma {Y = y} o
{Y ≤ y}, entre algunos otros similares. Así por ejemplo se pueden dar las siguientes
definiciones.
Definición 15. Dadas dos variables aleatorias X e Y se definen:
la función de distribución de X condicional a Y = y (o de X|Y =y ) como
FX|Y =y (t) = P(X ≤ t|Y = y);
la función de distribución de X condicional a Y ≤ y (o de X|Y ≤y ) como
FX|Y ≤y (t) = P(X ≤ t|Y ≤ y).
Desde ya, también pueden definirse las correspondientes distribuciones de Y condicio-

nadas respecto de X.
Una interpretación usual de estas situaciones, que se refleja en el hecho de pensar a
las distribuciones condicionales como funciones de una sola variable (es decir, distribu-
ciones univariadas), es pensar a X|Y =y o X|Y ≤y como variables aleatorias en sí mismas;
serían las nuevas variables que surgen de X cuando se tiene noticia de lo ocurrido con
la variable Y .
Así, por ejemplo, tiene sentido mirar la función de distribución de X|Y =y como
cualquier otra función de distribución univariada y en base a esto verificar si se trata
o no de una variable aleatoria discreta —y si lo es buscar su función de probabilidad

pX|Y =y (x)—, si es o no continua —y si en tal caso tiene una densidad fX|Y =y (x)—,
calcular su esperanza E(X|Y = y) de la manera usual, etc.
Recordando que las probabilidades condicionales se calculan como
P(A ∩ B)
P(A|B) =
P(B)
es inmediato deducir, por ejemplo, que
FXY (t, y)
FX|Y ≤y (t) = .
FY (y)
De la misma manera, si (X, Y ) es discreto —en cuyo caso P(Y = y) = pY (y)—, se

tiene para y ∈ RY
FXY (t, y)
FX|Y =y (t) =
pY (y)
y también
pXY (x, y)
pX|Y =y (x) = .
pY (y)
Ejemplo 15. Como ejemplo, retomemos la distribución bivariada discreta del ejem-
plo 12: (X, Y ) tiene la probabilidad distribuida uniformemente entre los tres puntos de
su rango RXY = {(1, 0), (0, 1), (1, 1)}. Como se vio, la distribución marginal de X es
x pX (x)
0 1/3
1 2/3
e Y tiene la misma distribución marginal (ambas tienen distribución Be(2/3)).
Recalculemos la función de probabilidad si se sabe que Y = 1: es decir, calculamos
la función de probabilidad de X condicional a Y = 1, o visto de otra manera, la función
de probabilidad puntual de la variable X|Y =1 . Siguiendo la definición dada, se tiene
pXY (0, 1) 1/3 1
pX|Y =1 (0) = = = ;
pY (1) 2/3 2
y también
pXY (1, 1) 1/3 1
pX|Y =1 (1) = = = .
pY (1) 2/3 2
En resumen
x pX|Y =1 (x)
0 1/2
1 1/2
que claramente es una función de probabilidad (una Be(1/2), de hecho).

Si, en cambio, quisiéramos condicionar al suceso Y = 0, vemos que
pXY (0, 0) 0
pX|Y =0 (0) = = = 0,
pY (0) 1/3
ya que (0, 0) no está en el rango del vector (X, Y ). Por otro lado,
pXY (1, 0) 1/3
pX|Y =0 (1) = = = 1.
pY (0) 1/3
Por lo tanto, toda la probabilidad de X|Y =0 se concentra en x = 1, por lo que X|Y =0
es en realidad una «variable aleatoria» constante (en este caso se dice que tiene una
distribución «degenerada»).

El caso de vectores absolutamente continuos condicionados a un valor puntual es

menos inmediato, pero puede mostrarse que si y está en el soporte de Y una definición
razonable es
fXY (x, y)
fX|Y =y (x) = ,
fY (y)
suponiendo que la densidad fY que se considera sea continua y no nula en dicho valor
de y.
Es fácil verificar que todas las funciones obtenidas en este apartado mediante algún
tipo de condición son en sí mismas funciones de distribución, probabilidad o densidad,
según el caso, y por tanto cumplen todas las propiedades inherentes a las mismas.
Finalmente, surge de todas estas expresiones que alcanza con conocer una distribu-
ción condicional y la distribución marginal de la variable que condiciona para obtener
la distribución conjunta, y por lo tanto se conoce en ese caso la distribución completa
del vector (X, Y ).7
4.2.1. Esperanza condicional

Cuando se consideran dos o más variables aleatorias, cobra sentido y es particular-
mente útil la noción de esperanza condicional, por ejemplo en el estudio de los procesos
7
Por ejemplo, valen relaciones como
FXY (s, t) = FX|Y =t (s) · FY (t) = FY |X=s (t) · FX (s)
o como
fXY (x, y) = fX|Y =y (x) · fY (y) = fY |X=x (y) · fX (x)
(en este caso, salvo tal vez para un conjunto de área nula), etc.
estocásticos. Existen dos nociones similares que pueden confundirse, pero es necesario
distinguir para comprender el sentido de ciertas propiedades.
Consideremos un vector aleatorio bidimensional (X, Y ). En primer lugar, cuando
condicionamos a un evento específico (como {X = 2} o {X > 5}), como ya vimos,
tiene sentido considerar la distribución de Y condicional a dichos eventos «basados en
X», esto es, obtenemos las distribuciones condicionales FY |X=2 (y) o FY |X>5 (y), que son
en sí mismas funciones de distribución (verifican las condiciones de la propiedad 4) y
entonces podemos pensar en variables con dichas distribuciones, que podemos notar
como Y|X=2 o Y|X>5 . A las esperanzas de dichas variables, se las suele notar
E(Y |X = 2), E(Y |X > 5),
etc.
Esto es una primera noción relacionada con la esperanza condicional, que no es
otra cosa que la esperanza de una distribución condicional, y por lo tanto representa
un valor numérico si dicha esperanza existe.
Supongamos ahora que para cada valor x del soporte o rango (según el caso) de la
variable Y|X=x existe y es finita la esperanza E(Y |X = x); llamemos A a dicho soporte
o rango. Esto define una función
g : A −→ R,
dada por
g(x) = E(Y |X = x);
es decir, para cada x, la función g devuelve el valor de la esperanza de Y condicional
al evento {X = x}.
Ahora bien, aunque parezca una sutileza, esto permite definir una nueva varia-
ble aleatoria g(X), como se discutió en el capítulo 2. A esta variable aleatoria se la
denomina esperanza de Y condicional a X, y la notamos E(Y |X).
Definición 16. Sea X una variable aleatoria con rango o soporte A (según se trate de
una VA discreta o continua, respectivamente); supongamos que para todo x ∈ A (tal
vez salvo un subconjunto de probabilidad cero) está definida y es finita la esperanza
E(Y |X = x).
Si definimos g : A −→ R, dada por g(x) = E(Y |X = x), entonces la esperanza de Y

condicional a X (que notaremos E(Y |X)) es una variable aleatoria que se define como
E(Y |X) = g(X).

Veamos un ejemplo.
Ejemplo 16. Supongamos que X es absolutamente continua con soporte positivo, y

que Y|X=x ∼ E(λ = x). Es decir que, por ejemplo, Y|X=2 ∼ E(2), Y|X= 1 ∼ E( 13 ), etc.
3
Por lo tanto, por las propiedades de la distribución exponencial, tenemos que

1
E(Y |X = x) = .
x
Por lo tanto, si definimos —como se mencionó— la función g(x) = E(Y |X = x),
obtenemos g(x) = x1 .
Si a su vez definimos la variable aletoria g(X), esta resulta ser la esperanza de Y
condicional a X, es decir
1
E(Y |X) = .
X

La principal observación que surge de lo anterior es que la esperanza condicional de

una variable aleatoria es en sí misma una variable aleatoria. Esta se interpreta como el
valor que tomará la esperanza de Y si se considera dado el valor de X; pero en algún
sentido esto se piensa previo al conocimiento del valor que toma X.
En cualquier caso, como la esperanza condicional es una variable aleatoria, tiene
sentido a su vez pensar en su distribución de probabilidad, su esperanza, etc. En ese
contexto tienen sentido las siguientes propiedades, que no probaremos.
Propiedad 28. Si (X, Y, Z) es un vector aleatorio, h una función y c ∈ R, entonces
1. E(Y + Z|X) = E(Y |X) + E(Z|X);
2. E(c|X) = c;
3. E(cY |X) = c E(Y |X);
4. E(h(X) · Y |X) = h(X) · E(Y |X)

5. E(h(X)|X) = E h(X) ;
6. si X e Y son independientes, entonces E(Y |X) = E(Y );

7. E E(Y |X) = E(Y ),
siempre que las esperanzas involucradas estén bien definidas y sean finitas.
Esta última propiedad es particularmente útil para calcular la esperanza de una

variable aleatoria si solo se conoce su distribución condicional.
Ejemplo 17. Retomando el ejemplo anterior, supongamos que Y|X=x ∼ E(x), y que
X ∼ Γ(4, 1). Si bien es posible en base a esta información buscar la distribución
marginal de Y (ver nota 7), cuando solo se necesita la esperanza de Y , puede evitarse
dicho procedimiento.
Efectivamente, teniendo en cuenta la propiedad anterior, podemos decir que

E(Y ) = E E(Y |X) ,
y como se vio, la esperanza condicional es

1
E(Y |X) = .
X
Luego, Z +∞
1 1
E(Y ) = E E(Y |X) = E = · fX (x) dx =
X 0 x
Z +∞ 4 Z +∞
1 1 1 Γ(3) 1
= · x3 e−x dx = x2 e−x dx = = .
0 x Γ(4) Γ(4) 0 Γ(4) 3
Esto muestra que pudo calcularse

1
E(Y ) =
3
sin necesidad de hallar la distribución marginal de Y .
4.3. Covarianza y correlación

En determinadas situaciones es necesario tener una medida de la «intensidad» de la
dependencia entre X e Y que sea simple y rápida de comprender, algo que las distribu-
ciones conjuntas o condicionales difícilmente puedan mostrar sin un mayor análisis y
cálculos adicionales. La intención de esta sección es presentar una medida numérica de
dicha dependencia. Sin embargo, sería poco realista esperar que algo tan complejo co-
mo la naturaleza de la dependencia probabilística entre dos variables aleatorias pueda
ser resumida apropiadamente en un valor numérico, por lo que es importante entender
qué miden en realidad los indicadores que se definen a continuación, su utilidad y sus
limitaciones.
4.3.1. Covarianza
Con la covarianza se busca analizar si existe alguna relación probabilística entre los
valores «altos» y «bajos» de una variable y los valores «altos» y «bajos» de la otra.
Para precisar esa idea, se toman como puntos de referencia para definir qué es un valor
alto y un valor bajo las respectivas esperanzas (si existen) de las variables en cuestión.
Así, valores «altos» de X, por ejemplo, serán los que hagan positiva la diferencia
X − E(X), y valores «bajos» los que la hagan negativa. Además, el valor absoluto de
esta cantidad indicará si son valores «apenas», «moderadamente» o «extremadamente»
bajos o altos, etc.
Si consideramos ahora la variable aleatoria

U = X − E(X) · Y − E(Y ) ,
podemos ver que el signo de U depende del signo de cada factor.
Es decir que si hubiese un predominio, o una probabilidad muy alta, de que U tome
valores positivos, esto indicaría que cada vez que X da valores por encima de su media
lo mismo suele ocurrir para Y , y viceversa, y que cuando una da valores por debajo de
su media, frecuentemente o con alta probabilidad lo mismo le ocurrirá a la otra.
Por el contrario, una elevada probabilidad (o frecuencia, si se lo piensa ex post) de
valores negativos de U implicaría que valores «altos» de X tienden a ir de la mano de
valores «bajos» de Y y viceversa. Esto no significa que no pueda ocurrir otra situación,
pero sí que la distribución de probabilidad conjunta de X e Y se concentra sobre todo
en los puntos o regiones donde X está por encima de su media e Y por debajo y
viceversa. Para tener una idea gráfica: si las esperanzas de X e Y fueran ambas nulas
(o si los ejes se corrieran para coincidir con las esperanzas), esto equivaldría a que la
mayor parte de la probabilidad se concentre en el segundo y el cuarto cuadrante del
plano xy, mienras que el caso anterior mostraría una concentración de la probabilidad
en el primer y el tercer cuadrante.
Claramente, si con alta probabilidad U diera valores cercanos a cero o si la proba-
bilidad concentrada en el primer y tercer cuadrante estuviera compensada aproxima-
damente por la que se distribuye por el segundo y el cuarto cuadrante, se entendería
que no predomina ninguna de las dos situaciones.
Sin embargo, como los diferentes posibles valores de U tienen diferentes probabili-
dades y en última instancia la distribución de U sigue sin ser una medida sencilla de la
relación que se analiza, se suele tomar su esperanza para analizar qué tipo de valores
predominan. Este valor se denomina covarianza de X e Y .
Definición 17. Se denomina covarianza de X e Y , cuando exista y sea finito, al valor

cov(X, Y ) = E X − E(X) · Y − E(Y ) .
Es importante entender que la covarianza mide cierta forma de interdependencia (o

mejor dicho «correlación») entre las variables. Si en vez de seguir patrones como los
mencionados antes, se tuviera que a valores de X cercanos a E(X) corresponden valores
de Y por debajo de su media, y a valores de X alejados de E(X), ya sea hacia la derecha
o hacia la izquierda, corresponden valores de Y por encima de su media, la covarianza
detectará poca o nula correlación. Se sugiere pensar, por ejemplo,
2 en el caso en que se
cumpla aproximada o exactamente la relación Y = X − E(X) .
Por este motivo, se suele decir que la covarianza mide «correlación lineal» entre las
variables, si bien es cierto que formas de correlación no lineales pero que conserven la
esencia de la linealidad (que en parte está en la aproximada monotonía de la relación)
también darán covarianzas significativamente no nulas.
De hecho, la idea de que la relación medida por la covarianza es de tipo lineal se
ve reforzada por una propiedad de linealidad que se menciona más adelante (ver pro-
piedad 31). Pero antes destacamos algunas otras relaciones y propiedades importantes
de la covarianza, incluyendo una fórmula que simplifica bastante su cálculo.
Propiedad 29. Sean X, Y y Z variables aleatorias y sean a, b, c, d, k ∈ R. Entonces,
cov(aX + b, cY + d) = ab cov(X, Y );
en particular, cov(X, k) = 0;
cov(X + Y, Z) = cov(X, Z) + cov(Y, Z);
cov(X, X) = var(X);
var(X ± Y ) = var(X) + var(Y ) ± 2 cov(X, Y );
cov(X, Y ) = E(XY ) − E(X) E(Y ).
Si se tiene en cuenta que cuando X e Y son independientes vale la relación
E(XY ) = E(X) · E(Y ),
la última fórmula —además de ser útil para el cálculo— prueba algo que intuitivamente
era esperable:
Propiedad 30. Si X e Y son VA independientes, entonces cov(X, Y ) = 0.

Sin embargo, no vale la recíproca, y existen muchos ejemplos triviales (como el que se
2
mencionó de Y = X − E(X) , al menos para ciertas distribuciones) y no triviales
de este hecho. Por eso cuando la covarianza es nula se suele decir que las variables
están «incorrelacionadas» (linealmente), pero no se puede afirmar su independencia.
Por cierto, esta expresión permite caracterizar casi tautológicamente los casos en que
vale separar la esperanza de un producto como el producto de las esperanzas: la relación
es válida si y solo si X e Y están incorrelacionadas.
4.3.2. Coeficiente de correlación lineal

De las propiedades de la covarianza también surge que si una de las variables se mul-
tiplica por una constante, la covarianza también sufre la misma transformación. Es
decir que, por ejemplo, un cambio de unidades de la variable X de —por ejemplo—
kilómetros a metros hará que la covarianza entre X e Y se multiplique por mil.
Por este motivo, la covarianza en realidad no es una medida útil en sí misma para
medir la magnitud de la correlación (así como, por ejemplo, la varianza o el desvío
estándar no dan una noción absoluta del grado de dispersión de una distribución).
Puede probarse, sin embargo, que una cota para la covarianza está dada por
| cov(X, Y )| ≤ σX · σY ,
lo que sí permite definir una medida «absoluta» de correlación.

Definición 18. El coeficiente de correlación lineal entre X e Y se define como
cov(X, Y )
ρXY = .
σX · σY

De esta manera se obtiene una medida que siempre está entre −1 y 1. Y usando las
propiedades de la covarianza puede probarse que estas cotas se alcanzan (es decir que
esas cotas no se pueden mejorar).
Propiedad 31. Dadas dos VA X e Y con cov(X, Y ) finita, se tiene que
|ρXY | ≤ 1.
Además, si existen a, b ∈ R tales que Y = aX +b o X = aY +b, entonces |ρXY | = 1.
Esto último, por un lado, permite tener una noción «absoluta» del grado de correlación
(más allá de los valores que se suelen dar en los textos introductorios como referencia,
es claro que valores como 0,002 o −0,032 indican una correlación prácticamente nula
mientras que otros como −0,992 o 0,986 marcan una fuerte correlación, tal vez casi
«exacta») a la vez que refuerza la idea de que la correlación que se mide es la de tipo
lineal.
Desde ya, como el signo de ρXY es el mismo que el de cov(X, Y ), valen las mismas
interpretaciones sobre el tipo de correlación, a la vez que si X e Y son independientes,
necesariamente se tendrá ρXY = 0 (pero no al revés).
Capítulo 5
Teoría asintótica
En este capítulo estudiamos el comportamiento límite de una sucesión infinita de va-

riables aleatorias. Es decir, se tiene una sucesión infinita
X1 , X2 , . . . , Xn , . . .
donde cada Xn es una variable aleatoria (todas definidas en el mismo espacio de pro-
babilidad), y no necesariamente todas tienen la misma distribución. Se desea saber si
existe algún comportamiento «límite» o asintótico.
En tal sentido, consideramos en este capítulo dos nociones distintas: la convergencia
en distribución y la convergencia en probabilidad. Es importante aclarar que estudiar
el comportamiento asintótico de la distribución de una sucesión de variables —i.e. la
convergencia en distribución— solo habla de si sus respectivas distribuciones tienden
a tener la misma forma, o no, pero no habla de que los valores que tomen dichas
variables una vez realizado el experimento aleatorio tiendan a ser similares, ni con qué
probabilidad ocurre tal cosa. Esto último corresponde a otras nociones, entre las que
se cuentan la convergencia en probabilidad y otras como la convergencia casi segura,
la convergencia puntual, la convergencia en norma cuadrática, etc.
5.1. Distribución asintótica de una sucesión de varia-

bles aleatorias
Para dar una idea de lo que implica la distinción mencionada anteriormente, consi-
deremos un ejemplo sencillo.
Ejemplo 18. Supongamos que realizamos un experimento dicotómico una infinidad
de veces (no podemos hacerlo efectivamente, pero sí podemos imaginar que lo hacemos
92
CAPÍTULO 5. TEORÍA ASINTÓTICA 93
tantas veces como queramos). Por simplicidad, pensemos en una moneda equilibrada
que arrojamos sucesivamente una y otra vez, y en la sucesión infinita de variables
aleatorias X1 , X2 , . . . , Xn , . . ., que representa el resultado de cada tirada, digamos con
un 1 si sale cara y un 0 si sale ceca.
Es claro que en este caso, para cada n se tiene Xn ∼ Be( 12 ). Es decir que las
funciones de distribución FX1 (t), FX2 (t), FX3 (t), etc., son todas iguales1 , por lo que es
razonable decir que la distribución asintótica es también Be( 21 ).
Sin embargo, una vez realizado el experimento (si es que pudieran realizarse las
infinitas repeticiones), el resultado es una sucesión de —digamos— caras (c) y cecas
(×). Más precisamente, el espacio muestral (el conjunto de posibles resultados del
experimento) en este caso podemos definirlo como

Ω = (m1 , m2 , . . . , mn , . . .) : mn ∈ {c, ×}, ∀n ∈ N .
Por lo tanto, posibles resultados del experimento serían:
(×, c, ×, ×, ×, . . . , ×, . . .)
(×, c, ×, c, ×, c, . . . , ×, c, . . .)
(×, c, ×, ×, c, ×, ×, ×, c, . . .)
y desde ya, también cualquier otra sucesión de c y ×, siga o no un patrón que podamos
describir. Además, es llamativo ponerse a pensar que necesariamente (de manera similar
a lo que ocurre con los posibles valores de una variable aleatoria continua) cada una
de las sucesiones tiene probabilidad nula, ya que la independencia entre las sucesivas
tiradas y la equiprobabilidad entre {m1 = c} y {m1 = ×} (y entre {m2 = c} y
{m2 = ×}, etc.) implica que ninguna sucesión de × y c tendrá más probabilidad que
otra.
Si definimos entonces para cada n ∈ N
(
0 mn = ×
Xn =
1 mn = c,
1
A saber, para cada n ∈ N se tiene

0
 t<0
1
FXn (t) = 0≤t<1
2
1 t ≥ 1.

las variables aleatorias X1 , X2 , . . . resultan independientes y todas tienen distribución

Be( 21 ). Entonces, a cada posible sucesión de × y c (los posibles resultados del experi-
mento aleatorio) le corresponde por medio de X1 , X2 , . . . una sucesión de ceros y unos,
por ejemplo
(0, 1, 0, 0, 0, . . . , 0, . . .)
(0, 1, 0, 1, 0, 1, . . . , 0, 1, . . .)
(0, 1, 0, 0, 1, 0, 0, 0, 1, . . .)
(que corresponden a las sucesiones de × y c de más arriba), entre otras.

De todas estas infinitas sucesiones, solo son convergentes las que a partir de algún
momento valen siempre 0 o siempre 1 (sería el caso del primer ejemplo, pero no del
segundo ni el tercero). Claramente esto no ocurrirá siempre (en realidad, no ocurre
casi nunca), es decir que la sucesión de valores que efectivamente ocurra no converge a
ningún valor, aunque sí converge la distribución —trivialmente, porque es una sucesión
«constante»: todas las distribuciones son Be( 12 )—.
No parece entonces que en algún sentido razonable vaya a poder decirse que Xn → 1
o que Xn → 0, para este ejemplo; ni siquiera que los valores vayan a parecerse cada vez
más a los de otra variable aleatoria X ∗ , ya que las Xn son todas independientes. Solo
las distribuciones van convergiendo (porque se trata para cada n siempre de la misma
distribución).
A continuación analizamos el comportamiento de las sucesivas distribuciones mar-

ginales para dar una definición precisa de la noción de distribución asintótica, que entre
otras cosas permite enunciar formalmente el Teorema Central del Límite.
5.1.1. Convergencia en distribución

Puede ocurrir que, dada una sucesión X1 , . . . , Xn , . . . de variables aleatorias, la sucesión
de sus respectivas funciones de distribución converja (o no) en cada punto t ∈ R a un
cierto valor F (t). Si esto ocurre para todo t, queda definida una función F (t) con
dominio en R. Es decir, en ese caso
FXn (t) → F (t), ∀t ∈ R.
Si este fuera el caso, aún podría ocurrir que dicha función F (t) no tenga las propie-
dades necesarias para ser una función de distribución. Si lo fuera, sería natural decir
que la «distribución límite» o «asintótica» es F (t), pero si no, la situación no es tan
inmediata. Veamos unos ejemplos.
n
Ejemplo 19. Supongamos que cada Xn tiene una distribución U[0, n+1 ]. En ese caso
la función de distribución de Xn es

0
 t<0
(n+1) n
FXn (t) = n
t 0 ≤ t < n+1
 n
1 t ≥ n+1

y se ve2 que cuando n → ∞ esas funciones tienden a


0
 t<0
F (t) = t 0≤t<1

1 t ≥ 1,

(ver figura 5.1) que es una función de distribución y es de hecho la distribución U[0, 1].
Ejemplo 20. Supongamos ahora que para cada n, Xn ∼ E(1/n). La función de distri-
bución de Xn es (
0 t<0
FXn (t) = −
t
1 − e n t ≥ 0.
Obviamente para los t < 0 el límite es 0. Pero para cada t ≥ 0 (fijo), cuando n → ∞
se ve que nt → 0, por lo que FXn (t) → 1 − e−0 = 0 también. Es decir,
FXn (t) → F (t) ≡ 0,
pero la función constante igual a 0 no es una función de distribución (de hecho, falla
la propiedad lı́mt→+∞ F (t) = 1). En este caso no hay una distribución «límite».3
2
Este cálculo tiene algunas sutilezas ya que, por ejemplo, FXn (0,85) se calcula mirando la tercera
5
línea para n ≤ 5 (porque 5+1 = 56 = 0,83 ≤ 0,85, es decir que t ≥ n+1 n
), pero cuando n ≥ 6
6 6 n
corresponde ver la segunda línea (notar que 6+1 = 7 ≈ 0,8571 > 0,85, o sea que t < n+1 ). Es decir
que los primeros valores de la sucesión FXn (0,85) son
6+1 7+1 8+1
1, 1, 1, 1, 1, · 0,85 = 0,9916, · 0,85 ≈ 0,9714, · 0,85 = 0,95625, . . . ,
6 7 8
y esta sucesión sigue decreciendo y su límite es lı́mn→∞ n+1

n · 0,85 = 0,85. Se deja como ejercicio
dar un argumento general de que cuando n → ∞ se tiene para cualquier t ∈ (0, 1) que FXn (t) → t.
3
Esto es razonable. Si tenemos en cuenta que por propiedades de la distribución exponencial en
este caso tenemos E(Xn ) = n y var(Xn ) = n2 , vemos que el centro de la distribución se corre hacia
más infinito a la vez que la dispersión se hace infinita; intuitivamente no sería esperable en este caso
que ese proceso dé lugar a una distribución que actúe como «límite».
1.0
0.8
0.6 n=1
n=2
F(t)
n=4
0.4
n=10
U[0,1]
0.2
0.0
−0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2
Figura 5.1: Gráfico de F y FXn para algunos valores de n. Observar que para valores de
t ∈ [0,5, 1), se tiene FXn (t) = 1 para los primeros valores y a partir de un momento este
valor empieza a decrecer hasta el límite F (t) = t (en el gráfico la línea gris punteada
corresponde a t = 0,7; se tiene FX1 (0,7) = FX2 (0,7) = 1. Sin embargo, FXn (0,7) < 1
para n > 2, como se ve en el gráfico para n = 4 y n = 10).
Ejemplo 21. Supongamos que cada Xn tiene una distribución dada por


 0 t<0
 1 − 1 (1 − 2t)n

0 ≤ t < 12
FXn (t) = 21 12 1


 2
+ 2 (2t − 1)n 2
≤t<1
t ≥ 1.

1
En este, como en todos los ejemplos anteriores, la alternancia entre desigualdades
estrictas y no estrictas busca asegurar sin necesidad de mayor análisis que las funciones
dadas sean continuas a derecha en todos los puntos. Este cuidado no es necesario ya que
en todos los casos —se sugiere chequearlo en este último— se trataba de distribuciones
continuas.
Aún así, en todos los casos se debe analizar con cuidado el comportamiento del
límite de FXn (t) en los puntos donde cambia la definición. Por ejemplo, para este caso,
se ve que FXn (0) = 21 − 21 (1 − 2 · 0)n = 0 para cada n, por lo que FXn (0) → 0. De igual
modo se ve que FXn ( 12 ) = 21 → 12 y FXn (1) = 1 → 1. En realidad, lo mismo que ocurre
en t = 0 ocurre cuando t < 0 y la situación en t = 1 se repite para cada t > 1.
Finalmente, si 0 < t < 21 , como 0 < 1 − 2t < 1, se tiene (1 − 2t)n → 0, y luego
FXn (t) = 1
2
− 21 (1 − 2t)n → 12 .
Distribución de Xn
1.0
0.8
0.6
F
0.4
n=1
n=2
0.2
n=3
n=6
n=15
0.0
−0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2
Figura 5.2: Se puede observar cómo las sucesivas FXn se «pegan» a una recta horizontal
de ordenada 12 , aunque siempre quedan «atadas» a los puntos (0, 0) y (1, 1).
1
Y del mismo modo, si 2
< t < 1, vale 0 < 2t − 1 < 1 y luego
FXn (t) = 1
2
+ 12 (2t − 1)n → 12 .
Teniendo especial cuidado en dar los valores correctos en los bordes de los intervalos
de definición, podemos resumir todo esto como

0 t ≤ 0

FXn (t) → F (t) = 12 0 < t < 1

1 t ≥ 1.

Pero aquí tampoco el límite resulta una función de distribución, ya que F (t) es
discontinua a derecha en t = 0 (no así en t = 1, su otro punto de discontinuidad). En la
figura 5.2 (pág. 97) y figura 5.3 (pág. 98) pueden verse los gráficos de FXn para varios
valores de n y el gráfico de F (t), respectivamente.
En realidad, en el último ejemplo F (t) apenas difiere (solo en t = 0) de la que sería

la función de distribución de una variable con distribución Be( 21 ), por lo que parece
razonable querer considerar a esta como la distribución límite de la sucesión4 . De hecho,
situaciones como esta solo pueden ocurrir en puntos donde la pretendida distribución
F(t)
1.0
0.8
0.6
F
0.4
0.2
0.0
−0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2
Figura 5.3: La consecuencia de lo anterior es que el gráfico de la función límite F (t)

también contiene los puntos (0, 0) y (1, 1), por lo que en t = 1 la función es continua a
derecha (y no a izquierda), pero en t = 0 es discontinua a derecha (aunque sí continua
a izquierda).
límite es discontinua, por lo que si el límite de las FXn (t) cumple todas las demás
condiciones para ser una función de distribución pero eventualmente es discontinua a
derecha en ciertos puntos, es fácil identificarla con una distribución (definiendo F en
esos puntos para que coincida con el límite por derecha) y además esto no da lugar a
ambigüedad.
Teniendo estas cuestiones en mente, definimos a continuación la noción de límite
en distribución.
Definición 19. Dada una función de distribución F (t), se dice que una sucesión de
variables aleatorias X1 , X2 , . . . , Xn , . . . converge en distribución a F y notamos
D
Xn −→ F
si para cada t ∈ R donde F es continua vale
FXn (t) −−−→ F (t).

n→∞

4
Es de destacar también que en este ejemplo una sucesión de variables continuas tiene como límite
una distribución discreta. La situación contraria también es posible: por ejemplo, es conocido que el
límite de una distribución binomial —adecuadamente estandarizada— cuando n tiende a infinito es
la distribución normal estándar.
Observación 15. Si Y es una variable aleatoria cualquiera, suele también decirse que
la sucesión X1 , X2 , . . . converge en distribución a Y , y se nota
D
Xn −→ Y,
cuando
D
Xn −→ FY .
Sin embargo, esta notación parece sugerir que los valores de Xn tienden a ser similares
a los de Y con alta probabilidad, cosa que no surge en absoluto de la definición; incluso
Y podría ser independiente de todas las Xn . Por ese motivo, evitaremos este enfoque
y esta notación, a menos que sea inevitable o que sea realmente útil y no se preste a
confusión.
5.1.2. Convergencia de la función generadora de momentos

Como en otras situaciones, la función generadora de momentos resulta una herramienta
útil para deducir distribuciones y otras propiedades: en este caso, para analizar la
distribución asintótica de una sucesión de variables aleatorias. En particular, si la
distribución límite es —por ejemplo— una N (0, 1), la sucesión de FGM de cada Xn
2
(suponiendo que estas existen) convergerá a la FGM de una N (0, 1), es decir, a et /2 .
Pero esto sería de poca utilidad si no valiera la proposición recíproca.
2
Es decir, aun sabiendo que una sucesión MX1 (t), MX2 (t), . . . tiende a et /2 , sin el
teorema que enunciamos a continuación solo podríamos concluir que la sucesión de
FGM de las Xn converge a la FGM de cualquier variable con distribución N (0, 1), pero
no podríamos afirmar que
D
Xn −→ N (0, 1),
que en general sería la conclusión realmente interesante. Afortunadamente esto sí está
garantizado, como lo afirma el siguiente teorema, que enunciamos sin demostración.
Teorema 5 (Teorema de continuidad de Lévy). Sea X1 , X2 , . . . , Xn , . . . una sucesión
de variables aleatorias con FGM bien definida, e Y otra variable también con FGM.
Entonces,
MXn (t) → MY (t)
en un entorno de t = 0 si y solo si
D
Xn −→ FY .
Ejemplo 22. En el ejemplo 19 se probó que la sucesión de variables aleatorias Xn ,

n
cada una con distribución U 0, n+1 , respectivamente, converge en distribución a una
distribución U[0, 1]. Para probar por definición este hecho bastante evidente, se vio que
se debía razonar con cierto cuidado al calcular lı́mn→∞ FXn (t) para cada t. En cambio,
el cálculo basado en las FGM es inmediato.
Sabemos que si U ∼ U[a, b], entonces
(
ebt −eat
(b−a)t
t 6= 0
MU (t) = .
1 t=0
Luego, para t 6= 0
nt
e n+1 − 1 et − 1
FXn (t) = nt −−−→
n+1
n→∞ t
(y claramente FXn (0) → 1).
Es decir que el límite de FXn (t) es
(
et −1
t
t 6= 0
F (t) = ,
1 t=0
que es igual a la FGM de una variable U[0, 1]. Por lo tanto, el teorema 5 implica que
D
Xn −→ U[0, 1],
como ya habíamos probado.
5.2. Teorema central del límite

Uno de los teoremas fundamentales de la teoría de la probabilidad y la estadística es,
precisamente, un teorema sobre convergencia en distribución: el teorema central del
límite (TCL) o teorema del límite central.
En realidad existe un sinnúmero de teoremas conocidos con este nombre, y en
líneas generales todos afirman que bajo ciertas condiciones la sucesión Y1 , . . . , Yn , . . .
de sumas parciales o de promedios parciales de otra sucesión X1 , . . . , Xk , . . . —una vez
ajustadas mediante un cambio de posición y escala adecuados— tiene una determinada
distribución asintótica, usualmente la distribución normal o gaussiana.
El teorema que estudiamos a continuación, y que será suficiente para la mayoría de
los contenidos del curso, es el más clásico: supone independencia entre las variables
de la sucesión original, idéntica distribución y, en particular, que dicha distribución

tiene momentos finitos hasta orden dos al menos (es decir, esperanza y varianza),
lo que en la demostración permite desarrollar su FGM mediante un polinomio de Taylor
de segundo orden.
Muchas de estas hipótesis pueden relajarse, a veces a cambio de otras condiciones a
veces simples y otras bastante complicadas, y aún así llegar a la conclusión de norma-
lidad. El interés de esos «otros» teoremas centrales del límite es que existen diversas
situaciones en el análisis estadístico en las que no se podrá suponer independencia (algo
común en el desarrollo de ciertas pruebas no paramétricas), o idéntica distribución, o
momentos finitos, pero tal vez se puedan buscar alternativas que de todos modos lleven
a la misma conclusión. Sin embargo, que existan otras versiones más generales no sig-
nifica que siempre se pueda concluir normalidad, y de hecho existen diversos ejemplos
donde esto no ocurre, ejemplos que —desde ya— no se encuadran en al menos uno de
los supuestos del teorema que presentamos en este apartado.
Para los fines del curso, alcanza con enunciar la versión más simple y clásica del
TCL que, a pesar de dar una conclusión muy fuerte en un contexto muy general (pues
vale para cualquier distribución que tenga momentos finitos hasta orden dos, lo que
incluye la gran mayoría de las que estudiamos en el curso), puede demostrarse con las
herramientas que tenemos y un poco de paciencia para la manipulación algebraica.
Antes de enunciar el teorema, que suele exponerse en términos de la suma de las
variables X1 , . . . , Xn , es decir
n
X
Sn = X1 + · · · + Xn = Xk ,
k=1
o bien en términos de sus promedios

Sn
X̄n = ,
n
veamos que una vez estandarizadas, estas variables coinciden. En efecto, si suponemos
E(Xk ) = µ y var(Xk ) = σ 2 , ∀k ∈ N, tenemos
Pn
Pn Xk −nµ
Sn − E(Sn ) k=1 Xk − nµ k=1
n X̄n − µ X̄n − E(X̄n )
= √ = √ = = p .
√σ
p nσ
var(Sn ) nσ 2 n n var(X̄n )
En última instancia, independientemente de cómo se la interprete, es precisamente

esta sucesión de variables aleatorias (notar que la expresión depende de n) la que según
el TCL tiene distribución asintóticamente N (0, 1).
Teorema 6 (Teorema central del límite). Dada una sucesión X1 , X2 , . . . , Xk , . . . de va-

riables aleatorias independientes e idénticamente distribuidas (v.a.i.i.d.) con esperanza
y varianza finitas ( E(Xk ) = µ y var(Xk ) = σ 2 ), se tiene
Pn
k=1 Xk − nµ X̄n − µ D
√ = −→ N (0, 1).
nσ √σ
n
Demostración. En primer lugar, se observa que como

Pn n
k=1 Xk − nµ 1 X Xk − µ
√ =√ ,
nσ n k=1 σ
usando la sustitución Yk = Xkσ−µ alcanza con probar que si Y1 , Y2 , . . . son v.a.i.i.d.

Pn
con
Yk
E(Yk ) = 0 y var(Yk ) = 1, entonces la sucesión Z1 , Z2 , . . . —donde Zn = √n — k=1
converge en distribución a N (0, 1).

La idea de la demostración es hallar una expresión conveniente de MZn (t) para
probar que
t2
MZn (t) −−−→ e2,
n→∞
ya que el teorema 5 implicaría que la distribución asintótica de Zn es N (0, 1), como

queremos demostrar.
La dificultad central radica en que todo lo que sabemos de las Yk es que son in-
dependientes y todas tienen la misma distribución, en particular con esperanza 0 y
varianza 1, pero no tenemos una distribución específica para tomar. Por esto acudimos
al desarrollo de Taylor de la FGM que como se vio en su momento, resulta
m2 2 m3 3
MYk (t) = 1 + m1 · t + ·t + · t + ··· .
2! 3!
Llamando R(t) a todo lo que sigue al término de orden 2, y usando que en nuestro caso
m1 = 0 y m2 = 1, tenemos
1 2
MYk (t) = 1 + · t + R(t),
2
y por el teorema de Taylor, R(t) tiene la siguiente propiedad:
R(t)
lı́m = 0.
t→0 t2
Ahora bien, queremos hallar MZn (t).

t t t
MZn (t) = M √Yk (t) = M Yk √
P P
= MY1 √ · . . . · MYn √ .
n n n n
Pero como las Yk tienen la misma distribución, podemos llamar simplemente MY (t) a
cada una de las FGM, y de la expresión anterior se obtiene
n " 2 #n
t 1 t t
MZn (t) = MY √ = 1+ · √ +R √ ,
n 2 n n
que reescribimos como

!
t2 +2nR √t
n
  2n !
 2
2 t √t

 t + 2nR √n 2
t +2nR
n 

MZn (t) = 1+  .

 2n 

Si se prueba que
2nR √t −−−→ 0
n n→∞
la expresión entre llaves presentaría una indeterminación del tipo «1∞ », pero por ser
1
de la forma (1 + an ) an con an → 0 su límite sería e. También se habría probado que el
2
último exponente tiende a t2 .
Ahora bien,
R √t
n

2nR √t
n
= 2t2 · 2
√t
n
y si llamamos u = √t , tenemos que u −−−→ 0, y entonces el cociente es

n n→∞
R(u)
−−→ 0
u2 u→0
por el teorema de Taylor, como se dijo.
Volviendo a lo anterior, esto prueba que la expresión entre llaves tiene como límite
e, y que el exponente al que se eleva toda esa expresión —el de más a la derecha—
2
tiende a t2 . Luego,
t2
MZn (t) → e 2
y por lo tanto
D
Zn −→ N (0, 1).
5.3. Convergencia en probabilidad y Ley de los gran-

des números.
Como se vio, el TCL establece la convergencia en distribución de la sucesión de
medias muestrales, pero esto solo es cierto una vez que estas han sido debidamente
estandarizadas. Es decir, se afirma que bajo ciertas condiciones
X̄n − µ D
−→ N (0, 1)
√σ
n
o —equivalentemente— que
Pn
Xk − nµ D
k=1
√ −→ N (0, 1),
nσ
D D
pero en ningún caso se dice que X̄ −→ N (0, 1) ni que nk=1 Xk −→ N (0, 1).
P
Por cierto, en este último caso se tiene

n
!
X
var Xk = nσ 2 −−−→ +∞,
n→∞
k=1
Pn
es decir que las variables Sn = k=1 Xk tienen cada vez una mayor varianza que
la anterior, y en el límite esta es infinita; por lo tanto S1 , S2 , . . . no converge a una
distribución normal (que siempre tiene varianza finita). Por otro lado,
σ2
var X̄n = −−−→ 0,
n n→∞
lo que intuitivamente indica que la distribución de X̄n tiende a «aplastarse» alrededor
de la media, y a lo sumo podría converger a una distribución «degenerada», es decir,
una constante. Esto de alguna manera sugiere que es posible acumular «mucha proba-
bilidad» en valores «muy cercanos» a µ, si se toma un tamaño de muestra grande. En
el próximo apartado precisamos esto en una nueva noción de convergencia de variables
aleatorias.
5.3.1. Convergencia en probabilidad

Definición 20. Dada una sucesión de variables aleatorias X1 , X2 , . . . y dada otra va-
riable aleatoria X, se dice que la sucesión {Xn } converge en probabilidad a la v.a. X
sii
∀ε > 0, lı́m P (|Xn − X| ≤ ε) = 1.
n→∞
En tal caso es usual la notación

P
Xn −→ X,
y también se puede encontrar
plı́m Xn = X,
en cada caso con o sin la aclaración n → ∞.
Observación 16. Teniendo en cuenta la definición de límite de sucesiones numéricas
y las propiedades básicas de la probabilidad, etc., algunas definiciones equivalentes de
P
Xn −→ X son, entre otras:
∀ε > 0, lı́mn→∞ P (|Xn − X| > ε) = 0;

∀ε > 0, ∀η > 0, ∃n0 ∈ N tal que P (|Xn − X| > ε) < η para cualquier n ≥ n0 ;
∀ε > 0, ∀η > 0, ∃n0 ∈ N tal que P (|Xn − X| ≤ ε) ≥ 1 − η para cualquier
n ≥ n0 ;
∀ε > 0, ∃n0 ∈ N tal que P (|Xn − X| ≤ ε) ≥ 1 − ε para cualquier n ≥ n0 ;
etc.
Existen relaciones entre las dos formas de convergencia vistas, de las cuales la más
notable es la que muestra el siguiente teorema, que enunciamos sin demostrar.
Teorema 7. Dada la sucesión X1 , X2 , . . . de variables aleatorias, supongamos que se
tiene otra variable X tal que
P
Xn −→ X;
entonces
D
Xn −→ FX .
Es inmediato preguntarse si valdrá la recíproca: pero es fácil ver que esto no tiene
sentido.
Supongamos que se tiene una sucesión X1 , X2 , . . . tal que
D
Xn −→ N (0, 1).
Si Z ∼ N (0, 1) es una variable aleatoria cualquiera, por la observación 15 podemos

también escribir esto como
D
Xn −→ Z.
(Vale la pena insistir: esto es así por mera definición, o incluso convención.)
Supongamos por un momento que fuera cierto que la convergencia en distribución
implica convergencia en probabilidad; necesariamente podríamos afirmar ahora que
P
Xn −→ Z
(no perdamos de vista que esto significaría que los valores de Xn van a ser cada vez más
parecidos y con más alta probabilidad a los de Z, si aumentamos n). Pero si tenemos
otra variable Z̃ independiente de Z y también con Z̃ ∼ N (0, 1), también podríamos
escribir
D
Xn −→ Z̃
y concluir equivocadamente que
P
Xn −→ Z̃.
Pero esto implica que los valores que toman las Xn para cada posible resultado del
espacio muestral son cada vez más parecidos —con muy alta probabilidad— tanto a
los valores de Z como a los de Z̃, que no tienen por qué tomar valores similares entre
sí ya que de hecho son independientes. Luego la recíproca del teorema 7 no puede valer
en general.
¿Habrá alguna situación particular en la que sí sea posible afirmar que la conver-
gencia en distribución también implica convergencia en probabilidad? ¿Qué pasa si
para cierta distribución no existen Z y Z̃ independientes y que puedan dar valores
diferentes? Analicemos el siguiente ejemplo.
Ejemplo 23. Supongamos ahora que tenemos una sucesión con las distribuciones
(
enx x < 0
FXn =
1 x ≥ 0.
Como para x < 0 se tiene nx → −∞ si n → +∞, es inmediato ver que para cada
t∈R (
0 t<0
FXn (t) → F (t) =
1 t ≥ 0,
que es la distribución degenerada en la constante 0, lo que podemos notar como
D
Xn −→ 0.
Por otro lado, podemos calcular fácilmente la probabilidad
P(|Xn − 0| ≤ ε) = P(−ε ≤ Xn ≤ ε) = FXn (ε) − FXn (−ε− ) = 1 − e−nε

si ε > 0, y esta probabilidad tiende a 1 cuando n → ∞. Por lo tanto, también tenemos

P
Xn −→ 0.
Ya se dijo que en general la convergencia en distribución de una sucesión de v.a. a

otra variable (a la distribución de otra variable), no implica la convergencia en probabi-
lidad. Sin embargo, el ejemplo anterior no es una casualidad: cuando la convergencia es
a una distribución degenerada (es decir, a una constante), entonces sí puede concluirse
la convergencia en probabilidad. Esto es:
Teorema 8. Sea Fc la función de distribución de la variable aleatoria degenerada en

la constante c ∈ R, es decir, (
0 t<c
Fc (t) =
1 t ≥ c.
Entonces
D P
Xn −→ Fc =⇒ Xn −→ c.
Demostración. Tenemos que para todo ε > 0
P(|Xn − c| ≤ ε) = P(c − ε ≤ Xn ≤ c + ε) = FXn c + ε − FXn (c − ε)− .

D
Entonces, como por hipótesis Xn −→ Fc ,
P(|Xn − c| ≤ ε) −−−→ Fc (c + ε) − Fc (c − ε)− = 1 − 0 = 1,

n→∞
es decir que
P
Xn −→ c.
Observación 17. La recíproca vale por el teorema 7.
5.3.2. La ley de los grandes números

Frecuentemente se dice que, intuitivamente, la esperanza de una variable aleatoria
X representa el valor promedio «esperado» tras varias realizaciones de la variable (es
decir que si tras muchas repeticiones del experimento aleatorio representado por el
espacio muestral Ω calculamos el valor de X para cada resultado ωn ∈ Ω —a saber,
X(ωn )— el promedio de estos valores de X se supone que dará un valor «cercano» a

E(X), al menos si se realizaron muchas repeticiones). Esta noción es en cierto modo
circular, pues se basa en la misma idea de «valor esperado» y además requiere pensar
en la reiteración del experimento aleatorio.
Una interpretación más acorde a la teoría de la probabilidad sería pensar a las
infinitas repeticiones de un experimento como un único experimento en sí mismo, lo
cual obviamente requiere redefinir el espacio de probabilidad. En cualquier caso, la idea
anterior implicaría que ante una sucesión infinita de variables aleatorias independientes
e idénticamente distribuidas (v.a.i.i.d.) X1 , X2 , X3 . . . (correspondientes a los resultados
de X para cada una de las sucesivas repeticiones del experimento aleatorio original),
los sucesivos promedios representados por las variables aleatorias
X1 +X2 X1 +X2 +X3
X̄1 = X1 , X̄2 = 2
, X̄3 = 3
, ...,
etc.,tienden a aproximarse al valor representado por la esperanza. Aunque, dado que

estamos hablando de valores aleatorios, la afirmación
X̄n −−−→ µ
n→∞
(donde µ representa los valores E(X1 ), E(X2 ), etc., que son por hipótesis todos iguales)
es poco precisa en cuanto a la noción de convergencia involucrada.
Por supuesto, una posibilidad sería afirmar que
P
X̄n −→ µ.
Pero, ¿por qué debería ser cierto esto más allá de la intuición?
Recordemos que los únicos axiomas que damos por sentados son los axiomas de Kol-
mogorov que hablan de las propiedades básicas de la probabilidad (aunque sabemos
que otras muchas propiedades son consecuencia inmediata de estos axiomas). Por otro
lado, la definición de variable aleatoria, y posteriormente la definición de esperanza (pa-
ra variables discretas o continuas), resulten o no intuitivas, no encierran directamente
esta idea de convergencia de promedios muestrales. Más aún, la noción de convergencia
en probabilidad, lejos de ser una extensión inmediata del límite de sucesiones de nú-
meros, es un concepto complejo que involucra la evolución de la distribución conjunta
de probabilidad de las variables X1 , . . . , Xn para cada n ∈ N y, en última instancia, la
P
expresión X̄n −→ µ significa (entre otras expresiones posibles —ver observación 16—)
que dado un número positivo cualquiera ε, existe un número N ∈ N para el cual puede
afirmarse que
X 1 + · · · + XN
P − µ ≤ ε ≥ 1 − ε,

N
y que lo mismo vale si tomamos en lugar de N cualquier valor posterior.

Así las cosas, no habría motivo para suponer que esto sea necesariamente cierto,
o al menos dista de ser una obviedad. No obstante, pareciera ser que los axiomas de
la probabilidad y la definición de esperanza de una variable aleatoria resultan exi-
tosos, puesto que en base a los mismos puede probarse que —bajo condiciones muy
generales— la afirmación anterior es verdadera.
Así, la esperanza matemática resulta ser lo que pretendíamos que fuera. Esto da
lugar a uno de los teoremas más famosos de la teoría de la probabilidad, ampliamente
conocido como Ley de los grandes números.
Teorema 9 (Ley débil de los grandes números). 5 Sea X1 , X2 , . . . , Xk , . . . una sucesión

de VA independientes con esperanza y varianza finitas (E(Xk ) = µk y var(Xk ) = σk2 ).
Si se tiene que
n
1 X 2
var(X̄n ) = 2 σ −−−−→ 0
n k=1 k n→∞
entonces
P
X̄n − µ̄n −→ 0,
1
Pn
(donde µ̄n = E(X̄n ) = n k=1 µk ).
En particular, si la varianza es σ 2 para todo k, la condición var(X̄n ) → 0 se verifica.
Además, si E(Xk ) = µ para todo k, entonces vale que
P
X̄n −→ µ.
Demostración. Tenemos que probar que, dado un ε > 0 arbitrario, vale que
lı́m P(|X̄n − µ̄n | ≤ ε) = 1.

n→∞
Si llamamos Kn = √ ε
, podemos aplicar la desigualdad de Tchebycheff y obtener
var(X̄n )

1 var(X̄n )
q
P |X̄n − µ̄n | ≤ ε = P |(X̄n − µ̄n ) − 0| ≤ Kn var(X̄n ) ≥ 1 − 2 = 1 − .
Kn ε2
Pero como ε está fijo y por hipótesis var(X̄n ) → 0, el último miembro tiende a 1 y por
lo tanto
lı́m P |X̄n − µ̄n | ≤ ε = 1,
n→∞
como queríamos.
Observación 18. Es fácil ver que podemos aplicar esta ley a cualquier transformación
de las variables Xk que siga verificando las hipótesis. Por ejemplo, llamemos Yk = Xk2
y supongamos que la sucesión de las Yk verifica las hipótesis del teorema6 . Podemos
afirmar entonces que
n
1X P
Ȳn = Yi −→ E(Y1 )
n i=1
(por supuesto, E(Y1 ) podría reemplazarse por la esperanza de Y2 , Y3 , etc.). Pero esto
significa en realidad,
n
1X 2 P
(X 2 )n = X −→ E(X12 ) = m2 .
n i=1 i
Y en general, si se verifican las hipótesis necesarias,

n
1X k P
(X k )n = X −→ E(X1k ) = mk .
n i=1 i
El valor n1 ni=1 Xik se suele denominar momento muestral de orden k, y en ese contexto
P
mk suele llamarse momento poblacional, para evitar confusión. Así, la expresión anterior
puede resumirse diciendo que «cuando n tiende a infinito, el momento muestral de orden
k converge (en probabilidad) al momento poblacional de orden k». Esta propiedad es
la base del método de estimación por momentos, que veremos más adelante.
Cabe mencionar que la conclusión de la ley de los grandes números es cierta en

situaciones bastante más generales, aunque la demostración en esos casos tiende a ser
más compleja. La versión que enunciamos más arriba, en cambio, es una consecuencia
inmediata de la desigualdad de Tchebycheff. Por ejemplo, puede probarse que si las Xi
son v.a.i.i.d.7 , entonces la hipótesis de que la esperanza (µ = m1 ) está definida y es
finita es suficiente para probar8 que
P
X̄n −→ µ,
5
Existe otro teorema, conocido como Ley fuerte de los grandes números, que afirma lo mismo bajo
condiciones similares, pero para un tipo de convergencia más «fuerte» denominado convergencia casi
segura.
6
Es claro que si las Xk son independientes, también lo serán las Yk = Xk2 . Sin embargo, no alcanza
con que las Xk tengan esperanza y varianza finitas, o —equivalentemente— momentos finitos de
primer y segundo orden: es necesario que las Yk tengan momentos finitos de primer y segundo orden.
Luego, es necesario que E(Yk ) = E(Xk2 ) y que E(Yk2 ) = E(Xk4 ) sean finitos, es decir, los momentos de
segundo y cuarto orden de Xk .
7
Notar que en el teorema 9 se supone independencia, pero no idéntica distribución. El agregado
de este supuesto, por su parte, permite relajar el supuesto de que m2 sea finito a que m1 lo sea,
solamente.
8
La demostración puede hacerse mediante funciones generadoras de momentos (suponiendo que
estén bien definidas), o más en general mediante funciones características. Siguiendo la idea de
incluso si la varianza es infinita.

Sin embargo, la hipótesis de existencia de la esperanza es fundamental, no solo
porque si no no tendríamos adónde decir que converge la sucesión de medias muestrales,
sino porque es posible que en tales casos dicha sucesión no converja a ninguna constante
(es decir, a ninguna variable con distribución degenerada). Por ejemplo, puede probarse
que si las variables X1 , . . . , Xn tienen distribución de Cauchy estándar (Xk ∼ C(0, 1),
también denominada distribución t-student con un grado de libertad, o t1 ), entonces
también n
1X
X̄n = Xi ∼ C(0, 1),
n i=1
y por lo tanto no es posible decir que X̄n tienda en probabilidad a constante alguna. En
particular, no tiende a 0, que es la moda, mediana y centro de simetría, como podría
haberse esperado; esto ocurre porque la esperanza no está bien definida.9
la demostración del teorema 6, si se desarrolla MX por Taylor hasta orden 1 es fácil probar que
D
MX̄n (t) −−−−→ eµt , y esto implica (teorema 5) que X̄n −−→ µ. Pero como µ es una constante, también
n→∞
P
resulta (teorema 8) que X̄n −−→ µ.
9
Esto sucede porque una densidad de la distribución es
1
fX (x) = .
π(1 + x2 )
Luego se tiene Z 0
x · fX (x) dx = −∞
−∞
y Z +∞
x · fX (x) dx = +∞,
0
por lo que la integral impropia Z +∞
x · fX (x) dx
−∞
no está bien definida.

Capítulo 6
Distribución de estadísticos muestrales
En este capítulo estudiamos algunas expresiones frecuentes que involucran las variables
de una muestra aleatoria, es decir, X1 , . . . , Xn v.a.i.i.d., y las distribuciones que siguen
bajo ciertas condiciones, con especial énfasis en al caso en que la distribución de las
Xk es N (µ, σ 2 ).
Cabe aclarar que dada una muestra aleatoria X1 , . . . , Xn , es usual denominar es-
tadístico a cualquier función g(X1 , . . . , Xn ) (que de por sí es también una variable
aleatoria, digamos T = g(X1 , . . . , Xn )). Incluso un par, una terna o en general una
k-upla de estadísticos, puede pensarse como un estadístico multidimensional ya que
se trata de una función de Rn en Rk . Sin embargo, en esta sección consideramos solo
estadísticos unidimensionales, es decir, funciones «sueltas».
Dicho esto, ejemplos de estadísticos muestrales usuales son
n n
1X 1X nS 2 X̄ − µ
Xk = X̄, (Xk − X̄)2 = S 2 , , ,
n k=1 n k=1 σ2 √S
n−1
etc.
Estudiamos a continuación algunas distribuciones de probabilidad que aparecen
naturalmente al estudiar este tipo de estadísticos.
6.1. Distribuciones usuales en el muestreo

En esta sección presentamos tres familias de distribuciones que surgen frecuen-
temente en el muestreo en poblaciones normales (además de la propia distribución
normal): la distribución chi-cuadrado, la distribución t-Student y la distribución F-
Snedecor (o F-Fisher ).
112
CAPÍTULO 6. DISTRIBUCIÓN DE ESTADÍSTICOS MUESTRALES 113
6.1.1. La distribución «chi-cuadrado»

Definición 21. Si Z ∼ N (0, 1), se denomina distribución χ21 (chi-cuadrado con 1 grado
de libertad ) a la distribución de la variable X = Z 2 .
Sin embargo, esta distribución es un caso particular de la distribución Γ.

Propiedad 32. La distribución χ21 coincide con la distribución Γ 21 , 12 . En particular,

si X ∼ χ21 , entonces
1
MX (t) = (1 − 2t)− 2 .
Demostración. Hay varios caminos posibles para esta demostración. Una vez más, una
herramienta útil son las funciones generadoras de momentos. Si se prueba que, cuando
Z ∼ N (0, 1), la FGM de Z 2 es
1 12
1
MZ 2 (t) = 1
2
= (1 − 2t)− 2
2
−t
eso completaría la demostración. Para eso es importante notar que
2 Z +∞ 2
MZ 2 (t) = E etZ = etz fZ (z) dz,
−∞
donde fZ (z) es la función de densidad de la distribución normal estándar. Sin embargo,

tomaremos otro enfoque, que ilustra otra manera de estudiar la distribución de una
transformación de una variable aleatoria (y completar el desarrollo anterior se deja
como ejercicio).
Calcularemos directamente FX (t), siendo X = Z 2 . Para ello, en primer lugar ob-
servemos que FX (t) = P(X ≤ t) = P(Z 2 ≤ t), y que esta probabilidad es nula tanto
cuando t < 0 —porque {Z 2 ≤ t < 0} = ∅, es decir, no puede ocurrir— como cuando
t = 0 —porque {Z 2 ≤ 0} = {Z = 0}, y cualquier probabilidad puntual es 0 para la
distribución de Z, que es la normal y por lo tanto es continua—.
Por lo tanto, solo falta calcular FX (t) = P(Z 2 ≤ t) cuando t > 0. En ese caso,
√ √ √
FX (t) = P |Z| ≤ t = P − t ≤ Z ≤ t =
√ √ √ √
= FZ ( t) − FZ (− t − ) = FZ ( t) − FZ (− t),
donde la última igualdad vale por la continuidad de FZ √. Como FZ es derivable en todo
R, también lo es FX (salvo tal vez en t = 0, porque t no lo es, pero un punto no
influye), y esto nos permite obtener una densidad para X. A saber:
√ 1 √ −1
fX (x) = FX0 (x) = FZ0 ( x) · √ − FZ0 (− x) · √ ,
2 x 2 x
z2
y como FZ0 es la densidad fZ (z) = √1 e− 2 , que es simétrica respecto de z = 0,
2π
√ 1
1 √ 1 1 ( x)2 (1/2) 2 1 −1 − 1 x
fX (x) = 2 · √ · fZ ( x) = x− 2 √ e− 2 = x2 e 2 ,
2 x 2π Γ 12
cuando x > 0. Claramente la densidad da 0 para x < 0, por lo visto al principio. Esta
es, efectivamente, una densidad para la distribución Γ 21 , 12 .
Además, podemos dar la siguiente

Definición 22. Si X1 , . . . , Xn son variables independientes todas con distribución χ21 ,
se denomina χ2n (chi-cuadrado con n grados de libertad ) a la distribución de la variable
X = X 1 + · · · + Xn .
Resulta entonces inmediato que

n 1

Propiedad 33. La distribución χ2n coincide con la distribución Γ ,
2 2
. En particular,
si X ∼ χ2n , entonces
n
MX (t) = (1 − 2t)− 2 .
Observación 19. Es inmediato probar que la suma de variables χ2n y χ2m independien-
tes tiene una distribución χ2n+m .
Sin embargo, no vale lo mismo para la resta, aunque bajo ciertas condiciones puede
darse una propiedad que guarda cierta analogía.
Propiedad 34. Sean W ∼ χ2n , V ∼ χ2m (m < n), y sea U una variable aleatoria
independiente de V tal que W = U + V . Entonces,
U = W − V ∼ χ2n−m .
Demostración. Como U y V son independientes, vale

MW (t) = MU (t) · MV (t).
Luego, teniendo en cuenta la propiedad 33, vemos que
n
MW (t) (1 − 2t)− 2 −
n−m
MU (t) = = m = (1 − 2t) 2 ,
MV (t) (1 − 2t)−
2
y esto implica (por el teorema 3) que U ∼ χ2n−m .

6.1.2. Las distribuciones «t-Student» y «F-Snedecor»

Al menos otras dos distribuciones surgen naturalmente al trabajar con estadísticos de
una muestra con distribución normal.
Definición 23. Si Z ∼ N (0, 1) y X ∼ χ2n son variables aleatorias independientes, se

denomina distribución tn (t-Student con n grados de libertad ) a la distribución de la
variable
Z
T =q .
X
n
Definición 24. Si U ∼ χ2m y V ∼ χ2n son variables aleatorias independientes, se

denomina distribución Fm,n (F-Snedecor con m grados de libertad en el numerador y n
grados de libertad en el denominador ) a la distribución de la variable
U
m
F = V
.
n
6.2. Distribución de algunos estadísticos

A continuación estudiamos la distribución de ciertas funciones de la muestra que
presentan las distribuciones antes estudiadas, para lo cual antes presentamos un im-
portante resultado: el Lema de Fisher.
6.2.1. El Lema de Fisher y la distribución de S 2

Si se considera la varianza muestral cuando se conoce la esperanza µ = E(Xi ) de una
distribución N (µ, σ 2 ), puede usarse la distribución χ2 para analizar la disribución de
la varianza muestral con media conocida
n
1X
σ̂n2 = (Xi − µ)2 ,
n i=1
o en realidad de una expresión relacionada, a saber:

n
nσ̂n2 X (Xi − µ)2
= ,
σ2 i=1
σ2
es decir n 2
nσ̂n2 X

Xi − µ
= .
σ2 i=1
σ
Como la expresión entre paréntesis tiene distribución N (0, 1), su cuadrado tiene
distribución χ21 . Y al ser cada término independiente de los demás, la suma es una χ2n .
Resumiendo:
Propiedad 35. Si X1 , . . . , Xn son v.a.i.i.d. con Xi ∼ N (µ, σ 2 ), entonces
nσ̂n2
2
∼ χ2n . 1
σ
Sin embargo, la mayoría de las veces que no se conoce σ 2 tampoco se conoce µ; entonces
un estadístico mucho más útil es la varianza muestral
n
1X 2
Sn2 = Xi − X̄ .
n i=1
En este caso, si se sigue la misma idea,

n 2
nSn2 X Xi − X̄
=
σ2 i=1
σ
y las variables Xiσ−X̄ si bien son normales (y su esperanza es 0), ni tienen varianza 1 ni,
menos aún son independientes entre sí (o al menos no tendrían por qué serlo, ya que,
por ejemplo, tanto X1σ−X̄ como X2σ−X̄ dependen de las n variables X1 , . . . Xn (porque
X̄ depende de todas ellas).
2
Por lo tanto, no puede afirmarse que nS
σ2
n
tenga distribución χ2n , y en principio no
habría siquiera motivos para suponer que su distribución sea de la familia χ2 . Pero sin
1
En este capítulo recuadramos para mayor claridad todas las fórmulas sobre distribuciones exactas
y asintóticas que serán de utilidad para desarrollar intervalos de confianza y pruebas de hipótesis (ver
capítulo 8 y capítulo 9).
embargo, el caso es que dicho estadístico sí sigue una distribución χ2 , aunque no con
n grados de libertad.
Para este punto, resultará fundamental el siguiente teorema —conocido como Lema
de Fisher —, que es útil en sí mismo y volveremos a usar en varias ocasiones. Lo
enunciamos sin demostración.
Teorema 10 (Lema de Fisher). Si X1 , . . . , Xn son v.a.i.i.d., con Xi ∼ N (µ, σ 2 ), en-
tonces las variables aleatorias
n n
X X 2
Xi y Xi − X̄
i=1 i=1
son independientes. En particular, también son independientes X̄n y Sn2 .
Xi como (Xi − X̄)2 dependen de todas

P P
Observación 20. Es de notar que tanto
las variables X1 , . . . , Xn , por lo que no es nada obvio que estas sean independientes.
La indepedencia se prueba en base una propiedad de «ortogonalidad» entre ambos
estadísticos: en cierto sentido, ambos estadísticos capturan cada uno una parte de la
información contenida en el vector (X1 , . . . , Xn ) de modo que lo que uno «contiene»
de información sobre su distribución conjunta es independiente de lo que «contiene» el
otro. En cualquier caso, es importante destacar que la independencia solo se da si la
distribución de las Xi es normal.
nSn2
Ahora sí, estamos en condiciones de probar cuál es la distribución de σ2
.
Teorema 11. Si X1 , . . . , Xn son v.a.i.i.d., con Xi ∼ N (µ, σ 2 ), entonces
nSn2
∼ χ2n−1 .
σ2
Demostración. En primer lugar, realizamos la siguiente descomposición:

n
X n
X
2
(Xi − µ) = [(Xi − X̄) + (X̄ − µ)]2 =
i=1 i=1
n
X n
X n
X
2
= (Xi − X̄) + 2(Xi − X̄)(X̄ − µ) + (X̄ − µ)2 .
i=1 i=1 i=1
Pero el término general de la última sumatoria es constante (para cada i), así que
n
X
(X̄ − µ)2 = n(X̄ − µ)2
i=1
y en el segundo término son constantes (para cada i) los factores 2 y (X̄ − µ), que
pueden sacarse de la suma como factor común, es decir
n
X n
X
2(Xi − X̄)(X̄ − µ) = 2(X̄ − µ) (Xi − X̄).
i=1 i=1
Pero
n
X n
X n
X n
X n
X n
X
(Xi − X̄) = Xi − X̄ = Xi − nX̄ = Xi − Xi = 0,
i=1 i=1 i=1 i=1 i=1 i=1
por lo que todo el segundo término del desarrollo anterior es 0. En resumen:

n
X n
X
2
(Xi − µ) = (Xi − X̄)2 + n(X̄ − µ)2 ,
i=1 i=1
2
y si dividimos por σ en cada miembro y reorganizamos cada término, tenemos
n 2 X n 2 2
X Xi − µ Xi − X̄ X̄ − µ
= + √ .
i=1
σ i=1
σ σ/ n
Sobre el miembro izquierdo sabemos que tiene, bajo las hipótesis del teorema, dis-
2
tribución χ2n , mientras que el último término de la derecha es la variable X̄ ∼ N (µ, σn )
menos su esperanza y dividida por su desvío (es decir, estandarizada) elevada al cua-
drado: por lo tanto, su distribución es χ21 .
2
El primer término de la derecha es, precisamente, nSσ2
n
, cuya distribución queremos
calcular. Lo esperable es que «por diferencia», se trate de una distribución del mismo
tipo, pero restando los grados de libertad de las otras dos, es decir, con distribución
χ2n−1 .
La propiedad 34 afirma que ese análisis es posible, siempre que sean independientes
las variables «que se suman» (en este caso, las del miembro derecho).
La variable de la izquierda depende de todas las Xi y la de la derecha también 2
(porque X̄ depende de todas). Sin embargo, la primera depende de ni=1 Xi − X̄ y
P
nada más (o de Sn2 , como se prefiera) y la segunda depende de X̄ y nada más. Como
por el Lema de Fisher esas dos variables son independientes, cualquier transformación
de una es independiente de cualquier transformación de la otra y por lo tanto vale
aplicar la propiedad 34 para concluir que la distribución es χ2n−1 , como se quería.
6.2.2. El «estadístico t»
Son varios los estadísticos con distribución t que surgen «naturalmente» en este con-
texto, y casi por regla general involucran algún cociente entre medias y varianzas
muestrales. Si bien más comúnmente se usa ese nombre para el estadístico de prueba
de un cierto test de comparación de medias poblacionales, en el contexto de una sola
muestra «el» estadístico t refiere a
X̄ − µ
t= .
√S
n−1
El nombre surge de la siguiente propiedad, que muestra una vez más la utilidad del
Lema de Fisher:
Propiedad 36. Si X1 , . . . , Xn ∼ N (µ, σ 2 ), entonces
X̄ − µ
∼ tn−1 .
√S
n−1
2
Demostración. Dado que X̄ ∼ N (µ, σn ), tenemos que
X̄ − µ
∼ N (0, 1).
√σ
n
Además, sabemos que

nS 2
∼ χ2n−1
σ2
y por el Lema de Fisher este cociente y el anterior son independientes (S 2 y X̄ lo son).
Luego, se tiene que
X̄−µ
√σ
n
r ∼ tn−1 ,
nS 2
σ2
n−1
por construcción.
Pero cancelando factores repetidos (hacer la cuenta), esta expresión es exactamente
X̄ − µ
,
√S
n−1
lo que completa la prueba.

6.2.3. Estadísticos basados en dos muestras normales

Un caso de estudio frecuente es aquel en el que se toman dos muestras independientes
2
X1 , X2 , . . . , XnX ∼ N (µX , σX )
y
Y1 , Y2 , . . . , YnY ∼ N (µY , σY2 );
es decir una muestra de tamaño nX de variables con distribución normal y otra muestra
también normal pero con tamaño nY (posiblemente con nX 6= nY ) y con una media y
una varianza no necesariamente iguales a las de la primera muestra. Excede el objeto de
este capítulo discutir en qué contexto o a través de qué procedimiento surgen muestras
independientes, pero caben dos observaciones:
El hecho de que X1 , . . . , XnX sea una muestra aleatoria implica que las variables
2
Xi —además de tener todas la misma distribución (v.g., N (µX , σX ))— son inde-
pendientes entre sí, y lo mismo sucede con las variables Yj ; pero la independencia
entre muestras implica además que las variables Xi son independientes de las
variables Yj para cada i y cada j, o más generalmente, que las variables
X1 , X2 , . . . , XnX , Y1 , Y2 , . . . , YnY
son independientes dos a dos.
Esto implica que se trata de una situación esencialmente distinta al caso deno-
minado de muestras apareadas, en el que la primera observación de una muestra
«se corresponde» (en algún sentido probabilístico) con la primera observación de
la segunda muestra —es decir, X1 e Y1 —, y lo mismo ocurre con X2 e Y2 , con X3
e Y3 , etc., en cuyo caso —por cierto— se tiene necesariamente nX = nY .
Diferencia de medias
En estas circunstancias es usual querer estudiar la diferencia de medias poblaciona-

les µX − µY a través de la diferencia de medias muestrales X̄ − Ȳ , en cuyo caso resultan
de interés los estadísticos que aparecen a continuación.
Por un lado, la independencia entre muestras implica —en particular— que X̄ e Ȳ
son variables aleatorias (normales) independientes, por lo que su diferencia sigue una
distribución también normal, a saber:
2
σY2

σX
X̄ − Ȳ ∼ N µX − µY , + ,
nX nY
por lo que
(X̄ − Ȳ ) − (µX − µY )
q 2 2
∼ N (0, 1).
σX σY
nX
+ nY
Sin embargo, es usual querer realizar el mismo análisis sin necesidad de conocer los
2
valores σX y σY2 . Y si bien para el caso general no se tiene una solución completamente
2
satisfactoria de este problema, es usual estudiar el caso en que se supone que σX = σY2 ,
2
aun cuando este valor común —digamos σ — sea desconocido.
Propiedad 37. Dadas dos muestras independientes entre sí
X1 , X2 , . . . , XnX ∼ N (µX , σ 2 )
e
Y1 , Y2 , . . . , YnY ∼ N (µY , σ 2 ),
se tiene
(X̄ − Ȳ ) − (µX − µY )
q ∼ tnX +nY −2 ,
Sp n1X + n1Y
donde
2
nX SX + nY SY2
Sp2 = .
nX + nY − 2
Demostración. Del análisis anterior sabemos que
(X̄ − Ȳ ) − (µX − µY ) (X̄ − Ȳ ) − (µX − µY )

q = q ∼ N (0, 1).
σ 2 σ 2 1 1
nX
+ nY
σ nX
+ nY
Por otro lado

(nX + nY − 2) · Sp2 2
nX SX nY SY2
= + ∼ χ2nX +nY −2 ,
σ2 σ2 σ2
2
ya que es la suma de dos variables aleatorias independientes (SX y SY2 son indepen-
2 2
dientes) con distribuciones χnX −1 y χnY −1 , respectivamente, por lo que su distribución
es también chi-cuadrado pero con nX − 1 + nY − 1 grados de libertad.
Por otro lado, esta expresión y la anterior corresponden a variables aleatorias inde-
pendientes, lo que puede justificarse mediante el lema de Fisher, y esto implica —por
construcción— que
(X̄−Ȳ )−(µX −µY )

q
σ n1 + n1
X Y
r 2
∼ tnX +nY −2 .
(nX +nY −2)·Sp
σ2
nX +nY −2
Pero reordenando la expresión puede verse que esta variable es exactamente la del
enunciado del teorema.
Cociente de varianzas
También es un problema usual el de querer comparar las varianzas de dos poblacio-

nes normales (no necesariamente con la misma media). Para esto se suele estudiar el
σ2 S2 S ∗2
cociente de varianzas poblacionales σX2 , mediante el cociente SX2 , o bien mediante SX∗2 ,
Y Y Y
donde S ∗2 se define como
n
S ∗2 = S2
n−1
y se denomina «varianza muestral insesgada» (ver capítulo 7) o «cuasivarianza».
Recordemos que en estas condiciones
2
nX SX nY SY2
2
∼ χ2nX −1 y ∼ χ2nY −1 ,
σX σY2
así que
2
nX SX
2
σX
/(nX − 1)
nY SY2
∼ FnX −1,nY −1 ,
σY2 /(nY − 1)
que puede reescribirse como
2
nX nY − 1 SX σ2
· · 2 · Y2 ∼ FnX −1,nY −1 .
nY nX − 1 SY σX
2
Puede obtenerse una expresión más sencilla si se utilizan en lugar de SX y SY2 las
denominadas cuasivarianzas. En ese caso se tiene
∗2
SX σY2
· 2 ∼ FnX −1,nY −1 .
SY∗2 σX
En la siguiente tabla resumimos las principales características de las distribucio-

nes introducidas en este capítulo: a saber, la distribución χ2n , la distribución tn y la
distribución Fm,n (recordar que en todos los casos m, n ∈ N).
CAPÍTULO 6. DISTRIBUCIÓN DE ESTADÍSTICOS MUESTRALES
Nombre Not. Función de densidad E V A CE FGM
n x
n
1
x 2 −1 e− 2 (1 − 2t)−n/2
22Γ n
( )
2 q
8 12
Chi-cuadrado χ2n n 2n n n
(x > 0) (t < 21 )
n 6
0 n−2
0 n−4
Γ( n+1
− n+1
2 )

x2 2
t-Student tn √
nπΓ( n
1+ (no definida)
2)
n
(si n ≥ 2) (si n ≥ 3) (si n ≥ 4) (si n ≥ 5)
mm/2 nn/2 xm/2−1 n 2n2 (m+n−2)

B(m/2,n/2) (mx+n) m+n
2 n−2 m(n−2)2 (n−4)
F-Snedecor Fm,n — — (no definida)

(x > 0) (n > 2) (n > 4)
123
6.3. Distribución de estadísticos de orden

Al tomar una muestra de tamaño n, ningún mecanismo asegura que los valores vayan
a surgir en un orden determinado, como por ejemplo
X1 ≤ X 2 ≤ . . . ≤ Xn .
De hecho, si se supiera que esto debe ocurrir necesariamente, entonces el valor de X1

actuaría como «piso» para el valor de X2 y las demás observaciones (y lo mismo haría
X2 para X3 y las subsiguientes, etc.), lo que derribaría el supuesto de que las variables
Xi son independientes e idénticamente distribuidas.
Sin embargo, muchas veces resulta útil pensar en la muestra ordenada, para lo cual
usamos la siguiente notación:
X(1) ≤ X(2) ≤ . . . ≤ X(n) .

Es decir: X(1) es el valor que toma la menor de las observaciones, X(2) es el menor valor
de las n−1 observaciones restantes, etc. El valor X(i) se denomina el i-ésimo estadístico
de orden.
Si bien podría pensarse que existe ambigüedad en la definición cuando dos observa-
ciones toman el mismo valor (algo que si la definición subyacente es discreta de hecho
puede ocurrir con probabilidad positiva), en ese caso los correspondientes estadísticos
de orden serán iguales, y no es ambiguo cuál de las observaciones corresponde a cada
una, ya que los estadísticos de orden no son las variables ordenadas sino los valores de
las mismas.
Es decir, si resultara ser
(X1 , X2 , X3 , X4 ) = (4, 2, 6, 2)
tenemos
(X(1) , X(2) , X(3) , X(4) ) = (2, 2, 4, 6).
Y podríamos pensar que existe ambigüedad en el hecho de que no sabemos si en este
caso es
X(1) = X2 y X(2) = X4
o
X(1) = X4 y X(2) = X2 ,
pero es un error pensarlo de este modo, ya que en este caso todas son ciertas porque
de hecho, como resulta obvio, ocurrió que
X(1) = X(2) = X2 = X4 .
Es decir, a los estadísticos de orden se les asignan los valores de las observaciones, pero
no es necesariamente cierto que a cada uno le asignemos una de las variables de la
muestra en forma biunívoca.2
Es claro que estos estadísticos tendrán una distribución de probabilidad (son va-
riables aleatorias, ya que sus valores solo se determinan una vez conocido el resultado
[aleatorio] de la extracción de la muestra). De hecho, esta distribución dependerá de la
distribución de las Xi . Empecemos por un ejemplo.
Ejemplo 24. Llamemos F a la función de distribución de la población de la que se

extraen las observaciones, es decir
FXi (t) = F (t), 1 ≤ i ≤ n.
Queremos saber cuál es la distribución de M = X(n) , es decir, la (función de)

distribución de la variable aleatoria
M = máx{X1 , X2 , . . . , Xn }.
Podríamos pensar que M tiene la misma distribución F que las Xi , ya que resulta
siempre igual a una de ellas. Pero en realidad este modo de razonar no tiene sentido
(como se dijo, M no es una de las variables de la muestra, sino otra variable que toma
el mismo valor que una de ellas al menos —la que resulte mayor—).
Por ejemplo si se tuviera Xi ∼ U[0, 1] y n = 1000, es razonable pensar que la
probabilidad de que M > 0,95 es relativamente alta, ya que entre mil repeticiones, casi
con certeza habrá al menos una (probablemente varias) que superen el valor 0,95, y en
ese caso el máximo M de todas las observaciones también lo superará. Sin embargo, si
M tuviera también distribución U[0, 1], se tendría apenas P(M > 0,95) = 0,05, lo cual
es claramente absurdo.
Para convencernos, calculemos dicha probabilidad exactamente. Como dijimos, bas-
ta con que una de las variables X1 , . . . , X1000 supere el valor 0,95 para que M también
lo haga. Puesto de otro modo podríamos también decir que
M ≤ 0,95 ⇐⇒ Xi ≤ 0,95 ∀i ∈ {1, . . . , 1000};
o dicho más simplemente,
M ≤ 0,95 ⇐⇒ X1 ≤ 0,95 ∧ . . . ∧ X1000 ≤ 0,95.

2
Sin embargo, esta forma de ver la situación es útil en ciertos contextos como la estadística no
paramétrica, y es razonable cuando la distribución de las variables de la muestra es continua ya que
en esos casos se tiene probabilidad cero de tener valores repetidos en la muestra.
Esto es cierto, puesto que si el máximo valor es menor o igual que 0,95, también
lo serán todos los de la muestra dado que son menores o iguales que el máximo. Y
recíprocamente, si todos los valores en la muestra son menores o iguales a 0,95, el
máximo de todos —que es uno de ellos— también lo será. Esto prueba la equivalencia.
Pero los mil sucesos aleatorios {Xi ≤ 0,95} son independientes entre sí, porque las
variables Xi lo son, por lo que tenemos
P(M ≤ 0,95) = P(X1 ≤ 0,95∧. . .∧X1000 ≤ 0,95) = P(X1 ≤ 0,95)·. . .·P(X1000 ≤ 0,95).
Ahora bien, como todas las Xi tienen distribución U[0, 1], resulta P(Xi ≤ 0,95) = 0,95,
por lo que
P(M ≤ 0,95) = 0,951000 = 5,3 × 10−23 ,
y entonces
P(M > 0,95) = 1 − 0,951000 ' 1.
Más en general, el mismo razonamiento dice que si las Xi tienen función de distri-
bución F , entonces
P(M ≤ 0,95) = P(X1 ≤ 0,95) · . . . · P(X1000 ≤ 0,95) = F (0,95)1000 .
Y más generalmente aún, si la muestra es de tamaño n y tomamos en lugar de 0,95

un valor t arbitrario,
P(M ≤ t) = P(X1 ≤ t) · . . . · P(Xn ≤ t) = [F (t)]n ,
es decir
FM (t) = [F (t)]n .

Vimos en el ejemplo anterior que FX(n) = [F (t)]n si llamamos F a la función de

distribución de las Xi (es decir, la distribución poblacional). Siguiendo los mismos
razonamientos, podemos ver que el primer estadístico de orden, el mínimo de las ob-
servaciones, tiene la propiedad X(1) > t si y solo si Xi > t para todo i = 1, 2, . . . , n.
Luego,
n
Y
P(X(1) > t) = P(Xi > t) = [1 − F (t)]n .
i=1
Y por lo tanto,
FX(1) (t) = 1 − P(X(1) > t) = 1 − [1 − F (t)]n .
Para entender el caso general, repensemos lo anterior. También podríamos haber

dicho que para que X(1) ≤ t es suficiente con que al menos una de las n observa-
ciones resulte menor o igual a t, es decir, que ocurra al menos uno de los n eventos
independientes
{Xi ≤ t}, i = 1, . . . , n,
que también son equiprobables con probabilidad F (t). La probabilidad de dicho even-
to puede entenderse como la probabilidad de que para una variable aleatoria Y con
distribución binomial, más precisamente

Y ∼ Bi n, F (t) ,
suceda {Y ≥ 1}.
De igual modo, {X(2) ≤ t} tiene la misma probabilidad que {Y ≥ 2} y, en general,
P(X(k) ≤ t) = P(Y ≥ k).
Por lo tanto, resulta

n
X n
FX(k) (t) = ·[F (t)]y ·[1 − F (t)]n−y ,
y
y=k
de donde surgen como casos particulares los ya mencionados
FX(1) (t) = 1 − [1 − F (t)]n
y
FX(n) (t) = [F (t)]n .
Es de destacar que si n es impar, el estadístico de orden X n+1 es simplemente

2
la mediana muestral, que suele representarse como Me(Xi ) o como X̃ (si n es par la
mediana será el promedio de los estadísticos de orden n2 y n+1
2
).
Como comentario final, nótese que cuando las Xi son independientes pero no con
la misma distribución, pueden generalizarse los razonamientos ya vistos. Como caso
particular, si tenemos X1 , X2 y X3 , cada una con una distribución en particular (e
independientes), es fácil ver que la distribución de M = máx{X1 , X2 , X3 } se puede
expresar como
FM (t) = FX1 (t) · FX2 (t) · FX3 (t)
y que la distribución de N = mı́n{X1 , X2 , X3 } resulta

FN (t) = 1 − 1 − FX1 (t) · 1 − FX2 (t) · 1 − FX3 (t) .
6.4. Algunas distribuciones asintóticas relevantes
Cuando se tiene una muestra aleatoria (es decir v.a.i.i.d.) X1 , X2 , . . . , Xn de una

distribución cualquiera con momentos de primer y segundo orden finitos, sabemos por
el teorema central del límite que vale
X̄n − µ D
−→ N (0, 1).
√σ
n
Entonces este estadístico, con distribución asintótica conocida es aproximadamente

válido para deducir intervalos de confianza o test de hipótesis, provisto que n sea un
número suficientemente grande.3
En este apartado presentamos otros estadísticos usuales cuya distribución asintótica
es conocida, por lo que resultan útiles para la inferencia estadística. Para realizar este
análisis, resulta fundamental el siguiente teorema.
Teorema 12 (Teorema de Slutsky). Dadas sucesiones de variables aleatorias {Xn } e

{Yn } tales que
D P
Xn −→ X e Yn −→ c ∈ R,
entonces existe el límite en distribución de Xn · Yn y resulta

D
Xn · Yn −→ cX.
D
Observación 21. Es importante recordar que la expresión Xn −→ X es una notación
D
alternativa a Xn −→ FX , que usamos en este caso por simplicidad, pero que no implica
que haya una alta probabilidad de que los valores de Xn tiendan al valor de X, ni nada
similar; solo estamos afirmando que las sucesivas funciones de distribución FXn tienden
a los valores de la función FX para todos los valores de t donde esta última es continua.
D
Alternativamente, podríamos enunciar el teorema diciendo que si Xn −→ F y F̃
es la distribución de una variable que resulta de multiplicar c por una variable con
distribución F , es decir,
F̃ (t) = F ct ,

3
Como regla práctica es usual en contextos pedagógicos aceptar dicha aproximación cuando n ≥ 30,
si bien esta idea es obviamente una sobresimplificación.
P
entonces si además Yn −→ c, se tiene
D
Xn · Yn −→ F̃ .
Notar que en particular, si c = 1, entonces

D
Xn · Yn −→ F,
al igual que Xn .
6.4.1. Distribución asintótica de medias muestrales

Caso general
En primer lugar, podemos usar la LGN para probar que4

P
S 2 −→ σ 2 ,
(o, dicho en otros términos, S 2 es un estimador consistente de σ 2 —ver capítulo 7—)

y por ello resulta
σ2 P
−→ 1
S2
o —tomando la raíz cuadrada—
σ P
−→ 1.
S
De la última afirmación y del TCL, surge —vía el teorema de Slutsky— que
X̄n − µ σ D
· −→ N (0, 1),
√σ S
n
4
Para esto, reexpresamos S 2 como
1X 2
Xn − (X̄)2 ,
n
y bajo condiciones que garanticen la LGN (como las Xn2 son v.a.i.i.d., al igual que las Xn , alcanza con
suponer que m1 y m2 son finitos) esto implica que
P
S 2 −−→ m2 − m21 = σ 2 .
es decir
X̄n − µ D
−→ N (0, 1).
√S
n
Esta conclusión vale si las Xi son v.a.i.i.d. con momentos finitos al menos de segundo
orden, y resultará útil para hacer inferencia en contextos en que de la distribución
subyacente no se conozca siquiera la varianza (aunque sí se tenga certeza de que esta
existe y es finita).
Proporción muestral
Un caso frecuente de inferencia con una distribución no normal que satisface las
condiciones mencionadas es aquel en que las Xi ∼ Be(p). En este caso —en el que
X̄ suele notarse por p̄ y representa la proporción de éxitos entre las n observaciones
realizadas—, como E(Xi ) = p y var(Xi ) = p(1 − p), resulta del TCL que
p̄ − p D
qn −→ N (0, 1).
p(1−p)
n
Y además, dado que

p(1 − p) P
−→ 1
p̄n (1 − p̄n )
P
(porque p̄n −→ E(Xi ) = p), surge del Teorema de Slutsky que
s
p̄n − p p(1 − p) D
q · −→ N (0, 1).
p(1−p) p̄n (1 − p̄n )
n
Es decir,
p̄ − p D
qn −→ N (0, 1).
p̄n (1−p̄n )
n
6.4.2. Comparación de medias de muestras independientes

Caso general
Si se quieren comparar las medias de dos muestras provenientes de poblaciones no

necesariamente normales, también se puede recurrir a ciertos resultados sobre distribu-
ciones asintóticas. Por ejemplo, puede probarse que si cuando nX → +∞ y nY → +∞
se tiene
nX
→ λ > 0, 5
nY
entonces
(X̄ − Ȳ ) − (µX − µY ) D
q 2 2
−→ N (0, 1) .
σX σY
nX
+ nY
Sin embargo, omitiremos la demostración, ya que es menos inmediata de lo que puede

parecer. En particular, cabe aclarar que no se basa —al menos directamente— en la
propiedad de la suma de normales independientes combinada con el TCL, como podría
D D
creerse; esto es porque si Xk −→ X e Yk −→ Y no vale en general (aunque puede
D
ocurrir) que Xk + Yk −→ X + Y .
Ahora bien, si no se conocen las varianzas de ambas muestras, es útil otro estadís-
tico cuya distribución asintótica podemos deducir del resultado anterior junto con el
teorema de Slutsky. En primer lugar, notemos que como
2 P 2 P
SX −−−−−→ σX y SY2 −−−−−→ σY2 ,
nX →∞ nY →∞
puede probarse que6 q 2

σX 2
σY
nX
+ nY P
q 2
−→ 1.
SX SY2
nX
+ nY
5
Esto garantiza que ni nX crece «mucho más rápido» que nY (en cuyo caso el cociente tendería
a ∞, ni nY crece mucho más rápido que nX , en cuyo caso el cociente tendería a 0; en realidad
ambos tamaños muestrales tienden a crecer en una cierta proporción. Por ejemplo, imaginemos que
tomáramos un par de muestras de tamaño (nX , nY ) = (1, 1), luego de tamaño (2, 4), luego (3, 9),
después (4, 16), y que en general el n-ésimo par de muestras fuera de tamaño (n, n2 ). En ese caso no
tendríamos garantizada la conclusión, ya que
nX n 1
= 2 = −−−−→ 0.
nY n n n→∞
Es decir que a medida que tomamos las sucesivas muestras, podría ocurrir que la distribución del
estadístico en cuestión no converja a una distribución normal, o incluso que no converja a ninguna
distribución (notar que en la muestra número 100 se tendrá nX = 100, pero nY = 10 000 será cien veces
mayor). En cualquier caso, no es tan sencillo dilucidar las consecuencias prácticas de este tecnicismo.
6
Este resultado es menos obvio de lo que parece, ya que en realidad el límite en cuestión involucra
una indeterminación del tipo «cero sobre cero»; en cualquier caso, puede probarse que es válido
haciendo uso de la condición nnX
Y
→ λ > 0.
Por lo tanto, podemos concluir que

q
σ2 2
σY
(X̄ − Ȳ ) − (µX − µY )
X
nX
+ nY D
q 2 · q −→ N (0, 1),
σX σ2 2
SX SY2
nX
+ nYY nX
+ nY
es decir
(X̄ − Ȳ ) − (µX − µY ) D
q 2 −→ N (0, 1).
SX SY2
nX
+ nY
Comparación de proporciones
Nuevamente, una aplicación especialmente útil es el caso en que las poblaciones

tienen distribuciones de Bernoulli, con parámetros que llamaremos pX y pY , respecti-
vamente. En ese caso vale que
(p̄X − p̄Y ) − (pX − pY ) D

q −→ N (0, 1),
pX (1−pX ) pY (1−pY )
nX
+ nY
aunque esta expresión no es muy útil para estudiar pX − pY ya que depende también
de los valores individuales de cada parámetro.
Resulta útil, nuevamente, aplicar el teorema de Slutsky, para concluir que
(p̄X − p̄Y ) − (pX − pY ) D

q −→ N (0, 1).
p̄X (1−p̄X ) p̄Y (1−p̄Y )
nX
+ nY
También es de interés una expresión que surge en el caso particular en que se supone
que la diferencia entre ambos parámetros es nula, es decir, que pX = pY . Si llamamos p
a ese valor común, tenemos que tanto Xk como Yk siguen una distribución Be(p), por
lo que
E(p̄X − p̄Y ) = p − p = 0
y
p(1 − p) p(1 − p) p(1 − p)
var(p̄X − p̄Y ) = + = .
nX nY nX + nY
Luego,
p̄ − p̄Y D
qX −→ N (0, 1).
p(1−p)
nX +nY
Si ahora definimos una proporción muestral común a ambas muestras como

P P
nX p̄X + nY p̄Y Xk + Yk
p̂ = = ,
nX + nY nX + nY
entonces
nX p + nY p
E(p̂) = =p
nX + nY
y
nX p(1 − p) + nY p(1 − p) p(1 − p)
var(p̂) = 2
= ;
(nX + nY ) nX + nY
y por la LGN vale que
P
p̂ −→ p
cuando nX + nY → +∞.
Luego, el teorema de Slutzky garantiza que si nX , nY → +∞ (en cuyo caso también
nX + nY → +∞), con la condición nnXY → λ > 0, entonces también
q
p(1−p)
p̄ − p̄Y nX +nY D
qX ·q −→ N (0, 1).
p(1−p) p̂(1−p̂)
nX +nY nX +nY
O simplificando la expresión,
p̄ − p̄Y D
qX −→ N (0, 1).
p̂(1−p̂)
nX +nY
Capítulo 7
Estimadores puntuales
Abordamos en este capítulo el problema de la estimación puntual de uno o más

parámetros de una distribución de probabilidad desde la perspectiva clásica (en el ca-
pítulo 10 se presenta el mismo problema desde la perspectiva bayesiana). Este problema
surge al estudiar una cierta variable o característica cuantitativa cuya distribución «po-
blacional» es solo parcialmente conocida, y la información desconocida puede resumirse
en una cantidad finita de valores, conocidos como «parámetros» de la distribución.
Para precisar el problema comenzamos por definir nociones como «población»,
«muestra aleatoria», «modelo estadístico paramétrico», etc (apartado 7.1). Luego de-
finiremos el concepto de «estimador puntual» y presentaremos ciertas propiedades que
es deseable que un estimador verifique (apartado 7.2), y lo mismo haremos para el con-
cepto más amplio de «estadístico» (apartado 7.3); para completar dicha presentación
será de gran utilidad definir la «información de Fisher» (apartado 7.4). Finalmente,
presentamos procedimientos sistemáticos que permiten generar estimadores puntuales:
los llamados «métodos de estimación» (apartado 7.5).
7.1. Introducción a la inferencia estadística

Presentamos a continuación algunas nociones básicas sobre inferencia estadística,
que resultan centrales para los contenidos no solo de este capítulo, sino también de los
subsiguientes.
134
CAPÍTULO 7. ESTIMADORES PUNTUALES 135
7.1.1. Población: concepto. Muestra aleatoria (muestreo alea-

torio simple).
El concepto de población suele usarse en referencia a dos situaciones diferentes en
las que es de interés aplicar métodos de inferencia estadística:
Puede ser que exista efectivamente una población, es decir, un conjunto (finito)
de unidades sobre las cuales se puede medir la variable o característica de interés
(por ejemplo, las personas que viven en una ciudad —sobre las que podemos
considerar variables como la estatura, la edad, el tiempo que llevan viviendo
allí, etc.—), en cuyo caso la variable en cuestión tiene una cierta distribución
de frecuencias a la que teóricamente se podría acceder si se realizara un censo
completo sin errores ni omisiones.
Puede ser que en cambio la característica que se quiere medir surja como repe-
tición de un experimento que idealmente puede reiterarse una infinidad de veces
en forma controlada (por lo que suele hablarse de «experimento de laboratorio»)
a tal extremo que se logre mantener la independencia entre una y otra realización
del mismo y que las condiciones al comienzo de y durante cada repetición sean
idénticas al punto de que pueda asignarse a la característica de interés una misma
distribución de probabilidad antes de cada realización del experimento aleatorio.
En cualquiera de estos casos, podríamos considerar —en teoría— una cantidad n

de variables aleatorias a observar (en general, las denominamos X1 , X2 , . . . , Xn ) inde-
pendientes e idénticamente distribuidas, cuya distribución de probabilidad reflejaría la
distribución «poblacional» en cada caso. A saber:
En el caso de un experimento tipo «laboratorio», basta con repetir n veces el

experimento, cuidando que las condiciones sean las mismas al comienzo de cada
repetición y, en particular, que no se vean afectadas por los resultados anteriores.
Para el caso de una población «finita» de tamaño N , la distribución de probabi-

lidad de la característica en cuestión es en realidad idéntica a la distribución de
frecuencias de esta en la población, por lo que en realidad es siempre una varia-
ble aleatoria discreta1 . Por ejemplo, si se estudia la estatura (en metros) de una
población de N = 100 personas, por un lado es claro que el registro de los datos
se hará hasta una cierta precisión (digamos, por ej., centímetros), por lo que solo
valores como 1,51 m; 1,52 m; 1,53 m; etc., pueden obtenerse efectivamente2 . Una
1
No obstante, frecuentemente puede modelarse dicha distribución discreta mediante una distribu-
ción continua, con un grado de aproximación razonable y considerable simplificación del análisis y de
los cálculos involucrados.
vez considerado este detalle, si hubiese entre las cien unidades de la población
exactamente tres de ellas con una estatura de 1,72 m (con precisión a cm) —es
decir, una frecuencia relativa fr = 0,03—, entonces al elegir una persona/unidad
1
al azar (cada una con probabilidad 100 ), la probabilidad de que el resultado de
3
medir la estatura de la persona seleccionada al azar sea 1,72 m es claramente 100 ,
igual a la frecuencia relativa. Pero para que al elegir n unidades la distribución
aleatoria sea cada vez la misma que al principio debe ocurrir o bien
— que la extracción sea con reposición, por lo que cada unidad puede salir
ninguna, una, dos o hasta n veces entre las n extracciones; o bien
— que por más que la extracción sea sin reposición, el tamaño muestral sea
muy inferior al poblacional (n << N ), de modo que si bien cada unidad que
se extrae y no se repone modifica la distribución de frecuencias sobre la que
se muestrea, tal efecto sea prácticamente inapreciable y resulte despreciable
en la práctica.
En cualquiera de estos casos podemos pensar en que observaremos n variables aleato-

rias independientes y con idéntica distribución (v.a.i.i.d.) X1 , X2 , . . . , Xn (que también
puede representarse como un vector X ~ = (X1 , X2 , . . . , Xn ), y que denominamos la
3
muestra aleatoria .
2
Nótese que aun si la precisión fuera infinita, habiendo una cantidad finita de unidades poblaciones,
la variable aleatoria que se mide es de todos modos discreta, sin importar que se trate de una magnitud
«continua» como la estatura (si acaso cabe hablar de algo continuo en un universo cuantizado).
Es decir que con la precisión suficiente tal vez las cien estaturas tengan valores diferentes, pero de
todos modos se tendrá una variable aleatoria discreta que tendrá por rango al conjunto de esas cien
1
estaturas diferentes y su función de probabilidad le asignará probabilidad 100 a cada valor del rango.
En contextos como este, las variables aleatorias continuas son una buena y necesaria aproximación
al fenómeno real, ya que permiten un análisis mucho más simple y profundo tal vez que la propia
distribución exacta; pero no por eso dejan de ser una aproximación a la distribución real que es, como
dijimos, discreta.
3
El procedimiento de seleccionar sucesivamente elementos de la población de forma tal que en
cada repetición todas las unidades poblacionales tengan la misma probabilidad de ser elegidas (el
equivalente a un sorteo donde todos/as los/as participantes tienen un solo número y no se direcciona
el resultado mediante ningún mecanismo de fraude) se denomina muestreo aleatorio simple (M.A.S.) o
muestreo simple al azar (M.S.A.). En particular, se puede distinguir entre M.A.S. con y sin reposición.
En lo sucesivo, salvo aclaración en contrario, cuando hablamos de una muestra aleatoria se sobreen-
tiende que fue generada o por un experimento de laboratorio controlado que garantiza la independencia
y la idéntica distribución entre las variables que conforman la muestra, o que se extrajo una muestra
de una población finita mediante M.A.S. con reposición (o al menos bajo la condición n << N ). Sin
embargo, el muestreo en poblaciones finitas puede realizarse de maneras mucho más elaboradas que
no analizamos en estas notas pero que pueden ser preferibles por diversos motivos teóricos y prácticos
(muestreo sistemático, muestreo estratificado, muestreo por conglomerados, etc.).
7.1.2. Modelos estadísticos paramétricos y no paramétricos.

El conocimiento previo aunque incompleto de la población de estudio suele permi-
tir hacer ciertas hipótesis sobre la distribución de probabilidad subyacente. En muchos
casos puede decirse con razonable certeza que la distribución de la variable o caracterís-
tica de estudio sigue una cierta distribución aleatoria con función de distribución F (t),
pero de la que solo se sabe que pertenece a determinado conjunto F de distribucio-
nes. Esta determinación del conjunto de posibles distribuciones de la variable aleatoria
resulta en el planteo de lo que se denomina un modelo estadístico. En el caso de que
cada distribución del conjunto o familia F se pueda identificar unívocamente fijando
los valores de una cantidad finita de parámetros, se dice que el modelo es paramétrico
(por ejemplo, si decimos que F es el conjunto de las distribuciones normales con cual-
quier media y varianza); de lo contrario, es un modelo no paramétrico (por ejemplo, si
decimos que F es el conjunto de las distribuciones simétricas con mediana igual a 0).
En lo que sigue abordamos modelos paramétricos y estudiamos el problema de la
estimación paramétrica puntual. Para precisar conceptos: suponemos que la muestra
aleatoria X1 , X2 , . . . , Xn —es decir, las n v.a.i.i.d— se obtienen de manera que su
distribución es una (la misma para todas) entre las varias distribuciones del conjunto
F, las cuales solo se diferencian en el valor de un parámetro θ. Podemos simbolizar
esto como
Xi ∼ Fθ (t), θ ∈ Θ ⊂ Rp .
Como se observa, suponemos para mayor generalidad que θ puede ser un vector p-
dimensional, lo que permite pensar que el modelo tiene más de un parámetro. El
conjunto Θ se denomina espacio paramétrico (es el conjunto de los posibles valores
del parámetro) y p es la cantidad de parámetros del modelo (es decir, la cantidad de
componentes de θ).
Ejemplo 25. Si suponemos el modelo
F = {F (t) : F es una distribución normal},
podemos suponer que θ = (µ, σ 2 ) y que el espacio paramétrico es Θ ⊂ R2 (porque hay
dos parámetros), donde
Θ = {(µ, σ 2 ) ∈ R2 : σ 2 > 0},
es decir, la mitad superior del plano coordenado (sin contar el eje horizontal).
Como el supuesto es de normalidad, las funciones F(µ,σ2 ) ∈ F son de la forma
Z t
1 1 2
F(µ,σ2 ) (t) = √ e− 2σ2 (x−µ) dx,
2πσ 2
−∞
y si se fija un valor para µ ∈ R y otro para σ 2 > 0, ello determina completamente la

Una vez definido entonces un modelo paramétrico, el problema de seleccionar una

distribución del conjunto F para modelizar la variable de análisis se reduce a elegir
un valor para el parámetro θ dentro del espacio paramétrico Θ. Este es el problema
estadístico de la estimación puntual. Esto es, en base al modelo planteado, una vez
obtenida una muestra aleatoria: ¿cómo usar dichos datos para dar una estimación
razonable de los parámetros poblacionales, lo que equivaldrá a seleccionar una entre
todas las distribuciones posibles? ¿En base a qué criterios se puede evaluar la calidad
de dichas estimaciones y cómo se puede decidir entre procedimientos alternativos?
7.2. Estimadores puntuales. Propiedades deseables.

Dicho todo esto, entendemos que la estimación consiste en realizar algún cálculo con
los resultados de la muestra y obtener un valor numérico que será nuestra estimación
del parámetro θ en cuestión. En principio solo cabe una restricción obvia sobre dicho
cálculo: si θ es desconocido no puede usarse su valor en ningún cálculo. Por eso definimos
el concepto de estimador θ̂ del parámetro θ como cualquier función h(X1 , . . . , Xn ) que
no dependa del valor de θ.
7.2.1. Distribución de un estimador. Características relevantes

y propiedades deseables
Dado que el estimador θ̂ = h(X1 , . . . , Xn ) es una función de la muestra aleatoria,
es claro que es en sí mismo una variable aleatoria (discreta, continua o de cualquier
tipo), con una correspondiente distribución de probabilidad; en particular podrá te-
ner (o no) definida una esperanza, una varianza y otros momentos de orden superior
—posiblemente incluso su FGM esté bien definida—, y tendrá sentido hablar de su
mediana, moda, percentiles, etc. Estas características de su distribución son relevantes
a la hora de apreciar sus propiedades y «bondades» como estimador del parámetro fijo
(no aleatorio, pero desconocido4 ) θ.
En particular, resultan relevantes:
4
Esta caracterización de la noción de parámetro, la de un valor desconocido que sin embargo
se considera bien definido como un valor constante, no como una variable aleatoria, es propia del
denominado «enfoque clásico» de la inferencia estadística. Como se verá en el capítulo 10, el «enfoque
bayesiano» se caracteriza en cambio, fundamentalmente, por interpretar los parámetros desconocidos
como variables aleatorias, a las que se puede asignar por lo tanto una distribución de probabilidad (en
función de alguna noción de probabilidad aplicable al problema de inferencia en cuestión).
Medidas de tendencia central : indican en torno a qué valores caerán las realiza-
ciones de θ̂ si se usa varias veces ese estimador para diferentes muestras, ya sea
que pensemos en los valores de mayor probabilidad o densidad (valores modales
o modas), los que separan cantidades iguales de observaciones (por ejemplo las
mayores y las menores, como la mediana), el valor que aparece como promedio
de muchas repeticiones (la media o esperanza), etc.
Medidas de dispersión: indican si las reiteradas estimaciones realizadas con θ̂
presentarán valores similares o cercanos a los valores centrales, o si por el contrario
habrá gran variabilidad.
Medidas directas del error de estimación: son cuantificaciones basadas en la di-
ferencia θ − θ̂, que indica el error cometido si se toma la estimación θ̂ como valor
aproximado del parámetro desconocido θ. En general existen varias maneras de
obtener un valor que represente la situación genérica, entre las cuales se desta-
can especialmente el error cuadrático medio o ECM (ver más adelante), el error
absoluto medio, el error mediano absoluto, etc.
Es claro que el error debería ser pequeño, que las estimaciones deberían distribuirse
en torno al valor verdadero y que sería interesante que lo hicieran con poca dispersión.
El inconveniente es que en la mayoría de los casos relevantes algunas de estas propie-
dades suelen ir en detrimento de las otras. Por ello, llamaremos propiedades deseables a
las «buenas» propiedades de un estimador, aun cuando no se las pueda considerar esen-
ciales. Es decir que no serán en general propiedades irrenunciables, a veces ni siquiera
serán alcanzables: pero basta con pensar que entre la posibilidad de que se verifiquen o
no se verifiquen, si eso no obliga a cambiar nada más, sin dudas elegiríamos que dichas
propiedades estén presentes.
En los próximos apartados estudiamos algunas de ellas, muchas de las cuales están
claramente motivadas en la discusión que antecede.
Propiedades en muestras finitas
Mencionamos a continuación algunas propiedades que pueden definirse para valores fijos
de n. En general si se hace un análisis para n ∈ N genérico, usualmente la propiedad se
verifica para cada valor posible de n o para ninguno, aunque si solo fuera cierta para
algunos valores bastaría con dicha aclaración.
Empezamos con una definición que no se refiere en sí a la distribución de probabi-
lidad de θ̂, sino a su forma funcional.
Definición 25 (Linealidad). Un estimador basado en la muestra X1 , . . . , Xn se deno-
~ ni del parámetro
mina lineal si existen constantes α0 , α1 , . . . , αn no dependientes de X
a estimar5 θ tales que

θ̂ = α0 + α1 X1 + · · · + αn Xn .

Ejemplo 26. La media muestral basada en n observaciones, es decir

n
1X 1 1 1
X̄n = X k = X 1 + X 2 + · · · + Xn
n k=1 n n n
es un estimador lineal, donde

α0 = 0
y
1
.
α1 = α2 = . . . = αn =
n
(Notar que los coeficientes αk pueden depender de n; la linealidad vale porque no
dependen de ningún parámetro poblacional desconocido ni de las propias variables
aleatorias Xk ).
Ya mencionamos antes que —en términos de medidas de tendencia central— sería

deseable que la distribución de θ̂ estuviera concentrada en valores cercanos a θ, y que
esto ocurriera con una baja dispersión: la intuición indica que en esas condiciones hay
alta probabilidad de que θ̂ devuelva valores cercanos al parámetro buscado. Definimos
entonces
Definición 26 (Insesgamiento). Se dice que θ̂ es un estimador insesgado de θ sii
Eθ (θ̂) = θ, ∀θ ∈ Θ.
A la diferencia θ − Eθ (θ̂) (que se anula si y solo si θ̂ es insesgado) se la denomina sesgo

del estimador y se nota
Sesgoθ (θ̂) = θ − Eθ (θ̂).

Observación 22. Cuando se quiere indicar en la notación que los cálculos son válidos
bajo cierto valor del parámetro θ, es usual agregarlo como subíndice del operador de
esperanza, varianza, etc.
5
No obstante, pueden —y suelen— depender de n y eventualmente de otros parámetros que sean
conocidos.
Definición 27 (Eficiencia relativa y absoluta). Dados θ̂0 y θ̂1 , ambos estimadores insesgados
de θ:
Decimos que θ̂0 es más eficiente que θ̂1 sii

Varθ (θ̂0 ) ≤ Varθ (θ̂1 ), ∀θ ∈ Θ
y la desigualdad es estricta para algún valor de θ. (Si no se sabe si vale la de-
sigualdad estricta para algún valor de θ, podemos decir en todo caso que «θ̂0 es
al menos tan eficiente como θ̂1 »).
Si θ̂0 es un estimador insesgado de θ y vale que para cualquier estimador insesgado
de θ, digamos θ̂, vale
Varθ (θ̂0 ) ≤ Varθ (θ̂), ∀θ ∈ Θ,
se dice que θ̂0 es un estimador eficiente (en sentido absoluto) para θ.
Determinar que un estimador insesgado es eficiente6 (es decir el mejor entre todos
los insesgados), no es sencillo ni inmediato en general. La principal dificultad radica
en que no es posible usualmente dar una expresión general de todos los estimadores
insesgados de θ que a su vez sea útil para el cálculo de la varianza. Por ese motivo,
para probar que un estimador es eficiente se suele recurrir a determinados resultados
teóricos de los cuales el más conocido es el Teorema de Cramér-Rao (ver apartado 7.4).
Sin embargo, sí es sencillo representar a todos los estimadores insesgados y calcular
su varianza si nos restringimos a la clase de los operadores lineales. En ese caso, se
tiene la siguiente definición:
Definición 28 (Mejor estimador lineal insesgado). Sea θ̂0 un estimador lineal e inses-
gado de θ. Si para todo otro estimador θ̂ lineal e insesgado para θ vale
Varθ (θ̂0 ) ≤ Varθ (θ̂), ∀θ ∈ Θ,
se dice que θ̂0 es un estimador MELI 7 para θ.
Dicho todo esto, cabe hacer notar que estamos comparando siempre las varianzas de
estimadores insesgados. Si se desea comparar la performance de un estimador insesgado
con uno que no lo es o si se trata de dos sesgados, la situación es menos obvia, como
muestra la figura 7.1 (pág. 142). Por caso:
6
También son usuales las expresiones MEI (Mejor Estimador Insesgado) y estimador IMVU (In-
sesgado de Mínima Varianza Uniformemente).
7
Abreviatura de Mejor Estimador Lineal Insesgado. También es usual la sigla ELIO (Estimador
Lineal Insesgado Óptimo) y en inglés BLUE (Best Linear Unbiased Estimate).
p(1)=0.89 p(2)=0.16
m(1) m(2)
2.0 2.5 3.0 3.5 4.0
theta=3
p(2)=0.4
p(1)=0.21
m(1) m(2)
0 1 2 3 3.5 4 5 6
theta=3
Figura 7.1: Para θ = 3 se presentan en cada imagen las distribuciones de dos esti-
madores: en ambos ejemplos uno es insesgado y el otro tiene un sesgo igual a −0,5.
La diferencia en las varianzas afecta la performance relativa de ambos, en este caso
representada por el valor de P(|θ̂ − θ| ≤ 0,4), equivalente al área sombreada. (Aclara-
ción: las escalas verticales difieren entre ambas imágenes —y también las horizontales,
desde ya—, por lo cual solo son comparables las áreas dentro de un mismo gráfico; para
referencia es útil recordar que el área bajo cada curva es igual a uno).
Entre un estimador insesgado con varianza «grande», y otro sesgado con varianza
muy «chica» —eventualmente nula— es posible que resulte mejor el primero
(imagen superior): el segundo tiene su densidad muy concentrada alrededor de su
media, que no es el valor que se busca estimar. El primero, en cambio, apunta en
la dirección correcta, y si bien tiene bastante dispersión, al menos puede a veces
caer más cerca de θ que el que casi sistemáticamente toma valores lejanos.
Sin embargo, esto tampoco implica que el insesgamiento sea una condición sine
qua non: un estimador insesgado pero con demasiada dispersión tal vez falla por
mucho y mucho más frecuentemente que uno que tiene un pequeño sesgo y una
varianza relativamente baja (imagen inferior).
Definición 29 (Error cuadrático medio). Se define el error cuadrático medio del esti-
mador θ̂ para el parámetro θ como
ECMθ (θ̂) = Eθ (θ − θ̂)2 .

Desde ya, el ECM es una medida razonable de la precisión de un estimador pero en

parte es arbitraria: ¿por qué elevar las diferencias al cuadrado y no tomar el módulo
simplemente?; ¿por qué promediar con la esperanza en lugar de tomar la mediana... o
la moda?; ¿tienen sentido algunas de estas alternativas si el problema obligara a acertar
la estimación dentro de cierto margen porque las consecuencias de cualquier error por
exceso o defecto más allá de determinado valor se consideraran igual de graves?
Debe entenderse entonces que el ECM es apenas una entre tantas posibilidades.
El criterio del mínimo ECM es eso: un criterio; decide que se preferirá entre dos
estimadores aquel que tenga menor ECM para todo valor de θ. De hecho, dado
θ̂0 , si existe θ̂ tal que
ECMθ (θ̂0 ) ≥ ECMθ (θ̂), ∀θ ∈ Θ,
y si la desigualdad es estricta para al menos un valor de θ, entonces θ̂0 se dice inadmisible
(según el criterio del ECM).
Nótese que el ECM no es igual a la varianza: en un caso medimos distancia del
estimador a E(θ̂) y en otro directamente a θ. Solo si θ̂ es insesgado aquellos valores
coinciden y el ECM es igual a la varianza. De hecho, vimos que la comparación de esti-
madores insesgados podía hacerse razonablemente con la varianza, por lo que el ECM
resulta en realidad una generalización de dicho criterio. Efectivamente, si no estamos
comparando estimadores que sean todos insesgados, el ECM resulta una herramienta
más general para comparar las performances relativas de los mismos (tomando como
regla que se prefieren aquellos de menor ECM).
Teniendo en cuenta lo anterior, resulta interesante reexpresar el ECM teniendo en
cuenta que
2
2
ECMθ (θ̂) = Eθ (θ − θ̂) = Eθ θ − Eθ (θ̂) − θ̂ − Eθ (θ̂) =
2 2
= Eθ θ − Eθ (θ̂) + Eθ θ̂ − Eθ (θ̂) − 2Eθ θ − Eθ (θ̂) θ̂ − Eθ (θ̂) .
Y teniendo en cuenta que el tercer término es cero (se sugiere justificarlo en detalle
como ejercicio), podemos decir que
ECMθ (θ̂) = Sesgo2θ (θ̂) + Varθ (θ̂).
Esta fórmula no solo es útil en el cálculo, sino que conceptualmente reafirma las ideas
que comentamos sobre cómo un sesgo y una varianza pequeños colaboran a mejorar la
estimación y tanto esta como aquel deben ser tenidos en cuenta.
Propiedades asintóticas
Se denominan propiedades asintóticas a aquellas que no se pueden analizar para

un valor fijo de n, sino que dependen del comportamiento «del estimador» en el límite
para n → ∞. En realidad, no se puede hablar en estos casos técnicamente de «un»

estimador: cuando hablamos de la media muestral X̄, por caso, nos podemos estar
refiriendo a cualquiera de los siguientes estimadores:
X1 + X2 1
X1 , , (X1 + X2 + · · · + X10 ), etc.
2 10
Se trata de diferentes cálculos y por lo tanto diferentes estimadores, al punto de que a
veces es usual distinguirlos como X̄1 , X̄2 , X̄10 , etc.
Sin embargo, hecha o no esta distinción, se sobreentiende en general que el primero
se usará cuando n = 1, el segundo cuando n = 2 y el tercero cuando n = 10 (hacer
otra cosa resultaría o bien imposible —por ejemplo, si n = 3 no tiene sentido hablar
de X̄10 —, o bien un desperdicio de información muestral —como usar X̄2 para una
muestra de tamaño n = 5—).

En realidad, podemos pensar a X̄ ≡ X̄n n∈N como una sucesión de estimadores
X̄1 , X̄2 , X̄3 , . . . , X̄n , . . .
donde cada uno se aplica a un tamaño de muestra distinto. Este es el concepto que
analizaremos en este apartado.
La primera propiedad asintótica que mencionamos es un «second best» para la
propiedad de insesgamiento. Si el sesgo no es nulo, pero tiende a cero con n → ∞ ,
entonces para n suficientemente grande dicho sesgo resultará despreciable.
Definición 30 (Insesgamiento asintótico). Decimos que la sucesión de estimadores θ̂n

es asintóticamente insesgada para θ sii
Eθ (θ̂n ) −−−−→ θ, ∀θ ∈ Θ.
n→∞
Definición 31 (Consistencia). Decimos que la sucesión de estimadores θ̂n es consis-

tente para θ sii
P
θ̂n −→ θ, ∀θ ∈ Θ;
es decir, si
∀ε > 0, P(|θ̂n − θ| ≤ ε) = P(θ − ε ≤ θ̂n ≤ θ + ε) −−−−→ 1.

n→∞

Dado que la definición de consistencia involucra el límite en probabilidad, a veces es

posible probar consistencia a través de resultados como la Ley de los Grandes Números.
Sin embargo, resulta muy útil en general la siguiente condición suficiente (aunque no
necesaria) que puede probarse mediante la desigualdad de Tchebycheff, análogamente
a como se probó la Ley de los Grandes Números.
Propiedad 38. Si θ̂n es una sucesión asintóticamente insesgada de estimadores de θ,

simbólicamente,
Eθ (θ̂n ) −−−−→ θ;
n→∞
y además
Varθ (θ̂n ) −−−−→ 0;
n→∞
entonces θ̂n es un estimador consistente de θ.
Observación 23. La condición planteada en la propiedad 38 es equivalente a
ECMθ (θ̂n ) −−−−→ 0,

n→∞
lo cual resulta inmediato partiendo de la expresión alternativa dada para el ECM.
Ejemplo 27. Consideremos el estimador de λ de la distribución de Poisson dado por

n
n X
λ̂n = Xi
n2 + 1 i=1
(que en realidad es una sucesión de estimadores, uno para cada tamaño muestral).
Es inmediato ver que
n2 n3
Eλ (λ̂n ) = λ y Varλ (λ̂n ) = λ.
n2 + 1 (n2 + 1)2
En particular vemos que —para cada n— λ̂n es un estimador sesgado, con sesgo
λ
n2 +1
pero como el sesgo tiende a 0 o —equivalentemente— Eλ (λ̂n ) −−−−→ λ, se trata
;
n→∞
de un estimador asintóticamente insesgado.
Además, comparando los grados del numerador y el denominador, vemos que
Varλ (λ̂n ) −−−−→ 0,

n→∞
y esto prueba que el estimador λ̂n (es decir, la sucesión de estimadores) es consistente
para λ.
m(1) m(1) m(1)

1 2 2.83 4 5 2.0 2.5 2.98
3.0 3.5 4.0 2.0 2.5 3.0
3 3.5 4.0
theta theta theta
m(1) m(1) m(1)

1 2 2.83 4 5 2.0 2.5 2.98
3.0 3.5 4.0 2.0 2.5 3.0
3 3.5 4.0
theta theta theta
Figura 7.2: Área sombreada: P(θ − ε ≤ θ̂n ≤ θ + ε); de arriba a abajo ε = 0,5 y ε = 0,1;
de izquierda a derecha n = 10, n = 100 y n = 500. (Las escalas no son comparables
entre gráficos, por lo que la probabilidad representada por el área sombreada debe
interpretarse en relación al área total bajo la curva correspondiente).
Alternativamente, podemos probar la consistencia usando la LGN. El estimador λ̂n

puede reexpresarse como
n2
λ̂n = 2 X̄n .
n +1
Y como el primer factor tiende a 1 (como sucesión en R), y la LGN asegura que la
media muestral converge en probabilidad a la esperanza, sabemos que
n2 P
2
X̄n −→ 1 · E(Xi ) = λ,
λ̂n =
n +1
que nos lleva a la misma conclusión.
Para entender mejor la propiedad de consistencia conviene observar la figura 7.2

(pág. 146). En la primera fila vemos cómo una vez fijado el valor ε = 0,5, a medida
que n aumenta (de 10 a 100 y luego de 100 a 500) el área sombreada que representa la
probabilidad
P(θ − ε ≤ θ̂n ≤ θ + ε)
es cada vez mayor y es claro que tiende a 1.
Sin embargo, para ε = 0,1, ya no se alcanzan las mismas probabilidades. En reali-
dad, lo que la propiedad de consistencia garantiza es que en este caso también el límite
será 1 aunque «tardará más» en alcanzar los mismos valores que antes.
En cualquier caso, la consistencia implica que para cualquier combinación de preci-

sión (ε) y grado de confianza o credibilidad (P) deseados, existe un n a partir del cual
dicha meta queda satisfecha. Claro está que esto es en la teoría, porque el n podría ser
absurdamente grande como para llevarlo a la práctica.
7.3. Propiedades deseables de estadísticos muestrales
7.3.1. Estadísticos y estimadores.

El concepto de estadístico es análogo al de estimador. En principio un estadístico
T es una función muestral cualquiera8 T = h(X1 , . . . , Xn ) y como tal es una variable
aleatoria. El único sentido en el que es un concepto más amplio que el de estimador es
que puede depender (como función) del parámetro de interés, aunque en el estudio de la
estimación puntual nos limitaremos a los casos en que eso no ocurre. En otros ámbitos,
no obstante, los que sí dependen del parámetro desconocido resultan de utilidad y en
determinados contextos son los únicos que tiene algún interés estudiar (veremos en el
capítulo 8, por ejemplo, el concepto de pivote, y su utilidad para construir intervalos
de confianza).
Por otro lado, desde una perspectiva menos rigurosa —pero más conceptual y en-
focada en consideraciones pragmáticas—, podríamos decir que los estimadores son es-
tadísticos que (además de cumplir la condición formal de no depender del parámetro
a estimar) se estudian deliberadamente para ver si su distribución se asemeja en algún
sentido a la de los parámetros que se busca estimar (que son constantes desconocidas,
desde la perspectiva clásica). Los estadísticos son simples funciones que —además de
poder depender o no de parámetros desconocidos— surgen en un contexto donde no se
sobreentiende ni se espera que su distribución los lleve a tomar con alta probabilidad
valores cercanos al parámetro a estimar; en general se entienden (y es válido) más bien
como los bloques en los que se basa la construcción de estimadores. Por eso el insesga-
miento, la consistencia o la eficiencia se ven como propiedades de estimadores, mientras
que otras como la suficiencia —que estudiamos a continuación—, junto a la completi-
tud o la robustez (entre otras que no analizaremos en estas notas), son propiedades de
los estadísticos que repercutirán sobre los estimadores que con ellos se construyan.
8
Para ser más precisos, T = h(X1 , . . . , Xn ), donde por ejemplo
h : R n → Rm
si la muestra es de tamaño n y las variables toman valores reales; m puede ser un número natural
cualquiera, mayor, igual o menor que n. Esto permite pensar a varios estadísticos como uno solo (es
decir, un vector de estadísticos) cuando es conveniente.
Como metáfora muy pero muy simplista, si pensamos en una casa y en los ladri-
llos usados para su construcción, encontramos que ciertas propiedades corresponden a
la casa como un todo, como producto final (y tales propiedades resultan de factores
tan variados como los materiales, las técnicas y prácticas de construcción utilizadas,
decoraciones, oportunidad... ¡un poco de buena suerte, por cierto!); y algunas otras
son propiedades específicas de los materiales de construcción, como los ladrillos. Unos
ladrillos débiles o mal formados darán lugar a una construcción débil e inestable casi
con seguridad. En cambio, unos ladrillos resistentes bien usados daran una estructura
resistente a la casa; aunque mal usados, en cambio, podrían ser inútiles.
7.3.2. Estadísticos suficientes

Un estadístico T = t(X1 , . . . , Xn ) se dice informalmente en la enseñanza estadística
que es suficiente si «conserva toda la información de la muestra». Es decir, si tenemos
una medida de la información que una muestra otorga sobre cierto/s parámetro/s, un
estadístico T será suficiente si tiene el mismo valor para dicha información que el que
tiene el estadístico S = (X1 , . . . , Xn ), es decir, la muestra sin ninguna transformación.
El estudio de una definición de información en tal sentido lo haremos en la siguiente
sección. Sin embargo, se puede dar una definición razonable que en cierto sentido es
independiente de qué medida de información se utilice.
Definición 32. Dada una muestra aleatoria X ~ = (X1 , . . . , Xn ) de una familia de

distribuciones Fθ , se dice que T = t(X1 , . . . , Xn ) es un estadístico suficiente para θ sii
fX|T
~ =τ (~
x)
no depende de θ (es decir, es constante como función de θ). Esta definición aplica al
caso en que X~ es un vector absolutamente continuo; la definición es en términos de
pX|T ~
~ =τ si el vector X es discreto.
Esta definición tiene el siguiente sentido: en general, si la distribución subyacente

depende de θ, la distribución conjunta de la muestra también lo hará; y posiblemente
entonces, otras distribuciones conjuntas basadas en X, ~ así como las condicionales,
podrían depender de θ.
Al condicionar para T «muy genérico», por ejemplo, T igual a toda la muestra, está
claro que la distribución se vuelve trivial y no depende de θ. En otras instancias menos
evidentes, es intutivo pensar que incluso si T no es toda la muestra tal vez puede ser
suficiente para extraer de esta toda la información relevante que la misma contiene sobre
el parámetro. Sin embargo, es claro también que si se descarta demasiado de lo que
a simple vista dice la muestra, eventualmente se empieza a perder información: como
ejemplo extremo, pensemos en un estadístico «constante» (es decir, que en realidad

no depende de la muestra, sino que se fija en un valor), por ejemplo T = 3, este no
tiene nada de la «información» de la muestra original. Y en términos de la definición,
la distribución de fX|T
~ =τ (~
x) será simplemente la distribución marginal sin condicionar
(fX~ (~x)), que depende de θ en la misma medida tanto antes como después de condicionar
a T.
En general, el cálculo de
fX|T
~ =τ (~
x)
no es sumamente complejo pero requiere de cierto trabajo. Sin embargo, supongamos
que la densidad conjunta de la muestra tiene la forma
fX~ (~x; θ) = h(~x) · g(t(~x); θ), (7.1)
es decir, un producto de dos factores: el primero, uno que no depende de θ y tal vez sí
de la muestra; el segundo puede depender de θ pero si depende de la muestra esto solo
ocurre por medio de t(~x).
Ahora bien,
fXT
~ (~ x, τ ; θ) f ~ (~x, τ ; θ)
fX|T
~ =τ (~
x; θ) = = R XT
fT (τ ; θ) f ~ (~x, τ ; θ) d~x
Rn XT
En estas condiciones, si suponemos t(~x) = τ , resulta fXT ~ (~x, τ ; θ) = h(~x) · g(τ, θ), por
lo que
h(~x) · g(τ, θ) h(~x)
fX|T
~ =τ (~x; θ) = R =R .
Rn
h(~x) · g(τ, θ) d~x Rn
h(~x) d~x
Por otro lado, si t(~x) 6= τ , entonces fXT
~ (~
x, τ ; θ) = 0 y también se anula fX|T
~ =τ (~
x).
En cualquier caso se tiene que
fX|T
~ =τ (~
x; θ)
en realidad no depende de θ.9

Más aún, la proposición recíproca también es cierta, por lo que en realidad la ecua-
ción (7.1) da una caracterización equivalente (aunque tal vez mucho más críptica) de
la noción de suficiencia, en base a cierta descomposición de la densidad. Este resultado
se conoce como Teorema de Fisher-Neymann.
9
Si se quiere entrar demasiado en el detalle de los cálculos se observa una dificultad técnica: la
distribución conjunta de X~ y T es una distribución degenerada, ya que si bien corresponde a n + 1
variables aleatorias, por definición estas cumplen en forma exacta la ecuación T = t(X1 , . . . , Xn ),
por lo que la densidad se encuentra acumulada en un conjunto de dimensión n o menos (pensar por
ejemplo en una densidad bivariada que se acumula sobre los puntos de una recta o una circunferencia).
Teorema 13 ([de factorización] de Fisher-Neyman). El estadístico T = t(X) ~ es sufi-

ciente para θ si y solo si existen funciones no negativas g y h tales que la densidad (o
probabilidad) conjunta de la muestra puede expresarse como

fX~ (~x; θ) = g t(~x); θ · h(~x).
Ejemplo 28. Supongamos que contamos con una muestra X1 , . . . , Xn proveniente de

una distribución N (µ, σ 2 ). Usando el teorema de Fisher-Neyman podemos probar que
el estadístico bidimensional X X
T = Xk , Xk2
es suficiente para µ y σ 2 (o dicho de otro modo, para el parámetro bidimensional

(µ, σ 2 )).
La densidad conjunta de la muestra es
1 1 2 1 1 2
fX~ (x1 , . . . , xn ) = √ e− 2σ2 (x1 −µ) · . . . · √ e− 2σ2 (xn −µ) =
2πσ 2 2πσ 2
1 Pn 1 Pn Pn
= (2πσ 2 )− 2 · e− 2σ2 ( xk +µ2 )
n 2 n x2k −2µ
= (2πσ 2 )− 2 · e− 2σ2 k=1 (xk −µ) k=1 k=1 .

7.4. Información de Fisher

Dado un vector aleatorio X ~ con función de densidad10 conjunta f ~ (x1 , ..., xn ; θ) (es
X
decir, con distribución en una familia de distribuciones parametrizada por θ) se define
la cantidad de información de Fisher de X ~ para θ como
2
∂
IX~ (θ) = E ln fX~ (X1 , ..., Xn ; θ) (7.2)
∂θ
siempre que la derivada en cuestión exista.
Puede probarse que esto es equivalente (si también existe la derivada segunda) a
2
∂
IX~ (θ) = − E ln fX~ (X1 , ..., Xn ; θ) (7.3)
∂θ2
que en muchos casos conlleva cálculos más simples.
10
Si el vector es discreto valen las mismas expresiones usando la función de probabilidad puntual
en lugar de la función de densidad.
En el caso típico de una muestra aleatoria X, ~ es decir, cuando X1 , ..., Xn son

v.a.i.i.d., todas con densidad fX (x; θ), se puede trabajar directamente con dicha den-
sidad marginal fX y la ecuación (7.2) puede reexpresarse como
2
∂
IX~ (θ) = n · E ln fX (X; θ) (7.4)
∂θ
y la ecuación (7.3), como
∂2

IX~ (θ) = −n · E ln fX (X; θ) . (7.5)
∂θ2
Estas expresiones se prueban fácilmente mediante la siguiente propiedad: si X e Y

son variables aleatorias independientes (con distribuciones no necesariamente idénticas,
pero ambas dependientes del parámetro θ), entonces
I(X,Y ) (θ) = IX (θ) + IY (θ).
Así, en el caso en cuestión de una muestra aleatoria, la multiplicación por n en la

ecuación (7.4) y en la ecuación (7.5) surge de sumar (pues se supone independencia)
las n informaciones de las Xi , que son todas iguales (por tener la misma distribución).
Es interesante notar que, en términos del cálculo, la expresión

∂
ln fX~ (X1 , ..., Xn ; θ)
∂θ
surge frecuentemente también al buscar el estimador de máxima verosimilitud de θ
(ver apartado 7.5); de hecho se trata, aunque con un sentido distinto11 , de la derivada
de la log-verosimilitud (l0 (θ)). Con esta idea en mente —detalles conceptuales aparte
y haciendo cierto abuso de notación12 — la ecuación (7.2) y la ecuación (7.3) podrían
resumirse como
IX~ (θ) = E l0 (θ)2 = − E (l00 (θ) ,

(7.6)
11
La diferencia técnica es que la función de verosimilitud se piensa para una muestra ya realizada
u observada (aun si se la expresa para valores genéricos x1 , ..., xn ), es decir L(θ; x1 , ..., xn ), y es por
lo tanto un valor constante para cada valor de θ —o sea, una función no aleatoria de θ—; en el
cálculo de la información de Fisher, en cambio, la verosimilitud (así como su logaritmo, la derivada
de este, etc.) deben evaluarse en la muestra no realizada, y por lo tanto es para cada θ una variable
aleatoria L(θ; X1 , ..., Xn ). Si no fuera así, por cierto, no tendría sentido el operador E de la esperanza
matemática en expresiones como las de la ecuación (7.6).
12
Una expresión como E l0 (θ)2 no refleja el hecho de que se está tomando la esperanza de una
∂
2
variable aleatoria, lo que sí es claro en E ∂θ ln fX~ (X1 , · · · , Xn ) . Sin embargo, hecha esa aclaración,
las dos expresiones resultan equivalentes.
por lo que cuando se desea calcular IX~ (θ) así como hallar el estimador de máxima vero-
similitud θ̂M V , parte del procedimiento es redundante y pueden abreviarse los cálculos.
7.4.1. Interpretación de la definición

Para tener una idea intuitiva de por qué la definición dada en la ecuación (7.2) y en
la ecuación (7.4) tiene sentido como medida de la cantidad de información que X ~ oX
pueden dar acerca del valor desconocido θ al observarlas, es conveniente ir construyen-
do la fórmula paso a paso. Por simplicidad, consideremos el caso de una sola variable
observada X que arroja un valor x.
Si calculamos la densidad (o la probabilidad puntual, según el caso) del valor ob-

servado x de la variable aleatoria X para valores alternativos de θ, es decir,
fX (x; θ),
podemos concluir que el valor de X que se obtuvo tiene más sentido al suponer valores
de θ que dan una densidad o probabilidad puntual alta; en cambio, debemos pensar que
ocurrió un suceso muy extraño o inesperado si suponemos otros valores de θ (aquellos
que impliquen que el suceso {X = x} tenía muy baja probabilidad o densidad).
Por ejemplo: si se sabe que X ∼ P(λ) y se desconoce la esperanza λ de la distri-

bución, al observar el valor x = 10 sería poco razonable suponer que la esperanza es
λ = 3 o λ = 100, ya que en el primer caso la probabilidad de obtener x = 10 sería
apenas pX (10) = 0, 0008 (muy pequeña en relación a otros valores posibles) y en el
segundo caso pX (10) ' 0; en cambio, λ = 8, 5 no sería una estimación insostenible
(pues en ese caso pX (10) = 0, 11); y si alguien afirmara que λ = 10 o algún valor muy
cercano, no podríamos refutar esa afirmación —al menos no en base a que se observó
x = 10— dado que en realidad con λ = 10 se obtiene el máximo valor posible de pX (10)
(pX (10) = 0, 125). De hecho, en esta línea de razonamiento se basa la estimación por
el método de máxima verosimilitud.
Sin embargo, aun cuando el análisis de pX (10) para diferentes valores de λ puede ser
útil para obtener una estimación λ̂, esto no da una idea inmediata de qué tan precisa
es esa estimación.
Ahora bien, si calculamos

∂
ln fX (x; θ)
∂θ
(valor que suele denominarse score de θ) o bien, en nuestro ejemplo,
∂
ln pX (10; λ),
∂λ
obtendríamos una cierta medida de la sensibilidad de pX (10; λ) a cambios en λ para el
valor observado.
Para entender esto, recordemos en primer lugar que la derivada del logaritmo de
una función da un valor aproximado de la variación relativa (o porcentual, si se la
piensa multiplicada por 100 %) por cada unidad que aumenta la variable respecto de
la que se deriva. Es decir, en nuestro ejemplo, si pasamos de evaluar la probabilidad de
nuestra observaciónsuponiendo λ0 a calcularla para λ1 = λ0 + ∆λ, la variación relativa
∆pX (10;λ0 )
de la probabilidad pX (10;λ0 ) se puede aproximar mediante la fórmula
∆pX (10; λ0 ) pX (10; λ1 ) − pX (10; λ0 ) ∂

= ≈ ln pX (10; λ) · ∆λ.

pX (10; λ0 ) pX (10; λ0 ) ∂λ λ=λ0
Si esta variación de pX (10; λ) fuera muy chica al pasar —por ejemplo— de λ0 = 7, 5

a λ1 = 8 podríamos decir que la observación que obtuvimos de X nos da poca informa-
ción para distinguir entre una opción y la otra; de hecho, más allá de que para λ = 8 el
valor de pX (10; λ) sería mayor que para λ = 7, 5, si la variación fuera muy pequeña una
estimación no sería mucho más confiable que la otra. En cambio, si al pasar de λ = 7, 5
a λ = 8 la probabilidad pX (10) aumentara —digamos— un 50 % (una variación relativa
de 0, 5), ante ambas alternativas no dudaríamos en elegir la segunda: el valor observado
x = 10, en tal caso, nos habría dado mucha información para distinguir entre ambos
posibles valores de λ.13
Sin embargo, al analizar qué tanto nos puede llegar a decir sobre λ el hecho de obser-
var la variable X, en lugar de cuantificar la información que nos da un caso particular
ya observado (en nuestro ejemplo, x = 10), se debería analizar una situación genérica
13
A fines comparativos, cabe mencionar que en este ejemplo la variación relativa de pX (10) al pasar
de λ = 7, 5 a λ = 8 es de un nada despreciable 15, 6 %; el score evaluado en λ = 7, 5 es 13 , que
multiplicado por ∆λ = 0, 5 da un valor razonablemente aproximado de 16 , es decir, un 16, 7 %.
Desde ya, cuanto menor sea ∆λ, más precisa tiende a ser la aproximación. Por ejemplo, la variación
relativa de λ = 7,5 a λ = 7,6 es 3,298 %, y la aproximación daría 13 · 0,1 ' 3,33 %.
e impredecible; una situación aleatoria en la que lo único que se conoce de X, en lugar

de un valor específico que se observó, es su distribución de probabilidad. Es por esto
∂
que se considera el valor aleatorio ∂λ ln pX (X; λ), que es previo a la observación de X
y dependerá —por lo tanto— del valor x efectivamente observado en cada caso.
En este sentido, la cantidad de información de Fisher busca extraer de esta última

expresión —que es una variable aleatoria— un valor no aleatorio que resuma la dis-
tribución de los scores y solo dependa del valor verdadero (aunque desconocido) del
parámetro a estimar.
Podría suponerse, por ejemplo, que una buena medida de resumen sería tomar sim-
plemente la esperanza de los scores; sin embargo, como las variaciones relativas de fX o
pX pueden ser tanto positivas como negativas, al tomar la esperanza habrá cierta cance-
lación. De hecho, puede probarse que, en condiciones muy generales, dicha cancelación
es exacta y la esperanza de los scores es igual a 0. Es por esto que interesa transformar
los scores de manera que sean siempre positivos antes de tomar su esperanza: la opción
elegida para la definición de IX (θ), como es frecuente, es elevar al cuadrado los scores
antes de calcular su esperanza, es decir, calcular su momento de orden 2 (de hecho, su
varianza, ya que tienen esperanza nula). A saber:
2
∂
E ln pX (X; λ) .
∂λ
Es decir que para un valor determinado de λ (aunque desconocido), el valor observado

X = x daría a veces mucha información (entendida esta como el cuadrado del score
obtenido, que en general será función de λ) y otras veces el valor observado de X
sería poco informativo; pero la cantidad de información de Fisher nos dice cuánta
información podemos esperar en promedio acerca de λ cuando observemos el valor
obtenido mediante una realización de X.
Ejemplo 29. Para entender mejor el cálculo y las aclaraciones hechas, podemos ver
que en nuestro ejemplo anterior de una observación X a partir de una distribución de
Poisson daría
2 2
e−λ λX

∂ ∂
IX (λ) = E ln pX (X; λ) = E ln =
∂λ ∂λ X!
2 2
∂ X
=E (−λ + X ln λ − ln X!) = E −1 =
∂λ λ
E(X 2 ) E(X) λ + λ2 λ 1
= 2
− 2 + 1 = 2
−2 +1= .
λ λ λ λ λ
También puede verse la utilidad de la expresión alternativa

2
∂ ∂ X X
IX (λ) = − E ln pX (X; λ) = − E −1 = −E − 2 =
∂λ2 ∂λ λ λ
E(X) λ 1
= 2
= 2 = .
λ λ λ
Por otro lado, si se tuviera una muestra aleatoria (es decir, v.a.i.i.d.) de tamaño n,
no es necesario usar la función de probabilidad conjunta de la muestra, sino que puede
simplemente concluirse
n
IX~ (λ) = n · IX (λ) = .
λ

7.4.2. Información y eficiencia. Cota de Cramér-Rao.

Una de las principales aplicaciones de la cantidad de información de Fisher es el
análisis de la eficiencia de los estimadores insesgados. El teorema de Cramér-Rao, que
mencionamos a continuación, establece una cota inferior —la cota de Cramér-Rao—
para la varianza de los estimadores insesgados de θ basados en la muestra X1 , ..., Xn .
Esta cota inferior para la varianza de tales estimadores es, según el teorema de Cramer-
Rao, sencillamente I ~1(θ) .
X
Teorema 14 (Cramér-Rao). Dada una muestra aleatoria X ~ = (X1 , . . . , Xn ) y un

estimador θ̂, si θ̂ es un estimador insesgado de θ, entonces
1
var(θ̂) ≥ .
IX~ (θ)
Es de destacar que esta cota inferior para la varianza de un estimador insesgado de θ

es menor cuanto mayor sea IX~ (θ) y viceversa. Esto refuerza la validez de IX~ (θ) como una
posible cuantificación de la información qué se puede obtener de la muestra X1 , ..., Xn
acerca de θ, a la vez que ilumina un poco sobre el sentido de que la «información» que
una variable aleatoria puede dar sobre un cierto parámetro resulte en general función
de ese mismo parámetro: algo que a simple vista puede resultar llamativo y difícil de
interpretar.
Efectivamente, si la muestra contiene mucha información para cierto θ, la cota
de CR es chica, por lo que en teoría podrían existir estimadores insesgados de θ con
una varianza pequeña, es decir, muy precisos (aunque no siempre habrá estimadores
que alcancen dicha cota); por el contrario, si la muestra brinda poca información, eso
conlleva que la varianza de los estimadores insesgados necesariamente será grande, lo
que coincide con la idea intuitiva de que con poca información la estimación será muy
imprecisa.
La utilidad del teorema 14 es notable cuando se conoce un estimador θ̂ insesgado y
cuya varianza coincide con la cota de Cramèr-Rao, esto es:
1
E(θ̂) = θ y var(θ̂) = ~ (θ)
IX
.
En ese caso, como cualquier otro estimador insesgado tendrá varianza mayor o igual a
la cota, en particular tendrá varianza mayor o igual que la de θ̂. Esto coincide con la
definición de estimador eficiente (en el sentido de eficiencia absoluta).
Ejemplo 30. Para el caso del ejemplo 29 un estimador usual para el parámetro des-
conocido es n
1X
λ̂ = Xi = X̄n
n i=1
(ver apartado siguiente), que es insesgado para λ, ya que
n
! n
! n n
1 X 1 X 1X 1X 1
E λ̂ = E Xi = E Xi = E (Xi ) = λ = · nλ = λ.
n i=1 n i=1
n i=1 n i=1 n
Pero además, tenemos que
n
! n
! n n
1X 1 X 1 X 1 X 1 λ
var λ̂ = var Xi = 2 var Xi = 2 var(Xi ) = 2 λ = 2 ·nλ = ,
n i=1 n i=1
n i=1 n i=1 n n
donde se tuvo en cuenta que las Xi son independientes, por lo que la varianza de la
suma es la suma de las varianzas, y que var(Xi ) = λ en la distribución de Poisson.
Como se vio también en el ejemplo 29, si se toma una muestra aleatoria de tamaño
n de una distribución P(λ), la información de Fisher es
n
IX~ (λ) = ,
λ
y esto implica que la cota de Cramér-Rao es
1 λ
CCR = = = var λ̂ .
IX~ (λ) n
Luego, como λ̂ es insesgado y su varianza coincide con la CCR, no puede existir otro
estimador insesgado de menor varianza: por lo tanto, λ es eficiente.
7.4.3. Otras propiedades de la información de Fisher

Entre otras propiedades de IX~ (θ) que suelen citarse al tratar el tema de la cantidad
de información, podemos mencionar:
~ no depende de θ.14
IX~ (θ) ≥ 0, y solo vale 0 si la distribución de X
~ es un estadístico suficiente para θ, entonces I ~ (θ) = I ~ (θ).15
Si t(X) X t(X)
~ es un estadístico cualquiera obtenido como función

Más generalmente, si g(X)
~ entonces
de X,
IX~ (θ) ≥ Ig(X)
~ (θ).
Como conclusión, mencionemos que la cantidad de información de Fisher es una de

muchas posibles cuantificaciones que se podrían definir sobre el concepto vago de cuánta
información una muestra puede brindar sobre un parámetro desconocido. Es debido
a sus propiedades estadísticas (como su relación con la varianza de los estimadores
insesgados, la aditividad para vectores independientes, su relación con el concepto de
suficiencia, etc.) y a su relación con otros conceptos fundamentales (como la función
de verosimilitud), que se ha extendido su uso y aceptación en la teoría y práctica
estadística.
7.5. Métodos de estimación

Hasta ahora vimos cómo evaluar las propiedades de un estimador para determinar
si resulta útil para estimar un parámetro dado, o para elegir entre varias alternativas
disponibles la que mejor se ajuste a nuestras necesidades. Sin embargo, por evidente
que pueda parecer, todo esto presume que se dispone de dichas alternativas o al menos
de un posible estimador.
Y aún cuando puede resultar muy obvio, por ejemplo, que para estimar el parámetro
µ de una distribución normal es razonable pensar en X̄ como estimador, no siempre es
tan evidente en otras situaciones qué estimador podría tener al menos algunas de las
propiedades deseables.
14
O más precisamente, si no depende de θ con probabilidad 1.
15 ~ —si este es un estadístico suficiente— dará la misma información
Es decir, conocer el valor t(X)
que conocer la muestra completa (el valor individual de cada Xi ); la recíproca es cierta bajo ciertas
condiciones. Es llamativo que esta propiedad sea más cercana a la noción intuitiva de suficiencia que
la propia definición.
Por caso, si se quiere estimar los parámetros α y β de una distribución B(α, β) (o al

menos uno de ellos), ¿cuál sería un estimador razonable para cada uno? La dificultad en
responder a esta pregunta va de la mano de la dificultad para entender cómo influyen
en la forma de la distribución los cambios en dichos parámetros, o más aún, como
influyen en las probabilidades de obtener tal o cual muestra.
Es cierto, no obstante, que casi cualquier expresión que inventemos por definición
es un estimador, pero esto de ninguna manera significa que vayamos a poder inventar
expresiones que den estimadores mínimamente aceptables para nuestros objetivos. Por
esto es que es importante encontrar maneras de generar sistemáticamente fórmulas que
puedan funcionar como estimadores aceptables en aquellos casos en que no hay una
solución obvia.
Los denominados métodos de estimación son procedimientos sistemáticos pensados
para generar dichas expresiones y proponerlas como estimadores. Si bien en muchos
casos no es posible asegurar ninguna propiedad deseable en los estimadores resultantes
(y en otros casos solo están garantizadas algunas propiedades básicas, como la consis-
tencia), se trata de procedimientos basados en ideas razonables que tienden a generar
buenos estimadores mucho más exitosamente que lo que podría lograrse proponien-
do fórmulas arbitrarias al azar. En esta sección estudiamos dos de los métodos más
conocidos y comentamos brevemente algunos otros.
7.5.1. Métodos de momentos

En la unidad anterior vimos que bajo condiciones bastante generales la media mues-
tral converge a la media poblacional en probablidad, lo que se conoce como «ley de los
grandes números». Así, si tuviéramos —como en los ejemplos previos— una muestra
de tamaño arbitrariamente grande de una distribución P(λ), dado que E(Xi ) = λ en
este caso, vale
P
X̄n −→ E(Xi ) = λ.
Esto sugiere que X̄n es un estimador razonable de λ, ya que al menos resulta consistente:
para tamaños de muestra grandes, el sesgo será pequeño al igual que su varianza, por
lo que se tendrá un bajo ECMλ (X̄). Por cierto, vimos en el apartado anterior que este
estimador de λ es en particular insesgado y eficiente.
También podríamos haber tenido en cuenta que E(Xi2 ) = var(Xi )+E(Xi )2 = λ+λ2 ,
por lo que, como también se vio en su momento
n
1X 2 P
X −→ λ + λ2 .
n i=1 i
Definimos entonces otro estimador λ̂, pero que cumpla

n
1X 2
X = λ̂ + λ̂2 ,
n i=1 i
a saber,
n 2
1X 2 1 1
X = + λ̂ −
n i=1 i 2 4
es decir —teniendo en cuenta que la estimación debe tomar valores positivos—,
v
u n
u1 1 X 1
λ̂ = t + Xi2 − .
4 n i=1 2
Entonces, es inmediato ver que por continuidad

v s
u n r 2
u1 1 X 1 P 1 1 1 1
2 2
λ̂ = t + Xi − −→ + (λ + λ ) − = λ+ − = λ,
4 n i=1 2 4 2 2 2
y este estimador también resulta consistente.

En general, llamamos estimador de momentos de θ a todo estimador θ̂ que verifique
p relaciones de la forma
n
1X k
X = E(X k )|θ=θ̂ ,
n i=1
si θ es un parámetro p-dimensional.
Ejemplo 31. Como se explicó en la primera sección, considerar que la dimensión (la
cantidad de componentes) de θ es mayor a 1 permite abarcar también los casos en que
hay dos o más parámetros desconocidos que se busca estimar simultáneamente.
Si por ejemplo tenemos una muestra aleatoria de tamaño n de una distribución
Γ(α, λ), los estimadores de momentos α̂M y λ̂M deben cumplir dos ecuaciones como las
que ya vimos. Es usual usar los momentos de orden más bajo que sea posible, por lo
que en este caso planteamos
n
1X
X̄ = Xi = E(Xi )|(α,λ)=(α̂,λ̂)
n i=1
y
n
1X 2
(X 2 ) = X = E(Xi2 )|(α,λ)=(α̂,λ̂) .
n i=1 i
Esto puede resultar adecuado ya que entre estos dos momentos aparecen ambos pará-
metros al menos una vez (de hecho ambos figuran en las dos igualdades). Entonces:
α̂
X̄ =
λ̂
α̂(α̂ + 1)
(X 2 ) = .
λ̂
Y despejando se obtiene
(X 2 ) − X̄ (X 2 ) − X̄
α̂M = λ̂M = .
X̄ (X̄)2
Por supuesto, si —por ejemplo— se conociera el valor de λ, solo sería necesaria la

primera igualdad, y definiríamos
α̂M = λX̄,
pero esto no es un estimador si λ es desconocido.
Análogamente, si se conociera el valor de α, pero no el de λ, de la primera expresión
se obtendría el estimador
α
λ̂M = ,
X̄
que es válido como estimador ya que α será un valor conocido.
Ejemplo 32. No siempre es posible utilizar el primer momento cuando solo se busca
estimar un parámetro: si un momento no depende del parámetro que se busca estimar,
no será de utilidad. Consideremos por ejemplo la distribución N (0, σ 2 ); es decir, una
distribución normal en la que µ es conocido y se sabe que vale 0, pero se desconoce σ 2 .
En ese caso, podríamos intentar buscar σ̂ 2 tal que
X̄ = E(Xi )|σ2 =σ̂2 ,
pero como en este ejemplo E(Xi ) = 0, esto da un absurdo (X̄ = 0) y no define ningún
2
estimador de momentos σ̂M .
Lo usual en estos casos es pasar a un momento de orden superior, segundo orden
por ejemplo, y plantear
(X 2 ) = E(Xi2 )|σ2 =σ̂2 ,
es decir
(X 2 ) = E(Xi )2 + var(Xi ) = 02 + σ̂ 2 ,
2
= n1
P 2
de donde se obtiene el estimador σ̂M Xi .
Más en general, si se conoce el valor de µ, pero no necesariamente es 0, digamos

µ = µ0 , entonces es fácil ver que se obtiene el estimador
2 1X 2
σ̂M = Xi − µ20 .
n

7.5.2. Método de máxima verosimilitud

El método de máxima verosimilitud (MV) es uno de los métodos de estimación
puntual más populares, tanto por las buenas propiedades que suelen tener los estima-
dores que de él se derivan como por su versatilidad, ya que la idea fundamental puede
adaptarse a una enorme variedad de modelos estadísticos muchos más complejos que
el que analizamos aquí. Además, su estudio lleva naturalmente a introducir la noción
de verosimilitud —likelihood, en inglés—, omnipresente en la literatura sobre inferencia
estadística paramétrica.
Para entender la idea del método e introducir los conceptos básicos, consideremos
un ejemplo.
Ejemplo 33. Supongamos que analizamos una variable —digamos, la cantidad de
siniestros diarios denunciados por los clientes de una compañía de seguros de vivienda—
y que se concluye que puede suponerse que la cantidad de siniestros de un día dado
puede modelarse al comienzo del día como una variable aleatoria X con distribución
P(λ). Supongamos, sin embargo, que el valor del parámetro λ es desconocido.
Si se cuenta con información de tres días elegidos al azar (supongamos que los valores
obtenidos provienen de variables independientes e idénticamente distribuidas —es decir,
con el mismo valor de λ—), se entiende esto como que se realizaron tres variables
aleatorias X1 , X2 y X3 , todas con la misma distribución P(λ) e independientes.
En particular, esto implica que la función de probabilidad conjunta de las tres
variables puede obtenerse como
e−λ λx1 e−λ λx2 e−λ λx3
pX1 X2 X3 (x1 , x2 , x3 ) = pX1 (x1 ) · pX2 (x2 ) · pX3 (x3 ) = · · =
x1 ! x2 ! x3 !
e−3λ λx1 +x2 +x3
= .
x1 !x2 !x3 !
Supongamos que se obtiene una muestra que da los valores x1 = 8, x2 = 11, x3 = 6.
Podemos preguntarnos cuál es la probabilidad puntual de dicha muestra; o más preci-
samente: antes de tomar la muestra y conocer dichos valores, ¿cuál era la probabilidad
que habríamos calculado de que ocurriera lo que efectivamente ocurrió?
0.0008
likelihood
0.0000
0 5 10 15
0
log−likelihood
−5
−15
0 5 10 15
Figura 7.3: Gráfico de la función de verosimilitud L(λ) (arriba) y de log-verosimilitud

l(λ) (abajo) para el ejemplo 33. Se observa que el valor máximo es diferente en cada
caso, pero en ambos casos el máximo se obtiene en el mismo valor (λ̂ = 8,3).
El cálculo es simple: basta con evaluar la función de probabilidad conjunta en el

punto (8, 11, 6), y se obtiene
e−3λ λ8+11+6 e−3λ λ25
pX1 X2 X3 (8, 11, 6) = ≈ .
8!11!6! 1,16 · 1015
Pero entonces, resulta imposible calcular la probabilidad que tenía de ocurrir la

muestra que efectivamente obtuvimos, ya que para ello es necesario conocer —obvia-
mente— el valor de λ, que en realidad no conocemos e intentamos estimar.
Esta probabilidad de obtener la muestra que efectivamente se obtuvo es por lo tanto
una función de λ, que llamaremos función de verosimilitud y representamos como L(λ)
(L por likelihood ). Es decir, en este problema la función de verosimilitud es
e−3λ λ25
L(λ) =
A
donde A ' 1,16 × 1015 .
En la imagen superior de la figura 7.3 se observa el gráfico de L, y puede verse que
aunque los valores de L son muy pequeños, se tiene por ejemplo que L(8) > L(5). Más
aún, podemos comparar estos valores y vemos que
L(8) 1,23 · 10−3
' ' 15,6;
L(5) 7,87 · 10−5
es decir que la probabilidad de obtener la muestra (8, 11, 6) es unas quince veces mayor
si λ = 8 que si λ = 5.
Ahora bien, teniendo en cuenta que efectivamente obtuvimos la muestra (8, 11, 6)
—es decir, que este es un suceso aleatorio que ocurrió en la realidad y por lo tanto
tendría sentido suponer que no se trata de un suceso demasiado improbable—, si por
algún motivo teórico o práctico tuviéramos la certeza de que los dos únicos posibles
valores de λ en este problema son 8 y 5, ¿cuál elegiríamos como estimación?
Desde ya es mucho más razonable suponer que si la muestra (8, 11, 6) ocurrió, es
porque λ debe ser 8, y no 5, ya que en el segundo caso resultaba mucho menos probable
(o menos «esperable») que ocurriera lo que finalmente ocurrió16 .
Ahora bien, como en nuestro caso no estamos restringidos a los valores 5 y 8, sino
que podemos elegir como estimación cualquier valor λ > 0, parece razonable elegir como
estimación aquel valor que haga más probable la muestra que efectivamente obtuvimos:
el punto λ̂ donde se maximiza la función L(λ). Esta será la estimación por máxima
verosimilitud de λ para esta muestra.
La función L parece tener un solo máximo según el gráfico. Más allá de esto, sabe-
mos que L está definida sobre el intervalo (0, +∞), que es un conjunto abierto, y es
evidente (viendo su definición) que es una función C ∞ . Luego, donde haya un máximo,
necesariamente su derivada primera será igual a cero. Veamos:
1 e−3λ λ24
L0 (λ) = −3e−3λ λ25 + 25e−3λ λ24 = · (−3λ + 25)
A A
Igualando a cero, dado que e−3λ 6= 0 y que λ 6= 0, se obtiene que necesariamente
−3λ + 25 = 0,
que se cumple para λ = 25 3
. Como este es el único punto crítico y además es claro que
a la izquierda de este valor la función crece y a la derecha decrece17 , en ese punto hay
un máximo absoluto.
Sin embargo, aún en este caso sencillo los cálculos no fueron tan simples ni inme-
diatos. Pero consideremos la función que se obtiene al aplicar un logaritmo (digamos
16
Por poner una analogía más cualitativa y menos numérica. Sabemos que en verano, en la Ciudad
de Buenos Aires, es común que la temperatura máxima del día supere los 30◦ C, mientras que en
invierno esto resulta más bien excepcional, aunque no es completamente imposible. Si entonces un día
nos despertamos completamente desorientados/as al mediodía y no tenemos en ese momento noción
siquiera de en qué estación del año estamos, pero al salir comprobamos que la temperatura es superior
a los 30◦ C (en un termómetro, o simplemente lo sentimos en el cuerpo), sin dudas ante la disyuntiva
de si estamos en verano o en invierno (no habiendo más información), nos inclinaremos por la primera
opción. De todos modos, suponer que estamos en invierno (en un día excepcionalmente caluroso) no
sería totalmente incorrecto en términos lógicos: pero sí sería una hipótesis inverosímil.
17
Como L0 es una función continua y solo se anula en 25
λ = 3 , el teorema de Bolzano implica que el
25 25
signo se mantiene en el intervalo 0, 3 y en 3 , +∞ . En particular, en el primero el signo es el de,
por ejemplo, L0 (1) > 0 y en el segundo el de L0 (10) < 0, y esto implica que L es creciente en 0, 25
3
y decreciente en 25 3 , +∞ .
natural, pero no es importante la base) a L, que llamamos función de log-verosimilitud

y notamos con l(λ).
l(λ) = ln L(λ) = −3λ + 25 ln λ − ln A.
El gráfico de l aparece en la imagen inferior de la figura 7.3, manteniendo la escala y

posición del eje de abscisas igual a la del otro gráfico. Se observa que el máximo valor
de l, si bien no es el mismo que el de L (de hecho, es el logaritmo natural de este), sí se
obtiene para el mismo valor de λ. Esto tiene sentido, ya que el logaritmo natural, al ser
una función estrictamente creciente, mantiene el orden de los valores a los que se aplica:
luego, si L(5) < L(8) pero L(8) > L(10), también será cierto que ln L(5) < ln L(8) y
que ln L(8) > ln L(10), es decir, l(5) < l(8) y l(8) > l(10). Si lo pensamos para puntos
arbitrarios, esto significa que L y l tienen los mismos intervalos de crecimiento y de
decrecimiento, y por tanto también los mismos extremos relativos y absolutos.
Verifiquemos la coincidencia mencionada:
25
l0 (λ) = −3 +
λ
(ya que A es una constante), por lo que el único punto crítico de l es λ = 25
3
, y se
mantienen las mismas observaciones sobre crecimiento y decrecimiento y por qué este
resulta un máximo absoluto.
Alternativamente podríamos notar que
25
l00 (λ) = − < 0, ∀λ > 0,
λ2
lo que implica que l es una función estrictamente cóncava, es decir que si tiene un punto
crítico este corresponde necesariamente al único máximo global de la función.
En cualquier caso, las dos funciones (o cualquier otra que se obtenga mediante
transformaciones monótonas de L) sirven para buscar el punto donde se maximiza
L(λ). Sin embargo, se observa en este ejemplo —y es muy frecuente en las diferentes
situaciones prácticas y teóricas— que el cálculo de los extremos de l(λ) es mucho más
simple que el de L(λ). Y esto no es sorprendente, ya que L(λ) surgía en realidad del
producto de varias probabilidades, y derivar un producto es mucho más complicado
que derivar una suma, que es la operación que surge una vez aplicado el logaritmo.
Por todo lo dicho, resulta como estimación por máxima verosimilitud de λ para este
ejemplo el valor
25
λ̂M V = .
3

Ejemplo 34. Si ahora quisiéramos estimar λ con tres observaciones para el mismo
modelo, pero obtuviéramos una muestra diferente —digamos x1 = 7, x2 = 7 y x3 =
13— en principio deberíamos repetir todo el procedimiento hasta obtener la función
de verosimilitud
e−3λ λ27
L(λ) = ,
A
donde A es un número distinto al del ejemplo anterior pero que no influirá en el
resultado, y de allí se puede obtener λ̂M V = 27
3
= 9.
Sin embargo, para evitar repetir el procedimiento cada vez, podemos pensar en una
muestra genérica (x1 , x2 , x3 ), donde los xi ∈ N0 , y obtener la expresión del cálculo que
debemos hacer en cada caso. Esto, además, permitirá estudiar las propiedades de la
estimación por máxima verosimilitud para este modelo en particular.
Veamos:
e−λ λx1 e−λ λx2 e−λ λx3

l(λ; x1 , x2 , x3 ) = ln L(λ; x1 , x2 , x3 ) = ln · · =
x1 ! x2 ! x3 !
= −3λ + (x1 + x2 + x3 ) ln λ − ln(x1 !x2 !x3 !).
Aquí hemos escrito a l como función de λ, x1 , x2 y x3 , mientras que en el primer ejemplo
solo habíamos escrito λ: ocurre que en el primer ejemplo cada xi se reemplazaba por
un valor numérico, por lo que «desaparecía» de la expresión de L y de l. Lo cierto
es que tanto el valor del parámetro como los de las xi influyen en el valor de l, pero
mientras que cuando pensamos en un valor fijo, predeterminado, del parámetro λ y en
los valores (x1 , x2 , x3 ) como variables, la expresión anterior corresponde a la función
de probabilidad conjunta pX1 X2 X3 (x1 , x2 , x3 ), cuando hacemos lo contrario (las xi se
piensan como valores ya dados —(8, 11, 6) en el ejemplo que vimos al comienzo de esta
sección, o (7, 7, 13) en el más reciente—), la expresión queda solo en función de λ y
corresponde a la función de verosimilitud L(λ). Es decir que si tenemos en cuenta todas
las variables que influyen, en realidad
L(λ; x1 , x2 , x3 ) = pX1 X2 X3 (x1 , x2 , x3 ; λ), ∀λ > 0, ∀x1 , x2 , x3 ∈ N0 .
Hecha esta aclaración, podemos omitir las xi en la expresión de L y de l, y tenemos

x1 + x2 + x3
l0 (λ) = −3 + .
λ
Y como hay un único λ tal que l0 (λ) = 0 y la función crece a la izquierda de este valor
y decrece a la derecha, resulta
x1 + x2 + x3
λ̂M V = = x̄3 .
3

Observación 24. En el ejemplo anterior, nótese que se escribió el resultado en términos

de los valores xi y no de las variables aleatorias Xi : es decir que estamos pensando a
λ̂M V como una estimación, i.e. el valor numérico resultante de tomar una muestra y
usar los valores x1 , x2 y x3 obtenidos para calcular x1 +x32 +x3 .
Sin embargo, cuando se hace este análisis, resulta mucho más ilustrativo pensar en
esta expresión dependiendo de las variables aleatorias Xi . Si escribimos
X1 + X 2 + X3
λ̂M V = ,
3
pensando no en los valores que se obtuvieron luego de tomar una muestra, sino en los
valores que se pueden obtener (al azar), considerando que Xi ∼ P(λ) para i = 1, 2, 3; es
decir que estamos considerando a λ̂M V , ya no como un número, sino como una variable
aleatoria; en particular, como una función de la muestra que no depende de λ. En fin,
obtuvimos un estimador de λ.
La ventaja de este enfoque es que permite estudiar las propiedades de la estima-
ción realizada de esta manera, cuando aplicamos el mismo procedimiento a diferentes
muestras. Por dar un ejemplo, por propiedades de la esperanza vemos que

X1 + X2 + X3 1
E λ̂M V = E = · E (X1 + X2 + X3 ) =
3 3
1
= · E (X1 ) + E (X2 ) + E (X3 ) .
3
Pero como para todo i se tiene Xi ∼ P(λ), resulta E(Xi ) = λ; por lo tanto
1
E(λ̂M V ) = · (λ + λ + λ) = λ,
3
lo que prueba que E(λ̂M V ) es un estimador insesgado de λ.
Definición 33 (Función de verosimilitud). Si se tiene una muestra aleatoria X1 , . . . , Xn
de una distribución Fθ , la función de probabilidad o densidad conjunta, según corres-
ponda, vista como función de θ se denomina función de verosimilitud y se representa
L(θ). Es decir, si Fθ es una distribución de variable aleatoria discreta,
n
Y
L(θ) = L(θ; x1 , . . . , xn ) = pX1 ...Xn (x1 , . . . , xn ) = pθ (xi ),
i=1
donde pθ es la función de probabilidad correspondiente a Fθ ; o si es una distribución

absolutamente continua,
n
Y
L(θ) = L(θ; x1 , . . . , xn ) = fX1 ...Xn (x1 , . . . , xn ) = fθ (xi ),
i=1
donde fθ es una densidad.

Observación 25. Cabe aclarar que en la definición anterior, como a lo largo de todo
este capítulo, θ puede ser un vector y por lo tanto la función de verosimilitud puede
ser función de uno o más parámetros desconocidos.
Definición 34. Dada una muestra X1 , . . . , Xn de una distribución (de v.a. discreta o
absolutamente continua) de la que se desconoce un parámetro θ, se denomina estimador
de máxima verosimilitud (EMV) de θ —y lo notamos θ̂M V — al valor de θ donde
la función de verosimilitud L(θ) alcanza su máximo global (si es que dicho valor es
único).
Cabe destacar que la observación 25 recuerda el hecho de que θ podría ser un vector,
algo que a veces podemos remarcar usando la notación θ. ~ Para ser más explícitos,
digamos que si se desconocen los parámetros θ1 , . . . , θp (p es la cantidad de parámetros
desconocidos), los estimadores de máxima verosimilitud de θ1 , . . . , θp (o también «el»
estimador de máxima verosimilitud del vector de parámetros θ~ = (θ1 , . . . , θp )) son las
respectivas coordenadas del punto del espacio paramétrico Θ ⊂ Rp donde se maximiza
la función de verosimilitud L(θ1 , . . . , θp ) (o bien podemos decir que el punto en sí mismo
ˆ
es el estimador θ~ —como vector— del parámetro θ~ —también como vector—)18 .
Ejemplo 35. Si deseamos volver al ejemplo anterior, pero suponiendo que tomaremos
una muestra de tamaño n arbitrario, podemos buscar una expresión del estimador de
máxima de verosimilitud para este caso general, en lugar de hacerlo específicamente
para muestras de tamaño n = 3, como lo hicimos hasta ahora. Es en estos casos en los
que se ve aún más claro las ventajas que genera trabajar con la log-verosimilitud l en
lugar de la verosimilitud L.
Por definición n
Y
L(λ) = pXi (xi )
i=1
y
n n n
Y X X e−λ λxi
l(λ) = ln L(λ) = ln pXi (xi ) = ln pXi (xi ) = ln ,
i=1 i=1 i=1
xi !
que por propiedades del logaritmo es
n
X n
−λ xi
X
l(λ) = ln e + ln λ − ln(xi !) = (−λ + xi · ln λ − ln(xi !)) .
i=1 i=1
ˆ
En este caso podemos usar tanto la notación θˆ1M V , . . . , θˆp M V como θ~M V , o incluso θ̂M V según la
18
claridad y la conveniencia.
Por otro lado, las propiedades de la sumatoria (donde todo lo que no depende del índice
i es una «constante», i.e. algo que se repite en cada término de la suma) implican que
n
X n
X n
X n
X
l(λ) = (−λ) + xi · ln λ − ln(xi !) = −nλ + ln λ · xi + A(~x),
i=1 i=1 i=1 i=1
donde lo relevante sobre A(~x) es que no depende de λ.

Es claro que l(λ) es una función derivable (respecto de su única variable λ)19 . Y
como está definida en el abierto (0, +∞), alcanza su máximo en un punto λ∗ donde
l(λ∗ ) = 0. Como en este caso hay uno solo y se observa que la función crece al comienzo
y decrece luego de este punto, allí se encuentra el máximo. Efectivamente,
n
1 X
l0 (λ) = −n + · xi ,
λ i=1
de donde surge Pn
i=1 xi
λ̂M V = = x̄n ,
n
o escrito como variable aleatoria,
Pn
i=1 Xi
λ̂M V = = X̄n .
n

Ejemplo 36. Consideremos la distribución N (µ, σ 2 ), y calculemos la log-verosimilitud
del parámetro (µ, σ 2 ).
n
! n
Y X
2 2

l(µ, σ ) = ln L(µ, σ ) = ln f (xi ) = ln f (xi ) ,
i=1 i=1
donde f (x) es la densidad de la distribución N (µ, σ 2 ). Es decir,

n
2
X 1 − 12 (xi −µ)2
l(µ, σ ) = ln √ e 2σ =
2πσ 2
i=1
n
X 1 1 2 1 2
= − ln(2π) − ln(σ ) − 2 (xi − µ) =
i=1
2 2 2σ
19
Por confusa que pueda parecer la expresión de l, para entender sus propiedades conviene recordar
que solo es una verdadera función P λ, para lo que incluso se le pueden dar valores a n
Pen la «variable»
y las xi . Por ejemplo, si n = 10, xi = 109 y ln(xi !) = 154, se tiene l(λ) = −10λ + 109 ln λ − 154.
Se ve entonces claramente que l es la suma de una función logarítmica y un polinomio de grado uno.
n
n n 2 1 X
= − ln(2π) − ln(σ ) − 2 (xi − µ)2 .
2 2 2σ i=1
Consideremos primero el caso en que σ 2 es un valor conocido y solo se busca estimar

µ, en cuyo caso pensamos a l solo como función de este parámetro, es decir,
n
n n 2 1 X
l(µ) = − ln(2π) − ln(σ ) − 2 (xi − µ)2 .
2 2 2σ i=1
Para buscar el máximo, vemos que l es derivable como función de µ y que

n n n
!
1 X 1 X 1 X
l0 (µ) = − 2 2(xi − µ) · (−1) = 2 (xi − µ) = 2 xi − nµ ,
2σ i=1 σ i=1 σ i=1
por lo que si buscamos µ tal que l0 (µ) = 0, es decir

n
!
1 X
xi − nµ = 0,
σ 2 i=1
se tiene n Pn
X
i=1 xi
xi − nµ = 0 ⇐⇒ µ= ,
i=1
n
es decir que
µ̂M V = x̄,
lo cual resulta sumamente intuitivo.
Supongamos, por el contrario, que el valor de µ es conocido, y es en realidad σ 2 el
parámetro a estimar. En lo sucesivo, para evitar la dificultad de derivar respecto de σ 2
como un todo, hacemos la sustitución α = σ 2 y buscamos el EMV de α. Es decir:
n
n n 1 X
l(α) = − ln(2π) − ln(α) − (xi − µ)2 ,
2 2 2α i=1
y como esto es una función derivable buscamos el máximo igualando a cero la derivada
n
n 1 X
l0 (α) = − + 2 (xi − µ)2
2α 2α i=1
e igualando a cero y despejando obtenemos

n
2 1X
α̂M V = σ̂M V = (xi − µ)2 .
n i=1
Observemos que el estimador de máxima verosimilitud de σ 2 depende de µ, pero esto

no es un problema porque estamos suponiendo en este caso que se trata de un valor
conocido.
Finalmente, supongamos que ninguno de los parámetros es conocido, por lo que
debemos encontrar el punto (µ, α) del espacio paramétrico que maximiza l(µ, α). Como
l es una función diferenciable, debemos encontrar el punto donde el gradiente se anula,
es decir, donde se hacen cero ambas derivadas parciales (que ya fueron calculadas en
los ejemplos anteriores), a saber:
n
!
∂ 1 X
l(µ, α) = xi − nµ
∂µ α i=1
n
∂ n 1 X
l(µ, α) = − + 2 (xi − µ)2 .
∂α 2α 2α i=1
Esto da un sistema de ecuaciones en µ y α que, sin embargo, resulta muy sencillo de
resolver.
Vimos en el caso anterior que de despejar α en la segunda ecuación se obtenía
n
1X
α= (xi − µ)2 .
n i=1
Sin embargo, siendo que α depende de µ en esta expresión, para escribir la solución
(o al menos parte de ella) necesitamos que esto no suceda. Pero en el primer caso
analizado vimos que de despejar µ en la primera ecuación se obtiene
µ = x̄,
y esta expresión no depende de α. Por lo tanto, tenemos un sistema triangular, o
recursivo, en el cual el valor de µ puede obtenerse directamente y luego usarse para
obtener el valor de α que resulta ser
n
1X
α= (xi − x̄)2 = s2 .
n i=1
En resumen, obtenemos los estimadores
2 2

(µ̂M V , σ̂M V ) = x̄, s .
Es destacable el hecho de que el estimador de máxima verosimilitud de µ es el mismo

independientemente de que se conozca o no la varianza de la distribución, mientras que
el de σ 2 cambia dependiendo de si el valor de µ es o no conocido y —por lo tanto— de
si puede incorporarse a la expresión del estimador.

7.5.3. Otros métodos de estimación

Los métodos vistos en los apartados anteriores son los más usados para la estimación
puntual en las condiciones de los modelos estadísticos que estamos estudiando. Existen
sin embargo una cantidad de otros procedimientos más o menos formales para obtener
estimadores en este tipo de modelos, así como existen métodos específicos para otros
modelos estadísticos paramétricos.20
En este apartado presentamos brevemente dos métodos que permiten obtener es-
timadores puntuales a partir de una muestra de v.a.i.i.d., si bien son aplicables en
situaciones mucho más generales.21
Estimadores lineales sujetos a condiciones
Una forma de obtener estimadores relativamente simple es restringirse a la clase

específica de los estimadores lineales. En ese caso el estimador en cuestión se elige
de modo que cumpla con ciertas condiciones. En el caso más cómun se impone como
condición adicional que el estimador lineal a obtener sea insesgado, lo cual —teniendo
en cuenta que un estimador lineal de θ es de la forma
θ̂ = α0 + α1 X1 + · · · + αn Xn ,
donde las αi son constantes que no dependen de θ— impone la condición adicional
E(θ̂) = α0 + α1 E(X1 ) + · · · + αn E(Xn ) = θ,
que, si llamamos m1 (θ) a la esperanza de la distribución, implica
α0 + α1 m1 (θ) + · · · + αn m1 (θ) = α0 + (α1 + · · · + αn )m1 (θ) = θ, ∀θ ∈ Θ.
En caso de que existan α0 , . . . , αn tales que se cumpla la condición que garantiza

la propiedad de insesgamiento, en general existirán infinidad de soluciones. En tal caso
suele imponerse como condición de optimalidad que la varianza sea mínima entre todos
los posibles estimadores obtenidos. Un estimador que verifique tales condiciones se de-
nomina estimador lineal insesgado óptimo y tiene la propiedad MELI por definición (en
particular es insesgado), aunque no necesariamente será eficiente (es decir, de mínima
varianza entre todos los estimadores insesgados, incluyendo los no lineales).
20
Por mencionar un caso sumamente específico, por ejemplo, en el estudio de los modelos lineales
multiecuacionales surgen el método de mínimos cuadrados indirectos (MCI) y el método de mínimos
cuadrados en dos etapas (MC2E), que pueden aplicarse o no a cada ecuación del modelo en función
de la cantidad de variables exógenas y endógenas que esta incluya.
21
Por caso, el método de «mínimos cuadrados» fue desarrollado por Gauss —entre otros que lo des-
cubrieron independientemente— para estimar los parámetros de una recta en lo que hoy denominamos
modelo de regresión lineal.
Ejemplo 37. Si se tuviera Xi ∼ Γ(θ, 2), se tendría m1 (θ) = 2θ , por lo que la condición
de insesgamiento sería
θ
α0 + (α1 + · · · + αn ) = θ, ∀θ > 0.
2
Como las constantes αk no dependen de θ, es fácil ver que necesariamente debe ser
α0 = 0, 22 y luego
θ
(α1 + · · · + αn ) = θ, ∀θ > 0,
2
que implica
α1 + · · · + αn = 2.
Por otro lado, como var(Xi ) = 4θ , tenemos

θ
var(θ̂) = var(α0 + α1 X1 + · · · + αn Xn ) = (α12 + · · · + αn2 ) .
4
El estimador lineal insesgado de mínima varianza se obtiene para los valores de
α1 , . . . , αn (ya vimos que α0 = 0) que minimicen la expresión
θ
h(α1 , . . . , αn ) = (α12 + · · · + αn2 )
4
sujeto a la restricción
α1 + · · · + αn = 2,
problema de optimización con restricciones que puede resolverse mediante el método
de los multiplicadores de Lagrange y da como solución
2
α1 = . . . = αn = .
n
Por lo tanto, el estimador buscado es
n
2X
θ̂ = Xi .
n i=1

22
Existen varias maneras de ver esto. Las más simples son dar dos valores particulares a θ > 0, por
ejemplo 1 y 2 y de ahí llegar a la conclusión buscada, o bien observar que tanto el miembro izquierdo
como el miembro derecho de la igualdad pueden pensarse como polinomios de grado uno en la variable
θ y que por lo tanto su término independiente y su coeficiente principal —es decir, la pendiente—
deben coincidir. Esto implica que α0 = 0 y que 12 (α1 + · + α2 ) = 1. Una tercera forma es decir que
como la igualdad vale para todo θ > 0, también es cierto que

θ
lı́m α0 + (α1 + · · · + αn ) · = lı́m+ θ
θ→0+ 2 θ→0
y esto equivale a α0 = 0.
Mínimos cuadrados
En determinados modelos paramétricos es razonable plantear que, suponiendo dado

el valor del parámetro θ, cada observación xi importa un determinado error o discre-
pancia respecto de la distribución de probabilidad, lo que se denomina residuo y suele
denotarse como ûi . Si bien este enfoque tiene mucho más sentido en modelos más
complejos, como el modelo de regresión lineal o en modelos de análisis de la varianza,
podemos aplicarlo a nuestro problema de estimación puntual en algunos casos. Veamos
la idea general con un ejemplo.
Ejemplo 38. Supongamos que se estudia una variable aleatoria con distribución N (µ, σ 2 )
para la que se desea estimar µ. En tal caso, siendo µ la media de la distribución, po-
dríamos decir que el valor más razonable que deberían tomar las observaciones xi de
las variables Xi sería en cada caso xi = µ. Por ese motivo, tendría sentido definir para
cada observación el residuo
ûi = xi − µ.
Otra manera de interpretar esto es que si Xi ∼ N (µ, σ 2 ), también podemos escribir
X i = µ + εi ,
donde εi es una variable aleatoria con distribución N (0, σ 2 ). Es decir, separamos la

distribución de Xi en la suma de µ, que es un valor fijo y no aleatorio, y εi , que es
una variable aleatoria cuya distribución es independiente de µ. Como en este caso
Xi − µ = εi , tiene sentido definir los residuos
ûi = xi − µ,
los que entonces actuarán como observaciones de las variables aleatorias εi .

En cualquier caso, se entiende que los residuos deberían en conjunto ser «chicos»,
pero no es posible minimizarlos individualmente, ya que al cambiar el valor de µ unos
disminuyen a medida que otros aumentan. Por eso se define una medida conjunta del
tamaño del vector û = (û1 , . . . , ûn ), que es la suma de cuadrados residual23
n
X n
X
SCR(µ) = û2i = (xi − µ)2 .
i=1 i=1
Como resulta razonable desear que esta cantidad sea pequeña, el estimador de mínimos
cuadrados de µ se define como el valor µ̂M C que minimiza SCR(µ).
23
Como en tantas otras instancias, considerar la suma de los cuadrados es solo una alternativa,
que resulta conveniente por determinados motivos teóricos y prácticos,
P 4 Ppero existen infinidad de otras
posibilidades que también resultarían razonables, como tomar ûi , |ûi |, máx{|ûi |}1≤i≤n , etc.
Por caso, en este ejemplo24 resulta

n n
!
d X X
SCR(µ) = 2(xi − µ)(−1) = −2 xi − nµ ,
dµ i=1 i=1
P
xi
y esto vale cero cuando µ = n
, por lo que
µ̂M C = X̄.
Un reparo que puede plantearse sobre este método es que, como se ve en el ejemplo
anterior, la distribución de las variables Xi no juega ningún rol en la deducción del
estimador en tanto valor que minimiza la SCR. Es cierto, sin embargo, que sí se tu-
vo en cuenta la distribución informalmente a la hora de elegir una definición para los
residuos ûi . Es claro entonces que los estimadores así obtenidos serán razonables siem-
pre y cuando la definición de los residuos sea adecuada en términos de la distribución
subyacente y de cómo la misma se ve afectada por variaciones en el parámetro que se
busca estimar.
24
Vale la pena notar que la única complicación en los cálculos surge de la notación de sumato-
ria, que en cualquier caso nos permite obtener un resultado genérico para cualquier n y justificarlo
adecuadamente. Alternativamente, se puede recurrir a una notación con puntos suspensivos
SCR(µ) = (x1 − µ)2 + (x2 − µ)2 + · · · + (xn − µ)2 ,
y es claro que la derivada de la función SCR(µ) es
SCR0 (µ) = −2 (x1 − µ) + (x2 − µ) + · · · + (xn − µ) = −2(x1 + x2 + · · · + xn − nµ),

o incluso realizar los cálculos cada vez a partir de los valores observados. Por ejemplo, si n = 3,
x1 = 1,3, x2 = 2,4 y x3 = 1,5, se tiene
SCR(µ) = (1,3 − µ)2 + (2,4 − µ)2 + (1,5 − µ)2 ,
etc. Se ve claro aquí que la SCR es una función polinómica de µ de grado 2.

Capítulo 8
Intervalos de confianza
El problema de inferencia paramétrica encuentra su respuesta fundamental —desde

el enfoque clásico— en la teoría de estimadores puntuales. Sin embargo, esta metodolo-
gía presenta un inconveniente esencial: casi con certeza (especialmente si el parámetro
toma valores en un intervalo real, es decir continuo, como suele suceder) se puede su-
poner que, si se estima el parámetro θ con el estimador θ̂, ocurrirá que θ̂ 6= θ. Es
decir, casi con certeza, la estimación será incorrecta; tal vez bastante aproximada, pero
incorrecta.
Surgen dos caminos alternativos para superar estas limitaciones. La primera es dar,
en lugar de un valor único como estimación, un intervalo de valores «probables»: los
denominados intervalos de confianza, que presentamos en este capítulo. Por otro lado,
podemos proponer una hipótesis sobre el valor de θ y ponerla a prueba tomando una
muestra y decidiendo —en función de los resultados— si resulta razonable mantener o
bien rechazar la hipótesis en cuestión. Este último enfoque resulta en los denominados
tests o pruebas de hipótesis, que desarrollamos en el capítulo 9.
Cabe aclarar que a lo largo de este capítulo y los siguientes representaremos como
zα al número real que verifica
P(Z > zα ) = α, si Z ∼ N (0, 1).
Entonces, por ejemplo, z0,05 = Φ−1 (0,95) ≈ 1,64, z0,95 = Φ−1 (0,05) ≈ −1,64 y
z0,025 = Φ−1 (0,975) ≈ 1,96.1
El mismo sentido tienen las notaciones χ2n;α , tn;α y Fm,n;α , en relación a las distri-
buciones χ2n , tn y Fm,n , respectivamente.
1
Aquí Φ representa la función de distribución (acumulada) de la distribución N (0, 1) y Φ−1 es su
inversa, denominada a veces función de cuantiles de la distribución normal estándar. Notar que la
función que asigna a cada valor α ∈ [0, 1] el valor zα , no es la inversa de Φ, sino la inversa de 1 − Φ.
175
CAPÍTULO 8. INTERVALOS DE CONFIANZA 176
8.1. Conceptos generales

Definimos en este apartado el concepto de intervalo de confianza y estudiamos una
técnica general para obtener fórmulas para los mismos.
Suponemos en lo que sigue que se toma una muestra aleatoria X1 , X2 , . . . , Xn su-
poniendo para las variables Xk un modelo paramétrico con un parámetro desconocido
θ ∈ Θ ⊂ R.
Definición 35. Dados dos estadísticos de la muestra aleatoria X1 , . . . , Xn —digamos
A(X1 , . . . , Xn ) y B(X1 , . . . , Xn )—
que no dependen funcionalmente de θ, decimos que
[A, B]
es un intervalo de confianza de nivel 1 − α para θ si y solo si

P θ ∈ [A, B] = 1 − α.

Observación 26. En general se piensa a α como un valor pequeño, cercano a cero
(usualmente igual o inferior a 0,10, o 0,20 en algunos casos), que en el ámbito de los
tests de hipótesis se denomina nivel de significación, por lo que 1 − α representa en
consecuencia un valor cercano a 1, correspondiente a una alta probabilidad, que en el
contexto de los intervalos de confianza se denomina nivel de confianza del intervalo.
Desde la perspectiva clásica, un intervalo de confianza de nivel 1 − α (es decir,

un intervalo aleatorio que es función de la muestra y que verifica la definición 35), es
un «método» o una «fórmula» que da como resultado de cada aplicación (para cada
muestra x1 , . . . , xn obtenida) un intervalo [a, b] ⊂ R, con la propiedad de que si el
método se utiliza una gran cantidad de veces, ocurrirá que una proporción 1 − α de
esas aplicaciones —aproximadamente— dará como resultado un intervalo [a, b] tal que
θ ∈ [a, b],
mientras que en una proporción α de dichas aplicaciones —aproximadamente— el
intervalo [a, b] resultante será tal que
θ∈
/ [a, b].
Es decir que, por ej., una expresión para intervalos de 95 % de confianza dará como
resultado el 95 % de las veces —en promedio— intervalos numéricos que contienen al
parámetro que se busca estimar, mientras que el 5 % restante de las veces dejará afuera
(por exceso o por defecto) el verdadero valor de dicho parámetro.
8.2. Obtención de intervalos de confianza. Pivotes.

A continuación presentamos un procedimiento bastante general para obtener inter-
valos de confianza para un determinado parámetro. Para ello, es necesario introducir
el concepto de pivote.
~ θ) un estadístico muestral que satisface las siguientes
Definición 36. Sea T = g(X;
propiedades:
T es una función no constante del parámetro θ;
la distribución de T no depende del parámetro θ;
entonces decimos que T es un pivote para θ.
Ejemplo 39. Un ejemplo simple de pivote surge en el caso en que Xi ∼ N (µ, σ 2 ).

Supongamos que se conoce σ 2 y verifiquemos que
X̄ − µ
Z=
√σ
n
es un pivote para µ.
En primer lugar, es evidente que el valor de Z depende del valor de µ. Sin embargo,
sabemos que
Z ∼ N (0, 1),
es decir que la distribución de Z es la misma independientemente del valor de µ.
Para aclarar esto, notemos que si se tiene Xi ∼ N (10, 16), entonces
X̄ − 10
Z= ∼ N (0, 1),
√4
n
y si Xi ∼ N (45, 16), entonces también se tiene
X̄ − 45
Z= ∼ N (0, 1);
√4
n
en ambos casos la distribución es N (0, 1), aunque el valor de µ difiere. Sin embargo,
para una muestra dada, los estadísticos toman diferentes valores. Por ejemplo, si n = 1
y x1 = 20, en el primer caso resulta Z = 2,5, mientras que en el segundo se tiene
Z = −6,25. Es decir, el valor numérico de Z (una vez tomada la muestra) depende del
valor de µ, pero no su distribución (antes de tomar la muestra).
Veamos que contar con un pivote para un parámetro desconocido θ puede ser útil
para hallar intervalos de confianza para el mismo.
Dado un cierto nivel de confianza 1 − α, siguiendo la notación de la definición
~ θ) es un pivote para θ. Si se conoce la distribución
anterior, supongamos que T = g(X;
de T , se pueden encontrar números cα y dα tales que
P(cα ≤ T ≤ dα ) = 1 − α.
Cabe notar dos cuestiones:
lo anterior es cierto precisamente porque la distribución de T no depende del

parámetro desconocido θ (en caso contrario sería imposible calcular cα y dα );
en general existen varias (tal vez infinitas) combinaciones de números cα y dα
que verifiquen la condición planteada. Una buena elección de los mismos puede
fundarse en diferentes criterios, pero en lo inmediato simplemente supondremos
que se eligió una cualquiera de dichas combinaciones.
Luego, se verifica que

~ θ) ∈ [cα , dα ] = 1 − α.

P T ∈ [cα , dα ] = P g(X;
Dependiendo de la forma específica de g, es posible que si se invierte la expresión
respecto de θ (es decir, si se intenta «despejar» θ), se llegue a una expresión de la
forma
~ cα , dα ), k(X;
~ cα , dα ) = 1 − α,

P θ ∈ h(X;
para ciertas funciones h y k. Esto quedará más claro en el próximo ejemplo.
En cualquier caso, se tendrá entonces que
~ cα , dα ), k(X;
~ cα , dα )

h(X;
(que no depende de θ) es un intervalo de confianza para θ de nivel 1 − α.
Esto da un procedimiento bastante general para hallar expresiones de intervalos de
confianza. Para mayor claridad, presentamos un ejemplo más específico a continuación.
Ejemplo 40. Volviendo al ejemplo 39, como
X̄ − µ
Z=
√σ
n
es un pivote con distribución N (0, 1), tenemos que

!
X̄ − µ
P −z α2 ≤ σ ≤ z α2 = 1 − α
√
n
(en este caso, estaríamos eligiendo cα = z1− α2 = −z α2 y dα = z α2 ).2

Luego, si despejamos µ, tenemos que

σ σ
P −z α2 · √ ≤ X̄ − µ ≤ z α2 · √ = 1 − α,
n n
es decir

σ σ σ σ
P z α2 · √ ≥ −X̄ + µ ≥ −z α2 · √ = P −z α2 · √ ≤ −X̄ + µ ≤ z α2 · √ = 1−α.
n n n n
Finalmente, esto significa que

σ σ
P X̄ − z α2 · √ ≤ µ ≤ X̄ + z α2 · √ = 1 − α,
n n
por lo que
σ σ
X̄ − z α2 · √ , X̄ + z α2 · √
n n
es un intervalo de confianza de nivel 1 − α para µ, siempre que σ 2 sea conocida.
En cualquier caso, incluso cuando no se conocen ni µ ni σ 2 , es posible encontrar

individualmente intervalos de confianza para cada uno de dichos parámetros, como
veremos en los próximos dos ejemplos.
Ejemplo 41. Si recordamos que para una muestra de una distribución N (µ, σ 2 ) se
tiene que
X̄ − µ
S
∼ tn−1 ,
√
n−1
resulta que este es un pivote para µ, con la particularidad de que no depende de σ 2 .

Siguiendo un razonamiento completamente análogo al del ejemplo anterior, resulta que

S S
X̄ − tn−1; α2 · √ , X̄ + tn−1; α2 · √
n−1 n−1
es un intervalo de confianza de nivel 1−α para µ, aplicable incluso cuando no se conoce
el valor de σ 2 .
2
Esta es solo una de las infinitas posibles maneras de elegir cα y dα , aunque —como veremos en el
apartado 8.3— esta opción cumple con cierto criterio de optimalidad.
Es de notar que en los dos ejemplos anteriores, la expresión que da ambos extremos
de los intervalos podría resumirse como
σ
X̄ ± z α2 · √
n
o
S
X̄ ± tn−1; α2 · √ ,
n−1
respectivamente. A este tipo de intervalos, que se expresan como un valor central
(usualmente un estimador razonable del parámetro en cuestión), al que se resta y
suma cierta cantidad (que suele denominarse precisión y se representa como ε), se los
denomina informalmente intervalos aditivos.
En cualquier caso, no todos los intervalos resultan de esta forma, como se ve en el
ejemplo siguiente.
Ejemplo 42. Recordemos que si la muestra X1 , . . . , Xn proviene de una distribución

N (µ, σ 2 ), entonces se tiene
nS 2
2
∼ χ2n−1 .
σ
2
Es decir que el estadístico T = nSσ2
depende funcionalmente de σ 2 (claramente, se trata
de distintos estadísticos si σ 2 = 1 o si σ 2 = 2), pero su distribución es independiente
de dicho valor (sea cual sea el caso, se tiene T ∼ χ2n−1 ).
Luego, T es un pivote para σ 2 . Veamos que podemos usarlo para deducir un intervalo
de nivel 1 − α para dicho parámetro.
Supongamos que elegimos números cα , dα > 0 tales que
nS 2

P cα ≤ 2 ≤ dα = 1 − α.
σ
Como los tres miembros de la desigualdad anterior son no negativos, esto equivale a
σ2

1 1
P ≥ ≥ = 1 − α,
cα nS 2 dα
o bien
σ2

1 1
P ≤ ≤ = 1 − α.
dα nS 2 cα
Pero esto es lo mismo que
2
nS 2
2
nS nS 2

nS 2 2
P ≤σ ≤ =P σ ∈ , = 1 − α,
dα cα d α cα
y esto significa que

nS 2 nS 2

,
d α cα
es un intervalo de nivel 1 − α para el parámetro σ 2 .
Claramente, una elección posible para cα y dα (pero no la única, como analizamos
en el apartado 8.3), es
cα = χ21− α y dα = χ2α ,
2 2
2
por lo que un posible intervalo de nivel 1 − α para σ está dado por
" #
nS 2 nS 2
, .
χ2α χ21− α
2 2
Hasta ahora todos los ejemplos de intervalos fueron para estimar uno de los dos
parámetros de la distribución normal. Como un ejemplo alternativo, veamos cómo
obtener un pivote para el parámetro λ de una distribución exponencial y el intervalo
que se deduce de aquel.
Ejemplo 43. Supongamos que se cuenta con una muestra aleatoria X1 , ..., Xn con
Xk ∼ E(λ). Puede probarse (se deja como ejercicio3 ) que
n
X
2λnX̄ = 2λ Xi ∼ χ22n . (8.1)
i=1
Resulta claro entonces que el estadístico 2λnX̄ es un pivote para λ, ya que es una
función no constante de λ, pero su distribución —χ22n — no depende del valor de λ. Por
esto último, dado un nivel de confianza 1 − α es posible encontrar (si se conocen los
cuantiles de la distribución χ22n ) constantes cα y dα (solo dependientes de α) tales que
P(cα ≤ 2λnX̄ ≤ dα ) = 1 − α.
Luego, se tiene que

cα dα
P ≤λ≤ =1−α
2nX̄ 2nX̄
Recordar, en cualquier caso, que la distribución χ22n equivale a la distribución Γ n, 12 y que la
3

distribución E(λ) es igual a la distribución Γ(1, λ).

y por definición
cα dα
,
2nX̄ 2nX̄
es un intervalo de confianza de nivel 1 − α para λ.
Desde ya, como se vio en ejemplos anteriores, los valores cα y dα no están uní-
vocamente determinados; por el contrario, cualquier elección del tipo cα = χ22n;1−γ y
dα = χ22n;δ con γ + δ = α es válida. Como se verá en el apartado 8.3, la elección de
un par de valores específico puede basarse en criterios de optimalidad (como abarcar
la región de mayor densidad de la distribución en cuestión, obtener el intervalo de
menor longitud posible, etc.) que salvo en casos triviales solo pueden llevarse adelante
mediante métodos numéricos, o bien se puede privilegiar la simplicidad conceptual y
práctica, que es lo que lleva a tomar γ = δ = α2 . En este último caso, por ejemplo, se
obtiene el intervalo " 2
χ2n;1− α χ22n; α
#
2 2
, .
2nX̄ 2nX̄

Cabe aclarar que si bien el método del pivote da un procedimiento para hallar
intervalos de confianza bastante general (y muy útil, por cierto), es posible deducir
fórmulas a partir de otros procedimientos. Damos un ejemplo a continuación.
Ejemplo 44. Supongamos que la muestra aleatoria surge de una población normal de
media µ. Como µ es —entre otras cosas— la mediana de la distribución, resulta que
para k = 1, 2, . . . , n,
1
P(Xk ≤ µ) = P(Xk ≥ µ) = .
2
Entonces es fácil ver que
n
1
P máx{Xk } ≤ µ =
2
(pues esto equivale a que todas las observaciones sean menores o iguales a µ) y de igual
modo n
1
P mı́n{Xk } ≥ µ = .
2
Tratándose claramente de sucesos incompatibles4 , resulta que
n n n−1
1 1 1
P mı́n{Xk } ≥ µ ∨ máx{Xk } ≤ µ = + = ,
2 2 2
4
En realidad, podrían darse simultáneamente si máx{Xk } = mı́n{Xk } = µ, pero esto equivale
a que todas los observaciones coincidan con µ. Como la distribución de las variables observadas es
absolutamente continua, esto tiene probabilidad nula.
que es equivalente a
n−1
1
P mı́n{Xk } ≤ µ ≤ máx{Xk } = 1 − .
2
Pero esto prueba que
mı́n{Xk }, máx{Xk }
n−1
es un intervalo de confianza de nivel 1 − 12 para µ (por ejemplo, si n = 10, el nivel
10−1
de confianza será de 1 − 21

≈ 0,998).
8.3. Criterios de optimalidad

Como ya vimos, la elección de los valores cα y dα necesaria para deducir la expresión
de un intervalo de confianza de nivel 1 − α es hasta cierto punto arbitraria: si bien no
cualquier combinación de valores es posibles, existen en general varios, tal vez infinitos
pares (cα , dα ) que garantizan el nivel de confianza buscado.
Esto lleva a preguntarse si existen criterios razonables para elegir una opción en
particular. La respuesta es afirmativa y puede ser muy inmediata: un criterio posible es
la simplicidad de cálculo, que lleva en general a repartir la probabilidad α excluida del
intervalo por igual entre ambas «colas» de la distribución, como se hizo en los ejemplos
ya vistos.
Si se deja de lado este criterio, podríamos enfocarnos en la longitud del intervalo
obtenido, que definimos como
~ = B(X)
L(X) ~ − A(X)
~
~ B(X)].
para el intervalo [A(X), ~
Entonces podríamos preguntarnos cuál es la elección de valores cα y dα que generan
el intervalo de menor longitud. La respuesta a este problema varía de un caso al otro;
el siguiente ejemplo se ocupa de un caso particular, que puede extenderse a otras
situaciones.
Ejemplo 45. Notemos, en primer lugar, que para el caso general el intervalo que se
obtiene para σ 2 con nivel 1 − α es
2
nS nS 2

, ,
d α cα
por lo que la longitud es
~ = nS 2 1 1
L(X) − ,
cα d α
que en última instancia es proporcional a

1 1
− .
cα d α
Ahora bien, la distribución χ2n−1 debe acumular una probabilidad 1 − α en el in-

tervalo [cα , dα ]; es decir que si F es la función de distribución de una variable χ2n−1 ,
entonces se debe cumplir
F (dα ) − F (cα ) = 1 − α.
Por lo tanto, el intervalo óptimo se obtiene para los valores c∗ y d∗ que resuelven el
problema de optimización
1 1
mı́n L ∝ −
(c,d) c d
sujeto a
F (d) − F (c) = 1 − α.
El método de los multiplicadores de Lagrange permite deducir que las condiciones

de primer orden implican que
c∗2 · f (c∗ ) = d∗2 · f (d∗ )
y
F (d∗ ) − F (c∗ ) = 1 − α
(donde f y F son, respectivamente, las funciones de densidad y de distribución y de
una v.a. χ2n−1 ). En general, no se puede encontrar una expresión sencilla para c∗ y d∗ ,
aunque en cada caso particular pueden aplicarse métodos numéricos para resolver este
problema. Una vez hallados dichos valores, el intervalo óptimo en términos de longitud
será 2
nS nS 2

, .
d ∗ c∗
Si bien este intervalo en general no coincide con el que se dedujo en el ejemplo
anterior, las dificultades de cálculo hacen que aquel sea de uso más frecuente que el
intervalo de menor longitud.

Para mayor claridad, veamos como se plasma todo esto en un ejemplo numérico.
Ejemplo 46. Asumamos que se toma una muestra aleatoria de tamaño n = 8 de una
población N (µ, σ 2 ). Supongamos además que de la misma resulta que
X X
xi = 128,4 y x2i = 3121.
Calculemos un intervalo de confianza de nivel 1 − α = 0,95 para σ 2 .

Es claro que
128,4
x̄ = = 16,05
8
y que
1X 2 1
s2 = xi − (x̄)2 = · 3121 − (16,05)2 ≈ 132,5
n 8
Si utilizamos la opción más simple para elegir los valores cα y dα , es decir,
cα = χ27;1− α = χ27;0,975 ≈ 1,69

2
y
dα = χ27; α = χ27;0,025 ≈ 16,01;
2
2
el intervalo que se obtiene para σ con un 95 % de confianza es
[66,2, 627,4],
(que tiene longitud L ≈ 561,2).

Si en cambio hubiésemos tomado cα y dα como los valores óptimos, definidos por
las condiciones dadas en el ejemplo 45, tendríamos
cα = c∗ = 2,1473
y
dα = d∗ = 23,794
(valores que se obtienen mediante métodos númericos-computacionales) y el intervalo
que se obtendría para σ 2 con un 95 % de confianza es
[44,5, 493,6],
(cuya longitud es L ≈ 449,1, efectivamente menor a la obtenida más arriba).

CAPÍTULO 8. INTERVALOS DE CONFIANZA
f0
0.12
0.08
0.04
f
0.00
c Mo d
0 5 10 15 20
Figura 8.1: Determinación de intervalos de máxima densidad
186
Otro criterio, posible —muy útil en la aplicación de ciertos métodos no paramétricos

y también en la construcción de intervalos de credibilidad bayesianos— es enfocarse en
las regiones de mayor densidad de la distribución con la que se trabaja: después de todo,
esa región corresponde, en cierto sentido, a los valores más «probables» o razonables
que se espera que el pivote adquiera una vez tomada la muestra. Puntualmente, si la
distribución es unimodal (ver figura 8.1), se trata de situarse precisamente en la moda
de la misma, cuya densidad es f0 = f (M o) y considerar densidades menores —digamos
f < f0 — de la que resulta el intervalo
[c, d] = {x ∈ R : f (x) ≥ f1 }.
Para densidades como las de la distribución normal, la t-Student, la χ-cuadrado o

la F-Snedecor —entre otras— es claro que existirá una cierta densidad f ∗ tal que el
pivote caerá en el intervalo [c, d] resultante con probabilidad 1 − α. El criterio de la
máxima densidad implica elegir a dichos c y d como los valores cα y dα para calcular
el intervalo.
No obstante, existen casos donde los diferentes criterios pueden coincidir. En par-
ticular, para los ejemplos vistos de estimación de la media de la normal, con varianza
conocida o desconocida, tanto el criterio de minimizar la longitud como el de usar la
región de máxima densidad implicar elegir cα y dα dividiendo la significación α de
manera equitativa entre ambas «colas» de la distribución: es decir que el criterio de
simplicidad que presentamos al principio coincide con los demás. Esto es consecuencia
tanto de la simetría de las distribuciones involucradas como de la forma de los intervalos
resultantes.
8.4. Intervalos de nivel asintótico

Muchas veces se desconoce la distribución exacta de un pivote, pero se conoce en
cambio su distribución asintótica para n → ∞. Usando dicha distribución, pueden
deducirse expresiones para intervalos cuyo nivel no será exactamente 1 − α, pero que
tenderán a ese nivel cuando n → ∞. Estas expresiones —al igual que cuando estudia-
mos las propiedades asintóticas de los estimadores— no dan una única fórmula, sino
una sucesión de fórmulas, en función de n: técnicamente, se trata de una sucesión de
intervalos, cuyos respectivos niveles de confianza tienden a 1 − α.
Para precisar esta idea, creemos que basta con unos ejemplos.
Ejemplo 47. Si se tiene una muestra aleatoria X1 , . . . , Xn de una distribución desco-
nocida, pero con momentos finitos de primer y segundo orden, digamos E(Xi ) = µ y
var(Xi ) = σ 2 , podemos usar el TCL para deducir un intervalo de confianza para µ con
nivel asintótico 1 − α.
En primer lugar, si la varianza poblacional σ 2 es conocida, podemos usar el hecho

de que por el TCL
X̄ − µ D
σ −−−−→ N (0, 1),
√ n→∞
n
por lo que es asintóticamente un pivote para µ. Luego, si n es suficientemente grande,

vale que !
X̄ − µ
P −zα/2 ≤ σ ≤ zα/2 ≈ 1 − α.
√
n
De allí, es inmediato deducir que entonces

σ σ
P X̄ − zα/2 · √ ≤ µ ≤ X̄ + zα/2 · √ ≈ 1 − α,
n n
que implica que
σ σ
X̄ − zα/2 · √ , X̄ + zα/2 · √
n n
es un intervalo de nivel asintótico 1 − α para µ.
Por otro lado, se vio en el capítulo 6 que también es cierto (por el Teorema de
Slutsky) que
X̄ − µ D
S
−−−−→ N (0, 1);
√ n→∞
n
de este hecho, se prueba fácilmente que

S S
X̄ − zα/2 · √ , X̄ + zα/2 · √
n n
es un intervalo de nivel asintótico 1−α para µ, que puede usarse incluso si se desconoce
el valor de σ 2 .
Ejemplo 48. Supongamos, en particular, que la distribución de la muestra es Be(p).
En el capítulo 6 vimos también que
p̄ − p D
qn −−−−→ N (0, 1),
p(1−p) n→∞
n
que claramente da un pivote de nivel asintótico para p. Esto implica que si n es sufi-
cientemente grande
 
p̄n − p
P −zα/2 ≤ q ≤ zα/2  ≈ 1 − α.
p(1−p)
n
Sin embargo, no es tan simple deducir un intervalo de confianza de la expresión anterior,

dado que el parámetro desconocido p aparece más de una vez en el pivote. Pero aún
así, es posible llegar a un intervalo. Veamos que en principio esto puede reescribirse
como  

p̄n − p
P  q ≤ zα/2  ≈ 1 − α,
p(1−p)

n
y elevando al cuadrado y despejando obtenemos

2 2 p(1 − p)
P (p̄n − p) ≤ zα/2 · ≈ 1 − α,
n
que equivale a
2
)p2 − (2np̄ + zα/2
2
)p + np̄2 ≤ 0 ≈ 1 − α.

P (n + zα/2
Y como la expresión que se busca sea menor o igual a cero representa una parábola
convexa, la condición buscada se cumple si p está entre ambas raíces la parábola. Es
decir que
P(p1 ≤ p ≤ p2 ) ≈ 1 − α
con q
2 2 2
2np̄ + zα/2 ± (2np̄ + zα/2 )2 − 4(n + zα/2 )np̄2
p1,2 = 2
.
2(n + zα/2 )
Desarrollando esta expresión puede verse que, entre otras posibles expresiones, las raíces
pueden escribirse como
2 2
zα/2 zα/2
p1 = p̄ − 2
· p̄ y p2 = p̄ + 2
· (1 − p̄),
n + zα/2 n + zα/2
de lo que se concluye que

" 2 2
#
zα/2 zα/2
p̄ − 2
· p̄ , p̄ + 2
· (1 − p̄)
n + zα/2 n + zα/2
es un intervalo de confianza de nivel asintótico 1 − α para p.

No obstante, también se vio que (por el teorema de Slutsky)
p̄ − p D
qn −−−−→ N (0, 1),
p̄(1−p̄) n→∞
n
que también da un pivote asintótico para p, con la ventaja práctica de que el parámetro
p aparece una sola vez en la expresión. Luego, si n es suficientemente grande,
 
p̄n − p
P −zα/2 ≤ q ≤ zα/2  ≈ 1 − α,
p̄(1−p̄)
n
y es muy sencillo deducir de la expresión anterior que

q q
p̄(1−p̄) p̄(1−p̄)
P p̄n − zα/2 · n
≤ p ≤ p̄n + zα/2 · n
≈ 1 − α,
es decir que otro intervalo de nivel asintótico 1 − α para p está dado por
q q
p̄(1−p̄) p̄(1−p̄)
p̄n − zα/2 · n
, p̄n + zα/2 · n
.
Este intervalo es de uso más frecuente por su simplicidad, aunque es esperable que
la aproximación a la distribución N (0, 1) del pivote del que se deduce sea menos precisa
que la del pivote del cual se dedujo la expresión vista anteriormente. Otra diferencia
entre ambas opciones es que, mientras el primer intervalo visto para p siempre estará
contenido en el intervalo (0, 1) (los valores posibles de p)5 , el intervalo más «simple»
puede extenderse más allá del mismo, si se toma α suficientemente cercano a 0.
Ejemplo 49. En el ejemplo 43 vimos como obtener un IC de nivel exacto para el
parámetro λ de una distribución exponencial. Veamos que mediante el TCL podemos
obtener un intervalo de nivel asintótico para el mismo parámetro.
En primer lugar, recordemos que si X ∼ E(λ), entonces E(X) = λ1 y var(X) = λ12 .
Luego, por el TCL, si se tiene una muestra X1 , . . . , Xn con dicha distribución, sabemos
que
X̄n − λ1 √ D
Z= 1 = n(λX̄n − 1) −−−−→ N (0, 1),
√ n→∞
λ n
y claramente Z es asintóticamente un pivote para λ. Luego, vemos que

√
P −zα/2 ≤ n(λX̄n − 1) ≤ zα/2 = 1 − α.
Y de aquí puede deducirse fácilmente que

1 zα/2 1 zα/2
1− √ , 1+ √
X̄n n X̄n n
es un intervalo de nivel asintótico 1 − α para λ.
5
Se recomienda analizar por qué esto es cierto.
8.5. Comparación de dos poblaciones usando interva-

los de confianza
Es posible comparar dos poblaciones mediante intervalos de confianza para la di-
ferencia de sus medias (que en el caso particular de distribuciones de Bernoulli puede
interpretarse como diferencia de proporciones) y para el cociente de varianzas. En esta
sección presentamos un ejemplo; otros casos de intervalos para comparar dos pobla-
ciones (así como de intervalos para una población) pueden deducirse de la lista de
estadísticos que se presenta en el apartado 9.3 del capítulo 9.
Ejemplo 50. Vimos en el capítulo 6 que
(X̄ − Ȳ ) − (µX − µY )
q 2 2
∼ N (0, 1),
σX σY
nX
+ nY
2
de donde se deduce que si las varianzas σX y σY2 son conocidas, entonces
(X̄ − Ȳ ) − (µX − µY )
q 2
σX σ2
nX
+ nYY
es un pivote para la diferencia de medias µX − µY . De allí es muy sencillo deducir que

 s s 
2 2 2 2
(X̄ − Ȳ ) − zα/2 · σX + σY , (X̄ − Ȳ ) + zα/2 · σX + σY 
nX nY nX nY
es un intervalo de nivel 1 − α para µX − µY .

Capítulo 9
Pruebas de hipótesis
En esta sección desarrollamos las ideas básicas sobre las pruebas de hipótesis. En el
apartado 9.1 presentamos los conceptos generales, cuya aplicación a un caso específico
ejemplificamos en el apartado 9.2. En el apartado 9.3 recopilamos los resultados del
capítulo 6 en base a los cuales se pueden obtener estadísticos para diversas pruebas
de hipótesis paramétricas usuales. Finalmente, en el ?? desarrollamos un ejemplo de
prueba no paramétrica o de distribución libre: el test de Mann-Withney-Wilcoxon.
9.1. Test de hipótesis: conceptos fundamentales

En esta sección estudiamos los conceptos generales, que justifician la metodología
de prueba de hipótesis. En particular, se discuten los conceptos de hipótesis estadística,
tipos de error y potencia de una prueba.
9.1.1. Hipótesis estadísticas

En el contexto de un modelo estadístico F (que representa el conjunto de posi-
bles distribuciones F de la variable en estudio), una hipótesis estadística es cualquier
subconjunto H ⊂ F; el subconjunto H se interpreta como la «hipótesis» de que la dis-
tribución poblacional no es una cualquiera de las pertencientes a F, sino en particular
una de las del conjunto H.
En el contexto de un modelo estadístico paramétrico, cuando F puede representarse
como el conjunto de las distribuciones Fθ , con θ ∈ Θ ⊂ Rn ,1 una hipótesis estadística
1
Recordemos que en este contexto θ es un parámetro n-dimensional y Θ se denomina espacio
paramétrico.
192
CAPÍTULO 9. PRUEBAS DE HIPÓTESIS 193
puede expresarse diciendo que θ toma valores en un cierto subconjunto Θ0 del espacio
paramétrico. Por ejemplo, si el modelo tiene un solo parámetro (unidimensional), la
hipótesis H de que «θ es un valor positivo» puede representarse como
H: θ ∈ (0, +∞),
o más simplemente como

H: θ > 0.
En particular, distinguiremos entre hipótesis simple, que involucra un único valor

(es decir #Θ0 = 1), e hipótesis compuesta, que involucra más de un posible valor (es
decir #Θ0 > 1, posiblemente #Θ0 = ∞).
Hipótesis nula y alternativa
Intuitivamente, una prueba de hipótesis (o test de hipótesis o contraste de hipótesis),

es un procedimiento estadístico (es decir que involucra la toma de una muestra aleatoria
X1 , . . . , Xn ) que permite decidir entre dos hipótesis estadísticas excluyentes entre sí (es
decir que si una es cierta, la otra es necesariamente falsa).
Por diferentes consideraciones teóricas (tanto estadísticas, como relativas a los dife-
rentes problemas en que se aplica esta metodología), en general existirá una hipótesis
que se querrá sostener a menos que exista fuerte evidencia muestral en su contra. Dicha
hipótesis se denomina hipótesis nula o hipótesis cero y se suele representar como H0 .
En contraposición, la hipótesis que se sostendrá en caso de que la evidencia muestral
lleve a rechazar la hipótesis nula se denomina hipótesis alternativa y se representa como
H1 o Ha .
Este tratamiento «asimétrico» de las hipótesis puede parecer injustificado en un
principio, pero cobra sentido cuando una o las dos hipótesis involucradas son hipótesis
compuestas. Volveremos sobre esto más adelante.
9.1.2. Prueba de hipótesis: definición formal.

Damos a continuación la definición formal de una prueba de hipótesis.
Definición 37. Dada una muestra aleatoria de tamaño n para un modelo estadístico y
un par de hipótesis mutuamente excluyentes H0 vs. H1 para dicho modelo, se denomina
test o prueba de hipótesis a cualquier función
ϕ : Rn → {0, 1},
es decir, una función de la forma

1 si (X1 , . . . , Xn ) ∈ A
ϕ(X1 , . . . , Xn ) =
0 si (X1 , . . . , Xn ) ∈
/ A,
donde A ⊂ Rn .
La interpretación de la función ϕ es la siguiente: un resultado igual a 1 implica el

rechazo de H0 , mientras que un resultado igual a 0 resulta en el no rechazo de H0 .2
Estadísticos de prueba
La mayoría de los test de hipótesis usuales son de la forma

1 si g(X1 , . . . , Xn ) ∈ Rc
ϕ(X1 , . . . , Xn ) =
0 si g(X1 , . . . , Xn ) ∈
/ Rc ,
donde T = g(X1 , . . . , Xn ) es un estadístico unidimensional que no depende de pará-

metros desconocidos —así como tampoco su distribución— y se denomina estadístico
de prueba, y Rc ⊂ R se denomina región crítica. En estos casos, el procedimiento de
prueba de hipótesis involucra el cálculo del estadístico de prueba, previa determinación
de la región crítica: si el valor que toma el estadístico de prueba cae en la región crítica,
se rechaza la hipótesis nula H0 (en favor de la hipótesis alternativa H1 ); si en cambio,
el estadístico de prueba cae fuera de la región crítica, no se rechaza la hipótesis nula.
Más precisamente:
Definición 38. Un estadístico de prueba para una hipótesis simple H0 sobre un pa-
rámetro θ (es decir, una hipótesis de la forma θ = θ0 ) es una función de la muestra
aleatoria que no depende del parámetro (a diferencia de un pivote) y cuya distribución
cuando se supone que H0 es cierta es conocida3 y tampoco depende del parámetro.

En general, la siguiente observación permite usar resultados sobre intervalos de

confianza para obtener estadísticos de prueba.
2
En un contexto más general, este tipo de tests se denominan no aleatorizados. Un test aleatorizado,
en cambio, es una función de la muestra cuya imagen está en el intervalo [0, 1]; en tal caso, si por
ejemplo resulta ϕ(x1 , . . . , xn ) = 0,3 cuando se obtiene la muestra (x1 , . . . , xn ), se concluye que se
rechaza H0 con probabilidad 0,3, lo cual involucra un experimento aleatorio adicional para decidir
si efectivamente se rechaza H0 o no. El interés en este tipo de tests es principalmente teórico y no
tendrán mayor importancia en lo que sigue.
3
En este caso se obtienen los llamados tests de nivel exacto α, aunque en su defecto puede ser útil
conocer la distribución asintótica o una aproximación de la distribución real, y se obtienen entonces
tests de nivel asintótico α o tests de nivel aproximado α.
Observación 27. Si se cuenta con un pivote para θ y se quiere un estadístico de

prueba para
H0 : θ = θ0 ,
basta con reemplazar θ por θ0 en la expresión del pivote.
9.1.3. Contraste de hipótesis simples; tipos de error; potencia.

Para fijar los conceptos fundamentales, resulta útil considerar el contraste de dos
hipótesis simples. Digamos,
H0 : θ = θ0 vs. H1 : θ = θ1 ,
donde obviamente θ0 6= θ1 .
En principio, un test de hipótesis para realizar dicho contraste queda automática-
mente especificado al definir un estadístico de prueba T = g(X1 , . . . , Xn ) y una región
crítica Rc , que divide al soporte del estadístico (o rango, si fuera el caso) en dos. Pa-
ra simplificar, suponemos que el estadístico T es continuo y su soporte es R. De lo
contrario, es suficiente con restringirse a los valores del soporte de T en cada caso.
En principio, esta división del rango o soporte del estadístico de prueba entre la
región crítica y su complemento puede hacerse de forma arbitraria. Cualquiera sea el
caso, una vez fijada esta podemos definir el error de tipo I (ET I) como la decisión
incorrecta de rechazar H0 cuando esta es verdadera. No es una «mala decisión» en
términos morales, pues de hecho no es siquiera una decisión, entendida esta como
basada en la libertad y la voluntad; siendo en realidad el resultado de implementar
un procedimiento prefijado, siguiendo un protocolo, está fuera de las posibilidades de
quien realiza la prueba «decidir» en sentido estricto; más aún, quien realice la prueba
no sabrá en general si cometió un error, porque no sabrá que en realidad su hipótesis
es cierta o falsa (de lo contrario, no realizaría la prueba).
El ET I es el simple hecho de que, siendo cierto lo que se hipotetizaba (algo que
ningún/a investigador/a está en condiciones de saber), la elección aleatoria de la mues-
tra arroja —por azar— un valor del estadístico que cae en Rc . Claramente uno querrá
evitar cometer ese error si se diera el caso de que H0 es verdadera: la manera más obvia
de hacerlo sería definiendo una Rc vacía o de probabilidad 0, pero esto equivaldría a
no hacer nada y tomar la decisión de no rechazar H0 de antemano; y más todavía: si
eventualmente H0 fuera falsa, un «test» como ese jamás permitiría descartarla. Por lo
tanto, si se quiere tener cierta capacidad de descartar una hipótesis nula falsa, necesa-
riamente se debe correr un riesgo de cometer ET I: a ese riesgo se lo denomina nivel
de significación y se lo nota α. Cuando H0 es simple, viene dado por
~ = 1) = Pθ0 (ϕ(X)
α = PH0 (ϕ(X) ~ = 1).4
Si se desea controlar este riesgo —como es usual en los procedimientos de test de

hipótesis— debe elegirse una Rc que verifique la ecuación anterior. Para ello existen
múltiples posibilidades, lo que deja un margen de discrecionalidad aún mayor que
en el caso de los intervalos de confianza. En cualquier caso, existen varios resultados
teóricos (que están fuera del alcance de este curso) que prueban que en un gran número
de situaciones las opciones óptimas son regiones «sencillas». En particular, para el
contraste de dos hipótesis simples, la Rc más razonable suele ser el conjunto de los
puntos superiores o inferiores a cierta constante.5
En cualquier caso, la elección de una Rc de interés práctico se basa en general no
solo en H0 y α, sino también en lo que se supone que sucede en caso de que H0 no se
verifique, es decir, en la hipótesis alternativa, como se explica a continuación.
Si H0 es falsa, la decisión correcta o deseable es rechazarla y a la probabilidad de
que esto ocurra se la denomina potencia de la prueba (Π); la decisión incorrecta o
indeseable de no rechazar H0 en ese caso se denomina error de tipo II (ET II) y su
probabilidad se nota como β (claramente, β + Π = 1).
Teniendo en cuenta los dos tipos posibles de conclusión equivocada, la elección de
Rc no solo se hará de tal modo que se limite α a un valor fijado de antemano, sino que
entre las múltiples opciones, se preferirán las que tengan una alta potencia Π (una baja
probabilidad β de cometer ET II). Si se elige Rc de modo que —además de mantener
un nivel de significación α— la potencia sea la mayor posible, se dice que se tiene el
test más potente.
Como se dijo y se verá en los ejemplos, al contrastar un par de hipótesis simples
usualmente resulta razonable (y en la mayoría de los casos óptimo, en el sentido de la
máxima potencia) elegir a Rc como un intervalo de la forma (−∞, kα ) o (kα , +∞), o
las restricciones que correspondan de los mismos si el soporte del estadístico de prueba
no contiene a todos los números reales o si este es discreto.6 Es decir que estos tests
resultan en reglas de decisión de la forma
~ < kα
se rechaza H0 si g(X)
4
En lo que sigue, el subíndice H0 implica que se asume la validez de la hipótesis nula, y el subíndice
θ0 indica que este es el valor que se asume en los cálculos para el parámetro θ; análogamente se
interpretaran otras expresiones.
Vale aclarar que se evita expresar esto usando la notación condicional, por ejemplo
~ = 1|H0 es V),
P(ϕ(X)
etc., ya que las hipótesis estadísticas no representan en realidad sucesos aleatorios en la perspectiva
clásica, sino simplemente hechos ciertos o falsos, aunque desconocidos.
5
Esto es consencuencia del denominado Teorema de Neyman-Pearson.
6
Podrían ser también intervalos cerrados en kα ; en la mayoría de los casos esto no tiene mayor
relevancia, y menos aún si se usan estadísticos continuos.
o
~ > kα ,
se rechaza H0 si g(X)
donde se hace uso del conocimiento que se tiene de la distribución del estadístico bajo
H0 para determinar el valor kα que garantiza un nivel de significación α dado.
En cualquier caso, la elección de una u otra opción depende de cada caso particular,
lo que quedará más claro al ver ejemplos de aplicación.
9.1.4. Casos de hipótesis compuestas

Extendemos las definiciones anteriores al caso en que una o ambas hipótesis a
contrastar son compuestas.
Tests unilaterales
Supongamos ahora que la hipótesis nula es, como antes, simple, pero la hipótesis
alternativa resulta compuesta. En particular, estudiamos en este apartado los tests de
la forma
H0 : θ = θ0 vs. H1 : θ > θ0 ,
y su análogo
H0 : θ = θ0 vs. H1 : θ < θ0 .
Supongamos, para empezar, que se determinó para el caso del contraste de hipótesis
simples
H0 : θ = θ0 vs. H1 : θ = θ1
que la elección razonable para Rc es de la forma (kα , +∞)7 siempre que sea θ1 > θ0 .8
Entonces, cuando la hipótesis alternativa es θ > θ0 , aun con la dificultad de que la
hipótesis alternativa no supone ningún valor específico, tiene sentido tomar la misma
regla de decisión, ya que en caso de que H0 sea falsa resultará que θ = θ1 para algún
valor θ1 > θ0 .
El mismo razonamiento valdrá cuando se tenga un test razonable para
H0 : θ = θ0 vs. H1 : θ = θ1
7
Esto es solo un ejemplo: como se verá en el apartado 9.2, bien podría ser que la opción adecuada
fuera (−∞, kα ).
8
Desde ya, podría ocurrir que para ciertos θ1 > θ0 la región crítica óptima —la de mayor potencia—
sea una, y para otros valores una distinta. Sin embargo, en gran cantidad de casos de interés teórico y
práctico, incluyendo los que estudiaremos en el curso, los parámetros vienen de familias de distribucio-
nes donde tal «modificación» no ocurre, en cuyo caso se habla de familias de cociente de verosimilitud
monótono.
con θ1 < θ0 ; el mismo tests será razonable si la hipótesis alternativa es en realidad

θ < θ0 .
El único detalle importante ahora, es que los valores Π y β no están bien deter-
minados, sino que dependen de cuál sea el valor alternativo θ1 . Se trata entonces de
funciones Π(θ1 ) y β(θ1 ), con dominio en los valores de θ1 considerados en H1 , que se
denominan función de potencia y función de ET II.
Adicionalmente, si H0 fuera compuesta, surge una complicación adicional: el valor
α ya no está determinado, ya que la probabilidad PH0 (T ∈ Rc ) depende del valor de θ,
que no está bien definido si H0 incluye más de un posible valor. Por eso la definición
más general para α implica considerar todos los casos y tomar el mayor de los posibles
riesgos (técnicamente el supremo, aunque en la mayoría de los casos de interés existirá
el máximo, que desde ya coincide con el supremo). Más precisamente:
Definición 39. Dada una hipótesis nula
H0 : θ ∈ Θ0 ,
~ para testear H0 , se denomina nivel de significación del test
y un test de hipótesis ϕ(X)
al valor
α = sup Pθ (ϕ(X) ~ = 1).
θ∈Θ0
Con esta definición es claro que si se tiene un test de nivel α para contrastar
H0 : θ = θ0 vs. H1 : θ > θ0 ,
el mismo también es un test de nivel α (teniendo en cuenta la definición 39) para testear
H0 : θ ≤ θ0 vs. H1 : θ > θ0 ,
y que ambos tienen la misma función de potencia.9
Tests bilaterales. Insesgamiento.
Finalmente, consideremos brevemente el caso de un contraste de la forma
H0 : θ = θ0 vs. H1 : θ 6= θ0 .
Resulta usual que cuando una de las prueba unilaterales mencionadas en el apartado
anterior resulta óptima si la Rc es de la forma (k1,α , +∞), la prueba contraria (es
9
Desde ya, lo mismo vale si se invierten las desigualdades.
decir, con las desigualdades invertidas), resulta óptima al elegir una región de la forma
(−∞, k2,α ) y viceversa. Por este motivo, si la hipótesis alternativa incluye tanto valores
menores como mayores a θ0 , cualquier test con una Rc de esa forma sólo resultará
óptimo para rechazar H0 cuando θ esté de un lado de θ0 . Más aún, en general, si θ
toma un valor al otro lado de θ0 , se tendrá que —aunque H0 es falsa— será menos
probable rechazarla incluso que si fuera cierta. Esto es, de ese «lado de la hipótesis
nula», la potencia será menor que α.
Para resolver o atenuar esta dificultad, en la mayoría de los casos (incluyendo los
de cociente de verosimilitud monótono), el testeo de hipótesis bilaterales se hace con
una región crítica de la forma
Rc = (−∞, k1,α ) ∪ (k2,α , +∞),
donde los valores k1,α y k2,α se eligen de modo de alcanzar el nivel de significación
deseado.
Más aún, idealmente dichos valores podrían elegirse de tal manera que la prueba
tenga la siguiente propiedad deseable:
Definición 40. Se dice que un test ϕ para contrastar
H0 : θ ∈ Θ0 vs. H1 : θ ∈ Θ1
es insesgado si y solo si
~ = 1) ≤ ı́nf Pθ (ϕ(X)
α = sup Pθ (ϕ(X) ~ = 1).
θ∈Θ0 θ∈Θ1
Es decir, un test es insesgado si es más probable rechazar H0 en cualquier caso en

que esta sea falsa que en cualquier otro caso en que sea verdadera.
Como se verá en los ejemplos, lograr tests insesgados es simple en algunos casos, y
en otros implica dificultades computacionales análogas a las que surgen a la hora de
buscar intervalos de confianza «óptimos». En general, suele primar el sentido práctico y
buscar soluciones simples que —aun dando lugar a tests sesgados— resultan razonables
en la práctica.
9.2. Ejemplo: tests para una distribución exponencial

En esta sección desarrollamos los conceptos e ideas anteriores ejemplificando su
aplicación al estudio de una distribución E(λ) en la que el parámetro λ es desconocido.
Obtendremos a partir de una muestra aleatoria de dicha distribución:
Un estadístico de prueba para la hipótesis de que λ = λ0 .
La regla de decisión en términos de dicho estadístico para contrastar pares de

hipótesis tales como
• H0 : λ = 2 vs. H1 : λ = 3
• H0 : λ = 2 vs. H1 : λ > 2
• H0 : λ ≤ 2 vs. H1 : λ > 2
• H0 : λ = 2 vs. H1 : λ 6= 2, etc.
El motivo por el que elegimos la distribución exponencial para ejemplificar es que

es un caso menos «popular» que los clásicos tests basados en la distribución normal,
lo que permite realizar el estudio sin demasiadas ideas preconcebidas y obliga a una
elección cuidadosa de las regiones críticas.
Antes de comenzar, recordemos (ver ejemplo 43) que si X1 , ..., Xn es una muestra
aleatoria (v.a.i.i.d.) con Xi ∼ E(λ), entonces
n
X
2λnX̄ = 2λ Xi ∼ χ22n , (9.1)
i=1
que como se mencionó, es un pivote para λ.

Analizamos a continuación la aplicación de cada uno de los conceptos mencionados
en la sección previa a este caso.
9.2.1. Estadístico de prueba para testear λ = λ0

Como se vio en el apartado 9.1, un estadístico de prueba para una hipótesis simple
H0 sobre un parámetro θ (es decir, una hipótesis de la forma θ = θ0 ) es una función de
la muestra aleatoria que no depende del parámetro (a diferencia de un pivote) y cuya
distribución cuando se supone que H0 es cierta es conocida10 y tampoco depende
del parámetro.
Si se cuenta con un pivote para θ y se quiere un estadístico de prueba para
H0 : θ = θ0 , basta con reemplazar θ por θ0 en la expresión del pivote.
Luego, un estadístico de prueba11 para H0 : λ = λ0 es
χT EST = 2λ0 nX̄,

y se sabe que χT EST ∼ χ22n si H0 es verdadera12 .
9.2.2. Criterios para definir la región crítica

En esta instancia, sabemos que si se toma una muestra aleatoria X1 , ..., Xn de una
población E(λ) y se quiere poner a prueba la hipótesis simple H0 : λ = λ0 , entonces
χT EST = 2λ0 nX̄ ∼ χ22n si H0 es verdadera,
y por lo tanto χT EST así definido es un estadístico para testear H0 .

El proceso de test de hipótesis más usual, como se explicó, consiste en —una vez
definida una región crítica— tomar una muestra, calcular el correspondiente valor del
estadístico y en base a ese valor tomar la decisión de rechazar o no rechazar H0 .
En principio, la división del rango o soporte del estadístico entre Rc y su comple-
mento puede hacerse de forma arbitraria, aunque de la sección anterior surgen algunas
conclusiones:
para el caso de hipótesis simples suele ser razonable e incluso óptimo definir Rc
como el conjunto de valores superiores o inferiores a una cierta constante kα ;
dicha constante se determina de manera de lograr un determinado nivel de sig-

nificación (cabe aclarar que la distribución exponencial es de «cociente de vero-
similitud monótono»13 );
para el caso de hipótesis compuestas unilaterales se extienden las conclusiones

del caso de hipótesis simples;
11
Es práctica frecuente denominar ZT EST , Ze (e por «empírico» o por «estadístico»), Zc (c por
«calculado»), etc., a los estadísticos de diversos tests cuya distribución exacta o asintótica es la N (0, 1);
de igual modo, suele usarse tT EST y demás variantes si se trata de una distribución t-Student, χT EST
o χ2T EST cuando este sigue una chi-cuadrado, y así sucesivamente. Pero esto es apenas un nombre:
técnicamente todos podrían llamarse T , ET EST , Y , o de cualquier otra manera.
12
De hecho, el «éxito» de un buen test de hipótesis radica en el hecho de que si H0 es falsa —y
por lo tanto H1 es cierta— la distribución del estadístico es otra diferente; idealmente, una «muy»
diferente y tendiente a hacer muy probable la ocurrencia de valores que resultan «raros» desde el
punto de vista de H0 . Es decir, si H0 es falsa, lo ideal será que el estadístico tenga una distribución
que acumule mucha probabilidad o densidad de probabilidad en aquellos valores que consideramos
poco probables bajo H0 . Es claro incluso intuitivamente que si muchos valores de ese tipo surgen en
la muestra nos harán dudar seriamente de que H0 sea una hipótesis razonable (motivo por el que se
los asigna a la región de rechazo). Si la distribución del estadístico bajo H1 tuviera otra forma pero
aun así la densidad se concentrara en la región de no rechazo, el test será formalmente correcto, pero
tendrá baja potencia y será de poco interés práctico.
13
Ver nota 8.
para el caso de una hipótesis alternativa bilateral suele tomarse Rc como la unión
de dos intervalos.
En particular, resulta claro lo que ya se mencionó: la elección de una Rc razonable

no solo se hará de tal modo que se limite α a un valor fijado de antemano, sino que
entre las múltiples opciones, se preferirán las que tengan una alta potencia Π (una baja
probabilidad β de cometer ET II), lo que implica considerar la forma de H1 .
Para ejemplificar, consideremos el primer caso planteado.
Primer caso: dos hipótesis simples
Basados en el estadístico hallado, podemos plantear un test que nos permita con-
trastar
H0 : λ = 2 vs. H1 : λ = 3.
En este caso ambas hipótesis son simples: del espacio paramétrico de λ que es
(0, +∞), solo se consideran posibles los valores 2 y 3, por cuestiones que hacen a las
características del problema específico. Además, resulta que el χT EST = 2 · 2nX̄ = 4nX̄
solo puede tomar valores también en (0, +∞) (aunque no necesariamente deba darse
siempre esa coincidencia entre espacio paramétrico y soporte del estadístico).
Si se tiene noción del papel que λ juega en la distribución (por ejemplo, recordemos
que si λ es «grande» la esperanza de las Xi es «chica» —cercana a cero— y viceversa),
puede hacerse un análisis intuitivo de la situación. Notemos que como en última ins-
tancia χT EST es creciente en X̄, un valor «grande» del estadístico (y por tanto de X̄
y en última instancia de la mayoría, sino de todas, las Xi ) sugiere un valor «pequeño»
para λ. De la misma manera, los valores «bajos» del estadístico indican que deberíamos
inclinarnos por valores «altos» de λ. Como en este caso solo hay dos posibles valores,
si χT EST resulta elevado, el valor λ = 2 (el menor) será más razonable y se mantendrá
H0 . Por el contrario, si χT EST es bajo tenderemos a rechazar H0 y concluir que es más
razonable asumir que λ = 3.
En base a todo esto lo más razonable parece ser fijar un valor kα para establecer
una regla de decisión de la forma
Si χT EST < kα , entonces se rechaza H0 .
Si χT EST ≥ kα , entonces no se rechaza H0 ,
es decir que Rc = (0, kα ).

Pero esa decisión debe respetar el nivel de significación α que se haya prefijado, lo
que justifica la notación kα . Esta condición implica:
α = PH0 (χT EST ∈ Rc ) = Pλ=2 (χT EST < kα ).
Como con H0 verdadera se tiene la distribución χ22n para el estadístico, por definición
kα = χ22n,1−α , es decir, el valor de tabla que acumula probabilidad 1 − α a su derecha
(y consecuentemente, α a su izquieda, como se busca).
En conclusión, se tiene
Rc = (0, χ22n,1−α ),
es decir, la siguiente regla de decisión:
se rechaza H0 si y solo si χT EST < χ22n,1−α .14
Para completar la intuición sobre otros conceptos relacionados, recordemos que la

potencia de la prueba se define como
Π = PH1 (Rechazar H0 ) = Pλ=3 (χT EST < χ22n,1−α ).
Puede probarse que si —por ejemplo— α = 0,1 y n = 10, con la hipótesis alternativa
en cuestión se tiene Π = 0,4562.
Resulta interesante, sin embargo, que si se hubiese planteado al revés la condición
de rechazo (rechazar cuando χT EST > χ22n,1−α ), el mismo análisis daría, para los mismos
α y n, una potencia Π = 0,0023, un valor bajísimo, más aún cuando se compara con
el obtenido en el caso anterior. Esto justifica en parte la elección hecha para Rc .
Es claro que si se hubiera tenido, en cambio, H1 : λ = 1, el mismo análisis habría
dado la regla de decisión opuesta, lo que explica por qué decimos que una buena elección
de Rc (y eventualmente una elección óptima) implica considerar tanto el riesgo α como
la hipótesis alternativa (H1 ).
Segundo caso: hipótesis simple contra hipótesis compuesta unilateral
H0 : λ = 2 vs. H1 : λ > 2
14
Notemos una vez más que aunque la alternativa λ = 3 es mayor que el valor λ = 2 de H0 , esta
se rechaza cuando el estadístico toma valores bajos, en el extremo izquierdo de la distribución χ22n .
Esto es una simple consecuencia de la relación inversa entre λ y E(X̄), y si bien no tiene mayores
consecuencias, muestra la importancia de un análisis detallado y el riesgo de basarse en reglas rígidas,
muchas veces erróneas y cuya justificación la mayoría de las veces se desconoce, así como su utilidad
real y sus limitaciones.
El análisis anterior puede extenderse al caso en que se consideran en H1 todo un

conjunto de valores mayores a λ = 2, y no solo λ = 3, es decir, una hipótesis compuesta.
El caso más usual es considerar directamente H1 : λ > 2. 15
Una revisión del primer caso muestra que no hay mayor dificultad. En esa instancia
la elección de la forma de Rc como un intervalo de la forma
Rc = (0, χ22n,1−α ),
se basó exclusivamente en la elección del riesgo α y en la consideración de H1 , pero no

en el valor exacto 3, sino en el simple hecho de que 3 > λ0 = 2.
Es decir, si se hubiese tenido H1 : λ = 5 o H1 : λ = 100 o incluso H1 : λ = 2,001,
se habría planteado siempre la misma Rc con la respectiva regla de decisión. La única
diferencia habría sido que en unos casos el test habría resultado mucho más potente y
en otros mucho menos, pero en cada caso, la potencia para esa elección de Rc habría
sido más alta que para la elección opuesta.
En conclusión, en este caso también se toma
Rc = (0, χ22n,1−α ),
es decir, se rechaza H0 si y solo si χT EST < χ22n,1−α .

La única diferencia que surge respecto del caso anterior, no en el procedimiento sino
al analizar las propiedades estadísticas de este test, es que ya no podemos hablar de
la potencia Π del test a secas, sino que al menos debería aclararse qué valor específico
λ1 > 2 (o sea, correspondiente a H1 ) se utiliza en los cálculos. Surge entonces en este
caso no un valor numérico para Π, sino que en realidad se tiene una función de potencia
Π : (2, +∞) −→ [0, 1], Π(λ1 ) = Pλ1 4nX̄ < χ22n,1−α ,

que indica la potencia (es decir, la probabilidad de rechazar H0 ) para cada uno de los
posibles valores que puede tomar λ si H0 es falsa (es decir, para cada valor considerado
en H1 . El gráfico de esta función se denomina curva de potencia del test y muestra,
por ejemplo, qué tan «rápido» mejora la potencia del test cuando suponemos valores
de λ > 2 cada vez más alejados de λ0 = 2.
En la Figura 9.1 (pág. 205) se observan las curvas de potencia para diferentes valores
de n y α.
15
También se podría haber planteado H1 : λ > 3 o H1 : 4 < λ < 10, entre una infinidad de
posibilidades. En este caso se dice que las hipótesis son no contiguas, mientras que en el caso que
se analiza en este apartado H0 y H1 son hipótesis contiguas: no hay puntos de la recta entre {2} y
(2, +∞).
CAPÍTULO 9. PRUEBAS DE HIPÓTESIS
alpha=0.1 n=10 alpha=0.1 n=50 alpha=0.1 n=100 alpha=0.1 n=1000
1.0
1.0
1.0
0.8
0.8
0.8
0.8
0.6
potencia
potencia
potencia
potencia
0.6
0.6
0.6
0.4
0.4
0.4
0.4
0.2
0.2
0.2
0.2
2.0 3.0 4.0 5.0 2.0 3.0 4.0 5.0 2.0 3.0 4.0 5.0 2.0 3.0 4.0 5.0
lambda lambda lambda lambda

0.6
1.0
1.0
1.0
0.5
0.8
0.8
0.8
0.4
0.6
0.6
0.6
potencia
potencia
potencia
potencia
0.3
0.4
0.4
0.4
0.2
0.2
0.2
0.2
0.1
0.0
0.0
0.0
0.0
2.0 3.0 4.0 5.0 2.0 3.0 4.0 5.0 2.0 3.0 4.0 5.0 2.0 3.0 4.0 5.0
Figura 9.1: Curvas de potencia para H0 : λ = 2 vs. H0 : λ > 2
205
Tercer caso: ambas hipótesis compuestas y unilaterales
H0 : λ ≤ 2 vs. H1 : λ > 2
También este caso puede tratarse en base al análisis previo. La diferencia con res-
pecto a los casos anteriores es que H0 es ahora una hipótesis compuesta que cubre los
posibles valores de λ ≤ 2 (el intervalo (0, 2]). La principal consecuencia de esto es que
ya no tiene sentido hablar de la probabilidad de cometer ET I (es decir, rechazar H0
en el caso de que esta sea correcta), a menos que se indique para qué valor específico
de λ ≤ 2 se indica esa probabilidad.
Sin embargo, puede probarse en este caso (y también en los que se mencionan en los
próximos apartados, dado el tipo de distribuciones que involucran16 ) que si se define
Rc igual que en el caso anterior, entonces
Pλ (ET I)
alcanza su máximo valor (suponiendo H0 cierta, o sea λ ≤ 2) cuando λ = 2 = λ0 (o
sea, en el borde, donde H0 se «toca» con H1 ). Por lo cual, simplemente se debe dar una
nueva (y definitiva) definición del nivel de significación α como la máxima probabilidad
de cometer ET I, y así α es un valor independiente del valor real que tome λ dentro de
los incluidos en H0 . Hecha esta aclaración, la Rc se elige igual que en los casos anteriores
y valen las mismas consideraciones hechas sobre la potencia en el último apartado.
Cuarto caso: test bilateral
H0 : λ = 2 vs. H1 : λ 6= 2
Este test, en cambio, es esencialmente diferente a los anteriores. Recordemos que

en los tres casos ya vistos, que podríamos generalizar como
H0 : λ = λ0 vs. H1 : λ = λ1 (con λ1 > λ0 )

H0 : λ = λ0 vs. H1 : λ > λ0
H0 : λ ≤ λ0 vs. H1 : λ > λ0 ,
la Rc se definía siempre de la misma manera (en función de α y de n —que determinaba

la distribución—). Solo había diferencias de interpretación en los conceptos de potencia
o significación, que fueron debidamente generalizados.
16
I.e., familias de cociente de verosimilitud monótono.
Es un ejercicio sencillo revisar todo lo ya dicho y mostrar que si hubiésemos hecho

el análisis de un test para contrastar hipótesis de alguna de las formas
H0 : λ = λ0 vs. H1 : λ = λ1 (con λ1 < λ0 )

H0 : λ = λ0 vs. H1 : λ < λ0
H0 : λ ≥ λ0 vs. H1 : λ < λ0
se habría optado por el planteo opuesto: rechazar H0 para valores «grandes» del esta-
dístico. Más precisamente, se habría elegido en cualquiera de los tres casos
Rc = (χ22n,α , +∞).
Es fácil ver que ninguna de estas dos opciones para Rc puede dar buenos resultados
en el test bilateral. Si definiéramos, como en los primeros ejemplos,
Rc = (0, χ22n,α ).
el test seguiría teniendo nivel α de significación, y cuando se tenga λ > 2 (que implica
que H0 es falsa), la probabilidad de rechazar en general será mayor que α (siendo esta
última, recordemos, la probabilidad de rechazar cuando λ = 2 —que implica cometer
ET I —). Incluso es fácil calcular e intuir que si λ >> 2 la potencia será mucho mayor
que α y hasta puede probarse que Π −→ 1 si λ −→ +∞.
Pero si ocurriera que en realidad λ < 2, lo que en este caso también indica que H0
es falsa, surge de lo dicho en el ítem anterior sobre la redefinición de α que ahora la
probabilidad de rechazar H0 , la potencia de la prueba, será menor que α. Incluso puede
verse que esa potencia será menor cuanto menor sea λ y tenderá a 0 cuando también
λ lo haga.
Es decir que si H0 fuera falsa porque en realidad λ > 2, tendríamos buenas chances
de obtener una muestra que nos haga tomar la decisión deseable de rechazarla, una
alta potencia. Pero si H0 fuera igualmente falsa, pero por el motivo opuesto (λ < 2), la
probabilidad de rechazarla sería aun más baja que si en realidad fuera cierta (λ = 2).
Y esta situación claramente no deseable se profundizaría cuanto «más falsa» sea H0 en
esa dirección, es decir, cuanto más se aleje λ del valor 2 hacia la izquierda.
Sobra decir que la elección de
Rc = (χ22n,α , +∞)
generaría la situación opuesta: mucha potencia para detectar que H0 es falsa porque
λ < 2, pero poca o casi nula probabilidad de hacerlo si λ > 2 (incluso menos que la
probabilidad de, equivocadamente, rechazarla cuando λ = 2).
Esto sugiere la idea de dividir la Rc en dos partes, de manera que tanto valores
de λ sensiblemente menores a 2 como aquellos claramente mayores a 2 puedan ser
detectados con alta probabilidad. Es decir que la región crítica tendrá la forma
Rc = (0, k1,α ) ∪ (k2,α , +∞)
con k1,α < k2,α .

Estas constantes deben garantizar una significación α, es decir que
Pλ0 (k1,α < χT EST < k2,α ) = 1 − α;
pero análogamente a lo que ocurría en la construcción de intervalos de confianza, existen

infinidad de combinaciones de k1,α y k2,α posibles.
Como se explicó, una propiedad deseable para un test sería que la máxima proba-
bilidad de rechazar H0 siendo esta verdadera (o sea, el riesgo máximo de rechazarla
por error), no supere a la mínima probabilidad de rechazar H0 cuando por cualquier
motivo sea falsa (o sea, la mínima potencia posible). Cuando un test verifica esto, se
dice que es un test insesgado.
Los tests vistos hasta ahora en esta sección, y en general todos los tests unilaterales
que se deducen de los estadísticos presentados en las siguientes secciones son insesga-
dos (los que involucran familias de cociente de verosimilitud monótono). Pero los test
bilaterales no siempre lo son, sino que en general esto depende de la elección específica
de k1,α y k2,α que se haga, de entre las posibles que dan el nivel α buscado.
Si bien una opción es buscar k1,α y k2,α para lograr efectivamente un test insesgado,
esto no siempre es simple y suele requerir métodos computacionales. La alternativa más
simple suele ser dividir α en partes iguales (como es usual también en los intervalos de
confianza) y tomar entonces, para nuestro ejemplo,
Rc = (0, χ22n,1− α ) ∪ (χ22n, α , +∞),

2 2
que en ciertas situaciones, según la simetría de la distribución y la forma del estadístico,

puede asimismo dar como resultado un test insesgado aunque no sea lo que ocurre en
general. De todos modos, la mayoría de las veces la diferencia entre α y la mínima
potencia es pequeña y no genera mayores inconvenientes.
Para este problema en particular, las curvas de potencia para diferentes valores de
n y α pueden verse en la figura 9.2. Si bien se trata en realidad de tests sesgados, los
gráficos muestran claramente que en este caso esto resulta casi despreciable. A modo de
referencia, cabe mencionar que en el peor de los casos presentados (α = 0,01 y n = 10)
la mínima potencia se alcanza en aproximadamente λ = 1,03 (muy cercano a λ0 = 1)
y esta es apenas inferior a α.
CAPÍTULO 9. PRUEBAS DE HIPÓTESIS
0.8
0.8
0.8
0.8
potencia
potencia
potencia
potencia
0.4
0.4
0.4
0.4
0.0
0.0
0.0
0.0
0.0 1.0 2.0 0.0 1.0 2.0 0.0 1.0 2.0 0.0 1.0 2.0

0.8
0.8
0.8
0.8
potencia
potencia
potencia
potencia
0.4
0.4
0.4
0.4
0.0
0.0
0.0
0.0
0.0 1.0 2.0 0.0 1.0 2.0 0.0 1.0 2.0 0.0 1.0 2.0
Figura 9.2: Curvas de potencia para H0 : λ = 1 vs. H0 : λ 6= 1
209
9.3. Casos usuales de prueba de hipótesis

En esta sección se compilan resultados sobre la distribución de una variedad de
estadísticos muestrales que permiten resolver los problemas más usuales de inferencia
por intervalos y test de hipótesis (varios de estos resultados se demostraron en el
capítulo 6). Salvo algunos primeros casos a modo de ejemplo y para asentar ideas, o en
situaciones que requieren un análisis más específico, se presentan solo los estadísticos
que sirven de pivote para construir intervalos y se deja como ejercicio el análisis de
cómo obtener estadísticos de prueba y de qué manera definir las regiones críticas para
las diferentes hipótesis alternativas usuales.
Los casos que se presentan son los de inferencia sobre ciertos parámetros pobla-
cionales cuando se cuenta con una muestra aleatoria y de comparación de parámetros
entre dos poblaciones cuando se cuenta con dos muestras, una de cada población; en
ese caso, se distingue la situación de muestras tomadas independientemente y el caso
donde estas son dependientes por estar apareadas (por ejemplo, cuando se mide una
misma variable en dos situaciones o momentos diferenciados sobre las mismas unidades
muestrales).
9.3.1. Tests paramétricos para una muestra

La situación más frecuentemente estudiada de inferencia sobre una población es la
de estimación de la esperanza o media y de la varianza (o bien del desvío estándar). En
algunas situaciones, estos parámetros pueden tener una interpretación particular, como
cuando se estima la esperanza de una distribución de Bernoulli, donde el parámetro p
no solo es el valor esperado sino que representa la probabilidad de cierto suceso o la
proporción de unidades poblacionales que poseen determinada característica.
Además, si bien en principio estudiar los casos de inferencia sobre la media y la
varianza podría parecer suficiente, el hecho de que en muchas distribuciones (como la
de Bernoulli, precisamente) ambos momentos dependan del mismo parámetro, genera
algunas situaciones especiales o puede dar lugar a procedimientos alternativos.
Muestreo sobre una población normal: X1 , ..., Xn ∼ N (µ, σ 2 )
Cuando se tiene un modelo paramétrico como en este caso, se puede encontrar la

distribución conjunta de la muestra y a partir de ella deducir la de cualquier estadístico.
Sin embargo, no siempre es un ejercicio simple y muchas veces los resultados no son
«cerrados», sino que a lo sumo se puede aspirar a lograr aproximaciones numéricas. Sin
embargo, cuando se conoce que la distribución es normal se pueden obtener intervalos
y tests exactos para ambos parámetros poblacionales µ y σ 2 relativamente sencillos.
Estimación de µ
Varianza conocida. Si σ 2 es un valor conocido, entonces:
X̄ − µ
Z= ∼ N (0, 1)
√σ
n
es un pivote para µ, y bajo la hipótesis H0 : µ = µ0
X̄ − µ0
ZT EST = ∼ N (0, 1),
√σ
n
por lo que sirve como estadístico de prueba.
Varianza desconocida. Cuando no se conoce σ 2 ,17 se usa que
X̄ − µ
t= ∼ tn−1
√S
n−1
es un pivote para µ, y que bajo la hipótesis H0 : µ = µ0
X̄ − µ0
tT EST = ∼ tn−1 ,
√S
n−1
por lo que es un estadístico de prueba para H0 .
Estimación de σ 2
Media conocida. Si µ es un valor conocido, entonces:
nσ̂µ2
χ = 2 ∼ χ2n
σ
17
En realidad, en este como otros casos similares que aparecen más abajo, el resultado que se da es
—desde ya— independiente de que σ 2 sea un número conocido o no, y dado que no utiliza ese dato
puede aplicarse en cualquiera de los casos. Sin embargo, dado que el estadístico presentado antes —en
las pocas situaciones en que se tiene la información para usarlo— da lugar en general a tests más
potentes y los intervalos que surgen al tomarlo como pivote son más precisos en la mayoría de los
casos, el estadístico de la t − Student se reserva para cuando no hay otra opción viable.
es un pivote para σ 2 , y bajo la hipótesis H0 : σ 2 = σ02
nσ̂µ2
χT EST = 2 ∼ χ2n
σ0
es un estadístico de prueba para H0 : σ 2 = σ02 .
Media desconocida. Cuando no se conoce µ se considera el estadístico
nS 2
χ = 2 ∼ χ2n−1 ,
σ
que es un pivote para σ 2 ; luego, bajo la hipótesis H0 : σ 2 = σ02 ,
nS 2
χT EST = 2
∼ χ2n−1 .
σ0
En lo que sigue, en la mayoría de las situaciones solo se mencionan las expresiones

de pivotes aplicables a cada caso. Salvo aclaración, los estadísticos para los tests se
obtienen razonando en forma análoga a lo hecho hasta ahora.
Caso X1 , ..., Xn IID, muestra grande
Suponemos en este apartado que las Xi son independientes y todas tienen igual
distribución, aunque no se especifica cuál. Solo se supone que E(Xi ) = µ y var(Xi ) = σ 2
existen y son valores finitos. Los resultados que se presentan son asintóticos, por lo que
si n no es lo suficientemente grande, los resultados pueden ser notoriamente erróneos.
Por cierto, a partir de qué valor de n es válida la aproximación es una cuestión que varía
según las particularidades de la distribución poblacional en cuestión y de la precisión
requerida en cada aplicación.
Estimación de µ
Varianza conocida. Si σ 2 es un valor conocido, entonces, por el TCL:
X̄ − µ D
Z= −→ N (0, 1).
√σ
n
Varianza desconocida. Cuando no se conoce σ 2 se recurre al siguiente resul-

tado, que —como se vio— puede probarse mediante el TCL, la Ley de los Grandes
Números y el T. de Slutzky:
X̄ − µ D
Z= −→ N (0, 1).
√S
n
Caso particular: p en experimentos binomiales. Supongamos que Xi ∼ Be(p).

Como E(Xi ) = p y var(Xi ) = p(1 − p), vale por el apartado anterior que
p̄ − p D
Z=q −→ N (0, 1),
p(1−p)
n
pero también que

p̄ − p D
Z=q −→ N (0, 1).
p̄(1−p̄)
n
Ambos son pivotes asintóticos para p, aunque —como se vio en el capítulo 8— el

segundo da una expresión más simple para el intervalo (con el primero se debe resolver
una ecuación cuadrática).
Sin embargo, para los tests suele usarse el primero; es decir, se tiene en cuenta que
bajo la hipótesis H0 : p = p0
p̄ − p0 D
ZT EST = q −→ N (0, 1).
p0 (1−p0 )
n
9.3.2. Intervalos y tests paramétricos con dos muestras inde-

pendientes
2
Caso X1 , ..., XnX ∼ N (µX , σX ) e Y1 , ..., YnY ∼ N (µY , σY2 )
Estimación de µX − µY
2
Varianzas conocidas. Si se conocen σX y σY2 puede usarse como pivote de la
diferencia µX − µY el estadístico
(X̄ − Ȳ ) − (µX − µY )
Z= q 2 2
∼ N (0, 1),
σX σY
nX
+ nY
y bajo la hipótesis H0 : µX − µY = d0
(X̄ − Ȳ ) − d0
ZT EST = q 2 2
∼ N (0, 1)
σX σY
nX
+ nY
(El estadístico del test de igualdad de medias se obtiene en el caso particular d0 = 0).
2
Varianzas desconocidas iguales. Si no se conocen σX ni σY2 pero puede supo-
nerse que son iguales, puede usarse como pivote de µX − µY :
(X̄ − Ȳ ) − (µX − µY )
t= q ∼ tnX +nY −2 ,
Sp n1X + n1Y
donde
2
nX SX + nY SY2
Sp2 = .
nX + nY − 2
Procediendo análogamente al ítem anterior se obtiene un estadístico para la hipótesis
nula H0 : µX − µY = d0 .
2
Varianzas desconocidas distintas. Si no se conocen σX ni σY2 y no es razonable
suponer que son iguales o se sabe que no es así, se puede usar el hecho de que
(X̄ − Ȳ ) − (µX − µY )
tW = q 2
SX S2
nX
+ nYY
tiene aproximadamente una distribución tν , donde ν puede a su vez aproximarse por

el valor (truncado) de
2 2
SX SY2
nX
+ nY
ν≈ SX4 SY4
2
n ·(nX −1)
+ 2
n ·(nY −1)
X Y
Notar que no se está usando un resultado asintótico (de hecho, el procedi-

miento es válido incluso para valores relativamente chicos de nX y nY ): simplemente
se afirma que la distribución verdadera de tW en general puede aproximarse por la dis-
tribución t − Student con los grados de libertad dados por la expresión anterior (cuyo
valor preciso, por cierto, puede variar ligeramente de una muestra a otra incluso si se
2
mantienen los tamaños, ya que depende de SX y SY2 ).
Este test se conoce como prueba de Welch, en referencia a su ideólogo, el estadístico
británico Bernard Welch.
2
σX
Estimación de 2
σY
Caso general: medias desconocidas. En general, vale
nX SX2
nY − 1 σY2 Sn2X −1 σY2
F = · · = · 2 ∼ F(nX −1,nY −1) ,
nY SY2 nX − 1 σX 2
Sn2Y −1 σX
2
σX 2
σX
que da un pivote para 2
σY
o su inversa, y un estadístico de prueba para H0 : 2
σY
= c0 ,
2
σY
si se toma 2
σX
= c10 . En particular, si se lo reemplaza por 1 (es decir, se lo omite del
estadístico), sirve para testear la igualdad de varianzas.
Medias conocidas. En el (infrecuente) caso de que se conozcan µX y µY puede

σ2
usarse como pivote, así como para deducir un estadístico que testee H0 : σX2 = c0 el
Y
estadístico
σ̂µ2 σ2
F = 2X · Y2 ∼ Fnx ,nY .
σ̂µY σX
Caso X1 , ..., XnX IID e Y1 , ..., YnY IID, muestras independientes

2
Suponemos en este apartado que E(Xi ) = µX , var(Xi ) = σX , E(Yi ) = µY y
2
var(Yi ) = σY , todos momentos bien definidos y finitos.
Estimación de µX − µY
2
Varianzas conocidas. Si se conocen σX y σY2 puede usarse que
(X̄ − Ȳ ) − (µX − µY ) D
Z= q 2 2
−→ N (0, 1)
σX σY
nX
+ nY
Varianzas desconocidas. En caso contrario, puede usarse el hecho de que
(X̄ − Ȳ ) − (µX − µY ) D
Z= q 2 −→ N (0, 1),
SX SY2
nX
+ nY
lo que se deduce —entre otros resultados— del TCL, la LGN y el T. de Slutzky.

Caso particular : Diferencia de proporciones (pX −pY ) Consideremos dos mues-

tras independientes X1 , ..., XnX ∼ Be(pX ) e Y1 , ..., YnY ∼ Be(pY ). Si bien es cierto que
(p̄X − p̄Y ) − (pX − pY ) D

Z= q −→ N (0, 1),
pX (1−pX ) pY (1−pY )
nX
+ nY
esta expresión no es útil para hacer inferencia sobre pX − pY , ya que no solo depende de
dicha diferencia, sino también de los valores individuales de pX y pY , que se desconocen
(de hecho, si se los conociera no tendría sentido estimar su diferencia). Sin embargo,
se tienen los siguientes resultados:
Caso general. Puede usarse tanto para estimar pX − pY como para testear H0 :
pX − pY = d0 el hecho de que
(p̄X − p̄Y ) − (pX − pY ) D

Z= q −→ N (0, 1).
p̄X (1−p̄X ) p̄Y (1−p̄Y )
nX
+ nY
Prueba de igualdad. Adicionalmente, para la prueba de igualdad de proporcio-

nes puede probarse que bajo H0 : pX = pY (o sea, d0 = 0) vale:
p̄X − p̄Y D
ZT EST = r −→ N (0, 1),
p̂(1 − p̂) n1X + 1
nY
donde
nX p̄X + nY p̄Y
p̂ = .
nX + nY
9.3.3. Intervalos y tests paramétricos con dos muestras aparea-

das
En esta sección llamamos n al tamaño de cada muestra, es decir, n = nX = nY .
Más formalmente, consideramos que se toma una muestra aleatoria de vectores bidi-
mensionales de tamaño n de la forma (X1 , Y1 ), (X2 , Y2 ), ..., (Xn , Yn ), y que se pretende
comparar la distribución marginal de las Xi con la de las Yi .
Caso (Xi , Yi ) con distribución normal bivariada

2
Para alivianar la notación escribimos E(Xi ) = µX , E(Yi ) = µY , var(Xi ) = σX ,
2 18
var(Yi ) = σY y cov(Xi , Yi ) = ρσX σY .
Inferencia sobre µX − µY El análisis se basa en realidad en la muestra de las

diferencias Di = Xi − Yi .
2
En estas condiciones D1 , ..., Dn ∼ N (µD , σD ), donde
µD = E(Di ) = E(Xi − Yi ) = µX − µY
y
2
σD = var(Di ) = var(Xi − Yi ) =
2
= var(Xi ) + var(Yi ) − 2 cov(Xi , Yi ) = σX + σY2 − 2ρσX σY .
En particular, esto muestra que hacer inferencia (puntual, por intervalo o por tests)
para µX − µY es lo mismo que hacerlo para µD . Es decir que, en principio, el problema
se reduce a uno de los casos más simples: inferencia para la media de una sola muestra
de una distribución normal. No obstante, existen algunos detalles a considerar.
Es claro que σD̄−µ
√D ∼ N (0, 1), pero como en general los parámetros necesarios para
D/ n
calcular σD se desconocen, esto es de poca utilidad. En cualquier caso, también vale
que
D̄ − µD
t= SD
∼ tn−1 ,
√
n−1
por lo que este es un pivote para µD , y
D̄ − d0
tT EST = ∼ tn−1
√SD
n−1
si vale H0 : µD = d0 .
18
Claramente esto implica que si ρ 6= 0 Xi e Yi son dependientes (de hecho, ρ es el coeficiente de
correlación lineal ). Pero como la muestra es aleatoria, (Xi , Yi ) y (Xj , Yj ) son vectores independientes
si i 6= j; en particular, Xi e Yj son independientes, al igual que Yi e Yj , etc. En cualquier caso, el hecho
de que exista correlación entre Xi e Yi impide usar los procedimientos anteriores. Pero además puede
probarse que mediante procedimientos que den cuenta de estas relaciones —y si la correlación no es
demasiado débil— pueden lograrse estimaciones más eficientes, intervalos más precisos y tests más
potentes para analizar la diferencia de medias que si se hubiesen tomado dos muestras independientes
de igual tamaño y con las mismas varianzas.
Caso (Xi , Yi ) IID19
Suponemos que E(Xi ), E(Yi ), var(Xi ), var(Yi ) y cov(Xi , Yi ) son finitas y tienen las
expresiones ya mencionadas.
En esta situación las variables de la muestra D1 , ..., Dn también son IID y su media
y varianza son finitas, con las expresiones ya vistas. En tal caso, por TCL, la Ley de
los Grandes Números y el T. de Slutzky
D̄ − µD D
Z= SD
−→ N (0, 1)
√
n
por lo que asintóticamente es un pivote para µD .
19
Es decir, el vector (Xi , Yi ) es independiente de (Xj , Yj ) si i 6= j y ambos tienen la misma distri-
bución conjunta. Notar que esto implica que las Xk son IID (entre ellas) así como las Yk .
Capítulo 10
Métodos bayesianos
En este capítulo presentamos las principales ideas del enfoque bayesiano para la
inferencia estadística. Las nociones generales, incluyendo la fórmula de Bayes para el
cálculo de la distribución a posteriori se presentan en el apartado 10.1. En el aparta-
do 10.2 se definen los estimadores puntuales bayesianos correspondientes a una deter-
minada función de riesgo, y la versión bayesiana de los intervalos de confianza —los
intervalos creíbles— se desarrollan en el apartado 10.3.
10.1. Enfoque bayesiano del problema de inferencia

El principal rasgo del enfoque bayesiano para el problema de inferencia paramétrica
es que los parámetros desconocidos no se tratan como valores constantes (desconocidos,
pero fijos), sino como variables aleatorias. Existen interpretaciones variadas de este
planteo; aunque si bien es posible dar ejemplos donde esto es razonable desde una
perspectiva clásica o frecuencista de la probabilidad, lo usual es interpretar dichos
parámetros/variables aleatorias en función de la noción bayesiana (objetiva o subjetiva)
de la probabilidad: es decir, la distribución de probabilidad del parámetro a estimar
refleja las creencias de quien realiza la estimación acerca de los posibles valores de
aquel.
La consecuencia fundamental del enfoque bayesiano es que el parámetro se repre-
senta mediante una variable aleatoria (o un vector aleatorio, si se trata de un parámetro
multidimensional) a la que se asignará una distribución de probabilidad. Sin embargo,
existen al menos dos instancias de dicha distribución: en un principio, se establece una
distribución a priori, que refleja el conocimiento o las creencias iniciales sobre los posi-
bles valores que podría tomar el parámetro a estimar, sin tener en cuenta información
muestral (aunque es de esperar que esta distribución esté influida por observaciones an-
219
CAPÍTULO 10. MÉTODOS BAYESIANOS 220
teriores o, más en general, por cualquier experiencia previa); luego se toma una muestra
aleatoria, y la información resultante de esta se utiliza para revisar la distribución a
priori y —mediante la fórmula de Bayes— calcular una distribución actualizada por
la información muestral, que se denomina distribución a posteriori.
Para aclarar la notación que utilizaremos, debemos distinguir entonces:
la distribución de probabilidad de la variable de estudio que da lugar a la muestra

aleatoria
~ = (X1 , . . . , Xn ),
X
distribución que no se conoce con precisión, lo que da lugar a un modelo paramé-
trico con uno o más parámetros; desde el punto de vista teórico, de todos modos,
los pensaremos como un único parámetro θ, que puede ser escalar o vectorial (es
decir, unidimensional o multidimensional);
la distribución de probabilidad del parámetro desconocido, dado que —como se

dijo— en el enfoque bayesiano es considerado una variable aleatoria Θ (o en todo
~ 1
caso un vector aleatorio Θ).
La distribución de las variables Xi o de la muestra X ~ (que en el modelo clásico

representamos como FXi o FX~ , respectivamente) se representa en este caso como una
~ condicional al valor de Θ, es decir,
distribución condicional: la distribución de X
FX|Θ=θ
~ (~x).
En general, más relevante que la función de distribución (acumulada) resulta conocer

una densidad de probabilidad de X ~ o la función de probabilidad puntual —según las
Xi sean continuas o discretas—, que representamos
fX|Θ=θ
~ (~x) o pX|Θ=θ
~ (~x),
~ es
respectivamente. Consecuentemente, la densidad conjunta de la muestra X
n
Y
fX|Θ=θ
~ (~x) = fX|Θ=θ (xi ), 2
i=1
1
Para los parámetros representados con letras minúsculas del alfabeto griego es usual representar a
su «versión aleatoria» con la correspondiente mayúscula griega. Tal es el caso aquí, donde el parámetro
θ se interpreta como el valor que toma una variable aleatoria Θ. (Nótese además que esto difiere de
la convención de los capítulos anteriores, donde Θ representaba el conjunto de posibles valores del
parámetro θ —es decir, el espacio paramétrico—).
2
Aquí fX|Θ=θ es la distribución condicional a Θ = θ de cada una de las Xi , que por hipótesis son
idénticamente distribuidas.
y se procede análogamente para la probabilidad conjunta, si las Xi son discretas.

Por otro lado, la distribución de Θ puede representarse por una función de distri-
bución, pero en la práctica el dato más relevante es la densidad —si Θ es continua— o
la probabilidad puntual —si Θ es discreta—. Nótese que esto depende de la naturaleza
del parámetro θ, y no de la clasificación de las variables aleatorias Xi . En principio,
todas las combinaciones de muestra de variable continua o discreta y de parámetro
continuo o discreto son posibles, como se verá en los ejemplos que presentamos más
adelante. Por caso, si la variable que medimos sigue una distribución P(λ), donde λ
toma cualquier valor real positivo, X sigue una distribución discreta (la distribución
de Poisson), pero λ se piensa como realización de una variable aleatoria Λ que es con-
tinua con soporte en [0, +∞) (por ejemplo, podría ser una distribución exponencial,
F -Snedecor, Weibull, log-Normal, etc.). Inclusive, si solo se consideraran posibles para
λ valores en un subconjunto de (0, +∞), se podrían elegir otras posibilidades (como
una distribución Uniforme en cierto intervalo [a, b], una distribución Beta, etc.).
Ahora bien, en cualquier caso, cuando hablamos de distribución del parámetro Θ,
consideramos —como se explicó— dos distribuciones diferentes:
la distribución a priori, que representa nuestro conocimiento o suposición sobre

los posibles valores del parámetro y la mayor o menor razonabilidad de cada uno
de ellos, cuando no se tiene en cuenta información de la muestra;
y la distribución a posteriori, que resulta de incorporar la información muestral

(los valores ~x obtenidos para X)~ a la información dada por la distribución a
priori.
En estas condiciones la distribución a priori sería la distribución marginal de Θ,

~ tomó
mientras que la distribución a posteriori sería la distribución condicional a que X
los valores ~x. Por eso la distribución a posteriori en general se caracteriza mediante la
densidad condicional
fΘ|X=~
~ x (θ)
o la probabilidad condicional
pΘ|X=~
~ x (θ)
según sea Θ una variable continua o discreta, respectivamente (o incluso un vector

continuo o discreto).
Por otro lado, si bien la densidad o la probabilidad puntual a priori bien podrían
simbolizarse como fΘ o pΘ , es usual la notación
πΘ (θ), o simplemente π(θ),

tanto para representar una densidad como una función de probabilidad, donde la letra
π remite al término priori (prior en inglés).
En resumen, tenemos la siguiente notación:
Θ variable aleatoria (o vector aleatorio) que representa la incertidumbre sobre el

valor desconocido del parámetro θ;
θ variable numérica que representa los posibles valores del parámetro desconocido,
que son los posibles valores que asume la variable aleatoria Θ;3
πΘ (θ) o π(θ): densidad a priori de Θ = θ (o probabilidad, aunque en las aplica-

ciones más comunes Θ suele ser continua);
fX|Θ=θ
~ (~x) o fX1 ...Xn (x1 . . . xn |Θ = θ) o incluso fX|Θ
~ (~x|θ), etc.: densidad o proba-
bilidad conjunta de la muestra ~x = (x1 . . . xn ) dado el valor del parámetro Θ = θ
(notar que más allá de diferencias conceptuales esto coincide con la función de
verosimilitud de θ dada la muestra);
fΘ|X=~
~ x (θ), etc.: densidad (o probabilidad) a posteriori de Θ como función de la
variable θ.
10.1.1. Cálculo de la distribución a posteriori. Fórmula de Ba-

yes.
En términos generales, al establecer un modelo estadístico paramétrico para la
variable de estudio X, lo que se está definiendo es la función de densidad conjunta o
probabilidad conjunta de la muestra, o más simplemente: la función de verosimilitud
fX|Θ=θ
~ (~x).
De igual modo, una vez determinado el parámetro (o parámetros) desconocido(s),

se determina por algún procedimiento conveniente una distribución a priori que se le
asigna a Θ por ser considerado como una variable aleatoria: esta distribución es πΘ (θ).
3
En general, la relación entre Θ y θ será aquí —en buena medida— análoga a la relación entre X y x
en una expresión como fX (x), donde x es simplemente el nombre de la variable en la función fX , pero
bien se podría escribir fX (t), fX (y), fX (λ), etc., más allá de la costumbre extendida —que seguimos
también aquí— de usar para las funciones de densidad o probabilidad (y a veces también la función
de distribución) de una v.a. representada por una letra mayúscula, la correspondiente minúscula como
variable independiente en la definición de la relación funcional.
Luego, la única información relevante del planteo del problema que no surge inme-
diatamente es la distribución a posteriori de Θ
fΘ|X=~
~ x (θ).
Sin embargo, por definición de distribución condicional, sabemos que
fXΘ
~ (~ x, θ)
fΘ|X=~
~ x (θ) = .
fX~ (~x)
Pero Z
fX~ (~x) = fXΘ x, θ) dθ, 4
~ (~
R
y también
fXΘ
~ (~
x, θ) = fX|Θ=θ
~ (~x) · πΘ (θ) ,
por lo que se obtiene:
Teorema 15 (Fórmula de Bayes). (X continua y Θ continua)5
fX|Θ=θ
~ (~x) · πΘ (θ)
fΘ|X=~
~ x (θ) = R .
R
fX|Θ=θ
~ (~x) · πΘ (θ) dθ
Donde en la práctica se integra sobre los posibles valores de θ, ya que fuera de ese
conjunto la densidad πΘ (θ) es nula.
En última instancia, el denominador simplemente garantiza que la expresión obte-

nida sea una densidad; en particular, que integre 1. Teniendo en cuenta que siempre
debe cumplirse esa condición también puede escribirse:
~ x (θ) ∝ fX|Θ=θ
fΘ|X=~ ~ (~x) · πΘ (θ) ,
donde ∝ se lee “es proporcional a”, entendiendo que la constante de proporcionalidad no

depende de θ. Este planteo puede aprovecharse para evitar gran cantidad de cálculos,
como se verá en el siguiente ejemplo.
4
Esto es así en el caso de que la variable Θ sea absolutamente continua; en el caso de que sea
discreta con rango RΘ se tendrá X
fX~ (~x) = fXΘ
~ (~x, θ) .
θ∈RΘ
5
Para otros casos, la densidad de X se convierte en una función de probabilidad puntual, si X
es discreta, y la integral se transforma en una sumatoria como en la nota 4, si Θ es discreta (y la
densidad a posteriori también resultará una función de probabilidad puntual).
Ejemplo 51. Así, por ejemplo, si se desea calcular la distribución a posteriori del
parámetro Λ de la distribución de Poisson, suponiendo que a priori Λ ∼ Γ(α0 , l0 ),6 se
tiene
n
!
e−λ λxi l0 α0 α0 −1 −l0 λ
Y
~ x (λ) ∝ pX|Λ=λ
fΛ|X=~ ~ (~x) · πΛ (λ) = · λ e =
i=1
xi ! Γ (α0 )
Pn α0
e−nλ λ xi

i=1 l0 α0 −1 −l0 λ
= Qn · λ e .
i=1 (xi !) Γ (α0 )
Si se desechan todos los factores que no dependen de λ puede afirmarse:

Pn Pn
~ x (λ) ∝ e
fΛ|X=~ −nλ
·λ i=1 xi
· λα0 −1 · e−l0 λ = λ(α0 + i=1 xi )−1
· e−(l0 +n)λ .
Pn
Puede verse que si llamamos α∗ = α0 + i=1 xi y l∗ = l0 + n, se tiene
∗ −1 ∗λ
~ x (λ) ∝ λ
fΛ|X=~ α
e−l
y como lo único que falta es un factor que haga de la expresión de la derecha una
densidad, puede deducirse que
∗ ∗
~ x ∼ Γ (α , l ) .
Λ|X=~
10.1.2. Distribuciones conjugadas

En el ejemplo 51 teníamos para el parámetro de la distribución de Poisson a priori
Λ ∼ Γ(α0 , l0 ) y a posteriori (luego de incorporar la información muestral)
∗ ∗
~ x ∼ Γ (α , l ) ,
Λ|X=~
donde n
X
α ∗ = α0 + xi y l∗ = l0 + n.
i=1
Es decir que la distribución a posteriori cae en la misma familia: sólo se modifica («se
actualiza», en la jerga bayesiana) el valor de los parámetros, que en este contexto suelen
6
Es decir, suponemos una distribución Gamma de parámetros α = α0 y λ = l0 ; el cambio de λ
por l obedece a que λ representa en este caso el parámetro de la distribución de Poisson que sigue la
variable X a muestrear.
denominarse hiperparámetros (por ser «parámetros de la distribución del parámetro a

estimar»).
Por la propiedad observada, diremos que la familia de distribuciones Γ(α, λ) es con-
jugada para el parámetro λ de la distribución P(λ). Otros casos de conjugación pueden
verse en la tabla que se presenta a continuación.
CAPÍTULO 10. MÉTODOS BAYESIANOS
Parámetro a estimar Distribución a priori Hippar. a priori Hippar. a posteriori
α∗ = α0 + ni=1 xi
P
ρ en la distr. Be (ρ) P ∼ Beta (α0 , β0 ) α0 , β0
β ∗ = β0 + n − ni=1 xi
P
α∗ = α0 + n
ρ en la distr. G(ρ) P ∼ Beta (α0 , β0 ) α0 , β0 Pn
β ∗ = β0 + i=1 xi
Pn
α∗ = α0 + i=1 xi
λ en la distr. P (λ) Λ ∼ Γ(α0 , l0 ) α0 , l0
l∗ = l0 + n
α∗ = α0 + n
λ en la distr. E (λ) Λ ∼ Γ(α0 , l0 ) α0 , l0 Pn
l∗ = l0 + i=1 xi
Pn
µ0 i=1 xi
2+
σ0 σ 2
µ∗ = =
1 n
σ02 + σ2
Pn
∗ µ0 xi
µ en la distr. N (µ, σ 2 ), σ 2 conocida M ∼ N (µ0 , σ02 ) µ0 , σ02 = σ2 σ02
+ i=1
σ2
−1
∗ 1 n
σ2 = σ02
+ σ2
226
Observación 28. Es usual en estadística bayesiana utilizar el concepto de precisión de

una variable aleatoria X, que se nota como τX y se define como la inversa multiplicativa
de la varianza. Es decir,
1
τX = 2 .
σX
En estos términos, se puede representar la distribución normal en términos de los
parámetros µ y τ = σ12 , lo cual simplifica las fórmulas relacionadas a la distribución a
posteriori del parámetro µ de la distribución normal. En particular, si se reemplazan
σ 2 , σ02 y σ 2∗ por τ1 , τ10 y τ1∗ , respectivamente, se obtiene que: para estimar el parámetro
µ de la distribución N (µ, τ )
(donde τ es la precisión), si se supone que el valor de µ resulta de una variable aleatoria
distribuida a priori como
M ∼ N (µ0 , τ0 )
(donde, nuevamente, τ0 representa la precisión), entonces se tiene la distribución a
posteriori
τ0 µ0 + τ ni=1 xi
P
∗ ∗ ∗
~ x ∼ N (µ , τ ),
M|X=~ con µ = y τ ∗ = τ0 + nτ.
τ∗
Como se ve, las fórmulas que se obtienen en términos de la precisión son más sencillas
que las que se obtienen en términos de la varianza.
Sin embargo, la distribución a priori no necesariamente debe elegirse para que

resulte conjugada con el parámetro a estimar. De hecho, se supone que la definición
de la distribución a priori es el resultado de un análisis detallado y a conciencia de la
información extramuestral disponible, y solo motivos de practicidad en general llevan
a elegirla dentro de una familia de distribuciones conjugadas para el parámetro bajo
análisis.
Esto es así porque en los casos en que la distribución a priori que se determine
no sea conjugada para el parámetro a estimar, será necesario llevar adelante todos
los cálculos, mientras que cuando se usen distribuciones conjugadas se podrá acudir a
resultados previos como los que se resumen en la tabla anterior.
Ejemplo 52. Supongamos que se sabe que se quiere estimar el parámetro n de una
distribución Bi(n, ρ = 0,5), y supongamos también que se sabe por experiencia previa
que los posibles valores de n son 3, 4 o 5. Además, se considera el parámetro n como
la realización de una variable aleatoria N (siguiendo el enfoque bayesiano) y se asigna
una distribución a priori uniforme (también llamada priori no informativa), es decir:
n 3 4 5
π(n) 13 31 31
Si ahora se observa una realización de una variable X con la distribución mencionada

(es decir, una muestra de tamaño n = 1), podemos calcular la distribución a posteriori
como
pX|N =n (x) · π(n)
pN |X=x (n) = P5 .
n=3 pX|N =n (x) · π(n)
Entonces, si por ejemplo obtuvieramos la observación x = 2, obtendríamos las

siguientes probabilidades a posteriori:
pX|N =3 (2) · π(3)

pN |X=2 (3) = P5 =
n=3 pX|N =n (2) · π(n)
pX|N =3 (2) · π(3)

= =
pX|N =3 (2) · π(3) + pX|N =4 (2) · π(4) + pX|N =5 (2) · π(5)
3
2 3−2 1
2
0,5 0,5 ·3
= 3 2 3−2 1 4

2 0,54−2 · 1 + 5 0,52 0,55−2 · 1
≈ 0,353.
2
0,5 0,5 · 3
+ 2
0,5 3 2 3
Y de igual modo,
pX|N =4 (2) · π(4)
pN |X=2 (4) = P5 =
n=3 pX|N =n (2) · π(n)
4
2 4−2 1
2
0,5 0,5 ·3
= 3 2 3−2 1 4 ≈ 0,353
· 31 + 52 0,52 0,55−2 · 1

0,5 0,5 2
· 3 + 2 0,5 0,5 4−2
2 3
y
pX|N =5 (2) · π(5)
pN |X=2 (5) = P5 =
n=3 p X|N =n (2) · π(n)
5
2 5−2 1
2
0,5 0,5 ·3
= 3 2 3−2 1 4

2 0,54−2 · 1 + 5 0,52 0,55−2 ·
1
≈ 0,294.
2
0,5 0,5 · 3
+ 2
0,5 3 2 3
Es decir,
n 3 4 5
pN |X=2 (n) 0,353 0,353 0,294
Si en cambio se hubiese observado x = 4, repitiendo los cálculos (se sugiere hacerlos)

se obtendría
n 3 4 5
pN |X=4 (n) 0 0,286 0,714
donde se tuvo en cuenta que pX|N =3 (4) = 0, ya que el valor x = 4 no está en el rango
de una variable con distribución Bi(3; 0,5).
Un caso aparentemente paradójico surgiría si, por ejemplo, se observara x = 6. En

ese caso, las tres probabilidades
pX|N =3 (6), pX|N =4 (6) y pX|N =5 (6)
serían nulas y la fórmula de Bayes sería inaplicable, ya que el denominador y el nume-

rador se anularían también. Esto solo reflejaría el hecho de que la observación surgida
al azar muestra lo inadecuado del supuesto hecho mediante la distribución a priori (si
se observa el valor 6 es porque el parámetro n es al menos 6).
Ejemplo 53. Se extrae una muestra X1 , . . . , Xn de una población con densidad
(
κ
(1+x)κ+1
si x > 0
fX (x) =
0 si x ≤ 0,
donde el parámetro desconocido κ ∈ N, y se interpreta como realización de una variable

aleatoria K, para la que se supone a priori una distribución G 21 . Es decir,

1
πK (κ) = , κ = 1, 2, . . . .
2κ
Entonces
n
Y
~ x (κ) ∝ fX|K=κ
pK|X=~ ~ (~x) · πK (κ) = fXi |K=κ (xi ) · πK (κ),
i=1
y si todas las xi son positivas resulta

n κ+1
Y κ 1 1
~ x (κ) ∝
pK|X=~ κ+1
· κ = 2κn Qn .
i=1
(1 + xi ) 2 2 i=1 (1 + xi )
Si representamos como A la expresión entre paréntesis (que no depende de κ),

podemos decir que
n κ n κ
~ x (κ) ∝ 2Aκ A ∝ κ A ,
pK|X=~
y por lo tanto
κn Aκ
pK|X=~
~ x (κ) = P∞ n κ
.
κ=1 κ A
Si bien no existe una expresión sencilla para el caso general, para cada valor de n puede
darse una expresión cerrada. Por ejemplo, si n = 1, se tiene
κAκ κAκ
pK|X=~
~ x (κ) = P∞ κ
= A
= (1 − A)2 κAκ−1 ,
κ=1 κA (1−A)2
1
si |A| < 1 (condición que se verifica ya que A = 2(1+x1 )
y además x1 > 0).
Es decir que, si por ejemplo se tiene una muestra de tamaño n = 1 con x1 = 3,5,
1
es decir A = 2(1+3,5) = 91 , resulta
64κ
pK|X=3,5
~ (κ) = .
9κ+1
Cabe destacar que entre los últimos dos ejemplos y los presentados en la tabla de
distribuciones conjugadas, surgieron cuatro combinaciones alternativas:
estimación de un parámetro continuo de una distribución de variable continua

(por ej., el parámetro µ de la distribución normal);
estimación de un parámetro continuo de una distribución de variable discreta

(por ej., el parámetro λ de la distribución de Poisson);
estimación de un parámetro discreto de una distribución de variable continua

(como en el ejemplo 53);
estimación de un parámetro discreto de una distribución de variable discreta

(como en el ejemplo 52).
10.2. Estimadores puntuales bayesianos

Si se tiene una función de riesgo R (θ, a) (que mide la pérdida o gravedad de estimar
a cuando el verdadero valor es θ), el estimador bayesiano θ̂B
el valor desconocido como
es aquel estadístico g X ~ que minimiza el riesgo esperado
!

~
E R Θ, g X
~
(calculado teniendo en cuenta la distribución conjunta de Θ y X).

~ es el estimador bayesiano para la función de riesgo R si para
Es decir, θ̂B = g X
~ (que no sea función de θ) se cumple
cualquier estadístico muestral h(X)
! !

E R Θ, g X ~ ≤ E R Θ, h X ~ .
10.2.1. Funciones de riesgo usuales

Si bien cualquier función que verifique ciertas propiedades básicas7 es una función
de riesgo razonable, por motivos teóricos y prácticos existen ciertas funciones que se
usan en la mayoría de las situaciones. A continuación mencionamos tres de ellas y los
estimadores bayesianos que resultan en cada caso.
En efecto, puede probarse que:

R (θ, a) = (θ − a)2 (pérdida cuadrática) =⇒ θ̂B = E Θ|X=~
~ x ;

R (θ, a) = |θ − a| (pérdida lineal) =⇒ θ̂B = M e Θ|X=~
~ x ;
(
0 θ=a
R (θ, a) = (pérdida discreta) =⇒ θ̂B = M o Θ|X=~
~ x .
6 a
1 θ=
Ejemplo 54. Volviendo al ejemplo 51, supongamos que la distribución a priori fuera
más precisamente
Λ ∼ Γ(3, 4),
y que se toma una muestra de tamaño n = 5 cuya suma es 5i=1 xi = 7. En tal caso,
P
se tiene a posteriori
~ x ∼ Γ(10, 9).
Λ|X=~
Sin embargo, para obtener una estimación bayesiana de λ esto es solo una parte de
la historia, ya que se debe elegir una función de riesgo apropiada para el problema en
cuestión y esto indicará cómo obtener una estimación puntual.
Si por ejemplo, supusiéramos una pérdida de tipo cuadrática, resultaría

λ̂B = E Λ|X=~
~ x .
Ahora bien, sabiendo que la esperanza de una variable con distribución Γ(α, λ) es igual
a αλ , tenemos
10
λ̂B = ≈ 1,111.
9
7
En general, se requiere que R verifique R(θ, θ) = 0 y R(θ, a) creciente en a para a > θ y decreciente
en a para a < θ (la monotonía no es necesariamente estricta, en ambos casos).
Por otro lado, si se utiliza una función de pérdida lineal, debemos calcular la media-
na de la variable Λ|X=~
~ x . Y si bien no existe una expresión simple para el caso general,
para la distribución Γ(10, 9) puede calcularse numéricamente que

~ x ≈ 1,074.
λ̂B = M e Λ|X=~
Finalmente, si se supone una pérdida discreta, debe hallarse la moda, que es el valor
de λ > 0 que maximiza la densidad
910 9 −9λ
fΛ|X=~
~ x (λ) = λe ,
Γ(10)
y puede verse que este valor es

λ̂B = M o Λ|X=~
~ x = 1.

Ejemplo 55. Volviendo al ejemplo 52, donde se buscaba estimar el parámetro n de
la distribución Bi(n; 0,5), si se supone una pérdida cuadrática y se observa x = 2, la
estimación bayesiana será
n̂B = E(N|X=2 ) = 3 · 0,353 + 4 · 0,353 + 5 · 0,294 ≈ 3,94
(como este no es un valor posible, para efectos prácticos como calcular una probabilidad
por ejemplo, tal vez sería razonable usar como estimación n̂B = 4; tal vez sería más
razonable usar otra función de pérdida que asegure estimaciones correspondientes a
posibles valores de n).
Si se observara, en cambio, x = 4 y se tomara una pérdida discreta, se tendría
n̂B = M o(N|X=4 ) = 5,
ya que la máxima probabilidad de N|X=4 es pN |X=4 (5) ≈ 0,714.

Ejemplo 56. Si retomamos el ejemplo 53 con una muestra de una única observación
que resulta x1 = 3,5 y se tiene una función de pérdida lineal, tendremos

κ̂B = M e K|X=3,5
~ .
Si calculamos las probabilidades acumuladas como se muestra en la siguiente tabla

κ 1 2 3 ···
pK|X=3,5
~ (κ) 0,78 0,18 0,03 · · ·
FK|X=3,5
~ (κ) 0,78 0,96 0,99 · · ·
resulta que
κ̂B = 1
(ya que la probabilidad acumulada en ese valor supera 0,5).
A primera vista puede resultar confuso y hasta poco confiable el hecho de que
se puedan obtener diferentes estimaciones según la función de pérdida elegida; pero
esto no es necesariamente distinto a lo que ocurre en los métodos clásicos al aplicar
diferentes métodos de estimación. En todo caso, debe reconocerse que la elección de
una función de pérdida (así como de la distribución a priori del parámetro) tiene un
impacto fundamental en la estimación, por lo que debe realizarse a conciencia, teniendo
en cuenta las particularidades de cada problema.
10.3. Intervalos de credibilidad bayesianos

Definimos a continuación la versión bayesiana de los intervalos de confianza: los
«intervalos de credibilidad»o «intervalos creíbles».
Definición 41. Un intervalo de credibilidad bayesiano de nivel 1−α para el parámetro
θ —entendido como realización de una variable aleatoria Θ— es un intervalo [a, b] ⊂ R
tal que
P (a ≤ Θ ≤ b) = 1 − α.

Ejemplo 57. Supongamos que estudiamos una población con distribución N (µ, 9), y
que entendemos a µ como realización de una variable aleatoria M ∼ N (µ0 , σ02 ), lo cual
implica que la distribución a posteriori es
∗ 2∗
~ x ∼ N (µ , σ ),
M|X=~
con hiperparámetros µ∗ y σ 2∗ dados por las expresiones que figuran en la tabla de

distribuciones conjugadas.
Vemos que
M − µ∗

P −z α2 ≤ ≤ z α2 =1−α
σ∗
y esto implica que
P µ∗ − z α2 · σ ∗ ≤ M ≤ µ∗ + z α2 · σ ∗ = 1 − α.

Por lo tanto, un intervalo bayesiano de nivel 1 − α es

∗
µ − z α2 · σ ∗ , µ∗ + z α2 · σ ∗ .

Así, si tuviéramos para MP una distribución a priori N (10, 4) y una muestra de

tamaño n = 15 para la cual xi = 124, tenemos que la distribución a posteriori de
M es también normal, pero con hiperparámetros
−1
2∗ 1 15 12
σ = + = ' 0,5217.
4 9 23
y
∗ 12 10 124 586
µ = + = ' 8,493
23 4 9 69
Entonces, digamos a un nivel 0,95, un intervalo de credibilidad bayesiano es

h p p i
8,493 − z0,025 · 0,5217 ; 8,493 + z0,025 · 0,5217 ,
es decir
[7,07 ; 9,91] .
Visto de otra manera, una vez obtenida la muestra mencionada, podríamos decir
que condicionando a la misma se tiene
P(7,07 ≤ M ≤ 9,91) = 0,95.
Cabe notar que en la inferencia bayesiana tienen sentido expresiones como la ante-
rior, mientras que en la inferencia clásica no tiene sentido la expresión
∗ 8
P(7,07 ≤ µ ≤ 9,91) = 0,95,
dado que M es una variable aleatoria, pero µ no lo es.
8 ∗
El asterisco indica precisamente que la expresión que se muestra es incorrecta.
Apéndice A
Las funciones Gamma y Beta
Presentamos aquí la definición de dos importantes funciones que surgen en un am-

plio espectro de áreas del conocimiento matemático: la función Gamma (Γ) y la función
Beta (B). En la teoría de la probabilidad y la estadística resultan importantes tanto
para definir sendas familias homónimas de distribuciones de probabilidad, como para
simplicar el cálculo de ciertas integrales.
A.1. La función Gamma

Definición 42. Definimos la función Gamma como Γ : (0, +∞) −→ R dada por
Z +∞
Γ(z) = xz−1 e−x dx.
0
Observación 29. En textos de análisis complejo, Γ se define como una función de

variable compleja, y por eso es usual denominar z a la variable independiente (como
suele hacerse con las funciones de variable compleja); pero esa definición presupone el
conocimiento de la integral compleja. En cualquier caso, para nuestros fines es suficiente
con definirla sobre los números reales positivos.
Por complicada que pueda parecer la definición, evaluar Γ en un punto de su dominio

es inmediato, al menos en teoría. Por ejemplo:
Z +∞ Z +∞
1−1 −x
Γ(1) = x e dx = e−x dx = −e−x |+∞
0 = 0 − (−1) = 1,
0 0
235
APÉNDICE A. LAS FUNCIONES GAMMA Y BETA 236
es decir que Γ(1) = 1 (notar que solo la variable z se sustituyó por 1; la variable x se
mantiene ya que es la variable de integración).
De la misma manera, podríamos calcular Γ(5) como
Z +∞ Z +∞
5−1 −x
Γ(5) = x e dx = x4 e−x dx;
0 0
sin embargo encontrar el valor exacto de esta integral por los métodos usuales implicaría
aplicar cuatro veces consecutivas la regla de integración por partes.
Veamos qué sucede al integrar por partes en un contexto más general:
Z +∞ Z +∞
(z+1)−1 −x
Γ(z + 1) = x e dx = xz e−x dx =
0 0
Z +∞
= xz (−e−x )|+∞
x=0 − zxz−1 (−e−x ) dx.
0
Pero
xz
xz (−e−x )|+∞ + 0z e−0 = 0
x=0 = lı́m −
x
x→+∞ e
(que puede probarse aplicando repetidamente la regla de L’Hospital), de donde surge
Z +∞
Γ(z + 1) = z xz−1 e−x dx,
0
es decir
Γ(z + 1) = zΓ(z).
En particular, podemos aplicar esta fórmula recursiva a valores naturales de z. Por

ejemplo, volviendo al caso de Γ(5), podemos decir que
Γ(5) = Γ(4 + 1) = 4 · Γ(4).
Pero esto no es suficiente si desconocemos Γ(4). Sin embargo, podemos aplicar la misma
fórmula reiteradas veces para descender hasta el único valor que conocemos por el
momento, i.e. Γ(1) = 1. Así obtenemos
Γ(5) = 4 · Γ(4) = 4 · 3 · Γ(3) = 4 · 3 · 2 · Γ(2) = 4 · 3 · 2 · 1 · Γ(1) = 4 · 3 · 2 · 1 = 4! = 24.
Más aún, es fácil generalizar esta conclusión y probar que si z ∈ N, entonces
Γ(z) = (z − 1)!.
Esto nos da el valor de Γ para infinitos valores de z y también muestra que en cierto
sentido Γ funciona como una generalización continua del factorial. Pero, el cálculo de
Γ(z) cuando z no es un número natural requiere la mayoría de las veces de la apli-

cación de métodos de integración numérica para aproximar el resultado. Por ejemplo,
integrando numéricamente se obtiene que
Z +∞
3 3
Γ = x 5 −1 e−x dx ≈ 1,489.
5 0
De todos modos, cabe notar que conocer o aproximar el valor de Γ en (0, 1] permite
hacer lo mismo con cualquier otro valor, ya que por ejemplo

13 8 8 8 8 3 8 3 3 8 3
Γ =Γ + 1 = ·Γ = ·Γ + 1 = · ·Γ ≈ · ·1,489 ≈ 1,429.
5 5 5 5 5 5 5 5 5 5 5
Un valor importante, que puede calcularse en forma exacta es Γ 12 . Para esto, se

2 √ √
puede usar la sustitución x = u2 , que para x > 0 equivale a u = 2 x y además
implica dx = u du (notar que u(0) = 0 y u(+∞) = +∞, por lo que los límites de
integración no cambian). Así se obtiene
Z +∞ Z +∞ −x
1 1
−1 −x e
Γ = x e dx =
2 √ dx =
2 0 0 x
u2
√ Z +∞
e− 2 √ Z +∞
u2
= 2 · u du = 2 e− 2 du.
0 u 0
Ahora bien, de la densidad de la distribución normal estándar sabemos que
Z +∞
1 u2 1
√ e− 2 du = ,
0 2π 2
de donde surge inmediatamente que
1 √ √
Z +∞
u2
e− 2 du = · 2 π,
0 2
por lo que
√ Z +∞ − u2 √ 1 √ √ √

1
Γ = 2 e 2 du = 2 · · 2 π = π.
2 0 2
calcular otros valores como Γ 32 , Γ 5

Desde ya, este resultado permite 2
y en general
cualquier de la forma Γ n2 con n ∈ N.

Resumimos estos resultados a continuación.
Propiedad 39. La función Γ satisface las siguiente propiedades:

Para cualquier valor de z > 0,

Γ(z + 1) = zΓ(z);
Si n ∈ N,
Γ(n) = (n − 1)!;
1
√
Γ 2
= π.
A.2. La función Beta

La función Beta (B) es una función de dos variables que aquí notaremos con a y b.
Definición 43. La función Beta se define como
Z 1
B(a, b) = xa−1 (1 − x)b−1 dx,
0
para valores a > 0 y b > 0.
En principio podemos calcular valores de B aplicando la definición, como hicimos

con Γ. Por ejemplo:
Z 1 Z 1
2−1 1−1 1
B(2, 1) = x (1 − x) dx = x dx = .
0 0 2
En general, si a y b son números naturales, es posible evaluar B(a, b) en forma

exacta ya que su valor es la integral de cierto polinomio (de grado a + b − 2) en el
intervalo [0, 1]. De todos modos, para valores grandes de a y b esto implica cálculos
tediosos; además si a b no son números naturales la integral puede ser más difícil de
calcular o directamente imposible, y solo aproximable por métodos numéricos.
La siguiente propiedad, cuya demostración omitimos (se basa en el teorema de
cambio de variables), muestra cómo calcular valores de B basándose en el conocimiento
de la función Γ.
Teorema 16. Para cualquier par de valores reales positivos (a, b) vale
Γ(a) · Γ(b)
B(a, b) = .
Γ(a + b)
Volviendo al ejemplo anterior, podríamos haber usado este teorema para ver que
Γ(2) · Γ(1) 1! · 0! 1
B(2, 1) = = = ,
Γ(2 + 1) 2! 2
que obviamente coincide con el resultado obtenido antes.
A.3. Aplicaciones al cálculo de integrales

Dado que los valores que toman las funciones Γ y B representan por definición
ciertas integrales, saber hallar dichos valores sin recurrir a las definiciones resulta una
alternativa práctica para el cálculo de aquellas. Veamos unos ejemplos.
Ejemplo 58. Consideremos la integral
Z +∞
x8 e−x dx,
0
que con los métodos usuales podría calcularse aplicando ocho veces la fórmula de inte-
gración por partes.
Claramente podemos reescribir dicha integral como
Z +∞
x9−1 e−x dx = Γ(9) = 8!.
0
Y podemos concluir entonces, casi sin realizar cálculos, que

Z +∞
x8 e−x dx = 8! = 40 320.
0

Ejemplo 59. Análogamente, si queremos calcular la integral (impropia)
Z 1r
x
dx,
0 1−x
podemos reescribirla y calcularla como
3 1
Z 1 Z 1
·

1 1 3 1 3 1 Γ Γ
x 2 (1 − x)− 2 dx = x 2 −1 (1 − x) 2 −1 dx = B , = 2
3 1
2 =
0 0 2 2 Γ 2
+ 2
1
· Γ 12 · Γ 21

π
= 2 = .
Γ(2) 2

En los dos ejemplos anteriores la integral que se pretendía calcular coincidía con un
valor de la imagen de Γ o de B. Pero existen también casos en los que si bien a simple
vista no es posible realizar el mismo procedimiento, una cierta sustitución resuelve esta
dificultad.
Ejemplo 60. Si queremos calcular

Z +∞
x7 e−3x dx,
0
es falso que su valor sea igual a Γ(8) ya que el exponente de la exponencial no es −x

sino −3x.
Pero si realizamos la sustitución u(x) = 3x (que implica x = u3 , dx = du
3
, u(0) = 0
y u(+∞) = +∞) obtenemos
Z +∞ Z +∞ 7 Z +∞
7 −3x u −u du 1 1 Γ(8) 7!
xe dx = e = 7· · u7 du = 8 = 8 .
0 0 3 3 3 3 0 3 3

En general, siguiendo el mismo procedimiento que en el ejemplo anterior se puede

probar más en general el siguiente resultado, que podríamos haber aplicado directa-
mente.
Propiedad 40. Si z > 0 y λ > 0, vale la fórmula

Z +∞
Γ(z)
xz−1 e−λx dx = z .
0 λ

Apunte Estadística II - Nassif

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Apunte Estadística II - Nassif

Cargado por

Copyright:

Formatos disponibles

Fundamentos de probabilidad y estadística

Prof. Alejandro Nasif Salum

1. Introducción: espacios de probabilidad 6

6. Distribución de estadísticos muestrales 112

6.1. Distribuciones usuales en el muestreo . . . . . . . . . . . . . . . . . . . 112

7. Estimadores puntuales 134

8. Intervalos de confianza 175

9. Pruebas de hipótesis 192

10.Métodos bayesianos 219

A. Las funciones Gamma y Beta 235

A.1. La función Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235

Introducción: espacios de probabilidad

1.1. El espacio muestral

2. También podríamos centrar nuestro interés en ver si el dado al detenerse se en-

3. Podrían tenerse en cuenta ambas cuestiones y definir el siguiente espacio muestral

4. Si lo que se toma en cuenta es el tiempo en segundos que tarda el dado en quedarse

o cualquier alternativa que con certeza incluya todas las posibilidades.

Ω5 = {(n; c; t) : n ∈ N, 1 ≤ n ≤ 6, c ∈ {m; f }, t ∈ (0; +∞)},

donde la terna ordenada (n; c; t) indicará el número (n) de puntos presentes en la

1.2. La σ-álgebra de eventos

Un hecho central para comprender el sentido de este apartado, es que en un marco

A: el dado deje de moverse durante los primeros diez segundos;

B: al detenerse muestre un número par en la cara superior (que «salga» un número

C: caiga fuera de la mesa y «salga» el dos.

Por lo tanto, además de definir el conjunto de los posibles resultados (entendidos

Para esto, se elije una familia de subconjuntos de Ω lo suficientemente amplia como

¿cuál es la probabilidad de que ocurra E?

¿cuál probabilidad es mayor: la de que ocurra E o la de que no ocurra F?

¿cuál es la probabilidad de que ocurran E o F (o ambos), pero sin que ocurra G?

solo tienen sentido y se podrán responder siempre que

Esto no quita generalidad alguna, ya que si quisiéramos también poder considerar la

que correspondería al evento el dado deja de moverse durante el primer segundo; a

que correspondería al evento el dado deja de moverse durante el k-ésimo segundo. Si

La intersección de una sucesión infinita también se justifica con ideas similares. En

necesariamente se cumple la propiedad correspondiente para intersecciones infinitas,

P(Ω2 ) = {∅, {m}, {f }, Ω2 }.

Si tuviéramos un conjunto finito con más elementos, como Ω1 u Ω3 , desde ya el

el propio Ω1 (1 evento) y ∅ (1);

Es decir que #P(Ω1 ) = 2 · 1 + 2 · 6 + 2 · 15 + 20 = 64 = 26 . Y este resultado podía

Propiedad 1. Si A es un conjunto finito cualquiera (#A < ∞), entonces

Demostración. (Se demuestra por inducción en n = #A).

Observación 1. Es notable que la fórmula vale incluso si #A = 0 (es decir, A = ∅,

Como ya se mencionó al comienzo de esta sección, si el espacio muestral es fi-

De todos modos, en realidad esta mayor complejidad de asignar probabilidades

subconjuntos del espacio muestral no se consideran eventos, el cardinal de E

E = {∅, {1, 3, 5}, {2, 4, 6}, Ω1 } P(Ω1 );

Pero si Ω es infinito no numerable, una serie de dificultades técnicas hacen inviable

es necesario pensar a la probabilidad como una función con dominio en E y no en Ω.

1.3. La función de probabilidad

1.3.1. Diferentes nociones de probabilidad

Pero la intención de los párrafos anteriores es muy simple: la idea de «probabilidad»

La noción clásica de la probabilidad

La noción o interpretación clásica de la probabilidad es probablemente la que más

La probabilidad de un evento es el cociente entre el número de casos

De esta simple oración pueden extraerse varias conclusiones. En primer lugar, si

La noción frecuencista de la probabilidad

La noción bayesiana de la probabilidad

propensión a ocurrir en ensayos repetidos. Y en todo caso, se trata de creencias fundadas

1.3.2. Propiedades «esperables» de una función de probabili-

Ω = {uno, dos, tres, cuatro, cinco, seis}.

Consideremos que E = P(Ω) y definamos los eventos

A = {dos, cuatro, seis} y B = {uno, dos},

A ∪ B = {uno, dos, cuatro, seis}

B C = {tres, cuatro, cinco, seis}