Pontificia Universidad Cato Lica Del Peru Facultad de Ciencias Sociales Especialidad de Economía

PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ
Facultad de Ciencias Sociales

Especialidad de Economía
ESTADÍSTICA INFERENCIAL
Notas de clase
Arturo Calderón Garcı́a

Luis Hilmar Valdivieso Serrano
2021
Índice general
1. Probabilidad y variable aleatoria 1

1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Probabilidad: Enfoque axiomático . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.1. Conceptos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.2. σ-álgebra de eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3. Definiciones de probabilidad y propiedades . . . . . . . . . . . . . . . . . . . . . . . 9
1.4. Casos especiales de asignación de probabilidades . . . . . . . . . . . . . . . . . . . . 19
1.4.1. Probabilidad geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.4.2. Probabilidad en espacios numerables . . . . . . . . . . . . . . . . . . . . . . . 21
1.5. Probabilidad clásica y técnicas de conteo . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.5.1. Permutaciones y combinaciones . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.6. Probabilidad condicional e independencia . . . . . . . . . . . . . . . . . . . . . . . . 27
1.6.1. Probabilidad Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.6.2. Independencia probabilı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1.6.3. Probabilidad total y el teorema de Bayes . . . . . . . . . . . . . . . . . . . . . 31
1.7. Variable Aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
1.7.1. Definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
1.7.2. Clasificación de las variables aleatorias . . . . . . . . . . . . . . . . . . . . . . 40
1.7.3. Variable discreta y función de probabilidad . . . . . . . . . . . . . . . . . . . 40
1.7.4. Variable continua y función de densidad . . . . . . . . . . . . . . . . . . . . . 43
1.8. Valor esperado o esperanza matemática . . . . . . . . . . . . . . . . . . . . . . . . . . 49
1.8.1. Casos especiales de valor esperado . . . . . . . . . . . . . . . . . . . . . . . . 51
1.8.2. Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
1.8.3. Función generatriz de momentos . . . . . . . . . . . . . . . . . . . . . . . . . 61
1.8.4. Cambio de variable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
1.8.5. Cálculo del valor esperado por desarrollo asintótico . . . . . . . . . . . . . . 63
1.9. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
2. Distribuciones importantes 69
2.1. La distribución hipergeométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
2.2. La distribución binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
2.3. La distribución geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
1
2 ÍNDICE GENERAL
2.4. La distribución de Pascal o binomial negativa . . . . . . . . . . . . . . . . . . . . . . 77

2.5. La distribución de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
2.6. La distribución uniforme. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
2.7. La distribución exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
2.8. La distribución gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
2.9. La distribución beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
2.10. La distribución normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
2.11. La distribución lognormal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
2.12. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
3. Vector aleatorio 99
3.1. Definición y clasificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
3.2. Distribuciones de probabilidad para un vector aleatorio discreto . . . . . . . . . . . 101
3.3. Distribuciones de densidad para un vector aleatorio continuo . . . . . . . . . . . . . 105
3.3.1. Integrales dobles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
3.3.2. Densidades conjuntas, marginales y condicionales . . . . . . . . . . . . . . . 109
3.4. Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
3.5. Valor esperado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
3.5.1. Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
3.6. La esperanza condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
3.7. Vectores aleatorios multidimensionales . . . . . . . . . . . . . . . . . . . . . . . . . . 118
3.7.1. La función generatriz de momentos de un vector aleatorio . . . . . . . . . . . 119
3.7.2. Vector particionado y distribuciones conjuntas . . . . . . . . . . . . . . . . . 119
3.8. Distribuciones multivariadas importantes . . . . . . . . . . . . . . . . . . . . . . . . 122
3.8.1. La distribución multinomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
3.8.2. La distribución hipergeométrica multivariada . . . . . . . . . . . . . . . . . . 123
3.8.3. La distribución normal multivariada . . . . . . . . . . . . . . . . . . . . . . . 125
3.8.4. La distribución de Dirichlet . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
3.9. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
4. Muestreo y estadı́sticas 139

4.1. Población, muestra y estadı́sticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
4.2. La ley de los grandes números y el TLC . . . . . . . . . . . . . . . . . . . . . . . . . . 142
4.3. Distribuciones muestrales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
4.3.1. La distribución Ji-cuadrado . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
4.3.2. La distribución t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
4.3.3. La distribución F de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
4.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
5. Estimación puntual de parámetros 157

5.1. El problema de la estimación puntual . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
5.2. Propiedades de un buen estimador . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
5.3. Métodos de estimación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
Facultad de Ciencias Sociales PUCP 1
5.3.1. El método de momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164

5.3.2. El método de la máxima verosimilitud . . . . . . . . . . . . . . . . . . . . . . 166
5.3.3. El método de mı́nimos cuadrados . . . . . . . . . . . . . . . . . . . . . . . . . 172
5.4. Propiedades de los estimadores de máxima verosimilitud . . . . . . . . . . . . . . . 178
5.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
6. Estimación por intervalos 185

6.1. Variables pivote y construcción de intervalos de confianza . . . . . . . . . . . . . . . 186
6.2. Intervalos de confianza para los parámetros de una distribución normal . . . . . . . 187
6.2.1. Intervalos de confianza para la media . . . . . . . . . . . . . . . . . . . . . . 187
6.2.2. Intervalo de confianza para la varianza . . . . . . . . . . . . . . . . . . . . . . 190
6.3. Intervalos de confianza para proporciones y tamaños de muestra con corrección
para poblaciones finitas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
6.3.1. Intervalos de confianza para una proporción . . . . . . . . . . . . . . . . . . 192
6.3.2. Corrección por finitud y tamaños de muestra . . . . . . . . . . . . . . . . . . 193
6.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
7. Contrastes de hipótesis 203

7.1. Metodologı́a de la contrastación de hipótesis . . . . . . . . . . . . . . . . . . . . . . . 203
7.2. El teorema de Neyman-Pearson y las pruebas UMP . . . . . . . . . . . . . . . . . . . 207
7.2.1. El teorema de Neyman-Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . 207
7.2.2. Contrastes uniformemente más poderosos . . . . . . . . . . . . . . . . . . . . 209
7.3. Contrastes de la razón de verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . 212
7.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
Appendices 219
A. Una introducción a R 219

A.1. Comandos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220
A.2. Distribuciones y R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
Bibliografı́a 229
2 ÍNDICE GENERAL
Capı́tulo 1
Probabilidad y variable aleatoria
1.1. Introducción
En Economı́a, Finanzas, Gestión, etc., los analistas tratan con cifras que miden o represen-
tan resultados de procesos donde interactúan diversos agentes en condiciones de incertidumbre
parcial, ve tendencias pero éstas no son exactas sino “patrones” que presentan cierta variabilidad.
Por ejemplo, la rentabilidad financiera (ROE=Beneficio neto/Fondos propios) de un banco,
medida semana a semana no es constante, pero tampoco es caótica, examinando cifras (como las
de abajo) se encuentran tendencias, valores que oscilan entre extremos bien definidos. Estas ten-
dencias, cuantificadas adecuadamente, nos dicen “el estado” de una población o grupo, indicando
qué es lo que predomina, qué es lo más frecuente y también cuánta variabilidad (diferencia arriba o
debajo de lo predominante) existe.
Figura 1.1: Estadı́sticas de la rentabilidad de un banco
1
2 ÍNDICE GENERAL
Saber más de un proceso debe ponerlo a uno en condición de indicar “el estado de la población”
y también de “explicar ese estado” o sea de decir el porqué del estado. Para ello uno suele apoyarse
en algunas caracterı́sticas (o variables) que hayan mostrado estar asociadas a la variable de interés
que mide el estado de la población o grupo. Si la explicación es buena, eso nos pone incluso en
capacidad de predecir.
Por ejemplo, si tenemos datos sobre la rentabilidad promedio de diversos fondos mutuos y
de la variación en rentabilidad de esos mismos fondos y juntamos las cifras para analizarlas, po-
demos distinguir un patrón de asociación que es muy conocido en el campo de las finanzas, la
relación entre “rentabilidad y riesgo”. En este caso, el riesgo podemos medirlo como el promedio
de variaciones tanto hacia arriba como debajo de la rentabilidad media de cada fondo durante el
año. Como se trata de las oscilaciones arriba o debajo de lo esperado, es claro que miden de alguna
manera el “riesgo”, riesgo entendido como posibilidad de recibir bastante menos de lo esperado
con una inversión.
Las cifras de abajo muestran rentabilidades promedio y riesgos respectivos para un grupo de
fondos mutuos. Graficando el riesgo versus la rentabilidad media se ve una clara tendencia lineal
creciente, representable por una recta de la forma y = ax+b, que incluso puede ser estimada o
cuantificada:
Figura 1.2: Rentabilidades y riesgos de un grupo de fondos mutuos

Pero no siempre las cosas lucen claras, incluso pueden ser engañosas, como lo muestran los
siguientes datos relativos a las variaciones del Indice de precios al consumidor y las del Indice de
la bolsa de valores en una serie de paı́ses en los años 70:
Figura 1.3: Variaciones del IPC y las del IBV en una serie de paı́ses en los años 70
La situación es más complicada: si procediéramos a estimar Y con una recta, usando X como
variable explicativa o predictor, el error serı́a serio, como lo muestra el gráfico XY; en realidad no
hay ninguna tendencia, pero el caso de Chile genera una tendencia artificial. ¿Qué ha ocurrido? El
problema subyacente es que nunca tendremos a mano información completa sino solo muestras
o partes de la información y esto induce variabilidad “azarosa”, no sistemática, que debemos se-
parar de las diferencias que sı́ son sistemáticas, que tienen fuente conocida. Es decir, necesitamos
herramientas analı́ticas para trabajar confiablemente con muestras. Eso nos lleva a la Probabilidad
primero y a la Estadı́stica después.
1.2. Probabilidad: Enfoque axiomático

En general, investigar o estudiar un proceso puede ser visto como establecer relaciones o co-
nexiones entre determinados hechos o sucesos, que llamamos “condiciones” y otros sucesos de
interés, que denominamos “resultados”.
El camino usual es probar con distintas condiciones y ver los cambios en los resultados, hasta
distinguir algún “patrón” o “ley”, como por ejemplo, la ley de Hooke de la Fı́sica o la ley de la
Oferta y Demanda en Economı́a. Todo el proceso anterior es lo que constituye un experimento (o
sea condiciones y sus resultados asociados).
4 ÍNDICE GENERAL
Cuando dadas las condiciones no hay un resultado único, sino un conjunto de resultados que
ocurren siguiendo una distribución de frecuencias estable, el experimento se llama aleatorio y el
estudio de estos experimentos es la teorı́a de probabilidad.
En Economı́a y Ciencias Sociales abundan procesos como los descritos lı́neas arriba. Se carac-
terizan porque existe incertidumbre sobre los resultados, proveniente de nuestra falta de control
total de las condiciones que los rigen. Esta incertidumbre dificulta el análisis y la toma de deci-
siones. Si estudiamos los precios de un valor bursátil, por ejemplo, encontraremos fuertes fluctua-
ciones. Quizá haya una tendencia (a la baja o al alza) pero además, alrededor de esa tendencia,
veremos variaciones que impiden hacer un pronóstico exacto. Y es que en la determinación del
precio hay dos componentes: una económica, que se origina en la interacción de los agentes y el
estado de la economı́a, y otra que ya no puede explicarse económicamente, que tiene que ver con
la subjetividad de las personas en el mercado, con sus miedos, gustos e intuiciones. Esta segunda
componente resume la falta de conocimiento y control que tenemos sobre el proceso de oferta y
demanda. Un análisis fino implica separar la primera componente de la segunda. Para ello pode-
mos asumir (y esto parece razonable) que existen múltiples factores no controlables y fortuitos,
que son responsables de las variaciones observadas. Variaciones que matizan un poco el “efecto”
de la componente económica y que se distribuyen a lo largo del tiempo de manera relativamente
estable, repartiendo por igual la buena y mala fortuna. Cuando hacemos esto, estamos aceptando
la noción de “azar”.
Hecho lo anterior, tenemos a continuación la tarea de aislar el efecto del azar y ver qué tan
fuerte es el efecto de la componente económica. Para hacer esta tarea de limpieza, necesitamos
estudiar sistemática y racionalmente el azar, delimitarlo y encontrar las leyes que lo rigen. La
manera más eficiente de tratar con este incómodo ente es analizarlo formalmente primero y luego,
respetando sus propiedades, usar éstas para retirarlo de escena.
Una manera confiable de construir una teorı́a racional del azar, es usar un método que per-
mita deducir sus propiedades a partir de un conjunto mı́nimo de premisas, de modo que dichas
propiedades sean puramente lógicas, libres de error de inferencia. La Teorı́a Axiomática de Pro-
babilidades hace precisamente lo anterior.
1.2.1. Conceptos básicos
Suceso: Es cualquier hecho cuya ocurrencia o presentación nos es de interés. Podemos clasificar a
los sucesos en una de dos categorı́as a saber, condiciones y resultados.
Condición: Es un suceso cuya ocurrencia podemos controlar, es decir, podemos hacer que suceda.
Resultado: Es un suceso cuya ocurrencia depende de un conjunto de condiciones que lo rigen.
Observación: La manera racional de investigar un proceso y explicarlo, es determinar las condi-

ciones en las que discurre, y luego ir variándolas, tomando nota de los cambios que se presentan
en los resultados. Si llegamos a establecer algún patrón, estamos ante el germen de una ”ley”,
e incluso, si nuestras observaciones las codificamos numéricamente, podemos enunciar la ley en
la forma de alguna ecuación. Este sistema de análisis, consistente en realizar experiencias y ver
cambios en los resultados asociados a ciertas condiciones es lo que llamaremos un “experimento”.
Experimento: Es un conjunto de condiciones (que definen el experimento) asociado a un conjunto

de resultados.
Para determinar la relación entre las condiciones y los resultados, necesitamos estar en la posi-
bilidad de repetir o replicar el experimento, de modo que las sucesivas réplicas permitan la identi-
ficación y el estudio de la relación, incluyendo la posibilidad de hacer predicciones contrastables.
En este contexto debemos distinguir dos tipos de experimentos o ensayos: los determinı́sticos y
los no determinı́sticos.
Experimentos determinı́sticos: Son aquellos experimentos en los cuales las condiciones determi-
nan unı́vocamente el resultado.
En estos experimentos, sucesivas réplicas permiten establecer el resultado asociado a condi-
ciones especı́ficas, y la variación de las condiciones y el registro de los cambios en los resultados,
conducen a una ley que se puede verificar empı́ricamente y con certeza. Por ejemplo, si dejamos
caer un dado desde una cierta altura y registramos el tiempo que tarde en llegar al piso, pode-
mos medir el tiempo con exactitud razonable si tenemos los instrumentos adecuados. Variando
la altura, encontraremos que el tiempo cambia y al final podemos establecer una “fórmula” que
liga tiempo con altura. La verificación de la validez de la fórmula ası́ deducida se puede hacer
pronosticando tiempos y confrontándoles con los resultados de nuevos experimentos.
Experimentos no determinı́sticos: Aquellos en donde las condiciones no fijan el resultado de
manera unı́voca.
En estos experimentos no hay un resultado sino un conjunto de resultados, por tanto es más
difı́cil establecer una correspondencia entre cambios en las condiciones y cambios en los resul-
tados, pues al variar sistemáticamente las condiciones y registrar los cambios en los resultados,
enfrentamos el problema de que los conjuntos de resultados no necesariamente son excluyentes.
Sin embargo, en ciertos casos se encuentran regularidades aprovechables: al repetir el experi-
mento, los resultados se tienden a presentarse manteniendo un patrón en la frecuencia con que
ocurren. Por ejemplo, en el caso del Consumo e Ingreso disponible de las familias en una eco-
nomı́a, si analizamos datos de alguna encuesta grande, encontraremos que para cada nivel de
ingreso habrá familias con distintos niveles de consumo. Sin embargo, trabajando sobre todos los
ingresos y consumos registrados, podremos distinguir una “tendencia” creciente: a mayor ingreso
mayor consumo. La relación no es exacta, determinista, pero existe y es directa. Y si calculamos
en cuánto crece el consumo por cada unidad adicional de ingreso, probablemente encontraremos
que esta tasa es casi constante, que hay una cierta regularidad. Esta regularidad, permite un tipo
de pronóstico “relativo”, ası́ como una “ley” no exacta, que si bien no elimina la incertidumbre, la
disminuye y la administra. Los experimentos donde se presenta este tipo de estabilidad estadı́stica
de resultados, reciben un nombre especial. Se llaman experimentos aleatorios.
Experimento aleatorio: Denotado por , es un experimento donde las condiciones no determinan
de manera unı́voca un resultado pero sı́ permiten establecer un conjunto de posibles resultados,
de modo que en sucesivas réplicas del experimento, los resultados o grupos de resultados, se
presentan con una frecuencia relativa (o porcentual) estable.
Ejemplo 1.1. Algunos experimentos aleatorios son los siguientes:
a) Soltar una tiza desde una altura de metro y medio y observar en cuántos trozos se parte.
6 ÍNDICE GENERAL
b) Contar la cantidad de establecimientos que visita un consumidor hasta que compre un bien.
c) Escoger una muestra al azar de manzanas de una ciudad, entrevistar a los hogares de cada manzana
y registrar el número de miembros de cada hogar que estaban sin trabajo la semana anterior a la
entrevista.
d) Observar si una acción en bolsa subió o no de precio con respecto a su cotización del dia de ayer.
Observación: Aunque hay un conjunto de resultados posibles, en cada réplica del experimento,
solo se presenta uno de ellos, pudiendo variar el resultado de réplica en réplica. En un experi-
mento aleatorio no es posible saber con certeza el resultado del experimento, pero sı́ es factible
establecer el conjunto de posibles resultados y determinar (al menos conceptualmente) la frecuen-
cia relativa (o porcentual) conque se presentan diferentes grupos de resultados.
Espacio muestral: Por construcción, en todo experimento aleatorio estamos en condiciones de
determinar el conjunto de posibles resultados. Este conjunto debidamente representado, se conoce
como espacio muestral y lo denotaremos con el sı́mbolo Ω.
Evento: Un evento es un subconjunto de un espacio muestral al que se le puede asignar una
medida de incertidumbre. Los eventos se suelen denotar con letras mayúsculas: A, B, etc.
Por ejemplo, en el experimento b) del ejemplo 1.1, podemos representar Ω mediante el con-
junto Ω = {1, 2, 3, 4,...}.
Ocurrencia de un evento: Diremos que un evento A “ocurre” si el resultado del experimento
aleatorio es elemento de A.
Sobre un espacio muestral Ω podemos definir o distinguir muchos subconjuntos, los cuales
pueden tener elementos comunes; esto es, es perfectamente posible que dos o más eventos ocu-
rran simultáneamente. Por otra parte, el que un evento haya ocurrido quiere decir que uno de sus
elementos fue el resultado del experimento. Obviamente, esto no significa que todos sus resulta-
dos se han presentado.
Evento seguro: Es el espacio muestral Ω. Por definición, ocurre siempre pues tiene todos los re-
sultados que se pueden presentar.
Evento imposible: Es el conjunto vacı́o ∅ y como no tiene elementos, nunca ocurre.
Eventos mutuamente excluyentes: Dos eventos A y B se dicen mutuamente excluyentes si carecen
de elementos comunes. Esto es A y B no se presentan a la vez o nunca ocurren juntos. Formalmente
se tiene que A ∩ B = ∅.
Observaciones:
Para reducir la incertidumbre podemos usar la estabilidad estadı́stica de la frecuencia rela-

tiva de aparición u ocurrencia de los distintos eventos de un espacio muestral, para “medir”
en ellos su propensión a ocurrir y tener una herramienta que permita hacer pronósticos
relativos.
Como Ω ocurre siempre, nuestra medida de la propensión a ocurrir de los eventos, debe
darle al espacio muestral Ω, un valor máximo. Análogamente, como ∅ nunca ocurre, debe
recibir la medida más pequeña, acorde con su nula propensión a presentarse. Finalmente,
los eventos de real interés, aquellos intermedios entre el vacı́o ∅ y el espacio total Ω, deben
recibir una medida intermedia que los jerarquice desde menos propensos a ocurrir a más
propensos a presentarse. Esta medida existe y se llama “probabilidad”. Por conveniencia la
probabilidad se define de modo que esté entre 0 y 1, correspondiendo el 0 al vacı́o ∅ y el 1 al
espacio muestral Ω.
1.2.2. σ-álgebra de eventos

Dado un espacio muestral Ω, no siempre estaremos interesados en medir la opción de ocurren-
cia de cualquier subconjunto de Ω, sino solo de algunos básicos y otros adicionales que podamos
obtener combinando los primeros. Ello pues algunos subconjuntos, por la información que se tie-
ne, no podrán jamas ocurrir y será innecesario el tener que considerarlos. Nos interesará por tanto,
una determinada familia de subconjuntos de Ω. Esta familia, que la llamaremos una σ -álgebra de
eventos y la denotaremos con F , se define como sigue:
Definición 1.1. Una familia de subconjuntos de Ω, F , se dice que es una σ −álgebra de eventos de Ω si
satisface las propiedades siguientes:
(F1) ∅ ∈ F .
(F2) Si A ∈ F , entonces Ac ∈ F .
S∞
(F3) Si A1 , A2 , A3 , . . . es cualquier sucesión numerable de eventos en F , entonces k=1 Ak ∈F.
Proposición 1.1. Toda σ −álgebra de eventos satisface las propiedades siguientes.
1. Ω ∈ F
SN
2. Si A1 , A2 , · · · , AN es una sucesión finita de eventos en F , entonces k=1 Ak ∈F.
T∞
3. Si A1 , A2 , · · · es cualquier sucesión numerable de eventos en F , entonces k=1 Ak ∈F.
Las propiedades anteriores, que son directas de probar, muestran que una familia definida
según (F1) a (F3), contiene a todos los eventos que podamos construir por uniones e intersecciones
de conjuntos en esta familia, o sea es “cerrada” bajo estas operaciones.
Ejemplo 1.2. Lanzamos un dado y observamos el número que muestra su cara superior. En este caso
Ω = {1, 2, 3, 4, 5, 6} y si definimos el evento en que se obtiene un número par; es decir, A = {2, 4, 6},
entonces:
a) F = {∅, Ω, A, Ac } es una σ -álgebra.
b) F = {∅, Ω} es también una σ -álgebra
c) F = 2Ω , el “conjunto de partes” o “conjunto potencia” de Ω, es otra σ -álgebra.
Es más las σ −álgebras en b) y c) son respectivamente la menor y mayor σ −álgebras que se pueden
construir sobre cualquier espacio muestral numerable Ω.
8 ÍNDICE GENERAL
Observaciones:
Nóte que sobre un mismo espacio muestral Ω hemos definido varias σ -álgebras. Por otra
parte puede ser curioso el caso a), pero no es difı́cil imaginar un juego de azar cuyas reglas
impliquen que solo interese si ocurre un número par o no, más que estar pendientes de
resultados individuales.
Vale la pena notar que aunque (F3) alude a una sucesión numerable e infinita de subconjun-
tos de Ω, este axioma sı́ es aplicable a las tres familias definidas en el ejemplo, pues basta
“completar” cualquier sucesión finita definiendo más eventos, todos de la forma Ak = ∅.
Si C es cualquier colección de eventos que no es una σ -álgebra, siempre podemos “com-

pletarla” de modo que se obtenga una σ -álgebra, añadiendo subconjuntos de Ω convenien-
temente. Por ejemplo completándola hasta llegar a 2Ω , aunque esta extensión puede ser
excesiva, dando una familia demasiado “grande”. La alternativa más económica es definir F
como la intersección de todas las σ -álgebras que contengan a C. Esta, que es una σ −álgebra,
se denota por σ (C) y formalmente se define por σ (C) = ∩{Fi /C ⊆ Fi }. Un caso importante
ocurre cuando C es la familia de todos los intervalos del eje real, en este contexto a σ (C) se
le conoce como la σ -álgebra de “Borel”. Otro nombre con el que se acuña a σ (C) es que esta
es la σ −álgebra generada por C.
De aquı́ en adelante reservaremos la palabra evento a los subconjuntos de Ω que sean elemen-
tos de una σ -álgebra. La razón es que cuando Ω es un conjunto no numerable (como el intervalo
[0,1]) puede encontrase subconjuntos de Ω a los cuales no se les puede asignar ninguna probabi-
lidad sin generar contradicciones lógicas, cosa que no ocurre con los elementos de una σ -álgebra.
Es importante destacar la importancia del concepto de σ −álgebra como una forma de modelar
la información que un agente va adquiriendo en el tiempo o en un proceso iterativo. Para ilustrar
ello consideremos el ejemplo siguiente.
Ejemplo 1.3. Suponga que usted juega en una máquina tragamoneda de un casino que simula el lan-
zamiento secuencial de tres monedas. Nuestro experimento aleatorio implı́cito consiste entonces en ob-
servar el resultado de la simulación dada por la máquina, el cual genera el espacio muestral
Ω = {sss, ssc, scs, scc, css, csc, ccs, ccc},
espacio que se podrı́a también representarse en el diagrama de árbol de la figura 1.4. En caso no se
disponga de información, la σ −álgebra natural serı́a F = 2Ω , la cual contiene 28 = 256 eventos. Pen-
semos ahora que nos ubicamos en el preciso instante en que la máquina simula el segundo lanzamiento
(habiéndose también observado el resultado del primero). Dada esta información, podremos estar en
capacidad entonces de distinguir entre los eventos (sólo ocurrirá uno):
A1 = {sss, ssc}, A2 = {scs, scc}, A3 = {css, csc}, A4 = {ccs, ccc}
pero no podremos distinguir cuál de estos eventos ocurrirá. Para modelar la información observada hasta
la segunda simulación podrı́amos considerar luego la σ −álgebra F2 definida como la σ −álgebra generada
por la partición C = {A1 , A2 , A3 , A4 }. Esta tiene 16 eventos y viene dada explı́citamente por
F2 = {A1 , A2 , A3 , A4 , Ac1 , Ac2 , Ac3 , Ac4 , A1 ∪ A2 , A1 ∪ A3 , A1 ∪ A4 , A2 ∪ A3 , A2 ∪ A4 , A3 ∪ A4 , Ω, ∅}.
Note por ejemplo que el subconjunto B = {sss} de Ω no es aquı́ un evento, pues este no pertenece a F2 . Si
usted observa por citar que la máquina simuló primero una cara (c) y luego un sello (s), será imposible
que el evento de B ocurra y por tanto no deberı́a de ser tomado en cuenta.
1s

s
* PPP

PP
qc
s
1s
H
HH

j cP
HH

PP
PP
qc
@ 1s

@ s
@ P

* PP
PP
@ qc
R c
@
1s
HH
H
j c
HH
PP
P PP
qc
Figura 1.4: Posibles resultados de la simulación de una máquina tragamoneda
Como ejercicio defina una σ −álgebra que se asocie a la información que usted adquirı́a inmediata-
mente después que la máquina simule su primer lanzamiento.
Para mayores detalles del concepto de σ −álgebra en espacios muestrales finitos, el lector puede
consultar (Lugon y Valdivieso, 1993).
1.3. Definiciones de probabilidad y propiedades

La medición de la incertidumbre mediante probabilidades ha sido varias veces abordado en la
historia de la Matemática, ası́ tenemos las siguientes definiciones de probabilidad.
Definición de probabilidad clásica (o de Laplace)
Si un espacio muestral Ω tiene n(Ω) elementos, todos con la misma opción de presentarse, y
n(A) de estos son elementos de un evento A, entonces la probabilidad de A, denotada por P (A), se
define como
n(A)
P (A) = .
n(S)
Observaciones:
Esta definición es la de los juegos de azar; por ejemplo es la que se aplica en un juego de
cartas o dados.
10 ÍNDICE GENERAL
El defecto de esta definición es que no siempre es aplicable, pues hay espacios con infinitos
elementos o siendo finitos, sus elementos no son equiprobables. Por ejemplo, si en un dado
borramos el número 6 y escribimos un 1, es claro que este número tiene el doble de opción
de ocurrir que otros, sin embargo al ser cinco los elementos de Ω, la definición clásica le
asigna una probabilidad de 1/5 y no de 2/6 = 1/3 como debiera ser.
Si bien los eventos son subconjuntos del espacio muestral Ω, muchas veces resulta poco conve-
niente el escribirlos como tales, es decir por extensión. Otra alternativa es escribirlos por compren-
sión, citándolos textualmente entre comillas. Por citar, si consideramos el experimento aleatorio
de seleccionar al azar una carta de una baraja sin comodines, su espacio muestral Ω está confor-
mada por las 52 cartas en ella y el evento que se obtenga una carta de tréboles podrı́a escribirse
tanto como A = “Se seleccionó una carta de tréboles” o como
A = {2♣, 3♣, 4♣, 5♣, 6♣, 7♣, 8♣, 9♣, 10♣, J♣, Q♣, K♣, A♣}.
Aquı́ naturalmente no es difı́cil representar al evento A por extensión, pero existen situaciones
en que ello es complicado por la ingente cantidad de posibles resultados que el evento pudisese
tener. Por ejemplo, si consideramos el experimento aleatorio más complejo de extraer al azar 5
cartas de la baraja y el evento A = “Obtener exactamente un par”, la representación de este evento
por extensión es harta demandante (véase el ejemplo 1.20 al respecto).
Ejemplo 1.4. Si una persona contesta al azar una pregunta de opción múltiple con cinco opciones de
respuesta, digamos a, b, c, d y e, el espacio muestral será Ω = {a, b, c, d, e}. Si a es la opción correcta, el
n(A)
evento A=“La persona acierta” = {a} tendrá una probabilidad igual a P (A) = n(Ω) = 51 = 0.20; mientras
n(B) 4
que para el evento B = “No acierta” = {b, c, d, e}, se tiene que P (B) = n(Ω)
= 5 = 0.8.
Ejemplo 1.5. Si una persona contesta al azar dos preguntas de opción múltiple con cinco opciones de
respuesta cada una, digamos a1 , b1 , c1 , d1 , e1 para la primera pregunta y a2 , b2 , c2 , d2 , e2 para la segunda,
entonces Ω = {(x, y) / x = a1 , b1 , c1 , d1 , e1 e y = a2 , b2 , c2 , d2 , e2 }. Si a1 es la opción correcta para la primera
pregunta y c2 la opción correcta para la segunda, entonces para el evento A=“La persona acierta en todo”
n(A) 1
= {a1 , c2 } se tiene que n(Ω) = 5 × 5 = 25 y n(A) = 1. Luego P (A) = n(Ω) = 25 = 0.04.
Ejemplo 1.6. A mediodı́a, en un restaurante solo quedan dos menús y los clientes a, b y c llegan en
orden aleatorio al local, cada uno por su cuenta y decididos a consumir un menú si hubiera o en caso
contrario un plato a la carta. El interés en este caso es el tipo de consumo de cada cliente. Aquı́ una
manera de representar todos los consumos posibles puede ser Ω = {(x1 , x2 , x3 ) ∈ {a, b, c} / xi , xj , ∀i , j}
y n(Ω) = 3 × 2 × 1 = 6, pues midiéndose la cantidad de órdenes en que pueden llegar los 3 comensales
al local se podrá determinar sus consumos ya que el tercero no encontrará menú y tendrá que pedir a la
carta: cualquiera entre a, b ó c puede ser el primero, y en este contexto el segundo puede ser cualquiera
de los dos restantes y una vez asignado como segundo, el restante solo puede ocupar el tercer lugar. En
este contexto, el evento A = “ a tiene que pedir a la carta” tiene n (A) = 2 × 1 × 1 = 2 elementos pues
primero podrı́an llegar b o c, segundo el restante que no haya sido primero y al comensal a le quedará
pedir a la carta. Por tanto, P (A) = 62 = 13 = 0.33.
Definición Frecuencial de Probabilidad (o de Von Mises)

Si un experimento aleatorio se repite n veces y el evento A ocurre en nA de esas veces, la proba-
bilidad de A, denotada por P (A) es
n
P (A) = lı́m A .
n→∞ n
Observaciones:
Esta definición es estadı́stica y según ella, la probabilidad es el lı́mite de una frecuencia

relativa. En este caso, el punto de vista de la probabilidad es actuarial.
Es difı́cil de aplicar, pues implica repetir el experimento aleatorio un número grande de

veces para poder bien aproximar la probabilidad. Basada en la regularidad estadı́stica de los
resultados asociados al experimento, es útil para interpretar la probabilidad pero no para
investigar sus propiedades.
Ejemplo 1.7. Si la distribución del número de trabajadores (“tamaño de la empresa) en las 80 empresas
de metalmecánica de un distrito es:
Tamaño Frecuencia Porcentaje

0-4 30 38
4-8 20 25
8 - 12 15 19
12 - 16 10 13
16 - 20 5 6
Total 80 100
y se selecciona al azar a una de estas empresas metalmecánicas, entonces la probabilidad de A=“La

empresa tiene entre 4 y 8 trabajadores” es P (A) = nnA = 20
80 = 0.25.
Note que en cualquiera de las definiciones de probabilidad hasta el momento dadas se cumple
que 0 ≤ P (A) ≤ 1, P (Ω) = 1 y P (∅) = 0.
Definición Axiomática (o de Kolmogorov)
Sea Ω un espacio muestral asociado a un experimento aleatorio y sea F una σ -álgebra de eventos
definida sobre Ω. Una probabilidad P es cualquier función P : F → R que a cada evento A le
asigna un número real, denotado por P (A) y llamado probabilidad de A, de modo que se satisface
los siguientes axiomas:
(P1) P (A) ≥ 0.
(P2) P (Ω) = 1.
(P3) Si A1 , A2 , A3 , . . . es una sucesión de eventos mutuamente excluyentes, esto es,

Ai ∩ Ak = ∅, ∀i , k, entonces
[∞ ∞
X
P ( Ai ) = P (An ).
n=1 n=1
12 ÍNDICE GENERAL
Observaciones:
Esta definición, a diferencia de las anteriores, es “no constructiva”, o sea, no dice cómo cal-
cular la probabilidad sino que solo indica los requisitos que debe satisfacer una asignación
de probabilidades a eventos para ser considerada “correcta”, en el sentido de estar libre de
contradicciones lógicas.
Según esta definición, es posible hacer diferentes asignaciones de probabilidades sobre

un mismo conjunto de eventos y si se cumplen los tres axiomas, todas las asignaciones
son formalmente correctas. Esta posición, que a primera vista parece un contrasentido, con-
vierte en realidad a la probabilidad en una poderosa herramienta de investigación de proce-
sos no determinı́sticos: Dado un proceso, es posible elaborar diferentes teorı́as explicativas
para el mismo y cada una inducirá una asignación de probabilidades. Al efectuar el expe-
rimento aleatorio, el resultado que se presente será contradictorio con algunas asignaciones
y confirmatorio de otras. Como las asignaciones están libres de contradicciones lógicas, el
no ajuste del resultado del experimento no se debe a la matemática usada, sino que tiene
base real. Por tanto, aquellas asignaciones no ratificadas por los datos empı́ricos pueden ser
descartadas y con ellas, las teorı́as que les sirvieron de base.
Una de las ventajas de la definición axiomática, es que ella nos permitirá deducir propiedades
generales que toda asignación de probabilidades deberı́a de cumplir. Algunas de estas propieda-
des básicas se ilustran en la siguiente proposición.
Proposición 1.2. Dados dos eventos A y B cualesquieras se cumplen
1. P (∅) = 0.
2. P (Ac ) = 1 − P (A).
3. P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
4. P (B − A) = P (B) − P (B ∩ A).
5. Si A ⊆ B , entonces P (A) ≤ P (B).
6. 0 ≤ P (A) ≤ 1.
Demostración: 1.-Definamos la sucesión de eventos {An , n = 1, 2, 3...}, donde An = ∅, ∀n . Entonces es

∞
claro que ∪ An = ∅ y por tanto
n=1
∞
[
P( An ) = P (∅)
n=1
El axioma (P3) implica entonces que

∞
[ ∞
X
P( An ) = P (An ) = P (∅)
n=1 n=1
o equivalentemente:
P (∅) + P (∅) + ... + P (∅) = P (∅)
Obviamente el único número real que satisface esta ecuación es 0, esto es P (∅) = 0.
2. Como A ∪ Ac = Ω , siendo A y Ac mutuamente excluyentes, (P2) y (P3) implican que
P (A ∪ Ac ) = P (A) + P (Ac ) = P (Ω) = 1
o equivalentemente P (Ac ) = 1 − P (A).

3. Como en general B = B ∩ Ω y Ω = A ∪ Ac , se tiene que B = (B ∩ A) ∪ (B ∩ Ac ) y A ∪ B = A ∪ (B ∩ Ac ).
Aplicando (P3):
P (B) = P (B ∩ A) + P (B ∩ Ac )
o equivalentemente: P (B ∩ Ac ) = P (B) − P (B ∩ A). También: P (A ∪ B) = P (A) + P (B ∩ Ac ) y reemplazando

P (B ∩ Ac ) por P (B) − P (B ∩ A), llegamos a que:
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
4. Dado que P (B ∩ Ac ) = P (B − A), esto ya fué probado en el punto anterior.

5. Como A ⊆ B, es claro que B ∩ A = A. Luego, P (B ∩ Ac ) = P (B) − P (A). Como toda probabilidad, según
el axioma (P1) es no negativa, se tiene en particular que:
P (B ∩ Ac ) = P (B) − P (A) ≥ 0
y ası́ P (A) ≤ P (B).

6. Es consecuencia directa del hecho que
∅⊆A⊆B⊆Ω
y la aplicación de las propiedades anteriores.
La propiedad sobre la probabilidad de la unión de dos eventos puede extenderse a más eventos.
Además tenemos otras interesantes propiedades relacionadas a las probabilidades de una sucesión
de eventos.
Proposición 1.3.
1. Si A1 , A2 , . . . , AN es una sucesión de N eventos mutuamente excluyentes:
N
[ N
X
P( An ) = P (An ).
n=1 n=1
2. Si A1 , A2 , . . . , AN es cualquier sucesión de N eventos:
N
[ N
X N
X N
X N
\
P( An ) = P (An ) − P (An ∩ Am ) + P (An ∩ Am ∩ Ap ) − . . . + (−1)N +1 P ( An ).
n=1 n=1 n<m n<m<p n=1
14 ÍNDICE GENERAL
3. Desigualdad de Bonferroni: Si A1 , A2 , . . . , AN es cualquier sucesión de N eventos:
N
\ N
X
P( An ) ≥ P (An ) − (N − 1).
n=1 n=1
4. Propiedad σ −subaditiva: Si A1 , A2 , . . . es cualquier sucesión numerable de eventos

∞
[ ∞
X
P( An ) ≤ P (An ).
n=1 n=1
5. Propiedad de continuidad: Si A1 , A2 , ... es cualquier sucesión numerable de eventos tales que A1 ⊆

∞
S
A2 ⊆ ... y se define A = An , entonces
n=1
P (A) = lı́m P (An ).

n→∞
Demostración: 1. Basta completar la sucesión finita de modo que sea equivalente a una sucesión infinita
y aplicar el tercer axioma (P3) y la propiedad 1. Ello se hace definiendo Aj = ∅, ∀j ≥ N +1, de tal manera
N
S S∞
que An = An . Por tanto:
n=1 n=1
N
[ ∞
[ ∞
X N
X ∞
X N
X
P ( Aj ) = P ( Ai ) = P (Aj ) = P (Aj ) + P (Aj ) = P (An ),
j=1 j=1 j=1 j=1 j=N +1 n=1
donde la última igualdad se sigue de la propiedad 1 en la proposición 1.2.

2. La prueba puede hacerse por inducción. Esta propiedad es trivialmente válida para N = 1 y también
válida, por la propiedad 2 de la proposición 1.2, para N = 2. Supongamos que ella es válida para N .
Resta probar que es válida para N + 1. En efecto, como
N
[ +1 N
[ N
[ N
[ N
X N
X
P( An ) = P ( An ∪ AN +1 ) = P ( An ) + P (AN +1 ) − P ( An ∩ AN +1 ) = P (An ) − P (An ∩ Am )
n=1 n=1 n=1 n=1 n=1 n<m
N
X N
\ N
[
+ P (An ∩ Am ∩ Ap ) − . . . + (−1)N +1 P ( An ) + P (AN +1 ) − P ( An ∩ AN +1 ),
n<m<p n=1 n=1
un desarrollo del último término via la hipótesis inductiva para la unión de los eventos An ∩AN +1 deriva
en
[N [N XN N
X
P ( An ∩ AN +1 ) = P ( (An ∩ AN +1 )) = P (An ∩ AN +1 ) − P (An ∩ Am ∩ AN +1 )
n=1 n=1 n=1 n<m
N
X N
\ +1
+ P (An ∩ Am ∩ Ap ∩ AN +1 ) − . . . + (−1)N +1 P ( An ).
n<m<p n=1
Reemplazando este último término en la ecuación anterior y juntando convenientemete los términos con
un igual número de intersecciones de eventos
N
[ +1 N
X +1 N
X +1 N
X +1 N
\ +1
N +2
P( An ) = P (An ) − P (An ∩ Am ) + P (An ∩ Am ∩ Ap ) − . . . + (−1) P( An )
n=1 n=1 n<m n<m<p n=1
y ası́ se satisface la propiedad para N + 1.

3. Procederemos también por inducción. Claramente la proposición es válida para N = 1. Supongamos
ahora que esta es válida para N . Resta probar que lo es también para N + 1. En efecto,
N
\ +1 N
\ N
[
P( An ) = P ( An ∩ AN +1 ) = 1 − P ( Acn ∪ AcN +1 )
n=1 n=1 n=1
N
[ [N \N N\+1
c c c c c
= 1 − P ( An ) − P (AN +1 ) + P ( An ∩ AN +1 ) = P ( An ) − P (AN +1 ) + 1 − P ( An ∪ AN +1 )
n=1 n=1 n=1 n=1
N
X N
X +1
≥ P (An ) − (N − 1) + P (AN +1 ) − 1 = P (An ) − N ,
n=1 n=1
donde la desigualdad última se justifica porque el último término en la penúltima linea es acotado por 1.
∞
S
4. Se sigue de expresear la unión An por una unión disjunta de la forma
n=1
∞
[
An = A1 ∪ (A2 − A1 ) ∪ (A3 − (A1 ∪ A2 )) ∪ (A4 − (A1 ∪ A2 ∪ A3 )) ∪ . . .
n=1
∞
S P∞ n−1
S
Luego por (P3), P ( An ) = n=1 P (An − ( Aj )), donde la última intersección se sobreentiende vacı́a
n=1 j=1
para n = 1. De otro lado, por la propiedad de monotonı́a 5 en la proposición 1.2, se tiene que P (An −
n−1
S
( Aj )) ≤ P (An ), ∀n y consecuentemente substituyendo esta desigualdad arriba se cumplirá 4.
j=1
5. Al igual que en 4., podrı́amos representar el evento A = ∞
S S∞
n=1 An como A = n=1 Bn , donde los Bn =
An − An−1 son eventos disjuntos que satisfacen que P (Bn ) = P (An ) − P (An−1 ) y en donde A0 se sobreen-
PN PN
tiende que es el conjunto vacı́o. Por tanto, P (A) = ∞
P
n=1 P (Bn ) = lı́m n=1 P (Bn ) = lı́m n=1 (P (An ) −
N →∞ N →∞
P (An−1 )) = lı́m P (AN ).
N →∞
La proposición anterior permite asegurar que en relación a la propiedad de inclusión de even-

tos, la probabilidad mide la “propensión a ocurrir” al menos a nivel ordinal, donde el vacı́o ∅
ocupa el menor puesto y el espacio Ω tiene la mayor jerarquı́a, correspondiéndole a otros eventos
los puestos intermedios. Sin embargo, debemos notar que existen casos donde hay eventos que
reciben probabilidad 0 y son distintos del vacı́o. Por ejemplo, si lanzamos un dardo al azar sobre
un blanco circular y medimos la probabilidad de que el dardo caiga en una región, como el co-
ciente del área de la región sobre el área del cı́rculo, muchos eventos tendrán probabilidad obvia
y razonable con esta medida. Ası́ por ejemplo, para el evento A definido como: “El dardo cae en
16 ÍNDICE GENERAL
el semicı́rculo inferior”, la asignación de probabilidades definida antes, le dará a una probabili-

dad de 1/2 o 0.5, i.e. P(A) = 0.5, algo que está de acuerdo con nuestra intuición. Sin embargo, si
definimos el evento B como: “El dardo cae exactamente en el centro del blanco”, resulta que como
el área de un punto es 0, la asignación de probabilidades le dará a este evento una probabilidad
también 0 o sea P(B)= 0. Ası́ tenemos el caso curioso de un evento perfectamente factible pero de
probabilidad nula. La explicación intuitiva es que la probabilidad mide la opción de ocurrencia
entendida como nuestro grado de incertidumbre con respecto a los eventos, y esta incertidumbre
está asociada al conocimiento que poseamos de los mismos. Ahora bien, en relación al evento B,
materialmente es imposible que sepamos exactamente si ocurrió o no el evento, pues nuestros
medios fı́sicos de verificación tienen un lı́mite en su precisión. Nunca podremos estar seguros de
si el dardo cayó en el centro o si cayó a una millonésima de milı́metro del centro. La probabilidad
cero refleja este estado de información.
En verdad, la aparente paradoja es irrelevante, porque si bien el blanco circular es un objeto mate-
rial, de existencia cierta a nuestros sentidos, su “centro” es una abstracción, una región ideal. Por
tanto no debemos preocuparnos y solo nos queda tomar nota de esta sutil diferencia entre lo “im-
probable” y lo “imposible”, y confortarnos con el hecho de tener una herramienta de propiedades
conocidas para trabajar en contextos de incertidumbre.
Ejemplo 1.8. Un consumidor encuentra dos productores w1 y w2 , que le ofrecen el mismo bien al mismo
precio. El consumidor puede comprar a w1 con probabilidad “p” o a w2 con probabilidad “q”. ¿Cuáles
de los siguientes valores de p y q son formalmente correctos?
a) p = q = 1/2
b) p = 2/3 y q = 1/3
c) p = 2/8 y q = 4/5
Solución: Sea Ω el espacio muestral dado por Ω = {w1 , w2 }. Entonces Ω = {w1 }∪{w2 } y naturalmente 1 =
P (Ω) = P ({w1 , w2 }) = P ({w1 }∪{w2 }) = P ({w1 })+P ({w2 }) = p+q es una igualdad que debe cumplirse para
que la asignación de probabilidades sea correcta (en el sentido de Kolmogorov). Por tanto, verificando
cada caso:
En a) p + q = 1/2 + 1/2 = 1 ⇒ Asignación correcta
En b) p + q = 2/3 + 1/3 = 1 ⇒ Asignación correcta
En c) p + q = 2/8 + 4/5 = 21/20 > 1, lo que es una contradicción. Esta asignación no es correcta.
Nótese que tanto las asignaciones a) como b) son matemáticamente correctas y sin embargo la intuición
dice que la primera es más compatible con la realidad. Esta última idea solo es verificable con datos,
con “evidencia empı́rica”. Dicho sea de paso, el investigador no debe escatimar esfuerzos para obtener
toda la información relevante sobre el proceso que pretende explicar, y debe asignar probabilidades de
acuerdo a esa información. Los cambios pueden ser notables. Por ejemplo, si supiéramos que w1 gasta en
propaganda el doble que w2 y asumimos que esto afecta las preferencias del consumidor de modo que la
probabilidad es directamente proporcional a la propaganda, entonces p = αG(w1 ) y q = αG(w2 ), donde
G(wi ) es el gasto del productor i, siendo α la constante de proporcionalidad. Como G(w1 ) = 2G(w2 ), es
fácil ver que, en este caso, p = 2/3 y q = 1/3 serı́a la asignación correcta.
Ejemplo 1.9. El precio p de un bien agrı́cola puede ser de 1, 2, 3 o 4 unidades monetarias y la cantidad
demandada q de este bien responde al precio de modo que q = 5 – p. Un cambio climático origina una
caı́da en la producción del bien de modo que la probabilidad de que el precio tome un valor p resulta
directamente proporcional a p. En este contexto, explicite el espacio muestral Ω asociado a observar las
parejas de precios y cantidades posibles en el mercado de este bien, halle la distribución de probabilidades
en Ω y diga si la cantidad demandada tomará su mı́nimo valor posible.
Solución: Ω = {(p, q) / q = 5 − p, p = 1, 2, 3, 4} y por dato P (p = k) = αk, k = 1, 2, 3, 4, siendo k la
constante de proporcionalidad. Como 4k=1 P (p = k) = 1 ⇒ α + 2α + 3α + 4α = 1 ⇒ 10α = 1 ⇒ α = 10 1
P
y la distribución de probabilidades en Ω es:
(p, q) (1,4) (2,3) (3,2) (4,1)

P (p, q) 1/10 2/10 3/10 4/10
4
Finalmente, P (La cantidad demandada toma su valor mı́nimo) = P (4, 1) = 10 = 0.4.
Ejemplo 1.10. Un dado está “cargado”, de modo que al lanzarlo y observar la cara que muestra en su
lado superior, cada número tiene una opción de presentarse directamente proporcional a dicho número.
a) Halle una distribución de probabilidades compatible con esta información.
b) Halle la probabilidad de que al lanzar el dado ocurra un número par.
c) Halle la probabilidad de que al lanzar el dado ocurra un número primo.
Solución: a) Se tiene que Ω = {1, 2, 3, 4, 5, 6} y que P ({k}) = αk, para k = 1, 2, ..., 6, siendo α > 0 una
constante de proporcionalidad. Además como Ω = {1} ∪ {2} ∪ {3} ∪ {4} ∪ {5} ∪ {6}, aplicando el axioma 2
y sucesivas veces el axioma 3 se tiene:
S S S S S
P (Ω) = P ({1} {2} {3} {4} {5} {6}) =1⇔P ({1}) + P ({2}) + P ({3}) + P ({4}) + P ({5}) + P ({6}) = 1 ⇔
α + 2α + 3α + ... + 6α = 6j=1 kα = 1 ⇔ 1 = 21α. Despejando se obtiene α = 1/21 y la asignación o
P
distribución de probabilidades es:
P ({k}) = k/21, para k = 1, 2, ..., 6

b) Si A denota el evento “El número es par”, entonces A = {2, 4, 6} y se tiene P (A) = P ({2, 4, 6}) =
2 4 6
P ({2}) + P ({4}) + P ({6}) = 21 + 21 + 21 = 12
21 .
1 2
c) Análogamente a b), sea B es el evento pedido, entonces B = {1, 2, 3, 5} y se cumple que P (B) = 21 + 21 +
3 5 11
21 + 21 = 21 .
Observación: Note que escribimos P ({k}) y no P (k) porque la probabilidad está definida sobre
eventos o conjuntos y no sobre elementos. Por eso, siempre debiéramos escribir P ({ω}) para deno-
tar la probabilidad de un elemento ω de Ω; sin embargo, para no recargar la notación, podemos
tomarnos la licencia de usar P (ω) siempre y cuando esto no produzca confusión.
Ejemplo 1.11. Un bien puede costar 1 o 2 unidades monetarias y un consumidor puede comprar 1,2 o
3 unidades del bien. Sabiendo que todas las parejas de precios y cantidades (p, q) son posibles y que en
general la probabilidad P (p, q) es directamente proporcional a la razón (q/p): P (p, q) = α(q/p).
18 ÍNDICE GENERAL
a) Describa el espacio muestral Ω asociado a este experimento y halle α.
b) Identifique el evento A = “El gasto del consumidor es de 2 u.m” y calcule su probabilidad.
c) Identifique el evento B = “El consumidor adquiere 2 unidades del bien” y calcule su probabilidad.
d) Halle la probabilidad de A ∪ B.
e) El consumidor tiene un ingreso de 6 u.m, ¿pronosticarı́a Ud. que gastará todo en el bien?
Solución: a) El conjunto de todas las parejas (p, q) posibles es Ω y podemos explicitarla como
2 [
[ 3
Ω = {(p, q) / p = 1, 2; q = 1, 2, 3} = {(p, q)}.
p=1 q=1
Como P (Ω) = 1 y también

2 [
[ 3 2 X
X 3 2 X
X 3 2 X
X 3
P (Ω) = P ( {(p, q)}) = P (p, q) = α(q/p) = α (q/p),
p=1 q=1 p=1 q=1 p=1 q=1 p=1 q=1
tenemos que 1 = α 2p=1 3q=1 (q/p) = α 2p=1 (1 + 2 + 3)/p = α6(1 + 21 )) = 9α; esto es, α = 19 .
P P P
b) A = {(p, q) ∈ Ω / pq = 2} = {(1, 2), (2, 1)} y P (A) = P (1, 2) + P (2, 1) = 19 × 21 + 19 × 12 = 18

5
.
1 2 1 2 6
c) B = {(p, q) ∈ Ω / q = 2} = {(1, 2), (2, 2)} y P (B) = P (1, 2) + P (2, 2) = 9 × 1 + 9 × 2 = 18 .
5 6 4 7
d) P (A ∪ B) = P (A) + P (B) − P (A ∩ B) = 18 + 18 − 18 = 18 .
e) Con seis u.m. de ingreso, solo hay un caso en que se gasta todo, que es cuando el consumidor se sitúa
en el punto (2,3). La probabilidad de que esto ocurra es P (2, 3) = 91 × 32 = 16 = 0.17 o 17 %, que está más
cerca de 0 que de 1, esto es, no pronosticarı́amos la ocurrencia de este evento.
Ejemplo 1.12. Se lanza un dado que está cargado de modo que cada número tiene el doble de probabi-
lidad del que lo antecede. Explicite el espacio muestral Ω. Halle la distribución de probabilidades en Ω
y la probabilidad de que salga el 1 o el 6. Si al lanzar un dado ocurre que salió el 6 y usted sabe que el
dado o es normal o está cargado como se describió al inicio ¿Se habrı́a lanzado el dado cargado?
Solución: El espacio muestral es Ω = {1, 2, 3, 4, 5, 6} y la asignación de probabilidades, de acuerdo al
enunciado, debe satisfacer la condición: P ({2}) = 2P ({1}), P ({3}) = 2P ({2}), . . .. Asi, si denotamos por
a = P ({1}), la “distribución de probabilidades en Ω” viene dada por:
Evento {1} {2} {3} {4} {5} {6} Ω

Probabilidad a 2a 4a 8a 16a 32a 1
1
Como P (Ω) = 1, a + 2a + 4a + 8a + 16a + 32a = 1 y a = 63 . Ası́, la distribución anterior es igual a
Evento 1 2 3 4 5 6
Probabilidad 1/63 2/63 4/63 8/63 16/63 32/63
En el contexto anterior, si A= “Sale 1 o 6 puntos”, entonces A = {1, 6} y P (A) = P ({1}) + P ({6}) =

33/63 = 0.52. Finalmente, en relación con la última pregunta: es más probable o verosı́mil que se
trate de un dado cargado, pues con el dado normal P ({6})=1/6=0.17 < 0.5 y con el dado cargado
P({6})=32/63=0.51 > 0.5.
1.4. Casos especiales de asignación de probabilidades

Examinaremos ahora algunas formas de asignación de probabilidades que siendo compatibles
con el sistema de Kolmogorov, serán de utilidad en el futuro.
1.4.1. Probabilidad geométrica

Sea un experimento aleatorio consistente en tomar un punto al azar de un conjunto geométri-
co Ω que tiene una medida finita m(Ω) y sea A un evento del espacio muestral resultante. Si m(A)
denota la medida de este evento, entonces la probabilidad de A es:
m(A)
P (A) = .
m(Ω)
Observaciones:
Si Ω es un intervalo, la “medida” m es la longitud; si Ω es una región de R2 donde está

definida un área, la “medida” es el área.
Se trata de una extensión de la definición clásica, que aparece en situaciones especiales,

como lanzar un dardo sobre un blanco o tomar un punto al azar de un segmento.
Ejemplo 1.13. Dos proveedores se han presentado a un concurso de precios. Del proveedor A se sabe
que puede ofrecer el bien a un precio que estará indistintamente entre 1 y 10 dólares; del proveedor B se
sabe que su precio podrı́a estar indistintamente entre 1 y 5 dólares. Sin más información y asumiendo
un experimento aleatorio:
a) Describa el espacio muestral Ω asociado al experimento.
b) Calcule la probabilidad de que A resulte ganador.
c) Calcule la probabilidad de que el precio ganador no pase de US$ 3.
d) ¿Esperarı́a Ud. que A superara a B en dos o más dólares?
Solución: a) El experimento consiste en observar los precios ofrecidos por A y B. De este modo, si x =
precio ofrecido por A e y = precio ofrecido por B, entonces el espacio muestral vendrá dado por Ω =
{(x, y) / 1 ≤ x ≤ 10 e 1 ≤ y ≤ 5}. Geométricamente Ω es un rectángulo en el plano cartesiano, esto es,
Ω tiene área. Por tanto, la probabilidad de un evento E se puede definir como cociente de áreas y ası́
Area(E)
tenemos: P (E) = Area(Ω) .
b) Sea A = “A resulta ganador”, entonces A = {(x, y) ∈ Ω / x < y}, pues como se trata de proveedores, gana
quien ofrece menor precio. Graficando A, resulta ser la parte de Ω que está arriba de la recta identidad
y = x, lo cual se ilustra en la figura 1.5. El área de Ω es Area = base × altura = (10 − 1) × (5 − 1) = 36;
A es un triángulo y tiene área Area = base × altura/2 = (5 − 1) × (5 − 1)/2 = 8. La probabilidad de A es
Area(A) (4×4/2) 8
entonces:P (A) = Area(Ω) = 9×4 = 36 =0.22.
c) Si C =“El precio ganador no pasa de US$3 ⇒ C = {(x, y) ∈ Ω / mı́n{x, y} ≤ 3} y P (C) = 1 − P (C c ).
Como C c = {(x, y) ∈ Ω / mı́n{x, y} > 3} = {(x, y) ∈ Ω / (x > 3) ∩ (y > 3)} (vea la figura 1.6), tenemos que
P (C c ) = 14/36 = 0.39 y P (C) =0.6.
20 ÍNDICE GENERAL
12
11
10
9
8 y=x
7
6
y
5
4 A
3
2
1
0
0
1
2
3
4
5
6
7
8
9
10
11
12
x
Figura 1.5: Evento A en el espacio muestral Ω que está representado por el rectángulo dado
12
11
10
9
8
7
6
y
5
4 Cc
3
2
1
0
0
1
2
3
4
5
6
7
8
9
10
11
12
x
Figura 1.6: Complemento del evento C en el espacio muestral Ω
10
9
8 y=x−2
7
6
5
4
y
3 D
2
1
0
0
1
2
3
4
5
6
7
8
9
10
11
12
Figura 1.7: Evento D en el espacio muestral Ω

d) Si D =“A supera a B en dos o más dólares”, entonces D = {(x, y) ∈ Ω / y + 2 ≤ x}, pues en el caso de
la igualdad exacta (A supera a B en dos dólares) esta equivale a decir que a y tendrı́amos que sumarle 2
para que alcance a x, esto es y + 2 = x, y en la desigualdad x excede a y en más de 2. Graficando, como se
ve en la figura 1.7, D es el trapecio dibujado abajo. Descomponiendo D en un triángulo y un rectángulo
y calculando áreas tenemos que P (D) = 20/36 = 0.56 > 0.5, luego, podemos esperar que el evento D sı́
ocurrirá.
1.4.2. Probabilidad en espacios numerables

Sea Ω = {w1 , w2 , ..., wk , ...} un espacio muestral infinito numerable. Una asignación de probabi-
lidades compatible con los axiomas es una asignación de la forma:
P ({wk }) = pk , ∀k = 1, 2, ...
P∞
donde pk ≥ 0 y k=1 pk = 1.
Ejemplo 1.14. Si en la definición anterior pk = r k establezca condiciones sobre r para que la asignación
de probabilidades sea correcta en el sentido de Kolmogorov.
Solución: Como pk = r k ≥ 0, r ≥ 0. Por otra parte k pk = ∞ r k = 1 y nuestro problema es calcular la
P P
Pk=1
suma infinita k=1 r , la cual podemos escribir como lı́m k=1 r k . El cálculo de la suma finita N
N
P∞ k P k
N →∞ k=1 r
PN k
es algo estándar. En efecto, si SN := k=1 r y multiplicamos esta expresión por r obtenemos rSN =
r 2 + r 3 + r 4 + . . . + r N + r N +1 . Restando llegamos a que
SN − rSN = (r + r 2 + r 3 + . . . + r N −1 + r N ) − (r 2 + r 3 + r 4 + . . . + r N + r N +1 ) = r − r N +1
y por tanto SN = (r − r N +1 )/(1 − r) (lo que de paso nos da una nueva restricción: r , 1 y por tanto
0 < r < 1). De la condición ∞ k N +1 )/(1 − r) = r/(1 − r)
P
k=1 r = 1, se obtiene que 1 = lı́m SN = lı́m (r − r
N →∞ N →∞
(pues lı́m r N +1 = 0). Llegamos ası́ a que r/(1 − r) = 1 y el valor pedido es r = 1/2.
N →∞
r−r N +1
Nota: Serie geométrica: En general se cumple que si r , 1, N
P k PN k
k=1 r = 1−r y también k=0 r =
1−r N +1 P∞
1−r . Estas series son convergentes para r ∈] − 1, 1[ y sus lı́mites vienen dados por k=1 r k =
r P ∞ k 1
1−r y por k=0 r = 1−r . Note que considerando la segunda como función diferenciable de r:
2
d P∞ k = d 1 d −1 1
dr k=0 r dr 1−r = dr (1 − r) = 1−r y bajo el supuesto de “convergencia absoluta” (o sea
P∞ k
d
k=0 r < ∞, que aquı́ sı́ se cumple) , el “operador derivada” dr puede entrar (o distribuirse) en
2
d P ∞ k P ∞ d k P ∞ k−1 . Por tanto, P∞ kr k−1 = 1
la sumatoria infinita como dr k=0 r = k=1 dr r = k=1 kr k=1 1−r que
es otra identidad que junto con las otras dos, es de muchas aplicaciones en Estadı́stica, Finanzas y
Economı́a.
1.5. Probabilidad clásica y técnicas de conteo

La definición clásica requiere que podamos contar la cantidad de elementos que tienen tanto
el espacio muestral como el evento A cuya probabilidad queremos calcular. Para hacer esto, la
enumeración o conteo directo es por lo general un sistema ineficiente y por ello pasaremos revista
a ciertas técnicas de conteo rápidas.
Dos Principios básicos:
22 ÍNDICE GENERAL
Principio de la multiplicación
Si una “operación” A puede realizarse u ocurrir de a maneras diferentes y otra “operación”
B puede realizarse de b maneras diferentes, entonces la operación compuesta consistente en
realizar A primero y luego realizar B, se puede realizar de axb maneras distintas.
Principio de la adición
Si una “operación” A puede realizarse u ocurrir de a maneras diferentes y otra “operación”
B puede realizarse de b maneras diferentes, siendo ambas operaciones excluyentes, entonces
la operación compuesta A ó B consistente en realizar A o realizar B, pero no ambas, se puede
realizar de a+b maneras distintas.
Naturalmente, estos principios se extienden por inducción a más de dos operaciones.
1.5.1. Permutaciones y combinaciones

Consideremos ahora un conjunto L con n elementos y sea r un entero fijo, conocido y no mayor
que n.
Definición 1.2. Una permutación de tamaño r, formada a partir de los n elementos de L, es un “arreglo”
de r elementos de L donde se distingue o impone un orden entre ellos, sin repetición de elementos.
Definición 1.3. Una combinación de tamaño r, formada a partir de los n elementos de L, es un subcon-
junto de r elementos de L.
Ejemplo 1.15. Si L = {A, B, C, D} y tomamos r = 3 entonces algunas permutaciones de tamaño 3 son:

(A,B,C); (A,C,B); (A,C,D); (D,C,B). Nótese que hay más permutaciones (24 en total) y solo hemos escrito
cuatro de ellas. De otro lado, algunas combinaciones de tamaño 3 son: {A, B, C} y {A, C, D}. Note que hay
más combinaciones (4 en total) y solo hemos escrito dos de ellas. Observe además que de la combinación
{A, B, C} podemos formar seis permutaciones del mismo tamaño, con la misma composición pero con
diferentes órdenes. A saber: (A,B,C), (A,C,B), (C,A,B), (C,B,A), (B,A,C) y (B,C,A).
Observaciones:
Informalmente, una permutación es una “cola” u ordenación de objetos y una combinación

es una colección de objetos.
En las permutaciones importa el orden; en la combinaciones no importa el orden.
Definición 1.4 (Factorial de un número entero). Si n es un entero no negativo, el “factorial de n”

denotado por n! se define mediante n! = n × (n − 1) × (n − 2) × ... × 3 × 2 × 1. Como convención definiremos
0! = 1.
Proposición 1.4. En el contexto de las definiciones anteriores se cumple que el número total de permu-
taciones de tamaño r, al cual denotaremos por Prn , es:
n!
Prn = .
(n − r)!
Demostración: Aplicando el principio de multiplicación y considerando cualquier permutación como una

“cola” compuesta de r elementos, podemos desagregar la operación de formar una permutación en r sub-
operaciones consistentes en asignar o “llenar” el primer lugar de la cola, luego el segundo, el tercero, etc.
Para el primer lugar tenemos n maneras o posibilidades, y llenado éste, para el segundo lugar tenemos (n-
1) maneras o posibilidades y luego, para el tercer lugar hay (n-2) maneras y ası́ sucesivamente. Aplicando
el principio de multiplicación, la operación conjunta de formar la cola se puede hacer de:
n (n − 1) (n − 2) ... (n − (r − 1)) × (n − r)! n!

n (n − 1) (n − 2) ... (n − (r − 1)) = =
(n − r)! (n − r)!
maneras.
Proposición 1.5. En el contexto de las definiciones anteriores se cumple que el número total de combi-
naciones de tamaño r, al cual denotaremos por Crn , es:
n!
Crn = .
r!(n − r)!
Demostración: Notemos primero que si tomamos una combinación cualquiera de tamaño r, esta genera
r! permutaciones distintas de tamaño r. Esto implica que hay una proporcionalidad entre el número
total de permutaciones de tamaño r y el número total de combinaciones de tamaño r. En segundo lugar,
el conjunto total de combinaciones de tamaño r genera el conjunto total de permutaciones de tamaño r.
Entonces, para el número total de combinaciones podemos hacer una regla de tres simple:
1 Combinación → r! Permutaciones
Crn Combinaciones → Prn Permutaciones
Por tanto:
Crn = Prn r! = n! (n − r)!r!

n
Observación: El número Crn se suele también escribir por r y se llama “número combinatorio”.
Tiene algunas propiedades como:
Crn =Cn−r
n
n−1
Crn = Cr−1 +Crn−1
(a + b)n = nk=0 Ckn ak bn−k (Binomio de Newton)

P
Ejemplo 1.16. En una manzana hay 20 hogares, de los cuales 10 son de clase popular, 6 de clase media
y 4 de clase acomodada. En una encuesta se tomó al azar una muestra de 5 hogares de la manzana. Halle
la probabilidad de que:
a) En la muestra haya hogares de clase media.
b) En la muestra la mayorı́a de hogares resulte de clase popular.
c) En la muestra haya dos hogares de clase popular, dos de clase media y uno de clase acomodada.
24 ÍNDICE GENERAL
Solución: a) Se trata de un experimento en donde se toma un subconjunto (una muestra) de cinco hogares
del conjunto mayor L = {H1 , H2 , . . . , H20 } de veinte hogares de la manzana. El espacio muestral Ω es el
conjunto de todas las muestras posibles de tamaño 5 (o sea el conjunto de combinaciones de tamaño
r=5), pues solo importa identificar los hogares que debemos entrevistar y no el orden en que formemos la
muestra, no hay un orden especial. Además, como no tenemos razones para pensar que algunas muestras
de hogares tienen mayor opción de presentarse, podemos usar la definición clásica de probabilidad. Esto
es, el espacio muestral vendrá dado por: Ω = {{x1 , x2 , ..., x5 } / xi ∈ L y xi , xj ,si i , j} y n(Ω) = C520 . Si
A =“En la muestra hay hogares de clase media”, entonces el evento Ac =“En la muestra no hay hogares
de clase media” tiene n(Ac ) = C514 elementos, pues hay 10+4=14 hogares que no son de clase media y de
ellos debo tomar la muestra de 5 hogares. Ası́, P (A) = 1 − C514 /C520 .
b) Si el evento B =“La mayorı́a de hogares en la muestra son de clase popular” ocurre, ello equivale a que
en la muestra hay al menos tres hogares de ese estrato; por tanto n(B) = C310 ×C210 +C410 ×C110 +C510 ×C010
C310 ×C210 +C410 ×C110 +C510 ×C010
y se tiene que P (B) = C520
.
c) Sea C=“En la muestra hay dos hogares de clase popular, dos de clase media y uno de clase acomodada”,
entonces: Hay C210 maneras de tomar 2 hogares de clase popular;C26 maneras de tomar 2 hogares de
clase media y C14 maneras de tomar 2 hogares de clase popular. Por tanto, n(C) = C210 × C26 × C14 y
P (C) = C210 × C26 × C14 /C520 .
Ejemplo 1.17. Una secretaria despistada debe enviar 4 cartas a sus respectivos destinatarios, pero olvida
etiquetar las cartas por lo que el cartero las distribuye al azar.
a) Halle la probabilidad de que ninguna carta llegue a su verdadero destinatario.
b) Halle la probabilidad de que exactamente una carta le llegue a su verdadero destinatario.
Solución: a) El experimento aleatorio aquı́ consiste en observar que cartas, digamos a,b,c y d envia el
cartero a que destinatarios, digamos A,B,C y D. Ello genera el espacio muestral
Ω = {(x, X) /x ∈ {a, b, c, d} y X ∈ {A, B, C, D}},
el cual tiene por el principio de multiplicación 4 × 3 × 2 × 1 = 24 elementos equiprobables, pues hay 4

cartas que el cartero podrı́a enviar a A, hecho esto le quedarı́an 3 cartas que podrı́a enviar a B, luego 2
cartas para C y la última deberá ir a D. Si suponemos, sin pérdida de generalidad, que los verdaderos
destinatarios de a,b,c y d son respectivamente A,B,C y D, podrı́amos definir los eventos Ai =“La carta i
llega a su verdadero destinatario i” y el evento que las cartas sean repartidas en el orden correcto vendrá
dado por A1 ∩ A2 ∩ A3 ∩ A4 . Este evento y el de que 3 cartas lleguen a sus verdaderos destinatarios, por
1
ejemplo a A, B y C, tienen ambos la misma probabilidad que es de 24 . De otro lado el evento A1 ∩ A2
de que A y B reciban sus cartas correctas tiene por el principio de multiplicación y la aplicación de la
definición clásica la siguiente probabilidad P (A1 ∩ A2 ) = 1×1×2×1
24
1
= 12 . Note que no interesa aquı́ el par
de destinatarios elegidos, pues todos tienen la misma probabilidad. Finalmente la probabilidad de que
uno de ellos, digamos A, reciba la carta correcta es P (A1 ) = 1×3×2×1
24 = 16 . Aquı́ tampoco interesa de que
destinatario hablemos, todos tienen igual probabilidad. Dado que nos piden
P (Ac1 ∩ Ac2 ∩ Ac3 ∩ Ac4 ) = 1 − P (A1 ∪ A2 ∪ A3 ∪ A4 )

tenemos, por la propiedad 2 de la proposición 1.3, que

4
[ 4
X 4
X 4
\
P( An ) = P (A1 ) + P (A2 ) + P (A3 ) + P (A4 ) − P (An ∩ Am ) + P (An ∩ Am ∩ Ap ) − P ( An )
n=1 n<m n<m<p n=1
1 1 1 1 1 1 1 1 19
= 4× + C24 × + C34 × − = 4× +6× +4× − =
24 12 24 24 24 12 24 24 24
19 5
y consecuentemente P (Ac1 ∩ Ac2 ∩ Ac3 ∩ Ac4 ) = 1 − 24 = 24 .
b) Se nos pide la probabilidad de que sólo uno de ellos reciba la carta corecta, es decir:
P ((A1 ∩ Ac2 ∩ Ac3 ∩ Ac4 ) ∪ (Ac1 ∩ A2 ∩ Ac3 ∩ Ac4 ) ∪ (Ac1 ∩ Ac2 ∩ A3 ∩ Ac4 ) ∪ (Ac1 ∩ Ac2 ∩ Ac3 ∩ A4 ))
= P (A1 ∩ Ac2 ∩ Ac3 ∩ Ac4 ) + P (Ac1 ∩ A2 ∩ Ac3 ∩ Ac4 ) + P (Ac1 ∩ Ac2 ∩ A3 ∩ Ac4 ) + P (Ac1 ∩ Ac2 ∩ Ac3 ∩ A4 )
1×2×1×1 2×1×1×1 2×1×1×1 2×1×1×1 1
= + + + = .
24 24 24 24 3
Note que aquı́ las probabilidades se suman pues se aplican sobre eventos disjuntos y para el último
cálculo las cuatro probablidades son las mismas. Por citar, para la primera que calcula la probabilidad
de que sólo A recibe una carta correcta hay una sola manera que el la reciba, luego dos maneras de que
B no reciba la carta correcta (recibe las de C o D) y luego una sola manera de que C reciba una carta
incorrecta (la de D) y una de que D reciba la carta incorrecta (la de C).
Ejemplo 1.18. Un sistema de seguridad posee un código de colores de 8 casillas, siendo las 2 primeras
blancas, las 3 siguientes negras y las 3 últimas rojas. Asuma que Ud. sabe la cantidad de colores pero
desconoce el código e intenta adivinarlo: ¿Cree que logrará hacerlo en un intento? Use probabilidades
para responder.
Solución: Aquı́ Ω es el conjunto de todos los códigos posibles conformados por dos letras o colores B, tres
N y tres R. Formar un código equivale a seleccionar lugares para las letras, dentro de los 8 que forman el
código:
Hay C28 maneras de seleccionar dos de los ocho lugares para colocar las 2 B.
Hay C36 maneras de seleccionar tres de los seis lugares restantes para colocar las 3 N.
Hay C33 maneras de seleccionar tres de los tres lugares restantes para colocar las 3 R.
1 1
Finalmente, por el principio de la multiplicación, n(Ω) = C28 C36 C33 y P (Acertar) = C28 C36 C33
= 560 =
0.0018 que es casi cero. Es realmente muy improbable que se logre adivinar la clave en un intento.
Ejemplo 1.19. En el mercado de un bien con 6 productores se sabe que hay al menos dos coaliciones y un
organismo de regulación se interesa por el estado del mercado. Halle la probabilidad de que el mercado
esté formado por dos coaliciones, cada una con tres empresas.
Solución: En este contexto, y sin ninguna otra información, el experimento aleatorio consiste en observar
el estado del mercado, que podrı́a ser como sigue:
Dos coaliciones de 2 empresas cada una y las otras empresas libres,

26 ÍNDICE GENERAL
Dos coaliciones, una de 2 empresas y la otra de 3, con la empresa restante libre,
Dos coaliciones, una de 2 empresas y la otra de 4,
Dos coaliciones, cada una con tres empresas, o finalmente,
Tres coaliciones, cada una con dos empresas.
El tamaño de Ω es entonces n(Ω) = C26 C24 + C26 C34 + C26 C44 + C36 C33 + C26 C24 C22 = 275 y nos interesa que
C36 C33 20
se haya dado la penúltima situación. Denotando por D a este evento, se tiene que P (D) = 275 = 275 =
0.07.
Ejemplo 1.20. ¿Cuál es la probabilidad de obtener exactamente un par en una primera mano de poker?
Figura 1.8: Ejemplo de un par en una primera mano de poker
Solución: Este es un problema relativamente complejo, por lo cual será importante descomponer la ope-
ración de selección en tareas más sencillas. Para empezar, el espacio muestra Ω está conformado por
todas las posibles manos (de 5 cartas) y tiene n(Ω) = C552 = 2 598 960 elementos. El evento de interés es
A = “Obtener exactamente un par”. Asumiendo que tenemos una baraja sin comodines, la operación en
mención la podrı́amos entonces subdividir en las siguientes tareas:
Tarea 1: Seleccionar el número para el par. Esto se puede hacer de n1 = 13 maneras.
Tarea 2: Seleccionar los palos para el par. Esto se puede hacer de n2 = C24 = 6 maneras.
Tarea 3: Seleccionar los otros números que acompañen al del par. Esto se puede hacer de n3 =
C312 = 220 maneras.
Tarea 4: Seleccionar los palos para los tres números de la tarea 3. Esto se puede hacer de n4 = 43
maneras.
Por tanto, utilizando la definición clásica de probabilidad y el principio de multiplicación, se tiene que
13 × 6 × 220 × 64
P (A) = = 0.422569.
2 598 960
1.6. Probabilidad condicional e independencia

La probabilidad, como ya vimos, mide la propensión o tendencia a ocurrir que le asignamos
a un evento. Esta asignación inicialmente se hace partiendo de la información que proporciona
el experimento aleatorio que sirve de base. Sin embargo, pueden presentarse circunstancias que
pongan en nuestras manos información adicional y que aconsejen un reasignación de probabi-
lidades. Por ejemplo, si alguién lanza un dado normal y no lo vemos es natural pensar que la
probabilidad de que este obtenga 5 puntos es 1/6 ; pero si otra persona nos informa que el lan-
zador obtuvo un número par, entonces tendrı́amos que reasignar probabilidades indicando que
la probabilidad que obtenga 5 puntos es ahora 0, dada la nueva información. El proceso que está
debajo es simple: Inicialmente el espacio muestral es Ω = {1, 2, 3, 4, 5, 6} y si B denota el evento “Se
obtienen 5 puntos” y A denota el evento “El puntaje obtenido es par”, entonces B={5} y A={2,4,6}.
Ası́ P(B)=1/6, pues B tiene un solo elemento. Pero si sabemos que A se ha presentado, entonces
los únicos resultados posibles son 2 o 4 o 6: {2,4,6} y dentro de este nuevo espacio muestral, B no
tiene ningún elemento, por tanto, su nueva probabilidad debe ser cero.
1.6.1. Probabilidad Condicional

Dados dos eventos A y B, tales que P (A) > 0, definimos la probabilidad condicional de B dado
A, denotada por P (B|A), mediante:
P (B ∩ A)
P (B|A) = .
P (A)
Observaciones:
Si usamos la noción clásica de probabilidad, en donde ésta se mide como el cociente del
número de elementos de un evento sobre el número de elementos en el espacio muestral,
P (B∩A) n(B∩A)/n(Ω) n(B∩A)
tenemos: P (B|A) = P (A) = n(A)/n(Ω) = n(A) . Como se ve, P (B|A) es la probabilidad de
B cuando Ω se reduce al evento A. Esto puede usarse para distinguirla de la probabilidad
incondicional: Al hacer el cálculo, uno debe preguntarse sobre cuál conjunto se esta traba-
jando; si el cálculo o porcentaje se está haciendo sin ninguna restricción (o sea sobre Ω) la
probabilidad es incondicional. En cambio, si el universo se ha restringido, se trata de una
probabilidad condicional. Por lo anterior, a veces nos referiremos al evento A como evento
“condicionante”.
Observando el numerador del cociente en la definición, se encuentra la razón por la cual a

veces se confunde P (B|A) con P (B ∩ A): En ambos casos el numerador es el mismo. De nuevo,
la mejor manera de evitar la confusión es preguntarse por el universo sobre el cual se efectúa
el cálculo, si no es Ω sino otro evento (o sea A), se trata de una probabilidad condicional.
Ejemplo 1.21. En el ejemplo 1.15 de la encuesta de hogares, calcule la probabilidad de que en la muestra
esté presente la clase acomodada, dado que tres hogares de la muestra resultaron de clase popular.
Solución: Sean E = “En la muestra está presente la clase acomodada” y D = “Tres hogares de la muestra
resultaron de clase popular”, nos piden P (E|D).Como P (E|D)=1-P (E C |D) y tenemos n(D) = C310 × C210
C 10 C 6 C6 C6
y n(E C D) = C310 × C26 , entonces P (E C |D) = C 103 C 102 = C 102 y la probabilidad pedida es P (E|D) = 1 − C 102 .
T
3 2 2 2
28 ÍNDICE GENERAL
Es interesante observar que de la definición de probabilidad condicional, uno podrı́a despejar

la probabilidad de la intersección de los eventos A y B mediante:
P (A ∩ B) = P (B|A)P (A).
Nótese que si P (B) > 0, P (A|B) también está definida y podemos escribir:
P (A ∩ B) = P (A|B)P (B).
Esta propiedad puede generalizarse a más de dos eventos. Por ejemplo en el caso de tres, ella se
escribe como
P (A ∩ B ∩ C) = P (C|A ∩ B)P (B|A)P (A) .
En general, se tiene el siguiente resultado conocido como la regla del producto.
Proposición 1.6. Si A1 , A2 , . . . , AN son N eventos, tales que las probabilidades siguientes están bien
definidas, entonces
N  N  n−1

\  Y  \ 
P  An  = P An | Aj  ,
 
 
n=1 n=1 j=1
donde el primer término en la productoria viene dado por P (A1 ).

Demostración: Procederemos por inducción. El caso N = 2 ya se vio que viene de la definición. Si la
proposición es válida para N , debemos mostrar que lo es para N + 1. En efecto,
N +1  N   N
 N 
 \  \   \  \ 
P  An  = P  An ∩ AN +1  = P AN +1 | An  × P  An 
n=1 n=1 n=1 n=1
 N
 N  n−1

+1 
 
 \  Y  \  NY  n−1
\ 
= P AN +1 | An  × P An | Aj  = P An | Aj 
  
   
n=1 n=1 j=1 n=1 j=1
lo cual completa la prueba.
Ejemplo 1.22. Tres personas A, B y C se ponen en cola y toman una tras otra una carta de una baraja
normal con 52 cartas. Gana quien obtiene el as de espadas. Antes de empezar el juego, ¿algún lugar en
la cola resulta ser más conveniente?
Solución: Definamos los eventos A = “Gana A”, B = “Gana B” y C = “Gana C” y para simplificar supon-
gamos que extraen sus cartas en ese orden: Primero A y si no gana, entonces extrae B y si no gana, extrae
C y ahı́ acaba el juego. En este contexto y aplicando la regla del producto: P(A)=1/52, P(B)=P(Ac ∩B)=
P(B|Ac )×P(Ac )=(1/51)×(51/52)=1/52 y P(C)=P(Ac ∩Bc ∩C)=(1/50)×(50/51)×(51/52)= 1/52. Las tres
probabilidades son iguales. Por tanto, antes de empezar, todos los lugares son equiprobables para ganar.
Ejemplo 1.23. En un estudio se aplicó una encuesta a una muestra de 150 empresarios participantes de
un congreso anual de ejecutivos, registrando su opinión acerca de ciertos aspectos de la economı́a y sus
perspectivas de inversión. Una de las tablas de resultados de la encuesta fue:
Seguirá invirtiendo Detendrá sus inversiones

Tipo de empresa Tipo de empresa
¿Cambiará el ministro de economı́a? PYME No PYME PYME No PYME Total
No 47 67 3 8 125
Sı́ 4 5 3 13 25
Total 51 72 6 21 150
Usando la definición frecuencial de probabilidad:
a) ¿Dónde hay mayor probabilidad de detención de inversiones: en PYMES o en No PYMES?
b) Un empresario cree que se cambiará al ministro de economı́a: ¿Dirı́a que detendrá sus inversiones?
c) Dado que un empresario No PYME le manifiesta su convicción de que cambiarán al ministro de

economı́a, ¿qué probabilidad le asigna de detener sus inversiones?
d) ¿Cuál tipo de empresario tiene decisiones de inversión más sensibles al posible cambio de ministro?
Solución: a) Si D = “Detiene inversiones”, se pide comparar P (D|P Y ME) vs P (D|N o P Y ME). En es-
te caso es más sencillo calcular probabilidades condicionales “reduciendo” el espacio muestral, o sea
quitando los elementos que no están en el respectivo “evento condicionante”: En el caso de PYME:
n(D∩P Y ME) 6
P (D|P Y ME) = n(P Y ME) = (51+6) = 0.11; con No PYME se procede análogamente: P (D|N o P Y ME) =
n(D∩N o P Y ME) 21
n(N o P Y ME)
= (72+21) = 0.23. En general las probabilidades de detención de inversiones son bajas,
aunque ésta es mayor dentro de los empresarios No PYME.
b) Si C = “Cree que sı́ cambiará el ministro de economı́a”, se pregunta por P (D|C) y se procede análoga-
n(D∩C)
mente a como se trabajó en a): n (C) = 25; n (D ∩ C) = 3 + 13 = 16, P (D|C) = n(C) = 16 25 = 0.64 > 0.5;
en este caso hay mayor propensión a detener inversiones si es que se cambia al ministro. Sı́ dirı́amos que
detendrá sus inversiones.
13
c) Se pregunta por P (D|N oP Y ME ∩ C) = 5+13 = 0.72.
d) Hay que hacer cálculo de probabilidades condicionales de detención de inversiones por separado en
cada grupo, PYMES y No PYMES según la creencia de cambio de ministro: cuánto más cercana a uno,
más “sensibilidad”al posible cambio de ministro. P (D|N oP Y ME ∩ C) = 0.72 ya se calculó antes, falta
3
P (D|P Y ME ∩ C) que es P (D|P Y ME ∩ C) = 4+3 = 0.43; Los empresarios No PYME son más “sensibles”
a la posibilidad de cambio de ministro de economı́a, en ellos es casi seguro que detendrán sus inversiones
(la probabilidad es 0.72 > 0.5) en cambio, en los PYME podemos pronosticar que no detendrán sus
inversiones (probabilidad de 0.43 < 0.5).
1.6.2. Independencia probabilı́stica

Más de una vez, sucede que tenemos elementos para concluir que un evento A no es “condi-
cionante” de otro evento B; es decir, que la ocurrencia de A no afecta las posibilidades de B, y por
tanto la probabilidad de éste no se altera. Formalmente P (B|A) = P (B). De manera equivalente,
por la regla del producto tenemos:
P (A ∩ B) = P (B|A)P (A) = P (A)P (B).

30 ÍNDICE GENERAL
Por razones de conveniencia matemática, la definición del concepto de independencia proba-

bilı́stica usa la última igualdad.
Definición 1.5. Dos eventos A y B se dicen independientes si y solo se cumple la igualdad:

P (A ∩ B) = P (A)P (B).
Observaciones:
Se demuestra que si A y B son independientes, también lo son sus complementos y en general

todos los eventos de la serie A, B, Ac , Bc .
Si A y B no son independientes, diremos que están “asociados”. En este contexto, el cociente

(P (A ∩ B) − P (A)P (B))/P (A)P (B) podrı́a servir de base para medir el “grado de asociación”.
Ejemplo 1.24. La probabilidad del evento A = “El lunes habrá baja de precios en el mercado de minera-
les” es 0.7 y la probabilidad del evento B = “El martes habrá baja de precios en el mercado de minerales”
es 0.8.
a) Si el 65 % de las veces hay dos dı́as consecutivos de baja, ¿cuál es la probabilidad de que haya baja el
martes, si el lunes sı́ la hubo? ¿Son independientes los eventos?
b) Si los eventos anteriores fueran independientes, ¿con qué probabilidad habrá baja de precios en el
mercado en alguno de estos dı́as?
Solución: a) Sabemos que P (A) = 0.7, P (B) = 0.8, P (A ∩ B) = 0.65 y nos piden P (B|A). Aplicando
la definición de probabilidad condicional obtenemos P (B|A) = P (A) = 00..65
P (B∩A)
7 = 0.93; En cuanto a la
independencia 0.65 = P (A∩B) , P (A)P (B) = 0.7×0.8 = 0.56, es decir, los eventos no son independientes.
Lo anterior también se deduce al ser P (B|A) distinta de P (B).
b) Nos piden P (A∪B) = P (A)+P (B)−P (A∩B). En esta nueva situación, dada la independencia, P (A∩B) =
P (A)P (B) = 0.56 y por tanto P (A ∪ B) = 0.7 + 0.8 − 0.56 = 0.94.
Ejemplo 1.25. Si A y B son independientes, pruebe que Ac y Bc son también independientes.

Solución: Tenemos que demostrar que P (Ac ∩ Bc ) = P (Ac )P (Bc ), sabiendo que P (A ∩ B) = P (A)P (B). En
efecto, como Ac ∩ Bc = (A ∪ B)c , entonces P (Ac Bc ) = P ((A ∪ B)c ) = 1 − P (A ∪ B) o, equivalentemente,
T
P (Ac ∩ Bc ) = 1 − P (A) − P (B) + P (A ∩ B) = 1 − P (A) − P (B) + P (A)P (B) = P (Ac ) − P (B)(1 − P (A))
= P (Ac ) − P (B)P (Ac ) = P (Ac )(1 − P (B)) = P (Ac )P (Bc ) ⇒ P (Ac ∩ Bc ) = P (Ac )P (Bc ).
Ejemplo 1.26. Hay dos vı́as que van de la ciudad A a la ciudad B y dos vı́as que van de B a la ciudad C.
Si cada una de las 4 vı́as tiene probabilidad 1/4 de ser interrumpida por huaycos, independientemente
de las otras, ¿con qué probabilidad se podrá pasar de A a C?
Solución: Sean los eventos G =“Se puede pasar de A a C”, E=“Hay vı́a libre A a B” y F=“Hay vı́a libre
de B a C”. Entonces G = E ∩ F y E, F son independientes. Luego P (G) = P (E ∩ F) = P (E) × P (F) y como
P (E) = 1 − P (E c ); y P (E c ) =Cae huayco en las dos vı́as de A a B= 41 × 14 = 16
1 1
entonces P (E) = 1 − 16 15
= 16 .
2
Análogamente P (F) = 15 15
16 y P (G) = P (E ∩ F) = 16 .
Ejemplo 1.27. En un mercado hay 3 productores del bien A y 3 productores del bien B y un consumidor
puede elegir indistintamente a cualquiera de los productores de A, pero la probabilidad de que elija al
productor j de B es directamente proporcional al gasto γj que dicho productor haga en propaganda,
habiendo independencia entre las elecciones en A y en B. Sea Ω el espacio muestral dado por Ω =
{wij / wij = El consumidor elige al productor i de A y al productor j de B}. Asumiendo un precio único
para A y también para B:
a) Halle la asignación o distribución de probabilidades en Ω, si γj = j.
b) Un inversionista adquiere las empresas de los productores 1 y 2 de A y la del productor 3 de B.

Calcule la probabilidad de que el consorcio formado por el inversionista no logre realizar ventas.
c) Si el inversionista de b) ha logrado hacer ventas, ¿cuál serı́a la probabilidad de que esto haya ocurrido
solo en B?
Solución: a) Por dato tenemos que P (i) = 1/3, ∀i = 1, 2, 3 y P (j) = αj, ∀j = 1, 23 y como hay independen-
cia P ({wij }) = P (i)P (j) = αj/3, si i = 1, 2, 3 y j = 1, 2, 3. Como Ω tiene 9 elementos: (1,1),(1,2),(1,3),...,(3,3)
y P (Ω) = 3i=1 3j=1 P ({wij }) = 1, se tiene que 31 (α + 2α + 3α) + 31 (α + 2α + 3α) + 31 (α + 2α + 3α) = 1. Ası́,
P P
6α = 1 ⇒ α = 1/6 y la distribución de probabilidades en Ω viene dada por P (wij ) = j/18, ∀i = 1, 2, 3; j =

1, 2, 3.
b) Sea C= “El consorcio del inversionista no realiza ventas”, entonces C = {w31 , w32 } pues “no realiza
ventas” equivale a “no vende A ni B” que a su vez equivale a que el consumidor elige comprar A y B
fuera del consorcio. Evaluando, P (C) T = P ({w31 , w32 }) = P ({w31 }) + P ({w32 }) = (1/18) + (2/18) = 3/18.
c P ({w33 } C c ) P ({w }) 3/18 3
c) Nos piden P ({w33 } |C ) = P (C c )
= P (C33c ) = 1−(3/18) = 15 .
1.6.3. Probabilidad total y el teorema de Bayes

Una aplicación de la probabilidad condicional es permitir la reconstrucción de probabilidades
previas o incondicionales, a partir de las condicionales. Lo anterior se hace gracias a dos teoremas
simples pero importantes.
Teorema 1.1 (Teorema de probabilidad total). Sean A1 , A2 , ..., AN eventos mutuamente excluyentes,
N
S
todos con probabilidad positiva y tales que Ak = Ω. Sea B otro evento de Ω. Entonces se cumple que:
k=1
N
X
P (B) = P (B | Ak )P (Ak ).
k=1
N
S N
S
Demostración: Como B = B ∩ Ω = B ∩ Ak = (B ∩ Ak ) y se tiene por la regla del producto que
k=1 k=1
P (B ∩ Ak ) = P (B | Ak )P (Ak ), ∀k,
N  N N
[  X X
P (B) = P  (B ∩ Ak ) =

 
 P (B ∩ Ak ) = P (B | Ak )P (Ak ).
k=1 k=1 k=1
32 ÍNDICE GENERAL
Teorema 1.2 (Teorema de Bayes). En el contexto del teorema de probabilidad total, si además P(B)>0,
entonces se cumple que para cualquier k = 1, 2, . . . , N :
P (B | Ak )P (Ak )
P (Ak | B) = PN .
j=1 P (B|A j )P (A j )
Demostración: Basta recordar la definición de probabilidad condicional y luego aplicar el teorema de

probabilidad total para obtener
P (B ∩ Ak ) P (B|Ak )P (Ak )
P (Ak | B) = = PN , ∀k = 1, 2, . . . , N .
P (B) j=1 P (B|Aj )P (Aj )
Ejemplo 1.28. Ante una pregunta de opción múltiple con 5 opciones, el examinado puede saber la
respuesta, no saberla en absoluto o tener dudas. Si no sabe marca al azar y si tiene dudas, después de
un análisis de opciones puede reducir las mismas a las 3 más plausibles, una de las cuales es la correcta.
Datos previos indican que el 55 % sabe la respuesta y el 15 % no la sabe en absoluto.
a) ¿Qué proporción de aciertos se espera en esta pregunta?
b) Un examinado acertó en la pregunta, ¿sabrá verdaderamente la respuesta?
Solución: Sean los eventos A1 = “El examinado sabe la respuesta”,A2 = “El examinado no sabe la res-
puesta en absoluto”, A3 = “El examinado tiene dudas” y B = “El examinado acierta en la respuesta”. Por
los datos dados P (A1 ) = 0.55, P (A2 ) = 0.15 y por complemento P (A3 ) = 1 − 0.55 − 0.15 = 0.30. Por otra
parte, P (B|A1 ) = 1, pues si sabe la respuesta, obviamente marca lo correcto; P (B|A2 ) = 1/5 = 0.2, pues
si no sabe, contesta al azar sobre el total de 5 preguntas, y P (B|A3 ) = 1/3 = 0.33, pues si tiene dudas,
siempre puede reducir el conjunto de casos posibles a 3, uno de los cuales es el correcto.Por tanto:
a) En este caso nos piden P (B) y aplicando el teorema de probabilidad total,
3
X
P (B) = P (B|Ak ) P (Ak ) = P (B|A1 ) P (A1 ) + P (B|A2 ) P (A2 ) + P (B|A3 ) P (A3 )
k=1
= (1 × 0.55) + (0.2 × 0.15) + (0.33 × 0.30) = 0.678.

b) Debemos calcular P (A1 |B). Aplicando el Teorema de Bayes,
P (B ∩ A1 ) P (B ∩ A1 ) P (A1 ) 0.55
P (A1 |B) = =P = = 0.81
P (B) 3
P B|Aj P Aj 0.679
k=1
que es lo bastante alta como para asegurar que lo más probable es que, si acertó en la respuesta es porque
de verdad la sabı́a. Note que también se puede calcular P (A2 |B) = 0.146 y P (A3 |B) = 0.044 y con estas
cifras a la mano, podemos decir que dentro del grupo de personas que aciertan el ı́tem o pregunta, aquellos
que no saben nada de él, son la minorı́a absoluta, el 4.4 % aproximadamente.
Observación: Otra manera de resolver problemas relacionados a los teoremas de probabilidad

total y de Bayes, es mediante los llamados diagramas de árbol. Un diagrama de estos para el
ejemplo anterior es el siguiente:
B
1
A1 @

@
0
0.55 R Bc
@
0.2
B

0.15 - A2
@ @
@ @
0.8
@ R Bc
@
0.3
@
@ 0.33
B
@
R A3
@
@
@
0.67 @
R Bc
Figura 1.9: Diagrama de árbol para el ejemplo 1.28
Aquı́ cada nodo en el que terminan las ramas denota a uno de los eventos de interés y sobre las
ramas se escriben las probabilidades de estos eventos, siendo por ejemplo las conducentes a B,
probabilidades condicionales. De esta manera la probabilidad del evento B se calculará simple-
mente multiplicando primero las probabilidades que conducen a B en las ramas y luego sumando
estas probabilidades para todos los nodos finales de B.
Ejemplo 1.29. En un mercado laboral, el 20 % de trabajadores tiene 5 años de escolaridad, el 70 % tiene

10 años y el resto tiene 15 años. La probabilidad p de que un trabajador sea estable, está condicionada por
sus años de escolaridad E, a través de p = 1/(1+e−0.04E ). Dado que Ud. entrevista a un trabajador de este
mercado y resulta que tiene empleo estable ¿Qué nivel de escolaridad serı́a el más razonable imputarle?
¿Por qué?
Solución: Sabemos que la persona tiene empleo estable y nos preguntamos por su escolaridad, que puede
ser de cinco, diez o quince años. Aunque no podemos decir con seguridad cuál es la escolaridad, sı́
podemos identificar la más probable, que serı́a entonces nuestra mejor conjetura. Como dato, tenemos
una fórmula general que condiciona la estabilidad del empleo a la escolaridad, vı́a p = 1/(1 + e−0.04E ),
donde E puede valer 5, 10 o 15. Sean entonces los eventos A1 = “Escolaridad de cinco años”, A2 =
“Escolaridad de diez años”, A3 = “Escolaridad de quince años” y B = “Empleo estable”. Necesitamos
calcular P (Ak |B), para k = 1, 2, 3 y determinar cuál es mayor. Esto lo haremos con el teorema de Bayes.
Ahora bien, de acuerdo a los datos y aplicándose la fórmula general de las probabilidades condicionales
del empleo estable se tiene que:
34 ÍNDICE GENERAL
Si ocurre A1 , entonces E = 5 y P (B|A1 )=1/(1 + e−0.04×5 ) = 0.55;
Si ocurre A2 , entonces E = 10 y P (B|A2 )=1/(1 + e−0.04×10 ) = 0.60
Si ocurre A3 , entonces E = 15 y P (B|A3 )=1/(1 + e−0.04×15 ) = 0.65
De otro lado, P (A1 ) = 0.20, P (A2 ) = 0.70 y P (A3 ) = 0.10. Evaluando tenemos entonces que
3
X
P (B) = P (B|Ak )P (Ak ) = P (B|A1 ) P (A1 ) + P (B|A2 ) P (A2 ) + P (B|A3 ) P (A3 )
k=1
= 0.2 × 0.55 + 0.7 × 0.6 + 0.1 × 0.65 = 0.595.

Luego:
0.2 × 55 0.7 × 0.60 0.1 × 0.65
P (A1 |B) = = 0.18, P (A2 |B) = = 0.71 y P (A3 |B) = = 0.11
0.595 0.595 0.595
Comparando probabilidades, concluimos que la escolaridad más razonable para esta persona es de
10 años.
Ejemplo 1.30. Tres personas se dividen un trabajo de Estadı́stica, de modo que cada una trabaja su parte
independientemente y se ponen de acuerdo para integrar sus trabajos en uno solo. Las probabilidades de
fallar en sus respuestas son 0.2, 0.15 y 0.25 respectivamente. Halle la probabilidad
a) De que se presente bien resuelto el trabajo.
b) De que el trabajo tenga algún error.
c) De que el más capaz de los tres haya fallado, si el trabajo entregado tenı́a error.
Solución: Sean A= “A falla en su parte”; B= “B falla en su parte” y C= “C falla en su parte”. Por dato,
P(A) = 0.2, P(B)=0.15 y P(C)=0.25, siendo independientes los eventos. En este contexto:
a) Si D = “Trabajo bien resuelto” = “Ningún error o nadie falla”=Ac ∩Bc ∩Cc , entonces
P (D) = P (Ac ∩ Bc ∩ C c ) = P (Ac ) × P (Bc ) × P (C c ) = 0.8 × 0.85 × 0.75 = 0.51.
b) Si E =“Trabajo con algún error”, se tiene que
P (E) = 1 − P (D) = 1 − 0.51 = 0.49.
c) Se nos pide
P (B ∩ D c ) P (D c |B) P (B) 1 × 0.15 0.15
P (B|D c ) = = = = = 0.31.
P (D c ) P (D c ) 0.49 0.49
Note que si B falla en su parte, entonces necesariamente ya hay error en el trabajo, o sea ocurre D c y por
eso P (D c |B) = 1.
Ejemplo 1.31. Un economista que trabaja en una agencia de publicidad sabe que con probabilidad de
0.8 las amas de casa de un sector social ven telenovelas románticas y con probabilidad 0.7 las amas de
casa ven “talk shows”. También se sabe que el 10 % de amas de casa no ven ninguno de los dos tipos de
programa.
a) ¿Cuál es la probabilidad de que un ama de casa entrevistada al azar vea ambos tipos de programa?
b) ¿Cuál es la probabilidad de que un ama de casa entrevistada al azar vea telenovelas románticas si ya
declaró no ver “talk shows” ?
Solución: Sean los eventos A = “El ama de casa ve telenovelas románticas” y B = “El ama de casa ve
talk shows”. Tenemos como datos que P (A) = 0.8, P (B) = 0.7, P (Ac ∩ Bc ) = 0.10 y nos piden P (A ∩ B)
y P (A | Bc ). Si bien este problema se podrı́a resolver utilizando un diagrama de árbol, mostraremos
ahora alternativamente su desarrollo mediante una tabla de probabilidades o contingencia como la abajo
mostrada:
Ω A Ac Total
B P (A ∩ B) P (Ac ∩ B) 0.7
Bc P (A ∩ Bc ) 0.1 P (Bc )
Total 0.8 P (Ac ) 1
Por el teorema de probabilidad total, la suma de las filas y columnas centrales de la tabla deben de dar
1 y como por la propiedad del complemento P (Ac ) = 0.2, se tiene que P (Ac ∩ B) = 0.2 − 0.1 = 0.1. Por
P (A∩Bc )
= 0.8−0 .6
P (A)−P (A∩B)
tanto, P (A ∩ B) = 0.7 − 0.21 = 0.6. Finalmente, P (A | Bc ) = P (Bc ) = P (B) 0.3 = 0.67.
Ejemplo 1.32. Un economista genera un ranking de las tres empresas que considera con mejores pers-
pectivas para el año actual, a partir de la lista de las diez empresas que tuvieron mayores utilidades el
año pasado, digamos las empresas A1,A2,. . . ,A10. Las empresas A1, A7 y A5 forman parte de la cor-
poración ABEP. En este contexto, usando probabilidad clásica y principios básicos de conteo, calcule la
probabilidad de que:
a) ABEP cope el ranking confeccionado por el economista.
b) ABEP figure en el ranking.
c) ABEP ocupe los puestos primero y tercero del ranking
Solución: Puesto que no tenemos mayor información, asumiremos que el economista ha generado su
ranking seleccionado al azar tres de las 10 empresas arriba dadas sin conocer sobre la composición de la
corporación ABEP. En tal sentido el espacio muestral para este problema estará dado por
Ω = {(x1 , x2 , x3 ) / xi ∈ {A1, A2, . . . , A10} y x1 , x2 , x3 }.
La restricción x1 , x2 , x3 es natural pues una misma empresa no puede estar en dos puestos del ranking
a la vez. Aplicando el principio de multiplicación, n(Ω) = 10 × 9 × 8, pues hay diez maneras de asignar
una empresa al primer lugar (x1 ), nueve maneras de asignar una empresa al segundo lugar (x2 ) y ocho
maneras de asignar una empresa al tercer lugar (x3 ).
a) Sea el evento A = “ABEP copa el ranking”, entonces para que eso ocurra, el economista debe haber
seleccionado para los tres puestos solo empresas de la corporación ABEP, o sea, debe haber seleccionado
solo entre A1, A7 y A5. Aplicando el principio de multiplicación n (A) = 3 × 2 × 1, pues hay tres maneras
de asignar una empresa de ABEP al primer lugar (x1 ) y luego hay dos maneras de asignar una empresa
36 ÍNDICE GENERAL
al segundo lugar (x2 ) y hecho esto, ya solo queda una manera de asignar una empresa de ABEP al tercer
n(A) 3×2×1 1
lugar (x3 ). Entonces, la probabilidad pedida es: P (A) = n(Ω) = 10×9×8 = 120 .
n(BC )
b) Si B = “ABEP figura en el ranking”, es mejor calcular P (B) = 1 − P (BC ) y como P BC = n(Ω) =
7×6×5 210 21
10×9×8 = 720 = 72 . Ası́, P (B) = 1 − 21
72 =
51
72 .
n(D)
c) Si definimos D = “ABEP ocupa los puestos primero y tercero del ranking” ,entoncesP (D) = n(Ω)
=
3×7×2 7
10×9×8 = 120 .
Ejemplo 1.33. Una acción valuada inicialmente en S/.10 , se cotiza en dos periodos. Durante cada
periodo la acción puede bajar, permanecer igual o subir en S/. 1. Las probabilidades de estos eventos
en el primer periodo son 0.2, 0.5 y 0.3 respectivamente. En el segundo la acción puede volver a subir
con probabilidad 0.3 y bajar después de subir en el primero, con probabilidad 0.1. Ahora, si la acción se
mantiene igual en el periodo inicial, puede subir en el segundo con probabilidad 0.4, y puede mantenerse
igual con probabilidad 0.35; Finalmente, si la acción baja en el primer periodo, lo seguirá haciendo en el
segundo con probabilidad 0.5, y subirá con 0.1 de probabilidad.
a) Halle la probabilidad de que el valor final de la acción sea de S/. 12
b) Halle la probabilidad de que el valor final de la acción sea de S/. 11
c) Si no cambia el valor final de la acción, en relación al valor inicial, ¿cuál serı́a la probabilidad de que
la acción haya bajado?
Solución: Sean los eventos: A1 = “ Acción sube en el primer periodo”, A2 = “ La acción permanece igual
en el primer periodo” y A3 = “La acción baja en el primer periodo”. De otro lado, sean los eventos B1 =
“La acción sube en el segundo periodo”, B2 = “La acción permanece igual en el segundo periodo” y B3 =
“La acción baja en el segundo periodo”.
Si definimos el evento C = “El valor final de la acción es S/.12”, entonces C = A1 ∩ B1 y aplicando la
regla del producto: P (C) = P (A1 ∩ B1 ) = P (B1 | A1 ) P (A1 ) = 0.3 × 0.3 = 0.09.
b) Con los mismos eventos de a), sea ahora D = “El valor final de la acción es S/.11”, entonces D =
(A1 ∩ B2 ) ∪ (A2 ∩ B1 ) y P (D) = P (A1 ∩ B2 ) + P (A2 ∩ B1 ) = 0.6 × 0.3 + 0.4 × 0.5 = 0.38.
c) Con los mismos eventos de a) sea ahora E = “El valor final es igual al valor inicial”, entonces E =
(A1 ∩ B3 ) ∪ (A2 ∩ B2 ) ∪ (A3 ∩ B1 ) y P (E) = P (A1 ∩ B3 ) + P (A2 ∩ B2 ) + P (A3 ∩ B1 ), etc. Pero se pregunta
por P ((A1 ∩ B3 ) ∪ (A3 ∩ B1 )|E). Aplicando la definición de probabilidad condicional:
P ((A1 ∩ B3 ) ∪ (A3 ∩ B1 )|E) = P ((A1 ∩ B3 ) |E) + P ((A3 ∩ B1 ) |E)

P (A1 ∩ B3 ∩ E) P (A3 ∩ B1 ∩ E) P (E|A1 ∩ B3 ) P (A1 ∩ B3 ) P (E|A3 ∩ B1 ) P (A3 ∩ B1 )
= + = +
P (E) P (E) P (E) P (E)
y donde P (E|A1 ∩ B3 ) = 1; P (E|A3 ∩ B1 ) = 1, etc. El resto se deja al lector.
1.7. Variable Aleatoria

La construcción de “leyes del azar” que estamos intentando, se complica innecesariamente si
insistimos en trabajar con espacios muestrales generales, y la razón es simple: tal como Ω es defi-
nido, puede estar constituido de objetos bastante variados: letras, sı́mbolos, números; lo que hace
difı́cil elaborar enunciados teóricos generales que se refieran a los elementos de Ω y peor aún, tam-
bién impide aplicar la mayor parte de herramientas matemáticas conocidas para análisis teóricos
(como la diferenciación, integración, etc.), obstaculizando el uso de “fórmulas” simplificadoras.
Por otra parte, muchas veces el interés está centrado en determinados aspectos del espacio mues-
tral y no en todo el conjunto. Entonces, podemos ganar mucho si, por ejemplo, “codificamos” el
espacio muestral original Ω en un conjunto de números R, transfiriendo a su vez las probabilida-
des, de modo que en R podamos aplicar las operaciones de suma, multiplicación, etc., y usarlas
para facilitar el cálculo de probabilidades.
Ejemplo 1.34. Similarmente al caso del ejemplo 1.18, suponga que el mercado de un bien con 6 produc-
tores, se sabe que al menos hay dos coaliciones y un organismo de regulación se interesa por el tamaño X
de la mayor coalición.
Solución: En este contexto, y si no hay otra información, el experimento aleatorio consiste en observar
el estado del mercado, que puede lograrse de las siguientes maneras:
1. Dos coaliciones de 2 empresas cada una y las otras empresas libres
2. Dos coaliciones, una de 2 empresas y la otra de 3, con la empresa restante libre
3. Dos coaliciones, una de 2 empresas y la otra de 4
4. Dos coaliciones, cada una con tres empresas
5. Tres coaliciones, cada una con dos empresas.
El tamaño del espacio muestral asociado es n(Ω) = C26 C24 +C26 C34 +C26 C44 +C36 C33 +C26 C24 C22 = 275 y si solo
interesa el tamaño de la coalición más grande, denotemos con X a este tamaño. Entonces X puede tomar
los valores 2, 3 o 4 y las probabilidades de que ocurran estos tamaños de coalición son respectivamente:
C26 C24 + C26 C24 C22 180 C 6 C 4 + C36 C33 80 C 6C 4 15

P (X = 2) = = , P (X = 3) = 2 3 = y P (X = 4) = 2 4 = .
275 275 275 275 275 275
Como se ve, el sistema de codificación usado es en realidad una función X que convierte cada punto de
Ω en un número y simplifica la presentación de probabilidades al darle a Ω el formato de un conjunto
numérico R. Ciertamente toda la información presente en Ω no se trasladó a R, pero sı́ aquella que era de
nuestro particular interés: el tamaño de la mayor coalición y sus respectivas probabilidades las podemos
resumir en la tabla de distribución de probabilidades siguiente:
x P (X = x)
2 180/275
3 80/275
4 15/275
Total 1
38 ÍNDICE GENERAL
1.7.1. Definición
Definición 1.6. Sea Ω un espacio muestral, sobre el cual se ha construido una σ-álgebra de eventos F .
Una variable aleatoria (v.a.) X definida sobre Ω, es una función cuyo dominio es Ω, su rango un conjunto
de números reales que denotaremos por RX y que además satisface ∀x ∈ R, {ω ∈ Ω / X(ω) ≤ x} ∈ F .
La última condición permite “probabilizar” todo el eje real y es necesaria para evitar patologı́as
cuando se trata con espacios Ω continuos, como los que aparecen en los modelos probabilı́sticos
que describen procesos en finanzas. No verificaremos la condición de aquı́ en adelante y asumire-
mos que se cumple en condiciones bastante generales.
Ejemplo 1.35. Si una persona contesta al azar un pregunta de opción múltiple con cinco opciones, una
de las cuales es verdadera, un espacio muestral apropiado serı́a Ω = {C, I}, donde C indica el resultado
“La persona acierta” e I denota el resultado “La persona no acierta”. Una asignación o distribución
de probabilidades natural es, en este caso P ({C}) = 51 y P ({I}) = 45 . Sea la variable aleatoria (v.a.) X=
Número de errores. Aplicando la regla que define X, tenemos X(C) = 0 y X(I) = 1, de modo que el rango
(de valores posibles) de X es RX = {0, 1} y una distribución de probabilidades en RX es:
P (X = 0) = 51 , pues (X = 0 ) ocurre si y solo si ocurre {C}
P (X = 1) = 45 , pues (X = 1 ) ocurre si y solo si ocurre {I}
4k
Nótese que también podemos escribir, de manera compacta: P (X = k) = 5, ∀k = 0, 1, lo que proporciona
una fórmula para distribuir probabilidades en RX .
Ejemplo 1.36. Si una persona contesta al azar 2 preguntas tipo verdadero o falso y se define X como el
número de errores, hallar RX y la distribución de probabilidades en RX .
Solución: Si denotamos mediante pares ordenados los resultados posibles, tenemos que Ω puede escribir-
se como Ω = {(C, C), (C, I), (I, C), (I, I)}. La v.a X= # de errores tiene como rango a RX = {0, 1, 2}. Como
en Ω hay 4 resultados que podemos considerar equiprobables, las probabilidades se pueden “transferir”
del espacio muestral original Ω, al espacio transformado o “codificado” RX , de modo que tenemos:
1 2 1
P (X = 0) = P ({(C, C)}) = , P (X = 1) = P ({(C, I), (I, C)}) = y P (X = 2) = P ({(I, I)}) = .
4 4 4
Ordenando en una tabla los valores de X y sus probabilidades obtenemos:
x 0 1 2
1 2 1
P (X = x) 4 4 4
o también, de manera más compacta,
Cx2
P (X = x) = , donde x = 0, 1, 2.
4
Observación: Si las preguntas no tienen dos opciones sino cinco, aunque RX se mantiene, el cálculo
Cx2 4x
de la distribución de probabilidades se complica algo y se tiene P (X = x) = 25 , donde x = 0, 1, 2.
Cx20 4x
Análogamente, si fueran 20 preguntas y no 2, todas de cinco opciones, tendrı́amos P (X = x) = 520
,
donde x = 0, 1, 2, . . . , 20.
Ejemplo 1.37. En una privatización hay dos postores de los cuales solo se sabe que pueden ofrecer
precios entre 0 y 1 millón de unidades monetarias por la la empresa que desean comprar. Sea X el precio
de venta. Determine la transformación que define a X ası́ como el rango de valores posibles de X (RX ) y
una fórmula para P (X ≤ x), donde x ∈ RX .
Solución: Podemos representar adecuadamente los resultados posibles de este experimento aleatorio me-
diante: Ω = {(a, b) / 0 < a ≤ 1 y 0 < b ≤ 1} donde a y b son los precios ofrecidos por A y B, respectivamente.
Como se trata de una privatización, el mayor precio será el ganador, esto es X = máx{a, b} define la
transformación que va de Ω a R y por tanto RX =]0, 1]. Un punto más delicado es hallar una fórmula
general para P (X ≤ x), donde x es un valor genérico pero dado de RX . El evento (X ≤ x) (definido en
RX ) ocurre si y solo si 0 < a ≤ x y 0 < b ≤ x. Sea el evento D = {(a, b) ∈ Ω / 0 < a ≤ x y 0 < b ≤ x},
entonces podemos decir que (X ≤ x) y D son equivalentes. Por tanto, P (X ≤ x) = P (D). Ahora, aplicando
probabilidad geométrica sobre los eventos de Ω tenemos:
Area(D) x2
P (X ≤ x) = P (D) = = = x2 , si 0 ≤ x < 1
Area(Ω) 1
y ası́ obtenemos una fórmula que distribuye probabilidades sobre RX .
Observaciones: A partir de los ejemplos anteriores, podemos concluir que:
En general, RX puede verse como el resultado de una “codificación” de Ω, pues X : Ω → R

convierte cada punto ω de Ω en un número X(ω) que está en RX y donde las probabilidades
definidas sobre eventos de Ω se transfieren a los eventos del nuevo espacio muestral RX .
Ahora bien, la función X que usamos para codificar, la definimos de modo que capte la
información de particular interés para nosotros, y si deseamos información relativa a otro
aspecto de Ω, podemos definir un sistema adicional de codificación Y , y ası́ sucesivamente.
Por ejemplo, en el caso de la licitación, otra variable de interés puede ser Y = Diferencia entre
las ofertas= |a − b|, cuyo rango es RY = [0, 1].
La función X, como tal, no tiene nada aleatorio, pues como toda función que se respete,
debe ser una regla de correspondencia bien definida. Pero al tomar como “insumo” a los
elementos ω de Ω, que sı́ son aleatorios, su “producto” X(ω) deviene en azaroso, no podemos
pronosticar cuál valor X(ω) ocurrirá, de ahı́ el nombre de “variable aleatoria” para X: Sus
valores cambian con ω y lo hacen al azar. Por lo mismo, una manera laxa, pero útil, de ver a
una v.a. X es como “una variable que toma sus valores al azar”.
La utilidad de trabajar con un espacio muestral transformado como lo es RX , reside en que

al ser sus elementos números, es factible aprovechar las propiedades de éstos para simplifi-
car los resultados, construyendo, por ejemplo, fórmulas que proporcionen distribuciones de
probabilidades. Esto último, no se puede hacer con espacios muestrales generales.
Aunque ya lo mencionamos en la definición, se exige que el conjunto {ω ∈ Ω / X(ω) ≤ x}

sea un evento de Ω para cualquier número real x, de modo que ese conjunto tenga pro-
babilidad bien definida. El objetivo de esta condición es “probabilizar” todo R. Es posible
construir transformaciones de Ω a R que no cumplen esta condición, pero son poco útiles y
no aparecen con frecuencia en situaciones de aplicación.
40 ÍNDICE GENERAL
1.7.2. Clasificación de las variables aleatorias

De acuerdo al rango RX de una variable aleatoria, clasificaremos a ésta principalmente como:
Variable aleatoria continua: Si RX es un intervalo.
Variable aleatoria discreta: Si RX es un conjunto finito o numerable.
Ejemplo 1.38. La variable X = Número de errores en el ejemplo de las respuestas al azar en dos pre-
guntas de opción múltiple, es discreta. La variable X = Precio de venta en el ejemplo de la licitación es,
por otro lado, continua.
Observaciones:
Cuando X es discreta la probabilidad se “concentra” en determinados puntos del eje real,

aquellos que constituyen RX ; en cambio si X es continua, la probabilidad se distribuye sobre
intervalos contenidos en RX
Como notaciones usaremos las siguientes:
(X = x) := {ω ∈ Ω / X(ω) = x}
(X ≤ x) := {ω ∈ Ω / |X(ω) ≤ x}
Existen también variables mixtas. Estas se comportan como continuas en ciertos tramos de
su rango y como discretas en otros. No son tan frecuentes, pero tienen su importancia, aun-
que no las trataremos aquı́.
1.7.3. Variable discreta y función de probabilidad

Definición 1.7. Si X es una v.a. discreta, la función de probabilidad de X, denotada por PX (x), se define
mediante PX (x) = P (X = x).
Observaciones:
PX (x) = 0, si x < RX .
PX (x) es llamada también “función de distribución de probabilidades” pues indica cómo se

redistribuye la probabilidad total de Ω (que es 1), entre los valores alternativos (y discretos)
que puede asumir X.
Ejemplo 1.39. Si la probabilidad de que una perforación petrolera resulte en un pozo rentable es p y se
define X = # de pozos perforados hasta que se descubre el primer pozo rentable. Hallar PX (x).
Solución: Es claro que RX = {1, 2, 3, ...}. Sea x un valor genérico pero dado de X, i.e. x ∈ RX , tenemos que:
(X = x) ocurre si y solo si “Las (x-1) primeras perforaciones son no rentables y la x-ésima perforación es
rentable”. Entonces podemos escribir:
(x−1)veces
z }| {
P (X = x) = (1 − p) (1 − p) (1 − p) ... (1 − p) p = p(1 − p)x−1
y por tanto la función de probabilidad de X es
(1 − p)x−1 p si x = 1, 2, 3, . . .
(
PX (x) =
0 en otro caso.
Ejemplo 1.40. Un etólogo construye un modelo para estudiar la capacidad de memoria de las ratas
albinas. Para ello, diseña el experimento de colocar una rata de laboratorio en un laberinto con cinco
salidas, de las cuales solo una conduce al exterior y las otras, después de un recorrido, retornan a la rata
al centro del laberinto; luego estimula al animal para que intente salir. Sea X la v.a. definida como el
número de intentos de escape hasta que la rata logra salir. Halle RX y PX (x) si:
a) La rata no tiene memoria alguna
b) La rata tiene memoria perfecta
Solución: a) Si no hay memoria, en cada intento se repite la misma situación, la rata escoge “al azar”
una salida, pudiendo elegir inclusive la misma salida seleccionada en anteriores intentos. Es claro que
con este modelo la rata puede estar tratando de salir “ad infinitum”. Luego RX = {1, 2, 3, ...} y si x es un
valor dado y genérico de RX , necesitamos calcular P (X = x). Sean los eventos Ai =“La rata escapa en el
intento #i” , i = 1, 2, 3, . . . entonces
(x−1)veces (x−1)veces
z }| { z }| {
\ \ \ \
P (X = x) = P (Ac1 c
A2 c
A3 ... c
Ax−1 Ax ) = (4/5) (4/5) (4/5) ... (4/5) (1/5) = (4/5)x−1 (1/5)
Lo anterior sale aplicando la regla del producto repetidas veces. Entonces llegamos a que
(4/5)x−1 (1/5) si x = 1, 2, 3, . . .
(
PX (x) =
0 en otro caso.
b) Si la memoria es perfecta, la rata también saldrá por azar, pero podrá ir “controlándolo” de intento en
intento, eliminando de su conjunto de salidas u opciones, aquellas que mostraron ser falsas en intentos
anteriores. De acuerdo con esto, el número máximo de intentos es 5 y en cada intento la probabilidad
(condicional) de escapar va creciendo. Ası́ RX = {1, 2, 3, 4, 5} y como en (a), definamos Ai =“La rata
escapa en el intento # i”, i=1,2,3, 4,5. Procediendo inductivamente P (X = 1)= P (A1 ) = 1/5, pues a la
primera
T todas las salidas son
válidas
como opciones y solo una de ellas es la ”verdadera”.P (X = 2)=
c c c
P A1 A2 = P A2 |A1 P A1 =(1/4) (4/5) = 1/5, pues (X = 2) equivale a decir que la rata falla en
el primer intento y acierta en el segundo; al aplicar la regla de producto, la probabilidad de acertar en
el segundo intento es 1/4 pues la salida usada en el primero ya no es retomada (debido al supuesto de
“memoria perfecta” en la rata) y la probabilidad de que falle en el primer intento es 1/4. Análogamente,
para el tercer intento:
regladelproducto regladelproducto
z }| {z }| {
P (X = 3) = P (Ac1 ∩ Ac2 ∩ A3 ) = P (A3 |Ac1 ∩ Ac2 ) P (Ac1 ∩ Ac2 ) = P (A3 |Ac1 ∩ Ac2 ) P (Ac2 |Ac1 ) P (Ac1 )
= (1/3) (3/4) (4/5) = 1/5,

42 ÍNDICE GENERAL

pues P A3 |Ac1 ∩ Ac2 = 1/3, ya que para el tercer intento, solo quedan 3 salidas alternativas, una de las

cuales es la correcta; y también P Ac2 |Ac1 = (3/4) ya que si la rata falló en el primer intento, para el
segundo “descuentaüna de las salidas falsas y quedan 4 en total, de las cuales una es verdadera y las
otras tres son falsas.Extendiendo el razonamiento a los otros dos valores posibles de X,
P (X = 4) = P (Ac1 ∩ Ac2 ∩ Ac3 ∩ A4 ) = (1/2) (2/3) (3/4) (4/5) = 1/5
y
P (X = 5) = P Ac1 ∩ Ac2 ∩ Ac3 ∩ Ac4 ∩ A5 = (1) (1/2) (2/3) (3/4) (4/5) = 1/5.
Ası́ pues, tenemos

(
1/5 si x = 1, 2, 3, 4, 5
PX (x) =
0 en otro caso.
Obsérvese que para un mismo experimento hemos formulado dos ”modelos”distintos que intentan
explicar los posibles resultados (o mejor dicho, las frecuencias de los resultados) obtenibles, pero bajo
teorı́a explicativas distintas: sin memoria y con memoria. solo repeticiones reales del experimento dirán
cuál modelo se ajusta mejor a la realidad, e inclusive, esta evidencia puede recusar a los dos modelos.
Observaciones:
En general, PX (x) también es llamada ”función de distribución de probabilidades” porque,

en efecto, distribuye la probabilidad total de Ω (que es 1) sobre el espacio codificado RX ,
asignando a cada elemento de RX una probabilidad no negativa, que mide la ”propensión a
ocurrir” de dicho valor o elemento.
Como X es un sistema de codificación que captura cierta información de interés, entonces

podemos considerar que PX (x) “modela” el comportamiento del azar, en lo que concierne a
nuestro objeto de análisis, cuando éste es de naturaleza numérica discreta.
Proposición 1.7. Una función de probabilidad PX (x) tiene las siguientes propiedades:
1. 0 ≤ PX (x) ≤ 1, ∀x ∈ R.
P
2. x∈RX PX (x) = 1, donde x ∈ RX indica que la suma se hace sobre todos los x que pertenecen al rango
RX de X.
P
3. P (X ∈ A) = x∈A PX (x), ∀A ⊆ RX .
Todo lo anterior se debe a que PX (x) evaluada en un punto x, proporciona una probabilidad,
de modo que necesariamente debe estar entre 0 y 1. Si sumamos todas las probabilidades de los
elementos de RX , en realidad estamos hallando la probabilidad total del espacio muestral, y ésta
vale 1.
Ejemplo 1.41. Sea X una v.a. discreta (v.a.d.) tal que RX = {1, 2, 3, ..., N } y P (X = x) = αx , con α > 0
una constante. Hallar α y PX .
Solución: Aplicando la propiedad 2 anterior:

n
X n
X
PX (x) = 1 ⇔ αx = 1 ⇔ αN (N + 1) 2 = 1 ⇔ α = 2 N (N + 1).
x=1 x=1
Por tanto: 
2

 N (N +1)
x si x = 1, 2, 3, . . . , N
PX (x) = 


 0 en otro caso.
1.7.4. Variable continua y función de densidad

Cuando la variable es discreta, podemos distribuir probabilidades sobre sus valores asignando
a cada uno, una probabilidad, por pequeña que ella sea. Pero cuando el rango de posibles valores
es un intervalo, esto es, cuando X es continua, hay que adaptar el sistema de distribución de
probabilidades sobre RX . Al respecto, un matemático ruso explicaba el punto ası́:
“Si la abuelita tiene 4 papas para distribuir entre 4 nietos, la abuelita da a cada nieto una
papa; si son 8 los nietos, parte cada papa en dos y da a cada nieto media papa; pero si son 11
nietos, entonces . . . la abuelita hace puré y reparte la masa entre todos”.
Distribución empírica del tiempo, n = 40 Distribución empírica del tiempo, n = 200
0.10 0.10
Densidad
Densidad
0.05 0.05
0.00 0.00
0 5 10 15 0 5 10 15
Tiempo Tiempo
Distribución empírica del tiempo, n = 900 Función de densidad del tiempo

0.15
Función de densidad
0.10
0.10
Densidad
0.05 0.05
0.00 0.00
0 5 10 15 20 25 0 5 10 15 20
Tiempo Tiempo
Figura 1.9: Histogramas empı́ricos y función de densidad para el tiempo de escape en minutos de
las ratas sin memoria en el experimento del ejemplo 1.39
Notemos que si RX es un intervalo, fı́sicamente es imposible registrar la ocurrencia exacta de un

valor especı́fico de X; por ejemplo, el tiempo X que demora una rata sin memoria en escapar del
laberinto del ejemplo 1.40 puede ser 18 minutos o 18 minutos y 01 segundo o 17 minutos y 58
segundos, etc. de modo que nunca podremos estar seguros de haber registrado el valor real. Lo
más sano es considerar que el valor registrado representa a un entorno de valores cercanos a él.
Es decir, con variables continuas, más que estar interesados en la ocurrencia de valores, debemos
44 ÍNDICE GENERAL
pensar en la ocurrencia de intervalos de valores. Por tanto, necesitamos una función que distribuya pro-
babilidades sobre los intervalos contenidos en RX , no sobre los valores de X. Esta función debe distribuir
la probabilidad total que es 1, de modo mas bien continuo, haciendo “más densos en probabilidad” a
algunos intervalos, y “menos densos” a otros. El modo natural de hacer esta distribución de densi-
dades de probabilidad es mediante la gráfica (continua) de la función. En realidad, este proceso ya
se conoce desde la estadı́stica descriptiva, cuando los datos se agrupan en intervalos y se registra
la frecuencia relativa de cada uno. Un ejemplo de ello se ilustra en el lado izquierdo de la figura
1.9. En el se ha graficado el histograma de un conjunto de datos experimentales del tiempo que
demoraron primero las ratas sin memoria en escapar del laberinto en 40 experimentos, luego de
este tiempo cuando se amplió el experimento a considerar 160 más y finalmente cuando se añadie-
ron 700 experimentos más. Note que una forma de asegurar que las ratas no tengan memoria es
conducir cada experimento con ratas distintas. En el eje Y se ha considerado la “densidad” defini-
da como el cociente entre la frecuencia relativa de ratas que demoran el tiempo consignado en el
intervalo y el ancho de cada intervalo. Esto se ha hecho simplemente para normalizar la gráfica,
en el sentido de que la suma de todas las areas bajo los rectángulos del intervalo den 1. Ahora
bien, si se toma cada vez un número más grande de experimentos e intervalos, el polı́gono tiende,
como se aprecia en la figura 1.9, a “suavizarse” y a devenir en una curva continua. Esta curva, que
se ilustra en el lado derecho de la figura 1.9 y que la llamáremos fX (x), es candidato natural para
distribuir probabilidades mediante las áreas que corresponden a cada intervalo contenido en RX .
Ejemplo 1.42. Suponga que para la rentabilidad anual X de un fondo mutuo sabemos que X puede
estar entre 0 y 2 % de modo que el rango de X es RX =[0,2]. Para la distribución de probabilidades de
X tenemos cuatro alternativas plausibles según la experiencia de cuatro expertos, que nos inducen a
postular los siguientes cuatro “modelos” para X:
Modelo 1. Pensamos que puede ocurrir cualquier valor con la misma verosimilitud. Ası́, podemos usar
probabilidad geométrica y distribuir la probabilidad sobre RX de manera que cualquier intervalo de la
misma longitud tenga igual área (o sea probabilidad).
Modelo 2. Pensamos que valores de X entre 1 y 2 son el doble de probables que valores entre 0 y 1. Ası́,
podemos distribuir la probabilidad sobre RX de manera que el intervalo [0,1[ reciba la mitad del área
que el intervalo [1,2].
Modelo 3. Pensamos que la probabilidad de una rentabilidad es proporcional a ésta, de modo que va-
lores de X cercanos a 2 tienen más probabilidad. Ası́, podemos asignar áreas de modo que ésta “crezca”
proporcionalmente a X.
Modelo 4. Pensamos que la probabilidad crece hasta que se llega a 1 y luego decrece a la misma tasa
hasta llegar a 2.
Claramente, como el rango es el mismo RX =[0,2], la asignación de áreas arriba descrita solo puede
validarse si se asume que la “parte superior que acota estas áreas” es una curva que representa la gráfica
de las siguientes funciones de densidad para X:
Modelo 1 Modelo 2 Modelo 3 Modelo 4

( (
a si 0 ≤ x < 1 a + bx si 0 ≤ x < 1
fX (x) = c, fX (x) = fX (x) = cx, fX (x) =
b si 1 ≤ x ≤ 2 c + dx si 1 ≤ x ≤ 2
0≤x≤2 0≤x≤2
1
( (
1 3 si 0 ≤ x < 1 1 x si 0 ≤ x < 1
fX (x) = 2, fX (x) = 2
si 1 ≤ x ≤ 2
fX (x) = 2 x, fX (x) =
2 − x si 1 ≤ x ≤ 2
3
0≤x≤2 0≤x≤2
Modelo 1 Modelo 2 Modelo 3 Modelo 4
1.00 1.00 1.00 1.00
0.75 0.75 0.75 0.75
0.50 0.50 0.50 0.50

y
y
0.25 0.25 0.25 0.25
0.00 0.00 0.00 0.00
0.0 0.5 1.0 1.5 2.0 2.5 0.0 0.5 1.0 1.5 2.0 2.5 0.0 0.5 1.0 1.5 2.0 2.5 0.0 0.5 1.0 1.5 2.0 2.5
x x x x
Figura 1.10: Modelos de densidad alternativos para la rentabilidad en el ejemplo 1.42
Definición 1.8. Si X es una v.a. continua, una función de densidad para X, denotada por fX (x), es
cualquier función no negativa, tal que para todo intervalo ]a,b] ⊆ RX se cumple:
Z b
P (a < X ≤ b) = fX (x)dx.
a
Observaciones:
fX (x) no proporciona ninguna probabilidad directamente; solo al ser integrada sobre un

intervalo determina la probabilidad del mismo. Por eso no es problema que fX (x) sea mayor
que 1.
Como sabemos, P (a < X ≤ b) representa el área debajo de la gráfica de fX (x) entre a y b. Véase
la figura 1.11.
Como (X = a) = (a < X ≤ a) y el área debajo de fX (x) sobre este intervalo es cero, se concluye
que con variables continuas, los puntos tomados aisladamente tienen probabilidad cero. Esto
no quiere decir, sin embargo, que ello no pueden ocurrir.
46 ÍNDICE GENERAL
Se desprende que P (a < X ≤ b) = P (a ≤ X ≤ b) = P (a ≤ X < b) = P (a < X < b), pues en todos

los casos, se añade o se quita un punto de probabilidad cero, lo que no altera la probabilidad
del intervalo.
0.3
0.2
f_X(x)
0.1
0.0
0 5 10 15
x
Figura 1.11: P (5 ≤ X ≤ 10) o área bajo la gráfica de fX (x) sobre el intervalo [5, 10]
Una función de densidad fX (x) tiene las siguientes propiedades:
1. fX (x) ≥ 0, ∀x ∈ R.
R +∞ R
2. −∞ fX (x)dx = R fX (x)dx = 1.
X
R
3. P (X ∈ A) = f (x)dx.
A X
Ejemplo 1.43. En el ejemplo 1.37 de la licitación, halle una función de densidad para la v.a. X definida
como X = Precio de venta.
Solución: Ya vimos que P (X ≤ x) = x2 para un valor x en RX . Luego si fX (x) es una función de densidad
para X, se debe cumplir que: Z x
P (0 < X ≤ x) = fX (t)dt = x2 .
0
Si derivamos con respecto a x y aplicando el teorema fundamental del cálculo, se sigue que fX (x) = 2x.
Luego, podemos definir como una función de densidad de X a fX (x) = 2x, para 0 ≤ x ≤ 1. Trabajando
con más generalidad: (

2x si 0 ≤ x ≤ 1
fX (x) =
0 en otro caso.
Ejemplo 1.44. Asuma que el tiempo X (en años) que demora una empresa nueva en consolidarse en el
mercado, es una v.a.c. con función de densidad
(
ax si 0 ≤ x ≤ 0.5
fX (x) =
b si 0.5 < x ≤ 1
donde a y b son constantes positivas. Halle a y b, si se sabe que con 60 % de probabilidad, la empresa
estará consolidada antes de medio año.
2
y
0.00 0.25 0.50 0.75 1.00

x
Figura 1.12: Función de densidad del tiempo de consolidación de la empresa en el ejemplo 1.44
Solución: Como P (0 ≤ X ≤ 0.5) = 0.6, entonces 0.25a/2 = 0.6 y despejando tenemos a = 4.8. Por
complemento P (0.5 ≤ X ≤ 1) = 0.4 y por tanto (1 − 0.5)b = 0.4 o b = 0.4/0.5 = 0.8. Finalmente, como
también se aprecia en la figura 1.12.
(
4.8x si 0 ≤ x ≤ 0.5
fX (x) =
0.8 si 0.5 < x ≤ 1
Definición 1.9 (Función de distribución acumulativa). Si X es una v.a., se define la función de dis-
tribución acumulativa de X, denotada por FX , mediante la regla de correspondencia:
FX (x) = P (X ≤ x), ∀x ∈ R.
FX tiene como principal función simplificar el cálculo de probabilidades, en particular con

variables continuas. Muchas de estas distribuciones vienen en tablas donde figuran las diversas
probabilidades acumuladas FX (x) para sucesivos valores de x.
48 ÍNDICE GENERAL
Ejemplo 1.45. Para la v.a. discreta X con función de probabilidad PX (x) = 1/5, si x = 1, 2, 3, 4, 5, es
fácil verificar que FX (x) = P (X ≤ x) = x/5, cuando x = 1, 2, 3, 4, 5. En cambio, para X del ejemplo de la
licitación, tenemos FX (x) = P (X ≤ x) = x2 , cuando 0 < x ≤ 1.
Proposición 1.8. La función de distribución satisface las siguientes propiedades
1. 0 ≤ FX (x) ≤ 1, para todo x real.
2. FX es no decreciente, esto es, si a < b entonces FX (a) ≤ FX (b).
3. FX es continua a la derecha, es decir, FX (x) = Lim+ FX (x + h) para todo x ∈ R.

h→0
4. Lim FX (x) = 0 y Lim FX (x) = 1.

x→−∞ x→+∞
5. P (a < X ≤ b) = FX (b) − FX (a).
6. P (X = b) = FX (b) −Lim
−
FX (b + h).
h→0
X
7. Si X es v.a. discreta con función de probabilidad PX (x), entonces FX (b) = PX (x).
{x∈ RX / x≤b}
dFX (x)
8. Si X es una v.a. continua, fX (x) = dx .
Demostración: 1. Es consecuencia directa de la definición, pues FX (x) es una probabilidad.

2. Se deduce del hecho que (X ≤ a) ⊆ (X ≤ b) y la propiedad 5 de monotonı́a en la proposición 1.2.
3. Si definimos los eventos An = (X ≤ x + n1 ), estos conforman una sucesión no creciente tales que
T∞ c c + S∞ c
n=1 An = (X ≤ x). Tomándoles complemento se cumple que An ⊆ An+1 , ∀n ∈ N y que n=1 An =
(X > x). Por la propiedad 5 de continuidad en la proposición 1.3, se sigue entonces que P (X > x) =
lı́mn→∞ P (Acn ) o, equivalentemente de tomarse complementos
1
FX (x) = lı́m P (An ) = limn→∞ P (X ≤ x + ) = lı́m+ FX (x + h).
n→∞ n h→0
4. Obviamente (X ≤ −∞) = ∅ y (X ≤ +∞) = Ω de donde se deduce la propiedad.

5. Puesto que (X ≤ b) = (X ≤ a) ∪ (a < X ≤ b), entonces P (X ≤ b) = P (X ≤ a) + P (a < X ≤ b). Ası́,
FX (b) = FX (a) + P (a < X ≤ b) y P (a < X ≤ b) = FX (b) − FX (a).
6. Podemos usar un razonamiento similar al de la propiedad 3, de definir la sucesión de eventos no
creciente An = (b − n1 < X ≤ b) que satisface (X = b) = ∞
T
S∞ n=1 An . Luego por la propiedad de continuidad,
P (X , b) = P ( n=1 Acn ) = lı́mn→∞ P (Acn ). Tomándose complementos y usándose la propiedad 5. se tiene
finalmente que P (X = b) = lı́mn→∞ P (An ) = lı́mn→∞ P (b − n1 < X ≤ b) = lı́mn→∞ FX (b) − FX (b − n1 ) =
FX (b) − lı́mh→0− FX (b + h).
7. Si X es una v.a. discreta, el evento (X [≤ b) puede escribirse como una unión de eventos disjuntos:
(X ≤ b) = {ω ∈ Ω / X(ω) ≤ b} = {ω ∈ Ω / X(ω) = x}. Por tanto, FX (b) = P (X ≤ b) =
X X {x∈RX / x≤b}
P (X = x) = PX (x).
{x∈RX / x≤b} {x∈RX / x≤b}
8. Es consecuencia directa del teorema fundamental del cálculo.
Observación:
Si una v.a. X es discreta, la correspondiente función de distribución acumulativa FX (x) será

siempre una “función tipo escalera” con una cantidad finita o numerable de saltos; en cam-
bio si X es continua, FX (x) será absolutamente continua.
En tratamientos más avanzados del concepto de variable aleatoria, es preferible definir pri-
mero la función de distribución acumulativa FX (x) y luego, según las propiedades de esta
función, definir a la correspondiente variable aleatoria como “discreta”, “continua” o “mix-
ta”.
Ejemplo 1.46. Se toman k números al azar y con reposición del conjunto {1,2,. . . ,n}, 1< k < n. Halle la
función de probabilidad de X =Máximo de los k números seleccionados.
Solución: Es claro que RX = {1, 2, ..., n}. Sea x ∈ RX un valor dado, entonces por combinatorias hay n
posibilidades en cada una de las k extracciones ası́ que el número total de posibilidades es n×n×...×n = nk .
Luego que el máximo de los k números sea menor o igual que x equivale a que todos los k números
extraı́dos sean menores o iguales que x, lo que puede ocurrir de x × x × ... × x = xk maneras. Tenemos
| {z }
k veces
k k
k
x−1 k

x x x
entonces que FX (x) = P (X ≤ x) = nk
= n y ası́ PX (x) = FX (x) − FX (x − 1) = n − n .
Ejemplo 1.47. Una v.a.c. X positiva satisface P (t < X ≤ t + dt|X > t) = αdt para dt suficientemente
pequeño. Halle la función de densidad de X.
F (t+dt)−F (t) F (t+dt)−F (t)
Solución: P (t < X ≤ t + dt|X > t) = αdt ⇔ X 1−F (t)X = αdt ⇔ X dt X = α(1 − FX (t)). Tomando
X
entonces el lı́mite cuando dt tiende a cero tenemos:
dFX (t)
= α(1 − FX (t)) = α − αFX (t).
dt
0
Para simplificar escribamos y = FX (t). Ello nos conduce a la ecuación diferencial y + αy = α cuya
solución es y(t) = 1 − e−αt y ası́ llegamos a que FX (t) = 1 − e−αt y por tanto la función de densidad de X
es fX (x) = αe−αx , ∀x > 0 .
1.8. Valor esperado o esperanza matemática

Si bien en la función de probabilidad o densidad, está contenida toda la información acerca del
comportamiento de una variable aleatoria, a veces es menester representar toda la distribución
mediante unos pocos indicadores que resuman el rango de posibles valores de X. Esto se hace
recurriendo al concepto de valor esperado.
Definición 1.10. Sea X variable aleatoria y H(X) una función de X, se define el valor esperado de
H(X), denotado E(H(X)), mediante:
( P
x∈RX H(x)PX (x) si X es una v.a. discreta
E(H(X)) = R +∞
−∞
H(x)fX (x)dx si X es una v.a. continua
50 ÍNDICE GENERAL
Observaciones:
Aunque no se precisa enR la definición, se requiere que haya convergencia absoluta, i.e. que
P +∞
x∈RX |H(x)|PX (x) < ∞ o −∞ |H(x)|fX (x)dx < ∞. Esto es ası́ para que no haya ambigüedad en
el número obtenido, pues de no darse esta convergencia, el valor de la serie puede depender
del orden en la suma, o el valor de la integral puede depender del orden al tomar lı́mites al
infinito. Como consecuencia, hay casos en donde E(H(X)) no existe.
Como X es aleatoria, H(X) también lo es, pudiendo tomar distintos valores, según lo que el
azar determine para X. En este sentido, es necesario calcular un ”valor resumen”, que re-
presente a H(X) y permita tomar decisiones. El valor esperado (o la esperanza matemática)
E(H(X)) es ese “representant” o “valor resume”. Note que se trata de un número real que ya
no depende de X y que va en sus mismas unidades.
Operacionalmente, E(H(X)) es un promedio ponderado de los valores de H(X), donde el

factor de ponderación (“peso”) está asociado a la probabilidad de X vı́a PX (x) o fX (x) según
sea el caso.
Ejemplo 1.48. Se lanza un dado según la apuesta: Si sale el 1 se gana U$S 2, si sale el 6 se gana US$
10, en otro caso se pierde US$ 6. Sea X el número que muestra el dado y sea H(X) la utilidad, para el
jugador en esta apuesta. Halle E(H(X)). ¿Le conviene este juego al apostador?
Solución: La función de probabilidad de X es:
x 1 2 3 4 5 6
PX (x) 1/6 1/6 1/6 1/6 1/6 1/6
y H(X) responde a



 2 si x = 1

H(X) =  −6 si x = 2, 3, 4, 5



 10 si x = 6

con las probabilidades siguientes:
x 1 2 3 4 5 6
PX (x) 1/6 1/6 1/6 1/6 1/6 1/6
H(x) 2 -6 -6 -6 -6 10
Aplicando entonces la definición del valor esperado:

X 1 1 1 1 1 1
E(H(X)) = H(x)PX (x) = (2) × + (−6) × + (−6) × (−6) × (−6) × + (10) × = −2
6 6 6 6 6 6
x∈RX
Interpretando E(H(X)): Si usamos la noción frecuencial de probabilidad, esperarı́amos que de seis lanza-
mientos, en uno de ellos ocurriera el 1 (por tanto se gana US$ 2), en otro se presentarı́a el 6 (ganándose
entonces US$ 10) y en el resto de casos se perderı́a (a razón de de US$ 6 por cada vez). O sea que al
cabo de 6 lanzamientos, esperamos retirarnos de la mesa de juego con 12-24 =-12 US$. Es decir, en esta
apuesta, la tendencia es a perder a razón de US$12 por cada 6 jugadas. Si lanzáramos el dado 12 veces, la
pérdida serı́a de US$ 24; Si jugamos 18 veces, perderı́amos US$ 36; en 36 jugadas, perderı́amos US$ 72,
etc. En general, si hacemos N lanzamientos, perderemos (N /6) × 12 = N (12/6) = 2N dólares en total. Es
decir, podemos calcular un ı́ndice que indica la pérdida esperada por cada lanzamiento y permite prever
la pérdida en una cantidad general de lanzamientos. Este ı́ndice es precisamente E(H(X)) = −2. El signo
negativo muestra que la tendencia es a la pérdida, y el valor 2 indica el monto de ésta “por jugada”, para
poder calcular la pérdida global en general. Note que E(H(X)) = −2 no es un valor “real”, sino solo un
ı́ndice que representa la tendencia de los valores de H(X), un ı́ndice útil para cálculos posteriores.
Ejemplo 1.49. En el ejemplo 1.42 de X = Precio pagado en una privatización, calculemos el esperado
de esta v.a. (i.e., trabajamos con H(X) = X).
Solución: Recordemos que la función de densidad de X es:
(
2x si 0 ≤ x ≤ 1
fX (x) =
0 en otro caso.
Luego, y siendo rigurosos en la presentación formal:

Z +∞ Z 0 Z 1 Z +∞
E(X) = xfX (x)dx = xfX (x)dx + xfX (x)dx + xfX (x)dx
−∞ −∞ 0 1
1
x3 1
Z
= x2xdx = 2 = 2/3 = 0.67.
0 3 0
Podemos decir que, en promedio, esperamos que la empresa se venda en 670 mil unidades monetarias.
1.8.1. Casos especiales de valor esperado

La media poblacional Se denota µ o µX y se define como el valor esperado de la misma v.a. X, o
sea µX = E(X). Se dice que µX representa a X, mejor dicho, representa a la mayorı́a de los valores
de X. En ese sentido es el ”valor tı́pico de X”.
La varianza poblacional Se denota σ 2 o σX2 o V (X) y se define como el valor esperado de la
diferencia al cuadrado entre X y su representante µX . Es decir, σX2 = V (X) := E((X − µX )2 ). σX2 es
la distancia al cuadrado y promedio entre un valor cualquiera de X y el representante de X, µX .
Mide la variabilidad presente en los valores de X.
La desviaci
q ón estándar Se denota σ o σX y se define como la raı́z cuadrada de la varianza. Esto es,
σX = σX2 . A diferencia de la varianza, esta está medida en las mismas unidades que la variable.
Una desigualdad muy útil que relaciona la probabilidad con el concepto de valor esperado es
la siguiente.
Proposición 1.9 (Desigualdad de Markov generalizada). Si g : R → [0, ∞[ es una función medible1 ,

entonces
E(g(X))
P (g(X) ≥ a) ≤ , ∀a > 0.
a
1 Esta es una condición técnica que en nuestro curso siempre se cumplirá y que técnicamente significa que los con-
juntos {x ∈ R / g(x) ≤ a} deben de pertenecer, para cualquier a ∈ R, a la σ −álgebra de Borel.

52 ÍNDICE GENERAL
Demostración: Asumamos que X es una v.a. continua. El caso discreto es similar y queda como ejercicio.
Si a > 0, entonces
Z∞ Z Z
E(g(X)) = g(x)fX (x)dx = g(x)fX (x)dx + g(x)fX (x)dx
−∞ {x/g(x)<a} {x/g(x)≥a}
Z
≥a fX (x)dx = aP (g(X) ≥ a),
{x/g(x)≥a}
pues la primera integral a derecha en la primera igualdad es no negativa.
Tomando g(x) = (x − µX )2 en la proposición anterior, obtendremos el siguiente resultado que

nos devela de alguna manera el rol que desempeña la desviación estándar de una distribución.
Proposición 1.10 (Desigualdad de Tchebychev). Si X es v.a. con media µX y desviación estándar σX

y K una constante positiva dada, entonces:
1
P (|X − µX | < KσX ) ≥ 1 − .
K2
Demostración: Tomando la sugerencia previa a la proposición y posterior a la desigualdad de Markov
generalizada, tenemos que para cualquier a > 0:
E((X − µX ))2 σX2

P ((X − µX )2 ≥ a) ≤ =
a a
√
a
Definiendo entonces K = σX , la cual sigue siendo una constante positiva aritraria pues a lo es, se tiene
que
1
P (|X − µX | ≥ KσX ) ≤
.
K2
La proposición se sigue entonces de tomar el complemento a esta probabilidad.
Observaciones:
Esta desigualdad es general y muy informativa. Por ejemplo, si tomamos K = 3, entonces

P (|X − µX | < 3σX ) ≥ 1 − 312 = 98 = 0.89 o equivalentemente el intervalo [µX − 3σX , µX + 3σX ]
contiene a casi todos sus valores (89 % o más de ellos) independientementede cuál sea la
distribución de X.
Aunque no es propiamente lo mismo, se interpreta a σX como la “distancia promedio” entre

X y su representante µX . Interpretada ası́, como una distancia promedio entre X y µX , σX
mide el ”margen de error” de µX como representante de X.
1.8.2. Propiedades
El trabajo con el valor esperado, para ser simple, necesita del estudio de algunas propieda-
des. Veremos algunas, desarrollando la demostración para el caso continuo. En el caso discreto
basta cambiar las integrales por sumatorias, de modo que las propiedades podemos considerarlas
generales. Las más importantes son las siguientes:
Proposición 1.11. 1. Si X es una v.a. y c es una constante, entonces E(c) = c.
2. Si X es una v.a., a una constante y G(X) una función de X, entonces E(aG(X)) = aE(G(X)).
3. Si X es una v.a. , a y b constantes dadas y H1 (X) y H2 (X) funciones de X, entonces E(aH1 (X) +
bH2 (X)) = aE(H1 (X)) + bE(H2 (X)). En particular E(a + bX) = a + bE(X).
4. d) V (X) = E(X 2 ) − µ2X R.

∞ R R
Demostración: 1. E(c) = −∞ cfX (x)dx = c x∈R fX (x) = c, pues x∈R fX (x) = 1.
X X
Puesto que 2. es 3. con b = 0, mostremos de manera más general 3.:
Z∞
E(aH1 (X) + bH2 (X)) = (aH1 (x) + bH2 (x))fX (x)dx
−∞
Z ∞ Z ∞
=a H1 (x)fX (x)dx + b H2 (x)fX (x)dx = aE(H1 (X)) + bE(H2 (X)).
−∞ −∞
4. Por las propiedades anteriores V (X) = E((X − µX )2 ) = E(X 2 − 2µX X + µ2X ) = E(X 2 ) − 2µX E(X) + µ2X =
E(X 2 ) − µ2X .
Observaciones:
Note que en la linealidad debe cumplirse en forma estricta, en caso contrario

( la propiedad
2 si X ≤ 0
no se cumple. Por ejemplo, bajo una transformación lineal por tramos Y = ,
3X si X > 0
se tiene que E(Y ) , 2 + 3E(X).
Si consideramos el sı́mbolo E(·) como un “operador”, resulta que tiene las propiedades bási-
cas de un “operador lineal”, compartidas con otros operadores análogos y ya conocidos,
como la derivada por ejemplo. Pero debe recordarse que en general E(H(X)) , H(E(X)).
Ejemplo 1.50. En el caso del ejemplo 1.36 que define la v.a. X = Precio de venta en una privatización:
a) Halle el rango de valores más probables para X: µX ± σX .
b) Si la privatización implica el pago de 5 mil unidades monetarias a una empresa tasadora y el pago
de un 4 % de la venta a una empresa encargada de la privatización ¿Cuál es el Ingreso esperado para el
estado?
c) Verifique que E(X 3 ) , (E(X)3 .

Solución: a) solo faltarı́a hallar σX2 . Apliquemos la propiedad V (X) = E(X 2 ) − µ2X . Como E(X 2 ) =
R1 1
2 2xdx = x4 = 1 , entonces σ 2 = 1 − 2 2 = 1 y σ =
√
0
x 2 2 X 2 3 18 X 1/18 = 0.24. Luego, el intervalo de
0
‘valores más probables’ para X es 0.67 ± 0.24 o sea [0.43, 0.91], i.e. esperamos un precio de venta entre
430 mil y 910 mil unidades monetarias.
b) Sea Y = H(X)=Ingreso del Estado. Entonces Y = X − (0.05 + 0.04X) = 0.96X − 0.05. Ası́, E(Y ) =
E(0.96X − 0.05) = 096E(X) − 0.05 = 0.5932, es decir, el estado espera recibir 593,200 unidades mone-
tarias por la empresa.
5 1
R1 R1 3
c) E(X 3 ) = x3 2xdx = 2x4 dx = 2 x = 2 y (E(X))3 = 2 = 8 ; esto es, E(X 3 ) , (E(X))3 .
0 0 5 0 5 3 27
54 ÍNDICE GENERAL
Ejemplo 1.51. Si en el ejemplo de la privatización previo, se paga un impuesto “por tramos”: precios
inferiores a 0.5 millones pagan un 1 % del ingreso y precios de 0.5 o más, pagan 4 %. ¿Cuál serı́a la
recaudación por impuestos esperada para privatizaciones de este tipo?
Solución: La recaudación por impuesto no es función lineal sino lineal por tramos, es decir, si llamamos
Y a la variable recaudación:
(
0.01X si 0 < X < 0.5
Y = H(X) =
0.04 si 0.5 ≤ X ≤ 1
No podemos usar la propiedad de linealidad E(Y ) = a + bE(X), sino calcular el valor esperado aplicando
la definición misma:
Z 1 Z 0.5 Z 1
E(H(X)) = H(x)fX (x)dx = H(x)fX (x)dx + H(x)fX (x)dx
0 0 0.5
Z 0.5 1
x3 0.5 x3 1
Z
= 0.01x2xdx + 0.04x2xdx = 0.02 + 0.08 = 0.0242.
0 0.5 3 0 3 0.5
El valor esperado E(·) es una herramienta que se puede usar no solo para medir o identificar
la “tendencia principal” de una función H(X) de una v.a. X, sino también para “dirigir” H(X),
que dependiendo del azar vı́a X, en principio toma valores fuera de nuestro control. El método es
introducir en el problema alguna variable no aleatoria (variable matemática) S en H(X) y pasar
a algo como H(X, S), luego tomar el valor esperado con respecto a X: E (H(X, S)) que resultará en
una función de S, digamos ϕ (S) B E (H(X, S)), que pone la “tendencia principal” de H(X, S) como
dependiente de S, que es una variable que sı́ podemos controlar para “optimizar” (en promedio)
a H(X, S).
Ejemplo 1.52. El distribuidor de un solvente industrial tiene la polı́tica de comprar al inicio de la tem-
porada de ventas una existencia (‘stock’) de S unidades de volumen a 4 unidades monetarias. Durante la
temporada vende el producto a 7 unidades monetarias por unidad de volumen; al final de temporada re-
mata el sobrante a 3 unidades monetarias por unidad de volumen. Si la demanda (cantidad demandada)
1
de solvente al distribuidor es una v.a.c. X con función de densidad fX (x) = 100 , si 0 < x < 100.
a) Escriba la función de utilidad U = U (X, S) del distribuidor.
b) Determine el valor óptimo de S.
Solución: a) Si U es la utilidad del distribuidor, entonces U depende de S y de X, pues si X ≤ S, durante

la temporada vende X unidades y al final de la temporada remata las (S − X) unidades sobrantes, de
modo que U = 7X + 3 (S − X) − 4S = 4X − S. De otro lado, si X > S, durante la temporada vende todo su
stock S y nada más. En este caso U = 3S, aunque quede una demanda insatisfecha por (X − S) unidades
de volumen. En resumen (
4X − S si X ≤ S
U = U (X, S) =
3S si X > S
U tiene una componente aleatoria X y otra no aleatoria S y “lo óptimo” serı́a maximizar la utilidad U;
pero cómo ésta es aleatoria, maximicemos el valor esperado de la utilidad E (U ): E (U ) = E [U (X, S)] =:
ϕ(S) que es una función de S. Calculando S de modo que se maximice la utilidad esperada ϕ(S), deter-
minamos el stock “óptimo” S que induce una ‘tendencia óptima’ para la utilidad U. Veamos:
Z +∞ Z 100
ϕ (S) = E(U (X, S)) = U (x, S) fX (x) dx = U (x, S) fX (x) dx
−∞ 0
Z S Z 100 Z S Z 100
= U (x, S) fX (x) dx + U (x, S) fX (x) dx = (4x − S) fX (x) dx + 3SfX (x) dx
0 S 0 S
Z S Z S Z 100 Z S
= 4xfX (x) dx − SfX (x) dx + 3S fX (x) dx = 4 xfX (x) dx − SFX (S) + 3S (1 − FX (S)) .
0 0 S 0
RS
Ası́, ϕ (S) = E(U (X, S)) = 4 0 xfX (x) dx − 4SFX (S) + 3S es explı́citamente una función diferenciable de
S que podemos maximizar mediante derivación:
0 dϕ(S) 0
ϕ (S) = = 4SfX (S) − 4FX (S) − 4SFX (S) + 3 = 4SfX (S) − 4FX (S) − 4SfX (S) + 3 = −4FX (S) + 3
ds
0 dϕ(S) 00
y ϕ (S) = = 0 equivale a FX (S) = 43 . Como ϕ (S) = −4fX (S) > 0, se trata de un máximo. Final-
ds RS
1 1
mente, como fX (x) = 100 , si 0 < x < 100, FX (S) = 0 100 S
dx = 100 = 43 implica que S = 75 es el valor
“óptimo” del stock S (u “stock óptimo”).
Ejemplo 1.53. Un comerciante desea averiguar el stock óptimo mensual en litros S que deberı́a adquirir
de un bien perecedero. El precio de compra del bien es de a u.m. el litro y el de venta de b u.m. el litro. Si
a fin de mes, le sobra cierta cantidad del bien, él lo rematará a c u.m. el litro; mientras que si le falta para
satisfacer la demanda, comprará más del bien a d u.m. el litro (se asume que los precios dados satisfacen
la relación: c < a < d < b). Si la demanda mensual del bien en litros es una v.a. continua X con función
de distribución conocida FX y se tiene un costo fijo mensual de e u.m., determine el valor óptimo de S.
Solución: La función de utilidad mensual del comerciante, que depende del stock S que él adquiere y de
la demanda del bien, viene dada por:
(
bX + c(S − X) − aS − e si X ≤ S
U ≡ U (X, S) =
bX − aS − d(X − S) − e si X > S.
ó (
(b − c)X + (c − a)S − e si X ≤ S
U ≡ U (X, k) =
(b − d)X + (d − a)S − e si X > S.
El valor esperado de la utilidad mensual del comerciante, que lo denotaremos como antes por ϕ(S), es
entonces:
Z∞ ZK Z∞
ϕ(S) = E(U (X, S)) = U (x, S)fX (x)dx = U (x, S)fX (x)dx + U (x, S)fX (x)dx
−∞ −∞ S
Z S Z ∞
= ((b − c)x + (c − a)S − e)fX (x)dx + ((b − d)x + (d − a)S − e)fX (x)dx
−∞ S
R∞ RS R∞ RS
Recordando que S X
f (x)dx = 1− −∞
fX (x)dx y que =S
µ X − xf (x)dx se tiene que:
xfX (x)dx
−∞ X
Z S ZS
ϕ(S) = (d − c) xfX (x)dx + (c − d)S fX (x)dx + (d − a)S + (b − d)µX − e (∗).
−∞ −∞
56 ÍNDICE GENERAL
El stock óptimo será aquel que maximize la utilidad esperada ϕ(S). Para obtenerlo podrı́amos reemplazar
fX en (*); sin embargo, esta opción resulta poco práctica en los casos que la integración resulte compli-
cada. Una opción más recomendable será aquella consistente en resolver el problema de maximización,
utilizando el teorema fundamental del cálculo al momento de derivar ϕ(S). La derivada de ϕ(S) con
respecto a S viene dada por:
ZS ZS
0
ϕ (S) = (d − c)SfX (S) + (c − d) fX (x)dx + (c − d)SfX (S) + d − a = (c − d) fX (x)dx + d − a.
−∞ −∞
00 0
Dado que ϕ (S) = (c − d)fX (S) < 0, la solución de la ecuación ϕ (S) = 0 nos provee del stock óptimo
buscado. Este viene dado por el valor S que satisface la relación:
d −a
FX (S) = .
d −c
Un aspecto que puede llamar la atención en este resultado es la aparente no dependencia de la solución
con el precio de venta unitario b. Ello sin embargo, deberı́a de estar implı́citamente modelado en la
distribución de la demanda, pues a mayor precio menor deberı́a de ser la demanda del bien. En el ejemplo
siguiente damos una solución explı́cita a este problema.
Ejemplo 1.54. Suponga que en el ejemplo anterior la demanda mensual en litros del bien es una v.a.
contı́nua con la siguiente función de densidad
− 1 500b0000 x2
 2b

 1 500 000 xe si x > 0
fX (x) = 
 0 en otro caso.
donde b es el precio en u.m. por litro a la cual se vende el bien.
a) Halle la demanda esperada mensual del bien, si el comerciante fija su precio por litro en 15 u.m.
b) Determine el stock óptimo mensual del bien, si sus precios por litro de compra, remate y compra al
por menor son de respectivamente 10, 7 y 12 u.m.
b 2
Solución: a) Haciendo el cambio de variable u = 1 500 000 x :
r
∞
1 500 000 ∞ 3 −1 −u
Z Z
2b b
2 − 1 500 000 x 2
E(X) = x e dx = u 2 e du
0 1 500 000 b 0
Γ ( 23 ) 1 1 500 000 × π
r
√
= 1 500 000 √ = .
b 2 b
Por tanto, si b = 15, se tiene que E(X) = 886.229 litros.
b) Mediante el cambio de variable anterior, no es difı́cil deducir que la función de distribución de X viene
dada por:
b 2 2
FX (x) = 1 − e− 1 500 000 x = 1 − e−0.000001x , si x > 0.
Luego, por el ejercicio anterior, el stock óptimo S satisface
2
1 − e−0.000001S = .
2
5
Por tanto este stock óptimo en litros será de

r
log(5/3)
S= = 714.7207.
0.000001
Ejemplo 1.55. Una empresa contratada para la purificación de un lote de mineral, tiene un proceso
automatizado en el cual el operario debe fijar el número k de horas que el proceso debe de trabajar y
una vez empezado ya no se detiene hasta cumplir ese plazo. Si el mineral no alcanza el nivel de pureza
suficiente hay que aplicar un segundo proceso manual, más costoso, hasta lograr la purificación. El
primer proceso le cuesta a la empresa 500 soles por hora y el segundo 800 soles por hora. Además
activar el segundo proceso cuesta 1000 soles. Por otro lado la empresa cobra el precio de mercado por la
purificación del mineral, que es 2000 soles por hora de trabajo. Si el tiempo X (en horas) que se necesita
para lograr la purificación de un lote, es una v.a. continua cuya función de densidad tiene la gráfica de
la figura 1.13,
0.25
0.20
0.15
y
0.10
0.05
0.00
0.0 2.5 5.0 7.5 10.0 12.5

x
Figura 1.13: Función de densidad para el tiempo de purificación en el ejemplo 1.55.
a) Halle la fórmula de la función de densidad y la probabilidad de que el tiempo de purificación no pase

de 2 horas.
b) Halle el valor óptimo de k.
Solución: a) La gráfica corresponde a una recta de la forma fX (x) = bx , si 0 < x ≤ 10 donde b es la

constante normalizadora que hace que el área total valga 1. Aplicando esta condición y resolviendo se
obtiene b = 1/50 y ası́ tenemos que fX (x) = x/50 , si 0 < x ≤ 10.
b) En cuanto a la utilidad, para un número prefijado k de horas de trabajo con el sistema automático
la empresa asume un costo de 500k soles, y si por mala suerte debe emplear el segundo proceso, hay un
costo de 800 soles por cada hora adicional más los 1000 soles que cuesta arrancar este otro proceso. El
ingreso en cualquier caso es 2000X soles, donde X es el tiempo total hasta purificar el mineral. En este
58 ÍNDICE GENERAL
contexto, la utilidad U de todo el trabajo es:

(
2000X − 500k si X ≤ k
U = U (X, k) =
2000X − 500k − 800(X − k) − 1000 si X > k.
(
2000X − 500k si X ≤ k
=
1200X + 300k − 1000 si X > k.
Tomando valor esperado:
Z 10 Z k Z 10
ϕ(k) := E(U (X, k)) = U (x, k)fX (x)dx = U (x, k)fX (x)dx + U (x, k)fX (x)dx
0 0 k
Z k Z 10
= (2000x − 500k)fX (x)dx + (1200X + 300k − 1000)fX (x)dx
0 k
Z k Z k Z 10 Z 10
= 2000 xfX (x)dx − 500k fX (x)dx + 1200 xfX (x)dx + (300k − 1000) fX (x)dx
0 0 k k
Z k Z 10
= 2000 xfX (x)dx − 500kFX (k) + 1200 xfX (x)dx + (300k − 1000) [1 − FX (k)]
0 k
Derivando ϕ(k) para maximizar:
ϕ 0 (k) = 2000kfX (k) − 500FX (k) − 500kfX (k) − 1200kfX (k) + 300 − 300FX (k) − 300kfX (k) + 1000fX
= −800FX (k) + 1000fX (k) + 300.

Igualando a cero la derivada de ϕ(k): ϕ 0 (k) = 0 ⇔ −800FX (k) + 1000fX (k) + 300 = 0⇔ −8FX (k) +
10fX (k) + 3 = 0 y como fX (x) = x/50 0 < x ≤ 10 y FX (x) = x2 /100 0 < x ≤ 10 , reemplazando en
√
8k 2
la ecuación obtenemos − 100 + 10k + 3 = 0⇔ 8k 2 − 20k − 300 = 0⇒ k = 20± 10 000 = { 7.5 . La solución
50 16 −5
negativa es absurda, ası́ que k = 7.5 es la respuesta.
Ejemplo 1.56. Un mayorista compra un bien a 3 u.m. la unidad y lo vende a 2 u.m. la unidad. La
cantidad de ese bien que le pueden demandar al mayorista es una variable aleatoria discreta X con rango
RX ={1,2,. . . ,N} y función de probabilidad PX (x). El mayorista tiene la polı́tica de comprar, al inicio de
cada campaña de ventas, una cantidad predeterminada (“stock”) S de unidades del bien y nada más,
ası́ quede demanda insatisfecha. Por otra parte, si al terminar la campaña, quedan sobrantes, éstos se
pierden y asume el costo de ello.
a) Escriba la utilidad U del comerciante como función de la demanda aleatoria X y el stock S.
b) Verifique que la utilidad esperada del comerciante E(U ) queda como función general del stock S, de
la forma E (U ) = 3 Sx=1 xP (x) − 3SF (S) + S, donde P (x) es la función de probabilidad de X y F(S) es
P
la función de probabilidad acumulativa de X evaluada en S.
c) Si denotamos mediante ϕ (S) a E (U ), para resaltar su dependencia de S, demuestre que la variación

de la utilidad esperada, cuando se pasa de un stock de S unidades a un stock de (S+1) unidades, es
ϕ (S + 1) − ϕ (S) = 1 − 3F(S).
x 1 2 3 4 5 6 7 8
PX (x) 0.05 0.08 0.09 0.1 0.15 0.18 0.2 0.15
d) Suponga que la función de probabilidad de X es la que figura más abajo, tabule la función de dis-
tribución acumulativa y úsela para identificar el stock S más conveniente para el comerciante, esto es,
aquél que maximiza su utilidad esperada
Solución: a)
S
X S
X N
X S
X N
X
E (U ) = U (x, S)PX (x) = U (x, S)PX (x) + U (x, S)PX (x) = (3x − 2S)PX (x) + SPX (x) =
x=1 x=1 x=S+1 x=1 x=S+1
S
X S
X N
X S
X
= 3 xPX (x) − 2S PX (x) +S PX (x) = 3 xPX (x) − 2SFX (S) + S (1 − FX (S)) .
x=1 x=1 x=S+1 x=1
| {z } | {z }
FX (S) 1−FX (S)
PS
Por tanto, E(U ) = 3 x=1 xPX (x) − 3SFX (S) + S.
b) (
3X − 2S si 1 ≤ X ≤ S
U (X, S) =
S si S + 1 ≤ X ≤ N
PS
c) Sea ϕ (S) = E (U ) = 3 x=1 xPX (x) − 3SFX (S) + S, entonces
S+1
X
ϕ (S + 1) = 3 xPX (x) − 3 (S + 1) FX (S + 1) + (S + 1)
x=1
 S 
X 
= 3  xPX (x) + (S + 1)PX (S + 1) − 3 (S + 1) [FX (S) + PX (S + 1)] + (S + 1) =
x=1
 S 
 X 
= 3 xPX (x) + 3(S + 1)PX (S + 1) − 3(S + 1)FX (S) − 3(S + 1)PX (S + 1) + (S + 1)
x=1
S
X
=3 xPX (x) + 3SPX (S + 1) + 3PX (S + 1) − 3SFX (S) − 3FX (S) − 3SPX (S + 1) − 3PX (S + 1) + S + 1
x=1
S
X
=3 xPX (x) − 3SFX (S) − 3FX (S) + S + 1.
x=1
Ası́, ϕ (S + 1) − ϕ (S) = 1 − 3FX (S).

d) La distribución acumulativa FX (x) se obtiene sumando las probabilidades individuales respectivas:
x 1 2 3 4 5 6 7 8
PX (x) 0.05 0.08 0.09 0.1 0.15 0.18 0.2 0.15
FX (x) 0.05 0.13 0.22 0.32 0.47 0.65 0.85 1
60 ÍNDICE GENERAL
La variación en la utilidad, conforme aumentamos el stock S, es ϕ (S + 1)−ϕ (S) = 1−3FX (S) y mientras
esta variación sea positiva estamos bien, o sea mientras 1 − 3FX (S) > 0 ⇒ FX (S) < 13 = 0.33; luego la
condición para detenernos es que es F (S) < 13 = 0.33 o sea, mientras no pasemos de una probabilidad
acumulada de 0.33 podemos seguir aumentando S. Examinando la tabla de probabilidades acumulada,
FX (x) pasa de 0.33 cuando x = 5, o sea no debemos llegar a 5 y por tanto el stock “optimo” que
maximiza la utilidad esperada ϕ(S) = E(U ) es S=4.
Observación: Como se tiene una fórmula ϕ (S) = E (U ) = 3 Sx=1 xP (x) − 3SF (S) + S que explicita la
P
dependencia de la utilidad esperada con respecto al valor del stock S, otra alternativa de solución
es la “computacional”: Para localizar el stock optimo S, se calcula ϕ (S) para los distintos valores
posibles de S, desde 1 hasta 8 (no tiene sentido pasar de 8 porque la demanda posible no lo hace).
Trabajar ası́, a mano o con calculadora no es práctico, pero con ayuda de una hoja de cálculo y una
computadora, es sencillo realizar esta operación:
x 1 2 3 4 5 6 7 8
PX (x) 0.05 0.08 0.09 0.1 0.15 0.18 0.2 0.15
FX (x) 0.05 0.13 0.22 0.32 0.47 0.65 0.85 1
xPX (x) 0.05 0.16 0.27 0.4 0.75 1.08 1.4 1.2
PS
x=1 xPX (x) 0.05 0.21 0.48 0.83 1.42 2.23 3.23 3.68
3 Sx=1 xPX (x)
P
0.15 0.63 1.44 2.49 4.26 6.69 9.69 11.04
3SFX (S) 0.15 0.78 1.98 3.84 7.05 11.7 17.85 24
S 1 2 3 4 5 6 7 8
ϕ (S) 1.00 1.85 2.46 2.65 2.21 0.99 -1.16 -4.96
En la última lı́nea están las diversas utilidades esperadas. Por inspección se encuentra que con
S=4, es la utilidad esperada máxima. Este método computacional a veces es el único que se puede
aplicar cuando no hay fórmula explı́cita (“fórmula cerrada”) para resolver el problema.
Ejemplo 1.57. Un empresario enfrenta el problema de introducir un nuevo producto en el mercado, para
lo cual dispone de cuatro procesos de producción alternativos y excluyentes: a1 , a2 , a3 y a4 . La utilidad
obtenible con cada proceso depende de estado del mercado, clasificado según los niveles de demanda
que haya: Baja, Media o Alta, que pueden ocurrir con probabilidades 0.1, 0.5 y 0.4 respectivamente.
Las correspondientes utilidades por tipo de proceso según nivel de demanda son (en miles de unidades
monetarias):
Proceso Utilidad según el nivel de demanda

Demanda baja Demanda media Demanda alta
a1 70 120 200
a2 80 120 180
a3 100 125 160
a4 100 120 150
Considerando aleatoria la utilidad asociada a cada proceso, a largo plazo ¿Cuál serı́a el proceso más
conveniente?
Solución: Primero evaluemos cada proceso para ver si alguno puede descartarse de antemano: un proceso
es descartable (no admisible) si es superado en todo por alguno de los otros procesos.a1 no es superado
por ningún otro proceso si la demanda fuera alta, luego no es descartable.a2 supera a a1 si la demanda
es baja y supera a a3 y a4 si la demanda es alta. No es descartable.a3 supera a a1 y a2 si la demanda es
baja o media, y a a4 si la demanda es alta. No es descartable. a4 es superado por a3 con demanda media
y alta y es igual a a3 con demanda baja. Este proceso sı́ es descartable, nunca da mejor resultado que
a3 .Podemos eliminar la cuarta fila de nuestra tabla de posibles procesos y resultados. Como los niveles
de demanda son aleatorios, las utilidades devienen en aleatorias también y podemos calcular la utilidad
esperada con cada proceso:
Proceso Utilidad según el nivel de demanda Utilidad esperada

D. baja D. media D. alta
Probabilidad 0.1 0.5 0.4
a1 70 120 200 70×0.1+120×0.5+200×0.4=87
a2 80 120 180 80×0.1+120×0.5+180×0.4=80
a3 100 125 160 100×0.1+125×0.5+160×0.4=74
El proceso a1 genera mayor utilidad esperada o promedio. A largo plazo es el proceso más conveniente.
1.8.3. Función generatriz de momentos

La distribución de la suma de variables aleatorias independientes o de transformaciones de
una v.a. no siempre son fáciles de obtener. Otro problema tı́pico es el cálculo de la media, varianza
y otros resumenes de una distribución. Para resolver estos problemas una alternativa es el uso de la
función generatriz de momentos, la cual funciona como una “huella dactilar”de una distribución
y es muchas veces más fácil de obtener. El nombre de tal función se asocia a que esta nos puede
generar, mediante diferenciación, todos los momentos de una distribución. Estos momentos se
definen seguidamente.
Definición 1.11. Si X es una v.a., se define el k−ésimo momento poblacional, denotado por mk , a
mk = E(X k ), si k = 0, 1, 2, . . .
Definición 1.12. Si X es una v.a., se define la función generatriz de momentos de X, denotada por
MX (t), mediante MX (t) := E(etX ), donde t es variable no aleatoria o variable matemática definida en un
entorno de 0.
(k)
Proposición 1.12. Si existe el k−ésimo momento muestral, entonces mk = MX (0).
zk
Demostración: Recordemos que ez = ∞
P
k=0 k! , ∀z ∈ R. En particular
∞ ∞ k
X (tX)k X t t t2 t3
e tX
= = Xk = 1 + X + X2 + X3 + . . .
k! k! 1! 2! 3!
k=0 k=0
y tomando valor esperado tenemos
t t2 t3
MX (t) = E(etX ) = 1 + E(X) + E(X 2 ) + E(X 3 ) + . . .
1! 2! 3!
62 ÍNDICE GENERAL
Derivando MX (t) con respecto a t

0 t1 t2 t1 t2
MX (t) = E(X) + 2 E(X 2 ) + 3 E(X 3 ) + .... = E(X) + E(X 2 ) + E(X 3 ) + . . .
2! 3! 1! 2!
0
Si evaluamos en t = 0 llegamos a MX (0) = E(X). Derivando dos veces MX (t) con respecto a t,
00 t t
MX (t) = E(X 2 ) + 2 E(X 3 ) + . . . = E(X 2 ) + E(X 3 ) + . . . .
2! 1!
00
Evaluando en t = 0 llegamos a MX (0) = E(X 2 ). Ası́, inductivamente se llega al resultado general.
La proposición siguiente, que la daremos sin demostración pues requiere de técnicas más alla
de los alcances del curso, resulta sumamente conveniente al momento de identificar distribucio-
nes.
Proposición 1.13. Sean X e Y son dos variables aleatorias, entonces
MX (t) = MY (t) ⇔ FX = FY .
Ejemplo 1.58. Si PX (x) = ( 21 )x , x = 1, 2, 3, . . ., hallar MX (t) y µX .
Solución: Por definición y la aplicación de la serie geométrica para un t convenientemente pequeño:
∞ ∞
X 1 X et (et /2)
MX (t) = E(etX ) = etx ( )x = ( )x =
2 2 1 − (et /2)
x=1 x=1
t
0 (e /2) 0
Derivando luego con respecto a t: M (t) = (1−(et /2))2
y evaluando en t=0 se obtiene M (0) = E(X) = µX =
(1/2)
(1−(1/2))2
= 2.
1.8.4. Cambio de variable

El problema del cambio de variable se plantea como:Dada la v.a. X y definida Y = H(X), hallar
la distribución de Y a partir de la distribución de X. Si bien hay varias alternativas de solución
(una es usar MX (t)), nosotros exploraremos el caso en que H tenga inversa. Consideremos para ello
la función de distribución acumulativa de Y y supongamos que H −1 es creciente. Entonces FY (y) =
P (Y ≤ y) = P (H(X) ≤ y) = P (X ≤ H −1 (y)) = FX (H −1 (y)), donde FX es la distribución acumulativa
de X. Conociendo esto podemos obtener la función de densidad fY (y) o de probabilidad PY (y) de
Y mediante derivaciones o restas según sea el caso. El caso en que H −1 es decreciente se trata
de manera análoga. El método anteriormente usado se conoce como el método de la distribución
acumulativa y se puede ampliar al caso en que H no tiene inversa.
Ejemplo 1.59. En el caso de la v.a. X=Precio de venta en una privatización para el ejemplo 1.37, sea
√
Y = H(X) = X + 1. Halle la función de densidad de Y .
√
Solución: Primero especifiquemos el rango RY de Y como 0 < X ≤ 1 ⇒ 0 < X ≤ 1 y sumando 1 a
√
ambos lados de la desigualdad tenemos 1 < X + 1 ≤ 2 ⇒ 1 < Y ≤ 2 es el rango de la v.a. Y . Sea ahora
√ √
y ∈]1, 2], entonces FY (y) = P (Y ≤ y) = P ( X + 1 ≤ y) = P ( X ≤ y − 1) = P (X ≤ (y − 1)2 ) = FX ((y − 1)2 ).
0 0
Derivando con respecto a y obtenemos g(y) = FY (y) = FX ((y − 1)2 ) × 2(y − 1). Ya vimos que fX (x) = 2x,
por tanto fY (y) = 2(y − 1)2 × 2(y − 1) = 4(y − 1)3 y ası́ tenemos que fY (y) = 4(y − 1)3 , si 1 < y ≤ 2 es
la función de densidad de Y .
1.8.5. Cálculo del valor esperado por desarrollo asintótico

Dada una v.a. X y una función H(X), el cálculo del valor esperado E(H(X)) se realiza usual-
mente por la definición o en ciertos casos por las propiedades del operador valor esperado E(.).
La última alternativa es muy útil pero no siempre aplicable, ya sea porque la función H(X) no es
lineal o porque es lineal por tramos. Consideremos por citar el caso de la v.a. X=Precio de venta
en una privatización del ejemplo 1.36 con función de densidad
fX (x) = 2x , si 0 < x ≤ 1.
R1 1
Ya vimos que E(X) = 2/3, pero en cambio E(X 3 ) = x 3 2xdx = 2 x5 = 2 = 0.4 , (2/3)3 , o sea
0 5 0 5
3 3
E(X ) , (E(X)) y en general no se cumple que E(H(X)) = H(E(X)). Sin embargo, cuando podamos
expresar o descomponer H(X) como una suma (posiblemente infinita) de funciones, podrı́amos
obtener el valor aproximado de E(H(X)).
Proposición 1.14. Sea X variable aleatoria con E(X) = µ y V (X) = σ 2 . Sea H(X) una función al menos
dos veces diferenciable en X = µ. Entonces se cumplen que:
00
H (µ) 2
1. E(H(X)) H(µ) + 2 σ .
0
2. V (H(X)) (H (µ))2 σ 2 .
Demostración: 1. Desarrollando H(X) en una serie de Taylor alrededor de X = µ hasta el término

cuadrático, sabemos que
00
0 (X − µ)2 H (µ)
H(X) = H(µ) + (X − µ)H (µ) + + R,
2
donde R es un residuo. Si tomamos valor esperado:
00 00
0 (X − µ)2 H (µ) H (µ)
E(H(X)) = E(H(µ)) + E((X − µ)H (µ)) + E( ) + E(R) = H(µ) + E((X − µ)2 ) + E(R),
2 2
0 0
pues E((X − µ)H (µ)) = H (µ)E(X − µ) = 0. Si además consideramos despreciable al residuo R (o sea
00
H (µ)
consideramos R = 0), obtenemos el resultado E(H(X)) H(µ) + 2 σ 2 .
2. Análogamente, para obtener una aproximación a la varianza V (H(X)), desarrollemos H(X) en serie
de Taylor alrededor de X = µ, pero hasta el término lineal o de primer grado:
0
H(X) = H(µ) + (X − µ)H (µ) + R2 ,
donde ahora R2 representa el residuo. Tomando solo los dos primeros términos escribimos H(X) H(µ)+
0
(X − µ)H (µ) y aplicando la varianza y sus propiedades:
0 0 0
V (H(X)) V (H(µ) + (X − µ)H (µ)) = V ((X − µ)H (µ)) = (H (µ))2 V ((X − µ))
0 0
= (H (µ))2 V (X) = (H (µ))2 σ 2 .
64 ÍNDICE GENERAL
1.9. Ejercicios
1. Sean A, B y C tres eventos, en donde A y B son eventos disjuntos y C es un evento independiente
de A y de B. Muestre que
P (A ∪ B ∪ C) = P (C) + P (A ∪ B)P (C c ).
2. Sea Ω un espacio muestral con nun número primo de elementos. Si A y B son dos eventos
independientes en este espacio muestral, muestre que A y B pueden ser o sólo Ω o el vacı́o.
3. Si A y B son dos eventos tales que P (A) = P (B) = 1, ¿ es cierto que P (A ∩ B) = 1?
4. Suponga que un coleccionista tiene en su álbum Panini (que salió para el mundial) ya 50 figuras.
Si él compra un sobre de figuras para este albúm y asume que en este puden venir cualesquiera
de 5 figuras distintas de las 670 figuras posibles del álbum, ¿con qué probabilidad le tocará
alguna figura repetida?
5. Doce artı́culos, de los cuales tres están marcados, han sido distribuidos aleatoriamente en 3
cajas de 4 artı́culos cada uno.
a) ¿Con qué probabilidad cada caja contendrá exactamente un artı́culo marcado?

b) ¿Con qué probabilidad quedará alguna caja sin artı́culos marcados?
6. Una asociación desea organizar 4 congresos, para lo cual elegirá al azar igual cantidad de sedes
en 7 paı́ses, dentro de los cuales hay dos paı́ses de Sudamérica: Perú y Brasil. Cada paı́s podrá
ser sede de sólo uno de los congresos y estos se realizarán en los años 2019, 2020, 2021 y 2022.
a) Describa un espacio muestral asociado a este experimento aleatorio de selección, listando al

menos 3 elementos de este espacio e indicando el número de sus elementos.
b) ¿Con qué probabilidad el Perú será elegido para realizar uno de los congresos?
c) ¿Con qué probabilidad Brasil será elegido sede para el 2019 y el Perú sede para el 2022?
d) Si en la primera selección del 2019 Perú no fue elegido, ¿qué probabilidad hay de que de
que Sudamérica sea aún sede de uno de los 4 congresos?
e) ¿Con qué probabilidad sólo uno de los paı́ses sudamericanos será elegido para organizar uno
de estos cuatro congresos?
7. Una persona tiene un reproductor MP4 que utiliza dos pilas AAA. Suponga que en una caja
tiene 5 pilas AAA idénticas en apariencia, pero de las cuales 2 están gastadas. Si la persona
selecciona dos pilas al azar de la caja
a) Describa de manera explı́cita el espacio muestral asociado a este experimento aleatorio.

b) Halle la probabilidad de que sólo una de las pilas seleccionadas no este gastada.
c) Halle la probabilidad de que pueda hacer funcionar su reproductor.
8. Una compañı́a cuenta actualmente con 2 proveedores de cierto insumo. Suponga que a usted
le dicen que para la selección de estos proveedores se presentaron 9 proveedores, quienes ofer-
taron el insumo a un precio unitario de 10,8,12,9,15,17,11,13 y 14 nuevos soles. Le informan
también de que en una primera etapa del porceso de selección se tomaron al azar a 3 de es-
tos proveedores y en una segunda etapa se eliminó de esta lista preliminar al proveedor con el
mayor precio ofertado, quedando finalmente los dos proveedores actuales de la compañı́a.
a) Describa un espacio muestral adecuado para la selección de los proveedores en su etapa

primera, indicando cuantos elementos tiene este y explicitando al menos dos de sus elementos.
b) ¿Con qué probabilidad en el primer proceso de selección se habrá seleccionado al proveedor
con un precio unitario de 14 soles?
c) ¿Con qué probabilidad uno de los proveedores actuales está vendiendo a la compañı́a el
insumo a 14 soles la unidad?
d) ¿Con qué probabilidad la compañı́a estará actualmente pagando a lo más 14 soles por algún
insumo?
9. Un bien, que tiene 3 marcas A,B y C, es regularmente ofrecido por un supermercado a 5 soles
la unidad. Iniciada una promoción 3 × 2; es decir, que los clientes pueden adquirir 3 unidades
del bien de una misma marca por el precio de 2, se ha modelado la cantidad de unidades del
bien que un cliente que asiste al supermercado adquirirá mediante una variable aleatoria X con
función de probabilidad


 0.2 si x = 0

K si x = 1





PX (x) =  K/2 si x = 2






 0.5 si x = 3

 0 en otro caso
Se asume en ella un máximo de una promoción por cliente y que no es posible adquirir 3 unida-
des del bien combinando marcas. De otro lado, según promociones pasadas se ha observado que
en el 25 %, 40 % y 35 % de las veces que un cliente elige la promoción o que el cliente compra
sólo una unidad del bien, este selecciona respectivamente las marcas A, B y C; mientras que si
adquiere sólo dos unidades del bien en el 70 %, 20 % y 10 % de las veces eligen respectivamente
los pares de marcas B con C, A con B; y A con C.
a) Halle el valor de K
b) ¿Con qué probabilidad un cliente elegirá una promoción del bien de la marca B?
c) Halle la probabilidad de que un cliente adquiera más de un unidad del bien de la marca A.
d) Si un cliente pago 10 soles ¿con qué probabilidad no habrá hecho uso de la promoción?
10. Suponga que se lanzan dos dados y se defiene la v.a X como el mayor valor obtenido en este lan-
1
zamiento. Muestre que la función de probabilidad de esta v.a. tiene la forma PX (x) = 36 (2x − 1).
Halle su valor esperado y desviación estándar, ası́ como la gráfica de su función de distribución.
66 ÍNDICE GENERAL
11. Una persona maneja una cartera de tres inversiones A, B y C, estimando que las probabilida-
des de obtener utilidades con estas inversiones son , respectivamente, de 0.2, 0.7 y 0.4. Se sabe
además de que la probabilidad de obtener utilidades con A y B es de 0.15 y que C es indepen-
diente de las otras dos inversiones.
a) Describa un espacio muestral asociado a observar si se logran o no utilidades con estas tres
inversiones.
b) ¿Cuál es la probabilidad de que no se logren utilidades ni con A ni con B?
c) Describa explı́citamente el evento M =“La persona obtiene utilidades en la mayorı́a de las
inversiones calcule su probabilidad.
2
d) Halle la función de probabilidad del número de inversiones con utilidad de la cartera e

indique si es verdad o falso que se esperará que la mayorı́a de inversiones tengan utilidades.
12. Una persona maneja una cartera de tres inversiones A, B y C, estimando que las probabilida-
des de obtener utilidades con estas inversiones son , respectivamente, de 0.2, 0.7 y 0.4. Se sabe
además de que la probabilidad de obtener utilidades con A y B es de 0.15 y que C es indepen-
diente de las otras dos inversiones.
a) Describa un espacio muestral asociado a observar si se logran o no utilidades con estas tres
inversiones.
b) ¿ Cuál es la probabilidad de que no se logren utilidades ni con A ni con B?
c) Describa explı́citamente el evento M =“La persona obtiene utilidades en la mayorı́a de las
inversiones calcule su probabilidad.
2
d) Halle la función de probabilidad del número de inversiones con utilidad de la cartera e

indique si es verdad o falso que se esperará que la mayorı́a de inversiones tengan utilidades.
13. Suponga que el cambio que podrı́a experimentar el precio de un bien, X, en un tiempo de
transacción futura, se asume que es una v.a continua en soles con función de densidad
(
α + βx si |x| ≤ 1.5
fX (x) =
0 en otro caso.
donde un valor negativo de esta v.a indica una disminución en el precio.
a) Halle los valores de las constantes α y β si se sabe que la probabilidad de que el precio sufra
a futuro una disminución es de 0.25.
b) ¿Con qué probabilidad el precio del bien no bajará en más de un sol ni subirá en más de un
sol?
c) Si el precio experimento un cambio de más de 50 céntimos, ¿cuál es la probabilidad de que
el precio halla bajado?
d) Halle la función generadora de momentos de X y calcule en base a ella el valor esperado de
X. Interprete este último valor.
14. Un distribuidor de un solvente industrial tiene la polı́tica de comprar al inicio de la temporada

de ventas una existencia (‘stock’) de S unidades de volumen a a unidades monetarias. Durante la
temporada vende el producto a b unidades monetarias; al final de temporada remata el sobrante
a c unidades. Sabemos que la demanda de solvente al distribuidor es una v.a.c. X con función
de densidad fX (x) y que c < a < b. Halle en función de los precios unitarios el stock óptimo para
este distribuidor.
15. Una minera debe de tratar por ley secuencialmente sus aguas residuales por tres procesos de
limpieza independientes I, II y III antes de que estos sean vertidos en un rio. Cada proceso
podrı́a ser calificado como insatisfactorio(A), incompleto(B) o satisfactorio(C), siendo las pro-
babilidades de estos eventos para cada proceso las siguientes
P(A) P(B) P(C)

I 0.1 0.3 0.6
II 0.2 0.3 0.5
III 0.1 0.5 0.4
a) Si el tratamiento se considera satisfactorio si ningún proceso es insatisfactorio o al menos

dos son satisfactorios, ¿cuál es la probabilidad de que el tratamiento sea satisfactorio?
b) Suponga que al inspeccionarse el vertido de aguas residuales en el rio por una queja de que el
tratamiento sólo se hizo bajo dos de los procesos, el organismo regulador encontró que ello fue
ası́ y al tomar muestras de estas aguas, encontró evidencias de que sólo uno de estos procesos
fue satisfactorio; mientras el otro incompleto. Si inicialmente el organismo regulador pensaba
que cualquiera de los procesos podrı́a haber sido omitido con igual probabilidad, ¿cuál de los
procesos tendrı́a ahora en base a la evidencia encontrada una mayor probabilidad de haber
sido omitido?
68 ÍNDICE GENERAL
Capı́tulo 2
Distribuciones importantes
La aplicación a situaciones reales de los conceptos hasta ahora estudiados, requiere modelos
mediana o profundamente complejos para que sean útiles. Sin embargo, por complejo que pue-
da ser un modelo, siempre cabe la posibilidad de trabajar con él, descomponiéndolo en partes
más simples. Imaginemos por ejemplo, que quisiéramos describir el comportamiento del precio
de un determinado bien a lo largo del tiempo, bajo condiciones de competencia pura, pero con
fluctuaciones aleatorias, podrı́amos expresar dicho precio mediante el modelo:
Xt = ρXt−1 + εt , t = 1, 2, 3, . . .
donde:
1. Xt representa el precio de equilibrio en el periodo t (a partir de un equilibrio inicial X0 );
2. Xt−1 representa el precio de equilibrio en el periodo inmediato anterior;
3. εt es el efecto de un ligero desequilibrio aleatorio.
4. ρ > 0 es una constante (“parámetro”) que refleja una cierta “proporcionalidad” en la respuesta
del precio en el periodo t con respecto al precio del periodo anterior.
Razonablemente, podemos asumir además que:
E(εt ) = 0, que es la manera formal de decir que el azar no tiene favoritos, esto es, a veces
los desequilibrios transitorios y fortuitos sobrevalúan el equilibrio, otras veces lo subvalúan;
pero “a la larga” o “en promedio”, respetan las fuerzas del mercado.
V (εt ) = σ 2 . El segundo supuesto se puede ver como la contrapartida formal de la idea de que
la variabilidad de los desequilibrios fortuitos y transitorios no tiene por que ser constante;
que el azar, aunque justo, es “voluble” en sus restricciones y excesos, pudiendo variar éstos
de periodo en periodo, lo que implica una varianza no constante, o sea una “volatilidad”
cambiante. ?
69
70 ÍNDICE GENERAL
En el modelo anterior, las propiedades básicas residen en la variable εt , pues reemplazando

sucesivamente en la ecuación se llega a:
Xt = ρt X0 + ρt−1 ε1 + ρt−2 ε2 + ρt−3 ε3 + · · · + ρεt−1 + εt
esto es, conocer la distribución de εt nos pone en capacidad de explicar y predecir -en términos
probabilı́sticos- el comportamiento del precio Xt .
Nóte que, en lo que a Estadı́stica se refiere, la complejidad del modelo se atenúa bastante si
hallamos la distribución del error aleatorio εt .
Una manera de facilitar el trabajo futuro, es dedicar algo de tiempo a recolectar información
acerca de “variables aleatorias tipo” –mejor dicho, de “distribuciones tipo”- que sirvan como “la-
drillos” en la construcción de modelos complejos. Estas distribuciones, que por otra parte, no por
ser simples son menos realistas, tienen fundamentos racionales bien claros y entenderlos provee
herramientas para análisis más profundos.
En las secciones que siguen pasaremos revista a un conjunto mı́nimo de distribuciones tipo,
estudiando sus orı́genes y parámetros caracterı́sticos. Para unificar términos, si X representa una
variable aleatoria con función fX (x) de probabilidad o de densidad, llamaremos “Distribución
de X” al conjunto{(x, fX (x)) / x ∈ RX } y escribiremos X∼fX (x) para resaltar el hecho de ser fX (x)
la función de distribución de X. Por simplicidad empezaremos describiendo las distribuciones
discretas más importantes.
2.1. La distribución hipergeométrica

Sean N , M y n enteros positivos de valores dados con M < N . Diremos que una v.a. discreta X
tiene distribución hipergeométrica de parámetros N ,M y n, y la denotaremos por X ∼ H(N , M, n),
si su función de probabilidad es:
CxM Cn−x
N −M


 N si x = 0, 1, 2, . . . , n
PX (x) =  Cn (2.1)

0 en otro caso,


donde tomaremos la convención de que Cab = 0, si a > b. Esta última convención puede omitirse si
consideramos que el rango de la v.a. X viene dado por RX = {máx{0, n + M − N }, . . . , mı́n{M, n}}.
Origen. Es la distribución natural del muestreo aleatorio simple en una población finita de tamaño
N , cuando mediante una muestra aleatoria de n casos, pretendemos inferir el valor de alguna
proporción de elementos en esta población que comparten cierta caracterı́stica, existiendo en ella
M elementos con esta caracterı́stica. Los modelos más complejos de encuestas por muestreo usan,
como unidad de base, este modelo. Otra manera equivalente de entender esta distribución es a
través de un esquema de urna, tal como se ilustra en la siguiente proposición.
Proposición 2.1. Considere una población o urna compuesta por N elementos, M de los cuales poseen
cierta caracterı́stica A. Si se toma una muestra al azar y sin reemplazo de n de los N elementos, y se
cuenta el número X de casos en la muestra, que tienen la caracterı́stica A, entonces X es una variable
aleatoria cuya función de probabilidad viene dada por (2.1).
Demostración: Supongamos , sin pérdida de generalidad, que N −M < n < M (analice como ejercicio que
ocurrirı́a en los otros casos) y consideremos un elemento cualesquiera x de RX , el cual por las condiciones
dadas serı́a RX = {0, 1, 2, . . . , n}. Sea x un elemento cualquiera de RX , entonces (X = x) ocurre si y solo si
en la muestra x elementos poseen la caracterı́stica A y n−x no la poseen. Dado que cualquier subconjunto
de tamaño n de la población tiene la misma probabilidad de ser seleccionado en la muestra, podrı́amos
aplicar la definición clásica de probabilidad y escribir:
n(X = x)
PX (x) = P (X = x) = ,
n(Ω)
donde Ω es el espacio muestral conformado por todas las muestras o subconjuntos de n elementos que
podrı́amos tomar de los N de la urna. Por tanto n(Ω) = CnN y por el principio de multiplicación
n(X = x) = CxM Cn−x

N −M
,
pues en la muestra, debemos primero seleccionar x de los M elementos que tienen la caracterı́stica A y
por cada selección anterior se podrán realizar n − x de los N − M elementos que tienen la caracterı́stica
CxM Cn−x
N −M
Ac . Ası́ PX (x) = CnN
.
La distribución hipergeométrica posee las siguientes propiedades básicas.
Proposición 2.2. Si X ∼ H(N , M, n), entonces
1. E(X) = n M
N.
2. V (X) = n M M N −n
N (1 − N ) N −1 .
Demostración: Mostraremos solo la primera afirmación dejando como ejercicio la segunda, pero aclara-
rando que esta última podrı́a desarrollarse bajo el mismo procedimiento del caso de la media. Como en
la proposición anterior asumiremos, sin pérdida de generalidad, que para n ≥ 2 (si n = 1 el resultado es
directo) se cumple que N − M < n < M. Dado x ∈ RX = {0, 1, 2, . . . , n}, el siguiente resultado directo de
combinatorias nos será de utilidad
M! M(M − 1)!
xCxM = x = M−1
= MCx−1 , si x > 0.
(M − x)!x(x − 1)! (M − x)!(x − 1)!
Luego haciendo el cambio de variable k = x − 1 en:
n n M−1 N −M n−1 M−1 N −M
X C M C N −M X Cx−1 Cn−x M M−1 X Ck Cn−1−k M M−1 M
E(X) = x x Nn−x = M N
= C
N n−1 M−1
= N Cn−1 =n ,
Cn Cn Cn Cn−1 Cn N
x=0 x=1 k=0
se tiene el resultado buscado, donde la última suma en la ecuación anterior es 1 pues se esta sumando
allı́ la función de probabilidad de una v.a. con distribución H(N − 1, M − 1, n − 1).
Ejemplo 2.1. En una encuesta para el sector informal, la población consta de N empresas, de las cuales
M de ellas son unipersonales. Se toma una muestra aleatoria de n empresas, y se cuenta el número X
de empresas unipersonales en la muestra, optándose por aproximar la proporción p = M/N poblacio-
nal y desconocida, mediante la proporción muestral X/n, denotada por p̄. Asumiendo un muestreo sin
reposición, calcule el valor esperado de p̄.
72 ÍNDICE GENERAL
Solución: Es claro que X se ajusta bien al modelo hipergeométrico, i.e. X ∼ H(N , M, n) y por tanto
E(p̄) = E( Xn ) = n1 E(X) = n1 × n M M
N = N = p. Es decir, aunque la proporción p̄ variará de muestra en
muestra, la tendencia es a coincidir con la verdadera proporción poblacional p = M
N.
Ejemplo 2.2. Una empresa tiene en almacén 12 cajas idénticas, dos de las cuáles contienen productos
con fecha vencida. El costo de producción de cada caja es de 350 soles y su precio de venta es de 500
soles. La empresa tiene dos polı́ticas por quejas. Una A que consiste en cambiar toda caja vendida que
contenga productos vencidos por otra buena comprada de otro proveedor a un precio de 400 soles y una
B que consiste en cambiar toda caja vendida que contenga productos vencidos por otra seleccionada al
azar del mismo almacén, pero devolviéndole al comprador un 20 % de su precio de venta. La polı́tica B
se seguirá solo para los primeros reemplazos por queja. En caso las cajas reemplazadas por B contengan
productos vencidos, la empresa ofrece substituirlas por otras también seleccionadas al azar del almacén,
pero ahora gratis; es decir, se les devolverá el 80 % restante pagado por estas cajas. Si se seleccionan al
azar a 4 de las 12 cajas para su venta
a) ¿Con qué probabilidad restarán en el almacén 6 cajas con productos no vencidos, después de selec-
cionarse las 4 cajas?
b) ¿Qué utilidad espera obtener la empresa por esta venta, si sigue la polı́tica A?
c) ¿Con qué probabilidad la empresa obtendrá una utilidad de 400 o 600 soles por esta venta, si es que
sigue la polı́tica B.
Solución: a) Si X =número de cajas con productos vencidos que se venden, entonces X ∼ H(12, 2, 4). Se
C02 C410
pide por tanto P (X = 0) = C412
= 0.4242.
b) Según la polı́tica A, la utilidad vendrá dada por
U (X) = (500 − 350)(4 − X) − (500 − 400 − 350)X = 600 − 400X.
Luego, E(U (X)) = 600 − 400E(X) = 600 − 4×2 12 = 333.33 soles.

c) Según la polı́tica B, para obtenerse una utilidad de 600 o 400 soles deberái de cumplirse que X = 0 o
C02 C410 C22 C210
que X = 2 y por tanto la probabilidad pedida es P (X = 0)+P (X = 2) = C412
+ C 12 = 0.4242+0.0909 =
4
0.5151.
2.2. La distribución binomial

Una v.a. discreta con rango RX = {0, 1, 2, . . . , n} se dice que tiene distribución binomial de
parámetros n ∈ N y p ∈ [0, 1], y se le denota por X ∼ B(n, p), si su función de probabilidad vie-
ne dada por
( n x n−x
Cx p q si x = 0,1,2,...,n.
PX (x) = (2.2)
0 en otro caso.
donde q = 1 − p.
Origen. Esta es la distribución que se presenta cuando contamos el número X de veces que ocurre
un determinado evento A sobre un total fijo de n repeticiones u observaciones independientes
de un experimento experimento binario (conocido también como de Bernoulli), es decir, de un

experimento en el cual existe una probabilidad p de que el evento A ocurra y una probabilidad
q = 1 − p de que este evento no ocurra.
Ejemplo 2.3. Se envı́a n = 60 cuestionarios a empresas para que los llenen con datos sobre empleo y se
cuenta el número X de cuestionarios devueltos llenos.
Ejemplo 2.4. Una persona contesta totalmente al azar una prueba con n = 20 preguntas de opción
mútiple y registramos el número X de aciertos obtenidos por la persona.
Formalmente se tiene la siguiente proposición.
Proposición 2.3. Sea A un evento que puede ocurrir con probabilidad p = P (A) o puede no ocurrir con
probabilidad q = 1 − p. Si se repite n veces de forma independiente, este experimento de cuyo espacio
muestral es A un evento, y se define la variable aleatoria X = Número de veces que ocurre A en las n
repeticiones, entonces la función de probabilidad de X viene dada por la ecuación (2.2).
Demostración: Note en primer lugar que el rango de X es RX = {0, 1, 2, · · · , n}, ya que puede ocurrir que
nunca se presente A, en cuyo caso X será 0, o puede ocurrir A una sola vez, y ası́ hasta el caso extremo
en que A se presenta siempre, en cuyo caso X será n. Ahora bien, que el evento A se presente en x veces
especı́ficas y que AC ocurra en las (n − x) veces restantes, tiene probabilidad:
x veces (n − x) veces
z }| { z }| {
(p.p. · · · .p) (q.q. · · · q) = px qn−x .
Dado que en total hay Cxn casos de este tipo (piense en el número total de x posiciones de las n que se
podrı́an escoger para que en ellas ocurra el evento A), se tiene que P (X = x) = Cxn px qn−x , siendo x un
valor cualesquiera de RX = {0, 1, 2, · · · , n}.
Observaciones:
Tanto en esta distribución como en las que posteriormente estudiaremos, los parámetros
(que son en este caso n y p) son cantidades que determinan completamente a la distribución;
sin ellos o algunos de estos no será posible evaluar las distintas probabilidades con X.
Es importante aclarar que lo que estamos en verdad aquı́ definiendo no es una única dis-
tribución sino toda una familia de distribuciones, que si bien tienen la misma forma, ellas
cambian según cuales sea los parámetros que uno fije para ellas. Por ejemplo, y tal como se
aprecia en la Figura 2.2, la distribución binomial con p = 0.5 es simétrica y conforme p se
aleja de 0.5 se presenta en ella una asimetrı́a ya que las mayores probabilidades se concen-
tran hacia el lado izquierdo o derecho del rango de X. El gráfico en mención se denomina un
gráfico de bastones y en ella se representan, mediante bastones, a los distintos valores que X
pudiera tomar, siendo la longitud de cada bastón igual a la probabilidad de que X tome ese
valor en particular.
74 ÍNDICE GENERAL
n = 10, p = 0.2 n = 10, p = 0.5 n = 10, p = 0.8
●
0.25 ● ●
0.3 0.3
● ●
● ●
0.20
● ●
0.2 0.2
0.15
PX(x)
PX(x)
PX(x)
● ●
0.10
● ●
0.1 0.1
● ●
0.05
● ●
● ●
● ●
● ●
● ● ● ●
0.0 ● ● ● 0.00 0.0 ● ● ●
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
x x x
Figura 2.1: Gráficos de bastones para una distribución binomial con parámetros n y p
Recordemos el binomio de Newton, el cual nos dice que si n es un número entero positivo
n
X
n
(a + b) = Ckn ak bn−k .
k=0
Si lo aplicamos a PX (x) se tiene que nx=0 PX (x) = nx=0 Cxn px qn−x = (p + q)n = 1n = 1, lo cual
P P
muestra junto con PX (x) ≥ 0, que PX (x) es una función de probabilidad.
Si el muestreo en el contexto de la distribución hipergeométrica se hiciera con reemplaza-

miento, las selecciones se podrı́an entender como experimentos independientes en los cuales
se eligen con probabilidad p = M N un elemento con la caracterı́stica A o no se elige un ele-
mento de este tipo con probabilidad 1 − p. En este caso la distribución de X ya no serı́a
hipergeométrica, sino binomial. Es por esto que si n es pequeña en relación a N (y M) es
posible aproximar la distribución H(N , M, n) mediante una B(n, p = M N ). Esta aproximación
suele usarse cuando n < 0.1N . En cualquier caso, la gráfica de bastones de H(N , M, n) es
similar a la de la distribución binomial.
La distribución binomial posee las siguientes propiedades básicas.
Proposición 2.4. Si X ∼ B(n, p) se cumple que
1. E(X) = np.
2. V (X) = npq.
3. MX (t) = (pet + q)n .

Demostración: Mostraremos aqui las propiedades 1. y 2. en base a la derivación de la función genera-

triz de momentos. Como ejercicio usted podrı́a hacerl por la definición del valor esperado. Aplicando la
definición de función generatriz:
n
X n
X
MX (t) = E(etX ) = etx Cxn px qn−x = Cxn etx px qn−x .
x=0 x=0
Una aplicación directa del binomio de Newton nos conduce entonces a que
n
X
n t x n−x
MX (t) = Cx (pe ) q = (pet + q)n ,
x=0
0
lo cual se cumple para todo t real. Dado además que MX (t) = n(pet + q)n−1 pet , tenemos que E(X) =
0 00
MX (0) = np. De otro lado, MX (t) = n(n − 1)(pet + q)n−2 (pet )2 + n(pet + q)n−1 pet nos conduce a que
00
E(X 2 ) = MX (0) = n(n−1)p2 +np, de donde V (X) = E(X 2 )−E(X)2 = n2 p2 −np2 +np−n2 p2 = np(1−p) =
npq.
Ejemplo 2.5. Una petrolera efectúa perforaciones en una concesión del gobierno, en donde, según sus
cálculos, tiene un 25 % de probabilidad de dar con un pozo rentable al hacer una perforación.
a) Si la compañı́a asigna un presupuesto de 12 millones de unidades monetarias (u.m.) para explora-

ciones, sabiendo que necesita un mı́nimo de 4 cuatro pozos en explotación para tener “retorno positivo
en la inversión” (ganancias), y calcula un gasto de 2 millones de u.m. por perforación. ¿Con qué pro-
babilidad tendrá ganancias?
b) En a) asuma que cada pozo rentable hace que las acciones de la compañı́a suban en 100r %. Si al
inicio del perı́odo un tı́tulo de esta compañı́a se cotizaba en M u.m, ¿cuál es la cotización esperada
después de las perforaciones? Considere que no hay baja en la cotización, por ningún concepto.
Solución: Sea el experimento consistente en realizar la perforación de un pozo y sea A el evento ’La
perforación resulta en un pozo rentable’. Entonces p = P (A) = 0.25 y q = 1 − p = 0.75. Si la compañı́a
hace n perforaciones y definimos la v.a.d. X= # de pozos rentables encontrados en las n perforaciones,
asumiendo independencia entre las perforaciones, tenemos que X se ajusta al modelo binomial, esto es:
X ∼ B(n, p = 0.25) ⇔ PX (x) = P (X = x) = Cxn 0.25x 0.75n−x .
a) En esta parte y dados los costos, la compañı́a puede realizar n = 12
2 = 6 perforaciones y para que haya
ganancias, se necesita que X ≥ 4. Evaluando esta probabilidad:
6
X
P (Ganancia) = Cx6 0.25x 0.756−x = C46 0.254 0.752 + C56 0.255 0.751 + C66 0.256 0.750 = 0.033.
x=4
Se deduce, por tanto, que casi con seguridad no se logrará la rentabilidad suficiente.
b) Sea V el valor de la acción X
después
de las 6 perforaciones. Se cumple que V = M(1 + r) P. Luego,
E(V ) = E M(1 + r)X = ME (1 + r)X . Aplicando la definición de valor esperado: E(V ) = M 6x=0 (1 +
r)x Cx6 0.25x 0.756−x = M 6x=0 Cx6 (0.25(1 + r))x 0.756−x = M((1 + r)0.25 + 0.75)6 = M(1 + 0.25r)6 .
P
76 ÍNDICE GENERAL
Ejemplo 2.6. Una prueba de aptitud tiene n = 20 preguntas de opción múltiple, siendo cinco las opcio-
nes (una correcta y el resto no) por pregunta. Si una persona marca todo al azar y se define X = número
total de aciertos, calcule la probabilidad de que la persona acierte en :
a) Dos preguntas.
b) Al menos en una pregunta.
c) Entre 4 y 5 preguntas.
Solución: Sea el evento A = “La persona acierta en la pregunta”. Entonces p = P (A) = 1/5. Si asumimos
independencia entre preguntas, se está en el contexto de la proposición 2.1 y se puede decir que X tiene
distribución binomial, más concretamente X ∼ B(n = 20, p = 0.2). Ası́,
a) P (X = 2) = C220 0.22 0.818 = 0.1369.
b) P (X ≥ 1) =1 − P (X = 0) = 1 − C020 0.20 0.820 = 1 − 0.0115 = 0.9884
c) P (4 ≤ X ≤ 5) =C420 0.24 0.816 +C520 0.25 0.815 = 0.1145
Observación: Como E(X) = µX = np = 20 × 0.2 = 4 y V (X) = σX2 = npq = 20 × 0.2 × 0.8 = 3.2 ( por
tanto σ X = 1.78), podemos decir que si una persona contesta las 20 preguntas al azar, entonces
ella podrı́a tener con una alta probabilidad entre 2 y 6 aciertos.
Ejemplo 2.7. En el ejemplo anterior, si cada acierto vale 4 puntos y cada error cuesta N puntos y se
quiere que las personas que contesten al azar, en promedio reciban puntaje 0, ¿cuánto debe descontarse
por cada error?
Solución: Si T es el puntaje total, entonces T = 4X − (20 − x)N = (4 + N )X − 20N y deseamos hallar N
tal que E(T ) = 0. Aplicando propiedades del valor esperado:
E(T ) = (4 + N ) × E(X) − 20N = (4 + N ) × 4 − 20N 16 − 16N .
Ası́ igualando a 0 esta expresión, resulta que N = 1, esto es, se debe descontar un punto por cada error.
2.3. La distribución geométrica

Sea X una v.a. discreta, con rango N+ y sean p ∈]0, 1[y q = 1 − p valores dados. Diremos que X
tiene una distribución geométrica de parámetro p, y lo denotaremos como X ∼ G(p), si su función
de probabilidad es: ( x−1
q p si x = 1, 2, 3, . . .
PX (x) = (2.3)
0 en otro caso.
Observación: Note que la asignación 2.3 define una función de probabilidad, desde que haciendo
el cambio de variable k = x − 1 se tendrá por la fórmula de la serie geométrica que
∞
X X 1
qx−1 p = p qk = p = 1.
1−q
x=1 k=0
Origen. La distribución geométrica aparece como resultado de contar cuántas veces se debe repe-
tir de manera independiente un experimento de hasta lograr que ocurra un determinado suceso
A por primera vez. Más formalmente se tiene la siguiente proposición, cuya demostración la rele-
garemos para un caso más general.
Proposición 2.5. Considere un experimento aleatorio de cuyo espacio muestral A es un evento que
puede ocurrir con probabilidad p. Si se repite este experimento de manera independiente y se define la v.a.
discreta X =número de experimentos hasta que ocurra el evento A, entonces la función de probabilidad
de X viene dada por la ecuación (2.3).
Se tienen las siguientes propiedades básicas de esta distribución
Proposición 2.6. Si X ∼ G(p), entonces
1. E(X) = p1 .
q
2. V (X) = p2
.
pet
3. MX (t) = 1−qet , si t < − log(q).
Demostración: Se deduce directamente de la proposición 2.8 cuando r = 1.
Una generalización directa de la distribución geométrica se da cuando deseamos obtener la

distribución del número de estos experimentos hasta obtenerse por r−ésima vez el evento A. Eso
nos conduce a la siguiente distribución.
2.4. La distribución de Pascal o binomial negativa

Sea X una v.a. discreta, con rango RX = {r, r +1, r +2, . . .} y sean r ∈ N+ , p ∈]0, 1[y q = 1−p valores
dados. Diremos que X tiene una distribución de Pascal o binomial negativa de parámetros r y p, y
lo denotaremos como X ∼ BN (r, p), si su función de probabilidad es:
( x−1 x−r r
Cr−1 q p si x = r, r + 1, r + 2, . . .
PX (x) = (2.4)
0 en otro caso.
Origen. Es una generalización de la distribución geométrica, que surge cuando se repite el expe-
rimento en ella hasta que ocurra A por r-ésima vez, siendo r un entero positivo de valor fijo. El
nombre de esta distribución tiene su origen en la serie binomial negativa, que es una especie de
binomio de Newton, pero para exponentes enteros negativos. Esta es, para n ∈ N:
∞
X
(1 + a) −n
= (−1)k Ckn+k−1 ak , si |a| < 1. (2.5)
k=0
Una aplicación de esta fórmula a (2.3) nos conduce a que

∞
X ∞
X ∞
X
x−1 x−r r k+r−1 k r r
Cr−1 q p = Cr−1 q p =p Ckk+r−1 qk = pr (1 − q)−r = 1
x=r k=0 k=0
y por tanto (2.3) define una función de probabilidad. La formalización de esta función de proba-
bilidad se presenta seguidamente.
78 ÍNDICE GENERAL
Proposición 2.7. Considere r ∈ N+ y un experimento aleatorio de cuyo espacio muestral A es un evento

que puede ocurrir con probabilidad p. Si se repite este experimento de manera independiente y se define
la v.a. discreta X =número de experimentos hasta que ocurra el evento A por r−ésima vez, entonces la
función de probabilidad de X viene dada por la equación (2.3).
Demostración: En el contexto dado, defı́nanse los eventos Ai =“En la i-ésima repetición del experimento
ocurre el evento A”. Si x ∈ RX , se tiene entonces que
PX (x) = P (X = x) = P ((A1 ∩. . .∩Ar−1 ∩Acr . . .∩Acx−1 ∩Ax )∪. . . . . .∪(Ac1 ∩. . .∩Acx−r ∩Ax−r+1 ∩. . . . . . Ax−1 ∩Ax )),
donde el primer evento del lado derecho denota a que A ocurre en los primeros r − 1 experimentos y luego
deja de ocurrir para volver a ocurrir por r−ésima vez en el x−avo experimento; mientras que el último
evento denota a que A ocurre sin parar desde el experimento x−r +1. Por brevedad solo hemos presentado
x−1
los casos extremos. Todos los demás eventos entre estos incluyéndolos son Cr−1 , pues estos equivalen en
número a reservar r − 1 posiciones de los x − 1 experimentos para la ocurrencia de A dado que el x−ésimo
experimento se reserva siempre para A. Por fortuna, dada la independencia, todos estos eventos tienen
x−1 x−r r
exactamente la misma probabilidad qr−x pr . Luego PX (x) = Cr−1 q p.
Se tienen las siguientes propiedades básicas de esta distribución.
Proposición 2.8. Si X ∼ BN (r, p), entonces
1. Si r = 1, X ∼ G(p).
2. E(X) = pr .
rq
3. V (X) = p2
.
pet
4. MX (t) = ( 1+qet )r , si t < − log(q).
Demostración: La propiedad 1. es evidente; mientras que la 2. y 3. pueden directamente deducirse, como
se pide de ejercicio al lector, por derivación de la función generatriz de momentos, la cual deduciremos a
continuación. En efecto por (2.4), se tiene que
∞
X ∞
X
MX (t) = E(etX ) = etx Cr−1
x−1 x−r r
q p = et(k+r) Cr−1
k+r−1 k r
q p
x=r k=0
∞
X
= (pet )r Ckk+r−1 (qet )k = (pet )r (1 − qet )−r , si qet < 1.
k=0
t
pe
En consecuencia, MX (t) = ( 1−qet )r , si t < − log(q).
Ejemplo 2.8. Si la compañı́a del Ejemplo 2.1 de la sección 2.1.2 anterior asigna seis millones de u.m.
para exploraciones y calcula un gasto 2 millones de u.m. por perforación, pero decide operar solamente
un pozo, ¿con qué probabilidad empezará a operar sin antes ver agotado su presupuesto?
Solución: En este caso la compañı́a hará perforaciones hasta dar con el primer pozo y además solo puede
perforar hasta tres pozos. Sea X = número de perforaciones hasta dar con el primer pozo rentable; se ve
que X se ajusta al modelo geométrico, es decir X ∼ G(0.25) y tenemos que hallar P (X < 3) = P (X ≤ 2) =
0.25 + 0.25 × 0.75 = 0.4375.
Ejemplo 2.9. Un consumidor está en un mercado con infinitos productores del mismo bien que le ofrecen
el producto a similar precio pero con distintas modalidades de propaganda y trato al cliente, de modo
que la elección del consumidor no es inmediata sino aleatoria, con una probabilidad p de que se decida
por el productor al cual está consultando sobre el bien. Sea X el número de productores visitados por
el consumidor. ¿Cuántas consultas se espera que haga esta persona? ¿Con qué probabilidad hará más
consultas de lo esperado?
Solución: Sea el experimento “El consumidor consulta acerca del bien con un productor del mercado”
y sea el evento A = “El consumidor decide comprar el producto al hacer la consulta con el productor”.
Por dato, p = P (A) > 0 es la misma en cualquier consulta y ası́ tenemos que X puede verse como # total
de repeticiones de hasta que ocurre A por primera vez, la cual es una v.a. que se ajusta al modelo
geométrico, esto es X ∼ G(p). Ası́, E(X) = µX = 1/p y por tanto:
1 1 [| 1 |]
P (X > E(X)) = P (X > µX ) = P (X > ) = P (X ≥ [| |] + 1) = q p
p p
donde [| p1 |] denota el máximo entero no mayor que p1 . Por ejemplo, si p = 0.3, entonces 1
p = 3.3 y ası́
1
P (X > p ) = P (X > 3.3) = P (X ≥ 4) = 0.73 = 0.343.
2.5. La distribución de Poisson

Sea X una v.a. discreta, con rango RX = N y sea λ una constante conocida. Diremos que X
tiene distribución de Poisson de parámetro λ, lo que se denotará por X ∼ P (λ), si su función de
probabilidad es:
( e−λ λx
x! si x = 0, 1, 2, . . .
PX (x) = (2.6)
0 en otro caso.
Origen. La distribución de Poisson surge como una distribución de conteo para la ocurrencia de
eventos generados por un proceso que lleva el mismo nombre y que a su vez es parte de una familia
de procesos estocásticos de nacimiento y muerte más generales, concretamente de un proceso de
nacimiento puro con tasa de nacimientos constante. Esta distribución puede también pensarse
como un caso lı́mite de una distribución binomial.
Antes de definir el proceso generador de eventos para el que la distribución de Poisson actua
como un contador, será conveniente introducir la noción de comparación de ordenes entre dos
funciones.
Definición 2.1. Sean g y g dos funciones reales de variable real, diremos que f es de orden inferior a g
cuando x → x0 , y lo denotaremos por f (x) = o(g(x)), si
f (x)
lı́m = 0.
x→x0 g(x)
Un caso particular en la definición anterior se da si g(x) = x y se desea averiguar la conver-

gencia hacia el valor 0. En este caso f (x) = o(x), significará que la función f se aproxima más
rápidamente a 0, que lo que lo hace x, conforme x → 0. En otras palabras, si f (x) = o(x), el valor
de esta función en un argumento muy cercano a 0 se podrı́a considerar casi despreciable.
80 ÍNDICE GENERAL
Definición 2.2 (Proceso de Poisson). Un proceso de Poisson con tasa ω > 0 es un proceso estocástico
de tiempo continuo {Nt }t∈[0,∞[ y que toma valores en N tal que:
1. N0 = 0.
2. El proceso tiene incremento independientes; esto es, para cualesquieras t0 , t1 , . . . , tn y n ∈ N+ ,
Nt0 , Nt1 − Nt0 , . . . , Ntn − Ntn−1
son variables aleatorias independientes.

D
3. El proceso tiene incrementos estacionarios; esto es, ∀0 ≤ s ≤ t, Nt−s = Nt − Ns .
4. Para cualquier h ≥ 0,
P (Nh = 1) = ωh y P (Nh ≥ 2) = o(h).
Descifrando un poco la definición, ella nos dice que el proceso de Poisson es un proceso ge-
nerador de eventos discretos sobre un soporte temporal en el que Nt nos cuenta cuantos eventos
genera el proceso en el intervalo de tiempo [0, t] o si se quiere [w, w + t] para cualquier valor de
w > 0, pues por la propiedad 3 la distribución de la v.a. Nt es la misma sobre cualquier intervalo de
longitud t. El proceso asume que en un intervalo de tiempo de longitud suficientemente pequeña
h podrı́a no ocurrir evento alguno (lo más probable) o ocurrir un evento con aproximadamente
probabilidad ωh, siendo ω la tasa o velocidad por unidad de tiempo con la que el proceso gene-
ra los eventos. La probabilidad de ocurrencia de 2 más eventos se asume aquı́ despreciable y se
asume además que la ocurrencia de eventos en intervalos disjuntos de tiempo son independientes.
Observación: Si bien en la definición anterior se ha considerado al tiempo como el soporte del
proceso, esto no necesariamente es ası́. En el estudio de los procesos espaciales por ejemplo, el
soporte suele ser el espacio o el espacio-tiempo, siendo el espacio no solo unidimensional sino
multidimensional. Esto último resulta muy útil en por citar la Geoestadı́stica, donde los even-
tos que el proceso genera se asocian a la riqueza de algún mineral, foco de infección, nivel de
contaminación u otro fenómeno de interés sobre el espacio.
Mostraremos ahora la génesis de la distribución de Poisson, que como comentamos anterior-
mente, se asocia al registro del número de eventos que el proceso genera en un intervalo de tiempo
[0, t] de longitud no despreciable.
Proposición 2.9. Si en un proceso de Poisson de tasa λ > 0, definimos la v.a. discreta X =número de
eventos que el proceso genera en el intervalo [0, t] entonces X es una v.a. cuya función de probabilidad
viene dada por (2.6) con λ = ωt.
Demostración: Fijado t > 0, note que X = Nt . Hallemos primero la función de probabilidad para x = 0.
Para ello definamos la función px (t) = P (Nt = x). Dado h > 0, se tiene por las propiedades b) y c) que
p0 (t + h) = P (Nt+h = 0) = P (Nt+h − Nt = 0, Nt = 0) = P (Nt+h − Nt = 0)P (Nt = 0)
= P (Nh = 0)P (Nt = 0) = (1 − ωh + o(h))p0 (t)

Por tanto, tomándose el lı́mite cuando h → 0 a
p0 (t + h) − p0 (t) −ωh + o(h)
= p0 (t),
h h
0
se obtiene p0 (t) = −ωp0 (t), ecuación diferencial cuya solución directa es p0 (t) = ce−ωt . Puesto que
p0 (0) = 1, se tendrá que P (X = 0) = P (Nt = 0) = e−ωt .
Veamos ahora la función de probabilidad para los demás valores x ≥ 1. Nuevamente por la indepen-
dencia y la estacionariedad
X
px (t+h) = P (Nt+h = x) = P (Nt+h −Nt = 0, Nt = x)+P (Nt+h −Nt = 1, Nt = x−1)+ P (Nt+h −Nt = k, Nt = x−k)
k=2
X
= P (Nh = 0)P (Nt = x) + P (Nh = 1)P (Nt = x − 1) + P (Nh = k)P (Nt = x − k)
k=2
= (1 − ωh + o(h))px (t) + ωhpx−1 (t) + o(h).
Ası́,
px (t + h) − px (t) (−ωh + o(h))px (t) + ωhpx−1 (t) + o(h)
=
h h
y tomándose lı́mites cuando h → 0 se obtiene la ecuación diferencial
0
px (t) = −ωpx (t) + ωpx−1 (t)
con condición de frontera px (0) = 0 para x ≥ 1. Si definimos ahora la función qx (t) = eωt px (t), la ecua-
0
ción anterior se puede reescribir como qx (t) = ωqx (t), cuya solución se puede hallar iterativamente y
x
(ωt)
viene dada por qx (t) = x! . Ası́,
(ωt)x
P (X = x) = P (Nt = x) = px (t) = e−ωt .
x!
La distribución de Poisson posee las siguientes propiedades básicas
Proposición 2.10. Si X ∼ P (λ), entonces
1. E(X) = λ.
2. V (X) = λ.
t
3. MX (t) = eλ(e −1) .
Demostración: Si bien podrı́amos deducir 1. y 2. a partir de la función generatriz de momentos, op-
taremos aquı́ como ilustración calcular estos dos indicadores por definición. En este proceso usaremos
constantemente el desarrollo de Taylor de la función exponencial. Se sigue que
∞ ∞ ∞
X λx X −λ λx X λk
E(X) = xe−λ = e = λe−λ = λe−λ eλ = λ
x! (x − 1)! k!
x=0 x=1 k=0
y
∞ ∞ ∞
X λx X −λ λx X λk
E(X 2 ) = x2 e−λ = xe =λ (k + 1)e−λ = λ(λ + 1).
x! (x − 1)! k!
x=0 x=1 k=0
Por tanto, V (X) = E(X 2 ) − E(X)2 = λ2 + λ − λ2 = λ.
Por otro lado, tenemos para 3. que
∞ ∞
tX
X
tx −λ λ
x X (λet )x t t
MX (t) = E(e ) = e e =e −λ
= e−λ eλe = eλ(e −1) .
x! x!
x=0 x=0
82 ÍNDICE GENERAL
Ejemplo 2.10. Suponga que la cantidad de buques-tanque que llega a un puerto por dı́a, se presenta de
acuerdo a un proceso de Poisson, a una tasa de 2 buques-tanque, en promedio, por dı́a.
a) ¿Cuál es la probabilidad de que en un dı́a, el número de buques-tanque que llega al puerto sea menor
de lo esperado?
b) El puerto solo puede atender a 2 buques-tanque por dı́a, y cualquier otro buque excedente, se envı́a
a un puerto vecino: ¿Qué porcentaje de los dı́as, se enviarán buques al puerto vecino?
c) ¿Cuál serı́a la probabilidad de que Ud. llegue al puerto a medio dı́a y encuentre que ya se llenó el
puerto?
d) Si N es el número de buques atendidos por dı́a en el puerto, halle E(N ).
Solución: De las condiciones dadas, tenemos que la tasa de llegada es ω = 2. En este contexto, la v.a. X =
Número de buques tanque que llegan entre 0 y t tiene distribución de Poisson de parámetro λ = ωt = 2t.
Entonces:
a) En este caso t = 1 y λ = ωt = 2, luego X ∼ P (2) y E(X) = 2, ası́ que la probabilidad pedida es
20 21
P (X < 2) = P (X ≤ 1) = PX (0) + PX (1) = e−2 + e−2 = 3e−2 = 0.41
0! 1!
b) Nos piden P (X > 2) = 1 − P (X ≤ 2) y como P (X ≤ 2) = P (X < 2)PX (2), solo necesitamos calcular
2
PX (2) = e−2 22! = 2e−2 . Por tanto P (X ≤ 2) = 3e−2 + 2e−2 = 5e−2 = 0.68 y entonces P (X > 2) = 1 − P (X ≤
2) = 0.32: El 32 % de los dı́as se enviará buques al puerto vecino.
c) Si llegamos en t = 1/2 dı́a, para que ya esté lleno el puerto, debe de haber ocurrido que en el intervalo
]0, 1/2] (o sea la primera mitad del dı́a) llegaron dos o más buques tanque. Ası́, bajo X ∼ P (λ = wt = 1)
nos piden P (X ≥ 2) = 1 − P (X ≤ 1) = 1 − (PX (0) + PX (1)) = 1 − 2e−1 = 0.26.
d) Es claro que N = 2 − X, si X = 0, 1 y N = 2, si X ≥ 2, siendo X= número de buques tanque que llegan
en t = 1 dı́a. Luego E(N ) = 2 × PX (0) + 1 × PX (1) + 2 × P (X ≥ 2) = 2 × e−2 + 1 × 2e−2 + 2 × (1 − 3e−2 ) =
2 − 4e−2 = 1.46 buques.
Seguidamente presentaremos una colección de las más importantes distribuciones de una va-
riable aleatoria continua. A diferencia del caso discreto, el origen de estas distribuciones, salvo en
contadas excepciones, no es deducible de un contexto particular. Su uso se basa mas bien en el
conocimiento y experiencia que el investigador tiene con los datos y con la asunción de que estos
podrı́an haber sido generados con los modelos que se proponen para estas distribuciones.
2.6. La distribución uniforme.

Sea X una v.a. continua, con rango RX = [α, β]. Diremos que X tiene distribución uniforme en
el intervalo [α, β], y lo denotaremos por X ∼ U ([α, β]), si su función de densidad viene dada por:

1
 β−α si x ∈ [α, β]


fX (x) =  (2.7)
 0 en otro caso.

Esta es quizás la distribución contı́nua más sencilla y su asunción básica es que X puede to-
mar indistintamente cualquier valor posible dentro del intervalo [α, β], ya que cualquier par de
subintervalos de igual longitud en [α, β] tendrán siempre igual probabilidad al ser la densidad
constante en todo el intervalo.
Origen. Tiene un origen relativamente simple, en el contexto de probabilidad geométrica, cuando
se toma un punto al azar de un intervalo de longitud finita, donde uno asume que todo punto del
intervalo tiene la misma factibilidad de ocurrencia.
Las propiedades básicas de esta distribución son las siguientes.
Proposición 2.11. Si X ∼ U ([α, β]) entonces

α+β
1. E(X) = 2 .
(β−α)2
2. V (X) = 12 .
3. Sea F la función de distribución de alguna v.a. continua, X ∼ U (]0, 1[]) y definamos la v.a. Y =
F −1 (X), entonces FY = F.
Rβ β
1 x2 a+b
Demostración: 1. E(X) = α x b−a dx = 2(β−α) = 2 .
β α
Rβ
1 x3 β 3 −α 3 1 2
2. Puesto que E(X 2 ) = α x2 b−a dx = 3(β−α) 2
= 3(β−α) = 3 (β + αβ + β ), se tiene que
α
1 1 α 2 2αβ β 2 (β − α)2
V (X) = E(X 2 ) − E(X)2 = (β 2 + αβ + β 2 ) − (α 2 + 2αβ + β 2 ) = − + = .
3 4 12 12 12 12
3. Note en primer lugar que la v.a. Y está bien definida, pues F −1 existe, al ser F la función de
distribución de una v.a. continua. Ası́ para cualquier valor y ∈ R, FY (y) = P (Y ≤ y) = P (F −1 (X) ≤
y) = P (X ≤ F(y)) = F(y).
Hemos aquı́ incluido la propiedad 3, pues ella es vital para la construcción de un esquema de
simulación o de recreación de los valores que pudiera tomar una v.a. continua Y cualesquiera, de
ser conocida su función de distribución FY . En efecto, lo que ella nos dice es que si X1 , X2 , . . . , Xn
son n v.a’s independientes con una distribución uniforme en el intervalo ]0, 1[ entonces
Y1 = FY−1 (X1 ), Y2 = FY−1 (X2 ), . . . , Yn = FY−1 (Xn )
constituye una colección de n v.a’s independientes de la v.a. Y . Esto implica que para generar n
valores independientes de Y , cuyo rango es RY , podrı́amos optar por seguir los siguientes pasos:
1. Seleccionar de una tabla de números aleatorios o a través de algún software estadı́stico n núme-
ros aleatorios x1 , x2 , . . . , xn entre 0 y 1. Estos números corresponden a los valores simulados in-
dependientes de la v.a. X ∼ U (]0, 1[).
2. Si la v.a. Y es continua, realizar con los números anteriores la transformación integral:
y1 = FY−1 (x1 ), y2 = FY−1 (x2 ), . . . , yn = FY−1 (xn ).
Estos serán los valores simulados independientes de la v.a. Y que buscamos.

84 ÍNDICE GENERAL
Vale agregar que si la v.a. de interés Y es discreta, el esquema anterior puede adaptarse para la
simulación de valores de esta variable agregando el paso 3 siguiente:
3. Si Y es una v.a. discreta, los valores simulados de Y vienen dados por:
yi = mı́n{y ∈ RY /FY (y) ≥ xi }, ∀i = 1, 2, . . . , n.
2.7. La distribución exponencial

Sea X una v.a. continua con rango RX =]0, ∞[ y sea β > 0 una constante positiva. Diremos que
X tiene distribución exponencial de parámetro β, y lo denotaremos por X ∼ Exp(β), si su función
de densidad viene dada por:
βe−βx si x ≥ 0
(
fX (x) = (2.8)
0 en otro caso.
Observaciones:
R∞ R∞ ∞
−βx −βx
Note que 0 fX (x)dx = 0 βe dx = −e = 1, de modo que se verifica que (2.8) es una
0
función de densidad.
En la Figura (2.2) se aprecia como es que cambia la forma de la distribución con respec-
to al parámetro β. Si bien esta es una distribución completamente asimétrica con mayores
probabilidades sobre valores pequeños se ve que a mayor valor de β, la “cola” de la distri-
buciı́on se hace cada vez más ligera; esto es, la gráfica de la función de densidad tiende más
rápidamente al valor 0.
β=1 β=2 β=3
3.00 3.00 3.00
2.75 2.75 2.75
2.50 2.50 2.50
2.25 2.25 2.25
2.00 2.00 2.00
1.75 1.75 1.75

fX(x) = βe−βx
fX(x) = βe−βx
fX(x) = βe−βx
1.50 1.50 1.50
1.25 1.25 1.25
1.00 1.00 1.00
0.75 0.75 0.75
0.50 0.50 0.50
0.25 0.25 0.25
0.00 0.00 0.00
0 1 2 3 4 0 1 2 3 4 0 1 2 3 4
x x x
Figura 2.2: Gráficos de la función de densidad de una distribución exponencial con parámetro β.
Origen: La distribución exponencial aparece de modo muy natural en un proceso de Poisson,

como la distribución del “tiempo de espera” hasta la ocurrencia del primer evento generado por
el proceso. Ello está también relacionado al hecho de que esta distribución es la única continua
que tiene la singular propiedad de “falta de memoria” (véase el ejercicio ).
Proposición 2.12. Si en un proceso de Poisson de tasa ω, definimos la v.a. continua T = Tiempo que
transcurre hasta que ocurre el primer evento generado por el proceso, entonces T ∼ Exp(β = ω).
Demostración: Dado t > 0, esto se basa esencialmente en la equivalencia de los eventos (T ≤ t) y (X > 1),
donde X ∼ P (λ = ωt) es la v.a. de conteo que nos mide el número de eventos generados por el proceso
en el intervalo [0, t]. Luego FT (t) = P (T ≤ t) = P (X > 1) = 1 − P (X = 0) = 1 − e−wt y derivando tenemos
0
fT (t) = FT (t) = we−wt , es decir, T ∼ Exp(β = w)
Observaciones:
Como el punto cero es arbitrario, también podemos ver a T como el tiempo que transcurre
entre dos ocurrencias sucesivas de E. Más aún, estos tiempos para los diferentes pares entre
ocurrencias son independientes.
La distribución exponencial es muy utilizada como modelo para tiempos de espera o tiempos
de vida y es fundamental en el estudio de estos últimos. Esta rama de estudios se conoce
como confiabilidad o supervivencia, dependiendo si los tiempos en referencia se asocian a
un objeto o un sujeto.
Las siguientes propiedades, cuya demostración la omitiremos al ser un caso particular de una
distribución más general, nos brindan las principales caracterı́sticas de esta distribución.
Proposición 2.13. Si X ∼ Exp(β),
1. E(X) = β1 .
1
2. V (X) = β2
.
β
3. MX (t) = β−t , si t < β.
Ejemplo 2.11. Si el ingreso empresarial en un paı́s, es una v.a. con distribución exponencial de paráme-
tro β y se dispone un tributo nuevo de 15 % para los ingresos superiores al promedio poblacional ¿Qué %
de la población pagará el impuesto?
Solución: En este caso, se nos pide hallar P (X > β1 ), donde X es el ingreso de una empresa y X ∼ Exp(β).
Integrando directamente obtenemos:
Z ∞
1 −βx
∞
−βx −1
P (X > ) = βe dx = −e 1 = e = 0.38.
β 1
β
β
86 ÍNDICE GENERAL
2.8. La distribución gamma

Definición 2.3 (Función Gamma). Si p > 0, se define la función gamma por
Z∞
Γ (p) = u p−1 e−u du.
0
Se puede probar que la integral anterior existe para todo p positivo. Algunas propiedades
interesantes de esta función son las siguientes.
Proposición 2.14.
1. Γ (p + 1) = pΓ (p), ∀p > 0
2. Si p ∈ N+ , Γ (p) = (p − 1)!
√
3. Γ ( 21 ) = π.
R1 Γ (p)Γ (q)
4. Si p > 0 y q > 0, entonces 0
xp−1 (1 − x)q−1 dx = Γ (p+q)
.
Demostración: 1. Aplicando la fórmula de integración por partes

Z∞ ∞ Z∞
p −u p −u
Γ (p + 1) = u e du = −u e + p u p−1 e−u du = pΓ (p).
0 0 0
2. Si aplicamos recursivamente 1. para p ∈ N+ ,
Γ (p) = (p − 1)Γ (p − 1) = (p − 1)(p − 2)Γ (p − 2) = . . . = p(p − 1)(p − 2) . . . 2Γ (1).
Dado que Γ (1) = 1, resulta que Γ (p) = (p − 1)!

√ R∞ 2 R∞ 2 √
3. Haciendo el cambio de variable y = u, se tiene que Γ ( 21 ) = 2 0 e−y dy = −∞ e−y dy = π, integral
última que no es nada trivial pero cuyo cálculo lo justificaremos en el capı́tulo siguiente.
4. La fórmula dada es directa para q = 1, desde que por la propiedad de recursividad 1.
Z1
xp 1 1 Γ (p)Γ (1)
xp−1 dx = = = .
0 p 0 p Γ (p + 1)
Para el caso general, denotemos por H(p, q) al valor de la integral buscada como función de p y q.
Utilizando la fórmula de integración por partes
q−1 1 p
Z
q−1
H(p, q) = x (1 − x)q−2 dx = H(p + 1, q − 1).
p 0 p
Ası́, desarrollando esta fórmula recursivamente hacia atrás obtenemos
q−1 q−2 1
H(p, q) = ... H(p + q − 1, 1),
p p+1 p+q−2
1
donde el último término a derecha es igual a p+q−1 por el desarrollo anterior. En consecuencia multipli-
cando esta expresión arriba y abajo por Γ (p) y utilizando nuevamente la fórmula recursiva 1, se tiene
Γ (p)Γ (q)
que H(p, q) = Γ (p+q) .
Sea X una v.a. continua y sean α > 0 y β > 0, constantes con valores dados. Diremos que X
tiene distribución gamma de parámetros α y β, lo que se denotará por X ∼ Γ (α, β), si su función
de densidad es:  α α−1 −βx
β x e


Γ (α)
si x ≥ 0
fX (x) =  (2.9)

0 en otro caso.


Los parámetros α y β se suelen denominar también, respectivamente, los parámetros de forma

y tasa de la distribución. La Figura (2.5) muestra algunas gráficas de la función de densidad para
distintos parámetros α y β. Como se aprecia la gráfica de esta densidad es asimétrica a la derecha,
pero conforme crece α esta se atenúa y se hace cada vez más simétrica.
α = 2,β = 0.5 α = 10,β = 0.5 α = 16,β = 0.5
0.21
0.20
0.19
0.07 0.07
0.18
0.17
0.16 0.06 0.06
0.15
0.14
0.05 0.05
0.13
0.12
0.11
0.04 0.04
fX(x)
fX(x)
fX(x)
0.10
0.09
0.08 0.03 0.03
0.07
0.06
0.02 0.02
0.05
0.04
0.03
0.01 0.01
0.02
0.01
0.00 0.00 0.00
0 5 10 15 20 25 0 20 40 60 0 20 40 60 80
x x x
Figura 2.3: Gráficos de la función de densidad de una distribución Gamma con distintos paráme-
tros de forma.
Origen. La distribución Gamma aparece de modo muy natural en un proceso de Poisson, como
la distribución del “tiempo de espera” hasta la ocurrencia del k−ésimo evento generado por el
proceso, siendo k ∈ N+ .
Proposición 2.15. Si para un proceso de Poisson de tasa ω, definimos la v.a. continua T = Tiempo que
transcurre hasta que ocurra el k−ésimo evento generado por el proceso, entonces T ∼ Γ (α = k, β = ω).
Demostración: Sea t > 0 un valor arbitrario. Como el evento (T > t) es equivalente al evento (X ≤ k − 1),
siendo X la v.a. discreta que nos cuenta el número de eventos generados por el proceso en el intervalo
88 ÍNDICE GENERAL
[0, t] de distribución de Poisson de parámetro λ = ωt, se tiene que

k−1 k−1
X λx X (ωt)x
FT (t) = 1 − P (T > t) = 1 − P (X ≤ k − 1) = 1 − e−λ = 1− e−ωt
x! x!
x=0 x=0
Tomando, la derivada de esta función con respecto a t, que recordemos nos brinda la densidad de T ,
resulta que
k−1 k−1
X (ωt)x X −ωt (ωt)x−1
fT (t) = ωe−ωt − ωe x ω
x! x!
x=0 x=0
k−1 k−2
X (ωt)x X (ωt)` (ωt)k−1 ωk t k−1 e−ωt
= e−ωt ω( − ) = e−ωt ω = ,
x! `! (k − 1)! Γ (k)
x=0 `=0
Esto muestra que T ∼ Γ (α = k, β = ω).
Las propiedades básicas de la distribución Gamma son la siguientes.
Proposición 2.16. Si X ∼ Γ (α, β), entonces
1. E(X) = αβ .
α
2. V (X) = β2
.
β
3. MX (t) = ( β−t )α , si t < β.
Demostración: Las propiedades 1. y 2. se obtienen directamente por derivación de la función generadora

de momentos, la cual detallamos seguidamente.
Z∞ α α−1 e−βx Z∞
tX tx β x β α xα−1 e−x(β−t)
MX (t) = E(e ) = e dx = etx dx
0 Γ (α) 0 Γ (α)
Haciendo arriba el cambio de variable y = x(β − t), con t < β, se sigue que
Z∞
βα β α
MX (t) = α
y α−1 e−y dy = ( ) .
Γ (α)(β − t) 0 β −t
Observaciones:
La distribución exponencial es un caso particular de la distribución gamma.
Otro caso particular e importante de la distribución gamma se da cuando α = 2k y β = 21 , don-

de k es un entero positivo dado. Esta distribución se presenta cuando medimos la varianza
en muestras aleatorias y se conoce como la distribución Ji-Cuadrado. El único parámetro
de esta distribución es k y es llamado “grados de libertad”. Mayores detalles sobre esta dis-
tribución serán presentados en el capı́tulo 4, cuando entremos al estudio de la estadı́stica
inferencial.
Tanto la distribución exponencial como la gamma se usan como modelos teóricos para dis-
tribuciones asimétricas como Ingresos, Tiempos de Vida, Edades, etc, que tienen la particu-
laridad de que su cola derecha caiga rápidamente hacia 0.
Ejemplo 2.12. El número de unidades de transporte que circula por una avenida de la ciudad se pre-
senta a razón de ω vehı́culos/cuadra, siguiendo un proceso de Poisson. Un economista de transporte está
formulando un modelo al respecto y espera que en una muestra, sobre 10 cuadras consecutivas, hallan
50 unidades.
a) ¿Cuál es el valor de ω?
b) ¿Con qué probabilidad encontrarı́amos que entre dos unidades de transporte median menos de 0.25
cuadras?
c) Un micro entra a la avenida y le informan que dos unidades de la misma lı́nea le preceden. ¿Qué
distancia esperarı́a que medie entre el micro entrante y el más cercano de los que lo preceden? ¿Del
más alejado? ¿Con qué probabilidad serán las distancias mayores que lo esperado? Mida la distancia
en cuadras y asuma que el número de vehı́culos de esta lı́nea en la avenida tiene una tasa igual a la
cuarta parte de la general.
Solución: a) Si X =Número de vehı́culos en t = 10 cuadras (tomamando como unidad la cuadra), enton-

ces X ∼ P (λ = ωt = 10ω). Sabemos que E(X) = ωt y, por tanto, 10ω = 50 o ω = 5.
R 0.25
b) Sea T=Distancia entre dos vehı́culos, entonces T ∼ Exp(β = 5). Luego P (T ≤ 0.25) = 0 5e5t dt =
1 − e−1.25 = 1 − 0.29 = 0.71.
c) En este caso la tasa es ω = 5/4 = 1.25 y podemos aplicar sucesivamente las proposiciones relativas
al origen de las distribuciones exponencial y gamma. Si definimos T1 = “Distancia entre el micro que
entra a la avenida y el más cercano de los que lo preceden”, podemos ver que T1 ∼ Exp(β = 5/4) y
además E(T1 ) = 1/β = 54 = 0.8. Análogamente si T2 = “Distancia hasta el micro más alejado”, podemos
ver que T2 ∼ Γ (α = 2, β = 45 ). De lo anterior resulta E(T2 ) = αβ = 58 = 1.6. Finalmente P (T1 > 0.8) =
R∞
0.8
1.25e−1.25t dt = e−1 = 0.37 y P (T2 > 1.6) puede hallarse integrando por partes o, de manera más
directa, bajo el comando de R:
> 1-pgamma(1.6,shape=2,rate=1.25)
[1] 0.4060058
2.9. La distribución beta

Sea X una v.a. continua con rango [0, 1] y sean α > 0 y β > 0, constantes con valores dados.
Diremos que X tiene distribución beta, de parámetros α y β, lo que se denotará por X ∼ Beta(α, β),
si su función de densidad es:

Γ (α+β)
 Γ (α)Γ (β) xα−1 (1 − x)β−1 si 0 < x < 1


fX (x) = 

 0 en otro caso.
La figura siguiente muestra la gráfica de esta densidad para distintos valores de sus parámetros α
y β. Como se aprecia esta distribución es bastante flexible y puede tomar distintas formas, una de
las cuales es la distribución uniforme en el intervalo [0, 1] (si α = β = 1). Es importante también
aclarar que la función de densidad podrı́a tomar en consideración los valores 0 y 1, si α ≥ 1 y
β ≥ 1.
90 ÍNDICE GENERAL
8.0
7.5
7.0 α = 0.5, β = 2
6.5 α = 1, β = 2
6.0 α = 2, β = 1
5.5 α = 2, β = 0.5
5.0 α = 6, β = 2
4.5 α = 3, β = 9
fX(x)
4.0 α = 12, β = 12
3.5
3.0
2.5
2.0
1.5
1.0
0.5
0.0
0.00 0.25 0.50 0.75 1.00
x
Figura 2.4: Gráfico de la función de densidad de una distribución beta para diferentes valores de
sus parámetros α y β.
Observación: La propiedad 4. de la proposición 2.5 justifica el hecho de que la función anterior

sea efectivamente una función de densidad.
Origen. Dado que el rango de esta v.a. continua X es el intervalo [0, 1], esta es utilizada para
el modelamiento de tasas, ratios o proporciones. Es natural también su uso sobre cualquier v.a.
continua con rango acotado como los porcentajes, pues este rango puede transformarse de manera
lineal y directa al intervalo [0, 1]. El nombre de la distribución tiene sus origen en que en su
Γ (α+β)
densidad se utiliza la función especial beta, la cual está definida por B(α, β) = Γ (α)Γ (β) .
Proposición 2.17. Si X ∼ B(α, β) entonces
α
1. E(X) = α+β .
αβ
2. V (X) = (α+β)2 (α+β+1)
.
Demostración: Utilizando las propiedades 1. y 4. de la proposición 2.4, se tiene que para la primera
afirmación
1
Γ (α + β) 1 α
Z Z
Γ (α + β) α−1 β−1
E(X) = x x (1 − x) dx = x (1 − x)β−1 dx
0 Γ (α)Γ (β) Γ (α)Γ (β) 0
Γ (α + β) Γ (α + 1)Γ (β) Γ (α + β) αΓ (α)Γ (β) α
= = = .
Γ (α)Γ (β) Γ (α + β + 1) Γ (α)Γ (β) (α + β)Γ (α + β) α + β
2. De manera similar,
Γ (α + β) 1 α+1
Z
2 Γ (α + β) (α + 1)αΓ (α)Γ (β) α(α + 1)
E(X ) = x (1 − x)β−1 dx = =
Γ (α)Γ (β) 0 Γ (α)Γ (β) (α + β + 1)(α + β)Γ (α + β) (α + β)(α + β + 1)
y, por tanto,
α(α + 1) α2 αβ
V (X) = E(X 2 ) − E(X)2 = − = .
α + β(α + β + 1) (α + β)2 (α + β)2 (α + β + 1)
2.10. La distribución normal

Sea X v.a. continua y sean µ y σ > 0 constantes reales de valor conocido. Diremos que X tiene
distribución normal de media µ y varianza σ 2 , y la denotaremos por X ∼ N (µ, σ 2 ), si su función
de densidad viene dada por
1 − 1
(x−µ)2
fX (x) = √ e 2σ 2
2πσ
La Figura 2.5 ilustra la forma acampanada de la gráfica de la función densidad de X ∼ N (µ, σ 2 ).
Como se aprecia la curva es simétrica con respecto a su eje central ubicado en la media µ, mientras
que σ controla la dispersión de la distribución. Si µ se fija y σ 2 crece, la distribución se “aplana”;
en cambio si σ 2 disminuye, la distribución se “angosta”. Esto se debe a que σ 2 mide la dispersión
o variabilidad de X alrededor de la media µ y puede probarse fácilmente que los puntos µ ± σ
corresponden a los puntos de inflexión de la curva. Note también que esta es una distribución de
colas “ligeras”, es decir, la densidad cae rápidamente a 0. Aunque su rango teórico es toda la recta
real, se tiene que la probabilidad de que X tome valores en el intervalo [µ − 3σ , µ + 3σ ] es de 0.999.
µ = 5,σ2 = 4
0.2
Punto de inflexión
fX(x)
σ
0.1
0.0
−3 −2 −1 0 1 2 3 4 5 6 7 8 9 10 11 12 13
x
Figura 2.5: Gráfico de la función de densidad de una distribución normal con media µ = 5 y
varianza σ 2 = 4.
Origen. Este es, sin lugar a dudas, el modelo más usado de variable continua. Se presenta de
modo natural cuando se trabaja con la distribución de variables que son ellas mismas, sumas de
92 ÍNDICE GENERAL
un número muy grande de variables aleatorias, como es el caso de muchas variables económicas
que son “agregados”, como la demanda global.
Proposición 2.18. Si X ∼ N (µ, σ 2 ), entonces
1. E(X) = µ.
2. V (X) = σ 2 .
1 2 2
3. MX (t) = eµt+ 2 σ t
.
4. Dadas las constantes a y b, Y = a + bX ∼ N (a + bµ, b2 σ 2 ).
Demostración: Como es costumbre 1. y 2. se pueden probar a partir de la función generatriz de momentos

dada en 3., la cual pasamos a detallar en su cálculo. Completando cuadrados
Z∞ µ2
Z∞
tX tx 1 − 12 (x−µ)2 − 2 1 − 1 (x2 −2(µ+tσ 2 )x)
MX (t) = E(e ) = e √ e 2σ dx = e 2σ √ e 2σ 2 dx
−∞ 2πσ −∞ 2πσ
µ2
Z∞ µ2
− 2 12 (µ+tσ 2 ) 1 − 1 (x−(µ+tσ 2 ))2 − 1
(µ+tσ 2 ) 1 2 2
e 2σ e 2σ √ e 2σ 2 dx = e 2σ 2 e 2σ 2 = eµt+ 2 σ t ,
−∞ 2πσ
donde en la penúltima igualdad la integral es 1 pues estamos integrando la densidad de una v.a normal
con media µ + tσ 2 y varianza σ 2 .
4. Basta aplicar la técnica de cambio de variable en la distribución acumulativa de Y . Para ello supon-
gamos, sin pérdida de generalidad, que b > 0. Luego,
FY (y) = P (Y ≤ y) = P (a + bX ≤ y) = P (X ≤ (y − a)/b) = FX ((y − a)/b)
y
y−a 2 2 y−a−bµ 2 2 2 2
d (y − a) 1 e−( b −µ) /2σ 1 e−( b ) /2σ e−(y−a−bµ) /2(bσ )
fY (y) = FX ((y − a)/b)) = fX ( )× = √ × = √ = √
dy b b 2πσ b 2πbσ 2π (bσ )
que corresponde a una función de densidad normal de media µY = a + bµ y varianza σY2 = b2 σ 2 . El caso
en que b < 0 se resuelve de manera análoga.
Observación Si bien la función de densidad de X ∼ N (µ, σ 2 ) posee un gráfico atractivo, el cálculo

de las probabilidades o áreas bajo ella es intratable, pues no existen métodos analı́ticos para rea-
lizar la integración correspondiente. En tal sentido, lo que se hace es recurrir a una tabla especial,
donde estas áreas se encuentren ya calculadas (por métodos de cuadratura numéricos) o en caso
contrario uno debe de recurrir al uso de algún software estadı́stico como el que introduciremos en
la sección última de este capı́tulo. Si bien la curva de la densidad cambia según lo haga σ y este
parámetro pordrı́a tomar cualquier valor no negativo, la plausibilidad de esta práctica se ve justifi-
cada por el siguiente corolario, al que llamaremos el proceso de estandarización. Este es en verdad
un caso particular de la propiedad de linealización última, pero dada su importancia práctica lo
enmarcaremos en el siguiente resultado. En adelante llamaremos además a toda variable de dis-
tribución normal con media 0 y varianza 1, una variable normal estándar y la denotaremos por
Z ∼ N (0, 1).
X−µ
Corolario 2.1. SiX ∼ N (µ, σ 2 ) y definimos Z = σ , entonces Z ∼ N (0, 1).
Demostración: Basta considerar en la propiedad de linealización 4. de la proposición 2.18 a las constantes
µ
a = − σ 2 y b = σ12 .
Observación: La tabla de probabilidades acumuladas FZ de la distribución de la v.a. Z ∼ N (0, 1)

contiene las áreas acumuladas o probabilidades, para distintos valores de esta v.a. definidos hasta
el nivel de las centésimas. La lectura de las probabilidades de FZ (c) = P (Z ≤ c) es directa: basta
con “entrar” a la tabla con el valor c al nivel de las décimas en la lı́nea horizontal y al nivel de las
centésimas en la columna pertinente y ubicar la probabilidad acumulada en el cruce de ambas.
Para ilustrar el uso de la tabla Z, veamos el siguiente ejemplo.
Ejemplo 2.13. Si Z ∼ N (0, 1) hallar
a) P (Z ≤ 1.96).
b) P (Z > 1.96).
c) P (Z ≤ 1).
d) P (1 < Z ≤ 1.96).
e) c tal que P (Z ≤ c) = 0.8508.
Solución: Antes de obtener estas probabilidades, recordemos que Z es una v.a. continua y por tanto es
irrelevante que en las probabilidades pedidas se consideren o desigualdades estrictas o no.
a) P (Z ≤ 1.96) = 0.975
b)P (Z > 1.96) = 1 − P (Z ≤ 1.96) = 1 − 0.975 = 0.025
c) P (Z ≤ 1.00) = 0.8413
d) P (1 < Z ≤ 1.96) = P (Z ≤ 1.96) − P (Z ≤ 1) = 0.975 − 0.8313 = 0.1437
d) Por lectura “inversa” de la tabla, esto es entrando con la probabilidad acumulada y después de ubi-
cando ésta, yendo a los bordes, se tiene que: c = 1.04
El siguiente ejemplo ilustra el proceso de estandarización para el cálculo de probabilidades

con una distribución normal cualesquiera.
Ejemplo 2.14. Si X ∼ N (10, 9),
a) Calcular P (X ≤ 15).
b) Halle el valor c tal que P (X ≥ c) = 0.95.
Solución: Aquı́ tenemos que µ=10 y σ 2 =9, es decir, σ =3. Por tanto, estandarizando
15 − 10
P (X ≤ 15) = P (Z ≤ ) = P (Z ≤ 1.67) = 0.9525.
3
b) Si c es tal que P (X > c) = 0.95 equivalentemente se tiene que P (X ≤ c) = 0.05. Luego, P (X ≤ c) =
0.05 = P (Z ≤ c−10
3 ). Buscando en la tabla Z con 0.05 de probabilidad acumulada tenemos que 3
c−10
−1.645, de donde c 10 − 3 × 1.645 = 5.065.

94 ÍNDICE GENERAL
Ejemplo 2.15. En una región del paı́s, el ingreso familiar es una v.a.c. X con distribución normal de
parámetros µ=300 y σ 2 =1002
a) En la región solo el 2.5 % de las familias se considera de altos ingresos ¿Cuál ingreso X0 define a una
familia como de altos ingresos?
b) Si se considera que el costo de una Canasta Familiar mı́nima es 350 u.m. y el gobierno asegura
que con su plan de reactivación, en cinco años solo el 30 % de las familias estará en Pobreza: ¿Cuánto
dinero adicional tendrı́a que ganar cada familia para que lo anterior sucediera?
Solución: a) Por dato P (X ≥ X0 ) = 0.025 ⇔ P (X ≤ X0 ) = 0.975 ⇔ P (Z ≤ X0100 −300

) = 0.975 ası́ que
X0 −300
100 = 1.96 ⇒ X0 − 300 = 196 ⇒ X0 = 496
b) Sea Y el ingreso luego del plan de reactivación, entonces Y = X + c donde c es el dinero adicional
en el ingreso de cada familia. Si el % de pobreza es 30 %, entonces se cumplirı́a P (Y < 350) = 0.3 o
equivalentemente P (X + c < 350) = 0.3 ⇒ 0.3 = P (X < 350 − c) = P (Z < 350−c−300
100 ) y de la tabla Z
350−c−300 50−c
tenemos 100 = −0.525 ⇒ 100 = −0.525 ⇒ c = 102.5.
2.11. La distribución lognormal

Sea X una v.a. continua con rango estrictamente positiva y sean µ y σ 2 > 0 constantes reales
de valor conocido. Diremos que X tiene distribución lognormal de parámetros µ y σ 2 , si Y = ln X
tiene distribución normal N (µ, σ 2 ). Lo anterior se denota escribiendo X ∼ LogN (µ, σ 2 ).
Observación: El cálculo de probabilidades con esta distribución se hace a través de la distribución
normal. Más concretamente, si X ∼ LogN (µ, σ 2 ) y FX (x) = P (X ≤ x) es la distribución acumulativa
de X, entonces se cumple
ln x − µ
FX (x) = P (X ≤ x) = P (ln X ≤ ln x) = P (Y ≤ ln x) = P (Z ≤ ),
σ
donde Y ∼ N (µ, σ 2 ) y Z ∼ N (0, 1).
Proposición 2.19. Si X ∼ LogN (µ, σ 2 ), la función de densidad de X es

 2 2

 √1 e−(ln x−µ) /2σ si x > 0
fX (x) = 
 x 2πσ

 0 en otro caso.
Demostración: Como FX (x) = FY (ln x), se tiene que derivando con respecto a x
2 2
0 1 1 e−(ln x−µ) /2σ
fX (x) = FY (ln x) = fY (ln x) = √
x x 2πσ
Como se aprecia en la Figura (2.6), la función de densidad de esta distribución tiene una mar-
cada asimetrı́a positiva, con una cola bastante “pesada”, es decir, que la función de densidad se
acerca lentamente por la derecha a su ası́ntota horizontal 0. Ello hace que esta distribución sea
ut́il para el modelamiento de eventos extremos, es decir, en los cuales las probabilidades que que
ocurra un evento extremo (X sea muy grande) es no despreciable.
µ = 3,σ2 = 1.44
fX(x)
0 20 40 60 80 100
x
Figura 2.6: Gráfico de la función de densidad de una distribución lognormal con parámetros µ = 3
y σ 2 = 1.44.
Origen. Esta distribución aparece como una consecuencia del teorema del lı́mite central cuando
los efectos del azar no son aditivos sino multiplicativos. Sean W1 , W2 , · · · , Wn , · · · variables aleato-
rias positivas e independientes con medias finitas y varianzas positivas finitas. Sea T el producto
de estas variables, i.e. T = nj=1 Wj . Si el número n de factores es grande (n ≥ 30), entonces se cum-
Q
ple que T ∼ LogN (µ, σ 2 ), donde µ = nj=1 µj y σ 2 = nj=1 σj2 , siendo µj = E(lnWj ) y σj2 = V (ln(Wj )).
P P
Proposición 2.20. Si X ∼ LogN (µ, σ 2 ), entonces

1 2
1. a) E(X) = eµ+ 2 σ .
2 2
2. b) V (X) = e2µ+2σ − e2µ+σ .
t2 2
Demostración: Como Y = ln X ∼ N (µ, σ 2 ), entonces MY (t) = etµ+ 2 σ . Pero también sabemos que MY (t) =
t t2 2
E(etY ) y que E(et ln X ) = E(eln X ) = E(X t ). Es decir, E(X t ) = etµ+ 2 σ , ∀t. Evaluando en t = 1 obtenemos
1 2 2
µX = E(X) = eµ+ 2 σ y en t = 2 obtenemos E(X 2 ) = e2µ+2σ , de donde se obtienen directamente a) y b).
Note que µ , E(X) y σ 2 , V (X) para esta distribución.
Ejemplo 2.16. La cotización de una acción en la bolsa, después de cierto tiempo en el mercado de valores,
es una v.a. X con distribución lognormal de parámetros µ y σ 2 .
a) Si µ=5 y σ =1, ¿con qué probabilidad la cotización será menor que 190 u.m.?
b) Un inversionista espera que el tı́tulo se cotice a 1100 u.m. aunque sabe que con 94 % de probabilidad
el tı́tulo no pasará de 3200 u.m. ¿Cuáles son los parámetros de la distribución?
Solución: a) P (X < 190) = P (ln X < ln 190) = P (ln X < 5.25) = P (Z < 0.25) = 0.5987.
1 2
b) Como µX = E(X) = eµ+ 2 σ = 1100 se sigue que µ + 12 σ 2 = 7 . . . (I). Por otro lado, de P (X < 3200) =
8.1−µ
P (ln X < 8.1) = P (Z < σ ) = 0.94 se sigue que
8.1 − µ
= 1.55. (II)
σ
96 ÍNDICE GENERAL
Resolviendo (I) y (II) se obtienen µ y σ 2 : De (I) µ+ 21 σ 2 = 7 ⇒ µ = 7− 12 σ 2 . Reemplazando esto en (II) nos

√
genera la ecuación cuadrática σ 2 − 3.1σ + 2.2 = 0 que tiene como soluciones a σ = 3.1± 9.61−4×2.2
2 =σ =
3.1±0.9
2 . Por tanto, tenemos respectivamente las siguientes posibles dos soluciones para los parámetros de
la distribución: σ = 1.1(2) y µ = 6.5(5).
Ejemplo 2.17. El ingreso familiar X (medido en cientos de unidades monetarias) en una región es una
v.a.c. con distribución lognormal de parámetros µ = 3 y σ 2 = 1.
a) Si se considera que el costo de una canasta familiar mı́nima es 33.2 cientos de u.m. ¿En esta región
con qué probabilidad una familia estará en condición de pobreza?
b) Si se considera que el costo de una canasta familiar mı́nima es 33.2 cientos de u.m. y el gobierno
asegura que con su plan de lucha contra la pobreza, en cinco años solo el 30 % de las familias estará en
Pobreza. ¿Cuánto dinero adicional tendrı́a que ganar cada familia para que la afirmación del gobierno
se realizara?
Solución: a) “En condición de pobreza” equivale a “Ingreso no cubre el costo de la canasta familiar”
(lnX−3)

o a que X < 33.2 y se pide P (X < 33.2) = P (lnX < ln33.2) = P (lnX < 3.5) = P 1 < 3.5−3
1 =
P (Z < 0.5) = 0.6915; es decir un 69.15 % de la población de esta región está en pobreza.
b) Sea Y = X + c el ingreso luego del plan del gobierno, donde c es el ingreso adicional. En cinco años, c
será tal que:
P (Y < 33.2) = 0.3 ⇐⇒ 0.3 = P (X + c < 33.2) = P (X < (33.2 − c)) = P (lnX < ln (33.2 − c) =
!
(ln (33.2 − c)) − 3 (ln (33.2 − c)) − 3
=P Z < = 0.3 ⇒ = −0.525 ⇒ ln (33.2 − c) = 2.475
1 1
Luego, (33.2 − c) = e2.475 = 11.88 y c = 33.2 − 11.88 = 21.32 cientos de unidades monetarias.
2.12. Ejercicios
1. Un inspector municipal con ayuda de la policı́a ha iniciado en cierto punto de la capital un
operativo para parar todo auto sospechoso nuevo y multarlo en caso de no haber pagado el
impuesto SAT. El operativo ha de culminar y moverse a otro punto de la capital apenas se
coloque una tercera multa. Si la probabilidad de que un auto que se detenga no halla pagado el
SAT es de 0.8, ¿cuál es la probabilidad de que se hallan detenido más de 5 autos en el operativo?
2. En una empresa el número X de trabajadores estables, es una v.a con distribución de Poisson X ∼
P (20); por otra parte la empresa contrata una cantidad Y de trabajadores temporales, siendo
Y ∼ P (50) e Y se asume que es independiente de X.
a) Halle el rango y la función de probabilidad del número total T de trabajadores de la empresa.

b) Si se supiera que esta empresa cuenta con 68 trabajadores ¿cuál es la probabilidad de que
solamente 15 de ellos sean estables?
3. La fabricación de un bien requiere de dos etapas independientes entre sı́. Se asume que el tiem-
po de fabricación requerido en la primera etapa medido en minutos tiene distribución normal
con media 5 y desviación estándar 0.5 y que el tiempo de fabricación requerido en la segunda
etapa medido en minutos tiene distribución normal con media 4 y desviación estándar 0.4. Si
cada minuto de fabricación en la primera etapa por bien cuesta 10 soles, cada minuto de la
segunda etapa por bien cuesta 15 soles y además los materiales usados cuestan 100 soles por
bien
a) ) Calcule la probabilidad que el tiempo de fabricación de un bien para la primera etapa haya
sido menor al de la segunda etapa.
b) Calcule la probabilidad que el costo total (tiempo de fabricación y materiales usados para
un bien) sea menor a 200 soles.
c) Si el bien se vende en lotes de 6 unidades. Calcule la probabilidad que más de 4 de los bienes
que conforman un lote hayan tenido un costo superior a los 200 soles.
4. El tiempo que se demora en llegar el pedido de servicio por delivery de un restaurante se asume
que tiene distribución Normal con media 40 minutos y desviación estándar de σ minutos. El
servicio de delivery es por un solo combo, el cual tiene un valor de 100 soles; pero el restaurante
ofrece cobrar al cliente la mitad de ese precio si el pedido se demora más de una hora.
a) Si la probabilidad de que un servicio de delivery se demore menos de media hora es 0.209,

muestre que el valor de σ deberı́a ser igual a σ = 12.34568.
b) ¿Con qué probabilidad se pagará solo 50 soles por un pedido de delivery?
c) ¿Cuál es el pago que se esperará realice un cliente por el servicio de delivery?
d) Si en un dia se hicieron 30 pedidos ¿con qué probabilidad se esperará recabar ese dia más
de 2850 soles?
5. Un parque nacional abre a las 10 am. Suponga que los visitantes que buscan ir a una de las
atracciones del parque llegan a la cola de un bus pequeño que los transportará a ese lugar, a
través de un proceso de Poisson a razón de 3 visitantes cada 5 minutos. Estos buses parten cada
20 minutos o apenas se llenen, siendo su capacidad de 10 pasajeros.
a) ¿Cuál es la probabilidad de que el primero de estos buses parta sin haber ocupado todos sus
asientos?
b) Suponga que dependiendo de que si el bus se llene o no, este podrı́a tomar solo una de dos
rutas A o B. La ruta A es más directa y el bus la toma con probabilidad 0.9 en caso esté lleno.
La ruta B, por otro lado es más larga, pues pasa por un paradero intermedio que recoge carga
o pasajeros, y el bus la toma con probabilidad 0.7 en caso no se hayan ocupado inicialmente
todos sus asientos. Si un pasajero llegó a la atracción destino del parque por la ruta B, ¿con
qué probabilidad el bus que el tomó se encontraba lleno al momento de partir?
c) ¿Con qué probabilidad 7 de los 10 buses que transportaron pasajeros durante un dı́a, utili-
zaron la ruta A?
98 ÍNDICE GENERAL
6. Un modelo asume que el ingreso mensual de los clientes de un banco, en miles de soles, es una
v.a. continua X con distribución lognormal de parámetros µ = 2 y σ 2 = 1. Estos clientes, depen-
diendo si sus ingresos son menores a 3000 soles, estan entre 3000 y 5000 soles o son superiores
a los 5000 soles son clasificados por el banco en tres grupos C, B y A; respectivamente.
a) ¿Cuál es el ingreso medio de un cliente en el banco?

b) ¿Con qué probabilidad un cliente tendrá ingresos superiores a los 3,000 soles?
c) Si le asignan al azar 10 clientes ¿con qué probabilidad la mayorı́a de ellos serán del grupo
C?
d) Suponga que darán un bono de S/. 500 por manejar la cartera de un cliente del grupo A y
un bono de S/. 100 por manejar la cartera de un cliente del grupo B. Si le asignan al azar a 10
clientes del banco ¿cuál serı́a el valor esperado y la desviación estándar del monto por bonos
que percibirı́a por manejar la cartera de estos 10 clientes?
7. Se inspecciona 14 metros de alambre de un rollo, si no se encuentra ninguna falla se acepta el

rollo, si se encuentran 3 o más fallas se rechaza, en cualquier otro caso se inspeccionan 12 metros
adicionales. Si el número total de fallas (en ambas inspecciones) es mayor a 3 se rechaza el rollo.
Finalmente si se rechaza un rollo, se inspecciona al 100 % y el fabricante debe pagar los costos
de inspección. Si el número de fallas del alambre de cobre está descrito por una distribución de
Poisson con media de 0.05 fallas por metro y el costo por metro de inspección es de un sol:
a) Halle la probabilidad de rechazar un rollo.

b) ¿ Cuánto esperará gastar por inspección la empresa ?
c) ¿ Cuánto esperará gastar por inspección el fabricante ?
8. Una obra requiere de una maquinaria especial, la cual se debe rentar a un costo de 50 u.m. por
mes o fracción de mes bajo un contrato que especifica un número fijo de meses de contrato .
Este contrato; sin embargo, posee una cláusula que especifica que si el periodo de obra excede
al número de meses de contrato , los contratistas podrı́an aún contar con la maquinaria pero
por un alquiler de 70 u.m. por mes o fracción de mes adicional que se rente. Si la función de
probabilidad del número de meses que al contratista le toma terminar una obra de similares
caracterı́sticas es
x
C 5x!
(
si x = 1, 2, 3, 4, 5
fX (x) =
0 en otro caso.
a) Halle el valor de C.
b) Halle el número esperado de meses en que se espera se culmine la obra.
c) Halle el costo esperado en alquiler, si el contrato estipula K = 2 meses.
d) Halle el valor óptimo de K en el sentido de que este minimice el costo total esperado de
alquiler de la maquinaria.
Capı́tulo 3
Vector aleatorio
El estudio de procesos complejos suele involucrar más de una variable y entonces las herra-
mientas estadı́sticas hasta aquı́ desarrolladas resultan insuficientes. Por ejemplo, si tenemos precio
y demanda de un bien, que por razones fortuitas o de azar, se alejan de sus valores teóricos o de
equilibrio y se convierten en variables aleatorias, digamos X e Y , con valores esperados µX y µY
y desviaciones estándar σX y σY respectivamente, podemos pronosticar que lo más probable es
un precio entre µX -σX y µX +σX , y una demanda entre µY -σY y µY +σY , pero no podremos pro-
nosticar con qué probabilidad habrá un exceso de demanda ni dar forma analı́tica a la conocida
relación teórica (inversa) entre precio X y demanda Y , ni usar ésta para afinar nuestros pronósti-
cos. El problema ocurre por no tener un sistema de análisis conjunto de variables aleatorias. En
este capı́tulo desarrollaremos ese sistema y para ello, consideraremos el análisis simultáneo de va-
riables aleatorias definidas sobre un mismo espacio muestral de modo que conformen un vector
cuyas componentes son variables aleatorias o sea un vector aleatorio. Para simplificar, empezare-
mos con el caso bidimensional y luego generalizaremos al caso n dimensional.
3.1. Definición y clasificación

Definición 3.1 (Vector aleatorio bidimensional). Un vector aleatorio (X, Y ) es un vector cuyas com-
ponentes son variables aleatorias X e Y definidas conjuntamente sobre el mismo espacio muestral Ω. El
conjunto de posibles parejas (X, Y ) se denotará por RXY y se le llama el rango del vector (X, Y ).
Todo vector aleatorio (X, Y ) se podrá clasificar como:
Discreto: si sus componentes son variables aleatorias discretas.
Continuo: si sus componentes son variables aleatorias continuas.
Observación: Hay también vectores aleatorios (X, Y ) ”mixtos”, con una componente discreta y la
otra continua o incluso aquellos en que alguna o ambas de las v.a.’s componentes son mixtas. Estas
no serán directamente tratadas aquı́, pero su extensión es inmediata en base a los desarrollos que
aquı́ presentamos.
99
100 ÍNDICE GENERAL
La noción de vector aleatorio se puede extender a más de dos dimensiones. Un vector alea-
torio fila k-dimensional X = (X1 , X2 , ..., Xk ) es un vector cuyas componentes son variables alea-
torias definidas conjuntamente. Análogamente podemos hablar de un vector aleatorio columna
k-dimensional X = [X1 , X2 , ..., Xk ]> . Filas o columnas, los vectores se clasifican como continuos,
discretos o mixtos. Cuando k > 2 será más conveniente tratar a estos como vectores columna.
Ejemplo 3.1. Una empresa hace sucesivas perforaciones en busca de pozos petroleros y la probabilidad
de tener éxito en una perforación cualquiera es p> 0. El espacio muestral Ω lo podemos representar como
un conjunto de sucesiones {a1 , a2 , a3 ,· · ·}, donde ai =1 si en la perforación i-ésima se encuentra petróleo
o ai =0 si en la perforación i-ésima no se encuentra petróleo. En este contexto definamos las variables
aleatorias X=Número de la perforación donde se encuentra petróleo por primera vez e Y =Número de la
perforación donde se encuentra petróleo por segunda vez. Ası́, el vector aleatorio (X, Y ) es discreto donde
X puede tomar los valores 1, 2, 3, . . . e Y puede tomar los valores 2, 3, 4, . . .. Note además que se debe de
cumplir que X<Y . Se tiene entonces que RXY = {(x, y) / x = 1, 2, 3, . . . ; y = x + 1, x + 2, x + 3, . . .}.
Ejemplo 3.2. Suponga que el 40 % de la producción de una empresa se exporta a Europa, el 50 %

al Asia y el 10 % se vende en el mercado nacional. Si Ud. toma una muestra al azar de 5 productos
recién terminados y se definen las v.a.’s X =número de productos exportados a Europa e Y =número de
productos exportados a Asia, entonces (X, Y ) es un vector aleatorio discreto con rango
RXY ={(x, y) / x= 0, 1, 2,· · ·, 5; y= 0, 1, 2,· · ·, 5; x+y≤5 }.
Ejemplo 3.3. El gobierno convoca a un concurso para la construcción de un puente y se presentan dos
compañı́as A y B que ofrecen costos de a y b millones de unidades monetarias respectivamente, donde
a y b pueden tomar indistintamente cualquier valor entre 0 y 1. El espacio muestral Ω lo podemos
representar como el conjunto de todas las ofertas posibles, esto es Ω={(a, b) / 0 <a< 1; 0 <b< 1 }. Sean
las variables aleatorias X = Precio ganador e Y = Diferencia entre las ofertas presentadas. En este caso
(X, Y ) es un vector aleatorio continuo con rango RXY ={(x, y) / x=Mı́n{a, b}; y= |a−b|; (a, b)∈Ω }.
Ejemplo 3.4. Una consultora recibe proyectos cuyo costo de ejecución c puede tomar cualquier valor
en ]0,1[ y fija un precio de consultorı́a p>c para el proyecto, donde p puede tomar cualquier valor en
]c,1[. Sean las v.a.’s X = Costo de ejecución e Y = Precio de la consultorı́a. Entonces (X, Y ) es un vector
aleatorio continuo con rango RXY = {(x, y) / 0 < x < 1; x < y < 1}.
Ejemplo 3.5. Una acción puede subir o bajar su cotización en una rueda de bolsa. Si sube su cotización,
la subida puede ser de 100r %, donde 0 < r < 21 . Si baja, ésta puede ser de 100r %, donde 0 < r < 43 . La
probabilidad de que suba la cotización es p. Si el valor de la acción al inicio de la rueda de bolsa es 1 y
1 si hay subida
definimos las v.a. X={ . e Y = Valor de la acción al final de la rueda, entonces (X, Y ) es
0 si hay baja
vector aleatorio mixto con rango RXY = {(x, y) / x = 0, 1; y ∈]0.25, 1.5[}.
Ejemplo 3.6. El número X de trabajadores contratados en una empresa es aleatorio con distribución
geométrica X ∼ G(p) y el tiempo Ti que el trabajador contratado i permanece en la empresa también
es aleatorio con distribución exponencial Ti ∼ Exp(β). Si definimos la variable aleatoria Y = Tiempo de
permanencia del trabajador contratado más antiguo. Entonces (X, Y ) es un vector aleatorio mixto con
rango RXY = {(x, y) / x = 1, 2, 3, . . . ; y ∈]0, ∞[}.
Observación: En algunos de los ejemplos hemos definido explı́citamente el espacio muestral para
resaltar que la definición de las componentes del vector aleatorio debe ser conjunta, es decir X e Y
se miden o registran simultáneamente, sobre los mismos casos. Esto es ası́ para tener información
que luego permita hacer pronósticos de una de las componentes dando valores a la otra, esto es,
pretendemos “explicar” el comportamiento de una de las componentes a partir de la otra.
3.2. Distribuciones de probabilidad para un vector aleatorio discreto

En esta sección, desarrollaremos el cálculo de probabilidades con un vector aleatorio discreto
(X, Y ), el caso continuo es similar, pero requiere de la noción de integración doble, tema del que
trataremos en la siguiente subsección.
Definición 3.2 (Función de probabilidad conjunta). Si (X, Y ) es un vector aleatorio discreto, la fun-
ción de probabilidad conjunta de (X, Y ), denotada por PXY (x, y), se define por:
PXY (x, y) = P (X = x, Y = y) = P ({ω ∈ Ω / X(ω) = x e Y (ω) = y}).

PXY (x, y) proporciona la probabilidad de que ocurra la pareja (x, y), o sea la probabilidad de
que simultáneamente la v.a. X tome el valor particular x y la v.a. Y tome el valor particular y.
Naturalmente si (x, y)<RXY , entonces PXY (x, y) = 0.
Proposición 3.1. 1. PXY (x, y) ≥ 0.
P
2. (x,y) PXY (x, y) = 1.
P
3. P ((X, Y ) ∈ A) = (x,y)∈A PXY (x, y).
La verificación de estas propiedades es consecuencia directa del hecho que PXY (x, y) es una
función que distribuye probabilidades sobre el rango RXY del vector aleatorio (X, Y ).
Observación: Las sumatorias que figuran en las propiedades 2. y 3. son “sumatorias dobles”, bajo
dos subı́ndices x e y que debemos manejar, y aunque podemos sumar de manera libre, es mejor
P P P
hacerlo ordenadamente, esto es (x,y) PXY (x, y) = x y PXY (x, y) , donde primero se suma sobre y
dentro del paréntesis en que x es fija y luego se suma sobre x con lo que obtendremos un número.
Como la suma no depende del orden de los sumandos, tenemos también que
   
X X X  X X 
PXY (x, y) = PXY (x, y) = PXY (x, y) .
  
 
 
(x,y) x y y x
Ejemplo 3.7. Sea (X, Y ) el vector aleatorio discreto de la empresa petrolera en el ejemplo 3.1, donde X
= Número de la perforación donde se encuentra petróleo por primera vez e Y =Número de la perforación
donde se encuentra petróleo por segunda vez. Hallar la función de probabilidad conjunta PXY (x, y) de
(X, Y ) y la probabilidad de que X e Y resulten números consecutivos.
Solución: Ya vimos que RXY = {(x, y) / x = 1, 2, 3, . . . ; y = x + 1, x + 2, . . .}. Tomemos una pareja especı́fica
(x, y) en RXY . En este contexto sea el evento Ai =“En la perforación número i se encuentra petróleo”,
entonces se cumple la equivalencia
(X = x, Y = y) = AC C C C C C
1 ∩A2 ∩· · ·∩Ax−1 ∩Ax ∩Ax+1 ∩Ax+2 ∩· · ·∩Ay−1 ∩Ay =A∩B,
donde A=AC C C
1 ∩A2 ∩· · ·∩Ax−1 ∩Ax = “En las primeras x−1 perforaciones no se encuentra petróleo y en la
x−ésima sı́” y B=AC C C
x+1 ∩Ax+2 ∩· · ·∩Ay−1 ∩Ay = “Entre las perforaciones x+1 hasta la y −1 no se encuentra
petróleo y en la y−ésima sı́”. Por dato P (Ai ) =p, luego P (AC
i ) = 1−p y
P (X = x, Y = y) = P (AC C C C C C
1 ∩A2 ∩· · ·∩Ax−1 ∩Ax ∩Ax+1 ∩Ax+2 ∩· · ·∩Ay−1 ∩Ay ) = P (A∩B)
(x−1) veces (y−x−1) veces

z }| { z }| {
= P (A)P (B | A) = (1−p)(1−p)· · ·(1−p) p× (1−p)(1−p)· · ·(1−p) p=p2 (1−p)y−2 .
Si estamos fuera del rango, naturalmente PXY (x, y) = 0. Resumiendo
p2 (1−p)y−2 si x= 1, 2, 3,· · ·, y = x + 1, x + 2, . . .
(
PXY (x, y) =
0 en caso contrario.
Finalmente, sea el evento D = “X e Y resultan números consecutivos”. Entonces: D = {(x, y) ∈
RXY / x = 1, 2, 3, . . . ; y = x + 1} y se cumple que
∞ ∞ ∞ ∞
X X
2 (x+1)−2
X
2 x−1 p2 X p2 (1−p)
P (D) = PXY (x, x + 1)= p (1−p) = p (1−p) = (1−p)x = =p.
1−p 1 − p 1 − (1−p)
x=1 x=1 x=1 x=1
Observación: En el ejemplo anterior hemos podido escribir fórmulas explı́citas para PXY (x, y) y
P (D). Estas fórmulas explı́citas (“cerradas”, es su nombre técnico) son más bien la excepción y no
la regla. Muchas veces no queda sino hacer una tabla, y en casos extremos, usar la computadora
para los cálculos.
Ejemplo 3.8. Sea (X, Y ) un vector aleatorio discreto, donde X = Número créditos concedidos en una
agencia bancaria durante un dı́a e Y = Número de créditos impagos dentro de los concedidos, con función
de probabilidad conjunta PXY (x, y) dada por
PXY (x, y) =cx , si x= 1, 2, 3, 4 e y= 0, 1, 2, ...,x.
Hallar la constante c que hace a PXY (x, y) una función de probabilidad (“constante normalizadora”) y la
probabilidad de que todos los créditos sean pagados.
P P
Solución: Basta usar el hecho que x y PXY (x, y)= 1. Para este ejemplo, es más sencillo escribir PXY (x, y)
en formato de una tabla de doble entrada y sumar:
PXY (x, y) x
y 1 2 3 4
0 c 2c 3c 4c
1 c 2c 3c 4c
2 0 2c 3c 4c
3 0 0 3c 4c
4 0 0 0 4c
P P x
Ası́, x y PXY (x, y)= 40c= 1 implica que c= 1/40 y PXY (x, y) = 40 , si x= 1, 2, 3, 4; y= 0, 1, 2, ...,x.
Finalmente si A denota al evento A =“Todos los créditos son pagados”, entonces A=(Y = 0) =
{(x, 0) / (x, y) ∈ RXY } y P (A) = 4x=1 PXY (x, 0) =c+2c+3c+4c= 10c= 10/40 = 0.25.
P
Ejemplo 3.9. En el ejemplo anterior, ¿cuál es la probabilidad de que se hayan concedido 3 créditos? ¿De
que se hayan concedido 3 créditos si se sabe que hubo 2 créditos impagos?
Solución: Dado que el evento “Se han concedido 3 créditos” equivale a que X= 3, se tiene que
P (X = 3) = P ((X= 3)∩(Y = 0))+P ((X= 3)∩(Y = 1))+P ((X= 3)∩(Y = 2))+P ((X= 3)∩(Y = 3))
=PXY (3, 0)+PXY (3, 1)+PXY (3, 2)+PXY (3, 3)= 3c+3c+3c+3c= 12c = 12/40 = 0.3.
Análogamente la probabilidad condicional pedida viene dada por
P ((X= 3)∩(Y = 2)) PXY (3, 2) 3c 3c
P (X= 3|Y = 2) = = = = = 0.33,
P (Y = 2) P (Y = 2) P (Y = 2) 9c
pues
P (Y = 2) =P ((X= 2)∩(Y = 2))+P ((X= 3)∩(Y = 2))+P ((X= 4)∩(Y =2))
=PXY (2, 2)+PXY (3, 2)+PXY (4, 2) = 2c+3c+4c= 9c.
Definición 3.3 (Función de probabilidad marginal). Sea (X, Y ) un vector aleatorio discreto con fun-
ción de probabilidad conjunta PXY (x, y), se define la función de probabilidad marginal de X, denotada
por PX (x), mediante: X
PX (x) = PXY (x, y).
y
Análogamente, la función de probabilidad marginal de Y , que se denota por PY (y), se define mediante:
X
PY (y) = PXY (x, y).
x
Observación: Si deseamos hallar la probabilidad de que la componente X del vector aleatorio

(X, Y ) tome el valor particular x, al margen del valor que tome la otra v.a. componente Y , po-
P P
demos escribir P (X=x)=P ((X=x)∩(Y ∈R))= y P ((X=x)∩(Y =y))= y PXY (x, y)=PX (x). Similarmente
P
se comprueba que PY (y) =P (Y =y) = x PXY (x, y). Es decir, las distribuciones marginales proporcio-
nan las distribuciones individuales de X y de Y , que son las mismas que obtendrı́amos si definimos
estas v.a.’s por separado. Lo anterior muestra que no perdemos ninguna información si trabajamos
desde el inicio con la distribución conjunta. Es más, en realidad con esta entrada ganamos infor-
mación, como lo demuestran las definiciones dadas en el siguiente parágrafo.
Definición 3.4 (Función de probabilidad condicional). En el contexto anterior, se define la función

de probabilidad condicional de Y dado que X=x, denotada por PY |X (y | x), mediante:
PXY (x, y)
PY |X (y | x) = ,
PX (x)
donde x es una valor dado tal que PX (x) > 0.
Análogamente se define la función de probabilidad condicional de X dado que Y =y, denotada por
PY |X (y | x), mediante:
P (x, y)
PX|Y (x | y) = XY ,
PY (y)
donde y es un valor dado tal que PY (y) > 0.
Observación: Note que la definición anterior se trata en realidad de una aplicación directa de
P ((X=x)∩(Y =y)) PXY (x,y)
la definición de probabilidad condicional:P (Y =y|X=x) = P (X=x)
= P (x) =PY |X (y|x). Similar-
X
mente se obtiene e interpreta PX|Y (x|y) =P (X=x|Y =y).
¿Cuál es la utilidad de las distribuciones condicionales? Pues inmensa, ya que pone al analista
en posición de hacer pronósticos de una de las componentes del vector aleatorio (X, Y ), dando
valores a la otra componente. En Economı́a rara vez se estudia una variable aislada; al contrario,
se trata siempre de asociarla a otra u otras que permitan hacer pronósticos confiables y tomar
decisiones. Los modelos económicos en el fondo son formulaciones que muestran cómo una o
unas variables económicas responden a otras que podemos usar como base para polı́ticas. Las
distribuciones condicionales están en la base de los modelos económicos cuando en éstos hay
variables aleatorias.
Ejemplo 3.10. En el ejemplo 3.7 de la empresa petrolera, hallar PY (y) y PX|Y (x|y). En promedio, ¿ cómo
varı́a X según va cambiando Y ?
Solución: Para hallar PY (y), fijemos un valor y para aplicar la definición, recordando que fijado el valor
y, entonces X solo puede tomar valores desde 1 hasta (y−1). Ası́:
X y−1
X
PY (y) = PXY (x, y) = p2 (1 − p)y−2 = (y − 1)p2 (1 − p)y−2 , si y = 2, 3, . . .
x x=1
Ahora vayamos por PX|Y (x|y):
PXY (x, y) p2 1 − p)y−2 1

PX|Y (x|y) = = 2 y−2
= , si x = 1, 2, . . . , y − 1.
PY (y) (y − 1)p (1 − p ) y − 1
Examinando PX|Y (x|y), podemos concluir que dado un valor Y =y, la componente X puede tomar cual-
quier valor entre 1 e (y-1) con la misma probabilidad, pero conforme aumentamos el valor y, el rango
de posibilidades para X aumenta. Podemos representar esta tendencia usando la media de X en esta
distribución condicional:
(y−1) (y−1) (y−1)

X X 1 1 X 1 (y−1)(y) y
xPX|Y (x|y) = x = x= = .
(y−1) (y−1) (y−1) 2 2
x=1 x=1 x=1
Como pensamos, la media de X aumenta conforme aumenta y. Para resaltar que no es la media o valor
esperado individual de X sino el valor esperado condicionado a Y=y, usaremos la notación E(X|Y =y)
y
y ası́ escribiremos E(X|Y =y)= 2 para mostrar cómo en promedio la componente X del vector aumenta
conforme aumenta la componente Y. Mas adelante profundizaremos en este concepto, conocido como de
esperanza condicional.
Ejemplo 3.11. En el ejemplo de los créditos 3.8, hallar PX (x) y PY |X (y|4). Interprete la última función.
Solución: Sumando las filas y columnas del cuadro correspondiente a la función de probabilidad conjunta
obtendremos:
PXY (x, y) x
y 1 2 3 4 PY (y)
0 1/40 2/40 3/40 4/40 10/40
1 1/40 2/40 3/40 4/40 10/40
2 2/40 3/40 4/40 9/40
3 3/40 4/40 7/40
4 4/40 4/40
PX (x) 2/40 6/40 12/40 20/40 1
Las funcion de probabilidad marginal de X se encuentran en la última fila de la tabla anterior y viene
dada por:
x 1 2 3 4
PX (x) 1/20 3/20 6/20 10/20
De otro lado, la función de probabilidad marginal de Y se encuentra en la última columna de la tabla

anterior y viene dada por:
y 0 1 2 3 4
PY (y) 10/40 10/40 9/40 7/40 4/40
Finalmente, cuando X= 4 tenemos que
PXY (4,y) 4/40

PY |X (y | 4) = = = 0.20, para y= 0, 1, 2, 3, 4.
PX (4) 20/40
Esto significa que si la agencia bancaria concedió 4 créditos en un dı́a, se tendrá una probabilidad cons-
tante de que ninguno quede impago, solo uno quede impago, dos queden impagos, tres queden impagos
o los 4 impagos.
3.3. Distribuciones de densidad para un vector aleatorio continuo

3.3.1. Integrales dobles
A diferencia del caso discreto, el cálculo de probabilidades con un vector aleatorio continuo
(X, Y ) es más complejo, pues requiere como herramienta de un modelo matemático conocido como
la función de densidad conjunta. Más concretamente, de manera similar a que la probabilidad de
que una v.a. continua X se encuentre en un conjunto A ⊆ R se hallaba como el área bajo su función
de densidad fX sobre A, en el caso de un vector aleatorio continuo (X, Y ), la probabilidad de que
este vector se encuentre en una región A del plano se calculará como el volúmen bajo su función de
densidad conjunta sobre A. Matemáticamente, el cálculo de este volúmen, requiere del concepto
de integración doble, tema que trataremos en esta subsección. El lector familiarizado con este
concepto puede omitir esta parte.
Recordemos que si una función fXY (x, y) es continua en una región del plano dada por A =
{(x, y) ∈ R2 / a ≤ x ≤ b ; c ≤ y ≤ d}, entonces la integral doble de esta función sobre este rectángulo
RR
A, que lo denotaremos por A fXY (x, y)dxdy, se calcula como una integral iterada, primero sobre
y luego sobre x, o también en el orden inverso (Teorema de Fubini). Esto es:
ZZ Z b Z d ! Z d Z b !
fXY (x, y)dxdy= fXY (x, y)dy dx= fXY (x, y)dx dy.
A a c c a
LLendo más alla, si A ⊆ R2 es expresable como una región de fronteras definidas en términos de
funciones, como A = {(x, y) ∈ R2 / a ≤ x ≤ b ; h1 (x) ≤ y ≤ h2 (x)}, entonces:
ZZ Z b Z h2 (x)

 
fXY (x, y)dxdy= 
 fXY (x, y)dy dx.
A a h1 (x)
Análogamente si A posee la forma A = {(x, y) ∈ R2 / g1 (y) ≤ x ≤ g2 (y); c ≤ y ≤ d}, entonces

ZZ Z d Z g2 (y)

 
fXY (x, y)dxdy= 
 fXY (x, y)dxdy.
A c g1 (y)
RR
Geométricamente, si fXY es una función que toma valores no negativos A fXY (x, y)dxdy co-
rresponde al volumen debajo de la gráfica de la superficie z=fXY (x, y) sobre la región A⊆R2 .
En caso que la región de integración A no pueda expresarse como antes, esta puede descom-
ponerse casi siempre en subregiones disjuntas que si tengan las formas anteriores y por tanto la
integral doble sobre esta región se calcula como la suma de las integrales dobles sobre tales su-
bregiones. Sea este o no el caso es fundamental siempre, para el cálculo de la integral, graficar
la región de integración A. Ello nos servirá para dilucidar si es mejor integrar primero con res-
pecto a x o a y, lo cual también dependerá de la complejidad del integrando fXY . Lo que uno
siempre busca es simplificar el cálculo, el cual puede también plantearse mediante diferenciales.
Por ejemplo, si resultara conveniente integrar primero con respecto a x, uno considerará a y como
una constante y fijará el diferencial de x, dx, entre dos lı́mites que dependan de y, evaluará esta
integral en estos lı́mites y luego desarrollará la integral resultante con respecto al diferencial de
y, dy, con unos lı́mites tales que la recta definida por el diferencial anterior cubra al desplazarse
verticalmente toda la región A. Lo opuesto se realizará si la integración es primero sobre y. Como
ejemplo veamos el siguiente cálculo.
Ejemplo 3.12. Obtenga la integral doble de la función f (x, y) = 10 + x2 + 2xy 3 sobre la región A =
{(x, y) ∈ [0, 1] × [0, 2] / y ≤ 2 − x}.
Solución: Dado que la función dada es no negativa sobre A, la integral pedida corresponde al volúmen
bajo la gráfica de esta función sobre esta región. La gráfica de f genera una superficie, la cual es retratada
en la parte superior de la figura 3.1. La figura 3.2, de otro lado, muestra la región de integración A, la
cual vemos que es un trapecio.
Es claro, por la forma de la región de integración, que resulta aquı́ más conveniente integrar primero
con respecto a y y luego con respecto a x. De esta manera, si llamamos I a la integral buscada se tiene
que
Z 1 Z 2−x Z1
xy 4 2−x
! !
2 3 2
I= (10 + x + 2xy )dy dx = (10y + x y + ) dx
0 0 0 2 0
50
40
30
z
20
10
0
0.0 2.0
0.5 1.5
1.0 1.0
x y
1.5 0.5
2.0 0.0
Figura 3.1: Superficie asociada a la gráfica de f del ejemplo 3.12
1 A
y
0
0
Figura 3.2: Región de integración A para la función f del ejemplo 3.12

1 1
x(2 − x)4
Z Z
2 1
= (10(2 − x) + x (2 − x) + )dx = (x5 − 8x4 + 22x3 − 28x2 − 4x + 40)dx
0 2 2 0
1 x6 x5 x4 x3 x2 1 491
= ( − 8 + 22 − 28 − 4 + 40x) = .
2 6 5 4 3 2 0 30
Note que alguien podrı́a haber también optado por integrar primero con respecto a x y luego a y, lo cual
no es incorrecto pero si más trabajoso, ya que requerirı́a particionar el conjunto A en dos subconjuntos
disjuntos A1 (definido por el cuadrado base del trapecio) y A2 (definido por el triángulo superior del
trapecio) y calcular I como I = I1 + I2 , siendo I1 la integral doble de f sobre la subregión A1 e I2 la
integral doble de f sobre la región A2 . El cálculo de estas integrales vienen dadas por
Z1 Z1 Z1
x3
! 1 !
2 3 2 3
I1 = 10 + x + 2xy dx dy = (10x + + x y ) dy
0 0 0 3 0
Z1
31 3 31 y 4 1 127
= ( + y )dy = ( y + ) = .
0 3 3 4 0 12
y
Z 2 Z 2−y Z2
x3
! 2−y !
2 3 2 3
I2 = (10 + x + 2xy )dx dy = (10x + + x y ) dy
1 0 1 3 0
Z2
(2 − y)3 1 2 5
Z
2 3
= (10(2 − y) + + (2 − y) y )dy = (3y − 12y 4 − 11y 3 + 6y 2 − 42y − 68)dy
1 3 3 1
y 6 y 5 y 4 y 3 y2 2 347
= (3 − 12 − 11 + 6 − 42 − 68y) = .
6 5 4 3 2 1 60
Un resultado de gran utilidad en integración doble es RR el relacionado al “cambio de variable”.
Concretamente, si uno desea obtener la integral doble I = A fXY (x, y)dxdy es común, como en la
integración simple, realizar algún cambio de variable que busque simplificar el cálculo de I. El
problema aquı́ sin embargo no es tan directo, pues uno tiene no una sino dos variables. Concreta-
mente si proponemos una transformación u = h1 (x, y) y v = h2 (x, y) que transforma 1-1 la región
A del plano xy en una región R del plano uv y obtenemos su transformación inversa x = g1 (u, v) e
y = g2 (u, v), la cual existe pues la transformación es 1-1, se cumple que
ZZ ZZ
I= fXY (x, y)dxdy = f (g1 (u, v), g2 (u, v))|J(u, v|dudv
A R
donde |J(u, v)| denota al determinante del jacobiano de la transformación, último que está definido
por:
 ∂g (u,v) ∂g (u,v) 
 1 1 
J(u, v) =  ∂g2∂u ∂v
(u,v) ∂g2 (u,v) 
.

∂u ∂v
Vale agregar que este resultado se puede también extender a no sólo integrales dobles sino también
múltiples.
Ejemplo 3.13. Como una aplicación del cambio de variable, formalizemos ahora el cálculo de la integral
usada en la propiedad 3 de la proposición 2.14, a recordar
Z∞
2
I0 = e−x dx.
−∞
El artificio que utilizaremos para este cálculo, consiste en obtener en su lugar la integral doble
Z ∞Z ∞ Z∞ Z∞ !
−(x2 +y 2 ) −x2 −y 2
I= e dxdy = e e dx dy = I02 .
−∞ −∞ 0 0
Luego la integral buscada se obtendrá simplemente como la raiz cuadrada del valor de la integral I. Para
el cálculo de I utilizaremos la propiedad de cambio de variable anterior, proponiendo como transforma-
ción lo que se conoce como las coordenadas polares. Esta transformación viene dada por x = r cos(θ) e
y = r sin(θ). Ası́ la integral I, originalmente en términos de las variables x e y, podrı́amos expresarla en
términos de las variables r y θ mediante
Z ∞ Z 2π Z∞ Z ∞ −h
−r 2 −r 2 e
I= e rdθdr = 2π e rdr = 2π dh = π.
0 0 0 0 2
√
Consecuentemente, I0 = π.
3.3.2. Densidades conjuntas, marginales y condicionales

Definición 3.5 (Función de densidad conjunta). Si (X, Y ) es un vector aleatorio continuo, su función
de densidad conjunta, denotada por fXY (x, y), es una función tal que:
1. fXY (x, y)≥0

RR
2. R2 fXY (x, y)= 1
RR
3. P ((X, Y )∈A) = A fXY (x, y)dxdy, para cualquier región A contenida en el rango RXY de (X, Y ).
R
Por lo anterior y partiendo de la condición R2 fXY (x, y)dxdy = 1(o equivalentemente de la
R −∞ R −∞
condición ∞ ∞
f XY (x, y)dx dy = 1), vemos que fXY (x, y) distribuye probabilidades de modo
continuo sobre RXY , asignando volúmenes sobre los distintos eventos A contenidos en RXY , de
modo que el volumen total (o probabilidad total) es 1. Note finalmente que aunque en la defi-
nición se integra sobre todo R2 , en la práctica la integral es solo sobre RXY , pues fuera de RXY ,
fXY (x, y) = 0.
Ejemplo 3.14. Sea (X, Y ) un vector aleatorio, donde X = Ingreso e Y = Consumo (ambos mensuales y
en una región) y supongamos que este vector posee la siguiente función de densidad conjunta:
ce−x si 0 < y < x < ∞

(
fXY (x, y)=
0 en caso contrario
Halle la constante normalizadora c y laRprobabilidad de que el consumo sea menor
n al 75 % del ingreso. o
+∞ R +∞
Solución: Para hallar c, recordemos que −∞ −∞ fXY (x, y)dxdy= 1. Como RXY = (x, y) ∈ R2 / 0 <y<x<∞
puede reescribirse como RXY = {(x, y) ∈ R2 / 0 <x<∞; 0 <y<x}, se tiene que
Z Z Z∞ Zx ! Z∞ Zx !
−x −x
fXY (x, y)dxdy = fXY (x, y)dxdy = ce dy dx = ce dy dx
R2 RXY 0 0 0 0
Z ∞
= cxe−x dx = cΓ (2) = c
0
Igualando a 1, se obtiene que c= 1.

De otro lado, el evento A= “Consumo menor al 75 % del ingreso” equivale al evento A = {(x, y) ∈
RXY / 0 < x < ∞; 0 < y < 0.75x} y por tanto
ZZ Z ∞ Z 0.75x ! Z ∞ Z 0.75x ! Z ∞
−x −x
P ((X, Y )∈A) = fXY (x, y) = e dy dx= e dy dx= 0.75xe−x dx= 0.75.
A 0 0 0 0 0
Definición 3.6 (Función de densidad marginal). Sea (X, Y ) un vector aleatorio continuo, con función
de densidad conjunta fXY (x, y). Se define la función de densidad marginal de X, denotada por fX (x),
mediante: Z∞
fX (x) = fXY (x, y)dy.
−∞
Análogamente, la función de densidad marginal de Y , a denotarse por fY (y), viene dada por:
Z∞
fY (y) = fXY (x, y)dx.
−∞
Definición 3.7 (Función de densidad condicional). En el contexto anterior, definimos la función de

f (x,y)
densidad condicional de Y dado que X=x, denotada por fY |X (y | x), mediante: fY |X (y | x) = XY fX (x)
,
siendo x un valor dado tal que fX (x) > 0.
Análogamente se define la función de densidad condicional de X dado que Y =y, denotada por fX|Y (x |
fXY (x,y)
y), mediante: fX|Y (x | y) = fY (y)
, siendo y un valor dado tal que fY (y) > 0.
Observaciones:
R b R ∞ R∞
P (a<X≤b) =P ((a<X≤b)∩(−∞<Y ≤∞)) = a −∞ fXY (x, y)dy dx. Luego, −∞ fXY (x, y)dy es una
función de xR que integrada sobre ]a,b] proporciona la probabilidad de X en dicho interva-
∞
lo, es decir, −∞ fXY (x, y)dy cumple los requisitos de una función de densidad para X y ası́
R∞
podemos escribir fX (x) = −∞ fXY (x, y)dy. Algo análogo ocurre con fY (y).
Se pueden definir también las probabilidades condicionales

Z b
P (a<X≤b|Y =y) := fX|Y (x|y)dx.
a
y
Z d
P (c<Y ≤d|X=x) := fY |X (y|x)dy
c
Ejemplo 3.15. En el ejemplo 3.15, halle fX (x), fY |X (x|y) y P (Y ≤0.8|X= 1.5). x

R∞ Rx
Solución: La densidad marginal de X viene dada por fX (x) = −∞ fXY (x, y)dy= 0 e−x dy=e−x y = xe−x ,
0
fXY (x,y) e−x
donde 0 <x<∞. En cuanto a la condicional de Y dado X: fY |X (y | x) = fX (x)
= xe−x = 1x , donde 0 <y<x
1
y x es un valor dado. En particular, para x= 1.5,fY |X (y | x) = 1.5 , donde 0 <y< 1.5 y por tanto
Z 0.8
1 0.8
P (Y ≤0.8|X= 1.5) = dy= = 0.53.
0 1.5 1.5
Obsérve que X∼Γ(α= 2,β= 1) y dado X = x, Y tiene distribución uniforme en el intervalo [0,x], o sea
Y | X = x ∼ U ([0, x]). Ası́, E (Y |X=x) = 2x y entonces por cada unidad adicional de ingreso,
∞ la mitad se
R∞ R∞
esperará se destine al consumo. También: fY (y) = −∞ fXY (x, y)dx= y e dx = −e = e−y . Esto es
−x −x
y
Y ∼Exp(β= 1).
Ejemplo 3.16. Resuelva el ejemplo anterior si la función de densidad conjunta de (X, Y ) viene dada por
ye−x si 0 < y < x < ∞

(
fXY (x, y)=
0 en caso contrario
y 2 x
R∞ Rx
Solución: En primer lugar, fX (x) = f (x, y)dy=
−∞ XY 0
ye−x dy=e−x 2 0 . Para la densidad condicional
−x
fXY (x,y) ye 2y 8y
tenemos fY |X (y | x) = fX (x)
= x2 −x
= x2
,
si 0 < y < x. En particular, fY |X (y | 1.5) = 9 . Ası́, la
2 e
R 0.8 8y
probabilidad anterior pedida será igual a P (Y ≤ 0.8 | X = 1.5) = 0 9 dy = 0.28.
y 3 x
Rx Rx Rx
2y
Observación: En este último ejemplo E (Y | X = x) = 0
yfY |X (y|x)dy= 0
y x2 dy= x22 0
y 2 dy= x22 3 0 =
2
3 x,o sea que conforme aumenta el ingreso, el consumo medio también aumenta y lo hace a una
tasa de constante de 2/3 por cada unidad adicional de ingreso.
3.4. Independencia
Definición 3.8. Sean X e Y v.a’s discretas, diremos que X e Y son independientes si:
PXY (x, y) =PX (x)PY (y), ∀(x, y)
Análogamente, sean X e Y v.a’s continuas, diremos que X e Y son independientes si:
fXY (x, y) =fX (x)fY (y), ∀(x, y)
En general, las componentes de un vector aleatorio multidimensional resultaran ser variables

aleatorias independientes, si su función de probabilidad o densidad conjunta coincide con el pro-
ducto de sus correspondientes funciones marginales.
Ejemplo 3.17. Las variables X e Y del ejemplo 3.8 no son independientes. En cambio, las variables
x+y
aleatorias X e Y con función de probabilidad conjunta PXY (x, y) = 21 , x= 1, 2, 3, ... y= 1, 2, 3, ... sı́
son independientes.
Ejemplo 3.18. El FMI diseña un rescate financiero de dos paı́ses A y B, cubriendo totalmente sus déficits
en cuenta corriente con X e Y en miles de millones de dólares respectivamente. Si (X, Y ) es un vector
aleatorio con función de densidad conjunta
( 2
x + xy/3 si 0 <x< 1, 0 <y< 2
fXY (x, y)=
0 en otro caso
a) Halle la distribución marginal del monto de ayuda a A.

b) El FMI solo tiene mil millones. ¿Con qué probabilidad no podrá ayudar a los dos paı́ses simultánea-
mente?
c) Si A recibe 500 millones, ¿con qué probabilidad B recibirá más de esa cantidad? ¿Cuánto esperarı́a
recibir B en este caso?
Solución: a)
Z ∞ Z 2 2 2x
fX (x) = fXY (x, y)dy= (x +xy/3)dy=(x y+xy /6) = 2x2 + , si 0 < x < 1.
2 2 2
−∞ 0 0 3
b) Sea C el evento “El FMI no podrá ayudar a los dos paı́ses”, entonces esto equivale al evento C =
{(x, y) ∈ RXY /x + y > 1}. Graficando vemos que es mejor calcular P (C) mediante P (C) = 1−P (C C ). Ası́
Z 1 Z 1−x ! Z 1 1−x
2
C C
P (C ) =P ((X, Y )∈C ) = P (X + Y ≤ 1) = (x +xy/3)dy dx = (x2 y+xy 2 /6) dx
0 0 0 0
1 !1
1 x2 4x3 5x4
Z
1 2 3 7 65
= (x+4x −5x )dx= + − = y P (C) = .
6 0 6 2 3 4 0 72 72
R2
c) Si A recibe 500 millones, entonces X= 0.5 y necesitamos calcular P (Y > 0.5|X= 0.5) = f (y|0.5)dy.
0.5 Y |X
0.25+0.5y/3 4+y
Como fY |X (y|0.5) = 2×0.25+2×0.5/3 = 10 , si 0 <y< 2 se tiene que
2 2
8y + y 2 2
Z Z
4+y 17 63
P (Y > 0.5|X= 0.5) = fY |X (y|0.5)dy= ( )dy=( ) = 1− = .
0.5 0.5 10 20 0.5 80 80
Lo que “esperarı́a recibir B dado que A ya recibió 0.5” es

2 2
6y 2 + y 3 2 32
Z Z
4+y

E (Y |X= 0.5) = yfY |X (y|x)dy= y dy=( ) = = 1.07 mil millones.
0 0 10 30 0 30
3.5. Valor esperado

Definición 3.9. Si (X, Y ) es un vector aleatorio y H(X, Y ) una v.a. función de (X, Y ), se define el valor
esperado de H(X, Y ), denotado por E(H(X, Y )), mediante
 P P
H(x, y)PXY (x, y) si (X, Y ) es un vector aleatorio discreto
Rx y

E(H(X, Y )) = 
 R
 +∞ +∞ H(x, y)f (x, y)dxdy si (X, Y ) es un vector aleatorio continuo
−∞ −∞ XY
Observación: E(H(X, Y )) es una constante obtenida como un promedio ponderado de los distintos
valores que puede tomar H(X, Y ).
Casos Especiales
1. µX :=E(X) y µY :=E(Y ), son las medias poblacionales de X e Y respectivamente.
2. σX2 ≡V (X) :=E((X−µX )2 ) y σY2 ≡V (Y ) :=E((Y −µY )2 ), son las varianzas poblacionales de X e Y res-
pectivamente
3. σXY ≡Cov(X, Y ) :=E((X−µX )(Y −µY )), es la llamada Covarianza entre X e Y . Este indicador mide
la asociación (lineal) entre X e Y , o sea la propensión a variar conjuntamente que tienen X e Y .
Como σXY es el promedio de los valores del producto (X−µX )(Y −µY ) entonces:
a) σXY > 0 quiere decir que “en promedio” (X−µX ) y (Y −µY ) tienen el mismo signo, es decir,
por lo general ocurre que X > µX y a la vez Y > µY ó ocurre que X < µX y a la vez Y < µY .
Podemos concluir que X e Y tienden a “crecer o disminuir a la vez”, i.e., están asociadas
directamente.
b) σXY < 0 quiere decir que “en promedio” (X−µX ) y (Y −µY ) tienen signo opuesto, es decir,
por lo general ocurre que X > µX y a la vez Y < µY ó ocurre que X < µX y a la vez Y > µY .
Podemos concluir que X e Y tienden a “moverse en dirección opuesta” ,i.e., están asociadas
inversamente.
c) Si σXY = 0, no hay relación lineal entre X e Y , aunque puede haber una relación no lineal.
Ejemplo 3.19. Consideremos nuevamente el ejemplo 2.2. en el cual recordemos habı́an dos polı́ticas A y
B para el caso que se recibieran quejas por la venta de 4 lotes que pudiesen contener productos vencidos.
Halle para este problema la utilidad que se esperará obtener bajo la polı́tica B, e indique cuál de las dos
polı́ticas le convendrı́a más a la empresa por esta venta.
Solución: Sea como antes X =número de cajas con productos vencidos que se venden. Vimos que X ∼
H(12, 2, 4) y que la utilidad esperada por la venta de los 4 lostes bajo la polı́tica A era de 333.33 soles.
En cuanto a la polı́tica B, la utilidad vendrá dada por



 600 − 100X si X = 0, 2

U (X, Y ) =  500 − 400Y si X = 1, Y = 0, 1




 0 en otro caso.
donde Y denota al número de lotes con productos vencidos que se restituyen ante la primera queja. Por
tanto,
XX
E(U (X, Y )) = H(x, y)PXY (x, y) = 600P (X = 0)+400P (X = 2)+500P (X = 1, Y = 0)+100P (X = 1, Y = 1).
x y
1 C12 C310
Dado que P (X = 1, Y = 0) = P (Y = 0 | X = 1)P (X = 1) = 8 × C412
= 0.0606 y P (X = 1, Y = 1) = P (Y =
C12 C310
1 | X = 1)P (X = 1) = 78 × C412
= 0.4242 se tiene que E(U (X, Y )) = 509.04 soles y por tanto esta polı́tica
le es más conveniente a la empresa.
3.5.1. Propiedades
Proposición 3.2.
1. Si α1 , α2 , . . . ,αn son constantes y H1 (X, Y ), H2 (X, Y ), ...Hn (X, Y ) funciones de (X, Y ), entonces:
n
X n
X
E( αi Hi (X, Y )) = αi E(Hi (X, Y ))
i=1 i=1
2. Si X e Y son independientes y H(X),G(Y ) son funciones de X e Y , entonces:
E(H(X)G(Y )) =E(H(X))E(G(Y )).
Demostración: Si, sin pérdida de generalidad, asumimos que el vector es continuo, entonces para 1. se
tiene que
X n Z ∞Z ∞ Xn
E( αi Hi (X, Y )) = ( αi Hj (x, y))fXY (x, y)dxdy
i=1 −∞ −∞ i=1
n
X Z ∞Z ∞ n
X
= αi Hi (x, y)fXY (x, y)dxdy = αi E(Hi (XY )).
i=1 −∞ −∞ i=1
De otro lado, para 2. se cumple por la independencia y la propiedad de linealidad anterior que
Z ∞Z ∞ Z∞ Z∞ !
E(H(X)G(Y )) = H(x)G(y)fX (x)fY (y)dxdy = G(y) H(x)fX (x)dx fY (y)dy
−∞ −∞ −∞ −∞
Z ∞
= E(H(X)) G(y)fY (y)dy = E(H(X))E(G(Y )).
−∞

Observaciones:
La primera propiedad se resume diciendo que el valor esperado E(.) es un “operador lineal”,
pero en general E (H(X, Y )) ,H(E (X) , E (Y ) ).
De la primera propiedad se deriva también que el valor esperado de una constante es la

misma constante y que toda constante puede “salir” del valor esperado.
La covarianza, por otro lado, resulta ser en contraposición al valor esperado un “operador
bilineal”. Esta y otras propiedades se aprecian en el siguiente corolario.
Corolario 3.1. 1. Cov(X, Y ) = E(XY ) − E(X)E(Y ).
2. Si X e Y v.a.’s independientes, entonces Cov(X, Y ) = 0.
3. Si α1 , α2 , . . . ,αn , β1 , β2 , . . . , βm son constantes y X1 , X2 , . . . , Xn , Y1 , Y2 , . . . , Ym variables aleatorias, en-

tonces
Xn m
X n X
X m
Cov( αi Xi , βj Yj ) = αi βj Cov(Xi , Yj ).
i=1 j=1 i=1 j=1
En particular se cumple que

Xn n
X n X
X n n
X n X
X n
V( αi Xi ) = αi2 V (Xj ) + αi αj Cov(Xi , Xj ) = αi2 V (Xj ) + 2 αi αj Cov(Xi , Xj ).
i=1 i=1 i=1 j=1 i=1 i=1 j=1
i,j i<j
Demostración: 1. Puesto que µX o E(X) denotan ambos a la media de X, se tiene por la propiedad de
linealidad que Cov(X, Y ) = E((X − µX )(Y − µY )) = E(XY − µX Y − XµY + µX µY ) = E(XY ) − µX E(Y ) −
E(X)µY + µX µY = E(XY ) − E(X)E(Y ).
2. Dado que se cumple 2. en la proposición anterior y 1. en este corolario, Cov(X, Y ) = E(XY ) − µX µY =

µX µY − µX µY = 0.
3. Por la primera propiedad de la proposición anterior y la definición de covarianza:
 
Xn m
X  Xn Xn Xm Xm 
Cov( αi Xi , βj Yj ) = E ( αi Xi − E( αi Xi ))( βj Xj − E( βj Xj ))
 
 
i=1 j=1 i=1 i=1 j=1 j=1
 
n
 X Xm  Xn X
m
= E ( αi (Xi − E(Xi ))( βj (Xj − E(Xj )) = αi βj E (Xi − E(Xi ))(Xj − E(Xj ))
 
 
i=1 j=1 i=1 j=1
n X
X m
= αi βj Cov(Xi , Yj ).
i=1 j=1
Definición 3.10 (Coeficiente de Correlación de Pearson). Este se denota por ρXY y se define mediante
σXY
ρXY = .
σX σY
Este coeficiente mide lo mismo que la covarianza, pero al carecer de unidades no se ve afectado por ellas.
Más aún, a diferencia del primero es acotado, como nos lo dice el siguiente resultado.
Proposición 3.3. Para cualquier par de variables aleatorias X e Y se cumple que
1 |ρXY | ≤ 1.
2 |ρXY | = 1 ⇔ P (Y = a + bX) = 1, donde

σXY
a = µY − bµX y b = .
σX2
X−µX
Demostración: a) Consideremos primero la “estandarización” de las variables X e Y mediante U = σX
Y −µ
y V = σ Y . Estas por la propiedad de linealidad se siguen que tienen media 0 y varianza 1. Definamos
Y
ahora las variables S = U + V y D = U − V . Dado que
E((X − µX )(Y − µY )
ρU V = E(U V ) = = ρXY
σX σY
bastará probar la propiedad de acotación para ρU V .

Según el último corolario, 0 < σD2 = σU2 + σV2 − 2Cov(U , V ) = 2 − 2ρU V y por tanto ρU V < 1. De
manera similar 0 < σS2 = σU2 + σV2 + 2Cov(U , V ) = 2 + 2ρU V implica que ρ > −1. En consecuencia
|ρXY | = |ρU V | ≤ 1
b) Supongamos primero que P (Y = a + bX) = 1. Dado que los eventos de probabilidad 0 no afectan el
calculo del valor esperado σY2 = b2 σX2 y se cumple que
E((X − µX )(a + bX − a − bµX ) bσX2 b

ρXY = = 2
= .
σx |b|σX |b|σX |b|
Por tanto, |ρXY | = 1 . Para la otra implicación, que es más técnica, mostraremos equivalentemente que
si |ρXY | = 1, entonces E(U 2 ) = 0, donde U = Y − a − bX. En efecto, nuestra hipótesis implica que
|σXY | = σX σY . Reescribiendo U , como U = (Y − µY ) + µY − a − b(X − µX ) − bµX = (Y − µY ) − b(X − µX ) − d
, donde d = a − µY + bµX , se tiene de la propiedad de linealidad que al reemplazar los valores de a
y b, E(U 2 ) = E((Y − µY )2 + b2 (X − µX )2 + d 2 − 2d(Y − µY ) + 2db(X − µX ) − 2b(X − µX )(Y − µY )) =
2
σXY
σY2 + b2 σX2 + d 2 − 2bσXY = σY2 − σX2
= 0.
Observación: La proposición anterior y el hecho que la correlación es nula cuando las variables
son independientes, nos permiten entonces interpretar la magnitud y signo de ella.
ρXY > 0 indica asociación directa o positiva entre X e Y .
ρXY < 0 indica asociación inversa o negativa entre X e Y .
|ρXY |1 indica que entre X e Y hay una asociación (lineal) “fuerte”.
|ρXY |0 indica que entre X e Y hay una asociación (lineal) “débil”.
Ejemplo 3.20. Halle e interprete para el ejemplo 3.15 la correlación de Pearson entre el consumo e
ingreso.
Solución: Para el cálculo de la covarianza, que es insumo de la correlación, será recomendable utilizar la
propiedad σXY =Cov(X, Y ) =E(XY )−E(X)E(Y ). Como X∼Γ(α= 2,β= 1), se sigue que E(X) =µX =αβ= 2
y V (X) =σX2 =αβ2 = 2. Similarmente como Y ∼Exp(β= 1), entonces E(Y ) =µY = 1/β= 1 y V (Y ) =σY2 = 1/β2 = 1.
Necesitamos luego solo hallar E(XY ). Este viene dado por:
ZZ Z∞ Zx ! Z∞ Zx !
−x −x
E(XY ) = xyfXY (x, y) = xye dy dx= xe ydy dx
R2 0 0 0 0
∞ ∞ ∞
y 2 x x3 e−x
Z Z Z
1 1
= xe−x ( )dx = dx= x3 e−x dx= Γ(4) = 3.
0 2 0 0 2 2 0 2
Por tanto, σXY =Cov(X, Y ) =E(XY )−E(X)E(Y ) = 3−2×1 = 1 y ρXY = 0.71. Consecuentemente podemos
decir que entre X e Y hay una relación lineal relativamente fuerte y directa.
3.6. La esperanza condicional

Dado un vector aleatorio (X, Y ), introdujimos antes supersticiamente a lo largo de varios ejem-
plos la noción de esperanza condicional de Y dado que X = x a la que denotamos por E(Y | X = x) e
interpretamos esta como el valor esperado de la distribución condicional de Y dado que X=x. Esta
es llamada también la función de regresión de Y sobre X, pues suele utilizarse para pronosticar el
valor que en promedio toma la v.a. Y cuando uno conoce el valor de X.
Observaciones:
Cuando se escriba E(Y | X) se entenderá ella como una v.a. que es función de X.
Análogamente se podrı́a hablar de la esperanza condicional de X dado que Y = y, E(X |

Y = x), intercambiando los roles de las variables del vector. En adelante, salvo se pida lo
contrario, nos limitaremos al análisis de la esperanza condicional de Y dado que X = x.
En términos formales, la esperanza condicional de Y dado que X = x vienen dada por

 P
 R y yPY |X (y | x)
 si (X, Y ) es un vector aleatorio discreto
E(Y | X = x) = 
 ∞ yf (y | x)dy si (X, Y ) es un vector aleatorio continuo.
0 Y |X
Por la primera observación, tiene sentido el tomarse el valor esperado a la v.a. E(Y | X). Resulta
que este valor esperado no es otra cosa que el valor esperado de Y . Esta propiedad conocida como
de la “torre” es un análogo con esperanzas del teorema de probabilidad total y queda formalmente
plasmado en el siguiente resultado.
Proposición 3.4.
E(Y ) = E(E(Y | X)).
Demostración: Trabajaremos, sin pérdida de generalidad el caso continuo, quedando el discreto como
ejercicio. En efecto, si denotamos por ϕ(X) = E(Y | X) a la v.a. función de X, cuyo valor observado es
ϕ(x) = E(Y | X = x) se tiene que
Z +∞ Z∞ Z∞ !
E(E(Y | X)) = E(ϕ(X)) = ϕ(x)fX (x)dx = yfY |X (y | x)dy fX (x)dx
−∞ −∞ −∞
Z ∞ Z ∞ ! Z ∞ Z ∞ ! Z ∞
f (x, y)
= y XY dy fX (x)dx = y fXY (x, y)dx fX (x)dy = yfY (y)dy = E(Y ).
−∞ −∞ fX (x) −∞ −∞ −∞

Observaciones:
Se define análogamente la varianza condicional de Y dado que X = x, denotada por V (Y |
X = x) o también σY2 |X=x , mediante V (Y | X = x) = E(Y 2 | X = x) − E(Y | X = x)2 . Note que
σY2 |X=x mide la variabilidad de Y alrededor del pronóstico ϕ(x) = E(Y |X = x), cuando X = x
y por tanto σY |X=x puede verse entonces como un “margen de error” en el pronóstico de Y a
partir de X vı́a E(Y |X = x). En este sentido, abusándose de la notación, uno podrı́a escribir
Y =E(Y |X = x)±σY |X=x . Al igual que antes se entenderá a V (Y | X) como una v.a. función de
X.
Muchos modelos económicos se formulan en términos de valores esperados, esto es, se escri-
be algo como ϕ(x) = E(Y | X = x) para explicar el valor de la variable Y como “dependiente”
del valor que tome la variable X, llamada por esto variable “independiente”. Los modelos
más populares asumen que esta relación funcional es lineal.
Proposición 3.5.
V (Y ) = E(V (Y | X)) + V (E(Y | X)).
Demostración: Empezando por el lado derecho de esta igualdad y aplicando la propiedad de la torre, se
tiene que

E(V (Y | X)) + V (E(Y | X)) = E E(Y 2 | X) − E(Y | X)2 + E E(Y | X)2 − E (E(Y | X))2
= E(Y 2 ) − E(E(Y | X)2 ) + E(E(Y | X)2 ) − E(Y )2 = V (Y ).

∂E(Y |X=x)
Ejemplo 3.21. Para el ejemplo 3.15, halle e interprete E(Y | X = x) y ∂x
.
1
Solución: Dado que como se vio en el ejemplo 3.16 fY |X (y | x) = x , si 0 <y<x se tendrá que
Zx
1 x
Z∞
1 y 2 x
Z
1 x
E(Y |X = x) = yfY |X (y|x)dy= y dy= ydy= ( ) = .
−∞ 0 x x 0 x 2 0 2
∂E(Y |X=x)
Esto es, dado un ingreso, en promedio la mitad del mismo se va en consumo. De otro lado, ∂x
= 12 ,
que se interpreta como una propensión marginal a consumir, es decir, que por cada unidad monetaria
adicional que se tenga de ingreso, la mitad se dedicará en promedio al consumo.
3.7. Vectores aleatorios multidimensionales

Para simplificar el tratamiento de un vector aleatorio k−dimensionales, será conveniente en-
tenderlo aquı́ como un vector columna k × 1, X = [X1 , X2 , . . . , Xk ]> . Note además que para evitar
confusiones escribiremos en negrita a todo vector o matriz. Dos caracterı́sticas distintivas de es-
te vector serán su vector de medias y su matriz de varianzas-covarianzas, las cuales definiremos
respectivamente por
µ = [µ1 , µ2 , . . . , µn ]>
y
 2 
 σ1 σ12 . . . σ1n 
 σ12 σ22
 

>
. . . σ2n 
Σ = E (X − µ)(X − µ) =   ,

..
 · · · · · · . ··· 
 
σ1n σ2n . . . σn2

siendo para cada i, j ∈ {1, 2, . . . , k}, µi = E(Xi ), σi2 = V (Xi ) y σij = Cov(Xi , Xj ), con i , j.
Observaciones:
µ resume la “tendencia central” del vector aleatorio.
Σ resume la variabilidad en el vector aleatorio. En este sentido hay dos maneras de sintetizar
ella : Mediante la traza de Σ y mediante el determinante de Σ. A la primera se le llama la
varianza total y viene dada por la suma de las varianzas de todas las componentes; mientras
que a la segunda se le conoce como la varianza generalizada, varianza que toma en cuenta
las correlaciones entre las componentes del vector.
La proposición siguiente nos indica como calcular el vector de medias y la matriz de varianzas-
covarianzas de cualquier transformación multilineal de un vector aleatorio.
Proposición 3.6. Sea X un vector aleatorio k-dimensional con vector de medias µ y matriz de varianzas-
covarianzas Σ, A una matriz m × k de constantes y b un vector m × 1 no aleatorio. Si definimos el vector
aleatorio m−dimensional Y, mediante la transformación Y = AX + b, entonces el vector de medias y la
matriz de varianzas-covarianzas de Y vienen dadas respectivamente por µY = Aµ + b y ΣY = AΣA> .
Demostración: Puesto que cada componente del vector transformado Y es una combinación afı́n-lineal
de las componentes de X, la linealidad del valor esperado garantiza que
µY = E(Y) = AE(X) + b = Aµ + b.
De otro lado,

ΣY = V (Y) = E (Y − µY )(Y − µY )> = E A(X − µ)(X − µ)> A> = AΣA> .
Ejemplo 3.22. Halle para el ejemplo 3.15, la media y varianza de los ahorros de las familias de la región.
Solución: Para el caso del ingreso (X) y el consumo (Y ) hemos calculado ya todos los elementos necesarios
" # ! " 2 # !
µX 2 σX σXY 2 1
de los indicadores pedidos. Estos son µ = = y Σ= = . Si definimos
µY 1 σXY σY2 1 1
" #
h i X
ahora la nueva variable de interés Z= Ahorro, entonces Z=X−Y = 1 −1 . Ası́, aplicando la
Y
" #
h i 2
propiedad anterior se tienen que µZ = 1 −1 = 2−1 = 1 y
1
" #" # " #
h i 2 1 1 h i 1
σZ2 =ΣZ = 1 −1 = 1 0 = 1.
1 1 −1 −1
Note que este ejemplo se podrı́a haber también resuelto, utilizando las propiedades ya vistas de medias y
varianzas. Esto es,
E(Z) = 1×E(X) + (−1)×E(Y ) = 2 − 1 = 1
V (Z) =12 ×V (X) + (−1)2 ×V (Y ) + 2 × 1 × (−1)×Cov(X, Y ) =12 ×2 + (−1)2 ×1 + 2 × 1 × (−1) × 1 = 2 + 1 − 2 = 1.
3.7.1. La función generatriz de momentos de un vector aleatorio

Definición 3.11. Sea X = [X1 , X2 , . . . , Xk ]> un vector aleatorio. Definimos su función generatriz de
momentos por
>
MX (t) = E(et X ) = E(et1 X1 +t2 X2 +...+tk Xk ),
para valores de t = [t1 , t2 , . . . , tk ]> en los cuales exista este valor esperado.
Al igual que en el caso univariado, la función generatriz de momentos se emplea fundamen-

talmente para identificar a la distribución, al estar ella está en relación 1-1 con su función de
distribución y, por otro lado, para obtener los momentos generalizados de la distribución, me-
diante
m m m ∂m M (t)
E(X1 1 X2 2 . . . Xk k ) = m1 m2X m
,
∂t1 ∂t2 . . . ∂tk k t=0
donde m = m1 + m2 + . . . + mk .
3.7.2. Vector particionado y distribuciones conjuntas

Cuando se tiene un vector aleatorio X = [X1 , . . . , Xp , Xp+1 , . . . , Xk ]> , es útil en ocasiones separar
partes de él, por ejemplo considerando que las primeras p componentes conforman un subvector
X1 = [X1 , . . . , Xp ]> de orden p ×1 y el resto de (k −p) componentes un subvector X2 = [Xp+1 , . . . , Xk ]>

de orden (k − p) × 1. En este contexto se escribe X = [X1 : X2 ]> .
Las nociones de distribución conjunta fX1 X2 ...Xk (x1 , x2 , . . . ,xk ); distribuciones marginales fX1 (x1 ),
fX2 (x2 ), . . . , fXk (xk ); y condicionales fXi |Xj (xi |xj ), son extensiones directas del caso bivariado. En par-
ticular es importante recordar que un conjunto de variables aleatorias X1 , X2 , . . . , Xk son indepen-
dientes si la distribución conjunta del vector X = [X1 , X2 , . . . , Xk ]> coincide con el producto de sus
distribuciones marginales para tales componentes. Si, sin pérdida de generalidad, asumimos que
el vector es continuo, ello quiere decir que para cualquier x = (x1 , x2 , . . . , xk ) ∈ Rk :
k
Y
fX (x) = fX1 X2 ...Xk (x1 , x2 , . . . ,xk ) =fX1 (x1 )fX2 (x2 ) . . .fXk (xk )≡ fXi (xi ).
i=1
En el caso discreto basta reemplazar las funciones de densidad arriba dadas por las de probabili-
dad.
Similarmente diremos que dos vectores aleatorios continuos X1 y X2 de ordenes p × 1 y q × 1
son independientes si para cualesquieras x1 ∈ Rp y x2 ∈ Rq :
fX1 X2 (x1 , x2 ) = fX1 (x1 )fX2 (x2 )
Esto es igualmente válido para vectores aleatorios discretos cuando se reemplacen las funciones
de densidad conjunta por las de probabilidad conjunta.
Para el caso de un vector aleatorio particionado se puede hablar también de distribuciones
marginales (conjuntas) y condicionales. En efecto, la función de densidad (o probabilidad) del
subvector X1 de orden p × 1, dado que el subvector X2 de orden (k − p) × 1 toma el vector x2 , se
define como
fX ,X (x1 , x2 )
fX1 |X2 (x1 | x2 ) = 1 2 ,
fX2 (x2 )
donde fX2 denota a la función de densidad (o probabilidad) marginal conjunta del subvector X2 ,
el cual se calcula en el caso continuo por
Z∞ Z∞
fX2 (x2 ) = ... fX1 ,X2 (x1 , x2 )dx1 .
−∞ −∞
Observación: (Necesidad de vectores particionados) Los modelos económicos suelen ser multi-
ecuacionales, donde el economista trata de “explicar” el comportamiento de un conjunto de p
variables de interés y que llama “endógenas”, como resultado de su interacción con otro conjunto
de k − p variables que llama “exógenas”. Si las variables tienen elementos de aleatoriedad (por-
que es obtienen con encuestas por muestreo o porque en sı́ son aleatorias), el conjunto total de
variables en el modelo completo es un vector aleatorio X = (X1 , . . . , Xp , Xp+1 , . . . , Xk )> , donde por
comodidad de lectura primero, y de análisis después, es preferible escribir X1 = (X1 ,· · ·,Xp )> para
representar al vector de variables “endógenas” y X2 = (Xp+1 ,· · ·,Xk )> para representar al vector
de variables “exógenas”. En este contexto, entendemos por “explicación”, el dar cuenta del com-
portamiento de X1 ∈Rp a partir del comportamiento de X2 ∈Rk−p . En términos de probabilidades,
fX1 ,X2 (x1 ,x2 )
esto se logra a través de fX1 |X2 (x1 | x2 ) = fX2 (x2 )
. Ciertamente, serı́a muy fatigoso hacer análi-
sis económico al grado de explicitar totalmente fX1 |X2 (x1 | x2 ). Lo que hace el analista económico
es plantear las relaciones entre X1 y X2 primero y luego explicitarlas a través de ecuaciones si-
multáneas. Lo primero equivale a plantear la forma de la distribución condicional fX1 |X2 (x1 | x2 ) y
lo segundo se hace usando esperanzas condicionales. Para eso, mejor pasemos a tratar este punto
en contexto de vectores aleatorios
Cuando trabajemos con un vector particionado X = [X1 : X2 ]> de orden k, será de gran uti-
lidad el expresar su vector de medias y matriz de varianzas-covarianzas en términos del de sus
subvectores columna componentes X1 ∈ Rp y X2 ∈ Rk−p . Esta representación viene dada por
µ = E(X) = [E(X1 ) : E(X2 )]> = [µ1 : µ2 ]>
para el vector de medias y por " #
Σ 11 Σ 12
Σ = V (X) = ,
Σ 21 Σ 22
donde
σ12
   
 σ12 · · · σ1p   σ1(p+1) ··· σ1k 
σ22
   
 σ21 · · · σ2p   σ2(p+1) ··· σ2k 
Σ11 =   , Σ 12 = 
   
.. .. .. .. .. .. 

 . . . 


 . . . 

· · · σp2 ···
  
σp(p+1) σpk

σp1 σp2
 2 
σ(p+1)(p+1) σ(p+1)(p+2) · · · σ(p+1)k 
 
 σ(p+1)1 ··· σ(p+1)p  
2
   
 σ(p+2)1 ··· σ(p+2)p   σ(p+2)(p+1) σ(p+2)(p+2) · · · σ(p+2)k 
Σ 21 =   y Σ 22 =   .
  
.. .. .. .. .. .. 

 . . . 
 
 . . . 

··· 2

σk1 σkp

· · · σkk
 
σk(p+1) σk(p+2)
para la matriz de varianzas-covarianzas.
Note que Σ 11 es la matriz de varianza-covarianza de X1 , Σ 22 la matriz de varianza-covarianza
de X2 y Σ 12 = Σ >
21 es la matriz de covarianzas entre X1 y X2 .
Ejemplo 3.23. Se tienen tres instrumentos financieros con rentabilidades anuales porcentuales: X ∼
N(6,9); Y ∼ N(10,25) y Z ∼ N(10,16), de modo que la matriz de varianzas-covarianzas del vector
 
 9 −1 3 
(X,Y,Z)> es  −1 25 −3 . Si Ud. invierte 100 u.m. de modo que en X y en Y pone 30 u.m. y el resto

 
 
3 −3 16
lo pone en Z. Halle la ganancia esperada de su inversión ası́ como su varianza.
 
h i  X 
Solución: La ganancia U es U = 0.3X + 0.3Y + 0.4Z = 0.3 0.3 0.4  Y  y aplicando la proposi-
 
Z
ción:    
h i  µX  h i  6 
E(U ) = 0.3 0.3 0.4  µY  = 0.3 0.3 0.4  10  = 8.8
   
µZ 10
y
   
h i  9 −1 3  h
 iT h i  0.3 
V (U )= 0.3 0.3 0.4  −1 25 −3  0.3 0.3 0.4 = 3.6 6 6.4  0.3  = 5.44.
   
3 −3 16 0.4
3.8. Distribuciones multivariadas importantes

Al igual que en el caso univariado se tienen aquı́ un conjunto de distribuciones de vectores
aleatorios que son recurrentemente utilizadas en la práctica. Empezaremos discutiendo un par
de distribuciones discretas, que podrı́an pensarse como generalizaciones de las distribuciones bi-
nomial e hipergeométrica, para luego movernos al caso continuo con las distribuciones normal
multivariada y de Dirichlet, que son esencialmente las extensiones multivariadas de las distribu-
ciones normal y beta.
3.8.1. La distribución multinomial

Esta es la extensión multivariada de la distribución binomial. Para describirla, consideremos
un experimento aleatorio cuyos resultados pueden caer con probabilidades p1 , p2 , . . . , pk en, respec-
tivamente, cualquiera de k categorı́as excluyentes y exhaustivas A1 , A2 , . . . , Ak . Si este experimento
se repite de manera independiente n veces y se definen las variables aleatorias:
Xi = número de veces en que ocurre la categorı́a Ai , i = 1, 2, . . . , k,
entonces el vector aleatorio (X1 , X2 , . . . , Xk ) se dice que tiene distribución multinomial de paráme-
tros n, p1 , p2 , . . . , pk , y se le denota por (X1 , X2 , . . . , Xk ) ∼ Mul(n; p1 , p2 , . . . , pk ).
Proposición 3.7. Si (X1 , X2 , . . . , Xk ) ∼ Mul(n; p1 , p2 , . . . , pk ), entonces
1. La función de probabilidad (conjunta) de este vector viene dada por:

 n! x1 x2 xk
 x1 !x2 !...xk ! p1 p2 . . . pk si (x1 , x2 , . . . , xk ) ∈ R

P (X1 = x1 , X2 = x2 , . . . , Xk = xk ) = 
 0 en caso contrario
Pk
donde R = {(n1 , n2 , . . . , nk ) ∈ {0, 1, . . . , n}k / i=1 ni = n} denota rango del vector.
2. Sus distribuciones marginales son binomiales, esto es, Xi ∼ B(n, pi ), ∀i = 1, 2, . . . , k.
3. Cov(Xi , Xj ) = −npi pj , ∀i , j ∈ {1, 2, . . . , k}.
Demostración: 1. La probabilidad de que en las primeras x1 repeticiones ocurra A1 , en las siguientes x2

repeticiones ocurra A2 y ası́ sucesivamente hasta que en las últimas xk repeticiones ocurra Ak es por la
x x x
independencia p11 p22 . . . pk k . Sin embargo, estas ocurrencias podrı́an darse de otras formas en términos
del orden de ocurrencia de cada categorı́a. Todas las ordenaciones posibles de los n experimentos en
donde x1 serán de tipo A1 y asi sucesivamente hasta xk del tipo Ak , viene dada por x !x n!!...x ! . Por tanto,
1 2 k
la probabilidad pedida viene dada por la fórmula indicada en a).
2. Basta notar que los experimentos que generan la multinomial podrı́an redefinirse como experimentos
de Bernoulli. En efecto, si llamamos éxito a que ocurra la categorı́a Ai y fracaso que ocurra cualquier
otra categorı́a, el número de éxitos en las n repeticiones independientes tiene distribución binomial de
parámetros n y pi .
3. Basta notar que de juntarse dos categorı́as distintas Ai y Aj , se tiene que Xi + Xj ∼ B(n, pi + pj ). Ası́,
utilizándose el corolario 3.1
n(pi +pj )(1−pi −pj ) = V (Xi +Xj ) = V (Xi )+V (Xj )+2Co(Xi , Xj ) = npi (1−pi )+npj (1−pj )+2Cov(Xi , Xj ).
Un despeje directo en esta ecuación nos lleva a que Cov(Xi , Xj ) = −npi pj .
Observación: Al ser en cada experimento las categorı́as posibles excluyentes y exhaustivas. se

debe cumplir que ki=1 pi = 1.
P
Ejemplo 3.24. Si en el ejemplo 3.2 se asume que la producción de la empresa es grande y contı́nua
a) ¿Con qué probabilidad la empresa enviará 3 productos a Europa?
b) ¿Con qué probabilidad la empresa enviará 2 productos a Europa y 2 productos al Asia?
c) Si el tamaño de la producción de un dı́a fué de 100 productos y la probabilidad de que un producto

que se destine al Asia vaya a China es de 0.6, ¿con qué probabilidad la mitad de estos productos se
destinarán a Europa y China?
d) Si se conociera en c) que x productos se destinaron a Europa, ¿con qué probabilidad se habrán

destinado al mercado nacional 10 productos?
Solución: La asunción de que la producción es grande y contı́nua se hace fundamentalmente para ga-
rantizar la independencia en los destinos de cada uno de los productos seleccionados. Usando lue-
go las notaciones de las v.a’s X e Y definidas en el ejemplo 3.2 se tiene que para el vector aleatorio
(X, Y , Z) donde Z denota a la v.a. Z =número de los 5 productos que van al mercado nacional, que
(X, Y , Z) ∼ Mul(5; 0.4, 0.5, 0.1).
a) Puesto que la marginal de X es X ∼ B(5, 0.4), se pide P (X= 3) =C35 (0.4)3 (0.6)2 = 0.2304 .
5!
b) Se nos pide P (X = 2, Y = 2, Z = 1) = 2!2!1! (0.42 )(0.52 )(0.1) = 30(0.4)2 (0.5)2 (0.1) = 0.12.
c) Si definimos el vector aleatorio (X1 , X2 , X3 , X4 ), donde cada Xi denota respectivamente al número de
los 100 productos del dı́a que van a Europa, China, resto de Asia y el mercado nacional, se tendrá que
(X1 , X2 , X3 , X4 ) ∼ Mul(100; 0.4, 0.3, 0.2, 0.1). Se nos pide entonces P (X1 + X2 = 50), pero claramente si
juntamos a Europa y China en un sola categorı́a X1 + X2 ∼ B(100, 0.7). Ası́
50!
P (X1 + X2 = 50) = 0.750 × 0.350 = 0.00001302623.
50!50!
d) Se nos pide, con las notaciones de b) y c),
100!
P (X = x, Y = 90 − x, Z = 10) 0.4x 0.590−x 0.110
x!(90−x)!10! 100−x 1 10 5 90−x
P (X4 = 10 | X1 = x) = = 100!
= C10 ( ) ( )
P (X = x) 0.4x 0.6100−x 6 6
x!(100−x)!
En otras palabras se obtiene la distribución condicional X4 | X1 = x ∼ B(100 − x, 16 ), la cual se está

evaluando con su función de probabilidad en el valor 10.
3.8.2. La distribución hipergeométrica multivariada

Esta es la extensión multivariada de la distribución hipergeométrica. Aquı́ en lugar de segmen-
tar la población de tamaño N en dos clases (A y Ac ), ella se particiona en k clases a las que denota-
remos por A1 , A2 , . . . , Ak . Cada clase Ai posee Mi elementos de tal manera que N = M1 +M2 +. . .+Mk .
Si seleccionamos ahora al azar y sin reemplazamiento n elementos de esta población y definimos
las variables aleatorias
Xi = número de elementos de la clase Ai seleccionados en la muestra, i = 1, 2, . . . , k,
entonces el vector aleatorio (X1 , X2 , . . . , Xk ) se dice que tiene distribución hipergeométrica multiva-
riada de parámetros n, M1 , M2 , . . . , Mk , y se le denota por (X1 , X2 , . . . , Xk ) ∼ Hmul(n; M1 , M2 , . . . , Mk ).
Proposición 3.8. Si (X1 , X2 , . . . , Xk ) ∼ Hmul(n; M1 , M2 , . . . , Mk ), entonces
1. La función de probabilidad (conjunta) de este vector viene dada por:

M M M
Cx1 1 Cx2 2 . . . Cxk k
P (X1 = x1 , X2 = x2 , . . . , Xk = xk ) = ,
CnN
donde las combinatorias Cab se entienden que son arriba son nulas si a > b.
2. Sus distribuciones marginales son hypergeométricas, esto es, Xi ∼ H(N , Mi , n), ∀i = 1, 2, . . . , k.

nMi Mj N −n
3. Cov(Xi , Xj ) = − N2
( N −1 ), ∀i , j ∈ {1, 2, . . . , k}.
4. Si la muestra fuera tomada con reemplazamiento, entonces

M1 M2 M
(X1 , X2 , . . . , Xk ) ∼ Mul(n; , , . . . , k ).
N N N
Demostración: 1. El espacio muestral asociado a esta selección está constituido por todos los conjuntos
de n elementos que se pueden formar con los N y por tanto tiene CnN elementos. El evento de interés
M M M
por otro lado viene dado, por el principio de multiplicación, por Cx1 1 Cx2 2 . . . Cxk k . Ası́, por la definición
clásica la probabilidad pedida es el cociente de estas probabilidades.
2. Basta observar que de segmentarse la problación en solo dos clases: la clase Ai de Mi elementos y la
clase Aci de N − Mi elementos, entonces Xi ∼ H(N , Mi , n).
3. Similarmente al caso de la multinomial, basta notar que de juntase dos categorı́as distintas Ai y Aj
en una sola, se tendrá que Xi + Xj ∼ H(N , Mi + Mj , n). Ası́, utilizándose el corolario 3.1
Mi + Mj Mi + Mj N − n
n( )(1 − )( ) = V (Xi + Xj )
N N N −1
Mi M N −n Mj Mj N − n
= n( )(1 − i )( ) + n( )(1 − )( ) + 2Cov(Xi , Xj ).
N N N −1 N N N −1
nM M
Un despeje directo en esta ecuación nos conlleva a que Cov(Xi , Xj ) = − Ni 2 j ( N −n
N −1 ).
4. Si se admitiera reemplazamiento, cada selección generarı́a un experimento con k posibles resultados,
siendo la probabilidad de que se de el i−ésimo resultado, o selección de un elemento de la clase Ai , igual
a pi = M N . Además cada uno de estos experimentos serı́an independientes, por lo que el vector aleatorio
i
(X1 , X2 , . . . , Xk ) que cuenta las veces que ocurren cada una e estas k categorı́as en los n experimentos
tendrı́a la distribución multinomial descrita.
Ejemplo 3.25. Un almacén contiene 6 cajas con la siguiente distribución de artı́culos
Caja 1 2 3 4 5 6
Número de artı́culos (Ni ) 60 43 97 80 120 100
Número de defectos (Mi ) 5 4 6 5 15 10
Si usted selecciona al azar una caja y, bajo un mı́nimo presupuesto, extrae de ella al azar y sin reem-
plazamiento al menos un 20 % de sus artı́culos, ¿Qué proporción de defectos se esperará encontrar en la
muestra? ¿Coincide este valor con el de la verdadera proporción de defectos en el almacén?
Solución: Si denotamos por δi a la variable indicadora que nos dice si la caja i ha sido seleccionada
(δi = 1) o no (δi = 0), se tiene que (δ1 , δ2 , δ3 , δ4 , δ5 , δ6 ) ∼ Mul(1, 16 , 16 , 16 , 16 , 61 , 16 ). La proporción muestral
de defectos estimador se puede escribir entonces como p̂ = 6i=1 p̄i δi , donde p̄i = Xn i denota a la proporción
P
i
muestral de defectos en la caja i, Xi ∼ H(Ni , Mi , ni ) al número de defectos en la muestra de la caja i y ni
al tamaño de muestra para la caja i, el cual es igual al 20 % de Ni o a su entero superior, ya que se deben
de minimizar costos. Para obtener el valor esperado de esta proporción, utilizaremos la propiedad de la
“torre” dada en proposición 1.4, la cual naturalmente puede extenderse al condicionarse a un vector
aleatorio.
6 6 6
X E(Xi ) X Mi 1X
E(p̂) = E(E(p̂ | δ1 , δ2 , . . . , δ6 )) = E( δ )= E(δi ) = pi ,
ni i Ni 6
i=1 i=1 i=1
Mi
donde pi = Ni denota a la verdadera proporción de defectos en la caja i. Dado que en general
6 P6
1 X Mi Mi
E(p̂) = , Pi=1
6
,
6 Ni i=1 Ni
i=1
este no coincide con la verdadera proporción de defectos en el almacén. Note que si conocieramos la
distribución en el cuadro de arriba (lo cual probablemente no ocurra y por eso se hace el muestreo), se
tendrı́a que E(p̂) = 0.0876, valor que difiere de la verdadera proporción de defectos en el almacén que es
de p = 0.09.
3.8.3. La distribución normal multivariada

Un vector aleatorio continuo k−dimensional X = [X1 , X2 , . . . , Xk ]> tiene una distribución nor-
mal multivariada con vector de medias µ = [µ1 , µ2 , . . . , µk ]> y matriz de varianza-covarianza
 2 
 σ1 σ12 . . . σ1k 
 σ12 σ22 . . . σ2k 
 
Σ =  ,
 
 · · · · · · . . . · · · 
 
σ1k σ2k . . . σk2
 
lo cual denotamos por X ∼ Nk (µ, Σ), si su función de densidad conjunta viene dada por:
1 1

> −1
f (x) = k 1
exp − (x − µ) Σ (x − µ) ,
(2π) 2 |Σ| 2 2
donde |Σ| denota al determinante de la matriz de varianza-covarianza Σ.

Observación: Al igual que en el caso univariado, se tiene una distribución patron o estándar, la
cual tiene vector de medias nulo y matriz de varianzas-covarianzas igual a la identidad. A este
vector aleatorio lo denotaremos por Z ∼ Nk (0, I). La siguiente proposición nos dice, entre otras
cosas, como “estandarizar” un vector aleatorio normal.
Para simplificar el desarrollo asumiremos de aquı́ en adelante que Σ es una matriz no singular.
Vale comentar que esta restricción puede levantarse, pero su tratamiento no es tan directo.
Proposición 3.9. Si X ∼ Nk (µ, Σ), entonces

1. Las v.a’s componentes del vector X son independientes si, y solamente si Σ es una matriz diagonal
o, equivalentemente, si la correlación de Pearson entre cualesquieras de dos componentes distintas de
este vector son nulas.
1
2. Si Z = Σ− 2 (X − µ), entonces Z ∼ Nk (0, I).
3. La función generatriz de momentosde X viene dada por MX (t) = et µ+ 2 t Σ t .

> 1 >
4. Si A es una matriz m × k y b un vector m × 1, entonces Y = AX + b ∼ Nm (Aµ + b, AΣA> ).
5. Toda distribución marginal y condicional (de cualesquier dimensión) tiene una distribución normal
multivariada. Esto es, si el vector X se particiona como:
" #
> > Σ 11 Σ 12
X = [X1 : X2 ] ∼ Nk (µ = [µ1 , µ2 ] , Σ = ),
Σ>12 Σ 22
donde X1 es de orden p × 1 y X2 de orden k − p × 1, entonces
X1 ∼ Np (µ1 , Σ 11 ) y X2 ∼ Nk−p (µ2 , Σ 22 ).

−1 >
X1 | X2 = x2 ∼ Np (µ1 + Σ12 Σ −1
22 (x2 − µ2 ), Σ 11 − Σ 12 Σ 22 Σ 12 ).
X2 | X1 = x1 ∼ Nk−p (µ2 + Σ> −1 > −1
12 Σ 11 (x1 − µ1 ), Σ 22 − Σ 12 Σ 11 Σ 12 ).
Demostración: 1. Si las v.a’s componentes del vector son independientes, ya sabemos que sus correlaciones
por pares son nulas y por tanto Σ es una matriz diagonal. De otro lado, si Σ es una matriz diagonal,
digamos, Σ = diag(σ12 , σ22 , . . . , σk2 ), entonces
  k  
1  1 > 1  Y 1  1 2

f (x) = k Qk 1
exp − (x − µ) Qk
 (x − µ) =
 √ exp − 2 (xi − µi )  ,

2 2
(2π) 2 ( i=1 σi2 ) 2 i=1 σi i=1 2πσi 2σi
última expresión en la derecha que es el producto de las densidades marginales del vector.
1
2. De la transformación se tiene que X = µ + Σ 2 Z, luego por el teorema de cambio de variable utilizado
en el ejemplo 2.13, el cual es extendible a cualquier dimensión, se tiene que
1 1 1 1 >
1
1 1

1 1
fZ (z) = fX (µ + Σ 2 z)|Σ| 2 = exp − (µ + Σ 2 z − µ)> Σ −1 (µ + Σ 2 z − µ) |Σ| 2 = exp − z z .
k 1 k
(2π) 2 |Σ| 2 2 (2π) 2 2
Ası́, Z ∼ Nk (0, Σ).
−1 > −2−1 1
= MZ (h) = E(eh Σ (X−µ)
) = e−h Σ µ E(eh Σ X) ). Ası́,
1 > > 2 > 2
3. Según 2. e 2 h h
1
−2 1
−2
E(eh Σ h+h> Σ µ
> 1 >
X)
) = e2h
1
y tomándose t = Σ − 2 h se tiene que
) = et µ+ 2 t Σt .
> > 1 >
MX (t) = E(et X
4. Basta notar, usándose la función generatriz de momentos, que

>
(AX+b) > >
(Aµ+b)+ 12 t> AΣ A> t
MY (t) = E(et ) = et b MX (A> t) = et .
5. Ver Kotz et al. (2019).
Ejemplo 3.26. Para la licitación de una obra pública, que ha de ser tomadas por dos contratistas A y B,
un economista asume que las variables aleatorias X1 =Tiempo de entrega en meses de la obra por parte
del contratista A, X2 =Tiempo de entrega en meses de la obra por parte del contratista B y X3 = Costo de
la obra en millones de dólares, tienen conjuntamente una distribución normal multivariada con vector
de medias µ = [36, 48, 500]> y matriz de varianza-covarianza
 
 49 0 280 
 
Σ =  0 100 720  .


280 720 6400

La obra se declarará ejecutada cuando ambos contratistas terminan de entregarla. Según este modelo:
a) ¿Con qué probabilidad la obra costará más de 600 millones de dólares?
b) ¿Con qué probabilidad la obra demorará más de 3 años y medio?
c) ¿Con qué probabilidad será el contratista B quién entregue antes la obra?
d) Suponga que se prevee un costo para la obra de 580 millones de dólares y se desea culmine ella en
como máximo 4 años, pues de no hacerlo se perderá por cada año que sobrepase este tiempo, un millón
de dólares. ¿Con qué probabilidad habrá una perdida de más de 1.5 millones de dólares?
e) Si la obra fué culminada por el contratista A en 2.75 años y por el contratista B en 4.25 años, ¿qué
costo se espera halla tenido la obra?
f) Suponga que el gobierno, otorgador de las licitaciones, ha decidido dar un bono de 20 000 soles al
contratista A si este culmina su trabajo en menos de 3 años y medio y uno de 8,000 soles al contratista
B si hace lo mismo. Si la obra tuvo un costo total (sin contar con el bono) de 600 millones de dólares,
¿con qué probabilidad el gobierno habrá pagado en bonos más 10 000 soles? ¿Cuánto se esperará halla
pagado en bonos el gobierno?
Solución: a) Como marginalmente se cumple que X3 ∼ N (500, 6, 400), entonces

600 − 500
P (X3 > 600) = 1 − P (Z ≤ ) = 1 − FZ (1.25) = 0.1056.
80
b) Si T denota al tiempo de ejecución de la obra en meses, se tendrá que T = máx{X1 , X2 }. Luego como
las v.a.’s X1 y X2 son independientes, se tiene que P (T > 42) = 1 − P (T ≤ 42) = 1 − P (X1 ≤ 42)P (X2 ≤
42) = 1 − P (Z ≤ 0.86)P (Z ≤ −0.6) = 0.78.
c) Se pide P (X1 > X2 ) = P (X1 − X2 > 0). Como por la propiedad reproductiva de la normal X1 − X2 ∼
N (−12, 149) se tendrá que P (X1 > X2 ) = P (Z > √12 = 1 − FZ (0.98) = 1 − 0.8365 = 0.1605.
149
d) Denotemos por Y a la variable de pérdida por la obra. Se cumple que
(
0 si T ≤ 48
Y = T −48
12 en caso contrario
y se nos pide P (Y > 1.5 | X3 = 580) = P (T > 66 | X3 = 580) = 1 − P (X1 ≤ 66 | X3 = 580)P (X2 ≤ 66 |
X3 = 580). Requerimos por tanto de las distribuciones condicionales de X1 y X2 dado X3 . Estas vienen
280 2802 720

dadas por X1 | X3 = x ∼ N (36 + 6,400 (x − 500), 49 − 6,400 = 36.75) y X2 | X3 = x ∼ N (48 + 6,400 (x −
2
720
500), 100 − 6,400 = 19). Ası́
66 − 39.5 66 − 57
P (Y > 1.5 | X3 = 580) = 1 − P (Z ≤ √ )P (Z ≤ √ ) = 0.0197
36.75 19
" #−1 " #
49 0 33 − 36
e) E(X3 | X1 = 33, X2 = 51) = 500 + [280, 720] = 504.4571 millones de
0 100 51 − 48
dólares.
f) El bono B que otorgará el gobierno en soles es una v.a. que se puede expresar por



 0 si X1 ≥ 42 y X2 ≥ 42

 8000

 si X1 ≥ 42 y X2 < 42
B ≡ B(X1 , X2 ) = 



 20 000 si X1 < 42 y X2 ≥ 42
28 000 si X1 < 42 y X2 < 42


Luego
P (B > 10 000 | X3 = 600) = P (X1 < 42, X2 ≥ 42 | X3 = 600) + P (X1 < 42, X2 < 42 | X3 = 600)
42 − 40.375
= P (X1 < 42 | X3 = 600) = P (Z < √ = FZ (0.27) = 0.6064.
36.75
Finalmente, el valor esperado del bono será
E(B(X1 , X2 ) | X3 = 600) = 8000P (X1 ≥ 42, X2 < 42 | X3 = 600) + 20 000P (X1 < 42, X2 ≥ 42 | X3 = 600)
+28 000P (X1 < 42, X2 < 42 | X3 = 600)
y por la independencia
E(B(X1 , X2 ) | X3 = 600) = 8000 × (1 − 0.6064) × 0 + 20 000 × 0.6064 × 1 + 28 000 × 0 = 12 128 soles.
3.8.4. La distribución de Dirichlet

Un vector aleatorio k−dimensional X = [X1 , X2 , . . . , Xk ]> tiene distribución de Dirichlet de vec-
tor de parámetros α ∈ Rk , y se denota por X ∼ Dir(α), si su función de densidad conjunta es
Γ (α ) Qk αi −1


 Qk 0 i=1 xi si x ∈ Sk
fX (x) = 

i=1 Γ (αi )
0 en caso contrario


donde α0 = ki=1 αi y Sk = {x = [x1 , x2 , . . . , xk ]> ∈ [0, 1]k / x1 + x2 + . . . + xk = 1}. La figura ?? muestra

P
el gráfico de la función de densidad de una distribución de Dirichlet para k = 3 con distintos

parámetros.
Observaciones:
α1 = 4, α2 = 4, α3 = 2 α1 = 2, α2 = 4, α3 = 4 α1 = 2, α2 = 4, α3 = 2
8 8 8
6 6 6
De
De
De
4 4 4
nsi
nsi
nsi
2 2 2
dad
dad
dad
0 0 0
−2 −2 −2
1.0 1.0 1.0
0.8 1.0 0.8 1.0 0.8 1.0
0.6 0.8 0.6 0.8 0.6 0.8
0.6 0.6 0.6
0.4 0.4 0.4
y
y
0.4 x 0.4 x 0.4 x
0.2 0.2 0.2 0.2 0.2 0.2
0.00.0 0.00.0 0.00.0
α1 = 3, α2 = 3, α3 = 3 α1 = 1, α2 = 1, α3 = 1 α1 = 0.6, α2 = 0.6, α3 = 0.6
8 8 8
6 6 6
De
De
De
4 4 4
nsi
nsi
nsi
2 2 2
dad
dad
dad
0 0 0
−2 −2 −2
1.0 1.0 1.0
0.8 1.0 0.8 1.0 0.8 1.0
0.6 0.8 0.6 0.8 0.6 0.8
0.6 0.6 0.6
0.4 0.4 0.4
y
0.4 x 0.4 x 0.4 x

0.2 0.2 0.2 0.2 0.2 0.2
0.00.0 0.00.0 0.00.0
Figura 3.3: Gráficos de funciones de densidad de una distribución de Dirichlet con k = 3 para
distintos parámetros
Γ (α +α ) α −1 α −2
Si k = 2, fX1 X2 (x1 , x2 ) = Γ (α 1)Γ (α2 ) x1 1 x2 2 . Sin embargo, como x1 + x2 = 1, tiene poco sentido
1 2
el considerarse al vector aleatorio bidimensional [X1 , X2 ]> ya que para cualquier valor que
tome X1 , automáticamente se sabrá que X2 = 1 − X1 . Consecuentemente, esta distribución
solo será útil de representarla mediante X1 con la siguiente función de densidad
Γ (α1 + α2 ) α1 −1
fX1 (x) = x (1 − x)α2 −2 , 0 < x < 1.
Γ (α1 )Γ (α2 )
Esto recordemos nos dice que X1 ∼ B(α1 , α2 ).
La observación anterior es válida en más dimensiones; esto es, si bien la distribución de
Dirichlet vive, es decir tiene como rango, al sı́mplice Sk que está en Rk , este es en si un objeto
de dimensión k − 1 que deberı́a de caracterizarse por la función de densidad conjunta
k−1 αi −1
 Γ (α ) Q Pk−1 α −1
0
 Qk Γ (αi ) i=1 xi (1 − i=1 xi ) k si (x1 , x2 , . . . , xk−1 ) ∈ Dk−1


fX1 ,X2 ,...,Xk−1 (x1 , x2 , . . . , xk−1 ) =  i=1
0 en caso contrario


donde Dk−1 = {[x1 , x2 , . . . , xk−1 ]> ∈ [0, 1]k−1 / x1 + x2 + . . . + xk−1 ≤ 1} y Xk = 1 − k−1

P
i=1 Xi . Se debe
entonces cumplir, al ser la anterior una función de densidad conjunta, la siguiente identidad
k−1 k−1 Qk
(αi )
Z
i=1 Γ
Y X
α −1 αk −1
xi i (1 − xi ) dx1 dx2 , . . . dxk−1 = . (3.1)
Dk−1 i=1 Γ (α0 )
i=1
Seguidamente ilustraremos algunas propiedades básicas de la distribución de Dirichlet.
Proposición 3.10. Si X ∼ Dir(α), entonces para cualesquieras i , j ∈ {1, , . . . , k} se cumple que

α1
1. E(Xi ) = α0 .
αi (α0 −αi )
2. V (Xi ) = α02 (α0 +1)
.
i j αα
3. Cov(Xi , Xj ) = − α 2 (1+α )
, ∀i , j ∈ {1, 2, . . . , k}.
0 i
Demostración: 1. Sea i ∈ {1, 2, . . . , k − 1}, entonces

Z k−1 k−1
Γ (α ) Y αj −1 X
E(Xi ) = xi Qk 0 xj (1 − xj )αk −1 dx1 dx2 . . . dxk−1 .
Dk−1 i=1 Γ (αi ) j=1 j=1
Definiendo βi = αi + 1 y βj = αj , ∀j , i, se cumple entonces por (3.1) que

Z k−1 k−1
Γ (β0 ) αi Y βj −1 X α
E(Xi ) = Qk x j (1 − xj )βk −1 dx1 dx2 . . . dxk−1 = i .
Dk−1 α0 i=1 Γ (βi ) j=1 α0
j=1
α0 −αk αk
Esto es también válido para E(Xk ), pues E(Xk ) = 1 − k−1
P
i=1 E(Xi ) = 1 − α0 = α0 .
2. Siguiendo exactamente el mismo procedimiento que en 1. pero con βi = αi + 2, se tiene que
Z k−1 k−1
Γ (β0 ) αi (αi + 1) Y βj −1 X α (α + 1)
E(Xi2 ) = Qk x j (1 − xj )βk −1 dx1 dx2 . . . dxk−1 = i i .
Dk−1 α0 (α0 + 1) i=1 Γ (βi ) j=1 α0 (α0 + 1)
j=1
αi (αi +1) α2 αi (α0 −αi )

Luego, V (Xi ) = α0 (α0 +1)
− αi2 = α02 (α0 +1)
.
0
3. Similarmente definamos βi = αi + 1, βj = αj + 1 y βh = αh , ∀h , i, j. Entonces
k−1 k−1
Γ (β0 ) αi αj αi αj
Z
βh −1
Y X
E(Xi Xj ) = Qk xh (1 − xh )βk −1 dx1 dx2 . . . dxk−1 = .
Dk−1 α0 (α0 + 1) i=1 Γ (βi ) h=1 α0 (α0 + 1)
h=1
αi αj αi αj α αj
Por tanto, Cov(Xi , Xj ) = E(Xi Xj ) − E(Xi )E(Xj ) = α0 (α0 +1)
− α02
= − α 2 (αi .
0 0 +1)
Una caracterización importante, asociada a la distribución Gamma, para la distribución de

Dirichlet se resume en la siguiente proposición.
Proposición 3.11. Sea Y1 , Y2 , . . . , Yk una colección de v.a’s independientes con Yi ∼ Γ (αi , β). Si definimos
Xi = PkYi , ∀i = 1, 2, . . . , k, entonces
`=1 Y`
(X1 , X2 , . . . , Xk ) ∼ Dir(α).
Más aún, este vector aleatorio resulta ser independiente de k`=1 Y` .

P
Demostración: Esta se basa fundamentalmente en el teorema de cambio de variable. Antes no es difı́cil

mostrar, usándose por ejemplo funciones generatrices de momentos, que la v.a. X̃k = k`=1 Y` tiene dis-
P
Pk
tribución Gamma de parámetros α0 = `=1 αi y β. Ello se develará también el siguiente desarrrollo.
Definimos la transformación multivariada 1-1
k
Y X
X̃i = Pk i , ∀i = 1, 2, . . . , k − 1 y X̃k = Y` .
`=1 Y` `=1
Su transformación inversa viene dada por
k−1
X
Yi = Gi (X̃1 , X̃2 , . . . , X̃k ) = X̃i X̃k , ∀i = 1, 2, . . . , k − 1 e Yk = X̃k (1 − X̃` ).
`=1
El teorema de cambio de variable (en su versión multidimensional) nos dice entonces que la función de
densidad conjunta del nuevo vector (X̃1 , X̃2 , . . . , X̃k ) viene dada por
fX̃1 X̃2 ...X̃k (x1 , x2 , . . . , xk ) = fY1 Y2 ...Yk (G1 (x1 , x2 , . . . , xk ), . . . , Gk (x1 , x2 , . . . , xk ))|J(x1 , x2 , . . . , xk )|
donde |J(x1 , x2 , . . . , xk )| denota al determinante del Jacobiano; es decir, de la matriz cuya entrada (i, j)
viene dada por la derivada parcial ∂G ∂x
i
(x1 , x2 , . . . , xk ). Esta matriz y su determinante vienen dados por
j

xk 0 ... 0 x1

0 xk ... 0 x2
k−1
.. .. .. .. ..
X
. = xk−1 (1 − x` ),
. . . .

k
0 0 . . . xk xk−1 `=1
Pk−1
−xk −xk . . . −xk 1 − `=1 x`

Luego,
Pk−1
Qk−1 k−1 k−1
β α0 i=1 (xi xk )
αi −1 e−βxk i=1 xi X P X
fX̃1 X̃2 ...X̃k (x1 , x2 , . . . , xk ) = Qk (xk (1− x` ))αk −1 e−βxk (1− `=1 x` ) xkk−1 (1− x` )
i=1 Γ (αi ) `=1 `=1
k−1 k−1 k−1 k−1 α −1

β α0 α −k
Y
α −1
X Γ (α0 ) Y
α −1
X β α0 xk 0 e−βxk
= Qk xk 0 xi i (1− x` )αk −1 xkk−1 e−βxk = Qk xi i (1− x` )αk −1
× .
Γ (α0 )
i=1 Γ (αi ) i=1 `=1 i=1 Γ (αi ) i=1 `=1
Esta factorización nos muestra el resultado buscado e indica de paso la independencia entre el vector de
Dirichlet y la distribución Gamma de la suma.
Dado que la suma de variables independientes Gamma con un mismo parámetro de forma β
es otra distribución Gamma, el resultado anterior nos permitirá particionar todo vector de Diri-
chlet en sub-vectores que tienen también distribuciones marginales de Dirichlet. En particular,
sea X = [X1 , X2 , . . . , Xk ]> ∼ Dir(α) y consideramos cualquiera de sus componentes Xi . Si admitimos
la representación de la proposición 3.11 podrı́amos considerar las v.a’s independientes
k
X
Yi ∼ Γ (αi , β) y Y` ∼ Γ (α0 − αi , β).
`=1
`,i
Ası́, una aplicación de la proposición 3.11 nos dice que
Y Yi
Xi = Pk i = Pk ∼ B(αi , α0 − αi ).
`=1 Y` `=1 Y` + Yi
`,i
3.9. Ejercicios
1. Suponga que el número de solicitudes de tarjetas de crédito rechazadas, luego de aprobarse
una,hasta otorgar nuevamente otra tarjeta de crédito es, en una agencia A, una v.a. X y el
número de solicitudes de tarjetas de crédito rechazadas, luego de aprobarse una, hasta otor-
gar nuevamente otra tarjeta de crédito es, en otra agencia B del mismo banco una v.a. Y . Si
asumimos que la función de probabilidad conjunta de estas v.a’s viene dada por:
 x y
 C 12 1
si x = 1, 2, 3, . . . ; y = 1, 2, 3, . . .


PXY (x, y) =  5

 0 en otro caso
a) Halle la constante C.
b) Halle la distribución marginal de X y la probabilidad de que luego de aprobarse una tarjeta
de crédito en la agencia A se rechazen más de 3 solicitudes en esta misma agencia hasta que
se vuelva a aprobar una nueva tarjeta de crédito.
c) ¿Son X e Y variables aleatorias independientes?
d) Halle e interprete P (X − Y = 1).
2. Suponga que el gasto total mensual en propaganda de una compañı́a en miles de soles Y y
el gasto mensual en propaganda televisiva de esta compañı́a, X, también en miles de soles se
modelan mediante un vector aleatorio (X, Y ) con función de densidad conjunta
8
(
81 xy si 0 < x ≤ y ≤ 3
fXY (x, y) =
0 en otro caso
a) ¿Con qué probabilidad que durante un mes la compañı́a destinará más del 80 % de sus gastos
de propaganda a la televisión?
b) ¿Con qué probabilidad la compañı́a destinará más de 2,000 soles para propaganda durante
un mes?
c) ¿Son X e Y variables aleatorias independientes. Si no lo son, halle e interprete su correlación
de Pearson.
3. Sea (X, Y ) un vector aleatorio discreto con función de probabilidad conjunta
 x y
 C 31 1
si x = 1, 2, . . . ; y = 1, 2 . . .


PXY (x, y) =  4

 0 en otro caso
b) Halle la correlación de Pearson entre X e Y.
c) Halle la regresión de Y sobre X e interprete.
4. Los valores de dos acciones pueden bajar 1 punto porcentual, permanecer igual, o subir 1 punto
porcentual durante cada dı́a. Un economista tiene dos modelos distintos para la función de
probabilidad conjunta de :
Modelo A Modelo B
PXY (x, y) x PXY (x, y) x
y -1 0 1 y -1 0 1
-1 c 3c 5c -1 0.2 0.05 0.01
0 c 3c c 0 b 0.05 b
1 3c 2c c+b 1 0.05 0.05 0.27
a) Halle c y b.
b) ¿En algún modelo hay más probabilidad de que las acciones no muestren cambios?
c) Halle las distribuciones marginales de este vector.
d) Si subirá de todos modos ¿Qué pronosticarı́a para en cada modelo? Use probabilidades para
responder.
5. En un distrito el número X de personas por familia es una v.a. y el número Y de miembros de
la familia que tienen trabajo también es aleatorio, de modo que es v.a. discreto con función de
probabilidad conjunta:
(
Cx si x = 1, 2, . . . , 4; y = 0, 1, . . . , x
PXY (x, y) =
0 en otro caso
a) Halle la constante C que hace de esta una función de probabilidad conjunta.

b) Calcule la probabilidad de que todas las personas en una familia tengan trabajo ¿Dirı́a que
ocurrirá este evento?
c) Calcule la probabilidad de que exactamente la mitad de una familia tenga empleo.
d) Una familia está compuesta de tres personas: Halle ¿Cuál serı́a la probabilidad de que hu-
biera menor cantidad de empleados que lo esperado?
6. Un economista que labora como consultor puede trabajar X proyectos, donde X es una v.a.
discreta con función de probabilidad dada por: PX (x) = C/x x = 1, 2, 3. siendo C una constante.
De otro lado, si X = x, puede que incumpla los plazos en Y de ellos según PY |X=x (y) = by y =
0, 1, . . . , x donde b depende de x.
a) Calcule el valor de C y la función de probabilidad conjunta de (X, Y ) (puede ser una tabla si
le parece)
b) ¿Con qué probabilidad el economista incumplirá todos los proyectos asumidos?
7. Un banco tiene 6 ventanillas de atención al público, de las cuales durante la mañana X están
abiertas. Si bien el Banco ha indicado claramente que operaciones se realizan en ventanilla
y cuales en plataforma, las ventanillas eventualmente derivan atenciones a plataforma. Si Y
denota al número de ventanillas que derivan alguna atención a plataforma y se asume que X e
Y poseen la siguiente función de probabilidad conjunta
 19xy
 si x = 1, 2, . . . , 6; y = 1, 2, . . . , x
 910(x+1)



PXY (x, y) =  0.05 3

 91 x si x = 1, 2, . . . , 6 e y = 0
0 en otro caso


a) Halle la probabilidad de que una mañana atiendan al público 3 ventanillas y al menos 2 de

ellas deriven atenciones a plataforma.
b) ¿Con qué probabilidad no se derivarán en una mañana atenciones a plataforma?
c) Halle la función de probabilidad marginal de X.
d) Halle la función de probabilidad condicional de Y dado que X = x y el valor esperado de
esta distribución.
8. Un juego entre dos participantes consiste en cada uno lance un dado, ganando el que obtenga
un mayor puntaje y llevándose como premio un monto en soles igual a 10 veces la suma de los
puntos de los dos dados. En caso de empate, la suma se divide en partes iguales entre los dos y
por participar en el juego los participantes deben de pagar a la casa de juegos cada uno 30 soles.
a) Halle la función de probabilidad conjunta del puntaje ganador y del premio que se llevará
alguno o los dos participantes del torneo.
b) ¿Cuánto se espera obtenga cada participante?
c) ¿Cuánto esperará obtener la casa de juegos en cada juego?
9. Sea (X, Y ) un vector aleatorio, donde X es la utilidad distribuida entre socios de una empresa e
Y es la utilidad total de la empresa, con función de densidad conjunta,
(
C(x + 2y) si 0 < x < 1; 0 < y < 1
fXY (x, y) =
0 en otro caso
donde X e Y están en millones de u.m.

a) Grafique el rango de este vector aleatorio y halle la constante C.
b) Calcule la probabilidad de que se reinvierta utilidades por más de 0.6 millones.
c) Calcule la función de densidad marginal de Y y la función de densidad condicional de X
dado que Y = y.
d) Si la utilidad total fue de 0.8 millones ¿se habrı́a distribuido más de 0.2 millones?
10. Sea (X, Y ) un vector aleatorio donde X = Ingreso e Y = Consumo, con función de densidad
conjunta:
(
C(x + y) si 0 < x < 1, 0 < y < 1
fXY (x, y) =
0 en otro caso
a) Halle la constante C y la probabilidad de que el consumo supere la mitad del ingreso.
b) Calcule las funciones de densidad marginales de X e Y
c) Halle la distribución condicional de Y dado X: fY |X (y | x).
11. En el ejemplo 1.36, vimos el problema de la licitación en el cual habián dos postores para la
compra de una empresa y en donde ambos podı́an ofrecer independiente e indistintamente
precios de entre 0 y 1 millón de u.m. Sean X e Y las ofertas de estos postores y supongamos
ahora que estas v.a’s tienen la siguiente función de densidad conjunta
(
C(2x + y) si x ∈ [0, 1] e y ∈ [0, 1]
fXY (x, y) =
a) Halle el valor de C.
b) ¿Con qué probabilidad el segundo postor ganará la licitación?
c) Halle las distribuciones marginales de X y de Y . ¿ Son estas v.a’s independientes?
d) Si al leerse la oferta del primer postor esta es de 680,000 u.m, ¿que oferta se esperará halla
ofrecido el otro postor?
d) Halle y grafique la función de densidad de la oferta ganadora.
12. Al analizar la privatización de una empresa, un economista asume que el precio de venta es una
variable aleatoria continua Y que toma valores entre 0 y X millones de unidades monetarias,
donde X es la estimación subjetiva del valor de la empresa. Si (X, Y ) es un vector aleatorio
continuo con función de densidad conjunta
( y
2 x2 si 1 < x < 2, 0 < y < x
fXY (x, y) =
0 en otro caso
X
a) Halle e interprete P (Y < 2 ).
b) Muestre que la función de densidad marginal de Y viene dada por



 y si 0 < y ≤ 1

fY (y) =  2 − y si 1 < y < 2



 0
 en otro caso
c) En general ¿en cuánto se espera vender la empresa?

d) ¿En cuánto aumentarı́a el precio esperado de venta de la empresa si se logra aumentar en
100,000 u.m. la percepción de su valor?
13. Sea (X, Y ) un vector aleatorio continuo, donde X = PBI de una región e Y = PBI Minero de la
región, ambos en millones de unidades monetarias, con función de densidad conjunta:
ye−x si 0 < y < x

(
fXY (x, y) =
0 en otro caso
a) Verifique que esta es una función de densidad conjunta y halle la probabilidad de que el PBI
minero sea mayor al 50
b) Halle las distribuciones marginales de X y de Y ¿Son distribuciones conocidas? Halle las
medias y desviaciones estándar de X y de Y .
c) Halle la correlación de Pearson entre X e Y. Interprete.
d) Halle e interprete la regresión de X sobre Y.
e) ‘¿En cuánto variará en promedio el PBI minero, si el PBI de la región se incrementara en 3
millones de unidades monetarias?
14. Sea (X,Y) un vector aleatorio, donde X = Monto de una inversión e Y = Ganancia o pérdida de
la inversión, que tiene una función de densidad conjunta
(
c si − 2x < y ≤ 0, 0 < x < 1
fXY (x, y) =
2c si 0 < y < x, 0 < x < 1
a) Grafique el rango del vector aleatorio (X, Y ) y halle la constante c .

b) Calcule la probabilidad de que tener ganancia con la inversión.
c) Calcule la función de densidad marginal de X y la función de densidad condicional de Y
dado que X = x.
15. En base a la historia de cómo se reinvierte la utilidad de una empresa, un economista ha plan-
teado la siguiente función de densidad conjunta para las v.a’s X = Utilidad mensual de la em-
presa en miles de u.m. e Y = Monto de esta utilidad mensual de la empresa que se reinvierte en
producción
(x − y)e−x si 0 < y ≤ x
(
fXY (x, y) =
a) Halle la probabilidad de que en un mes se destine a reinversión no más del 10 % de las
utilidades.
b) Halle la función de densidad marginal de X ¿Qué tan probable es que la utilidad de la
empresa en un mes supere las 3000 u.m?
c) El economista manifiesta que si se conociera la utilidad de la empresa en un mes, es mucho
más probable que los montos de inversión sean bajos a cercanos al valor total de las utilidades.
Muestre gráficamente si esto es cierto o no y comente.
d) ¿ Son X e Y independientes?
e) Halle la correlación de Pearson entre X e Y .

f) Halle e interprete la regresión de Y sobre X.
16. Para un bien producido en dos etapas consecutivas, se sabe que el Tiempo X de producción en
la 1era. etapa y el Tiempo total Y de producción del bien, tienen función de densidad conjunta:
Ce−y/5 si 0 < x ≤ y
(
fXY (x, y) =
0 en otro caso
a) Halle C y las distribuciones marginales de X e Y ¿Son independientes X e Y ?

b) Si T =Tiempo de producción en la 2da. etapa, halle la probabilidad de que T no supere las
t horas. En base a esto ¿Cuál serı́a la función de densidad de T ?
17. Suponga que el gasto total mensual en propaganda de una compañı́a en miles de soles Y y
el gasto mensual en propaganda televisiva de esta compañı́a, X, también en miles de soles se
modelan mediante un vector aleatorio (X, Y ) con función de densidad conjunta
Cx2 y 2 si 0 < x ≤ y ≤ 3
(
fXY (x, y) =
a) Halle la contante C.
b) Halle la probabilidad que durante un mes la compañı́a destine más del 80 % de sus gastos
de propaganda a la televisión.
c) Halle la función de densidad marginal de Y y su valor esperado.
d) Suponga que en un mes la compañı́a gasto un total de 2000 soles en propaganda ¿cuánto de
este monto esperarı́a que se halla destinado a la propaganda en televisión?
18. Suponga que los clientes arriban a la oficina de préstamos de un Banco según un proceso de
Poisson a razón de 10 clientes por dı́a. La probabilidad de que a cualquiera de estos clientes
se le otorgue un préstamo es de 0.4. En tal caso el monto del préstamo se asume sigue una
distribución Lognormal de parámetros µ = 7 y σ 2 = 4.
a) ¿Con qué probabilidad a un cliente de crédito aprobado se le prestará más de 5000 soles?
b) ¿Con qué probabilidad durante una semana útil (5 dı́as) llegarán más de 38 clientes a pedir
un préstamo a la oficina?
c) Si durante una semana útil (5 dı́as) llegan un total de 38 clientes para pedir un préstamo a
la oficina ¿cuál es la probabilidad de que a solo 4 o menos de ellos se les niegue el préstamo?
d) ¿Con qué probabilidad pasarán más de dos dı́as sin que llegue algún cliente a la oficina?
e) Si X denota al número de clientes que acuden para pedir un préstamo a la oficina en un dı́a
e Y denota al número de estos clientes a los que se les otorga el préstamo, halle la función de
probabilidad conjunta del vector aleatorio (X, Y ).
f) ¿Con qué probabilidad en un dı́a se otorgarán créditos a más de 4 clientes?
g) Si durante un dı́a se otorgaron préstamos a 4 clientes, ¿con qué probabilidad habrán llegado
ese dı́a 8 o menos clientes a la oficina?
19. Un agente tiene un capital de 100 u.m y desea invertir este monto en C acciones de una empresa
A y el resto en acciones de una empresa B, las cuales tienen hoy precios por acción de 20 u.m
y 16 u.m respectivamente. Sean X e Y las rentabilidades diarias de cada una de las acciones
de las empresas A y B respectivamente. Si asumimos que ambas rentabilidades son variables
aleatorias que se distribuyen conjuntamente de manera Normal, con X ∼ N ( 21 , 14 ) , Y ∼ N (1, 2) y
con correlación -0.25.
a) Halle la probabilidad de que el precio de una acción A supere mañana las 25 u.m.
b) ¿Con qué probabilidad el precio de una acción A superará mañana al precio de una acción
B?
c) Si C = 3.5 ¿ qué rentabilidad se esperará tenga la inversión realizada por el agente?
d) Suponga que ma nana el agente decide vender su cartera, halle en función de C la varianza
del precio que tendrán que pagarle por esta cartera y el valor de C que minimice tal varianza.
20. Un economista plantea para la empresa en que trabaja un modelo normal multivariado para el
vector [X1 , X2 , X3 , Y ]> , donde Y es el salario mensual en miles de dólares de un vendedor de la
empresa, X1 el número de años de estudio, X2 el número de años de experiencias en ventas y X3
es el número promedio de horas diarias que el vendedor realiza trabajo de oficina. Si el vector de
medias y la matriz de varianza-covarianzas de este vector vienen dados por µ = [5.8, 2.5, 5, 0.8]>
y
 
 4 −0.8 0 0.24 

 −0.8 1 0 0.75 

Σ =   .
 0 0 9 0.45 
 
0.24 0.75 0.45 0.09
a) Halle la probabilidad de que un vendedor de esta empresa gane más de 1000 dólares men-
suales?
b) Halle la probabilidad que al seleccionarse un trabajor de esta empresa, este tenga más expe-
riencia que años de estudio.
c) Si un vendedor tiene 6 años de estudio y 1.8 años de experiencia en ventas ¿qué salario se
esperará perciba y cuántas horas diarias en promedio se esperará realice de trabajo de oficina?
d) Suponga se seleccionan al azar 10 trabajadores de la empresa a quienes se los clasificará en
4 grupos. Para ello se considerará primero a aquellos que tienen más experiencia que años
de estudio y al resto y luego de esos dos grupos a aquellos que hallan permanecido o no
en promedio más de 5 horas de oficina por dı́a en la empresa ¿Con qué probabilidad estos
trabajadores se distribuirán por igual en los tres primeros grupos, con excepción del grupo de
menos experiencia y tiempo en oficina, en donde se tendrán más trabajadores?
Capı́tulo 4
Muestreo y estadı́sticas
4.1. Población, muestra y estadı́sticas

Entenderemos por población a una colección bien definida de elementos en los cuales se mide
o registra alguna(s) caracterı́stica(s) de interés. En el caso de la Economı́a las poblaciones están
constituidas por los llamados “agentes económicos consumidores, empresas ,etc.- y en ellos se
registra numéricamente caracterı́sticas relativas a su comportamiento en la asignación y distri-
bución de recursos; estas caracterı́sticas reciben nombres especı́fico, como “Consumo”, “Ingreso”,
“Precio”, etc. y el análisis cuantitativo usa las cifras registradas para hacer explı́citas las relacio-
nes entre ellas y lograr predicciones confiables. Las caracterı́sticas mencionadas antes, cambian
de agente en agente, esto es, son “variables” y podemos tratarlas como tales en el análisis formal.
Registrar el valor de una variable económica X en cada elemento de una población es algo que
raramente se hace o se puede hacer. La cantidad de elementos suele ser demasiado grande o estar
muy dispersa, para hacer un “levantamiento” total de datos - o sea un Censo -, de modo que uno se
tiene que contentar con registrar datos no en toda, sino en parte de la población. Esto es, uno debe
trabajar con muestras, con datos muestrales, y confiar en que éstos representen bien a la población.
Las muestras pueden ser generadas de diversas maneras, y una de ellas es la selección “objetiva”
de elementos, que consiste en dejar que sea el azar quien defina cuáles elementos constituirán
la muestra. Este sistema es objetivo pues podemos confiar en que el azar no tiene favoritos y
que si algunos valores en la población son más frecuentes que otros - por ejemplo, las empresas
pequeñas en relación a las grandes - esto se verá reflejado a la hora de hacer un sorteo de modo
que en última instancia, serán las relaciones entre las fuerzas de la economı́a las que determinen
las componentes de la muestra.
El tomar muestras hace posible el análisis económico, pero también lo complica: las cifras ob-
tenidas no sólo reflejan las relaciones económicas; también tienen una componente aleatoria. Esto
es, las variables económicas registradas se convierten en variables aleatorias, debido al mecanis-
mo de sorteo usado para la selección. Entonces, el economista necesita alguna herramienta que le
permita separar los “efectos económicos” de los “efectos del azar”, que se consideran residuales,
de poca importancia relativa, pero que de no ser considerados en el análisis pueden inducir cier-
tas discrepancias en los pronósticos que podrı́an ser tomadas como error en el análisis económico
de base. Por otro lado, el fracaso de un análisis económico -esto es, la discrepancia grave entre el
139
pronóstico derivado del análisis y la realidad observada- puede ser encubierto por el “efecto del
azar” si no nos tomamos la molestia de separar éste último. En resumen, el economista necesita
herramientas de trabajo que sean eficientes y formalmente convincentes, con sustento racional.
La Estadı́stica Inferencial trata de las técnicas racionales del análisis de datos provenientes
de muestras. Estas técnicas se basan en la teorı́a de probabilidad -las “leyes del azar”- y para
estudiarlas necesitamos formalizar algunos conceptos, antes de hacer derivaciones lógicas que
proporcionen las técnicas que buscamos.
Definición 4.1 (Población). Sea X una variable (o vector) aleatorio con rango RX y sea fX (x) su fun-
ción de densidad o de probabilidad según sea el caso. La población de X se define como el conjunto
{(x, fX (x)) / x ∈ RX }.
Definición 4.2. Sea X una variable aleatoria. Una muestra aleatoria de tamaño n (m.a.) de X es un
vector aleatorio n− dimensional (X1 , X2 , . . . , Xn ) cuyas componentes representan el proceso de repetir
n veces, y de manera independiente, el experimento aleatorio que genera a X , registrando sus valores
obtenidos.
Observaciones:
Conceptualmente la componente Xj es la misma v.a. X , el subı́ndice sólo indica la repetición
en la cual se registra el valor de X.
Por construcción hay independencia entre las componentes, por tanto la función de probabi-
lidad o densidad conjunta de la m.a. viene dada por:
n
Y
fX1 X2 ...Xn (x1 , x2 , . . . , xn ) = fX1 (x1 ) fX2 (x2 ) . . . fXn (xn ) = fX (x1 ) fX (x2 ) . . . fX (xn ) ≡ fX xj .
j=1
Se resumen los dos puntos anteriores diciendo que X1 , X2 , . . . , Xn son variables aleatorias in-
dependiente e idénticamente distribuidas, lo que se denota por i.i.d.
Toda la información disponible acerca de la distribución de X está en la muestra, y para
procesarla exitosamente se procede por lo general a resumir dicha información con uno o
más ı́ndices que representen caracterı́sticas importantes de la muestra aleatoria.
Si bien en la práctica una muestra aleatoria de tamaño n se puede generar seleccionando al
azar y con reemplazamiento a n unidades de una población en las cuales se busca medir X,
sucede que en la realidad estas muestras se toman sin reemplazamiento. Esto último hace
que se pierda la independencia, pero si la población es suficientemente grande o infinita
las componentes de la muestra se podrı́an considerar prácticamente independientes y por
tanto conformarán una m.a. Si la población es finita y no muy grande, existe toda una teorı́a
de poblaciones finitas, muy útiles en el muestreo, que por la extensión de este curso no la
trataremos aquı́, aunque que sı́ la consideraremos cuando la situación lo amerite.
Definición 4.3 (Estadı́stica). Una estadı́stica es cualquier función que sólo depende de las componentes
de una muestra aleatoria.
Algunos ejemplos recurrentes de estadı́sticas son

1 Pn
La media muestral: X̄ = n i=1 Xi .
1 Pn 1 Pn 2
La varianza muestral: S 2 = n−1 2 2
i=1 (Xi − X̄) = n−1 ( i=1 Xi − nX̄ ).
El k−ésimo momento muestral: Mk = n1 ni=1 Xik .
P
Las estadı́sticas de orden: X(1) ≤ X(2) ≤ . . . ≤ X(n) , donde en particular X(1) = mı́n{X1 , X2 , . . . , Xn }
y X(n) = máx{X1 , X2 , . . . , Xn }.
Observaciones:
Una estadı́stica es una función que “caracteriza” determinado aspecto de la muestra; por ci-
tar, la media muestral caracteriza la “tendencia central” de los datos muestrales, y la varianza
- o mejor aún, su raı́z cuadrada S, denominada la desviación estándar muestral, - caracteri-
zan la “tendencia a la dispersión” de los datos. Como se ve, las estadı́sticas son maneras de
procesar la información presente en la muestra, que permiten obtener datos relativos a la
población de donde proviene ésta y hacer inferencias de la muestra a la población.
Toda estadı́stica es una variable aleatoria: su valor cambia de muestra en muestra y lo hace
según el azar, generado por los valores de X. Esto es, toda estadı́stica tiene una distribución de
probabilidades, que por lo general es diferente de la de X , pero que hereda sus parámetros.
Esta es llamada una distribución muestral
Analizaremos seguidamente alguna de las estadı́sticas arriba definidas, empezando por las
estadı́sticas de orden. La siguiente proposición nos indica cómo es la función de distribución de
estas.
Proposición 4.1. La función de distribución de la estadı́stica de orden k, X(k) viene dada por:
n
X
FX(k) (x) = Cjn FX (x)j (1 − FX (x))n−j
j=k
En particular, las funciones de distribución del máximo y mı́nimo vienen dadas por:
FX(n) (x) = FX (x)n y FX(1) (x) = 1 − (1 − FX (x))n .
Demostración: Sea x ∈ R y definamos la v.a. Y = número de v.a’s en la muestra aleatoria de tamaño n de

X que son menores o iguales que el valor x. Como es fácil de ver Y ∼ B(n, p), donde p = P (X ≤ x) = FX (x).
Ası́, FX(k) (x) = P (X(k) ≤ x) = P (Y ≥ k) = nj=k Cjn FX (x)j (1 − FX (x))n−j . Los casos para el mı́nimo y
P
máximo son directos de obtener reemplazando arriba k = 1 y k = n. Otra manera de deducirlos es

notando que
Yn
FX(1) (x) = P (X(1) ≤ x) = 1−P (X(1) > x) = 1−P (X1 > x, X2 > x, . . . , Xn > x) = 1− P (Xi > x) = 1−(1−FX (x))n
i=1
y
n
Y
FX(n) (x) = P (X(n) ≤ x) = P (X1 ≤ x, X2 ≤ x, . . . , Xn ≤ x) = P (Xi ≤ x) = (FX (x))n .
i=1

Ejemplo 4.1. Sea X1 , X2 , . . . , Xn una m.a. de una v.a. X ∼ U ([0, β]), halle la función de densidad y el
valor esperado del máximo de esta muestra.
Solución: Sea Y = máx{X1 , X2 , . . . , Xn }. Naturalmente RY = [0, β] y por la proposición anterior FY (y) =
y y n−1
FX (x)n = ( β )n . En consecuencia, derivando, fY (y) = n βn , si 0 ≤ y ≤ β y
β β β β
y n−1 yn n y n+1 β n β n+1
Z Z Z Z !
n n n
E(Y ) = yfY (y)dy = yn n dy = n n dy = n y dy = n = n = β.
0 0 β 0 β β 0 β n+1 0 β n+1 n+1
Ejemplo 4.2. La duración X de una conexión a Internet es una v.a. con distribución exponencial de
parámetro θ1 , donde θ > 0 es un parámetro desconocido. Una institución reguladora piensa tomar una
muestra al azar de n consumidores, tomados por sorteo del registro de abonados a un servicio de banda
ancha, y registrar los respectivos tiempos de conexión X1 , X2 , . . . , Xn . Si se definen las estadı́sticas Y que
mide el tiempo de la conexión más breve y W la duración total de las conexiones en la muestra.
a) Calcule la función generatriz de momentos de W y pruebe que W tiene distribución Gamma.
b) Halle la función de distribución FY (y) de la estadı́stica Y junto con su función de densidad fY (y).
Solución: a) Por definición
Pn Pn tXi Yn Yn n
Y
MW (t) = E etW = E et i=1 Xi = E e i=1 e = E etXi = MXi (t) = MX (t) = (MX (t))n
i=1 i=1 i=1
n n
1/θ 1

= =
1/θ − t 1 − θt
que es en efecto la función generatriz de momentos de una distribución Gamma de parámetros α = n y
β = θ, es decir, W ∼ Γ (n, θ).
b) Para la v.a. Y = mı́n{X1 , X2 , . . . , Xn } se cumple que si y ∈ RY = [0, ∞[,
1 ny
FY (y) = P (Y ≤ y) = 1 − (1 − FX (y))n = 1 − (e− θ y )n = 1 − e− θ .
Esta no es sino la función de distribución de una v.a. con distribución exponencial y por tanto Y ∼
Exp( θn ).
4.2. La ley de los grandes números y el TLC

Exploremos ahora la distribución de la media muestral X̄ de una m.a. X1 , X2 , . . . , Xn de una v.a.
X con media µ = µX y varianza σ 2 = σX2 . Un cálculo directo nos dice que la media y varianza de
esta estadı́stica vienen dadas por:
n n
1X 1 X nσ 2 σ 2
E(X̄) = E(Xi ) = µ y V (X̄) = 2 V (Xi ) = 2 = .
n n n n
i=1 i=1
Ası́, si n → ∞ la distribución de X̄ tenderá a degenerase en el punto µ. Tras de esta intuición recaen

dos de los resultados más relevantes en la inferencia estadı́stica: la ley de los grandes números y el
teorema del lı́mite central. En breves palabras, el primer resultado nos dice que conforme aumente
el tamaño de la muestra X̄ se aproxima cada vez más al valor de la media de la población de X, µ;

mientras que el segundo resultado indica que la distribución de X̄ se aproxima cada vez más al de
una distribución normal centrada en µ y con la varianza arriba dada. Para ser formales, requerimos
aquı́ entender en que sentido se dan estas “aproximaciones”, para lo cual introduciremos dos tipos
de convergencia.
Definición 4.4 (Convergencia en probabilidad). Diremos que una secuencia de v.a’s {Xn } converge en
P
probabilidad a una v.a X, y utilizaremos para ello la notación Xn → X, si
lı́m P (|Xn − X| > ) = 0, ∀ > 0.

n→∞
P
Observación: Tomando complementos, una manera equivalente de decir que Xn → X es diciendo
que lı́mn→∞ P (|Xn −X| ≤ ) = 1, ∀ > 0. Ası́, si esto ocurre podremos afirmar que conforme n crezca
podremos encontrar, casi con seguridad, de que {Xn } se encuentra tan cerca de X como queramos.
Definición 4.5 (Convergencia en distribución). Sea {Xn } una sucesión de v.a’s con funciones de dis-
tribución respectivas {Fn } y sea X una v.a con función de distribución F. Diremos que {Xn } converge en
D
distribución a X, y lo denotaremos por Xn → X, si
lı́m Fn (x) = F(x), ∀x ∈ C(F),

n→∞
donde C(F) denota al conjunto de puntos de continuidad de F.
Observaciones:
A diferencia de la convergencia en probabilidad, aquı́ no es necesario que las v.a’s involucra-
das estén definidos en el mismo espacio probabilı́stico ya que ellas no son las que convergen
sino sus funciones de distribución.
Vale destacar que el conjunto de puntos de discontinuidad de F; es decir, C(F)c es siempre a
lo más enumerable.
Proposición 4.2 (La ley de los grandes números). Si X1 , X2 , . . . , Xn es una m.a. de una v.a. X con
P
media µ y varianza σ 2 , entonces X̄ → µ.
Demostración: Por la desigualdad de Tchebychev, dada en la proposición 1.10, se cumple que
σ 1
P (|X̄ − µ| < K √ ) ≥ 1 − 2 , ∀K > 0.
n K
Kσ
Tomándose = √
n
> 0, el cual es arbitrario, pues K lo es, se tiene que
σ2
1 ≥ P (|X̄ − µ| ≤ ) ≥ 1 − .
2 n
P
Ası́, si n → ∞, el teorema del Sandwich, garantiza que lı́mn→∞ P (|X̄ − µ| ≤ ) = 1, es decir, X̄ → µ.
Ejemplo 4.3. Se desea aproximar (estimar) el ingreso medio m de los microempresarios del sector metal
mecánico, a partir de la media X de una muestra aleatoria de n microempresarios tomados al azar. Se
desea que con una probabilidad de 95 % o más, el error de estimación |X − µ| sea inferior a las 5 unidades
monetarias. De estudios previos, se sabe que la desviación estándar poblacional del ingreso es σ = 25
u.m. ¿Cuál es el tamaño de muestra n que logra esto?
2 2
Solución: Partiendo de P (|X̄ − µ| ≤ ) ≥ 1 − σ2 n , para un no mayor a 5, se desea que 1 − σ2 n ≥ 0.95, lo
252 252
cual implica que n ≥ 0.05ε2
. Tomando ε = 5, n ≥ 0.0525 = 500 cumple con los requisitos dados.
Proposición 4.3 (Teorema del lı́mite central). Si X1 , X2 , . . . , Xn es una m.a. de una v.a. X con media µ
y varianza σ 2 < ∞, entonces
Pn
X̄ − µ Xi − nµ D
Zn = σ = i=1 √ → N (0, 1) , conforme n → ∞.
√ σ n
n
Demostración: Mostraremos este teorema asumiendo que la función generatriz de momentos de X existe,
aunque vale aclarar que el teorema se sigue cumpliendo aún si este no fuera el caso. Notemos en primer
X −µ
lugar que Zn se podrı́a escribir como Zn = √1n ni=1 Zi donde las v.a’s Z1 , Z2 , . . . , Zn , con Zi = iσ ,
P
conforman una muestra aleatoria de una v.a. Z con media 0 y varianza 1. Luego, MZn (t) = E(etZn ) =
(MZ ( √tn ))n . Tomándose logaritmos y luego lı́mites tenemos que
0 0
t log(MZ (mt)) MZ (mt)t t MZ (mt)
lı́m log(MZn (t)) = lı́m n log(MZ ( √ ) = lı́m 2
= lı́m = lı́m
n→∞ n→∞ n m→0 m m→0 2mMZ (mt) 2 m→0 mMZ (mt)
00
t MZ (mt)t t2
= lı́m = ,
2 m→0 MZ (mt) + mtMZ0 (mt) 2
donde se realizó el cambio de variable m = √1 y se aplico dos veces la regla de L’Hospital. En conse-
n
t2
cuencia, lı́mn→∞ MZn (t) = e , última que es la función generatriz de momentos de una variable normal
2
estándar. Dada la relación biunivoca entre funciones generatrices de momento y funciones de distribu-
D
ción se debe de tener entonces que Zn → N (0, 1).
Observaciones:
Lo que el teorema del lı́mite central (TLC) indica en la práctica es que si la muestra es sufi-
cientemente grande ( “grande” se suele considerar cuando n ≥ 30), entonces la distribución
2
de la media muestral X̄ es aproximadamente normal de media µ y varianza σn al margen de
la verdadera distribución que tenga la v.a. X que genere la m.a.
Si la v.a. que genera la muestra es normal, no hay necesidad del TLC pues en este caso X̄ ∼
2
N (µ, σn ) y su estandarización siempre nos brinda una distribución normal estándar.
Existen en la literatura varios TLC que imponen condiciones más débiles para que la me-
dia muestral o la suma de las componentes de la muestra se aproximen en su distribución
por una normal. Uno de estos, que es más general que el clásico TLC aquı́ dado y que
no impone necesariamente que las componentes de la muestra esten idénticamente distri-
buidas, es el siguiente: Sean X1 , X2 , . . . , Xn variables aleatorias independientes con medias
µ1 , µ2 , . . . , µn , varianzas finitas no nulas σ12 , σ22 , . . . , σn2 y momentos centrados finitos de ter-
3 P 1
n
cer orden β , β , . . . , β , con β = E X − µ , respectivamente. Si B =
1 2 n j j j n β 3 y C =
i=1 i n
12
son tales que lı́mn→∞ CBn = 0, entonces
P
n 2
i=1 σi n
Pn Pn
i=1 Xi − i=1 µi D
Zn = → N (0, 1) , conforme n → ∞.
Cn
Ejemplo 4.4. En el ejercicio anterior de la estimación del ingreso medio µ de los microempresarios,
podrı́amos asumir a prori que n es “grande” y recalcularlo usando el TLC: Queremos que P (|X̄ − µ| ≤
5) ≥ 0.95, pero como X̄ tiene aproximadamente una distribución normal de media µ y varianza 25 n , esto
√ √
5 n 5 n
equivale estandarizando a que P |Z| ≤ 25 ≥ 0.95. Igualando a 0.95 tenemos P |Z| ≤ 25 = 0.95 ⇔
√ √ √
5 n 5 n 25(1.96)
P Z ≤ 25 = 0.975 ⇔ 25 = 1.96 ⇔ n = 5 = 5(1.96) = 9.8. Ası́, n = (9.8)2 = 96.04 97
(donde redondeamos “hacia arriba” para asegurar una probabilidad de 95 % o más). Note que el valor de
n es mucho menor que el obtenido usando la ley de grandes números, esto se debe a que hemos aplicado
un “modelo de datos”, más refinado.
Ejemplo 4.5 (Aproximación de la binomial por la normal). En el caso particular de que Y1 , Y2 , . . . , Yn

sea una m.a. de una v.a. Y ∼ B(1, p) (variable dicotómica llamada de Bernoulli), se tiene que la media
de Y es p y su varianza p(1 − p). Aquı́ p se puede pensarse que es la probabilidad de que se obtenga
un “éxito” (Y = 1) en cado uno de n experimentos independientes que sólo puede ser éxito o fracaso.
Ası́, si definimos X = ni=1 Yi , el cual denota al número de éxitos en estos n experimentos y por tanto
P
X−np D
X ∼ B(n, p), tenemos por el TLC que si n es suficientemente grande Zn = √ → N (0, 1).
np(1−p)
Observación: En el ejemplo anterior estamos aproximado una distribución discreta por una con-
tinua. En casos como este se recomienda, para el cálculo de probabilidades, realizar la llamada
“corrección por continuidad”, corrección que se fundamenta en argumentos geométricos, como se
aprecia en la figura 4.1 para el ejemplo siguiente. Concretamente esta nos dice que si a ≤ b son dos
números naturales, entonces aproximadamente:
1 1 b + 21 − np a − 12 − np
P (a ≤ X ≤ b) = P (a − ≤ X ≤ b + ) = FZ ( p ) − FZ ( p ).
2 2 np(1 − p) np(1 − p)
Ejemplo 4.6. Suponga que en una linea continua de producción, la probabilidad de que un artı́culo
resulte defectuoso es de p = 0.1. Si estos artı́culos se empacan en lotes de 200 unidades, ¿qué probabilidad
existe de que un lote contenga entre 16 y 25 artı́culos defectuosos?
Solución: Formalmente, la variable aleatoria X = número de artı́culos defectuosos que contiene un lote
tiene distribución binomial de parámetros n = 200 y p = 0.1. Por tanto, si queremos evaluar la pro-
babilidad pedida tendrı́amos que calcular una suma de 10 términos con combinatorias grandes de por
medio. Dado que el lote es grande, podemos usar la aproximación de la binomial por la normal y evaluar
de manera aproximada esta probabilidad. Utilizando la corrección por continuidad tenemos que:
15.5 − 200(0.1) 25.5 − 200(0.1)
P (16 ≤ X ≤ 25) = P (15.5 ≤ X ≤ 25.5) ≡ P ( p ≤Z ≤ p )
200(0.1)(0.9) 200(0.1)(0.9)
= P (−1.1 ≤ Z ≤ 1.296362) = 0.7581525.

En caso no se hiciera la corrección, la probabilidad estarı́a dada por
16 − 200(0.1) 25 − 200(0.1)
P (16 ≤ X ≤ 25) ≡ P ( p ≤Z ≤ p )
200(0.1)(0.9) 200(0.1)(0.9)
= P (−0.942809 ≤ Z ≤ 1.178511) = 0.7078143.
El valor exacto de esta probabilidad (que lo calcularemos en R) viene dado por
> pbinom(25,200,0.1) - pbinom(15,200,0.1)
[1] 0.7564673
Como se aprecia la aproximación normal y sobre todo la corrección ha hecho un gran trabajo. Esta apro-
ximación puede verse en la figura 4.1. El aŕea en color aguamarina es la probabilidad sin la corrección y
esta misma área más el área en negro es la probabilidad con la aproximación, la cual como se aprecia es
más cercana a la suma de las áreas de la barras de base 1 entre 16 y 25, la cual representa la verdadera
probabilidad.
0.075
Función de probabilidad
0.050
0.025
0.000
10 15 16 20 25 26 30 35
x
Figura 4.1: Aproximación de la binomial por la normal y corrección por continuidad para el ejem-
plo 4.6. En rojo la función de densidad de una normal con media 20 y varianza 18 que aproxima
por el TLC a X ∼ B(200, 0.1). De no considerarse la corrección uno perderı́a el área en negro.
En la siguiente sección veremos un caso particular de la distribución gamma, conocida como la

distribución Ji−cuadrado, la cual se encuentra asociada a la distribución de la varianza muestral
S 2 . Esto lo haremos en el contexto de una m.a. de una v.a. X ∼ N (µ, σ 2 ). Una de las razones de
elegir esta distribución, aparte del relacionado al TLC, es que en este contexto ella y la media
muestral resultan ser variables independientes, tal como no los indica el siguiente resultado.
Proposición 4.4. Si X1 , X2 , ..., Xn es una m.a de X ∼ N (µ, σ 2 ), entonces X̄ y S 2 son variables aleatorias
independientes.
Demostración: Dado que cualquier combinación multilineal de variables normales es normal, se tiene en
particular que el vector aleatorio [X̄, X1 − X̄, . . . , Xn − X̄]> tiene una distribución normal multivariada
con vector de medias [µ, 0, 0, . . . , 0]> . Más aún, la covarianza de la primera componente con las demás
viene dada por
1 σ2
Cov(X̄, Xi − X̄) = Cov(X̄, Xi ) − V (X̄) = Cov(Xi , Xi ) − = 0.
n n
Esto implica, por la normalidad, que X̄ es independiente de X1 − X̄, X2 − X̄, . . . , Xn − X̄ y por tanto lo es
de S 2 , ya que esta estadı́stica es una función de estas últimas variables.
4.3. Distribuciones muestrales

4.3.1. La distribución Ji-cuadrado
Una v.a. X tiene distribución Ji-cuadrado con k grados de libertad, y se le denota por X ∼ χ2 (k),
si es que X ∼ Γ ( 2k , 12 ). Es decir, la distribución Ji-cuadrado es un caso particular de una distribución
gamma. En otras palabras, la función de densidad de X ∼ χ2 (k) viene dada por:
k x
x 2 −1 e− 2
fX (x) = k
, si x > 0,
2 2 Γ ( 2k )
2k
1
su función generatriz de momentos por MX (t) = 1−2t , si t < 21 y su media y varianza vienen
dados respectivamente por µX = k y σX2 = 2k, respectivamente.
Observación: Al igual que en el caso de la función de densidad gamma, la función de distribución
de una v.a.X ∼ χ2 (k) no es explı́cita, al menos que k sea par, y su cálculo se realiza por lo general
mediante métodos numéricos de cuadratura. Esto obviamente ya esta hecho y resumido en una
tabla especial, donde por razones de espacio sólo se tabulan algunos cuantiles de esta distribución
por cada grado de libertad k. La estructura de la tabla es opuesta a la de la tabla Z. En el interior
de la tabla están los valores de la variable (cuantı́les); en el borde izquierdo están los grados de
libertad k y en la lı́nea superior están las probabilidades asociadas a los cuantı́les buscados. Otra
posibilidad para obtener simulaciones, cuantiles, densidades o probabilidades acumuladas es a
través de R.
Ejemplo 4.7. Si X ∼ χ2 (4), entonces por la lectura directa de la tabla P (X ≤ 14.9) = 0.995 y P (X ≤
0.297) = 0.01. De otro lado, si queremos hallar la constante C tal que P (X ≤ C) = 0.75, este valor será
por tabla C = 5.38. Estos valores se podrán calcular de manera más precisa en R, respectivamente, por
> pchisq(14.9,4)
[1] 0.9950868
> pchisq(0.297,4)
[1] 0.009992992
> qchisq(0.75,4)
[1] 5.385269
Proposición 4.5. Se cumple que:

1. Si Z ∼ N (0, 1), entonces Z 2 ∼ χ2 (1).
2. Propiedad reproductiva: Si W1 , W2 , ...., Wm son m variables aleatorias independientes con distribucio-
nes Ji-cuadrado de respectivamente k1 , k2 , . . . , km grados de libertad, entonces
m
X m
X
W= Wi ∼ χ2 (k = ki ).
i=1 i=1
3. Si X1 , X2 , ..., Xn es una m.a de X ∼ N (µ, σ 2 ), entonces

(n − 1)S 2
W= ∼ χ2 (n − 1).
σ2
Demostración: 1. Sea Y = Z 2 y sea y ≥ 0 un valor arbitrario. La función de distribución de Y viene dada
por p √ √
FY (y) = P (Y ≤ y) = P (Z 2 ≤ y) = P (|Z| ≤ (y)) = FZ ( y) − FZ (− y).
Derivando con respecto a y y usando la regla de la cadena, obtenemos que la función de densidad de Y
está dada por
1 x
1 √ √ 1 1 − 1 y y 2 −1 e− 2
fY (y) = √ (fZ ( y) + fZ (− y) = √ 2 √ e 2 = 1 ,
2 y 2 y 2π 22 Γ (1) 2
Esto es Y ∼ χ2 (1).
2. La función generatriz de momentos de W viene, por la independencia, dada por
k k k2i 2k
1 1 1
Y Y
MW (t) = MWi (t) = = ,t <
1 − 2t 1 − 2t 2
i=1 i=1
Pm
donde k = i=1 ki . Como ella corresponde a la función generatiz de momentos de una v.a. con distribu-
ción ji−cuadrado de k grados de libertad, entonces W tiene esta distribución.
3. Sea
Pk 2 k
i=1 (Xi − µ) Xi − µ 2
X
U= 2
= ( ) .
σ σ
i=1
Por los dos puntos anteriores, resulta que U ∼ χ2 (n),
pues ella es la suma de n v.a’s independientes
con distribución Ji−cuadrado de un grado de libertad, obtenidas de elevar al cuadrado una v.a. normal
estándar. Sumando y restando la media muestral al interior de los cuadrados de esta v.a., podemos
descomponer ellla como
Pk
(Xi − X̄ + X̄ − µ)2
U = i=1 = W +V
σ2
X̄−µ
donde V = ( σ / √n ) ∼ χ2 (1). Ası́, dada la independencia entre X̄ y S 2 vista en la proposición 4.4 , se tiene
que al tomarse la función generatiz de momentos en la descomposición arriba dada
n2 21
1 1

= MU (t) = MW (t)MV (t) = MW (t)
1 − 2t 1 − 2t
n−1
1
uno puede despejar MW (t) = 1−2t 2
, si t < 12 . Esto significa que, W ∼ χ2 (n − 1).
Ejemplo 4.8. Si X ∼ N (0, 2) e Y ∼ N (0, 4) son variables aleatorias independientes, halle un valor C
tal que

P 2X 2 + Y 2 ≤ C = 0.95.
√
Solución: Estandarizando primero, tenemos que Z1 = X/ 2 ∼ N (0, 1) y Z2 = Y /2 ∼ N (0, 1). Por la
propiedad 1. se deduce que W1 = Z12 ∼ χ2 (1) y W2 = Z22 ∼ χ2 (1) son variables aleatorias
independientes.

Ası́, por la propiedad reproductiva W1 + W2 ∼ χ (2). En consecuencia, 0.95 = P 2X 2 + Y 2 ≤ C =
2

P X 2 /2 + Y 2 /4 ≤ C/4) = P (W1 + W2 ≤ C/4). De la tabla Ji−cuadrado con 2 grados de libertad,
2
obtenemos que c/4 = χ0.95 = 5.99. Consecuentemente, C = 5 × 5.99 = 23.96.
Ejemplo 4.9. Se ha tomado una m.a. de tamaño 12 de una v.a. normal de varianza 9. ¿ Cuál es el valor
de b que satisface que P (S 2 < b) = 0.95?
(n−1)S 2 2
Solución: En este caso n = 12 y n − 1 = 11. Por tanto, W = σ 2 = 11S
σ2
∼ χ2 (11). De tabla se tiene

2
entonces que 0.95 = P S 2 ≤ b = P 11S 2 /9 ≤ 11b/9 ⇒ 11b/9 = χ0.95 (11) = 19.7 ⇒ b = 16.12.
4.3.2. La distribución t de Student

Una v.a. X tiene distribución t de Student con n grados de libertad, y se le denota por X ∼ t(k),
si su función de densidad es:
Γ ( k+1
2 )
fX (x) = √ 2 k+1
, x ∈ R.
πkΓ ( 2k )(1 + xk ) 2
Observaciones:
La gráfica de esta distribución es muy similar a la de la distribución normal estándar, pero
con colas mucho más pesadas, sobre todo si los grados de libertad son pequeños. En caso que
k → ∞, se puede probar que esta v.a. converge en distribución a la de la normal estándar.
Al igual que en el caso de las distribuciones normal y Ji−cuadrado, no se dispone de for-
mulas cerradas ni evaluciones directas de la función de distribución de X ∼ t(k). Para esto
se dispone de una tabla en el que se tabulan algunos cuantiles para cada grado de libertad,
correspondientes a valores prefijados usuales de probabilidad. Otra posibilidad es usar R.
Ejemplo 4.10. Si X ∼ t(10), se tiene de tabla que P (X ≤ 1.3722) = 0.9; es decir, el cuantil 0.9 de esta
distribución es 1.3722. Esta misma probabilidad puede obtenerse en R mediante el comando
> pt(1.3722,10)
[1] 0.9000025
Proposición 4.6. 1. Si X ∼ t(k), entonces µX = 0 y σX2 = k

k−2 (k > 2).
2. Si Z ∼ N (0, 1) y W ∼ χ2 (k) son v.a’s independientes, entonces
Z
T = q ∼ t(k).
W
k
En particular, dada una m.a. X1 , X2 , ..., Xn de X ∼ N (µ, σ 2 ), se cumple que:
X̄ − µ
T = √ ∼ t(n − 1).
S/ n
Demostración: 1. La media es directa si uno se da cuenta que la función g(x) = xfX (x) es par (g(−x) =
−g(x)) y por tanto su integral sobre toda la recta real es 0. De otro lado,
∞ Γ ( k+1
2 )
∞ Γ ( k+1
2 )
∞
x2
Z Z Z
2 2 2
V (X) = E(X ) = x √ 2 k+1
dx = 2 x √ 2 k+1
dx = C 2 k+1
dx,
−∞ πkΓ ( 2k )(1 + xk ) 2 0 πkΓ ( 2k )(1 + xk ) 2 0 (1 + xk ) 2
2Γ ( k+1 )
donde C = √ 2k . Haciéndose el cambio de variable u = √x , la integral última (sin la constante C)
πkΓ ( 2 ) k
que llamaremos I viene dada por:
∞
u2
Z
3
I =k 2
k+1
du.
0 (1 + u 2 ) 2
u2 2u
Otro cambio de variable y = 1+u 2
, con dy = (1+u 2 )2
du nos conduce a que
3 3 3
1
k 2 Γ ( 32 )Γ ( k−2
2 )
Z
k2 1 k−4 k2 3 k −2
I= y (1 − y)
2 2 dy = B( , )= k+1
2 2 2 2 2 Γ(
0 2 )
Consecuentemente se tiene que
1 3 k−2 1 1 1 k−2 k
V (X) = CI = √ k
kΓ ( )Γ ( ) = √ k−2 k−2 k Γ ( )Γ ( )= .
πΓ ( 2 ) 2 2 π( 2 )Γ ( 2 ) 2 2 2 k−2
2. Sea t un valor real, que sin pérdida de generalidad asumiremos que es no negativo. La función de
distribución de T en t viene dada por
r Z ∞ Z t √ω Z ∞ k −1 − ω r
W k ω2 e 2 ω
FT (t) = P (T ≤ t) = P (Z ≤ t )= fZ (z)fW (ω)dzdω = k
FZ (t )dω.
k 0 0 0 k
22 Γ ( ) k
2
Puesto que el integrando en esta expresión es una función continua en t y con derivada continua, po-
demos derivar respecto a t e intercambiar la derivada con la integral, para obtener que la función de
densidad de T viene dada por:
Z∞ r r Z∞
1 k ω ω ω 1 k−1 ω t2
fT (t) = k −1 −
ω 2 e 2 fZ (t ) dω = k+1 √ ω 2 e− 2 (1+ k ) dω.
22 Γ (k ) 0 k k 2 2 Γ ( k ) πk 0
2 2
ω t2
Haciendo el cambio de variable u = 2 (1 + ω ), obtendremos que
 k−1
Γ ( k+1

∞ Z∞
2
2e−u 2 )
Z
1  2u  1 k−1
fT (t) = du = u 2 e −u du = .
k+1 √  t2 
 t2
√ 2 k+1 √ 2 k+1
2 2 Γ ( 2k ) πk 0 1+ k 1+ k Γ ( 2k ) πk(1 + tk ) 2 0 πkΓ ( 2k )(1 + tk ) 2
En consecuencia T ∼ t(k).
4.3.3. La distribución F de Fisher

Una v.a. X tiene distribución F de Fisher con k1 > 0 grados de libertad en el numerador y k2 > 0
grados de libertad en el denominador, y se le denota por X ∼ F(k1 , k2 ), si su función de densidad
es: k1 k1
Γ ( k1 +k 2
2 )(k1 /k2 ) x
2 2 −1
fX (x) = k1 +k2
, x > 0.
Γ ( k21 )Γ ( k22 )(1 + (k1 /k2 )x) 2
2k 2 (k +k −2)
Valor esperado: µX = k k−22
(k2 > 2). Varianza σX2 = k (k2 −2)
1 2
2 (k −4) (k2 > 4).
2 1 2 2
Observación: Al igual que todas las distribuciones muestrales vistas en este capı́tulo no es posible
obtener de manera analı́tica la función de distribución de X ∼ F(k1 , k2 ) y por tanto debemos apelar
al uso de tablas en las que se encuentran tabulados sólo los cuantiles 0.95, 0.975, 0.99 y 0.995 de
esta distribución para distintos valores enteros de sus grados de libertad.
1
Proposición 4.7. 1. Si X ∼ F(k1 , k2 ), entonces X ∼ F(k2 , k1 ).
2. Si W1 ∼ χ2 (k1 ) y W2 ∼ χ2 (k2 ) son v.a’s independientes, entonces
W1 /k1
F= ∼ F(k1 , k2 ).
W2 /k2
En particular, si X1 , X2 , ...., Xn es una m.a de una v.a. X ∼ N (µ1 , σ12 ), e Y1 , Y2 , ..., Ym es una m.a de una
v.a. Y ∼ N (µ2 , σ22 ), donde X e Y son independientes, entonces
S12 σ22
F= ∼ F(n − 1, m − 1),
S22 σ12
siendo S12 y S22 las varianzas muestrales asociadas a las poblaciones estadı́sticas determinadas por X e
Y , respectivamente.
Demostración: La demostración de la primera parte de 2., que sigue esencialmente la misma metodologı́a
que la prueba de 2. en la proposición anterior, queda como ejercicio. De otro lado 1. es inmediato de
S2
2. al igual que el caso particular, que se desprende del hecho que W1 = (n − 1) σ12 ∼ χ2 (n − 1) y W2 =
1
S2
(m − 1) σ22 ∼ χ2 (m − 1) son variables independientes.
2
Ejemplo 4.11. Si X ∼ F(10, 12), halle los valores de las constantes C1 y C2 tales que P (X ≤ C1 ) = 0.995
y P (X ≥ C2 ) = 0.95.
Solución: El valor de C1 se halla directamente del tercer juego de valores de FX para la distribución de
Fisher y viene dado por C1 = 5.09. El cálculo de C2 no es directo, pero es posible de obtenerlo notando
que P (X ≥ C2 ) = P ( X1 ≤ C1 ) = 0.95. Ası́, como X1 ∼ F(12, 10), el valor de C1 en la (primera) tabla será
2 2
1
de 2.91 y por tanto C2 = 2.91 = 0.3436. En R estos valores de C1 y C2 se pueden calcular de manera más
directa y precisa pero requieren la instalación del paquete stats. A continuación su cálculo.
# install.packages("stats")
> library(stats)
> qf(0.995,10,12)
[1] 5.085476
> qf(0.95,10,12,lower.tail=FALSE)
[1] 0.3432914
4.4. Ejercicios
1. Suponga que se seleccionan al azar a n empleados de una empresa cuyos salarios en soles se
asumen tienen distribución Normal de media desconocida µ y varianza 2,500 soles2
a) Si se desea aproximar µ por la media X̄ de los salarios de los trabajadores seleccionados de
tal manera que el error en la aproximación |X̄ − µ| no supere los 25 soles con una probabilidad
de 0.95 ¿qué tamaño de muestra n se requerirı́a como mı́nimo?
b) Un economista critica el supuesto de normalidad anterior y piensa más bien que los salarios
anteriores siguen una distribución exponencial con una media de 900 soles. Si es correcta
la especificación del economista ¿con qué probabilidad, aproximadamente, una muestra de
n = 64 empleados arrojará una media de salarios que supere los 1,000 soles?
c) ¿Con qué probabilidad el empleado que mejor gane en b) tendrá un salario superior a los
5,000 soles?
2. En un modelo económico el precio unitario en soles de un bien en cierto mercado sufre pe-
queñas perturbaciones aleatorias de modo que se convierte en una variable aleatoria continua
X con distribución N (p, σ 2 ), donde p es el precio de equilibrio y σ mide el margen más proba-
ble de variación alrededor de p. Cálculos teóricos indican que con 97.72 % de probabilidad el
precio se mantendrá debajo de los 12 soles y con 15.87 % de probabilidad estará debajo de los
9 soles.
a) Halle el precio de equilibrio p y la constante σ .
b) Si usted adquiere 5 unidades del bien seleccionando al azar y con reemplazamiento igual
número de tiendas de este mercado en donde compra un bien, ¿con qué probabilidad pagará
en total más de 50 soles?
c) ¿Con qué probabilidad en b) más de la mitad de los precios de los 5 bienes adquiridos supe-
rarán los 8 soles?
d) ¿Con qué probabilidad lo máximo que pagará en b) por una unidad superará los 12 soles?
e) Si en b) adquiere ahora 12 unidades del bien, ¿con qué probabilidad sólo tres de ellos estarán
en el rango de entre los 8 y 9 soles; dos de ellos serán inferiores a los 8 soles y el resto superarán
los 9 soles?
f) Si la función de demanda en este mercado es de Q(X) = 8, 000 − 2X unidades del bien, de-
termine la cantidad esperada de dinero que gastarán los consumidores en el mercado de este
bien.
3. Debido a factores fortuitos, el precio de un bien A puede sufrir una variación aleatoria X en
u.m. que está alrededor del precio de equilibrio y para la cual se asume distribución normal
X ∼ N (0, σX2 ). Análogamente, otro bien B experimenta una variación aleatoria Y ∼ N (0, σY2 ) en
u.m. que es independiente de lo que pase con A. Para un estudio de la estabilidad de los precios
de estos bienes se ha pensado tomar m.a’s de tamaños 6 y 8 respectivamente.
a) Halle un valor c tal que la probabilidad que el cociente en valor absoluto entre la media y la
desviación estándar de X no supere a c sea de 0.95.
b) ¿ Con qué probabilidad la media de las variaciones de los precio en la muestra del bien A
superará a la respectiva media del bien B?
c) Si las variaciones de estos precios no fueran independientes y tuvieran una correlación de

-0.3 y varianzas σX2 = 4 y σY2 = 9, ¿ con qué probabilidad la diferencia entre estas variaciones
no supera la u.m.?
2
d) Si σX2 = 4, halle c tal que W = cX tenga distribución Ji-cuadrado.
P 2
e) Si σX2 = σY2 = 4, ¿existen constantes a y b tales que W = a 8i=1 Xi2 + bY tiene distribución
Ji-cuadrado.
f) Si σX2 = σY2 , halle c tal que P ( SSX ≤ c) = 0.95.
y
4. Para la licitación de una obra a cargo de un municipio se han presentado 5 empresas que ofre-
cerán de manera independiente y en sobre cerrado sus propuestas de inversión. Se asume que
estas empresas podrán proponer invertir indistintamente cualquier valor entre 0 y θ millones
de soles y se declarará como ganador de la licitación a quién ofrezca la mayor inversión.
a) Si θ = 5 ¿con qué probabilidad la mayorı́a de estas empresas ofrecerán más de 3 millones de
dólares?
b) Halle, en función de θ, la función de densidad del monto de inversión que recibirá el muni-
cipio por la obra. Interprete esta función.
c) Si θ = 5 ¿cuánto de inversión esperará recibir el municipio por la obra?
5. El tiempo que se demora en llegar el pedido de servicio por delivery de un restaurante A se asu-
me que tiene distribución Normal con media 50 minutos y desviación estándar de 10 minutos;
mientras que independientemente el tiempo que se demora en llegar el pedido de servicio de
otro servicio de delivery de un restaurante B se asume que tiene distribución Normal con media
40 minutos horas y desviación estándar de 15 minutos.
a) ¿Con qué probabilidad un pedido por delivery al restaurante B se demorará más de 50 mi-
nutos?
b) ¿Con qué probabilidad el servicio de A llegará antes que el de B para un pedido de servicio
simultáneo a los dos restaurantes?
c) Suponga que ambos restaurantes promocionan que sus pedidos por delivery deben de llegar
antes de la hora, prometiendo devolver, en el caso de A, 5 soles si se pasa de la hora y, en
el caso de B, 10 soles si se pasa de la hora. Si en un dı́a se recibieron 20 pedidos de delivery
para A y 30 para B, ¿cuánto se esperará pierdan ambos restaurantes en tal dı́a por honrar sus
compromisos?
6. Si X1 , X2 , . . . , Xn es una m.a. de una v.a. X ∼ N (µ, σ 2 ), halle la distribución de S 2 . Para n = 11,
halle también la probabilidad de que S 2 supere a σ 2 .
7. Si el valor de la producción de una empresa es una v.a. X ∼ N (µ, σ 2 ) y para estudiar este sector
se piensa tomar una muestra de n empresas para registrar el valor de su producción y calcular
X̄ y S 2 para aproximar µ y σ 2 .
a) ¿Qué tamaño de muestra garantiza que P (|X̄ − µ| < 0.25σ ) = 0.95.
b) Si σ 2 = 16 y n = 31, halle c tal que P (S 2 < c) = 0.95.
c) Si σ 2 = 16 y n = 11, halle P (S < 3).
8. Sea X ∼ Exp( θ1 ). Para una muestra aleatoria de tamaño n = 2, X1 , X2 se tiene las estadı́sticas:
X1 + X2 p
θ̂ = y θ̃ = X1 X2 .
2
Halle el valor esperado de estas estadı́sticas.
9. Sean X1 , X2 , . . . , Xn una m.a. de una v.a X ∼ U ([0, θ])
a) Halle la función de densidad de T = min{X1 , X2, . . . , Xn }. ¿Existe c tal que E(cT ) = θ.
b) Si θ = 10, ¿Con qué probabilidad el segundo menor valor en esta m.a. superará a la media
de X ?
c) Halle la distribución muestral del estadı́stico S = X1 + X2 ¿Cuál es la media y varianza de S?
10. Se asume que la probabilidad de que un cajero retenga una tarjeta es de 0.05. Si se seleccionan
al azar a 49 cajeros y se mide en ellas el número de transacciones que en estos cajeros realizan
hasta que se retenga alguna tarjeta,
a) Halle aproximadamente, usando el TLC, la probabilidad de que la media de estas medicio-
nes supere las 23 transacciones.
b) ¿Es cierto que el número total de estas transacciones sigue una distribución binomial nega-
tiva? ¿ Cuál es su valor esperado?
11. Suponga que una playa de estacionamiento tiene dos puertas y que los autos llegan indepen-
dientemente por la puerta A a razón de 5 por hora y por la puerta B a razón de 8 por hora,
siguiendo en ambos casos sendos procesos de Poisson.
a) Halle el rango y la función de probabilidad del número de autos que entrarán a esta playa
de estacionamiento en un lapso de dos horas.
b) Si en el lapso de 3 horas han entrado al estacionamiento 40 autos ¿con qué probabilidad la
mitad de ellos habrán entrado por la puerta A?
12. Una agencia de turismo ofrece paquetes promocionales que pueden incluir hasta 4 paquetes
adicionales al básico. La demanda del número de paquetes adicionales al paquete básico por
los que optan los clientes de esta promoción es una v.a. discreta X con función de probabilidad
0.26 − Cx2 , si
(
x = 0, 1, 2, 3, 4
Px (x) =
0 , en otro caso.
b) Halle la media y varianza de la v.a X.
c) Suponga que el paquete básico cuesta 600 soles y cada programa adicional 150 soles ¿con
qué probabilidad un cliente que acepte la promoción deberá de pagar más de 1,000 soles a la
agencia?
d) Con la estructura de costos en c), ¿cuánto se espera pague cada cliente a la agencia por una
promoción? Halle también la varianza de este monto.
e) Suponga que durante el mes la agencia ha realizado por esta promoción 81 contratos, ¿apro-
ximadamente con qué probabilidad la agencia recaudará en el mes más de 70,000 soles?
13. Si el capital inicial (en cientos de dólares) de una microempresa es una v.a. continua X con
distribución normal N (µ, 1) y se toma una m.a. de tamaño n
a) Si n = 9 , calcule la probabilidad de que la media X̄ de la muestra difiera de la media pobla-
cional µ en menos de 20 dólares
b) ¿Qué n garantiza que con 95 % de probabilidad la diferencia |X̄ − µ| no pasará de 20 dólares?
14. a) Si X ∼ N (0, 1) y se toma una m.a. de tamaño 16, halle c tal que P ( 16 2
P
i=1 Xi > c) = 0.95.
b) En a) halle c tal que P (S 2 < c) = 0.90.
P16
i=1 Xi
c) En a) halle c de modo que se cumpla la desigualdad: P ( S < c) = 0.95.
P16
X
i 2
d) De una distribución N (0, 4) se toma una m.a. de tamaño 8: Halle c de modo que F = c( i=1
S )
tenga distribución F de Fisher, si la primera sumatoria se hace sobre las 3 primeras observa-
ciones y S 2 es la varianza del resto.
15. a) Sea W una v.a con distribución Ji-cuadrado con 14 grados de libertad. Determine la mediana
de W .
b) Se selecciona una muestra aleatoria de tamaño 9 de una población definida por una variable
aleatoria X ∼ N (0, σ 2 ). Hallar el valor c tal que P (−cS ≤ X̄ ≤ cS) = 0.95.
c) Si el capital inicial (en cientos de dólares) de una microempresa es una v.a. continua X con
distribución normal N (µ, 1) y se toma una m.a. de tamaño 16 ¿con qué probabilidad el menor
capital inicial de las microempresas en la muestra superará en un dólar a la media de la
población?
16. Si X1 , X2 , X3 , X4 es una muestra aleatoria de una distribución normal estándar.
a) Halle C tal que P ( 25 2
P
i=1 Xi > C) = 0.1.
b) Se define el coeficiente de variación muestral por la estadı́stica CVm = X̄S × 100 ¿Con qué
probabilidad aproximadamente este coeficiente superará en esta muestra el 44 %?
17. En una encuesta a boca de urna realizada a 64 personas seleccionadas al azar de un gran distrito,
se registró la proporción de votantes en esta muestra aleatoria que dijeron haber votado por el
candidato ganador. Esta información sin embargo usted la desconoce. Lo que sı́ conoce son los
resultados finales oficiales de la elección en el que el candidato ganador de este distrito obtuvo
el 47.8 % de los votos.
a) ¿Con qué probabilidad la mitad de los electores encuestados a boca de urna habrán mani-
festado haber votado por el candidato ganador?
b) ¿Con qué probabilidad el porcentaje encontrado en la encuesta diferirá del verdadero por-
centaje obtenido por el candidato ganador en más del 5 %? Use para esto el TLC.
Capı́tulo 5
Estimación puntual de parámetros
En el análisis económico, las teorı́as suelen tomar forma de relaciones entre variables (por
ejemplo, ecuaciones lineales) donde algunos coeficientes tienen interpretación especı́fica y cuyo
conocimiento es de importancia para las predicciones y validación de teorı́as. Por ejemplo, en una
función lineal de consumo C = c0 + c1 Y , donde Y es el Ingreso disponible de una familia y C es su
consumo, la pendiente c1 es la “propensión marginal a consumir” y c0 es el “consumo autónomo”,
siendo ambos coeficientes necesarios para cualquier pronóstico. Cuando, por razones de mues-
treo, las variables económicas se convierten en aleatorias, los coeficientes de las relaciones entre
ellas devienen en parámetros (estructurales o derivados) de sus distribuciones, y un problema
importante es “aproximarlos” a partir de valores obtenidos en una muestra. Esta aproximación,
en una primera instancia, consiste en especificar un valor posible para el parámetro y adjuntar el
“margen de error” asociado al uso de una muestra. Este proceso se conoce como Estimación de
Parámetros en Estadı́stica, y en las lı́neas que siguen desarrollaremos sus bases. Por ejemplo, en
el caso de la relación entre Consumo C e Ingreso disponible Y , en una primera etapa tenemos un
∂f (Y )
modelo teórico que podrı́a ser resumido como C = f (Y ), en donde ∂Y > 0 expresa la idea que
el Consumo aumenta con el Ingreso. Para hacer un análisis cuantitativo tenemos que escribir la
relación funcional anterior de modo más explı́cito. Seleccionando un modelo lineal pasamos a
C = c0 + c1 Y ,
donde 0 < c0 = Consumo autónomo y 0 < c1 = Propensión marginal a consumir. Esta especificación
del modelo implica algo más que el modelo original. Ası́, por ejemplo, no sólo dice que el consumo
es función creciente del ingreso, sino además propone una relación de proporcionalidad entre
la variación del ingreso y el consumo. Adicionalmente, tiene dos parámetros caracterı́sticos c0
y c1 , con significado económico, cuyo valor es necesario conocer para poder usar plenamente
el modelo, por ejemplo, en pronósticos. Si no conocemos estos valores, dado que la relación es
lineal, en principio bastarı́a con tener dos puntos de paso de la recta para hallarlos. Asumamos
que tomamos una muestra de n hogares, para las cuales hemos tomado nota de sus ingresos y
consumos:
Familia 1 2 ... n
Ingreso Y1 Y2 ... Yn
Consumo C1 C2 ... Cn
157
Si graficamos las n parejas (Yj , Cj ) en un plano, cartesiano, los más probable es que no caigan
totalmente colineales y esto genera el problema de tener múltiples posibilidades de valores para
los parámetros c0 y c1 . Una explicación es que aún cuando la relación postulada por el modelo
sea correcta, siempre puede haber pequeñas alteraciones de tipo aleatorio en el consumo, que
originan la no colinealidad exacta y la posibilidad de muchas rectas C = c0 + c1 Y .
Para darle sentido al modelo tenemos que agregar algunos supuestos de tipo probabilı́stico.
Pasamos ası́ a un “modelo de datos” que considera el modelo original agregando componentes
aleatorias. Una manera de hacerlo es mediante la esperanza condicional. Ası́ tenemos E(C | Y ) =
c0 + c1 Y que a su vez origina la ecuación: C = c0 + c1 Y + , donde es una variable aleatoria
que representa el efecto del azar sobre el consumo. Para completar el modelo, habrá que definir
algunas caracterı́sticas razonables para la v.a. . Un supuesto muy usado es asumir normalidad,
con lo que nuestro modelo de datos deviene en:
C = c0 + c1 Y + y ∼ N (0, σ 2 )
Finalmente y como consecuencia de todo, tenemos:
E(C | Y ) = c0 + c1 Y + E( | Y ) = c0 + c1 Y y V (C | Y ) = σ 2
Con lo anterior, el modelo final de datos resulta C ∼ N (c0 + c1 Y , σ 2 ), que además de c0 y c1 , tiene
ahora un parámetro más σ 2 . Nótese que, de los tres parámetros, dos de ellos (c0 y c1 ) son en
realidad parámetros económicos, que se han convertido en parámetros estadı́sticos sólo por mayor
conveniencia de análisis. Estos parámetros deben ser aproximados a partir de los datos. Esta tarea
es una de las más importantes de la Estadı́stica Inferencial.
5.1. El problema de la estimación puntual

En adelante el contexto en el cual trabajaremos será el de buscar aproximar el valor descono-
cido del parámetro o vector de parámetros θ perteneciente a algún espacio paramétrico Θ que in-
dexa a la distribucı́on de una v.a. X. Ello lo haremos teniendo como insumo una m.a. X1 , X2 , . . . , Xn
de tamaño n de X.
Observaciones:
Pueden haber muchas maneras de “aproximar” - estimar es el nombre técnico- un parámetro
θ y cada una tendrá un “error de aproximación”. Obviamente deseamos primero identificar
la manera con la cual se podrá cometer el menor error posible. Más adelante, prefijado este
error, buscaremos como determinar la muestra que cumple esta especificación.
La estimación puntual no tiene porque siempre basarse en muestras aleatorias de variables
univariadas. En ciertas ocasiones, como en la regresión lineal, la asunción de igualdad en
la distribución de los elementos de la muestra puede levantarse y, de otro lado, es posible
considerar también muestras aleatorias de vectores aleatorios.
Aproximar el valor de θ a partir de una m.a. X1 , X2 , . . . , Xn pasa por resumir los n datos en
uno solo, a partir de la aplicación de alguna “fórmula de trabajo” g(X1 , X2 , . . . , Xn ) adecuada. Esta
fórmula, que en el capı́tulo anterior llamamos estadı́stica, se usa como regla de trabajo, es decir,
como una plantilla que se aplica siempre. Naturalmente, aún cuando la fórmula sea la misma,
los valores que se obtengan dependen de los valores que uno encuentre al tomar efectivamente la
muestra aleatoria. Para distinguir estas dos facetas del mismo proceso, creamos los conceptos de
estimador y de estimación.
Definición 5.1. Un estimador puntual de θ, es cualquier estadı́stica θ̂ = g(X1 , X2 , . . . , Xn ) cuyo valor
observado, al cual llamaremos una estimación puntual, nos permita aproximar el valor desconocido del
parámetro o vector de parámetros θ.
Lo que un estimador puntual θ̂ busca es minimizar el error de estimación e definido como
e = |θ̂ − θ| o, equivalentemente , (θ̂ − θ)2 . Dado sin embargo que este error es una variable alea-
toria, necesitamos de ciertos criterios para decidir cuando tal podrı́a considerarse pequeño. Estos
criterios son los que precisamente discutimos a continuación.
5.2. Propiedades de un buen estimador

Desde un punto de vista formal, si se tienen dos estimadores posibles θ̂1 y θ̂2 para un paráme-
tro θ el mejor de ellos será aquel que tenga un menor error. Dado que este es una v.a., un criterio
de selección podrı́a ser tomar a aquel que tenga un menor error cuadrático medio (MSE), que no
es sino el valor esperado del cuadrado del error e anterior, es decir,
MSE(θ̂) = E((θ̂ − θ)2 ).
Sin embargo, si sumamos y restamos la media de θ̂ al interior de la expresión anterior uno obtiene
facilmente que
MSE(θ̂) = E(θ̂ − E(θ̂)2 ) + (E(θ̂ − θ))2 = V (θ̂) + b(θ̂)2 ,
donde el primer término a derecha representa la varianza del estimador y el segundo término el
cuadrado de b(θ) = θ̂ − θ, conocido también como el sesgo del estimador. Esta descomposición de
expresar el error cuadrático medio de un estimador como la suma de su varianza y su sesgo al
cuadrado, sugiere dos de los criterios más populares para medir la bondad de un estimador, los
cuales pasamos a detallar seguidamente.
Definición 5.2 (Insesgamiento). Un estimador θ̂ de un parámetro θ se dice insesgado, si E(θ̂) = θ.
Ejemplo 5.1. Sea X1 , X2 , . . . , Xn una m.a. de una v.a. X de media µ y varianza finita σ 2 . Muestre que
S 2 es un estimador insesgado de σ 2 .
Solución: En efecto,
n n
1 X 1 X 2 2 σ2 1
E(S 2 ) = ( E(Xi2 )−nE(X̄ 2 )) = ( (σ +µ )−n( +µ2 ) = (nσ 2 +nµ2 −σ 2 −nµ2 ) = σ 2 .
n−1 n−1 n n−1
i=1 i=1
Ejemplo 5.2. Si X1 , X2 , . . . , XnPes una m.a. de una v.a. X ∼ U ([0, θ]), entonces dos estimadores insesga-
n
i=1 iXi
. Esto pues, E(θ̂) = 2 n1 ni=1 E(Xi ) = 2 n1 ni=1 θ2 = θ y
P P
dos de θ son θ̂1 = 2X̄ y θ̂2 = 4 n(n+1)
Pn !  n  n n
i=1 iXi 4 4 4 θX 4 θ n(n + 1)
X  X
E(θ̂2 ) = E 4 = E 
 iXi  =

 iE(Xi ) = i= = θ.
n(n + 1) n(n + 1)  n(n + 1) n(n + 1) 2 n(n + 1) 2 2
i=1 i=1 i=1
Por otro lado, el estimador θ̃ = máx{X1 , X2 , . . . , Xn } no es un estimador insesgado de θ, pues su función de

y y y n−1
distribución viene dada por Fθ̃ (y) = ( θ )n , su densidad por fθ̃ (y) = n( θ )n−1 θ1 = n θn y en consecuencia
θ θ
yn
Z Z
n
E(θ̂2 ) = yfθ̃˜ (y)dy = n n
dy = θ , θ.
0 0 θ n+1
Definición 5.3 (Eficiencia). Si θ̂1 y θ̂2 son dos estimadores insesgados de un parámetro θ, entonces θ̂1
es más eficiente que θ̂2 si V (θ̂1 ) < V (θ̂2 ).
Ejemplo 5.3. Suponga que el tiempo en minutos que se tarda un bus de transporte público en llegar su
paradero a partir de las 8:00 am es una v.a. X ∼ U [0, θ]. Si se ha registrado este tiempo durante 9 dı́as
tomados al azar encontrándose los siguientes tiempos en minutos
29.7, 19.5, 12.0, 30.0, 7.5, 6.3, 5.7, 15.0, 16.5,
¿en cuánto estimarı́a el parámetro θ? Considere en todos los casos estimadores insesgados o modificacio-
nes insesgadas de los estimadores dados en el ejemplo 5.1. Justifique su elección.
Solución: Todos los estimadores propuestos en el ejemplo anterior son insesgados, con excepción de θ̃; sin
n
embargo, dado que E(θ̃) = n+1 θ, podrı́amos generar a partir de este el estimador insegado θ̂3 = n+1
n X(n) .
De los tres estimadores insesgados propuestos deberı́amos utilizar para la estimación el más eficiente,
pues será mucho más probable que este se encuentre más cerca del verdadero valor de θ que los otros, al
tener él una menor varianza. Obtengamos entonces la varianza de estos estimadores. El primer estimador
θ̂1 = 2X̄ es lineal y su varianza viene dada por
V (X) θ2 θ2
V (θ̂1 ) = 4V (X̄) = 4 =4 = .
n 12n 3n
Pn
i=1 iXi
Para el segundo estimador, θ̂2 = 4 n(n+1)
, podemos usar la independencia en la m.a. y escribir
n n
16 X
2 16 θ 2 X 2 n(n + 1)(2n + 1) 2(2n + 1) 2
V (θ̂2 ) = 2 i V (X i ) = i = = θ .
n (n + 1)2 n2 (n + 1)2 12 6 9n(n + 1)
i=1 i=1
En relación al tercer estimador podrı́amos usar la identidad V (θ̂3 ) = E(θ̂32 ) − E(θ̂3 )2 . Resta entonces
calcular el primer término, pues el segundo es θ. Para ello requeriremos de la función de densidad de θ̂3
la cual es fácil de deducir mediante
n+1 n
Fθ̂3 (x) = P (θ̂3 ≤ x) = P ( X(n) ≤ x) = FX(n) ( x),
n n+1
pues derivádola uno obtiene
n n n( n x)n−1 n nn+1 xn−1 n+1

fθ̂3 (x) = fX(n) ( x) = n+1 n = n n
, si 0 ≤ x ≤ θ.
n+1 n+1 θ n + 1 (n + 1) θ n
Ası́,
n+1
n θ nn+1 xn−1 (n + 1)2 θ 2
Z
E(θ̂22 ) = x2 dx =
0 (n + 1)n θ n n(n + 2)
y
n + 12 θ 2 θ2
V (θ̂2 ) = − θ2 = .
n(n + 2) n(n + 2)
Queda como un simple ejercicio para el lector verificar que, con excepción del caso n = 1, la menor de las
tres varianzas es la de θ̂3 y por tanto este serı́a el estimador más eficiente. Ası́ la mejor estimación de θ
9x
vendrı́a dada por 10(9) = 0.9 × 30 = 27 minutos. Es interesante apreciar que con el primer estimador la
estimación de θ nos da 31.6 minutos y con el segundo 27.04 minutos.
Observación: Note que el criterio de eficiencia sólo se da al compararse estimadores insesgados.

En este caso los estimadores más eficientes serán también los de menor error cuadrático medio.
En ocasiones, por distintas razones, se requerira del uso de estimadores que no necesariamente
son insesgados. En este caso en vez de comparar la eficiencia uno deberı́a de comparar sus erro-
res cuadráticos medios. Un estimador con poco sesgo podrı́a tener una mucho menor varianza y
compensar con ello su sesgo evidenciando un menor error cuadrático medio.
De todos los estimadores que podamos imaginar para un parámetro θ , los más simples son
aquellos que tienen una estructura lineal, y dentro de este grupo de estimadores, los de más interés
son los insesgados. Es natural que dentro de esta última clase busquemos, si existe, aquél que sea
el mejor, es decir, al más eficiente o de menor varianza. Ello nos lleva al siguiente concepto.
Definición 5.4 (MELI). Si θ̂ es un estimador de θ, diremos que este es el mejor estimador lineal e
insesgado de θ, o más brevemente el MELI de θ, si
1. θ̂ es un función lineal de la muestra, es decir, θ̂ = ni=1 ci Xi , para constantes ci .
P
2. θ̂ es insesgado, es decir, E(θ̂) = θ.

3. θ̂ es de varianza mı́nima en relación a cualquier otro estimador lineal e insesgado de θ.
Observación: Según la definición el problema de encontrar el MELI de un estimador θ en base

a un conjunto de variables X1 , X2 , . . . , Xn cuya distribución este indexada por θ es equivalente a
resolver el siguiente problema de optimización con restricciones
n
X X
mı́n ci2 σi2 + 2 ci cj σij
c1 ,c2 ,...cn
i=1 1<i<j=n
n
(5.1)
X
s.a. ci E(Xi ) = θ,
i=1
donde las incognitas son las constantes c1 , c2 , . . . , cn . Por los común la colección de v.a.’s conforman
una m.a. de una v.a. X de media µ. En este caso el problema de optimización anterior se reduce a
n
X
mı́n ci2
c1 ,c2 ,...cn
i=1
n
X θ
s.a. ci = .
µ
i=1
Proposición 5.1 (Teorema de Gauss-Markov). Sea X1 , X2 , . . . , Xn una m.a. de una v.a. X con media µ
y varianza finita σ 2 . Entonces X̄ es el MELI de µ.
Demostración: Como se tiene una m.a. y se desea estimar µ, el problema (5.1) se reduce a resolver
n
X
mı́n ci2
c1 ,c2 ,...cn
i=1
n
X
s.a. ci = 1
i=1
Estos problemas de optimización con restricciones de igualdad se resuelven por los usual utilizando
multiplicadores de Lagrange. Antes vale notar que la función a minimizar f (c1 , c2 , . . . , cn ) = ni=1 ci2 es
P
convexa (un paraboloide exactamente) y por tanto basta verificar sólo las condiciones de primer orden
para el lagrangiano del problema, el cual es
n
X n
X
L= ci2 + λ(1 − ci ),
i=1 i=1
siendo λ el multiplicador de lagrange. Las condiciones o derivadas de primer orden nos generan entonces
las siguientes n + 1 ecuaciones con n + 1 incógnitas
n
∂L λ X
= 0 ⇔ 2ci − λ = 0 ⇒ ci = , i = 1, 2, . . . , n y ci = 1.
ci 2
i=1
Reemplazando los ci obtenidos de las primeras n ecuaciones en la condición de insesgamiento última se

∗
2
tiene que nλ ∗ ci∗ = λ2 = n1 solucionan el problema de minimización y por tanto el
2 = 1 o λ = n . Ası́, los P
MELI de µ viene dado por µ̂MELI = ni=1 ci∗ Xi = X̄.
Una última propiedad que debe de poseer un estimador, y que aquı́ veremos, es el de la consis-
tencia. Para esto denotaremos en adelante, o cuando sea coveniente explicitar la dependencia de
un estimador al tamaño de muestra n, a θ̂ por θ̂n . La idea de que un estimador deba de ser consis-
tente es que conforme la muestra sea cada vez más grande, más cercano deberı́a de estar el valor
de este estimador de θ. Esta cercanı́a, como antes vimos, puede entenderse de varias maneras,
aquı́ nos interesará verla en términos de la convergencia en probabilidad definida en la sección
4.2.
P
Definición 5.5 (Consistencia). Se dice que θ̂n es un estimador consistente de un parámetro θ, si θ̂n →
θ, conforme n → ∞.
La ley de los grandes números nos dice directamente, que para cualquier m.a. de una v.a. X,
la media muestral X̄ es un estimador consistente de µ = E(X). Recordemos que esto fué probado
en base a la desigualdad de Tchebychev, la cual es sin duda una herramienta útil para las pruebas
de este tipo de convergencia. En el caso de otros estimadores sin embargo, la consistencia de
un estimador es difı́cil de verificar, por lo que veremos seguidamente algunos criterios que nos
faciliten la vida.
Proposición 5.2. Sea θ̂n un estimador de θ. Si

1. θ̂n es asintóticamente insesgado; es decir, lı́mn→∞ E(θ̂n ) = θ

2. θ̂n es asintóticamente el más eficiente; es decir, lı́mn→∞ V (θ̂n ) = 0.
Entonces θ̂n es un estimador consistente de θ.
Demostración: Sea > 0. Por la desigualdad de Markov generalizada se tiene que
E((θ̂n − θ)2 ) V (θ̂n ) + (E(θ̂n ) − θ 2 )

0 ≤ P (|θ̂n − θ| > ) = P ((θ̂n − θ)2 > 2 ) ≤ = .
2 2
Ası́, si tomamos lı́mites cuando n → ∞, el lado derecho de esta expresión tiende a 0 y consecuentemente,
P
por el teorema del sandwich, lı́mn→∞ P (|θ̂n − θ| > ) = 0. Esto es, θ̂n → θ.
Ejemplo 5.4. Si X1 , X2 , . . . , Xn es una m.a. de una v.a. X ∼ N (µ, σ 2 ), entonces S 2 es una estimador
(n−1)S 2
consistente de σ 2 . En efecto , por lo visto en el capı́tulo anterior W = σ 2 ∼ χ2 (n − 1), la cual es una
v.a. con media n−1 y varianza 2(n−1). Anteriormente vimos que cualquiera sea la distribución de X, S 2
V (S 2 ) 2σ 4
es una estimador insesgado de σ 2 . De otro lado, 2(n−1) = V (W ) = (n−1)2 σ4
y por tanto V (S 2 ) = n−1
P
converge a 0, conforme n → ∞. La proposición anterior nos garantiza entonces que S 2 → σ 2 .
La proposición siguiente nos dice que la convergencia en probabilidad se comporta de manera

similar al lı́mite de una función determinı́stica. La demostración de este resultado no es difı́cil,
pero excede a los objetivos de este curso (el lector interesado puede consultar por ejemplo Galvao
y Singer (1990)).
Proposición 5.3. Sea θ̂n un estimador consistente de un parámetro θ y γ̂n un estimador consistente de
otro parámetro γ, entonces
1. θ̂n + γ̂n es un estimador consistente de θ + γ.
2. θ̂n γ̂n es un estimador consistente de θγ.
θ̂n
3. γ̂n es un estimador consistente de γθ , si γ , 0.
4. Si g es una función continua, g(θ̂n ) es un estimador consistente de g(θ).
Ejemplo 5.5. Vimos en un ejemplo anterior que S 2 es un estimador consistente de σ 2 para el caso de
una m.a. de una v.a N (µ, σ 2 ). Podrı́amos
√ entonces aplicar la propiedad 4 anterior (conocida también
2
como de Slustky) y concluir que S = S es también un estimador consistente de σ .
Ejemplo 5.6. Si X1 , X2 , . . . , Xn es una m.a. de una v.a. X ∼ U ([0, θ]), ¿ es X(n) un estimador consistente
de θ?
Solución: Sea Y = X(n) . Vimos ya en un ejercicio anterior que la función de densidad de Y viene dada
y n−1 n
por fY (y) = n θn , si 0 ≤ y ≤ θ y E(Y ) = n+1 θ. De otro lado,
θ
n 2 2
Z !
n n

E Y2 = 2
y fY (y)dy = 2
θ y V (Y ) = − θ .
0 n+2 n+2 n+1
Ası́, por la proposición 5.2, Y = X(n) es un estimador consistente de θ.

5.3. Métodos de estimación

Vistas las propiedades de un buen estimador, queda la tarea de diseñar métodos o sistemas que
proporcionen la base para construir buenos estimadores. Los tres métodos básicos son: el método
de momentos, el de máxima verosimilitud y el de mı́nimos cuadrados. Se diferencian en lo que
asumen como entrada del proceso de estimación:
El Método de Momentos asume que conocemos la relación entre el o los parámetros que
deseamos estimar y los valores esperados de las sucesivas potencias de X (los “momentos”
de X).
El Método de Máxima Verosimilitud asume que conocemos la forma de la función de densi-
dad o probabilidad de X.
El Método de Mı́nimos Cuadrados supone que se conoce la forma de la relación entre dos
o más variables (en términos del valor esperado de una de ellas) y que los parámetros son
coeficientes de esta relación.
5.3.1. El método de momentos

Este, propuesto por Pearson en 1894, es no sólo uno de los métodos más antiguos sino uno de
los más sencillos e intuitivos. Sus propiedades sin embargo, se basan sólo en el conocimiento de
los momentos de la distribución más no en la distribución misma, por lo que su eficacia es relativa
y existen métodos mucho más eficientes. A pesar de ello este es un método muy popular y puede
ser usado por ejemplo para proponer estimadores rápidos que sirvan de base en la construcción
de otros estimadores más complejos.
Dada una m.a. X1 , X2 , . . . , Xn de una v.a. X, cuya distribución depende de un vector de paráme-
tros θ, definimos respectivamente el momento poblacional y muestral de orden k ∈ N+ mediante,
mk = E(X k )
y
n
1X k
Mk = Xi .
n
i=1
Note que Mk es un estimador insesgado de mk , pues
n n
1X 1X
E(Mk ) = E(Xik ) = mk = mk .
n n
i=1 i=1
V (X k ) m −m2
Más aún, dado que V (Mk ) = n12 ni=1 V (Xik ) = n = 2kn k , se tiene por la proposición 5.3, que
P
Mk será un estimador consistente de mk , sujeto a que el momento poblacional de orden 2k exista.

Si θ = (θ1 , θ2 , . . . , θp ) es un vector de parámetros de dimensión p, es claro que el momento po-
blacional de orden k dependerá de algún modo de estos parámetros, digamos mk = hk (θ1 , θ2 , . . . , θp ),
para alguna función hk : Rp → R. Si X es una v.a. continua por ejemplo, esto se da pues
Z∞
k
mk = E(X ) = xk fX (x; θ1 , θ2 , . . . , θp )dx
−∞
donde estamos denotando inusualmente por fX (x; θ1 , θ2 , . . . , θp ) a la función de densidad de X, la

cual implı́citamente depende también de los parámetros y de allı́ la notación. Luego al integrar-
se con respecto a x, estos desaparecerán quedando todo en función sólo de los parámetros del
modelo.
El método de momentos consiste en primero encontrar tales relaciones a través del siguiente
sistema de “ecuaciones estructurales”:



 m1 = E X 1 = h1 θ1 , θ2 , . . . , θp

2

 m2 = E X = h2 θ1 , θ2 , . . . , θp



 .. ..
. .





 m = E (X p ) = h θ , θ , . . . , θ


p p 1 2 p
y como tenemos a mano M1 , M2 , . . . , Mp que son “buenos estimadores” de respectivamente m1 , m2 , . . . , mp ,

o sea del lado izquierdo del sistema, podemos reemplazar los momentos mk por Mk para luego
“despejar” de este sistema de “ecuaciones de estimación” las componentes del vector de paráme-
tros θ = (θ1 , θ2 , . . . , θp ). Al vector obtenido lo llamaremos el estimador de momentos de θ y lo
denotaremos por θ̂m .
Observación: Los sistemas de ecuaciones estructurales y de estimación arriba comentados podrı́an
requerir de más de p ecuaciones. Esta situación podrı́a darse si algunas de las ecuaciones son
linealmente dependientes o si algunos momentos poblacionales no depende de los parámetros.
Por ejemplo, si X ∼ N (0, σ 2 ) y deseamos estimar por momentos σ 2 , será necesario aquı́ no sólo la
primera de estas ecuaciones, sino también la segunda, a pesar de que sólo se tenga un parámetro.
Ejemplo 5.7. Si X1 , X2 , . . . , Xn es una m.a. de una v.a. X ∼ U ([0, θ]), halle el estimador de momentos de
θ.
Solución: Aquı́ p = 1 y se tiene una sola ecuación estructural dada por m1 = E(X) = θ2 . Por tanto el
estimador de momentos de θ se obtendrá de despejar θ en la ecuación de estimación M1 = X̄ = θ2 . Este
es θ̂m = 2X̄, Recordemos que este fué uno de los estimadores propuestos en los ejemplos 5.1 y 5.2.
Observación: Aún cuando por lo general el estimador de momentos θ̂m es insesgado y consistente,
hay que observar que el método de momentos no toma en cuenta el rango de X. Ello podrı́a
redundar en que para ciertas muestras, el valor estimado pueda resultar absurdo. Por ejemplo,
si n = 4 y en una m.a. del ejemplo anterior se observarán los siguientes valores x1 = 0, x2 = 0, x3 = 0
y x4 = 1 entonces x̄ = 0.25 y el valor estimado de θ̂ serı́a 0.5, lo cual es totalmente contradictorio
con el valor x4 = 1 ya que este no podrı́a ser obtenido de la distribución uniforme que tiene como
rango al intervalo [0, 0.5].
Ejemplo 5.8. Si X1 , X2 , . . . , Xn es una m.a. de una v.a. X ∼ Γ (α, β), obtenga los estimadores de momentos
de α y β.
Solución: Aquı́ p = 2 y las ecuaciones estructurales son:
m1 = E (X) = h1 (α, β) = αβ
m2 = E X 2 = h2 (α, β) = V (X) + E(X)2 = αβ 2 + (αβ)2
Las ecuaciones de estimación serán entonces
M1 = α̂ β̂
M2 = α̂ β̂ 2 + (α̂ β̂)2 .
Despejando α̂ en función de β̂ de la primera ecuación y reemplazándola en la segunda uno obtiene

M2 −M12 M12
M2 = M1 β̂ + M12 . Ası́, β̂m = M1 y α̂m = M2 −M12
. Otra manera de escribir estos estimadores es
Pn 2 2
nX̄ 2 i=1 Xi − nX̄
α̂m = Pn 2
y β̂m = .
2 nX̄
i=1 Xi − nX̄
Ejemplo 5.9. Si X1 , X2 , . . . , Xn es una m.a. de una v.a. X ∼ U ([α, β]), obtenga los estimadores de mo-
mentos de α y β.
Solución: Aquı́ p = 2. Las ecuaciones estructurales son:
α+β
m1 = E (X) = h1 (α, β) = 2
(β−α)2
α+β 2
m2 = E X 2 = h2 (α, β) = V (X) + (E(X))2 = 12 + 2
Las ecuaciones de estimación son:

α̂+β
M1 = h1 (α̂, β̂) = 2 2
(β̂−α̂)2 α̂+β̂
M2 = h2 (α̂, β̂) = 12 + 2
Resolviendo el sistema anterior, tenemos de la primera ecuación α̂ = 2M1 − β̂ que reemplazada en la

2 2 2
(β−2M1 +β̂ ) (2β̂−2M1 ) 4(β̂−M1 )

2M1 −β̂+β̂ 2
segunda nos da M2 = 12 + 2 . Por tanto, M 2 = 12 + M 1 = 12 + M12 =
2
(β̂−M1 )
q
2
3 + M1 y despejando β̂ obtenemos que β̂ = M 1 ± 3 M2 − M12 y consecuentemente α̂ = M1 ∓
q
3 M2 − M12 . Como en una distribución uniforme α̂ < β̂, se debe tener que
q q
α̂m = M1 − 3 M2 − M12 y β̂m = M1 + 3 M2 − M12 .
Observación: Es posible verificar que los estimadores obtenidos en los dos últimos ejemplos están
bien definidos en el sentido que respetan su espacio paramétrico. Esto es, ambos son no negativos
y la expresión dentro del radical en el ejemplo 5.9 es también no negativo.
5.3.2. El método de la máxima verosimilitud

El método de momentos tiene la debilidad de no tomar en cuenta la estructura del espacio
paramétrico Θ; en particular, si Θ está asociado al espacio de información de la variable, pueden
presentarse casos como el del ejemplo 5.7, en que el método podrı́a proporcionar valores estima-
dos absurdos. Un método que resuelve este problema es el de máxima verosimilitud. Este método
es el más utilizado en la Estadı́stica, no sólo por su concepción natural sino sobre todo por sus
propiedades, en especial asintóticas, que describiremos en esta sección.
Definición 5.6 (Función de verosimilitud). Sea X1 , X2 , . . . , Xn es una m.a. de una v.a. X, cuya función
de distribución dependa de un parámetro o vector de parámetros θ ∈ Θ y sean x1 , x2 , . . . , xn sus valores
observados. La función de verosimilud de esta m.a. se define como
( Qn
PX (xi ) , si X es una v.a. discreta
L(θ) = Qi=1
n
i=1 fX (xi ) , si X es una v.a. continua.
Ejemplo 5.10. Suponga usted va a un casino y apuesta al primer resultado de una máquina que puede
dar 5 posibles resultados. A fin de estimar la probabilidad p de que gane en cada ronda de este juego,
usted hace 14 apuestas, anotando los resultados siguientes
2, 5, 1, 3, 3, 4, 5, 1, 3, 3, 4, 5, 3, 5
Halle la función de verosimilitud de una m.a. asociada a una v.a. que le indica si en cada ocasión gana o
no en el juego y halle el valor de p que maximiza esta función.
Solución: Sean las v.a’s Xi que valen 1 si se gana en el i-ésimo juego y 0 si se pierde en el i−ésimo
juego. Estas variables aleatorias dicotómicas conforman entonces una m.a. de tamaño 12 de una v.a.
X ∼ B(1, p) que indica si usted ganó o no la apuesta en cada juego. Los valores observados de esta v.a,
correspondientes serı́an entonces 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0 y la función de verosimilitud de esta m.a.
vendrı́a dada por
L(p) = P (X1 = 0)P (X2 = 0)P (X3 = 1) . . . P (X14 = 0) = p2 (1 − p)12 .
Para encontrar el valor de p que maximice esta función de verosimilitud, bastará derivar ella con respecto
a p e igualar a 0. Ello nos brinda la ecuación 0 = 2p(1 − p)12 − 12p2 (1 − p)11 = p(1 − p)11 (2 − 2p − 12p) =
14p2 (1 − p)11 ( 17 − p). Si bien los puntos crı́ticos de esta ecuación son el 0 , 1 y el valor 17 , los primeros
dos corresponden al valor mı́nimo de la función L(p), ya que L(p) es una probabilidad y 71 = 0.1428571
0
al valor que maximiza L(p), pues L(p) es creciente cuando p < 17 (L (p) > 0) y L(p) es decreciente cuando
0
p > 17 (L (p) < 0). Note que si bien, este valor depende de lo que halla ocurrido en la muestra, uno
en general podrı́a generalizarlo a cualquier posible resultado. Esto es, si al apostar n veces hubiésemos
observado para X los valores (1’s y 0’s) x1 , x2 , . . . , xn , la función de verosimilitud serı́a
Pn Pn
L(p) = p i=1 xi (1 − p)n− i=1 .
Esta función, que en realidad depende también de los xi ’s que se observen, no es difı́cil de ver que se
máximiza en g(x1 , x2 , . . . , xn ) = x̄ = n1 ni=1 xi .
P
Observación: Note que en el caso discreto la función de verosimilitud L(θ) no es sino la función de
probabilidad de que la m.a. X1 , X2 , . . . , Xn tome, para el parámetro dado θ, los valores x1 , x2 , . . . , xn
que precisamente se han observado de ella. Ası́, si uno tiene como única información de confianza
sobre X a los valores que se observaron en la m.a., es lógico pensar que la mejor idea que uno
pudiera tener acerca del parámetro de la distribución que gobierna estos datos es la que maxi-
miza precisamente esta probabilidad. Este valor corresponde al valor observado del estimador de
máxima verosimilitud (la estimación máximo verosı́mil); es decir, al valor que máximiza nuestra
creencia o verosimilitud de lo que ya observamos. Como dice el dicho “ver para creer”.
Definición 5.7 (El estimador de máxima verosimilitud). En el contexto de la definición anterior,

sea g(x1 , x2 , . . . , xn ) el valor que maximiza la función de verosimilitud L(θ). El estimador de máxima
verosimilitud θ̂MV de θ viene dado por
θ̂MV = g(X1 , X2 , . . . , Xn ).
Observaciones:
Al valor observado de θ̂MV = g(X1 , X2 , . . . , Xn ), g(x1 , x2 , . . . , xn ) se le llama la estimación máxi-
ma verosı́mil de θ. Este se obtiene recordemos de resolver el problema
max L(θ)
s.a.
θ∈Θ
Si bien en la mayorı́a de aplicaciones uno tiende a olvidar la restricción de que θ vive en

su espacio paramétrico Θ, en ocasiones tal restricción juega un papel fundamental en la
solución, véase sino el ejemplo 5.10.
La maximización de L(θ) puede hacerse con los métodos clásicos (vı́a diferenciación sin o con
restricciones) o con métodos heurı́sticos (fundamentalmente gráficos).
Como L(θ) y K(θ) = ln(L(θ)) tienen los mismos puntos crı́ticos, pero K(θ) suele tener una
estructura más simple, ya que la mayorı́a de funciones de probabilidad o densidad tiene una
estructura de potencias, es común obtener la estimación máxima verosı́mil de θ maximizan-
do K(θ) en lugar de L(θ).
Ejemplo 5.11. Si X ∼ G(p), halle el estimador de máxima verosimilitud de θ.

Solución: Sea X1 , X2 , . . . , Xn una m.a. de X y sean x1 , x2 , . . . , xn sus valores observados. La funcióne de
verosimilitud de esta m.a. viene dada por
n
Y n
Y Pn
L(θ) = PX (xi ) = θ(1 − θ)xi −1 = θ n (1 − θ) i=1 (xi −1) = θ n (1 − θ)n(x̄−1) , si 0 < θ < 1
i=1 i=1
En lugar de maximizar esta función, resulta más conveniente maximizar su logaritmo, el cual viene dado
por:
K(θ) = n log(θ) + n(x̄ − 1) log(1 − θ))
La condición de primer orden nos brinda la ecuación
n n(x̄ − 1) n( 1x̄ − θ)
+ = = 0,
θ 1−θ x̄θ(1 − θ)
que nos provee de los puntos crı́ticos 0,1 y 1x̄ . Los primeros dos minimizan L(θ) y el tercero, como es
directo de verificar por el criterio de la primera derivada, máximiza K(θ) o, equivalentemente, L(θ). Ası́,
θ̂MV = X̄1 es el estimador pedido.
Ejemplo 5.12. Si X ∼ N (µ, σ 2 ), halle los estimadores de máxima verosimilitud de µ y de σ 2 .

Solución: La función de verosimilitud en este caso viene dada por
n n 2 2 n 2 2P n 2 2 P

2
Y Y e−(xi −µ) /2σ e− i=1 (xi −µ) /2σ e− i=1 (xi −µ) /2σ
L µ, σ = fX (xi ) = √ = √ = √
i=1 i=1 2πσ ( 2π)n σ n ( 2π)n (σ 2 )n/2
y su función de log-verosimilitud por

n √
X n
2
K(µ, σ ) = − (xi − µ)2 /2σ 2 − n ln( 2π) − ln σ 2
2
i=1
Las condiciones de primer orden para encontrar los valores que maximizen esta función se obtienen de
igualar el gradiente de esta función al vector 0, lo cual genera las ecuaciones:
Pn
∂
K(µ, σ 2 ) = 0 ⇒ i=1 (xi −µ) = 0
∂µ 2
Pn2σ 2
i=1 (xi −µ)
∂
∂σ 2
2
K(µ, σ ) = 0 ⇒ 2 2 − n2 σ12 =0
2(σ )
De la primera obtenemos directamente µ∗ = x̄ como una posible solución, y si reemplazamos esta en

la segunda se tiene a σ 2∗ = n1 ni=1 (xi − x̄)2 como una posible solución. Para verificar si estos posibles
P
valores maximizan la (log)verosimilitud, podrı́amos usar algún criterio de segundo orden, como por
ejemplo el de los menores principales. Este nos dice que (µ∗ , σ 2∗ ) resolverá el problema de maximización
si los menores principales de la matriz hessiana H(µ, σ 2 ) evaluada en este punto (de segundas derivadas)
tienen signos alternados, empezando con un signo negativo. Hallemos entonces las derivadas de segundo
orden de K:
∂2 µ
∂µ2
K(µ, σ 2 ) = −n 2σ 2
Pn 2
∂2 i=1 (xi −µ)
∂(σ 2 )2
K(µ, σ 2 ) = − σ 6 + 2σn 4
Pn
∂2 i=1 (xi −µ) ∂2
∂µσ 2
K(µ, σ 2 ) = − 2σ 4
= ∂σ 2 µ
K(µ, σ 2 )
La matriz Hessiana en (µ∗ , σ 2∗ ) es entonces igual a
−n 2σx̄2∗
" #
∗ 2∗ 0
H(µ , σ ) = .
0 − 2σn4∗
Dado que el primer menor principal, que es la primera entrada de esta matriz es negativo y el segundo
menor principal, que es el determinante de esta matriz, es positivo se tiene que (µ∗ , σ 2∗ ) resuelve el
problema de optimización y por tanto los estimadores de máxima verosimilitud de µ y σ 2 , serán
n
2 1X
µ̂MV = X̄ y σ̂MV = (Xi − X̄)2 .
n
i=1
En todos los ejemplos dados, hemos podido obtener de manera explı́cita los estimadores de
máxima verosimilitud. En general, ello no siempre es posible y uno debe de apelar a métodos
numéricos a fin de resolver el problema de optimización inherente. Una manera de hacerlo es a
través de R que posee también funciones de optimización numéricas.
Ejemplo 5.13. Suponga que el monto de los reclamos en miles de soles que una compañı́a de seguros
experimenta se modela mediante una v.a X con distribución Gamma de parámetros α y β. Si tomada
una muestra de 10 reclamos recibidos por la compañı́a, se obtuvieron los siguientes montos de reclamo
1.069, 0.501, 1.462, 4.892, 7.690, 1.133, 0.561, 4.677, 4.259, 9.525
¿En cuánto estimarı́a α y β? Use el método de máxima verosimilitud.

Solución: Si X1 , X2 , . . . , Xn es una m.a de X ∼ Γ (α, β) y x1 , x2 , . . . , xn sus valores observados, la función
de verosimilitud y su logaritmo vienen dados por
Pn
n
β nα ( ni=1 xiα−1 )e−β i=1 xi
Y Q
L(α, β) = fX (xi ) =
Γ (α)n
i=1
y
n
X n
X
K(α, β) = nα log(β) + (α − 1) log(xi ) − β xi − n log(Γ (α))
i=1 i=1
Tomando las derivadas parciales con respecto a α y β, el sistema a resolver será


+ ni=1 log(xi ) − nΨ (α) = 0
P
 n log(β)


Pn
 nα
β − i=1 xi ,


donde Ψ (α) es la derivada del logaritmo de la función Gamma, función conocida también como la fun-
ción digamma. Si α ∗ y β ∗ fuesen las estimaciones máximas verosı́miles de α y β ellas deben de satisface,
por la segunda ecuación, que α ∗ = β ∗ x̄. Reemplazando esta identidad en la primera ecuación, restará
obtener β ∗ que resuelva
n
∗ 1X
log(β ) + log(xi ) − Ψ (β ∗ x̄) = 0.
n
i=1
Desafortunadamente esta ecuación no lineal carece de solución explı́cita. Para resolver el problema
podrı́amos entonces utilizar R de dos maneras equivalentes: una resolviendo la ecuación no lineal ante-
rior u otra maximizando directamente K(α, β). A continuación mostramos las rutinas correspondientes
en R para tales procedimientos
## Estimacion resolviendo la ecuacion no lineal con el comando uniroot

> x = c(1.069,0.501,1.462,4.892,7.690,1.133,0.561,4.677,4.259,9.525)
> f <- function(b){log(b) + mean(log(x))- digamma(b*mean(x))}
> beta = uniroot(f,c(1e-8,1e8))$root
> alpha = beta*mean(x)
> x = c(1.069,0.501,1.462,4.892,7.690,1.133,0.561,4.677,4.259,9.525)
> f <- function(b){log(b) + mean(log(x))- digamma(b*mean(x))}
> beta = uniroot(f,c(1e-8,1e8))$root
> alpha = beta*mean(x)
> c(alpha, beta)
[1] 1.2340976 0.3450188
## Estimacion minimizando -K(alpha,beta) con el comando optim

> g<-function(theta,x){ # -K(alpha,beta)
+ n = length(x); alpha = theta[1] ; beta = theta[2]
+ aux1 = sum(log(x)); aux2 <- sum(x)
+ -(n*alpha*log(beta)+(alpha-1)*aux1-beta*aux2-n*log(gamma(alpha)))}
> n = length(x)
> (alpha0 = (n*mean(x)ˆ2)/(sum(xˆ2) - n*mean(x)ˆ2))
[1] 1.406046
> (beta0 = mean(x)/(alpha0))
[1] 2.543942
> h<-optim(c(alpha0,beta0),g,NULL,x,method ="L-BFGS-B",lower=1e-8,upper=Inf)
> h$par
[1] 1.2342078 0.3450505
Note que ambos procedimientos nos brindan prácticamente las mismas estimaciones máxima verosı́miles
de α y β de respectivamente α ∗ = 1.2342078 y β ∗ = 0.3450505 y que en el procedimiento de minimiza-
ción utilizamos como valores iniciales a las estimaciones de momentos de α y β.
Ejemplo 5.14. Si X ∼ U ([0, θ]), halle el estimador de máxima versimilitud de θ.
Solución: La función de verosmilitud de una m.a. de esta v.a. viene dada por L(θ) = θ1n , donde dados
∂
los valores observados xi , θ debe satisfacer que 0 ≤ xi ≤ θ. Puesto que ∂θ L(θ) = −nθ −n−1 , 0, ∀θ > 0,
podrı́amos estar tentados a decir que no existe punto crt́ico ni estimador MV? El problema surge por
haber planteado la función de verosimilitud de manera descuidada, siendo esta formalmente planteada
como
n ( −n ( −n
Y θ , si 0 ≤ xi ≤ θ, ∀i θ , si x(n) ≤ θ.
L(θ) = fX (xi ) = =
0 , en otro caso 0 , en otro caso
i=1
donde x(n) = máx{x1 , x2 , . . . , xn }. Si bien en la función de verosimilitud no aparecen explı́citamente los
valores observados de la m.a. x1 , x2 , . . . , xn , estos si figuran acotando inferiormente a θ. De lo anterior se
∂
deduce que ∂θ L(θ) = −nθ −n−1 < 0, si 0 ≤ xi ≤ x(n) ≤ θ. En caso contrario, la derivada es 0 o no existe.
Por lo tanto, L(θ) es una función decreciente de θ que se maximiza en el menor valor posible factible de
θ, que es θ ∗ = x(n) . Consecuentemente el estimador de máxima verosimilitud de θ viene dado por
θ̂MV = X(n) = máx{X1 , X2 , . . . , Xn }.
Observación: Lo que hace a este ejemplo diferente de los anteriores, es que el parámetro θ y
el rango de RX de X están asociados, a diferencia de lo que sucedı́a en los otros ejemplos, y al
maximizarse L(θ) esta asociación se convierte en una restricción. En general recordemos que la
estimación de θ̂MV debe de resolver el problema
máx L(θ)
s.a. θ ∈ Θ
pero la restricción θ ∈ Θ no es real si Θ y RX son independientes (en el sentido matemático no
probabilı́stico). Cuando Θ y RX están asociados, hallar el estimador de máxima verosimilitud im-
plica respetar y tomar en cuenta la restricción θ ∈ Θ. El caso de la distribución uniforme muestra
lo dicho.
Las definiciones 2.6 y 2.7 son en verdad definiciones muy particulares del método de máxima
verosimilitud. El método podrı́a aplicarse a una colección arbitraria X1 , X2 , . . . , Xn de vectores alea-
torios no necesariamente independientes o idénticamente distribuidos, cuya distribución conjunta
se encuentre indexada por un vector de parámetros θ. En general, el método de máxima verosimi-
litud nos proveerá del estimador θ̂ MV , cuyo valor observado, maximice la función de probabilidad
o densidad conjunta del vector aleatorio [X1 , X2 , . . . , Xn ].
Ejemplo 5.15. Sea (X, Y ) un vector aleatorio discreto con la siguiente función de probabilidad conjunta
θ 2 (1 − θ)x+y−2 p , si x = 1, 2, 3, . . . ; y = 1, 2, 3, . . .
(
PXY (x, y) =
0, en otro caso.
Halle, en base a una m.a. de valores de este vector, el estimador de máxima verosimilitud del parámetro
θ ∈]0, 1[.
Solución: Sean (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) los valores observados del vector aleatorio (X, Y ). La función
de verosimilitud de esta viene dada por
n
Y n
Y Pn
L(θ) = PXY (xi , yi ) = θ 2 (1 − θ)xi +yi −2 = θ 2n (1 − θ) i=1 (xi +yi −2) = θ 2n (1 − θ)n(x̄+ȳ−2)
i=1 i=1
y su logaritmo por
K(θ) = 2n log(θ) + n(x̄ + ȳ − 2) log(1 − θ).
Como el espacio parámetrico de θ y el rango del vector son independientes, podemos simplemente maxi-
mizar esta función derivando con respecto a θ e igualándolo a 0 como
∂ 2n n(x̄ + ȳ − 2)
0= K(θ) = − =⇔ 2n − 2nθ = nθ(x̄ + ȳ) − 2nθ
∂θ θ (1 − θ)
2 ∂2 n(1−θ ∗ )2 +(x̄+ȳ−2)(θ ∗ )2
Brindándonos el punto crı́tico θ ∗ = x̄+ȳ . Dado que ∂θ 2
K(θ ∗ ) =− (θ ∗ (1−θ ∗ ))2
< 0, θ ∗ maximiza
2
L(θ) y consecuentemente θ̂MV = X̄+Ȳ
.
5.3.3. El método de mı́nimos cuadrados

Este método se aplica cuando lo que se tiene es una relación entre dos variables y los paráme-
tros que definen la relación deben ser estimados. Como los modelos de la economı́a aplicada se
formulan, por lo general, como ecuaciones, esto hace del método una herramienta ideal para “ajus-
tar” los modelos a datos empı́ricos y convierte a los mı́nimos cuadrados en el método más usado
de la Econometrı́a básica.
El problema y sus elementos
Sea x una variable observable no aleatoria, que se suele llamar éndogena o independiente, Y
una variable aleatoria observable y una variable aleatoria no observable. Supongamos que estas
variables están relacionadas mediante la ecuación Y = ϕ(x; θ) + , donde ϕ(x; θ) es una función
bien especificada (con forma conocida) y θ es un parámetro o vector de parámetros por estimar. La
función ϕ(x; θ) puede considerarse como una función de “enlace” entre la componente aleatoria,
exógena o dependiente Y del modelo y el residuo no sistematico y aleatorio . En Economı́a, este
último representa un elemento de ajuste que se incorpora al modelo económico E(Y ) = ϕ(x; θ)
y que representa los efectos fortuitos de otras fuerzas no contempladas en el modelo. También
se dice que ϕ(x; θ) es la “componente sistemática” del modelo y la “componente aleatoria” del
mismo, la cual suele asumirse que tiene media 0.
Dada una m.a. de n parejas de observaciones (x1 , Y1 ), (x2 , Y2 ), . . . , (xn , Yn ) que satisfacen la rela-
ción
Yi = ϕ(xi ; θ) + i , i = 1, 2, . . . , n, (5.2)
el problema consiste entonces en estimar el parámetro o vector de parámetros θ para este modelo
de “regresión” en base a la observación de una m.a. de Y para valores dados de x.
Observación: La restricción que los x0 s sean no aleatorios podrı́a parecer restrictiva, pues en la
práctica lo que uno hace es seleccionar a n elementos en la población en los cuales mide conjun-
tamente tanto x como Y . Ası́, en términos formales podrı́amos considerar que x es, al igual que Y ,
una v.a. y la podrı́amos denotar por X. En tal situación entenderemos que lo que estamos mode-
lando no es la componente sistemática en (5.2) sino la esperanza condicional E(Y | X = x) = ϕ(x; θ),
que recordemos llamamos en el capı́tulo anterior la regresión de Y sobre X.
Los supuestos clásicos y el método de mı́nimos cuadrados
Para trabajar con comodidad, debemos imponer algunas condiciones que sean simplificadoras
pero plausibles. El conjunto mı́nimo de supuestos que con más frecuencia se emplea se conoce
como de “supuestos clásicos”. En este y sobre todo en futuros cursos, como el de Econometrı́a,
estos supuestos se irán relajando para tratar modelos más generales y flexibles.
Supuestos clásicos: Dado el modelo (5.2) y una m.a. de n parejas de observaciones
(x1 , Y1 ), (x2 , Y2 ), . . . , (xn , Yn )
que satisfacen este modelo, asumiremos que

(1) E(i ) = 0, ∀i = 1, 2, . . . , n.
(2) Homocedasticidad: V (i ) = σ 2 , ∀i = 1, 2, . . . , n.
(3) No autocorrelación: Cov(i , j ) = 0, ∀i , j ∈ {1, 2, . . . , n}.
Definición 5.8 (Estimador de mı́nimos cuadrados). Si se satisface el modelo (5.2), el estimador de

mı́nimos cuadrados ordinarios, o MCO, θ̂, del parámetro θ es la estadı́stica que resuelve
mı́n Q(θ) = ni=1 (Yi − ϕ(xi ; θ))2

P
θ
s.a. θ ∈ Θ
Es interesante notar que el método de mı́nimos cuadrados es en verdad un método matemático

o de interpolación que busca la curva determinada por la gráfica de la función ϕ que mejor ajuste
a los pares de datos de (xi , yi ) observados, donde por mejor se entenderá que haga que la suma de
los errores al cuadrado entre los verdaderos valores de la variable dependiente y los pronosticados
por el modelo sean los más pequeños posibles.
Ejemplo 5.16 (El modelo de regresión lineal simple). Consideremos el modelo de regresión lineal
simple
Yi = α + βxi + i , i = 1, 2, . . . , n.
Halle los estimadores de mı́nimos cuadrados ordinarios de α y β.
Solución: En este caso la función objetivo a minimizar viene dada por:
n
X
Q(α, β) = (Yi − α − βxi )2
i=1
Dado que esta función es convexa (un parabolide para ser exactos), bastará para minimizarla resolver
∂Q(α,β) ∂Q(α,β)
sólo las condiciones de primer orden ∇Q(α, β) = 0 ⇔ ∂α = 0 y ∂β = 0. Ası́,
n n
∂Q(α, β) ∂ X 2 X
=0⇒ Yj − α − βXj = −2 Yj − α − βXj = 0
∂α ∂α
j=1 j=1
n n
∂Q(α, β) ∂ X 2 X
=0⇒ Yj − α − βXj = −2 Yj − α − βXj Xj = 0
∂α ∂β
i=1 i=1
El sistema 2 × 2 resultante es:

Pn
Y − ni=1 α − β ni=1 xi = 0 ⇒ nȲ − αn − βnx̄ = 0 ⇒ αn + βnx̄ = nȲ
P P
Pni=1 i Pn Pn 2 Pn 2 Pn
i=1 xi Yi − i=1 αxi − β i=1 xi = 0 ⇒ αnx̄ + β i=1 xi = i=1 xi Yi
Matricialmente el sistema anterior es:

" #" # " #
n nx̄ α nȲ
Pn 2 = Pn
nx̄ i=1 xi β i=1 xi Yi
que se puede resolver aplicando inversa, con la Regla de Cramer o por sustitución. Su solución nos provee
de los estimadores de mı́nimos cuadrados ordinarios:
Pn
i=1 xi Yi − nx̄Ȳ
α̂MCO = Ȳ − β̂MCO x̄ y β̂MCO = P n 2 2
i=1 xi − nx̄
1 Pn Pn 2
Observación: Si definimos Sx2 = n−1 i=1 i=1 (xi − x̄) , otras fórmulas alternativas para α̂MCO y
β̂MCO son
Pn P
(x − x̄) Y − Ȳ n Pn n !
i=1 i i i=1 xi Yi − nx̄Ȳ i=1 (xi − x̄) Yi (xi − x̄)
X
β̂MCO = Pn 2
= 2
= 2
= 2
Yi
i=1 (x i − x̄) (n − 1)S x (n − 1)S x i=1
(n − 1)S x
y
n !
X 1 (xi − x̄)
α̂MCO = − Y,
n (n − 1)Sx2 i
i=1
La observación anterior muestra que tanto α̂MCO comos β̂MCO son estimadores lineales. Re-
sulta que si se cumplen los supuestos clásicos no existen mejores estimadores de esta forma para
α y β, ello nos los justifica el siguiente resultado.
Proposición 5.4 (Teorema de Gauss-Markov). Si en el modelo de regresión lineal simple
Yi = α + βxi + i , i = 1, 2, . . . , n.
se cumplen los supuestos clásicos, entonces α̂MCO y β̂MCO son los MELI de α y β.
Demostración: Para hallar los MELI de α y β postulemos de manera genérica a α̃ = ni=1 ai Yi y β̃ =
P
Pn
i=1 bi Yi como estimadores lineales arbitrarios de α y β. Para que estos sean insesgados deberá de cum-
plirse que
Xn n
X n
X n
X n
X
α = E(α̃) = E( ai Yi ) = ai E(Yi ) = ai (α + βxi ) = α ai + β ai xi
i=1 i=1 i=1 i=1 i=1
y
Xn n
X n
X n
X n
X
β = E(β̃) = E( bi Yi ) = bi E(Yi ) = bi (α + βxi ) = α bi + β bi xi
i=1 i=1 i=1 i=1 i=1
0
cualesquiera sean los valores de los xi s. Note que aquı́ hemos usado el supuesto clásico (1). Lo anterior
será cierto en el primer caso sólo si ni=1 ai = 1 y ni=1 ai xi = 0 y en el segundo caso sólo si ni=1 bi = 0
P P P
y ni=1 bi xi = 1. Los MELI de α y β lo obtendremos entonces al buscar, bajo las últimas restricciones,
P
minimizar la varianza de α̃ y β̃, que por el supuesto clásico (3), vienen dadas por
n
X n
X n
X n
X
V (α̃) = a2i V (Yi ) = σ 2 a2i y V (β̃) = bi2 V (Yi ) = σ 2 bi2 ,
i=1 i=1 i=1 i=1
donde σ 2 = V (Yi ) es por el supuesto clásico (2) una varianza común y por tanto irrelevante en los
problemas de optimización finales para los MELI siguientes:
Pn 2
mı́n i=1 ai
ai
Pn
s.a. ai = 1
Pi=1
n
i=1 ai xi = 0
y
Pn 2
mı́n i=1 bi
bi
Pn
s.a. bi = 0
Pi=1
n
i=1 bi xi = 1
Puesto que las funciones objetivo son aquı́ convexas (paraboloides exactamente), bastará resolver las con-
diciones de primer orden sobre el lagrangiano de estos problemas. Como ilustración, veamos el problema
del MELI de β, quedando como ejercico para el lector la resolución del MELI de α. El lagrangiano de
nuestro interés viene dado por
n n
 n

X X  X 
L (b1 , b2 , . . . bn , λ1 , λ2 ) = bi2 − λ1 bi + λ2 1 − bi xi 
i=1 i=1 i=1
y las condiciones de primer orden, de que el gradiente de este lagrangiano deba de ser igual a 0, nos
conducen a las siguientes n + 2 ecuaciones con n + 2 incógnitas:
∂L
∂b1
=0 ⇔ 2b1 − λ1 − λ2 x1 = 0
∂L
∂b2
=0
⇔ 2b2 − λ1 − λ2 x2 = 0
..
.
∂L
∂bn
= 0 ⇔ 2bn − λ1 − λ2 xn = 0
∂L Pn
∂λ1
=0 ⇔ i=1 bi = 0
∂L
= 0 ⇔ 1 − ni=1 bi xj = 0
P
∂λ 2
La estrategia para resolver el sistema es algo estándar: Despejar los coeficientes bi en términos de los
multiplicadores de Lagrange λ1 y λ2 y reemplazar estas en las ecuaciones derivadas de las restricciones.
Ello nos da
λ1 + λ2 x1 λ + λ2 x2 λ + λ2 xi λ + λ2 xn
b1 = , b2 = 1 , . . . , bi = 1 , . . . , bn = 1 .
2 2 2 2
Reemplazando en la penúltima ecuación:
n n n
λ1 + λ2 xi
X X X
bi = 0 ⇔ =0⇔ (λ1 + λ2 xi ) = 0 ⇔ nλ1 + λ2 nx̄ = 0 ⇔ λ1 + λ2 x̄ = 0
2
i=1 i=1 i=1
y reemplazando en la última ecuación:

n n n n
λ1 + λ2 xj
X X ! X X

2
bi x i = 1 ⇔ Xi = 1 ⇔ λ1 xi + λ2 xi = 2 ⇔ λ1 nx̄ + λ2 xi2 = 2.
2
i=1 i=1 i=1 i=1
Resolviendo estas dos ecuaciones para λ1 y λ2 , obtenemos

2x̄ 2
λ∗1 = − Pn 2
y λ∗2 = Pn 2
2 2
i=1 xi − nx̄ i=1 xi − nx̄
que reemplazadas en los bi nos brindan los coeficientes del MELI de β

λ∗1 + λ∗2 xi (x − x̄)
bi∗ = = Pn i 2
2 i=1 xi − nx̄
2
Ası́,
n n n !
X X (xi − x̄) X (xi − x̄)
β̂MELI = bi∗ Yi = Y = Yi = β̂MCO .
2 i
Pn 2
i=1 i=1 i=1 xi − nx̄ i=1
(n − 1)Sx2
Observación: En la definición del MELI hemos usado la noción de función lineal como equiva-
lente a una combinación lineal, esto es una función de la forma ni=1 ci Yi . En el lenguaje cotidiano
P
se suele también entender función lineal como una función de la forma c0 + ni=1 ci Yi que formal-
P
mente se le conoce como una “función lineal afı́n”, en cuyo caso c0 se convierte en una incógnita
más del problema. Por lo general, al construir el MELI a partir de una función lineal afı́n, resulta
que c0 = 0 y por tanto es irrelevante la distinción entre función lineal ni=1 ci Yi y función lineal
P
afı́n c0 + ni=1 ci Yi . Sin embargo, para ciertos modelos, pueden presentarse diferencias.
P
Ejemplo 5.17. Consideremos bajo los supuestos clásicos un modelo Yi = α0 + βxi + i , donde α0 es
un parámetro de valor conocido (y por tanto no hay necesidad de estimarlo). Si usamos el término de
Pn Pn (xi −x̄)
función lineal de la muestra a i=1 ci Yi , el MELI de β resulta ser β̂1 = i=1 (n−1)S 2 Yi que es el mismo
x
MELI del modelo de regresión lineal simple, en el que α es un parámetro desconocido. Si, por otro lado,
usamos el término de función lineal de la muestra a c0 + ni=1 ci Yi , el MELI de β resulta ser
P
Pn Pn
i=1 xi xi Yi
β̂2 = −α0 Pn 2 + Pi=1 n 2
,
i=1 xi i=1 xi
que es diferente al obtenido antes y que es además más eficiente que β̂1 .
Ejemplo 5.18. Un modelo relaciona el gasto mensual en reinversión en miles de soles Y en términos del
ingreso en miles de soles x que una empresa obtiene en cierto sector al mes según el modelo:
Yi = βxi + i , i = 1, 2, . . . , n,
donde se asume que los errores son independientes y tienen distribución i ∼ N (0, xi ), siendo xi el ingreso
mensual en miles de soles de la empresa i. Se asumen que los xi > 0 son conocidos y fijos.
a) Halle el estimador de mı́nimos cuadrados de β.
b) Halle el MELI de β.
c) Halle el estimador de máxima verosimilitud de β.
√
d) Muestre que si dividimos la ecuación de regresión anterior entre xi , obteniéndose el modelo ponde-
rado Ỹi = β x̃i + ˜i , entonces:
Los errores ˜i satisfacen los supuestos clásicos.
El estimador de mı́nimos cuadrados de la ecuación de regresión ponderada coincide con el MELI
de β.
e) Suponga que se seleccionaron 9 empresas del sector con ingresos mensuales en miles de soles de 17,
20.1, 25.63, 30.31, 33.24, 40.52, 46.11, 51.2, 55.47 encontrando para estas, respectivamente, los
siguientes gastos que realizaron en reinversión en miles de soles: 9.83, 3.08, 8.54, 11.81, 5.04, 8.81,
19, 16.29,14.62 ¿Cuál serı́a su estimación e interpretación de β y en cuanto estimarı́a la reinversión
media que realizarı́a una empresa del sector que tuvo un ingreso mensual de 28,635 soles?
Solución: a) El estimador MCO resuelve mı́nβ g(β) = ni=1 (Yi − βxi )2 . Derivando con respecto a β e
P
P
xi Yi
igualando a 0 obtenemos β̂MCO = Pi=1
n 2 ,
el cual es directo comprobar que minimiza g(β).
i=1 xi
b) Para el MELI se debe de proponer un estimador lineal β̂ = ni=1 ci Yi , el cual es insesgado si ni=1 ci xi =
P P
Pn 2
1. Ası́, los coeficientes del MELI deben de minimizar V (β̃) = i=1 ci xi sujetos a la restricción anterior.
Con ello el lagrangiano del problema es L = ni=1 ci2 xi + λ(1 − ni=1 ci xi ). Dado que la función objetivo es
P P
convexa, las condiciones de primer orden 2ci xi − λxi = 0, i = 1, 2, . . . , n y ni=1 ci xi = 1 conllevan a que
P
∗
ci∗ = λ2 y por tanto reemplazando en la restriccón se tiene que ci∗ = n2x̄ y ci∗ = n1x̄ . Ası́ el MELI de β viene
dado por β̂MELI = Ȳx̄ .
c) En base a la m.a. de Y para valores dados de los x, la función de verosimilitud de esta m.a. viene dada
por
n n P (y −βx )2
Y Y 1 − 2x1 (yi −βxi )2 1 1 − ni=1 i 2x i
L(θ) = fYi (yi ) = √ e i = n Qn √ e i
i=1 i=1
2πxi (2π) 2 i=1 xi
tomando logaritmos y descartando los términos que no dependan de β, deberemos entonces minimizar
P (y −βx )2 0
con respecto a β la función K(β) = − ni=1 i 2x i . La primera derivada de esta función es K (β) =
i
Pn 00
∗ ȳ Ȳ
i=1 (yi − βxi ) = n(ȳ − β x̄). Como K (β) = −nx̄ < 0, β = x̄ maximiza K(β) y por tanto β̂MV = x̄ . En
otras palabras el estimador de máxima verosimilitud coincide con el MELI de β.
d) En efecto en el modelo ponderado
1 1 1
E(˜i ) = √ E(i ) = 0, V (˜i ) = V (i ) = 1 y Cov(˜i , ˜j ) = √ Cov(i , j ) = 0.
xi xi xi xj
Ası́ se satisfacen los supuestos clásicos. De otro lado, como el modelo ponderado satisface los supuestos
clásicos, su estimador de mı́nimos cuadrados ordinarios viene dado, según a), por
Pn Pn
i=1 Ỹi x̃i Yi Ȳ
β̂ = Pn 2 = Pi=1 n = = β̂MELI .
i=1 x̃i i=1 xi x̄
ȳ
e) Por los visto anteriormente, la mejor estimación de β vendrı́a dada por x̄ = 0.353086. Dado que
E(Yi ) = βi xi se esperará que por cada mil soles adicionales que una empresa obtenga durante un mes, su
gasto en inversión crezca también en 353.0686 soles. Más aún, la estimación máxima verosı́mil de E(Y )
para un x = 28.635 dado viene dada por Ê(Y )MV = β̂MV x = 0.353086 × 28.635 = 8.693184 miles de
soles.
5.4. Propiedades de los estimadores de máxima verosimilitud

Comentamos anteriormente que el método por excelencia en Estadı́stica es el de máxima ve-
rosimilitud. Ello se debe no sólo a su lógica de construcción, sino sobre todo a dos propiedades
centrales conocidas como la de invarianza y de eficiencia asintótica.
Definición 5.9. Sean θ ∈ Rp y γ ∈ Rq parámetros tales que γ = h(θ), para cierta función h : Rp → Rq .
Sean θ̃ y γ̃ estimadores de θ y γ, respectivamente, obtenidos por cierto método M. Diremos que el
método M tiene la propiedad de invarianza si se cumple que γ̃ = h(θ̃).
En general, si h posee inversa todos los métodos que hemos anteriormente visto poseen la pro-
piedad de invarianza; sin embargo, el método de máxima verosimilitud no precisa necesariamente
de esta condición, como nos lo dice la siguiente proposición.
Proposición 5.5. El método de máxima verosimilitud posee la propiedad de invarianza. Esto es, si
θ ∈ Rp y γ ∈ Rq son parámetros tales que γ = h(θ), para cierta función h : Rp → Rq , entonces
γ̂MV = h(θ̂MV ).
Demostración: Sean Θ ⊆ Rp y Γ ⊆ Rq los espacios parámetricos de θ y γ = h(θ), respectivamente. Como

θ̂MV ∈ Θ, se tiene que γ̂ = h(θ̂MV ) ∈ Γ , entendiéndose aquı́ a estos como sus estimaciones para no
recargar notaciones. Note que si h no es 1-1, entonces muchos valores de θ podrı́an corresponder a través
de h a un valor de γ. Sea Θγ = {θ ∈ Θ / h(θ) = γ} tal conjunto y definamos la función de verosimilitud
inducida
M(γ) = sup L(θ).
θ∈Θγ
Apreciemos entonces en primer lugar que M(γ̂) = L(θ̂MV ) y luego que
M(γ) = sup L(θ) ≤ sup L(θ) = L(θ̂MV ) = M(γ̂)

θ∈Θγ θ∈Θ
En consecuencia γ̂ = h(θ̂MV ) maximiza la verosimilitud inducida M(γ). De aquı́ que si h es 1-1 clara-
mente γ̂MV = h(θ̂MV ). En caso contrario, el argumento dado por Berk (1967) puede ser utilizado para
justificar que efectivamente γ̂MV = h(θ̂MV ).
Ejemplo 5.19. Sea X1 , X2 , . . . , Xn una m.a. de una v.a. X ∼ P (λ) que denota al número de accidentes en
las fábricas de una ciudad que son semanalmente reportados al ministerio de trabajo. Halle el estimador
de máxima verosimilitud de la probabilidad de que se reporte al ministerio algún accidente durante una
semana y estime esta probabilidad si al considerarse 12 fábricas estos reportaron al ministerio: 0, 0 , 1,
0 ,2, 4 , 0 , 3, 1, 1, 0, 1 accidentes respectivamente.
Solución: Vimos ya que el estimador de máxima verosimilitud de λ viene dado por λ̂MV = X̄. Se nos pide
estimar el parámetro γ = P (X ≥ 0) = 1 − P (X = 0) = 1 − e−λ . Por la propiedad de invarianza tendremos
entonces que
γ̂MV = 1 − e−X̄
y la estimación máxima versosı́mil de ella vendra dada por
γ̂MV = 1 − exp(−1.08333) = 0.6615.
Veremos como último punto en este capı́tulo la propiedad de optimalidad asint́otica del es-
timador de máxima verosimilitud para un parámetro θ ∈ Θ que indexa a la muestra de una v.a.
X con función de probabilidad o densidad f (x; θ). Bajo ciertas condiciones de regularidad que
seguidamente mencionaremos, ella nos dice que para muestras grandes el estimador de máxima
verosimilitud de θ es aproximadamente insesgado y de varianza mı́nima. Las condiciones en refe-
rencia para el caso unidimensional (existen también para el multidimensional) son las siguientes:
0 0
(R1) Identificabilidad: Si θ , θ , entonces L(θ) , L(θ ).
(R2) RX no depende de θ.
(R3) El verdadero valor de θ es un “punto interior” de Θ.
(R4) f (x; θ) es tres veces diferenciable y acotada, donde estas derivadas se pueden intercambiar
con las integrales de esta función.
Proposición 5.6. Si se cumplen las condiciones de regularidad

D
θ̂MV → N (θ, σθ2 ), conforme n → ∞,
donde
∂
σθ2 = (nE(( log(f (X; θ))2 ))−1 .
∂θ
La demostración de esta proposición rebasa los objetivos de este curso. El lector interesado,
puede consultar por ejemplo Galvao y Singer (1990). Otra excelente referencia, que da también
detalles de las propiedades de estimadores es Casella y Berger (2002).
Ejemplo 5.20. Halle la distribución asintótica del estimador de máxima verosimilitud del parámetro β
de una v.a. X ∼ Exp(β).
Solución: Vimos anteriormente que β̂MV = X̄1 . Dado que fX (X; β) = βe−βX , se tiene que log(fX (X; β)) =
∂ 1
log(β) − βlog(X), ∂β
log(f (X; β)) = β − log(X) y por tanto
 !2   !2 
 ∂   1  1
E  ln fX (X; β)  = E  − X  = V (X) = 2 .
∂β β β

1 β2
Ası́, la distribución asintótica de β̂MV = X̄
será β̂MV ∼ N β, n .
5.5. Ejercicios
1. Si X es una v.a. continua con función de densidad
(
α , si 0<x≤1
fX (x) =
1 − α , si 1<x≤2
Pn
y dada una m.a. de tamaño n de X, se define la estadı́stica α̂ = a + b i=1 Xi .
a) Halle a y b tales que α̂ sea un estimador insesgado de α.
b) ¿ Coincide el estimador en a) con el estimador de momentos de α?
c) Analice la consistencia del estimador en a).
2. Considere un modelo de regresión lineal simple de la forma
Yi = βxi + i , i = 1, 2, . . . , n
que satisface los supuesto clásicos, excepto que E(i ) = C, siendo C > 0 una constante conocida.
a) Halle el estimador de mı́nimos cuadrados de β y analice su insesgamiento.
b) Si i ∼ N (C, 1), halle el estimador de máxima verosimilitud de β.
c) ¿Es el estimador de máxima verosimilitud en b) insesgado?
d) ¿Es el estimador de máxima verosimilitud en b) consistente?
3. Suponga que la diferencia entre el precio de venta en miles de dólares de una propiedad y
el precio en que tasa un perito del banco esta misma propiedad, X, es una variable aleatoria
normal con media 0 y varianza σ 2 . Para estimar σ 2 suponga que se toma una muestra aleatoria
de tamaño 2 de X y se proponen como estimadores de σ 2 a:
(X1 − X2 )2
σ̂12 = , σ̂22 = C X̄ 2 y σ̂32 = σ̂MV
2
,
2
2
donde σ̂MV es el estimador de máxima verosimilitud de σ 2 .
a) ¿Para que valor de C será σ̂22 un estimador insesgado?
b) Halle de manera explı́cita el estimador de máxima verosimilitud de σ 2 .
c) Suponga que al seleccionarse 2 propiedades al azar con precios de venta de 250,000 dólares
y 312,000 dólares, el perito del banco los taso en 235,000 dólares y 320,000 dólares, respec-
tivamente, ¿cuál serı́a la mejor estimación de σ 2 con base en los estimadores anteriormente
propuestos?
4. Asuma que el gasto mensual en cabinas de Internet, es una v.a. con distribución uniforme en el
intervalo [0, 2θ] y se piensa tomar una m.a. de n usuarios de cabinas para estimar el valor de θ.
a) Halle el MELI de θ y use la desigualdad de Tchebychev para verificar que el MELI de θ es
además un estimador consistente de θ.
b) Halle el estimador de máxima verosimilitud de θ y analice su insesgamiento.
5. Si se propone a Pn√
b= − 0.5 i=1 Xi
n
θ √
n+ n
como estimador de θ para una m.a. de tamaño n de una v.a. X ∼ B(1, θ), ¿es este un estimador
insesgado y consistente?
6. Hace un mes el precio de un bien tenı́a distribución N (100, 102 ) y en la actualidad se sabe que
ha aumentado en θ unidades monetarias, pero se desconoce el valor de θ, por lo que se tomó
una m.a. de n comerciantes del bien para registrar sus precios actuales y estimar el valor de este
parámetro. Halle los estimadores de momentos y de máxima verosimilitud de θ, analizando la
consistencia de estos estimadores.
7. Sea Y el ingreso diario de un microempresario, en función de su capital al inicio de sus activi-
dades económicas. Se plantea un modelo de regresión lineal para el ingreso de la forma
Yi = 2 + βxi + i , i = 1, 2, . . . , n
asumiendo además los supuestos clásicos. En este contexto:
a) Halle el estimador por mı́nimos cuadrados de β y estudie su insesgamiento.
b) Si tenemos otro estimador β̃ = Ȳx̄ , ¿ es este preferible al estimador de mı́nimos cuadrados?
8. En un modelo sobre rentabilidades de fondos mutuos, se propone como modelo de datos que
la rentabilidad X de un fondo tiene distribución uniforme en el intervalo [1, θ], donde θ es la
máxima rentabilidad lograble sobre un piso de 1 %. Se desea estimar θ a partir de una m.a. de n
rentabilidades. Como X̄ es una estimador insesgado de µX , le piden hallar alguna estadı́stica θ̂
que sea función afı́n lineal de X̄ (i.e, θ̂ = a + bX̄) y que sea estimador insesgado de θ. Haga esto
y calcule la varianza de este estimador.
9. Un modelo lineal central en inferencia es el de análisis de varianza. En él se busca determinar
básicamente si existen o no diferencias significativas en la media de una variable aleatoria Y ba-
jo a poblaciones independientes o “tratamientos” en estudio. El modelo plantea que el valor de
la variable aleatoria dependiente Y para el j−ésimo sujeto en la población i o, equivalentemente
bajo un tratamiento i, se puede escribir como
Yij = µi + ij , i = 1, 2, . . . , a y j = 1, 2, . . . , n, (∗)
donde los µi son parámetros del modelo y los errores ij se asumen independientes y todos con
distribución normal de media 0 y varianza σ 2 .
a) Halle el estimador de mı́nimos cuadrados ordinarios para los parámetros µi .

b) Si n = 9, ¿Con qué probabilidad el estimador de mı́nimos cuadrados de µi diferirá de µi en
no más de media desviación estándar?
c) Halle los estimadores de máxima verosimilitud de los µi y σ 2 .
d) Suponga que un economista sospecha que el precio de venta medio de un bien en tres regio-
nes del páis presentan diferencias. Para ello el seleccionó al azar 5 puestos de expendios del
bien en cada región encontrando los siguientes precios en soles:
Región Precio unitario de venta del bien
1 7.62 1.45 14.11 8.73 2.83
2 19.34 19.11 22.18 14.51 8.87
3 6.73 10.69 13.31 10.09 12.03
De las estimaciones de máxima verosı́miles de los parámetros del modelo (∗) en base a estos
datos e interprete.
10. Si X es una v.a. continua con función de densidad
(
α si 0<x≤2
fX (x) =
1 − 2α si 2<x≤3
a) Halle el estimador de momentos de α.

b) Muestre que el estimador en a) es insesgado y estudie su consistencia.
c) Halle el estimador de máxima verosimilitud de α y analice si este es o no insesgado.
d) Reescalándolos si fuera necesario, construya en base a los estimadores de momentos y de
máxima verosimilitud de α, estimadores insesgados de θ e indique ‘cuál de estos dos estima-
dores elegirı́a y cuál serı́a la estimación que darı́a de α, si observada una m.a. de esta variable
se obtuvieron los valores
1, 1.5, 3, 2.5, 2.7, 1.9, 2.2
11. Sea X una v.a continua con función de densidad
3x2
(
θ3
, si 0 ≤ x ≤ θ
fX (x) =
0 , en otro caso
a) Halle el MELI de θ.
b) Muestre que el estimador de máxima verosimilitud de θ vienen dado por:
θ̂MV = máx{X1 , X2 , . . . , Xn }.
c) Halle C tal que θ̂ = C θ̂MV sea un estimador insesgado de θ.

12. Si el ingreso de un empleado en una empresa se asume que es una v.a. X ∼ log N (µ, σ02 ), donde
σ02 es conocido. Halle en base a una m.a. de los ingresos de n empleados de esta empresa el
estimador de momentos de µ y analice su consistencia.
13. Cierto bien antes de salir al mercado pasa por un periodo de prueba de θ horas y se lo entrega al
cliente en funcionamiento. Si X denota al tiempo de vida en horas de este producto y se asume
que su función de densidad viene dada por
e−(x−θ)
(
, si x ≥ θ
fX (x) =
0 , en caso contrario
Halle el estimador de máxima verosimilitud de θ en base a los tiempos que se se podrı́an regis-
trar que duraron n de estos bienes seleccionados al azar.
14. Una empresa importadora desea estimar la probabilidad p de que un bien que ellos adquieran
sea defectuoso. Para ello tomarán una muestra al azar de 30 de los lotes que acaban de llegar a
puerto. En cada lote seleccionarán a su vez al azar y con reemplazamiento 20 bienes y contarán
luego cuántos de ellos son defectuosos. Fruto de ello se obtendrán las v.a.’s X1 , X2 , . . . , X30 , donde
Xi representa la cantidad de bienes defectuosos que encontraron en la muestra del i−ésimo lote
seleccionado.
a) Si la anterior es una muestra aleatoria (m.a), indique la distribución común de estas variables
aleatorias. Justifique.
b) En base a la m.a anterior, muestre que el estimador de máxima verosimilitud de p viene dado
X̄ 1 P30
por p̂MV = 20 , donde X̄ = 30 i=1 Xi es la media muestral del número de bienes defectuosos
en las 30 muestras.
c) ¿Es p̂MV un estimador insesgado de p?
15. Un gran centro comercial posee θ ∈ N+ entradas, pero que usted desconoce. Suponga que asume
que la cantidad de entradas a este centro comercial es una v.a X con la siguiente función de
probabilidad
( 1
, si x = 1, 2, . . . , θ.
PX (x) = θ
0 , en otro caso
a) Halle el estimador de momentos de θ.
b) Muestre que el estimador de máxima verosimilitud de θ viene dado por
θ̂MV = máx{X1 , X2 , . . . , Xn }.
c) Halle la función de distribución (acumulada) del estimador de máxima verosimilitud.

d) ¿Con qué probabilidad θ̂MV diferirá de θ en más de una unidad?
e) Suponga que al entrevistar a 10 personas seleccionadas al azar que acudieron al centro co-
mercial, estos manifestaron que ingresaron por las puertas: 3, 5, 7, 9, 10, 4 , 4, 4, 1, 9. Asu-
miendo que todas las puertas del centro comercial están habilitadas y numeradas, de las esti-
maciones de momentos y de máxima verosimilitud de θ.
16. Para el precio que un minorista cobra por un bien, se asumió como modelo de datos que
X ∼ U ([p, (1 + θ)p]), donde p es el precio (conocido) que el minorista paga por el bien y θ es
parámetro por estimar. Si se tiene una m.a. de precios de n casos (X1 , X2 , . . . , Xn )
a) Construya el estimador de momentos θ̂m de θ.
b) Una medida del error promedio de estimación

q de un estimador es el error estándar de esti-
mación, denotado por e.e y definido por e.e = V (θ̂). Halle el e.e en el caso del estimador θ̂
de θ.
c) Si una muestra resultó (1.2, 1.15, 1.3, 1.10, 1.6) halle el valor estimado de θ y estime también
su e.e en este caso.
d) Si se toma una m.a. de tamaño n = 49, use el T.L.C para ver con qué probabilidad diferirá
θ̂m del verdadero valor θ de en menos de un e.e.
17. Considere un modelo de regresión lineal simple de la forma
Yi = βxi + i , i = 1, 2, . . . , n
que satisface los supuesto clásicos, excepto que V (i ) = 1 + xi .

a) Halle el estimador de mı́nimos cuadrados de β y analice su insesgamiento.
b) Si los errores i tienen distribución normal, halle el estimador de máxima verosimilitud de
β.
c) Halle el MELI de β.
d) Un economista plantea que el modelo dado podrı́a servir para explicar el gasto mensual en
mantenimiento Y de los almacenes de las empresas aduaneras, en términos del área (x) en km2
con que cuentan estos almacenes. Para ello seleccionó al azar 8 almacenes con las siguientes
áreas en km2
0.1, 0.3, 0.5, 0.7, 0.9, 1.1, 1.3, 1.5
encontrando para ellas los siguientes montos de gastos de mantenimiento en miles de soles
1.53, 2.55, 2.80, 9.29, 5.92, 12.44, 14.89, 17.85
Halle las estimaciones de β por mı́nimos cuadrados y máxima verosimilitud e indique, justi-
ficando estadı́sticamente, con cuál estimación se quedarı́a. De también una interpretación de
esta estimación.
18. Suponga que se han registrado el número de iteraciones que un algoritmo hace hasta que en-
cuentre la solución a un problema de optimización, seleccionándose al azar n valores iniciales
dentro de una región, donde se sabe está la solución. Si se asume que estos conteos X1 , X2 , . . . , Xn
conforman una m.a. de una v.a. X ∼ G(p).
a) Halle el estimador de máxima verosimilitud de p.
b) Halle la distribución asintótica de este estimador.
c) Si p fuera 0.02 y n = 400, ¿con qué probabilidad aproximadamente, la estimación máxima
verosı́mil diferirı́a de p en no más de 0.001?
Capı́tulo 6
Estimación por intervalos
Sea X1 , X2 , . . . , Xn una m.a. de una v.a. X ∼ θ, cuya distribución está indexada por el parámetro
θ. En el presente capı́tulo nos interesará encontrar no sólo una aproximación plausible para
θ sino más bien un rango o intervalo de valores razonables para este parámetro. Por ejemplo,
podrı́amos querer un rango de valores alternativos para la inflación θ del próximo año en vez
de la inflación promedio del mismo. La ventaja de proponer este tipo de estimaciones será la
de tener control, en términos probabilı́sticos, del posible error que pudieramos cometer en la
estimación de θ y con ello tomar ciertas decisiones bajo tal margen de error.
Definición 6.1. Sean L1 y L2 dos estadı́sticas y sea 1 − α una probabilidad predeterminada. Diremos
que IC = [L1 , L2 ] conforma un intervalo de confianza (IC) al 100(1 − α) % para el parámetro θ, si se
cumple que P (L1 ≤ θ ≤ L2 ) = 1 − α.
Observaciones:
Es importante destacar la interpretacion de un IC, pues se suele mal decir que cuando se
observe este, el parámetro θ se encontrará entre los valores observados de L1 y L2 con una
confianza del 100(1 − α) % o probabilidad de 1 − α. El parámetro θ no es una v.a. para tener
probabilidad, las que son v.a’s son L1 y L2 y por tanto lo correcto es decir que se tendrá una
probabilidad de 1 − α de que el IC que hemos observado contenga al parámetro θ.
La probabilidad 1−α se le llama “nivel de confianza” y el estándar es 1−α = 0.95, o sea 95 %
de confianza. En situaciones especiales se suelen también utilizar otros niveles como del
99 % o 90 %. Sin embargo, mientras mayor sea el nivel de confianza, más ancho se esperará
tienda a ser el IC. En tal sentido, si bien un IC al 100 % suene bien y contenga con seguridad
al parámetro θ, este no será otra cosa que el mismo espacio parámetrico Θ de θ y por tanto
no nos dará mayor información, ya que sin tomarse el IC, se sabe por definición que θ ∈ Θ.
Más adelante veremos que para un mismo parámetro θ se podrán construir muchos o infi-
nitos IC’s. En tal sentido requeriremos de algún criterio para escoger entre tales intervalos.
El criterio que usaremos aquı́ será el de seleccionar el IC con la mı́nima longitud esperada.
185
6.1. Variables pivote y construcción de intervalos de confianza

Una técnica para obtener IC’s al 100(1 − α) % de confianza para un parámetro θ es utilizar el
método de la variable pivote. Esta consiste de los siguientes pasos:
a) Determinar la variable pivote W = W (X1 , X2 , . . . , Xn ; θ). Esta es una especie de estadı́stica
que depende sólo de la m.a. y del parámetro buscado θ, pero cuya distribución debe de ser
conocida y no depender de θ.
b) Buscar en la distribución de W dos valores a y b tales que
P (a ≤ W ≤ b) = P (a ≤ W (X1 , X2 , . . . , Xn ; θ) ≤ b) = 1 − α.
c) Despejar θ al interior de la probabilidad anterior de modo que
P (L1 (X1 , X2 , . . . , Xn ) ≤ θ ≤ L2 (X1 , X2 , . . . , Xn )) = 1 − α.
Observaciones:
Es usual, sobre todo, si la distribución de la variable pivote es simétrica, tomar áreas iguales
en las colas de la distribución de W , esto es, considerar los cuantı́les a y b tales que P (W ≤
a) = P (W > b) = α2 . Ello nos provee por lo usual de IC’s de mı́nima longitud esperada.
Usualmente la variable pivote W se forma partiendo del estimador de máxima verosimili-
tud θ̂MV de θ y aprovechando que asintóticamente (si n es grande), se tiene por la proposi-
ción 5.6 que θ̂MV ' N (θ, σθ2 ). Ası́, una v.a. pivote que podrı́a tomarse en la construcción de
un IC aproximado para θ es:
θ̂ −θ
W = MV ∼ N (0, 1).
σθ
Ejemplo 6.1. Dada una muestra aleatoria X1 , X2 , ..., Xn de una v.a. X ∼ exp(β)
a) Muestre que la v.a.
Y = 2nβ X̄
tiene distribución Ji-cuadrado con 2n grados de libertad.
b) Use la v.a. dada en a) como variable pivote para deducir un intervalo de confianza al 95 % para
β. Considere tomar áreas iguales en las colas.
c) Otra manera de obtener un IC aproximado para β es mediante el TLC. Usando un nivel de con-
fianza del 95 % y asumiendo que se tiene una muestra suficientemente grande, obtenga tal intervalo.
d) Suponga que los tiempos (en dı́as) que 35 turistas seleccionados al azar permance en el paı́s con-
forman una m.a de una v.a. Exponencial de parámetro β. ¿Qué valores se estima contengan a β con
un nivel de confianza del 95 %, si es que en la muestra se observo una media de 5.8 dı́as?. Use los
métodos obtenidos en b) y en c) e indique con cuál de estas estimaciones se quedarı́a. Justifique.
Solución: a) La función generatriz de momentos de Y viene dado por
Pn β 1 2n
MY (t) = E(etY ) = E(e2tβ i=1 Xi ) = MX (2tβ)n = ( )n = ( )2,
β − 2tβ 1 − 2t
la cual es la función generatriz de momentos de una v.a. Ji-cuadrado con 2n grados de libertad y por
tanto Y debe de tener esta distribución.
b) Tomando como pivote a Y y valores a y b tales que P (Y ≤ a) = 0.025 y P (Y > b) = 0.025 o

2 2
P (Y ≤ b) = 0.975, a los cuales denotaremos respectivamente por χ0.025 (2n) y χ0.975 (2n), tendremos
que
χ2 (2n) χ2 (2n)
2
0.95 = P (χ0.025 2
(2n) ≤ 2nβ X̄ ≤ χ0.975 (2n)) = P ( 0.025 ≤ β ≤ 0.975 ).
2nX̄ 2nX̄
2 2
χ0.025 (2n) χ0.975 (2n)
Asi el intervalo de confianza pedido será IC1 = [ 2nX̄
, 2nX̄
].
c) Como n = 35 es grande, el TLC nos dice que aproximadamente X̄ ∼ N ( β1 , nβ1 2 ), luego
X̄ − β1 √ √
Z= = nX̄β − n ∼ N (0, 1)
√1 2
nβ
es una variable pivote para la construcción de un IC para θ. Tomando áreas iguales de 0.025 en
las colas de la distribución normal estándar (más adelante justificaremos el porque tomar aquı́ áreas
iguales), se tendrá buscando en tabla que
√ √
√ √ n − 1.96 n + 1.96 0.6687 1.3313
0.95 = P (−1.96 ≤ nX̄β− n ≤ 1.96) = P ( √ ≤β≤ √ )=P( ≤β≤ )
nX̄ nX̄ X̄ X̄
y el IC aproximado para β será IC2 = [ 0.72

X̄
, , 1.28
X̄
].
χ2 (70) χ2 (70)
d) Evaluando los IC obtenidos en b) y c) se tiene que respectivamente que IC1 = [ 0.025
70x̄ , 0.975
70x̄ ] =
48.76 95.02 0.6687 1.3313
[ 70(5.8) , 70(5.8) ] = [0.12 , 0.234] y de otro lado IC2 = [ 5.8 , 5.8 ] = [0.1153 , 0.23]. La longitud
de IC1 es 0.114 y la de IC2 0.1147. Los IC’s en consecuencia son similares, presentando el primero
una ligera menor longitud. Este además se preferirı́a al segundo, pues por construcción el primero es
exacto a diferencia del segundo que es sólo aproximado. Si el tamaño de muestra fuese menor, habrá
mucho más razón en utilizar el primero de los IC.
6.2. Intervalos de confianza para los parámetros de una distribución

normal
Si X1 , X2 , . . . , Xn es una m.a. de una v.a. X ∼ N (µ, σ 2 ) nos interesará encontrar aquı́ IC’s al 100(1−
α) % para la media µ y varianza σ 2 de esta distribución. La elección de la distribución normal
no es aquı́ del todo arbitraria, pues gracias al teorema del lı́mite central (TLC), el intervalo
para la media que obtengamos será, de ser n suficientemente grande, válido para cualquier
distribución.
6.2.1. Intervalos de confianza para la media
A fin de construir un IC para µ deberemos de considerar dos casos, según se conozca o no la

2
varianza poblacional σ 2 . Si bien en ambos el estimador de MV de µ es X̄ ∼ N (µ, σn ), la variable
pivote natural:
X̄ − µ
Z= √ ∼ N (0, 1) (6.1)
σ/ n
podrá funcionar como talsólo si se conoce el valor de σ 2 . Si este es el caso, podrı́amos considerar
dos valores a y b tales que P (a ≤ Z ≤ b) = 1 − α. Entonces
X̄ − µ aσ bσ bσ aσ
1 − α = P (a ≤ √ ≤ b) = P ( √ ≤ X̄ − µ ≤ √ ) = P (X̄ − √ ≤ µ ≤ X̄ − √ ).
σ/ n n n n n
Ası́, un intervalo de confianza al 100(1 − α) % para µ cuando σ 2 es conocida es:
bσ aσ
[X̄ − √ , X̄ − √ ].
n n
Dependiendo de cómo escojamos a y b se tienen en verdad aquı́ infinitos IC’s. Debemos entonces
(b−a)σ
seleccionar de todos ellos el de mı́nima longitud esperada. La longitud de este IC es √n
y su esperado el mismo, pues por suerte no es aquı́ aleatorio. Dado que a = FZ−1 (α1 ) y b =
FZ−1 (1 − α + α1 ) para algún α1 ∈ [0, α], nuestro IC óptimo se encontrará de resolver
mı́n FZ−1 (1 − α + α1 ) − FZ−1 (α1 )

α1
s.a. α1 ∈ [0, α]
Igualando la derivada de la función objetivo g(α1 ) = FZ−1 (α − α1 ) − FZ−1 (α1 ) a 0. Esto es,
0 1 1 1 1 f (a) − fZ (b)
g (α1 ) = 0 − 0 = − = Z = 0,
FZ (FZ−1 (1 − α + α1 )) FZ (FZ−1 (α1 )) fZ (b) fZ (b) fZ (a)fZ (b)
se tiene que fZ (a) = fZ (b). Por la simetrı́a de la distribución normal estándar, esto se cumplirá
sólo si α1 = α2 . El criterio de la primera derivada nos indica directamente entonces que este es
el valor óptimo que resuelve el problema anterior y por tanto, el IC óptimo al 100(1 − α) % para
µ, cuando σ 2 es conocida en una normal, viene dado por
σ σ
IC = [X̄ − z1− α2 √ , X̄ + z1− α2 √ ],
n n
α
siendo z1− α2 el cuantı́l 1 − 2 de la distribución normal estándar; vale decir, el valor b tal que
FZ (b) = 1 − α2 .
Si σ 2 se desconoce, Z en (6.1) no es ya una variable pivote, pues involucrá al valor desconocido
de σ 2 . Lo natural serı́a entonces remplazar este por su correspondiente estimador insesgado
S 2 (la varianza muestral). Esto sin embargo, como recordamos, cambia la distribución en la
estandarización de X̄. Esta no es sino una distribución t de Student y la variable pivote adecuada
para este caso será
X̄ − µ
T = √ ∼ t(n − 1).
S/ n
Repitiendo todo el proceso anterior, el IC al 100(1 − α) % para µ en una normal con σ 2 descono-
cido vendrá dado entonces por
S S
IC = [X̄ − t1− α2 (n − 1) √ , X̄ + t1− α2 (n − 1) √ ],
n n
donde t1− α2 (n − 1) denota al cuantı́l 1 − α2 de la distribución de T ∼ t(n − 1); vale decir, al valor b
tal que P (T ≤ b) = 1 − α2 .
Observación: Es importante destacar que gracias al TLC el IC derivado en (6.1) es aún válido
para la media de cualquier distribución, siempre que n sea lo suficientemente grande, se conoz-
ca σ 2 o se tenga una estimación consistente de σ 2 . Si n es grande es prácticamente lo mismo
el considerar a la distribución t o normal estándar, pues vimos en el capı́tulo anterior que si
D
T ∼ t(n − 1), entonces T → Z ∼ N (0, 1), conforme n → ∞.
Ejemplo 6.2. En un estudio, se desea estimar el promedio del número diario de horas que trabaja un
microempresario y para ello, se tomó una muestra piloto 7 microempresarios registrándose la cantidad
de horas de trabajo en un dı́a de semana. Los datos fueron: (12,11,14,10,9,9,8). Asuma normalidad y
calcule un IC al 95 % para el promedio de horas de trabajo por dı́a de los microempresarios. ¿Se puede
inferir que los microempresarios tienen una jornada de trabajo promedio más larga que la jornada
legal del sector formal?
Solución: Puesto que se asume normalidad y la varianza de la población se desconoce, tendremos que
S S
IC = [X̄ − t0.975 (6) √ , X̄ + t0.975 (6) √ ],
7 7
es el IC a evaluar. De tabla t0.975 (6) = 2.4469 y de los datos tenemos que los valores observa-
dos de X̄ y S 2 son respectivamente x̄ = 12+11+14+10+9+9+8 = 10.43 horas, s2 = 16 ( ni=1 xi2 − 7x̄2 ) =
P
√ 7
1 2
6 (787 − 7(10.43 )) = 4.29. Ası́, s = s2 = 2.07 horas y una estimación del IC pedido será IC =
√ √
[10.43 − 2.4469(2.07/ 7), 10.43 + 2.4469(2.07/ 7)] = [8.52, 12.34]. Esto nos dice que este IC
observado contendrá al número medio de horas por dı́a que trabaja un microempresario con una pro-
babilidad de 0.95. Dado que en el sector formal el número de horas de trabajo es de 8 y este valor
se encuentra totalmente a la izquierda del IC, sı́ podrı́amos inferir con una confianza del 95 % que
los microempresarios tienen una jornada diaria de trabajo más larga que la jornada legal del sector
formal.
Ejemplo 6.3. La rentabilidad de una inversión en un sector de la economı́a es una v.a. X ∼ LogN (µ, 1)
y se desea estimar µ mediante un IC al 95 %, a partir de la siguiente muestra: 3, 5, 10, 3, 5, 8.
a) Construya un IC de 95 % para µ y evalúelo con la muestra dada.
b) Use el IC construido en a) para hallar un I.C. para γ = E(X) . ¿Será cierto que la rentabilidad
promedio en este sector supera el 2.5 %? Justifique.
Solución: a) Sea X1 , X2 , . . . , X6 una m.a. de X. Como X ∼ LogN (µ, 1) si, y solamente si, Y = log(X) ∼
N (µ, 1), serı́a más simple el trabajar con la m.a. Y1 , Y2 , . . . , Y6 de Y generada por la m.a. anterior.
Y −µ
Ası́, Ȳ ∼ N (µ, 61 ) y la variable pivote natural serı́a Z = √1
∼ N (0, 1). Utilizando esta obtendremos
6
entonces que
  ! !
 Y −µ  1.96 1.96 1.96 1.96
0.95 = P −1.96 ≤ 1 ≤ 1.96 = P − √ ≤ Y − µ ≤ √ =P Y − √ ≤µ≤Y + √
 
 √
6
 6 6 6 6
1.96 1.96
y el IC pedido viene dado entonces por IC = [Y − √ , Y+ √ ]. Evaluándolo, se tiene que ȳ =
6 6
1
6 (log(3) + log(5) + . . . + log(8)) = 1.63 y por tanto IC = [0.83, 2.43].
1
b) Dado que γ = E(X) = eµ+ 2 podrı́amos trabajar al interior del IC anterior:
!
1.96 1.96 Y − 1.96
√ +1 Y + 1.96
√ +1

0.95 = P Y − √ ≤ µ ≤ Y + √ =P e 6 2 ≤ γ ≤ e 6 2
6 6
Y − 1.96
√ +1 Y + 1.96
√ +1
para concluir que el IC al 95 % para γ buscado es IC = [e 6 2 , e 6 2 ]. Evaluándolo obtendre-
mos que IC = [e 0.83+0.5 ,e 2.43+0.5 ] = [3.78 , 18.73]. Como 2.5 < 3.78, podemos finalmente considerar
con una confianza del 95 % como cierta la afirmación dada; es decir, la rentabilidad promedio en este
sector supera el 2.5 %.
6.2.2. Intervalo de confianza para la varianza
Para construir un IC al 100(1 − α) % para σ 2 , la variable pivote natural es:
(n − 1)S 2
W∼ ∼ χ2 (n − 1).
σ2
Para hallar los valores a y b tales que P (a ≤ W ≤ b) = 1 − α, convendremos en tomar cuantiles
que tengan en las colas una misma área o probabilidad α2 . Ello, vale adelantar, no nos dará
necesariamente un IC de mı́nima longitud esperada por la falta de asimetrı́a en la distribución
χ2 (n − 1) la cual sin embargo se disipa conforme n aumenta. Esta convención de tomar a y b
como los cuantiles en la distribución de W que satisfacen P (W ≤ a) = α2 y P (W ≤ b) = 1 − α2 ,
a los cuales denotaremos, respectivamente por, χ2α (n-1) y χ1−
2
α (n-1), es estándar y simplifica el
2 2
proceso. En consecuencia se tendrá que
(n − 1)S 2 χ2α (n-1) 1

2
χ1− α (n-1)
2 2 2 2
1 − α = P (χ α (n-1) ≤ ≤ χ α (n-1)) = P (
1− 2 ≤ ≤ )
2 σ2 (n − 1)S 2 σ 2 (n − 1)S 2
(n − 1)S 2 2 (n − 1)S 2
=P( 2
≤ σ ≤ 2
)
χ1− α (n- 1) χ1− α (n- 1)
2 2
Ası́ un IC al 100(1 − α) % para σ2 en una distribución normal será
(n − 1)S 2 (n − 1)S 2
IC = [ 2
, 2 ].
χ1− α (n- 1) χ α (n- 1)
2 2
Aparte de la estimación por intervalos de los parámetros de una normal, pueden surgir también
la necesidad de estimarse parámetros relacionados a esta distribución en otros contextos como
el de la regresión o las series de tiempo. Un ejemplo de ello se ilustra en el siguiente ejemplo.
Ejemplo 6.4. Considere el modelo de regresión no lineal
Yi = eβxi i , i = 1, 2, . . .
donde los errores 1 , 2 , . . . se asumen independientes y todos de distribución logN(0, σ 2 ).

a) Halle el estimador de mı́nimos cuadrados de β.
b) Halle los estimadores de máxima verosimilitud de β y σ 2 .

c) Construya un IC al 95 % para β, si σ 2 = 1 y aplı́quelo a la m.a. de 5 pares de (x, Y ):
(3, 4.5), (3.5, 5.7), (4.7, 3.5), (4.5, 10), (5, 11.8).
Solución: a) Si bien el modelo dado es no lineal, este puede ser “linealizado” tomándose logaritmos
naturales mediante
Ỹi = log(Yi ) = βxi + log(i ) = βxi + ˜i ,
donde ˜i = log(i ) ∼ N (0, σ 2 ). El estimador de mı́nimos cuadrado para este último modelo ya lo vimos
anteriormente y viene dado por
Pn Pn
i=1 xi Ỹi xi log(Yi )
β̂MCO = Pn 2 = i=1 Pn 2 .
i=1 xi i=1 xi
b) Utilizando la linealización anterior, Ỹi ∼ N (βxi , σ 2 ) y la función de verosimilitud apropiada para

esta caso vendrá dada por
n 2 2 Pn 2
/2σ 2
Y e−(log yi −βxi ) /2σ e− i=1 (log yi −βxi )
L β, σ 2 = √ = √ .
i=1 ( 2π)σ ( 2π)n σ n
La función de log-verosimilitud resulta ser entonces

 Pn 2 2
 Pn 2
 e− i=1 (log yi −βxi ) /2σ  √
i=1 (log yi − βxi ) n 2
2 n
K(β, σ ) = log  √ =−
 − ln σ − log ( 2π)
( 2π)n σ n
 2σ 2 2
Derivando e igualando a 0 se llega a los estimadores

Pn Pn 2
log Yi − β̂MV xi
i=1 xi log Yi 2 i=1
β̂MV = Pn 2 y σ̂MV =
i=1 xi
n
c) La construcción del IC para β pasará primero por construir una variable pivote para este parámetro.
Como se comento esta puede basarse en el estimador de máxima verosimilitud de β, el cual viene dado
cuando σ 2 es conocido (compruébelo!!) por:
Pn
xi log Yi
β̂MV = i=1Pn 2 .
i=1 xi
Como log(Yi ) ∼ N (βxi , σ 2 ), se tiene que cualquier combinación lineal de estas variables es también
normal. En particular,
n n n
X X X σ2
xi log Yi ∼ N (β xi2 , σ 2 xi2 ) y β̂MV ∼ N (β, Pn 2
).
i=1 i=1 i=1 i=1 xi
Ası́ como σ 2 = 1, podrı́amos considerar a
β̂MV − β
Z= ∼ N (0, 1)
√P1n 2
i=1 xi
como variable pivote. Entonces

v
t n
X 1.96 1.96
0.95 = P (−1.96 ≤ xi2 (β̂MV − β) ≤ 1.96) = P (− q ≤ β̂MV − β ≤ q )
Pn 2 Pn 2
i=1 i=1 xi i=1 xi
1.96 1.96
= P (β̂MV − q ≤ β ≤ β̂MV + q )
Pn 2 Pn 2
i=1 xi i=1 xi
Luego un IC al 95 % de confianza para β será
1.96 1.96
IC = [β̂MV − q , β̂MV + q ].
Pn 2 Pn 2
i=1 xi i=1 xi
Evaluando, con la muestra dada se obtendrá el IC = [0.28 , 0.72].
6.3. Intervalos de confianza para proporciones y tamaños de muestra

con corrección para poblaciones finitas
6.3.1. Intervalos de confianza para una proporción
Otro parámetro recurrente en diversas aplicaciones lo constituye la proporción p de elementos

en la población que comparten cierta caracterı́stica común E. A fin de obtener un intervalo de
confianza aproximado al 100(1 − α) % para p, tomemos al azar n elementos de la población y
consideremos las v.a’s Xi definidas como 1 si es que en la i-ésima selección se encuentra un
elemento con la caracterı́stica E y 0 en caso contrario. Vale aclarar que los elementos de esta
muestra sólo podrán garantizarse distintos, si es que la muestra es tomada sin reemplazamien-
to. Este hecho ocasiona que las variables X1 , . . . , Xn no sean independientes; sin embargo, si el
tamaño de la población N , es como lo hemos estado asumiendo en el curso grande o infinito,
podrı́a garantizarse una “casi independencia” entre X1 , . . . , Xn . En la práctica si N es grande es-
tas variables son consideradas independientes, por lo que la distribución de X = ni=1 Xi , que
P
representa al número de elementos en la muestra que comparten la caracterı́stica E, puede

asumirse que es binomial de parámetros n y p. Más aún, si n es grande, podremos utilizar la
aproximación de la distribución binomial por la normal y utilizar la v.a:
X − np p̄ − p
Z= p = q ∼ N (0, 1) ,
np(1 − p) p(1−p)
n
con p̄ = Xn , como variable pivote para la construcción del IC para p. En efecto, tomando simétri-
camente valores −z1− α2 y z1− α2 en la tabla normal estándar, podemos afirmar que:
p̄ − p
P (−z1− α2 ≤ q ≤ z1− α2 ) = 1 − α.
p(1−p)
n
A fin de despejar p en esta expresión, podemos considerar la probabilidad equivalente siguiente:

p̄ − p 2 2
P (| q | ≤ z1− α) = 1−α
p(1−p) 2
n
ó
2 2
z1− α z1− α
2
P (p (1 +
) − p(2p̄ + 2
) + p̄2 ≤ 0) = 1 − α.
2
n n
Esta probabilidad, puede escribirse como:
P ((p − p1 )(p − p2 ) ≤ 0) = 1 − α,
donde p1 y p2 constituyen las raices de la ecuación cuadrática correspondiente. Si utilizamos la
fórmula del discriminante de la ecuación cuadrática correspondiente, las raices p1 y p2 vienen
dadas por
r r
2 2 2 2 4
z1− α z1− α z1− α z1− α z1− α z1− α
2p̄ + n
2
∓ (2p̄ + n
2
)2 − 4p̄2 (1 + n
2
) p̄ + 2n
2
∓ √2
n
p̄(1 − p̄) + n2
2
p1(2) = 2
= 2
.
z1− α z1− α
2 2
2(1 + n ) 1+ n
Un análisis de signos nos provee entonces del IC de Wilson IC = [p1 , p2 ]. Dada la complejidad
2
z1− α
de este IC se suele simplificar este despreciando al término n 2 , que es pequeño cuando n es
grande. De hacerse ello se obtiene el IC de Wald al 100(1 − α) % para p siguiente:
r r
p̄(1 − p̄) p̄(1 − p̄)
IC = [p̄ − z1− α2 , p̄ + z1− α2 ].
n n
Este es sin duda el IC más utilizado y similar al de Wilson para muestras grandes. Estudios
de simulación muestran sin embargo que la cobertura del IC de Wald (propoción de IC’s que
contienen al verdadero p) no es tan buena si p es muy extremo; es decir, si p es muy cercano a 0
o a 1. En estos casos serı́a recomendable el uso del IC de Wilson.
6.3.2. Corrección por finitud y tamaños de muestra

La “independencia” entre las variables X1 , . . . , Xn del desarrollo previo, que indicaban si es que
en cada selección de la muestra se obtenı́a o no a un elemento con cierta caracterı́stica E, sólo
se puede garantizar formalmente si el tamaño de la población N es grande o infinito. En caso
contrario, vale decir si este tamaño N no es lo suficientemente grande, la distribución exacta
del número de elementos en la muestra que tienen la caracterı́stica E, X = ni=1 Xi , es hiper-
P
geométrica de parámetros N ,M y n, siendo M el número de elementos de la población que

comparten la caracterı́stica E. En tal situación, es posible aún utilizar un teorema del lı́mite
central especial que nos garantiza que para un n suficientemente grande la distribución hiper-
geométrica puede aproximarse por la distribución normal. Esto se logra mediante la siguiente
estandarización:
X − E(X) X − np p̄ − p
Z= p = q = q q ∼ N (0, 1),
V (X) np(1 − p) N −n p(1−p) N −n
N −1 n N −1
donde p = MN . Por lo tanto, si procedemos a trabajar con esta variable pivote para la construcción
del IC al 100(1 − α) % para p, obtendremos bajo el mismo desarrollo que para el IC de Wald, el
siguiente IC:
r r r r
p̄(1 − p̄) N − n p̄(1 − p̄) N − n
IC = [p̄ − z1− α2 , p̄ + z1− α2 ].
n N −1 n N −1
q
Note que este IC para p difiere del anterior sólo por el factor N −n
N −1 , al cual se le acostumbra
llamar el factor de corrección para poblaciones finitas. Note también que si N → ∞, este factor
tiende a 1 y por tanto uno obtiene el IC de Wald anterior para p.
Es posible también realizar un estudio inferencial para poblaciones finitas en el caso de la es-
timación de la media poblacional de una v.a. X. Si la población es finita, digamos con N ele-
mentos, se puede deducir que un IC aproximado al 100(1 − α) % para µ cuando n es grande
es: r r
σ n σ n
IC = [X̄ − z1− α2 √ 1− , X̄ + z1− α2 √ 1 − ].
n N n N
Similarmente, la diferencia con el IC tradicional radica en el factor 1 − Nn , el cual tiende a 1 si
p
N → ∞.
Establecidas las fórmulas de los IC aproximados al 100(1 − α) % para cualquier media y propor-
ción poblacional, nos interesará ahora saber qué tamaño de muestra n deberı́a uno considerar
para poder garantizar a un nivel de confianza del 100(1 − α) % un error máximo de estimación
de e, donde entenderemos por error de estimación a la diferencia en valor absoluto entre el es-
timador y el parámetro que busca estimar. Esto se obtiene directamente de los IC obtenidos. En
efecto, si queremos estimar µ, su IC correspondiente al 100(1 − α) % puede reescribirse como:
r
σ n
P (|X̄ − µ| ≤ z1− α2 √ 1 − ) = 1 − α,
n N
luego, según las condiciones establecidas, se debe tener que:
r
σ n
e = z1− α2 √ 1− ,
n N
de donde despejando obtenemos la siguiente fórmula para el tamaño de muestra:
2 2
z1− ασ N
2
n= 2
z1− 2 2
ασ +e N
2
y si N → ∞:
(z1− α2 σ )2
n= .
e2
De manera similar, podemos deducir la siguiente fórmula del tamaño de muestra n para la
estimación de p con un error máximo de estimación de e y un nivel de confianza del 100(1−α) %:
2
z1− α p̄(1 − p̄)N
2
n= 2
z1− 2
α p̄(1 − p̄) + e (N − 1)
2
y si N → ∞:
2
z1− α p̄(1 − p̄)
2
n= .
e2
Observaciones:
Un aspecto problemático en estas fórmulas lo constituyen tanto σ como p̄, ya uno es un
parámetro poblacional desconocido y el otro no puede calcularse sin haberse tomado la
muestra. En la práctica estas cantidades se estiman mediante un muestreo piloto previo (es
decir, una réplica en una escala menor del muestreo final) o por cantidades similares de
otros estudios semejantes.
Si por razones de tiempo, disponibilidad o recursos no es posible tomar la piloto o no se
dispone de un estudio previo similar, una regla conservadora para la busqueda del tamaño
de muestra de una proporción es tomar p̄ = 21 . Ella asigna el valor de p̄ que maximiza
el tamaño de la muestra de tal manera que uno pueda siempre garantizar, al margen del
verdadero p̄, un error de estimación de a lo más e. De otro lado, para la estimación de
la media, una regla empı́rica para estimar σ es tomar σ = R6 , donde R denota al rango
de la variable X, es decir a la diferencia estimada entre el mayor valor que pudieramos
pensar tome X y su menor valor para la población. Esta última regla se fundamenta en la
desigualdad de Tchebychev.
En el estudio de poblaciones grandes pero finitas, raramente se toman la muestra por un
simple muestreo sin reemplazamiento o sorteo. En estos casos los esquemas de selección
pueden ser diversos y su estudio los realiza la teorı́a del muestreo probabilı́stico, tema
que esta fuera del alcance de este curso. El lector interesado puede consultar por ejemplo
Valdivieso (2020) o Lohr (2000).
Ejemplo 6.5. La facultad de Economı́a de una Universidad cuenta con 1,200 alumnos y esta intere-
sada en realizar una encuesta con el fin de determinar, entre otras cosas, el número de sus alumnos
que tienen una PC en casa. El coordinador de la facultad desea estimar este total con un error máximo
no mayor a los 30 alumnos y una confianza del 99 % ¿ A cuántos alumnos de la facultad se les deberı́a
aplicar la encuesta?
Solución: Se desea estimar T = número los alumnos de la facultad que poseen un PC en su casa con un
margen de error no mayor a los 30 alumnos y un nivel de confianza del 99 %. Dado que la población de
alumnos en la facultad es finita ( N = 1, 200) y T = N p, donde p denota a la proporción de alumnos
de la facultad que tienen PC en casa, el problema equivale a estimar p con un margen de error no
30
mayor a e = 1,200 = 0.025 y un nivel de confianza del 99 %. Por tanto se deberá tomar la encuesta a
z02.995 (0.52 )(1, 200)

n= = 880.639 ≡ 891 alumnos,
z02.995 (0.52 ) + 0.0252 (1, 199)
donde estamos utilizado la regla conservadora p̄ = 12 , pues no tenemos mayor información sobre p.
Analice como ejercicio qué es lo que hubiese pasado si no considerase el tamaño de esta población y
hubiese calculado, como en muchos textos básicos de Estadı́stica se da, el tamaño de muestra con la
fórmula para una población infinita.
6.4. Ejercicios
1. Considere el siguiente modelo de regresión lineal simple:
Yi = α + β0 xi + i , i = 1, 2, . . . , n,
donde α es un parámetro por estimar, β0 es conocido, los xi son variables no aleatorias, hay
independencia entre observaciones y los i ∼ N (0, σ02 ) son errores de varianza conocida.
a) Estime α usando el método de mı́nimos cuadrados y vea si es insesgado y consistente.
b) En base a lo anterior, obtenga un intervalo de confianza al 95 % para α.
2. Sea X una v.a. continua con función de densidad
( 3 2 3
x exp(− xθ ) , si x ≥ 0
fX (x) = θ
0 , en caso contrario
a) Estime θ mediante el método de máxima verosimilitud y determine si este es un esti-
mador insesgado.
b) Si se toma una m.a. de tamaño n suficientemente grande, use el estimador anterior y el
teorema del lı́mite central para construir una variable pivote para estimar θ. Hecho ello
construya un intervalo de confianza al 95 % para estimar θ.
3. Asuma que el gasto mensual en cabinas de Internet, es una v.a. con distribución uniforme
en [0, 3θ] y se piensa tomar una m.a. de n usuarios de cabinas para estimar el valor de θ.
a) Halle el estimador de momentos de θ y estudie su consistencia.
b) Suponga que se tomará una muestra grande de esta distribución. Usando el teorema
del lı́mite central: ¿Qué tamaño de muestra garantizarı́a con 95 % de probabilidad que el
estimador anterior diferirá de θ en menos de un 10 % de θ?
4. Al tomarse una muestra aleatoria del precio de 49 productos de un mismo bien en un mer-
cado y en donde se asumı́a que el precio en soles de este bien era una v.a con distribución
normal de varianza 36 se obtuvo el intervalo de confianza IC = [384.5 , 418.36].
a) ¿Cuál es la estimación máxima verosı́mil para la media del precio del bien en este mer-
cado?
b) ¿Cuál es el nivel de confianza en esta estimación?
c) Obtenga un IC al 95 % para la media de los precios del bien en este mercado.
5. Dada una muestra aleatoria X1 , X2 , . . . , X400 de una variable aleatoria X con distribución
exponencial con parámetro β.
a) Hallar, en términos de β, la probabilidad P (X > 10).
b) Usando el teorema del lı́mite central, encuentre un intervalo de confianza al 95 % para
la probabilidad P (X > 10).
c) Evalue el intervalo anterior, si es que la muestra dió una media de 23.6.
6. Una empresa importadora desea estimar la probabilidad p de que un bien que ellos adquie-
ran sea defectuoso. Para ello tomarán una muestra al azar de 30 de los lotes que acaban de
llegar a puerto. En cada lote seleccionarán a su vez al azar y con reemplazamiento 20 bienes
y contarán luego cuántos son defectuosos. Fruto de ello obtendrán X1 , X2 , . . . , X30 , donde Xi
representa la cantidad de bienes defectuosos en la muestra del i−ésimo lote seleccionado.
a) Si la anterior es una muestra aleatoria (m.a), indique la distribución común de estas

variables aleatorias. Justifique.
b) En base a la m.a anterior, muestre que el estimador de máxima verosimilitud de p viene
X̄ 1 P30
dado por p̂MV = 20 , donde X̄ = 30 i=1 Xi es la media muestral del número de bienes
defectuosos en las 30 muestras.
c) ¿Es p̂MV un estimador insesgado de p?
d) Usando el TLC, obtenga un intervalo de confianza al 95 % para p, si en el estudio ante-
rior se encontraron las siguientes cantidades de bienes defectuosos
2, 5, 3, 5, 10, 4, 6, 5, 6, 4, 7, 0, 4, 5, 6, 4, 6, 4, 4, 4, 4, 2, 1, 3, 6, 3, 5, 6, 8, 4.
7. Se desea hacer un estudio para averiguar entre otras cosas el gasto medio semanal µ en
combustible que los camiones en una mina generan. De un estudio previo se tiene una
estimación de la desviación estándar de este gasto que es de 82 soles.
a) Halle el tamaño de muestra que se deberı́a de considerar en este estudio, de tal manera
que se pueda estimar µ con un error no mayor a los 20 soles y una confianza del 95 %.
Tome en cuenta que la mina cuenta con 210 camiones operativos.
b) Si para el estudio anterior era también de interés estimar la proporción de camiones
que usan combustible diesel ¿cuál serı́a el máximo error de estimación que se deberı́a de
reportar en la estimación de esta proporción? Use nuevamente un nivel de confianza del
95 %?
8. Sea X1 , X2 , ...., Xn1 una m.a de una v.a. X ∼ N (µ1 , σ 2 ) y sea Y1 , Y2 , ..., Yn2 una m.a de una v.a.
Y ∼ N (µ2 , σ 2 ), donde X e Y son independientes. Muestre que
(n1 −1)S12 +(n2 −1)S22
a) W = σ2
∼ χ2 (n1 + n2 − 2).
q
X̄−Ȳ −(µ1 −µ2 ) (n1 −1)S12 +(n2 −1)S22
b) T = q ∼ t(n1 + n2 − 2), donde Sp = n1 +n2 −2 .
Sp n1 + n1
1 2
c) Utilice la v.a. anterior T como variable pivote para construir un intervalo de confianza
al 100(1 − α) % para µ1 − µ2 .
d) Para comparar los gastos medios mensuales de los alumnos de dos universidades se
seleccionaron de manera aleatoria dos muestras de 9 y 10 alumnos respectivamente de
cada universidad, encontrándose los siguientes valores en dólares:
Muestra de la U. A 390 395 380 390 400 380 370 390 380
Muestra de la U. B 400 410 420 380 390 410 400 405 405 400
Asumiendose normalidad e igual variabililidad de gastos en ambas universidades ¿podrı́a
asegurar, a un nivel de confianza del 95 %, que los gastos medios en ambas universidades
no son los mismos?
9. Con el fin de medir el nivel de contaminación de nitratos en una laguna se han seleccionado
al azar 10 cuadrı́culas de ella obteniéndose las siguientes mediciones de concentración en
miligramos por litro en cada una de estas cuadrı́culas
37.75, 40.58, 49.08, 41.99, 23.52, 29.53, 24.27, 40.56, 38.57, 30.33
Asumiéndose normalidad en las concentraciones de nitrato.
a) Obtenga un intervalo de confianza al 95 % para la concentración media de nitratos en

la laguna e indique si fue suficiente tomar tan sólo 10 mediciones si era de interés estimar
esta cantidad con un margen de error no mayor a los 5 miligramos por litro.
b) Suponga que antes de tomar las mediciones se planteó que el nivel medio de contami-
nación de esta laguna superaba los 35 miligramos por litro, ¿muestran estos datos a un
nivel de significación del 5 % que esto es cierto?
c) Debido a la instalación de una fábrica que colinda con la laguna, se tiene sospechas
de que el nivel medio de contaminación por nitratos de la laguna ha aumentado. Si una
muestra en 16 cuadrı́culas tomadas al azar hace 3 meses (antes de que comenzara a operar
la nueva fábrica) arrojó una media de concentración de nitratos de 29.5 miligramos por
litro con una desviación estándar de 7.3 miligramos por litro, ¿se puede decir en base a
los datos tomados que esta sospecha es válida con una confianza del 95 %? SUG: Use el IC
obtenido en el ejercicio anterior.
10. Suponga que el monto en dólares que reclama un asegurado por

√
accidente de tránsito a una
θ π
compañı́a de seguros, es una v.a. X continua con media µX = 2 y función de distribución
(acumulada):
(
0, si x < 0
FX (x) = x2
1 − exp(− θ 2 ), si x ≥ 0
a) Halle el estimador de momentos de θ.

b) Obtenga, en base al estimador de momentos de θ y asumiendo una muestra suficiente-
mente grande, un intervalo de confianza aproximado al 95 % para θ.
c) Halle el estimador de máxima verosimilitud de θ.
d) Obtenga, en base al estimador de máxima verosimilitud de θ y asumiendo una mues-
tra suficientemente grande, un intervalo de confianza aproximado al 95 % para θ. SUG:
Muestre que la v.a. Y = X 2 tiene distribución exponencial de media θ 2 .
e) Suponga que en la primera mitad del año pasado se tenı́a θ = 350 y desde tal fecha hasta
inicios de este año la compañı́a ha promovido una campaña para reducir la severidad de
los accidentes en sus asegurados. Tomados los datos de los accidentes ocurridos en esta
primera mitad del año, se encontró que el monto promedio de los 64 accidentes ocurridos
para estas fechas fue de 285 dólares. Indique, en base a los intervalos de confianza obte-
nidos en b) y d), si es que la campaña logro su propósito, el cual era reducir el valor de
θ.
11. Se desea estimar el gasto total anual en adquisición de libros por parte de los alumnos de
una universidad. A fin de reducir la variabilidad, se decide considerar 3 grupos de acuerdo
al nivel de estudios: Estudios Generales, Pre-grado y Post-grado. Se selecciona una muestra
aleatoria en cada grupo y se halla un estimado del total gastado en adquisición de libros
durante un año por cada alumno obteniéndose los siguientes resultados:
Estudios Generales Pre-Grado Post-Grado

Ni 6,000 8,000 2,000
ni 120 160 40
X̄i 46.8 59.0 37.2
Si 6.6 9.6 18.2
a) Halle un intervalo de confianza al 95 % para el gasto total en libros efectuado por los
alumnos de Post-grado.
b) Si era de interés obtener un margen de error en la estimación del inciso a) de 8,000 u.m,
¿a cuántos alumnos de Post-grado se debieron muestrear?
c) Halle una estimación puntual del gasto total en adquisición de libros en la universidad.
d) Halle un intervalo de confianza al 95 % para el gasto total en adquisición de libros efec-
tuado por los alumnos de la universidad.
12. El tiempo en horas que tarda una persona, que ha de pasar por una arteria principal, en
llegar a su trabajo de un distrito financiero se asume que es una v.a continua X ∼ Γ (2, β).
Puesto que se van a realizar obras en tal arteria, usted es contratado para hacer un estudio
de impacto ambiental en base a una encuesta que debera aplicar a los trabajadores de ese
distrito que hacen uso de esta arteria.
a) Halle el estimador de máxima verosimilitud de β y analice su consistencia.
b) Un cuestión central de su estudio es determinar el número mı́nimo de personas n que
deberá encuestar a fin de estimar el tiempo medio que se tarda un trabajador, que usa la
arteria, en llegar a su centro laboral del distrito. Si se desea estimar esta cantidad con un
margen de error no mayor a los 12 minutos y una confianza del 95 % y se dispone de los
siguientes tiempos en horas de traslado de una muestra piloto tomada al azar a 7 trabajado-
res de este distrito financiero que usan la arteria: 0.45, 1.88, 0.44, 1.82, 0.47, 0.64, 0.76 ¿cuál
serı́a el valor de n? Sugerencia: Use el TLC.
13. Se desea estimar la proporción de votantes p a favor de un candidato para las elecciones
del presidente de un club que cuenta en su padrón electoral con 1,500 socios inscritos.
Para esto se ha decidido realizar una encuesta de opinión entre los socios. Si p̄ representa
la proporción muestral de votantes a favor del candidato que se obtendrá en la encuesta y
se desea cometer un error de estimación de a lo más 0.025 con una confianza del 95 %, ¿
qué tamaño de muestra n deberı́a considerarse en la encuesta? ¿ Cuál serı́a el tamaño de
muestra en la encuesta, si ahora se desea un nivel de confianza del 99 %?
14. Un modelo financiero asume que la rentabilidad de una acción (expresada en porcentaje) es
una v.a. X ∼ N (3, σ 2 ). Una muestra aleatoria de la rentabilidad de esta acción en los últimos
10 dı́as mostró los siguientes valores:
3.56, 5.54, 1.58, -0.53, 3.98, 7.89, 1.23, 5.34, 3.12, 0.69
Construya un intervalo de confianza al 95 % para σ 2 y evaluélo en la muestra tomada.
P n 2
i=1 (Xi −3)
Utilice como v.a pivote a W = σ2
.
15. Retomando el problema 14 del capı́tulo anterior, use el TLC, para obtener un IC al 95 %
para la proporción de defectos p del bien, si en este estudio anterior se encontraron las
siguientes cantidades de bienes defectuosos en cada uno de los lotes seleccionados
2, 5, 3, 5, 10, 4, 6, 5, 6, 4, 7, 0, 4, 5, 6, 4, 6, 4, 4, 4, 4, 2, 1, 3, 6, 3, 5, 6, 8, 4.
16. Una compañı́a eléctrica esta interesada en estimar, mediante muestreo, el total en kilowatts-
hora (kwh) del consumo de electricidad de las viviendas en las dos zonas que conforman
una región A: la zona urbana y la zona industrial. Es de interés también para la compañı́a
conocer la proporción p de viviendas, en cada zona, que cuentan con un medidor de marca
AFA, pues la compañı́a esta muy interesada en reemplazar estos a corto plazo. Dado que
los consumos son bastante diferenciados en ambas zonas se ha previsto hacer estudios in-
dependientes en cada uno de ellos. Para tal efecto se dispone de los resultados siguientes de
un estudio muestral ya realizado a otra región B de caracterı́sticas muy similares a la región
de interés:
Zona Número Tamaño Total de consumo Desv. Est. de los Viviendas en la

total de de la en kwh consumos en la muestra con
viviendas muestra en la muestra muestra (en kwh) medidores AFA
Urbana 1,200 50 8,500 15.2 22
Industrial 120 20 40,000 40.8 5
A un nivel de confianza del 95 %:
a) ¿Cuál fue el máximo error de estimación considerado en la estimación de la proporción
de viviendas con medidores AFA para la zona urbana de la región B?
b) ¿ Cuál fue el máximo error de estimación considerado en la estimación del consumo
total de electricidad para la zona urbana de la región B?
c) Asumiendo normalidad ¿cuál fue el máximo error de estimación considerado en la esti-
mación del consumo total de electricidad para la zona Industrial de la región B? Note que
el tamaño muestral 20 es aquı́ pequeño por lo que usted deberá de utilizar la distribución
exacta de la variable de interés.
d) Si ahora en la región A se desean estimar los consumos totales por zona con un máximo
error de estimación de 4,000 kwh y la proporción de viviendas con medidores AFA en
cada zona con un error máximo de estimación de 0.1 ¿ cuál debe de ser el tamaño de
muestra apropiado para cada zona de estudio?
17. El Ingreso mensual de las 400 microempresas de metal-mecánica de una ciudad, se asume
que es una v.a. X normal con media µ y varianza 2, y para reactivar el sector se quiere
establecer una lı́nea de crédito cuyos pagos mensuales sean iguales al 10 % del ingreso de
la empresa. Una muestra de n = 70 microempresarios dió una media de 710 dólares y una
desviación estándar de 26 dólares.
a) Construya un IC para µ al 95 % de confianza y determine el rango de pagos esperados
de un microempresario que toma el crédito.
b) ¿ Entre que valores se encontrará a un nivel de confianza del 95 % el total de pagos
mensuales que efectuaran las microempresas, si se se otorga crédito a todo el sector?
c) Determine el máximo error de estimación que se pudiera cometer en la estimación en
b).
18. Se desea hacer un estudio para averiguar entre otras cosas el gasto medio semanal µ en
combustible que los camiones en una mina generan. De un estudio previo se tiene una
estimación de la desviación estándar de este gasto que es de 82 soles.
a) Halle el tamaño de muestra que se deberı́a de considerar, de tal manera que se pueda
estimar µ con un error no mayor a los 20 soles y una confianza del 95 %. Tome en cuenta
que la mina cuenta con 210 camiones operativos.
b) Si para el estudio anterior era también de interés estimar la proporción de camiones
que usan combustible diesel ¿cuál serı́a el máximo error de estimación que se deberı́a de
reportar en la estimación de esta proporción? Use nuevamente un nivel de confianza del
95 %?
19. Un modelo relaciona el incremento de las ventas semanales de un bien en miles de soles
Y (con respecto a su valor base de ventas en el primer mes de lanzamiento del bien) en
términos del gasto en miles de soles x que se proyecto invertir en propaganda durante esa
semana según el modelo
Yi = βxi + i , i = 1, 2, . . . , n
donde se asume que los errores son independientes y tienen distribución i ∼ N (0, ωi ),
siendo ωi un ı́ndice de inflación medio proyectado para la semana de ventas. Se asumen
que los xi y ωi son conocidos y fijos.
a) Halle el MELI de β.
√
b) Muestre que si dividimos la ecuación de regresión anterior entre ωi , obtenı́endose el
modelo ponderado Ỹi = β x̃i + ˜i , entonces los errores ˜i satisfacen los supuestos clásicos y
el estimador de mı́nimos cuadrados de la ecuación de regresión ponderada coincide con el
MELI de β. Este estimador es conocido como el estimador de mı́nimos cuadrados pondera-
dos.
c) Obtenga el estimador de máxima verosimilitud de β.
d) Obtenga un intervalo de confianza al 95 % para β y evalúelo si para una muestra de
10 regiones y tiempos distintos en los que se proyectaron los siguientes pares de gastos
semanales e inflación: (3.969 0.6),(2.226, 0.8),(3.561, 0.5),(1.608, 2.5), (0.301, 0.9), (6.505,
0.5), (1.110, 0.8), (0.508, 0.5), (4.398, 0.6), (0.826, 0.3) se obtuvieron los siguientes niveles
de venta: 40.146, 21.435, 35.607, 16.334, 1.947, 65.367, 11.576, 3.992, 43.393, 8.608.
Capı́tulo 7
Contrastes de hipótesis
7.1. Metodologı́a de la contrastación de hipótesis

Consideremos una variable aleatoria X ∼ θ cuya función de distribución depende de un paráme-
tro (o vector de parámetros) θ.
Definición 7.1. Una hipótesis (estadı́stica) es cualquier enunciado o conjetura que podamos hacer
con respecto a la v.a. X ∼ θ.
En general estos enunciados pueden ir dirigidos a θ (hipótesis paramétricas), la forma de FX
(pruebas de bondad de ajuste) u otras relaciones basadas en la interrrelación de X con otras
v.a’s. En este curso discutiremos las denominadas pruebas paramétricas.
Todo contraste de hipótesis paramétrico sobre un parámetro θ ∈ R asume la forma:



 = θ1 simple

 > θ0 a cola derecha


H0 : θ = θ0 vs H1 : θ = 



 < θ0 a cola izquierda
, θ0 a dos colas


donde a H0 se le llama la hipótesis nula y a H1 la hipótesis alternativa (θ0 y θ1 conocidos).

La importancia de un contraste de hipótesis radica en que ella nos provee de una herramienta
estadı́stica para decidir sobre la veracidad o no de cualquiera de estas afirmaciones. Si bien
un intervalo de confianza puede también ayudar a tomar decisiones, esta ayuda es en verdad
limitada ya los IC no están exprofesamente definidos para todos los planteamientos que aquı́ se
especifican. El ejemplo siguiente muestra alguna de estas limitaciones.
Ejemplo 7.1. El mes pasado el precio de un bien tenı́a una distribución N (100, 102 ) y en la actua-
lidad, se sabe que aumento en θ unidades monetarias, pero se desconoce el valor de θ. En un medio
local se manifiesta que el precio del bien ha aumentado en más del 4 %. Para dilucidar ello se tomó una
muestra al azar de n comerciantes del bien para registrar los precios actuales a los que ellos ofrecen el
bien y estimar el parámetro θ.
a) Obtenga el estimador de máxima verosimilitud de θ y apoyándose en él construya un intervalo de
confianza al 95 % para θ.
203
b) Si la m.a. dio los precios: 111, 105, 103, 110, 109 y 107, evalue el IC anterior y vea si serı́a
razonable afirmar lo que el medio local manifestó.
Solución: a) Si con X denotamos al precio del bien un mes atrás y con Y al precio actual, entonces
Y = X + θ. Por la propiedad reproductiva de la normal se tiene entonces que Y ∼ N (100 + θ, 100).
La función de verosimilitud para la muestra observada de los precios actuales viene onsecuentemente
dada por
n n
Y Y 1 1 2 1 1 Pn 2
L(θ) = fY (yi ) = √ e− 200 (yi −θ−100) = n e− 200 i=1 (yi −θ−100) .
i=1 i=1 2π10 (2π) 10n
2
Tomándose logaritmos y maximizándo esta función se tiene que

n
1 X n
K(θ) = log L(θ) = − (yi − θ − 100)2 − log(2π) − n log(10)
200 2
i=1
y
n
0 1 X 1
0 = K (θ) = (yi − θ − 100) = (nȳ − 100n − nθ)
100 100
i=1
00
Como K (θ) = −n < 0, el estimador de máxima verosimilitud de θ vendra dado por θ̂MV = Ȳ − 100.
Nuevamente por la propiedad reproductiva de la distribución normal, se tiene que θ̂MV ∼ N (θ, 100
n ).
Por tanto, podrı́amos usar la estandarización de esta v.a. como pivote para la construcción del IC
pedido, es decir, considerando como variable pivote a Z = θ̂10/
MV√−θ
n
∼ N (0, 1). Tomado al 95 % los valores
-1.96 y 1.96 que tiene precisamente una área de 0.95 en esta distribución se tiene que
√ θ̂MV − θ 10 10
0.95 = P (1.96 ≤ n ≤ 1.96) = P (θ̂MV − 1.96 √ ≤ θ ≤ θ̂MV + 1.96 √ )
10 n n
10 10
El IC al 95 % para θ es entonces IC = [θ̂MV − 1.96 √n
, θ̂MV + 1.96 √n
]
b) De la muestra tenemos que n = 6, ȳ = 107.5 y θ̂MV = ȳ − 100 = 7.5. Reemplazando ello en el
IC, obtendremos la estimación por intervalos IC = [−0.5 , 15.5] que se leerá en el contexto de este
problema como IC = [0 , 15.5], pues θ > 0. Dado que el precio medio inicial era de 100, entonces el
incremento de precios está entre 0 y 15.5 %. Por tanto, la afirmación que el precio promedio del bien
ha crecido en más del 4 % equivale a que θ > 4 y según el IC 0 ≤ θ ≤ 15.5 (con 95 % de confianza,
claro). En consecuencia no podrá asegurarse que el precio promedio ha crecido en más de 4 %, pues el
IC podrı́a contener también un porcentaje menor.
Este ejemplo ilustra la utilidad de los intervalos de confianza para explorar hipótesis generadas
a partir de datos. Pero también muestra que a veces los intervalos no pueden ayudarnos a deci-
dir de modo concluyente. La razón de ello es que estos no han sido diseñados para cumplir ese
rol. En particular no usan toda la información que hay en la muestra (en el ejemplo, realmente
sólo nos interesaba el lado izquierdo del intervalo y la probabilidad a la derecha no se usa) y no
controlan totalmente las probabilidades de error, derivadas del hecho de estar tomando decisio-
nes a partir de muestras. Se necesita una herramienta ad hoc. Esta herramienta es precisamente
la prueba o contraste de hipótesis. En efecto, retornando al problema anterior una manera más
formal para resolver la parte b) del ejemplo anterior serı́a planteando el contraste de hipótesis
H0 : θ = 4 vs H1 : θ > 4.
Aquı́ a H1 (que contiene lo que se quiere probar) se le suele llamar también la hipótesis de
trabajo. Ella se basa por lo general en una conjetura o explicación teórica de algún proceso, la
cual uno desea verificar con evidencia empı́rica. Si la evidencia proviene de muestras, entonces
podemos aprovechar las herramientas estadı́sticas para evaluarla, pero para ello, debemos pre-
viamente frasearla en términos estadı́sticos. Por ejemplo, si debido a la demanda de minerales
en el mercado mundial y al acceso a mayores cuotas en mercados antes restringidos, observa-
mos una mayor actividad en los sectores minero y agrı́cola de exportación, es natural esperar un
cierto incremento en el empleo. En particular, esto implica que la tasa π de desempleo abierto
actual debiera ser menor que la de hace un par de años, en que era del 9 %. La hipótesis de
trabajo puede ser algo como: “El desempleo actual en la economı́a es menor que el de hace dos
años” ¿Cómo pasar esta hipótesis a un formato estadı́stico que permita su contraste con datos
reales? Una manera podrı́a ser la siguiente:
Supongamos que tomamos al azar a un elemento de la PEA. ¿Cuál es la probabilidad de que se
encuentre en condición de desempleo abierto? La respuesta es que esa probabilidad es π . Ahora
bien, si tomamos una muestra al azar de n elementos de la PEA, independientes entre sı́, ¿Cuál
es la distribución de la v.a. X = número de personas en situación de desempleo abierto en la
muestra? Recordando el proceso que genera la distribución binomial, tenemos que X ∼ B(n, π)
, pues se cumplen todos los supuestos del modelo (nótese que aquı́ la distribución binomial es
un modelo de datos, no uno económico). Ahora bien, notemos que hay dos posibilidades: La
hipótesis de trabajo es verdadera o es falsa. Y de ahı́ se deriva que si la hipótesis de trabajo es
verdadera entonces X ∼ B(n, π < 0.09), pues bajar el desempleo implica que π < 0.09. De otro
lado, si la hipótesis de trabajo es falsa se tiene que X ∼ B(n, π = 0.09), ya que aún si no hay
reactivación en el empleo, de todos modos sı́ hay reactivación económica por el contexto de
mayor demanda y por tanto mayor producción, lo que si no baja el desempleo, por lo menos no
lo aumenta, es decir π no cambiará su valor y seguirá siendo π = 0.09. Ası́, podemos someter
a prueba la hipótesis estadı́stica X ∼ B(n, p = 0.09) para evaluar nuestra hipótesis de trabajo.
El problema es cómo hacerlo. Esa es la cuestión por resolver. Felizmente, el tener un modelo
de datos, provee de material suficiente. Por ejemplo, como ya sabemos que para este modelo,
µX = nπ, este hecho puede darnos una pista de un método para evaluar nuestra hipótesis de
trabajo: simplemente tomemos una muestra de n casos (por ejemplo 100 casos) y si el valor
observado cae muy por debajo de lo esperado µX (en el caso de n = 100, lo esperado es µX = 9
desempleados), podemos considerar que nuestra hipótesis de trabajo es cierta. En las lı́neas que
siguen, precisamos mejor estas ideas.
En general, una hipótesis nula H0 o su alternativa H1 , que la llamaremos hipótesis de trabajo,
pueden, en base a una muestra aleatoria X1 , X2 , ..., Xn de X, probarse ser verdadera o falsa. Claro
está que sólo una de ellas será verdadera y la otra falsa. La idea para contrastrarlas es construir
mediante algún procedimiento adecuado, una regla de decisión mediante una estadı́stica de
prueba
Y0 : S → R
que tenga distribución conocida bajo H0 . Aquı́ S denota a la colección de todas las posibles
muestras de tamaño n que pudieran elegirse de la población de X. La estadı́stica de prueba
resume la información contenida en la muestra y ,con la regla de decisión, particiona el espacio
S en dos regiones: la región de aceptación de H0 y la región crı́tica o de rechazo de H0 . Luego, un
experimentador al observar los valores que toma su muestra, evaluar su estadı́stica de prueba y
apreciar en que región cae, tomará finalmente la decisión que corresponda.
Definición 7.2. Un contraste, o prueba de hipótesis, es una partición del espacio de posibles muestras
S en dos regiones: una llamada la región de aceptación de H0 y la otra la región crı́tica o de rechazo
de H0 .
Cuando un experimentador tome la decisión de rechazar o aceptar H0 , él podrı́a cometer dos
tipos de error. Estos errores se miden como sigue
Definición 7.3.
α = P (Error tipo I) = P (Rechazar H0 | H0 es verdadera)
β = P (Error tipo II) = P (Aceptar H0 | H0 es falsa).
Obviamente un buen contraste es aquel en el que α y β son los más pequeños posibles. Desafor-
tunadamente se cumple en general que α y β están inversamente relacionados, es decir, que al
buscar minimizarse uno de estos errores el otro se incrementa. Por tal motivo, se ha convenido
(universalmente) en fijar a α a fin de tratar de encontrar la mejor prueba; es decir, aquella que
con este α dado tenga el β más pequeño o si se quiere la potencia
Φ = P (Rechazar H0 | H0 es falsa) = 1 − β
máxima. Esta convención hace de que a α se le denomine también el nivel de significación de

la prueba y a H1 , como ya lo dijimos, la hipótesis de trabajo, ya que de probarse que H0 es falsa
y por tanto probarse la hipótesis de trabajo H1 se tendrá controlado mediante α el error en esta
decisión. Note que si la hipótesis de trabajo es compuesta, no existirá un único valor para β,
pues este dependerá del valor que se especifique para θ cuando H1 sea verdadera.
La figura 5.1 nos resume la metodologı́a de un contraste de hipótesis
Figura 7.1: Metodologı́a general de un contraste de hipótesis
Observaciones:
Internacionalmente se considera que un α apropiado debe ser menor o igual a 0.05, siendo
el nivel de significación α = 0.05 el más utilizado en la mayorı́a de estudios.
Lo que hace el investigador es usar las leyes de probabilidad para encontrar la distribución
teórica del estadı́stico de prueba Y0 asumiendo que la hipótesis nula H0 es cierta; luego se
determina un rango C de valores del estadı́stico de prueba, que tenga una probabilidad
conocida α de ocurrir. Este rango C es la región crı́tica o sea, si al tomar la muestra ocurre
C, se rechazará H0 y su probabilidad α es el nivel de significación asociado.
7.2. El teorema de Neyman-Pearson y las pruebas UMP

7.2.1. El teorema de Neyman-Pearson
Como comentamos anteriormente un contraste, con su regla de decisión definida a través de
su región crı́tica o de rechazo de H0 , es óptima si fijado un nivel de significación α, esta tiene
el menor β o equivalentemente, la mayor potencia posible. La existencia de este contraste sólo
puede garantizarse en general, si la hipótesis de trabajo es simple. Esto es lo que precisamente
nos dice el teorema de Neyman-Pearson. Es más este teorema, que enunciamos a continuación,
no sólo nos garantiza la existencia de tal región crı́tica, sino que nos dice cómo construirla.
Proposición 7.1 (Teorema de Neyman-Pearson). Sea X1 , X2 , ..., Xn una m.a de X ∼ θ, x1 , x2 , ..., xn
sus valores observados y L(θ) la función de verosimilitud de la m.a. Si deseamos contrastar a nivel α:
H0 : θ = θ0 vs H1 : θ = θ1 (θ0 , θ1 conocidos) (7.1)
Entonces la región crı́tica:

L(θ1 )
R∗ = {(x1 , x2 , ..., xn ) / ≥ K},
L(θ0 )
donde K se halla de manera que α = P (Error tipo I) = P ((X1 , X2 , . . . , Xn ) ∈ R∗ | H0 es verdadera),
es la mejor región crı́tica a nivel α para contrastar (7.1). Esto es, R∗ es la región crı́tica que tiene la
máxima potencia (o menor β) entre todas la regiones crı́ticas a nivel α que puedan construirse para
contrastar (7.1).
Ejemplo 7.2. Sea X ∼ exp(θ) y se desea contrastar a nivel α = 0.05:
H0 : θ = 2 vs θ = 6
a partir de una muestra grande de tamaño n = 36. Determine la región crı́tica oṕtima.
Solución: Dado que nuestra hipótesis alternativa es simple, el teorema de Neyman-Pearson garantiza
la existencia de la región pedida. Para obtenerla, sea X1 , X2 , . . . , X36 la m.a. de X ∼ exp(θ) y sean
x1 , x2 . . . , xn sus valores observados y sigamos la metodologı́a propuesta por el teorema de Neyman-
Pearson:
(1) La función de verosimilitud de esta m.a. viene dada por
36
Y 36
Y P36
L(θ) = fX (xi ) = θe−θxi = θ 36 e−θ i=1 xi = θ 36 e−36θ x̄ .
i=1 i=1
(2) La región crı́tica óptima toma la forma
L(2) 0
R∗ = {(x1 , x2 , . . . , x36 ) / ≥ K} = {(x1 , x2 , . . . , x36 ) / 336 e−144x̄ ≥ K} = {(x1 , x2 , . . . , x36 ) / x̄ ≤ K }
L(6)
0 36 log(3)−log(K)
(3) Para hallar K = 144 , hagamos uso de que α = 0.05:
0
0.05 = P ((X1 , X2 , . . . , Xn ) ∈ R∗ | θ = 2) = P (X̄ ≤ K | θ = 2)
Si bien se podrı́a obtener esta probabilidad, recordando que X̄ tiene distribución Gamma, es más
simple aproximarla por el TLC, ya que en otros problemas será no siempre factible tener la distribu-
ción exacta de X̄.
(4) El TLC implica entonces que si H0 es verdadera se cumple que aproximadamente X̄ ∼ N ( θ1 , 36θ
1
2 ).
1
Más aún, si H0 es veradadera θ = 2 y aproximadamente X̄ ∼ N (0.5, 144 ). Ası́
0
0 K − 0.5 0
0.05 = P (X̄ ≤ K | θ = 2) = P (Z ≤ √ ) = P (Z ≤ 12(K − 0.5))
1/144
0 0
De la tabla normal estándar se tiene entonces que 12(K − 0.5) = −1.645 y K = 0.363.
(5) Finalmente la región crı́tica es
R∗ = {(x1 , x2 , . . . , x36 ) / x̄ ≤ 0.363}.

Observación: En el ejemplo anterior sólo hemos construido la región crı́tica óptima. Para de-
cidir entre H0 y H1 faltarı́a tomar la muestra y evaluar la media x̄, verificando si ocurre o no
R∗ . Si por ejemplo sucede que x̄ = 1.2, entonces se aceptará H0 y concluiremos que θ = 2. Esta
decisión recuerde no es 100 % segura. La probabilidad de que nos equivoquemos estará dada
por β = P (X̄ > 0.363 | θ = 6), valor que puede comprobar como ejercicio que es muy cercano a 0,
pero no exactamente 0.
Si bien en el ejemplo anterior es posible obtener β = P (Error tipo II), pues θ es un valor fijo
cuando H0 es falsa, si la alternativa es compuesta, β dependerá del verdadero valor de θ cuando
H0 sea falsa, valor que desconocemos y en consecuencia β es una función de tal valor. En esta
situación concluir que H0 es verdadera es por decirlo menos “temerario”, pues no podremos
justificar el margen de error que estamos cometiendo al tomar esta decisión. Este β podrı́a ser
de de por ejemplo 0.8, lo cuál nos dirı́a que casi siempre estarı́amos proponiendo una regla de
decisión que nos lleva a malas decisiones. Para precisamente evitar ello se acostumbra y reco-
mienda decir que en caso no se satisfaga la región crı́tica asociada a una alternativa compuesta,
se diga que no se rechaza H0 , o más diplomáticamente, que no hemos encontrado evidencia
suficiente para poder rechazarla.
Por otro lado, en situaciones reales, plantear alternativas simples es poco frecuente, pues el
fijar el valor de θ en H1 a un único valor de infinitos suena algo arbitrario y difı́cilmente una
teorı́a o conjetura podrı́a sustentarlo. Para el caso de alternativas compuestas apelaremos o otros
procedimientos, como el que seguidamente se trata; sin embargo, la importancia del teorema
de Neyman-Pearson más que teórica es en verdad práctica pues esta guı́a todos estos otros
procedimientos bajo una lógica prestada de este resultado.
7.2.2. Contrastes uniformemente más poderosos
En el caso de alternativas compuestas (es decir, cuando θ en H1 no toma un único valor), no

existe un teorema similar al de Neyman-Pearson; sin embargo, este teorema nos puede ser aún
útil. En efecto, si deseamos contrastar a nivel α H0 : θ = θ0 contra una alternativa compuesta;
por decir H1 : θ > θ0 , podemos convertir la alternativa en simple, reescribiendo H1 : θ = θ1 para
un valor fijo pero arbitrario θ1 > θ0 . Si la crı́tica óptima R∗ obtenida de la aplicación del teorema
de Neyman-Pearson al contraste transformado no depende de θ1 , entonces estarı́amos asegu-
rando que esta es la región crı́tica más poderosa a nivel α para nuestro contraste cualquiera sea
el valor que tome θ1 . Un contraste como este es conocida como el contraste uniformemente más
poderoso (contraste UMP) a nivel α para una alternativa compuesta.
Ejemplo 7.3. Un inspector piensa que debido a las quejas de los consumidores las balanzas que se
utilizan en los mercados de abastos de un distrito de la capital están siendo adulteradas. Para tal
efecto, se eligieron al azar 25 puestos de expendio, registrándose en cada uno de ellos el peso de un kilo
real en cada una de las balanzas de estos puestos. Asumiendo normalidad y una desviación estándar
conocida de 0.1 Kgs:
a) Plantee las hipótesis del caso.
b) Halle (si existe) la prueba UMP a nivel α para contrastar sus hipótesis.
c) ¿ Qué es lo que determinarı́a si al registrar los pesos encuentra que en promedio estos dan 1.075
kgs ?. Use α = 0.05.
d) Haga un esbozo del gráfico de la potencia φ del contraste UMP en función del valor que el paráme-
tro toma bajo H1 y compare esta gráfica con la de la potencia de otro contraste definido por una
región crı́tica de la forma
R̃ = {(x1 , x2 , ..., xn ) / máx{x1 , x2 , . . . , xn } ≥ K},
Use α = 0.05.
Solución: a) Sea X = Peso de un kilo real en una balanza de un puesto de expendio del distrito.
Asumiendo como se indica que X ∼ N (µ, 0.12 ), estaremos interesados en contrastar a nivel α:
H0 : µ = 1 vs H1 : µ > 1. (7.2)
Note que H1 : µ > 1 es aquı́ la hipótesis de trabajo del inspector, pues él piensa que al estar adulte-
radose las balanzas, ellas tenderán a registrar en promedio un mayor peso del que realmente miden.
Naturalmente, las quejas de los consumidores se sobreentiende que están referidas a que ellos perciben
recibir menos de sus productos de lo que realmente compran.
b) Dada una m.a. X1 , X2 , . . . , Xn de X y sus valores observados x1 , x2 , . . . , xn , la función de verosimilitud
de esta m.a. viene dada por:
1 − 0.102 ni=1 (xi −µ)2
P
L(µ) = fX (x1 )fX (x2 ) . . . fX (xn ) = e .
(0.02π)n/2
El contraste de interés puede entonces convertirse en uno simple si lo reescribimos como:
H0 : µ = 1 vs H1 : µ = µ1 (∗),
donde µ1 es un valor fijo pero arbitrario mayor a 1. Para obtener la región crı́tica, si es que existe,
L(µ ) 1 Pn 2 2
necesitamos trabajar la razón: L(1)1 = e 0.02 i=1 ((xi −µ1 ) −(xi −1) ) . Luego de simplificar, la región crı́tica
óptima del contraste con alternativa simple es:
n 2 n 2
R∗ = {(x1 , x2 , . . . , xn ) / en(µ1 −1)x̄ e 2 (µ1 −1) ≥ K} = {(x1 , x2 , . . . , xn ) / n(µ1 − 1)x̄ ≥ Ke− 2 (µ1 −1) }
0 K n 2
= {(x1 , x2 , . . . , xn ) / x̄ ≥ K = e− 2 (µ1 −1) },
n(µ1 − 1)
0
donde en la última igualdad se ha hecho uso de que µ1 > 1. Aquı́ K es una constante arbitraria, pues
K lo es, que deberemos encontrar para explicitar la región crı́tica. Para ello usaremos el hecho de que
α = 0.05. Veamos:
0
K −1
0
0.05 = P (RechazarH0 | H0 es verdadera) = P (X̄ > K | µ = 1) = P (Z0 ≥ ),
0.1/5
0
donde Z0 = 0X̄−1
.1/5 ∼ N (0,0 1) es la estadı́stica de prueba. Equivalentemente 0.95 = P (Z0 ≤ K50−1 ), de
donde se sigue que 50(K − 1) = z0.95 = 1.645 y que K = 1 + 1.50
0 645
= 1.0329. Ası́ la región crı́tica más
poderosa para contrastar (*) es:
R∗ = {(x1 , x2 , . . . , xn ) / x̄ ≥ 1.0329}
ó equivalentemente
x̄ − 1
R∗ = {(x1 , x2 , . . . , xn ) / z0 =
≥ 1.645}.
0.1/5
Como esta región no depende de µ1 , entonces podemos garantizar que esta es también la región crı́tica
UMP para el contraste (7.2).
c) Como la región crı́tica del contraste es x̄ > 1.0329 y se ha observado en la muestra que x̄ = 1.075,
entonces esta región crı́tica se satisface (1.075 > 1.0329). En conclusión se rechazará H0 y el inspector
podrá asegurar, con una probabilidad de equivocarse del 5 %, que las balanzas que se utilizan en los
mercados de abastos del distrito si están siendo adulteradas.
d) Un esbozo de la gráfica de la potencia φ = 1 − β de este contraste en función de µ bajo H1 se puede
encontrar tabulando, con la tabla normal, algunos valores de la función
φ ≡ φ(µ) = P (Rechazar H0 | H0 es falsa) = 1 − P (X̄ < 1.0329 | µ > 1)
= 1 − P (Z < 50(1.0329 − µ)) = 1 − FZ (50(1.0329 − µ)),

cuando µ > 1 y Z ∼ N (0, 1).
Ejemplo 7.4. Un modelo relaciona el salario Y de una persona en cierta ciudad en términos del
número de años de estudio de esta, x, mediante el modelo
Yi = α0 + βxi + i , i = 1, 2, . . . , n
donde se asume que α0 es conocido, los errores i ∼ N (0, σ 2 ) son independientes y los xi son fijos.
a) Analice si existe una prueba UMP a nivel α para contrastar
H0 : β = β0 vs H1 : β < β0
En caso afirmativo de esta región crı́tica.

b) En un medio local un economista manifestó que por cada año adicional que una persona estudia
en cierta ciudad, sus salarios se incrementan en promedio en 500 u.m. A usted sin embargo ello
le parece una exageración, por lo que entrevistó a 9 sujetos seleccionados al azar de esta ciudad,
encontróandose los siguiente pares de años de estudio y salarios en miles de u.m.:
(12, 2.380); (25, 6.670); (20, 4.623); (32, 8.431); (8, 2.899);
(12, 3.332); (35, 8.231); (30, 8.962); (10; 3.663),

Si α0 = 0.2 ¿podrı́a afirmar a un nivel de significación de α = 0.05 que el economista ha exagerado?
Solución: a) Sean (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) los valores observados de una m.a de pares de (x, Y ). Se
desea contrastar a nivel α:
H0 : β = β0 vs H1 : β < β0 , (7.3)
la cual se puede convertir en simple escribiendo H1 : β = β1 , con β1 < β0 .
El teorema de Neyman Pearson manifiesta que la región crı́tica óptima a nivel α de este contraste
simplificado es
L(β0 , σ 2 )
RC ∗ = {(y1 , y2 , . . . , yn ) / ≤ K},
L(β1 , σ 2 )
1 Pn 2
1 − i=1 (yi −α0 −βxi )
donde de Yi ∼ N (α0 +βxi , σ 2 ), la función de verosimilitud viene dada por L(β, σ 2 ) = n n e 2σ 2 .
(2π) 2 (σ 2 ) 2
Trabajándose el ratio de verosimilitudes en la desigualdad de arriba se obtiene:
n
X n
X
0 00
RC ∗ = {(y1 , y2 , . . . , yn ) / (β0 − β1 ) xi yi ≤ K } = {(y1 , y2 , . . . , yn ) / xi yi ≤ K }
i=1 i=1
desde que (β0 − β1 ) ≥ 0.
00
Para hallar el valor de K haremos uso de la probabilidad de cometer el error de tipo I, α. Antes
observemos que ni=1 xi Yi ∼ N (α0 ni=1 xi + β ni=1 xi2 , σ 2 ni=1 xi2 ); sin embargo esto no es de mucha
P P P P
S2
ayuda pues σ 2 se desconoce. Por fortuna es posible demostrar (hagalo!) que la v.a. W = (n − 1) σ2 ,
Pn
(Y −α −β̂x )2
con S2 = i=1 in−10 i y β̂ el estimador de máxima verosimilitud de β, tiene una distribución Ji-
cuadrado de n − 1 grados de libertad y que esta es independiente de la variable anterior estandarizada.
Luego, podemos construir la v.a. T dada por
Pn Pn 2
i=1 xi Yi − α0 nx̄ − β i=1 xi
T = q ∼ t(n − 1).
Pn 2
S i=1 ix
Por tanto 00
n
C − α0 nx̄ − β0 ni=1 xi2
X P
00
α =P( xi Yi ≤ K | β = β0 ) = P (T0 ≤ q ),
Pn 2
i=1 S i=1 xi
Pn Pn 2
i=1 xi Yi −α0 nx̄−β0 i=1 xi
donde T0 = √ Pn 2 ∼ t(n − 1) es la estadı́stica de prueba. De aquı́
S i=1 xi
v
n
t n
00
X X
K = α0 nx̄ + β0 xi2 + tα (n − 1)S xi2
i=1 i=1
y la región crı́tica óptima del contraste simplificado viene dada por:

v
n n n
t
X X X
RC ∗ = {(y1 , y2 , . . . , yn ) / xi yi ≤ α0 nx̄ + β0 xi2 + tα (n − 1)S xi2 }
i=1 i=1 i=1
o simplemente por
RC ∗ = {(y1 , y2 , . . . , yn ) / t0 < −tα (n − 1)}
donde t0 es el valor observado de la estadı́stca de prueba T0 . Puesto que esta región no depende de β1 ,
ella es también la región crı́tica UMP para (7.3).
7.3. Contrastes de la razón de verosimilitud

Uno de los principales problemas con los contrastes UMP es que estos en general no existen
si la hipótesis alternativa es a dos colas. En tales situaciones podrı́amos recurrir a un método
bastante genérico, que incluso se utiliza para hipótesis sobre vectores de parámetros, conocido
como el contraste de la razón de verosimilitud.
Definición 7.4. Sea X1 , X2 , ..., Xn una m.a de X ∼ θ ∈ Θ ⊂ Rk , x1 , x2 , ..., xn sus valores observados y
L(θ) la función de verosimilitud de la m.a. Si deseamos contrastar a nivel α:
H0 : θ ∈ Θ0 vs H1 : θ ∈ Θ \ Θ 0
Entonces el criterio de la prueba de la razón de verosimilitud considera como región crı́tica a
máxs.aθ∈Θ0 L(θ)
R = {(x1 , ..., xn ) ∈ Rn / λ = ≤ K},
máxs.aθ∈Θ L(θ)
donde K se halla de manera que α = P (Error tipo I) = P ((X1 , X2 , . . . Xn ) ∈ R | θ ∈ Θ0 ).

Como se observa la razón de verosimilitud observada λ, cuya v.a. subyacente la denotaremos
por Λ, es el cociente de la función de verosimilitud evaluada en el valor que maximiza L(θ)
bajo H0 (“verosimilitud restrigida”) y la función de verosimilitud evaluada en el estimador de
máxima verosimilitud de θ. Ası́, mientras más pequeño sea este cociente (que siempre está
entre 0 y 1), más evidencia se tendrá de que H0 es falsa y de allı́ la forma de la región crı́tica.
Un problema sin embargo de este contraste es que obtener las máximas verosimilitudes no
siempre es fácil y aún si las obtuviésemos al calcular el cociente y desarrollar la desigualdad, la
forma de esta región nos puede conducir a estadı́sticos de distribución bastante compleja. Una
manera de solucionar este problema es apelando a la distribución asintótica de Λ. En efecto, es
posible probar que si se satisfacen las condiciones de regularidad dadas para la normalidad del
estimador de máxima verisimilitud, se tiene bajo H0 que:
D
−2 log Λ → χ2 (k − r), conforme n → ∞,
donde r es el número de parámetros libres (es decir, que requerirı́an ser estimados) cunado H0
es verdadera.
Ejemplo 7.5. Sea X1 , X2 , . . . , Xn una m.a de una v.a X ∼ exp(β).
a) Analice si las pruebas UMP y de razón de verosimilitud coinciden al contrastar a nivel α:
H0 : β = β0 vs H1 : β > β0
b) Suponga que el tiempo en horas de reparación de los autos en un taller se asume sigue una dis-
tribución exponencial de parámetro β. El dueño del taller afirma que ellos se demoran en promedio
unas 3 horas en reparar un auto, pero usted piensa que no. Si tomada una muestra al azar de la
reparación de 49 vehı́culos en el taller se encontró una media de tiempo de reparación de 3 horas con
15 minutos, plantee este problema como un contraste de hipótesis y de la decisión que corresponda.
7.4. Ejercicios
1. La duración de un servicio en horas se asume que es una v.a X ∼ N (µ, 4).
a) Halle la región crı́tica óptima para contrastar a nivel α = 0.05 las hipótesis H0 : µ = 10
vs H1 : µ = 12.
b) ¿Qué es lo que concluirı́a si una m.a. de tamaño 10 de X arroja una media de 11 horas?
c) Suponga que alguien propone una región crı́tica de la forma R = {(x1 , x2 , . . . , xn ) / x̄ ≥ 11}.
Halle la probabilidad de cometer el error tipo II en este contraste y compárelo con el de
a).
2. Sea X1 , X2 , . . . , Xn de la v.a continua X de función de densidad fX (x) = θxθ−1 , 0 < x < 1
a) Obtenga la región crı́tica más poderosa a nivel α = 0.05 para contrastar H0 : θ = 1 vs
H1 : θ = 2.
b) Si X denota a la proporción de un compuesto en la mezcla de un medicamento, ¿qué es
lo que concluirı́a a un nivel de significación de α = 0.01 con relación a la hipótesis anterior
si para una muestra al azar del medicamento se encuentran las siguientes proporciones
del compuesto: 0.15, 0.08, 0.25, 0.33, 0.28, 0.31, 0.09, 0.17?
c) ¿Existe una prueba UMP para contrastar H0 : θ = 1 vs H1 : θ > 1. Si fuera ası́ halle la
forma que tendrı́a esta región crı́tica.
d) ¿Qué es lo que resonderı́a en c) si el contraste fuera ahora H0 : θ = 1 vs H1 : θ , 1?
3. En la caja de una tienda hay 12 billetes, m de lo cuales son falsos. El cajero piensa que hay
3 billetes falsos y usted que son más. Para contratar estas afirmaciones se extraen 4 billetes
uno por uno con reemplazo y se rechaza la hipótesis del que atiende (nula) si tres de los
billetes son falsos.
a) Calcule la probabilidad de cometer el error tipo I de este contraste.
b) Calcule la probabilidad de cometer el error tipo II cuando m es igual a cuatro.
4. Supónga que X tiene una distribución de Poisson con parámetro λ. Para contrastar:
H0 : λ = 0.2 vs H1 : λ > 0.2
se toma una muestra aleatoria de tamaño n de X y se decide rechazar H0 si x̄ > K.

a) Si n = 10 y K =0.3 ¿cuál es el nivel de significación del contraste?
b) Si n = 10 y se fija un nivel de significación de α =0.05 ¿cuál deberı́a ser el valor de K.
c) ¿Coincide la prueba anterior con la prueba UMP correspondiente?
d) Si n = 50 y se fija un nivel de significación de α =0.05, halle (utilizando el teorema
del lı́mite central) el valor de K y determine luego que decisión deberı́a de tomarse si se
observa que la media muestral dió un valor de 0.248.
5. Sea X una v.a continua con función de densidad fX (x) = θ 2 xe−θx , x > 0. Si se desea contras-
tar a nivel α H0 : θ = 1 vs H1 : θ = 2. Halle para un tamaño de muestra n = 10 su región
crı́tica óptima.
6. En un modelo financiero, se sabe que la rentabilidad de una acción (expresada en porcen-
taje) es una v.a.c. X ∼ N (3, σ 2 ). Una muestra aleatoria de la rentabilidad de esta acción en los
últimos 10 dı́as mostró los valores siguientes: 3.56, 5.54, 1.58, −0.53, 3.98, 7.89, 1.23, 5.34, 3.12, 0.69
a) Construya un intervalo de confianza al 95 % para σ 2 y evaluélo en la muestra tomada.
Piense en la distribución chi-cuadrado para la variable pivote.
b) En el modelo anterior se ha venido asumiendo que σ 2 = 4, un analista sin embargo

piensa que la inestabilidad actual de la Economı́a está ocasionando un riesgo mayor y el
valor de σ 2 es más alto. Para examinar su idea, él plantea contrastar:
H0 : σ 2 = 4 vs H1 : σ 2 > 4.
y propone una región crı́tica de la forma RC = {(x1 , x2 , . . . , xn ) ∈ Rn / ni=1 (xi − 3)2 ≥ C}.
P
Halle C de tal manera que el contraste tenga un nivel de significación de α = 0.05. ¿Qué
es lo que se deberı́a de concluir con respecto a la afirmación del analista de acuerdo a la
muestra arriba tomada?
7. Un empresa produce cables de 100 m. de longitud. Se asume que las fallas en estos se
producen a través de un proceso de Poisson y según las especificaciones de control estas
deben darse a una tasa de una por cada 20 m. Cada cable tiene un costo de producción de
80 soles y se vende en el mercado a 175 soles. La empresa garantiza restituir todo cable
que no cumpla las especificaciones de control (es decir, que tenga mas de 5 fallas) y más
aún indenmizar por este motivo al consumidor con 50 soles. Para verificar la calidad de un
cable se selecciona de él al azar una sección de 10 m. de longitud y se concluirá que la tasa
de ocurrencia de fallas en él es mayor a la especificada si es que en esta sección se ubican
3 o más fallas. En este caso el cable será reemplazado por uno nuevo. En caso contrario el
cable pasará el control y se venderá en el mercado.
a) Plantee este problema como un contraste de hipótesis definiendo claramente sus hipóte-
sis y obteniendo el nivel de significación del contraste.
b) Si un cable con una tasa de ocurrencia de fallas de ω =0.1 por metro es sometido al con-
trol,
¿ qué probabilidad existe de que pase el control ?
c) Halle la utilidad esperada que generará un cable producido con una tasa de ocurrencia
de falla de ω = 0.1 por metro.
8. Si se desea contrastar a nivel α: H0 = µ = µ0 vs H1 : µ < µ0 , donde µ es la media de una v.a X
con distribución normal de varianza desconocida, muestre que la región crı́tica UMP viene
dada por:
s
RC ∗ = {(x1 , x2 , . . . , xn ) ∈ Rn / x̄ < t1− α2 (n − 1) √ },
n
donde x̄ y s son, respectivamente, la media y desviación estándar muestrales y t1− α2 (n − 1)
el valor en la tabla t de student que tiene un área hacia la izquierda de 1 − α2 .
9. Suponga que el precio de un bien en soles es una v.a X con distribución normal de media
µ = 380 y varianza σ 2 , donde 380 soles es el precio sugerido por el fabricante.
a) Tomada una muestra aleatoria X1 , X2 , . . . , Xn de X, muestre que la v.a
n
X (Xi − 380)2
Y=
σ2
i=1
tiene distribución Ji-cuadrado indicando sus grados de libertad.

b) Obtenga, usando como variable pivote a Y , un intervalo de confianza al 98 % para σ 2 .
c) Suponga que desea contrastar a nivel α = 0.05, H0 : σ 2 = 100 vs H1 : σ 2 > 100 y al tomar
una m.a de tamaño n = 30 de X encuentra que el valor de la estadı́stica Y cuando H0 es
verdadera es de 5,036.58. Utilice esta información, construyendo una prueba UMP para
el contraste, a fin de decidir si se tiene que rechazar o no H0 .
10. Se ha determinado que el consumo de agua potable en una ciudad es una v.a. con distri-
bución normal de media desconocida y desviación estándar 500 pies3 . La oficina del sector
está revisando la posibilidad de iniciar una campaña educativa en la ciudad para no hacer
uso indiscriminado del agua. La campaña no será iniciada si el promedio de agua consu-
mida es menor que 2,500 pies3 . Ante la posibilidad de saber si el promedio es menor que
2,500 se toma una muestra de tamaño n y se pretende contrastar:
H0 : µ = 2, 500 vs H1 : µ < 2, 500.
¿ Cuál debe ser el tamaño de muestra n y la regla de decisión UMP a tomar si se desea que
la probabilidad de cometer el error tipo I sea de 0.05 y que la probabilidad de cometer el
error tipo II sea de 0.01 cuando el verdadero consumo medio es de 2,300 pies3 ?
11. Muestre que para el modelo del ejemplo 7.4. se cumple que
n
1 X
W= (Yi − α0 − β̂xi )2 ∼ χ2 (n − 1)
σ2
i=1
donde β̂ es el estimador de máxima verosimilitud de β.

12. Un modelo relaciona el consumo personal Y con el Ingreso disponible X mediante el modelo
Yi = βxi + i , i = 1, 2, . . . , n
donde se asume que los errores i ∼ N (0, xi ) son variables aleatorias independientes y los
valores xi se consideran fijos y estrictamente positivos.
a) Halle el MELI de β ¿coincide este con el estimador de máxima verosimilitud de β?
b) Suponga que se desea contrastar a nivel α = 0.05 que la propensión marginal al consumo
β es inferior a cierto nivel conocido β0 . Plantee esto como un contraste de hipótesis y halle
la prueba UMP para contrastar esta hipótesis a nivel α.
c) Suponga que alguién plantea para el contraste en b) una región crı́tica de la forma:
n
X
RC = {(y1 , y2 , . . . , yn ) ∈ Rn+ / xi yi ≤ C}
i=1
Halle el valor de C para que este contraste tenga un nivel de significación de α = 0.05.
¿Cuál de los dos contrastes propuestos utilizarı́a? Justifique su elección.
13. Las mediciones de n personas de calificación y habilidades diversas sobre un mismo objeto,
en base a un instrumento de precisión, se modela mediante
Yi = µ + i , i = 1, 2, . . . , n,
donde los i ∼ N (0, 1) son v.a’s independientes y µ es el verdadero valor de la medición.

a) Obtenga en base a los resultados de estas mediciones una prueba UMP para contrastar
a nivel α = 0.01
H0 : µ = 20 vs H1 : µ > 20.
b) ¿Como cambiarı́a este contraste si la varianza de los errores fuera 4?
c) De un bosquejo de la gráfica de la probabilidad de cometer el error de tipo II, en función
del valor del parámetro cuando H1 es verdadera.
14. Un modelo relaciona el incremento de las ventas semanales de un bien en miles de soles
Y (con respecto a su valor base de ventas en el primer mes de lanzamiento del bien) en
términos del gasto en miles de soles x que se invirtió en propaganda durante esa semana
en el lugar de expendio. El modelo, en términos de las posibles mediciones en n puntos de
ventas seleccionados al azar es:
Yi = βxi + i , i = 1, 2, . . . , n
donde se asume que los errores son independientes y tienen distribución i ∼ N (0, ωi ), sien-
do ωi un ı́ndice de inflación medio local proyectado para la semana de ventas. Se asumen
que los xi y ωi son conocidos y fijos.
a) Halle el MELI de β.
√
b) Muestre que si dividimos la ecuación de regresión anterior entre ωi , obtenı́endose el
modelo ponderado Ỹi = β x̃i + ˜i , entonces:
b1) Los errores ˜i satisfacen los supuestos clásicos.
b2) El estimador de mı́nimos cuadrados de la ecuación de regresión ponderada coincide
con el MELI de β.
c) Este estimador es conocido como el estimador de mı́nimos cuadrados ponderados.
d) Obtenga el estimador de máxima verosimilitud de β.
e) Obtenga un intervalo de confianza al 95 % para β y evalúelo si para una muestra de
10 regiones y tiempos distintos en los que se proyectaron los siguientes pares de gastos
semanales e inflación: (3.969 0.6),(2.226, 0.8),(3.561, 0.5),(1.608, 2.5), (0.301, 0.9), (6.505,
0.5), (1.110, 0.8), (0.508, 0.5), (4.398, 0.6), (0.826, 0.3) se obtuvieron los siguientes niveles
de venta: 40.146, 21.435, 35.607, 16.334, 1.947, 65.367, 11.576, 3.992, 43.393, 8.608.
f) Halle, si existe una prueba UMP, a nivel α = 0.05 para contrastar H0 : β = β0 vs H1 : β <
β0
g) Un reporte manifiesta que por cada mil soles en propaganda que se invierta las ventas
semanales se incrementan en promedio en 12,000 soles. El gerente piensa que este reporte
es exagerado, por lo que le pide a usted que, en base a la data observada en d), afirme o
no lo que el piensa ¿Qué le dirı́a usted? Use un nivel de significación de α = 0.05 y el
contraste UMP anterior.
Apéndice A
Una introducción a R
A lo largo del curso haremos uso extensivo del software estadı́stico R. Este es un lenguaje
computacional de alto nivel orientado a objetos que nos provee de un ambiente para reali-
zar análisis estadı́sticos y gráficos. R es un software open source que es mantenido por muchos
contribuyentes y debe su popularidad precisamente a que es libre (es decir,no requiere de pago
ni registro alguno) y que es constantemente actualizado gracias a los nuevos desarrollos que
demorarı́an años en ser implementados en un software estadı́stico de tipo comercial. R puede
ser instalado en Windows, Mac o Linux a través de su página web
http://www.R-project.org
Aquı́ también se pueden encontrar manuales, tutoriales y todo tipo de información concernien-
te al software. La página Web de R se muestra en la Figura A.1.
Figura A.1: Sitio web de R
219
Para instalar el sistema base, uno sólo tiene que ir al sitio web de R y seguir las instrucciones
de instalación. Adicionalmente al sistema base cuenta con una serie de paquetes adicionales
de contribuyentes. Un paquete es una colección de funciones, ejemplos y documentación que
usualmente están enfocados en realizar una tarea especı́fica. El sistema base contiene solamente
algunos paquetes. Para instalar un paquete adicional, por ejemplo el paquete AER, útil en el
análisis econométrico, basta escribir:
> install.packages("AER")
Si no ha sido configurado antes, aparecerá una ventana para seleccionar la ventana (mirror) más
cercana, luego todo es automático. Antes de usar un paquete es necesario cargarlo en la consola
mediante
> library(AER)
A.1. Comandos básicos

La consola de R es dónde se realizan los diferentes cálculos. Cuando una expresión es introdu-
cida a la consola ella es subsecuentemente evaluada. Dependiendo de la expresión, el sistema
puede crear una variable, responder mediante la salida de resultados a esta o creando un gráfico
en una nueva ventana. Luego otra expresión es ingresada y evaluada. Algo que ahorra mucho
tiempo es recordar que las expresiones previamente ingresadas pueden volverse a obtener pre-
sionando la flecha hacia arriba y que cualquier procedimiento puede interrumpirse usándose la
tecla Esc.
Un primer uso que haremos de R será como calculadora. R contiene todas las formas conocidas
de funciones básicas como el logaritmo natural (log), raı́z cuadrada (sqrt), coseno (cos), etc. Aquı́
unos cálculos en la consola:
> 5/4
[1] 1.25
> log(2) ; cos(pi) ; ceiling(3.2)
[1] 0.6931472
[1] -1
[1] 4
Note que podrı́amos introducir varias expresiones en una misma lı́nea si es que los separamos
por un punto y coma.
Comúnmente se crean en R objetos y se aplican a estos funciones. Para asignar un nombre x a
un objeto usar x < − objecto, (objecto − > x) ó x = objeto. Las funciones, por otro lado, se llaman
mediante:
nombrefuncion(argumentos separados por comas)
Toda función tiene un conjunto formal de argumentos con valores por defecto. Véase la do-
cumentación de la función con ?nombrefuncion ó help(nombrefuncion). Es importante indicar
que R distingue mayúsculas de minúsculas. Como ilustración, supongamos deseamos encon-

trar la media aritmética de un conjunto de números (suma de estos números divididos entre la
cantidad total de ellos). Primero asignamos el vector de números con el nombre x y el comando
c. Luego llamamos a la función mean().
> x <- c(0,5,7,9,1,2,8)
> x
[1] 0 5 7 9 1 2 8
> mean(x)
[1] 4.571429
> X
Error: object ’X’ not found
Recuerde que lo último ocurre pues R distingue entre minúsculas y mayúsculas.
Supongamos ahora que se quiere ordenar un vector de números y de tal manera que estos
estén en orden descendente. Por defecto R ordena de modo ascendente, por lo que se tiene que
cambiar el argumento decreasing por TRUE (el valor por defecto es FALSE).
> y <- c(4,2,0,9,5,3,10,3)

> y
[1] 4 2 0 9 5 3 10 3
> sort(y)
[1] 0 2 3 3 4 5 9 10
> sort(y, decreasing=TRUE)
[1] 10 9 5 4 3 3 2 0
R permite extraer elementos o subconjuntos cualesquieras de un vector o arreglo. Por citar el

segundo y el segundo y quinto elemento del vector anterior x se obtendrán, respectivamente,
con
> x[2]
[1] 5
> x[c(2,5)]
[1] 5 1
Si deseamos los elementos de x mayores a 5 o los elementos de x en los que y sea mayor o igual
a 4, bastará escribir
> x[x>5]
[1] 7 9 8
> x[y>= 4]
[1] 0 9 1 8
Definamos ahora al vector y como una matriz A de orden 4 × 2 a través del comando matrix y
obtengamos su segunda columna
> A = matrix(y,nrow=4,ncol=2)
> A
[,1] [,2]
[1,] 4 5
[2,] 2 3
[3,] 0 10
[4,] 9 3
> A[,2]
[1] 5 3 10 3
Note que los elementos de y son por defecto ingresados por columnas. En caso que se desee el
ingreso por filas escribir
> (A = matrix(y,4,2,byrow=TRUE))
[,1] [,2]
[1,] 4 2
[2,] 0 9
[3,] 5 3
[4,] 10 3
En adelante será común omitir el sı́mbolo del cursor >, esto para que los comandos que escriba-
mos puedan ser fácilmente reproducibles. Note también que el paréntesis inicial en el comando
nos exime de llamar a A para que se muestre.
Veamos ahora cómo realizar algunos análisis estadı́sticos en R. Un primer punto estará referido
a cómo introducir datos. Ello puede hacerse directamente en R o indirectamente mediante otro
software (por ejemplo Excel) para luego importar estos datos a R. Vemos la primera estrategia
a través del siguiente ejemplo
Ejemplo A.1. En cierto distrito se registró durante un mes el número de accidentes de tránsito por
dı́a, encontrándose los datos siguientes:
1 2 0 3 1 0 1 0 4 2 1 1 2 0 1
1 0 3 1 1 0 2 1 0 4 0 1 2 2 2
Introduzca estos datos en R, encuentre su distribución de frecuencias y muestre algún gráfico apro-
piado para representarlos.
Solución: Para introducir los datos escribamos
x = c(1,2,0,3,1,0,1,0,4,2,1,1,2,0,1,1,0,3,1,1,0,2,1,0,4,0,1,2,2,2)
La distribución de frecuencias de esta variable se obtiene con el comando table
(tab = table(x))
x
0 1 2 3 4
8 11 7 2 2
Vale comentar que la variable tab tiene un formato de tabla, el cual podrı́a pasarse fácilmente a otro
formato, como por ejemplo el de vector si escribimos
> as.vector(tab)
[1] 8 11 7 2 2
Las frecuencias acumuladas de estos datos podrı́an obtenerse con:
cumsum(tab)
0 1 2 3 4
8 19 26 28 30
y la distribución de frecuencias completas (sin porcentajes) podrı́a construirse con el comando cbind,
el cual sirve para agrupar vectores en columnas. Concretamente
> cbind(n = tab, f = tab/length(x),F=cumsum(tab/length(x)))
n f F
0 8 0.26666667 0.2666667
1 11 0.36666667 0.6333333
2 7 0.23333333 0.8666667
3 2 0.06666667 0.9333333
4 2 0.06666667 1.0000000
Finalmente un gráfico adecuado para representar esta distribución de frecuencias, como se aparecia
en la Figura A.2, es el de bastones. Este puede obtenerse con el código:
plot(tab,type="h",ylab="Frecuencia")
title("Distribuci\’on de frecuencias del n\’umero mensual de accidentes en el distrito")
Distribución de frecuencias del número mensual de accidentes en el distrito

10
8
Frecuencia
6
4
2
0
0 1 2 3 4
Figura A.2: Gráfico de bastones para el ejemplo A.2
Otra manera para introducir la data es importándola de algún otro software como por citar
Excel, SPSS o Stata. Veamos el caso de Excel a través del siguiente ejemplo.
Ejemplo A.2. Suponga que estemos interesados en analizar el ı́ndice SP&500 en R. Particularmente
desearı́amos ver su evolución en el tiempo para el último año ası́ como el histograma de sus retornos.
Solución: La data la importaremos de la página Web de yahoo finance:
https://finance.yahoo.com/quote/ˆGSPC/history?period1=1471496400&period2 =
1503032400&interval=1d&filter=history&frequency=1d
En ella podremos descargar la data en un formato cvs delimitado por comas. Este es el formato más
recomendado para la importación en R. Incluso si el archivo esta con extensión xls se recomienda escri-
birlo en el formato anterior antes de realizar la importación. Llamemos al archivo obtenido SP500.csv.
Luego en la consola de R escribir
sp500 = read.csv(file.choose(),header=TRUE)
La opción file.choose() lo direccionará a su hardware para que elija el archivo buscado. Otra posibili-
dad es colocar entre comillas el nombre del archivo pero este deberá estar en su directorio de trabajo.
La opción header=TRUE nos permite obtener los nombres de las variables, las cuales deben de estar en
la primera fila de su archivo. Una mirada a las primeras 6 filas de nuestra base de datos nos la provee
el comando head
> head(sp500)
Date Open High Low Close Adj.Close Volume
1 18/08/2016 2181.90 2187.03 2180.46 2187.02 2187.02 3300570000
2 19/08/2016 2184.24 2185.00 2175.13 2183.87 2183.87 3084800000
3 22/08/2016 2181.58 2185.15 2175.96 2182.64 2182.64 2777550000
4 23/08/2016 2187.81 2193.42 2186.80 2186.90 2186.90 3041490000
5 24/08/2016 2185.09 2186.66 2171.25 2175.44 2175.44 3148280000
6 25/08/2016 2173.29 2179.00 2169.74 2172.47 2172.47 2969310000
El número de filas a mostrar es por defecto 6, pero este puede fácilmente cambiarse con las opciones
de este comando. Un comando similar es tail que nos provee más bien del registro de las últimas, por
defecto 6, filas del objeto.
Como se aprecia nuestra base de datos posee varias variables, de las cuales seleccionaremos la del
precio de cierre (Close). Para extraer ella podrı́amos escribir
precioc = sp500$Adj.Close o precioc = sp500[,6].
En cualquiera de los dos casos esto define la variable cuantitativa precioc.

La evolución diaria de los precios de cierre del ı́ndice SP&500 se podrá mostrar con
plot(precioc,type=’l’)
y el resultado es la gráfica de lı́neas (de allı́ la opción type = ’l’) que se muestra en la Figura A.3.
De otro lado los retornos de este ı́ndice se obtienen con
retornosc = diff(precioc)/precioc[-length(precioc)]
El comando central para el análisis de esta variable es hist (de histograma), el cual nos provee de no
sólo su distribución frecuencias sino también de su gráfica a través de
h = hist(retornosc)
2400
2300
precioc
2200
2100
0 50 100 150 200 250
Index
Figura A.3: Gráfica de lı́neas de la evolución diaria de los

precios del ı́ndice SP&500
Histogram of retornosc
100
80
60
Frequency
40
20
0
-0.02 -0.01 0.00 0.01 0.02
retornosc
Figura A.4: Histograma de retornos diarios de los precios de cierre del ı́ndice SP&500
Es importante notar que h es un objeto (R recordemos en un lenguaje orientado a objetos). Esto es h

es un elemento que contiene mucha información como se aprecia seguidamente
> h
$breaks
[1] -0.025 -0.020 -0.015 -0.010 -0.005 0.000 0.005 0.010 0.015 0.020 0.025
$counts
[1] 1 2 4 16 101 87 32 8 0 1
$density
[1] 0.7936508 1.5873016 3.1746032 12.6984127 80.1587302 69.0476190 25.3968254 6.34920
[10] 0.7936508
$mids
[1] -0.0225 -0.0175 -0.0125 -0.0075 -0.0025 0.0025 0.0075 0.0125 0.0175 0.0225
$xname
[1] "retornosc"
$equidist
[1] TRUE
attr(,"class")
[1] "histogram"
De el podemos extraer, para un análisis posterior, cualquiera de sus componentes anexando al objeto
el sı́mbolo $ y el nombre de la componente requerida . Por ejemplo las frecuencias absolutas podemos
definirlas con el vector
> nn = h$counts
> nn
[1] 1 2 4 16 101 87 32 8 0 1

A.2. Distribuciones y R
Todas las distribuciones que hemos introducido en el curso y muchas más se encuentran imple-
mentadas en R. Para ilustrar sus desarrollos supongamos que tengamos una v.a X con distribu-
ción XXX. Independientemente de quién sea esta distribución, R ha implementado 4 funciones
básicas, las cuales tienen como sufijo el nombre de la distribución. Estas son:
dXXX(x, . . . ): Calcula la función de densidad fX o probabilidad PX en el punto x de una v.a
X que tiene distribución XXX.
pXXX(q, . . . ): Calcula la función de distribución (acumulada) FX en el punto q de una v.a X
que tiene distribución XXX.
qXXX(p, . . . ): Calcula el cuantı́l p ∈ [0, 1] de una v.a X que tiene distribución XXX; esto es,
el valor q tal que FX (q) = P (X ≤ q) = p. En el caso discreto, tal valor se debe de interpretar
como el menor valor q para el cual FX (q) ≥ p.
rXXX(n,. . . ): Simula n valores de una v.a X con distribución XXX.
Los puntos suspensivos en los argumentos de estas funciones, son para especificar los paráme-
tros de la distribución y otras opciones como el cálculo de su logaritmo o el tipo de cola.
Es importante, antes de trabajar con estas funciones, documentarse sobre la parametrización
que R utiliza, pues ella no es estándar. Ası́ también, en caso se especifiquen los parámetros
siempre es bueno saber cual o cuales son los valores por defecto que utiliza esta distribución en
R.
Para ilustrar el uso de estas funciones consideremos los siguientes ejemplos.
Ejemplo A.3. Suponga que se tiene una acción en bolsa la cual puede independientemente subir de
precio de un dı́a a otro con probabilidad 0.7.
a) Si se observa esta acción durante dos meses (60 dı́as) ¿cuál es la probabilidad de que suba exacta-
mente el número de dı́as que se espere suba? ?con qué probabilidad subirá en más de 50 dı́as?
b) Halle e interprete el cuantil 0.8 del número de dı́as en que la acción subirá de precios durante los
dos meses.
c) Suponga que un inversionista planea vender sus acciones en estos dos meses el dı́a en que los precios
experimenten una tercera subida ¿con qué probabilidad pasarán más de un mes sin que el inversionista
pueda vender sus acciones?
d) Suponga que transcurridos los dos meses, la acción subió en 40 dı́as y que un inversionista selec-
cionó al azar 10 dı́as dentro de los dos meses para negociar con estas acciones ?Con qué probabilidad
en más de la mitad de estos dı́as de negociación los precios habrán experimentado una subida?
Solución: a) Si se define X =Número de dı́as en los dos meses que el precio de la acción experimenta
una subida, entonces X ∼ B(60, 0.7). El valor esperado para el número de subidas es entonces E(X) =
60 × 0.7 = 42 e inicialmente se nos pide PX (42). Ello en R se obtiene mediante
> dbinom(42,60,0.7)
[1] 0.1118036
La probabilidad de que suba más de 50 dı́as; es decir, P (X > 50) = 1 − P (X ≤ 50) será
> 1 - pbinom(50,60,0.7)
[1] 0.005871188
b) Se nos pide
> qbinom(0.8,60,0.7)
[1] 45
Esto es se tendrá una probabilidad de al menos 0.8 de que los precios suban a lo más 45 dı́as.
b) Sea Y = número de dı́as hasta que la acción suba de precios por tercera vez, entonces Y ∼ BN (r =
3, p = 0.7). Se nos pide P (Y > 30) = 1 − P (Y ≤ 30). Para esta distribución se tiene en R el comando
pnbinom; pero hay que tener cuidado, pues la v.a en ella, que denotaremos por Y0 es en realidad
nuestra variable Y desplazada. Esto es
Y0 = Y − r, donde Y ∼ BN (r = 3, p = 0.7).
Ası́ la probabilidad pedida viene dada por P (Y > 30) = P (Y0 + 3 > 30) = 1 − P (Y0 ≤ 27). Ello en R nos
da
> 1 - pnbinom(27,3,0.7)
[1] 5.022649e-13
d) Si definimos la v.a W =número de dı́as de negociación en las que la acción subió de precio, entonces
W ∼ H(N = 60, M = 40, n = 10). Se nos pide P (W > 5) = 1 − P (W ≤ 5). Ello en R se puede obtener
con
> 1 - phyper(5,40,20,10)
[1] 0.8061506
Note que a diferencia de nuestra notación R pide para la distribución phyper(q, M, N −M, n). Además,
y esto es válido también para las otras distribuciones, el tomar la probabilidad del complemento podrı́a
ser innecesario ya que alternativamente lo pedido se podrı́a obtener con
> phyper(5,40,20,10,lower.tail=FALSE)
[1] 0.8061506
Ejemplo A.4. Veamos el caso ahora de una distribución continua como la gamma, la cual recordemos
no tiene una forma explı́cita para su función de distribución, al menos que su parámetros α sea
entero. Sea concretamente X una v.a con distribución gamma de parámetros α = 7.5 y β = 13 ; es decir,
X ∼ Γ (7.5, 13 ). Entonces la gráfica de la función de densidad de esta v.a se puede obtener con
x = seq(0,10,by=0.01)
plot(x,dgamma(x,shape=7.5,scale=1/3),type=’l’)
La probabilidad de que X tome un valor menor o igual que 4 viene dada por ejemplo por
> pgamma(4,shape=7.5,scale=1/3)
[1] 0.9349065
De otro lado, si queremos hallar la mediana de X; es decir, el valor Me tal que FX (Me) = P (X ≤ Me) =
0.5, entonces
> Me = qgamma(0.5,shape=7.5,scale=1/3)
> Me
[1] 2.38981
Finalmente, si deseamos simular; es decir, recrear de manera artificial 100 valores de la v.a X, podemos
escribir
> m = rgamma(100,shape=7.5,scale=1/3)
> m
[1] 2.6625452 0.7689917 1.9509386 4.1744743 1.9735547 2.3865520 2.5124263
[8] 3.5265864 3.3402294 2.0263015 3.5027949 4.4196460 1.3363469 1.8591059
[15] 2.7135067 1.2708783 2.5711275 2.7407072 1.1118715 3.0520331 1.6617308
[22] 2.2574728 3.2765931 1.7374397 1.7587716 1.6213503 1.8458460 1.9939204
[29] 2.2040888 4.7502856 2.5213610 1.3531028 2.9146931 3.1393688 1.1337547
[36] 4.0450105 1.1419313 2.2882722 1.7693570 2.4043660 2.4873355 2.4853267
[43] 3.5090830 3.0595274 2.2183418 1.4812468 1.6009753 2.8598354 3.8990242
dgamma(x, shape = 7.5, scale = 1/3)
0.4
0.3
0.2
0.1
0.0
0 2 4 6 8 10
Figura A.5: Función de densidad de una v.a. con distribución Gamma de parámetros α = 7.5 y
β = 1/3
[50] 2.8164115 3.0552297 1.4212291 3.0077369 2.1654346 3.6788579 2.5966048

[57] 3.7653787 2.8141862 1.0664568 1.6569692 0.8524715 1.1203978 2.9679778
[64] 2.4124678 2.5499479 1.9701130 3.3493241 4.5065630 2.6929781 3.7927157
[71] 1.3895163 1.1951270 2.6142309 1.9591438 2.2448915 1.5469290 1.6097168
[78] 3.8347860 2.7320566 1.3422471 2.0883957 3.1403752 1.6114541 5.2458691
[85] 4.0222283 1.0934773 2.2559728 1.7023896 2.9762142 2.6192685 2.3024607
[92] 2.0523902 1.9925179 3.2425290 3.2584707 1.0434340 1.8838496 4.3667586
[99] 1.7343816 1.7741992
Para verificar que estos últimos efectivamente proviene de una distribución gamma con los paráme-
tros dados, podemos pedir el histograma de estos valores y compararlos con la verdadera función de
densidad. Como se aprecia, los datos parecen bien ajustar a la distribución teórica de la cual han sido
simulados. Note que cada vez que usted repita este procedimiento, los resultados han de variar, pues
se trata de una simulación.
hist(m, freq = FALSE, ylim=c(0,0.5))
x = seq(0,10,by=0.01)
lines(x,dgamma(x,shape=7.5,scale=1/3))
Histogram of m
0.5
0.4
0.3
Density
0.2
0.1
0.0
1 2 3 4 5
Figura A.6: Histograma para los datos simulados de la distribuión Gamma

Bibliografı́a
Berk, R. (1967). Review 1922 of “invariance of maximum likelihood estimators”by peter w.

zehna, Mathematical Reviews 33: 344–343.
Casella, G. y Berger, R. (2002). Statistical Inference, Duxbury, USA.
Galvao, J. E. y Singer, J. (1990). Métodos assintóticos em estatı́stica, ABE, Sao Paulo.
Kotz, S., Balakrishnan, N. y Johnson, N. (2019). Continuous Multivariate Distributions, Volume

1: Models and Applications, Wiley.
Lohr, S. (2000). Muestreo: Diseño y Análisis, Internacional Thomson editores.
Lugon, A. y Valdivieso, L. (1993). La esperanza condicional en espacios de probabilidad finitos,

Reporte de investigación, Sección Matemáticas, PUCP.
Valdivieso, L. (2020). Técnicas de muestreo, PUCP.
231

Pontificia Universidad Cato Lica Del Peru Facultad de Ciencias Sociales Especialidad de Economía

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Pontificia Universidad Cato Lica Del Peru Facultad de Ciencias Sociales Especialidad de Economía

Cargado por

Copyright:

Formatos disponibles

PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ

Facultad de Ciencias Sociales

Arturo Calderón Garcı́a

1. Probabilidad y variable aleatoria 1

2.4. La distribución de Pascal o binomial negativa . . . . . . . . . . . . . . . . . . . . . . 77

4. Muestreo y estadı́sticas 139

5. Estimación puntual de parámetros 157

5.3.1. El método de momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164

6. Estimación por intervalos 185

7. Contrastes de hipótesis 203

A. Una introducción a R 219

Probabilidad y variable aleatoria

Figura 1.1: Estadı́sticas de la rentabilidad de un banco

Figura 1.2: Rentabilidades y riesgos de un grupo de fondos mutuos

1.2. Probabilidad: Enfoque axiomático

1.2.1. Conceptos básicos

Observación: La manera racional de investigar un proceso y explicarlo, es determinar las condi-

Experimento: Es un conjunto de condiciones (que definen el experimento) asociado a un conjunto

Ejemplo 1.1. Algunos experimentos aleatorios son los siguientes:

Para reducir la incertidumbre podemos usar la estabilidad estadı́stica de la frecuencia rela-

1.2.2. σ-álgebra de eventos

Proposición 1.1. Toda σ −álgebra de eventos satisface las propiedades siguientes.

a) F = {∅, Ω, A, Ac } es una σ -álgebra.

b) F = {∅, Ω} es también una σ -álgebra

c) F = 2Ω , el “conjunto de partes” o “conjunto potencia” de Ω, es otra σ -álgebra.

Si C es cualquier colección de eventos que no es una σ -álgebra, siempre podemos “com-

Figura 1.4: Posibles resultados de la simulación de una máquina tragamoneda

1.3. Definiciones de probabilidad y propiedades

Definición Frecuencial de Probabilidad (o de Von Mises)

Esta definición es estadı́stica y según ella, la probabilidad es el lı́mite de una frecuencia

Es difı́cil de aplicar, pues implica repetir el experimento aleatorio un número grande de

Tamaño Frecuencia Porcentaje

y se selecciona al azar a una de estas empresas metalmecánicas, entonces la probabilidad de A=“La

(P3) Si A1 , A2 , A3 , . . . es una sucesión de eventos mutuamente excluyentes, esto es,

Según esta definición, es posible hacer diferentes asignaciones de probabilidades sobre

Proposición 1.2. Dados dos eventos A y B cualesquieras se cumplen

3. P (A ∪ B) = P (A) + P (B) − P (A ∩ B).

5. Si A ⊆ B , entonces P (A) ≤ P (B).

Demostración: 1.-Definamos la sucesión de eventos {An , n = 1, 2, 3...}, donde An = ∅, ∀n . Entonces es

El axioma (P3) implica entonces que

P (A ∪ Ac ) = P (A) + P (Ac ) = P (Ω) = 1

o equivalentemente P (Ac ) = 1 − P (A).

o equivalentemente: P (B ∩ Ac ) = P (B) − P (B ∩ A). También: P (A ∪ B) = P (A) + P (B ∩ Ac ) y reemplazando

4. Dado que P (B ∩ Ac ) = P (B − A), esto ya fué probado en el punto anterior.

y ası́ P (A) ≤ P (B).

y la aplicación de las propiedades anteriores.

1. Si A1 , A2 , . . . , AN es una sucesión de N eventos mutuamente excluyentes:

2. Si A1 , A2 , . . . , AN es cualquier sucesión de N eventos:

3. Desigualdad de Bonferroni: Si A1 , A2 , . . . , AN es cualquier sucesión de N eventos:

4. Propiedad σ −subaditiva: Si A1 , A2 , . . . es cualquier sucesión numerable de eventos

5. Propiedad de continuidad: Si A1 , A2 , ... es cualquier sucesión numerable de eventos tales que A1 ⊆

P (A) = lı́m P (An ).

donde la última igualdad se sigue de la propiedad 1 en la proposición 1.2.

y ası́ se satisface la propiedad para N + 1.

La proposición anterior permite asegurar que en relación a la propiedad de inclusión de even-

el semicı́rculo inferior”, la asignación de probabilidades definida antes, le dará a una probabili-

y la distribución de probabilidades en Ω es:

(p, q) (1,4) (2,3) (3,2) (4,1)

a) Halle una distribución de probabilidades compatible con esta información.

b) Halle la probabilidad de que al lanzar el dado ocurra un número par.

c) Halle la probabilidad de que al lanzar el dado ocurra un número primo.

distribución de probabilidades es:

P ({k}) = k/21, para k = 1, 2, ..., 6