Está en la página 1de 236

PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ

Facultad de Ciencias Sociales


Especialidad de Economía

ESTADÍSTICA INFERENCIAL
Notas de clase

Arturo Calderón Garcı́a


Luis Hilmar Valdivieso Serrano

2021
Índice general

1. Probabilidad y variable aleatoria 1


1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Probabilidad: Enfoque axiomático . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.1. Conceptos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.2. σ-álgebra de eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3. Definiciones de probabilidad y propiedades . . . . . . . . . . . . . . . . . . . . . . . 9
1.4. Casos especiales de asignación de probabilidades . . . . . . . . . . . . . . . . . . . . 19
1.4.1. Probabilidad geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.4.2. Probabilidad en espacios numerables . . . . . . . . . . . . . . . . . . . . . . . 21
1.5. Probabilidad clásica y técnicas de conteo . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.5.1. Permutaciones y combinaciones . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.6. Probabilidad condicional e independencia . . . . . . . . . . . . . . . . . . . . . . . . 27
1.6.1. Probabilidad Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.6.2. Independencia probabilı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1.6.3. Probabilidad total y el teorema de Bayes . . . . . . . . . . . . . . . . . . . . . 31
1.7. Variable Aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
1.7.1. Definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
1.7.2. Clasificación de las variables aleatorias . . . . . . . . . . . . . . . . . . . . . . 40
1.7.3. Variable discreta y función de probabilidad . . . . . . . . . . . . . . . . . . . 40
1.7.4. Variable continua y función de densidad . . . . . . . . . . . . . . . . . . . . . 43
1.8. Valor esperado o esperanza matemática . . . . . . . . . . . . . . . . . . . . . . . . . . 49
1.8.1. Casos especiales de valor esperado . . . . . . . . . . . . . . . . . . . . . . . . 51
1.8.2. Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
1.8.3. Función generatriz de momentos . . . . . . . . . . . . . . . . . . . . . . . . . 61
1.8.4. Cambio de variable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
1.8.5. Cálculo del valor esperado por desarrollo asintótico . . . . . . . . . . . . . . 63
1.9. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

2. Distribuciones importantes 69
2.1. La distribución hipergeométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
2.2. La distribución binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
2.3. La distribución geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

1
2 ÍNDICE GENERAL

2.4. La distribución de Pascal o binomial negativa . . . . . . . . . . . . . . . . . . . . . . 77


2.5. La distribución de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
2.6. La distribución uniforme. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
2.7. La distribución exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
2.8. La distribución gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
2.9. La distribución beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
2.10. La distribución normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
2.11. La distribución lognormal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
2.12. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

3. Vector aleatorio 99
3.1. Definición y clasificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
3.2. Distribuciones de probabilidad para un vector aleatorio discreto . . . . . . . . . . . 101
3.3. Distribuciones de densidad para un vector aleatorio continuo . . . . . . . . . . . . . 105
3.3.1. Integrales dobles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
3.3.2. Densidades conjuntas, marginales y condicionales . . . . . . . . . . . . . . . 109
3.4. Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
3.5. Valor esperado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
3.5.1. Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
3.6. La esperanza condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
3.7. Vectores aleatorios multidimensionales . . . . . . . . . . . . . . . . . . . . . . . . . . 118
3.7.1. La función generatriz de momentos de un vector aleatorio . . . . . . . . . . . 119
3.7.2. Vector particionado y distribuciones conjuntas . . . . . . . . . . . . . . . . . 119
3.8. Distribuciones multivariadas importantes . . . . . . . . . . . . . . . . . . . . . . . . 122
3.8.1. La distribución multinomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
3.8.2. La distribución hipergeométrica multivariada . . . . . . . . . . . . . . . . . . 123
3.8.3. La distribución normal multivariada . . . . . . . . . . . . . . . . . . . . . . . 125
3.8.4. La distribución de Dirichlet . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
3.9. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132

4. Muestreo y estadı́sticas 139


4.1. Población, muestra y estadı́sticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
4.2. La ley de los grandes números y el TLC . . . . . . . . . . . . . . . . . . . . . . . . . . 142
4.3. Distribuciones muestrales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
4.3.1. La distribución Ji-cuadrado . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
4.3.2. La distribución t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
4.3.3. La distribución F de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
4.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152

5. Estimación puntual de parámetros 157


5.1. El problema de la estimación puntual . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
5.2. Propiedades de un buen estimador . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
5.3. Métodos de estimación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
Facultad de Ciencias Sociales PUCP 1

5.3.1. El método de momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164


5.3.2. El método de la máxima verosimilitud . . . . . . . . . . . . . . . . . . . . . . 166
5.3.3. El método de mı́nimos cuadrados . . . . . . . . . . . . . . . . . . . . . . . . . 172
5.4. Propiedades de los estimadores de máxima verosimilitud . . . . . . . . . . . . . . . 178
5.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180

6. Estimación por intervalos 185


6.1. Variables pivote y construcción de intervalos de confianza . . . . . . . . . . . . . . . 186
6.2. Intervalos de confianza para los parámetros de una distribución normal . . . . . . . 187
6.2.1. Intervalos de confianza para la media . . . . . . . . . . . . . . . . . . . . . . 187
6.2.2. Intervalo de confianza para la varianza . . . . . . . . . . . . . . . . . . . . . . 190
6.3. Intervalos de confianza para proporciones y tamaños de muestra con corrección
para poblaciones finitas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
6.3.1. Intervalos de confianza para una proporción . . . . . . . . . . . . . . . . . . 192
6.3.2. Corrección por finitud y tamaños de muestra . . . . . . . . . . . . . . . . . . 193
6.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196

7. Contrastes de hipótesis 203


7.1. Metodologı́a de la contrastación de hipótesis . . . . . . . . . . . . . . . . . . . . . . . 203
7.2. El teorema de Neyman-Pearson y las pruebas UMP . . . . . . . . . . . . . . . . . . . 207
7.2.1. El teorema de Neyman-Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . 207
7.2.2. Contrastes uniformemente más poderosos . . . . . . . . . . . . . . . . . . . . 209
7.3. Contrastes de la razón de verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . 212
7.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213

Appendices 219

A. Una introducción a R 219


A.1. Comandos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220
A.2. Distribuciones y R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226

Bibliografı́a 229
2 ÍNDICE GENERAL
Capı́tulo 1

Probabilidad y variable aleatoria

1.1. Introducción
En Economı́a, Finanzas, Gestión, etc., los analistas tratan con cifras que miden o represen-
tan resultados de procesos donde interactúan diversos agentes en condiciones de incertidumbre
parcial, ve tendencias pero éstas no son exactas sino “patrones” que presentan cierta variabilidad.
Por ejemplo, la rentabilidad financiera (ROE=Beneficio neto/Fondos propios) de un banco,
medida semana a semana no es constante, pero tampoco es caótica, examinando cifras (como las
de abajo) se encuentran tendencias, valores que oscilan entre extremos bien definidos. Estas ten-
dencias, cuantificadas adecuadamente, nos dicen “el estado” de una población o grupo, indicando
qué es lo que predomina, qué es lo más frecuente y también cuánta variabilidad (diferencia arriba o
debajo de lo predominante) existe.

Figura 1.1: Estadı́sticas de la rentabilidad de un banco

1
2 ÍNDICE GENERAL

Saber más de un proceso debe ponerlo a uno en condición de indicar “el estado de la población”
y también de “explicar ese estado” o sea de decir el porqué del estado. Para ello uno suele apoyarse
en algunas caracterı́sticas (o variables) que hayan mostrado estar asociadas a la variable de interés
que mide el estado de la población o grupo. Si la explicación es buena, eso nos pone incluso en
capacidad de predecir.
Por ejemplo, si tenemos datos sobre la rentabilidad promedio de diversos fondos mutuos y
de la variación en rentabilidad de esos mismos fondos y juntamos las cifras para analizarlas, po-
demos distinguir un patrón de asociación que es muy conocido en el campo de las finanzas, la
relación entre “rentabilidad y riesgo”. En este caso, el riesgo podemos medirlo como el promedio
de variaciones tanto hacia arriba como debajo de la rentabilidad media de cada fondo durante el
año. Como se trata de las oscilaciones arriba o debajo de lo esperado, es claro que miden de alguna
manera el “riesgo”, riesgo entendido como posibilidad de recibir bastante menos de lo esperado
con una inversión.
Las cifras de abajo muestran rentabilidades promedio y riesgos respectivos para un grupo de
fondos mutuos. Graficando el riesgo versus la rentabilidad media se ve una clara tendencia lineal
creciente, representable por una recta de la forma y = ax+b, que incluso puede ser estimada o
cuantificada:

Figura 1.2: Rentabilidades y riesgos de un grupo de fondos mutuos


Facultad de Ciencias Sociales PUCP 3

Pero no siempre las cosas lucen claras, incluso pueden ser engañosas, como lo muestran los
siguientes datos relativos a las variaciones del Indice de precios al consumidor y las del Indice de
la bolsa de valores en una serie de paı́ses en los años 70:

Figura 1.3: Variaciones del IPC y las del IBV en una serie de paı́ses en los años 70

La situación es más complicada: si procediéramos a estimar Y con una recta, usando X como
variable explicativa o predictor, el error serı́a serio, como lo muestra el gráfico XY; en realidad no
hay ninguna tendencia, pero el caso de Chile genera una tendencia artificial. ¿Qué ha ocurrido? El
problema subyacente es que nunca tendremos a mano información completa sino solo muestras
o partes de la información y esto induce variabilidad “azarosa”, no sistemática, que debemos se-
parar de las diferencias que sı́ son sistemáticas, que tienen fuente conocida. Es decir, necesitamos
herramientas analı́ticas para trabajar confiablemente con muestras. Eso nos lleva a la Probabilidad
primero y a la Estadı́stica después.

1.2. Probabilidad: Enfoque axiomático


En general, investigar o estudiar un proceso puede ser visto como establecer relaciones o co-
nexiones entre determinados hechos o sucesos, que llamamos “condiciones” y otros sucesos de
interés, que denominamos “resultados”.
El camino usual es probar con distintas condiciones y ver los cambios en los resultados, hasta
distinguir algún “patrón” o “ley”, como por ejemplo, la ley de Hooke de la Fı́sica o la ley de la
Oferta y Demanda en Economı́a. Todo el proceso anterior es lo que constituye un experimento (o
sea condiciones y sus resultados asociados).
4 ÍNDICE GENERAL

Cuando dadas las condiciones no hay un resultado único, sino un conjunto de resultados que
ocurren siguiendo una distribución de frecuencias estable, el experimento se llama aleatorio y el
estudio de estos experimentos es la teorı́a de probabilidad.
En Economı́a y Ciencias Sociales abundan procesos como los descritos lı́neas arriba. Se carac-
terizan porque existe incertidumbre sobre los resultados, proveniente de nuestra falta de control
total de las condiciones que los rigen. Esta incertidumbre dificulta el análisis y la toma de deci-
siones. Si estudiamos los precios de un valor bursátil, por ejemplo, encontraremos fuertes fluctua-
ciones. Quizá haya una tendencia (a la baja o al alza) pero además, alrededor de esa tendencia,
veremos variaciones que impiden hacer un pronóstico exacto. Y es que en la determinación del
precio hay dos componentes: una económica, que se origina en la interacción de los agentes y el
estado de la economı́a, y otra que ya no puede explicarse económicamente, que tiene que ver con
la subjetividad de las personas en el mercado, con sus miedos, gustos e intuiciones. Esta segunda
componente resume la falta de conocimiento y control que tenemos sobre el proceso de oferta y
demanda. Un análisis fino implica separar la primera componente de la segunda. Para ello pode-
mos asumir (y esto parece razonable) que existen múltiples factores no controlables y fortuitos,
que son responsables de las variaciones observadas. Variaciones que matizan un poco el “efecto”
de la componente económica y que se distribuyen a lo largo del tiempo de manera relativamente
estable, repartiendo por igual la buena y mala fortuna. Cuando hacemos esto, estamos aceptando
la noción de “azar”.
Hecho lo anterior, tenemos a continuación la tarea de aislar el efecto del azar y ver qué tan
fuerte es el efecto de la componente económica. Para hacer esta tarea de limpieza, necesitamos
estudiar sistemática y racionalmente el azar, delimitarlo y encontrar las leyes que lo rigen. La
manera más eficiente de tratar con este incómodo ente es analizarlo formalmente primero y luego,
respetando sus propiedades, usar éstas para retirarlo de escena.
Una manera confiable de construir una teorı́a racional del azar, es usar un método que per-
mita deducir sus propiedades a partir de un conjunto mı́nimo de premisas, de modo que dichas
propiedades sean puramente lógicas, libres de error de inferencia. La Teorı́a Axiomática de Pro-
babilidades hace precisamente lo anterior.

1.2.1. Conceptos básicos

Suceso: Es cualquier hecho cuya ocurrencia o presentación nos es de interés. Podemos clasificar a
los sucesos en una de dos categorı́as a saber, condiciones y resultados.
Condición: Es un suceso cuya ocurrencia podemos controlar, es decir, podemos hacer que suceda.
Resultado: Es un suceso cuya ocurrencia depende de un conjunto de condiciones que lo rigen.

Observación: La manera racional de investigar un proceso y explicarlo, es determinar las condi-


ciones en las que discurre, y luego ir variándolas, tomando nota de los cambios que se presentan
en los resultados. Si llegamos a establecer algún patrón, estamos ante el germen de una ”ley”,
e incluso, si nuestras observaciones las codificamos numéricamente, podemos enunciar la ley en
la forma de alguna ecuación. Este sistema de análisis, consistente en realizar experiencias y ver
cambios en los resultados asociados a ciertas condiciones es lo que llamaremos un “experimento”.
Facultad de Ciencias Sociales PUCP 5

Experimento: Es un conjunto de condiciones (que definen el experimento) asociado a un conjunto


de resultados.
Para determinar la relación entre las condiciones y los resultados, necesitamos estar en la posi-
bilidad de repetir o replicar el experimento, de modo que las sucesivas réplicas permitan la identi-
ficación y el estudio de la relación, incluyendo la posibilidad de hacer predicciones contrastables.
En este contexto debemos distinguir dos tipos de experimentos o ensayos: los determinı́sticos y
los no determinı́sticos.
Experimentos determinı́sticos: Son aquellos experimentos en los cuales las condiciones determi-
nan unı́vocamente el resultado.
En estos experimentos, sucesivas réplicas permiten establecer el resultado asociado a condi-
ciones especı́ficas, y la variación de las condiciones y el registro de los cambios en los resultados,
conducen a una ley que se puede verificar empı́ricamente y con certeza. Por ejemplo, si dejamos
caer un dado desde una cierta altura y registramos el tiempo que tarde en llegar al piso, pode-
mos medir el tiempo con exactitud razonable si tenemos los instrumentos adecuados. Variando
la altura, encontraremos que el tiempo cambia y al final podemos establecer una “fórmula” que
liga tiempo con altura. La verificación de la validez de la fórmula ası́ deducida se puede hacer
pronosticando tiempos y confrontándoles con los resultados de nuevos experimentos.
Experimentos no determinı́sticos: Aquellos en donde las condiciones no fijan el resultado de
manera unı́voca.
En estos experimentos no hay un resultado sino un conjunto de resultados, por tanto es más
difı́cil establecer una correspondencia entre cambios en las condiciones y cambios en los resul-
tados, pues al variar sistemáticamente las condiciones y registrar los cambios en los resultados,
enfrentamos el problema de que los conjuntos de resultados no necesariamente son excluyentes.
Sin embargo, en ciertos casos se encuentran regularidades aprovechables: al repetir el experi-
mento, los resultados se tienden a presentarse manteniendo un patrón en la frecuencia con que
ocurren. Por ejemplo, en el caso del Consumo e Ingreso disponible de las familias en una eco-
nomı́a, si analizamos datos de alguna encuesta grande, encontraremos que para cada nivel de
ingreso habrá familias con distintos niveles de consumo. Sin embargo, trabajando sobre todos los
ingresos y consumos registrados, podremos distinguir una “tendencia” creciente: a mayor ingreso
mayor consumo. La relación no es exacta, determinista, pero existe y es directa. Y si calculamos
en cuánto crece el consumo por cada unidad adicional de ingreso, probablemente encontraremos
que esta tasa es casi constante, que hay una cierta regularidad. Esta regularidad, permite un tipo
de pronóstico “relativo”, ası́ como una “ley” no exacta, que si bien no elimina la incertidumbre, la
disminuye y la administra. Los experimentos donde se presenta este tipo de estabilidad estadı́stica
de resultados, reciben un nombre especial. Se llaman experimentos aleatorios.
Experimento aleatorio: Denotado por , es un experimento donde las condiciones no determinan
de manera unı́voca un resultado pero sı́ permiten establecer un conjunto de posibles resultados,
de modo que en sucesivas réplicas del experimento, los resultados o grupos de resultados, se
presentan con una frecuencia relativa (o porcentual) estable.

Ejemplo 1.1. Algunos experimentos aleatorios son los siguientes:

a) Soltar una tiza desde una altura de metro y medio y observar en cuántos trozos se parte.
6 ÍNDICE GENERAL

b) Contar la cantidad de establecimientos que visita un consumidor hasta que compre un bien.

c) Escoger una muestra al azar de manzanas de una ciudad, entrevistar a los hogares de cada manzana
y registrar el número de miembros de cada hogar que estaban sin trabajo la semana anterior a la
entrevista.

d) Observar si una acción en bolsa subió o no de precio con respecto a su cotización del dia de ayer.

Observación: Aunque hay un conjunto de resultados posibles, en cada réplica del experimento,
solo se presenta uno de ellos, pudiendo variar el resultado de réplica en réplica. En un experi-
mento aleatorio no es posible saber con certeza el resultado del experimento, pero sı́ es factible
establecer el conjunto de posibles resultados y determinar (al menos conceptualmente) la frecuen-
cia relativa (o porcentual) conque se presentan diferentes grupos de resultados.
Espacio muestral: Por construcción, en todo experimento aleatorio  estamos en condiciones de
determinar el conjunto de posibles resultados. Este conjunto debidamente representado, se conoce
como espacio muestral y lo denotaremos con el sı́mbolo Ω.
Evento: Un evento es un subconjunto de un espacio muestral al que se le puede asignar una
medida de incertidumbre. Los eventos se suelen denotar con letras mayúsculas: A, B, etc.
Por ejemplo, en el experimento b) del ejemplo 1.1, podemos representar Ω mediante el con-
junto Ω = {1, 2, 3, 4,...}.
Ocurrencia de un evento: Diremos que un evento A “ocurre” si el resultado del experimento
aleatorio es elemento de A.
Sobre un espacio muestral Ω podemos definir o distinguir muchos subconjuntos, los cuales
pueden tener elementos comunes; esto es, es perfectamente posible que dos o más eventos ocu-
rran simultáneamente. Por otra parte, el que un evento haya ocurrido quiere decir que uno de sus
elementos fue el resultado del experimento. Obviamente, esto no significa que todos sus resulta-
dos se han presentado.
Evento seguro: Es el espacio muestral Ω. Por definición, ocurre siempre pues tiene todos los re-
sultados que se pueden presentar.
Evento imposible: Es el conjunto vacı́o ∅ y como no tiene elementos, nunca ocurre.
Eventos mutuamente excluyentes: Dos eventos A y B se dicen mutuamente excluyentes si carecen
de elementos comunes. Esto es A y B no se presentan a la vez o nunca ocurren juntos. Formalmente
se tiene que A ∩ B = ∅.

Observaciones:

Para reducir la incertidumbre podemos usar la estabilidad estadı́stica de la frecuencia rela-


tiva de aparición u ocurrencia de los distintos eventos de un espacio muestral, para “medir”
en ellos su propensión a ocurrir y tener una herramienta que permita hacer pronósticos
relativos.

Como Ω ocurre siempre, nuestra medida de la propensión a ocurrir de los eventos, debe
darle al espacio muestral Ω, un valor máximo. Análogamente, como ∅ nunca ocurre, debe
recibir la medida más pequeña, acorde con su nula propensión a presentarse. Finalmente,
los eventos de real interés, aquellos intermedios entre el vacı́o ∅ y el espacio total Ω, deben
Facultad de Ciencias Sociales PUCP 7

recibir una medida intermedia que los jerarquice desde menos propensos a ocurrir a más
propensos a presentarse. Esta medida existe y se llama “probabilidad”. Por conveniencia la
probabilidad se define de modo que esté entre 0 y 1, correspondiendo el 0 al vacı́o ∅ y el 1 al
espacio muestral Ω.

1.2.2. σ-álgebra de eventos


Dado un espacio muestral Ω, no siempre estaremos interesados en medir la opción de ocurren-
cia de cualquier subconjunto de Ω, sino solo de algunos básicos y otros adicionales que podamos
obtener combinando los primeros. Ello pues algunos subconjuntos, por la información que se tie-
ne, no podrán jamas ocurrir y será innecesario el tener que considerarlos. Nos interesará por tanto,
una determinada familia de subconjuntos de Ω. Esta familia, que la llamaremos una σ -álgebra de
eventos y la denotaremos con F , se define como sigue:

Definición 1.1. Una familia de subconjuntos de Ω, F , se dice que es una σ −álgebra de eventos de Ω si
satisface las propiedades siguientes:

(F1) ∅ ∈ F .

(F2) Si A ∈ F , entonces Ac ∈ F .
S∞
(F3) Si A1 , A2 , A3 , . . . es cualquier sucesión numerable de eventos en F , entonces k=1 Ak ∈F.

Proposición 1.1. Toda σ −álgebra de eventos satisface las propiedades siguientes.

1. Ω ∈ F
SN
2. Si A1 , A2 , · · · , AN es una sucesión finita de eventos en F , entonces k=1 Ak ∈F.
T∞
3. Si A1 , A2 , · · · es cualquier sucesión numerable de eventos en F , entonces k=1 Ak ∈F.

Las propiedades anteriores, que son directas de probar, muestran que una familia definida
según (F1) a (F3), contiene a todos los eventos que podamos construir por uniones e intersecciones
de conjuntos en esta familia, o sea es “cerrada” bajo estas operaciones.

Ejemplo 1.2. Lanzamos un dado y observamos el número que muestra su cara superior. En este caso
Ω = {1, 2, 3, 4, 5, 6} y si definimos el evento en que se obtiene un número par; es decir, A = {2, 4, 6},
entonces:

a) F = {∅, Ω, A, Ac } es una σ -álgebra.

b) F = {∅, Ω} es también una σ -álgebra

c) F = 2Ω , el “conjunto de partes” o “conjunto potencia” de Ω, es otra σ -álgebra.

Es más las σ −álgebras en b) y c) son respectivamente la menor y mayor σ −álgebras que se pueden
construir sobre cualquier espacio muestral numerable Ω.
8 ÍNDICE GENERAL

Observaciones:

Nóte que sobre un mismo espacio muestral Ω hemos definido varias σ -álgebras. Por otra
parte puede ser curioso el caso a), pero no es difı́cil imaginar un juego de azar cuyas reglas
impliquen que solo interese si ocurre un número par o no, más que estar pendientes de
resultados individuales.

Vale la pena notar que aunque (F3) alude a una sucesión numerable e infinita de subconjun-
tos de Ω, este axioma sı́ es aplicable a las tres familias definidas en el ejemplo, pues basta
“completar” cualquier sucesión finita definiendo más eventos, todos de la forma Ak = ∅.

Si C es cualquier colección de eventos que no es una σ -álgebra, siempre podemos “com-


pletarla” de modo que se obtenga una σ -álgebra, añadiendo subconjuntos de Ω convenien-
temente. Por ejemplo completándola hasta llegar a 2Ω , aunque esta extensión puede ser
excesiva, dando una familia demasiado “grande”. La alternativa más económica es definir F
como la intersección de todas las σ -álgebras que contengan a C. Esta, que es una σ −álgebra,
se denota por σ (C) y formalmente se define por σ (C) = ∩{Fi /C ⊆ Fi }. Un caso importante
ocurre cuando C es la familia de todos los intervalos del eje real, en este contexto a σ (C) se
le conoce como la σ -álgebra de “Borel”. Otro nombre con el que se acuña a σ (C) es que esta
es la σ −álgebra generada por C.

De aquı́ en adelante reservaremos la palabra evento a los subconjuntos de Ω que sean elemen-
tos de una σ -álgebra. La razón es que cuando Ω es un conjunto no numerable (como el intervalo
[0,1]) puede encontrase subconjuntos de Ω a los cuales no se les puede asignar ninguna probabi-
lidad sin generar contradicciones lógicas, cosa que no ocurre con los elementos de una σ -álgebra.
Es importante destacar la importancia del concepto de σ −álgebra como una forma de modelar
la información que un agente va adquiriendo en el tiempo o en un proceso iterativo. Para ilustrar
ello consideremos el ejemplo siguiente.
Ejemplo 1.3. Suponga que usted juega en una máquina tragamoneda de un casino que simula el lan-
zamiento secuencial de tres monedas. Nuestro experimento aleatorio implı́cito consiste entonces en ob-
servar el resultado de la simulación dada por la máquina, el cual genera el espacio muestral
Ω = {sss, ssc, scs, scc, css, csc, ccs, ccc},
espacio que se podrı́a también representarse en el diagrama de árbol de la figura 1.4. En caso no se
disponga de información, la σ −álgebra natural serı́a F = 2Ω , la cual contiene 28 = 256 eventos. Pen-
semos ahora que nos ubicamos en el preciso instante en que la máquina simula el segundo lanzamiento
(habiéndose también observado el resultado del primero). Dada esta información, podremos estar en
capacidad entonces de distinguir entre los eventos (sólo ocurrirá uno):
A1 = {sss, ssc}, A2 = {scs, scc}, A3 = {css, csc}, A4 = {ccs, ccc}
pero no podremos distinguir cuál de estos eventos ocurrirá. Para modelar la información observada hasta
la segunda simulación podrı́amos considerar luego la σ −álgebra F2 definida como la σ −álgebra generada
por la partición C = {A1 , A2 , A3 , A4 }. Esta tiene 16 eventos y viene dada explı́citamente por
F2 = {A1 , A2 , A3 , A4 , Ac1 , Ac2 , Ac3 , Ac4 , A1 ∪ A2 , A1 ∪ A3 , A1 ∪ A4 , A2 ∪ A3 , A2 ∪ A4 , A3 ∪ A4 , Ω, ∅}.
Facultad de Ciencias Sociales PUCP 9

Note por ejemplo que el subconjunto B = {sss} de Ω no es aquı́ un evento, pues este no pertenece a F2 . Si
usted observa por citar que la máquina simuló primero una cara (c) y luego un sello (s), será imposible
que el evento de B ocurra y por tanto no deberı́a de ser tomado en cuenta.

1s


s
* PPP

 PP
qc
s 
1s
H
 HH 

j cP
HH

PP
PP
qc
@ 1s

@ s
@ P

* PP
PP
@  qc
R c 
@
1s
HH
H 
j c
HH 
PP
P PP
qc

Figura 1.4: Posibles resultados de la simulación de una máquina tragamoneda

Como ejercicio defina una σ −álgebra que se asocie a la información que usted adquirı́a inmediata-
mente después que la máquina simule su primer lanzamiento.

Para mayores detalles del concepto de σ −álgebra en espacios muestrales finitos, el lector puede
consultar (Lugon y Valdivieso, 1993).

1.3. Definiciones de probabilidad y propiedades


La medición de la incertidumbre mediante probabilidades ha sido varias veces abordado en la
historia de la Matemática, ası́ tenemos las siguientes definiciones de probabilidad.
Definición de probabilidad clásica (o de Laplace)
Si un espacio muestral Ω tiene n(Ω) elementos, todos con la misma opción de presentarse, y
n(A) de estos son elementos de un evento A, entonces la probabilidad de A, denotada por P (A), se
define como

n(A)
P (A) = .
n(S)
Observaciones:

Esta definición es la de los juegos de azar; por ejemplo es la que se aplica en un juego de
cartas o dados.
10 ÍNDICE GENERAL

El defecto de esta definición es que no siempre es aplicable, pues hay espacios con infinitos
elementos o siendo finitos, sus elementos no son equiprobables. Por ejemplo, si en un dado
borramos el número 6 y escribimos un 1, es claro que este número tiene el doble de opción
de ocurrir que otros, sin embargo al ser cinco los elementos de Ω, la definición clásica le
asigna una probabilidad de 1/5 y no de 2/6 = 1/3 como debiera ser.

Si bien los eventos son subconjuntos del espacio muestral Ω, muchas veces resulta poco conve-
niente el escribirlos como tales, es decir por extensión. Otra alternativa es escribirlos por compren-
sión, citándolos textualmente entre comillas. Por citar, si consideramos el experimento aleatorio
de seleccionar al azar una carta de una baraja sin comodines, su espacio muestral Ω está confor-
mada por las 52 cartas en ella y el evento que se obtenga una carta de tréboles podrı́a escribirse
tanto como A = “Se seleccionó una carta de tréboles” o como

A = {2♣, 3♣, 4♣, 5♣, 6♣, 7♣, 8♣, 9♣, 10♣, J♣, Q♣, K♣, A♣}.

Aquı́ naturalmente no es difı́cil representar al evento A por extensión, pero existen situaciones
en que ello es complicado por la ingente cantidad de posibles resultados que el evento pudisese
tener. Por ejemplo, si consideramos el experimento aleatorio más complejo de extraer al azar 5
cartas de la baraja y el evento A = “Obtener exactamente un par”, la representación de este evento
por extensión es harta demandante (véase el ejemplo 1.20 al respecto).

Ejemplo 1.4. Si una persona contesta al azar una pregunta de opción múltiple con cinco opciones de
respuesta, digamos a, b, c, d y e, el espacio muestral será Ω = {a, b, c, d, e}. Si a es la opción correcta, el
n(A)
evento A=“La persona acierta” = {a} tendrá una probabilidad igual a P (A) = n(Ω) = 51 = 0.20; mientras
n(B) 4
que para el evento B = “No acierta” = {b, c, d, e}, se tiene que P (B) = n(Ω)
= 5 = 0.8.

Ejemplo 1.5. Si una persona contesta al azar dos preguntas de opción múltiple con cinco opciones de
respuesta cada una, digamos a1 , b1 , c1 , d1 , e1 para la primera pregunta y a2 , b2 , c2 , d2 , e2 para la segunda,
entonces Ω = {(x, y) / x = a1 , b1 , c1 , d1 , e1 e y = a2 , b2 , c2 , d2 , e2 }. Si a1 es la opción correcta para la primera
pregunta y c2 la opción correcta para la segunda, entonces para el evento A=“La persona acierta en todo”
n(A) 1
= {a1 , c2 } se tiene que n(Ω) = 5 × 5 = 25 y n(A) = 1. Luego P (A) = n(Ω) = 25 = 0.04.

Ejemplo 1.6. A mediodı́a, en un restaurante solo quedan dos menús y los clientes a, b y c llegan en
orden aleatorio al local, cada uno por su cuenta y decididos a consumir un menú si hubiera o en caso
contrario un plato a la carta. El interés en este caso es el tipo de consumo de cada cliente. Aquı́ una
manera de representar todos los consumos posibles puede ser Ω = {(x1 , x2 , x3 ) ∈ {a, b, c} / xi , xj , ∀i , j}
y n(Ω) = 3 × 2 × 1 = 6, pues midiéndose la cantidad de órdenes en que pueden llegar los 3 comensales
al local se podrá determinar sus consumos ya que el tercero no encontrará menú y tendrá que pedir a la
carta: cualquiera entre a, b ó c puede ser el primero, y en este contexto el segundo puede ser cualquiera
de los dos restantes y una vez asignado como segundo, el restante solo puede ocupar el tercer lugar. En
este contexto, el evento A = “ a tiene que pedir a la carta” tiene n (A) = 2 × 1 × 1 = 2 elementos pues
primero podrı́an llegar b o c, segundo el restante que no haya sido primero y al comensal a le quedará
pedir a la carta. Por tanto, P (A) = 62 = 13 = 0.33.
Facultad de Ciencias Sociales PUCP 11

Definición Frecuencial de Probabilidad (o de Von Mises)


Si un experimento aleatorio  se repite n veces y el evento A ocurre en nA de esas veces, la proba-
bilidad de A, denotada por P (A) es
n
P (A) = lı́m A .
n→∞ n

Observaciones:

Esta definición es estadı́stica y según ella, la probabilidad es el lı́mite de una frecuencia


relativa. En este caso, el punto de vista de la probabilidad es actuarial.

Es difı́cil de aplicar, pues implica repetir el experimento aleatorio un número grande de


veces para poder bien aproximar la probabilidad. Basada en la regularidad estadı́stica de los
resultados asociados al experimento, es útil para interpretar la probabilidad pero no para
investigar sus propiedades.

Ejemplo 1.7. Si la distribución del número de trabajadores (“tamaño de la empresa) en las 80 empresas
de metalmecánica de un distrito es:

Tamaño Frecuencia Porcentaje


0-4 30 38
4-8 20 25
8 - 12 15 19
12 - 16 10 13
16 - 20 5 6
Total 80 100

y se selecciona al azar a una de estas empresas metalmecánicas, entonces la probabilidad de A=“La


empresa tiene entre 4 y 8 trabajadores” es P (A) = nnA = 20
80 = 0.25.

Note que en cualquiera de las definiciones de probabilidad hasta el momento dadas se cumple
que 0 ≤ P (A) ≤ 1, P (Ω) = 1 y P (∅) = 0.
Definición Axiomática (o de Kolmogorov)
Sea Ω un espacio muestral asociado a un experimento aleatorio  y sea F una σ -álgebra de eventos
definida sobre Ω. Una probabilidad P es cualquier función P : F → R que a cada evento A le
asigna un número real, denotado por P (A) y llamado probabilidad de A, de modo que se satisface
los siguientes axiomas:

(P1) P (A) ≥ 0.

(P2) P (Ω) = 1.

(P3) Si A1 , A2 , A3 , . . . es una sucesión de eventos mutuamente excluyentes, esto es,


Ai ∩ Ak = ∅, ∀i , k, entonces
[∞ ∞
X
P ( Ai ) = P (An ).
n=1 n=1
12 ÍNDICE GENERAL

Observaciones:

Esta definición, a diferencia de las anteriores, es “no constructiva”, o sea, no dice cómo cal-
cular la probabilidad sino que solo indica los requisitos que debe satisfacer una asignación
de probabilidades a eventos para ser considerada “correcta”, en el sentido de estar libre de
contradicciones lógicas.

Según esta definición, es posible hacer diferentes asignaciones de probabilidades sobre


un mismo conjunto de eventos y si se cumplen los tres axiomas, todas las asignaciones
son formalmente correctas. Esta posición, que a primera vista parece un contrasentido, con-
vierte en realidad a la probabilidad en una poderosa herramienta de investigación de proce-
sos no determinı́sticos: Dado un proceso, es posible elaborar diferentes teorı́as explicativas
para el mismo y cada una inducirá una asignación de probabilidades. Al efectuar el expe-
rimento aleatorio, el resultado que se presente será contradictorio con algunas asignaciones
y confirmatorio de otras. Como las asignaciones están libres de contradicciones lógicas, el
no ajuste del resultado del experimento no se debe a la matemática usada, sino que tiene
base real. Por tanto, aquellas asignaciones no ratificadas por los datos empı́ricos pueden ser
descartadas y con ellas, las teorı́as que les sirvieron de base.

Una de las ventajas de la definición axiomática, es que ella nos permitirá deducir propiedades
generales que toda asignación de probabilidades deberı́a de cumplir. Algunas de estas propieda-
des básicas se ilustran en la siguiente proposición.

Proposición 1.2. Dados dos eventos A y B cualesquieras se cumplen

1. P (∅) = 0.

2. P (Ac ) = 1 − P (A).

3. P (A ∪ B) = P (A) + P (B) − P (A ∩ B).

4. P (B − A) = P (B) − P (B ∩ A).

5. Si A ⊆ B , entonces P (A) ≤ P (B).

6. 0 ≤ P (A) ≤ 1.

Demostración: 1.-Definamos la sucesión de eventos {An , n = 1, 2, 3...}, donde An = ∅, ∀n . Entonces es



claro que ∪ An = ∅ y por tanto
n=1

[
P( An ) = P (∅)
n=1

El axioma (P3) implica entonces que



[ ∞
X
P( An ) = P (An ) = P (∅)
n=1 n=1
Facultad de Ciencias Sociales PUCP 13

o equivalentemente:
P (∅) + P (∅) + ... + P (∅) = P (∅)

Obviamente el único número real que satisface esta ecuación es 0, esto es P (∅) = 0.
2. Como A ∪ Ac = Ω , siendo A y Ac mutuamente excluyentes, (P2) y (P3) implican que

P (A ∪ Ac ) = P (A) + P (Ac ) = P (Ω) = 1

o equivalentemente P (Ac ) = 1 − P (A).


3. Como en general B = B ∩ Ω y Ω = A ∪ Ac , se tiene que B = (B ∩ A) ∪ (B ∩ Ac ) y A ∪ B = A ∪ (B ∩ Ac ).
Aplicando (P3):
P (B) = P (B ∩ A) + P (B ∩ Ac )

o equivalentemente: P (B ∩ Ac ) = P (B) − P (B ∩ A). También: P (A ∪ B) = P (A) + P (B ∩ Ac ) y reemplazando


P (B ∩ Ac ) por P (B) − P (B ∩ A), llegamos a que:

P (A ∪ B) = P (A) + P (B) − P (A ∩ B)

4. Dado que P (B ∩ Ac ) = P (B − A), esto ya fué probado en el punto anterior.


5. Como A ⊆ B, es claro que B ∩ A = A. Luego, P (B ∩ Ac ) = P (B) − P (A). Como toda probabilidad, según
el axioma (P1) es no negativa, se tiene en particular que:

P (B ∩ Ac ) = P (B) − P (A) ≥ 0

y ası́ P (A) ≤ P (B).


6. Es consecuencia directa del hecho que

∅⊆A⊆B⊆Ω

y la aplicación de las propiedades anteriores. 

La propiedad sobre la probabilidad de la unión de dos eventos puede extenderse a más eventos.
Además tenemos otras interesantes propiedades relacionadas a las probabilidades de una sucesión
de eventos.

Proposición 1.3.

1. Si A1 , A2 , . . . , AN es una sucesión de N eventos mutuamente excluyentes:

N
[ N
X
P( An ) = P (An ).
n=1 n=1

2. Si A1 , A2 , . . . , AN es cualquier sucesión de N eventos:

N
[ N
X N
X N
X N
\
P( An ) = P (An ) − P (An ∩ Am ) + P (An ∩ Am ∩ Ap ) − . . . + (−1)N +1 P ( An ).
n=1 n=1 n<m n<m<p n=1
14 ÍNDICE GENERAL

3. Desigualdad de Bonferroni: Si A1 , A2 , . . . , AN es cualquier sucesión de N eventos:

N
\ N
X
P( An ) ≥ P (An ) − (N − 1).
n=1 n=1

4. Propiedad σ −subaditiva: Si A1 , A2 , . . . es cualquier sucesión numerable de eventos



[ ∞
X
P( An ) ≤ P (An ).
n=1 n=1

5. Propiedad de continuidad: Si A1 , A2 , ... es cualquier sucesión numerable de eventos tales que A1 ⊆



S
A2 ⊆ ... y se define A = An , entonces
n=1

P (A) = lı́m P (An ).


n→∞

Demostración: 1. Basta completar la sucesión finita de modo que sea equivalente a una sucesión infinita
y aplicar el tercer axioma (P3) y la propiedad 1. Ello se hace definiendo Aj = ∅, ∀j ≥ N +1, de tal manera
N
S S∞
que An = An . Por tanto:
n=1 n=1

N
[ ∞
[ ∞
X N
X ∞
X N
X
P ( Aj ) = P ( Ai ) = P (Aj ) = P (Aj ) + P (Aj ) = P (An ),
j=1 j=1 j=1 j=1 j=N +1 n=1

donde la última igualdad se sigue de la propiedad 1 en la proposición 1.2.


2. La prueba puede hacerse por inducción. Esta propiedad es trivialmente válida para N = 1 y también
válida, por la propiedad 2 de la proposición 1.2, para N = 2. Supongamos que ella es válida para N .
Resta probar que es válida para N + 1. En efecto, como

N
[ +1 N
[ N
[ N
[ N
X N
X
P( An ) = P ( An ∪ AN +1 ) = P ( An ) + P (AN +1 ) − P ( An ∩ AN +1 ) = P (An ) − P (An ∩ Am )
n=1 n=1 n=1 n=1 n=1 n<m

N
X N
\ N
[
+ P (An ∩ Am ∩ Ap ) − . . . + (−1)N +1 P ( An ) + P (AN +1 ) − P ( An ∩ AN +1 ),
n<m<p n=1 n=1

un desarrollo del último término via la hipótesis inductiva para la unión de los eventos An ∩AN +1 deriva
en
[N [N XN N
X
P ( An ∩ AN +1 ) = P ( (An ∩ AN +1 )) = P (An ∩ AN +1 ) − P (An ∩ Am ∩ AN +1 )
n=1 n=1 n=1 n<m

N
X N
\ +1
+ P (An ∩ Am ∩ Ap ∩ AN +1 ) − . . . + (−1)N +1 P ( An ).
n<m<p n=1
Facultad de Ciencias Sociales PUCP 15

Reemplazando este último término en la ecuación anterior y juntando convenientemete los términos con
un igual número de intersecciones de eventos
N
[ +1 N
X +1 N
X +1 N
X +1 N
\ +1
N +2
P( An ) = P (An ) − P (An ∩ Am ) + P (An ∩ Am ∩ Ap ) − . . . + (−1) P( An )
n=1 n=1 n<m n<m<p n=1

y ası́ se satisface la propiedad para N + 1.


3. Procederemos también por inducción. Claramente la proposición es válida para N = 1. Supongamos
ahora que esta es válida para N . Resta probar que lo es también para N + 1. En efecto,
N
\ +1 N
\ N
[
P( An ) = P ( An ∩ AN +1 ) = 1 − P ( Acn ∪ AcN +1 )
n=1 n=1 n=1

N
[ [N \N N\+1
c c c c c
= 1 − P ( An ) − P (AN +1 ) + P ( An ∩ AN +1 ) = P ( An ) − P (AN +1 ) + 1 − P ( An ∪ AN +1 )
n=1 n=1 n=1 n=1
N
X N
X +1
≥ P (An ) − (N − 1) + P (AN +1 ) − 1 = P (An ) − N ,
n=1 n=1

donde la desigualdad última se justifica porque el último término en la penúltima linea es acotado por 1.

S
4. Se sigue de expresear la unión An por una unión disjunta de la forma
n=1


[
An = A1 ∪ (A2 − A1 ) ∪ (A3 − (A1 ∪ A2 )) ∪ (A4 − (A1 ∪ A2 ∪ A3 )) ∪ . . .
n=1


S P∞ n−1
S
Luego por (P3), P ( An ) = n=1 P (An − ( Aj )), donde la última intersección se sobreentiende vacı́a
n=1 j=1
para n = 1. De otro lado, por la propiedad de monotonı́a 5 en la proposición 1.2, se tiene que P (An −
n−1
S
( Aj )) ≤ P (An ), ∀n y consecuentemente substituyendo esta desigualdad arriba se cumplirá 4.
j=1
5. Al igual que en 4., podrı́amos representar el evento A = ∞
S S∞
n=1 An como A = n=1 Bn , donde los Bn =
An − An−1 son eventos disjuntos que satisfacen que P (Bn ) = P (An ) − P (An−1 ) y en donde A0 se sobreen-
PN PN
tiende que es el conjunto vacı́o. Por tanto, P (A) = ∞
P
n=1 P (Bn ) = lı́m n=1 P (Bn ) = lı́m n=1 (P (An ) −
N →∞ N →∞
P (An−1 )) = lı́m P (AN ). 
N →∞

La proposición anterior permite asegurar que en relación a la propiedad de inclusión de even-


tos, la probabilidad mide la “propensión a ocurrir” al menos a nivel ordinal, donde el vacı́o ∅
ocupa el menor puesto y el espacio Ω tiene la mayor jerarquı́a, correspondiéndole a otros eventos
los puestos intermedios. Sin embargo, debemos notar que existen casos donde hay eventos que
reciben probabilidad 0 y son distintos del vacı́o. Por ejemplo, si lanzamos un dardo al azar sobre
un blanco circular y medimos la probabilidad de que el dardo caiga en una región, como el co-
ciente del área de la región sobre el área del cı́rculo, muchos eventos tendrán probabilidad obvia
y razonable con esta medida. Ası́ por ejemplo, para el evento A definido como: “El dardo cae en
16 ÍNDICE GENERAL

el semicı́rculo inferior”, la asignación de probabilidades definida antes, le dará a una probabili-


dad de 1/2 o 0.5, i.e. P(A) = 0.5, algo que está de acuerdo con nuestra intuición. Sin embargo, si
definimos el evento B como: “El dardo cae exactamente en el centro del blanco”, resulta que como
el área de un punto es 0, la asignación de probabilidades le dará a este evento una probabilidad
también 0 o sea P(B)= 0. Ası́ tenemos el caso curioso de un evento perfectamente factible pero de
probabilidad nula. La explicación intuitiva es que la probabilidad mide la opción de ocurrencia
entendida como nuestro grado de incertidumbre con respecto a los eventos, y esta incertidumbre
está asociada al conocimiento que poseamos de los mismos. Ahora bien, en relación al evento B,
materialmente es imposible que sepamos exactamente si ocurrió o no el evento, pues nuestros
medios fı́sicos de verificación tienen un lı́mite en su precisión. Nunca podremos estar seguros de
si el dardo cayó en el centro o si cayó a una millonésima de milı́metro del centro. La probabilidad
cero refleja este estado de información.
En verdad, la aparente paradoja es irrelevante, porque si bien el blanco circular es un objeto mate-
rial, de existencia cierta a nuestros sentidos, su “centro” es una abstracción, una región ideal. Por
tanto no debemos preocuparnos y solo nos queda tomar nota de esta sutil diferencia entre lo “im-
probable” y lo “imposible”, y confortarnos con el hecho de tener una herramienta de propiedades
conocidas para trabajar en contextos de incertidumbre.

Ejemplo 1.8. Un consumidor encuentra dos productores w1 y w2 , que le ofrecen el mismo bien al mismo
precio. El consumidor puede comprar a w1 con probabilidad “p” o a w2 con probabilidad “q”. ¿Cuáles
de los siguientes valores de p y q son formalmente correctos?

a) p = q = 1/2

b) p = 2/3 y q = 1/3

c) p = 2/8 y q = 4/5

Solución: Sea Ω el espacio muestral dado por Ω = {w1 , w2 }. Entonces Ω = {w1 }∪{w2 } y naturalmente 1 =
P (Ω) = P ({w1 , w2 }) = P ({w1 }∪{w2 }) = P ({w1 })+P ({w2 }) = p+q es una igualdad que debe cumplirse para
que la asignación de probabilidades sea correcta (en el sentido de Kolmogorov). Por tanto, verificando
cada caso:
En a) p + q = 1/2 + 1/2 = 1 ⇒ Asignación correcta
En b) p + q = 2/3 + 1/3 = 1 ⇒ Asignación correcta
En c) p + q = 2/8 + 4/5 = 21/20 > 1, lo que es una contradicción. Esta asignación no es correcta.
Nótese que tanto las asignaciones a) como b) son matemáticamente correctas y sin embargo la intuición
dice que la primera es más compatible con la realidad. Esta última idea solo es verificable con datos,
con “evidencia empı́rica”. Dicho sea de paso, el investigador no debe escatimar esfuerzos para obtener
toda la información relevante sobre el proceso que pretende explicar, y debe asignar probabilidades de
acuerdo a esa información. Los cambios pueden ser notables. Por ejemplo, si supiéramos que w1 gasta en
propaganda el doble que w2 y asumimos que esto afecta las preferencias del consumidor de modo que la
probabilidad es directamente proporcional a la propaganda, entonces p = αG(w1 ) y q = αG(w2 ), donde
G(wi ) es el gasto del productor i, siendo α la constante de proporcionalidad. Como G(w1 ) = 2G(w2 ), es
fácil ver que, en este caso, p = 2/3 y q = 1/3 serı́a la asignación correcta.
Facultad de Ciencias Sociales PUCP 17

Ejemplo 1.9. El precio p de un bien agrı́cola puede ser de 1, 2, 3 o 4 unidades monetarias y la cantidad
demandada q de este bien responde al precio de modo que q = 5 – p. Un cambio climático origina una
caı́da en la producción del bien de modo que la probabilidad de que el precio tome un valor p resulta
directamente proporcional a p. En este contexto, explicite el espacio muestral Ω asociado a observar las
parejas de precios y cantidades posibles en el mercado de este bien, halle la distribución de probabilidades
en Ω y diga si la cantidad demandada tomará su mı́nimo valor posible.
Solución: Ω = {(p, q) / q = 5 − p, p = 1, 2, 3, 4} y por dato P (p = k) = αk, k = 1, 2, 3, 4, siendo k la
constante de proporcionalidad. Como 4k=1 P (p = k) = 1 ⇒ α + 2α + 3α + 4α = 1 ⇒ 10α = 1 ⇒ α = 10 1
P

y la distribución de probabilidades en Ω es:

(p, q) (1,4) (2,3) (3,2) (4,1)


P (p, q) 1/10 2/10 3/10 4/10
4
Finalmente, P (La cantidad demandada toma su valor mı́nimo) = P (4, 1) = 10 = 0.4.

Ejemplo 1.10. Un dado está “cargado”, de modo que al lanzarlo y observar la cara que muestra en su
lado superior, cada número tiene una opción de presentarse directamente proporcional a dicho número.

a) Halle una distribución de probabilidades compatible con esta información.

b) Halle la probabilidad de que al lanzar el dado ocurra un número par.

c) Halle la probabilidad de que al lanzar el dado ocurra un número primo.

Solución: a) Se tiene que Ω = {1, 2, 3, 4, 5, 6} y que P ({k}) = αk, para k = 1, 2, ..., 6, siendo α > 0 una
constante de proporcionalidad. Además como Ω = {1} ∪ {2} ∪ {3} ∪ {4} ∪ {5} ∪ {6}, aplicando el axioma 2
y sucesivas veces el axioma 3 se tiene:
S S S S S
P (Ω) = P ({1} {2} {3} {4} {5} {6}) =1⇔P ({1}) + P ({2}) + P ({3}) + P ({4}) + P ({5}) + P ({6}) = 1 ⇔
α + 2α + 3α + ... + 6α = 6j=1 kα = 1 ⇔ 1 = 21α. Despejando se obtiene α = 1/21 y la asignación o
P

distribución de probabilidades es:

P ({k}) = k/21, para k = 1, 2, ..., 6


b) Si A denota el evento “El número es par”, entonces A = {2, 4, 6} y se tiene P (A) = P ({2, 4, 6}) =
2 4 6
P ({2}) + P ({4}) + P ({6}) = 21 + 21 + 21 = 12
21 .
1 2
c) Análogamente a b), sea B es el evento pedido, entonces B = {1, 2, 3, 5} y se cumple que P (B) = 21 + 21 +
3 5 11
21 + 21 = 21 .

Observación: Note que escribimos P ({k}) y no P (k) porque la probabilidad está definida sobre
eventos o conjuntos y no sobre elementos. Por eso, siempre debiéramos escribir P ({ω}) para deno-
tar la probabilidad de un elemento ω de Ω; sin embargo, para no recargar la notación, podemos
tomarnos la licencia de usar P (ω) siempre y cuando esto no produzca confusión.

Ejemplo 1.11. Un bien puede costar 1 o 2 unidades monetarias y un consumidor puede comprar 1,2 o
3 unidades del bien. Sabiendo que todas las parejas de precios y cantidades (p, q) son posibles y que en
general la probabilidad P (p, q) es directamente proporcional a la razón (q/p): P (p, q) = α(q/p).
18 ÍNDICE GENERAL

a) Describa el espacio muestral Ω asociado a este experimento y halle α.

b) Identifique el evento A = “El gasto del consumidor es de 2 u.m” y calcule su probabilidad.

c) Identifique el evento B = “El consumidor adquiere 2 unidades del bien” y calcule su probabilidad.

d) Halle la probabilidad de A ∪ B.

e) El consumidor tiene un ingreso de 6 u.m, ¿pronosticarı́a Ud. que gastará todo en el bien?
Solución: a) El conjunto de todas las parejas (p, q) posibles es Ω y podemos explicitarla como
2 [
[ 3
Ω = {(p, q) / p = 1, 2; q = 1, 2, 3} = {(p, q)}.
p=1 q=1

Como P (Ω) = 1 y también


2 [
[ 3 2 X
X 3 2 X
X 3 2 X
X 3
P (Ω) = P ( {(p, q)}) = P (p, q) = α(q/p) = α (q/p),
p=1 q=1 p=1 q=1 p=1 q=1 p=1 q=1

tenemos que 1 = α 2p=1 3q=1 (q/p) = α 2p=1 (1 + 2 + 3)/p = α6(1 + 21 )) = 9α; esto es, α = 19 .
P P P

b) A = {(p, q) ∈ Ω / pq = 2} = {(1, 2), (2, 1)} y P (A) = P (1, 2) + P (2, 1) = 19 × 21 + 19 × 12 = 18


5
.
1 2 1 2 6
c) B = {(p, q) ∈ Ω / q = 2} = {(1, 2), (2, 2)} y P (B) = P (1, 2) + P (2, 2) = 9 × 1 + 9 × 2 = 18 .
5 6 4 7
d) P (A ∪ B) = P (A) + P (B) − P (A ∩ B) = 18 + 18 − 18 = 18 .
e) Con seis u.m. de ingreso, solo hay un caso en que se gasta todo, que es cuando el consumidor se sitúa
en el punto (2,3). La probabilidad de que esto ocurra es P (2, 3) = 91 × 32 = 16 = 0.17 o 17 %, que está más
cerca de 0 que de 1, esto es, no pronosticarı́amos la ocurrencia de este evento.
Ejemplo 1.12. Se lanza un dado que está cargado de modo que cada número tiene el doble de probabi-
lidad del que lo antecede. Explicite el espacio muestral Ω. Halle la distribución de probabilidades en Ω
y la probabilidad de que salga el 1 o el 6. Si al lanzar un dado ocurre que salió el 6 y usted sabe que el
dado o es normal o está cargado como se describió al inicio ¿Se habrı́a lanzado el dado cargado?
Solución: El espacio muestral es Ω = {1, 2, 3, 4, 5, 6} y la asignación de probabilidades, de acuerdo al
enunciado, debe satisfacer la condición: P ({2}) = 2P ({1}), P ({3}) = 2P ({2}), . . .. Asi, si denotamos por
a = P ({1}), la “distribución de probabilidades en Ω” viene dada por:

Evento {1} {2} {3} {4} {5} {6} Ω


Probabilidad a 2a 4a 8a 16a 32a 1
1
Como P (Ω) = 1, a + 2a + 4a + 8a + 16a + 32a = 1 y a = 63 . Ası́, la distribución anterior es igual a

Evento 1 2 3 4 5 6
Probabilidad 1/63 2/63 4/63 8/63 16/63 32/63

En el contexto anterior, si A= “Sale 1 o 6 puntos”, entonces A = {1, 6} y P (A) = P ({1}) + P ({6}) =


33/63 = 0.52. Finalmente, en relación con la última pregunta: es más probable o verosı́mil que se
trate de un dado cargado, pues con el dado normal P ({6})=1/6=0.17 < 0.5 y con el dado cargado
P({6})=32/63=0.51 > 0.5.
Facultad de Ciencias Sociales PUCP 19

1.4. Casos especiales de asignación de probabilidades


Examinaremos ahora algunas formas de asignación de probabilidades que siendo compatibles
con el sistema de Kolmogorov, serán de utilidad en el futuro.

1.4.1. Probabilidad geométrica


Sea un experimento aleatorio  consistente en tomar un punto al azar de un conjunto geométri-
co Ω que tiene una medida finita m(Ω) y sea A un evento del espacio muestral resultante. Si m(A)
denota la medida de este evento, entonces la probabilidad de A es:
m(A)
P (A) = .
m(Ω)
Observaciones:

Si Ω es un intervalo, la “medida” m es la longitud; si Ω es una región de R2 donde está


definida un área, la “medida” es el área.

Se trata de una extensión de la definición clásica, que aparece en situaciones especiales,


como lanzar un dardo sobre un blanco o tomar un punto al azar de un segmento.

Ejemplo 1.13. Dos proveedores se han presentado a un concurso de precios. Del proveedor A se sabe
que puede ofrecer el bien a un precio que estará indistintamente entre 1 y 10 dólares; del proveedor B se
sabe que su precio podrı́a estar indistintamente entre 1 y 5 dólares. Sin más información y asumiendo
un experimento aleatorio:

a) Describa el espacio muestral Ω asociado al experimento.

b) Calcule la probabilidad de que A resulte ganador.

c) Calcule la probabilidad de que el precio ganador no pase de US$ 3.

d) ¿Esperarı́a Ud. que A superara a B en dos o más dólares?

Solución: a) El experimento consiste en observar los precios ofrecidos por A y B. De este modo, si x =
precio ofrecido por A e y = precio ofrecido por B, entonces el espacio muestral vendrá dado por Ω =
{(x, y) / 1 ≤ x ≤ 10 e 1 ≤ y ≤ 5}. Geométricamente Ω es un rectángulo en el plano cartesiano, esto es,
Ω tiene área. Por tanto, la probabilidad de un evento E se puede definir como cociente de áreas y ası́
Area(E)
tenemos: P (E) = Area(Ω) .
b) Sea A = “A resulta ganador”, entonces A = {(x, y) ∈ Ω / x < y}, pues como se trata de proveedores, gana
quien ofrece menor precio. Graficando A, resulta ser la parte de Ω que está arriba de la recta identidad
y = x, lo cual se ilustra en la figura 1.5. El área de Ω es Area = base × altura = (10 − 1) × (5 − 1) = 36;
A es un triángulo y tiene área Area = base × altura/2 = (5 − 1) × (5 − 1)/2 = 8. La probabilidad de A es
Area(A) (4×4/2) 8
entonces:P (A) = Area(Ω) = 9×4 = 36 =0.22.
c) Si C =“El precio ganador no pasa de US$3 ⇒ C = {(x, y) ∈ Ω / mı́n{x, y} ≤ 3} y P (C) = 1 − P (C c ).
Como C c = {(x, y) ∈ Ω / mı́n{x, y} > 3} = {(x, y) ∈ Ω / (x > 3) ∩ (y > 3)} (vea la figura 1.6), tenemos que
P (C c ) = 14/36 = 0.39 y P (C) =0.6.
20 ÍNDICE GENERAL

12
11
10
9
8 y=x
7
6
y

5
4 A
3
2
1
0
0
1
2
3
4
5
6
7
8
9
10
11
12
x

Figura 1.5: Evento A en el espacio muestral Ω que está representado por el rectángulo dado

12
11
10
9
8
7
6
y

5
4 Cc
3
2
1
0
0
1
2
3
4
5
6
7
8
9
10
11
12
x

Figura 1.6: Complemento del evento C en el espacio muestral Ω

10
9
8 y=x−2
7
6
5
4
y

3 D
2
1
0
0
1
2
3
4
5
6
7
8
9
10
11
12

Figura 1.7: Evento D en el espacio muestral Ω


Facultad de Ciencias Sociales PUCP 21

d) Si D =“A supera a B en dos o más dólares”, entonces D = {(x, y) ∈ Ω / y + 2 ≤ x}, pues en el caso de
la igualdad exacta (A supera a B en dos dólares) esta equivale a decir que a y tendrı́amos que sumarle 2
para que alcance a x, esto es y + 2 = x, y en la desigualdad x excede a y en más de 2. Graficando, como se
ve en la figura 1.7, D es el trapecio dibujado abajo. Descomponiendo D en un triángulo y un rectángulo
y calculando áreas tenemos que P (D) = 20/36 = 0.56 > 0.5, luego, podemos esperar que el evento D sı́
ocurrirá.

1.4.2. Probabilidad en espacios numerables


Sea Ω = {w1 , w2 , ..., wk , ...} un espacio muestral infinito numerable. Una asignación de probabi-
lidades compatible con los axiomas es una asignación de la forma:
P ({wk }) = pk , ∀k = 1, 2, ...
P∞
donde pk ≥ 0 y k=1 pk = 1.
Ejemplo 1.14. Si en la definición anterior pk = r k establezca condiciones sobre r para que la asignación
de probabilidades sea correcta en el sentido de Kolmogorov.
Solución: Como pk = r k ≥ 0, r ≥ 0. Por otra parte k pk = ∞ r k = 1 y nuestro problema es calcular la
P P
Pk=1
suma infinita k=1 r , la cual podemos escribir como lı́m k=1 r k . El cálculo de la suma finita N
N
P∞ k P k
N →∞ k=1 r
PN k
es algo estándar. En efecto, si SN := k=1 r y multiplicamos esta expresión por r obtenemos rSN =
r 2 + r 3 + r 4 + . . . + r N + r N +1 . Restando llegamos a que
SN − rSN = (r + r 2 + r 3 + . . . + r N −1 + r N ) − (r 2 + r 3 + r 4 + . . . + r N + r N +1 ) = r − r N +1
y por tanto SN = (r − r N +1 )/(1 − r) (lo que de paso nos da una nueva restricción: r , 1 y por tanto
0 < r < 1). De la condición ∞ k N +1 )/(1 − r) = r/(1 − r)
P
k=1 r = 1, se obtiene que 1 = lı́m SN = lı́m (r − r
N →∞ N →∞
(pues lı́m r N +1 = 0). Llegamos ası́ a que r/(1 − r) = 1 y el valor pedido es r = 1/2.
N →∞
r−r N +1
Nota: Serie geométrica: En general se cumple que si r , 1, N
P k PN k
k=1 r = 1−r y también k=0 r =
1−r N +1 P∞
1−r . Estas series son convergentes para r ∈] − 1, 1[ y sus lı́mites vienen dados por k=1 r k =
r P ∞ k 1
1−r y por k=0 r = 1−r . Note que considerando la segunda como función diferenciable de r:
   2
d P∞ k = d 1 d −1 1
dr k=0 r dr 1−r = dr (1 − r) = 1−r y bajo el supuesto de “convergencia absoluta” (o sea
P∞ k
d
k=0 r < ∞, que aquı́ sı́ se cumple) , el “operador derivada” dr puede entrar (o distribuirse) en
 2
d P ∞ k P ∞ d k P ∞ k−1 . Por tanto, P∞ kr k−1 = 1
la sumatoria infinita como dr k=0 r = k=1 dr r = k=1 kr k=1 1−r que
es otra identidad que junto con las otras dos, es de muchas aplicaciones en Estadı́stica, Finanzas y
Economı́a.

1.5. Probabilidad clásica y técnicas de conteo


La definición clásica requiere que podamos contar la cantidad de elementos que tienen tanto
el espacio muestral como el evento A cuya probabilidad queremos calcular. Para hacer esto, la
enumeración o conteo directo es por lo general un sistema ineficiente y por ello pasaremos revista
a ciertas técnicas de conteo rápidas.
Dos Principios básicos:
22 ÍNDICE GENERAL

Principio de la multiplicación
Si una “operación” A puede realizarse u ocurrir de a maneras diferentes y otra “operación”
B puede realizarse de b maneras diferentes, entonces la operación compuesta consistente en
realizar A primero y luego realizar B, se puede realizar de axb maneras distintas.

Principio de la adición
Si una “operación” A puede realizarse u ocurrir de a maneras diferentes y otra “operación”
B puede realizarse de b maneras diferentes, siendo ambas operaciones excluyentes, entonces
la operación compuesta A ó B consistente en realizar A o realizar B, pero no ambas, se puede
realizar de a+b maneras distintas.

Naturalmente, estos principios se extienden por inducción a más de dos operaciones.

1.5.1. Permutaciones y combinaciones


Consideremos ahora un conjunto L con n elementos y sea r un entero fijo, conocido y no mayor
que n.

Definición 1.2. Una permutación de tamaño r, formada a partir de los n elementos de L, es un “arreglo”
de r elementos de L donde se distingue o impone un orden entre ellos, sin repetición de elementos.

Definición 1.3. Una combinación de tamaño r, formada a partir de los n elementos de L, es un subcon-
junto de r elementos de L.

Ejemplo 1.15. Si L = {A, B, C, D} y tomamos r = 3 entonces algunas permutaciones de tamaño 3 son:


(A,B,C); (A,C,B); (A,C,D); (D,C,B). Nótese que hay más permutaciones (24 en total) y solo hemos escrito
cuatro de ellas. De otro lado, algunas combinaciones de tamaño 3 son: {A, B, C} y {A, C, D}. Note que hay
más combinaciones (4 en total) y solo hemos escrito dos de ellas. Observe además que de la combinación
{A, B, C} podemos formar seis permutaciones del mismo tamaño, con la misma composición pero con
diferentes órdenes. A saber: (A,B,C), (A,C,B), (C,A,B), (C,B,A), (B,A,C) y (B,C,A).

Observaciones:

Informalmente, una permutación es una “cola” u ordenación de objetos y una combinación


es una colección de objetos.

En las permutaciones importa el orden; en la combinaciones no importa el orden.

Definición 1.4 (Factorial de un número entero). Si n es un entero no negativo, el “factorial de n”


denotado por n! se define mediante n! = n × (n − 1) × (n − 2) × ... × 3 × 2 × 1. Como convención definiremos
0! = 1.

Proposición 1.4. En el contexto de las definiciones anteriores se cumple que el número total de permu-
taciones de tamaño r, al cual denotaremos por Prn , es:
n!
Prn = .
(n − r)!
Facultad de Ciencias Sociales PUCP 23

Demostración: Aplicando el principio de multiplicación y considerando cualquier permutación como una


“cola” compuesta de r elementos, podemos desagregar la operación de formar una permutación en r sub-
operaciones consistentes en asignar o “llenar” el primer lugar de la cola, luego el segundo, el tercero, etc.
Para el primer lugar tenemos n maneras o posibilidades, y llenado éste, para el segundo lugar tenemos (n-
1) maneras o posibilidades y luego, para el tercer lugar hay (n-2) maneras y ası́ sucesivamente. Aplicando
el principio de multiplicación, la operación conjunta de formar la cola se puede hacer de:

n (n − 1) (n − 2) ... (n − (r − 1)) × (n − r)! n!


n (n − 1) (n − 2) ... (n − (r − 1)) = =
(n − r)! (n − r)!
maneras. 

Proposición 1.5. En el contexto de las definiciones anteriores se cumple que el número total de combi-
naciones de tamaño r, al cual denotaremos por Crn , es:

n!
Crn = .
r!(n − r)!

Demostración: Notemos primero que si tomamos una combinación cualquiera de tamaño r, esta genera
r! permutaciones distintas de tamaño r. Esto implica que hay una proporcionalidad entre el número
total de permutaciones de tamaño r y el número total de combinaciones de tamaño r. En segundo lugar,
el conjunto total de combinaciones de tamaño r genera el conjunto total de permutaciones de tamaño r.
Entonces, para el número total de combinaciones podemos hacer una regla de tres simple:

1 Combinación → r! Permutaciones
Crn Combinaciones → Prn Permutaciones
Por tanto:

Crn = Prn r! = n! (n − r)!r!


 

n
Observación: El número Crn se suele también escribir por r y se llama “número combinatorio”.
Tiene algunas propiedades como:

Crn =Cn−r
n

n−1
Crn = Cr−1 +Crn−1

(a + b)n = nk=0 Ckn ak bn−k (Binomio de Newton)


P

Ejemplo 1.16. En una manzana hay 20 hogares, de los cuales 10 son de clase popular, 6 de clase media
y 4 de clase acomodada. En una encuesta se tomó al azar una muestra de 5 hogares de la manzana. Halle
la probabilidad de que:

a) En la muestra haya hogares de clase media.

b) En la muestra la mayorı́a de hogares resulte de clase popular.

c) En la muestra haya dos hogares de clase popular, dos de clase media y uno de clase acomodada.
24 ÍNDICE GENERAL

Solución: a) Se trata de un experimento en donde se toma un subconjunto (una muestra) de cinco hogares
del conjunto mayor L = {H1 , H2 , . . . , H20 } de veinte hogares de la manzana. El espacio muestral Ω es el
conjunto de todas las muestras posibles de tamaño 5 (o sea el conjunto de combinaciones de tamaño
r=5), pues solo importa identificar los hogares que debemos entrevistar y no el orden en que formemos la
muestra, no hay un orden especial. Además, como no tenemos razones para pensar que algunas muestras
de hogares tienen mayor opción de presentarse, podemos usar la definición clásica de probabilidad. Esto
es, el espacio muestral vendrá dado por: Ω = {{x1 , x2 , ..., x5 } / xi ∈ L y xi , xj ,si i , j} y n(Ω) = C520 . Si
A =“En la muestra hay hogares de clase media”, entonces el evento Ac =“En la muestra no hay hogares
de clase media” tiene n(Ac ) = C514 elementos, pues hay 10+4=14 hogares que no son de clase media y de
ellos debo tomar la muestra de 5 hogares. Ası́, P (A) = 1 − C514 /C520 .
b) Si el evento B =“La mayorı́a de hogares en la muestra son de clase popular” ocurre, ello equivale a que
en la muestra hay al menos tres hogares de ese estrato; por tanto n(B) = C310 ×C210 +C410 ×C110 +C510 ×C010
C310 ×C210 +C410 ×C110 +C510 ×C010
y se tiene que P (B) = C520
.
c) Sea C=“En la muestra hay dos hogares de clase popular, dos de clase media y uno de clase acomodada”,
entonces: Hay C210 maneras de tomar 2 hogares de clase popular;C26 maneras de tomar 2 hogares de
clase media y C14 maneras de tomar 2 hogares de clase popular. Por tanto, n(C) = C210 × C26 × C14 y
P (C) = C210 × C26 × C14 /C520 .

Ejemplo 1.17. Una secretaria despistada debe enviar 4 cartas a sus respectivos destinatarios, pero olvida
etiquetar las cartas por lo que el cartero las distribuye al azar.

a) Halle la probabilidad de que ninguna carta llegue a su verdadero destinatario.

b) Halle la probabilidad de que exactamente una carta le llegue a su verdadero destinatario.

Solución: a) El experimento aleatorio aquı́ consiste en observar que cartas, digamos a,b,c y d envia el
cartero a que destinatarios, digamos A,B,C y D. Ello genera el espacio muestral

Ω = {(x, X) /x ∈ {a, b, c, d} y X ∈ {A, B, C, D}},

el cual tiene por el principio de multiplicación 4 × 3 × 2 × 1 = 24 elementos equiprobables, pues hay 4


cartas que el cartero podrı́a enviar a A, hecho esto le quedarı́an 3 cartas que podrı́a enviar a B, luego 2
cartas para C y la última deberá ir a D. Si suponemos, sin pérdida de generalidad, que los verdaderos
destinatarios de a,b,c y d son respectivamente A,B,C y D, podrı́amos definir los eventos Ai =“La carta i
llega a su verdadero destinatario i” y el evento que las cartas sean repartidas en el orden correcto vendrá
dado por A1 ∩ A2 ∩ A3 ∩ A4 . Este evento y el de que 3 cartas lleguen a sus verdaderos destinatarios, por
1
ejemplo a A, B y C, tienen ambos la misma probabilidad que es de 24 . De otro lado el evento A1 ∩ A2
de que A y B reciban sus cartas correctas tiene por el principio de multiplicación y la aplicación de la
definición clásica la siguiente probabilidad P (A1 ∩ A2 ) = 1×1×2×1
24
1
= 12 . Note que no interesa aquı́ el par
de destinatarios elegidos, pues todos tienen la misma probabilidad. Finalmente la probabilidad de que
uno de ellos, digamos A, reciba la carta correcta es P (A1 ) = 1×3×2×1
24 = 16 . Aquı́ tampoco interesa de que
destinatario hablemos, todos tienen igual probabilidad. Dado que nos piden

P (Ac1 ∩ Ac2 ∩ Ac3 ∩ Ac4 ) = 1 − P (A1 ∪ A2 ∪ A3 ∪ A4 )


Facultad de Ciencias Sociales PUCP 25

tenemos, por la propiedad 2 de la proposición 1.3, que


4
[ 4
X 4
X 4
\
P( An ) = P (A1 ) + P (A2 ) + P (A3 ) + P (A4 ) − P (An ∩ Am ) + P (An ∩ Am ∩ Ap ) − P ( An )
n=1 n<m n<m<p n=1

1 1 1 1 1 1 1 1 19
= 4× + C24 × + C34 × − = 4× +6× +4× − =
24 12 24 24 24 12 24 24 24
19 5
y consecuentemente P (Ac1 ∩ Ac2 ∩ Ac3 ∩ Ac4 ) = 1 − 24 = 24 .
b) Se nos pide la probabilidad de que sólo uno de ellos reciba la carta corecta, es decir:

P ((A1 ∩ Ac2 ∩ Ac3 ∩ Ac4 ) ∪ (Ac1 ∩ A2 ∩ Ac3 ∩ Ac4 ) ∪ (Ac1 ∩ Ac2 ∩ A3 ∩ Ac4 ) ∪ (Ac1 ∩ Ac2 ∩ Ac3 ∩ A4 ))

= P (A1 ∩ Ac2 ∩ Ac3 ∩ Ac4 ) + P (Ac1 ∩ A2 ∩ Ac3 ∩ Ac4 ) + P (Ac1 ∩ Ac2 ∩ A3 ∩ Ac4 ) + P (Ac1 ∩ Ac2 ∩ Ac3 ∩ A4 )
1×2×1×1 2×1×1×1 2×1×1×1 2×1×1×1 1
= + + + = .
24 24 24 24 3
Note que aquı́ las probabilidades se suman pues se aplican sobre eventos disjuntos y para el último
cálculo las cuatro probablidades son las mismas. Por citar, para la primera que calcula la probabilidad
de que sólo A recibe una carta correcta hay una sola manera que el la reciba, luego dos maneras de que
B no reciba la carta correcta (recibe las de C o D) y luego una sola manera de que C reciba una carta
incorrecta (la de D) y una de que D reciba la carta incorrecta (la de C).

Ejemplo 1.18. Un sistema de seguridad posee un código de colores de 8 casillas, siendo las 2 primeras
blancas, las 3 siguientes negras y las 3 últimas rojas. Asuma que Ud. sabe la cantidad de colores pero
desconoce el código e intenta adivinarlo: ¿Cree que logrará hacerlo en un intento? Use probabilidades
para responder.
Solución: Aquı́ Ω es el conjunto de todos los códigos posibles conformados por dos letras o colores B, tres
N y tres R. Formar un código equivale a seleccionar lugares para las letras, dentro de los 8 que forman el
código:

Hay C28 maneras de seleccionar dos de los ocho lugares para colocar las 2 B.

Hay C36 maneras de seleccionar tres de los seis lugares restantes para colocar las 3 N.

Hay C33 maneras de seleccionar tres de los tres lugares restantes para colocar las 3 R.
1 1
Finalmente, por el principio de la multiplicación, n(Ω) = C28 C36 C33 y P (Acertar) = C28 C36 C33
= 560 =
0.0018 que es casi cero. Es realmente muy improbable que se logre adivinar la clave en un intento.

Ejemplo 1.19. En el mercado de un bien con 6 productores se sabe que hay al menos dos coaliciones y un
organismo de regulación se interesa por el estado del mercado. Halle la probabilidad de que el mercado
esté formado por dos coaliciones, cada una con tres empresas.
Solución: En este contexto, y sin ninguna otra información, el experimento aleatorio consiste en observar
el estado del mercado, que podrı́a ser como sigue:

Dos coaliciones de 2 empresas cada una y las otras empresas libres,


26 ÍNDICE GENERAL

Dos coaliciones, una de 2 empresas y la otra de 3, con la empresa restante libre,

Dos coaliciones, una de 2 empresas y la otra de 4,

Dos coaliciones, cada una con tres empresas, o finalmente,

Tres coaliciones, cada una con dos empresas.

El tamaño de Ω es entonces n(Ω) = C26 C24 + C26 C34 + C26 C44 + C36 C33 + C26 C24 C22 = 275 y nos interesa que
C36 C33 20
se haya dado la penúltima situación. Denotando por D a este evento, se tiene que P (D) = 275 = 275 =
0.07.

Ejemplo 1.20. ¿Cuál es la probabilidad de obtener exactamente un par en una primera mano de poker?

Figura 1.8: Ejemplo de un par en una primera mano de poker

Solución: Este es un problema relativamente complejo, por lo cual será importante descomponer la ope-
ración de selección en tareas más sencillas. Para empezar, el espacio muestra Ω está conformado por
todas las posibles manos (de 5 cartas) y tiene n(Ω) = C552 = 2 598 960 elementos. El evento de interés es
A = “Obtener exactamente un par”. Asumiendo que tenemos una baraja sin comodines, la operación en
mención la podrı́amos entonces subdividir en las siguientes tareas:

Tarea 1: Seleccionar el número para el par. Esto se puede hacer de n1 = 13 maneras.

Tarea 2: Seleccionar los palos para el par. Esto se puede hacer de n2 = C24 = 6 maneras.

Tarea 3: Seleccionar los otros números que acompañen al del par. Esto se puede hacer de n3 =
C312 = 220 maneras.

Tarea 4: Seleccionar los palos para los tres números de la tarea 3. Esto se puede hacer de n4 = 43
maneras.

Por tanto, utilizando la definición clásica de probabilidad y el principio de multiplicación, se tiene que

13 × 6 × 220 × 64
P (A) = = 0.422569.
2 598 960
Facultad de Ciencias Sociales PUCP 27

1.6. Probabilidad condicional e independencia


La probabilidad, como ya vimos, mide la propensión o tendencia a ocurrir que le asignamos
a un evento. Esta asignación inicialmente se hace partiendo de la información que proporciona
el experimento aleatorio que sirve de base. Sin embargo, pueden presentarse circunstancias que
pongan en nuestras manos información adicional y que aconsejen un reasignación de probabi-
lidades. Por ejemplo, si alguién lanza un dado normal y no lo vemos es natural pensar que la
probabilidad de que este obtenga 5 puntos es 1/6 ; pero si otra persona nos informa que el lan-
zador obtuvo un número par, entonces tendrı́amos que reasignar probabilidades indicando que
la probabilidad que obtenga 5 puntos es ahora 0, dada la nueva información. El proceso que está
debajo es simple: Inicialmente el espacio muestral es Ω = {1, 2, 3, 4, 5, 6} y si B denota el evento “Se
obtienen 5 puntos” y A denota el evento “El puntaje obtenido es par”, entonces B={5} y A={2,4,6}.
Ası́ P(B)=1/6, pues B tiene un solo elemento. Pero si sabemos que A se ha presentado, entonces
los únicos resultados posibles son 2 o 4 o 6: {2,4,6} y dentro de este nuevo espacio muestral, B no
tiene ningún elemento, por tanto, su nueva probabilidad debe ser cero.

1.6.1. Probabilidad Condicional


Dados dos eventos A y B, tales que P (A) > 0, definimos la probabilidad condicional de B dado
A, denotada por P (B|A), mediante:

P (B ∩ A)
P (B|A) = .
P (A)
Observaciones:
Si usamos la noción clásica de probabilidad, en donde ésta se mide como el cociente del
número de elementos de un evento sobre el número de elementos en el espacio muestral,
P (B∩A) n(B∩A)/n(Ω) n(B∩A)
tenemos: P (B|A) = P (A) = n(A)/n(Ω) = n(A) . Como se ve, P (B|A) es la probabilidad de
B cuando Ω se reduce al evento A. Esto puede usarse para distinguirla de la probabilidad
incondicional: Al hacer el cálculo, uno debe preguntarse sobre cuál conjunto se esta traba-
jando; si el cálculo o porcentaje se está haciendo sin ninguna restricción (o sea sobre Ω) la
probabilidad es incondicional. En cambio, si el universo se ha restringido, se trata de una
probabilidad condicional. Por lo anterior, a veces nos referiremos al evento A como evento
“condicionante”.

Observando el numerador del cociente en la definición, se encuentra la razón por la cual a


veces se confunde P (B|A) con P (B ∩ A): En ambos casos el numerador es el mismo. De nuevo,
la mejor manera de evitar la confusión es preguntarse por el universo sobre el cual se efectúa
el cálculo, si no es Ω sino otro evento (o sea A), se trata de una probabilidad condicional.
Ejemplo 1.21. En el ejemplo 1.15 de la encuesta de hogares, calcule la probabilidad de que en la muestra
esté presente la clase acomodada, dado que tres hogares de la muestra resultaron de clase popular.
Solución: Sean E = “En la muestra está presente la clase acomodada” y D = “Tres hogares de la muestra
resultaron de clase popular”, nos piden P (E|D).Como P (E|D)=1-P (E C |D) y tenemos n(D) = C310 × C210
C 10 C 6 C6 C6
y n(E C D) = C310 × C26 , entonces P (E C |D) = C 103 C 102 = C 102 y la probabilidad pedida es P (E|D) = 1 − C 102 .
T
3 2 2 2
28 ÍNDICE GENERAL

Es interesante observar que de la definición de probabilidad condicional, uno podrı́a despejar


la probabilidad de la intersección de los eventos A y B mediante:

P (A ∩ B) = P (B|A)P (A).

Nótese que si P (B) > 0, P (A|B) también está definida y podemos escribir:

P (A ∩ B) = P (A|B)P (B).

Esta propiedad puede generalizarse a más de dos eventos. Por ejemplo en el caso de tres, ella se
escribe como
P (A ∩ B ∩ C) = P (C|A ∩ B)P (B|A)P (A) .

En general, se tiene el siguiente resultado conocido como la regla del producto.

Proposición 1.6. Si A1 , A2 , . . . , AN son N eventos, tales que las probabilidades siguientes están bien
definidas, entonces
N  N  n−1

\  Y  \ 
P  An  = P An | Aj  ,
 
 
n=1 n=1 j=1

donde el primer término en la productoria viene dado por P (A1 ).


Demostración: Procederemos por inducción. El caso N = 2 ya se vio que viene de la definición. Si la
proposición es válida para N , debemos mostrar que lo es para N + 1. En efecto,
N +1  N   N
 N 
 \  \   \  \ 
P  An  = P  An ∩ AN +1  = P AN +1 | An  × P  An 
n=1 n=1 n=1 n=1

 N
 N  n−1

+1 
 
 \  Y  \  NY  n−1
\ 
= P AN +1 | An  × P An | Aj  = P An | Aj 
  
   
n=1 n=1 j=1 n=1 j=1

lo cual completa la prueba. 

Ejemplo 1.22. Tres personas A, B y C se ponen en cola y toman una tras otra una carta de una baraja
normal con 52 cartas. Gana quien obtiene el as de espadas. Antes de empezar el juego, ¿algún lugar en
la cola resulta ser más conveniente?
Solución: Definamos los eventos A = “Gana A”, B = “Gana B” y C = “Gana C” y para simplificar supon-
gamos que extraen sus cartas en ese orden: Primero A y si no gana, entonces extrae B y si no gana, extrae
C y ahı́ acaba el juego. En este contexto y aplicando la regla del producto: P(A)=1/52, P(B)=P(Ac ∩B)=
P(B|Ac )×P(Ac )=(1/51)×(51/52)=1/52 y P(C)=P(Ac ∩Bc ∩C)=(1/50)×(50/51)×(51/52)= 1/52. Las tres
probabilidades son iguales. Por tanto, antes de empezar, todos los lugares son equiprobables para ganar.

Ejemplo 1.23. En un estudio se aplicó una encuesta a una muestra de 150 empresarios participantes de
un congreso anual de ejecutivos, registrando su opinión acerca de ciertos aspectos de la economı́a y sus
perspectivas de inversión. Una de las tablas de resultados de la encuesta fue:
Facultad de Ciencias Sociales PUCP 29

Seguirá invirtiendo Detendrá sus inversiones


Tipo de empresa Tipo de empresa
¿Cambiará el ministro de economı́a? PYME No PYME PYME No PYME Total
No 47 67 3 8 125
Sı́ 4 5 3 13 25
Total 51 72 6 21 150
Usando la definición frecuencial de probabilidad:

a) ¿Dónde hay mayor probabilidad de detención de inversiones: en PYMES o en No PYMES?

b) Un empresario cree que se cambiará al ministro de economı́a: ¿Dirı́a que detendrá sus inversiones?

c) Dado que un empresario No PYME le manifiesta su convicción de que cambiarán al ministro de


economı́a, ¿qué probabilidad le asigna de detener sus inversiones?

d) ¿Cuál tipo de empresario tiene decisiones de inversión más sensibles al posible cambio de ministro?

Solución: a) Si D = “Detiene inversiones”, se pide comparar P (D|P Y ME) vs P (D|N o P Y ME). En es-
te caso es más sencillo calcular probabilidades condicionales “reduciendo” el espacio muestral, o sea
quitando los elementos que no están en el respectivo “evento condicionante”: En el caso de PYME:
n(D∩P Y ME) 6
P (D|P Y ME) = n(P Y ME) = (51+6) = 0.11; con No PYME se procede análogamente: P (D|N o P Y ME) =
n(D∩N o P Y ME) 21
n(N o P Y ME)
= (72+21) = 0.23. En general las probabilidades de detención de inversiones son bajas,
aunque ésta es mayor dentro de los empresarios No PYME.
b) Si C = “Cree que sı́ cambiará el ministro de economı́a”, se pregunta por P (D|C) y se procede análoga-
n(D∩C)
mente a como se trabajó en a): n (C) = 25; n (D ∩ C) = 3 + 13 = 16, P (D|C) = n(C) = 16 25 = 0.64 > 0.5;
en este caso hay mayor propensión a detener inversiones si es que se cambia al ministro. Sı́ dirı́amos que
detendrá sus inversiones.
13
c) Se pregunta por P (D|N oP Y ME ∩ C) = 5+13 = 0.72.
d) Hay que hacer cálculo de probabilidades condicionales de detención de inversiones por separado en
cada grupo, PYMES y No PYMES según la creencia de cambio de ministro: cuánto más cercana a uno,
más “sensibilidad”al posible cambio de ministro. P (D|N oP Y ME ∩ C) = 0.72 ya se calculó antes, falta
3
P (D|P Y ME ∩ C) que es P (D|P Y ME ∩ C) = 4+3 = 0.43; Los empresarios No PYME son más “sensibles”
a la posibilidad de cambio de ministro de economı́a, en ellos es casi seguro que detendrán sus inversiones
(la probabilidad es 0.72 > 0.5) en cambio, en los PYME podemos pronosticar que no detendrán sus
inversiones (probabilidad de 0.43 < 0.5).

1.6.2. Independencia probabilı́stica


Más de una vez, sucede que tenemos elementos para concluir que un evento A no es “condi-
cionante” de otro evento B; es decir, que la ocurrencia de A no afecta las posibilidades de B, y por
tanto la probabilidad de éste no se altera. Formalmente P (B|A) = P (B). De manera equivalente,
por la regla del producto tenemos:

P (A ∩ B) = P (B|A)P (A) = P (A)P (B).


30 ÍNDICE GENERAL

Por razones de conveniencia matemática, la definición del concepto de independencia proba-


bilı́stica usa la última igualdad.

Definición 1.5. Dos eventos A y B se dicen independientes si y solo se cumple la igualdad:


P (A ∩ B) = P (A)P (B).

Observaciones:

Se demuestra que si A y B son independientes, también lo son sus complementos y en general


todos los eventos de la serie A, B, Ac , Bc .

Si A y B no son independientes, diremos que están “asociados”. En este contexto, el cociente


(P (A ∩ B) − P (A)P (B))/P (A)P (B) podrı́a servir de base para medir el “grado de asociación”.

Ejemplo 1.24. La probabilidad del evento A = “El lunes habrá baja de precios en el mercado de minera-
les” es 0.7 y la probabilidad del evento B = “El martes habrá baja de precios en el mercado de minerales”
es 0.8.

a) Si el 65 % de las veces hay dos dı́as consecutivos de baja, ¿cuál es la probabilidad de que haya baja el
martes, si el lunes sı́ la hubo? ¿Son independientes los eventos?

b) Si los eventos anteriores fueran independientes, ¿con qué probabilidad habrá baja de precios en el
mercado en alguno de estos dı́as?

Solución: a) Sabemos que P (A) = 0.7, P (B) = 0.8, P (A ∩ B) = 0.65 y nos piden P (B|A). Aplicando
la definición de probabilidad condicional obtenemos P (B|A) = P (A) = 00..65
P (B∩A)
7 = 0.93; En cuanto a la
independencia 0.65 = P (A∩B) , P (A)P (B) = 0.7×0.8 = 0.56, es decir, los eventos no son independientes.
Lo anterior también se deduce al ser P (B|A) distinta de P (B).
b) Nos piden P (A∪B) = P (A)+P (B)−P (A∩B). En esta nueva situación, dada la independencia, P (A∩B) =
P (A)P (B) = 0.56 y por tanto P (A ∪ B) = 0.7 + 0.8 − 0.56 = 0.94.

Ejemplo 1.25. Si A y B son independientes, pruebe que Ac y Bc son también independientes.


Solución: Tenemos que demostrar que P (Ac ∩ Bc ) = P (Ac )P (Bc ), sabiendo que P (A ∩ B) = P (A)P (B). En
efecto, como Ac ∩ Bc = (A ∪ B)c , entonces P (Ac Bc ) = P ((A ∪ B)c ) = 1 − P (A ∪ B) o, equivalentemente,
T

P (Ac ∩ Bc ) = 1 − P (A) − P (B) + P (A ∩ B) = 1 − P (A) − P (B) + P (A)P (B) = P (Ac ) − P (B)(1 − P (A))

= P (Ac ) − P (B)P (Ac ) = P (Ac )(1 − P (B)) = P (Ac )P (Bc ) ⇒ P (Ac ∩ Bc ) = P (Ac )P (Bc ).

Ejemplo 1.26. Hay dos vı́as que van de la ciudad A a la ciudad B y dos vı́as que van de B a la ciudad C.
Si cada una de las 4 vı́as tiene probabilidad 1/4 de ser interrumpida por huaycos, independientemente
de las otras, ¿con qué probabilidad se podrá pasar de A a C?
Solución: Sean los eventos G =“Se puede pasar de A a C”, E=“Hay vı́a libre A a B” y F=“Hay vı́a libre
de B a C”. Entonces G = E ∩ F y E, F son independientes. Luego P (G) = P (E ∩ F) = P (E) × P (F) y como
P (E) = 1 − P (E c ); y P (E c ) =Cae huayco en las dos vı́as de A a B= 41 × 14 = 16
1 1
entonces P (E) = 1 − 16 15
= 16 .
 2
Análogamente P (F) = 15 15
16 y P (G) = P (E ∩ F) = 16 .
Facultad de Ciencias Sociales PUCP 31

Ejemplo 1.27. En un mercado hay 3 productores del bien A y 3 productores del bien B y un consumidor
puede elegir indistintamente a cualquiera de los productores de A, pero la probabilidad de que elija al
productor j de B es directamente proporcional al gasto γj que dicho productor haga en propaganda,
habiendo independencia entre las elecciones en A y en B. Sea Ω el espacio muestral dado por Ω =
{wij / wij = El consumidor elige al productor i de A y al productor j de B}. Asumiendo un precio único
para A y también para B:

a) Halle la asignación o distribución de probabilidades en Ω, si γj = j.

b) Un inversionista adquiere las empresas de los productores 1 y 2 de A y la del productor 3 de B.


Calcule la probabilidad de que el consorcio formado por el inversionista no logre realizar ventas.

c) Si el inversionista de b) ha logrado hacer ventas, ¿cuál serı́a la probabilidad de que esto haya ocurrido
solo en B?

Solución: a) Por dato tenemos que P (i) = 1/3, ∀i = 1, 2, 3 y P (j) = αj, ∀j = 1, 23 y como hay independen-
cia P ({wij }) = P (i)P (j) = αj/3, si i = 1, 2, 3 y j = 1, 2, 3. Como Ω tiene 9 elementos: (1,1),(1,2),(1,3),...,(3,3)
y P (Ω) = 3i=1 3j=1 P ({wij }) = 1, se tiene que 31 (α + 2α + 3α) + 31 (α + 2α + 3α) + 31 (α + 2α + 3α) = 1. Ası́,
P P

6α = 1 ⇒ α = 1/6 y la distribución de probabilidades en Ω viene dada por P (wij ) = j/18, ∀i = 1, 2, 3; j =


1, 2, 3.
b) Sea C= “El consorcio del inversionista no realiza ventas”, entonces C = {w31 , w32 } pues “no realiza
ventas” equivale a “no vende A ni B” que a su vez equivale a que el consumidor elige comprar A y B
fuera del consorcio. Evaluando, P (C) T = P ({w31 , w32 }) = P ({w31 }) + P ({w32 }) = (1/18) + (2/18) = 3/18.
c P ({w33 } C c ) P ({w }) 3/18 3
c) Nos piden P ({w33 } |C ) = P (C c )
= P (C33c ) = 1−(3/18) = 15 .

1.6.3. Probabilidad total y el teorema de Bayes


Una aplicación de la probabilidad condicional es permitir la reconstrucción de probabilidades
previas o incondicionales, a partir de las condicionales. Lo anterior se hace gracias a dos teoremas
simples pero importantes.

Teorema 1.1 (Teorema de probabilidad total). Sean A1 , A2 , ..., AN eventos mutuamente excluyentes,
N
S
todos con probabilidad positiva y tales que Ak = Ω. Sea B otro evento de Ω. Entonces se cumple que:
k=1

N
X
P (B) = P (B | Ak )P (Ak ).
k=1

N
S N
S
Demostración: Como B = B ∩ Ω = B ∩ Ak = (B ∩ Ak ) y se tiene por la regla del producto que
k=1 k=1
P (B ∩ Ak ) = P (B | Ak )P (Ak ), ∀k,
N  N N
[  X X
P (B) = P  (B ∩ Ak ) =

 
 P (B ∩ Ak ) = P (B | Ak )P (Ak ). 
k=1 k=1 k=1
32 ÍNDICE GENERAL

Teorema 1.2 (Teorema de Bayes). En el contexto del teorema de probabilidad total, si además P(B)>0,
entonces se cumple que para cualquier k = 1, 2, . . . , N :

P (B | Ak )P (Ak )
P (Ak | B) = PN .
j=1 P (B|A j )P (A j )

Demostración: Basta recordar la definición de probabilidad condicional y luego aplicar el teorema de


probabilidad total para obtener

P (B ∩ Ak ) P (B|Ak )P (Ak )
P (Ak | B) = = PN , ∀k = 1, 2, . . . , N . 
P (B) j=1 P (B|Aj )P (Aj )

Ejemplo 1.28. Ante una pregunta de opción múltiple con 5 opciones, el examinado puede saber la
respuesta, no saberla en absoluto o tener dudas. Si no sabe marca al azar y si tiene dudas, después de
un análisis de opciones puede reducir las mismas a las 3 más plausibles, una de las cuales es la correcta.
Datos previos indican que el 55 % sabe la respuesta y el 15 % no la sabe en absoluto.

a) ¿Qué proporción de aciertos se espera en esta pregunta?

b) Un examinado acertó en la pregunta, ¿sabrá verdaderamente la respuesta?

Solución: Sean los eventos A1 = “El examinado sabe la respuesta”,A2 = “El examinado no sabe la res-
puesta en absoluto”, A3 = “El examinado tiene dudas” y B = “El examinado acierta en la respuesta”. Por
los datos dados P (A1 ) = 0.55, P (A2 ) = 0.15 y por complemento P (A3 ) = 1 − 0.55 − 0.15 = 0.30. Por otra
parte, P (B|A1 ) = 1, pues si sabe la respuesta, obviamente marca lo correcto; P (B|A2 ) = 1/5 = 0.2, pues
si no sabe, contesta al azar sobre el total de 5 preguntas, y P (B|A3 ) = 1/3 = 0.33, pues si tiene dudas,
siempre puede reducir el conjunto de casos posibles a 3, uno de los cuales es el correcto.Por tanto:
a) En este caso nos piden P (B) y aplicando el teorema de probabilidad total,
3
X
P (B) = P (B|Ak ) P (Ak ) = P (B|A1 ) P (A1 ) + P (B|A2 ) P (A2 ) + P (B|A3 ) P (A3 )
k=1

= (1 × 0.55) + (0.2 × 0.15) + (0.33 × 0.30) = 0.678.


b) Debemos calcular P (A1 |B). Aplicando el Teorema de Bayes,

P (B ∩ A1 ) P (B ∩ A1 ) P (A1 ) 0.55
P (A1 |B) = =P    = = 0.81
P (B) 3
P B|Aj P Aj 0.679
k=1

que es lo bastante alta como para asegurar que lo más probable es que, si acertó en la respuesta es porque
de verdad la sabı́a. Note que también se puede calcular P (A2 |B) = 0.146 y P (A3 |B) = 0.044 y con estas
cifras a la mano, podemos decir que dentro del grupo de personas que aciertan el ı́tem o pregunta, aquellos
que no saben nada de él, son la minorı́a absoluta, el 4.4 % aproximadamente.

Observación: Otra manera de resolver problemas relacionados a los teoremas de probabilidad


total y de Bayes, es mediante los llamados diagramas de árbol. Un diagrama de estos para el
ejemplo anterior es el siguiente:
Facultad de Ciencias Sociales PUCP 33

B
1 

A1 @

@
0
0.55 R Bc
@

0.2
B

0.15 - A2
@ @
@ @
0.8
@ R Bc
@
0.3
@
@ 0.33 
B
@
R A3
@
@
@
0.67 @
R Bc

Figura 1.9: Diagrama de árbol para el ejemplo 1.28

Aquı́ cada nodo en el que terminan las ramas denota a uno de los eventos de interés y sobre las
ramas se escriben las probabilidades de estos eventos, siendo por ejemplo las conducentes a B,
probabilidades condicionales. De esta manera la probabilidad del evento B se calculará simple-
mente multiplicando primero las probabilidades que conducen a B en las ramas y luego sumando
estas probabilidades para todos los nodos finales de B.

Ejemplo 1.29. En un mercado laboral, el 20 % de trabajadores tiene 5 años de escolaridad, el 70 % tiene


10 años y el resto tiene 15 años. La probabilidad p de que un trabajador sea estable, está condicionada por
sus años de escolaridad E, a través de p = 1/(1+e−0.04E ). Dado que Ud. entrevista a un trabajador de este
mercado y resulta que tiene empleo estable ¿Qué nivel de escolaridad serı́a el más razonable imputarle?
¿Por qué?
Solución: Sabemos que la persona tiene empleo estable y nos preguntamos por su escolaridad, que puede
ser de cinco, diez o quince años. Aunque no podemos decir con seguridad cuál es la escolaridad, sı́
podemos identificar la más probable, que serı́a entonces nuestra mejor conjetura. Como dato, tenemos
una fórmula general que condiciona la estabilidad del empleo a la escolaridad, vı́a p = 1/(1 + e−0.04E ),
donde E puede valer 5, 10 o 15. Sean entonces los eventos A1 = “Escolaridad de cinco años”, A2 =
“Escolaridad de diez años”, A3 = “Escolaridad de quince años” y B = “Empleo estable”. Necesitamos
calcular P (Ak |B), para k = 1, 2, 3 y determinar cuál es mayor. Esto lo haremos con el teorema de Bayes.
Ahora bien, de acuerdo a los datos y aplicándose la fórmula general de las probabilidades condicionales
del empleo estable se tiene que:
34 ÍNDICE GENERAL

Si ocurre A1 , entonces E = 5 y P (B|A1 )=1/(1 + e−0.04×5 ) = 0.55;

Si ocurre A2 , entonces E = 10 y P (B|A2 )=1/(1 + e−0.04×10 ) = 0.60

Si ocurre A3 , entonces E = 15 y P (B|A3 )=1/(1 + e−0.04×15 ) = 0.65

De otro lado, P (A1 ) = 0.20, P (A2 ) = 0.70 y P (A3 ) = 0.10. Evaluando tenemos entonces que
3
X
P (B) = P (B|Ak )P (Ak ) = P (B|A1 ) P (A1 ) + P (B|A2 ) P (A2 ) + P (B|A3 ) P (A3 )
k=1

= 0.2 × 0.55 + 0.7 × 0.6 + 0.1 × 0.65 = 0.595.


Luego:
0.2 × 55 0.7 × 0.60 0.1 × 0.65
P (A1 |B) = = 0.18, P (A2 |B) = = 0.71 y P (A3 |B) = = 0.11
0.595 0.595 0.595
Comparando probabilidades, concluimos que la escolaridad más razonable para esta persona es de
10 años.

Ejemplo 1.30. Tres personas se dividen un trabajo de Estadı́stica, de modo que cada una trabaja su parte
independientemente y se ponen de acuerdo para integrar sus trabajos en uno solo. Las probabilidades de
fallar en sus respuestas son 0.2, 0.15 y 0.25 respectivamente. Halle la probabilidad

a) De que se presente bien resuelto el trabajo.

b) De que el trabajo tenga algún error.

c) De que el más capaz de los tres haya fallado, si el trabajo entregado tenı́a error.

Solución: Sean A= “A falla en su parte”; B= “B falla en su parte” y C= “C falla en su parte”. Por dato,
P(A) = 0.2, P(B)=0.15 y P(C)=0.25, siendo independientes los eventos. En este contexto:
a) Si D = “Trabajo bien resuelto” = “Ningún error o nadie falla”=Ac ∩Bc ∩Cc , entonces

P (D) = P (Ac ∩ Bc ∩ C c ) = P (Ac ) × P (Bc ) × P (C c ) = 0.8 × 0.85 × 0.75 = 0.51.

b) Si E =“Trabajo con algún error”, se tiene que

P (E) = 1 − P (D) = 1 − 0.51 = 0.49.

c) Se nos pide
P (B ∩ D c ) P (D c |B) P (B) 1 × 0.15 0.15
P (B|D c ) = = = = = 0.31.
P (D c ) P (D c ) 0.49 0.49
Note que si B falla en su parte, entonces necesariamente ya hay error en el trabajo, o sea ocurre D c y por
eso P (D c |B) = 1.

Ejemplo 1.31. Un economista que trabaja en una agencia de publicidad sabe que con probabilidad de
0.8 las amas de casa de un sector social ven telenovelas románticas y con probabilidad 0.7 las amas de
casa ven “talk shows”. También se sabe que el 10 % de amas de casa no ven ninguno de los dos tipos de
programa.
Facultad de Ciencias Sociales PUCP 35

a) ¿Cuál es la probabilidad de que un ama de casa entrevistada al azar vea ambos tipos de programa?

b) ¿Cuál es la probabilidad de que un ama de casa entrevistada al azar vea telenovelas románticas si ya
declaró no ver “talk shows” ?

Solución: Sean los eventos A = “El ama de casa ve telenovelas románticas” y B = “El ama de casa ve
talk shows”. Tenemos como datos que P (A) = 0.8, P (B) = 0.7, P (Ac ∩ Bc ) = 0.10 y nos piden P (A ∩ B)
y P (A | Bc ). Si bien este problema se podrı́a resolver utilizando un diagrama de árbol, mostraremos
ahora alternativamente su desarrollo mediante una tabla de probabilidades o contingencia como la abajo
mostrada:
Ω A Ac Total
B P (A ∩ B) P (Ac ∩ B) 0.7
Bc P (A ∩ Bc ) 0.1 P (Bc )
Total 0.8 P (Ac ) 1

Por el teorema de probabilidad total, la suma de las filas y columnas centrales de la tabla deben de dar
1 y como por la propiedad del complemento P (Ac ) = 0.2, se tiene que P (Ac ∩ B) = 0.2 − 0.1 = 0.1. Por
P (A∩Bc )
= 0.8−0 .6
P (A)−P (A∩B)
tanto, P (A ∩ B) = 0.7 − 0.21 = 0.6. Finalmente, P (A | Bc ) = P (Bc ) = P (B) 0.3 = 0.67.

Ejemplo 1.32. Un economista genera un ranking de las tres empresas que considera con mejores pers-
pectivas para el año actual, a partir de la lista de las diez empresas que tuvieron mayores utilidades el
año pasado, digamos las empresas A1,A2,. . . ,A10. Las empresas A1, A7 y A5 forman parte de la cor-
poración ABEP. En este contexto, usando probabilidad clásica y principios básicos de conteo, calcule la
probabilidad de que:

a) ABEP cope el ranking confeccionado por el economista.

b) ABEP figure en el ranking.

c) ABEP ocupe los puestos primero y tercero del ranking

Solución: Puesto que no tenemos mayor información, asumiremos que el economista ha generado su
ranking seleccionado al azar tres de las 10 empresas arriba dadas sin conocer sobre la composición de la
corporación ABEP. En tal sentido el espacio muestral para este problema estará dado por

Ω = {(x1 , x2 , x3 ) / xi ∈ {A1, A2, . . . , A10} y x1 , x2 , x3 }.

La restricción x1 , x2 , x3 es natural pues una misma empresa no puede estar en dos puestos del ranking
a la vez. Aplicando el principio de multiplicación, n(Ω) = 10 × 9 × 8, pues hay diez maneras de asignar
una empresa al primer lugar (x1 ), nueve maneras de asignar una empresa al segundo lugar (x2 ) y ocho
maneras de asignar una empresa al tercer lugar (x3 ).
a) Sea el evento A = “ABEP copa el ranking”, entonces para que eso ocurra, el economista debe haber
seleccionado para los tres puestos solo empresas de la corporación ABEP, o sea, debe haber seleccionado
solo entre A1, A7 y A5. Aplicando el principio de multiplicación n (A) = 3 × 2 × 1, pues hay tres maneras
de asignar una empresa de ABEP al primer lugar (x1 ) y luego hay dos maneras de asignar una empresa
36 ÍNDICE GENERAL

al segundo lugar (x2 ) y hecho esto, ya solo queda una manera de asignar una empresa de ABEP al tercer
n(A) 3×2×1 1
lugar (x3 ). Entonces, la probabilidad pedida es: P (A) = n(Ω) = 10×9×8 = 120 .
  n(BC )
b) Si B = “ABEP figura en el ranking”, es mejor calcular P (B) = 1 − P (BC ) y como P BC = n(Ω) =
7×6×5 210 21
10×9×8 = 720 = 72 . Ası́, P (B) = 1 − 21
72 =
51
72 .
n(D)
c) Si definimos D = “ABEP ocupa los puestos primero y tercero del ranking” ,entoncesP (D) = n(Ω)
=
3×7×2 7
10×9×8 = 120 .

Ejemplo 1.33. Una acción valuada inicialmente en S/.10 , se cotiza en dos periodos. Durante cada
periodo la acción puede bajar, permanecer igual o subir en S/. 1. Las probabilidades de estos eventos
en el primer periodo son 0.2, 0.5 y 0.3 respectivamente. En el segundo la acción puede volver a subir
con probabilidad 0.3 y bajar después de subir en el primero, con probabilidad 0.1. Ahora, si la acción se
mantiene igual en el periodo inicial, puede subir en el segundo con probabilidad 0.4, y puede mantenerse
igual con probabilidad 0.35; Finalmente, si la acción baja en el primer periodo, lo seguirá haciendo en el
segundo con probabilidad 0.5, y subirá con 0.1 de probabilidad.

a) Halle la probabilidad de que el valor final de la acción sea de S/. 12

b) Halle la probabilidad de que el valor final de la acción sea de S/. 11

c) Si no cambia el valor final de la acción, en relación al valor inicial, ¿cuál serı́a la probabilidad de que
la acción haya bajado?

Solución: Sean los eventos: A1 = “ Acción sube en el primer periodo”, A2 = “ La acción permanece igual
en el primer periodo” y A3 = “La acción baja en el primer periodo”. De otro lado, sean los eventos B1 =
“La acción sube en el segundo periodo”, B2 = “La acción permanece igual en el segundo periodo” y B3 =
“La acción baja en el segundo periodo”.
Si definimos el evento C = “El valor final de la acción es S/.12”, entonces C = A1 ∩ B1 y aplicando la
regla del producto: P (C) = P (A1 ∩ B1 ) = P (B1 | A1 ) P (A1 ) = 0.3 × 0.3 = 0.09.
b) Con los mismos eventos de a), sea ahora D = “El valor final de la acción es S/.11”, entonces D =
(A1 ∩ B2 ) ∪ (A2 ∩ B1 ) y P (D) = P (A1 ∩ B2 ) + P (A2 ∩ B1 ) = 0.6 × 0.3 + 0.4 × 0.5 = 0.38.
c) Con los mismos eventos de a) sea ahora E = “El valor final es igual al valor inicial”, entonces E =
(A1 ∩ B3 ) ∪ (A2 ∩ B2 ) ∪ (A3 ∩ B1 ) y P (E) = P (A1 ∩ B3 ) + P (A2 ∩ B2 ) + P (A3 ∩ B1 ), etc. Pero se pregunta
por P ((A1 ∩ B3 ) ∪ (A3 ∩ B1 )|E). Aplicando la definición de probabilidad condicional:

P ((A1 ∩ B3 ) ∪ (A3 ∩ B1 )|E) = P ((A1 ∩ B3 ) |E) + P ((A3 ∩ B1 ) |E)


P (A1 ∩ B3 ∩ E) P (A3 ∩ B1 ∩ E) P (E|A1 ∩ B3 ) P (A1 ∩ B3 ) P (E|A3 ∩ B1 ) P (A3 ∩ B1 )
= + = +
P (E) P (E) P (E) P (E)
y donde P (E|A1 ∩ B3 ) = 1; P (E|A3 ∩ B1 ) = 1, etc. El resto se deja al lector.

1.7. Variable Aleatoria


La construcción de “leyes del azar” que estamos intentando, se complica innecesariamente si
insistimos en trabajar con espacios muestrales generales, y la razón es simple: tal como Ω es defi-
nido, puede estar constituido de objetos bastante variados: letras, sı́mbolos, números; lo que hace
Facultad de Ciencias Sociales PUCP 37

difı́cil elaborar enunciados teóricos generales que se refieran a los elementos de Ω y peor aún, tam-
bién impide aplicar la mayor parte de herramientas matemáticas conocidas para análisis teóricos
(como la diferenciación, integración, etc.), obstaculizando el uso de “fórmulas” simplificadoras.
Por otra parte, muchas veces el interés está centrado en determinados aspectos del espacio mues-
tral y no en todo el conjunto. Entonces, podemos ganar mucho si, por ejemplo, “codificamos” el
espacio muestral original Ω en un conjunto de números R, transfiriendo a su vez las probabilida-
des, de modo que en R podamos aplicar las operaciones de suma, multiplicación, etc., y usarlas
para facilitar el cálculo de probabilidades.

Ejemplo 1.34. Similarmente al caso del ejemplo 1.18, suponga que el mercado de un bien con 6 produc-
tores, se sabe que al menos hay dos coaliciones y un organismo de regulación se interesa por el tamaño X
de la mayor coalición.
Solución: En este contexto, y si no hay otra información, el experimento aleatorio  consiste en observar
el estado del mercado, que puede lograrse de las siguientes maneras:

1. Dos coaliciones de 2 empresas cada una y las otras empresas libres

2. Dos coaliciones, una de 2 empresas y la otra de 3, con la empresa restante libre

3. Dos coaliciones, una de 2 empresas y la otra de 4

4. Dos coaliciones, cada una con tres empresas

5. Tres coaliciones, cada una con dos empresas.

El tamaño del espacio muestral asociado es n(Ω) = C26 C24 +C26 C34 +C26 C44 +C36 C33 +C26 C24 C22 = 275 y si solo
interesa el tamaño de la coalición más grande, denotemos con X a este tamaño. Entonces X puede tomar
los valores 2, 3 o 4 y las probabilidades de que ocurran estos tamaños de coalición son respectivamente:

C26 C24 + C26 C24 C22 180 C 6 C 4 + C36 C33 80 C 6C 4 15


P (X = 2) = = , P (X = 3) = 2 3 = y P (X = 4) = 2 4 = .
275 275 275 275 275 275

Como se ve, el sistema de codificación usado es en realidad una función X que convierte cada punto de
Ω en un número y simplifica la presentación de probabilidades al darle a Ω el formato de un conjunto
numérico R. Ciertamente toda la información presente en Ω no se trasladó a R, pero sı́ aquella que era de
nuestro particular interés: el tamaño de la mayor coalición y sus respectivas probabilidades las podemos
resumir en la tabla de distribución de probabilidades siguiente:

x P (X = x)
2 180/275
3 80/275
4 15/275
Total 1
38 ÍNDICE GENERAL

1.7.1. Definición
Definición 1.6. Sea Ω un espacio muestral, sobre el cual se ha construido una σ-álgebra de eventos F .
Una variable aleatoria (v.a.) X definida sobre Ω, es una función cuyo dominio es Ω, su rango un conjunto
de números reales que denotaremos por RX y que además satisface ∀x ∈ R, {ω ∈ Ω / X(ω) ≤ x} ∈ F .

La última condición permite “probabilizar” todo el eje real y es necesaria para evitar patologı́as
cuando se trata con espacios Ω continuos, como los que aparecen en los modelos probabilı́sticos
que describen procesos en finanzas. No verificaremos la condición de aquı́ en adelante y asumire-
mos que se cumple en condiciones bastante generales.

Ejemplo 1.35. Si una persona contesta al azar un pregunta de opción múltiple con cinco opciones, una
de las cuales es verdadera, un espacio muestral apropiado serı́a Ω = {C, I}, donde C indica el resultado
“La persona acierta” e I denota el resultado “La persona no acierta”. Una asignación o distribución
de probabilidades natural es, en este caso P ({C}) = 51 y P ({I}) = 45 . Sea la variable aleatoria (v.a.) X=
Número de errores. Aplicando la regla que define X, tenemos X(C) = 0 y X(I) = 1, de modo que el rango
(de valores posibles) de X es RX = {0, 1} y una distribución de probabilidades en RX es:
P (X = 0) = 51 , pues (X = 0 ) ocurre si y solo si ocurre {C}
P (X = 1) = 45 , pues (X = 1 ) ocurre si y solo si ocurre {I}
4k
Nótese que también podemos escribir, de manera compacta: P (X = k) = 5, ∀k = 0, 1, lo que proporciona
una fórmula para distribuir probabilidades en RX .

Ejemplo 1.36. Si una persona contesta al azar 2 preguntas tipo verdadero o falso y se define X como el
número de errores, hallar RX y la distribución de probabilidades en RX .
Solución: Si denotamos mediante pares ordenados los resultados posibles, tenemos que Ω puede escribir-
se como Ω = {(C, C), (C, I), (I, C), (I, I)}. La v.a X= # de errores tiene como rango a RX = {0, 1, 2}. Como
en Ω hay 4 resultados que podemos considerar equiprobables, las probabilidades se pueden “transferir”
del espacio muestral original Ω, al espacio transformado o “codificado” RX , de modo que tenemos:

1 2 1
P (X = 0) = P ({(C, C)}) = , P (X = 1) = P ({(C, I), (I, C)}) = y P (X = 2) = P ({(I, I)}) = .
4 4 4
Ordenando en una tabla los valores de X y sus probabilidades obtenemos:

x 0 1 2
1 2 1
P (X = x) 4 4 4

o también, de manera más compacta,

Cx2
P (X = x) = , donde x = 0, 1, 2.
4
Observación: Si las preguntas no tienen dos opciones sino cinco, aunque RX se mantiene, el cálculo
Cx2 4x
de la distribución de probabilidades se complica algo y se tiene P (X = x) = 25 , donde x = 0, 1, 2.
Cx20 4x
Análogamente, si fueran 20 preguntas y no 2, todas de cinco opciones, tendrı́amos P (X = x) = 520
,
donde x = 0, 1, 2, . . . , 20.
Facultad de Ciencias Sociales PUCP 39

Ejemplo 1.37. En una privatización hay dos postores de los cuales solo se sabe que pueden ofrecer
precios entre 0 y 1 millón de unidades monetarias por la la empresa que desean comprar. Sea X el precio
de venta. Determine la transformación que define a X ası́ como el rango de valores posibles de X (RX ) y
una fórmula para P (X ≤ x), donde x ∈ RX .
Solución: Podemos representar adecuadamente los resultados posibles de este experimento aleatorio me-
diante: Ω = {(a, b) / 0 < a ≤ 1 y 0 < b ≤ 1} donde a y b son los precios ofrecidos por A y B, respectivamente.
Como se trata de una privatización, el mayor precio será el ganador, esto es X = máx{a, b} define la
transformación que va de Ω a R y por tanto RX =]0, 1]. Un punto más delicado es hallar una fórmula
general para P (X ≤ x), donde x es un valor genérico pero dado de RX . El evento (X ≤ x) (definido en
RX ) ocurre si y solo si 0 < a ≤ x y 0 < b ≤ x. Sea el evento D = {(a, b) ∈ Ω / 0 < a ≤ x y 0 < b ≤ x},
entonces podemos decir que (X ≤ x) y D son equivalentes. Por tanto, P (X ≤ x) = P (D). Ahora, aplicando
probabilidad geométrica sobre los eventos de Ω tenemos:
Area(D) x2
P (X ≤ x) = P (D) = = = x2 , si 0 ≤ x < 1
Area(Ω) 1
y ası́ obtenemos una fórmula que distribuye probabilidades sobre RX .
Observaciones: A partir de los ejemplos anteriores, podemos concluir que:

En general, RX puede verse como el resultado de una “codificación” de Ω, pues X : Ω → R


convierte cada punto ω de Ω en un número X(ω) que está en RX y donde las probabilidades
definidas sobre eventos de Ω se transfieren a los eventos del nuevo espacio muestral RX .
Ahora bien, la función X que usamos para codificar, la definimos de modo que capte la
información de particular interés para nosotros, y si deseamos información relativa a otro
aspecto de Ω, podemos definir un sistema adicional de codificación Y , y ası́ sucesivamente.
Por ejemplo, en el caso de la licitación, otra variable de interés puede ser Y = Diferencia entre
las ofertas= |a − b|, cuyo rango es RY = [0, 1].

La función X, como tal, no tiene nada aleatorio, pues como toda función que se respete,
debe ser una regla de correspondencia bien definida. Pero al tomar como “insumo” a los
elementos ω de Ω, que sı́ son aleatorios, su “producto” X(ω) deviene en azaroso, no podemos
pronosticar cuál valor X(ω) ocurrirá, de ahı́ el nombre de “variable aleatoria” para X: Sus
valores cambian con ω y lo hacen al azar. Por lo mismo, una manera laxa, pero útil, de ver a
una v.a. X es como “una variable que toma sus valores al azar”.

La utilidad de trabajar con un espacio muestral transformado como lo es RX , reside en que


al ser sus elementos números, es factible aprovechar las propiedades de éstos para simplifi-
car los resultados, construyendo, por ejemplo, fórmulas que proporcionen distribuciones de
probabilidades. Esto último, no se puede hacer con espacios muestrales generales.

Aunque ya lo mencionamos en la definición, se exige que el conjunto {ω ∈ Ω / X(ω) ≤ x}


sea un evento de Ω para cualquier número real x, de modo que ese conjunto tenga pro-
babilidad bien definida. El objetivo de esta condición es “probabilizar” todo R. Es posible
construir transformaciones de Ω a R que no cumplen esta condición, pero son poco útiles y
no aparecen con frecuencia en situaciones de aplicación.
40 ÍNDICE GENERAL

1.7.2. Clasificación de las variables aleatorias


De acuerdo al rango RX de una variable aleatoria, clasificaremos a ésta principalmente como:
Variable aleatoria continua: Si RX es un intervalo.
Variable aleatoria discreta: Si RX es un conjunto finito o numerable.

Ejemplo 1.38. La variable X = Número de errores en el ejemplo de las respuestas al azar en dos pre-
guntas de opción múltiple, es discreta. La variable X = Precio de venta en el ejemplo de la licitación es,
por otro lado, continua.

Observaciones:

Cuando X es discreta la probabilidad se “concentra” en determinados puntos del eje real,


aquellos que constituyen RX ; en cambio si X es continua, la probabilidad se distribuye sobre
intervalos contenidos en RX

Como notaciones usaremos las siguientes:

(X = x) := {ω ∈ Ω / X(ω) = x}
(X ≤ x) := {ω ∈ Ω / |X(ω) ≤ x}

Existen también variables mixtas. Estas se comportan como continuas en ciertos tramos de
su rango y como discretas en otros. No son tan frecuentes, pero tienen su importancia, aun-
que no las trataremos aquı́.

1.7.3. Variable discreta y función de probabilidad


Definición 1.7. Si X es una v.a. discreta, la función de probabilidad de X, denotada por PX (x), se define
mediante PX (x) = P (X = x).

Observaciones:

PX (x) = 0, si x < RX .

PX (x) es llamada también “función de distribución de probabilidades” pues indica cómo se


redistribuye la probabilidad total de Ω (que es 1), entre los valores alternativos (y discretos)
que puede asumir X.

Ejemplo 1.39. Si la probabilidad de que una perforación petrolera resulte en un pozo rentable es p y se
define X = # de pozos perforados hasta que se descubre el primer pozo rentable. Hallar PX (x).
Solución: Es claro que RX = {1, 2, 3, ...}. Sea x un valor genérico pero dado de X, i.e. x ∈ RX , tenemos que:
(X = x) ocurre si y solo si “Las (x-1) primeras perforaciones son no rentables y la x-ésima perforación es
rentable”. Entonces podemos escribir:
(x−1)veces
z }| {
P (X = x) = (1 − p) (1 − p) (1 − p) ... (1 − p) p = p(1 − p)x−1
Facultad de Ciencias Sociales PUCP 41

y por tanto la función de probabilidad de X es

(1 − p)x−1 p si x = 1, 2, 3, . . .
(
PX (x) =
0 en otro caso.

Ejemplo 1.40. Un etólogo construye un modelo para estudiar la capacidad de memoria de las ratas
albinas. Para ello, diseña el experimento de colocar una rata de laboratorio en un laberinto con cinco
salidas, de las cuales solo una conduce al exterior y las otras, después de un recorrido, retornan a la rata
al centro del laberinto; luego estimula al animal para que intente salir. Sea X la v.a. definida como el
número de intentos de escape hasta que la rata logra salir. Halle RX y PX (x) si:

a) La rata no tiene memoria alguna

b) La rata tiene memoria perfecta

Solución: a) Si no hay memoria, en cada intento se repite la misma situación, la rata escoge “al azar”
una salida, pudiendo elegir inclusive la misma salida seleccionada en anteriores intentos. Es claro que
con este modelo la rata puede estar tratando de salir “ad infinitum”. Luego RX = {1, 2, 3, ...} y si x es un
valor dado y genérico de RX , necesitamos calcular P (X = x). Sean los eventos Ai =“La rata escapa en el
intento #i” , i = 1, 2, 3, . . . entonces
(x−1)veces (x−1)veces
z }| { z }| {
\ \ \ \
P (X = x) = P (Ac1 c
A2 c
A3 ... c
Ax−1 Ax ) = (4/5) (4/5) (4/5) ... (4/5) (1/5) = (4/5)x−1 (1/5)

Lo anterior sale aplicando la regla del producto repetidas veces. Entonces llegamos a que

(4/5)x−1 (1/5) si x = 1, 2, 3, . . .
(
PX (x) =
0 en otro caso.

b) Si la memoria es perfecta, la rata también saldrá por azar, pero podrá ir “controlándolo” de intento en
intento, eliminando de su conjunto de salidas u opciones, aquellas que mostraron ser falsas en intentos
anteriores. De acuerdo con esto, el número máximo de intentos es 5 y en cada intento la probabilidad
(condicional) de escapar va creciendo. Ası́ RX = {1, 2, 3, 4, 5} y como en (a), definamos Ai =“La rata
escapa en el intento # i”, i=1,2,3, 4,5. Procediendo inductivamente P (X = 1)= P (A1 ) = 1/5, pues a la
primera
 T todas  las salidas son
 válidas
 como opciones y solo una de ellas es la ”verdadera”.P (X = 2)=
c c c
P A1 A2 = P A2 |A1 P A1 =(1/4) (4/5) = 1/5, pues (X = 2) equivale a decir que la rata falla en
el primer intento y acierta en el segundo; al aplicar la regla de producto, la probabilidad de acertar en
el segundo intento es 1/4 pues la salida usada en el primero ya no es retomada (debido al supuesto de
“memoria perfecta” en la rata) y la probabilidad de que falle en el primer intento es 1/4. Análogamente,
para el tercer intento:
regladelproducto regladelproducto
z }| {z }| {
P (X = 3) = P (Ac1 ∩ Ac2 ∩ A3 ) = P (A3 |Ac1 ∩ Ac2 ) P (Ac1 ∩ Ac2 ) = P (A3 |Ac1 ∩ Ac2 ) P (Ac2 |Ac1 ) P (Ac1 )

= (1/3) (3/4) (4/5) = 1/5,


42 ÍNDICE GENERAL
 
pues P A3 |Ac1 ∩ Ac2 = 1/3, ya que para el tercer intento, solo quedan 3 salidas alternativas, una de las
 
cuales es la correcta; y también P Ac2 |Ac1 = (3/4) ya que si la rata falló en el primer intento, para el
segundo “descuentaüna de las salidas falsas y quedan 4 en total, de las cuales una es verdadera y las
otras tres son falsas.Extendiendo el razonamiento a los otros dos valores posibles de X,

P (X = 4) = P (Ac1 ∩ Ac2 ∩ Ac3 ∩ A4 ) = (1/2) (2/3) (3/4) (4/5) = 1/5

y  
P (X = 5) = P Ac1 ∩ Ac2 ∩ Ac3 ∩ Ac4 ∩ A5 = (1) (1/2) (2/3) (3/4) (4/5) = 1/5.

Ası́ pues, tenemos


(
1/5 si x = 1, 2, 3, 4, 5
PX (x) =
0 en otro caso.
Obsérvese que para un mismo experimento hemos formulado dos ”modelos”distintos que intentan
explicar los posibles resultados (o mejor dicho, las frecuencias de los resultados) obtenibles, pero bajo
teorı́a explicativas distintas: sin memoria y con memoria. solo repeticiones reales del experimento dirán
cuál modelo se ajusta mejor a la realidad, e inclusive, esta evidencia puede recusar a los dos modelos.

Observaciones:

En general, PX (x) también es llamada ”función de distribución de probabilidades” porque,


en efecto, distribuye la probabilidad total de Ω (que es 1) sobre el espacio codificado RX ,
asignando a cada elemento de RX una probabilidad no negativa, que mide la ”propensión a
ocurrir” de dicho valor o elemento.

Como X es un sistema de codificación que captura cierta información de interés, entonces


podemos considerar que PX (x) “modela” el comportamiento del azar, en lo que concierne a
nuestro objeto de análisis, cuando éste es de naturaleza numérica discreta.

Proposición 1.7. Una función de probabilidad PX (x) tiene las siguientes propiedades:

1. 0 ≤ PX (x) ≤ 1, ∀x ∈ R.
P
2. x∈RX PX (x) = 1, donde x ∈ RX indica que la suma se hace sobre todos los x que pertenecen al rango
RX de X.
P
3. P (X ∈ A) = x∈A PX (x), ∀A ⊆ RX .

Todo lo anterior se debe a que PX (x) evaluada en un punto x, proporciona una probabilidad,
de modo que necesariamente debe estar entre 0 y 1. Si sumamos todas las probabilidades de los
elementos de RX , en realidad estamos hallando la probabilidad total del espacio muestral, y ésta
vale 1.

Ejemplo 1.41. Sea X una v.a. discreta (v.a.d.) tal que RX = {1, 2, 3, ..., N } y P (X = x) = αx , con α > 0
una constante. Hallar α y PX .
Facultad de Ciencias Sociales PUCP 43

Solución: Aplicando la propiedad 2 anterior:


n
X n
X  
PX (x) = 1 ⇔ αx = 1 ⇔ αN (N + 1) 2 = 1 ⇔ α = 2 N (N + 1).
x=1 x=1

Por tanto: 
2

 N (N +1)
x si x = 1, 2, 3, . . . , N
PX (x) = 


 0 en otro caso.

1.7.4. Variable continua y función de densidad


Cuando la variable es discreta, podemos distribuir probabilidades sobre sus valores asignando
a cada uno, una probabilidad, por pequeña que ella sea. Pero cuando el rango de posibles valores
es un intervalo, esto es, cuando X es continua, hay que adaptar el sistema de distribución de
probabilidades sobre RX . Al respecto, un matemático ruso explicaba el punto ası́:
“Si la abuelita tiene 4 papas para distribuir entre 4 nietos, la abuelita da a cada nieto una
papa; si son 8 los nietos, parte cada papa en dos y da a cada nieto media papa; pero si son 11
nietos, entonces . . . la abuelita hace puré y reparte la masa entre todos”.

Distribución empírica del tiempo, n = 40 Distribución empírica del tiempo, n = 200

0.10 0.10
Densidad

Densidad

0.05 0.05

0.00 0.00
0 5 10 15 0 5 10 15
Tiempo Tiempo

Distribución empírica del tiempo, n = 900 Función de densidad del tiempo


0.15
Función de densidad

0.10
0.10
Densidad

0.05 0.05

0.00 0.00
0 5 10 15 20 25 0 5 10 15 20
Tiempo Tiempo

Figura 1.9: Histogramas empı́ricos y función de densidad para el tiempo de escape en minutos de
las ratas sin memoria en el experimento del ejemplo 1.39

Notemos que si RX es un intervalo, fı́sicamente es imposible registrar la ocurrencia exacta de un


valor especı́fico de X; por ejemplo, el tiempo X que demora una rata sin memoria en escapar del
laberinto del ejemplo 1.40 puede ser 18 minutos o 18 minutos y 01 segundo o 17 minutos y 58
segundos, etc. de modo que nunca podremos estar seguros de haber registrado el valor real. Lo
más sano es considerar que el valor registrado representa a un entorno de valores cercanos a él.
Es decir, con variables continuas, más que estar interesados en la ocurrencia de valores, debemos
44 ÍNDICE GENERAL

pensar en la ocurrencia de intervalos de valores. Por tanto, necesitamos una función que distribuya pro-
babilidades sobre los intervalos contenidos en RX , no sobre los valores de X. Esta función debe distribuir
la probabilidad total que es 1, de modo mas bien continuo, haciendo “más densos en probabilidad” a
algunos intervalos, y “menos densos” a otros. El modo natural de hacer esta distribución de densi-
dades de probabilidad es mediante la gráfica (continua) de la función. En realidad, este proceso ya
se conoce desde la estadı́stica descriptiva, cuando los datos se agrupan en intervalos y se registra
la frecuencia relativa de cada uno. Un ejemplo de ello se ilustra en el lado izquierdo de la figura
1.9. En el se ha graficado el histograma de un conjunto de datos experimentales del tiempo que
demoraron primero las ratas sin memoria en escapar del laberinto en 40 experimentos, luego de
este tiempo cuando se amplió el experimento a considerar 160 más y finalmente cuando se añadie-
ron 700 experimentos más. Note que una forma de asegurar que las ratas no tengan memoria es
conducir cada experimento con ratas distintas. En el eje Y se ha considerado la “densidad” defini-
da como el cociente entre la frecuencia relativa de ratas que demoran el tiempo consignado en el
intervalo y el ancho de cada intervalo. Esto se ha hecho simplemente para normalizar la gráfica,
en el sentido de que la suma de todas las areas bajo los rectángulos del intervalo den 1. Ahora
bien, si se toma cada vez un número más grande de experimentos e intervalos, el polı́gono tiende,
como se aprecia en la figura 1.9, a “suavizarse” y a devenir en una curva continua. Esta curva, que
se ilustra en el lado derecho de la figura 1.9 y que la llamáremos fX (x), es candidato natural para
distribuir probabilidades mediante las áreas que corresponden a cada intervalo contenido en RX .

Ejemplo 1.42. Suponga que para la rentabilidad anual X de un fondo mutuo sabemos que X puede
estar entre 0 y 2 % de modo que el rango de X es RX =[0,2]. Para la distribución de probabilidades de
X tenemos cuatro alternativas plausibles según la experiencia de cuatro expertos, que nos inducen a
postular los siguientes cuatro “modelos” para X:

Modelo 1. Pensamos que puede ocurrir cualquier valor con la misma verosimilitud. Ası́, podemos usar
probabilidad geométrica y distribuir la probabilidad sobre RX de manera que cualquier intervalo de la
misma longitud tenga igual área (o sea probabilidad).

Modelo 2. Pensamos que valores de X entre 1 y 2 son el doble de probables que valores entre 0 y 1. Ası́,
podemos distribuir la probabilidad sobre RX de manera que el intervalo [0,1[ reciba la mitad del área
que el intervalo [1,2].

Modelo 3. Pensamos que la probabilidad de una rentabilidad es proporcional a ésta, de modo que va-
lores de X cercanos a 2 tienen más probabilidad. Ası́, podemos asignar áreas de modo que ésta “crezca”
proporcionalmente a X.

Modelo 4. Pensamos que la probabilidad crece hasta que se llega a 1 y luego decrece a la misma tasa
hasta llegar a 2.

Claramente, como el rango es el mismo RX =[0,2], la asignación de áreas arriba descrita solo puede
validarse si se asume que la “parte superior que acota estas áreas” es una curva que representa la gráfica
de las siguientes funciones de densidad para X:
Facultad de Ciencias Sociales PUCP 45

Modelo 1 Modelo 2 Modelo 3 Modelo 4


( (
a si 0 ≤ x < 1 a + bx si 0 ≤ x < 1
fX (x) = c, fX (x) = fX (x) = cx, fX (x) =
b si 1 ≤ x ≤ 2 c + dx si 1 ≤ x ≤ 2
0≤x≤2 0≤x≤2
1
( (
1 3 si 0 ≤ x < 1 1 x si 0 ≤ x < 1
fX (x) = 2, fX (x) = 2
si 1 ≤ x ≤ 2
fX (x) = 2 x, fX (x) =
2 − x si 1 ≤ x ≤ 2
3
0≤x≤2 0≤x≤2

Modelo 1 Modelo 2 Modelo 3 Modelo 4

1.00 1.00 1.00 1.00

0.75 0.75 0.75 0.75

0.50 0.50 0.50 0.50


y

y
0.25 0.25 0.25 0.25

0.00 0.00 0.00 0.00

0.0 0.5 1.0 1.5 2.0 2.5 0.0 0.5 1.0 1.5 2.0 2.5 0.0 0.5 1.0 1.5 2.0 2.5 0.0 0.5 1.0 1.5 2.0 2.5
x x x x

Figura 1.10: Modelos de densidad alternativos para la rentabilidad en el ejemplo 1.42

Definición 1.8. Si X es una v.a. continua, una función de densidad para X, denotada por fX (x), es
cualquier función no negativa, tal que para todo intervalo ]a,b] ⊆ RX se cumple:
Z b
P (a < X ≤ b) = fX (x)dx.
a

Observaciones:

fX (x) no proporciona ninguna probabilidad directamente; solo al ser integrada sobre un


intervalo determina la probabilidad del mismo. Por eso no es problema que fX (x) sea mayor
que 1.

Como sabemos, P (a < X ≤ b) representa el área debajo de la gráfica de fX (x) entre a y b. Véase
la figura 1.11.

Como (X = a) = (a < X ≤ a) y el área debajo de fX (x) sobre este intervalo es cero, se concluye
que con variables continuas, los puntos tomados aisladamente tienen probabilidad cero. Esto
no quiere decir, sin embargo, que ello no pueden ocurrir.
46 ÍNDICE GENERAL

Se desprende que P (a < X ≤ b) = P (a ≤ X ≤ b) = P (a ≤ X < b) = P (a < X < b), pues en todos


los casos, se añade o se quita un punto de probabilidad cero, lo que no altera la probabilidad
del intervalo.

0.3

0.2
f_X(x)

0.1

0.0

0 5 10 15
x

Figura 1.11: P (5 ≤ X ≤ 10) o área bajo la gráfica de fX (x) sobre el intervalo [5, 10]

Una función de densidad fX (x) tiene las siguientes propiedades:

1. fX (x) ≥ 0, ∀x ∈ R.
R +∞ R
2. −∞ fX (x)dx = R fX (x)dx = 1.
X
R
3. P (X ∈ A) = f (x)dx.
A X

Ejemplo 1.43. En el ejemplo 1.37 de la licitación, halle una función de densidad para la v.a. X definida
como X = Precio de venta.
Solución: Ya vimos que P (X ≤ x) = x2 para un valor x en RX . Luego si fX (x) es una función de densidad
para X, se debe cumplir que: Z x
P (0 < X ≤ x) = fX (t)dt = x2 .
0
Si derivamos con respecto a x y aplicando el teorema fundamental del cálculo, se sigue que fX (x) = 2x.
Luego, podemos definir como una función de densidad de X a fX (x) = 2x, para 0 ≤ x ≤ 1. Trabajando
Facultad de Ciencias Sociales PUCP 47

con más generalidad: (


2x si 0 ≤ x ≤ 1
fX (x) =
0 en otro caso.
Ejemplo 1.44. Asuma que el tiempo X (en años) que demora una empresa nueva en consolidarse en el
mercado, es una v.a.c. con función de densidad
(
ax si 0 ≤ x ≤ 0.5
fX (x) =
b si 0.5 < x ≤ 1
donde a y b son constantes positivas. Halle a y b, si se sabe que con 60 % de probabilidad, la empresa
estará consolidada antes de medio año.

2
y

0.00 0.25 0.50 0.75 1.00


x

Figura 1.12: Función de densidad del tiempo de consolidación de la empresa en el ejemplo 1.44

Solución: Como P (0 ≤ X ≤ 0.5) = 0.6, entonces 0.25a/2 = 0.6 y despejando tenemos a = 4.8. Por
complemento P (0.5 ≤ X ≤ 1) = 0.4 y por tanto (1 − 0.5)b = 0.4 o b = 0.4/0.5 = 0.8. Finalmente, como
también se aprecia en la figura 1.12.
(
4.8x si 0 ≤ x ≤ 0.5
fX (x) =
0.8 si 0.5 < x ≤ 1
Definición 1.9 (Función de distribución acumulativa). Si X es una v.a., se define la función de dis-
tribución acumulativa de X, denotada por FX , mediante la regla de correspondencia:

FX (x) = P (X ≤ x), ∀x ∈ R.

FX tiene como principal función simplificar el cálculo de probabilidades, en particular con


variables continuas. Muchas de estas distribuciones vienen en tablas donde figuran las diversas
probabilidades acumuladas FX (x) para sucesivos valores de x.
48 ÍNDICE GENERAL

Ejemplo 1.45. Para la v.a. discreta X con función de probabilidad PX (x) = 1/5, si x = 1, 2, 3, 4, 5, es
fácil verificar que FX (x) = P (X ≤ x) = x/5, cuando x = 1, 2, 3, 4, 5. En cambio, para X del ejemplo de la
licitación, tenemos FX (x) = P (X ≤ x) = x2 , cuando 0 < x ≤ 1.

Proposición 1.8. La función de distribución satisface las siguientes propiedades

1. 0 ≤ FX (x) ≤ 1, para todo x real.

2. FX es no decreciente, esto es, si a < b entonces FX (a) ≤ FX (b).

3. FX es continua a la derecha, es decir, FX (x) = Lim+ FX (x + h) para todo x ∈ R.


h→0

4. Lim FX (x) = 0 y Lim FX (x) = 1.


x→−∞ x→+∞

5. P (a < X ≤ b) = FX (b) − FX (a).

6. P (X = b) = FX (b) −Lim

FX (b + h).
h→0
X
7. Si X es v.a. discreta con función de probabilidad PX (x), entonces FX (b) = PX (x).
{x∈ RX / x≤b}

dFX (x)
8. Si X es una v.a. continua, fX (x) = dx .

Demostración: 1. Es consecuencia directa de la definición, pues FX (x) es una probabilidad.


2. Se deduce del hecho que (X ≤ a) ⊆ (X ≤ b) y la propiedad 5 de monotonı́a en la proposición 1.2.
3. Si definimos los eventos An = (X ≤ x + n1 ), estos conforman una sucesión no creciente tales que
T∞ c c + S∞ c
n=1 An = (X ≤ x). Tomándoles complemento se cumple que An ⊆ An+1 , ∀n ∈ N y que n=1 An =
(X > x). Por la propiedad 5 de continuidad en la proposición 1.3, se sigue entonces que P (X > x) =
lı́mn→∞ P (Acn ) o, equivalentemente de tomarse complementos

1
FX (x) = lı́m P (An ) = limn→∞ P (X ≤ x + ) = lı́m+ FX (x + h).
n→∞ n h→0

4. Obviamente (X ≤ −∞) = ∅ y (X ≤ +∞) = Ω de donde se deduce la propiedad.


5. Puesto que (X ≤ b) = (X ≤ a) ∪ (a < X ≤ b), entonces P (X ≤ b) = P (X ≤ a) + P (a < X ≤ b). Ası́,
FX (b) = FX (a) + P (a < X ≤ b) y P (a < X ≤ b) = FX (b) − FX (a).
6. Podemos usar un razonamiento similar al de la propiedad 3, de definir la sucesión de eventos no
creciente An = (b − n1 < X ≤ b) que satisface (X = b) = ∞
T
S∞ n=1 An . Luego por la propiedad de continuidad,
P (X , b) = P ( n=1 Acn ) = lı́mn→∞ P (Acn ). Tomándose complementos y usándose la propiedad 5. se tiene
finalmente que P (X = b) = lı́mn→∞ P (An ) = lı́mn→∞ P (b − n1 < X ≤ b) = lı́mn→∞ FX (b) − FX (b − n1 ) =
FX (b) − lı́mh→0− FX (b + h).
7. Si X es una v.a. discreta, el evento (X [≤ b) puede escribirse como una unión de eventos disjuntos:
(X ≤ b) = {ω ∈ Ω / X(ω) ≤ b} = {ω ∈ Ω / X(ω) = x}. Por tanto, FX (b) = P (X ≤ b) =
X X {x∈RX / x≤b}
P (X = x) = PX (x).
{x∈RX / x≤b} {x∈RX / x≤b}
8. Es consecuencia directa del teorema fundamental del cálculo. 
Facultad de Ciencias Sociales PUCP 49

Observación:

Si una v.a. X es discreta, la correspondiente función de distribución acumulativa FX (x) será


siempre una “función tipo escalera” con una cantidad finita o numerable de saltos; en cam-
bio si X es continua, FX (x) será absolutamente continua.

En tratamientos más avanzados del concepto de variable aleatoria, es preferible definir pri-
mero la función de distribución acumulativa FX (x) y luego, según las propiedades de esta
función, definir a la correspondiente variable aleatoria como “discreta”, “continua” o “mix-
ta”.

Ejemplo 1.46. Se toman k números al azar y con reposición del conjunto {1,2,. . . ,n}, 1< k < n. Halle la
función de probabilidad de X =Máximo de los k números seleccionados.
Solución: Es claro que RX = {1, 2, ..., n}. Sea x ∈ RX un valor dado, entonces por combinatorias hay n
posibilidades en cada una de las k extracciones ası́ que el número total de posibilidades es n×n×...×n = nk .
Luego que el máximo de los k números sea menor o igual que x equivale a que todos los k números
extraı́dos sean menores o iguales que x, lo que puede ocurrir de x × x × ... × x = xk maneras. Tenemos
| {z }
k veces
 k  k
k
x−1 k
 
x x x
entonces que FX (x) = P (X ≤ x) = nk
= n y ası́ PX (x) = FX (x) − FX (x − 1) = n − n .

Ejemplo 1.47. Una v.a.c. X positiva satisface P (t < X ≤ t + dt|X > t) = αdt para dt suficientemente
pequeño. Halle la función de densidad de X.
F (t+dt)−F (t) F (t+dt)−F (t)
Solución: P (t < X ≤ t + dt|X > t) = αdt ⇔ X 1−F (t)X = αdt ⇔ X dt X = α(1 − FX (t)). Tomando
X
entonces el lı́mite cuando dt tiende a cero tenemos:

dFX (t)
= α(1 − FX (t)) = α − αFX (t).
dt
0
Para simplificar escribamos y = FX (t). Ello nos conduce a la ecuación diferencial y + αy = α cuya
solución es y(t) = 1 − e−αt y ası́ llegamos a que FX (t) = 1 − e−αt y por tanto la función de densidad de X
es fX (x) = αe−αx , ∀x > 0 .

1.8. Valor esperado o esperanza matemática


Si bien en la función de probabilidad o densidad, está contenida toda la información acerca del
comportamiento de una variable aleatoria, a veces es menester representar toda la distribución
mediante unos pocos indicadores que resuman el rango de posibles valores de X. Esto se hace
recurriendo al concepto de valor esperado.

Definición 1.10. Sea X variable aleatoria y H(X) una función de X, se define el valor esperado de
H(X), denotado E(H(X)), mediante:
( P
x∈RX H(x)PX (x) si X es una v.a. discreta
E(H(X)) = R +∞
−∞
H(x)fX (x)dx si X es una v.a. continua
50 ÍNDICE GENERAL

Observaciones:

Aunque no se precisa enR la definición, se requiere que haya convergencia absoluta, i.e. que
P +∞
x∈RX |H(x)|PX (x) < ∞ o −∞ |H(x)|fX (x)dx < ∞. Esto es ası́ para que no haya ambigüedad en
el número obtenido, pues de no darse esta convergencia, el valor de la serie puede depender
del orden en la suma, o el valor de la integral puede depender del orden al tomar lı́mites al
infinito. Como consecuencia, hay casos en donde E(H(X)) no existe.

Como X es aleatoria, H(X) también lo es, pudiendo tomar distintos valores, según lo que el
azar determine para X. En este sentido, es necesario calcular un ”valor resumen”, que re-
presente a H(X) y permita tomar decisiones. El valor esperado (o la esperanza matemática)
E(H(X)) es ese “representant” o “valor resume”. Note que se trata de un número real que ya
no depende de X y que va en sus mismas unidades.

Operacionalmente, E(H(X)) es un promedio ponderado de los valores de H(X), donde el


factor de ponderación (“peso”) está asociado a la probabilidad de X vı́a PX (x) o fX (x) según
sea el caso.

Ejemplo 1.48. Se lanza un dado según la apuesta: Si sale el 1 se gana U$S 2, si sale el 6 se gana US$
10, en otro caso se pierde US$ 6. Sea X el número que muestra el dado y sea H(X) la utilidad, para el
jugador en esta apuesta. Halle E(H(X)). ¿Le conviene este juego al apostador?
Solución: La función de probabilidad de X es:

x 1 2 3 4 5 6
PX (x) 1/6 1/6 1/6 1/6 1/6 1/6

y H(X) responde a



 2 si x = 1

H(X) =  −6 si x = 2, 3, 4, 5



 10 si x = 6

con las probabilidades siguientes:

x 1 2 3 4 5 6
PX (x) 1/6 1/6 1/6 1/6 1/6 1/6
H(x) 2 -6 -6 -6 -6 10

Aplicando entonces la definición del valor esperado:


X 1 1 1 1 1 1
E(H(X)) = H(x)PX (x) = (2) × + (−6) × + (−6) × (−6) × (−6) × + (10) × = −2
6 6 6 6 6 6
x∈RX

Interpretando E(H(X)): Si usamos la noción frecuencial de probabilidad, esperarı́amos que de seis lanza-
mientos, en uno de ellos ocurriera el 1 (por tanto se gana US$ 2), en otro se presentarı́a el 6 (ganándose
entonces US$ 10) y en el resto de casos se perderı́a (a razón de de US$ 6 por cada vez). O sea que al
cabo de 6 lanzamientos, esperamos retirarnos de la mesa de juego con 12-24 =-12 US$. Es decir, en esta
Facultad de Ciencias Sociales PUCP 51

apuesta, la tendencia es a perder a razón de US$12 por cada 6 jugadas. Si lanzáramos el dado 12 veces, la
pérdida serı́a de US$ 24; Si jugamos 18 veces, perderı́amos US$ 36; en 36 jugadas, perderı́amos US$ 72,
etc. En general, si hacemos N lanzamientos, perderemos (N /6) × 12 = N (12/6) = 2N dólares en total. Es
decir, podemos calcular un ı́ndice que indica la pérdida esperada por cada lanzamiento y permite prever
la pérdida en una cantidad general de lanzamientos. Este ı́ndice es precisamente E(H(X)) = −2. El signo
negativo muestra que la tendencia es a la pérdida, y el valor 2 indica el monto de ésta “por jugada”, para
poder calcular la pérdida global en general. Note que E(H(X)) = −2 no es un valor “real”, sino solo un
ı́ndice que representa la tendencia de los valores de H(X), un ı́ndice útil para cálculos posteriores.

Ejemplo 1.49. En el ejemplo 1.42 de X = Precio pagado en una privatización, calculemos el esperado
de esta v.a. (i.e., trabajamos con H(X) = X).
Solución: Recordemos que la función de densidad de X es:
(
2x si 0 ≤ x ≤ 1
fX (x) =
0 en otro caso.

Luego, y siendo rigurosos en la presentación formal:


Z +∞ Z 0 Z 1 Z +∞
E(X) = xfX (x)dx = xfX (x)dx + xfX (x)dx + xfX (x)dx
−∞ −∞ 0 1

1
x3 1
Z
= x2xdx = 2 = 2/3 = 0.67.
0 3 0
Podemos decir que, en promedio, esperamos que la empresa se venda en 670 mil unidades monetarias.

1.8.1. Casos especiales de valor esperado


La media poblacional Se denota µ o µX y se define como el valor esperado de la misma v.a. X, o
sea µX = E(X). Se dice que µX representa a X, mejor dicho, representa a la mayorı́a de los valores
de X. En ese sentido es el ”valor tı́pico de X”.
La varianza poblacional Se denota σ 2 o σX2 o V (X) y se define como el valor esperado de la
diferencia al cuadrado entre X y su representante µX . Es decir, σX2 = V (X) := E((X − µX )2 ). σX2 es
la distancia al cuadrado y promedio entre un valor cualquiera de X y el representante de X, µX .
Mide la variabilidad presente en los valores de X.
La desviaci
q ón estándar Se denota σ o σX y se define como la raı́z cuadrada de la varianza. Esto es,
σX = σX2 . A diferencia de la varianza, esta está medida en las mismas unidades que la variable.
Una desigualdad muy útil que relaciona la probabilidad con el concepto de valor esperado es
la siguiente.

Proposición 1.9 (Desigualdad de Markov generalizada). Si g : R → [0, ∞[ es una función medible1 ,


entonces
E(g(X))
P (g(X) ≥ a) ≤ , ∀a > 0.
a
1 Esta es una condición técnica que en nuestro curso siempre se cumplirá y que técnicamente significa que los con-

juntos {x ∈ R / g(x) ≤ a} deben de pertenecer, para cualquier a ∈ R, a la σ −álgebra de Borel.


52 ÍNDICE GENERAL

Demostración: Asumamos que X es una v.a. continua. El caso discreto es similar y queda como ejercicio.
Si a > 0, entonces
Z∞ Z Z
E(g(X)) = g(x)fX (x)dx = g(x)fX (x)dx + g(x)fX (x)dx
−∞ {x/g(x)<a} {x/g(x)≥a}
Z
≥a fX (x)dx = aP (g(X) ≥ a),
{x/g(x)≥a}

pues la primera integral a derecha en la primera igualdad es no negativa. 

Tomando g(x) = (x − µX )2 en la proposición anterior, obtendremos el siguiente resultado que


nos devela de alguna manera el rol que desempeña la desviación estándar de una distribución.

Proposición 1.10 (Desigualdad de Tchebychev). Si X es v.a. con media µX y desviación estándar σX


y K una constante positiva dada, entonces:
1
P (|X − µX | < KσX ) ≥ 1 − .
K2
Demostración: Tomando la sugerencia previa a la proposición y posterior a la desigualdad de Markov
generalizada, tenemos que para cualquier a > 0:

E((X − µX ))2 σX2


P ((X − µX )2 ≥ a) ≤ =
a a

a
Definiendo entonces K = σX , la cual sigue siendo una constante positiva aritraria pues a lo es, se tiene
que
1
P (|X − µX | ≥ KσX ) ≤
.
K2
La proposición se sigue entonces de tomar el complemento a esta probabilidad. 

Observaciones:

Esta desigualdad es general y muy informativa. Por ejemplo, si tomamos K = 3, entonces


P (|X − µX | < 3σX ) ≥ 1 − 312 = 98 = 0.89 o equivalentemente el intervalo [µX − 3σX , µX + 3σX ]
contiene a casi todos sus valores (89 % o más de ellos) independientementede cuál sea la
distribución de X.

Aunque no es propiamente lo mismo, se interpreta a σX como la “distancia promedio” entre


X y su representante µX . Interpretada ası́, como una distancia promedio entre X y µX , σX
mide el ”margen de error” de µX como representante de X.

1.8.2. Propiedades
El trabajo con el valor esperado, para ser simple, necesita del estudio de algunas propieda-
des. Veremos algunas, desarrollando la demostración para el caso continuo. En el caso discreto
basta cambiar las integrales por sumatorias, de modo que las propiedades podemos considerarlas
generales. Las más importantes son las siguientes:
Facultad de Ciencias Sociales PUCP 53

Proposición 1.11. 1. Si X es una v.a. y c es una constante, entonces E(c) = c.

2. Si X es una v.a., a una constante y G(X) una función de X, entonces E(aG(X)) = aE(G(X)).

3. Si X es una v.a. , a y b constantes dadas y H1 (X) y H2 (X) funciones de X, entonces E(aH1 (X) +
bH2 (X)) = aE(H1 (X)) + bE(H2 (X)). En particular E(a + bX) = a + bE(X).

4. d) V (X) = E(X 2 ) − µ2X R.


∞ R R
Demostración: 1. E(c) = −∞ cfX (x)dx = c x∈R fX (x) = c, pues x∈R fX (x) = 1.
X X
Puesto que 2. es 3. con b = 0, mostremos de manera más general 3.:
Z∞
E(aH1 (X) + bH2 (X)) = (aH1 (x) + bH2 (x))fX (x)dx
−∞
Z ∞ Z ∞
=a H1 (x)fX (x)dx + b H2 (x)fX (x)dx = aE(H1 (X)) + bE(H2 (X)).
−∞ −∞
4. Por las propiedades anteriores V (X) = E((X − µX )2 ) = E(X 2 − 2µX X + µ2X ) = E(X 2 ) − 2µX E(X) + µ2X =
E(X 2 ) − µ2X . 
Observaciones:

Note que en la linealidad debe cumplirse en forma estricta, en caso contrario


( la propiedad
2 si X ≤ 0
no se cumple. Por ejemplo, bajo una transformación lineal por tramos Y = ,
3X si X > 0
se tiene que E(Y ) , 2 + 3E(X).

Si consideramos el sı́mbolo E(·) como un “operador”, resulta que tiene las propiedades bási-
cas de un “operador lineal”, compartidas con otros operadores análogos y ya conocidos,
como la derivada por ejemplo. Pero debe recordarse que en general E(H(X)) , H(E(X)).

Ejemplo 1.50. En el caso del ejemplo 1.36 que define la v.a. X = Precio de venta en una privatización:
a) Halle el rango de valores más probables para X: µX ± σX .

b) Si la privatización implica el pago de 5 mil unidades monetarias a una empresa tasadora y el pago
de un 4 % de la venta a una empresa encargada de la privatización ¿Cuál es el Ingreso esperado para el
estado?

c) Verifique que E(X 3 ) , (E(X)3 .


Solución: a) solo faltarı́a hallar σX2 . Apliquemos la propiedad V (X) = E(X 2 ) − µ2X . Como E(X 2 ) =
R1 1
2 2xdx = x4 = 1 , entonces σ 2 = 1 − 2 2 = 1 y σ =
  √
0
x 2 2 X 2 3 18 X 1/18 = 0.24. Luego, el intervalo de
0
‘valores más probables’ para X es 0.67 ± 0.24 o sea [0.43, 0.91], i.e. esperamos un precio de venta entre
430 mil y 910 mil unidades monetarias.
b) Sea Y = H(X)=Ingreso del Estado. Entonces Y = X − (0.05 + 0.04X) = 0.96X − 0.05. Ası́, E(Y ) =
E(0.96X − 0.05) = 096E(X) − 0.05 = 0.5932, es decir, el estado espera recibir 593,200 unidades mone-
tarias por la empresa.
5 1
R1 R1  3
c) E(X 3 ) = x3 2xdx = 2x4 dx = 2 x = 2 y (E(X))3 = 2 = 8 ; esto es, E(X 3 ) , (E(X))3 .
0 0 5 0 5 3 27
54 ÍNDICE GENERAL

Ejemplo 1.51. Si en el ejemplo de la privatización previo, se paga un impuesto “por tramos”: precios
inferiores a 0.5 millones pagan un 1 % del ingreso y precios de 0.5 o más, pagan 4 %. ¿Cuál serı́a la
recaudación por impuestos esperada para privatizaciones de este tipo?
Solución: La recaudación por impuesto no es función lineal sino lineal por tramos, es decir, si llamamos
Y a la variable recaudación:
(
0.01X si 0 < X < 0.5
Y = H(X) =
0.04 si 0.5 ≤ X ≤ 1

No podemos usar la propiedad de linealidad E(Y ) = a + bE(X), sino calcular el valor esperado aplicando
la definición misma:
Z 1 Z 0.5 Z 1
E(H(X)) = H(x)fX (x)dx = H(x)fX (x)dx + H(x)fX (x)dx
0 0 0.5
Z 0.5 1
x3 0.5 x3 1
Z
= 0.01x2xdx + 0.04x2xdx = 0.02 + 0.08 = 0.0242.
0 0.5 3 0 3 0.5
El valor esperado E(·) es una herramienta que se puede usar no solo para medir o identificar
la “tendencia principal” de una función H(X) de una v.a. X, sino también para “dirigir” H(X),
que dependiendo del azar vı́a X, en principio toma valores fuera de nuestro control. El método es
introducir en el problema alguna variable no aleatoria (variable matemática) S en H(X) y pasar
a algo como H(X, S), luego tomar el valor esperado con respecto a X: E (H(X, S)) que resultará en
una función de S, digamos ϕ (S) B E (H(X, S)), que pone la “tendencia principal” de H(X, S) como
dependiente de S, que es una variable que sı́ podemos controlar para “optimizar” (en promedio)
a H(X, S).

Ejemplo 1.52. El distribuidor de un solvente industrial tiene la polı́tica de comprar al inicio de la tem-
porada de ventas una existencia (‘stock’) de S unidades de volumen a 4 unidades monetarias. Durante la
temporada vende el producto a 7 unidades monetarias por unidad de volumen; al final de temporada re-
mata el sobrante a 3 unidades monetarias por unidad de volumen. Si la demanda (cantidad demandada)
1
de solvente al distribuidor es una v.a.c. X con función de densidad fX (x) = 100 , si 0 < x < 100.

a) Escriba la función de utilidad U = U (X, S) del distribuidor.

b) Determine el valor óptimo de S.

Solución: a) Si U es la utilidad del distribuidor, entonces U depende de S y de X, pues si X ≤ S, durante


la temporada vende X unidades y al final de la temporada remata las (S − X) unidades sobrantes, de
modo que U = 7X + 3 (S − X) − 4S = 4X − S. De otro lado, si X > S, durante la temporada vende todo su
stock S y nada más. En este caso U = 3S, aunque quede una demanda insatisfecha por (X − S) unidades
de volumen. En resumen (
4X − S si X ≤ S
U = U (X, S) =
3S si X > S
U tiene una componente aleatoria X y otra no aleatoria S y “lo óptimo” serı́a maximizar la utilidad U;
pero cómo ésta es aleatoria, maximicemos el valor esperado de la utilidad E (U ): E (U ) = E [U (X, S)] =:
Facultad de Ciencias Sociales PUCP 55

ϕ(S) que es una función de S. Calculando S de modo que se maximice la utilidad esperada ϕ(S), deter-
minamos el stock “óptimo” S que induce una ‘tendencia óptima’ para la utilidad U. Veamos:
Z +∞ Z 100
ϕ (S) = E(U (X, S)) = U (x, S) fX (x) dx = U (x, S) fX (x) dx
−∞ 0
Z S Z 100 Z S Z 100
= U (x, S) fX (x) dx + U (x, S) fX (x) dx = (4x − S) fX (x) dx + 3SfX (x) dx
0 S 0 S
Z S Z S Z 100 Z S
= 4xfX (x) dx − SfX (x) dx + 3S fX (x) dx = 4 xfX (x) dx − SFX (S) + 3S (1 − FX (S)) .
0 0 S 0
RS
Ası́, ϕ (S) = E(U (X, S)) = 4 0 xfX (x) dx − 4SFX (S) + 3S es explı́citamente una función diferenciable de
S que podemos maximizar mediante derivación:
0 dϕ(S) 0
ϕ (S) = = 4SfX (S) − 4FX (S) − 4SFX (S) + 3 = 4SfX (S) − 4FX (S) − 4SfX (S) + 3 = −4FX (S) + 3
ds
0 dϕ(S) 00
y ϕ (S) = = 0 equivale a FX (S) = 43 . Como ϕ (S) = −4fX (S) > 0, se trata de un máximo. Final-
ds RS
1 1
mente, como fX (x) = 100 , si 0 < x < 100, FX (S) = 0 100 S
dx = 100 = 43 implica que S = 75 es el valor
“óptimo” del stock S (u “stock óptimo”).
Ejemplo 1.53. Un comerciante desea averiguar el stock óptimo mensual en litros S que deberı́a adquirir
de un bien perecedero. El precio de compra del bien es de a u.m. el litro y el de venta de b u.m. el litro. Si
a fin de mes, le sobra cierta cantidad del bien, él lo rematará a c u.m. el litro; mientras que si le falta para
satisfacer la demanda, comprará más del bien a d u.m. el litro (se asume que los precios dados satisfacen
la relación: c < a < d < b). Si la demanda mensual del bien en litros es una v.a. continua X con función
de distribución conocida FX y se tiene un costo fijo mensual de e u.m., determine el valor óptimo de S.
Solución: La función de utilidad mensual del comerciante, que depende del stock S que él adquiere y de
la demanda del bien, viene dada por:
(
bX + c(S − X) − aS − e si X ≤ S
U ≡ U (X, S) =
bX − aS − d(X − S) − e si X > S.
ó (
(b − c)X + (c − a)S − e si X ≤ S
U ≡ U (X, k) =
(b − d)X + (d − a)S − e si X > S.
El valor esperado de la utilidad mensual del comerciante, que lo denotaremos como antes por ϕ(S), es
entonces:
Z∞ ZK Z∞
ϕ(S) = E(U (X, S)) = U (x, S)fX (x)dx = U (x, S)fX (x)dx + U (x, S)fX (x)dx
−∞ −∞ S
Z S Z ∞
= ((b − c)x + (c − a)S − e)fX (x)dx + ((b − d)x + (d − a)S − e)fX (x)dx
−∞ S
R∞ RS R∞ RS
Recordando que S X
f (x)dx = 1− −∞
fX (x)dx y que =S
µ X − xf (x)dx se tiene que:
xfX (x)dx
−∞ X
Z S ZS
ϕ(S) = (d − c) xfX (x)dx + (c − d)S fX (x)dx + (d − a)S + (b − d)µX − e (∗).
−∞ −∞
56 ÍNDICE GENERAL

El stock óptimo será aquel que maximize la utilidad esperada ϕ(S). Para obtenerlo podrı́amos reemplazar
fX en (*); sin embargo, esta opción resulta poco práctica en los casos que la integración resulte compli-
cada. Una opción más recomendable será aquella consistente en resolver el problema de maximización,
utilizando el teorema fundamental del cálculo al momento de derivar ϕ(S). La derivada de ϕ(S) con
respecto a S viene dada por:
ZS ZS
0
ϕ (S) = (d − c)SfX (S) + (c − d) fX (x)dx + (c − d)SfX (S) + d − a = (c − d) fX (x)dx + d − a.
−∞ −∞
00 0
Dado que ϕ (S) = (c − d)fX (S) < 0, la solución de la ecuación ϕ (S) = 0 nos provee del stock óptimo
buscado. Este viene dado por el valor S que satisface la relación:
d −a
FX (S) = .
d −c
Un aspecto que puede llamar la atención en este resultado es la aparente no dependencia de la solución
con el precio de venta unitario b. Ello sin embargo, deberı́a de estar implı́citamente modelado en la
distribución de la demanda, pues a mayor precio menor deberı́a de ser la demanda del bien. En el ejemplo
siguiente damos una solución explı́cita a este problema.

Ejemplo 1.54. Suponga que en el ejemplo anterior la demanda mensual en litros del bien es una v.a.
contı́nua con la siguiente función de densidad
− 1 500b0000 x2
 2b

 1 500 000 xe si x > 0
fX (x) = 
 0 en otro caso.

donde b es el precio en u.m. por litro a la cual se vende el bien.

a) Halle la demanda esperada mensual del bien, si el comerciante fija su precio por litro en 15 u.m.

b) Determine el stock óptimo mensual del bien, si sus precios por litro de compra, remate y compra al
por menor son de respectivamente 10, 7 y 12 u.m.
b 2
Solución: a) Haciendo el cambio de variable u = 1 500 000 x :
r

1 500 000 ∞ 3 −1 −u
Z Z
2b b
2 − 1 500 000 x 2
E(X) = x e dx = u 2 e du
0 1 500 000 b 0

Γ ( 23 ) 1 1 500 000 × π
r

= 1 500 000 √ = .
b 2 b
Por tanto, si b = 15, se tiene que E(X) = 886.229 litros.
b) Mediante el cambio de variable anterior, no es difı́cil deducir que la función de distribución de X viene
dada por:
b 2 2
FX (x) = 1 − e− 1 500 000 x = 1 − e−0.000001x , si x > 0.
Luego, por el ejercicio anterior, el stock óptimo S satisface
2
1 − e−0.000001S = .
2

5
Facultad de Ciencias Sociales PUCP 57

Por tanto este stock óptimo en litros será de


r
log(5/3)
S= = 714.7207.
0.000001

Ejemplo 1.55. Una empresa contratada para la purificación de un lote de mineral, tiene un proceso
automatizado en el cual el operario debe fijar el número k de horas que el proceso debe de trabajar y
una vez empezado ya no se detiene hasta cumplir ese plazo. Si el mineral no alcanza el nivel de pureza
suficiente hay que aplicar un segundo proceso manual, más costoso, hasta lograr la purificación. El
primer proceso le cuesta a la empresa 500 soles por hora y el segundo 800 soles por hora. Además
activar el segundo proceso cuesta 1000 soles. Por otro lado la empresa cobra el precio de mercado por la
purificación del mineral, que es 2000 soles por hora de trabajo. Si el tiempo X (en horas) que se necesita
para lograr la purificación de un lote, es una v.a. continua cuya función de densidad tiene la gráfica de
la figura 1.13,

0.25

0.20

0.15
y

0.10

0.05

0.00

0.0 2.5 5.0 7.5 10.0 12.5


x

Figura 1.13: Función de densidad para el tiempo de purificación en el ejemplo 1.55.

a) Halle la fórmula de la función de densidad y la probabilidad de que el tiempo de purificación no pase


de 2 horas.

b) Halle el valor óptimo de k.

Solución: a) La gráfica corresponde a una recta de la forma fX (x) = bx , si 0 < x ≤ 10 donde b es la


constante normalizadora que hace que el área total valga 1. Aplicando esta condición y resolviendo se
obtiene b = 1/50 y ası́ tenemos que fX (x) = x/50 , si 0 < x ≤ 10.
b) En cuanto a la utilidad, para un número prefijado k de horas de trabajo con el sistema automático
la empresa asume un costo de 500k soles, y si por mala suerte debe emplear el segundo proceso, hay un
costo de 800 soles por cada hora adicional más los 1000 soles que cuesta arrancar este otro proceso. El
ingreso en cualquier caso es 2000X soles, donde X es el tiempo total hasta purificar el mineral. En este
58 ÍNDICE GENERAL

contexto, la utilidad U de todo el trabajo es:


(
2000X − 500k si X ≤ k
U = U (X, k) =
2000X − 500k − 800(X − k) − 1000 si X > k.
(
2000X − 500k si X ≤ k
=
1200X + 300k − 1000 si X > k.
Tomando valor esperado:
Z 10 Z k Z 10
ϕ(k) := E(U (X, k)) = U (x, k)fX (x)dx = U (x, k)fX (x)dx + U (x, k)fX (x)dx
0 0 k
Z k Z 10
= (2000x − 500k)fX (x)dx + (1200X + 300k − 1000)fX (x)dx
0 k
Z k Z k Z 10 Z 10
= 2000 xfX (x)dx − 500k fX (x)dx + 1200 xfX (x)dx + (300k − 1000) fX (x)dx
0 0 k k
Z k Z 10
= 2000 xfX (x)dx − 500kFX (k) + 1200 xfX (x)dx + (300k − 1000) [1 − FX (k)]
0 k
Derivando ϕ(k) para maximizar:

ϕ 0 (k) = 2000kfX (k) − 500FX (k) − 500kfX (k) − 1200kfX (k) + 300 − 300FX (k) − 300kfX (k) + 1000fX

= −800FX (k) + 1000fX (k) + 300.


Igualando a cero la derivada de ϕ(k): ϕ 0 (k) = 0 ⇔ −800FX (k) + 1000fX (k) + 300 = 0⇔ −8FX (k) +
10fX (k) + 3 = 0 y como fX (x) = x/50 0 < x ≤ 10 y FX (x) = x2 /100 0 < x ≤ 10 , reemplazando en

8k 2
la ecuación obtenemos − 100 + 10k + 3 = 0⇔ 8k 2 − 20k − 300 = 0⇒ k = 20± 10 000 = { 7.5 . La solución
50 16 −5
negativa es absurda, ası́ que k = 7.5 es la respuesta.

Ejemplo 1.56. Un mayorista compra un bien a 3 u.m. la unidad y lo vende a 2 u.m. la unidad. La
cantidad de ese bien que le pueden demandar al mayorista es una variable aleatoria discreta X con rango
RX ={1,2,. . . ,N} y función de probabilidad PX (x). El mayorista tiene la polı́tica de comprar, al inicio de
cada campaña de ventas, una cantidad predeterminada (“stock”) S de unidades del bien y nada más,
ası́ quede demanda insatisfecha. Por otra parte, si al terminar la campaña, quedan sobrantes, éstos se
pierden y asume el costo de ello.

a) Escriba la utilidad U del comerciante como función de la demanda aleatoria X y el stock S.

b) Verifique que la utilidad esperada del comerciante E(U ) queda como función general del stock S, de
la forma E (U ) = 3 Sx=1 xP (x) − 3SF (S) + S, donde P (x) es la función de probabilidad de X y F(S) es
P

la función de probabilidad acumulativa de X evaluada en S.

c) Si denotamos mediante ϕ (S) a E (U ), para resaltar su dependencia de S, demuestre que la variación


de la utilidad esperada, cuando se pasa de un stock de S unidades a un stock de (S+1) unidades, es
ϕ (S + 1) − ϕ (S) = 1 − 3F(S).
Facultad de Ciencias Sociales PUCP 59

x 1 2 3 4 5 6 7 8
PX (x) 0.05 0.08 0.09 0.1 0.15 0.18 0.2 0.15

d) Suponga que la función de probabilidad de X es la que figura más abajo, tabule la función de dis-
tribución acumulativa y úsela para identificar el stock S más conveniente para el comerciante, esto es,
aquél que maximiza su utilidad esperada

Solución: a)
S
X S
X N
X S
X N
X
E (U ) = U (x, S)PX (x) = U (x, S)PX (x) + U (x, S)PX (x) = (3x − 2S)PX (x) + SPX (x) =
x=1 x=1 x=S+1 x=1 x=S+1

S
X S
X N
X S
X
= 3 xPX (x) − 2S PX (x) +S PX (x) = 3 xPX (x) − 2SFX (S) + S (1 − FX (S)) .
x=1 x=1 x=S+1 x=1
| {z } | {z }
FX (S) 1−FX (S)
PS
Por tanto, E(U ) = 3 x=1 xPX (x) − 3SFX (S) + S.
b) (
3X − 2S si 1 ≤ X ≤ S
U (X, S) =
S si S + 1 ≤ X ≤ N
PS
c) Sea ϕ (S) = E (U ) = 3 x=1 xPX (x) − 3SFX (S) + S, entonces

S+1
X
ϕ (S + 1) = 3 xPX (x) − 3 (S + 1) FX (S + 1) + (S + 1)
x=1
 S 
X 
= 3  xPX (x) + (S + 1)PX (S + 1) − 3 (S + 1) [FX (S) + PX (S + 1)] + (S + 1) =
x=1
 S 
 X 
= 3 xPX (x) + 3(S + 1)PX (S + 1) − 3(S + 1)FX (S) − 3(S + 1)PX (S + 1) + (S + 1)
x=1
S
X
=3 xPX (x) + 3SPX (S + 1) + 3PX (S + 1) − 3SFX (S) − 3FX (S) − 3SPX (S + 1) − 3PX (S + 1) + S + 1
x=1
S
X
=3 xPX (x) − 3SFX (S) − 3FX (S) + S + 1.
x=1

Ası́, ϕ (S + 1) − ϕ (S) = 1 − 3FX (S).


d) La distribución acumulativa FX (x) se obtiene sumando las probabilidades individuales respectivas:

x 1 2 3 4 5 6 7 8
PX (x) 0.05 0.08 0.09 0.1 0.15 0.18 0.2 0.15
FX (x) 0.05 0.13 0.22 0.32 0.47 0.65 0.85 1
60 ÍNDICE GENERAL

La variación en la utilidad, conforme aumentamos el stock S, es ϕ (S + 1)−ϕ (S) = 1−3FX (S) y mientras
esta variación sea positiva estamos bien, o sea mientras 1 − 3FX (S) > 0 ⇒ FX (S) < 13 = 0.33; luego la
condición para detenernos es que es F (S) < 13 = 0.33 o sea, mientras no pasemos de una probabilidad
acumulada de 0.33 podemos seguir aumentando S. Examinando la tabla de probabilidades acumulada,
FX (x) pasa de 0.33 cuando x = 5, o sea no debemos llegar a 5 y por tanto el stock “optimo” que
maximiza la utilidad esperada ϕ(S) = E(U ) es S=4.

Observación: Como se tiene una fórmula ϕ (S) = E (U ) = 3 Sx=1 xP (x) − 3SF (S) + S que explicita la
P

dependencia de la utilidad esperada con respecto al valor del stock S, otra alternativa de solución
es la “computacional”: Para localizar el stock optimo S, se calcula ϕ (S) para los distintos valores
posibles de S, desde 1 hasta 8 (no tiene sentido pasar de 8 porque la demanda posible no lo hace).
Trabajar ası́, a mano o con calculadora no es práctico, pero con ayuda de una hoja de cálculo y una
computadora, es sencillo realizar esta operación:

x 1 2 3 4 5 6 7 8
PX (x) 0.05 0.08 0.09 0.1 0.15 0.18 0.2 0.15
FX (x) 0.05 0.13 0.22 0.32 0.47 0.65 0.85 1
xPX (x) 0.05 0.16 0.27 0.4 0.75 1.08 1.4 1.2
PS
x=1 xPX (x) 0.05 0.21 0.48 0.83 1.42 2.23 3.23 3.68
3 Sx=1 xPX (x)
P
0.15 0.63 1.44 2.49 4.26 6.69 9.69 11.04
3SFX (S) 0.15 0.78 1.98 3.84 7.05 11.7 17.85 24
S 1 2 3 4 5 6 7 8
ϕ (S) 1.00 1.85 2.46 2.65 2.21 0.99 -1.16 -4.96

En la última lı́nea están las diversas utilidades esperadas. Por inspección se encuentra que con
S=4, es la utilidad esperada máxima. Este método computacional a veces es el único que se puede
aplicar cuando no hay fórmula explı́cita (“fórmula cerrada”) para resolver el problema.

Ejemplo 1.57. Un empresario enfrenta el problema de introducir un nuevo producto en el mercado, para
lo cual dispone de cuatro procesos de producción alternativos y excluyentes: a1 , a2 , a3 y a4 . La utilidad
obtenible con cada proceso depende de estado del mercado, clasificado según los niveles de demanda
que haya: Baja, Media o Alta, que pueden ocurrir con probabilidades 0.1, 0.5 y 0.4 respectivamente.
Las correspondientes utilidades por tipo de proceso según nivel de demanda son (en miles de unidades
monetarias):

Proceso Utilidad según el nivel de demanda


Demanda baja Demanda media Demanda alta
a1 70 120 200
a2 80 120 180
a3 100 125 160
a4 100 120 150

Considerando aleatoria la utilidad asociada a cada proceso, a largo plazo ¿Cuál serı́a el proceso más
conveniente?
Facultad de Ciencias Sociales PUCP 61

Solución: Primero evaluemos cada proceso para ver si alguno puede descartarse de antemano: un proceso
es descartable (no admisible) si es superado en todo por alguno de los otros procesos.a1 no es superado
por ningún otro proceso si la demanda fuera alta, luego no es descartable.a2 supera a a1 si la demanda
es baja y supera a a3 y a4 si la demanda es alta. No es descartable.a3 supera a a1 y a2 si la demanda es
baja o media, y a a4 si la demanda es alta. No es descartable. a4 es superado por a3 con demanda media
y alta y es igual a a3 con demanda baja. Este proceso sı́ es descartable, nunca da mejor resultado que
a3 .Podemos eliminar la cuarta fila de nuestra tabla de posibles procesos y resultados. Como los niveles
de demanda son aleatorios, las utilidades devienen en aleatorias también y podemos calcular la utilidad
esperada con cada proceso:

Proceso Utilidad según el nivel de demanda Utilidad esperada


D. baja D. media D. alta
Probabilidad 0.1 0.5 0.4
a1 70 120 200 70×0.1+120×0.5+200×0.4=87
a2 80 120 180 80×0.1+120×0.5+180×0.4=80
a3 100 125 160 100×0.1+125×0.5+160×0.4=74

El proceso a1 genera mayor utilidad esperada o promedio. A largo plazo es el proceso más conveniente.

1.8.3. Función generatriz de momentos


La distribución de la suma de variables aleatorias independientes o de transformaciones de
una v.a. no siempre son fáciles de obtener. Otro problema tı́pico es el cálculo de la media, varianza
y otros resumenes de una distribución. Para resolver estos problemas una alternativa es el uso de la
función generatriz de momentos, la cual funciona como una “huella dactilar”de una distribución
y es muchas veces más fácil de obtener. El nombre de tal función se asocia a que esta nos puede
generar, mediante diferenciación, todos los momentos de una distribución. Estos momentos se
definen seguidamente.

Definición 1.11. Si X es una v.a., se define el k−ésimo momento poblacional, denotado por mk , a

mk = E(X k ), si k = 0, 1, 2, . . .

Definición 1.12. Si X es una v.a., se define la función generatriz de momentos de X, denotada por
MX (t), mediante MX (t) := E(etX ), donde t es variable no aleatoria o variable matemática definida en un
entorno de 0.
(k)
Proposición 1.12. Si existe el k−ésimo momento muestral, entonces mk = MX (0).
zk
Demostración: Recordemos que ez = ∞
P
k=0 k! , ∀z ∈ R. En particular
∞ ∞ k
X (tX)k X t t t2 t3
e tX
= = Xk = 1 + X + X2 + X3 + . . .
k! k! 1! 2! 3!
k=0 k=0

y tomando valor esperado tenemos

t t2 t3
MX (t) = E(etX ) = 1 + E(X) + E(X 2 ) + E(X 3 ) + . . .
1! 2! 3!
62 ÍNDICE GENERAL

Derivando MX (t) con respecto a t


0 t1 t2 t1 t2
MX (t) = E(X) + 2 E(X 2 ) + 3 E(X 3 ) + .... = E(X) + E(X 2 ) + E(X 3 ) + . . .
2! 3! 1! 2!
0
Si evaluamos en t = 0 llegamos a MX (0) = E(X). Derivando dos veces MX (t) con respecto a t,
00 t t
MX (t) = E(X 2 ) + 2 E(X 3 ) + . . . = E(X 2 ) + E(X 3 ) + . . . .
2! 1!
00
Evaluando en t = 0 llegamos a MX (0) = E(X 2 ). Ası́, inductivamente se llega al resultado general. 
La proposición siguiente, que la daremos sin demostración pues requiere de técnicas más alla
de los alcances del curso, resulta sumamente conveniente al momento de identificar distribucio-
nes.
Proposición 1.13. Sean X e Y son dos variables aleatorias, entonces
MX (t) = MY (t) ⇔ FX = FY .
Ejemplo 1.58. Si PX (x) = ( 21 )x , x = 1, 2, 3, . . ., hallar MX (t) y µX .
Solución: Por definición y la aplicación de la serie geométrica para un t convenientemente pequeño:
∞ ∞
X 1 X et (et /2)
MX (t) = E(etX ) = etx ( )x = ( )x =
2 2 1 − (et /2)
x=1 x=1
t
0 (e /2) 0
Derivando luego con respecto a t: M (t) = (1−(et /2))2
y evaluando en t=0 se obtiene M (0) = E(X) = µX =
(1/2)
(1−(1/2))2
= 2.

1.8.4. Cambio de variable


El problema del cambio de variable se plantea como:Dada la v.a. X y definida Y = H(X), hallar
la distribución de Y a partir de la distribución de X. Si bien hay varias alternativas de solución
(una es usar MX (t)), nosotros exploraremos el caso en que H tenga inversa. Consideremos para ello
la función de distribución acumulativa de Y y supongamos que H −1 es creciente. Entonces FY (y) =
P (Y ≤ y) = P (H(X) ≤ y) = P (X ≤ H −1 (y)) = FX (H −1 (y)), donde FX es la distribución acumulativa
de X. Conociendo esto podemos obtener la función de densidad fY (y) o de probabilidad PY (y) de
Y mediante derivaciones o restas según sea el caso. El caso en que H −1 es decreciente se trata
de manera análoga. El método anteriormente usado se conoce como el método de la distribución
acumulativa y se puede ampliar al caso en que H no tiene inversa.
Ejemplo 1.59. En el caso de la v.a. X=Precio de venta en una privatización para el ejemplo 1.37, sea

Y = H(X) = X + 1. Halle la función de densidad de Y .

Solución: Primero especifiquemos el rango RY de Y como 0 < X ≤ 1 ⇒ 0 < X ≤ 1 y sumando 1 a

ambos lados de la desigualdad tenemos 1 < X + 1 ≤ 2 ⇒ 1 < Y ≤ 2 es el rango de la v.a. Y . Sea ahora
√ √
y ∈]1, 2], entonces FY (y) = P (Y ≤ y) = P ( X + 1 ≤ y) = P ( X ≤ y − 1) = P (X ≤ (y − 1)2 ) = FX ((y − 1)2 ).
0 0
Derivando con respecto a y obtenemos g(y) = FY (y) = FX ((y − 1)2 ) × 2(y − 1). Ya vimos que fX (x) = 2x,
por tanto fY (y) = 2(y − 1)2 × 2(y − 1) = 4(y − 1)3 y ası́ tenemos que fY (y) = 4(y − 1)3 , si 1 < y ≤ 2 es
la función de densidad de Y .
Facultad de Ciencias Sociales PUCP 63

1.8.5. Cálculo del valor esperado por desarrollo asintótico


Dada una v.a. X y una función H(X), el cálculo del valor esperado E(H(X)) se realiza usual-
mente por la definición o en ciertos casos por las propiedades del operador valor esperado E(.).
La última alternativa es muy útil pero no siempre aplicable, ya sea porque la función H(X) no es
lineal o porque es lineal por tramos. Consideremos por citar el caso de la v.a. X=Precio de venta
en una privatización del ejemplo 1.36 con función de densidad

fX (x) = 2x , si 0 < x ≤ 1.

R1 1
Ya vimos que E(X) = 2/3, pero en cambio E(X 3 ) = x 3 2xdx = 2 x5 = 2 = 0.4 , (2/3)3 , o sea
0 5 0 5
3 3
E(X ) , (E(X)) y en general no se cumple que E(H(X)) = H(E(X)). Sin embargo, cuando podamos
expresar o descomponer H(X) como una suma (posiblemente infinita) de funciones, podrı́amos
obtener el valor aproximado de E(H(X)).

Proposición 1.14. Sea X variable aleatoria con E(X) = µ y V (X) = σ 2 . Sea H(X) una función al menos
dos veces diferenciable en X = µ. Entonces se cumplen que:
00
H (µ) 2
1. E(H(X))  H(µ) + 2 σ .
0
2. V (H(X))  (H (µ))2 σ 2 .

Demostración: 1. Desarrollando H(X) en una serie de Taylor alrededor de X = µ hasta el término


cuadrático, sabemos que
00
0 (X − µ)2 H (µ)
H(X) = H(µ) + (X − µ)H (µ) + + R,
2
donde R es un residuo. Si tomamos valor esperado:
00 00
0 (X − µ)2 H (µ) H (µ)
E(H(X)) = E(H(µ)) + E((X − µ)H (µ)) + E( ) + E(R) = H(µ) + E((X − µ)2 ) + E(R),
2 2
0 0
pues E((X − µ)H (µ)) = H (µ)E(X − µ) = 0. Si además consideramos despreciable al residuo R (o sea
00
H (µ)
consideramos R = 0), obtenemos el resultado E(H(X))  H(µ) + 2 σ 2 .
2. Análogamente, para obtener una aproximación a la varianza V (H(X)), desarrollemos H(X) en serie
de Taylor alrededor de X = µ, pero hasta el término lineal o de primer grado:
0
H(X) = H(µ) + (X − µ)H (µ) + R2 ,

donde ahora R2 representa el residuo. Tomando solo los dos primeros términos escribimos H(X)  H(µ)+
0
(X − µ)H (µ) y aplicando la varianza y sus propiedades:
0 0 0
V (H(X))  V (H(µ) + (X − µ)H (µ)) = V ((X − µ)H (µ)) = (H (µ))2 V ((X − µ))

0 0
= (H (µ))2 V (X) = (H (µ))2 σ 2 . 
64 ÍNDICE GENERAL

1.9. Ejercicios
1. Sean A, B y C tres eventos, en donde A y B son eventos disjuntos y C es un evento independiente
de A y de B. Muestre que

P (A ∪ B ∪ C) = P (C) + P (A ∪ B)P (C c ).

2. Sea Ω un espacio muestral con nun número primo de elementos. Si A y B son dos eventos
independientes en este espacio muestral, muestre que A y B pueden ser o sólo Ω o el vacı́o.

3. Si A y B son dos eventos tales que P (A) = P (B) = 1, ¿ es cierto que P (A ∩ B) = 1?

4. Suponga que un coleccionista tiene en su álbum Panini (que salió para el mundial) ya 50 figuras.
Si él compra un sobre de figuras para este albúm y asume que en este puden venir cualesquiera
de 5 figuras distintas de las 670 figuras posibles del álbum, ¿con qué probabilidad le tocará
alguna figura repetida?

5. Doce artı́culos, de los cuales tres están marcados, han sido distribuidos aleatoriamente en 3
cajas de 4 artı́culos cada uno.

a) ¿Con qué probabilidad cada caja contendrá exactamente un artı́culo marcado?


b) ¿Con qué probabilidad quedará alguna caja sin artı́culos marcados?

6. Una asociación desea organizar 4 congresos, para lo cual elegirá al azar igual cantidad de sedes
en 7 paı́ses, dentro de los cuales hay dos paı́ses de Sudamérica: Perú y Brasil. Cada paı́s podrá
ser sede de sólo uno de los congresos y estos se realizarán en los años 2019, 2020, 2021 y 2022.

a) Describa un espacio muestral asociado a este experimento aleatorio de selección, listando al


menos 3 elementos de este espacio e indicando el número de sus elementos.
b) ¿Con qué probabilidad el Perú será elegido para realizar uno de los congresos?
c) ¿Con qué probabilidad Brasil será elegido sede para el 2019 y el Perú sede para el 2022?
d) Si en la primera selección del 2019 Perú no fue elegido, ¿qué probabilidad hay de que de
que Sudamérica sea aún sede de uno de los 4 congresos?
e) ¿Con qué probabilidad sólo uno de los paı́ses sudamericanos será elegido para organizar uno
de estos cuatro congresos?

7. Una persona tiene un reproductor MP4 que utiliza dos pilas AAA. Suponga que en una caja
tiene 5 pilas AAA idénticas en apariencia, pero de las cuales 2 están gastadas. Si la persona
selecciona dos pilas al azar de la caja

a) Describa de manera explı́cita el espacio muestral asociado a este experimento aleatorio.


b) Halle la probabilidad de que sólo una de las pilas seleccionadas no este gastada.
c) Halle la probabilidad de que pueda hacer funcionar su reproductor.
Facultad de Ciencias Sociales PUCP 65

8. Una compañı́a cuenta actualmente con 2 proveedores de cierto insumo. Suponga que a usted
le dicen que para la selección de estos proveedores se presentaron 9 proveedores, quienes ofer-
taron el insumo a un precio unitario de 10,8,12,9,15,17,11,13 y 14 nuevos soles. Le informan
también de que en una primera etapa del porceso de selección se tomaron al azar a 3 de es-
tos proveedores y en una segunda etapa se eliminó de esta lista preliminar al proveedor con el
mayor precio ofertado, quedando finalmente los dos proveedores actuales de la compañı́a.

a) Describa un espacio muestral adecuado para la selección de los proveedores en su etapa


primera, indicando cuantos elementos tiene este y explicitando al menos dos de sus elementos.
b) ¿Con qué probabilidad en el primer proceso de selección se habrá seleccionado al proveedor
con un precio unitario de 14 soles?
c) ¿Con qué probabilidad uno de los proveedores actuales está vendiendo a la compañı́a el
insumo a 14 soles la unidad?
d) ¿Con qué probabilidad la compañı́a estará actualmente pagando a lo más 14 soles por algún
insumo?

9. Un bien, que tiene 3 marcas A,B y C, es regularmente ofrecido por un supermercado a 5 soles
la unidad. Iniciada una promoción 3 × 2; es decir, que los clientes pueden adquirir 3 unidades
del bien de una misma marca por el precio de 2, se ha modelado la cantidad de unidades del
bien que un cliente que asiste al supermercado adquirirá mediante una variable aleatoria X con
función de probabilidad


 0.2 si x = 0

K si x = 1





PX (x) =  K/2 si x = 2






 0.5 si x = 3

 0 en otro caso

Se asume en ella un máximo de una promoción por cliente y que no es posible adquirir 3 unida-
des del bien combinando marcas. De otro lado, según promociones pasadas se ha observado que
en el 25 %, 40 % y 35 % de las veces que un cliente elige la promoción o que el cliente compra
sólo una unidad del bien, este selecciona respectivamente las marcas A, B y C; mientras que si
adquiere sólo dos unidades del bien en el 70 %, 20 % y 10 % de las veces eligen respectivamente
los pares de marcas B con C, A con B; y A con C.

a) Halle el valor de K
b) ¿Con qué probabilidad un cliente elegirá una promoción del bien de la marca B?
c) Halle la probabilidad de que un cliente adquiera más de un unidad del bien de la marca A.
d) Si un cliente pago 10 soles ¿con qué probabilidad no habrá hecho uso de la promoción?

10. Suponga que se lanzan dos dados y se defiene la v.a X como el mayor valor obtenido en este lan-
1
zamiento. Muestre que la función de probabilidad de esta v.a. tiene la forma PX (x) = 36 (2x − 1).
Halle su valor esperado y desviación estándar, ası́ como la gráfica de su función de distribución.
66 ÍNDICE GENERAL

11. Una persona maneja una cartera de tres inversiones A, B y C, estimando que las probabilida-
des de obtener utilidades con estas inversiones son , respectivamente, de 0.2, 0.7 y 0.4. Se sabe
además de que la probabilidad de obtener utilidades con A y B es de 0.15 y que C es indepen-
diente de las otras dos inversiones.

a) Describa un espacio muestral asociado a observar si se logran o no utilidades con estas tres
inversiones.
b) ¿Cuál es la probabilidad de que no se logren utilidades ni con A ni con B?
c) Describa explı́citamente el evento M =“La persona obtiene utilidades en la mayorı́a de las
inversiones calcule su probabilidad.
2

d) Halle la función de probabilidad del número de inversiones con utilidad de la cartera e


indique si es verdad o falso que se esperará que la mayorı́a de inversiones tengan utilidades.

12. Una persona maneja una cartera de tres inversiones A, B y C, estimando que las probabilida-
des de obtener utilidades con estas inversiones son , respectivamente, de 0.2, 0.7 y 0.4. Se sabe
además de que la probabilidad de obtener utilidades con A y B es de 0.15 y que C es indepen-
diente de las otras dos inversiones.

a) Describa un espacio muestral asociado a observar si se logran o no utilidades con estas tres
inversiones.
b) ¿ Cuál es la probabilidad de que no se logren utilidades ni con A ni con B?
c) Describa explı́citamente el evento M =“La persona obtiene utilidades en la mayorı́a de las
inversiones calcule su probabilidad.
2

d) Halle la función de probabilidad del número de inversiones con utilidad de la cartera e


indique si es verdad o falso que se esperará que la mayorı́a de inversiones tengan utilidades.

13. Suponga que el cambio que podrı́a experimentar el precio de un bien, X, en un tiempo de
transacción futura, se asume que es una v.a continua en soles con función de densidad
(
α + βx si |x| ≤ 1.5
fX (x) =
0 en otro caso.

donde un valor negativo de esta v.a indica una disminución en el precio.

a) Halle los valores de las constantes α y β si se sabe que la probabilidad de que el precio sufra
a futuro una disminución es de 0.25.
b) ¿Con qué probabilidad el precio del bien no bajará en más de un sol ni subirá en más de un
sol?
c) Si el precio experimento un cambio de más de 50 céntimos, ¿cuál es la probabilidad de que
el precio halla bajado?
d) Halle la función generadora de momentos de X y calcule en base a ella el valor esperado de
X. Interprete este último valor.
Facultad de Ciencias Sociales PUCP 67

14. Un distribuidor de un solvente industrial tiene la polı́tica de comprar al inicio de la temporada


de ventas una existencia (‘stock’) de S unidades de volumen a a unidades monetarias. Durante la
temporada vende el producto a b unidades monetarias; al final de temporada remata el sobrante
a c unidades. Sabemos que la demanda de solvente al distribuidor es una v.a.c. X con función
de densidad fX (x) y que c < a < b. Halle en función de los precios unitarios el stock óptimo para
este distribuidor.

15. Una minera debe de tratar por ley secuencialmente sus aguas residuales por tres procesos de
limpieza independientes I, II y III antes de que estos sean vertidos en un rio. Cada proceso
podrı́a ser calificado como insatisfactorio(A), incompleto(B) o satisfactorio(C), siendo las pro-
babilidades de estos eventos para cada proceso las siguientes

P(A) P(B) P(C)


I 0.1 0.3 0.6
II 0.2 0.3 0.5
III 0.1 0.5 0.4

a) Si el tratamiento se considera satisfactorio si ningún proceso es insatisfactorio o al menos


dos son satisfactorios, ¿cuál es la probabilidad de que el tratamiento sea satisfactorio?
b) Suponga que al inspeccionarse el vertido de aguas residuales en el rio por una queja de que el
tratamiento sólo se hizo bajo dos de los procesos, el organismo regulador encontró que ello fue
ası́ y al tomar muestras de estas aguas, encontró evidencias de que sólo uno de estos procesos
fue satisfactorio; mientras el otro incompleto. Si inicialmente el organismo regulador pensaba
que cualquiera de los procesos podrı́a haber sido omitido con igual probabilidad, ¿cuál de los
procesos tendrı́a ahora en base a la evidencia encontrada una mayor probabilidad de haber
sido omitido?
68 ÍNDICE GENERAL
Capı́tulo 2

Distribuciones importantes

La aplicación a situaciones reales de los conceptos hasta ahora estudiados, requiere modelos
mediana o profundamente complejos para que sean útiles. Sin embargo, por complejo que pue-
da ser un modelo, siempre cabe la posibilidad de trabajar con él, descomponiéndolo en partes
más simples. Imaginemos por ejemplo, que quisiéramos describir el comportamiento del precio
de un determinado bien a lo largo del tiempo, bajo condiciones de competencia pura, pero con
fluctuaciones aleatorias, podrı́amos expresar dicho precio mediante el modelo:

Xt = ρXt−1 + εt , t = 1, 2, 3, . . .

donde:

1. Xt representa el precio de equilibrio en el periodo t (a partir de un equilibrio inicial X0 );

2. Xt−1 representa el precio de equilibrio en el periodo inmediato anterior;

3. εt es el efecto de un ligero desequilibrio aleatorio.

4. ρ > 0 es una constante (“parámetro”) que refleja una cierta “proporcionalidad” en la respuesta
del precio en el periodo t con respecto al precio del periodo anterior.

Razonablemente, podemos asumir además que:

E(εt ) = 0, que es la manera formal de decir que el azar no tiene favoritos, esto es, a veces
los desequilibrios transitorios y fortuitos sobrevalúan el equilibrio, otras veces lo subvalúan;
pero “a la larga” o “en promedio”, respetan las fuerzas del mercado.

V (εt ) = σ 2 . El segundo supuesto se puede ver como la contrapartida formal de la idea de que
la variabilidad de los desequilibrios fortuitos y transitorios no tiene por que ser constante;
que el azar, aunque justo, es “voluble” en sus restricciones y excesos, pudiendo variar éstos
de periodo en periodo, lo que implica una varianza no constante, o sea una “volatilidad”
cambiante. ?

69
70 ÍNDICE GENERAL

En el modelo anterior, las propiedades básicas residen en la variable εt , pues reemplazando


sucesivamente en la ecuación se llega a:

Xt = ρt X0 + ρt−1 ε1 + ρt−2 ε2 + ρt−3 ε3 + · · · + ρεt−1 + εt

esto es, conocer la distribución de εt nos pone en capacidad de explicar y predecir -en términos
probabilı́sticos- el comportamiento del precio Xt .
Nóte que, en lo que a Estadı́stica se refiere, la complejidad del modelo se atenúa bastante si
hallamos la distribución del error aleatorio εt .
Una manera de facilitar el trabajo futuro, es dedicar algo de tiempo a recolectar información
acerca de “variables aleatorias tipo” –mejor dicho, de “distribuciones tipo”- que sirvan como “la-
drillos” en la construcción de modelos complejos. Estas distribuciones, que por otra parte, no por
ser simples son menos realistas, tienen fundamentos racionales bien claros y entenderlos provee
herramientas para análisis más profundos.
En las secciones que siguen pasaremos revista a un conjunto mı́nimo de distribuciones tipo,
estudiando sus orı́genes y parámetros caracterı́sticos. Para unificar términos, si X representa una
variable aleatoria con función fX (x) de probabilidad o de densidad, llamaremos “Distribución
de X” al conjunto{(x, fX (x)) / x ∈ RX } y escribiremos X∼fX (x) para resaltar el hecho de ser fX (x)
la función de distribución de X. Por simplicidad empezaremos describiendo las distribuciones
discretas más importantes.

2.1. La distribución hipergeométrica


Sean N , M y n enteros positivos de valores dados con M < N . Diremos que una v.a. discreta X
tiene distribución hipergeométrica de parámetros N ,M y n, y la denotaremos por X ∼ H(N , M, n),
si su función de probabilidad es:

CxM Cn−x
N −M


 N si x = 0, 1, 2, . . . , n
PX (x) =  Cn (2.1)

0 en otro caso,

donde tomaremos la convención de que Cab = 0, si a > b. Esta última convención puede omitirse si
consideramos que el rango de la v.a. X viene dado por RX = {máx{0, n + M − N }, . . . , mı́n{M, n}}.
Origen. Es la distribución natural del muestreo aleatorio simple en una población finita de tamaño
N , cuando mediante una muestra aleatoria de n casos, pretendemos inferir el valor de alguna
proporción de elementos en esta población que comparten cierta caracterı́stica, existiendo en ella
M elementos con esta caracterı́stica. Los modelos más complejos de encuestas por muestreo usan,
como unidad de base, este modelo. Otra manera equivalente de entender esta distribución es a
través de un esquema de urna, tal como se ilustra en la siguiente proposición.

Proposición 2.1. Considere una población o urna compuesta por N elementos, M de los cuales poseen
cierta caracterı́stica A. Si se toma una muestra al azar y sin reemplazo de n de los N elementos, y se
cuenta el número X de casos en la muestra, que tienen la caracterı́stica A, entonces X es una variable
aleatoria cuya función de probabilidad viene dada por (2.1).
Facultad de Ciencias Sociales PUCP 71

Demostración: Supongamos , sin pérdida de generalidad, que N −M < n < M (analice como ejercicio que
ocurrirı́a en los otros casos) y consideremos un elemento cualesquiera x de RX , el cual por las condiciones
dadas serı́a RX = {0, 1, 2, . . . , n}. Sea x un elemento cualquiera de RX , entonces (X = x) ocurre si y solo si
en la muestra x elementos poseen la caracterı́stica A y n−x no la poseen. Dado que cualquier subconjunto
de tamaño n de la población tiene la misma probabilidad de ser seleccionado en la muestra, podrı́amos
aplicar la definición clásica de probabilidad y escribir:
n(X = x)
PX (x) = P (X = x) = ,
n(Ω)
donde Ω es el espacio muestral conformado por todas las muestras o subconjuntos de n elementos que
podrı́amos tomar de los N de la urna. Por tanto n(Ω) = CnN y por el principio de multiplicación

n(X = x) = CxM Cn−x


N −M
,

pues en la muestra, debemos primero seleccionar x de los M elementos que tienen la caracterı́stica A y
por cada selección anterior se podrán realizar n − x de los N − M elementos que tienen la caracterı́stica
CxM Cn−x
N −M
Ac . Ası́ PX (x) = CnN
. 

La distribución hipergeométrica posee las siguientes propiedades básicas.

Proposición 2.2. Si X ∼ H(N , M, n), entonces

1. E(X) = n M
N.

2. V (X) = n M M N −n
N (1 − N ) N −1 .

Demostración: Mostraremos solo la primera afirmación dejando como ejercicio la segunda, pero aclara-
rando que esta última podrı́a desarrollarse bajo el mismo procedimiento del caso de la media. Como en
la proposición anterior asumiremos, sin pérdida de generalidad, que para n ≥ 2 (si n = 1 el resultado es
directo) se cumple que N − M < n < M. Dado x ∈ RX = {0, 1, 2, . . . , n}, el siguiente resultado directo de
combinatorias nos será de utilidad
M! M(M − 1)!
xCxM = x = M−1
= MCx−1 , si x > 0.
(M − x)!x(x − 1)! (M − x)!(x − 1)!
Luego haciendo el cambio de variable k = x − 1 en:
n n M−1 N −M n−1 M−1 N −M
X C M C N −M X Cx−1 Cn−x M M−1 X Ck Cn−1−k M M−1 M
E(X) = x x Nn−x = M N
= C
N n−1 M−1
= N Cn−1 =n ,
Cn Cn Cn Cn−1 Cn N
x=0 x=1 k=0

se tiene el resultado buscado, donde la última suma en la ecuación anterior es 1 pues se esta sumando
allı́ la función de probabilidad de una v.a. con distribución H(N − 1, M − 1, n − 1). 

Ejemplo 2.1. En una encuesta para el sector informal, la población consta de N empresas, de las cuales
M de ellas son unipersonales. Se toma una muestra aleatoria de n empresas, y se cuenta el número X
de empresas unipersonales en la muestra, optándose por aproximar la proporción p = M/N poblacio-
nal y desconocida, mediante la proporción muestral X/n, denotada por p̄. Asumiendo un muestreo sin
reposición, calcule el valor esperado de p̄.
72 ÍNDICE GENERAL

Solución: Es claro que X se ajusta bien al modelo hipergeométrico, i.e. X ∼ H(N , M, n) y por tanto
E(p̄) = E( Xn ) = n1 E(X) = n1 × n M M
N = N = p. Es decir, aunque la proporción p̄ variará de muestra en
muestra, la tendencia es a coincidir con la verdadera proporción poblacional p = M
N.

Ejemplo 2.2. Una empresa tiene en almacén 12 cajas idénticas, dos de las cuáles contienen productos
con fecha vencida. El costo de producción de cada caja es de 350 soles y su precio de venta es de 500
soles. La empresa tiene dos polı́ticas por quejas. Una A que consiste en cambiar toda caja vendida que
contenga productos vencidos por otra buena comprada de otro proveedor a un precio de 400 soles y una
B que consiste en cambiar toda caja vendida que contenga productos vencidos por otra seleccionada al
azar del mismo almacén, pero devolviéndole al comprador un 20 % de su precio de venta. La polı́tica B
se seguirá solo para los primeros reemplazos por queja. En caso las cajas reemplazadas por B contengan
productos vencidos, la empresa ofrece substituirlas por otras también seleccionadas al azar del almacén,
pero ahora gratis; es decir, se les devolverá el 80 % restante pagado por estas cajas. Si se seleccionan al
azar a 4 de las 12 cajas para su venta

a) ¿Con qué probabilidad restarán en el almacén 6 cajas con productos no vencidos, después de selec-
cionarse las 4 cajas?

b) ¿Qué utilidad espera obtener la empresa por esta venta, si sigue la polı́tica A?

c) ¿Con qué probabilidad la empresa obtendrá una utilidad de 400 o 600 soles por esta venta, si es que
sigue la polı́tica B.

Solución: a) Si X =número de cajas con productos vencidos que se venden, entonces X ∼ H(12, 2, 4). Se
C02 C410
pide por tanto P (X = 0) = C412
= 0.4242.
b) Según la polı́tica A, la utilidad vendrá dada por

U (X) = (500 − 350)(4 − X) − (500 − 400 − 350)X = 600 − 400X.

Luego, E(U (X)) = 600 − 400E(X) = 600 − 4×2 12 = 333.33 soles.


c) Según la polı́tica B, para obtenerse una utilidad de 600 o 400 soles deberái de cumplirse que X = 0 o
C02 C410 C22 C210
que X = 2 y por tanto la probabilidad pedida es P (X = 0)+P (X = 2) = C412
+ C 12 = 0.4242+0.0909 =
4
0.5151.

2.2. La distribución binomial


Una v.a. discreta con rango RX = {0, 1, 2, . . . , n} se dice que tiene distribución binomial de
parámetros n ∈ N y p ∈ [0, 1], y se le denota por X ∼ B(n, p), si su función de probabilidad vie-
ne dada por
( n x n−x
Cx p q si x = 0,1,2,...,n.
PX (x) = (2.2)
0 en otro caso.
donde q = 1 − p.
Origen. Esta es la distribución que se presenta cuando contamos el número X de veces que ocurre
un determinado evento A sobre un total fijo de n repeticiones u observaciones independientes
Facultad de Ciencias Sociales PUCP 73

de un experimento experimento binario (conocido también como de Bernoulli), es decir, de un


experimento en el cual existe una probabilidad p de que el evento A ocurra y una probabilidad
q = 1 − p de que este evento no ocurra.

Ejemplo 2.3. Se envı́a n = 60 cuestionarios a empresas para que los llenen con datos sobre empleo y se
cuenta el número X de cuestionarios devueltos llenos.

Ejemplo 2.4. Una persona contesta totalmente al azar una prueba con n = 20 preguntas de opción
mútiple y registramos el número X de aciertos obtenidos por la persona.

Formalmente se tiene la siguiente proposición.

Proposición 2.3. Sea A un evento que puede ocurrir con probabilidad p = P (A) o puede no ocurrir con
probabilidad q = 1 − p. Si se repite n veces de forma independiente, este experimento de cuyo espacio
muestral es A un evento, y se define la variable aleatoria X = Número de veces que ocurre A en las n
repeticiones, entonces la función de probabilidad de X viene dada por la ecuación (2.2).
Demostración: Note en primer lugar que el rango de X es RX = {0, 1, 2, · · · , n}, ya que puede ocurrir que
nunca se presente A, en cuyo caso X será 0, o puede ocurrir A una sola vez, y ası́ hasta el caso extremo
en que A se presenta siempre, en cuyo caso X será n. Ahora bien, que el evento A se presente en x veces
especı́ficas y que AC ocurra en las (n − x) veces restantes, tiene probabilidad:

x veces (n − x) veces
z }| { z }| {
(p.p. · · · .p) (q.q. · · · q) = px qn−x .

Dado que en total hay Cxn casos de este tipo (piense en el número total de x posiciones de las n que se
podrı́an escoger para que en ellas ocurra el evento A), se tiene que P (X = x) = Cxn px qn−x , siendo x un
valor cualesquiera de RX = {0, 1, 2, · · · , n}. 

Observaciones:

Tanto en esta distribución como en las que posteriormente estudiaremos, los parámetros
(que son en este caso n y p) son cantidades que determinan completamente a la distribución;
sin ellos o algunos de estos no será posible evaluar las distintas probabilidades con X.

Es importante aclarar que lo que estamos en verdad aquı́ definiendo no es una única dis-
tribución sino toda una familia de distribuciones, que si bien tienen la misma forma, ellas
cambian según cuales sea los parámetros que uno fije para ellas. Por ejemplo, y tal como se
aprecia en la Figura 2.2, la distribución binomial con p = 0.5 es simétrica y conforme p se
aleja de 0.5 se presenta en ella una asimetrı́a ya que las mayores probabilidades se concen-
tran hacia el lado izquierdo o derecho del rango de X. El gráfico en mención se denomina un
gráfico de bastones y en ella se representan, mediante bastones, a los distintos valores que X
pudiera tomar, siendo la longitud de cada bastón igual a la probabilidad de que X tome ese
valor en particular.
74 ÍNDICE GENERAL

n = 10, p = 0.2 n = 10, p = 0.5 n = 10, p = 0.8


0.25 ● ●
0.3 0.3

● ●

● ●
0.20

● ●
0.2 0.2

0.15
PX(x)

PX(x)

PX(x)
● ●

0.10
● ●
0.1 0.1
● ●

0.05
● ●

● ●

● ●
● ●
● ● ● ●
0.0 ● ● ● 0.00 0.0 ● ● ●

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
x x x

Figura 2.1: Gráficos de bastones para una distribución binomial con parámetros n y p

Recordemos el binomio de Newton, el cual nos dice que si n es un número entero positivo
n
X
n
(a + b) = Ckn ak bn−k .
k=0

Si lo aplicamos a PX (x) se tiene que nx=0 PX (x) = nx=0 Cxn px qn−x = (p + q)n = 1n = 1, lo cual
P P

muestra junto con PX (x) ≥ 0, que PX (x) es una función de probabilidad.

Si el muestreo en el contexto de la distribución hipergeométrica se hiciera con reemplaza-


miento, las selecciones se podrı́an entender como experimentos independientes en los cuales
se eligen con probabilidad p = M N un elemento con la caracterı́stica A o no se elige un ele-
mento de este tipo con probabilidad 1 − p. En este caso la distribución de X ya no serı́a
hipergeométrica, sino binomial. Es por esto que si n es pequeña en relación a N (y M) es
posible aproximar la distribución H(N , M, n) mediante una B(n, p = M N ). Esta aproximación
suele usarse cuando n < 0.1N . En cualquier caso, la gráfica de bastones de H(N , M, n) es
similar a la de la distribución binomial.

La distribución binomial posee las siguientes propiedades básicas.

Proposición 2.4. Si X ∼ B(n, p) se cumple que

1. E(X) = np.

2. V (X) = npq.

3. MX (t) = (pet + q)n .


Facultad de Ciencias Sociales PUCP 75

Demostración: Mostraremos aqui las propiedades 1. y 2. en base a la derivación de la función genera-


triz de momentos. Como ejercicio usted podrı́a hacerl por la definición del valor esperado. Aplicando la
definición de función generatriz:
n
X n
X
MX (t) = E(etX ) = etx Cxn px qn−x = Cxn etx px qn−x .
x=0 x=0

Una aplicación directa del binomio de Newton nos conduce entonces a que
n
X
n t x n−x
MX (t) = Cx (pe ) q = (pet + q)n ,
x=0

0
lo cual se cumple para todo t real. Dado además que MX (t) = n(pet + q)n−1 pet , tenemos que E(X) =
0 00
MX (0) = np. De otro lado, MX (t) = n(n − 1)(pet + q)n−2 (pet )2 + n(pet + q)n−1 pet nos conduce a que
00
E(X 2 ) = MX (0) = n(n−1)p2 +np, de donde V (X) = E(X 2 )−E(X)2 = n2 p2 −np2 +np−n2 p2 = np(1−p) =
npq. 

Ejemplo 2.5. Una petrolera efectúa perforaciones en una concesión del gobierno, en donde, según sus
cálculos, tiene un 25 % de probabilidad de dar con un pozo rentable al hacer una perforación.

a) Si la compañı́a asigna un presupuesto de 12 millones de unidades monetarias (u.m.) para explora-


ciones, sabiendo que necesita un mı́nimo de 4 cuatro pozos en explotación para tener “retorno positivo
en la inversión” (ganancias), y calcula un gasto de 2 millones de u.m. por perforación. ¿Con qué pro-
babilidad tendrá ganancias?

b) En a) asuma que cada pozo rentable hace que las acciones de la compañı́a suban en 100r %. Si al
inicio del perı́odo un tı́tulo de esta compañı́a se cotizaba en M u.m, ¿cuál es la cotización esperada
después de las perforaciones? Considere que no hay baja en la cotización, por ningún concepto.

Solución: Sea  el experimento consistente en realizar la perforación de un pozo y sea A el evento ’La
perforación resulta en un pozo rentable’. Entonces p = P (A) = 0.25 y q = 1 − p = 0.75. Si la compañı́a
hace n perforaciones y definimos la v.a.d. X= # de pozos rentables encontrados en las n perforaciones,
asumiendo independencia entre las perforaciones, tenemos que X se ajusta al modelo binomial, esto es:
X ∼ B(n, p = 0.25) ⇔ PX (x) = P (X = x) = Cxn 0.25x 0.75n−x .
a) En esta parte y dados los costos, la compañı́a puede realizar n = 12
2 = 6 perforaciones y para que haya
ganancias, se necesita que X ≥ 4. Evaluando esta probabilidad:

6
X
P (Ganancia) = Cx6 0.25x 0.756−x = C46 0.254 0.752 + C56 0.255 0.751 + C66 0.256 0.750 = 0.033.
x=4

Se deduce, por tanto, que casi con seguridad no se logrará la rentabilidad suficiente.
b) Sea V el valor de la acción X
 después
 de las 6 perforaciones. Se cumple que V = M(1 + r) P. Luego,
E(V ) = E M(1 + r)X = ME (1 + r)X . Aplicando la definición de valor esperado: E(V ) = M 6x=0 (1 +
r)x Cx6 0.25x 0.756−x = M 6x=0 Cx6 (0.25(1 + r))x 0.756−x = M((1 + r)0.25 + 0.75)6 = M(1 + 0.25r)6 .
P
76 ÍNDICE GENERAL

Ejemplo 2.6. Una prueba de aptitud tiene n = 20 preguntas de opción múltiple, siendo cinco las opcio-
nes (una correcta y el resto no) por pregunta. Si una persona marca todo al azar y se define X = número
total de aciertos, calcule la probabilidad de que la persona acierte en :

a) Dos preguntas.

b) Al menos en una pregunta.

c) Entre 4 y 5 preguntas.

Solución: Sea el evento A = “La persona acierta en la pregunta”. Entonces p = P (A) = 1/5. Si asumimos
independencia entre preguntas, se está en el contexto de la proposición 2.1 y se puede decir que X tiene
distribución binomial, más concretamente X ∼ B(n = 20, p = 0.2). Ası́,
a) P (X = 2) = C220 0.22 0.818 = 0.1369.
b) P (X ≥ 1) =1 − P (X = 0) = 1 − C020 0.20 0.820 = 1 − 0.0115 = 0.9884
c) P (4 ≤ X ≤ 5) =C420 0.24 0.816 +C520 0.25 0.815 = 0.1145

Observación: Como E(X) = µX = np = 20 × 0.2 = 4 y V (X) = σX2 = npq = 20 × 0.2 × 0.8 = 3.2 ( por
tanto σ X = 1.78), podemos decir que si una persona contesta las 20 preguntas al azar, entonces
ella podrı́a tener con una alta probabilidad entre 2 y 6 aciertos.

Ejemplo 2.7. En el ejemplo anterior, si cada acierto vale 4 puntos y cada error cuesta N puntos y se
quiere que las personas que contesten al azar, en promedio reciban puntaje 0, ¿cuánto debe descontarse
por cada error?
Solución: Si T es el puntaje total, entonces T = 4X − (20 − x)N = (4 + N )X − 20N y deseamos hallar N
tal que E(T ) = 0. Aplicando propiedades del valor esperado:

E(T ) = (4 + N ) × E(X) − 20N = (4 + N ) × 4 − 20N 16 − 16N .

Ası́ igualando a 0 esta expresión, resulta que N = 1, esto es, se debe descontar un punto por cada error.

2.3. La distribución geométrica


Sea X una v.a. discreta, con rango N+ y sean p ∈]0, 1[y q = 1 − p valores dados. Diremos que X
tiene una distribución geométrica de parámetro p, y lo denotaremos como X ∼ G(p), si su función
de probabilidad es: ( x−1
q p si x = 1, 2, 3, . . .
PX (x) = (2.3)
0 en otro caso.
Observación: Note que la asignación 2.3 define una función de probabilidad, desde que haciendo
el cambio de variable k = x − 1 se tendrá por la fórmula de la serie geométrica que

X X 1
qx−1 p = p qk = p = 1.
1−q
x=1 k=0

Origen. La distribución geométrica aparece como resultado de contar cuántas veces se debe repe-
tir de manera independiente un experimento de hasta lograr que ocurra un determinado suceso
Facultad de Ciencias Sociales PUCP 77

A por primera vez. Más formalmente se tiene la siguiente proposición, cuya demostración la rele-
garemos para un caso más general.

Proposición 2.5. Considere un experimento aleatorio de cuyo espacio muestral A es un evento que
puede ocurrir con probabilidad p. Si se repite este experimento de manera independiente y se define la v.a.
discreta X =número de experimentos hasta que ocurra el evento A, entonces la función de probabilidad
de X viene dada por la ecuación (2.3).

Se tienen las siguientes propiedades básicas de esta distribución

Proposición 2.6. Si X ∼ G(p), entonces

1. E(X) = p1 .
q
2. V (X) = p2
.

pet
3. MX (t) = 1−qet , si t < − log(q).

Demostración: Se deduce directamente de la proposición 2.8 cuando r = 1. 

Una generalización directa de la distribución geométrica se da cuando deseamos obtener la


distribución del número de estos experimentos hasta obtenerse por r−ésima vez el evento A. Eso
nos conduce a la siguiente distribución.

2.4. La distribución de Pascal o binomial negativa


Sea X una v.a. discreta, con rango RX = {r, r +1, r +2, . . .} y sean r ∈ N+ , p ∈]0, 1[y q = 1−p valores
dados. Diremos que X tiene una distribución de Pascal o binomial negativa de parámetros r y p, y
lo denotaremos como X ∼ BN (r, p), si su función de probabilidad es:
( x−1 x−r r
Cr−1 q p si x = r, r + 1, r + 2, . . .
PX (x) = (2.4)
0 en otro caso.

Origen. Es una generalización de la distribución geométrica, que surge cuando se repite el expe-
rimento  en ella hasta que ocurra A por r-ésima vez, siendo r un entero positivo de valor fijo. El
nombre de esta distribución tiene su origen en la serie binomial negativa, que es una especie de
binomio de Newton, pero para exponentes enteros negativos. Esta es, para n ∈ N:

X
(1 + a) −n
= (−1)k Ckn+k−1 ak , si |a| < 1. (2.5)
k=0

Una aplicación de esta fórmula a (2.3) nos conduce a que



X ∞
X ∞
X
x−1 x−r r k+r−1 k r r
Cr−1 q p = Cr−1 q p =p Ckk+r−1 qk = pr (1 − q)−r = 1
x=r k=0 k=0

y por tanto (2.3) define una función de probabilidad. La formalización de esta función de proba-
bilidad se presenta seguidamente.
78 ÍNDICE GENERAL

Proposición 2.7. Considere r ∈ N+ y un experimento aleatorio de cuyo espacio muestral A es un evento


que puede ocurrir con probabilidad p. Si se repite este experimento de manera independiente y se define
la v.a. discreta X =número de experimentos hasta que ocurra el evento A por r−ésima vez, entonces la
función de probabilidad de X viene dada por la equación (2.3).
Demostración: En el contexto dado, defı́nanse los eventos Ai =“En la i-ésima repetición del experimento
ocurre el evento A”. Si x ∈ RX , se tiene entonces que

PX (x) = P (X = x) = P ((A1 ∩. . .∩Ar−1 ∩Acr . . .∩Acx−1 ∩Ax )∪. . . . . .∪(Ac1 ∩. . .∩Acx−r ∩Ax−r+1 ∩. . . . . . Ax−1 ∩Ax )),

donde el primer evento del lado derecho denota a que A ocurre en los primeros r − 1 experimentos y luego
deja de ocurrir para volver a ocurrir por r−ésima vez en el x−avo experimento; mientras que el último
evento denota a que A ocurre sin parar desde el experimento x−r +1. Por brevedad solo hemos presentado
x−1
los casos extremos. Todos los demás eventos entre estos incluyéndolos son Cr−1 , pues estos equivalen en
número a reservar r − 1 posiciones de los x − 1 experimentos para la ocurrencia de A dado que el x−ésimo
experimento se reserva siempre para A. Por fortuna, dada la independencia, todos estos eventos tienen
x−1 x−r r
exactamente la misma probabilidad qr−x pr . Luego PX (x) = Cr−1 q p. 
Se tienen las siguientes propiedades básicas de esta distribución.
Proposición 2.8. Si X ∼ BN (r, p), entonces
1. Si r = 1, X ∼ G(p).

2. E(X) = pr .
rq
3. V (X) = p2
.

pet
4. MX (t) = ( 1+qet )r , si t < − log(q).
Demostración: La propiedad 1. es evidente; mientras que la 2. y 3. pueden directamente deducirse, como
se pide de ejercicio al lector, por derivación de la función generatriz de momentos, la cual deduciremos a
continuación. En efecto por (2.4), se tiene que

X ∞
X
MX (t) = E(etX ) = etx Cr−1
x−1 x−r r
q p = et(k+r) Cr−1
k+r−1 k r
q p
x=r k=0

X
= (pet )r Ckk+r−1 (qet )k = (pet )r (1 − qet )−r , si qet < 1.
k=0
t
pe
En consecuencia, MX (t) = ( 1−qet )r , si t < − log(q). 
Ejemplo 2.8. Si la compañı́a del Ejemplo 2.1 de la sección 2.1.2 anterior asigna seis millones de u.m.
para exploraciones y calcula un gasto 2 millones de u.m. por perforación, pero decide operar solamente
un pozo, ¿con qué probabilidad empezará a operar sin antes ver agotado su presupuesto?
Solución: En este caso la compañı́a hará perforaciones hasta dar con el primer pozo y además solo puede
perforar hasta tres pozos. Sea X = número de perforaciones hasta dar con el primer pozo rentable; se ve
que X se ajusta al modelo geométrico, es decir X ∼ G(0.25) y tenemos que hallar P (X < 3) = P (X ≤ 2) =
0.25 + 0.25 × 0.75 = 0.4375.
Facultad de Ciencias Sociales PUCP 79

Ejemplo 2.9. Un consumidor está en un mercado con infinitos productores del mismo bien que le ofrecen
el producto a similar precio pero con distintas modalidades de propaganda y trato al cliente, de modo
que la elección del consumidor no es inmediata sino aleatoria, con una probabilidad p de que se decida
por el productor al cual está consultando sobre el bien. Sea X el número de productores visitados por
el consumidor. ¿Cuántas consultas se espera que haga esta persona? ¿Con qué probabilidad hará más
consultas de lo esperado?
Solución: Sea  el experimento “El consumidor consulta acerca del bien con un productor del mercado”
y sea el evento A = “El consumidor decide comprar el producto al hacer la consulta con el productor”.
Por dato, p = P (A) > 0 es la misma en cualquier consulta y ası́ tenemos que X puede verse como # total
de repeticiones de  hasta que ocurre A por primera vez, la cual es una v.a. que se ajusta al modelo
geométrico, esto es X ∼ G(p). Ası́, E(X) = µX = 1/p y por tanto:

1 1 [| 1 |]
P (X > E(X)) = P (X > µX ) = P (X > ) = P (X ≥ [| |] + 1) = q p
p p

donde [| p1 |] denota el máximo entero no mayor que p1 . Por ejemplo, si p = 0.3, entonces 1
p = 3.3 y ası́
1
P (X > p ) = P (X > 3.3) = P (X ≥ 4) = 0.73 = 0.343.

2.5. La distribución de Poisson


Sea X una v.a. discreta, con rango RX = N y sea λ una constante conocida. Diremos que X
tiene distribución de Poisson de parámetro λ, lo que se denotará por X ∼ P (λ), si su función de
probabilidad es:
( e−λ λx
x! si x = 0, 1, 2, . . .
PX (x) = (2.6)
0 en otro caso.
Origen. La distribución de Poisson surge como una distribución de conteo para la ocurrencia de
eventos generados por un proceso que lleva el mismo nombre y que a su vez es parte de una familia
de procesos estocásticos de nacimiento y muerte más generales, concretamente de un proceso de
nacimiento puro con tasa de nacimientos constante. Esta distribución puede también pensarse
como un caso lı́mite de una distribución binomial.
Antes de definir el proceso generador de eventos para el que la distribución de Poisson actua
como un contador, será conveniente introducir la noción de comparación de ordenes entre dos
funciones.

Definición 2.1. Sean g y g dos funciones reales de variable real, diremos que f es de orden inferior a g
cuando x → x0 , y lo denotaremos por f (x) = o(g(x)), si

f (x)
lı́m = 0.
x→x0 g(x)

Un caso particular en la definición anterior se da si g(x) = x y se desea averiguar la conver-


gencia hacia el valor 0. En este caso f (x) = o(x), significará que la función f se aproxima más
rápidamente a 0, que lo que lo hace x, conforme x → 0. En otras palabras, si f (x) = o(x), el valor
de esta función en un argumento muy cercano a 0 se podrı́a considerar casi despreciable.
80 ÍNDICE GENERAL

Definición 2.2 (Proceso de Poisson). Un proceso de Poisson con tasa ω > 0 es un proceso estocástico
de tiempo continuo {Nt }t∈[0,∞[ y que toma valores en N tal que:
1. N0 = 0.

2. El proceso tiene incremento independientes; esto es, para cualesquieras t0 , t1 , . . . , tn y n ∈ N+ ,

Nt0 , Nt1 − Nt0 , . . . , Ntn − Ntn−1

son variables aleatorias independientes.


D
3. El proceso tiene incrementos estacionarios; esto es, ∀0 ≤ s ≤ t, Nt−s = Nt − Ns .

4. Para cualquier h ≥ 0,
P (Nh = 1) = ωh y P (Nh ≥ 2) = o(h).

Descifrando un poco la definición, ella nos dice que el proceso de Poisson es un proceso ge-
nerador de eventos discretos sobre un soporte temporal en el que Nt nos cuenta cuantos eventos
genera el proceso en el intervalo de tiempo [0, t] o si se quiere [w, w + t] para cualquier valor de
w > 0, pues por la propiedad 3 la distribución de la v.a. Nt es la misma sobre cualquier intervalo de
longitud t. El proceso asume que en un intervalo de tiempo de longitud suficientemente pequeña
h podrı́a no ocurrir evento alguno (lo más probable) o ocurrir un evento con aproximadamente
probabilidad ωh, siendo ω la tasa o velocidad por unidad de tiempo con la que el proceso gene-
ra los eventos. La probabilidad de ocurrencia de 2 más eventos se asume aquı́ despreciable y se
asume además que la ocurrencia de eventos en intervalos disjuntos de tiempo son independientes.
Observación: Si bien en la definición anterior se ha considerado al tiempo como el soporte del
proceso, esto no necesariamente es ası́. En el estudio de los procesos espaciales por ejemplo, el
soporte suele ser el espacio o el espacio-tiempo, siendo el espacio no solo unidimensional sino
multidimensional. Esto último resulta muy útil en por citar la Geoestadı́stica, donde los even-
tos que el proceso genera se asocian a la riqueza de algún mineral, foco de infección, nivel de
contaminación u otro fenómeno de interés sobre el espacio.
Mostraremos ahora la génesis de la distribución de Poisson, que como comentamos anterior-
mente, se asocia al registro del número de eventos que el proceso genera en un intervalo de tiempo
[0, t] de longitud no despreciable.
Proposición 2.9. Si en un proceso de Poisson de tasa λ > 0, definimos la v.a. discreta X =número de
eventos que el proceso genera en el intervalo [0, t] entonces X es una v.a. cuya función de probabilidad
viene dada por (2.6) con λ = ωt.
Demostración: Fijado t > 0, note que X = Nt . Hallemos primero la función de probabilidad para x = 0.
Para ello definamos la función px (t) = P (Nt = x). Dado h > 0, se tiene por las propiedades b) y c) que

p0 (t + h) = P (Nt+h = 0) = P (Nt+h − Nt = 0, Nt = 0) = P (Nt+h − Nt = 0)P (Nt = 0)

= P (Nh = 0)P (Nt = 0) = (1 − ωh + o(h))p0 (t)


Por tanto, tomándose el lı́mite cuando h → 0 a
p0 (t + h) − p0 (t) −ωh + o(h)
= p0 (t),
h h
Facultad de Ciencias Sociales PUCP 81

0
se obtiene p0 (t) = −ωp0 (t), ecuación diferencial cuya solución directa es p0 (t) = ce−ωt . Puesto que
p0 (0) = 1, se tendrá que P (X = 0) = P (Nt = 0) = e−ωt .
Veamos ahora la función de probabilidad para los demás valores x ≥ 1. Nuevamente por la indepen-
dencia y la estacionariedad
X
px (t+h) = P (Nt+h = x) = P (Nt+h −Nt = 0, Nt = x)+P (Nt+h −Nt = 1, Nt = x−1)+ P (Nt+h −Nt = k, Nt = x−k)
k=2
X
= P (Nh = 0)P (Nt = x) + P (Nh = 1)P (Nt = x − 1) + P (Nh = k)P (Nt = x − k)
k=2
= (1 − ωh + o(h))px (t) + ωhpx−1 (t) + o(h).
Ası́,
px (t + h) − px (t) (−ωh + o(h))px (t) + ωhpx−1 (t) + o(h)
=
h h
y tomándose lı́mites cuando h → 0 se obtiene la ecuación diferencial
0
px (t) = −ωpx (t) + ωpx−1 (t)

con condición de frontera px (0) = 0 para x ≥ 1. Si definimos ahora la función qx (t) = eωt px (t), la ecua-
0
ción anterior se puede reescribir como qx (t) = ωqx (t), cuya solución se puede hallar iterativamente y
x
(ωt)
viene dada por qx (t) = x! . Ası́,
(ωt)x
P (X = x) = P (Nt = x) = px (t) = e−ωt . 
x!
La distribución de Poisson posee las siguientes propiedades básicas
Proposición 2.10. Si X ∼ P (λ), entonces
1. E(X) = λ.

2. V (X) = λ.
t
3. MX (t) = eλ(e −1) .
Demostración: Si bien podrı́amos deducir 1. y 2. a partir de la función generatriz de momentos, op-
taremos aquı́ como ilustración calcular estos dos indicadores por definición. En este proceso usaremos
constantemente el desarrollo de Taylor de la función exponencial. Se sigue que
∞ ∞ ∞
X λx X −λ λx X λk
E(X) = xe−λ = e = λe−λ = λe−λ eλ = λ
x! (x − 1)! k!
x=0 x=1 k=0
y
∞ ∞ ∞
X λx X −λ λx X λk
E(X 2 ) = x2 e−λ = xe =λ (k + 1)e−λ = λ(λ + 1).
x! (x − 1)! k!
x=0 x=1 k=0
Por tanto, V (X) = E(X 2 ) − E(X)2 = λ2 + λ − λ2 = λ.
Por otro lado, tenemos para 3. que
∞ ∞
tX
X
tx −λ λ
x X (λet )x t t
MX (t) = E(e ) = e e =e −λ
= e−λ eλe = eλ(e −1) . 
x! x!
x=0 x=0
82 ÍNDICE GENERAL

Ejemplo 2.10. Suponga que la cantidad de buques-tanque que llega a un puerto por dı́a, se presenta de
acuerdo a un proceso de Poisson, a una tasa de 2 buques-tanque, en promedio, por dı́a.

a) ¿Cuál es la probabilidad de que en un dı́a, el número de buques-tanque que llega al puerto sea menor
de lo esperado?

b) El puerto solo puede atender a 2 buques-tanque por dı́a, y cualquier otro buque excedente, se envı́a
a un puerto vecino: ¿Qué porcentaje de los dı́as, se enviarán buques al puerto vecino?

c) ¿Cuál serı́a la probabilidad de que Ud. llegue al puerto a medio dı́a y encuentre que ya se llenó el
puerto?

d) Si N es el número de buques atendidos por dı́a en el puerto, halle E(N ).

Solución: De las condiciones dadas, tenemos que la tasa de llegada es ω = 2. En este contexto, la v.a. X =
Número de buques tanque que llegan entre 0 y t tiene distribución de Poisson de parámetro λ = ωt = 2t.
Entonces:
a) En este caso t = 1 y λ = ωt = 2, luego X ∼ P (2) y E(X) = 2, ası́ que la probabilidad pedida es

20 21
P (X < 2) = P (X ≤ 1) = PX (0) + PX (1) = e−2 + e−2 = 3e−2 = 0.41
0! 1!
b) Nos piden P (X > 2) = 1 − P (X ≤ 2) y como P (X ≤ 2) = P (X < 2)PX (2), solo necesitamos calcular
2
PX (2) = e−2 22! = 2e−2 . Por tanto P (X ≤ 2) = 3e−2 + 2e−2 = 5e−2 = 0.68 y entonces P (X > 2) = 1 − P (X ≤
2) = 0.32: El 32 % de los dı́as se enviará buques al puerto vecino.
c) Si llegamos en t = 1/2 dı́a, para que ya esté lleno el puerto, debe de haber ocurrido que en el intervalo
]0, 1/2] (o sea la primera mitad del dı́a) llegaron dos o más buques tanque. Ası́, bajo X ∼ P (λ = wt = 1)
nos piden P (X ≥ 2) = 1 − P (X ≤ 1) = 1 − (PX (0) + PX (1)) = 1 − 2e−1 = 0.26.
d) Es claro que N = 2 − X, si X = 0, 1 y N = 2, si X ≥ 2, siendo X= número de buques tanque que llegan
en t = 1 dı́a. Luego E(N ) = 2 × PX (0) + 1 × PX (1) + 2 × P (X ≥ 2) = 2 × e−2 + 1 × 2e−2 + 2 × (1 − 3e−2 ) =
2 − 4e−2 = 1.46 buques.

Seguidamente presentaremos una colección de las más importantes distribuciones de una va-
riable aleatoria continua. A diferencia del caso discreto, el origen de estas distribuciones, salvo en
contadas excepciones, no es deducible de un contexto particular. Su uso se basa mas bien en el
conocimiento y experiencia que el investigador tiene con los datos y con la asunción de que estos
podrı́an haber sido generados con los modelos que se proponen para estas distribuciones.

2.6. La distribución uniforme.


Sea X una v.a. continua, con rango RX = [α, β]. Diremos que X tiene distribución uniforme en
el intervalo [α, β], y lo denotaremos por X ∼ U ([α, β]), si su función de densidad viene dada por:

1
 β−α si x ∈ [α, β]


fX (x) =  (2.7)
 0 en otro caso.

Facultad de Ciencias Sociales PUCP 83

Esta es quizás la distribución contı́nua más sencilla y su asunción básica es que X puede to-
mar indistintamente cualquier valor posible dentro del intervalo [α, β], ya que cualquier par de
subintervalos de igual longitud en [α, β] tendrán siempre igual probabilidad al ser la densidad
constante en todo el intervalo.
Origen. Tiene un origen relativamente simple, en el contexto de probabilidad geométrica, cuando
se toma un punto al azar de un intervalo de longitud finita, donde uno asume que todo punto del
intervalo tiene la misma factibilidad de ocurrencia.
Las propiedades básicas de esta distribución son las siguientes.

Proposición 2.11. Si X ∼ U ([α, β]) entonces


α+β
1. E(X) = 2 .

(β−α)2
2. V (X) = 12 .

3. Sea F la función de distribución de alguna v.a. continua, X ∼ U (]0, 1[]) y definamos la v.a. Y =
F −1 (X), entonces FY = F.
Rβ β
1 x2 a+b
Demostración: 1. E(X) = α x b−a dx = 2(β−α) = 2 .
β α

1 x3 β 3 −α 3 1 2
2. Puesto que E(X 2 ) = α x2 b−a dx = 3(β−α) 2
= 3(β−α) = 3 (β + αβ + β ), se tiene que
α

1 1 α 2 2αβ β 2 (β − α)2
V (X) = E(X 2 ) − E(X)2 = (β 2 + αβ + β 2 ) − (α 2 + 2αβ + β 2 ) = − + = .
3 4 12 12 12 12
3. Note en primer lugar que la v.a. Y está bien definida, pues F −1 existe, al ser F la función de
distribución de una v.a. continua. Ası́ para cualquier valor y ∈ R, FY (y) = P (Y ≤ y) = P (F −1 (X) ≤
y) = P (X ≤ F(y)) = F(y). 
Hemos aquı́ incluido la propiedad 3, pues ella es vital para la construcción de un esquema de
simulación o de recreación de los valores que pudiera tomar una v.a. continua Y cualesquiera, de
ser conocida su función de distribución FY . En efecto, lo que ella nos dice es que si X1 , X2 , . . . , Xn
son n v.a’s independientes con una distribución uniforme en el intervalo ]0, 1[ entonces

Y1 = FY−1 (X1 ), Y2 = FY−1 (X2 ), . . . , Yn = FY−1 (Xn )

constituye una colección de n v.a’s independientes de la v.a. Y . Esto implica que para generar n
valores independientes de Y , cuyo rango es RY , podrı́amos optar por seguir los siguientes pasos:

1. Seleccionar de una tabla de números aleatorios o a través de algún software estadı́stico n núme-
ros aleatorios x1 , x2 , . . . , xn entre 0 y 1. Estos números corresponden a los valores simulados in-
dependientes de la v.a. X ∼ U (]0, 1[).

2. Si la v.a. Y es continua, realizar con los números anteriores la transformación integral:

y1 = FY−1 (x1 ), y2 = FY−1 (x2 ), . . . , yn = FY−1 (xn ).

Estos serán los valores simulados independientes de la v.a. Y que buscamos.


84 ÍNDICE GENERAL

Vale agregar que si la v.a. de interés Y es discreta, el esquema anterior puede adaptarse para la
simulación de valores de esta variable agregando el paso 3 siguiente:

3. Si Y es una v.a. discreta, los valores simulados de Y vienen dados por:

yi = mı́n{y ∈ RY /FY (y) ≥ xi }, ∀i = 1, 2, . . . , n.

2.7. La distribución exponencial


Sea X una v.a. continua con rango RX =]0, ∞[ y sea β > 0 una constante positiva. Diremos que
X tiene distribución exponencial de parámetro β, y lo denotaremos por X ∼ Exp(β), si su función
de densidad viene dada por:

βe−βx si x ≥ 0
(
fX (x) = (2.8)
0 en otro caso.
Observaciones:
R∞ R∞ ∞
−βx −βx
Note que 0 fX (x)dx = 0 βe dx = −e = 1, de modo que se verifica que (2.8) es una
0
función de densidad.

En la Figura (2.2) se aprecia como es que cambia la forma de la distribución con respec-
to al parámetro β. Si bien esta es una distribución completamente asimétrica con mayores
probabilidades sobre valores pequeños se ve que a mayor valor de β, la “cola” de la distri-
buciı́on se hace cada vez más ligera; esto es, la gráfica de la función de densidad tiende más
rápidamente al valor 0.

β=1 β=2 β=3

3.00 3.00 3.00

2.75 2.75 2.75

2.50 2.50 2.50

2.25 2.25 2.25

2.00 2.00 2.00

1.75 1.75 1.75


fX(x) = βe−βx

fX(x) = βe−βx

fX(x) = βe−βx

1.50 1.50 1.50

1.25 1.25 1.25

1.00 1.00 1.00

0.75 0.75 0.75

0.50 0.50 0.50

0.25 0.25 0.25

0.00 0.00 0.00

0 1 2 3 4 0 1 2 3 4 0 1 2 3 4
x x x

Figura 2.2: Gráficos de la función de densidad de una distribución exponencial con parámetro β.
Facultad de Ciencias Sociales PUCP 85

Origen: La distribución exponencial aparece de modo muy natural en un proceso de Poisson,


como la distribución del “tiempo de espera” hasta la ocurrencia del primer evento generado por
el proceso. Ello está también relacionado al hecho de que esta distribución es la única continua
que tiene la singular propiedad de “falta de memoria” (véase el ejercicio ).

Proposición 2.12. Si en un proceso de Poisson de tasa ω, definimos la v.a. continua T = Tiempo que
transcurre hasta que ocurre el primer evento generado por el proceso, entonces T ∼ Exp(β = ω).
Demostración: Dado t > 0, esto se basa esencialmente en la equivalencia de los eventos (T ≤ t) y (X > 1),
donde X ∼ P (λ = ωt) es la v.a. de conteo que nos mide el número de eventos generados por el proceso
en el intervalo [0, t]. Luego FT (t) = P (T ≤ t) = P (X > 1) = 1 − P (X = 0) = 1 − e−wt y derivando tenemos
0
fT (t) = FT (t) = we−wt , es decir, T ∼ Exp(β = w) 

Observaciones:

Como el punto cero es arbitrario, también podemos ver a T como el tiempo que transcurre
entre dos ocurrencias sucesivas de E. Más aún, estos tiempos para los diferentes pares entre
ocurrencias son independientes.

La distribución exponencial es muy utilizada como modelo para tiempos de espera o tiempos
de vida y es fundamental en el estudio de estos últimos. Esta rama de estudios se conoce
como confiabilidad o supervivencia, dependiendo si los tiempos en referencia se asocian a
un objeto o un sujeto.

Las siguientes propiedades, cuya demostración la omitiremos al ser un caso particular de una
distribución más general, nos brindan las principales caracterı́sticas de esta distribución.

Proposición 2.13. Si X ∼ Exp(β),

1. E(X) = β1 .

1
2. V (X) = β2
.

β
3. MX (t) = β−t , si t < β.

Ejemplo 2.11. Si el ingreso empresarial en un paı́s, es una v.a. con distribución exponencial de paráme-
tro β y se dispone un tributo nuevo de 15 % para los ingresos superiores al promedio poblacional ¿Qué %
de la población pagará el impuesto?
Solución: En este caso, se nos pide hallar P (X > β1 ), donde X es el ingreso de una empresa y X ∼ Exp(β).
Integrando directamente obtenemos:
Z ∞
1 −βx

−βx −1
P (X > ) = βe dx = −e 1 = e = 0.38.
β 1
β
β
86 ÍNDICE GENERAL

2.8. La distribución gamma


Definición 2.3 (Función Gamma). Si p > 0, se define la función gamma por
Z∞
Γ (p) = u p−1 e−u du.
0

Se puede probar que la integral anterior existe para todo p positivo. Algunas propiedades
interesantes de esta función son las siguientes.

Proposición 2.14.

1. Γ (p + 1) = pΓ (p), ∀p > 0

2. Si p ∈ N+ , Γ (p) = (p − 1)!

3. Γ ( 21 ) = π.
R1 Γ (p)Γ (q)
4. Si p > 0 y q > 0, entonces 0
xp−1 (1 − x)q−1 dx = Γ (p+q)
.

Demostración: 1. Aplicando la fórmula de integración por partes


Z∞ ∞ Z∞
p −u p −u
Γ (p + 1) = u e du = −u e + p u p−1 e−u du = pΓ (p).
0 0 0

2. Si aplicamos recursivamente 1. para p ∈ N+ ,

Γ (p) = (p − 1)Γ (p − 1) = (p − 1)(p − 2)Γ (p − 2) = . . . = p(p − 1)(p − 2) . . . 2Γ (1).

Dado que Γ (1) = 1, resulta que Γ (p) = (p − 1)!


√ R∞ 2 R∞ 2 √
3. Haciendo el cambio de variable y = u, se tiene que Γ ( 21 ) = 2 0 e−y dy = −∞ e−y dy = π, integral
última que no es nada trivial pero cuyo cálculo lo justificaremos en el capı́tulo siguiente.
4. La fórmula dada es directa para q = 1, desde que por la propiedad de recursividad 1.
Z1
xp 1 1 Γ (p)Γ (1)
xp−1 dx = = = .
0 p 0 p Γ (p + 1)
Para el caso general, denotemos por H(p, q) al valor de la integral buscada como función de p y q.
Utilizando la fórmula de integración por partes

q−1 1 p
Z
q−1
H(p, q) = x (1 − x)q−2 dx = H(p + 1, q − 1).
p 0 p
Ası́, desarrollando esta fórmula recursivamente hacia atrás obtenemos
q−1 q−2 1
H(p, q) = ... H(p + q − 1, 1),
p p+1 p+q−2
1
donde el último término a derecha es igual a p+q−1 por el desarrollo anterior. En consecuencia multipli-
cando esta expresión arriba y abajo por Γ (p) y utilizando nuevamente la fórmula recursiva 1, se tiene
Γ (p)Γ (q)
que H(p, q) = Γ (p+q) . 
Facultad de Ciencias Sociales PUCP 87

Sea X una v.a. continua y sean α > 0 y β > 0, constantes con valores dados. Diremos que X
tiene distribución gamma de parámetros α y β, lo que se denotará por X ∼ Γ (α, β), si su función
de densidad es:  α α−1 −βx
β x e


Γ (α)
si x ≥ 0
fX (x) =  (2.9)

0 en otro caso.

Los parámetros α y β se suelen denominar también, respectivamente, los parámetros de forma


y tasa de la distribución. La Figura (2.5) muestra algunas gráficas de la función de densidad para
distintos parámetros α y β. Como se aprecia la gráfica de esta densidad es asimétrica a la derecha,
pero conforme crece α esta se atenúa y se hace cada vez más simétrica.
α = 2,β = 0.5 α = 10,β = 0.5 α = 16,β = 0.5
0.21

0.20

0.19
0.07 0.07

0.18

0.17

0.16 0.06 0.06

0.15

0.14

0.05 0.05
0.13

0.12

0.11
0.04 0.04
fX(x)

fX(x)

fX(x)

0.10

0.09

0.08 0.03 0.03

0.07

0.06

0.02 0.02
0.05

0.04

0.03
0.01 0.01

0.02

0.01

0.00 0.00 0.00

0 5 10 15 20 25 0 20 40 60 0 20 40 60 80
x x x

Figura 2.3: Gráficos de la función de densidad de una distribución Gamma con distintos paráme-
tros de forma.

Origen. La distribución Gamma aparece de modo muy natural en un proceso de Poisson, como
la distribución del “tiempo de espera” hasta la ocurrencia del k−ésimo evento generado por el
proceso, siendo k ∈ N+ .

Proposición 2.15. Si para un proceso de Poisson de tasa ω, definimos la v.a. continua T = Tiempo que
transcurre hasta que ocurra el k−ésimo evento generado por el proceso, entonces T ∼ Γ (α = k, β = ω).
Demostración: Sea t > 0 un valor arbitrario. Como el evento (T > t) es equivalente al evento (X ≤ k − 1),
siendo X la v.a. discreta que nos cuenta el número de eventos generados por el proceso en el intervalo
88 ÍNDICE GENERAL

[0, t] de distribución de Poisson de parámetro λ = ωt, se tiene que


k−1 k−1
X λx X (ωt)x
FT (t) = 1 − P (T > t) = 1 − P (X ≤ k − 1) = 1 − e−λ = 1− e−ωt
x! x!
x=0 x=0

Tomando, la derivada de esta función con respecto a t, que recordemos nos brinda la densidad de T ,
resulta que
k−1 k−1
X (ωt)x X −ωt (ωt)x−1
fT (t) = ωe−ωt − ωe x ω
x! x!
x=0 x=0
k−1 k−2
X (ωt)x X (ωt)` (ωt)k−1 ωk t k−1 e−ωt
= e−ωt ω( − ) = e−ωt ω = ,
x! `! (k − 1)! Γ (k)
x=0 `=0
Esto muestra que T ∼ Γ (α = k, β = ω). 

Las propiedades básicas de la distribución Gamma son la siguientes.

Proposición 2.16. Si X ∼ Γ (α, β), entonces

1. E(X) = αβ .
α
2. V (X) = β2
.
β
3. MX (t) = ( β−t )α , si t < β.

Demostración: Las propiedades 1. y 2. se obtienen directamente por derivación de la función generadora


de momentos, la cual detallamos seguidamente.
Z∞ α α−1 e−βx Z∞
tX tx β x β α xα−1 e−x(β−t)
MX (t) = E(e ) = e dx = etx dx
0 Γ (α) 0 Γ (α)
Haciendo arriba el cambio de variable y = x(β − t), con t < β, se sigue que
Z∞
βα β α
MX (t) = α
y α−1 e−y dy = ( ) . 
Γ (α)(β − t) 0 β −t
Observaciones:

La distribución exponencial es un caso particular de la distribución gamma.

Otro caso particular e importante de la distribución gamma se da cuando α = 2k y β = 21 , don-


de k es un entero positivo dado. Esta distribución se presenta cuando medimos la varianza
en muestras aleatorias y se conoce como la distribución Ji-Cuadrado. El único parámetro
de esta distribución es k y es llamado “grados de libertad”. Mayores detalles sobre esta dis-
tribución serán presentados en el capı́tulo 4, cuando entremos al estudio de la estadı́stica
inferencial.

Tanto la distribución exponencial como la gamma se usan como modelos teóricos para dis-
tribuciones asimétricas como Ingresos, Tiempos de Vida, Edades, etc, que tienen la particu-
laridad de que su cola derecha caiga rápidamente hacia 0.
Facultad de Ciencias Sociales PUCP 89

Ejemplo 2.12. El número de unidades de transporte que circula por una avenida de la ciudad se pre-
senta a razón de ω vehı́culos/cuadra, siguiendo un proceso de Poisson. Un economista de transporte está
formulando un modelo al respecto y espera que en una muestra, sobre 10 cuadras consecutivas, hallan
50 unidades.

a) ¿Cuál es el valor de ω?

b) ¿Con qué probabilidad encontrarı́amos que entre dos unidades de transporte median menos de 0.25
cuadras?

c) Un micro entra a la avenida y le informan que dos unidades de la misma lı́nea le preceden. ¿Qué
distancia esperarı́a que medie entre el micro entrante y el más cercano de los que lo preceden? ¿Del
más alejado? ¿Con qué probabilidad serán las distancias mayores que lo esperado? Mida la distancia
en cuadras y asuma que el número de vehı́culos de esta lı́nea en la avenida tiene una tasa igual a la
cuarta parte de la general.

Solución: a) Si X =Número de vehı́culos en t = 10 cuadras (tomamando como unidad la cuadra), enton-


ces X ∼ P (λ = ωt = 10ω). Sabemos que E(X) = ωt y, por tanto, 10ω = 50 o ω = 5.
R 0.25
b) Sea T=Distancia entre dos vehı́culos, entonces T ∼ Exp(β = 5). Luego P (T ≤ 0.25) = 0 5e5t dt =
1 − e−1.25 = 1 − 0.29 = 0.71.
c) En este caso la tasa es ω = 5/4 = 1.25 y podemos aplicar sucesivamente las proposiciones relativas
al origen de las distribuciones exponencial y gamma. Si definimos T1 = “Distancia entre el micro que
entra a la avenida y el más cercano de los que lo preceden”, podemos ver que T1 ∼ Exp(β = 5/4) y
además E(T1 ) = 1/β = 54 = 0.8. Análogamente si T2 = “Distancia hasta el micro más alejado”, podemos
ver que T2 ∼ Γ (α = 2, β = 45 ). De lo anterior resulta E(T2 ) = αβ = 58 = 1.6. Finalmente P (T1 > 0.8) =
R∞
0.8
1.25e−1.25t dt = e−1 = 0.37 y P (T2 > 1.6) puede hallarse integrando por partes o, de manera más
directa, bajo el comando de R:

> 1-pgamma(1.6,shape=2,rate=1.25)
[1] 0.4060058

2.9. La distribución beta


Sea X una v.a. continua con rango [0, 1] y sean α > 0 y β > 0, constantes con valores dados.
Diremos que X tiene distribución beta, de parámetros α y β, lo que se denotará por X ∼ Beta(α, β),
si su función de densidad es:

Γ (α+β)
 Γ (α)Γ (β) xα−1 (1 − x)β−1 si 0 < x < 1


fX (x) = 

 0 en otro caso.

La figura siguiente muestra la gráfica de esta densidad para distintos valores de sus parámetros α
y β. Como se aprecia esta distribución es bastante flexible y puede tomar distintas formas, una de
las cuales es la distribución uniforme en el intervalo [0, 1] (si α = β = 1). Es importante también
aclarar que la función de densidad podrı́a tomar en consideración los valores 0 y 1, si α ≥ 1 y
β ≥ 1.
90 ÍNDICE GENERAL

8.0
7.5
7.0 α = 0.5, β = 2
6.5 α = 1, β = 2
6.0 α = 2, β = 1
5.5 α = 2, β = 0.5
5.0 α = 6, β = 2
4.5 α = 3, β = 9
fX(x)

4.0 α = 12, β = 12
3.5
3.0
2.5
2.0
1.5
1.0
0.5
0.0
0.00 0.25 0.50 0.75 1.00
x

Figura 2.4: Gráfico de la función de densidad de una distribución beta para diferentes valores de
sus parámetros α y β.

Observación: La propiedad 4. de la proposición 2.5 justifica el hecho de que la función anterior


sea efectivamente una función de densidad.
Origen. Dado que el rango de esta v.a. continua X es el intervalo [0, 1], esta es utilizada para
el modelamiento de tasas, ratios o proporciones. Es natural también su uso sobre cualquier v.a.
continua con rango acotado como los porcentajes, pues este rango puede transformarse de manera
lineal y directa al intervalo [0, 1]. El nombre de la distribución tiene sus origen en que en su
Γ (α+β)
densidad se utiliza la función especial beta, la cual está definida por B(α, β) = Γ (α)Γ (β) .
Proposición 2.17. Si X ∼ B(α, β) entonces
α
1. E(X) = α+β .
αβ
2. V (X) = (α+β)2 (α+β+1)
.
Demostración: Utilizando las propiedades 1. y 4. de la proposición 2.4, se tiene que para la primera
afirmación
1
Γ (α + β) 1 α
Z Z
Γ (α + β) α−1 β−1
E(X) = x x (1 − x) dx = x (1 − x)β−1 dx
0 Γ (α)Γ (β) Γ (α)Γ (β) 0
Γ (α + β) Γ (α + 1)Γ (β) Γ (α + β) αΓ (α)Γ (β) α
= = = .
Γ (α)Γ (β) Γ (α + β + 1) Γ (α)Γ (β) (α + β)Γ (α + β) α + β
2. De manera similar,
Γ (α + β) 1 α+1
Z
2 Γ (α + β) (α + 1)αΓ (α)Γ (β) α(α + 1)
E(X ) = x (1 − x)β−1 dx = =
Γ (α)Γ (β) 0 Γ (α)Γ (β) (α + β + 1)(α + β)Γ (α + β) (α + β)(α + β + 1)
Facultad de Ciencias Sociales PUCP 91

y, por tanto,

α(α + 1) α2 αβ
V (X) = E(X 2 ) − E(X)2 = − = . 
α + β(α + β + 1) (α + β)2 (α + β)2 (α + β + 1)

2.10. La distribución normal


Sea X v.a. continua y sean µ y σ > 0 constantes reales de valor conocido. Diremos que X tiene
distribución normal de media µ y varianza σ 2 , y la denotaremos por X ∼ N (µ, σ 2 ), si su función
de densidad viene dada por

1 − 1
(x−µ)2
fX (x) = √ e 2σ 2
2πσ
La Figura 2.5 ilustra la forma acampanada de la gráfica de la función densidad de X ∼ N (µ, σ 2 ).
Como se aprecia la curva es simétrica con respecto a su eje central ubicado en la media µ, mientras
que σ controla la dispersión de la distribución. Si µ se fija y σ 2 crece, la distribución se “aplana”;
en cambio si σ 2 disminuye, la distribución se “angosta”. Esto se debe a que σ 2 mide la dispersión
o variabilidad de X alrededor de la media µ y puede probarse fácilmente que los puntos µ ± σ
corresponden a los puntos de inflexión de la curva. Note también que esta es una distribución de
colas “ligeras”, es decir, la densidad cae rápidamente a 0. Aunque su rango teórico es toda la recta
real, se tiene que la probabilidad de que X tome valores en el intervalo [µ − 3σ , µ + 3σ ] es de 0.999.

µ = 5,σ2 = 4

0.2

Punto de inflexión
fX(x)

σ
0.1

0.0

−3 −2 −1 0 1 2 3 4 5 6 7 8 9 10 11 12 13
x

Figura 2.5: Gráfico de la función de densidad de una distribución normal con media µ = 5 y
varianza σ 2 = 4.

Origen. Este es, sin lugar a dudas, el modelo más usado de variable continua. Se presenta de
modo natural cuando se trabaja con la distribución de variables que son ellas mismas, sumas de
92 ÍNDICE GENERAL

un número muy grande de variables aleatorias, como es el caso de muchas variables económicas
que son “agregados”, como la demanda global.

Proposición 2.18. Si X ∼ N (µ, σ 2 ), entonces

1. E(X) = µ.

2. V (X) = σ 2 .
1 2 2
3. MX (t) = eµt+ 2 σ t
.

4. Dadas las constantes a y b, Y = a + bX ∼ N (a + bµ, b2 σ 2 ).

Demostración: Como es costumbre 1. y 2. se pueden probar a partir de la función generatriz de momentos


dada en 3., la cual pasamos a detallar en su cálculo. Completando cuadrados
Z∞ µ2
Z∞
tX tx 1 − 12 (x−µ)2 − 2 1 − 1 (x2 −2(µ+tσ 2 )x)
MX (t) = E(e ) = e √ e 2σ dx = e 2σ √ e 2σ 2 dx
−∞ 2πσ −∞ 2πσ
µ2
Z∞ µ2
− 2 12 (µ+tσ 2 ) 1 − 1 (x−(µ+tσ 2 ))2 − 1
(µ+tσ 2 ) 1 2 2
e 2σ e 2σ √ e 2σ 2 dx = e 2σ 2 e 2σ 2 = eµt+ 2 σ t ,
−∞ 2πσ
donde en la penúltima igualdad la integral es 1 pues estamos integrando la densidad de una v.a normal
con media µ + tσ 2 y varianza σ 2 .
4. Basta aplicar la técnica de cambio de variable en la distribución acumulativa de Y . Para ello supon-
gamos, sin pérdida de generalidad, que b > 0. Luego,

FY (y) = P (Y ≤ y) = P (a + bX ≤ y) = P (X ≤ (y − a)/b) = FX ((y − a)/b)

y
y−a 2 2 y−a−bµ 2 2 2 2
d (y − a) 1 e−( b −µ) /2σ 1 e−( b ) /2σ e−(y−a−bµ) /2(bσ )
fY (y) = FX ((y − a)/b)) = fX ( )× = √ × = √ = √
dy b b 2πσ b 2πbσ 2π (bσ )

que corresponde a una función de densidad normal de media µY = a + bµ y varianza σY2 = b2 σ 2 . El caso
en que b < 0 se resuelve de manera análoga. 

Observación Si bien la función de densidad de X ∼ N (µ, σ 2 ) posee un gráfico atractivo, el cálculo


de las probabilidades o áreas bajo ella es intratable, pues no existen métodos analı́ticos para rea-
lizar la integración correspondiente. En tal sentido, lo que se hace es recurrir a una tabla especial,
donde estas áreas se encuentren ya calculadas (por métodos de cuadratura numéricos) o en caso
contrario uno debe de recurrir al uso de algún software estadı́stico como el que introduciremos en
la sección última de este capı́tulo. Si bien la curva de la densidad cambia según lo haga σ y este
parámetro pordrı́a tomar cualquier valor no negativo, la plausibilidad de esta práctica se ve justifi-
cada por el siguiente corolario, al que llamaremos el proceso de estandarización. Este es en verdad
un caso particular de la propiedad de linealización última, pero dada su importancia práctica lo
enmarcaremos en el siguiente resultado. En adelante llamaremos además a toda variable de dis-
tribución normal con media 0 y varianza 1, una variable normal estándar y la denotaremos por
Z ∼ N (0, 1).
Facultad de Ciencias Sociales PUCP 93

X−µ
Corolario 2.1. SiX ∼ N (µ, σ 2 ) y definimos Z = σ , entonces Z ∼ N (0, 1).
Demostración: Basta considerar en la propiedad de linealización 4. de la proposición 2.18 a las constantes
µ
a = − σ 2 y b = σ12 . 

Observación: La tabla de probabilidades acumuladas FZ de la distribución de la v.a. Z ∼ N (0, 1)


contiene las áreas acumuladas o probabilidades, para distintos valores de esta v.a. definidos hasta
el nivel de las centésimas. La lectura de las probabilidades de FZ (c) = P (Z ≤ c) es directa: basta
con “entrar” a la tabla con el valor c al nivel de las décimas en la lı́nea horizontal y al nivel de las
centésimas en la columna pertinente y ubicar la probabilidad acumulada en el cruce de ambas.
Para ilustrar el uso de la tabla Z, veamos el siguiente ejemplo.

Ejemplo 2.13. Si Z ∼ N (0, 1) hallar

a) P (Z ≤ 1.96).

b) P (Z > 1.96).

c) P (Z ≤ 1).

d) P (1 < Z ≤ 1.96).

e) c tal que P (Z ≤ c) = 0.8508.

Solución: Antes de obtener estas probabilidades, recordemos que Z es una v.a. continua y por tanto es
irrelevante que en las probabilidades pedidas se consideren o desigualdades estrictas o no.
a) P (Z ≤ 1.96) = 0.975
b)P (Z > 1.96) = 1 − P (Z ≤ 1.96) = 1 − 0.975 = 0.025
c) P (Z ≤ 1.00) = 0.8413
d) P (1 < Z ≤ 1.96) = P (Z ≤ 1.96) − P (Z ≤ 1) = 0.975 − 0.8313 = 0.1437
d) Por lectura “inversa” de la tabla, esto es entrando con la probabilidad acumulada y después de ubi-
cando ésta, yendo a los bordes, se tiene que: c = 1.04

El siguiente ejemplo ilustra el proceso de estandarización para el cálculo de probabilidades


con una distribución normal cualesquiera.

Ejemplo 2.14. Si X ∼ N (10, 9),

a) Calcular P (X ≤ 15).

b) Halle el valor c tal que P (X ≥ c) = 0.95.

Solución: Aquı́ tenemos que µ=10 y σ 2 =9, es decir, σ =3. Por tanto, estandarizando

15 − 10
P (X ≤ 15) = P (Z ≤ ) = P (Z ≤ 1.67) = 0.9525.
3
b) Si c es tal que P (X > c) = 0.95 equivalentemente se tiene que P (X ≤ c) = 0.05. Luego, P (X ≤ c) =
0.05 = P (Z ≤ c−10
3 ). Buscando en la tabla Z con 0.05 de probabilidad acumulada tenemos que 3 
c−10

−1.645, de donde c  10 − 3 × 1.645 = 5.065.


94 ÍNDICE GENERAL

Ejemplo 2.15. En una región del paı́s, el ingreso familiar es una v.a.c. X con distribución normal de
parámetros µ=300 y σ 2 =1002

a) En la región solo el 2.5 % de las familias se considera de altos ingresos ¿Cuál ingreso X0 define a una
familia como de altos ingresos?

b) Si se considera que el costo de una Canasta Familiar mı́nima es 350 u.m. y el gobierno asegura
que con su plan de reactivación, en cinco años solo el 30 % de las familias estará en Pobreza: ¿Cuánto
dinero adicional tendrı́a que ganar cada familia para que lo anterior sucediera?

Solución: a) Por dato P (X ≥ X0 ) = 0.025 ⇔ P (X ≤ X0 ) = 0.975 ⇔ P (Z ≤ X0100 −300


) = 0.975 ası́ que
X0 −300
100 = 1.96 ⇒ X0 − 300 = 196 ⇒ X0 = 496
b) Sea Y el ingreso luego del plan de reactivación, entonces Y = X + c donde c es el dinero adicional
en el ingreso de cada familia. Si el % de pobreza es 30 %, entonces se cumplirı́a P (Y < 350) = 0.3 o
equivalentemente P (X + c < 350) = 0.3 ⇒ 0.3 = P (X < 350 − c) = P (Z < 350−c−300
100 ) y de la tabla Z
350−c−300 50−c
tenemos 100 = −0.525 ⇒ 100 = −0.525 ⇒ c = 102.5.

2.11. La distribución lognormal


Sea X una v.a. continua con rango estrictamente positiva y sean µ y σ 2 > 0 constantes reales
de valor conocido. Diremos que X tiene distribución lognormal de parámetros µ y σ 2 , si Y = ln X
tiene distribución normal N (µ, σ 2 ). Lo anterior se denota escribiendo X ∼ LogN (µ, σ 2 ).
Observación: El cálculo de probabilidades con esta distribución se hace a través de la distribución
normal. Más concretamente, si X ∼ LogN (µ, σ 2 ) y FX (x) = P (X ≤ x) es la distribución acumulativa
de X, entonces se cumple

ln x − µ
FX (x) = P (X ≤ x) = P (ln X ≤ ln x) = P (Y ≤ ln x) = P (Z ≤ ),
σ
donde Y ∼ N (µ, σ 2 ) y Z ∼ N (0, 1).

Proposición 2.19. Si X ∼ LogN (µ, σ 2 ), la función de densidad de X es


 2 2

 √1 e−(ln x−µ) /2σ si x > 0
fX (x) = 
 x 2πσ

 0 en otro caso.
Demostración: Como FX (x) = FY (ln x), se tiene que derivando con respecto a x
2 2
0 1 1 e−(ln x−µ) /2σ
fX (x) = FY (ln x) = fY (ln x) = √ 
x x 2πσ

Como se aprecia en la Figura (2.6), la función de densidad de esta distribución tiene una mar-
cada asimetrı́a positiva, con una cola bastante “pesada”, es decir, que la función de densidad se
acerca lentamente por la derecha a su ası́ntota horizontal 0. Ello hace que esta distribución sea
ut́il para el modelamiento de eventos extremos, es decir, en los cuales las probabilidades que que
ocurra un evento extremo (X sea muy grande) es no despreciable.
Facultad de Ciencias Sociales PUCP 95

µ = 3,σ2 = 1.44
fX(x)

0 20 40 60 80 100
x

Figura 2.6: Gráfico de la función de densidad de una distribución lognormal con parámetros µ = 3
y σ 2 = 1.44.

Origen. Esta distribución aparece como una consecuencia del teorema del lı́mite central cuando
los efectos del azar no son aditivos sino multiplicativos. Sean W1 , W2 , · · · , Wn , · · · variables aleato-
rias positivas e independientes con medias finitas y varianzas positivas finitas. Sea T el producto
de estas variables, i.e. T = nj=1 Wj . Si el número n de factores es grande (n ≥ 30), entonces se cum-
Q

ple que T ∼ LogN (µ, σ 2 ), donde µ = nj=1 µj y σ 2 = nj=1 σj2 , siendo µj = E(lnWj ) y σj2 = V (ln(Wj )).
P P

Proposición 2.20. Si X ∼ LogN (µ, σ 2 ), entonces


1 2
1. a) E(X) = eµ+ 2 σ .
2 2
2. b) V (X) = e2µ+2σ − e2µ+σ .
t2 2
Demostración: Como Y = ln X ∼ N (µ, σ 2 ), entonces MY (t) = etµ+ 2 σ . Pero también sabemos que MY (t) =
t t2 2
E(etY ) y que E(et ln X ) = E(eln X ) = E(X t ). Es decir, E(X t ) = etµ+ 2 σ , ∀t. Evaluando en t = 1 obtenemos
1 2 2
µX = E(X) = eµ+ 2 σ y en t = 2 obtenemos E(X 2 ) = e2µ+2σ , de donde se obtienen directamente a) y b). 
Note que µ , E(X) y σ 2 , V (X) para esta distribución.
Ejemplo 2.16. La cotización de una acción en la bolsa, después de cierto tiempo en el mercado de valores,
es una v.a. X con distribución lognormal de parámetros µ y σ 2 .

a) Si µ=5 y σ =1, ¿con qué probabilidad la cotización será menor que 190 u.m.?

b) Un inversionista espera que el tı́tulo se cotice a 1100 u.m. aunque sabe que con 94 % de probabilidad
el tı́tulo no pasará de 3200 u.m. ¿Cuáles son los parámetros de la distribución?

Solución: a) P (X < 190) = P (ln X < ln 190) = P (ln X < 5.25) = P (Z < 0.25) = 0.5987.
1 2
b) Como µX = E(X) = eµ+ 2 σ = 1100 se sigue que µ + 12 σ 2 = 7 . . . (I). Por otro lado, de P (X < 3200) =
8.1−µ
P (ln X < 8.1) = P (Z < σ ) = 0.94 se sigue que
8.1 − µ
= 1.55. (II)
σ
96 ÍNDICE GENERAL

Resolviendo (I) y (II) se obtienen µ y σ 2 : De (I) µ+ 21 σ 2 = 7 ⇒ µ = 7− 12 σ 2 . Reemplazando esto en (II) nos



genera la ecuación cuadrática σ 2 − 3.1σ + 2.2 = 0 que tiene como soluciones a σ = 3.1± 9.61−4×2.2
2 =σ =
3.1±0.9
2 . Por tanto, tenemos respectivamente las siguientes posibles dos soluciones para los parámetros de
la distribución: σ = 1.1(2) y µ = 6.5(5).

Ejemplo 2.17. El ingreso familiar X (medido en cientos de unidades monetarias) en una región es una
v.a.c. con distribución lognormal de parámetros µ = 3 y σ 2 = 1.

a) Si se considera que el costo de una canasta familiar mı́nima es 33.2 cientos de u.m. ¿En esta región
con qué probabilidad una familia estará en condición de pobreza?

b) Si se considera que el costo de una canasta familiar mı́nima es 33.2 cientos de u.m. y el gobierno
asegura que con su plan de lucha contra la pobreza, en cinco años solo el 30 % de las familias estará en
Pobreza. ¿Cuánto dinero adicional tendrı́a que ganar cada familia para que la afirmación del gobierno
se realizara?

Solución: a) “En condición de pobreza” equivale a “Ingreso no cubre el costo de la canasta familiar”
(lnX−3)

o a que X < 33.2 y se pide P (X < 33.2) = P (lnX < ln33.2) = P (lnX < 3.5) = P 1 < 3.5−3
1 =
P (Z < 0.5) = 0.6915; es decir un 69.15 % de la población de esta región está en pobreza.
b) Sea Y = X + c el ingreso luego del plan del gobierno, donde c es el ingreso adicional. En cinco años, c
será tal que:

P (Y < 33.2) = 0.3 ⇐⇒ 0.3 = P (X + c < 33.2) = P (X < (33.2 − c)) = P (lnX < ln (33.2 − c) =
!
(ln (33.2 − c)) − 3 (ln (33.2 − c)) − 3
=P Z < = 0.3 ⇒ = −0.525 ⇒ ln (33.2 − c) = 2.475
1 1

Luego, (33.2 − c) = e2.475 = 11.88 y c = 33.2 − 11.88 = 21.32 cientos de unidades monetarias.

2.12. Ejercicios
1. Un inspector municipal con ayuda de la policı́a ha iniciado en cierto punto de la capital un
operativo para parar todo auto sospechoso nuevo y multarlo en caso de no haber pagado el
impuesto SAT. El operativo ha de culminar y moverse a otro punto de la capital apenas se
coloque una tercera multa. Si la probabilidad de que un auto que se detenga no halla pagado el
SAT es de 0.8, ¿cuál es la probabilidad de que se hallan detenido más de 5 autos en el operativo?

2. En una empresa el número X de trabajadores estables, es una v.a con distribución de Poisson X ∼
P (20); por otra parte la empresa contrata una cantidad Y de trabajadores temporales, siendo
Y ∼ P (50) e Y se asume que es independiente de X.

a) Halle el rango y la función de probabilidad del número total T de trabajadores de la empresa.


b) Si se supiera que esta empresa cuenta con 68 trabajadores ¿cuál es la probabilidad de que
solamente 15 de ellos sean estables?
Facultad de Ciencias Sociales PUCP 97

3. La fabricación de un bien requiere de dos etapas independientes entre sı́. Se asume que el tiem-
po de fabricación requerido en la primera etapa medido en minutos tiene distribución normal
con media 5 y desviación estándar 0.5 y que el tiempo de fabricación requerido en la segunda
etapa medido en minutos tiene distribución normal con media 4 y desviación estándar 0.4. Si
cada minuto de fabricación en la primera etapa por bien cuesta 10 soles, cada minuto de la
segunda etapa por bien cuesta 15 soles y además los materiales usados cuestan 100 soles por
bien

a) ) Calcule la probabilidad que el tiempo de fabricación de un bien para la primera etapa haya
sido menor al de la segunda etapa.
b) Calcule la probabilidad que el costo total (tiempo de fabricación y materiales usados para
un bien) sea menor a 200 soles.
c) Si el bien se vende en lotes de 6 unidades. Calcule la probabilidad que más de 4 de los bienes
que conforman un lote hayan tenido un costo superior a los 200 soles.

4. El tiempo que se demora en llegar el pedido de servicio por delivery de un restaurante se asume
que tiene distribución Normal con media 40 minutos y desviación estándar de σ minutos. El
servicio de delivery es por un solo combo, el cual tiene un valor de 100 soles; pero el restaurante
ofrece cobrar al cliente la mitad de ese precio si el pedido se demora más de una hora.

a) Si la probabilidad de que un servicio de delivery se demore menos de media hora es 0.209,


muestre que el valor de σ deberı́a ser igual a σ = 12.34568.
b) ¿Con qué probabilidad se pagará solo 50 soles por un pedido de delivery?
c) ¿Cuál es el pago que se esperará realice un cliente por el servicio de delivery?
d) Si en un dia se hicieron 30 pedidos ¿con qué probabilidad se esperará recabar ese dia más
de 2850 soles?

5. Un parque nacional abre a las 10 am. Suponga que los visitantes que buscan ir a una de las
atracciones del parque llegan a la cola de un bus pequeño que los transportará a ese lugar, a
través de un proceso de Poisson a razón de 3 visitantes cada 5 minutos. Estos buses parten cada
20 minutos o apenas se llenen, siendo su capacidad de 10 pasajeros.

a) ¿Cuál es la probabilidad de que el primero de estos buses parta sin haber ocupado todos sus
asientos?
b) Suponga que dependiendo de que si el bus se llene o no, este podrı́a tomar solo una de dos
rutas A o B. La ruta A es más directa y el bus la toma con probabilidad 0.9 en caso esté lleno.
La ruta B, por otro lado es más larga, pues pasa por un paradero intermedio que recoge carga
o pasajeros, y el bus la toma con probabilidad 0.7 en caso no se hayan ocupado inicialmente
todos sus asientos. Si un pasajero llegó a la atracción destino del parque por la ruta B, ¿con
qué probabilidad el bus que el tomó se encontraba lleno al momento de partir?
c) ¿Con qué probabilidad 7 de los 10 buses que transportaron pasajeros durante un dı́a, utili-
zaron la ruta A?
98 ÍNDICE GENERAL

6. Un modelo asume que el ingreso mensual de los clientes de un banco, en miles de soles, es una
v.a. continua X con distribución lognormal de parámetros µ = 2 y σ 2 = 1. Estos clientes, depen-
diendo si sus ingresos son menores a 3000 soles, estan entre 3000 y 5000 soles o son superiores
a los 5000 soles son clasificados por el banco en tres grupos C, B y A; respectivamente.

a) ¿Cuál es el ingreso medio de un cliente en el banco?


b) ¿Con qué probabilidad un cliente tendrá ingresos superiores a los 3,000 soles?
c) Si le asignan al azar 10 clientes ¿con qué probabilidad la mayorı́a de ellos serán del grupo
C?
d) Suponga que darán un bono de S/. 500 por manejar la cartera de un cliente del grupo A y
un bono de S/. 100 por manejar la cartera de un cliente del grupo B. Si le asignan al azar a 10
clientes del banco ¿cuál serı́a el valor esperado y la desviación estándar del monto por bonos
que percibirı́a por manejar la cartera de estos 10 clientes?

7. Se inspecciona 14 metros de alambre de un rollo, si no se encuentra ninguna falla se acepta el


rollo, si se encuentran 3 o más fallas se rechaza, en cualquier otro caso se inspeccionan 12 metros
adicionales. Si el número total de fallas (en ambas inspecciones) es mayor a 3 se rechaza el rollo.
Finalmente si se rechaza un rollo, se inspecciona al 100 % y el fabricante debe pagar los costos
de inspección. Si el número de fallas del alambre de cobre está descrito por una distribución de
Poisson con media de 0.05 fallas por metro y el costo por metro de inspección es de un sol:

a) Halle la probabilidad de rechazar un rollo.


b) ¿ Cuánto esperará gastar por inspección la empresa ?
c) ¿ Cuánto esperará gastar por inspección el fabricante ?

8. Una obra requiere de una maquinaria especial, la cual se debe rentar a un costo de 50 u.m. por
mes o fracción de mes bajo un contrato que especifica un número fijo de meses de contrato .
Este contrato; sin embargo, posee una cláusula que especifica que si el periodo de obra excede
al número de meses de contrato , los contratistas podrı́an aún contar con la maquinaria pero
por un alquiler de 70 u.m. por mes o fracción de mes adicional que se rente. Si la función de
probabilidad del número de meses que al contratista le toma terminar una obra de similares
caracterı́sticas es

x
C 5x!
(
si x = 1, 2, 3, 4, 5
fX (x) =
0 en otro caso.

a) Halle el valor de C.
b) Halle el número esperado de meses en que se espera se culmine la obra.
c) Halle el costo esperado en alquiler, si el contrato estipula K = 2 meses.
d) Halle el valor óptimo de K en el sentido de que este minimice el costo total esperado de
alquiler de la maquinaria.
Capı́tulo 3

Vector aleatorio

El estudio de procesos complejos suele involucrar más de una variable y entonces las herra-
mientas estadı́sticas hasta aquı́ desarrolladas resultan insuficientes. Por ejemplo, si tenemos precio
y demanda de un bien, que por razones fortuitas o de azar, se alejan de sus valores teóricos o de
equilibrio y se convierten en variables aleatorias, digamos X e Y , con valores esperados µX y µY
y desviaciones estándar σX y σY respectivamente, podemos pronosticar que lo más probable es
un precio entre µX -σX y µX +σX , y una demanda entre µY -σY y µY +σY , pero no podremos pro-
nosticar con qué probabilidad habrá un exceso de demanda ni dar forma analı́tica a la conocida
relación teórica (inversa) entre precio X y demanda Y , ni usar ésta para afinar nuestros pronósti-
cos. El problema ocurre por no tener un sistema de análisis conjunto de variables aleatorias. En
este capı́tulo desarrollaremos ese sistema y para ello, consideraremos el análisis simultáneo de va-
riables aleatorias definidas sobre un mismo espacio muestral de modo que conformen un vector
cuyas componentes son variables aleatorias o sea un vector aleatorio. Para simplificar, empezare-
mos con el caso bidimensional y luego generalizaremos al caso n dimensional.

3.1. Definición y clasificación


Definición 3.1 (Vector aleatorio bidimensional). Un vector aleatorio (X, Y ) es un vector cuyas com-
ponentes son variables aleatorias X e Y definidas conjuntamente sobre el mismo espacio muestral Ω. El
conjunto de posibles parejas (X, Y ) se denotará por RXY y se le llama el rango del vector (X, Y ).

Todo vector aleatorio (X, Y ) se podrá clasificar como:

Discreto: si sus componentes son variables aleatorias discretas.

Continuo: si sus componentes son variables aleatorias continuas.

Observación: Hay también vectores aleatorios (X, Y ) ”mixtos”, con una componente discreta y la
otra continua o incluso aquellos en que alguna o ambas de las v.a.’s componentes son mixtas. Estas
no serán directamente tratadas aquı́, pero su extensión es inmediata en base a los desarrollos que
aquı́ presentamos.

99
100 ÍNDICE GENERAL

La noción de vector aleatorio se puede extender a más de dos dimensiones. Un vector alea-
torio fila k-dimensional X = (X1 , X2 , ..., Xk ) es un vector cuyas componentes son variables alea-
torias definidas conjuntamente. Análogamente podemos hablar de un vector aleatorio columna
k-dimensional X = [X1 , X2 , ..., Xk ]> . Filas o columnas, los vectores se clasifican como continuos,
discretos o mixtos. Cuando k > 2 será más conveniente tratar a estos como vectores columna.

Ejemplo 3.1. Una empresa hace sucesivas perforaciones en busca de pozos petroleros y la probabilidad
de tener éxito en una perforación cualquiera es p> 0. El espacio muestral Ω lo podemos representar como
un conjunto de sucesiones {a1 , a2 , a3 ,· · ·}, donde ai =1 si en la perforación i-ésima se encuentra petróleo
o ai =0 si en la perforación i-ésima no se encuentra petróleo. En este contexto definamos las variables
aleatorias X=Número de la perforación donde se encuentra petróleo por primera vez e Y =Número de la
perforación donde se encuentra petróleo por segunda vez. Ası́, el vector aleatorio (X, Y ) es discreto donde
X puede tomar los valores 1, 2, 3, . . . e Y puede tomar los valores 2, 3, 4, . . .. Note además que se debe de
cumplir que X<Y . Se tiene entonces que RXY = {(x, y) / x = 1, 2, 3, . . . ; y = x + 1, x + 2, x + 3, . . .}.

Ejemplo 3.2. Suponga que el 40 % de la producción de una empresa se exporta a Europa, el 50 %


al Asia y el 10 % se vende en el mercado nacional. Si Ud. toma una muestra al azar de 5 productos
recién terminados y se definen las v.a.’s X =número de productos exportados a Europa e Y =número de
productos exportados a Asia, entonces (X, Y ) es un vector aleatorio discreto con rango

RXY ={(x, y) / x= 0, 1, 2,· · ·, 5; y= 0, 1, 2,· · ·, 5; x+y≤5 }.

Ejemplo 3.3. El gobierno convoca a un concurso para la construcción de un puente y se presentan dos
compañı́as A y B que ofrecen costos de a y b millones de unidades monetarias respectivamente, donde
a y b pueden tomar indistintamente cualquier valor entre 0 y 1. El espacio muestral Ω lo podemos
representar como el conjunto de todas las ofertas posibles, esto es Ω={(a, b) / 0 <a< 1; 0 <b< 1 }. Sean
las variables aleatorias X = Precio ganador e Y = Diferencia entre las ofertas presentadas. En este caso
(X, Y ) es un vector aleatorio continuo con rango RXY ={(x, y) / x=Mı́n{a, b}; y= |a−b|; (a, b)∈Ω }.

Ejemplo 3.4. Una consultora recibe proyectos cuyo costo de ejecución c puede tomar cualquier valor
en ]0,1[ y fija un precio de consultorı́a p>c para el proyecto, donde p puede tomar cualquier valor en
]c,1[. Sean las v.a.’s X = Costo de ejecución e Y = Precio de la consultorı́a. Entonces (X, Y ) es un vector
aleatorio continuo con rango RXY = {(x, y) / 0 < x < 1; x < y < 1}.

Ejemplo 3.5. Una acción puede subir o bajar su cotización en una rueda de bolsa. Si sube su cotización,
la subida puede ser de 100r %, donde 0 < r < 21 . Si baja, ésta puede ser de 100r %, donde 0 < r < 43 . La
probabilidad de que suba la cotización es p. Si el valor de la acción al inicio de la rueda de bolsa es 1 y
1 si hay subida
definimos las v.a. X={ . e Y = Valor de la acción al final de la rueda, entonces (X, Y ) es
0 si hay baja
vector aleatorio mixto con rango RXY = {(x, y) / x = 0, 1; y ∈]0.25, 1.5[}.

Ejemplo 3.6. El número X de trabajadores contratados en una empresa es aleatorio con distribución
geométrica X ∼ G(p) y el tiempo Ti que el trabajador contratado i permanece en la empresa también
es aleatorio con distribución exponencial Ti ∼ Exp(β). Si definimos la variable aleatoria Y = Tiempo de
permanencia del trabajador contratado más antiguo. Entonces (X, Y ) es un vector aleatorio mixto con
rango RXY = {(x, y) / x = 1, 2, 3, . . . ; y ∈]0, ∞[}.
Facultad de Ciencias Sociales PUCP 101

Observación: En algunos de los ejemplos hemos definido explı́citamente el espacio muestral para
resaltar que la definición de las componentes del vector aleatorio debe ser conjunta, es decir X e Y
se miden o registran simultáneamente, sobre los mismos casos. Esto es ası́ para tener información
que luego permita hacer pronósticos de una de las componentes dando valores a la otra, esto es,
pretendemos “explicar” el comportamiento de una de las componentes a partir de la otra.

3.2. Distribuciones de probabilidad para un vector aleatorio discreto


En esta sección, desarrollaremos el cálculo de probabilidades con un vector aleatorio discreto
(X, Y ), el caso continuo es similar, pero requiere de la noción de integración doble, tema del que
trataremos en la siguiente subsección.
Definición 3.2 (Función de probabilidad conjunta). Si (X, Y ) es un vector aleatorio discreto, la fun-
ción de probabilidad conjunta de (X, Y ), denotada por PXY (x, y), se define por:

PXY (x, y) = P (X = x, Y = y) = P ({ω ∈ Ω / X(ω) = x e Y (ω) = y}).


PXY (x, y) proporciona la probabilidad de que ocurra la pareja (x, y), o sea la probabilidad de
que simultáneamente la v.a. X tome el valor particular x y la v.a. Y tome el valor particular y.
Naturalmente si (x, y)<RXY , entonces PXY (x, y) = 0.
Proposición 3.1. 1. PXY (x, y) ≥ 0.
P
2. (x,y) PXY (x, y) = 1.
P
3. P ((X, Y ) ∈ A) = (x,y)∈A PXY (x, y).
La verificación de estas propiedades es consecuencia directa del hecho que PXY (x, y) es una
función que distribuye probabilidades sobre el rango RXY del vector aleatorio (X, Y ).
Observación: Las sumatorias que figuran en las propiedades 2. y 3. son “sumatorias dobles”, bajo
dos subı́ndices x e y que debemos manejar, y aunque podemos sumar de manera libre, es mejor
P P P
hacerlo ordenadamente, esto es (x,y) PXY (x, y) = x y PXY (x, y) , donde primero se suma sobre y
dentro del paréntesis en que x es fija y luego se suma sobre x con lo que obtendremos un número.
Como la suma no depende del orden de los sumandos, tenemos también que
   
X X X  X X 
PXY (x, y) = PXY (x, y) = PXY (x, y) .
  
 
 
(x,y) x y y x

Ejemplo 3.7. Sea (X, Y ) el vector aleatorio discreto de la empresa petrolera en el ejemplo 3.1, donde X
= Número de la perforación donde se encuentra petróleo por primera vez e Y =Número de la perforación
donde se encuentra petróleo por segunda vez. Hallar la función de probabilidad conjunta PXY (x, y) de
(X, Y ) y la probabilidad de que X e Y resulten números consecutivos.
Solución: Ya vimos que RXY = {(x, y) / x = 1, 2, 3, . . . ; y = x + 1, x + 2, . . .}. Tomemos una pareja especı́fica
(x, y) en RXY . En este contexto sea el evento Ai =“En la perforación número i se encuentra petróleo”,
entonces se cumple la equivalencia

(X = x, Y = y) = AC C C C C C
1 ∩A2 ∩· · ·∩Ax−1 ∩Ax ∩Ax+1 ∩Ax+2 ∩· · ·∩Ay−1 ∩Ay =A∩B,
102 ÍNDICE GENERAL

donde A=AC C C
1 ∩A2 ∩· · ·∩Ax−1 ∩Ax = “En las primeras x−1 perforaciones no se encuentra petróleo y en la
x−ésima sı́” y B=AC C C
x+1 ∩Ax+2 ∩· · ·∩Ay−1 ∩Ay = “Entre las perforaciones x+1 hasta la y −1 no se encuentra
petróleo y en la y−ésima sı́”. Por dato P (Ai ) =p, luego P (AC
i ) = 1−p y

P (X = x, Y = y) = P (AC C C C C C
1 ∩A2 ∩· · ·∩Ax−1 ∩Ax ∩Ax+1 ∩Ax+2 ∩· · ·∩Ay−1 ∩Ay ) = P (A∩B)

(x−1) veces (y−x−1) veces


z }| { z }| {
= P (A)P (B | A) = (1−p)(1−p)· · ·(1−p) p× (1−p)(1−p)· · ·(1−p) p=p2 (1−p)y−2 .
Si estamos fuera del rango, naturalmente PXY (x, y) = 0. Resumiendo

p2 (1−p)y−2 si x= 1, 2, 3,· · ·, y = x + 1, x + 2, . . .
(
PXY (x, y) =
0 en caso contrario.
Finalmente, sea el evento D = “X e Y resultan números consecutivos”. Entonces: D = {(x, y) ∈
RXY / x = 1, 2, 3, . . . ; y = x + 1} y se cumple que
∞ ∞  ∞ ∞
X X
2 (x+1)−2
 X
2 x−1 p2 X p2 (1−p)
P (D) = PXY (x, x + 1)= p (1−p) = p (1−p) = (1−p)x = =p.
1−p 1 − p 1 − (1−p)
x=1 x=1 x=1 x=1

Observación: En el ejemplo anterior hemos podido escribir fórmulas explı́citas para PXY (x, y) y
P (D). Estas fórmulas explı́citas (“cerradas”, es su nombre técnico) son más bien la excepción y no
la regla. Muchas veces no queda sino hacer una tabla, y en casos extremos, usar la computadora
para los cálculos.
Ejemplo 3.8. Sea (X, Y ) un vector aleatorio discreto, donde X = Número créditos concedidos en una
agencia bancaria durante un dı́a e Y = Número de créditos impagos dentro de los concedidos, con función
de probabilidad conjunta PXY (x, y) dada por

PXY (x, y) =cx , si x= 1, 2, 3, 4 e y= 0, 1, 2, ...,x.

Hallar la constante c que hace a PXY (x, y) una función de probabilidad (“constante normalizadora”) y la
probabilidad de que todos los créditos sean pagados.
P P
Solución: Basta usar el hecho que x y PXY (x, y)= 1. Para este ejemplo, es más sencillo escribir PXY (x, y)
en formato de una tabla de doble entrada y sumar:

PXY (x, y) x
y 1 2 3 4
0 c 2c 3c 4c
1 c 2c 3c 4c
2 0 2c 3c 4c
3 0 0 3c 4c
4 0 0 0 4c
P P x
Ası́, x y PXY (x, y)= 40c= 1 implica que c= 1/40 y PXY (x, y) = 40 , si x= 1, 2, 3, 4; y= 0, 1, 2, ...,x.
Finalmente si A denota al evento A =“Todos los créditos son pagados”, entonces A=(Y = 0) =
{(x, 0) / (x, y) ∈ RXY } y P (A) = 4x=1 PXY (x, 0) =c+2c+3c+4c= 10c= 10/40 = 0.25.
P
Facultad de Ciencias Sociales PUCP 103

Ejemplo 3.9. En el ejemplo anterior, ¿cuál es la probabilidad de que se hayan concedido 3 créditos? ¿De
que se hayan concedido 3 créditos si se sabe que hubo 2 créditos impagos?
Solución: Dado que el evento “Se han concedido 3 créditos” equivale a que X= 3, se tiene que

P (X = 3) = P ((X= 3)∩(Y = 0))+P ((X= 3)∩(Y = 1))+P ((X= 3)∩(Y = 2))+P ((X= 3)∩(Y = 3))

=PXY (3, 0)+PXY (3, 1)+PXY (3, 2)+PXY (3, 3)= 3c+3c+3c+3c= 12c = 12/40 = 0.3.
Análogamente la probabilidad condicional pedida viene dada por
P ((X= 3)∩(Y = 2)) PXY (3, 2) 3c 3c
P (X= 3|Y = 2) = = = = = 0.33,
P (Y = 2) P (Y = 2) P (Y = 2) 9c
pues
P (Y = 2) =P ((X= 2)∩(Y = 2))+P ((X= 3)∩(Y = 2))+P ((X= 4)∩(Y =2))
=PXY (2, 2)+PXY (3, 2)+PXY (4, 2) = 2c+3c+4c= 9c.

Definición 3.3 (Función de probabilidad marginal). Sea (X, Y ) un vector aleatorio discreto con fun-
ción de probabilidad conjunta PXY (x, y), se define la función de probabilidad marginal de X, denotada
por PX (x), mediante: X
PX (x) = PXY (x, y).
y

Análogamente, la función de probabilidad marginal de Y , que se denota por PY (y), se define mediante:
X
PY (y) = PXY (x, y).
x

Observación: Si deseamos hallar la probabilidad de que la componente X del vector aleatorio


(X, Y ) tome el valor particular x, al margen del valor que tome la otra v.a. componente Y , po-
P P
demos escribir P (X=x)=P ((X=x)∩(Y ∈R))= y P ((X=x)∩(Y =y))= y PXY (x, y)=PX (x). Similarmente
P
se comprueba que PY (y) =P (Y =y) = x PXY (x, y). Es decir, las distribuciones marginales proporcio-
nan las distribuciones individuales de X y de Y , que son las mismas que obtendrı́amos si definimos
estas v.a.’s por separado. Lo anterior muestra que no perdemos ninguna información si trabajamos
desde el inicio con la distribución conjunta. Es más, en realidad con esta entrada ganamos infor-
mación, como lo demuestran las definiciones dadas en el siguiente parágrafo.

Definición 3.4 (Función de probabilidad condicional). En el contexto anterior, se define la función


de probabilidad condicional de Y dado que X=x, denotada por PY |X (y | x), mediante:

PXY (x, y)
PY |X (y | x) = ,
PX (x)
donde x es una valor dado tal que PX (x) > 0.
Análogamente se define la función de probabilidad condicional de X dado que Y =y, denotada por
PY |X (y | x), mediante:
P (x, y)
PX|Y (x | y) = XY ,
PY (y)
donde y es un valor dado tal que PY (y) > 0.
104 ÍNDICE GENERAL

Observación: Note que la definición anterior se trata en realidad de una aplicación directa de
P ((X=x)∩(Y =y)) PXY (x,y)
la definición de probabilidad condicional:P (Y =y|X=x) = P (X=x)
= P (x) =PY |X (y|x). Similar-
X
mente se obtiene e interpreta PX|Y (x|y) =P (X=x|Y =y).
¿Cuál es la utilidad de las distribuciones condicionales? Pues inmensa, ya que pone al analista
en posición de hacer pronósticos de una de las componentes del vector aleatorio (X, Y ), dando
valores a la otra componente. En Economı́a rara vez se estudia una variable aislada; al contrario,
se trata siempre de asociarla a otra u otras que permitan hacer pronósticos confiables y tomar
decisiones. Los modelos económicos en el fondo son formulaciones que muestran cómo una o
unas variables económicas responden a otras que podemos usar como base para polı́ticas. Las
distribuciones condicionales están en la base de los modelos económicos cuando en éstos hay
variables aleatorias.

Ejemplo 3.10. En el ejemplo 3.7 de la empresa petrolera, hallar PY (y) y PX|Y (x|y). En promedio, ¿ cómo
varı́a X según va cambiando Y ?
Solución: Para hallar PY (y), fijemos un valor y para aplicar la definición, recordando que fijado el valor
y, entonces X solo puede tomar valores desde 1 hasta (y−1). Ası́:

X y−1
X
PY (y) = PXY (x, y) = p2 (1 − p)y−2 = (y − 1)p2 (1 − p)y−2 , si y = 2, 3, . . .
x x=1

Ahora vayamos por PX|Y (x|y):

PXY (x, y) p2 1 − p)y−2 1


PX|Y (x|y) = = 2 y−2
= , si x = 1, 2, . . . , y − 1.
PY (y) (y − 1)p (1 − p ) y − 1

Examinando PX|Y (x|y), podemos concluir que dado un valor Y =y, la componente X puede tomar cual-
quier valor entre 1 e (y-1) con la misma probabilidad, pero conforme aumentamos el valor y, el rango
de posibilidades para X aumenta. Podemos representar esta tendencia usando la media de X en esta
distribución condicional:

(y−1) (y−1) (y−1)


X X 1 1 X 1 (y−1)(y) y
xPX|Y (x|y) = x = x= = .
(y−1) (y−1) (y−1) 2 2
x=1 x=1 x=1

Como pensamos, la media de X aumenta conforme aumenta y. Para resaltar que no es la media o valor
esperado individual de X sino el valor esperado condicionado a Y=y, usaremos la notación E(X|Y =y)
y
y ası́ escribiremos E(X|Y =y)= 2 para mostrar cómo en promedio la componente X del vector aumenta
conforme aumenta la componente Y. Mas adelante profundizaremos en este concepto, conocido como de
esperanza condicional.

Ejemplo 3.11. En el ejemplo de los créditos 3.8, hallar PX (x) y PY |X (y|4). Interprete la última función.
Solución: Sumando las filas y columnas del cuadro correspondiente a la función de probabilidad conjunta
obtendremos:
Facultad de Ciencias Sociales PUCP 105

PXY (x, y) x
y 1 2 3 4 PY (y)
0 1/40 2/40 3/40 4/40 10/40
1 1/40 2/40 3/40 4/40 10/40
2 2/40 3/40 4/40 9/40
3 3/40 4/40 7/40
4 4/40 4/40
PX (x) 2/40 6/40 12/40 20/40 1

Las funcion de probabilidad marginal de X se encuentran en la última fila de la tabla anterior y viene
dada por:

x 1 2 3 4
PX (x) 1/20 3/20 6/20 10/20

De otro lado, la función de probabilidad marginal de Y se encuentra en la última columna de la tabla


anterior y viene dada por:

y 0 1 2 3 4
PY (y) 10/40 10/40 9/40 7/40 4/40

Finalmente, cuando X= 4 tenemos que

PXY (4,y) 4/40


PY |X (y | 4) = = = 0.20, para y= 0, 1, 2, 3, 4.
PX (4) 20/40

Esto significa que si la agencia bancaria concedió 4 créditos en un dı́a, se tendrá una probabilidad cons-
tante de que ninguno quede impago, solo uno quede impago, dos queden impagos, tres queden impagos
o los 4 impagos.

3.3. Distribuciones de densidad para un vector aleatorio continuo


3.3.1. Integrales dobles
A diferencia del caso discreto, el cálculo de probabilidades con un vector aleatorio continuo
(X, Y ) es más complejo, pues requiere como herramienta de un modelo matemático conocido como
la función de densidad conjunta. Más concretamente, de manera similar a que la probabilidad de
que una v.a. continua X se encuentre en un conjunto A ⊆ R se hallaba como el área bajo su función
de densidad fX sobre A, en el caso de un vector aleatorio continuo (X, Y ), la probabilidad de que
este vector se encuentre en una región A del plano se calculará como el volúmen bajo su función de
densidad conjunta sobre A. Matemáticamente, el cálculo de este volúmen, requiere del concepto
de integración doble, tema que trataremos en esta subsección. El lector familiarizado con este
concepto puede omitir esta parte.
Recordemos que si una función fXY (x, y) es continua en una región del plano dada por A =
{(x, y) ∈ R2 / a ≤ x ≤ b ; c ≤ y ≤ d}, entonces la integral doble de esta función sobre este rectángulo
106 ÍNDICE GENERAL
RR
A, que lo denotaremos por A fXY (x, y)dxdy, se calcula como una integral iterada, primero sobre
y luego sobre x, o también en el orden inverso (Teorema de Fubini). Esto es:
ZZ Z b Z d ! Z d Z b !
fXY (x, y)dxdy= fXY (x, y)dy dx= fXY (x, y)dx dy.
A a c c a

LLendo más alla, si A ⊆ R2 es expresable como una región de fronteras definidas en términos de
funciones, como A = {(x, y) ∈ R2 / a ≤ x ≤ b ; h1 (x) ≤ y ≤ h2 (x)}, entonces:
ZZ Z b Z h2 (x)

 
fXY (x, y)dxdy= 
 fXY (x, y)dy dx.
A a h1 (x)

Análogamente si A posee la forma A = {(x, y) ∈ R2 / g1 (y) ≤ x ≤ g2 (y); c ≤ y ≤ d}, entonces


ZZ Z d Z g2 (y)

 
fXY (x, y)dxdy= 
 fXY (x, y)dxdy.
A c g1 (y)
RR
Geométricamente, si fXY es una función que toma valores no negativos A fXY (x, y)dxdy co-
rresponde al volumen debajo de la gráfica de la superficie z=fXY (x, y) sobre la región A⊆R2 .
En caso que la región de integración A no pueda expresarse como antes, esta puede descom-
ponerse casi siempre en subregiones disjuntas que si tengan las formas anteriores y por tanto la
integral doble sobre esta región se calcula como la suma de las integrales dobles sobre tales su-
bregiones. Sea este o no el caso es fundamental siempre, para el cálculo de la integral, graficar
la región de integración A. Ello nos servirá para dilucidar si es mejor integrar primero con res-
pecto a x o a y, lo cual también dependerá de la complejidad del integrando fXY . Lo que uno
siempre busca es simplificar el cálculo, el cual puede también plantearse mediante diferenciales.
Por ejemplo, si resultara conveniente integrar primero con respecto a x, uno considerará a y como
una constante y fijará el diferencial de x, dx, entre dos lı́mites que dependan de y, evaluará esta
integral en estos lı́mites y luego desarrollará la integral resultante con respecto al diferencial de
y, dy, con unos lı́mites tales que la recta definida por el diferencial anterior cubra al desplazarse
verticalmente toda la región A. Lo opuesto se realizará si la integración es primero sobre y. Como
ejemplo veamos el siguiente cálculo.

Ejemplo 3.12. Obtenga la integral doble de la función f (x, y) = 10 + x2 + 2xy 3 sobre la región A =
{(x, y) ∈ [0, 1] × [0, 2] / y ≤ 2 − x}.
Solución: Dado que la función dada es no negativa sobre A, la integral pedida corresponde al volúmen
bajo la gráfica de esta función sobre esta región. La gráfica de f genera una superficie, la cual es retratada
en la parte superior de la figura 3.1. La figura 3.2, de otro lado, muestra la región de integración A, la
cual vemos que es un trapecio.
Es claro, por la forma de la región de integración, que resulta aquı́ más conveniente integrar primero
con respecto a y y luego con respecto a x. De esta manera, si llamamos I a la integral buscada se tiene
que
Z 1 Z 2−x Z1
xy 4 2−x
! !
2 3 2
I= (10 + x + 2xy )dy dx = (10y + x y + ) dx
0 0 0 2 0
Facultad de Ciencias Sociales PUCP 107

50

40

30
z

20

10

0
0.0 2.0
0.5 1.5
1.0 1.0
x y
1.5 0.5

2.0 0.0

Figura 3.1: Superficie asociada a la gráfica de f del ejemplo 3.12

1 A
y

0
0

Figura 3.2: Región de integración A para la función f del ejemplo 3.12


108 ÍNDICE GENERAL

1 1
x(2 − x)4
Z Z
2 1
= (10(2 − x) + x (2 − x) + )dx = (x5 − 8x4 + 22x3 − 28x2 − 4x + 40)dx
0 2 2 0
1 x6 x5 x4 x3 x2 1 491
= ( − 8 + 22 − 28 − 4 + 40x) = .
2 6 5 4 3 2 0 30
Note que alguien podrı́a haber también optado por integrar primero con respecto a x y luego a y, lo cual
no es incorrecto pero si más trabajoso, ya que requerirı́a particionar el conjunto A en dos subconjuntos
disjuntos A1 (definido por el cuadrado base del trapecio) y A2 (definido por el triángulo superior del
trapecio) y calcular I como I = I1 + I2 , siendo I1 la integral doble de f sobre la subregión A1 e I2 la
integral doble de f sobre la región A2 . El cálculo de estas integrales vienen dadas por
Z1 Z1 Z1
x3
! 1 !
2 3 2 3
I1 = 10 + x + 2xy dx dy = (10x + + x y ) dy
0 0 0 3 0
Z1
31 3 31 y 4 1 127
= ( + y )dy = ( y + ) = .
0 3 3 4 0 12
y
Z 2 Z 2−y Z2
x3
! 2−y !
2 3 2 3
I2 = (10 + x + 2xy )dx dy = (10x + + x y ) dy
1 0 1 3 0
Z2
(2 − y)3 1 2 5
Z
2 3
= (10(2 − y) + + (2 − y) y )dy = (3y − 12y 4 − 11y 3 + 6y 2 − 42y − 68)dy
1 3 3 1
y 6 y 5 y 4 y 3 y2 2 347
= (3 − 12 − 11 + 6 − 42 − 68y) = .
6 5 4 3 2 1 60
Un resultado de gran utilidad en integración doble es RR el relacionado al “cambio de variable”.
Concretamente, si uno desea obtener la integral doble I = A fXY (x, y)dxdy es común, como en la
integración simple, realizar algún cambio de variable que busque simplificar el cálculo de I. El
problema aquı́ sin embargo no es tan directo, pues uno tiene no una sino dos variables. Concreta-
mente si proponemos una transformación u = h1 (x, y) y v = h2 (x, y) que transforma 1-1 la región
A del plano xy en una región R del plano uv y obtenemos su transformación inversa x = g1 (u, v) e
y = g2 (u, v), la cual existe pues la transformación es 1-1, se cumple que
ZZ ZZ
I= fXY (x, y)dxdy = f (g1 (u, v), g2 (u, v))|J(u, v|dudv
A R

donde |J(u, v)| denota al determinante del jacobiano de la transformación, último que está definido
por:
 ∂g (u,v) ∂g (u,v) 
 1 1 
J(u, v) =  ∂g2∂u ∂v
(u,v) ∂g2 (u,v) 
.

∂u ∂v
Vale agregar que este resultado se puede también extender a no sólo integrales dobles sino también
múltiples.
Ejemplo 3.13. Como una aplicación del cambio de variable, formalizemos ahora el cálculo de la integral
usada en la propiedad 3 de la proposición 2.14, a recordar
Z∞
2
I0 = e−x dx.
−∞
Facultad de Ciencias Sociales PUCP 109

El artificio que utilizaremos para este cálculo, consiste en obtener en su lugar la integral doble
Z ∞Z ∞ Z∞ Z∞ !
−(x2 +y 2 ) −x2 −y 2
I= e dxdy = e e dx dy = I02 .
−∞ −∞ 0 0

Luego la integral buscada se obtendrá simplemente como la raiz cuadrada del valor de la integral I. Para
el cálculo de I utilizaremos la propiedad de cambio de variable anterior, proponiendo como transforma-
ción lo que se conoce como las coordenadas polares. Esta transformación viene dada por x = r cos(θ) e
y = r sin(θ). Ası́ la integral I, originalmente en términos de las variables x e y, podrı́amos expresarla en
términos de las variables r y θ mediante
Z ∞ Z 2π Z∞ Z ∞ −h
−r 2 −r 2 e
I= e rdθdr = 2π e rdr = 2π dh = π.
0 0 0 0 2

Consecuentemente, I0 = π.

3.3.2. Densidades conjuntas, marginales y condicionales


Definición 3.5 (Función de densidad conjunta). Si (X, Y ) es un vector aleatorio continuo, su función
de densidad conjunta, denotada por fXY (x, y), es una función tal que:

1. fXY (x, y)≥0


RR
2. R2 fXY (x, y)= 1
RR
3. P ((X, Y )∈A) = A fXY (x, y)dxdy, para cualquier región A contenida en el rango RXY de (X, Y ).
R
Por lo anterior y partiendo de la condición R2 fXY (x, y)dxdy = 1(o equivalentemente de la
R −∞ R −∞ 
condición ∞ ∞
f XY (x, y)dx dy = 1), vemos que fXY (x, y) distribuye probabilidades de modo
continuo sobre RXY , asignando volúmenes sobre los distintos eventos A contenidos en RXY , de
modo que el volumen total (o probabilidad total) es 1. Note finalmente que aunque en la defi-
nición se integra sobre todo R2 , en la práctica la integral es solo sobre RXY , pues fuera de RXY ,
fXY (x, y) = 0.

Ejemplo 3.14. Sea (X, Y ) un vector aleatorio, donde X = Ingreso e Y = Consumo (ambos mensuales y
en una región) y supongamos que este vector posee la siguiente función de densidad conjunta:

ce−x si 0 < y < x < ∞


(
fXY (x, y)=
0 en caso contrario
Halle la constante normalizadora c y laRprobabilidad de que el consumo sea menor
n al 75 % del ingreso. o
+∞ R +∞
Solución: Para hallar c, recordemos que −∞ −∞ fXY (x, y)dxdy= 1. Como RXY = (x, y) ∈ R2 / 0 <y<x<∞
puede reescribirse como RXY = {(x, y) ∈ R2 / 0 <x<∞; 0 <y<x}, se tiene que
Z Z Z∞ Zx ! Z∞ Zx !
−x −x
fXY (x, y)dxdy = fXY (x, y)dxdy = ce dy dx = ce dy dx
R2 RXY 0 0 0 0
Z ∞
= cxe−x dx = cΓ (2) = c
0
110 ÍNDICE GENERAL

Igualando a 1, se obtiene que c= 1.


De otro lado, el evento A= “Consumo menor al 75 % del ingreso” equivale al evento A = {(x, y) ∈
RXY / 0 < x < ∞; 0 < y < 0.75x} y por tanto
ZZ Z ∞ Z 0.75x ! Z ∞ Z 0.75x ! Z ∞
−x −x
P ((X, Y )∈A) = fXY (x, y) = e dy dx= e dy dx= 0.75xe−x dx= 0.75.
A 0 0 0 0 0

Definición 3.6 (Función de densidad marginal). Sea (X, Y ) un vector aleatorio continuo, con función
de densidad conjunta fXY (x, y). Se define la función de densidad marginal de X, denotada por fX (x),
mediante: Z∞
fX (x) = fXY (x, y)dy.
−∞
Análogamente, la función de densidad marginal de Y , a denotarse por fY (y), viene dada por:
Z∞
fY (y) = fXY (x, y)dx.
−∞

Definición 3.7 (Función de densidad condicional). En el contexto anterior, definimos la función de


f (x,y)
densidad condicional de Y dado que X=x, denotada por fY |X (y | x), mediante: fY |X (y | x) = XY fX (x)
,
siendo x un valor dado tal que fX (x) > 0.
Análogamente se define la función de densidad condicional de X dado que Y =y, denotada por fX|Y (x |
fXY (x,y)
y), mediante: fX|Y (x | y) = fY (y)
, siendo y un valor dado tal que fY (y) > 0.

Observaciones:
R b R ∞  R∞
P (a<X≤b) =P ((a<X≤b)∩(−∞<Y ≤∞)) = a −∞ fXY (x, y)dy dx. Luego, −∞ fXY (x, y)dy es una
función de xR que integrada sobre ]a,b] proporciona la probabilidad de X en dicho interva-

lo, es decir, −∞ fXY (x, y)dy cumple los requisitos de una función de densidad para X y ası́
R∞
podemos escribir fX (x) = −∞ fXY (x, y)dy. Algo análogo ocurre con fY (y).

Se pueden definir también las probabilidades condicionales


Z b
P (a<X≤b|Y =y) := fX|Y (x|y)dx.
a

y
Z d
P (c<Y ≤d|X=x) := fY |X (y|x)dy
c

Ejemplo 3.15. En el ejemplo 3.15, halle fX (x), fY |X (x|y) y P (Y ≤0.8|X= 1.5). x


R∞ Rx
Solución: La densidad marginal de X viene dada por fX (x) = −∞ fXY (x, y)dy= 0 e−x dy=e−x y = xe−x ,
0
fXY (x,y) e−x
donde 0 <x<∞. En cuanto a la condicional de Y dado X: fY |X (y | x) = fX (x)
= xe−x = 1x , donde 0 <y<x
1
y x es un valor dado. En particular, para x= 1.5,fY |X (y | x) = 1.5 , donde 0 <y< 1.5 y por tanto
Z 0.8
1 0.8
P (Y ≤0.8|X= 1.5) = dy= = 0.53.
0 1.5 1.5
Facultad de Ciencias Sociales PUCP 111

Obsérve que X∼Γ(α= 2,β= 1) y dado X = x, Y tiene distribución uniforme en el intervalo [0,x], o sea
Y | X = x ∼ U ([0, x]). Ası́, E (Y |X=x) = 2x y entonces por cada unidad adicional de ingreso,
∞ la mitad se
R∞ R∞
esperará se destine al consumo. También: fY (y) = −∞ fXY (x, y)dx= y e dx = −e = e−y . Esto es
−x −x
y
Y ∼Exp(β= 1).

Ejemplo 3.16. Resuelva el ejemplo anterior si la función de densidad conjunta de (X, Y ) viene dada por

ye−x si 0 < y < x < ∞


(
fXY (x, y)=
0 en caso contrario

y 2 x
R∞ Rx
Solución: En primer lugar, fX (x) = f (x, y)dy=
−∞ XY 0
ye−x dy=e−x 2 0 . Para la densidad condicional
−x
fXY (x,y) ye 2y 8y
tenemos fY |X (y | x) = fX (x)
= x2 −x
= x2
,
si 0 < y < x. En particular, fY |X (y | 1.5) = 9 . Ası́, la
2 e
R 0.8 8y
probabilidad anterior pedida será igual a P (Y ≤ 0.8 | X = 1.5) = 0 9 dy = 0.28.

y 3 x
Rx Rx Rx
2y
Observación: En este último ejemplo E (Y | X = x) = 0
yfY |X (y|x)dy= 0
y x2 dy= x22 0
y 2 dy= x22 3 0 =
2
3 x,o sea que conforme aumenta el ingreso, el consumo medio también aumenta y lo hace a una
tasa de constante de 2/3 por cada unidad adicional de ingreso.

3.4. Independencia
Definición 3.8. Sean X e Y v.a’s discretas, diremos que X e Y son independientes si:

PXY (x, y) =PX (x)PY (y), ∀(x, y)

Análogamente, sean X e Y v.a’s continuas, diremos que X e Y son independientes si:

fXY (x, y) =fX (x)fY (y), ∀(x, y)

En general, las componentes de un vector aleatorio multidimensional resultaran ser variables


aleatorias independientes, si su función de probabilidad o densidad conjunta coincide con el pro-
ducto de sus correspondientes funciones marginales.

Ejemplo 3.17. Las variables X e Y del ejemplo 3.8 no son independientes. En cambio, las variables
 x+y
aleatorias X e Y con función de probabilidad conjunta PXY (x, y) = 21 , x= 1, 2, 3, ... y= 1, 2, 3, ... sı́
son independientes.

Ejemplo 3.18. El FMI diseña un rescate financiero de dos paı́ses A y B, cubriendo totalmente sus déficits
en cuenta corriente con X e Y en miles de millones de dólares respectivamente. Si (X, Y ) es un vector
aleatorio con función de densidad conjunta
( 2
x + xy/3 si 0 <x< 1, 0 <y< 2
fXY (x, y)=
0 en otro caso

a) Halle la distribución marginal del monto de ayuda a A.


112 ÍNDICE GENERAL

b) El FMI solo tiene mil millones. ¿Con qué probabilidad no podrá ayudar a los dos paı́ses simultánea-
mente?

c) Si A recibe 500 millones, ¿con qué probabilidad B recibirá más de esa cantidad? ¿Cuánto esperarı́a
recibir B en este caso?

Solución: a)
Z ∞ Z 2 2 2x
fX (x) = fXY (x, y)dy= (x +xy/3)dy=(x y+xy /6) = 2x2 + , si 0 < x < 1.
2 2 2
−∞ 0 0 3

b) Sea C el evento “El FMI no podrá ayudar a los dos paı́ses”, entonces esto equivale al evento C =
{(x, y) ∈ RXY /x + y > 1}. Graficando vemos que es mejor calcular P (C) mediante P (C) = 1−P (C C ). Ası́
Z 1 Z 1−x ! Z 1 1−x
2
C C
P (C ) =P ((X, Y )∈C ) = P (X + Y ≤ 1) = (x +xy/3)dy dx = (x2 y+xy 2 /6) dx
0 0 0 0

1 !1
1 x2 4x3 5x4
Z
1 2 3 7 65
= (x+4x −5x )dx= + − = y P (C) = .
6 0 6 2 3 4 0 72 72
R2
c) Si A recibe 500 millones, entonces X= 0.5 y necesitamos calcular P (Y > 0.5|X= 0.5) = f (y|0.5)dy.
0.5 Y |X
0.25+0.5y/3 4+y
Como fY |X (y|0.5) = 2×0.25+2×0.5/3 = 10 , si 0 <y< 2 se tiene que

2 2
8y + y 2 2
Z Z
4+y 17 63
P (Y > 0.5|X= 0.5) = fY |X (y|0.5)dy= ( )dy=( ) = 1− = .
0.5 0.5 10 20 0.5 80 80

Lo que “esperarı́a recibir B dado que A ya recibió 0.5” es


2 2
6y 2 + y 3 2 32
Z Z
4+y
 
E (Y |X= 0.5) = yfY |X (y|x)dy= y dy=( ) = = 1.07 mil millones.
0 0 10 30 0 30

3.5. Valor esperado


Definición 3.9. Si (X, Y ) es un vector aleatorio y H(X, Y ) una v.a. función de (X, Y ), se define el valor
esperado de H(X, Y ), denotado por E(H(X, Y )), mediante
 P P
H(x, y)PXY (x, y) si (X, Y ) es un vector aleatorio discreto
Rx y

E(H(X, Y )) = 
 R
 +∞ +∞ H(x, y)f (x, y)dxdy si (X, Y ) es un vector aleatorio continuo
−∞ −∞ XY

Observación: E(H(X, Y )) es una constante obtenida como un promedio ponderado de los distintos
valores que puede tomar H(X, Y ).
Casos Especiales

1. µX :=E(X) y µY :=E(Y ), son las medias poblacionales de X e Y respectivamente.

2. σX2 ≡V (X) :=E((X−µX )2 ) y σY2 ≡V (Y ) :=E((Y −µY )2 ), son las varianzas poblacionales de X e Y res-
pectivamente
Facultad de Ciencias Sociales PUCP 113

3. σXY ≡Cov(X, Y ) :=E((X−µX )(Y −µY )), es la llamada Covarianza entre X e Y . Este indicador mide
la asociación (lineal) entre X e Y , o sea la propensión a variar conjuntamente que tienen X e Y .
Como σXY es el promedio de los valores del producto (X−µX )(Y −µY ) entonces:

a) σXY > 0 quiere decir que “en promedio” (X−µX ) y (Y −µY ) tienen el mismo signo, es decir,
por lo general ocurre que X > µX y a la vez Y > µY ó ocurre que X < µX y a la vez Y < µY .
Podemos concluir que X e Y tienden a “crecer o disminuir a la vez”, i.e., están asociadas
directamente.
b) σXY < 0 quiere decir que “en promedio” (X−µX ) y (Y −µY ) tienen signo opuesto, es decir,
por lo general ocurre que X > µX y a la vez Y < µY ó ocurre que X < µX y a la vez Y > µY .
Podemos concluir que X e Y tienden a “moverse en dirección opuesta” ,i.e., están asociadas
inversamente.
c) Si σXY = 0, no hay relación lineal entre X e Y , aunque puede haber una relación no lineal.

Ejemplo 3.19. Consideremos nuevamente el ejemplo 2.2. en el cual recordemos habı́an dos polı́ticas A y
B para el caso que se recibieran quejas por la venta de 4 lotes que pudiesen contener productos vencidos.
Halle para este problema la utilidad que se esperará obtener bajo la polı́tica B, e indique cuál de las dos
polı́ticas le convendrı́a más a la empresa por esta venta.
Solución: Sea como antes X =número de cajas con productos vencidos que se venden. Vimos que X ∼
H(12, 2, 4) y que la utilidad esperada por la venta de los 4 lostes bajo la polı́tica A era de 333.33 soles.
En cuanto a la polı́tica B, la utilidad vendrá dada por



 600 − 100X si X = 0, 2

U (X, Y ) =  500 − 400Y si X = 1, Y = 0, 1




 0 en otro caso.

donde Y denota al número de lotes con productos vencidos que se restituyen ante la primera queja. Por
tanto,
XX
E(U (X, Y )) = H(x, y)PXY (x, y) = 600P (X = 0)+400P (X = 2)+500P (X = 1, Y = 0)+100P (X = 1, Y = 1).
x y

1 C12 C310
Dado que P (X = 1, Y = 0) = P (Y = 0 | X = 1)P (X = 1) = 8 × C412
= 0.0606 y P (X = 1, Y = 1) = P (Y =
C12 C310
1 | X = 1)P (X = 1) = 78 × C412
= 0.4242 se tiene que E(U (X, Y )) = 509.04 soles y por tanto esta polı́tica
le es más conveniente a la empresa.

3.5.1. Propiedades
Proposición 3.2.

1. Si α1 , α2 , . . . ,αn son constantes y H1 (X, Y ), H2 (X, Y ), ...Hn (X, Y ) funciones de (X, Y ), entonces:
n
X n
X
E( αi Hi (X, Y )) = αi E(Hi (X, Y ))
i=1 i=1
114 ÍNDICE GENERAL

2. Si X e Y son independientes y H(X),G(Y ) son funciones de X e Y , entonces:

E(H(X)G(Y )) =E(H(X))E(G(Y )).

Demostración: Si, sin pérdida de generalidad, asumimos que el vector es continuo, entonces para 1. se
tiene que
X n Z ∞Z ∞ Xn
E( αi Hi (X, Y )) = ( αi Hj (x, y))fXY (x, y)dxdy
i=1 −∞ −∞ i=1
n
X Z ∞Z ∞ n
X
= αi Hi (x, y)fXY (x, y)dxdy = αi E(Hi (XY )).
i=1 −∞ −∞ i=1
De otro lado, para 2. se cumple por la independencia y la propiedad de linealidad anterior que
Z ∞Z ∞ Z∞ Z∞ !
E(H(X)G(Y )) = H(x)G(y)fX (x)fY (y)dxdy = G(y) H(x)fX (x)dx fY (y)dy
−∞ −∞ −∞ −∞
Z ∞
= E(H(X)) G(y)fY (y)dy = E(H(X))E(G(Y )).
−∞


Observaciones:

La primera propiedad se resume diciendo que el valor esperado E(.) es un “operador lineal”,
pero en general E (H(X, Y )) ,H(E (X) , E (Y ) ).

De la primera propiedad se deriva también que el valor esperado de una constante es la


misma constante y que toda constante puede “salir” del valor esperado.

La covarianza, por otro lado, resulta ser en contraposición al valor esperado un “operador
bilineal”. Esta y otras propiedades se aprecian en el siguiente corolario.

Corolario 3.1. 1. Cov(X, Y ) = E(XY ) − E(X)E(Y ).

2. Si X e Y v.a.’s independientes, entonces Cov(X, Y ) = 0.

3. Si α1 , α2 , . . . ,αn , β1 , β2 , . . . , βm son constantes y X1 , X2 , . . . , Xn , Y1 , Y2 , . . . , Ym variables aleatorias, en-


tonces
Xn m
X n X
X m
Cov( αi Xi , βj Yj ) = αi βj Cov(Xi , Yj ).
i=1 j=1 i=1 j=1

En particular se cumple que


Xn n
X n X
X n n
X n X
X n
V( αi Xi ) = αi2 V (Xj ) + αi αj Cov(Xi , Xj ) = αi2 V (Xj ) + 2 αi αj Cov(Xi , Xj ).
i=1 i=1 i=1 j=1 i=1 i=1 j=1
i,j i<j

Demostración: 1. Puesto que µX o E(X) denotan ambos a la media de X, se tiene por la propiedad de
linealidad que Cov(X, Y ) = E((X − µX )(Y − µY )) = E(XY − µX Y − XµY + µX µY ) = E(XY ) − µX E(Y ) −
E(X)µY + µX µY = E(XY ) − E(X)E(Y ).
Facultad de Ciencias Sociales PUCP 115

2. Dado que se cumple 2. en la proposición anterior y 1. en este corolario, Cov(X, Y ) = E(XY ) − µX µY =


µX µY − µX µY = 0.
3. Por la primera propiedad de la proposición anterior y la definición de covarianza:
 
Xn m
X  Xn Xn Xm Xm 
Cov( αi Xi , βj Yj ) = E ( αi Xi − E( αi Xi ))( βj Xj − E( βj Xj ))
 
 
i=1 j=1 i=1 i=1 j=1 j=1
 
n
 X Xm  Xn X
m  
= E ( αi (Xi − E(Xi ))( βj (Xj − E(Xj )) = αi βj E (Xi − E(Xi ))(Xj − E(Xj ))
 
 
i=1 j=1 i=1 j=1
n X
X m
= αi βj Cov(Xi , Yj ). 
i=1 j=1

Definición 3.10 (Coeficiente de Correlación de Pearson). Este se denota por ρXY y se define mediante
σXY
ρXY = .
σX σY

Este coeficiente mide lo mismo que la covarianza, pero al carecer de unidades no se ve afectado por ellas.
Más aún, a diferencia del primero es acotado, como nos lo dice el siguiente resultado.

Proposición 3.3. Para cualquier par de variables aleatorias X e Y se cumple que

1 |ρXY | ≤ 1.

2 |ρXY | = 1 ⇔ P (Y = a + bX) = 1, donde


σXY
a = µY − bµX y b = .
σX2

X−µX
Demostración: a) Consideremos primero la “estandarización” de las variables X e Y mediante U = σX
Y −µ
y V = σ Y . Estas por la propiedad de linealidad se siguen que tienen media 0 y varianza 1. Definamos
Y
ahora las variables S = U + V y D = U − V . Dado que

E((X − µX )(Y − µY )
ρU V = E(U V ) = = ρXY
σX σY

bastará probar la propiedad de acotación para ρU V .


Según el último corolario, 0 < σD2 = σU2 + σV2 − 2Cov(U , V ) = 2 − 2ρU V y por tanto ρU V < 1. De
manera similar 0 < σS2 = σU2 + σV2 + 2Cov(U , V ) = 2 + 2ρU V implica que ρ > −1. En consecuencia
|ρXY | = |ρU V | ≤ 1
b) Supongamos primero que P (Y = a + bX) = 1. Dado que los eventos de probabilidad 0 no afectan el
calculo del valor esperado σY2 = b2 σX2 y se cumple que

E((X − µX )(a + bX − a − bµX ) bσX2 b


ρXY = = 2
= .
σx |b|σX |b|σX |b|
116 ÍNDICE GENERAL

Por tanto, |ρXY | = 1 . Para la otra implicación, que es más técnica, mostraremos equivalentemente que
si |ρXY | = 1, entonces E(U 2 ) = 0, donde U = Y − a − bX. En efecto, nuestra hipótesis implica que
|σXY | = σX σY . Reescribiendo U , como U = (Y − µY ) + µY − a − b(X − µX ) − bµX = (Y − µY ) − b(X − µX ) − d
, donde d = a − µY + bµX , se tiene de la propiedad de linealidad que al reemplazar los valores de a
y b, E(U 2 ) = E((Y − µY )2 + b2 (X − µX )2 + d 2 − 2d(Y − µY ) + 2db(X − µX ) − 2b(X − µX )(Y − µY )) =
2
σXY
σY2 + b2 σX2 + d 2 − 2bσXY = σY2 − σX2
= 0. 

Observación: La proposición anterior y el hecho que la correlación es nula cuando las variables
son independientes, nos permiten entonces interpretar la magnitud y signo de ella.
ρXY > 0 indica asociación directa o positiva entre X e Y .

ρXY < 0 indica asociación inversa o negativa entre X e Y .

|ρXY |1 indica que entre X e Y hay una asociación (lineal) “fuerte”.

|ρXY |0 indica que entre X e Y hay una asociación (lineal) “débil”.
Ejemplo 3.20. Halle e interprete para el ejemplo 3.15 la correlación de Pearson entre el consumo e
ingreso.
Solución: Para el cálculo de la covarianza, que es insumo de la correlación, será recomendable utilizar la
propiedad σXY =Cov(X, Y ) =E(XY )−E(X)E(Y ). Como X∼Γ(α= 2,β= 1), se sigue que E(X) =µX =αβ= 2
y V (X) =σX2 =αβ2 = 2. Similarmente como Y ∼Exp(β= 1), entonces E(Y ) =µY = 1/β= 1 y V (Y ) =σY2 = 1/β2 = 1.
Necesitamos luego solo hallar E(XY ). Este viene dado por:
ZZ Z∞ Zx ! Z∞ Zx !
−x −x
E(XY ) = xyfXY (x, y) = xye dy dx= xe ydy dx
R2 0 0 0 0
∞ ∞ ∞
y 2 x x3 e−x
Z Z Z
1 1
= xe−x ( )dx = dx= x3 e−x dx= Γ(4) = 3.
0 2 0 0 2 2 0 2
Por tanto, σXY =Cov(X, Y ) =E(XY )−E(X)E(Y ) = 3−2×1 = 1 y ρXY = 0.71. Consecuentemente podemos
decir que entre X e Y hay una relación lineal relativamente fuerte y directa.

3.6. La esperanza condicional


Dado un vector aleatorio (X, Y ), introdujimos antes supersticiamente a lo largo de varios ejem-
plos la noción de esperanza condicional de Y dado que X = x a la que denotamos por E(Y | X = x) e
interpretamos esta como el valor esperado de la distribución condicional de Y dado que X=x. Esta
es llamada también la función de regresión de Y sobre X, pues suele utilizarse para pronosticar el
valor que en promedio toma la v.a. Y cuando uno conoce el valor de X.
Observaciones:
Cuando se escriba E(Y | X) se entenderá ella como una v.a. que es función de X.

Análogamente se podrı́a hablar de la esperanza condicional de X dado que Y = y, E(X |


Y = x), intercambiando los roles de las variables del vector. En adelante, salvo se pida lo
contrario, nos limitaremos al análisis de la esperanza condicional de Y dado que X = x.
Facultad de Ciencias Sociales PUCP 117

En términos formales, la esperanza condicional de Y dado que X = x vienen dada por


 P
 R y yPY |X (y | x)
 si (X, Y ) es un vector aleatorio discreto
E(Y | X = x) = 
 ∞ yf (y | x)dy si (X, Y ) es un vector aleatorio continuo.
0 Y |X

Por la primera observación, tiene sentido el tomarse el valor esperado a la v.a. E(Y | X). Resulta
que este valor esperado no es otra cosa que el valor esperado de Y . Esta propiedad conocida como
de la “torre” es un análogo con esperanzas del teorema de probabilidad total y queda formalmente
plasmado en el siguiente resultado.
Proposición 3.4.
E(Y ) = E(E(Y | X)).
Demostración: Trabajaremos, sin pérdida de generalidad el caso continuo, quedando el discreto como
ejercicio. En efecto, si denotamos por ϕ(X) = E(Y | X) a la v.a. función de X, cuyo valor observado es
ϕ(x) = E(Y | X = x) se tiene que
Z +∞ Z∞ Z∞ !
E(E(Y | X)) = E(ϕ(X)) = ϕ(x)fX (x)dx = yfY |X (y | x)dy fX (x)dx
−∞ −∞ −∞
Z ∞ Z ∞ ! Z ∞ Z ∞ ! Z ∞
f (x, y)
= y XY dy fX (x)dx = y fXY (x, y)dx fX (x)dy = yfY (y)dy = E(Y ).
−∞ −∞ fX (x) −∞ −∞ −∞

Observaciones:
Se define análogamente la varianza condicional de Y dado que X = x, denotada por V (Y |
X = x) o también σY2 |X=x , mediante V (Y | X = x) = E(Y 2 | X = x) − E(Y | X = x)2 . Note que
σY2 |X=x mide la variabilidad de Y alrededor del pronóstico ϕ(x) = E(Y |X = x), cuando X = x
y por tanto σY |X=x puede verse entonces como un “margen de error” en el pronóstico de Y a
partir de X vı́a E(Y |X = x). En este sentido, abusándose de la notación, uno podrı́a escribir
Y =E(Y |X = x)±σY |X=x . Al igual que antes se entenderá a V (Y | X) como una v.a. función de
X.

Muchos modelos económicos se formulan en términos de valores esperados, esto es, se escri-
be algo como ϕ(x) = E(Y | X = x) para explicar el valor de la variable Y como “dependiente”
del valor que tome la variable X, llamada por esto variable “independiente”. Los modelos
más populares asumen que esta relación funcional es lineal.
Proposición 3.5.
V (Y ) = E(V (Y | X)) + V (E(Y | X)).
Demostración: Empezando por el lado derecho de esta igualdad y aplicando la propiedad de la torre, se
tiene que
   
E(V (Y | X)) + V (E(Y | X)) = E E(Y 2 | X) − E(Y | X)2 + E E(Y | X)2 − E (E(Y | X))2

= E(Y 2 ) − E(E(Y | X)2 ) + E(E(Y | X)2 ) − E(Y )2 = V (Y ).



118 ÍNDICE GENERAL

∂E(Y |X=x)
Ejemplo 3.21. Para el ejemplo 3.15, halle e interprete E(Y | X = x) y ∂x
.
1
Solución: Dado que como se vio en el ejemplo 3.16 fY |X (y | x) = x , si 0 <y<x se tendrá que
Zx
1 x
Z∞
1 y 2 x
Z
1 x
E(Y |X = x) = yfY |X (y|x)dy= y dy= ydy= ( ) = .
−∞ 0 x x 0 x 2 0 2
∂E(Y |X=x)
Esto es, dado un ingreso, en promedio la mitad del mismo se va en consumo. De otro lado, ∂x
= 12 ,
que se interpreta como una propensión marginal a consumir, es decir, que por cada unidad monetaria
adicional que se tenga de ingreso, la mitad se dedicará en promedio al consumo.

3.7. Vectores aleatorios multidimensionales


Para simplificar el tratamiento de un vector aleatorio k−dimensionales, será conveniente en-
tenderlo aquı́ como un vector columna k × 1, X = [X1 , X2 , . . . , Xk ]> . Note además que para evitar
confusiones escribiremos en negrita a todo vector o matriz. Dos caracterı́sticas distintivas de es-
te vector serán su vector de medias y su matriz de varianzas-covarianzas, las cuales definiremos
respectivamente por
µ = [µ1 , µ2 , . . . , µn ]>
y
 2 
 σ1 σ12 . . . σ1n 
  σ12 σ22
 

>
. . . σ2n 
Σ = E (X − µ)(X − µ) =   ,

..
 · · · · · · . ··· 
 
σ1n σ2n . . . σn2

siendo para cada i, j ∈ {1, 2, . . . , k}, µi = E(Xi ), σi2 = V (Xi ) y σij = Cov(Xi , Xj ), con i , j.
Observaciones:
µ resume la “tendencia central” del vector aleatorio.

Σ resume la variabilidad en el vector aleatorio. En este sentido hay dos maneras de sintetizar
ella : Mediante la traza de Σ y mediante el determinante de Σ. A la primera se le llama la
varianza total y viene dada por la suma de las varianzas de todas las componentes; mientras
que a la segunda se le conoce como la varianza generalizada, varianza que toma en cuenta
las correlaciones entre las componentes del vector.
La proposición siguiente nos indica como calcular el vector de medias y la matriz de varianzas-
covarianzas de cualquier transformación multilineal de un vector aleatorio.
Proposición 3.6. Sea X un vector aleatorio k-dimensional con vector de medias µ y matriz de varianzas-
covarianzas Σ, A una matriz m × k de constantes y b un vector m × 1 no aleatorio. Si definimos el vector
aleatorio m−dimensional Y, mediante la transformación Y = AX + b, entonces el vector de medias y la
matriz de varianzas-covarianzas de Y vienen dadas respectivamente por µY = Aµ + b y ΣY = AΣA> .
Demostración: Puesto que cada componente del vector transformado Y es una combinación afı́n-lineal
de las componentes de X, la linealidad del valor esperado garantiza que

µY = E(Y) = AE(X) + b = Aµ + b.
Facultad de Ciencias Sociales PUCP 119

De otro lado,
   
ΣY = V (Y) = E (Y − µY )(Y − µY )> = E A(X − µ)(X − µ)> A> = AΣA> .

Ejemplo 3.22. Halle para el ejemplo 3.15, la media y varianza de los ahorros de las familias de la región.
Solución: Para el caso del ingreso (X) y el consumo (Y ) hemos calculado ya todos los elementos necesarios
" # ! " 2 # !
µX 2 σX σXY 2 1
de los indicadores pedidos. Estos son µ = = y Σ= = . Si definimos
µY 1 σXY σY2 1 1
" #
h i X
ahora la nueva variable de interés Z= Ahorro, entonces Z=X−Y = 1 −1 . Ası́, aplicando la
Y
" #
h i 2
propiedad anterior se tienen que µZ = 1 −1 = 2−1 = 1 y
1
" #" # " #
h i 2 1 1 h i 1
σZ2 =ΣZ = 1 −1 = 1 0 = 1.
1 1 −1 −1

Note que este ejemplo se podrı́a haber también resuelto, utilizando las propiedades ya vistas de medias y
varianzas. Esto es,
E(Z) = 1×E(X) + (−1)×E(Y ) = 2 − 1 = 1

V (Z) =12 ×V (X) + (−1)2 ×V (Y ) + 2 × 1 × (−1)×Cov(X, Y ) =12 ×2 + (−1)2 ×1 + 2 × 1 × (−1) × 1 = 2 + 1 − 2 = 1.

3.7.1. La función generatriz de momentos de un vector aleatorio


Definición 3.11. Sea X = [X1 , X2 , . . . , Xk ]> un vector aleatorio. Definimos su función generatriz de
momentos por
>
MX (t) = E(et X ) = E(et1 X1 +t2 X2 +...+tk Xk ),

para valores de t = [t1 , t2 , . . . , tk ]> en los cuales exista este valor esperado.

Al igual que en el caso univariado, la función generatriz de momentos se emplea fundamen-


talmente para identificar a la distribución, al estar ella está en relación 1-1 con su función de
distribución y, por otro lado, para obtener los momentos generalizados de la distribución, me-
diante
m m m ∂m M (t)
E(X1 1 X2 2 . . . Xk k ) = m1 m2X m
,
∂t1 ∂t2 . . . ∂tk k t=0
donde m = m1 + m2 + . . . + mk .

3.7.2. Vector particionado y distribuciones conjuntas


Cuando se tiene un vector aleatorio X = [X1 , . . . , Xp , Xp+1 , . . . , Xk ]> , es útil en ocasiones separar
partes de él, por ejemplo considerando que las primeras p componentes conforman un subvector
120 ÍNDICE GENERAL

X1 = [X1 , . . . , Xp ]> de orden p ×1 y el resto de (k −p) componentes un subvector X2 = [Xp+1 , . . . , Xk ]>


de orden (k − p) × 1. En este contexto se escribe X = [X1 : X2 ]> .
Las nociones de distribución conjunta fX1 X2 ...Xk (x1 , x2 , . . . ,xk ); distribuciones marginales fX1 (x1 ),
fX2 (x2 ), . . . , fXk (xk ); y condicionales fXi |Xj (xi |xj ), son extensiones directas del caso bivariado. En par-
ticular es importante recordar que un conjunto de variables aleatorias X1 , X2 , . . . , Xk son indepen-
dientes si la distribución conjunta del vector X = [X1 , X2 , . . . , Xk ]> coincide con el producto de sus
distribuciones marginales para tales componentes. Si, sin pérdida de generalidad, asumimos que
el vector es continuo, ello quiere decir que para cualquier x = (x1 , x2 , . . . , xk ) ∈ Rk :
k
Y
fX (x) = fX1 X2 ...Xk (x1 , x2 , . . . ,xk ) =fX1 (x1 )fX2 (x2 ) . . .fXk (xk )≡ fXi (xi ).
i=1

En el caso discreto basta reemplazar las funciones de densidad arriba dadas por las de probabili-
dad.
Similarmente diremos que dos vectores aleatorios continuos X1 y X2 de ordenes p × 1 y q × 1
son independientes si para cualesquieras x1 ∈ Rp y x2 ∈ Rq :

fX1 X2 (x1 , x2 ) = fX1 (x1 )fX2 (x2 )

Esto es igualmente válido para vectores aleatorios discretos cuando se reemplacen las funciones
de densidad conjunta por las de probabilidad conjunta.
Para el caso de un vector aleatorio particionado se puede hablar también de distribuciones
marginales (conjuntas) y condicionales. En efecto, la función de densidad (o probabilidad) del
subvector X1 de orden p × 1, dado que el subvector X2 de orden (k − p) × 1 toma el vector x2 , se
define como
fX ,X (x1 , x2 )
fX1 |X2 (x1 | x2 ) = 1 2 ,
fX2 (x2 )
donde fX2 denota a la función de densidad (o probabilidad) marginal conjunta del subvector X2 ,
el cual se calcula en el caso continuo por
Z∞ Z∞
fX2 (x2 ) = ... fX1 ,X2 (x1 , x2 )dx1 .
−∞ −∞

Observación: (Necesidad de vectores particionados) Los modelos económicos suelen ser multi-
ecuacionales, donde el economista trata de “explicar” el comportamiento de un conjunto de p
variables de interés y que llama “endógenas”, como resultado de su interacción con otro conjunto
de k − p variables que llama “exógenas”. Si las variables tienen elementos de aleatoriedad (por-
que es obtienen con encuestas por muestreo o porque en sı́ son aleatorias), el conjunto total de
variables en el modelo completo es un vector aleatorio X = (X1 , . . . , Xp , Xp+1 , . . . , Xk )> , donde por
comodidad de lectura primero, y de análisis después, es preferible escribir X1 = (X1 ,· · ·,Xp )> para
representar al vector de variables “endógenas” y X2 = (Xp+1 ,· · ·,Xk )> para representar al vector
de variables “exógenas”. En este contexto, entendemos por “explicación”, el dar cuenta del com-
portamiento de X1 ∈Rp a partir del comportamiento de X2 ∈Rk−p . En términos de probabilidades,
fX1 ,X2 (x1 ,x2 )
esto se logra a través de fX1 |X2 (x1 | x2 ) = fX2 (x2 )
. Ciertamente, serı́a muy fatigoso hacer análi-
sis económico al grado de explicitar totalmente fX1 |X2 (x1 | x2 ). Lo que hace el analista económico
Facultad de Ciencias Sociales PUCP 121

es plantear las relaciones entre X1 y X2 primero y luego explicitarlas a través de ecuaciones si-
multáneas. Lo primero equivale a plantear la forma de la distribución condicional fX1 |X2 (x1 | x2 ) y
lo segundo se hace usando esperanzas condicionales. Para eso, mejor pasemos a tratar este punto
en contexto de vectores aleatorios
Cuando trabajemos con un vector particionado X = [X1 : X2 ]> de orden k, será de gran uti-
lidad el expresar su vector de medias y matriz de varianzas-covarianzas en términos del de sus
subvectores columna componentes X1 ∈ Rp y X2 ∈ Rk−p . Esta representación viene dada por
µ = E(X) = [E(X1 ) : E(X2 )]> = [µ1 : µ2 ]>
para el vector de medias y por " #
Σ 11 Σ 12
Σ = V (X) = ,
Σ 21 Σ 22
donde
σ12
   
 σ12 · · · σ1p   σ1(p+1) ··· σ1k 
σ22
   
 σ21 · · · σ2p   σ2(p+1) ··· σ2k 
Σ11 =   , Σ 12 = 
   
.. .. .. .. .. .. 

 . . . 


 . . . 

· · · σp2 ···
  
σp(p+1) σpk

σp1 σp2
 2 
σ(p+1)(p+1) σ(p+1)(p+2) · · · σ(p+1)k 
 
 σ(p+1)1 ··· σ(p+1)p  
2
   
 σ(p+2)1 ··· σ(p+2)p   σ(p+2)(p+1) σ(p+2)(p+2) · · · σ(p+2)k 
Σ 21 =   y Σ 22 =   .
  
.. .. .. .. .. .. 

 . . . 
 
 . . . 

··· 2

σk1 σkp

· · · σkk
 
σk(p+1) σk(p+2)
para la matriz de varianzas-covarianzas.
Note que Σ 11 es la matriz de varianza-covarianza de X1 , Σ 22 la matriz de varianza-covarianza
de X2 y Σ 12 = Σ >
21 es la matriz de covarianzas entre X1 y X2 .
Ejemplo 3.23. Se tienen tres instrumentos financieros con rentabilidades anuales porcentuales: X ∼
N(6,9); Y ∼ N(10,25) y Z ∼ N(10,16), de modo que la matriz de varianzas-covarianzas del vector
 
 9 −1 3 
(X,Y,Z)> es  −1 25 −3 . Si Ud. invierte 100 u.m. de modo que en X y en Y pone 30 u.m. y el resto

 
 
3 −3 16
lo pone en Z. Halle la ganancia esperada de su inversión ası́ como su varianza.
 
h i  X 
Solución: La ganancia U es U = 0.3X + 0.3Y + 0.4Z = 0.3 0.3 0.4  Y  y aplicando la proposi-
 
Z
ción:    
h i  µX  h i  6 
E(U ) = 0.3 0.3 0.4  µY  = 0.3 0.3 0.4  10  = 8.8
   
µZ 10
y
   
h i  9 −1 3  h
 iT h i  0.3 
V (U )= 0.3 0.3 0.4  −1 25 −3  0.3 0.3 0.4 = 3.6 6 6.4  0.3  = 5.44.
   
3 −3 16 0.4
122 ÍNDICE GENERAL

3.8. Distribuciones multivariadas importantes


Al igual que en el caso univariado se tienen aquı́ un conjunto de distribuciones de vectores
aleatorios que son recurrentemente utilizadas en la práctica. Empezaremos discutiendo un par
de distribuciones discretas, que podrı́an pensarse como generalizaciones de las distribuciones bi-
nomial e hipergeométrica, para luego movernos al caso continuo con las distribuciones normal
multivariada y de Dirichlet, que son esencialmente las extensiones multivariadas de las distribu-
ciones normal y beta.

3.8.1. La distribución multinomial


Esta es la extensión multivariada de la distribución binomial. Para describirla, consideremos
un experimento aleatorio cuyos resultados pueden caer con probabilidades p1 , p2 , . . . , pk en, respec-
tivamente, cualquiera de k categorı́as excluyentes y exhaustivas A1 , A2 , . . . , Ak . Si este experimento
se repite de manera independiente n veces y se definen las variables aleatorias:

Xi = número de veces en que ocurre la categorı́a Ai , i = 1, 2, . . . , k,

entonces el vector aleatorio (X1 , X2 , . . . , Xk ) se dice que tiene distribución multinomial de paráme-
tros n, p1 , p2 , . . . , pk , y se le denota por (X1 , X2 , . . . , Xk ) ∼ Mul(n; p1 , p2 , . . . , pk ).

Proposición 3.7. Si (X1 , X2 , . . . , Xk ) ∼ Mul(n; p1 , p2 , . . . , pk ), entonces

1. La función de probabilidad (conjunta) de este vector viene dada por:


 n! x1 x2 xk
 x1 !x2 !...xk ! p1 p2 . . . pk si (x1 , x2 , . . . , xk ) ∈ R

P (X1 = x1 , X2 = x2 , . . . , Xk = xk ) = 
 0 en caso contrario
Pk
donde R = {(n1 , n2 , . . . , nk ) ∈ {0, 1, . . . , n}k / i=1 ni = n} denota rango del vector.

2. Sus distribuciones marginales son binomiales, esto es, Xi ∼ B(n, pi ), ∀i = 1, 2, . . . , k.

3. Cov(Xi , Xj ) = −npi pj , ∀i , j ∈ {1, 2, . . . , k}.

Demostración: 1. La probabilidad de que en las primeras x1 repeticiones ocurra A1 , en las siguientes x2


repeticiones ocurra A2 y ası́ sucesivamente hasta que en las últimas xk repeticiones ocurra Ak es por la
x x x
independencia p11 p22 . . . pk k . Sin embargo, estas ocurrencias podrı́an darse de otras formas en términos
del orden de ocurrencia de cada categorı́a. Todas las ordenaciones posibles de los n experimentos en
donde x1 serán de tipo A1 y asi sucesivamente hasta xk del tipo Ak , viene dada por x !x n!!...x ! . Por tanto,
1 2 k
la probabilidad pedida viene dada por la fórmula indicada en a).
2. Basta notar que los experimentos que generan la multinomial podrı́an redefinirse como experimentos
de Bernoulli. En efecto, si llamamos éxito a que ocurra la categorı́a Ai y fracaso que ocurra cualquier
otra categorı́a, el número de éxitos en las n repeticiones independientes tiene distribución binomial de
parámetros n y pi .
3. Basta notar que de juntarse dos categorı́as distintas Ai y Aj , se tiene que Xi + Xj ∼ B(n, pi + pj ). Ası́,
utilizándose el corolario 3.1

n(pi +pj )(1−pi −pj ) = V (Xi +Xj ) = V (Xi )+V (Xj )+2Co(Xi , Xj ) = npi (1−pi )+npj (1−pj )+2Cov(Xi , Xj ).
Facultad de Ciencias Sociales PUCP 123

Un despeje directo en esta ecuación nos lleva a que Cov(Xi , Xj ) = −npi pj . 

Observación: Al ser en cada experimento las categorı́as posibles excluyentes y exhaustivas. se


debe cumplir que ki=1 pi = 1.
P

Ejemplo 3.24. Si en el ejemplo 3.2 se asume que la producción de la empresa es grande y contı́nua

a) ¿Con qué probabilidad la empresa enviará 3 productos a Europa?

b) ¿Con qué probabilidad la empresa enviará 2 productos a Europa y 2 productos al Asia?

c) Si el tamaño de la producción de un dı́a fué de 100 productos y la probabilidad de que un producto


que se destine al Asia vaya a China es de 0.6, ¿con qué probabilidad la mitad de estos productos se
destinarán a Europa y China?

d) Si se conociera en c) que x productos se destinaron a Europa, ¿con qué probabilidad se habrán


destinado al mercado nacional 10 productos?

Solución: La asunción de que la producción es grande y contı́nua se hace fundamentalmente para ga-
rantizar la independencia en los destinos de cada uno de los productos seleccionados. Usando lue-
go las notaciones de las v.a’s X e Y definidas en el ejemplo 3.2 se tiene que para el vector aleatorio
(X, Y , Z) donde Z denota a la v.a. Z =número de los 5 productos que van al mercado nacional, que
(X, Y , Z) ∼ Mul(5; 0.4, 0.5, 0.1).
a) Puesto que la marginal de X es X ∼ B(5, 0.4), se pide P (X= 3) =C35 (0.4)3 (0.6)2 = 0.2304 .
5!
b) Se nos pide P (X = 2, Y = 2, Z = 1) = 2!2!1! (0.42 )(0.52 )(0.1) = 30(0.4)2 (0.5)2 (0.1) = 0.12.
c) Si definimos el vector aleatorio (X1 , X2 , X3 , X4 ), donde cada Xi denota respectivamente al número de
los 100 productos del dı́a que van a Europa, China, resto de Asia y el mercado nacional, se tendrá que
(X1 , X2 , X3 , X4 ) ∼ Mul(100; 0.4, 0.3, 0.2, 0.1). Se nos pide entonces P (X1 + X2 = 50), pero claramente si
juntamos a Europa y China en un sola categorı́a X1 + X2 ∼ B(100, 0.7). Ası́
50!
P (X1 + X2 = 50) = 0.750 × 0.350 = 0.00001302623.
50!50!
d) Se nos pide, con las notaciones de b) y c),
100!
P (X = x, Y = 90 − x, Z = 10) 0.4x 0.590−x 0.110
x!(90−x)!10! 100−x 1 10 5 90−x
P (X4 = 10 | X1 = x) = = 100!
= C10 ( ) ( )
P (X = x) 0.4x 0.6100−x 6 6
x!(100−x)!

En otras palabras se obtiene la distribución condicional X4 | X1 = x ∼ B(100 − x, 16 ), la cual se está


evaluando con su función de probabilidad en el valor 10.

3.8.2. La distribución hipergeométrica multivariada


Esta es la extensión multivariada de la distribución hipergeométrica. Aquı́ en lugar de segmen-
tar la población de tamaño N en dos clases (A y Ac ), ella se particiona en k clases a las que denota-
remos por A1 , A2 , . . . , Ak . Cada clase Ai posee Mi elementos de tal manera que N = M1 +M2 +. . .+Mk .
Si seleccionamos ahora al azar y sin reemplazamiento n elementos de esta población y definimos
las variables aleatorias
124 ÍNDICE GENERAL

Xi = número de elementos de la clase Ai seleccionados en la muestra, i = 1, 2, . . . , k,

entonces el vector aleatorio (X1 , X2 , . . . , Xk ) se dice que tiene distribución hipergeométrica multiva-
riada de parámetros n, M1 , M2 , . . . , Mk , y se le denota por (X1 , X2 , . . . , Xk ) ∼ Hmul(n; M1 , M2 , . . . , Mk ).

Proposición 3.8. Si (X1 , X2 , . . . , Xk ) ∼ Hmul(n; M1 , M2 , . . . , Mk ), entonces

1. La función de probabilidad (conjunta) de este vector viene dada por:


M M M
Cx1 1 Cx2 2 . . . Cxk k
P (X1 = x1 , X2 = x2 , . . . , Xk = xk ) = ,
CnN
donde las combinatorias Cab se entienden que son arriba son nulas si a > b.

2. Sus distribuciones marginales son hypergeométricas, esto es, Xi ∼ H(N , Mi , n), ∀i = 1, 2, . . . , k.


nMi Mj N −n
3. Cov(Xi , Xj ) = − N2
( N −1 ), ∀i , j ∈ {1, 2, . . . , k}.

4. Si la muestra fuera tomada con reemplazamiento, entonces


M1 M2 M
(X1 , X2 , . . . , Xk ) ∼ Mul(n; , , . . . , k ).
N N N

Demostración: 1. El espacio muestral asociado a esta selección está constituido por todos los conjuntos
de n elementos que se pueden formar con los N y por tanto tiene CnN elementos. El evento de interés
M M M
por otro lado viene dado, por el principio de multiplicación, por Cx1 1 Cx2 2 . . . Cxk k . Ası́, por la definición
clásica la probabilidad pedida es el cociente de estas probabilidades.
2. Basta observar que de segmentarse la problación en solo dos clases: la clase Ai de Mi elementos y la
clase Aci de N − Mi elementos, entonces Xi ∼ H(N , Mi , n).
3. Similarmente al caso de la multinomial, basta notar que de juntase dos categorı́as distintas Ai y Aj
en una sola, se tendrá que Xi + Xj ∼ H(N , Mi + Mj , n). Ası́, utilizándose el corolario 3.1
Mi + Mj Mi + Mj N − n
n( )(1 − )( ) = V (Xi + Xj )
N N N −1
Mi M N −n Mj Mj N − n
= n( )(1 − i )( ) + n( )(1 − )( ) + 2Cov(Xi , Xj ).
N N N −1 N N N −1
nM M
Un despeje directo en esta ecuación nos conlleva a que Cov(Xi , Xj ) = − Ni 2 j ( N −n
N −1 ).
4. Si se admitiera reemplazamiento, cada selección generarı́a un experimento con k posibles resultados,
siendo la probabilidad de que se de el i−ésimo resultado, o selección de un elemento de la clase Ai , igual
a pi = M N . Además cada uno de estos experimentos serı́an independientes, por lo que el vector aleatorio
i

(X1 , X2 , . . . , Xk ) que cuenta las veces que ocurren cada una e estas k categorı́as en los n experimentos
tendrı́a la distribución multinomial descrita. 

Ejemplo 3.25. Un almacén contiene 6 cajas con la siguiente distribución de artı́culos

Caja 1 2 3 4 5 6
Número de artı́culos (Ni ) 60 43 97 80 120 100
Número de defectos (Mi ) 5 4 6 5 15 10
Facultad de Ciencias Sociales PUCP 125

Si usted selecciona al azar una caja y, bajo un mı́nimo presupuesto, extrae de ella al azar y sin reem-
plazamiento al menos un 20 % de sus artı́culos, ¿Qué proporción de defectos se esperará encontrar en la
muestra? ¿Coincide este valor con el de la verdadera proporción de defectos en el almacén?
Solución: Si denotamos por δi a la variable indicadora que nos dice si la caja i ha sido seleccionada
(δi = 1) o no (δi = 0), se tiene que (δ1 , δ2 , δ3 , δ4 , δ5 , δ6 ) ∼ Mul(1, 16 , 16 , 16 , 16 , 61 , 16 ). La proporción muestral
de defectos estimador se puede escribir entonces como p̂ = 6i=1 p̄i δi , donde p̄i = Xn i denota a la proporción
P
i
muestral de defectos en la caja i, Xi ∼ H(Ni , Mi , ni ) al número de defectos en la muestra de la caja i y ni
al tamaño de muestra para la caja i, el cual es igual al 20 % de Ni o a su entero superior, ya que se deben
de minimizar costos. Para obtener el valor esperado de esta proporción, utilizaremos la propiedad de la
“torre” dada en proposición 1.4, la cual naturalmente puede extenderse al condicionarse a un vector
aleatorio.
6 6 6
X E(Xi ) X Mi 1X
E(p̂) = E(E(p̂ | δ1 , δ2 , . . . , δ6 )) = E( δ )= E(δi ) = pi ,
ni i Ni 6
i=1 i=1 i=1
Mi
donde pi = Ni denota a la verdadera proporción de defectos en la caja i. Dado que en general
6 P6
1 X Mi Mi
E(p̂) = , Pi=1
6
,
6 Ni i=1 Ni
i=1

este no coincide con la verdadera proporción de defectos en el almacén. Note que si conocieramos la
distribución en el cuadro de arriba (lo cual probablemente no ocurra y por eso se hace el muestreo), se
tendrı́a que E(p̂) = 0.0876, valor que difiere de la verdadera proporción de defectos en el almacén que es
de p = 0.09.

3.8.3. La distribución normal multivariada


Un vector aleatorio continuo k−dimensional X = [X1 , X2 , . . . , Xk ]> tiene una distribución nor-
mal multivariada con vector de medias µ = [µ1 , µ2 , . . . , µk ]> y matriz de varianza-covarianza
 2 
 σ1 σ12 . . . σ1k 
 σ12 σ22 . . . σ2k 
 
Σ =  ,
 
 · · · · · · . . . · · · 
 
σ1k σ2k . . . σk2
 

lo cual denotamos por X ∼ Nk (µ, Σ), si su función de densidad conjunta viene dada por:
1 1
 
> −1
f (x) = k 1
exp − (x − µ) Σ (x − µ) ,
(2π) 2 |Σ| 2 2

donde |Σ| denota al determinante de la matriz de varianza-covarianza Σ.


Observación: Al igual que en el caso univariado, se tiene una distribución patron o estándar, la
cual tiene vector de medias nulo y matriz de varianzas-covarianzas igual a la identidad. A este
vector aleatorio lo denotaremos por Z ∼ Nk (0, I). La siguiente proposición nos dice, entre otras
cosas, como “estandarizar” un vector aleatorio normal.
Para simplificar el desarrollo asumiremos de aquı́ en adelante que Σ es una matriz no singular.
Vale comentar que esta restricción puede levantarse, pero su tratamiento no es tan directo.
126 ÍNDICE GENERAL

Proposición 3.9. Si X ∼ Nk (µ, Σ), entonces


1. Las v.a’s componentes del vector X son independientes si, y solamente si Σ es una matriz diagonal
o, equivalentemente, si la correlación de Pearson entre cualesquieras de dos componentes distintas de
este vector son nulas.
1
2. Si Z = Σ− 2 (X − µ), entonces Z ∼ Nk (0, I).

3. La función generatriz de momentosde X viene dada por MX (t) = et µ+ 2 t Σ t .


> 1 >

4. Si A es una matriz m × k y b un vector m × 1, entonces Y = AX + b ∼ Nm (Aµ + b, AΣA> ).

5. Toda distribución marginal y condicional (de cualesquier dimensión) tiene una distribución normal
multivariada. Esto es, si el vector X se particiona como:
" #
> > Σ 11 Σ 12
X = [X1 : X2 ] ∼ Nk (µ = [µ1 , µ2 ] , Σ = ),
Σ>12 Σ 22
donde X1 es de orden p × 1 y X2 de orden k − p × 1, entonces

X1 ∼ Np (µ1 , Σ 11 ) y X2 ∼ Nk−p (µ2 , Σ 22 ).


−1 >
X1 | X2 = x2 ∼ Np (µ1 + Σ12 Σ −1
22 (x2 − µ2 ), Σ 11 − Σ 12 Σ 22 Σ 12 ).
X2 | X1 = x1 ∼ Nk−p (µ2 + Σ> −1 > −1
12 Σ 11 (x1 − µ1 ), Σ 22 − Σ 12 Σ 11 Σ 12 ).

Demostración: 1. Si las v.a’s componentes del vector son independientes, ya sabemos que sus correlaciones
por pares son nulas y por tanto Σ es una matriz diagonal. De otro lado, si Σ es una matriz diagonal,
digamos, Σ = diag(σ12 , σ22 , . . . , σk2 ), entonces
  k  
1  1 > 1  Y 1  1 2

f (x) = k Qk 1
exp − (x − µ) Qk
 (x − µ) =
 √ exp − 2 (xi − µi )  ,

2 2
(2π) 2 ( i=1 σi2 ) 2 i=1 σi i=1 2πσi 2σi
última expresión en la derecha que es el producto de las densidades marginales del vector.
1
2. De la transformación se tiene que X = µ + Σ 2 Z, luego por el teorema de cambio de variable utilizado
en el ejemplo 2.13, el cual es extendible a cualquier dimensión, se tiene que
1 1 1 1 >
1
 1 1
  
1 1
fZ (z) = fX (µ + Σ 2 z)|Σ| 2 = exp − (µ + Σ 2 z − µ)> Σ −1 (µ + Σ 2 z − µ) |Σ| 2 = exp − z z .
k 1 k
(2π) 2 |Σ| 2 2 (2π) 2 2
Ası́, Z ∼ Nk (0, Σ).
−1 > −2−1 1
= MZ (h) = E(eh Σ (X−µ)
) = e−h Σ µ E(eh Σ X) ). Ası́,
1 > > 2 > 2
3. Según 2. e 2 h h

1
−2 1
−2
E(eh Σ h+h> Σ µ
> 1 >
X)
) = e2h
1
y tomándose t = Σ − 2 h se tiene que

) = et µ+ 2 t Σt .
> > 1 >
MX (t) = E(et X

4. Basta notar, usándose la función generatriz de momentos, que


>
(AX+b) > >
(Aµ+b)+ 12 t> AΣ A> t
MY (t) = E(et ) = et b MX (A> t) = et .
5. Ver Kotz et al. (2019). 
Facultad de Ciencias Sociales PUCP 127

Ejemplo 3.26. Para la licitación de una obra pública, que ha de ser tomadas por dos contratistas A y B,
un economista asume que las variables aleatorias X1 =Tiempo de entrega en meses de la obra por parte
del contratista A, X2 =Tiempo de entrega en meses de la obra por parte del contratista B y X3 = Costo de
la obra en millones de dólares, tienen conjuntamente una distribución normal multivariada con vector
de medias µ = [36, 48, 500]> y matriz de varianza-covarianza
 
 49 0 280 
 
Σ =  0 100 720  .


280 720 6400

La obra se declarará ejecutada cuando ambos contratistas terminan de entregarla. Según este modelo:

a) ¿Con qué probabilidad la obra costará más de 600 millones de dólares?

b) ¿Con qué probabilidad la obra demorará más de 3 años y medio?

c) ¿Con qué probabilidad será el contratista B quién entregue antes la obra?

d) Suponga que se prevee un costo para la obra de 580 millones de dólares y se desea culmine ella en
como máximo 4 años, pues de no hacerlo se perderá por cada año que sobrepase este tiempo, un millón
de dólares. ¿Con qué probabilidad habrá una perdida de más de 1.5 millones de dólares?

e) Si la obra fué culminada por el contratista A en 2.75 años y por el contratista B en 4.25 años, ¿qué
costo se espera halla tenido la obra?
f) Suponga que el gobierno, otorgador de las licitaciones, ha decidido dar un bono de 20 000 soles al
contratista A si este culmina su trabajo en menos de 3 años y medio y uno de 8,000 soles al contratista
B si hace lo mismo. Si la obra tuvo un costo total (sin contar con el bono) de 600 millones de dólares,
¿con qué probabilidad el gobierno habrá pagado en bonos más 10 000 soles? ¿Cuánto se esperará halla
pagado en bonos el gobierno?

Solución: a) Como marginalmente se cumple que X3 ∼ N (500, 6, 400), entonces


600 − 500
P (X3 > 600) = 1 − P (Z ≤ ) = 1 − FZ (1.25) = 0.1056.
80
b) Si T denota al tiempo de ejecución de la obra en meses, se tendrá que T = máx{X1 , X2 }. Luego como
las v.a.’s X1 y X2 son independientes, se tiene que P (T > 42) = 1 − P (T ≤ 42) = 1 − P (X1 ≤ 42)P (X2 ≤
42) = 1 − P (Z ≤ 0.86)P (Z ≤ −0.6) = 0.78.
c) Se pide P (X1 > X2 ) = P (X1 − X2 > 0). Como por la propiedad reproductiva de la normal X1 − X2 ∼
N (−12, 149) se tendrá que P (X1 > X2 ) = P (Z > √12 = 1 − FZ (0.98) = 1 − 0.8365 = 0.1605.
149
d) Denotemos por Y a la variable de pérdida por la obra. Se cumple que
(
0 si T ≤ 48
Y = T −48
12 en caso contrario

y se nos pide P (Y > 1.5 | X3 = 580) = P (T > 66 | X3 = 580) = 1 − P (X1 ≤ 66 | X3 = 580)P (X2 ≤ 66 |
X3 = 580). Requerimos por tanto de las distribuciones condicionales de X1 y X2 dado X3 . Estas vienen
128 ÍNDICE GENERAL

280 2802 720


dadas por X1 | X3 = x ∼ N (36 + 6,400 (x − 500), 49 − 6,400 = 36.75) y X2 | X3 = x ∼ N (48 + 6,400 (x −
2
720
500), 100 − 6,400 = 19). Ası́

66 − 39.5 66 − 57
P (Y > 1.5 | X3 = 580) = 1 − P (Z ≤ √ )P (Z ≤ √ ) = 0.0197
36.75 19
" #−1 " #
49 0 33 − 36
e) E(X3 | X1 = 33, X2 = 51) = 500 + [280, 720] = 504.4571 millones de
0 100 51 − 48
dólares.
f) El bono B que otorgará el gobierno en soles es una v.a. que se puede expresar por



 0 si X1 ≥ 42 y X2 ≥ 42

 8000

 si X1 ≥ 42 y X2 < 42
B ≡ B(X1 , X2 ) = 



 20 000 si X1 < 42 y X2 ≥ 42
28 000 si X1 < 42 y X2 < 42

Luego

P (B > 10 000 | X3 = 600) = P (X1 < 42, X2 ≥ 42 | X3 = 600) + P (X1 < 42, X2 < 42 | X3 = 600)

42 − 40.375
= P (X1 < 42 | X3 = 600) = P (Z < √ = FZ (0.27) = 0.6064.
36.75
Finalmente, el valor esperado del bono será

E(B(X1 , X2 ) | X3 = 600) = 8000P (X1 ≥ 42, X2 < 42 | X3 = 600) + 20 000P (X1 < 42, X2 ≥ 42 | X3 = 600)

+28 000P (X1 < 42, X2 < 42 | X3 = 600)

y por la independencia

E(B(X1 , X2 ) | X3 = 600) = 8000 × (1 − 0.6064) × 0 + 20 000 × 0.6064 × 1 + 28 000 × 0 = 12 128 soles.

3.8.4. La distribución de Dirichlet


Un vector aleatorio k−dimensional X = [X1 , X2 , . . . , Xk ]> tiene distribución de Dirichlet de vec-
tor de parámetros α ∈ Rk , y se denota por X ∼ Dir(α), si su función de densidad conjunta es

Γ (α ) Qk αi −1


 Qk 0 i=1 xi si x ∈ Sk
fX (x) = 

i=1 Γ (αi )
0 en caso contrario

donde α0 = ki=1 αi y Sk = {x = [x1 , x2 , . . . , xk ]> ∈ [0, 1]k / x1 + x2 + . . . + xk = 1}. La figura ?? muestra


P

el gráfico de la función de densidad de una distribución de Dirichlet para k = 3 con distintos


parámetros.
Observaciones:
Facultad de Ciencias Sociales PUCP 129

α1 = 4, α2 = 4, α3 = 2 α1 = 2, α2 = 4, α3 = 4 α1 = 2, α2 = 4, α3 = 2

8 8 8

6 6 6
De

De

De
4 4 4
nsi

nsi

nsi
2 2 2
dad

dad

dad
0 0 0
−2 −2 −2
1.0 1.0 1.0
0.8 1.0 0.8 1.0 0.8 1.0
0.6 0.8 0.6 0.8 0.6 0.8
0.6 0.6 0.6
0.4 0.4 0.4
y

y
0.4 x 0.4 x 0.4 x
0.2 0.2 0.2 0.2 0.2 0.2
0.00.0 0.00.0 0.00.0

α1 = 3, α2 = 3, α3 = 3 α1 = 1, α2 = 1, α3 = 1 α1 = 0.6, α2 = 0.6, α3 = 0.6

8 8 8

6 6 6
De

De

De

4 4 4
nsi

nsi

nsi

2 2 2
dad

dad

dad

0 0 0
−2 −2 −2
1.0 1.0 1.0
0.8 1.0 0.8 1.0 0.8 1.0
0.6 0.8 0.6 0.8 0.6 0.8
0.6 0.6 0.6
0.4 0.4 0.4
y

0.4 x 0.4 x 0.4 x


0.2 0.2 0.2 0.2 0.2 0.2
0.00.0 0.00.0 0.00.0

Figura 3.3: Gráficos de funciones de densidad de una distribución de Dirichlet con k = 3 para
distintos parámetros
130 ÍNDICE GENERAL

Γ (α +α ) α −1 α −2
Si k = 2, fX1 X2 (x1 , x2 ) = Γ (α 1)Γ (α2 ) x1 1 x2 2 . Sin embargo, como x1 + x2 = 1, tiene poco sentido
1 2
el considerarse al vector aleatorio bidimensional [X1 , X2 ]> ya que para cualquier valor que
tome X1 , automáticamente se sabrá que X2 = 1 − X1 . Consecuentemente, esta distribución
solo será útil de representarla mediante X1 con la siguiente función de densidad
Γ (α1 + α2 ) α1 −1
fX1 (x) = x (1 − x)α2 −2 , 0 < x < 1.
Γ (α1 )Γ (α2 )
Esto recordemos nos dice que X1 ∼ B(α1 , α2 ).
La observación anterior es válida en más dimensiones; esto es, si bien la distribución de
Dirichlet vive, es decir tiene como rango, al sı́mplice Sk que está en Rk , este es en si un objeto
de dimensión k − 1 que deberı́a de caracterizarse por la función de densidad conjunta
k−1 αi −1
 Γ (α ) Q Pk−1 α −1
0
 Qk Γ (αi ) i=1 xi (1 − i=1 xi ) k si (x1 , x2 , . . . , xk−1 ) ∈ Dk−1


fX1 ,X2 ,...,Xk−1 (x1 , x2 , . . . , xk−1 ) =  i=1
0 en caso contrario

donde Dk−1 = {[x1 , x2 , . . . , xk−1 ]> ∈ [0, 1]k−1 / x1 + x2 + . . . + xk−1 ≤ 1} y Xk = 1 − k−1


P
i=1 Xi . Se debe
entonces cumplir, al ser la anterior una función de densidad conjunta, la siguiente identidad
k−1 k−1 Qk
(αi )
Z
i=1 Γ
Y X
α −1 αk −1
xi i (1 − xi ) dx1 dx2 , . . . dxk−1 = . (3.1)
Dk−1 i=1 Γ (α0 )
i=1

Seguidamente ilustraremos algunas propiedades básicas de la distribución de Dirichlet.

Proposición 3.10. Si X ∼ Dir(α), entonces para cualesquieras i , j ∈ {1, , . . . , k} se cumple que


α1
1. E(Xi ) = α0 .
αi (α0 −αi )
2. V (Xi ) = α02 (α0 +1)
.
i j αα
3. Cov(Xi , Xj ) = − α 2 (1+α )
, ∀i , j ∈ {1, 2, . . . , k}.
0 i

Demostración: 1. Sea i ∈ {1, 2, . . . , k − 1}, entonces


Z k−1 k−1
Γ (α ) Y αj −1 X
E(Xi ) = xi Qk 0 xj (1 − xj )αk −1 dx1 dx2 . . . dxk−1 .
Dk−1 i=1 Γ (αi ) j=1 j=1

Definiendo βi = αi + 1 y βj = αj , ∀j , i, se cumple entonces por (3.1) que


Z k−1 k−1
Γ (β0 ) αi Y βj −1 X α
E(Xi ) = Qk x j (1 − xj )βk −1 dx1 dx2 . . . dxk−1 = i .
Dk−1 α0 i=1 Γ (βi ) j=1 α0
j=1

α0 −αk αk
Esto es también válido para E(Xk ), pues E(Xk ) = 1 − k−1
P
i=1 E(Xi ) = 1 − α0 = α0 .
2. Siguiendo exactamente el mismo procedimiento que en 1. pero con βi = αi + 2, se tiene que
Z k−1 k−1
Γ (β0 ) αi (αi + 1) Y βj −1 X α (α + 1)
E(Xi2 ) = Qk x j (1 − xj )βk −1 dx1 dx2 . . . dxk−1 = i i .
Dk−1 α0 (α0 + 1) i=1 Γ (βi ) j=1 α0 (α0 + 1)
j=1
Facultad de Ciencias Sociales PUCP 131

αi (αi +1) α2 αi (α0 −αi )


Luego, V (Xi ) = α0 (α0 +1)
− αi2 = α02 (α0 +1)
.
0
3. Similarmente definamos βi = αi + 1, βj = αj + 1 y βh = αh , ∀h , i, j. Entonces

k−1 k−1
Γ (β0 ) αi αj αi αj
Z
βh −1
Y X
E(Xi Xj ) = Qk xh (1 − xh )βk −1 dx1 dx2 . . . dxk−1 = .
Dk−1 α0 (α0 + 1) i=1 Γ (βi ) h=1 α0 (α0 + 1)
h=1

αi αj αi αj α αj
Por tanto, Cov(Xi , Xj ) = E(Xi Xj ) − E(Xi )E(Xj ) = α0 (α0 +1)
− α02
= − α 2 (αi . 
0 0 +1)

Una caracterización importante, asociada a la distribución Gamma, para la distribución de


Dirichlet se resume en la siguiente proposición.

Proposición 3.11. Sea Y1 , Y2 , . . . , Yk una colección de v.a’s independientes con Yi ∼ Γ (αi , β). Si definimos
Xi = PkYi , ∀i = 1, 2, . . . , k, entonces
`=1 Y`

(X1 , X2 , . . . , Xk ) ∼ Dir(α).

Más aún, este vector aleatorio resulta ser independiente de k`=1 Y` .


P

Demostración: Esta se basa fundamentalmente en el teorema de cambio de variable. Antes no es difı́cil


mostrar, usándose por ejemplo funciones generatrices de momentos, que la v.a. X̃k = k`=1 Y` tiene dis-
P
Pk
tribución Gamma de parámetros α0 = `=1 αi y β. Ello se develará también el siguiente desarrrollo.
Definimos la transformación multivariada 1-1

k
Y X
X̃i = Pk i , ∀i = 1, 2, . . . , k − 1 y X̃k = Y` .
`=1 Y` `=1

Su transformación inversa viene dada por

k−1
X
Yi = Gi (X̃1 , X̃2 , . . . , X̃k ) = X̃i X̃k , ∀i = 1, 2, . . . , k − 1 e Yk = X̃k (1 − X̃` ).
`=1

El teorema de cambio de variable (en su versión multidimensional) nos dice entonces que la función de
densidad conjunta del nuevo vector (X̃1 , X̃2 , . . . , X̃k ) viene dada por

fX̃1 X̃2 ...X̃k (x1 , x2 , . . . , xk ) = fY1 Y2 ...Yk (G1 (x1 , x2 , . . . , xk ), . . . , Gk (x1 , x2 , . . . , xk ))|J(x1 , x2 , . . . , xk )|

donde |J(x1 , x2 , . . . , xk )| denota al determinante del Jacobiano; es decir, de la matriz cuya entrada (i, j)
viene dada por la derivada parcial ∂G ∂x
i
(x1 , x2 , . . . , xk ). Esta matriz y su determinante vienen dados por
j


xk 0 ... 0 x1

0 xk ... 0 x2
k−1
.. .. .. .. ..
X
. = xk−1 (1 − x` ),
. . . .

k
0 0 . . . xk xk−1 `=1
Pk−1
−xk −xk . . . −xk 1 − `=1 x`

132 ÍNDICE GENERAL

Luego,
Pk−1
Qk−1 k−1 k−1
β α0 i=1 (xi xk )
αi −1 e−βxk i=1 xi X P X
fX̃1 X̃2 ...X̃k (x1 , x2 , . . . , xk ) = Qk (xk (1− x` ))αk −1 e−βxk (1− `=1 x` ) xkk−1 (1− x` )
i=1 Γ (αi ) `=1 `=1

k−1 k−1 k−1 k−1 α −1


β α0 α −k
Y
α −1
X Γ (α0 ) Y
α −1
X β α0 xk 0 e−βxk
= Qk xk 0 xi i (1− x` )αk −1 xkk−1 e−βxk = Qk xi i (1− x` )αk −1
× .
Γ (α0 )
i=1 Γ (αi ) i=1 `=1 i=1 Γ (αi ) i=1 `=1

Esta factorización nos muestra el resultado buscado e indica de paso la independencia entre el vector de
Dirichlet y la distribución Gamma de la suma. 

Dado que la suma de variables independientes Gamma con un mismo parámetro de forma β
es otra distribución Gamma, el resultado anterior nos permitirá particionar todo vector de Diri-
chlet en sub-vectores que tienen también distribuciones marginales de Dirichlet. En particular,
sea X = [X1 , X2 , . . . , Xk ]> ∼ Dir(α) y consideramos cualquiera de sus componentes Xi . Si admitimos
la representación de la proposición 3.11 podrı́amos considerar las v.a’s independientes

k
X
Yi ∼ Γ (αi , β) y Y` ∼ Γ (α0 − αi , β).
`=1
`,i

Ası́, una aplicación de la proposición 3.11 nos dice que

Y Yi
Xi = Pk i = Pk ∼ B(αi , α0 − αi ).
`=1 Y` `=1 Y` + Yi
`,i

3.9. Ejercicios
1. Suponga que el número de solicitudes de tarjetas de crédito rechazadas, luego de aprobarse
una,hasta otorgar nuevamente otra tarjeta de crédito es, en una agencia A, una v.a. X y el
número de solicitudes de tarjetas de crédito rechazadas, luego de aprobarse una, hasta otor-
gar nuevamente otra tarjeta de crédito es, en otra agencia B del mismo banco una v.a. Y . Si
asumimos que la función de probabilidad conjunta de estas v.a’s viene dada por:
  x  y
 C 12 1
si x = 1, 2, 3, . . . ; y = 1, 2, 3, . . .


PXY (x, y) =  5

 0 en otro caso

a) Halle la constante C.
b) Halle la distribución marginal de X y la probabilidad de que luego de aprobarse una tarjeta
de crédito en la agencia A se rechazen más de 3 solicitudes en esta misma agencia hasta que
se vuelva a aprobar una nueva tarjeta de crédito.
c) ¿Son X e Y variables aleatorias independientes?
d) Halle e interprete P (X − Y = 1).
Facultad de Ciencias Sociales PUCP 133

2. Suponga que el gasto total mensual en propaganda de una compañı́a en miles de soles Y y
el gasto mensual en propaganda televisiva de esta compañı́a, X, también en miles de soles se
modelan mediante un vector aleatorio (X, Y ) con función de densidad conjunta
8
(
81 xy si 0 < x ≤ y ≤ 3
fXY (x, y) =
0 en otro caso

a) ¿Con qué probabilidad que durante un mes la compañı́a destinará más del 80 % de sus gastos
de propaganda a la televisión?
b) ¿Con qué probabilidad la compañı́a destinará más de 2,000 soles para propaganda durante
un mes?
c) ¿Son X e Y variables aleatorias independientes. Si no lo son, halle e interprete su correlación
de Pearson.
3. Sea (X, Y ) un vector aleatorio discreto con función de probabilidad conjunta
  x  y
 C 31 1
si x = 1, 2, . . . ; y = 1, 2 . . .


PXY (x, y) =  4

 0 en otro caso

a) Halle la constante C.
b) Halle la correlación de Pearson entre X e Y.
c) Halle la regresión de Y sobre X e interprete.
4. Los valores de dos acciones pueden bajar 1 punto porcentual, permanecer igual, o subir 1 punto
porcentual durante cada dı́a. Un economista tiene dos modelos distintos para la función de
probabilidad conjunta de :
Modelo A Modelo B
PXY (x, y) x PXY (x, y) x
y -1 0 1 y -1 0 1
-1 c 3c 5c -1 0.2 0.05 0.01
0 c 3c c 0 b 0.05 b
1 3c 2c c+b 1 0.05 0.05 0.27
a) Halle c y b.
b) ¿En algún modelo hay más probabilidad de que las acciones no muestren cambios?
c) Halle las distribuciones marginales de este vector.
d) Si subirá de todos modos ¿Qué pronosticarı́a para en cada modelo? Use probabilidades para
responder.
5. En un distrito el número X de personas por familia es una v.a. y el número Y de miembros de
la familia que tienen trabajo también es aleatorio, de modo que es v.a. discreto con función de
probabilidad conjunta:
(
Cx si x = 1, 2, . . . , 4; y = 0, 1, . . . , x
PXY (x, y) =
0 en otro caso
134 ÍNDICE GENERAL

a) Halle la constante C que hace de esta una función de probabilidad conjunta.


b) Calcule la probabilidad de que todas las personas en una familia tengan trabajo ¿Dirı́a que
ocurrirá este evento?
c) Calcule la probabilidad de que exactamente la mitad de una familia tenga empleo.
d) Una familia está compuesta de tres personas: Halle ¿Cuál serı́a la probabilidad de que hu-
biera menor cantidad de empleados que lo esperado?
6. Un economista que labora como consultor puede trabajar X proyectos, donde X es una v.a.
discreta con función de probabilidad dada por: PX (x) = C/x x = 1, 2, 3. siendo C una constante.
De otro lado, si X = x, puede que incumpla los plazos en Y de ellos según PY |X=x (y) = by y =
0, 1, . . . , x donde b depende de x.
a) Calcule el valor de C y la función de probabilidad conjunta de (X, Y ) (puede ser una tabla si
le parece)
b) ¿Con qué probabilidad el economista incumplirá todos los proyectos asumidos?
7. Un banco tiene 6 ventanillas de atención al público, de las cuales durante la mañana X están
abiertas. Si bien el Banco ha indicado claramente que operaciones se realizan en ventanilla
y cuales en plataforma, las ventanillas eventualmente derivan atenciones a plataforma. Si Y
denota al número de ventanillas que derivan alguna atención a plataforma y se asume que X e
Y poseen la siguiente función de probabilidad conjunta
 19xy
 si x = 1, 2, . . . , 6; y = 1, 2, . . . , x
 910(x+1)



PXY (x, y) =  0.05 3

 91 x si x = 1, 2, . . . , 6 e y = 0
0 en otro caso

a) Halle la probabilidad de que una mañana atiendan al público 3 ventanillas y al menos 2 de


ellas deriven atenciones a plataforma.
b) ¿Con qué probabilidad no se derivarán en una mañana atenciones a plataforma?
c) Halle la función de probabilidad marginal de X.
d) Halle la función de probabilidad condicional de Y dado que X = x y el valor esperado de
esta distribución.
8. Un juego entre dos participantes consiste en cada uno lance un dado, ganando el que obtenga
un mayor puntaje y llevándose como premio un monto en soles igual a 10 veces la suma de los
puntos de los dos dados. En caso de empate, la suma se divide en partes iguales entre los dos y
por participar en el juego los participantes deben de pagar a la casa de juegos cada uno 30 soles.
a) Halle la función de probabilidad conjunta del puntaje ganador y del premio que se llevará
alguno o los dos participantes del torneo.
b) ¿Cuánto se espera obtenga cada participante?
c) ¿Cuánto esperará obtener la casa de juegos en cada juego?
9. Sea (X, Y ) un vector aleatorio, donde X es la utilidad distribuida entre socios de una empresa e
Y es la utilidad total de la empresa, con función de densidad conjunta,
(
C(x + 2y) si 0 < x < 1; 0 < y < 1
fXY (x, y) =
0 en otro caso
Facultad de Ciencias Sociales PUCP 135

donde X e Y están en millones de u.m.


a) Grafique el rango de este vector aleatorio y halle la constante C.
b) Calcule la probabilidad de que se reinvierta utilidades por más de 0.6 millones.
c) Calcule la función de densidad marginal de Y y la función de densidad condicional de X
dado que Y = y.
d) Si la utilidad total fue de 0.8 millones ¿se habrı́a distribuido más de 0.2 millones?
10. Sea (X, Y ) un vector aleatorio donde X = Ingreso e Y = Consumo, con función de densidad
conjunta:
(
C(x + y) si 0 < x < 1, 0 < y < 1
fXY (x, y) =
0 en otro caso
a) Halle la constante C y la probabilidad de que el consumo supere la mitad del ingreso.
b) Calcule las funciones de densidad marginales de X e Y
c) Halle la distribución condicional de Y dado X: fY |X (y | x).
11. En el ejemplo 1.36, vimos el problema de la licitación en el cual habián dos postores para la
compra de una empresa y en donde ambos podı́an ofrecer independiente e indistintamente
precios de entre 0 y 1 millón de u.m. Sean X e Y las ofertas de estos postores y supongamos
ahora que estas v.a’s tienen la siguiente función de densidad conjunta
(
C(2x + y) si x ∈ [0, 1] e y ∈ [0, 1]
fXY (x, y) =
0 en caso contrario.

a) Halle el valor de C.
b) ¿Con qué probabilidad el segundo postor ganará la licitación?
c) Halle las distribuciones marginales de X y de Y . ¿ Son estas v.a’s independientes?
d) Si al leerse la oferta del primer postor esta es de 680,000 u.m, ¿que oferta se esperará halla
ofrecido el otro postor?
d) Halle y grafique la función de densidad de la oferta ganadora.
12. Al analizar la privatización de una empresa, un economista asume que el precio de venta es una
variable aleatoria continua Y que toma valores entre 0 y X millones de unidades monetarias,
donde X es la estimación subjetiva del valor de la empresa. Si (X, Y ) es un vector aleatorio
continuo con función de densidad conjunta
( y
2 x2 si 1 < x < 2, 0 < y < x
fXY (x, y) =
0 en otro caso

X
a) Halle e interprete P (Y < 2 ).
b) Muestre que la función de densidad marginal de Y viene dada por



 y si 0 < y ≤ 1

fY (y) =  2 − y si 1 < y < 2



 0
 en otro caso
136 ÍNDICE GENERAL

c) En general ¿en cuánto se espera vender la empresa?


d) ¿En cuánto aumentarı́a el precio esperado de venta de la empresa si se logra aumentar en
100,000 u.m. la percepción de su valor?
13. Sea (X, Y ) un vector aleatorio continuo, donde X = PBI de una región e Y = PBI Minero de la
región, ambos en millones de unidades monetarias, con función de densidad conjunta:

ye−x si 0 < y < x


(
fXY (x, y) =
0 en otro caso

a) Verifique que esta es una función de densidad conjunta y halle la probabilidad de que el PBI
minero sea mayor al 50
b) Halle las distribuciones marginales de X y de Y ¿Son distribuciones conocidas? Halle las
medias y desviaciones estándar de X y de Y .
c) Halle la correlación de Pearson entre X e Y. Interprete.
d) Halle e interprete la regresión de X sobre Y.
e) ‘¿En cuánto variará en promedio el PBI minero, si el PBI de la región se incrementara en 3
millones de unidades monetarias?
14. Sea (X,Y) un vector aleatorio, donde X = Monto de una inversión e Y = Ganancia o pérdida de
la inversión, que tiene una función de densidad conjunta
(
c si − 2x < y ≤ 0, 0 < x < 1
fXY (x, y) =
2c si 0 < y < x, 0 < x < 1

a) Grafique el rango del vector aleatorio (X, Y ) y halle la constante c .


b) Calcule la probabilidad de que tener ganancia con la inversión.
c) Calcule la función de densidad marginal de X y la función de densidad condicional de Y
dado que X = x.
15. En base a la historia de cómo se reinvierte la utilidad de una empresa, un economista ha plan-
teado la siguiente función de densidad conjunta para las v.a’s X = Utilidad mensual de la em-
presa en miles de u.m. e Y = Monto de esta utilidad mensual de la empresa que se reinvierte en
producción
(x − y)e−x si 0 < y ≤ x
(
fXY (x, y) =
0 en caso contrario.
a) Halle la probabilidad de que en un mes se destine a reinversión no más del 10 % de las
utilidades.
b) Halle la función de densidad marginal de X ¿Qué tan probable es que la utilidad de la
empresa en un mes supere las 3000 u.m?
c) El economista manifiesta que si se conociera la utilidad de la empresa en un mes, es mucho
más probable que los montos de inversión sean bajos a cercanos al valor total de las utilidades.
Muestre gráficamente si esto es cierto o no y comente.
d) ¿ Son X e Y independientes?
Facultad de Ciencias Sociales PUCP 137

e) Halle la correlación de Pearson entre X e Y .


f) Halle e interprete la regresión de Y sobre X.
16. Para un bien producido en dos etapas consecutivas, se sabe que el Tiempo X de producción en
la 1era. etapa y el Tiempo total Y de producción del bien, tienen función de densidad conjunta:

Ce−y/5 si 0 < x ≤ y
(
fXY (x, y) =
0 en otro caso

a) Halle C y las distribuciones marginales de X e Y ¿Son independientes X e Y ?


b) Si T =Tiempo de producción en la 2da. etapa, halle la probabilidad de que T no supere las
t horas. En base a esto ¿Cuál serı́a la función de densidad de T ?
17. Suponga que el gasto total mensual en propaganda de una compañı́a en miles de soles Y y
el gasto mensual en propaganda televisiva de esta compañı́a, X, también en miles de soles se
modelan mediante un vector aleatorio (X, Y ) con función de densidad conjunta

Cx2 y 2 si 0 < x ≤ y ≤ 3
(
fXY (x, y) =
0 en caso contrario.

a) Halle la contante C.
b) Halle la probabilidad que durante un mes la compañı́a destine más del 80 % de sus gastos
de propaganda a la televisión.
c) Halle la función de densidad marginal de Y y su valor esperado.
d) Suponga que en un mes la compañı́a gasto un total de 2000 soles en propaganda ¿cuánto de
este monto esperarı́a que se halla destinado a la propaganda en televisión?
18. Suponga que los clientes arriban a la oficina de préstamos de un Banco según un proceso de
Poisson a razón de 10 clientes por dı́a. La probabilidad de que a cualquiera de estos clientes
se le otorgue un préstamo es de 0.4. En tal caso el monto del préstamo se asume sigue una
distribución Lognormal de parámetros µ = 7 y σ 2 = 4.
a) ¿Con qué probabilidad a un cliente de crédito aprobado se le prestará más de 5000 soles?
b) ¿Con qué probabilidad durante una semana útil (5 dı́as) llegarán más de 38 clientes a pedir
un préstamo a la oficina?
c) Si durante una semana útil (5 dı́as) llegan un total de 38 clientes para pedir un préstamo a
la oficina ¿cuál es la probabilidad de que a solo 4 o menos de ellos se les niegue el préstamo?
d) ¿Con qué probabilidad pasarán más de dos dı́as sin que llegue algún cliente a la oficina?
e) Si X denota al número de clientes que acuden para pedir un préstamo a la oficina en un dı́a
e Y denota al número de estos clientes a los que se les otorga el préstamo, halle la función de
probabilidad conjunta del vector aleatorio (X, Y ).
f) ¿Con qué probabilidad en un dı́a se otorgarán créditos a más de 4 clientes?
g) Si durante un dı́a se otorgaron préstamos a 4 clientes, ¿con qué probabilidad habrán llegado
ese dı́a 8 o menos clientes a la oficina?
138 ÍNDICE GENERAL

19. Un agente tiene un capital de 100 u.m y desea invertir este monto en C acciones de una empresa
A y el resto en acciones de una empresa B, las cuales tienen hoy precios por acción de 20 u.m
y 16 u.m respectivamente. Sean X e Y las rentabilidades diarias de cada una de las acciones
de las empresas A y B respectivamente. Si asumimos que ambas rentabilidades son variables
aleatorias que se distribuyen conjuntamente de manera Normal, con X ∼ N ( 21 , 14 ) , Y ∼ N (1, 2) y
con correlación -0.25.
a) Halle la probabilidad de que el precio de una acción A supere mañana las 25 u.m.
b) ¿Con qué probabilidad el precio de una acción A superará mañana al precio de una acción
B?
c) Si C = 3.5 ¿ qué rentabilidad se esperará tenga la inversión realizada por el agente?
d) Suponga que ma nana el agente decide vender su cartera, halle en función de C la varianza
del precio que tendrán que pagarle por esta cartera y el valor de C que minimice tal varianza.
20. Un economista plantea para la empresa en que trabaja un modelo normal multivariado para el
vector [X1 , X2 , X3 , Y ]> , donde Y es el salario mensual en miles de dólares de un vendedor de la
empresa, X1 el número de años de estudio, X2 el número de años de experiencias en ventas y X3
es el número promedio de horas diarias que el vendedor realiza trabajo de oficina. Si el vector de
medias y la matriz de varianza-covarianzas de este vector vienen dados por µ = [5.8, 2.5, 5, 0.8]>
y
 
 4 −0.8 0 0.24 

 −0.8 1 0 0.75 

Σ =   .
 0 0 9 0.45 
 
0.24 0.75 0.45 0.09
a) Halle la probabilidad de que un vendedor de esta empresa gane más de 1000 dólares men-
suales?
b) Halle la probabilidad que al seleccionarse un trabajor de esta empresa, este tenga más expe-
riencia que años de estudio.
c) Si un vendedor tiene 6 años de estudio y 1.8 años de experiencia en ventas ¿qué salario se
esperará perciba y cuántas horas diarias en promedio se esperará realice de trabajo de oficina?
d) Suponga se seleccionan al azar 10 trabajadores de la empresa a quienes se los clasificará en
4 grupos. Para ello se considerará primero a aquellos que tienen más experiencia que años
de estudio y al resto y luego de esos dos grupos a aquellos que hallan permanecido o no
en promedio más de 5 horas de oficina por dı́a en la empresa ¿Con qué probabilidad estos
trabajadores se distribuirán por igual en los tres primeros grupos, con excepción del grupo de
menos experiencia y tiempo en oficina, en donde se tendrán más trabajadores?
Capı́tulo 4

Muestreo y estadı́sticas

4.1. Población, muestra y estadı́sticas


Entenderemos por población a una colección bien definida de elementos en los cuales se mide
o registra alguna(s) caracterı́stica(s) de interés. En el caso de la Economı́a las poblaciones están
constituidas por los llamados “agentes económicos consumidores, empresas ,etc.- y en ellos se
registra numéricamente caracterı́sticas relativas a su comportamiento en la asignación y distri-
bución de recursos; estas caracterı́sticas reciben nombres especı́fico, como “Consumo”, “Ingreso”,
“Precio”, etc. y el análisis cuantitativo usa las cifras registradas para hacer explı́citas las relacio-
nes entre ellas y lograr predicciones confiables. Las caracterı́sticas mencionadas antes, cambian
de agente en agente, esto es, son “variables” y podemos tratarlas como tales en el análisis formal.
Registrar el valor de una variable económica X en cada elemento de una población es algo que
raramente se hace o se puede hacer. La cantidad de elementos suele ser demasiado grande o estar
muy dispersa, para hacer un “levantamiento” total de datos - o sea un Censo -, de modo que uno se
tiene que contentar con registrar datos no en toda, sino en parte de la población. Esto es, uno debe
trabajar con muestras, con datos muestrales, y confiar en que éstos representen bien a la población.
Las muestras pueden ser generadas de diversas maneras, y una de ellas es la selección “objetiva”
de elementos, que consiste en dejar que sea el azar quien defina cuáles elementos constituirán
la muestra. Este sistema es objetivo pues podemos confiar en que el azar no tiene favoritos y
que si algunos valores en la población son más frecuentes que otros - por ejemplo, las empresas
pequeñas en relación a las grandes - esto se verá reflejado a la hora de hacer un sorteo de modo
que en última instancia, serán las relaciones entre las fuerzas de la economı́a las que determinen
las componentes de la muestra.
El tomar muestras hace posible el análisis económico, pero también lo complica: las cifras ob-
tenidas no sólo reflejan las relaciones económicas; también tienen una componente aleatoria. Esto
es, las variables económicas registradas se convierten en variables aleatorias, debido al mecanis-
mo de sorteo usado para la selección. Entonces, el economista necesita alguna herramienta que le
permita separar los “efectos económicos” de los “efectos del azar”, que se consideran residuales,
de poca importancia relativa, pero que de no ser considerados en el análisis pueden inducir cier-
tas discrepancias en los pronósticos que podrı́an ser tomadas como error en el análisis económico
de base. Por otro lado, el fracaso de un análisis económico -esto es, la discrepancia grave entre el

139
140 ÍNDICE GENERAL

pronóstico derivado del análisis y la realidad observada- puede ser encubierto por el “efecto del
azar” si no nos tomamos la molestia de separar éste último. En resumen, el economista necesita
herramientas de trabajo que sean eficientes y formalmente convincentes, con sustento racional.
La Estadı́stica Inferencial trata de las técnicas racionales del análisis de datos provenientes
de muestras. Estas técnicas se basan en la teorı́a de probabilidad -las “leyes del azar”- y para
estudiarlas necesitamos formalizar algunos conceptos, antes de hacer derivaciones lógicas que
proporcionen las técnicas que buscamos.

Definición 4.1 (Población). Sea X una variable (o vector) aleatorio con rango RX y sea fX (x) su fun-
ción de densidad o de probabilidad según sea el caso. La población de X se define como el conjunto
{(x, fX (x)) / x ∈ RX }.

Definición 4.2. Sea X una variable aleatoria. Una muestra aleatoria de tamaño n (m.a.) de X es un
vector aleatorio n− dimensional (X1 , X2 , . . . , Xn ) cuyas componentes representan el proceso de repetir
n veces, y de manera independiente, el experimento aleatorio que genera a X , registrando sus valores
obtenidos.

Observaciones:
Conceptualmente la componente Xj es la misma v.a. X , el subı́ndice sólo indica la repetición
en la cual se registra el valor de X.
Por construcción hay independencia entre las componentes, por tanto la función de probabi-
lidad o densidad conjunta de la m.a. viene dada por:
n
Y  
fX1 X2 ...Xn (x1 , x2 , . . . , xn ) = fX1 (x1 ) fX2 (x2 ) . . . fXn (xn ) = fX (x1 ) fX (x2 ) . . . fX (xn ) ≡ fX xj .
j=1

Se resumen los dos puntos anteriores diciendo que X1 , X2 , . . . , Xn son variables aleatorias in-
dependiente e idénticamente distribuidas, lo que se denota por i.i.d.
Toda la información disponible acerca de la distribución de X está en la muestra, y para
procesarla exitosamente se procede por lo general a resumir dicha información con uno o
más ı́ndices que representen caracterı́sticas importantes de la muestra aleatoria.
Si bien en la práctica una muestra aleatoria de tamaño n se puede generar seleccionando al
azar y con reemplazamiento a n unidades de una población en las cuales se busca medir X,
sucede que en la realidad estas muestras se toman sin reemplazamiento. Esto último hace
que se pierda la independencia, pero si la población es suficientemente grande o infinita
las componentes de la muestra se podrı́an considerar prácticamente independientes y por
tanto conformarán una m.a. Si la población es finita y no muy grande, existe toda una teorı́a
de poblaciones finitas, muy útiles en el muestreo, que por la extensión de este curso no la
trataremos aquı́, aunque que sı́ la consideraremos cuando la situación lo amerite.

Definición 4.3 (Estadı́stica). Una estadı́stica es cualquier función que sólo depende de las componentes
de una muestra aleatoria.

Algunos ejemplos recurrentes de estadı́sticas son


Facultad de Ciencias Sociales PUCP 141

1 Pn
La media muestral: X̄ = n i=1 Xi .
1 Pn 1 Pn 2
La varianza muestral: S 2 = n−1 2 2
i=1 (Xi − X̄) = n−1 ( i=1 Xi − nX̄ ).
El k−ésimo momento muestral: Mk = n1 ni=1 Xik .
P

Las estadı́sticas de orden: X(1) ≤ X(2) ≤ . . . ≤ X(n) , donde en particular X(1) = mı́n{X1 , X2 , . . . , Xn }
y X(n) = máx{X1 , X2 , . . . , Xn }.
Observaciones:
Una estadı́stica es una función que “caracteriza” determinado aspecto de la muestra; por ci-
tar, la media muestral caracteriza la “tendencia central” de los datos muestrales, y la varianza
- o mejor aún, su raı́z cuadrada S, denominada la desviación estándar muestral, - caracteri-
zan la “tendencia a la dispersión” de los datos. Como se ve, las estadı́sticas son maneras de
procesar la información presente en la muestra, que permiten obtener datos relativos a la
población de donde proviene ésta y hacer inferencias de la muestra a la población.
Toda estadı́stica es una variable aleatoria: su valor cambia de muestra en muestra y lo hace
según el azar, generado por los valores de X. Esto es, toda estadı́stica tiene una distribución de
probabilidades, que por lo general es diferente de la de X , pero que hereda sus parámetros.
Esta es llamada una distribución muestral
Analizaremos seguidamente alguna de las estadı́sticas arriba definidas, empezando por las
estadı́sticas de orden. La siguiente proposición nos indica cómo es la función de distribución de
estas.

Proposición 4.1. La función de distribución de la estadı́stica de orden k, X(k) viene dada por:
n
X
FX(k) (x) = Cjn FX (x)j (1 − FX (x))n−j
j=k

En particular, las funciones de distribución del máximo y mı́nimo vienen dadas por:

FX(n) (x) = FX (x)n y FX(1) (x) = 1 − (1 − FX (x))n .

Demostración: Sea x ∈ R y definamos la v.a. Y = número de v.a’s en la muestra aleatoria de tamaño n de


X que son menores o iguales que el valor x. Como es fácil de ver Y ∼ B(n, p), donde p = P (X ≤ x) = FX (x).
Ası́, FX(k) (x) = P (X(k) ≤ x) = P (Y ≥ k) = nj=k Cjn FX (x)j (1 − FX (x))n−j . Los casos para el mı́nimo y
P

máximo son directos de obtener reemplazando arriba k = 1 y k = n. Otra manera de deducirlos es


notando que
Yn
FX(1) (x) = P (X(1) ≤ x) = 1−P (X(1) > x) = 1−P (X1 > x, X2 > x, . . . , Xn > x) = 1− P (Xi > x) = 1−(1−FX (x))n
i=1

y
n
Y
FX(n) (x) = P (X(n) ≤ x) = P (X1 ≤ x, X2 ≤ x, . . . , Xn ≤ x) = P (Xi ≤ x) = (FX (x))n .
i=1

142 ÍNDICE GENERAL

Ejemplo 4.1. Sea X1 , X2 , . . . , Xn una m.a. de una v.a. X ∼ U ([0, β]), halle la función de densidad y el
valor esperado del máximo de esta muestra.
Solución: Sea Y = máx{X1 , X2 , . . . , Xn }. Naturalmente RY = [0, β] y por la proposición anterior FY (y) =
y y n−1
FX (x)n = ( β )n . En consecuencia, derivando, fY (y) = n βn , si 0 ≤ y ≤ β y

β β β β
y n−1 yn n y n+1 β n β n+1
Z Z Z Z !
n n n
E(Y ) = yfY (y)dy = yn n dy = n n dy = n y dy = n = n = β.
0 0 β 0 β β 0 β n+1 0 β n+1 n+1

Ejemplo 4.2. La duración X de una conexión a Internet es una v.a. con distribución exponencial de
parámetro θ1 , donde θ > 0 es un parámetro desconocido. Una institución reguladora piensa tomar una
muestra al azar de n consumidores, tomados por sorteo del registro de abonados a un servicio de banda
ancha, y registrar los respectivos tiempos de conexión X1 , X2 , . . . , Xn . Si se definen las estadı́sticas Y que
mide el tiempo de la conexión más breve y W la duración total de las conexiones en la muestra.
a) Calcule la función generatriz de momentos de W y pruebe que W tiene distribución Gamma.
b) Halle la función de distribución FY (y) de la estadı́stica Y junto con su función de densidad fY (y).
Solución: a) Por definición

   Pn   Pn tXi  Yn   Yn n
Y
MW (t) = E etW = E et i=1 Xi = E e i=1 e = E etXi = MXi (t) = MX (t) = (MX (t))n
i=1 i=1 i=1
n n
1/θ 1
 
= =
1/θ − t 1 − θt
que es en efecto la función generatriz de momentos de una distribución Gamma de parámetros α = n y
β = θ, es decir, W ∼ Γ (n, θ).
b) Para la v.a. Y = mı́n{X1 , X2 , . . . , Xn } se cumple que si y ∈ RY = [0, ∞[,
1 ny
FY (y) = P (Y ≤ y) = 1 − (1 − FX (y))n = 1 − (e− θ y )n = 1 − e− θ .

Esta no es sino la función de distribución de una v.a. con distribución exponencial y por tanto Y ∼
Exp( θn ).

4.2. La ley de los grandes números y el TLC


Exploremos ahora la distribución de la media muestral X̄ de una m.a. X1 , X2 , . . . , Xn de una v.a.
X con media µ = µX y varianza σ 2 = σX2 . Un cálculo directo nos dice que la media y varianza de
esta estadı́stica vienen dadas por:
n n
1X 1 X nσ 2 σ 2
E(X̄) = E(Xi ) = µ y V (X̄) = 2 V (Xi ) = 2 = .
n n n n
i=1 i=1

Ası́, si n → ∞ la distribución de X̄ tenderá a degenerase en el punto µ. Tras de esta intuición recaen


dos de los resultados más relevantes en la inferencia estadı́stica: la ley de los grandes números y el
teorema del lı́mite central. En breves palabras, el primer resultado nos dice que conforme aumente
Facultad de Ciencias Sociales PUCP 143

el tamaño de la muestra X̄ se aproxima cada vez más al valor de la media de la población de X, µ;


mientras que el segundo resultado indica que la distribución de X̄ se aproxima cada vez más al de
una distribución normal centrada en µ y con la varianza arriba dada. Para ser formales, requerimos
aquı́ entender en que sentido se dan estas “aproximaciones”, para lo cual introduciremos dos tipos
de convergencia.

Definición 4.4 (Convergencia en probabilidad). Diremos que una secuencia de v.a’s {Xn } converge en
P
probabilidad a una v.a X, y utilizaremos para ello la notación Xn → X, si

lı́m P (|Xn − X| > ) = 0, ∀ > 0.


n→∞

P
Observación: Tomando complementos, una manera equivalente de decir que Xn → X es diciendo
que lı́mn→∞ P (|Xn −X| ≤ ) = 1, ∀ > 0. Ası́, si esto ocurre podremos afirmar que conforme n crezca
podremos encontrar, casi con seguridad, de que {Xn } se encuentra tan cerca de X como queramos.

Definición 4.5 (Convergencia en distribución). Sea {Xn } una sucesión de v.a’s con funciones de dis-
tribución respectivas {Fn } y sea X una v.a con función de distribución F. Diremos que {Xn } converge en
D
distribución a X, y lo denotaremos por Xn → X, si

lı́m Fn (x) = F(x), ∀x ∈ C(F),


n→∞

donde C(F) denota al conjunto de puntos de continuidad de F.

Observaciones:
A diferencia de la convergencia en probabilidad, aquı́ no es necesario que las v.a’s involucra-
das estén definidos en el mismo espacio probabilı́stico ya que ellas no son las que convergen
sino sus funciones de distribución.
Vale destacar que el conjunto de puntos de discontinuidad de F; es decir, C(F)c es siempre a
lo más enumerable.

Proposición 4.2 (La ley de los grandes números). Si X1 , X2 , . . . , Xn es una m.a. de una v.a. X con
P
media µ y varianza σ 2 , entonces X̄ → µ.
Demostración: Por la desigualdad de Tchebychev, dada en la proposición 1.10, se cumple que

σ 1
P (|X̄ − µ| < K √ ) ≥ 1 − 2 , ∀K > 0.
n K


Tomándose  = √
n
> 0, el cual es arbitrario, pues K lo es, se tiene que

σ2
1 ≥ P (|X̄ − µ| ≤ ) ≥ 1 − .
2 n
P
Ası́, si n → ∞, el teorema del Sandwich, garantiza que lı́mn→∞ P (|X̄ − µ| ≤ ) = 1, es decir, X̄ → µ. 
144 ÍNDICE GENERAL

Ejemplo 4.3. Se desea aproximar (estimar) el ingreso medio m de los microempresarios del sector metal
mecánico, a partir de la media X de una muestra aleatoria de n microempresarios tomados al azar. Se
desea que con una probabilidad de 95 % o más, el error de estimación |X − µ| sea inferior a las 5 unidades
monetarias. De estudios previos, se sabe que la desviación estándar poblacional del ingreso es σ = 25
u.m. ¿Cuál es el tamaño de muestra n que logra esto?
2 2
Solución: Partiendo de P (|X̄ − µ| ≤ ) ≥ 1 − σ2 n , para un  no mayor a 5, se desea que 1 − σ2 n ≥ 0.95, lo
252 252
cual implica que n ≥ 0.05ε2
. Tomando ε = 5, n ≥ 0.0525 = 500 cumple con los requisitos dados.

Proposición 4.3 (Teorema del lı́mite central). Si X1 , X2 , . . . , Xn es una m.a. de una v.a. X con media µ
y varianza σ 2 < ∞, entonces
Pn
X̄ − µ Xi − nµ D
Zn = σ = i=1 √ → N (0, 1) , conforme n → ∞.
√ σ n
n

Demostración: Mostraremos este teorema asumiendo que la función generatriz de momentos de X existe,
aunque vale aclarar que el teorema se sigue cumpliendo aún si este no fuera el caso. Notemos en primer
X −µ
lugar que Zn se podrı́a escribir como Zn = √1n ni=1 Zi donde las v.a’s Z1 , Z2 , . . . , Zn , con Zi = iσ ,
P

conforman una muestra aleatoria de una v.a. Z con media 0 y varianza 1. Luego, MZn (t) = E(etZn ) =
(MZ ( √tn ))n . Tomándose logaritmos y luego lı́mites tenemos que
0 0
t log(MZ (mt)) MZ (mt)t t MZ (mt)
lı́m log(MZn (t)) = lı́m n log(MZ ( √ ) = lı́m 2
= lı́m = lı́m
n→∞ n→∞ n m→0 m m→0 2mMZ (mt) 2 m→0 mMZ (mt)
00
t MZ (mt)t t2
= lı́m = ,
2 m→0 MZ (mt) + mtMZ0 (mt) 2

donde se realizó el cambio de variable m = √1 y se aplico dos veces la regla de L’Hospital. En conse-
n
t2
cuencia, lı́mn→∞ MZn (t) = e , última que es la función generatriz de momentos de una variable normal
2

estándar. Dada la relación biunivoca entre funciones generatrices de momento y funciones de distribu-
D
ción se debe de tener entonces que Zn → N (0, 1). 

Observaciones:
Lo que el teorema del lı́mite central (TLC) indica en la práctica es que si la muestra es sufi-
cientemente grande ( “grande” se suele considerar cuando n ≥ 30), entonces la distribución
2
de la media muestral X̄ es aproximadamente normal de media µ y varianza σn al margen de
la verdadera distribución que tenga la v.a. X que genere la m.a.
Si la v.a. que genera la muestra es normal, no hay necesidad del TLC pues en este caso X̄ ∼
2
N (µ, σn ) y su estandarización siempre nos brinda una distribución normal estándar.
Existen en la literatura varios TLC que imponen condiciones más débiles para que la me-
dia muestral o la suma de las componentes de la muestra se aproximen en su distribución
por una normal. Uno de estos, que es más general que el clásico TLC aquı́ dado y que
no impone necesariamente que las componentes de la muestra esten idénticamente distri-
buidas, es el siguiente: Sean X1 , X2 , . . . , Xn variables aleatorias independientes con medias
Facultad de Ciencias Sociales PUCP 145

µ1 , µ2 , . . . , µn , varianzas finitas no nulas σ12 , σ22 , . . . , σn2 y momentos centrados finitos de ter-
 3  P 1
n
cer orden β , β , . . . , β , con β = E X − µ , respectivamente. Si B =
1 2 n j j j n β 3 y C =
i=1 i n
 12
son tales que lı́mn→∞ CBn = 0, entonces
P
n 2
i=1 σi n
Pn Pn
i=1 Xi − i=1 µi D
Zn = → N (0, 1) , conforme n → ∞.
Cn

Ejemplo 4.4. En el ejercicio anterior de la estimación del ingreso medio µ de los microempresarios,
podrı́amos asumir a prori que n es “grande” y recalcularlo usando el TLC: Queremos que P (|X̄ − µ| ≤
5) ≥ 0.95, pero como X̄ tiene aproximadamente una distribución normal de media µ y varianza 25 n , esto
 √   √ 
5 n 5 n
equivale estandarizando a que P |Z| ≤ 25 ≥ 0.95. Igualando a 0.95 tenemos P |Z| ≤ 25 = 0.95 ⇔
 √  √ √
5 n 5 n 25(1.96)
P Z ≤ 25 = 0.975 ⇔ 25 = 1.96 ⇔ n = 5 = 5(1.96) = 9.8. Ası́, n = (9.8)2 = 96.04  97
(donde redondeamos “hacia arriba” para asegurar una probabilidad de 95 % o más). Note que el valor de
n es mucho menor que el obtenido usando la ley de grandes números, esto se debe a que hemos aplicado
un “modelo de datos”, más refinado.

Ejemplo 4.5 (Aproximación de la binomial por la normal). En el caso particular de que Y1 , Y2 , . . . , Yn


sea una m.a. de una v.a. Y ∼ B(1, p) (variable dicotómica llamada de Bernoulli), se tiene que la media
de Y es p y su varianza p(1 − p). Aquı́ p se puede pensarse que es la probabilidad de que se obtenga
un “éxito” (Y = 1) en cado uno de n experimentos independientes que sólo puede ser éxito o fracaso.
Ası́, si definimos X = ni=1 Yi , el cual denota al número de éxitos en estos n experimentos y por tanto
P
X−np D
X ∼ B(n, p), tenemos por el TLC que si n es suficientemente grande Zn = √ → N (0, 1).
np(1−p)

Observación: En el ejemplo anterior estamos aproximado una distribución discreta por una con-
tinua. En casos como este se recomienda, para el cálculo de probabilidades, realizar la llamada
“corrección por continuidad”, corrección que se fundamenta en argumentos geométricos, como se
aprecia en la figura 4.1 para el ejemplo siguiente. Concretamente esta nos dice que si a ≤ b son dos
números naturales, entonces aproximadamente:

1 1 b + 21 − np a − 12 − np
P (a ≤ X ≤ b) = P (a − ≤ X ≤ b + ) = FZ ( p ) − FZ ( p ).
2 2 np(1 − p) np(1 − p)

Ejemplo 4.6. Suponga que en una linea continua de producción, la probabilidad de que un artı́culo
resulte defectuoso es de p = 0.1. Si estos artı́culos se empacan en lotes de 200 unidades, ¿qué probabilidad
existe de que un lote contenga entre 16 y 25 artı́culos defectuosos?
Solución: Formalmente, la variable aleatoria X = número de artı́culos defectuosos que contiene un lote
tiene distribución binomial de parámetros n = 200 y p = 0.1. Por tanto, si queremos evaluar la pro-
babilidad pedida tendrı́amos que calcular una suma de 10 términos con combinatorias grandes de por
medio. Dado que el lote es grande, podemos usar la aproximación de la binomial por la normal y evaluar
de manera aproximada esta probabilidad. Utilizando la corrección por continuidad tenemos que:
15.5 − 200(0.1) 25.5 − 200(0.1)
P (16 ≤ X ≤ 25) = P (15.5 ≤ X ≤ 25.5) ≡ P ( p ≤Z ≤ p )
200(0.1)(0.9) 200(0.1)(0.9)
146 ÍNDICE GENERAL

= P (−1.1 ≤ Z ≤ 1.296362) = 0.7581525.


En caso no se hiciera la corrección, la probabilidad estarı́a dada por
16 − 200(0.1) 25 − 200(0.1)
P (16 ≤ X ≤ 25) ≡ P ( p ≤Z ≤ p )
200(0.1)(0.9) 200(0.1)(0.9)
= P (−0.942809 ≤ Z ≤ 1.178511) = 0.7078143.
El valor exacto de esta probabilidad (que lo calcularemos en R) viene dado por
> pbinom(25,200,0.1) - pbinom(15,200,0.1)
[1] 0.7564673
Como se aprecia la aproximación normal y sobre todo la corrección ha hecho un gran trabajo. Esta apro-
ximación puede verse en la figura 4.1. El aŕea en color aguamarina es la probabilidad sin la corrección y
esta misma área más el área en negro es la probabilidad con la aproximación, la cual como se aprecia es
más cercana a la suma de las áreas de la barras de base 1 entre 16 y 25, la cual representa la verdadera
probabilidad.

0.075
Función de probabilidad

0.050

0.025

0.000
10 15 16 20 25 26 30 35
x

Figura 4.1: Aproximación de la binomial por la normal y corrección por continuidad para el ejem-
plo 4.6. En rojo la función de densidad de una normal con media 20 y varianza 18 que aproxima
por el TLC a X ∼ B(200, 0.1). De no considerarse la corrección uno perderı́a el área en negro.

En la siguiente sección veremos un caso particular de la distribución gamma, conocida como la


distribución Ji−cuadrado, la cual se encuentra asociada a la distribución de la varianza muestral
S 2 . Esto lo haremos en el contexto de una m.a. de una v.a. X ∼ N (µ, σ 2 ). Una de las razones de
elegir esta distribución, aparte del relacionado al TLC, es que en este contexto ella y la media
muestral resultan ser variables independientes, tal como no los indica el siguiente resultado.
Facultad de Ciencias Sociales PUCP 147

Proposición 4.4. Si X1 , X2 , ..., Xn es una m.a de X ∼ N (µ, σ 2 ), entonces X̄ y S 2 son variables aleatorias
independientes.
Demostración: Dado que cualquier combinación multilineal de variables normales es normal, se tiene en
particular que el vector aleatorio [X̄, X1 − X̄, . . . , Xn − X̄]> tiene una distribución normal multivariada
con vector de medias [µ, 0, 0, . . . , 0]> . Más aún, la covarianza de la primera componente con las demás
viene dada por
1 σ2
Cov(X̄, Xi − X̄) = Cov(X̄, Xi ) − V (X̄) = Cov(Xi , Xi ) − = 0.
n n
Esto implica, por la normalidad, que X̄ es independiente de X1 − X̄, X2 − X̄, . . . , Xn − X̄ y por tanto lo es
de S 2 , ya que esta estadı́stica es una función de estas últimas variables. 

4.3. Distribuciones muestrales


4.3.1. La distribución Ji-cuadrado
Una v.a. X tiene distribución Ji-cuadrado con k grados de libertad, y se le denota por X ∼ χ2 (k),
si es que X ∼ Γ ( 2k , 12 ). Es decir, la distribución Ji-cuadrado es un caso particular de una distribución
gamma. En otras palabras, la función de densidad de X ∼ χ2 (k) viene dada por:
k x
x 2 −1 e− 2
fX (x) = k
, si x > 0,
2 2 Γ ( 2k )
  2k
1
su función generatriz de momentos por MX (t) = 1−2t , si t < 21 y su media y varianza vienen
dados respectivamente por µX = k y σX2 = 2k, respectivamente.
Observación: Al igual que en el caso de la función de densidad gamma, la función de distribución
de una v.a.X ∼ χ2 (k) no es explı́cita, al menos que k sea par, y su cálculo se realiza por lo general
mediante métodos numéricos de cuadratura. Esto obviamente ya esta hecho y resumido en una
tabla especial, donde por razones de espacio sólo se tabulan algunos cuantiles de esta distribución
por cada grado de libertad k. La estructura de la tabla es opuesta a la de la tabla Z. En el interior
de la tabla están los valores de la variable (cuantı́les); en el borde izquierdo están los grados de
libertad k y en la lı́nea superior están las probabilidades asociadas a los cuantı́les buscados. Otra
posibilidad para obtener simulaciones, cuantiles, densidades o probabilidades acumuladas es a
través de R.

Ejemplo 4.7. Si X ∼ χ2 (4), entonces por la lectura directa de la tabla P (X ≤ 14.9) = 0.995 y P (X ≤
0.297) = 0.01. De otro lado, si queremos hallar la constante C tal que P (X ≤ C) = 0.75, este valor será
por tabla C = 5.38. Estos valores se podrán calcular de manera más precisa en R, respectivamente, por

> pchisq(14.9,4)
[1] 0.9950868
> pchisq(0.297,4)
[1] 0.009992992
> qchisq(0.75,4)
[1] 5.385269
148 ÍNDICE GENERAL

Proposición 4.5. Se cumple que:


1. Si Z ∼ N (0, 1), entonces Z 2 ∼ χ2 (1).
2. Propiedad reproductiva: Si W1 , W2 , ...., Wm son m variables aleatorias independientes con distribucio-
nes Ji-cuadrado de respectivamente k1 , k2 , . . . , km grados de libertad, entonces
m
X m
X
W= Wi ∼ χ2 (k = ki ).
i=1 i=1

3. Si X1 , X2 , ..., Xn es una m.a de X ∼ N (µ, σ 2 ), entonces


(n − 1)S 2
W= ∼ χ2 (n − 1).
σ2
Demostración: 1. Sea Y = Z 2 y sea y ≥ 0 un valor arbitrario. La función de distribución de Y viene dada
por p √ √
FY (y) = P (Y ≤ y) = P (Z 2 ≤ y) = P (|Z| ≤ (y)) = FZ ( y) − FZ (− y).
Derivando con respecto a y y usando la regla de la cadena, obtenemos que la función de densidad de Y
está dada por
1 x
1 √ √ 1 1 − 1 y y 2 −1 e− 2
fY (y) = √ (fZ ( y) + fZ (− y) = √ 2 √ e 2 = 1 ,
2 y 2 y 2π 22 Γ (1) 2
Esto es Y ∼ χ2 (1).
2. La función generatriz de momentos de W viene, por la independencia, dada por
k k   k2i  2k
1 1 1
Y Y 
MW (t) = MWi (t) = = ,t <
1 − 2t 1 − 2t 2
i=1 i=1
Pm
donde k = i=1 ki . Como ella corresponde a la función generatiz de momentos de una v.a. con distribu-
ción ji−cuadrado de k grados de libertad, entonces W tiene esta distribución.
3. Sea
Pk 2 k
i=1 (Xi − µ) Xi − µ 2
X
U= 2
= ( ) .
σ σ
i=1
Por los dos puntos anteriores, resulta que U ∼ χ2 (n),
pues ella es la suma de n v.a’s independientes
con distribución Ji−cuadrado de un grado de libertad, obtenidas de elevar al cuadrado una v.a. normal
estándar. Sumando y restando la media muestral al interior de los cuadrados de esta v.a., podemos
descomponer ellla como
Pk
(Xi − X̄ + X̄ − µ)2
U = i=1 = W +V
σ2
X̄−µ
donde V = ( σ / √n ) ∼ χ2 (1). Ası́, dada la independencia entre X̄ y S 2 vista en la proposición 4.4 , se tiene
que al tomarse la función generatiz de momentos en la descomposición arriba dada
 n2  21
1 1
 
= MU (t) = MW (t)MV (t) = MW (t)
1 − 2t 1 − 2t
  n−1
1
uno puede despejar MW (t) = 1−2t 2
, si t < 12 . Esto significa que, W ∼ χ2 (n − 1). 
Facultad de Ciencias Sociales PUCP 149

Ejemplo 4.8. Si X ∼ N (0, 2) e Y ∼ N (0, 4) son variables aleatorias independientes, halle un valor C
tal que
 
P 2X 2 + Y 2 ≤ C = 0.95.

Solución: Estandarizando primero, tenemos que Z1 = X/ 2 ∼ N (0, 1) y Z2 = Y /2 ∼ N (0, 1). Por la
propiedad 1. se deduce que W1 = Z12 ∼ χ2 (1) y W2 = Z22 ∼ χ2 (1) son variables aleatorias
 independientes.

Ası́, por la propiedad reproductiva W1 + W2 ∼ χ (2). En consecuencia, 0.95 = P 2X 2 + Y 2 ≤ C =
2
   
P X 2 /2 + Y 2 /4 ≤ C/4) = P (W1 + W2 ≤ C/4). De la tabla Ji−cuadrado con 2 grados de libertad,
2
obtenemos que c/4 = χ0.95 = 5.99. Consecuentemente, C = 5 × 5.99 = 23.96.

Ejemplo 4.9. Se ha tomado una m.a. de tamaño 12 de una v.a. normal de varianza 9. ¿ Cuál es el valor
de b que satisface que P (S 2 < b) = 0.95?
(n−1)S 2 2
Solución: En este caso n = 12 y n − 1 = 11. Por tanto, W = σ 2 = 11S
σ2
∼ χ2 (11). De tabla se tiene
   
2
entonces que 0.95 = P S 2 ≤ b = P 11S 2 /9 ≤ 11b/9 ⇒ 11b/9 = χ0.95 (11) = 19.7 ⇒ b = 16.12.

4.3.2. La distribución t de Student


Una v.a. X tiene distribución t de Student con n grados de libertad, y se le denota por X ∼ t(k),
si su función de densidad es:

Γ ( k+1
2 )
fX (x) = √ 2 k+1
, x ∈ R.
πkΓ ( 2k )(1 + xk ) 2

Observaciones:
La gráfica de esta distribución es muy similar a la de la distribución normal estándar, pero
con colas mucho más pesadas, sobre todo si los grados de libertad son pequeños. En caso que
k → ∞, se puede probar que esta v.a. converge en distribución a la de la normal estándar.
Al igual que en el caso de las distribuciones normal y Ji−cuadrado, no se dispone de for-
mulas cerradas ni evaluciones directas de la función de distribución de X ∼ t(k). Para esto
se dispone de una tabla en el que se tabulan algunos cuantiles para cada grado de libertad,
correspondientes a valores prefijados usuales de probabilidad. Otra posibilidad es usar R.

Ejemplo 4.10. Si X ∼ t(10), se tiene de tabla que P (X ≤ 1.3722) = 0.9; es decir, el cuantil 0.9 de esta
distribución es 1.3722. Esta misma probabilidad puede obtenerse en R mediante el comando

> pt(1.3722,10)
[1] 0.9000025

Proposición 4.6. 1. Si X ∼ t(k), entonces µX = 0 y σX2 = k


k−2 (k > 2).
2. Si Z ∼ N (0, 1) y W ∼ χ2 (k) son v.a’s independientes, entonces

Z
T = q ∼ t(k).
W
k
150 ÍNDICE GENERAL

En particular, dada una m.a. X1 , X2 , ..., Xn de X ∼ N (µ, σ 2 ), se cumple que:

X̄ − µ
T = √ ∼ t(n − 1).
S/ n

Demostración: 1. La media es directa si uno se da cuenta que la función g(x) = xfX (x) es par (g(−x) =
−g(x)) y por tanto su integral sobre toda la recta real es 0. De otro lado,
∞ Γ ( k+1
2 )
∞ Γ ( k+1
2 )

x2
Z Z Z
2 2 2
V (X) = E(X ) = x √ 2 k+1
dx = 2 x √ 2 k+1
dx = C 2 k+1
dx,
−∞ πkΓ ( 2k )(1 + xk ) 2 0 πkΓ ( 2k )(1 + xk ) 2 0 (1 + xk ) 2

2Γ ( k+1 )
donde C = √ 2k . Haciéndose el cambio de variable u = √x , la integral última (sin la constante C)
πkΓ ( 2 ) k
que llamaremos I viene dada por:

u2
Z
3
I =k 2
k+1
du.
0 (1 + u 2 ) 2

u2 2u
Otro cambio de variable y = 1+u 2
, con dy = (1+u 2 )2
du nos conduce a que

3 3 3
1
k 2 Γ ( 32 )Γ ( k−2
2 )
Z
k2 1 k−4 k2 3 k −2
I= y (1 − y)
2 2 dy = B( , )= k+1
2 2 2 2 2 Γ(
0 2 )

Consecuentemente se tiene que

1 3 k−2 1 1 1 k−2 k
V (X) = CI = √ k
kΓ ( )Γ ( ) = √ k−2 k−2 k Γ ( )Γ ( )= .
πΓ ( 2 ) 2 2 π( 2 )Γ ( 2 ) 2 2 2 k−2

2. Sea t un valor real, que sin pérdida de generalidad asumiremos que es no negativo. La función de
distribución de T en t viene dada por
r Z ∞ Z t √ω Z ∞ k −1 − ω r
W k ω2 e 2 ω
FT (t) = P (T ≤ t) = P (Z ≤ t )= fZ (z)fW (ω)dzdω = k
FZ (t )dω.
k 0 0 0 k
22 Γ ( ) k
2

Puesto que el integrando en esta expresión es una función continua en t y con derivada continua, po-
demos derivar respecto a t e intercambiar la derivada con la integral, para obtener que la función de
densidad de T viene dada por:
Z∞ r r Z∞
1 k ω ω ω 1 k−1 ω t2
fT (t) = k −1 −
ω 2 e 2 fZ (t ) dω = k+1 √ ω 2 e− 2 (1+ k ) dω.
22 Γ (k ) 0 k k 2 2 Γ ( k ) πk 0
2 2

ω t2
Haciendo el cambio de variable u = 2 (1 + ω ), obtendremos que
 k−1
Γ ( k+1

∞ Z∞
2
2e−u 2 )
Z
1  2u  1 k−1
fT (t) = du = u 2 e −u du = .
k+1 √  t2 
 t2
√ 2 k+1 √ 2 k+1
2 2 Γ ( 2k ) πk 0 1+ k 1+ k Γ ( 2k ) πk(1 + tk ) 2 0 πkΓ ( 2k )(1 + tk ) 2

En consecuencia T ∼ t(k). 
Facultad de Ciencias Sociales PUCP 151

4.3.3. La distribución F de Fisher


Una v.a. X tiene distribución F de Fisher con k1 > 0 grados de libertad en el numerador y k2 > 0
grados de libertad en el denominador, y se le denota por X ∼ F(k1 , k2 ), si su función de densidad
es: k1 k1
Γ ( k1 +k 2
2 )(k1 /k2 ) x
2 2 −1
fX (x) = k1 +k2
, x > 0.
Γ ( k21 )Γ ( k22 )(1 + (k1 /k2 )x) 2
2k 2 (k +k −2)
Valor esperado: µX = k k−22
(k2 > 2). Varianza σX2 = k (k2 −2)
1 2
2 (k −4) (k2 > 4).
2 1 2 2
Observación: Al igual que todas las distribuciones muestrales vistas en este capı́tulo no es posible
obtener de manera analı́tica la función de distribución de X ∼ F(k1 , k2 ) y por tanto debemos apelar
al uso de tablas en las que se encuentran tabulados sólo los cuantiles 0.95, 0.975, 0.99 y 0.995 de
esta distribución para distintos valores enteros de sus grados de libertad.
1
Proposición 4.7. 1. Si X ∼ F(k1 , k2 ), entonces X ∼ F(k2 , k1 ).
2. Si W1 ∼ χ2 (k1 ) y W2 ∼ χ2 (k2 ) son v.a’s independientes, entonces
W1 /k1
F= ∼ F(k1 , k2 ).
W2 /k2
En particular, si X1 , X2 , ...., Xn es una m.a de una v.a. X ∼ N (µ1 , σ12 ), e Y1 , Y2 , ..., Ym es una m.a de una
v.a. Y ∼ N (µ2 , σ22 ), donde X e Y son independientes, entonces
S12 σ22
F= ∼ F(n − 1, m − 1),
S22 σ12
siendo S12 y S22 las varianzas muestrales asociadas a las poblaciones estadı́sticas determinadas por X e
Y , respectivamente.
Demostración: La demostración de la primera parte de 2., que sigue esencialmente la misma metodologı́a
que la prueba de 2. en la proposición anterior, queda como ejercicio. De otro lado 1. es inmediato de
S2
2. al igual que el caso particular, que se desprende del hecho que W1 = (n − 1) σ12 ∼ χ2 (n − 1) y W2 =
1
S2
(m − 1) σ22 ∼ χ2 (m − 1) son variables independientes. 
2

Ejemplo 4.11. Si X ∼ F(10, 12), halle los valores de las constantes C1 y C2 tales que P (X ≤ C1 ) = 0.995
y P (X ≥ C2 ) = 0.95.
Solución: El valor de C1 se halla directamente del tercer juego de valores de FX para la distribución de
Fisher y viene dado por C1 = 5.09. El cálculo de C2 no es directo, pero es posible de obtenerlo notando
que P (X ≥ C2 ) = P ( X1 ≤ C1 ) = 0.95. Ası́, como X1 ∼ F(12, 10), el valor de C1 en la (primera) tabla será
2 2
1
de 2.91 y por tanto C2 = 2.91 = 0.3436. En R estos valores de C1 y C2 se pueden calcular de manera más
directa y precisa pero requieren la instalación del paquete stats. A continuación su cálculo.
# install.packages("stats")
> library(stats)
> qf(0.995,10,12)
[1] 5.085476
> qf(0.95,10,12,lower.tail=FALSE)
[1] 0.3432914
152 ÍNDICE GENERAL

4.4. Ejercicios
1. Suponga que se seleccionan al azar a n empleados de una empresa cuyos salarios en soles se
asumen tienen distribución Normal de media desconocida µ y varianza 2,500 soles2
a) Si se desea aproximar µ por la media X̄ de los salarios de los trabajadores seleccionados de
tal manera que el error en la aproximación |X̄ − µ| no supere los 25 soles con una probabilidad
de 0.95 ¿qué tamaño de muestra n se requerirı́a como mı́nimo?
b) Un economista critica el supuesto de normalidad anterior y piensa más bien que los salarios
anteriores siguen una distribución exponencial con una media de 900 soles. Si es correcta
la especificación del economista ¿con qué probabilidad, aproximadamente, una muestra de
n = 64 empleados arrojará una media de salarios que supere los 1,000 soles?
c) ¿Con qué probabilidad el empleado que mejor gane en b) tendrá un salario superior a los
5,000 soles?
2. En un modelo económico el precio unitario en soles de un bien en cierto mercado sufre pe-
queñas perturbaciones aleatorias de modo que se convierte en una variable aleatoria continua
X con distribución N (p, σ 2 ), donde p es el precio de equilibrio y σ mide el margen más proba-
ble de variación alrededor de p. Cálculos teóricos indican que con 97.72 % de probabilidad el
precio se mantendrá debajo de los 12 soles y con 15.87 % de probabilidad estará debajo de los
9 soles.
a) Halle el precio de equilibrio p y la constante σ .
b) Si usted adquiere 5 unidades del bien seleccionando al azar y con reemplazamiento igual
número de tiendas de este mercado en donde compra un bien, ¿con qué probabilidad pagará
en total más de 50 soles?
c) ¿Con qué probabilidad en b) más de la mitad de los precios de los 5 bienes adquiridos supe-
rarán los 8 soles?
d) ¿Con qué probabilidad lo máximo que pagará en b) por una unidad superará los 12 soles?
e) Si en b) adquiere ahora 12 unidades del bien, ¿con qué probabilidad sólo tres de ellos estarán
en el rango de entre los 8 y 9 soles; dos de ellos serán inferiores a los 8 soles y el resto superarán
los 9 soles?
f) Si la función de demanda en este mercado es de Q(X) = 8, 000 − 2X unidades del bien, de-
termine la cantidad esperada de dinero que gastarán los consumidores en el mercado de este
bien.
3. Debido a factores fortuitos, el precio de un bien A puede sufrir una variación aleatoria X en
u.m. que está alrededor del precio de equilibrio y para la cual se asume distribución normal
X ∼ N (0, σX2 ). Análogamente, otro bien B experimenta una variación aleatoria Y ∼ N (0, σY2 ) en
u.m. que es independiente de lo que pase con A. Para un estudio de la estabilidad de los precios
de estos bienes se ha pensado tomar m.a’s de tamaños 6 y 8 respectivamente.
a) Halle un valor c tal que la probabilidad que el cociente en valor absoluto entre la media y la
desviación estándar de X no supere a c sea de 0.95.
b) ¿ Con qué probabilidad la media de las variaciones de los precio en la muestra del bien A
superará a la respectiva media del bien B?
Facultad de Ciencias Sociales PUCP 153

c) Si las variaciones de estos precios no fueran independientes y tuvieran una correlación de


-0.3 y varianzas σX2 = 4 y σY2 = 9, ¿ con qué probabilidad la diferencia entre estas variaciones
no supera la u.m.?
2
d) Si σX2 = 4, halle c tal que W = cX tenga distribución Ji-cuadrado.
P  2
e) Si σX2 = σY2 = 4, ¿existen constantes a y b tales que W = a 8i=1 Xi2 + bY tiene distribución
Ji-cuadrado.
f) Si σX2 = σY2 , halle c tal que P ( SSX ≤ c) = 0.95.
y

4. Para la licitación de una obra a cargo de un municipio se han presentado 5 empresas que ofre-
cerán de manera independiente y en sobre cerrado sus propuestas de inversión. Se asume que
estas empresas podrán proponer invertir indistintamente cualquier valor entre 0 y θ millones
de soles y se declarará como ganador de la licitación a quién ofrezca la mayor inversión.
a) Si θ = 5 ¿con qué probabilidad la mayorı́a de estas empresas ofrecerán más de 3 millones de
dólares?
b) Halle, en función de θ, la función de densidad del monto de inversión que recibirá el muni-
cipio por la obra. Interprete esta función.
c) Si θ = 5 ¿cuánto de inversión esperará recibir el municipio por la obra?
5. El tiempo que se demora en llegar el pedido de servicio por delivery de un restaurante A se asu-
me que tiene distribución Normal con media 50 minutos y desviación estándar de 10 minutos;
mientras que independientemente el tiempo que se demora en llegar el pedido de servicio de
otro servicio de delivery de un restaurante B se asume que tiene distribución Normal con media
40 minutos horas y desviación estándar de 15 minutos.
a) ¿Con qué probabilidad un pedido por delivery al restaurante B se demorará más de 50 mi-
nutos?
b) ¿Con qué probabilidad el servicio de A llegará antes que el de B para un pedido de servicio
simultáneo a los dos restaurantes?
c) Suponga que ambos restaurantes promocionan que sus pedidos por delivery deben de llegar
antes de la hora, prometiendo devolver, en el caso de A, 5 soles si se pasa de la hora y, en
el caso de B, 10 soles si se pasa de la hora. Si en un dı́a se recibieron 20 pedidos de delivery
para A y 30 para B, ¿cuánto se esperará pierdan ambos restaurantes en tal dı́a por honrar sus
compromisos?
6. Si X1 , X2 , . . . , Xn es una m.a. de una v.a. X ∼ N (µ, σ 2 ), halle la distribución de S 2 . Para n = 11,
halle también la probabilidad de que S 2 supere a σ 2 .
7. Si el valor de la producción de una empresa es una v.a. X ∼ N (µ, σ 2 ) y para estudiar este sector
se piensa tomar una muestra de n empresas para registrar el valor de su producción y calcular
X̄ y S 2 para aproximar µ y σ 2 .
a) ¿Qué tamaño de muestra garantiza que P (|X̄ − µ| < 0.25σ ) = 0.95.
b) Si σ 2 = 16 y n = 31, halle c tal que P (S 2 < c) = 0.95.
c) Si σ 2 = 16 y n = 11, halle P (S < 3).
154 ÍNDICE GENERAL

8. Sea X ∼ Exp( θ1 ). Para una muestra aleatoria de tamaño n = 2, X1 , X2 se tiene las estadı́sticas:

X1 + X2 p
θ̂ = y θ̃ = X1 X2 .
2
Halle el valor esperado de estas estadı́sticas.
9. Sean X1 , X2 , . . . , Xn una m.a. de una v.a X ∼ U ([0, θ])
a) Halle la función de densidad de T = min{X1 , X2, . . . , Xn }. ¿Existe c tal que E(cT ) = θ.
b) Si θ = 10, ¿Con qué probabilidad el segundo menor valor en esta m.a. superará a la media
de X ?
c) Halle la distribución muestral del estadı́stico S = X1 + X2 ¿Cuál es la media y varianza de S?
10. Se asume que la probabilidad de que un cajero retenga una tarjeta es de 0.05. Si se seleccionan
al azar a 49 cajeros y se mide en ellas el número de transacciones que en estos cajeros realizan
hasta que se retenga alguna tarjeta,
a) Halle aproximadamente, usando el TLC, la probabilidad de que la media de estas medicio-
nes supere las 23 transacciones.
b) ¿Es cierto que el número total de estas transacciones sigue una distribución binomial nega-
tiva? ¿ Cuál es su valor esperado?
11. Suponga que una playa de estacionamiento tiene dos puertas y que los autos llegan indepen-
dientemente por la puerta A a razón de 5 por hora y por la puerta B a razón de 8 por hora,
siguiendo en ambos casos sendos procesos de Poisson.
a) Halle el rango y la función de probabilidad del número de autos que entrarán a esta playa
de estacionamiento en un lapso de dos horas.
b) Si en el lapso de 3 horas han entrado al estacionamiento 40 autos ¿con qué probabilidad la
mitad de ellos habrán entrado por la puerta A?
12. Una agencia de turismo ofrece paquetes promocionales que pueden incluir hasta 4 paquetes
adicionales al básico. La demanda del número de paquetes adicionales al paquete básico por
los que optan los clientes de esta promoción es una v.a. discreta X con función de probabilidad

0.26 − Cx2 , si
(
x = 0, 1, 2, 3, 4
Px (x) =
0 , en otro caso.

a) Halle la constante C.
b) Halle la media y varianza de la v.a X.
c) Suponga que el paquete básico cuesta 600 soles y cada programa adicional 150 soles ¿con
qué probabilidad un cliente que acepte la promoción deberá de pagar más de 1,000 soles a la
agencia?
d) Con la estructura de costos en c), ¿cuánto se espera pague cada cliente a la agencia por una
promoción? Halle también la varianza de este monto.
e) Suponga que durante el mes la agencia ha realizado por esta promoción 81 contratos, ¿apro-
ximadamente con qué probabilidad la agencia recaudará en el mes más de 70,000 soles?
Facultad de Ciencias Sociales PUCP 155

13. Si el capital inicial (en cientos de dólares) de una microempresa es una v.a. continua X con
distribución normal N (µ, 1) y se toma una m.a. de tamaño n
a) Si n = 9 , calcule la probabilidad de que la media X̄ de la muestra difiera de la media pobla-
cional µ en menos de 20 dólares
b) ¿Qué n garantiza que con 95 % de probabilidad la diferencia |X̄ − µ| no pasará de 20 dólares?
14. a) Si X ∼ N (0, 1) y se toma una m.a. de tamaño 16, halle c tal que P ( 16 2
P
i=1 Xi > c) = 0.95.
b) En a) halle c tal que P (S 2 < c) = 0.90.
P16
i=1 Xi
c) En a) halle c de modo que se cumpla la desigualdad: P ( S < c) = 0.95.
P16
X
i 2
d) De una distribución N (0, 4) se toma una m.a. de tamaño 8: Halle c de modo que F = c( i=1
S )
tenga distribución F de Fisher, si la primera sumatoria se hace sobre las 3 primeras observa-
ciones y S 2 es la varianza del resto.
15. a) Sea W una v.a con distribución Ji-cuadrado con 14 grados de libertad. Determine la mediana
de W .
b) Se selecciona una muestra aleatoria de tamaño 9 de una población definida por una variable
aleatoria X ∼ N (0, σ 2 ). Hallar el valor c tal que P (−cS ≤ X̄ ≤ cS) = 0.95.
c) Si el capital inicial (en cientos de dólares) de una microempresa es una v.a. continua X con
distribución normal N (µ, 1) y se toma una m.a. de tamaño 16 ¿con qué probabilidad el menor
capital inicial de las microempresas en la muestra superará en un dólar a la media de la
población?
16. Si X1 , X2 , X3 , X4 es una muestra aleatoria de una distribución normal estándar.
a) Halle C tal que P ( 25 2
P
i=1 Xi > C) = 0.1.
b) Se define el coeficiente de variación muestral por la estadı́stica CVm = X̄S × 100 ¿Con qué
probabilidad aproximadamente este coeficiente superará en esta muestra el 44 %?
17. En una encuesta a boca de urna realizada a 64 personas seleccionadas al azar de un gran distrito,
se registró la proporción de votantes en esta muestra aleatoria que dijeron haber votado por el
candidato ganador. Esta información sin embargo usted la desconoce. Lo que sı́ conoce son los
resultados finales oficiales de la elección en el que el candidato ganador de este distrito obtuvo
el 47.8 % de los votos.
a) ¿Con qué probabilidad la mitad de los electores encuestados a boca de urna habrán mani-
festado haber votado por el candidato ganador?
b) ¿Con qué probabilidad el porcentaje encontrado en la encuesta diferirá del verdadero por-
centaje obtenido por el candidato ganador en más del 5 %? Use para esto el TLC.
156 ÍNDICE GENERAL
Capı́tulo 5

Estimación puntual de parámetros

En el análisis económico, las teorı́as suelen tomar forma de relaciones entre variables (por
ejemplo, ecuaciones lineales) donde algunos coeficientes tienen interpretación especı́fica y cuyo
conocimiento es de importancia para las predicciones y validación de teorı́as. Por ejemplo, en una
función lineal de consumo C = c0 + c1 Y , donde Y es el Ingreso disponible de una familia y C es su
consumo, la pendiente c1 es la “propensión marginal a consumir” y c0 es el “consumo autónomo”,
siendo ambos coeficientes necesarios para cualquier pronóstico. Cuando, por razones de mues-
treo, las variables económicas se convierten en aleatorias, los coeficientes de las relaciones entre
ellas devienen en parámetros (estructurales o derivados) de sus distribuciones, y un problema
importante es “aproximarlos” a partir de valores obtenidos en una muestra. Esta aproximación,
en una primera instancia, consiste en especificar un valor posible para el parámetro y adjuntar el
“margen de error” asociado al uso de una muestra. Este proceso se conoce como Estimación de
Parámetros en Estadı́stica, y en las lı́neas que siguen desarrollaremos sus bases. Por ejemplo, en
el caso de la relación entre Consumo C e Ingreso disponible Y , en una primera etapa tenemos un
∂f (Y )
modelo teórico que podrı́a ser resumido como C = f (Y ), en donde ∂Y > 0 expresa la idea que
el Consumo aumenta con el Ingreso. Para hacer un análisis cuantitativo tenemos que escribir la
relación funcional anterior de modo más explı́cito. Seleccionando un modelo lineal pasamos a

C = c0 + c1 Y ,

donde 0 < c0 = Consumo autónomo y 0 < c1 = Propensión marginal a consumir. Esta especificación
del modelo implica algo más que el modelo original. Ası́, por ejemplo, no sólo dice que el consumo
es función creciente del ingreso, sino además propone una relación de proporcionalidad entre
la variación del ingreso y el consumo. Adicionalmente, tiene dos parámetros caracterı́sticos c0
y c1 , con significado económico, cuyo valor es necesario conocer para poder usar plenamente
el modelo, por ejemplo, en pronósticos. Si no conocemos estos valores, dado que la relación es
lineal, en principio bastarı́a con tener dos puntos de paso de la recta para hallarlos. Asumamos
que tomamos una muestra de n hogares, para las cuales hemos tomado nota de sus ingresos y
consumos:
Familia 1 2 ... n
Ingreso Y1 Y2 ... Yn
Consumo C1 C2 ... Cn

157
158 ÍNDICE GENERAL

Si graficamos las n parejas (Yj , Cj ) en un plano, cartesiano, los más probable es que no caigan
totalmente colineales y esto genera el problema de tener múltiples posibilidades de valores para
los parámetros c0 y c1 . Una explicación es que aún cuando la relación postulada por el modelo
sea correcta, siempre puede haber pequeñas alteraciones de tipo aleatorio en el consumo, que
originan la no colinealidad exacta y la posibilidad de muchas rectas C = c0 + c1 Y .
Para darle sentido al modelo tenemos que agregar algunos supuestos de tipo probabilı́stico.
Pasamos ası́ a un “modelo de datos” que considera el modelo original agregando componentes
aleatorias. Una manera de hacerlo es mediante la esperanza condicional. Ası́ tenemos E(C | Y ) =
c0 + c1 Y que a su vez origina la ecuación: C = c0 + c1 Y +  , donde  es una variable aleatoria
que representa el efecto del azar sobre el consumo. Para completar el modelo, habrá que definir
algunas caracterı́sticas razonables para la v.a. . Un supuesto muy usado es asumir normalidad,
con lo que nuestro modelo de datos deviene en:

C = c0 + c1 Y +  y  ∼ N (0, σ 2 )

Finalmente y como consecuencia de todo, tenemos:

E(C | Y ) = c0 + c1 Y + E( | Y ) = c0 + c1 Y y V (C | Y ) = σ 2

Con lo anterior, el modelo final de datos resulta C ∼ N (c0 + c1 Y , σ 2 ), que además de c0 y c1 , tiene
ahora un parámetro más σ 2 . Nótese que, de los tres parámetros, dos de ellos (c0 y c1 ) son en
realidad parámetros económicos, que se han convertido en parámetros estadı́sticos sólo por mayor
conveniencia de análisis. Estos parámetros deben ser aproximados a partir de los datos. Esta tarea
es una de las más importantes de la Estadı́stica Inferencial.

5.1. El problema de la estimación puntual


En adelante el contexto en el cual trabajaremos será el de buscar aproximar el valor descono-
cido del parámetro o vector de parámetros θ perteneciente a algún espacio paramétrico Θ que in-
dexa a la distribucı́on de una v.a. X. Ello lo haremos teniendo como insumo una m.a. X1 , X2 , . . . , Xn
de tamaño n de X.
Observaciones:
Pueden haber muchas maneras de “aproximar” - estimar es el nombre técnico- un parámetro
θ y cada una tendrá un “error de aproximación”. Obviamente deseamos primero identificar
la manera con la cual se podrá cometer el menor error posible. Más adelante, prefijado este
error, buscaremos como determinar la muestra que cumple esta especificación.
La estimación puntual no tiene porque siempre basarse en muestras aleatorias de variables
univariadas. En ciertas ocasiones, como en la regresión lineal, la asunción de igualdad en
la distribución de los elementos de la muestra puede levantarse y, de otro lado, es posible
considerar también muestras aleatorias de vectores aleatorios.
Aproximar el valor de θ a partir de una m.a. X1 , X2 , . . . , Xn pasa por resumir los n datos en
uno solo, a partir de la aplicación de alguna “fórmula de trabajo” g(X1 , X2 , . . . , Xn ) adecuada. Esta
fórmula, que en el capı́tulo anterior llamamos estadı́stica, se usa como regla de trabajo, es decir,
Facultad de Ciencias Sociales PUCP 159

como una plantilla que se aplica siempre. Naturalmente, aún cuando la fórmula sea la misma,
los valores que se obtengan dependen de los valores que uno encuentre al tomar efectivamente la
muestra aleatoria. Para distinguir estas dos facetas del mismo proceso, creamos los conceptos de
estimador y de estimación.
Definición 5.1. Un estimador puntual de θ, es cualquier estadı́stica θ̂ = g(X1 , X2 , . . . , Xn ) cuyo valor
observado, al cual llamaremos una estimación puntual, nos permita aproximar el valor desconocido del
parámetro o vector de parámetros θ.
Lo que un estimador puntual θ̂ busca es minimizar el error de estimación e definido como
e = |θ̂ − θ| o, equivalentemente , (θ̂ − θ)2 . Dado sin embargo que este error es una variable alea-
toria, necesitamos de ciertos criterios para decidir cuando tal podrı́a considerarse pequeño. Estos
criterios son los que precisamente discutimos a continuación.

5.2. Propiedades de un buen estimador


Desde un punto de vista formal, si se tienen dos estimadores posibles θ̂1 y θ̂2 para un paráme-
tro θ el mejor de ellos será aquel que tenga un menor error. Dado que este es una v.a., un criterio
de selección podrı́a ser tomar a aquel que tenga un menor error cuadrático medio (MSE), que no
es sino el valor esperado del cuadrado del error e anterior, es decir,

MSE(θ̂) = E((θ̂ − θ)2 ).

Sin embargo, si sumamos y restamos la media de θ̂ al interior de la expresión anterior uno obtiene
facilmente que
MSE(θ̂) = E(θ̂ − E(θ̂)2 ) + (E(θ̂ − θ))2 = V (θ̂) + b(θ̂)2 ,
donde el primer término a derecha representa la varianza del estimador y el segundo término el
cuadrado de b(θ) = θ̂ − θ, conocido también como el sesgo del estimador. Esta descomposición de
expresar el error cuadrático medio de un estimador como la suma de su varianza y su sesgo al
cuadrado, sugiere dos de los criterios más populares para medir la bondad de un estimador, los
cuales pasamos a detallar seguidamente.
Definición 5.2 (Insesgamiento). Un estimador θ̂ de un parámetro θ se dice insesgado, si E(θ̂) = θ.
Ejemplo 5.1. Sea X1 , X2 , . . . , Xn una m.a. de una v.a. X de media µ y varianza finita σ 2 . Muestre que
S 2 es un estimador insesgado de σ 2 .
Solución: En efecto,
n n
1 X 1 X 2 2 σ2 1
E(S 2 ) = ( E(Xi2 )−nE(X̄ 2 )) = ( (σ +µ )−n( +µ2 ) = (nσ 2 +nµ2 −σ 2 −nµ2 ) = σ 2 .
n−1 n−1 n n−1
i=1 i=1

Ejemplo 5.2. Si X1 , X2 , . . . , XnPes una m.a. de una v.a. X ∼ U ([0, θ]), entonces dos estimadores insesga-
n
i=1 iXi
. Esto pues, E(θ̂) = 2 n1 ni=1 E(Xi ) = 2 n1 ni=1 θ2 = θ y
P P
dos de θ son θ̂1 = 2X̄ y θ̂2 = 4 n(n+1)
Pn !  n  n n
i=1 iXi 4 4 4 θX 4 θ n(n + 1)
X  X
E(θ̂2 ) = E 4 = E 
 iXi  =

 iE(Xi ) = i= = θ.
n(n + 1) n(n + 1)  n(n + 1) n(n + 1) 2 n(n + 1) 2 2
i=1 i=1 i=1
160 ÍNDICE GENERAL

Por otro lado, el estimador θ̃ = máx{X1 , X2 , . . . , Xn } no es un estimador insesgado de θ, pues su función de


y y y n−1
distribución viene dada por Fθ̃ (y) = ( θ )n , su densidad por fθ̃ (y) = n( θ )n−1 θ1 = n θn y en consecuencia

θ θ
yn
Z Z
n
E(θ̂2 ) = yfθ̃˜ (y)dy = n n
dy = θ , θ.
0 0 θ n+1

Definición 5.3 (Eficiencia). Si θ̂1 y θ̂2 son dos estimadores insesgados de un parámetro θ, entonces θ̂1
es más eficiente que θ̂2 si V (θ̂1 ) < V (θ̂2 ).

Ejemplo 5.3. Suponga que el tiempo en minutos que se tarda un bus de transporte público en llegar su
paradero a partir de las 8:00 am es una v.a. X ∼ U [0, θ]. Si se ha registrado este tiempo durante 9 dı́as
tomados al azar encontrándose los siguientes tiempos en minutos

29.7, 19.5, 12.0, 30.0, 7.5, 6.3, 5.7, 15.0, 16.5,

¿en cuánto estimarı́a el parámetro θ? Considere en todos los casos estimadores insesgados o modificacio-
nes insesgadas de los estimadores dados en el ejemplo 5.1. Justifique su elección.
Solución: Todos los estimadores propuestos en el ejemplo anterior son insesgados, con excepción de θ̃; sin
n
embargo, dado que E(θ̃) = n+1 θ, podrı́amos generar a partir de este el estimador insegado θ̂3 = n+1
n X(n) .
De los tres estimadores insesgados propuestos deberı́amos utilizar para la estimación el más eficiente,
pues será mucho más probable que este se encuentre más cerca del verdadero valor de θ que los otros, al
tener él una menor varianza. Obtengamos entonces la varianza de estos estimadores. El primer estimador
θ̂1 = 2X̄ es lineal y su varianza viene dada por

V (X) θ2 θ2
V (θ̂1 ) = 4V (X̄) = 4 =4 = .
n 12n 3n
Pn
i=1 iXi
Para el segundo estimador, θ̂2 = 4 n(n+1)
, podemos usar la independencia en la m.a. y escribir

n n
16 X
2 16 θ 2 X 2 n(n + 1)(2n + 1) 2(2n + 1) 2
V (θ̂2 ) = 2 i V (X i ) = i = = θ .
n (n + 1)2 n2 (n + 1)2 12 6 9n(n + 1)
i=1 i=1

En relación al tercer estimador podrı́amos usar la identidad V (θ̂3 ) = E(θ̂32 ) − E(θ̂3 )2 . Resta entonces
calcular el primer término, pues el segundo es θ. Para ello requeriremos de la función de densidad de θ̂3
la cual es fácil de deducir mediante

n+1 n
Fθ̂3 (x) = P (θ̂3 ≤ x) = P ( X(n) ≤ x) = FX(n) ( x),
n n+1
pues derivádola uno obtiene

n n n( n x)n−1 n nn+1 xn−1 n+1


fθ̂3 (x) = fX(n) ( x) = n+1 n = n n
, si 0 ≤ x ≤ θ.
n+1 n+1 θ n + 1 (n + 1) θ n

Ası́,
n+1
n θ nn+1 xn−1 (n + 1)2 θ 2
Z
E(θ̂22 ) = x2 dx =
0 (n + 1)n θ n n(n + 2)
Facultad de Ciencias Sociales PUCP 161

y
n + 12 θ 2 θ2
V (θ̂2 ) = − θ2 = .
n(n + 2) n(n + 2)
Queda como un simple ejercicio para el lector verificar que, con excepción del caso n = 1, la menor de las
tres varianzas es la de θ̂3 y por tanto este serı́a el estimador más eficiente. Ası́ la mejor estimación de θ
9x
vendrı́a dada por 10(9) = 0.9 × 30 = 27 minutos. Es interesante apreciar que con el primer estimador la
estimación de θ nos da 31.6 minutos y con el segundo 27.04 minutos.

Observación: Note que el criterio de eficiencia sólo se da al compararse estimadores insesgados.


En este caso los estimadores más eficientes serán también los de menor error cuadrático medio.
En ocasiones, por distintas razones, se requerira del uso de estimadores que no necesariamente
son insesgados. En este caso en vez de comparar la eficiencia uno deberı́a de comparar sus erro-
res cuadráticos medios. Un estimador con poco sesgo podrı́a tener una mucho menor varianza y
compensar con ello su sesgo evidenciando un menor error cuadrático medio.
De todos los estimadores que podamos imaginar para un parámetro θ , los más simples son
aquellos que tienen una estructura lineal, y dentro de este grupo de estimadores, los de más interés
son los insesgados. Es natural que dentro de esta última clase busquemos, si existe, aquél que sea
el mejor, es decir, al más eficiente o de menor varianza. Ello nos lleva al siguiente concepto.

Definición 5.4 (MELI). Si θ̂ es un estimador de θ, diremos que este es el mejor estimador lineal e
insesgado de θ, o más brevemente el MELI de θ, si
1. θ̂ es un función lineal de la muestra, es decir, θ̂ = ni=1 ci Xi , para constantes ci .
P

2. θ̂ es insesgado, es decir, E(θ̂) = θ.


3. θ̂ es de varianza mı́nima en relación a cualquier otro estimador lineal e insesgado de θ.

Observación: Según la definición el problema de encontrar el MELI de un estimador θ en base


a un conjunto de variables X1 , X2 , . . . , Xn cuya distribución este indexada por θ es equivalente a
resolver el siguiente problema de optimización con restricciones

n
X X
mı́n ci2 σi2 + 2 ci cj σij
c1 ,c2 ,...cn
i=1 1<i<j=n
n
(5.1)
X
s.a. ci E(Xi ) = θ,
i=1

donde las incognitas son las constantes c1 , c2 , . . . , cn . Por los común la colección de v.a.’s conforman
una m.a. de una v.a. X de media µ. En este caso el problema de optimización anterior se reduce a
n
X
mı́n ci2
c1 ,c2 ,...cn
i=1
n
X θ
s.a. ci = .
µ
i=1
162 ÍNDICE GENERAL

Proposición 5.1 (Teorema de Gauss-Markov). Sea X1 , X2 , . . . , Xn una m.a. de una v.a. X con media µ
y varianza finita σ 2 . Entonces X̄ es el MELI de µ.
Demostración: Como se tiene una m.a. y se desea estimar µ, el problema (5.1) se reduce a resolver
n
X
mı́n ci2
c1 ,c2 ,...cn
i=1
n
X
s.a. ci = 1
i=1

Estos problemas de optimización con restricciones de igualdad se resuelven por los usual utilizando
multiplicadores de Lagrange. Antes vale notar que la función a minimizar f (c1 , c2 , . . . , cn ) = ni=1 ci2 es
P

convexa (un paraboloide exactamente) y por tanto basta verificar sólo las condiciones de primer orden
para el lagrangiano del problema, el cual es
n
X n
X
L= ci2 + λ(1 − ci ),
i=1 i=1

siendo λ el multiplicador de lagrange. Las condiciones o derivadas de primer orden nos generan entonces
las siguientes n + 1 ecuaciones con n + 1 incógnitas
n
∂L λ X
= 0 ⇔ 2ci − λ = 0 ⇒ ci = , i = 1, 2, . . . , n y ci = 1.
ci 2
i=1

Reemplazando los ci obtenidos de las primeras n ecuaciones en la condición de insesgamiento última se



2
tiene que nλ ∗ ci∗ = λ2 = n1 solucionan el problema de minimización y por tanto el
2 = 1 o λ = n . Ası́, los P
MELI de µ viene dado por µ̂MELI = ni=1 ci∗ Xi = X̄. 

Una última propiedad que debe de poseer un estimador, y que aquı́ veremos, es el de la consis-
tencia. Para esto denotaremos en adelante, o cuando sea coveniente explicitar la dependencia de
un estimador al tamaño de muestra n, a θ̂ por θ̂n . La idea de que un estimador deba de ser consis-
tente es que conforme la muestra sea cada vez más grande, más cercano deberı́a de estar el valor
de este estimador de θ. Esta cercanı́a, como antes vimos, puede entenderse de varias maneras,
aquı́ nos interesará verla en términos de la convergencia en probabilidad definida en la sección
4.2.
P
Definición 5.5 (Consistencia). Se dice que θ̂n es un estimador consistente de un parámetro θ, si θ̂n →
θ, conforme n → ∞.

La ley de los grandes números nos dice directamente, que para cualquier m.a. de una v.a. X,
la media muestral X̄ es un estimador consistente de µ = E(X). Recordemos que esto fué probado
en base a la desigualdad de Tchebychev, la cual es sin duda una herramienta útil para las pruebas
de este tipo de convergencia. En el caso de otros estimadores sin embargo, la consistencia de
un estimador es difı́cil de verificar, por lo que veremos seguidamente algunos criterios que nos
faciliten la vida.

Proposición 5.2. Sea θ̂n un estimador de θ. Si


Facultad de Ciencias Sociales PUCP 163

1. θ̂n es asintóticamente insesgado; es decir, lı́mn→∞ E(θ̂n ) = θ


2. θ̂n es asintóticamente el más eficiente; es decir, lı́mn→∞ V (θ̂n ) = 0.
Entonces θ̂n es un estimador consistente de θ.
Demostración: Sea  > 0. Por la desigualdad de Markov generalizada se tiene que

E((θ̂n − θ)2 ) V (θ̂n ) + (E(θ̂n ) − θ 2 )


0 ≤ P (|θ̂n − θ| > ) = P ((θ̂n − θ)2 > 2 ) ≤ = .
2 2
Ası́, si tomamos lı́mites cuando n → ∞, el lado derecho de esta expresión tiende a 0 y consecuentemente,
P
por el teorema del sandwich, lı́mn→∞ P (|θ̂n − θ| > ) = 0. Esto es, θ̂n → θ. 

Ejemplo 5.4. Si X1 , X2 , . . . , Xn es una m.a. de una v.a. X ∼ N (µ, σ 2 ), entonces S 2 es una estimador
(n−1)S 2
consistente de σ 2 . En efecto , por lo visto en el capı́tulo anterior W = σ 2 ∼ χ2 (n − 1), la cual es una
v.a. con media n−1 y varianza 2(n−1). Anteriormente vimos que cualquiera sea la distribución de X, S 2
V (S 2 ) 2σ 4
es una estimador insesgado de σ 2 . De otro lado, 2(n−1) = V (W ) = (n−1)2 σ4
y por tanto V (S 2 ) = n−1
P
converge a 0, conforme n → ∞. La proposición anterior nos garantiza entonces que S 2 → σ 2 .

La proposición siguiente nos dice que la convergencia en probabilidad se comporta de manera


similar al lı́mite de una función determinı́stica. La demostración de este resultado no es difı́cil,
pero excede a los objetivos de este curso (el lector interesado puede consultar por ejemplo Galvao
y Singer (1990)).

Proposición 5.3. Sea θ̂n un estimador consistente de un parámetro θ y γ̂n un estimador consistente de
otro parámetro γ, entonces
1. θ̂n + γ̂n es un estimador consistente de θ + γ.
2. θ̂n γ̂n es un estimador consistente de θγ.
θ̂n
3. γ̂n es un estimador consistente de γθ , si γ , 0.
4. Si g es una función continua, g(θ̂n ) es un estimador consistente de g(θ).

Ejemplo 5.5. Vimos en un ejemplo anterior que S 2 es un estimador consistente de σ 2 para el caso de
una m.a. de una v.a N (µ, σ 2 ). Podrı́amos
√ entonces aplicar la propiedad 4 anterior (conocida también
2
como de Slustky) y concluir que S = S es también un estimador consistente de σ .

Ejemplo 5.6. Si X1 , X2 , . . . , Xn es una m.a. de una v.a. X ∼ U ([0, θ]), ¿ es X(n) un estimador consistente
de θ?
Solución: Sea Y = X(n) . Vimos ya en un ejercicio anterior que la función de densidad de Y viene dada
y n−1 n
por fY (y) = n θn , si 0 ≤ y ≤ θ y E(Y ) = n+1 θ. De otro lado,

θ
n 2 2
  Z  !
n n
    
E Y2 = 2
y fY (y)dy = 2
θ y V (Y ) = − θ .
0 n+2 n+2 n+1

Ası́, por la proposición 5.2, Y = X(n) es un estimador consistente de θ.


164 ÍNDICE GENERAL

5.3. Métodos de estimación


Vistas las propiedades de un buen estimador, queda la tarea de diseñar métodos o sistemas que
proporcionen la base para construir buenos estimadores. Los tres métodos básicos son: el método
de momentos, el de máxima verosimilitud y el de mı́nimos cuadrados. Se diferencian en lo que
asumen como entrada del proceso de estimación:
El Método de Momentos asume que conocemos la relación entre el o los parámetros que
deseamos estimar y los valores esperados de las sucesivas potencias de X (los “momentos”
de X).
El Método de Máxima Verosimilitud asume que conocemos la forma de la función de densi-
dad o probabilidad de X.
El Método de Mı́nimos Cuadrados supone que se conoce la forma de la relación entre dos
o más variables (en términos del valor esperado de una de ellas) y que los parámetros son
coeficientes de esta relación.

5.3.1. El método de momentos


Este, propuesto por Pearson en 1894, es no sólo uno de los métodos más antiguos sino uno de
los más sencillos e intuitivos. Sus propiedades sin embargo, se basan sólo en el conocimiento de
los momentos de la distribución más no en la distribución misma, por lo que su eficacia es relativa
y existen métodos mucho más eficientes. A pesar de ello este es un método muy popular y puede
ser usado por ejemplo para proponer estimadores rápidos que sirvan de base en la construcción
de otros estimadores más complejos.
Dada una m.a. X1 , X2 , . . . , Xn de una v.a. X, cuya distribución depende de un vector de paráme-
tros θ, definimos respectivamente el momento poblacional y muestral de orden k ∈ N+ mediante,

mk = E(X k )

y
n
1X k
Mk = Xi .
n
i=1
Note que Mk es un estimador insesgado de mk , pues
n n
1X 1X
E(Mk ) = E(Xik ) = mk = mk .
n n
i=1 i=1

V (X k ) m −m2
Más aún, dado que V (Mk ) = n12 ni=1 V (Xik ) = n = 2kn k , se tiene por la proposición 5.3, que
P

Mk será un estimador consistente de mk , sujeto a que el momento poblacional de orden 2k exista.


Si θ = (θ1 , θ2 , . . . , θp ) es un vector de parámetros de dimensión p, es claro que el momento po-
blacional de orden k dependerá de algún modo de estos parámetros, digamos mk = hk (θ1 , θ2 , . . . , θp ),
para alguna función hk : Rp → R. Si X es una v.a. continua por ejemplo, esto se da pues
Z∞
k
mk = E(X ) = xk fX (x; θ1 , θ2 , . . . , θp )dx
−∞
Facultad de Ciencias Sociales PUCP 165

donde estamos denotando inusualmente por fX (x; θ1 , θ2 , . . . , θp ) a la función de densidad de X, la


cual implı́citamente depende también de los parámetros y de allı́ la notación. Luego al integrar-
se con respecto a x, estos desaparecerán quedando todo en función sólo de los parámetros del
modelo.
El método de momentos consiste en primero encontrar tales relaciones a través del siguiente
sistema de “ecuaciones estructurales”:
    


 m1 = E X 1 = h1 θ1 , θ2 , . . . , θp
    
2

 m2 = E X = h2 θ1 , θ2 , . . . , θp



 .. ..
. .




  
 m = E (X p ) = h θ , θ , . . . , θ


p p 1 2 p

y como tenemos a mano M1 , M2 , . . . , Mp que son “buenos estimadores” de respectivamente m1 , m2 , . . . , mp ,


o sea del lado izquierdo del sistema, podemos reemplazar los momentos mk por Mk para luego
“despejar” de este sistema de “ecuaciones de estimación” las componentes del vector de paráme-
tros θ = (θ1 , θ2 , . . . , θp ). Al vector obtenido lo llamaremos el estimador de momentos de θ y lo
denotaremos por θ̂m .
Observación: Los sistemas de ecuaciones estructurales y de estimación arriba comentados podrı́an
requerir de más de p ecuaciones. Esta situación podrı́a darse si algunas de las ecuaciones son
linealmente dependientes o si algunos momentos poblacionales no depende de los parámetros.
Por ejemplo, si X ∼ N (0, σ 2 ) y deseamos estimar por momentos σ 2 , será necesario aquı́ no sólo la
primera de estas ecuaciones, sino también la segunda, a pesar de que sólo se tenga un parámetro.

Ejemplo 5.7. Si X1 , X2 , . . . , Xn es una m.a. de una v.a. X ∼ U ([0, θ]), halle el estimador de momentos de
θ.
Solución: Aquı́ p = 1 y se tiene una sola ecuación estructural dada por m1 = E(X) = θ2 . Por tanto el
estimador de momentos de θ se obtendrá de despejar θ en la ecuación de estimación M1 = X̄ = θ2 . Este
es θ̂m = 2X̄, Recordemos que este fué uno de los estimadores propuestos en los ejemplos 5.1 y 5.2.

Observación: Aún cuando por lo general el estimador de momentos θ̂m es insesgado y consistente,
hay que observar que el método de momentos no toma en cuenta el rango de X. Ello podrı́a
redundar en que para ciertas muestras, el valor estimado pueda resultar absurdo. Por ejemplo,
si n = 4 y en una m.a. del ejemplo anterior se observarán los siguientes valores x1 = 0, x2 = 0, x3 = 0
y x4 = 1 entonces x̄ = 0.25 y el valor estimado de θ̂ serı́a 0.5, lo cual es totalmente contradictorio
con el valor x4 = 1 ya que este no podrı́a ser obtenido de la distribución uniforme que tiene como
rango al intervalo [0, 0.5].

Ejemplo 5.8. Si X1 , X2 , . . . , Xn es una m.a. de una v.a. X ∼ Γ (α, β), obtenga los estimadores de momentos
de α y β.
Solución: Aquı́ p = 2 y las ecuaciones estructurales son:

m1 = E (X) = h1 (α, β) = αβ
m2 = E X 2 = h2 (α, β) = V (X) + E(X)2 = αβ 2 + (αβ)2
166 ÍNDICE GENERAL

Las ecuaciones de estimación serán entonces

M1 = α̂ β̂
M2 = α̂ β̂ 2 + (α̂ β̂)2 .

Despejando α̂ en función de β̂ de la primera ecuación y reemplazándola en la segunda uno obtiene


M2 −M12 M12
M2 = M1 β̂ + M12 . Ası́, β̂m = M1 y α̂m = M2 −M12
. Otra manera de escribir estos estimadores es

Pn 2 2
nX̄ 2 i=1 Xi − nX̄
α̂m = Pn 2
y β̂m = .
2 nX̄
i=1 Xi − nX̄

Ejemplo 5.9. Si X1 , X2 , . . . , Xn es una m.a. de una v.a. X ∼ U ([α, β]), obtenga los estimadores de mo-
mentos de α y β.
Solución: Aquı́ p = 2. Las ecuaciones estructurales son:
α+β
m1 = E (X) = h1 (α, β) = 2
  (β−α)2
 α+β 2
m2 = E X 2 = h2 (α, β) = V (X) + (E(X))2 = 12 + 2

Las ecuaciones de estimación son:


α̂+β
M1 = h1 (α̂, β̂) = 2  2
(β̂−α̂)2 α̂+β̂
M2 = h2 (α̂, β̂) = 12 + 2

Resolviendo el sistema anterior, tenemos de la primera ecuación α̂ = 2M1 − β̂ que reemplazada en la


2 2 2
(β−2M1 +β̂ ) (2β̂−2M1 ) 4(β̂−M1 )
 
2M1 −β̂+β̂ 2
segunda nos da M2 = 12 + 2 . Por tanto, M 2 = 12 + M 1 = 12 + M12 =
2
(β̂−M1 )
q  
2
3 + M1 y despejando β̂ obtenemos que β̂ = M 1 ± 3 M2 − M12 y consecuentemente α̂ = M1 ∓
q  
3 M2 − M12 . Como en una distribución uniforme α̂ < β̂, se debe tener que
q   q  
α̂m = M1 − 3 M2 − M12 y β̂m = M1 + 3 M2 − M12 .

Observación: Es posible verificar que los estimadores obtenidos en los dos últimos ejemplos están
bien definidos en el sentido que respetan su espacio paramétrico. Esto es, ambos son no negativos
y la expresión dentro del radical en el ejemplo 5.9 es también no negativo.

5.3.2. El método de la máxima verosimilitud


El método de momentos tiene la debilidad de no tomar en cuenta la estructura del espacio
paramétrico Θ; en particular, si Θ está asociado al espacio de información de la variable, pueden
presentarse casos como el del ejemplo 5.7, en que el método podrı́a proporcionar valores estima-
dos absurdos. Un método que resuelve este problema es el de máxima verosimilitud. Este método
es el más utilizado en la Estadı́stica, no sólo por su concepción natural sino sobre todo por sus
propiedades, en especial asintóticas, que describiremos en esta sección.
Facultad de Ciencias Sociales PUCP 167

Definición 5.6 (Función de verosimilitud). Sea X1 , X2 , . . . , Xn es una m.a. de una v.a. X, cuya función
de distribución dependa de un parámetro o vector de parámetros θ ∈ Θ y sean x1 , x2 , . . . , xn sus valores
observados. La función de verosimilud de esta m.a. se define como
( Qn
PX (xi ) , si X es una v.a. discreta
L(θ) = Qi=1
n
i=1 fX (xi ) , si X es una v.a. continua.

Ejemplo 5.10. Suponga usted va a un casino y apuesta al primer resultado de una máquina que puede
dar 5 posibles resultados. A fin de estimar la probabilidad p de que gane en cada ronda de este juego,
usted hace 14 apuestas, anotando los resultados siguientes

2, 5, 1, 3, 3, 4, 5, 1, 3, 3, 4, 5, 3, 5

Halle la función de verosimilitud de una m.a. asociada a una v.a. que le indica si en cada ocasión gana o
no en el juego y halle el valor de p que maximiza esta función.
Solución: Sean las v.a’s Xi que valen 1 si se gana en el i-ésimo juego y 0 si se pierde en el i−ésimo
juego. Estas variables aleatorias dicotómicas conforman entonces una m.a. de tamaño 12 de una v.a.
X ∼ B(1, p) que indica si usted ganó o no la apuesta en cada juego. Los valores observados de esta v.a,
correspondientes serı́an entonces 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0 y la función de verosimilitud de esta m.a.
vendrı́a dada por

L(p) = P (X1 = 0)P (X2 = 0)P (X3 = 1) . . . P (X14 = 0) = p2 (1 − p)12 .

Para encontrar el valor de p que maximice esta función de verosimilitud, bastará derivar ella con respecto
a p e igualar a 0. Ello nos brinda la ecuación 0 = 2p(1 − p)12 − 12p2 (1 − p)11 = p(1 − p)11 (2 − 2p − 12p) =
14p2 (1 − p)11 ( 17 − p). Si bien los puntos crı́ticos de esta ecuación son el 0 , 1 y el valor 17 , los primeros
dos corresponden al valor mı́nimo de la función L(p), ya que L(p) es una probabilidad y 71 = 0.1428571
0
al valor que maximiza L(p), pues L(p) es creciente cuando p < 17 (L (p) > 0) y L(p) es decreciente cuando
0
p > 17 (L (p) < 0). Note que si bien, este valor depende de lo que halla ocurrido en la muestra, uno
en general podrı́a generalizarlo a cualquier posible resultado. Esto es, si al apostar n veces hubiésemos
observado para X los valores (1’s y 0’s) x1 , x2 , . . . , xn , la función de verosimilitud serı́a
Pn Pn
L(p) = p i=1 xi (1 − p)n− i=1 .

Esta función, que en realidad depende también de los xi ’s que se observen, no es difı́cil de ver que se
máximiza en g(x1 , x2 , . . . , xn ) = x̄ = n1 ni=1 xi .
P

Observación: Note que en el caso discreto la función de verosimilitud L(θ) no es sino la función de
probabilidad de que la m.a. X1 , X2 , . . . , Xn tome, para el parámetro dado θ, los valores x1 , x2 , . . . , xn
que precisamente se han observado de ella. Ası́, si uno tiene como única información de confianza
sobre X a los valores que se observaron en la m.a., es lógico pensar que la mejor idea que uno
pudiera tener acerca del parámetro de la distribución que gobierna estos datos es la que maxi-
miza precisamente esta probabilidad. Este valor corresponde al valor observado del estimador de
máxima verosimilitud (la estimación máximo verosı́mil); es decir, al valor que máximiza nuestra
creencia o verosimilitud de lo que ya observamos. Como dice el dicho “ver para creer”.
168 ÍNDICE GENERAL

Definición 5.7 (El estimador de máxima verosimilitud). En el contexto de la definición anterior,


sea g(x1 , x2 , . . . , xn ) el valor que maximiza la función de verosimilitud L(θ). El estimador de máxima
verosimilitud θ̂MV de θ viene dado por

θ̂MV = g(X1 , X2 , . . . , Xn ).

Observaciones:
Al valor observado de θ̂MV = g(X1 , X2 , . . . , Xn ), g(x1 , x2 , . . . , xn ) se le llama la estimación máxi-
ma verosı́mil de θ. Este se obtiene recordemos de resolver el problema

max L(θ)
s.a.
θ∈Θ

Si bien en la mayorı́a de aplicaciones uno tiende a olvidar la restricción de que θ vive en


su espacio paramétrico Θ, en ocasiones tal restricción juega un papel fundamental en la
solución, véase sino el ejemplo 5.10.
La maximización de L(θ) puede hacerse con los métodos clásicos (vı́a diferenciación sin o con
restricciones) o con métodos heurı́sticos (fundamentalmente gráficos).
Como L(θ) y K(θ) = ln(L(θ)) tienen los mismos puntos crı́ticos, pero K(θ) suele tener una
estructura más simple, ya que la mayorı́a de funciones de probabilidad o densidad tiene una
estructura de potencias, es común obtener la estimación máxima verosı́mil de θ maximizan-
do K(θ) en lugar de L(θ).

Ejemplo 5.11. Si X ∼ G(p), halle el estimador de máxima verosimilitud de θ.


Solución: Sea X1 , X2 , . . . , Xn una m.a. de X y sean x1 , x2 , . . . , xn sus valores observados. La funcióne de
verosimilitud de esta m.a. viene dada por
n
Y n
Y Pn
L(θ) = PX (xi ) = θ(1 − θ)xi −1 = θ n (1 − θ) i=1 (xi −1) = θ n (1 − θ)n(x̄−1) , si 0 < θ < 1
i=1 i=1

En lugar de maximizar esta función, resulta más conveniente maximizar su logaritmo, el cual viene dado
por:
K(θ) = n log(θ) + n(x̄ − 1) log(1 − θ))

La condición de primer orden nos brinda la ecuación

n n(x̄ − 1) n( 1x̄ − θ)
+ = = 0,
θ 1−θ x̄θ(1 − θ)

que nos provee de los puntos crı́ticos 0,1 y 1x̄ . Los primeros dos minimizan L(θ) y el tercero, como es
directo de verificar por el criterio de la primera derivada, máximiza K(θ) o, equivalentemente, L(θ). Ası́,
θ̂MV = X̄1 es el estimador pedido.
Facultad de Ciencias Sociales PUCP 169

Ejemplo 5.12. Si X ∼ N (µ, σ 2 ), halle los estimadores de máxima verosimilitud de µ y de σ 2 .


Solución: La función de verosimilitud en este caso viene dada por
n n 2 2 n 2 2P n 2 2 P

2
 Y Y e−(xi −µ) /2σ e− i=1 (xi −µ) /2σ e− i=1 (xi −µ) /2σ
L µ, σ = fX (xi ) = √ = √ = √
i=1 i=1 2πσ ( 2π)n σ n ( 2π)n (σ 2 )n/2

y su función de log-verosimilitud por


n √
X n  
2
K(µ, σ ) = − (xi − µ)2 /2σ 2 − n ln( 2π) − ln σ 2
2
i=1

Las condiciones de primer orden para encontrar los valores que maximizen esta función se obtienen de
igualar el gradiente de esta función al vector 0, lo cual genera las ecuaciones:
Pn

K(µ, σ 2 ) = 0 ⇒ i=1 (xi −µ) = 0
∂µ 2
Pn2σ 2
i=1 (xi −µ)

∂σ 2
2
K(µ, σ ) = 0 ⇒ 2 2 − n2 σ12 =0
2(σ )

De la primera obtenemos directamente µ∗ = x̄ como una posible solución, y si reemplazamos esta en


la segunda se tiene a σ 2∗ = n1 ni=1 (xi − x̄)2 como una posible solución. Para verificar si estos posibles
P

valores maximizan la (log)verosimilitud, podrı́amos usar algún criterio de segundo orden, como por
ejemplo el de los menores principales. Este nos dice que (µ∗ , σ 2∗ ) resolverá el problema de maximización
si los menores principales de la matriz hessiana H(µ, σ 2 ) evaluada en este punto (de segundas derivadas)
tienen signos alternados, empezando con un signo negativo. Hallemos entonces las derivadas de segundo
orden de K:
∂2 µ
∂µ2
K(µ, σ 2 ) = −n 2σ 2
Pn 2
∂2 i=1 (xi −µ)
∂(σ 2 )2
K(µ, σ 2 ) = − σ 6 + 2σn 4
Pn
∂2 i=1 (xi −µ) ∂2
∂µσ 2
K(µ, σ 2 ) = − 2σ 4
= ∂σ 2 µ
K(µ, σ 2 )

La matriz Hessiana en (µ∗ , σ 2∗ ) es entonces igual a

−n 2σx̄2∗
" #
∗ 2∗ 0
H(µ , σ ) = .
0 − 2σn4∗

Dado que el primer menor principal, que es la primera entrada de esta matriz es negativo y el segundo
menor principal, que es el determinante de esta matriz, es positivo se tiene que (µ∗ , σ 2∗ ) resuelve el
problema de optimización y por tanto los estimadores de máxima verosimilitud de µ y σ 2 , serán
n
2 1X
µ̂MV = X̄ y σ̂MV = (Xi − X̄)2 .
n
i=1

En todos los ejemplos dados, hemos podido obtener de manera explı́cita los estimadores de
máxima verosimilitud. En general, ello no siempre es posible y uno debe de apelar a métodos
numéricos a fin de resolver el problema de optimización inherente. Una manera de hacerlo es a
través de R que posee también funciones de optimización numéricas.
170 ÍNDICE GENERAL

Ejemplo 5.13. Suponga que el monto de los reclamos en miles de soles que una compañı́a de seguros
experimenta se modela mediante una v.a X con distribución Gamma de parámetros α y β. Si tomada
una muestra de 10 reclamos recibidos por la compañı́a, se obtuvieron los siguientes montos de reclamo

1.069, 0.501, 1.462, 4.892, 7.690, 1.133, 0.561, 4.677, 4.259, 9.525

¿En cuánto estimarı́a α y β? Use el método de máxima verosimilitud.


Solución: Si X1 , X2 , . . . , Xn es una m.a de X ∼ Γ (α, β) y x1 , x2 , . . . , xn sus valores observados, la función
de verosimilitud y su logaritmo vienen dados por
Pn
n
β nα ( ni=1 xiα−1 )e−β i=1 xi
Y Q
L(α, β) = fX (xi ) =
Γ (α)n
i=1

y
n
X n
X
K(α, β) = nα log(β) + (α − 1) log(xi ) − β xi − n log(Γ (α))
i=1 i=1

Tomando las derivadas parciales con respecto a α y β, el sistema a resolver será



+ ni=1 log(xi ) − nΨ (α) = 0
P
 n log(β)


Pn
 nα
β − i=1 xi ,

donde Ψ (α) es la derivada del logaritmo de la función Gamma, función conocida también como la fun-
ción digamma. Si α ∗ y β ∗ fuesen las estimaciones máximas verosı́miles de α y β ellas deben de satisface,
por la segunda ecuación, que α ∗ = β ∗ x̄. Reemplazando esta identidad en la primera ecuación, restará
obtener β ∗ que resuelva
n
∗ 1X
log(β ) + log(xi ) − Ψ (β ∗ x̄) = 0.
n
i=1

Desafortunadamente esta ecuación no lineal carece de solución explı́cita. Para resolver el problema
podrı́amos entonces utilizar R de dos maneras equivalentes: una resolviendo la ecuación no lineal ante-
rior u otra maximizando directamente K(α, β). A continuación mostramos las rutinas correspondientes
en R para tales procedimientos

## Estimacion resolviendo la ecuacion no lineal con el comando uniroot


> x = c(1.069,0.501,1.462,4.892,7.690,1.133,0.561,4.677,4.259,9.525)
> f <- function(b){log(b) + mean(log(x))- digamma(b*mean(x))}
> beta = uniroot(f,c(1e-8,1e8))$root
> alpha = beta*mean(x)
> x = c(1.069,0.501,1.462,4.892,7.690,1.133,0.561,4.677,4.259,9.525)
> f <- function(b){log(b) + mean(log(x))- digamma(b*mean(x))}
> beta = uniroot(f,c(1e-8,1e8))$root
> alpha = beta*mean(x)
> c(alpha, beta)
[1] 1.2340976 0.3450188
Facultad de Ciencias Sociales PUCP 171

## Estimacion minimizando -K(alpha,beta) con el comando optim


> g<-function(theta,x){ # -K(alpha,beta)
+ n = length(x); alpha = theta[1] ; beta = theta[2]
+ aux1 = sum(log(x)); aux2 <- sum(x)
+ -(n*alpha*log(beta)+(alpha-1)*aux1-beta*aux2-n*log(gamma(alpha)))}
> n = length(x)
> (alpha0 = (n*mean(x)ˆ2)/(sum(xˆ2) - n*mean(x)ˆ2))
[1] 1.406046
> (beta0 = mean(x)/(alpha0))
[1] 2.543942
> h<-optim(c(alpha0,beta0),g,NULL,x,method ="L-BFGS-B",lower=1e-8,upper=Inf)
> h$par
[1] 1.2342078 0.3450505
Note que ambos procedimientos nos brindan prácticamente las mismas estimaciones máxima verosı́miles
de α y β de respectivamente α ∗ = 1.2342078 y β ∗ = 0.3450505 y que en el procedimiento de minimiza-
ción utilizamos como valores iniciales a las estimaciones de momentos de α y β.
Ejemplo 5.14. Si X ∼ U ([0, θ]), halle el estimador de máxima versimilitud de θ.
Solución: La función de verosmilitud de una m.a. de esta v.a. viene dada por L(θ) = θ1n , donde dados

los valores observados xi , θ debe satisfacer que 0 ≤ xi ≤ θ. Puesto que ∂θ L(θ) = −nθ −n−1 , 0, ∀θ > 0,
podrı́amos estar tentados a decir que no existe punto crt́ico ni estimador MV? El problema surge por
haber planteado la función de verosimilitud de manera descuidada, siendo esta formalmente planteada
como
n ( −n ( −n
Y θ , si 0 ≤ xi ≤ θ, ∀i θ , si x(n) ≤ θ.
L(θ) = fX (xi ) = =
0 , en otro caso 0 , en otro caso
i=1
donde x(n) = máx{x1 , x2 , . . . , xn }. Si bien en la función de verosimilitud no aparecen explı́citamente los
valores observados de la m.a. x1 , x2 , . . . , xn , estos si figuran acotando inferiormente a θ. De lo anterior se

deduce que ∂θ L(θ) = −nθ −n−1 < 0, si 0 ≤ xi ≤ x(n) ≤ θ. En caso contrario, la derivada es 0 o no existe.
Por lo tanto, L(θ) es una función decreciente de θ que se maximiza en el menor valor posible factible de
θ, que es θ ∗ = x(n) . Consecuentemente el estimador de máxima verosimilitud de θ viene dado por
θ̂MV = X(n) = máx{X1 , X2 , . . . , Xn }.
Observación: Lo que hace a este ejemplo diferente de los anteriores, es que el parámetro θ y
el rango de RX de X están asociados, a diferencia de lo que sucedı́a en los otros ejemplos, y al
maximizarse L(θ) esta asociación se convierte en una restricción. En general recordemos que la
estimación de θ̂MV debe de resolver el problema

máx L(θ)
s.a. θ ∈ Θ
pero la restricción θ ∈ Θ no es real si Θ y RX son independientes (en el sentido matemático no
probabilı́stico). Cuando Θ y RX están asociados, hallar el estimador de máxima verosimilitud im-
plica respetar y tomar en cuenta la restricción θ ∈ Θ. El caso de la distribución uniforme muestra
lo dicho.
172 ÍNDICE GENERAL

Las definiciones 2.6 y 2.7 son en verdad definiciones muy particulares del método de máxima
verosimilitud. El método podrı́a aplicarse a una colección arbitraria X1 , X2 , . . . , Xn de vectores alea-
torios no necesariamente independientes o idénticamente distribuidos, cuya distribución conjunta
se encuentre indexada por un vector de parámetros θ. En general, el método de máxima verosimi-
litud nos proveerá del estimador θ̂ MV , cuyo valor observado, maximice la función de probabilidad
o densidad conjunta del vector aleatorio [X1 , X2 , . . . , Xn ].

Ejemplo 5.15. Sea (X, Y ) un vector aleatorio discreto con la siguiente función de probabilidad conjunta

θ 2 (1 − θ)x+y−2 p , si x = 1, 2, 3, . . . ; y = 1, 2, 3, . . .
(
PXY (x, y) =
0, en otro caso.

Halle, en base a una m.a. de valores de este vector, el estimador de máxima verosimilitud del parámetro
θ ∈]0, 1[.
Solución: Sean (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) los valores observados del vector aleatorio (X, Y ). La función
de verosimilitud de esta viene dada por
n
Y n
Y Pn
L(θ) = PXY (xi , yi ) = θ 2 (1 − θ)xi +yi −2 = θ 2n (1 − θ) i=1 (xi +yi −2) = θ 2n (1 − θ)n(x̄+ȳ−2)
i=1 i=1

y su logaritmo por
K(θ) = 2n log(θ) + n(x̄ + ȳ − 2) log(1 − θ).
Como el espacio parámetrico de θ y el rango del vector son independientes, podemos simplemente maxi-
mizar esta función derivando con respecto a θ e igualándolo a 0 como

∂ 2n n(x̄ + ȳ − 2)
0= K(θ) = − =⇔ 2n − 2nθ = nθ(x̄ + ȳ) − 2nθ
∂θ θ (1 − θ)

2 ∂2 n(1−θ ∗ )2 +(x̄+ȳ−2)(θ ∗ )2
Brindándonos el punto crı́tico θ ∗ = x̄+ȳ . Dado que ∂θ 2
K(θ ∗ ) =− (θ ∗ (1−θ ∗ ))2
< 0, θ ∗ maximiza
2
L(θ) y consecuentemente θ̂MV = X̄+Ȳ
.

5.3.3. El método de mı́nimos cuadrados


Este método se aplica cuando lo que se tiene es una relación entre dos variables y los paráme-
tros que definen la relación deben ser estimados. Como los modelos de la economı́a aplicada se
formulan, por lo general, como ecuaciones, esto hace del método una herramienta ideal para “ajus-
tar” los modelos a datos empı́ricos y convierte a los mı́nimos cuadrados en el método más usado
de la Econometrı́a básica.

El problema y sus elementos

Sea x una variable observable no aleatoria, que se suele llamar éndogena o independiente, Y
una variable aleatoria observable y  una variable aleatoria no observable. Supongamos que estas
variables están relacionadas mediante la ecuación Y = ϕ(x; θ) +  , donde ϕ(x; θ) es una función
bien especificada (con forma conocida) y θ es un parámetro o vector de parámetros por estimar. La
Facultad de Ciencias Sociales PUCP 173

función ϕ(x; θ) puede considerarse como una función de “enlace” entre la componente aleatoria,
exógena o dependiente Y del modelo y el residuo no sistematico y aleatorio . En Economı́a, este
último representa un elemento de ajuste que se incorpora al modelo económico E(Y ) = ϕ(x; θ)
y que representa los efectos fortuitos de otras fuerzas no contempladas en el modelo. También
se dice que ϕ(x; θ) es la “componente sistemática” del modelo y  la “componente aleatoria” del
mismo, la cual suele asumirse que tiene media 0.
Dada una m.a. de n parejas de observaciones (x1 , Y1 ), (x2 , Y2 ), . . . , (xn , Yn ) que satisfacen la rela-
ción
Yi = ϕ(xi ; θ) + i , i = 1, 2, . . . , n, (5.2)
el problema consiste entonces en estimar el parámetro o vector de parámetros θ para este modelo
de “regresión” en base a la observación de una m.a. de Y para valores dados de x.
Observación: La restricción que los x0 s sean no aleatorios podrı́a parecer restrictiva, pues en la
práctica lo que uno hace es seleccionar a n elementos en la población en los cuales mide conjun-
tamente tanto x como Y . Ası́, en términos formales podrı́amos considerar que x es, al igual que Y ,
una v.a. y la podrı́amos denotar por X. En tal situación entenderemos que lo que estamos mode-
lando no es la componente sistemática en (5.2) sino la esperanza condicional E(Y | X = x) = ϕ(x; θ),
que recordemos llamamos en el capı́tulo anterior la regresión de Y sobre X.

Los supuestos clásicos y el método de mı́nimos cuadrados

Para trabajar con comodidad, debemos imponer algunas condiciones que sean simplificadoras
pero plausibles. El conjunto mı́nimo de supuestos que con más frecuencia se emplea se conoce
como de “supuestos clásicos”. En este y sobre todo en futuros cursos, como el de Econometrı́a,
estos supuestos se irán relajando para tratar modelos más generales y flexibles.
Supuestos clásicos: Dado el modelo (5.2) y una m.a. de n parejas de observaciones

(x1 , Y1 ), (x2 , Y2 ), . . . , (xn , Yn )

que satisfacen este modelo, asumiremos que


(1) E(i ) = 0, ∀i = 1, 2, . . . , n.
(2) Homocedasticidad: V (i ) = σ 2 , ∀i = 1, 2, . . . , n.
(3) No autocorrelación: Cov(i , j ) = 0, ∀i , j ∈ {1, 2, . . . , n}.

Definición 5.8 (Estimador de mı́nimos cuadrados). Si se satisface el modelo (5.2), el estimador de


mı́nimos cuadrados ordinarios, o MCO, θ̂, del parámetro θ es la estadı́stica que resuelve

mı́n Q(θ) = ni=1 (Yi − ϕ(xi ; θ))2


P
θ
s.a. θ ∈ Θ

Es interesante notar que el método de mı́nimos cuadrados es en verdad un método matemático


o de interpolación que busca la curva determinada por la gráfica de la función ϕ que mejor ajuste
a los pares de datos de (xi , yi ) observados, donde por mejor se entenderá que haga que la suma de
los errores al cuadrado entre los verdaderos valores de la variable dependiente y los pronosticados
por el modelo sean los más pequeños posibles.
174 ÍNDICE GENERAL

Ejemplo 5.16 (El modelo de regresión lineal simple). Consideremos el modelo de regresión lineal
simple
Yi = α + βxi + i , i = 1, 2, . . . , n.
Halle los estimadores de mı́nimos cuadrados ordinarios de α y β.
Solución: En este caso la función objetivo a minimizar viene dada por:
n
X
Q(α, β) = (Yi − α − βxi )2
i=1

Dado que esta función es convexa (un parabolide para ser exactos), bastará para minimizarla resolver
∂Q(α,β) ∂Q(α,β)
sólo las condiciones de primer orden ∇Q(α, β) = 0 ⇔ ∂α = 0 y ∂β = 0. Ası́,

n n
∂Q(α, β) ∂ X 2 X 
=0⇒ Yj − α − βXj = −2 Yj − α − βXj = 0
∂α ∂α
j=1 j=1
n  n 
∂Q(α, β) ∂ X 2 X 
=0⇒ Yj − α − βXj = −2 Yj − α − βXj Xj = 0
∂α ∂β
i=1 i=1

El sistema 2 × 2 resultante es:


Pn
Y − ni=1 α − β ni=1 xi = 0 ⇒ nȲ − αn − βnx̄ = 0 ⇒ αn + βnx̄ = nȲ
P P
Pni=1 i Pn Pn 2 Pn 2 Pn
i=1 xi Yi − i=1 αxi − β i=1 xi = 0 ⇒ αnx̄ + β i=1 xi = i=1 xi Yi

Matricialmente el sistema anterior es:


" #" # " #
n nx̄ α nȲ
Pn 2 = Pn
nx̄ i=1 xi β i=1 xi Yi

que se puede resolver aplicando inversa, con la Regla de Cramer o por sustitución. Su solución nos provee
de los estimadores de mı́nimos cuadrados ordinarios:
Pn
i=1 xi Yi − nx̄Ȳ
α̂MCO = Ȳ − β̂MCO x̄ y β̂MCO = P n 2 2
i=1 xi − nx̄

1 Pn Pn 2
Observación: Si definimos Sx2 = n−1 i=1 i=1 (xi − x̄) , otras fórmulas alternativas para α̂MCO y
β̂MCO son
Pn   P
(x − x̄) Y − Ȳ n Pn n !
i=1 i i i=1 xi Yi − nx̄Ȳ i=1 (xi − x̄) Yi (xi − x̄)
X
β̂MCO = Pn 2
= 2
= 2
= 2
Yi
i=1 (x i − x̄) (n − 1)S x (n − 1)S x i=1
(n − 1)S x

y
n !
X 1 (xi − x̄)
α̂MCO = − Y,
n (n − 1)Sx2 i
i=1

La observación anterior muestra que tanto α̂MCO comos β̂MCO son estimadores lineales. Re-
sulta que si se cumplen los supuestos clásicos no existen mejores estimadores de esta forma para
α y β, ello nos los justifica el siguiente resultado.
Facultad de Ciencias Sociales PUCP 175

Proposición 5.4 (Teorema de Gauss-Markov). Si en el modelo de regresión lineal simple

Yi = α + βxi + i , i = 1, 2, . . . , n.

se cumplen los supuestos clásicos, entonces α̂MCO y β̂MCO son los MELI de α y β.
Demostración: Para hallar los MELI de α y β postulemos de manera genérica a α̃ = ni=1 ai Yi y β̃ =
P
Pn
i=1 bi Yi como estimadores lineales arbitrarios de α y β. Para que estos sean insesgados deberá de cum-
plirse que

Xn n
X n
X n
X n
X
α = E(α̃) = E( ai Yi ) = ai E(Yi ) = ai (α + βxi ) = α ai + β ai xi
i=1 i=1 i=1 i=1 i=1

y
Xn n
X n
X n
X n
X
β = E(β̃) = E( bi Yi ) = bi E(Yi ) = bi (α + βxi ) = α bi + β bi xi
i=1 i=1 i=1 i=1 i=1
0
cualesquiera sean los valores de los xi s. Note que aquı́ hemos usado el supuesto clásico (1). Lo anterior
será cierto en el primer caso sólo si ni=1 ai = 1 y ni=1 ai xi = 0 y en el segundo caso sólo si ni=1 bi = 0
P P P

y ni=1 bi xi = 1. Los MELI de α y β lo obtendremos entonces al buscar, bajo las últimas restricciones,
P

minimizar la varianza de α̃ y β̃, que por el supuesto clásico (3), vienen dadas por

n
X n
X n
X n
X
V (α̃) = a2i V (Yi ) = σ 2 a2i y V (β̃) = bi2 V (Yi ) = σ 2 bi2 ,
i=1 i=1 i=1 i=1

donde σ 2 = V (Yi ) es por el supuesto clásico (2) una varianza común y por tanto irrelevante en los
problemas de optimización finales para los MELI siguientes:
Pn 2
mı́n i=1 ai
ai
Pn
s.a. ai = 1
Pi=1
n
i=1 ai xi = 0

y
Pn 2
mı́n i=1 bi
bi
Pn
s.a. bi = 0
Pi=1
n
i=1 bi xi = 1

Puesto que las funciones objetivo son aquı́ convexas (paraboloides exactamente), bastará resolver las con-
diciones de primer orden sobre el lagrangiano de estos problemas. Como ilustración, veamos el problema
del MELI de β, quedando como ejercico para el lector la resolución del MELI de α. El lagrangiano de
nuestro interés viene dado por

n n
 n

X X  X 
L (b1 , b2 , . . . bn , λ1 , λ2 ) = bi2 − λ1 bi + λ2 1 − bi xi 
i=1 i=1 i=1
176 ÍNDICE GENERAL

y las condiciones de primer orden, de que el gradiente de este lagrangiano deba de ser igual a 0, nos
conducen a las siguientes n + 2 ecuaciones con n + 2 incógnitas:
∂L
∂b1
=0 ⇔ 2b1 − λ1 − λ2 x1 = 0
∂L
∂b2
=0
⇔ 2b2 − λ1 − λ2 x2 = 0
..
.
∂L
∂bn
= 0 ⇔ 2bn − λ1 − λ2 xn = 0
∂L Pn
∂λ1
=0 ⇔ i=1 bi = 0
∂L
= 0 ⇔ 1 − ni=1 bi xj = 0
P
∂λ 2

La estrategia para resolver el sistema es algo estándar: Despejar los coeficientes bi en términos de los
multiplicadores de Lagrange λ1 y λ2 y reemplazar estas en las ecuaciones derivadas de las restricciones.
Ello nos da
λ1 + λ2 x1 λ + λ2 x2 λ + λ2 xi λ + λ2 xn
b1 = , b2 = 1 , . . . , bi = 1 , . . . , bn = 1 .
2 2 2 2
Reemplazando en la penúltima ecuación:
n n  n
λ1 + λ2 xi
X X  X
bi = 0 ⇔ =0⇔ (λ1 + λ2 xi ) = 0 ⇔ nλ1 + λ2 nx̄ = 0 ⇔ λ1 + λ2 x̄ = 0
2
i=1 i=1 i=1

y reemplazando en la última ecuación:


n n n  n
λ1 + λ2 xj
X X ! X X

2
bi x i = 1 ⇔ Xi = 1 ⇔ λ1 xi + λ2 xi = 2 ⇔ λ1 nx̄ + λ2 xi2 = 2.
2
i=1 i=1 i=1 i=1

Resolviendo estas dos ecuaciones para λ1 y λ2 , obtenemos


2x̄ 2
λ∗1 = − Pn 2
y λ∗2 = Pn 2
2 2
i=1 xi − nx̄ i=1 xi − nx̄

que reemplazadas en los bi nos brindan los coeficientes del MELI de β


λ∗1 + λ∗2 xi (x − x̄)
bi∗ = = Pn i 2
2 i=1 xi − nx̄
2

Ası́,
n n n !
X X (xi − x̄) X (xi − x̄)
β̂MELI = bi∗ Yi = Y = Yi = β̂MCO .
2 i
Pn 2
i=1 i=1 i=1 xi − nx̄ i=1
(n − 1)Sx2

Observación: En la definición del MELI hemos usado la noción de función lineal como equiva-
lente a una combinación lineal, esto es una función de la forma ni=1 ci Yi . En el lenguaje cotidiano
P

se suele también entender función lineal como una función de la forma c0 + ni=1 ci Yi que formal-
P

mente se le conoce como una “función lineal afı́n”, en cuyo caso c0 se convierte en una incógnita
más del problema. Por lo general, al construir el MELI a partir de una función lineal afı́n, resulta
que c0 = 0 y por tanto es irrelevante la distinción entre función lineal ni=1 ci Yi y función lineal
P

afı́n c0 + ni=1 ci Yi . Sin embargo, para ciertos modelos, pueden presentarse diferencias.
P
Facultad de Ciencias Sociales PUCP 177

Ejemplo 5.17. Consideremos bajo los supuestos clásicos un modelo Yi = α0 + βxi + i , donde α0 es
un parámetro de valor conocido (y por tanto no hay necesidad de estimarlo). Si usamos el término de
Pn Pn  (xi −x̄) 
función lineal de la muestra a i=1 ci Yi , el MELI de β resulta ser β̂1 = i=1 (n−1)S 2 Yi que es el mismo
x
MELI del modelo de regresión lineal simple, en el que α es un parámetro desconocido. Si, por otro lado,
usamos el término de función lineal de la muestra a c0 + ni=1 ci Yi , el MELI de β resulta ser
P
Pn Pn
i=1 xi xi Yi
β̂2 = −α0 Pn 2 + Pi=1 n 2
,
i=1 xi i=1 xi

que es diferente al obtenido antes y que es además más eficiente que β̂1 .
Ejemplo 5.18. Un modelo relaciona el gasto mensual en reinversión en miles de soles Y en términos del
ingreso en miles de soles x que una empresa obtiene en cierto sector al mes según el modelo:
Yi = βxi + i , i = 1, 2, . . . , n,
donde se asume que los errores son independientes y tienen distribución i ∼ N (0, xi ), siendo xi el ingreso
mensual en miles de soles de la empresa i. Se asumen que los xi > 0 son conocidos y fijos.
a) Halle el estimador de mı́nimos cuadrados de β.
b) Halle el MELI de β.
c) Halle el estimador de máxima verosimilitud de β.

d) Muestre que si dividimos la ecuación de regresión anterior entre xi , obteniéndose el modelo ponde-
rado Ỹi = β x̃i + ˜i , entonces:
Los errores ˜i satisfacen los supuestos clásicos.
El estimador de mı́nimos cuadrados de la ecuación de regresión ponderada coincide con el MELI
de β.
e) Suponga que se seleccionaron 9 empresas del sector con ingresos mensuales en miles de soles de 17,
20.1, 25.63, 30.31, 33.24, 40.52, 46.11, 51.2, 55.47 encontrando para estas, respectivamente, los
siguientes gastos que realizaron en reinversión en miles de soles: 9.83, 3.08, 8.54, 11.81, 5.04, 8.81,
19, 16.29,14.62 ¿Cuál serı́a su estimación e interpretación de β y en cuanto estimarı́a la reinversión
media que realizarı́a una empresa del sector que tuvo un ingreso mensual de 28,635 soles?
Solución: a) El estimador MCO resuelve mı́nβ g(β) = ni=1 (Yi − βxi )2 . Derivando con respecto a β e
P
P
xi Yi
igualando a 0 obtenemos β̂MCO = Pi=1
n 2 ,
el cual es directo comprobar que minimiza g(β).
i=1 xi
b) Para el MELI se debe de proponer un estimador lineal β̂ = ni=1 ci Yi , el cual es insesgado si ni=1 ci xi =
P P
Pn 2
1. Ası́, los coeficientes del MELI deben de minimizar V (β̃) = i=1 ci xi sujetos a la restricción anterior.
Con ello el lagrangiano del problema es L = ni=1 ci2 xi + λ(1 − ni=1 ci xi ). Dado que la función objetivo es
P P

convexa, las condiciones de primer orden 2ci xi − λxi = 0, i = 1, 2, . . . , n y ni=1 ci xi = 1 conllevan a que
P

ci∗ = λ2 y por tanto reemplazando en la restriccón se tiene que ci∗ = n2x̄ y ci∗ = n1x̄ . Ası́ el MELI de β viene
dado por β̂MELI = Ȳx̄ .
c) En base a la m.a. de Y para valores dados de los x, la función de verosimilitud de esta m.a. viene dada
por
n n P (y −βx )2
Y Y 1 − 2x1 (yi −βxi )2 1 1 − ni=1 i 2x i
L(θ) = fYi (yi ) = √ e i = n Qn √ e i

i=1 i=1
2πxi (2π) 2 i=1 xi
178 ÍNDICE GENERAL

tomando logaritmos y descartando los términos que no dependan de β, deberemos entonces minimizar
P (y −βx )2 0
con respecto a β la función K(β) = − ni=1 i 2x i . La primera derivada de esta función es K (β) =
i
Pn 00
∗ ȳ Ȳ
i=1 (yi − βxi ) = n(ȳ − β x̄). Como K (β) = −nx̄ < 0, β = x̄ maximiza K(β) y por tanto β̂MV = x̄ . En
otras palabras el estimador de máxima verosimilitud coincide con el MELI de β.
d) En efecto en el modelo ponderado
1 1 1
E(˜i ) = √ E(i ) = 0, V (˜i ) = V (i ) = 1 y Cov(˜i , ˜j ) = √ Cov(i , j ) = 0.
xi xi xi xj

Ası́ se satisfacen los supuestos clásicos. De otro lado, como el modelo ponderado satisface los supuestos
clásicos, su estimador de mı́nimos cuadrados ordinarios viene dado, según a), por
Pn Pn
i=1 Ỹi x̃i Yi Ȳ
β̂ = Pn 2 = Pi=1 n = = β̂MELI .
i=1 x̃i i=1 xi x̄

e) Por los visto anteriormente, la mejor estimación de β vendrı́a dada por x̄ = 0.353086. Dado que
E(Yi ) = βi xi se esperará que por cada mil soles adicionales que una empresa obtenga durante un mes, su
gasto en inversión crezca también en 353.0686 soles. Más aún, la estimación máxima verosı́mil de E(Y )
para un x = 28.635 dado viene dada por Ê(Y )MV = β̂MV x = 0.353086 × 28.635 = 8.693184 miles de
soles.

5.4. Propiedades de los estimadores de máxima verosimilitud


Comentamos anteriormente que el método por excelencia en Estadı́stica es el de máxima ve-
rosimilitud. Ello se debe no sólo a su lógica de construcción, sino sobre todo a dos propiedades
centrales conocidas como la de invarianza y de eficiencia asintótica.
Definición 5.9. Sean θ ∈ Rp y γ ∈ Rq parámetros tales que γ = h(θ), para cierta función h : Rp → Rq .
Sean θ̃ y γ̃ estimadores de θ y γ, respectivamente, obtenidos por cierto método M. Diremos que el
método M tiene la propiedad de invarianza si se cumple que γ̃ = h(θ̃).
En general, si h posee inversa todos los métodos que hemos anteriormente visto poseen la pro-
piedad de invarianza; sin embargo, el método de máxima verosimilitud no precisa necesariamente
de esta condición, como nos lo dice la siguiente proposición.
Proposición 5.5. El método de máxima verosimilitud posee la propiedad de invarianza. Esto es, si
θ ∈ Rp y γ ∈ Rq son parámetros tales que γ = h(θ), para cierta función h : Rp → Rq , entonces

γ̂MV = h(θ̂MV ).

Demostración: Sean Θ ⊆ Rp y Γ ⊆ Rq los espacios parámetricos de θ y γ = h(θ), respectivamente. Como


θ̂MV ∈ Θ, se tiene que γ̂ = h(θ̂MV ) ∈ Γ , entendiéndose aquı́ a estos como sus estimaciones para no
recargar notaciones. Note que si h no es 1-1, entonces muchos valores de θ podrı́an corresponder a través
de h a un valor de γ. Sea Θγ = {θ ∈ Θ / h(θ) = γ} tal conjunto y definamos la función de verosimilitud
inducida
M(γ) = sup L(θ).
θ∈Θγ
Facultad de Ciencias Sociales PUCP 179

Apreciemos entonces en primer lugar que M(γ̂) = L(θ̂MV ) y luego que

M(γ) = sup L(θ) ≤ sup L(θ) = L(θ̂MV ) = M(γ̂)


θ∈Θγ θ∈Θ

En consecuencia γ̂ = h(θ̂MV ) maximiza la verosimilitud inducida M(γ). De aquı́ que si h es 1-1 clara-
mente γ̂MV = h(θ̂MV ). En caso contrario, el argumento dado por Berk (1967) puede ser utilizado para
justificar que efectivamente γ̂MV = h(θ̂MV ). 

Ejemplo 5.19. Sea X1 , X2 , . . . , Xn una m.a. de una v.a. X ∼ P (λ) que denota al número de accidentes en
las fábricas de una ciudad que son semanalmente reportados al ministerio de trabajo. Halle el estimador
de máxima verosimilitud de la probabilidad de que se reporte al ministerio algún accidente durante una
semana y estime esta probabilidad si al considerarse 12 fábricas estos reportaron al ministerio: 0, 0 , 1,
0 ,2, 4 , 0 , 3, 1, 1, 0, 1 accidentes respectivamente.
Solución: Vimos ya que el estimador de máxima verosimilitud de λ viene dado por λ̂MV = X̄. Se nos pide
estimar el parámetro γ = P (X ≥ 0) = 1 − P (X = 0) = 1 − e−λ . Por la propiedad de invarianza tendremos
entonces que
γ̂MV = 1 − e−X̄
y la estimación máxima versosı́mil de ella vendra dada por

γ̂MV = 1 − exp(−1.08333) = 0.6615.

Veremos como último punto en este capı́tulo la propiedad de optimalidad asint́otica del es-
timador de máxima verosimilitud para un parámetro θ ∈ Θ que indexa a la muestra de una v.a.
X con función de probabilidad o densidad f (x; θ). Bajo ciertas condiciones de regularidad que
seguidamente mencionaremos, ella nos dice que para muestras grandes el estimador de máxima
verosimilitud de θ es aproximadamente insesgado y de varianza mı́nima. Las condiciones en refe-
rencia para el caso unidimensional (existen también para el multidimensional) son las siguientes:
0 0
(R1) Identificabilidad: Si θ , θ , entonces L(θ) , L(θ ).
(R2) RX no depende de θ.
(R3) El verdadero valor de θ es un “punto interior” de Θ.
(R4) f (x; θ) es tres veces diferenciable y acotada, donde estas derivadas se pueden intercambiar
con las integrales de esta función.

Proposición 5.6. Si se cumplen las condiciones de regularidad


D
θ̂MV → N (θ, σθ2 ), conforme n → ∞,

donde

σθ2 = (nE(( log(f (X; θ))2 ))−1 .
∂θ
La demostración de esta proposición rebasa los objetivos de este curso. El lector interesado,
puede consultar por ejemplo Galvao y Singer (1990). Otra excelente referencia, que da también
detalles de las propiedades de estimadores es Casella y Berger (2002).
180 ÍNDICE GENERAL

Ejemplo 5.20. Halle la distribución asintótica del estimador de máxima verosimilitud del parámetro β
de una v.a. X ∼ Exp(β).
Solución: Vimos anteriormente que β̂MV = X̄1 . Dado que fX (X; β) = βe−βX , se tiene que log(fX (X; β)) =
∂ 1
log(β) − βlog(X), ∂β
log(f (X; β)) = β − log(X) y por tanto
 !2   !2 
 ∂   1  1
E  ln fX (X; β)  = E  − X  = V (X) = 2 .
∂β β β
 
1 β2
Ası́, la distribución asintótica de β̂MV = X̄
será β̂MV ∼ N β, n .

5.5. Ejercicios
1. Si X es una v.a. continua con función de densidad
(
α , si 0<x≤1
fX (x) =
1 − α , si 1<x≤2
Pn
y dada una m.a. de tamaño n de X, se define la estadı́stica α̂ = a + b i=1 Xi .
a) Halle a y b tales que α̂ sea un estimador insesgado de α.
b) ¿ Coincide el estimador en a) con el estimador de momentos de α?
c) Analice la consistencia del estimador en a).
2. Considere un modelo de regresión lineal simple de la forma

Yi = βxi + i , i = 1, 2, . . . , n

que satisface los supuesto clásicos, excepto que E(i ) = C, siendo C > 0 una constante conocida.
a) Halle el estimador de mı́nimos cuadrados de β y analice su insesgamiento.
b) Si i ∼ N (C, 1), halle el estimador de máxima verosimilitud de β.
c) ¿Es el estimador de máxima verosimilitud en b) insesgado?
d) ¿Es el estimador de máxima verosimilitud en b) consistente?
3. Suponga que la diferencia entre el precio de venta en miles de dólares de una propiedad y
el precio en que tasa un perito del banco esta misma propiedad, X, es una variable aleatoria
normal con media 0 y varianza σ 2 . Para estimar σ 2 suponga que se toma una muestra aleatoria
de tamaño 2 de X y se proponen como estimadores de σ 2 a:

(X1 − X2 )2
σ̂12 = , σ̂22 = C X̄ 2 y σ̂32 = σ̂MV
2
,
2
2
donde σ̂MV es el estimador de máxima verosimilitud de σ 2 .
a) ¿Para que valor de C será σ̂22 un estimador insesgado?
b) Halle de manera explı́cita el estimador de máxima verosimilitud de σ 2 .
Facultad de Ciencias Sociales PUCP 181

c) Suponga que al seleccionarse 2 propiedades al azar con precios de venta de 250,000 dólares
y 312,000 dólares, el perito del banco los taso en 235,000 dólares y 320,000 dólares, respec-
tivamente, ¿cuál serı́a la mejor estimación de σ 2 con base en los estimadores anteriormente
propuestos?
4. Asuma que el gasto mensual en cabinas de Internet, es una v.a. con distribución uniforme en el
intervalo [0, 2θ] y se piensa tomar una m.a. de n usuarios de cabinas para estimar el valor de θ.
a) Halle el MELI de θ y use la desigualdad de Tchebychev para verificar que el MELI de θ es
además un estimador consistente de θ.
b) Halle el estimador de máxima verosimilitud de θ y analice su insesgamiento.
5. Si se propone a Pn√
b= − 0.5 i=1 Xi
n
θ √
n+ n
como estimador de θ para una m.a. de tamaño n de una v.a. X ∼ B(1, θ), ¿es este un estimador
insesgado y consistente?
6. Hace un mes el precio de un bien tenı́a distribución N (100, 102 ) y en la actualidad se sabe que
ha aumentado en θ unidades monetarias, pero se desconoce el valor de θ, por lo que se tomó
una m.a. de n comerciantes del bien para registrar sus precios actuales y estimar el valor de este
parámetro. Halle los estimadores de momentos y de máxima verosimilitud de θ, analizando la
consistencia de estos estimadores.
7. Sea Y el ingreso diario de un microempresario, en función de su capital al inicio de sus activi-
dades económicas. Se plantea un modelo de regresión lineal para el ingreso de la forma
Yi = 2 + βxi + i , i = 1, 2, . . . , n
asumiendo además los supuestos clásicos. En este contexto:
a) Halle el estimador por mı́nimos cuadrados de β y estudie su insesgamiento.
b) Si tenemos otro estimador β̃ = Ȳx̄ , ¿ es este preferible al estimador de mı́nimos cuadrados?
8. En un modelo sobre rentabilidades de fondos mutuos, se propone como modelo de datos que
la rentabilidad X de un fondo tiene distribución uniforme en el intervalo [1, θ], donde θ es la
máxima rentabilidad lograble sobre un piso de 1 %. Se desea estimar θ a partir de una m.a. de n
rentabilidades. Como X̄ es una estimador insesgado de µX , le piden hallar alguna estadı́stica θ̂
que sea función afı́n lineal de X̄ (i.e, θ̂ = a + bX̄) y que sea estimador insesgado de θ. Haga esto
y calcule la varianza de este estimador.
9. Un modelo lineal central en inferencia es el de análisis de varianza. En él se busca determinar
básicamente si existen o no diferencias significativas en la media de una variable aleatoria Y ba-
jo a poblaciones independientes o “tratamientos” en estudio. El modelo plantea que el valor de
la variable aleatoria dependiente Y para el j−ésimo sujeto en la población i o, equivalentemente
bajo un tratamiento i, se puede escribir como
Yij = µi + ij , i = 1, 2, . . . , a y j = 1, 2, . . . , n, (∗)
donde los µi son parámetros del modelo y los errores ij se asumen independientes y todos con
distribución normal de media 0 y varianza σ 2 .
182 ÍNDICE GENERAL

a) Halle el estimador de mı́nimos cuadrados ordinarios para los parámetros µi .


b) Si n = 9, ¿Con qué probabilidad el estimador de mı́nimos cuadrados de µi diferirá de µi en
no más de media desviación estándar?
c) Halle los estimadores de máxima verosimilitud de los µi y σ 2 .
d) Suponga que un economista sospecha que el precio de venta medio de un bien en tres regio-
nes del páis presentan diferencias. Para ello el seleccionó al azar 5 puestos de expendios del
bien en cada región encontrando los siguientes precios en soles:
Región Precio unitario de venta del bien
1 7.62 1.45 14.11 8.73 2.83
2 19.34 19.11 22.18 14.51 8.87
3 6.73 10.69 13.31 10.09 12.03
De las estimaciones de máxima verosı́miles de los parámetros del modelo (∗) en base a estos
datos e interprete.
10. Si X es una v.a. continua con función de densidad
(
α si 0<x≤2
fX (x) =
1 − 2α si 2<x≤3

a) Halle el estimador de momentos de α.


b) Muestre que el estimador en a) es insesgado y estudie su consistencia.
c) Halle el estimador de máxima verosimilitud de α y analice si este es o no insesgado.
d) Reescalándolos si fuera necesario, construya en base a los estimadores de momentos y de
máxima verosimilitud de α, estimadores insesgados de θ e indique ‘cuál de estos dos estima-
dores elegirı́a y cuál serı́a la estimación que darı́a de α, si observada una m.a. de esta variable
se obtuvieron los valores
1, 1.5, 3, 2.5, 2.7, 1.9, 2.2

11. Sea X una v.a continua con función de densidad

3x2
(
θ3
, si 0 ≤ x ≤ θ
fX (x) =
0 , en otro caso

a) Halle el MELI de θ.
b) Muestre que el estimador de máxima verosimilitud de θ vienen dado por:

θ̂MV = máx{X1 , X2 , . . . , Xn }.

c) Halle C tal que θ̂ = C θ̂MV sea un estimador insesgado de θ.


12. Si el ingreso de un empleado en una empresa se asume que es una v.a. X ∼ log N (µ, σ02 ), donde
σ02 es conocido. Halle en base a una m.a. de los ingresos de n empleados de esta empresa el
estimador de momentos de µ y analice su consistencia.
Facultad de Ciencias Sociales PUCP 183

13. Cierto bien antes de salir al mercado pasa por un periodo de prueba de θ horas y se lo entrega al
cliente en funcionamiento. Si X denota al tiempo de vida en horas de este producto y se asume
que su función de densidad viene dada por

e−(x−θ)
(
, si x ≥ θ
fX (x) =
0 , en caso contrario

Halle el estimador de máxima verosimilitud de θ en base a los tiempos que se se podrı́an regis-
trar que duraron n de estos bienes seleccionados al azar.
14. Una empresa importadora desea estimar la probabilidad p de que un bien que ellos adquieran
sea defectuoso. Para ello tomarán una muestra al azar de 30 de los lotes que acaban de llegar a
puerto. En cada lote seleccionarán a su vez al azar y con reemplazamiento 20 bienes y contarán
luego cuántos de ellos son defectuosos. Fruto de ello se obtendrán las v.a.’s X1 , X2 , . . . , X30 , donde
Xi representa la cantidad de bienes defectuosos que encontraron en la muestra del i−ésimo lote
seleccionado.
a) Si la anterior es una muestra aleatoria (m.a), indique la distribución común de estas variables
aleatorias. Justifique.
b) En base a la m.a anterior, muestre que el estimador de máxima verosimilitud de p viene dado
X̄ 1 P30
por p̂MV = 20 , donde X̄ = 30 i=1 Xi es la media muestral del número de bienes defectuosos
en las 30 muestras.
c) ¿Es p̂MV un estimador insesgado de p?
15. Un gran centro comercial posee θ ∈ N+ entradas, pero que usted desconoce. Suponga que asume
que la cantidad de entradas a este centro comercial es una v.a X con la siguiente función de
probabilidad
( 1
, si x = 1, 2, . . . , θ.
PX (x) = θ
0 , en otro caso
a) Halle el estimador de momentos de θ.
b) Muestre que el estimador de máxima verosimilitud de θ viene dado por

θ̂MV = máx{X1 , X2 , . . . , Xn }.

c) Halle la función de distribución (acumulada) del estimador de máxima verosimilitud.


d) ¿Con qué probabilidad θ̂MV diferirá de θ en más de una unidad?
e) Suponga que al entrevistar a 10 personas seleccionadas al azar que acudieron al centro co-
mercial, estos manifestaron que ingresaron por las puertas: 3, 5, 7, 9, 10, 4 , 4, 4, 1, 9. Asu-
miendo que todas las puertas del centro comercial están habilitadas y numeradas, de las esti-
maciones de momentos y de máxima verosimilitud de θ.
16. Para el precio que un minorista cobra por un bien, se asumió como modelo de datos que
X ∼ U ([p, (1 + θ)p]), donde p es el precio (conocido) que el minorista paga por el bien y θ es
parámetro por estimar. Si se tiene una m.a. de precios de n casos (X1 , X2 , . . . , Xn )
a) Construya el estimador de momentos θ̂m de θ.
184 ÍNDICE GENERAL

b) Una medida del error promedio de estimación


q de un estimador es el error estándar de esti-
mación, denotado por e.e y definido por e.e = V (θ̂). Halle el e.e en el caso del estimador θ̂
de θ.
c) Si una muestra resultó (1.2, 1.15, 1.3, 1.10, 1.6) halle el valor estimado de θ y estime también
su e.e en este caso.
d) Si se toma una m.a. de tamaño n = 49, use el T.L.C para ver con qué probabilidad diferirá
θ̂m del verdadero valor θ de en menos de un e.e.
17. Considere un modelo de regresión lineal simple de la forma

Yi = βxi + i , i = 1, 2, . . . , n

que satisface los supuesto clásicos, excepto que V (i ) = 1 + xi .


a) Halle el estimador de mı́nimos cuadrados de β y analice su insesgamiento.
b) Si los errores i tienen distribución normal, halle el estimador de máxima verosimilitud de
β.
c) Halle el MELI de β.
d) Un economista plantea que el modelo dado podrı́a servir para explicar el gasto mensual en
mantenimiento Y de los almacenes de las empresas aduaneras, en términos del área (x) en km2
con que cuentan estos almacenes. Para ello seleccionó al azar 8 almacenes con las siguientes
áreas en km2
0.1, 0.3, 0.5, 0.7, 0.9, 1.1, 1.3, 1.5
encontrando para ellas los siguientes montos de gastos de mantenimiento en miles de soles

1.53, 2.55, 2.80, 9.29, 5.92, 12.44, 14.89, 17.85

Halle las estimaciones de β por mı́nimos cuadrados y máxima verosimilitud e indique, justi-
ficando estadı́sticamente, con cuál estimación se quedarı́a. De también una interpretación de
esta estimación.
18. Suponga que se han registrado el número de iteraciones que un algoritmo hace hasta que en-
cuentre la solución a un problema de optimización, seleccionándose al azar n valores iniciales
dentro de una región, donde se sabe está la solución. Si se asume que estos conteos X1 , X2 , . . . , Xn
conforman una m.a. de una v.a. X ∼ G(p).
a) Halle el estimador de máxima verosimilitud de p.
b) Halle la distribución asintótica de este estimador.
c) Si p fuera 0.02 y n = 400, ¿con qué probabilidad aproximadamente, la estimación máxima
verosı́mil diferirı́a de p en no más de 0.001?
Capı́tulo 6

Estimación por intervalos

Sea X1 , X2 , . . . , Xn una m.a. de una v.a. X ∼ θ, cuya distribución está indexada por el parámetro
θ. En el presente capı́tulo nos interesará encontrar no sólo una aproximación plausible para
θ sino más bien un rango o intervalo de valores razonables para este parámetro. Por ejemplo,
podrı́amos querer un rango de valores alternativos para la inflación θ del próximo año en vez
de la inflación promedio del mismo. La ventaja de proponer este tipo de estimaciones será la
de tener control, en términos probabilı́sticos, del posible error que pudieramos cometer en la
estimación de θ y con ello tomar ciertas decisiones bajo tal margen de error.

Definición 6.1. Sean L1 y L2 dos estadı́sticas y sea 1 − α una probabilidad predeterminada. Diremos
que IC = [L1 , L2 ] conforma un intervalo de confianza (IC) al 100(1 − α) % para el parámetro θ, si se
cumple que P (L1 ≤ θ ≤ L2 ) = 1 − α.

Observaciones:

Es importante destacar la interpretacion de un IC, pues se suele mal decir que cuando se
observe este, el parámetro θ se encontrará entre los valores observados de L1 y L2 con una
confianza del 100(1 − α) % o probabilidad de 1 − α. El parámetro θ no es una v.a. para tener
probabilidad, las que son v.a’s son L1 y L2 y por tanto lo correcto es decir que se tendrá una
probabilidad de 1 − α de que el IC que hemos observado contenga al parámetro θ.
La probabilidad 1−α se le llama “nivel de confianza” y el estándar es 1−α = 0.95, o sea 95 %
de confianza. En situaciones especiales se suelen también utilizar otros niveles como del
99 % o 90 %. Sin embargo, mientras mayor sea el nivel de confianza, más ancho se esperará
tienda a ser el IC. En tal sentido, si bien un IC al 100 % suene bien y contenga con seguridad
al parámetro θ, este no será otra cosa que el mismo espacio parámetrico Θ de θ y por tanto
no nos dará mayor información, ya que sin tomarse el IC, se sabe por definición que θ ∈ Θ.
Más adelante veremos que para un mismo parámetro θ se podrán construir muchos o infi-
nitos IC’s. En tal sentido requeriremos de algún criterio para escoger entre tales intervalos.
El criterio que usaremos aquı́ será el de seleccionar el IC con la mı́nima longitud esperada.

185
186 ÍNDICE GENERAL

6.1. Variables pivote y construcción de intervalos de confianza


Una técnica para obtener IC’s al 100(1 − α) % de confianza para un parámetro θ es utilizar el
método de la variable pivote. Esta consiste de los siguientes pasos:
a) Determinar la variable pivote W = W (X1 , X2 , . . . , Xn ; θ). Esta es una especie de estadı́stica
que depende sólo de la m.a. y del parámetro buscado θ, pero cuya distribución debe de ser
conocida y no depender de θ.
b) Buscar en la distribución de W dos valores a y b tales que

P (a ≤ W ≤ b) = P (a ≤ W (X1 , X2 , . . . , Xn ; θ) ≤ b) = 1 − α.

c) Despejar θ al interior de la probabilidad anterior de modo que

P (L1 (X1 , X2 , . . . , Xn ) ≤ θ ≤ L2 (X1 , X2 , . . . , Xn )) = 1 − α.

Observaciones:
Es usual, sobre todo, si la distribución de la variable pivote es simétrica, tomar áreas iguales
en las colas de la distribución de W , esto es, considerar los cuantı́les a y b tales que P (W ≤
a) = P (W > b) = α2 . Ello nos provee por lo usual de IC’s de mı́nima longitud esperada.
Usualmente la variable pivote W se forma partiendo del estimador de máxima verosimili-
tud θ̂MV de θ y aprovechando que asintóticamente (si n es grande), se tiene por la proposi-
ción 5.6 que θ̂MV ' N (θ, σθ2 ). Ası́, una v.a. pivote que podrı́a tomarse en la construcción de
un IC aproximado para θ es:
θ̂ −θ
W = MV ∼ N (0, 1).
σθ
Ejemplo 6.1. Dada una muestra aleatoria X1 , X2 , ..., Xn de una v.a. X ∼ exp(β)
a) Muestre que la v.a.
Y = 2nβ X̄
tiene distribución Ji-cuadrado con 2n grados de libertad.
b) Use la v.a. dada en a) como variable pivote para deducir un intervalo de confianza al 95 % para
β. Considere tomar áreas iguales en las colas.
c) Otra manera de obtener un IC aproximado para β es mediante el TLC. Usando un nivel de con-
fianza del 95 % y asumiendo que se tiene una muestra suficientemente grande, obtenga tal intervalo.
d) Suponga que los tiempos (en dı́as) que 35 turistas seleccionados al azar permance en el paı́s con-
forman una m.a de una v.a. Exponencial de parámetro β. ¿Qué valores se estima contengan a β con
un nivel de confianza del 95 %, si es que en la muestra se observo una media de 5.8 dı́as?. Use los
métodos obtenidos en b) y en c) e indique con cuál de estas estimaciones se quedarı́a. Justifique.
Solución: a) La función generatriz de momentos de Y viene dado por
Pn β 1 2n
MY (t) = E(etY ) = E(e2tβ i=1 Xi ) = MX (2tβ)n = ( )n = ( )2,
β − 2tβ 1 − 2t
la cual es la función generatriz de momentos de una v.a. Ji-cuadrado con 2n grados de libertad y por
tanto Y debe de tener esta distribución.
Facultad de Ciencias Sociales PUCP 187

b) Tomando como pivote a Y y valores a y b tales que P (Y ≤ a) = 0.025 y P (Y > b) = 0.025 o


2 2
P (Y ≤ b) = 0.975, a los cuales denotaremos respectivamente por χ0.025 (2n) y χ0.975 (2n), tendremos
que
χ2 (2n) χ2 (2n)
2
0.95 = P (χ0.025 2
(2n) ≤ 2nβ X̄ ≤ χ0.975 (2n)) = P ( 0.025 ≤ β ≤ 0.975 ).
2nX̄ 2nX̄
2 2
χ0.025 (2n) χ0.975 (2n)
Asi el intervalo de confianza pedido será IC1 = [ 2nX̄
, 2nX̄
].
c) Como n = 35 es grande, el TLC nos dice que aproximadamente X̄ ∼ N ( β1 , nβ1 2 ), luego

X̄ − β1 √ √
Z= = nX̄β − n ∼ N (0, 1)
√1 2

es una variable pivote para la construcción de un IC para θ. Tomando áreas iguales de 0.025 en
las colas de la distribución normal estándar (más adelante justificaremos el porque tomar aquı́ áreas
iguales), se tendrá buscando en tabla que
√ √
√ √ n − 1.96 n + 1.96 0.6687 1.3313
0.95 = P (−1.96 ≤ nX̄β− n ≤ 1.96) = P ( √ ≤β≤ √ )=P( ≤β≤ )
nX̄ nX̄ X̄ X̄

y el IC aproximado para β será IC2 = [ 0.72



, , 1.28

].
χ2 (70) χ2 (70)
d) Evaluando los IC obtenidos en b) y c) se tiene que respectivamente que IC1 = [ 0.025
70x̄ , 0.975
70x̄ ] =
48.76 95.02 0.6687 1.3313
[ 70(5.8) , 70(5.8) ] = [0.12 , 0.234] y de otro lado IC2 = [ 5.8 , 5.8 ] = [0.1153 , 0.23]. La longitud
de IC1 es 0.114 y la de IC2 0.1147. Los IC’s en consecuencia son similares, presentando el primero
una ligera menor longitud. Este además se preferirı́a al segundo, pues por construcción el primero es
exacto a diferencia del segundo que es sólo aproximado. Si el tamaño de muestra fuese menor, habrá
mucho más razón en utilizar el primero de los IC.

6.2. Intervalos de confianza para los parámetros de una distribución


normal
Si X1 , X2 , . . . , Xn es una m.a. de una v.a. X ∼ N (µ, σ 2 ) nos interesará encontrar aquı́ IC’s al 100(1−
α) % para la media µ y varianza σ 2 de esta distribución. La elección de la distribución normal
no es aquı́ del todo arbitraria, pues gracias al teorema del lı́mite central (TLC), el intervalo
para la media que obtengamos será, de ser n suficientemente grande, válido para cualquier
distribución.

6.2.1. Intervalos de confianza para la media

A fin de construir un IC para µ deberemos de considerar dos casos, según se conozca o no la


2
varianza poblacional σ 2 . Si bien en ambos el estimador de MV de µ es X̄ ∼ N (µ, σn ), la variable
pivote natural:
X̄ − µ
Z= √ ∼ N (0, 1) (6.1)
σ/ n
188 ÍNDICE GENERAL

podrá funcionar como talsólo si se conoce el valor de σ 2 . Si este es el caso, podrı́amos considerar
dos valores a y b tales que P (a ≤ Z ≤ b) = 1 − α. Entonces

X̄ − µ aσ bσ bσ aσ
1 − α = P (a ≤ √ ≤ b) = P ( √ ≤ X̄ − µ ≤ √ ) = P (X̄ − √ ≤ µ ≤ X̄ − √ ).
σ/ n n n n n

Ası́, un intervalo de confianza al 100(1 − α) % para µ cuando σ 2 es conocida es:

bσ aσ
[X̄ − √ , X̄ − √ ].
n n

Dependiendo de cómo escojamos a y b se tienen en verdad aquı́ infinitos IC’s. Debemos entonces
(b−a)σ
seleccionar de todos ellos el de mı́nima longitud esperada. La longitud de este IC es √n
y su esperado el mismo, pues por suerte no es aquı́ aleatorio. Dado que a = FZ−1 (α1 ) y b =
FZ−1 (1 − α + α1 ) para algún α1 ∈ [0, α], nuestro IC óptimo se encontrará de resolver

mı́n FZ−1 (1 − α + α1 ) − FZ−1 (α1 )


α1
s.a. α1 ∈ [0, α]

Igualando la derivada de la función objetivo g(α1 ) = FZ−1 (α − α1 ) − FZ−1 (α1 ) a 0. Esto es,

0 1 1 1 1 f (a) − fZ (b)
g (α1 ) = 0 − 0 = − = Z = 0,
FZ (FZ−1 (1 − α + α1 )) FZ (FZ−1 (α1 )) fZ (b) fZ (b) fZ (a)fZ (b)

se tiene que fZ (a) = fZ (b). Por la simetrı́a de la distribución normal estándar, esto se cumplirá
sólo si α1 = α2 . El criterio de la primera derivada nos indica directamente entonces que este es
el valor óptimo que resuelve el problema anterior y por tanto, el IC óptimo al 100(1 − α) % para
µ, cuando σ 2 es conocida en una normal, viene dado por
σ σ
IC = [X̄ − z1− α2 √ , X̄ + z1− α2 √ ],
n n
α
siendo z1− α2 el cuantı́l 1 − 2 de la distribución normal estándar; vale decir, el valor b tal que
FZ (b) = 1 − α2 .
Si σ 2 se desconoce, Z en (6.1) no es ya una variable pivote, pues involucrá al valor desconocido
de σ 2 . Lo natural serı́a entonces remplazar este por su correspondiente estimador insesgado
S 2 (la varianza muestral). Esto sin embargo, como recordamos, cambia la distribución en la
estandarización de X̄. Esta no es sino una distribución t de Student y la variable pivote adecuada
para este caso será
X̄ − µ
T = √ ∼ t(n − 1).
S/ n
Repitiendo todo el proceso anterior, el IC al 100(1 − α) % para µ en una normal con σ 2 descono-
cido vendrá dado entonces por

S S
IC = [X̄ − t1− α2 (n − 1) √ , X̄ + t1− α2 (n − 1) √ ],
n n
Facultad de Ciencias Sociales PUCP 189

donde t1− α2 (n − 1) denota al cuantı́l 1 − α2 de la distribución de T ∼ t(n − 1); vale decir, al valor b
tal que P (T ≤ b) = 1 − α2 .
Observación: Es importante destacar que gracias al TLC el IC derivado en (6.1) es aún válido
para la media de cualquier distribución, siempre que n sea lo suficientemente grande, se conoz-
ca σ 2 o se tenga una estimación consistente de σ 2 . Si n es grande es prácticamente lo mismo
el considerar a la distribución t o normal estándar, pues vimos en el capı́tulo anterior que si
D
T ∼ t(n − 1), entonces T → Z ∼ N (0, 1), conforme n → ∞.
Ejemplo 6.2. En un estudio, se desea estimar el promedio del número diario de horas que trabaja un
microempresario y para ello, se tomó una muestra piloto 7 microempresarios registrándose la cantidad
de horas de trabajo en un dı́a de semana. Los datos fueron: (12,11,14,10,9,9,8). Asuma normalidad y
calcule un IC al 95 % para el promedio de horas de trabajo por dı́a de los microempresarios. ¿Se puede
inferir que los microempresarios tienen una jornada de trabajo promedio más larga que la jornada
legal del sector formal?
Solución: Puesto que se asume normalidad y la varianza de la población se desconoce, tendremos que
S S
IC = [X̄ − t0.975 (6) √ , X̄ + t0.975 (6) √ ],
7 7
es el IC a evaluar. De tabla t0.975 (6) = 2.4469 y de los datos tenemos que los valores observa-
dos de X̄ y S 2 son respectivamente x̄ = 12+11+14+10+9+9+8 = 10.43 horas, s2 = 16 ( ni=1 xi2 − 7x̄2 ) =
P
√ 7
1 2
6 (787 − 7(10.43 )) = 4.29. Ası́, s = s2 = 2.07 horas y una estimación del IC pedido será IC =
√ √
[10.43 − 2.4469(2.07/ 7), 10.43 + 2.4469(2.07/ 7)] = [8.52, 12.34]. Esto nos dice que este IC
observado contendrá al número medio de horas por dı́a que trabaja un microempresario con una pro-
babilidad de 0.95. Dado que en el sector formal el número de horas de trabajo es de 8 y este valor
se encuentra totalmente a la izquierda del IC, sı́ podrı́amos inferir con una confianza del 95 % que
los microempresarios tienen una jornada diaria de trabajo más larga que la jornada legal del sector
formal.
Ejemplo 6.3. La rentabilidad de una inversión en un sector de la economı́a es una v.a. X ∼ LogN (µ, 1)
y se desea estimar µ mediante un IC al 95 %, a partir de la siguiente muestra: 3, 5, 10, 3, 5, 8.
a) Construya un IC de 95 % para µ y evalúelo con la muestra dada.
b) Use el IC construido en a) para hallar un I.C. para γ = E(X) . ¿Será cierto que la rentabilidad
promedio en este sector supera el 2.5 %? Justifique.
Solución: a) Sea X1 , X2 , . . . , X6 una m.a. de X. Como X ∼ LogN (µ, 1) si, y solamente si, Y = log(X) ∼
N (µ, 1), serı́a más simple el trabajar con la m.a. Y1 , Y2 , . . . , Y6 de Y generada por la m.a. anterior.
Y −µ
Ası́, Ȳ ∼ N (µ, 61 ) y la variable pivote natural serı́a Z = √1
∼ N (0, 1). Utilizando esta obtendremos
6
entonces que
  ! !
 Y −µ  1.96 1.96 1.96 1.96
0.95 = P −1.96 ≤ 1 ≤ 1.96 = P − √ ≤ Y − µ ≤ √ =P Y − √ ≤µ≤Y + √
 
 √
6
 6 6 6 6

1.96 1.96
y el IC pedido viene dado entonces por IC = [Y − √ , Y+ √ ]. Evaluándolo, se tiene que ȳ =
6 6
1
6 (log(3) + log(5) + . . . + log(8)) = 1.63 y por tanto IC = [0.83, 2.43].
190 ÍNDICE GENERAL

1
b) Dado que γ = E(X) = eµ+ 2 podrı́amos trabajar al interior del IC anterior:
!
1.96 1.96 Y − 1.96
√ +1 Y + 1.96
√ +1
 
0.95 = P Y − √ ≤ µ ≤ Y + √ =P e 6 2 ≤ γ ≤ e 6 2
6 6
Y − 1.96
√ +1 Y + 1.96
√ +1
para concluir que el IC al 95 % para γ buscado es IC = [e 6 2 , e 6 2 ]. Evaluándolo obtendre-

mos que IC = [e 0.83+0.5 ,e 2.43+0.5 ] = [3.78 , 18.73]. Como 2.5 < 3.78, podemos finalmente considerar
con una confianza del 95 % como cierta la afirmación dada; es decir, la rentabilidad promedio en este
sector supera el 2.5 %.

6.2.2. Intervalo de confianza para la varianza

Para construir un IC al 100(1 − α) % para σ 2 , la variable pivote natural es:

(n − 1)S 2
W∼ ∼ χ2 (n − 1).
σ2
Para hallar los valores a y b tales que P (a ≤ W ≤ b) = 1 − α, convendremos en tomar cuantiles
que tengan en las colas una misma área o probabilidad α2 . Ello, vale adelantar, no nos dará
necesariamente un IC de mı́nima longitud esperada por la falta de asimetrı́a en la distribución
χ2 (n − 1) la cual sin embargo se disipa conforme n aumenta. Esta convención de tomar a y b
como los cuantiles en la distribución de W que satisfacen P (W ≤ a) = α2 y P (W ≤ b) = 1 − α2 ,
a los cuales denotaremos, respectivamente por, χ2α (n-1) y χ1−
2
α (n-1), es estándar y simplifica el
2 2
proceso. En consecuencia se tendrá que

(n − 1)S 2 χ2α (n-1) 1


2
χ1− α (n-1)
2 2 2 2
1 − α = P (χ α (n-1) ≤ ≤ χ α (n-1)) = P (
1− 2 ≤ ≤ )
2 σ2 (n − 1)S 2 σ 2 (n − 1)S 2

(n − 1)S 2 2 (n − 1)S 2
=P( 2
≤ σ ≤ 2
)
χ1− α (n- 1) χ1− α (n- 1)
2 2

Ası́ un IC al 100(1 − α) % para σ2 en una distribución normal será

(n − 1)S 2 (n − 1)S 2
IC = [ 2
, 2 ].
χ1− α (n- 1) χ α (n- 1)
2 2

Aparte de la estimación por intervalos de los parámetros de una normal, pueden surgir también
la necesidad de estimarse parámetros relacionados a esta distribución en otros contextos como
el de la regresión o las series de tiempo. Un ejemplo de ello se ilustra en el siguiente ejemplo.
Ejemplo 6.4. Considere el modelo de regresión no lineal

Yi = eβxi i , i = 1, 2, . . .

donde los errores 1 , 2 , . . . se asumen independientes y todos de distribución logN(0, σ 2 ).


a) Halle el estimador de mı́nimos cuadrados de β.
Facultad de Ciencias Sociales PUCP 191

b) Halle los estimadores de máxima verosimilitud de β y σ 2 .


c) Construya un IC al 95 % para β, si σ 2 = 1 y aplı́quelo a la m.a. de 5 pares de (x, Y ):

(3, 4.5), (3.5, 5.7), (4.7, 3.5), (4.5, 10), (5, 11.8).

Solución: a) Si bien el modelo dado es no lineal, este puede ser “linealizado” tomándose logaritmos
naturales mediante
Ỹi = log(Yi ) = βxi + log(i ) = βxi + ˜i ,
donde ˜i = log(i ) ∼ N (0, σ 2 ). El estimador de mı́nimos cuadrado para este último modelo ya lo vimos
anteriormente y viene dado por
Pn Pn
i=1 xi Ỹi xi log(Yi )
β̂MCO = Pn 2 = i=1 Pn 2 .
i=1 xi i=1 xi

b) Utilizando la linealización anterior, Ỹi ∼ N (βxi , σ 2 ) y la función de verosimilitud apropiada para


esta caso vendrá dada por
n 2 2 Pn 2
/2σ 2
  Y e−(log yi −βxi ) /2σ e− i=1 (log yi −βxi )
L β, σ 2 = √ = √ .
i=1 ( 2π)σ ( 2π)n σ n

La función de log-verosimilitud resulta ser entonces


 Pn 2 2
 Pn 2
 e− i=1 (log yi −βxi ) /2σ   √
i=1 (log yi − βxi ) n  2 
2 n
K(β, σ ) = log  √ =−
 − ln σ − log ( 2π)
( 2π)n σ n
 2σ 2 2

Derivando e igualando a 0 se llega a los estimadores


Pn Pn  2
log Yi − β̂MV xi
i=1 xi log Yi 2 i=1
β̂MV = Pn 2 y σ̂MV =
i=1 xi
n

c) La construcción del IC para β pasará primero por construir una variable pivote para este parámetro.
Como se comento esta puede basarse en el estimador de máxima verosimilitud de β, el cual viene dado
cuando σ 2 es conocido (compruébelo!!) por:
Pn
xi log Yi
β̂MV = i=1Pn 2 .
i=1 xi

Como log(Yi ) ∼ N (βxi , σ 2 ), se tiene que cualquier combinación lineal de estas variables es también
normal. En particular,
n n n
X X X σ2
xi log Yi ∼ N (β xi2 , σ 2 xi2 ) y β̂MV ∼ N (β, Pn 2
).
i=1 i=1 i=1 i=1 xi

Ası́ como σ 2 = 1, podrı́amos considerar a

β̂MV − β
Z= ∼ N (0, 1)
√P1n 2
i=1 xi
192 ÍNDICE GENERAL

como variable pivote. Entonces


v
t n
X 1.96 1.96
0.95 = P (−1.96 ≤ xi2 (β̂MV − β) ≤ 1.96) = P (− q ≤ β̂MV − β ≤ q )
Pn 2 Pn 2
i=1 i=1 xi i=1 xi

1.96 1.96
= P (β̂MV − q ≤ β ≤ β̂MV + q )
Pn 2 Pn 2
i=1 xi i=1 xi

Luego un IC al 95 % de confianza para β será

1.96 1.96
IC = [β̂MV − q , β̂MV + q ].
Pn 2 Pn 2
i=1 xi i=1 xi

Evaluando, con la muestra dada se obtendrá el IC = [0.28 , 0.72].

6.3. Intervalos de confianza para proporciones y tamaños de muestra


con corrección para poblaciones finitas

6.3.1. Intervalos de confianza para una proporción

Otro parámetro recurrente en diversas aplicaciones lo constituye la proporción p de elementos


en la población que comparten cierta caracterı́stica común E. A fin de obtener un intervalo de
confianza aproximado al 100(1 − α) % para p, tomemos al azar n elementos de la población y
consideremos las v.a’s Xi definidas como 1 si es que en la i-ésima selección se encuentra un
elemento con la caracterı́stica E y 0 en caso contrario. Vale aclarar que los elementos de esta
muestra sólo podrán garantizarse distintos, si es que la muestra es tomada sin reemplazamien-
to. Este hecho ocasiona que las variables X1 , . . . , Xn no sean independientes; sin embargo, si el
tamaño de la población N , es como lo hemos estado asumiendo en el curso grande o infinito,
podrı́a garantizarse una “casi independencia” entre X1 , . . . , Xn . En la práctica si N es grande es-
tas variables son consideradas independientes, por lo que la distribución de X = ni=1 Xi , que
P

representa al número de elementos en la muestra que comparten la caracterı́stica E, puede


asumirse que es binomial de parámetros n y p. Más aún, si n es grande, podremos utilizar la
aproximación de la distribución binomial por la normal y utilizar la v.a:

X − np p̄ − p
Z= p = q ∼ N (0, 1) ,
np(1 − p) p(1−p)
n

con p̄ = Xn , como variable pivote para la construcción del IC para p. En efecto, tomando simétri-
camente valores −z1− α2 y z1− α2 en la tabla normal estándar, podemos afirmar que:

p̄ − p
P (−z1− α2 ≤ q ≤ z1− α2 ) = 1 − α.
p(1−p)
n
Facultad de Ciencias Sociales PUCP 193

A fin de despejar p en esta expresión, podemos considerar la probabilidad equivalente siguiente:


p̄ − p 2 2
P (| q | ≤ z1− α) = 1−α
p(1−p) 2
n


2 2
z1− α z1− α
2
P (p (1 +
) − p(2p̄ + 2
) + p̄2 ≤ 0) = 1 − α.
2

n n
Esta probabilidad, puede escribirse como:
P ((p − p1 )(p − p2 ) ≤ 0) = 1 − α,
donde p1 y p2 constituyen las raices de la ecuación cuadrática correspondiente. Si utilizamos la
fórmula del discriminante de la ecuación cuadrática correspondiente, las raices p1 y p2 vienen
dadas por
r r
2 2 2 2 4
z1− α z1− α z1− α z1− α z1− α z1− α
2p̄ + n
2
∓ (2p̄ + n
2
)2 − 4p̄2 (1 + n
2
) p̄ + 2n
2
∓ √2
n
p̄(1 − p̄) + n2
2

p1(2) = 2
= 2
.
z1− α z1− α
2 2
2(1 + n ) 1+ n
Un análisis de signos nos provee entonces del IC de Wilson IC = [p1 , p2 ]. Dada la complejidad
2
z1− α
de este IC se suele simplificar este despreciando al término n 2 , que es pequeño cuando n es
grande. De hacerse ello se obtiene el IC de Wald al 100(1 − α) % para p siguiente:
r r
p̄(1 − p̄) p̄(1 − p̄)
IC = [p̄ − z1− α2 , p̄ + z1− α2 ].
n n
Este es sin duda el IC más utilizado y similar al de Wilson para muestras grandes. Estudios
de simulación muestran sin embargo que la cobertura del IC de Wald (propoción de IC’s que
contienen al verdadero p) no es tan buena si p es muy extremo; es decir, si p es muy cercano a 0
o a 1. En estos casos serı́a recomendable el uso del IC de Wilson.

6.3.2. Corrección por finitud y tamaños de muestra


La “independencia” entre las variables X1 , . . . , Xn del desarrollo previo, que indicaban si es que
en cada selección de la muestra se obtenı́a o no a un elemento con cierta caracterı́stica E, sólo
se puede garantizar formalmente si el tamaño de la población N es grande o infinito. En caso
contrario, vale decir si este tamaño N no es lo suficientemente grande, la distribución exacta
del número de elementos en la muestra que tienen la caracterı́stica E, X = ni=1 Xi , es hiper-
P

geométrica de parámetros N ,M y n, siendo M el número de elementos de la población que


comparten la caracterı́stica E. En tal situación, es posible aún utilizar un teorema del lı́mite
central especial que nos garantiza que para un n suficientemente grande la distribución hiper-
geométrica puede aproximarse por la distribución normal. Esto se logra mediante la siguiente
estandarización:
X − E(X) X − np p̄ − p
Z= p = q = q q ∼ N (0, 1),
V (X) np(1 − p) N −n p(1−p) N −n
N −1 n N −1
194 ÍNDICE GENERAL

donde p = MN . Por lo tanto, si procedemos a trabajar con esta variable pivote para la construcción
del IC al 100(1 − α) % para p, obtendremos bajo el mismo desarrollo que para el IC de Wald, el
siguiente IC:
r r r r
p̄(1 − p̄) N − n p̄(1 − p̄) N − n
IC = [p̄ − z1− α2 , p̄ + z1− α2 ].
n N −1 n N −1
q
Note que este IC para p difiere del anterior sólo por el factor N −n
N −1 , al cual se le acostumbra
llamar el factor de corrección para poblaciones finitas. Note también que si N → ∞, este factor
tiende a 1 y por tanto uno obtiene el IC de Wald anterior para p.
Es posible también realizar un estudio inferencial para poblaciones finitas en el caso de la es-
timación de la media poblacional de una v.a. X. Si la población es finita, digamos con N ele-
mentos, se puede deducir que un IC aproximado al 100(1 − α) % para µ cuando n es grande
es: r r
σ n σ n
IC = [X̄ − z1− α2 √ 1− , X̄ + z1− α2 √ 1 − ].
n N n N
Similarmente, la diferencia con el IC tradicional radica en el factor 1 − Nn , el cual tiende a 1 si
p

N → ∞.
Establecidas las fórmulas de los IC aproximados al 100(1 − α) % para cualquier media y propor-
ción poblacional, nos interesará ahora saber qué tamaño de muestra n deberı́a uno considerar
para poder garantizar a un nivel de confianza del 100(1 − α) % un error máximo de estimación
de e, donde entenderemos por error de estimación a la diferencia en valor absoluto entre el es-
timador y el parámetro que busca estimar. Esto se obtiene directamente de los IC obtenidos. En
efecto, si queremos estimar µ, su IC correspondiente al 100(1 − α) % puede reescribirse como:
r
σ n
P (|X̄ − µ| ≤ z1− α2 √ 1 − ) = 1 − α,
n N
luego, según las condiciones establecidas, se debe tener que:
r
σ n
e = z1− α2 √ 1− ,
n N
de donde despejando obtenemos la siguiente fórmula para el tamaño de muestra:
2 2
z1− ασ N
2
n= 2
z1− 2 2
ασ +e N
2

y si N → ∞:
(z1− α2 σ )2
n= .
e2
De manera similar, podemos deducir la siguiente fórmula del tamaño de muestra n para la
estimación de p con un error máximo de estimación de e y un nivel de confianza del 100(1−α) %:
2
z1− α p̄(1 − p̄)N
2
n= 2
z1− 2
α p̄(1 − p̄) + e (N − 1)
2
Facultad de Ciencias Sociales PUCP 195

y si N → ∞:
2
z1− α p̄(1 − p̄)
2
n= .
e2
Observaciones:
Un aspecto problemático en estas fórmulas lo constituyen tanto σ como p̄, ya uno es un
parámetro poblacional desconocido y el otro no puede calcularse sin haberse tomado la
muestra. En la práctica estas cantidades se estiman mediante un muestreo piloto previo (es
decir, una réplica en una escala menor del muestreo final) o por cantidades similares de
otros estudios semejantes.
Si por razones de tiempo, disponibilidad o recursos no es posible tomar la piloto o no se
dispone de un estudio previo similar, una regla conservadora para la busqueda del tamaño
de muestra de una proporción es tomar p̄ = 21 . Ella asigna el valor de p̄ que maximiza
el tamaño de la muestra de tal manera que uno pueda siempre garantizar, al margen del
verdadero p̄, un error de estimación de a lo más e. De otro lado, para la estimación de
la media, una regla empı́rica para estimar σ es tomar σ = R6 , donde R denota al rango
de la variable X, es decir a la diferencia estimada entre el mayor valor que pudieramos
pensar tome X y su menor valor para la población. Esta última regla se fundamenta en la
desigualdad de Tchebychev.
En el estudio de poblaciones grandes pero finitas, raramente se toman la muestra por un
simple muestreo sin reemplazamiento o sorteo. En estos casos los esquemas de selección
pueden ser diversos y su estudio los realiza la teorı́a del muestreo probabilı́stico, tema
que esta fuera del alcance de este curso. El lector interesado puede consultar por ejemplo
Valdivieso (2020) o Lohr (2000).
Ejemplo 6.5. La facultad de Economı́a de una Universidad cuenta con 1,200 alumnos y esta intere-
sada en realizar una encuesta con el fin de determinar, entre otras cosas, el número de sus alumnos
que tienen una PC en casa. El coordinador de la facultad desea estimar este total con un error máximo
no mayor a los 30 alumnos y una confianza del 99 % ¿ A cuántos alumnos de la facultad se les deberı́a
aplicar la encuesta?
Solución: Se desea estimar T = número los alumnos de la facultad que poseen un PC en su casa con un
margen de error no mayor a los 30 alumnos y un nivel de confianza del 99 %. Dado que la población de
alumnos en la facultad es finita ( N = 1, 200) y T = N p, donde p denota a la proporción de alumnos
de la facultad que tienen PC en casa, el problema equivale a estimar p con un margen de error no
30
mayor a e = 1,200 = 0.025 y un nivel de confianza del 99 %. Por tanto se deberá tomar la encuesta a

z02.995 (0.52 )(1, 200)


n= = 880.639 ≡ 891 alumnos,
z02.995 (0.52 ) + 0.0252 (1, 199)

donde estamos utilizado la regla conservadora p̄ = 12 , pues no tenemos mayor información sobre p.
Analice como ejercicio qué es lo que hubiese pasado si no considerase el tamaño de esta población y
hubiese calculado, como en muchos textos básicos de Estadı́stica se da, el tamaño de muestra con la
fórmula para una población infinita.
196 ÍNDICE GENERAL

6.4. Ejercicios
1. Considere el siguiente modelo de regresión lineal simple:
Yi = α + β0 xi + i , i = 1, 2, . . . , n,
donde α es un parámetro por estimar, β0 es conocido, los xi son variables no aleatorias, hay
independencia entre observaciones y los i ∼ N (0, σ02 ) son errores de varianza conocida.
a) Estime α usando el método de mı́nimos cuadrados y vea si es insesgado y consistente.
b) En base a lo anterior, obtenga un intervalo de confianza al 95 % para α.
2. Sea X una v.a. continua con función de densidad
( 3 2 3
x exp(− xθ ) , si x ≥ 0
fX (x) = θ
0 , en caso contrario
a) Estime θ mediante el método de máxima verosimilitud y determine si este es un esti-
mador insesgado.
b) Si se toma una m.a. de tamaño n suficientemente grande, use el estimador anterior y el
teorema del lı́mite central para construir una variable pivote para estimar θ. Hecho ello
construya un intervalo de confianza al 95 % para estimar θ.
3. Asuma que el gasto mensual en cabinas de Internet, es una v.a. con distribución uniforme
en [0, 3θ] y se piensa tomar una m.a. de n usuarios de cabinas para estimar el valor de θ.
a) Halle el estimador de momentos de θ y estudie su consistencia.
b) Suponga que se tomará una muestra grande de esta distribución. Usando el teorema
del lı́mite central: ¿Qué tamaño de muestra garantizarı́a con 95 % de probabilidad que el
estimador anterior diferirá de θ en menos de un 10 % de θ?
4. Al tomarse una muestra aleatoria del precio de 49 productos de un mismo bien en un mer-
cado y en donde se asumı́a que el precio en soles de este bien era una v.a con distribución
normal de varianza 36 se obtuvo el intervalo de confianza IC = [384.5 , 418.36].
a) ¿Cuál es la estimación máxima verosı́mil para la media del precio del bien en este mer-
cado?
b) ¿Cuál es el nivel de confianza en esta estimación?
c) Obtenga un IC al 95 % para la media de los precios del bien en este mercado.
5. Dada una muestra aleatoria X1 , X2 , . . . , X400 de una variable aleatoria X con distribución
exponencial con parámetro β.
a) Hallar, en términos de β, la probabilidad P (X > 10).
b) Usando el teorema del lı́mite central, encuentre un intervalo de confianza al 95 % para
la probabilidad P (X > 10).
c) Evalue el intervalo anterior, si es que la muestra dió una media de 23.6.
6. Una empresa importadora desea estimar la probabilidad p de que un bien que ellos adquie-
ran sea defectuoso. Para ello tomarán una muestra al azar de 30 de los lotes que acaban de
llegar a puerto. En cada lote seleccionarán a su vez al azar y con reemplazamiento 20 bienes
y contarán luego cuántos son defectuosos. Fruto de ello obtendrán X1 , X2 , . . . , X30 , donde Xi
representa la cantidad de bienes defectuosos en la muestra del i−ésimo lote seleccionado.
Facultad de Ciencias Sociales PUCP 197

a) Si la anterior es una muestra aleatoria (m.a), indique la distribución común de estas


variables aleatorias. Justifique.
b) En base a la m.a anterior, muestre que el estimador de máxima verosimilitud de p viene
X̄ 1 P30
dado por p̂MV = 20 , donde X̄ = 30 i=1 Xi es la media muestral del número de bienes
defectuosos en las 30 muestras.
c) ¿Es p̂MV un estimador insesgado de p?
d) Usando el TLC, obtenga un intervalo de confianza al 95 % para p, si en el estudio ante-
rior se encontraron las siguientes cantidades de bienes defectuosos
2, 5, 3, 5, 10, 4, 6, 5, 6, 4, 7, 0, 4, 5, 6, 4, 6, 4, 4, 4, 4, 2, 1, 3, 6, 3, 5, 6, 8, 4.
7. Se desea hacer un estudio para averiguar entre otras cosas el gasto medio semanal µ en
combustible que los camiones en una mina generan. De un estudio previo se tiene una
estimación de la desviación estándar de este gasto que es de 82 soles.
a) Halle el tamaño de muestra que se deberı́a de considerar en este estudio, de tal manera
que se pueda estimar µ con un error no mayor a los 20 soles y una confianza del 95 %.
Tome en cuenta que la mina cuenta con 210 camiones operativos.
b) Si para el estudio anterior era también de interés estimar la proporción de camiones
que usan combustible diesel ¿cuál serı́a el máximo error de estimación que se deberı́a de
reportar en la estimación de esta proporción? Use nuevamente un nivel de confianza del
95 %?
8. Sea X1 , X2 , ...., Xn1 una m.a de una v.a. X ∼ N (µ1 , σ 2 ) y sea Y1 , Y2 , ..., Yn2 una m.a de una v.a.
Y ∼ N (µ2 , σ 2 ), donde X e Y son independientes. Muestre que
(n1 −1)S12 +(n2 −1)S22
a) W = σ2
∼ χ2 (n1 + n2 − 2).
q
X̄−Ȳ −(µ1 −µ2 ) (n1 −1)S12 +(n2 −1)S22
b) T = q ∼ t(n1 + n2 − 2), donde Sp = n1 +n2 −2 .
Sp n1 + n1
1 2

c) Utilice la v.a. anterior T como variable pivote para construir un intervalo de confianza
al 100(1 − α) % para µ1 − µ2 .
d) Para comparar los gastos medios mensuales de los alumnos de dos universidades se
seleccionaron de manera aleatoria dos muestras de 9 y 10 alumnos respectivamente de
cada universidad, encontrándose los siguientes valores en dólares:
Muestra de la U. A 390 395 380 390 400 380 370 390 380
Muestra de la U. B 400 410 420 380 390 410 400 405 405 400
Asumiendose normalidad e igual variabililidad de gastos en ambas universidades ¿podrı́a
asegurar, a un nivel de confianza del 95 %, que los gastos medios en ambas universidades
no son los mismos?
9. Con el fin de medir el nivel de contaminación de nitratos en una laguna se han seleccionado
al azar 10 cuadrı́culas de ella obteniéndose las siguientes mediciones de concentración en
miligramos por litro en cada una de estas cuadrı́culas
37.75, 40.58, 49.08, 41.99, 23.52, 29.53, 24.27, 40.56, 38.57, 30.33
Asumiéndose normalidad en las concentraciones de nitrato.
198 ÍNDICE GENERAL

a) Obtenga un intervalo de confianza al 95 % para la concentración media de nitratos en


la laguna e indique si fue suficiente tomar tan sólo 10 mediciones si era de interés estimar
esta cantidad con un margen de error no mayor a los 5 miligramos por litro.
b) Suponga que antes de tomar las mediciones se planteó que el nivel medio de contami-
nación de esta laguna superaba los 35 miligramos por litro, ¿muestran estos datos a un
nivel de significación del 5 % que esto es cierto?
c) Debido a la instalación de una fábrica que colinda con la laguna, se tiene sospechas
de que el nivel medio de contaminación por nitratos de la laguna ha aumentado. Si una
muestra en 16 cuadrı́culas tomadas al azar hace 3 meses (antes de que comenzara a operar
la nueva fábrica) arrojó una media de concentración de nitratos de 29.5 miligramos por
litro con una desviación estándar de 7.3 miligramos por litro, ¿se puede decir en base a
los datos tomados que esta sospecha es válida con una confianza del 95 %? SUG: Use el IC
obtenido en el ejercicio anterior.

10. Suponga que el monto en dólares que reclama un asegurado por



accidente de tránsito a una
θ π
compañı́a de seguros, es una v.a. X continua con media µX = 2 y función de distribución
(acumulada):
(
0, si x < 0
FX (x) = x2
1 − exp(− θ 2 ), si x ≥ 0

a) Halle el estimador de momentos de θ.


b) Obtenga, en base al estimador de momentos de θ y asumiendo una muestra suficiente-
mente grande, un intervalo de confianza aproximado al 95 % para θ.
c) Halle el estimador de máxima verosimilitud de θ.
d) Obtenga, en base al estimador de máxima verosimilitud de θ y asumiendo una mues-
tra suficientemente grande, un intervalo de confianza aproximado al 95 % para θ. SUG:
Muestre que la v.a. Y = X 2 tiene distribución exponencial de media θ 2 .
e) Suponga que en la primera mitad del año pasado se tenı́a θ = 350 y desde tal fecha hasta
inicios de este año la compañı́a ha promovido una campaña para reducir la severidad de
los accidentes en sus asegurados. Tomados los datos de los accidentes ocurridos en esta
primera mitad del año, se encontró que el monto promedio de los 64 accidentes ocurridos
para estas fechas fue de 285 dólares. Indique, en base a los intervalos de confianza obte-
nidos en b) y d), si es que la campaña logro su propósito, el cual era reducir el valor de
θ.
11. Se desea estimar el gasto total anual en adquisición de libros por parte de los alumnos de
una universidad. A fin de reducir la variabilidad, se decide considerar 3 grupos de acuerdo
al nivel de estudios: Estudios Generales, Pre-grado y Post-grado. Se selecciona una muestra
aleatoria en cada grupo y se halla un estimado del total gastado en adquisición de libros
durante un año por cada alumno obteniéndose los siguientes resultados:
Facultad de Ciencias Sociales PUCP 199

Estudios Generales Pre-Grado Post-Grado


Ni 6,000 8,000 2,000
ni 120 160 40
X̄i 46.8 59.0 37.2
Si 6.6 9.6 18.2
a) Halle un intervalo de confianza al 95 % para el gasto total en libros efectuado por los
alumnos de Post-grado.
b) Si era de interés obtener un margen de error en la estimación del inciso a) de 8,000 u.m,
¿a cuántos alumnos de Post-grado se debieron muestrear?
c) Halle una estimación puntual del gasto total en adquisición de libros en la universidad.
d) Halle un intervalo de confianza al 95 % para el gasto total en adquisición de libros efec-
tuado por los alumnos de la universidad.
12. El tiempo en horas que tarda una persona, que ha de pasar por una arteria principal, en
llegar a su trabajo de un distrito financiero se asume que es una v.a continua X ∼ Γ (2, β).
Puesto que se van a realizar obras en tal arteria, usted es contratado para hacer un estudio
de impacto ambiental en base a una encuesta que debera aplicar a los trabajadores de ese
distrito que hacen uso de esta arteria.
a) Halle el estimador de máxima verosimilitud de β y analice su consistencia.
b) Un cuestión central de su estudio es determinar el número mı́nimo de personas n que
deberá encuestar a fin de estimar el tiempo medio que se tarda un trabajador, que usa la
arteria, en llegar a su centro laboral del distrito. Si se desea estimar esta cantidad con un
margen de error no mayor a los 12 minutos y una confianza del 95 % y se dispone de los
siguientes tiempos en horas de traslado de una muestra piloto tomada al azar a 7 trabajado-
res de este distrito financiero que usan la arteria: 0.45, 1.88, 0.44, 1.82, 0.47, 0.64, 0.76 ¿cuál
serı́a el valor de n? Sugerencia: Use el TLC.
13. Se desea estimar la proporción de votantes p a favor de un candidato para las elecciones
del presidente de un club que cuenta en su padrón electoral con 1,500 socios inscritos.
Para esto se ha decidido realizar una encuesta de opinión entre los socios. Si p̄ representa
la proporción muestral de votantes a favor del candidato que se obtendrá en la encuesta y
se desea cometer un error de estimación de a lo más 0.025 con una confianza del 95 %, ¿
qué tamaño de muestra n deberı́a considerarse en la encuesta? ¿ Cuál serı́a el tamaño de
muestra en la encuesta, si ahora se desea un nivel de confianza del 99 %?
14. Un modelo financiero asume que la rentabilidad de una acción (expresada en porcentaje) es
una v.a. X ∼ N (3, σ 2 ). Una muestra aleatoria de la rentabilidad de esta acción en los últimos
10 dı́as mostró los siguientes valores:
3.56, 5.54, 1.58, -0.53, 3.98, 7.89, 1.23, 5.34, 3.12, 0.69
Construya un intervalo de confianza al 95 % para σ 2 y evaluélo en la muestra tomada.
P n 2
i=1 (Xi −3)
Utilice como v.a pivote a W = σ2
.
15. Retomando el problema 14 del capı́tulo anterior, use el TLC, para obtener un IC al 95 %
para la proporción de defectos p del bien, si en este estudio anterior se encontraron las
siguientes cantidades de bienes defectuosos en cada uno de los lotes seleccionados
200 ÍNDICE GENERAL

2, 5, 3, 5, 10, 4, 6, 5, 6, 4, 7, 0, 4, 5, 6, 4, 6, 4, 4, 4, 4, 2, 1, 3, 6, 3, 5, 6, 8, 4.
16. Una compañı́a eléctrica esta interesada en estimar, mediante muestreo, el total en kilowatts-
hora (kwh) del consumo de electricidad de las viviendas en las dos zonas que conforman
una región A: la zona urbana y la zona industrial. Es de interés también para la compañı́a
conocer la proporción p de viviendas, en cada zona, que cuentan con un medidor de marca
AFA, pues la compañı́a esta muy interesada en reemplazar estos a corto plazo. Dado que
los consumos son bastante diferenciados en ambas zonas se ha previsto hacer estudios in-
dependientes en cada uno de ellos. Para tal efecto se dispone de los resultados siguientes de
un estudio muestral ya realizado a otra región B de caracterı́sticas muy similares a la región
de interés:

Zona Número Tamaño Total de consumo Desv. Est. de los Viviendas en la


total de de la en kwh consumos en la muestra con
viviendas muestra en la muestra muestra (en kwh) medidores AFA
Urbana 1,200 50 8,500 15.2 22
Industrial 120 20 40,000 40.8 5
A un nivel de confianza del 95 %:
a) ¿Cuál fue el máximo error de estimación considerado en la estimación de la proporción
de viviendas con medidores AFA para la zona urbana de la región B?
b) ¿ Cuál fue el máximo error de estimación considerado en la estimación del consumo
total de electricidad para la zona urbana de la región B?
c) Asumiendo normalidad ¿cuál fue el máximo error de estimación considerado en la esti-
mación del consumo total de electricidad para la zona Industrial de la región B? Note que
el tamaño muestral 20 es aquı́ pequeño por lo que usted deberá de utilizar la distribución
exacta de la variable de interés.
d) Si ahora en la región A se desean estimar los consumos totales por zona con un máximo
error de estimación de 4,000 kwh y la proporción de viviendas con medidores AFA en
cada zona con un error máximo de estimación de 0.1 ¿ cuál debe de ser el tamaño de
muestra apropiado para cada zona de estudio?
17. El Ingreso mensual de las 400 microempresas de metal-mecánica de una ciudad, se asume
que es una v.a. X normal con media µ y varianza 2, y para reactivar el sector se quiere
establecer una lı́nea de crédito cuyos pagos mensuales sean iguales al 10 % del ingreso de
la empresa. Una muestra de n = 70 microempresarios dió una media de 710 dólares y una
desviación estándar de 26 dólares.
a) Construya un IC para µ al 95 % de confianza y determine el rango de pagos esperados
de un microempresario que toma el crédito.
b) ¿ Entre que valores se encontrará a un nivel de confianza del 95 % el total de pagos
mensuales que efectuaran las microempresas, si se se otorga crédito a todo el sector?
c) Determine el máximo error de estimación que se pudiera cometer en la estimación en
b).
18. Se desea hacer un estudio para averiguar entre otras cosas el gasto medio semanal µ en
Facultad de Ciencias Sociales PUCP 201

combustible que los camiones en una mina generan. De un estudio previo se tiene una
estimación de la desviación estándar de este gasto que es de 82 soles.
a) Halle el tamaño de muestra que se deberı́a de considerar, de tal manera que se pueda
estimar µ con un error no mayor a los 20 soles y una confianza del 95 %. Tome en cuenta
que la mina cuenta con 210 camiones operativos.
b) Si para el estudio anterior era también de interés estimar la proporción de camiones
que usan combustible diesel ¿cuál serı́a el máximo error de estimación que se deberı́a de
reportar en la estimación de esta proporción? Use nuevamente un nivel de confianza del
95 %?
19. Un modelo relaciona el incremento de las ventas semanales de un bien en miles de soles
Y (con respecto a su valor base de ventas en el primer mes de lanzamiento del bien) en
términos del gasto en miles de soles x que se proyecto invertir en propaganda durante esa
semana según el modelo
Yi = βxi + i , i = 1, 2, . . . , n
donde se asume que los errores son independientes y tienen distribución i ∼ N (0, ωi ),
siendo ωi un ı́ndice de inflación medio proyectado para la semana de ventas. Se asumen
que los xi y ωi son conocidos y fijos.
a) Halle el MELI de β.

b) Muestre que si dividimos la ecuación de regresión anterior entre ωi , obtenı́endose el
modelo ponderado Ỹi = β x̃i + ˜i , entonces los errores ˜i satisfacen los supuestos clásicos y
el estimador de mı́nimos cuadrados de la ecuación de regresión ponderada coincide con el
MELI de β. Este estimador es conocido como el estimador de mı́nimos cuadrados pondera-
dos.
c) Obtenga el estimador de máxima verosimilitud de β.
d) Obtenga un intervalo de confianza al 95 % para β y evalúelo si para una muestra de
10 regiones y tiempos distintos en los que se proyectaron los siguientes pares de gastos
semanales e inflación: (3.969 0.6),(2.226, 0.8),(3.561, 0.5),(1.608, 2.5), (0.301, 0.9), (6.505,
0.5), (1.110, 0.8), (0.508, 0.5), (4.398, 0.6), (0.826, 0.3) se obtuvieron los siguientes niveles
de venta: 40.146, 21.435, 35.607, 16.334, 1.947, 65.367, 11.576, 3.992, 43.393, 8.608.
202 ÍNDICE GENERAL
Capı́tulo 7

Contrastes de hipótesis

7.1. Metodologı́a de la contrastación de hipótesis


Consideremos una variable aleatoria X ∼ θ cuya función de distribución depende de un paráme-
tro (o vector de parámetros) θ.
Definición 7.1. Una hipótesis (estadı́stica) es cualquier enunciado o conjetura que podamos hacer
con respecto a la v.a. X ∼ θ.
En general estos enunciados pueden ir dirigidos a θ (hipótesis paramétricas), la forma de FX
(pruebas de bondad de ajuste) u otras relaciones basadas en la interrrelación de X con otras
v.a’s. En este curso discutiremos las denominadas pruebas paramétricas.
Todo contraste de hipótesis paramétrico sobre un parámetro θ ∈ R asume la forma:



 = θ1 simple

 > θ0 a cola derecha


H0 : θ = θ0 vs H1 : θ = 



 < θ0 a cola izquierda
, θ0 a dos colas

donde a H0 se le llama la hipótesis nula y a H1 la hipótesis alternativa (θ0 y θ1 conocidos).


La importancia de un contraste de hipótesis radica en que ella nos provee de una herramienta
estadı́stica para decidir sobre la veracidad o no de cualquiera de estas afirmaciones. Si bien
un intervalo de confianza puede también ayudar a tomar decisiones, esta ayuda es en verdad
limitada ya los IC no están exprofesamente definidos para todos los planteamientos que aquı́ se
especifican. El ejemplo siguiente muestra alguna de estas limitaciones.
Ejemplo 7.1. El mes pasado el precio de un bien tenı́a una distribución N (100, 102 ) y en la actua-
lidad, se sabe que aumento en θ unidades monetarias, pero se desconoce el valor de θ. En un medio
local se manifiesta que el precio del bien ha aumentado en más del 4 %. Para dilucidar ello se tomó una
muestra al azar de n comerciantes del bien para registrar los precios actuales a los que ellos ofrecen el
bien y estimar el parámetro θ.
a) Obtenga el estimador de máxima verosimilitud de θ y apoyándose en él construya un intervalo de
confianza al 95 % para θ.

203
204 ÍNDICE GENERAL

b) Si la m.a. dio los precios: 111, 105, 103, 110, 109 y 107, evalue el IC anterior y vea si serı́a
razonable afirmar lo que el medio local manifestó.
Solución: a) Si con X denotamos al precio del bien un mes atrás y con Y al precio actual, entonces
Y = X + θ. Por la propiedad reproductiva de la normal se tiene entonces que Y ∼ N (100 + θ, 100).
La función de verosimilitud para la muestra observada de los precios actuales viene onsecuentemente
dada por
n n
Y Y 1 1 2 1 1 Pn 2
L(θ) = fY (yi ) = √ e− 200 (yi −θ−100) = n e− 200 i=1 (yi −θ−100) .
i=1 i=1 2π10 (2π) 10n
2

Tomándose logaritmos y maximizándo esta función se tiene que


n
1 X n
K(θ) = log L(θ) = − (yi − θ − 100)2 − log(2π) − n log(10)
200 2
i=1

y
n
0 1 X 1
0 = K (θ) = (yi − θ − 100) = (nȳ − 100n − nθ)
100 100
i=1
00
Como K (θ) = −n < 0, el estimador de máxima verosimilitud de θ vendra dado por θ̂MV = Ȳ − 100.
Nuevamente por la propiedad reproductiva de la distribución normal, se tiene que θ̂MV ∼ N (θ, 100
n ).
Por tanto, podrı́amos usar la estandarización de esta v.a. como pivote para la construcción del IC
pedido, es decir, considerando como variable pivote a Z = θ̂10/
MV√−θ
n
∼ N (0, 1). Tomado al 95 % los valores
-1.96 y 1.96 que tiene precisamente una área de 0.95 en esta distribución se tiene que

√ θ̂MV − θ 10 10
0.95 = P (1.96 ≤ n ≤ 1.96) = P (θ̂MV − 1.96 √ ≤ θ ≤ θ̂MV + 1.96 √ )
10 n n
10 10
El IC al 95 % para θ es entonces IC = [θ̂MV − 1.96 √n
, θ̂MV + 1.96 √n
]
b) De la muestra tenemos que n = 6, ȳ = 107.5 y θ̂MV = ȳ − 100 = 7.5. Reemplazando ello en el
IC, obtendremos la estimación por intervalos IC = [−0.5 , 15.5] que se leerá en el contexto de este
problema como IC = [0 , 15.5], pues θ > 0. Dado que el precio medio inicial era de 100, entonces el
incremento de precios está entre 0 y 15.5 %. Por tanto, la afirmación que el precio promedio del bien
ha crecido en más del 4 % equivale a que θ > 4 y según el IC 0 ≤ θ ≤ 15.5 (con 95 % de confianza,
claro). En consecuencia no podrá asegurarse que el precio promedio ha crecido en más de 4 %, pues el
IC podrı́a contener también un porcentaje menor.
Este ejemplo ilustra la utilidad de los intervalos de confianza para explorar hipótesis generadas
a partir de datos. Pero también muestra que a veces los intervalos no pueden ayudarnos a deci-
dir de modo concluyente. La razón de ello es que estos no han sido diseñados para cumplir ese
rol. En particular no usan toda la información que hay en la muestra (en el ejemplo, realmente
sólo nos interesaba el lado izquierdo del intervalo y la probabilidad a la derecha no se usa) y no
controlan totalmente las probabilidades de error, derivadas del hecho de estar tomando decisio-
nes a partir de muestras. Se necesita una herramienta ad hoc. Esta herramienta es precisamente
Facultad de Ciencias Sociales PUCP 205

la prueba o contraste de hipótesis. En efecto, retornando al problema anterior una manera más
formal para resolver la parte b) del ejemplo anterior serı́a planteando el contraste de hipótesis

H0 : θ = 4 vs H1 : θ > 4.

Aquı́ a H1 (que contiene lo que se quiere probar) se le suele llamar también la hipótesis de
trabajo. Ella se basa por lo general en una conjetura o explicación teórica de algún proceso, la
cual uno desea verificar con evidencia empı́rica. Si la evidencia proviene de muestras, entonces
podemos aprovechar las herramientas estadı́sticas para evaluarla, pero para ello, debemos pre-
viamente frasearla en términos estadı́sticos. Por ejemplo, si debido a la demanda de minerales
en el mercado mundial y al acceso a mayores cuotas en mercados antes restringidos, observa-
mos una mayor actividad en los sectores minero y agrı́cola de exportación, es natural esperar un
cierto incremento en el empleo. En particular, esto implica que la tasa π de desempleo abierto
actual debiera ser menor que la de hace un par de años, en que era del 9 %. La hipótesis de
trabajo puede ser algo como: “El desempleo actual en la economı́a es menor que el de hace dos
años” ¿Cómo pasar esta hipótesis a un formato estadı́stico que permita su contraste con datos
reales? Una manera podrı́a ser la siguiente:
Supongamos que tomamos al azar a un elemento de la PEA. ¿Cuál es la probabilidad de que se
encuentre en condición de desempleo abierto? La respuesta es que esa probabilidad es π . Ahora
bien, si tomamos una muestra al azar de n elementos de la PEA, independientes entre sı́, ¿Cuál
es la distribución de la v.a. X = número de personas en situación de desempleo abierto en la
muestra? Recordando el proceso que genera la distribución binomial, tenemos que X ∼ B(n, π)
, pues se cumplen todos los supuestos del modelo (nótese que aquı́ la distribución binomial es
un modelo de datos, no uno económico). Ahora bien, notemos que hay dos posibilidades: La
hipótesis de trabajo es verdadera o es falsa. Y de ahı́ se deriva que si la hipótesis de trabajo es
verdadera entonces X ∼ B(n, π < 0.09), pues bajar el desempleo implica que π < 0.09. De otro
lado, si la hipótesis de trabajo es falsa se tiene que X ∼ B(n, π = 0.09), ya que aún si no hay
reactivación en el empleo, de todos modos sı́ hay reactivación económica por el contexto de
mayor demanda y por tanto mayor producción, lo que si no baja el desempleo, por lo menos no
lo aumenta, es decir π no cambiará su valor y seguirá siendo π = 0.09. Ası́, podemos someter
a prueba la hipótesis estadı́stica X ∼ B(n, p = 0.09) para evaluar nuestra hipótesis de trabajo.
El problema es cómo hacerlo. Esa es la cuestión por resolver. Felizmente, el tener un modelo
de datos, provee de material suficiente. Por ejemplo, como ya sabemos que para este modelo,
µX = nπ, este hecho puede darnos una pista de un método para evaluar nuestra hipótesis de
trabajo: simplemente tomemos una muestra de n casos (por ejemplo 100 casos) y si el valor
observado cae muy por debajo de lo esperado µX (en el caso de n = 100, lo esperado es µX = 9
desempleados), podemos considerar que nuestra hipótesis de trabajo es cierta. En las lı́neas que
siguen, precisamos mejor estas ideas.
En general, una hipótesis nula H0 o su alternativa H1 , que la llamaremos hipótesis de trabajo,
pueden, en base a una muestra aleatoria X1 , X2 , ..., Xn de X, probarse ser verdadera o falsa. Claro
está que sólo una de ellas será verdadera y la otra falsa. La idea para contrastrarlas es construir
mediante algún procedimiento adecuado, una regla de decisión mediante una estadı́stica de
206 ÍNDICE GENERAL

prueba

Y0 : S → R

que tenga distribución conocida bajo H0 . Aquı́ S denota a la colección de todas las posibles
muestras de tamaño n que pudieran elegirse de la población de X. La estadı́stica de prueba
resume la información contenida en la muestra y ,con la regla de decisión, particiona el espacio
S en dos regiones: la región de aceptación de H0 y la región crı́tica o de rechazo de H0 . Luego, un
experimentador al observar los valores que toma su muestra, evaluar su estadı́stica de prueba y
apreciar en que región cae, tomará finalmente la decisión que corresponda.

Definición 7.2. Un contraste, o prueba de hipótesis, es una partición del espacio de posibles muestras
S en dos regiones: una llamada la región de aceptación de H0 y la otra la región crı́tica o de rechazo
de H0 .

Cuando un experimentador tome la decisión de rechazar o aceptar H0 , él podrı́a cometer dos
tipos de error. Estos errores se miden como sigue

Definición 7.3.

α = P (Error tipo I) = P (Rechazar H0 | H0 es verdadera)

β = P (Error tipo II) = P (Aceptar H0 | H0 es falsa).

Obviamente un buen contraste es aquel en el que α y β son los más pequeños posibles. Desafor-
tunadamente se cumple en general que α y β están inversamente relacionados, es decir, que al
buscar minimizarse uno de estos errores el otro se incrementa. Por tal motivo, se ha convenido
(universalmente) en fijar a α a fin de tratar de encontrar la mejor prueba; es decir, aquella que
con este α dado tenga el β más pequeño o si se quiere la potencia

Φ = P (Rechazar H0 | H0 es falsa) = 1 − β

máxima. Esta convención hace de que a α se le denomine también el nivel de significación de


la prueba y a H1 , como ya lo dijimos, la hipótesis de trabajo, ya que de probarse que H0 es falsa
y por tanto probarse la hipótesis de trabajo H1 se tendrá controlado mediante α el error en esta
decisión. Note que si la hipótesis de trabajo es compuesta, no existirá un único valor para β,
pues este dependerá del valor que se especifique para θ cuando H1 sea verdadera.
La figura 5.1 nos resume la metodologı́a de un contraste de hipótesis
Facultad de Ciencias Sociales PUCP 207

Figura 7.1: Metodologı́a general de un contraste de hipótesis

Observaciones:
Internacionalmente se considera que un α apropiado debe ser menor o igual a 0.05, siendo
el nivel de significación α = 0.05 el más utilizado en la mayorı́a de estudios.
Lo que hace el investigador es usar las leyes de probabilidad para encontrar la distribución
teórica del estadı́stico de prueba Y0 asumiendo que la hipótesis nula H0 es cierta; luego se
determina un rango C de valores del estadı́stico de prueba, que tenga una probabilidad
conocida α de ocurrir. Este rango C es la región crı́tica o sea, si al tomar la muestra ocurre
C, se rechazará H0 y su probabilidad α es el nivel de significación asociado.

7.2. El teorema de Neyman-Pearson y las pruebas UMP


7.2.1. El teorema de Neyman-Pearson
Como comentamos anteriormente un contraste, con su regla de decisión definida a través de
su región crı́tica o de rechazo de H0 , es óptima si fijado un nivel de significación α, esta tiene
el menor β o equivalentemente, la mayor potencia posible. La existencia de este contraste sólo
puede garantizarse en general, si la hipótesis de trabajo es simple. Esto es lo que precisamente
nos dice el teorema de Neyman-Pearson. Es más este teorema, que enunciamos a continuación,
no sólo nos garantiza la existencia de tal región crı́tica, sino que nos dice cómo construirla.
Proposición 7.1 (Teorema de Neyman-Pearson). Sea X1 , X2 , ..., Xn una m.a de X ∼ θ, x1 , x2 , ..., xn
sus valores observados y L(θ) la función de verosimilitud de la m.a. Si deseamos contrastar a nivel α:
H0 : θ = θ0 vs H1 : θ = θ1 (θ0 , θ1 conocidos) (7.1)
208 ÍNDICE GENERAL

Entonces la región crı́tica:


L(θ1 )
R∗ = {(x1 , x2 , ..., xn ) / ≥ K},
L(θ0 )
donde K se halla de manera que α = P (Error tipo I) = P ((X1 , X2 , . . . , Xn ) ∈ R∗ | H0 es verdadera),
es la mejor región crı́tica a nivel α para contrastar (7.1). Esto es, R∗ es la región crı́tica que tiene la
máxima potencia (o menor β) entre todas la regiones crı́ticas a nivel α que puedan construirse para
contrastar (7.1).
Ejemplo 7.2. Sea X ∼ exp(θ) y se desea contrastar a nivel α = 0.05:

H0 : θ = 2 vs θ = 6

a partir de una muestra grande de tamaño n = 36. Determine la región crı́tica oṕtima.
Solución: Dado que nuestra hipótesis alternativa es simple, el teorema de Neyman-Pearson garantiza
la existencia de la región pedida. Para obtenerla, sea X1 , X2 , . . . , X36 la m.a. de X ∼ exp(θ) y sean
x1 , x2 . . . , xn sus valores observados y sigamos la metodologı́a propuesta por el teorema de Neyman-
Pearson:
(1) La función de verosimilitud de esta m.a. viene dada por

36
Y 36
Y P36
L(θ) = fX (xi ) = θe−θxi = θ 36 e−θ i=1 xi = θ 36 e−36θ x̄ .
i=1 i=1

(2) La región crı́tica óptima toma la forma

L(2) 0
R∗ = {(x1 , x2 , . . . , x36 ) / ≥ K} = {(x1 , x2 , . . . , x36 ) / 336 e−144x̄ ≥ K} = {(x1 , x2 , . . . , x36 ) / x̄ ≤ K }
L(6)
0 36 log(3)−log(K)
(3) Para hallar K = 144 , hagamos uso de que α = 0.05:
0
0.05 = P ((X1 , X2 , . . . , Xn ) ∈ R∗ | θ = 2) = P (X̄ ≤ K | θ = 2)

Si bien se podrı́a obtener esta probabilidad, recordando que X̄ tiene distribución Gamma, es más
simple aproximarla por el TLC, ya que en otros problemas será no siempre factible tener la distribu-
ción exacta de X̄.
(4) El TLC implica entonces que si H0 es verdadera se cumple que aproximadamente X̄ ∼ N ( θ1 , 36θ
1
2 ).
1
Más aún, si H0 es veradadera θ = 2 y aproximadamente X̄ ∼ N (0.5, 144 ). Ası́
0
0 K − 0.5 0
0.05 = P (X̄ ≤ K | θ = 2) = P (Z ≤ √ ) = P (Z ≤ 12(K − 0.5))
1/144
0 0
De la tabla normal estándar se tiene entonces que 12(K − 0.5) = −1.645 y K = 0.363.
(5) Finalmente la región crı́tica es

R∗ = {(x1 , x2 , . . . , x36 ) / x̄ ≤ 0.363}.


Facultad de Ciencias Sociales PUCP 209

Observación: En el ejemplo anterior sólo hemos construido la región crı́tica óptima. Para de-
cidir entre H0 y H1 faltarı́a tomar la muestra y evaluar la media x̄, verificando si ocurre o no
R∗ . Si por ejemplo sucede que x̄ = 1.2, entonces se aceptará H0 y concluiremos que θ = 2. Esta
decisión recuerde no es 100 % segura. La probabilidad de que nos equivoquemos estará dada
por β = P (X̄ > 0.363 | θ = 6), valor que puede comprobar como ejercicio que es muy cercano a 0,
pero no exactamente 0.
Si bien en el ejemplo anterior es posible obtener β = P (Error tipo II), pues θ es un valor fijo
cuando H0 es falsa, si la alternativa es compuesta, β dependerá del verdadero valor de θ cuando
H0 sea falsa, valor que desconocemos y en consecuencia β es una función de tal valor. En esta
situación concluir que H0 es verdadera es por decirlo menos “temerario”, pues no podremos
justificar el margen de error que estamos cometiendo al tomar esta decisión. Este β podrı́a ser
de de por ejemplo 0.8, lo cuál nos dirı́a que casi siempre estarı́amos proponiendo una regla de
decisión que nos lleva a malas decisiones. Para precisamente evitar ello se acostumbra y reco-
mienda decir que en caso no se satisfaga la región crı́tica asociada a una alternativa compuesta,
se diga que no se rechaza H0 , o más diplomáticamente, que no hemos encontrado evidencia
suficiente para poder rechazarla.
Por otro lado, en situaciones reales, plantear alternativas simples es poco frecuente, pues el
fijar el valor de θ en H1 a un único valor de infinitos suena algo arbitrario y difı́cilmente una
teorı́a o conjetura podrı́a sustentarlo. Para el caso de alternativas compuestas apelaremos o otros
procedimientos, como el que seguidamente se trata; sin embargo, la importancia del teorema
de Neyman-Pearson más que teórica es en verdad práctica pues esta guı́a todos estos otros
procedimientos bajo una lógica prestada de este resultado.

7.2.2. Contrastes uniformemente más poderosos

En el caso de alternativas compuestas (es decir, cuando θ en H1 no toma un único valor), no


existe un teorema similar al de Neyman-Pearson; sin embargo, este teorema nos puede ser aún
útil. En efecto, si deseamos contrastar a nivel α H0 : θ = θ0 contra una alternativa compuesta;
por decir H1 : θ > θ0 , podemos convertir la alternativa en simple, reescribiendo H1 : θ = θ1 para
un valor fijo pero arbitrario θ1 > θ0 . Si la crı́tica óptima R∗ obtenida de la aplicación del teorema
de Neyman-Pearson al contraste transformado no depende de θ1 , entonces estarı́amos asegu-
rando que esta es la región crı́tica más poderosa a nivel α para nuestro contraste cualquiera sea
el valor que tome θ1 . Un contraste como este es conocida como el contraste uniformemente más
poderoso (contraste UMP) a nivel α para una alternativa compuesta.
Ejemplo 7.3. Un inspector piensa que debido a las quejas de los consumidores las balanzas que se
utilizan en los mercados de abastos de un distrito de la capital están siendo adulteradas. Para tal
efecto, se eligieron al azar 25 puestos de expendio, registrándose en cada uno de ellos el peso de un kilo
real en cada una de las balanzas de estos puestos. Asumiendo normalidad y una desviación estándar
conocida de 0.1 Kgs:
a) Plantee las hipótesis del caso.
b) Halle (si existe) la prueba UMP a nivel α para contrastar sus hipótesis.
210 ÍNDICE GENERAL

c) ¿ Qué es lo que determinarı́a si al registrar los pesos encuentra que en promedio estos dan 1.075
kgs ?. Use α = 0.05.
d) Haga un esbozo del gráfico de la potencia φ del contraste UMP en función del valor que el paráme-
tro toma bajo H1 y compare esta gráfica con la de la potencia de otro contraste definido por una
región crı́tica de la forma

R̃ = {(x1 , x2 , ..., xn ) / máx{x1 , x2 , . . . , xn } ≥ K},

Use α = 0.05.
Solución: a) Sea X = Peso de un kilo real en una balanza de un puesto de expendio del distrito.
Asumiendo como se indica que X ∼ N (µ, 0.12 ), estaremos interesados en contrastar a nivel α:

H0 : µ = 1 vs H1 : µ > 1. (7.2)

Note que H1 : µ > 1 es aquı́ la hipótesis de trabajo del inspector, pues él piensa que al estar adulte-
radose las balanzas, ellas tenderán a registrar en promedio un mayor peso del que realmente miden.
Naturalmente, las quejas de los consumidores se sobreentiende que están referidas a que ellos perciben
recibir menos de sus productos de lo que realmente compran.
b) Dada una m.a. X1 , X2 , . . . , Xn de X y sus valores observados x1 , x2 , . . . , xn , la función de verosimilitud
de esta m.a. viene dada por:
1 − 0.102 ni=1 (xi −µ)2
P
L(µ) = fX (x1 )fX (x2 ) . . . fX (xn ) = e .
(0.02π)n/2
El contraste de interés puede entonces convertirse en uno simple si lo reescribimos como:

H0 : µ = 1 vs H1 : µ = µ1 (∗),

donde µ1 es un valor fijo pero arbitrario mayor a 1. Para obtener la región crı́tica, si es que existe,
L(µ ) 1 Pn 2 2
necesitamos trabajar la razón: L(1)1 = e 0.02 i=1 ((xi −µ1 ) −(xi −1) ) . Luego de simplificar, la región crı́tica
óptima del contraste con alternativa simple es:
n 2 n 2
R∗ = {(x1 , x2 , . . . , xn ) / en(µ1 −1)x̄ e 2 (µ1 −1) ≥ K} = {(x1 , x2 , . . . , xn ) / n(µ1 − 1)x̄ ≥ Ke− 2 (µ1 −1) }
0 K n 2
= {(x1 , x2 , . . . , xn ) / x̄ ≥ K = e− 2 (µ1 −1) },
n(µ1 − 1)
0
donde en la última igualdad se ha hecho uso de que µ1 > 1. Aquı́ K es una constante arbitraria, pues
K lo es, que deberemos encontrar para explicitar la región crı́tica. Para ello usaremos el hecho de que
α = 0.05. Veamos:
0
K −1
0
0.05 = P (RechazarH0 | H0 es verdadera) = P (X̄ > K | µ = 1) = P (Z0 ≥ ),
0.1/5
0
donde Z0 = 0X̄−1
.1/5 ∼ N (0,0 1) es la estadı́stica de prueba. Equivalentemente 0.95 = P (Z0 ≤ K50−1 ), de
donde se sigue que 50(K − 1) = z0.95 = 1.645 y que K = 1 + 1.50
0 645
= 1.0329. Ası́ la región crı́tica más
poderosa para contrastar (*) es:

R∗ = {(x1 , x2 , . . . , xn ) / x̄ ≥ 1.0329}
Facultad de Ciencias Sociales PUCP 211

ó equivalentemente
x̄ − 1
R∗ = {(x1 , x2 , . . . , xn ) / z0 =
≥ 1.645}.
0.1/5
Como esta región no depende de µ1 , entonces podemos garantizar que esta es también la región crı́tica
UMP para el contraste (7.2).
c) Como la región crı́tica del contraste es x̄ > 1.0329 y se ha observado en la muestra que x̄ = 1.075,
entonces esta región crı́tica se satisface (1.075 > 1.0329). En conclusión se rechazará H0 y el inspector
podrá asegurar, con una probabilidad de equivocarse del 5 %, que las balanzas que se utilizan en los
mercados de abastos del distrito si están siendo adulteradas.
d) Un esbozo de la gráfica de la potencia φ = 1 − β de este contraste en función de µ bajo H1 se puede
encontrar tabulando, con la tabla normal, algunos valores de la función

φ ≡ φ(µ) = P (Rechazar H0 | H0 es falsa) = 1 − P (X̄ < 1.0329 | µ > 1)

= 1 − P (Z < 50(1.0329 − µ)) = 1 − FZ (50(1.0329 − µ)),


cuando µ > 1 y Z ∼ N (0, 1).
Ejemplo 7.4. Un modelo relaciona el salario Y de una persona en cierta ciudad en términos del
número de años de estudio de esta, x, mediante el modelo

Yi = α0 + βxi + i , i = 1, 2, . . . , n

donde se asume que α0 es conocido, los errores i ∼ N (0, σ 2 ) son independientes y los xi son fijos.
a) Analice si existe una prueba UMP a nivel α para contrastar

H0 : β = β0 vs H1 : β < β0

En caso afirmativo de esta región crı́tica.


b) En un medio local un economista manifestó que por cada año adicional que una persona estudia
en cierta ciudad, sus salarios se incrementan en promedio en 500 u.m. A usted sin embargo ello
le parece una exageración, por lo que entrevistó a 9 sujetos seleccionados al azar de esta ciudad,
encontróandose los siguiente pares de años de estudio y salarios en miles de u.m.:

(12, 2.380); (25, 6.670); (20, 4.623); (32, 8.431); (8, 2.899);

(12, 3.332); (35, 8.231); (30, 8.962); (10; 3.663),


Si α0 = 0.2 ¿podrı́a afirmar a un nivel de significación de α = 0.05 que el economista ha exagerado?
Solución: a) Sean (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) los valores observados de una m.a de pares de (x, Y ). Se
desea contrastar a nivel α:
H0 : β = β0 vs H1 : β < β0 , (7.3)
la cual se puede convertir en simple escribiendo H1 : β = β1 , con β1 < β0 .
El teorema de Neyman Pearson manifiesta que la región crı́tica óptima a nivel α de este contraste
simplificado es
L(β0 , σ 2 )
RC ∗ = {(y1 , y2 , . . . , yn ) / ≤ K},
L(β1 , σ 2 )
212 ÍNDICE GENERAL

1 Pn 2
1 − i=1 (yi −α0 −βxi )
donde de Yi ∼ N (α0 +βxi , σ 2 ), la función de verosimilitud viene dada por L(β, σ 2 ) = n n e 2σ 2 .
(2π) 2 (σ 2 ) 2
Trabajándose el ratio de verosimilitudes en la desigualdad de arriba se obtiene:

n
X n
X
0 00
RC ∗ = {(y1 , y2 , . . . , yn ) / (β0 − β1 ) xi yi ≤ K } = {(y1 , y2 , . . . , yn ) / xi yi ≤ K }
i=1 i=1
desde que (β0 − β1 ) ≥ 0.
00
Para hallar el valor de K haremos uso de la probabilidad de cometer el error de tipo I, α. Antes
observemos que ni=1 xi Yi ∼ N (α0 ni=1 xi + β ni=1 xi2 , σ 2 ni=1 xi2 ); sin embargo esto no es de mucha
P P P P
S2
ayuda pues σ 2 se desconoce. Por fortuna es posible demostrar (hagalo!) que la v.a. W = (n − 1) σ2 ,
Pn
(Y −α −β̂x )2
con S2 = i=1 in−10 i y β̂ el estimador de máxima verosimilitud de β, tiene una distribución Ji-
cuadrado de n − 1 grados de libertad y que esta es independiente de la variable anterior estandarizada.
Luego, podemos construir la v.a. T dada por
Pn Pn 2
i=1 xi Yi − α0 nx̄ − β i=1 xi
T = q ∼ t(n − 1).
Pn 2
S i=1 ix

Por tanto 00
n
C − α0 nx̄ − β0 ni=1 xi2
X P
00
α =P( xi Yi ≤ K | β = β0 ) = P (T0 ≤ q ),
Pn 2
i=1 S i=1 xi
Pn Pn 2
i=1 xi Yi −α0 nx̄−β0 i=1 xi
donde T0 = √ Pn 2 ∼ t(n − 1) es la estadı́stica de prueba. De aquı́
S i=1 xi

v
n
t n
00
X X
K = α0 nx̄ + β0 xi2 + tα (n − 1)S xi2
i=1 i=1

y la región crı́tica óptima del contraste simplificado viene dada por:


v
n n n
t
X X X
RC ∗ = {(y1 , y2 , . . . , yn ) / xi yi ≤ α0 nx̄ + β0 xi2 + tα (n − 1)S xi2 }
i=1 i=1 i=1

o simplemente por
RC ∗ = {(y1 , y2 , . . . , yn ) / t0 < −tα (n − 1)}
donde t0 es el valor observado de la estadı́stca de prueba T0 . Puesto que esta región no depende de β1 ,
ella es también la región crı́tica UMP para (7.3).

7.3. Contrastes de la razón de verosimilitud


Uno de los principales problemas con los contrastes UMP es que estos en general no existen
si la hipótesis alternativa es a dos colas. En tales situaciones podrı́amos recurrir a un método
bastante genérico, que incluso se utiliza para hipótesis sobre vectores de parámetros, conocido
como el contraste de la razón de verosimilitud.
Facultad de Ciencias Sociales PUCP 213

Definición 7.4. Sea X1 , X2 , ..., Xn una m.a de X ∼ θ ∈ Θ ⊂ Rk , x1 , x2 , ..., xn sus valores observados y
L(θ) la función de verosimilitud de la m.a. Si deseamos contrastar a nivel α:

H0 : θ ∈ Θ0 vs H1 : θ ∈ Θ \ Θ 0

Entonces el criterio de la prueba de la razón de verosimilitud considera como región crı́tica a

máxs.aθ∈Θ0 L(θ)
R = {(x1 , ..., xn ) ∈ Rn / λ = ≤ K},
máxs.aθ∈Θ L(θ)

donde K se halla de manera que α = P (Error tipo I) = P ((X1 , X2 , . . . Xn ) ∈ R | θ ∈ Θ0 ).


Como se observa la razón de verosimilitud observada λ, cuya v.a. subyacente la denotaremos
por Λ, es el cociente de la función de verosimilitud evaluada en el valor que maximiza L(θ)
bajo H0 (“verosimilitud restrigida”) y la función de verosimilitud evaluada en el estimador de
máxima verosimilitud de θ. Ası́, mientras más pequeño sea este cociente (que siempre está
entre 0 y 1), más evidencia se tendrá de que H0 es falsa y de allı́ la forma de la región crı́tica.
Un problema sin embargo de este contraste es que obtener las máximas verosimilitudes no
siempre es fácil y aún si las obtuviésemos al calcular el cociente y desarrollar la desigualdad, la
forma de esta región nos puede conducir a estadı́sticos de distribución bastante compleja. Una
manera de solucionar este problema es apelando a la distribución asintótica de Λ. En efecto, es
posible probar que si se satisfacen las condiciones de regularidad dadas para la normalidad del
estimador de máxima verisimilitud, se tiene bajo H0 que:

D
−2 log Λ → χ2 (k − r), conforme n → ∞,

donde r es el número de parámetros libres (es decir, que requerirı́an ser estimados) cunado H0
es verdadera.
Ejemplo 7.5. Sea X1 , X2 , . . . , Xn una m.a de una v.a X ∼ exp(β).
a) Analice si las pruebas UMP y de razón de verosimilitud coinciden al contrastar a nivel α:

H0 : β = β0 vs H1 : β > β0

b) Suponga que el tiempo en horas de reparación de los autos en un taller se asume sigue una dis-
tribución exponencial de parámetro β. El dueño del taller afirma que ellos se demoran en promedio
unas 3 horas en reparar un auto, pero usted piensa que no. Si tomada una muestra al azar de la
reparación de 49 vehı́culos en el taller se encontró una media de tiempo de reparación de 3 horas con
15 minutos, plantee este problema como un contraste de hipótesis y de la decisión que corresponda.

7.4. Ejercicios
1. La duración de un servicio en horas se asume que es una v.a X ∼ N (µ, 4).
a) Halle la región crı́tica óptima para contrastar a nivel α = 0.05 las hipótesis H0 : µ = 10
vs H1 : µ = 12.
214 ÍNDICE GENERAL

b) ¿Qué es lo que concluirı́a si una m.a. de tamaño 10 de X arroja una media de 11 horas?
c) Suponga que alguien propone una región crı́tica de la forma R = {(x1 , x2 , . . . , xn ) / x̄ ≥ 11}.
Halle la probabilidad de cometer el error tipo II en este contraste y compárelo con el de
a).
2. Sea X1 , X2 , . . . , Xn de la v.a continua X de función de densidad fX (x) = θxθ−1 , 0 < x < 1
a) Obtenga la región crı́tica más poderosa a nivel α = 0.05 para contrastar H0 : θ = 1 vs
H1 : θ = 2.
b) Si X denota a la proporción de un compuesto en la mezcla de un medicamento, ¿qué es
lo que concluirı́a a un nivel de significación de α = 0.01 con relación a la hipótesis anterior
si para una muestra al azar del medicamento se encuentran las siguientes proporciones
del compuesto: 0.15, 0.08, 0.25, 0.33, 0.28, 0.31, 0.09, 0.17?
c) ¿Existe una prueba UMP para contrastar H0 : θ = 1 vs H1 : θ > 1. Si fuera ası́ halle la
forma que tendrı́a esta región crı́tica.
d) ¿Qué es lo que resonderı́a en c) si el contraste fuera ahora H0 : θ = 1 vs H1 : θ , 1?
3. En la caja de una tienda hay 12 billetes, m de lo cuales son falsos. El cajero piensa que hay
3 billetes falsos y usted que son más. Para contratar estas afirmaciones se extraen 4 billetes
uno por uno con reemplazo y se rechaza la hipótesis del que atiende (nula) si tres de los
billetes son falsos.
a) Calcule la probabilidad de cometer el error tipo I de este contraste.
b) Calcule la probabilidad de cometer el error tipo II cuando m es igual a cuatro.
4. Supónga que X tiene una distribución de Poisson con parámetro λ. Para contrastar:

H0 : λ = 0.2 vs H1 : λ > 0.2

se toma una muestra aleatoria de tamaño n de X y se decide rechazar H0 si x̄ > K.


a) Si n = 10 y K =0.3 ¿cuál es el nivel de significación del contraste?
b) Si n = 10 y se fija un nivel de significación de α =0.05 ¿cuál deberı́a ser el valor de K.
c) ¿Coincide la prueba anterior con la prueba UMP correspondiente?
d) Si n = 50 y se fija un nivel de significación de α =0.05, halle (utilizando el teorema
del lı́mite central) el valor de K y determine luego que decisión deberı́a de tomarse si se
observa que la media muestral dió un valor de 0.248.
5. Sea X una v.a continua con función de densidad fX (x) = θ 2 xe−θx , x > 0. Si se desea contras-
tar a nivel α H0 : θ = 1 vs H1 : θ = 2. Halle para un tamaño de muestra n = 10 su región
crı́tica óptima.
6. En un modelo financiero, se sabe que la rentabilidad de una acción (expresada en porcen-
taje) es una v.a.c. X ∼ N (3, σ 2 ). Una muestra aleatoria de la rentabilidad de esta acción en los
últimos 10 dı́as mostró los valores siguientes: 3.56, 5.54, 1.58, −0.53, 3.98, 7.89, 1.23, 5.34, 3.12, 0.69
a) Construya un intervalo de confianza al 95 % para σ 2 y evaluélo en la muestra tomada.
Piense en la distribución chi-cuadrado para la variable pivote.
Facultad de Ciencias Sociales PUCP 215

b) En el modelo anterior se ha venido asumiendo que σ 2 = 4, un analista sin embargo


piensa que la inestabilidad actual de la Economı́a está ocasionando un riesgo mayor y el
valor de σ 2 es más alto. Para examinar su idea, él plantea contrastar:

H0 : σ 2 = 4 vs H1 : σ 2 > 4.

y propone una región crı́tica de la forma RC = {(x1 , x2 , . . . , xn ) ∈ Rn / ni=1 (xi − 3)2 ≥ C}.
P

Halle C de tal manera que el contraste tenga un nivel de significación de α = 0.05. ¿Qué
es lo que se deberı́a de concluir con respecto a la afirmación del analista de acuerdo a la
muestra arriba tomada?
7. Un empresa produce cables de 100 m. de longitud. Se asume que las fallas en estos se
producen a través de un proceso de Poisson y según las especificaciones de control estas
deben darse a una tasa de una por cada 20 m. Cada cable tiene un costo de producción de
80 soles y se vende en el mercado a 175 soles. La empresa garantiza restituir todo cable
que no cumpla las especificaciones de control (es decir, que tenga mas de 5 fallas) y más
aún indenmizar por este motivo al consumidor con 50 soles. Para verificar la calidad de un
cable se selecciona de él al azar una sección de 10 m. de longitud y se concluirá que la tasa
de ocurrencia de fallas en él es mayor a la especificada si es que en esta sección se ubican
3 o más fallas. En este caso el cable será reemplazado por uno nuevo. En caso contrario el
cable pasará el control y se venderá en el mercado.
a) Plantee este problema como un contraste de hipótesis definiendo claramente sus hipóte-
sis y obteniendo el nivel de significación del contraste.
b) Si un cable con una tasa de ocurrencia de fallas de ω =0.1 por metro es sometido al con-
trol,
¿ qué probabilidad existe de que pase el control ?
c) Halle la utilidad esperada que generará un cable producido con una tasa de ocurrencia
de falla de ω = 0.1 por metro.
8. Si se desea contrastar a nivel α: H0 = µ = µ0 vs H1 : µ < µ0 , donde µ es la media de una v.a X
con distribución normal de varianza desconocida, muestre que la región crı́tica UMP viene
dada por:
s
RC ∗ = {(x1 , x2 , . . . , xn ) ∈ Rn / x̄ < t1− α2 (n − 1) √ },
n
donde x̄ y s son, respectivamente, la media y desviación estándar muestrales y t1− α2 (n − 1)
el valor en la tabla t de student que tiene un área hacia la izquierda de 1 − α2 .
9. Suponga que el precio de un bien en soles es una v.a X con distribución normal de media
µ = 380 y varianza σ 2 , donde 380 soles es el precio sugerido por el fabricante.
a) Tomada una muestra aleatoria X1 , X2 , . . . , Xn de X, muestre que la v.a
n
X (Xi − 380)2
Y=
σ2
i=1

tiene distribución Ji-cuadrado indicando sus grados de libertad.


b) Obtenga, usando como variable pivote a Y , un intervalo de confianza al 98 % para σ 2 .
216 ÍNDICE GENERAL

c) Suponga que desea contrastar a nivel α = 0.05, H0 : σ 2 = 100 vs H1 : σ 2 > 100 y al tomar
una m.a de tamaño n = 30 de X encuentra que el valor de la estadı́stica Y cuando H0 es
verdadera es de 5,036.58. Utilice esta información, construyendo una prueba UMP para
el contraste, a fin de decidir si se tiene que rechazar o no H0 .
10. Se ha determinado que el consumo de agua potable en una ciudad es una v.a. con distri-
bución normal de media desconocida y desviación estándar 500 pies3 . La oficina del sector
está revisando la posibilidad de iniciar una campaña educativa en la ciudad para no hacer
uso indiscriminado del agua. La campaña no será iniciada si el promedio de agua consu-
mida es menor que 2,500 pies3 . Ante la posibilidad de saber si el promedio es menor que
2,500 se toma una muestra de tamaño n y se pretende contrastar:

H0 : µ = 2, 500 vs H1 : µ < 2, 500.

¿ Cuál debe ser el tamaño de muestra n y la regla de decisión UMP a tomar si se desea que
la probabilidad de cometer el error tipo I sea de 0.05 y que la probabilidad de cometer el
error tipo II sea de 0.01 cuando el verdadero consumo medio es de 2,300 pies3 ?
11. Muestre que para el modelo del ejemplo 7.4. se cumple que
n
1 X
W= (Yi − α0 − β̂xi )2 ∼ χ2 (n − 1)
σ2
i=1

donde β̂ es el estimador de máxima verosimilitud de β.


12. Un modelo relaciona el consumo personal Y con el Ingreso disponible X mediante el modelo

Yi = βxi + i , i = 1, 2, . . . , n

donde se asume que los errores i ∼ N (0, xi ) son variables aleatorias independientes y los
valores xi se consideran fijos y estrictamente positivos.
a) Halle el MELI de β ¿coincide este con el estimador de máxima verosimilitud de β?
b) Suponga que se desea contrastar a nivel α = 0.05 que la propensión marginal al consumo
β es inferior a cierto nivel conocido β0 . Plantee esto como un contraste de hipótesis y halle
la prueba UMP para contrastar esta hipótesis a nivel α.
c) Suponga que alguién plantea para el contraste en b) una región crı́tica de la forma:
n
X
RC = {(y1 , y2 , . . . , yn ) ∈ Rn+ / xi yi ≤ C}
i=1

Halle el valor de C para que este contraste tenga un nivel de significación de α = 0.05.
¿Cuál de los dos contrastes propuestos utilizarı́a? Justifique su elección.
13. Las mediciones de n personas de calificación y habilidades diversas sobre un mismo objeto,
en base a un instrumento de precisión, se modela mediante

Yi = µ + i , i = 1, 2, . . . , n,

donde los i ∼ N (0, 1) son v.a’s independientes y µ es el verdadero valor de la medición.


Facultad de Ciencias Sociales PUCP 217

a) Obtenga en base a los resultados de estas mediciones una prueba UMP para contrastar
a nivel α = 0.01
H0 : µ = 20 vs H1 : µ > 20.
b) ¿Como cambiarı́a este contraste si la varianza de los errores fuera 4?
c) De un bosquejo de la gráfica de la probabilidad de cometer el error de tipo II, en función
del valor del parámetro cuando H1 es verdadera.
14. Un modelo relaciona el incremento de las ventas semanales de un bien en miles de soles
Y (con respecto a su valor base de ventas en el primer mes de lanzamiento del bien) en
términos del gasto en miles de soles x que se invirtió en propaganda durante esa semana
en el lugar de expendio. El modelo, en términos de las posibles mediciones en n puntos de
ventas seleccionados al azar es:

Yi = βxi + i , i = 1, 2, . . . , n

donde se asume que los errores son independientes y tienen distribución i ∼ N (0, ωi ), sien-
do ωi un ı́ndice de inflación medio local proyectado para la semana de ventas. Se asumen
que los xi y ωi son conocidos y fijos.
a) Halle el MELI de β.

b) Muestre que si dividimos la ecuación de regresión anterior entre ωi , obtenı́endose el
modelo ponderado Ỹi = β x̃i + ˜i , entonces:
b1) Los errores ˜i satisfacen los supuestos clásicos.
b2) El estimador de mı́nimos cuadrados de la ecuación de regresión ponderada coincide
con el MELI de β.
c) Este estimador es conocido como el estimador de mı́nimos cuadrados ponderados.
d) Obtenga el estimador de máxima verosimilitud de β.
e) Obtenga un intervalo de confianza al 95 % para β y evalúelo si para una muestra de
10 regiones y tiempos distintos en los que se proyectaron los siguientes pares de gastos
semanales e inflación: (3.969 0.6),(2.226, 0.8),(3.561, 0.5),(1.608, 2.5), (0.301, 0.9), (6.505,
0.5), (1.110, 0.8), (0.508, 0.5), (4.398, 0.6), (0.826, 0.3) se obtuvieron los siguientes niveles
de venta: 40.146, 21.435, 35.607, 16.334, 1.947, 65.367, 11.576, 3.992, 43.393, 8.608.
f) Halle, si existe una prueba UMP, a nivel α = 0.05 para contrastar H0 : β = β0 vs H1 : β <
β0
g) Un reporte manifiesta que por cada mil soles en propaganda que se invierta las ventas
semanales se incrementan en promedio en 12,000 soles. El gerente piensa que este reporte
es exagerado, por lo que le pide a usted que, en base a la data observada en d), afirme o
no lo que el piensa ¿Qué le dirı́a usted? Use un nivel de significación de α = 0.05 y el
contraste UMP anterior.
218 ÍNDICE GENERAL
Apéndice A

Una introducción a R

A lo largo del curso haremos uso extensivo del software estadı́stico R. Este es un lenguaje
computacional de alto nivel orientado a objetos que nos provee de un ambiente para reali-
zar análisis estadı́sticos y gráficos. R es un software open source que es mantenido por muchos
contribuyentes y debe su popularidad precisamente a que es libre (es decir,no requiere de pago
ni registro alguno) y que es constantemente actualizado gracias a los nuevos desarrollos que
demorarı́an años en ser implementados en un software estadı́stico de tipo comercial. R puede
ser instalado en Windows, Mac o Linux a través de su página web

http://www.R-project.org

Aquı́ también se pueden encontrar manuales, tutoriales y todo tipo de información concernien-
te al software. La página Web de R se muestra en la Figura A.1.

Figura A.1: Sitio web de R

219
220 ÍNDICE GENERAL

Para instalar el sistema base, uno sólo tiene que ir al sitio web de R y seguir las instrucciones
de instalación. Adicionalmente al sistema base cuenta con una serie de paquetes adicionales
de contribuyentes. Un paquete es una colección de funciones, ejemplos y documentación que
usualmente están enfocados en realizar una tarea especı́fica. El sistema base contiene solamente
algunos paquetes. Para instalar un paquete adicional, por ejemplo el paquete AER, útil en el
análisis econométrico, basta escribir:

> install.packages("AER")

Si no ha sido configurado antes, aparecerá una ventana para seleccionar la ventana (mirror) más
cercana, luego todo es automático. Antes de usar un paquete es necesario cargarlo en la consola
mediante

> library(AER)

A.1. Comandos básicos


La consola de R es dónde se realizan los diferentes cálculos. Cuando una expresión es introdu-
cida a la consola ella es subsecuentemente evaluada. Dependiendo de la expresión, el sistema
puede crear una variable, responder mediante la salida de resultados a esta o creando un gráfico
en una nueva ventana. Luego otra expresión es ingresada y evaluada. Algo que ahorra mucho
tiempo es recordar que las expresiones previamente ingresadas pueden volverse a obtener pre-
sionando la flecha hacia arriba y que cualquier procedimiento puede interrumpirse usándose la
tecla Esc.
Un primer uso que haremos de R será como calculadora. R contiene todas las formas conocidas
de funciones básicas como el logaritmo natural (log), raı́z cuadrada (sqrt), coseno (cos), etc. Aquı́
unos cálculos en la consola:

> 5/4
[1] 1.25
> log(2) ; cos(pi) ; ceiling(3.2)
[1] 0.6931472
[1] -1
[1] 4

Note que podrı́amos introducir varias expresiones en una misma lı́nea si es que los separamos
por un punto y coma.
Comúnmente se crean en R objetos y se aplican a estos funciones. Para asignar un nombre x a
un objeto usar x < − objecto, (objecto − > x) ó x = objeto. Las funciones, por otro lado, se llaman
mediante:

nombrefuncion(argumentos separados por comas)

Toda función tiene un conjunto formal de argumentos con valores por defecto. Véase la do-
cumentación de la función con ?nombrefuncion ó help(nombrefuncion). Es importante indicar
Facultad de Ciencias Sociales PUCP 221

que R distingue mayúsculas de minúsculas. Como ilustración, supongamos deseamos encon-


trar la media aritmética de un conjunto de números (suma de estos números divididos entre la
cantidad total de ellos). Primero asignamos el vector de números con el nombre x y el comando
c. Luego llamamos a la función mean().
> x <- c(0,5,7,9,1,2,8)
> x
[1] 0 5 7 9 1 2 8
> mean(x)
[1] 4.571429
> X
Error: object ’X’ not found
Recuerde que lo último ocurre pues R distingue entre minúsculas y mayúsculas.
Supongamos ahora que se quiere ordenar un vector de números y de tal manera que estos
estén en orden descendente. Por defecto R ordena de modo ascendente, por lo que se tiene que
cambiar el argumento decreasing por TRUE (el valor por defecto es FALSE).

> y <- c(4,2,0,9,5,3,10,3)


> y
[1] 4 2 0 9 5 3 10 3
> sort(y)
[1] 0 2 3 3 4 5 9 10
> sort(y, decreasing=TRUE)
[1] 10 9 5 4 3 3 2 0

R permite extraer elementos o subconjuntos cualesquieras de un vector o arreglo. Por citar el


segundo y el segundo y quinto elemento del vector anterior x se obtendrán, respectivamente,
con
> x[2]
[1] 5
> x[c(2,5)]
[1] 5 1
Si deseamos los elementos de x mayores a 5 o los elementos de x en los que y sea mayor o igual
a 4, bastará escribir
> x[x>5]
[1] 7 9 8
> x[y>= 4]
[1] 0 9 1 8
Definamos ahora al vector y como una matriz A de orden 4 × 2 a través del comando matrix y
obtengamos su segunda columna
> A = matrix(y,nrow=4,ncol=2)
222 ÍNDICE GENERAL

> A
[,1] [,2]
[1,] 4 5
[2,] 2 3
[3,] 0 10
[4,] 9 3
> A[,2]
[1] 5 3 10 3
Note que los elementos de y son por defecto ingresados por columnas. En caso que se desee el
ingreso por filas escribir
> (A = matrix(y,4,2,byrow=TRUE))
[,1] [,2]
[1,] 4 2
[2,] 0 9
[3,] 5 3
[4,] 10 3
En adelante será común omitir el sı́mbolo del cursor >, esto para que los comandos que escriba-
mos puedan ser fácilmente reproducibles. Note también que el paréntesis inicial en el comando
nos exime de llamar a A para que se muestre.
Veamos ahora cómo realizar algunos análisis estadı́sticos en R. Un primer punto estará referido
a cómo introducir datos. Ello puede hacerse directamente en R o indirectamente mediante otro
software (por ejemplo Excel) para luego importar estos datos a R. Vemos la primera estrategia
a través del siguiente ejemplo
Ejemplo A.1. En cierto distrito se registró durante un mes el número de accidentes de tránsito por
dı́a, encontrándose los datos siguientes:

1 2 0 3 1 0 1 0 4 2 1 1 2 0 1
1 0 3 1 1 0 2 1 0 4 0 1 2 2 2

Introduzca estos datos en R, encuentre su distribución de frecuencias y muestre algún gráfico apro-
piado para representarlos.
Solución: Para introducir los datos escribamos
x = c(1,2,0,3,1,0,1,0,4,2,1,1,2,0,1,1,0,3,1,1,0,2,1,0,4,0,1,2,2,2)
La distribución de frecuencias de esta variable se obtiene con el comando table
(tab = table(x))
x
0 1 2 3 4
8 11 7 2 2
Vale comentar que la variable tab tiene un formato de tabla, el cual podrı́a pasarse fácilmente a otro
formato, como por ejemplo el de vector si escribimos
Facultad de Ciencias Sociales PUCP 223

> as.vector(tab)
[1] 8 11 7 2 2
Las frecuencias acumuladas de estos datos podrı́an obtenerse con:
cumsum(tab)
0 1 2 3 4
8 19 26 28 30
y la distribución de frecuencias completas (sin porcentajes) podrı́a construirse con el comando cbind,
el cual sirve para agrupar vectores en columnas. Concretamente
> cbind(n = tab, f = tab/length(x),F=cumsum(tab/length(x)))
n f F
0 8 0.26666667 0.2666667
1 11 0.36666667 0.6333333
2 7 0.23333333 0.8666667
3 2 0.06666667 0.9333333
4 2 0.06666667 1.0000000
Finalmente un gráfico adecuado para representar esta distribución de frecuencias, como se aparecia
en la Figura A.2, es el de bastones. Este puede obtenerse con el código:
plot(tab,type="h",ylab="Frecuencia")
title("Distribuci\’on de frecuencias del n\’umero mensual de accidentes en el distrito")

Distribución de frecuencias del número mensual de accidentes en el distrito


10
8
Frecuencia

6
4
2
0

0 1 2 3 4

Figura A.2: Gráfico de bastones para el ejemplo A.2

Otra manera para introducir la data es importándola de algún otro software como por citar
Excel, SPSS o Stata. Veamos el caso de Excel a través del siguiente ejemplo.
Ejemplo A.2. Suponga que estemos interesados en analizar el ı́ndice SP&500 en R. Particularmente
desearı́amos ver su evolución en el tiempo para el último año ası́ como el histograma de sus retornos.
224 ÍNDICE GENERAL

Solución: La data la importaremos de la página Web de yahoo finance:

https://finance.yahoo.com/quote/ˆGSPC/history?period1=1471496400&period2 =
1503032400&interval=1d&filter=history&frequency=1d

En ella podremos descargar la data en un formato cvs delimitado por comas. Este es el formato más
recomendado para la importación en R. Incluso si el archivo esta con extensión xls se recomienda escri-
birlo en el formato anterior antes de realizar la importación. Llamemos al archivo obtenido SP500.csv.
Luego en la consola de R escribir

sp500 = read.csv(file.choose(),header=TRUE)

La opción file.choose() lo direccionará a su hardware para que elija el archivo buscado. Otra posibili-
dad es colocar entre comillas el nombre del archivo pero este deberá estar en su directorio de trabajo.
La opción header=TRUE nos permite obtener los nombres de las variables, las cuales deben de estar en
la primera fila de su archivo. Una mirada a las primeras 6 filas de nuestra base de datos nos la provee
el comando head

> head(sp500)
Date Open High Low Close Adj.Close Volume
1 18/08/2016 2181.90 2187.03 2180.46 2187.02 2187.02 3300570000
2 19/08/2016 2184.24 2185.00 2175.13 2183.87 2183.87 3084800000
3 22/08/2016 2181.58 2185.15 2175.96 2182.64 2182.64 2777550000
4 23/08/2016 2187.81 2193.42 2186.80 2186.90 2186.90 3041490000
5 24/08/2016 2185.09 2186.66 2171.25 2175.44 2175.44 3148280000
6 25/08/2016 2173.29 2179.00 2169.74 2172.47 2172.47 2969310000

El número de filas a mostrar es por defecto 6, pero este puede fácilmente cambiarse con las opciones
de este comando. Un comando similar es tail que nos provee más bien del registro de las últimas, por
defecto 6, filas del objeto.
Como se aprecia nuestra base de datos posee varias variables, de las cuales seleccionaremos la del
precio de cierre (Close). Para extraer ella podrı́amos escribir

precioc = sp500$Adj.Close o precioc = sp500[,6].

En cualquiera de los dos casos esto define la variable cuantitativa precioc.


La evolución diaria de los precios de cierre del ı́ndice SP&500 se podrá mostrar con

plot(precioc,type=’l’)

y el resultado es la gráfica de lı́neas (de allı́ la opción type = ’l’) que se muestra en la Figura A.3.
De otro lado los retornos de este ı́ndice se obtienen con

retornosc = diff(precioc)/precioc[-length(precioc)]

El comando central para el análisis de esta variable es hist (de histograma), el cual nos provee de no
sólo su distribución frecuencias sino también de su gráfica a través de

h = hist(retornosc)
Facultad de Ciencias Sociales PUCP 225
2400
2300
precioc

2200
2100

0 50 100 150 200 250

Index

Figura A.3: Gráfica de lı́neas de la evolución diaria de los


precios del ı́ndice SP&500

Histogram of retornosc
100
80
60
Frequency

40
20
0

-0.02 -0.01 0.00 0.01 0.02

retornosc

Figura A.4: Histograma de retornos diarios de los precios de cierre del ı́ndice SP&500

Es importante notar que h es un objeto (R recordemos en un lenguaje orientado a objetos). Esto es h


es un elemento que contiene mucha información como se aprecia seguidamente

> h
$breaks
[1] -0.025 -0.020 -0.015 -0.010 -0.005 0.000 0.005 0.010 0.015 0.020 0.025
226 ÍNDICE GENERAL

$counts
[1] 1 2 4 16 101 87 32 8 0 1

$density
[1] 0.7936508 1.5873016 3.1746032 12.6984127 80.1587302 69.0476190 25.3968254 6.34920
[10] 0.7936508

$mids
[1] -0.0225 -0.0175 -0.0125 -0.0075 -0.0025 0.0025 0.0075 0.0125 0.0175 0.0225

$xname
[1] "retornosc"

$equidist
[1] TRUE

attr(,"class")
[1] "histogram"
De el podemos extraer, para un análisis posterior, cualquiera de sus componentes anexando al objeto
el sı́mbolo $ y el nombre de la componente requerida . Por ejemplo las frecuencias absolutas podemos
definirlas con el vector
> nn = h$counts
> nn
[1] 1 2 4 16 101 87 32 8 0 1


A.2. Distribuciones y R
Todas las distribuciones que hemos introducido en el curso y muchas más se encuentran imple-
mentadas en R. Para ilustrar sus desarrollos supongamos que tengamos una v.a X con distribu-
ción XXX. Independientemente de quién sea esta distribución, R ha implementado 4 funciones
básicas, las cuales tienen como sufijo el nombre de la distribución. Estas son:
dXXX(x, . . . ): Calcula la función de densidad fX o probabilidad PX en el punto x de una v.a
X que tiene distribución XXX.
pXXX(q, . . . ): Calcula la función de distribución (acumulada) FX en el punto q de una v.a X
que tiene distribución XXX.
qXXX(p, . . . ): Calcula el cuantı́l p ∈ [0, 1] de una v.a X que tiene distribución XXX; esto es,
el valor q tal que FX (q) = P (X ≤ q) = p. En el caso discreto, tal valor se debe de interpretar
como el menor valor q para el cual FX (q) ≥ p.
rXXX(n,. . . ): Simula n valores de una v.a X con distribución XXX.
Facultad de Ciencias Sociales PUCP 227

Los puntos suspensivos en los argumentos de estas funciones, son para especificar los paráme-
tros de la distribución y otras opciones como el cálculo de su logaritmo o el tipo de cola.
Es importante, antes de trabajar con estas funciones, documentarse sobre la parametrización
que R utiliza, pues ella no es estándar. Ası́ también, en caso se especifiquen los parámetros
siempre es bueno saber cual o cuales son los valores por defecto que utiliza esta distribución en
R.
Para ilustrar el uso de estas funciones consideremos los siguientes ejemplos.
Ejemplo A.3. Suponga que se tiene una acción en bolsa la cual puede independientemente subir de
precio de un dı́a a otro con probabilidad 0.7.
a) Si se observa esta acción durante dos meses (60 dı́as) ¿cuál es la probabilidad de que suba exacta-
mente el número de dı́as que se espere suba? ?con qué probabilidad subirá en más de 50 dı́as?
b) Halle e interprete el cuantil 0.8 del número de dı́as en que la acción subirá de precios durante los
dos meses.
c) Suponga que un inversionista planea vender sus acciones en estos dos meses el dı́a en que los precios
experimenten una tercera subida ¿con qué probabilidad pasarán más de un mes sin que el inversionista
pueda vender sus acciones?
d) Suponga que transcurridos los dos meses, la acción subió en 40 dı́as y que un inversionista selec-
cionó al azar 10 dı́as dentro de los dos meses para negociar con estas acciones ?Con qué probabilidad
en más de la mitad de estos dı́as de negociación los precios habrán experimentado una subida?
Solución: a) Si se define X =Número de dı́as en los dos meses que el precio de la acción experimenta
una subida, entonces X ∼ B(60, 0.7). El valor esperado para el número de subidas es entonces E(X) =
60 × 0.7 = 42 e inicialmente se nos pide PX (42). Ello en R se obtiene mediante
> dbinom(42,60,0.7)
[1] 0.1118036
La probabilidad de que suba más de 50 dı́as; es decir, P (X > 50) = 1 − P (X ≤ 50) será
> 1 - pbinom(50,60,0.7)
[1] 0.005871188
b) Se nos pide
> qbinom(0.8,60,0.7)
[1] 45
Esto es se tendrá una probabilidad de al menos 0.8 de que los precios suban a lo más 45 dı́as.
b) Sea Y = número de dı́as hasta que la acción suba de precios por tercera vez, entonces Y ∼ BN (r =
3, p = 0.7). Se nos pide P (Y > 30) = 1 − P (Y ≤ 30). Para esta distribución se tiene en R el comando
pnbinom; pero hay que tener cuidado, pues la v.a en ella, que denotaremos por Y0 es en realidad
nuestra variable Y desplazada. Esto es

Y0 = Y − r, donde Y ∼ BN (r = 3, p = 0.7).

Ası́ la probabilidad pedida viene dada por P (Y > 30) = P (Y0 + 3 > 30) = 1 − P (Y0 ≤ 27). Ello en R nos
da
228 ÍNDICE GENERAL

> 1 - pnbinom(27,3,0.7)
[1] 5.022649e-13

d) Si definimos la v.a W =número de dı́as de negociación en las que la acción subió de precio, entonces
W ∼ H(N = 60, M = 40, n = 10). Se nos pide P (W > 5) = 1 − P (W ≤ 5). Ello en R se puede obtener
con

> 1 - phyper(5,40,20,10)
[1] 0.8061506

Note que a diferencia de nuestra notación R pide para la distribución phyper(q, M, N −M, n). Además,
y esto es válido también para las otras distribuciones, el tomar la probabilidad del complemento podrı́a
ser innecesario ya que alternativamente lo pedido se podrı́a obtener con

> phyper(5,40,20,10,lower.tail=FALSE)
[1] 0.8061506
Ejemplo A.4. Veamos el caso ahora de una distribución continua como la gamma, la cual recordemos
no tiene una forma explı́cita para su función de distribución, al menos que su parámetros α sea
entero. Sea concretamente X una v.a con distribución gamma de parámetros α = 7.5 y β = 13 ; es decir,
X ∼ Γ (7.5, 13 ). Entonces la gráfica de la función de densidad de esta v.a se puede obtener con

x = seq(0,10,by=0.01)
plot(x,dgamma(x,shape=7.5,scale=1/3),type=’l’)

La probabilidad de que X tome un valor menor o igual que 4 viene dada por ejemplo por

> pgamma(4,shape=7.5,scale=1/3)
[1] 0.9349065

De otro lado, si queremos hallar la mediana de X; es decir, el valor Me tal que FX (Me) = P (X ≤ Me) =
0.5, entonces

> Me = qgamma(0.5,shape=7.5,scale=1/3)
> Me
[1] 2.38981

Finalmente, si deseamos simular; es decir, recrear de manera artificial 100 valores de la v.a X, podemos
escribir

> m = rgamma(100,shape=7.5,scale=1/3)
> m
[1] 2.6625452 0.7689917 1.9509386 4.1744743 1.9735547 2.3865520 2.5124263
[8] 3.5265864 3.3402294 2.0263015 3.5027949 4.4196460 1.3363469 1.8591059
[15] 2.7135067 1.2708783 2.5711275 2.7407072 1.1118715 3.0520331 1.6617308
[22] 2.2574728 3.2765931 1.7374397 1.7587716 1.6213503 1.8458460 1.9939204
[29] 2.2040888 4.7502856 2.5213610 1.3531028 2.9146931 3.1393688 1.1337547
[36] 4.0450105 1.1419313 2.2882722 1.7693570 2.4043660 2.4873355 2.4853267
[43] 3.5090830 3.0595274 2.2183418 1.4812468 1.6009753 2.8598354 3.8990242
Facultad de Ciencias Sociales PUCP 229
dgamma(x, shape = 7.5, scale = 1/3)

0.4
0.3
0.2
0.1
0.0

0 2 4 6 8 10

Figura A.5: Función de densidad de una v.a. con distribución Gamma de parámetros α = 7.5 y
β = 1/3

[50] 2.8164115 3.0552297 1.4212291 3.0077369 2.1654346 3.6788579 2.5966048


[57] 3.7653787 2.8141862 1.0664568 1.6569692 0.8524715 1.1203978 2.9679778
[64] 2.4124678 2.5499479 1.9701130 3.3493241 4.5065630 2.6929781 3.7927157
[71] 1.3895163 1.1951270 2.6142309 1.9591438 2.2448915 1.5469290 1.6097168
[78] 3.8347860 2.7320566 1.3422471 2.0883957 3.1403752 1.6114541 5.2458691
[85] 4.0222283 1.0934773 2.2559728 1.7023896 2.9762142 2.6192685 2.3024607
[92] 2.0523902 1.9925179 3.2425290 3.2584707 1.0434340 1.8838496 4.3667586
[99] 1.7343816 1.7741992
Para verificar que estos últimos efectivamente proviene de una distribución gamma con los paráme-
tros dados, podemos pedir el histograma de estos valores y compararlos con la verdadera función de
densidad. Como se aprecia, los datos parecen bien ajustar a la distribución teórica de la cual han sido
simulados. Note que cada vez que usted repita este procedimiento, los resultados han de variar, pues
se trata de una simulación.
hist(m, freq = FALSE, ylim=c(0,0.5))
x = seq(0,10,by=0.01)
lines(x,dgamma(x,shape=7.5,scale=1/3))
230 ÍNDICE GENERAL

Histogram of m

0.5
0.4
0.3
Density

0.2
0.1
0.0

1 2 3 4 5

Figura A.6: Histograma para los datos simulados de la distribuión Gamma


Bibliografı́a

Berk, R. (1967). Review 1922 of “invariance of maximum likelihood estimators”by peter w.


zehna, Mathematical Reviews 33: 344–343.

Casella, G. y Berger, R. (2002). Statistical Inference, Duxbury, USA.

Galvao, J. E. y Singer, J. (1990). Métodos assintóticos em estatı́stica, ABE, Sao Paulo.

Kotz, S., Balakrishnan, N. y Johnson, N. (2019). Continuous Multivariate Distributions, Volume


1: Models and Applications, Wiley.

Lohr, S. (2000). Muestreo: Diseño y Análisis, Internacional Thomson editores.

Lugon, A. y Valdivieso, L. (1993). La esperanza condicional en espacios de probabilidad finitos,


Reporte de investigación, Sección Matemáticas, PUCP.

Valdivieso, L. (2020). Técnicas de muestreo, PUCP.

231

También podría gustarte