Está en la página 1de 107

UNIVERSIDAD NACIONAL

DE SAN JUAN

Facultad de Filosofı́a, Humanidades y Artes

Notas de Estadı́stica

Descriptiva y

Teorı́a de Probabilidad

Lilian Adriana Mallea

Año: 2021
Índice general

1. Generalidades y Estadı́stica Descriptiva 5


1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2. La estadı́stica y el método cientı́fico . . . . . . . . . . . . . . . . . . . 6
1.3. ¿Para qué sirve la Estadı́stica? . . . . . . . . . . . . . . . . . . . . . . 7
1.4. Resumiendo datos gráficamente . . . . . . . . . . . . . . . . . . . . . 9
1.4.1. Tipos de variables . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4.2. Distribución de una variable . . . . . . . . . . . . . . . . . . . 11
1.4.3. Diagrama de tallo y hojas . . . . . . . . . . . . . . . . . . . . 15
1.4.4. Gráfico de curva simple . . . . . . . . . . . . . . . . . . . . . . 17
1.4.5. Gráficos para las variables cualitativas . . . . . . . . . . . . . 18
1.5. Resumiendo datos numéricamente . . . . . . . . . . . . . . . . . . . . 20
1.5.1. Midiendo el centro . . . . . . . . . . . . . . . . . . . . . . . . 20
1.5.2. Midiendo la variación o dispersión . . . . . . . . . . . . . . . . 23
1.5.3. Medidas de tendencia central y dispersión para datos agrupa-
dos en intervalos . . . . . . . . . . . . . . . . . . . . . . . . . 32
1.6. Cuestionario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

2. Teorı́a de Probabilidad 35
2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.2. El Lenguaje de Probabilidad . . . . . . . . . . . . . . . . . . . . . . . 42
2.2.1. Espacio muestral y eventos . . . . . . . . . . . . . . . . . . . . 42
2.2.2. Reglas de Probabilidad . . . . . . . . . . . . . . . . . . . . . . 45
2.2.3. Probabilidad Condicional . . . . . . . . . . . . . . . . . . . . . 47
2.2.4. Independencia de eventos . . . . . . . . . . . . . . . . . . . . 48
2.3. Cuestionario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

3. Variable Aleatoria 54
3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.1.1. Variables Aleatorias Discretas . . . . . . . . . . . . . . . . . . 58
3.1.2. Distribuciones discretas importantes . . . . . . . . . . . . . . 60
3.2. Variables Aleatorias Continuas . . . . . . . . . . . . . . . . . . . . . . 65
3.2.1. Distribuciones continuas importantes . . . . . . . . . . . . . . 66
3.3. Aproximaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

2
3.3.1. Aproximación de Binomial a Poisson . . . . . . . . . . . . . . 72
3.3.2. Aproximación de Binomial a Normal . . . . . . . . . . . . . . 72
3.3.3. Aproximación de Poisson a Normal . . . . . . . . . . . . . . . 73
3.4. Transformaciones de variables aleatorias . . . . . . . . . . . . . . . . 74
3.5. Distribución conjunta de variables aleatorias . . . . . . . . . . . . . . 75
3.5.1. Distribuciones conjuntas discretas . . . . . . . . . . . . . . . . 76
3.5.2. Distribuciones conjuntas continuas . . . . . . . . . . . . . . . 77
3.5.3. Distribuciones marginales . . . . . . . . . . . . . . . . . . . . 79
3.5.4. Independencia de variables aleatorias . . . . . . . . . . . . . . 81
3.6. Distribuciones Condicionales . . . . . . . . . . . . . . . . . . . . . . . 83
3.6.1. Caso discreto . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
3.6.2. Caso continuo . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
3.7. Cuestionario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

4. Valor medio y otros parámetros 87


4.1. Valor medio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.1.1. Momentos de una distribución . . . . . . . . . . . . . . . . . . 91
4.1.2. Valor esperado para funciones de variables aleatorias bidimen-
sionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
4.1.3. Función generadora de momentos para un vector aleatorio . . 101
4.2. Esperanzas condicionales . . . . . . . . . . . . . . . . . . . . . . . . . 102
4.3. Predicción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
4.3.1. Predicción lineal . . . . . . . . . . . . . . . . . . . . . . . . . 104
4.3.2. Predicción general . . . . . . . . . . . . . . . . . . . . . . . . 104
4.4. Cuestionario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

3
Prólogo

El propósito de este material es presentar los conceptos básicos de Estadı́stica


Descriptiva y Teorı́a de Probabilidad, y es el resultado de la evolución que tuvieron
las notas de clase de la cátedra “Probabilidades y Estadı́stica” que dicto a los alum-
nos de las carreras Licenciatura y Profesorado en Matemática en la Facultad de
Filosofı́a, Humanidades y Artes de la Universidad Nacional de San Juan. Para su
elaboración he consultado numerosa bibliografı́a, que se especifica al final del texto.
He elaborado un material, cuya presentación es similar, para la segunda parte del
curso, que se dedica a Estadı́stica Inferencial.
La última sección de cada capı́tulo pretende lograr un afianzamiento de los temas
tratados previamente y consiste en un cuestionario cuyas preguntas se refieren a
conceptos y resultados desarrollados en el capı́tulo, haciendo hincapié en la inter-
pretación de los mismos.
Estas notas cuentan con abundantes ejemplos que sirven al alumno para compro-
bar su comprensión de la teorı́a. Los ejercicios son una parte importante del curso.
Se presentan en una guı́a complementaria elaborada por el equipo de cátedra.
Mi intención es que este material ayude a los estudiantes a desarrollar su habi-
lidad para pensar correctamente por su cuenta, lo que debiera ser el objeto de toda
enseñanza.

Lilian Adriana Mallea

4
Capı́tulo 1

Generalidades y Estadı́stica
Descriptiva

1.1. Introducción
Para la gente común la palabra estadı́stica significa números. Ası́ los medios de
comunicación nos muestran a diario distintas estadı́sticas: números de asesinatos,
estadı́sticas acerca de la mano de obra en el paı́s tal como número de desempleados;
o las últimas estadı́sticas sobre el número de nacimientos y muertes durante un
cierto perı́odo de tiempo. Si bien ejemplos como éstos, forman parte del concepto
total de “estadı́stica”, la palabra tiene un sentido más amplio para las personas que
requieren un conocimiento más técnico de esta disciplina.
La Estadı́stica actual es el resultado de la unión entre dos disciplinas que evolu-
cionan independientemente hasta confluir en el siglo XIX: la primera es el cálculo de
probabilidades, que nace en el Siglo XVII con los juegos de azar (Se considera como
orı́gen del cálculo de probabilidades la resolución del Problema de los Puntos en la
correspondencia entre Pascal y Fermat en 1654. Éste fue planteado a los mismos por
Chevalier de Meré y consistió en cómo debı́a repartirse el dinero de las apuestas,
si el juego es interrumpido), la segunda es la Estadı́stica( o ciencia del estado, del
latı́n Status) que estudia la descripción de datos, y tiene sus raı́ces más antiguas
(los romanos ya hacı́an censos, inventarios,etc.) aunque el primer intento de aplicar
un razonamiento propiamente estadı́stico a datos demográficos es debido a Graunt,
en 1662. La integración de ambas lı́neas de pensamiento da lugar a una ciencia que
estudia cómo obtener conclusiones de la investigación empı́rica mediante el uso de
modelos matemáticos.
La estadı́stica actúa como puente entre los modelos matemáticos y los fenómenos
reales. Un modelo matemático es una abstracción simplificada de una realidad más
compleja y siempre existirá una discrepancia entre lo observado y lo previsto por el
modelo. La estadı́stica proporciona una metodologı́a para evaluar estas discrepan-
cias. Por lo tanto su estudio es básico para todos aquellos que deseen trabajar en
ciencia aplicada (Tecnologı́a, Economı́a, Sociologı́a) que requiere el análisis de datos

5
y diseño de experimentos. La estadı́stica es la metodologı́a del método Cientı́fi-
co(Mood, 1972).

1.2. La estadı́stica y el método cientı́fico


La Estadı́stica es la ciencia de los datos. El método cientı́fico es un procedimien-
to para adquirir conocimientos de un modo sistemático. La Estadı́stica y el método
cientı́fico proveen una colección de principios y procedimientos para obtener y re-
sumir información a fin de tomar decisiones. El método cientı́fico es un proceso
iterativo para aprender acerca del mundo que nos rodea. Éste se compone de las
siguientes etapas:

1- formula una teorı́a.

2- colecciona datos para testear o probar la teorı́a.

3- analiza los resultados.

4- interpreta los resultados; toma una decisión.

Comenzamos con una teorı́a. Supongamos, por ejemplo, que fabricamos un pro-
ducto y recientemente algunos clientes se han quejado devolviendo el producto,
argumentando que no funciona como esperaban. Reconocemos ésta como una opor-
tunidad para mejorar.

6
Las descripciones ofrecidas por los clientes pueden llevar a una teorı́a acerca de
cuáles son las causas por las que el producto no funciona correctamente. Deseamos
poner a prueba esta teorı́a. Coleccionamos datos para ayudar a verificar la teorı́a.
Podemos introducir cambios en el proceso de producción de nuestro producto y
medir el funcionamiento de algunos productos elaborados después de éstos cambios.
Esas mediciones constituyen los datos.
Examinamos estos datos y “resumimos”los resultados . Ası́, por ejemplo, podemos
resumir el porcentaje de productos producidos después del cambio que no opera
correctamente. Interpretamos los resultados y usamos los datos para confirmar o
refutar la teorı́a. Si el porcentaje de productos que funcionan mal se ha reducido
suficientemente, podemos concluir que la teorı́a ha sido afirmada. Se implementa el
cambio en el proceso de producción y se trabaja con el nuevo proceso para elaborar
el producto. Si el porcentaje de productos que no operan correctamente no se ha
reducido lo suficiente, la teorı́a puede no ser afirmada. Entonces una nueva teorı́a
será desarrollada y luego, sometida a prueba.
Raramente los datos afirman concluyentemente si una teorı́a es verdadera o fal-
sa. Muchas teorı́as están en permanente estado de incertidumbre. Siempre existen
nuevas observaciones acerca del mundo que nos rodea. Los cientı́ficos siempre están
pensando en nuevas formas de testear viejas teorı́as o nuevas maneras de interpretar
los datos.
Si no podemos concluir si una teorı́a es o no verdadera, puede ser que nos conformem-
os cuantificándo“cúan seguros”podemos estar en nuestra decisión, si podemos decir
algo como: “tenemos un 95 % de confianza en nuestra conclusión”. Es aquı́ donde la
estadı́stica y su colección de métodos juega un rol importante.
La habilidad para establecer tales enunciados de confianza proviene del uso de es-
tadı́stica en todas las etapas del método cientı́fico. “Una teorı́a se rechaza si puede
probarse estadı́sticamente que los datos observados pueden ser muy poco posibles
de ocurrir si la teorı́a fuera en realidad verdadera. Una teorı́a es aceptada si no es
rechazada por los datos”.
El método cientı́fico es un proceso iterativo de aprendizaje. Los resultados no
dan respuestas definitivas, ellos pueden sugerir nuevas teorı́as. Una decisión puede
ser tomada por ahora pero estará sujeta a nuevas pruebas a posteriori. Por lo tanto,
el método cientı́fico se presenta mejor por un circulo. Las diversas componentes en
el circulo están conectadas, y el circulo no tiene fin, al igual que el aprendizaje, es
un proceso que nunca termina.

1.3. ¿Para qué sirve la Estadı́stica?


Casi constantemente debemos reunir información para tomar decisiones. Consi-
deremos las siguientes situaciones:

Supongamos que usted está interesado en reunir información sobre los emplea-
dos del Banco Nación (sucursal San Juan). Por ejemplo, puede interesarse por

7
conocer qué porcentaje de ellos son mujeres, cuántos son contadores, qué por-
centaje cobra con máxima antiguedad,etc.

Supongamos que usted es un comerciante y tiene en su depósito 1000 unidades


de un producto determinado de los cuáles sospecha que no estan en óptimas
condiciones(son defectuosas). Desea saber si sus sospechas son ciertas.

Desea conocer la estatura promedio de los varones argentinos de edades com-


prendidas enre los 18 y 30 años.

Problemas como los anteriores son posibles de resolver con la ayuda de la Es-
tadı́stica. En el primer caso, puesto que el conjunto de empleados de tal sucursal es
reducido, se pueden obtener los datos necesarios trabajando con todo el grupo.
En cambio, en las dos últimas situaciones el grupo de individuos u objetos bajo
estudio es muy grande y necesitamos un método confiable para extraer conclusiones
basadas en una cantidad manejable de datos (una muestra).
La Estadı́stica tiene por objeto el desarrollo de técnicas para el conocimiento
numérico de un conjunto. Permite que problemas como los anteriores sean conve-
nientemente planteados y resueltos.
Se divide en dos ramas principales:

Estadı́stica Descriptiva: cuyo objetivo es examinar a todos los individuos


de un conjunto (caso 1).

Estadı́stica Inferencial: permite, mediante el estudio de una muestra ,sacar


conclusiones válidas para la totalidad (casos 2 y 3).

Introducimos a continuación la terminologı́a y definiciones propias de esta disci-


plina.

Definición 1.3.1 Una unidad es el ı́tem u objeto que observamos. Cuando el objeto
es una persona, nos podemos referir a la unidad como sujeto.
Una observación es la información o caracterı́stica registrada para una unidad.
La población es el grupo entero de objetos o individuos bajo estudio, acerca del
cual se desea información.
Una muestra es una parte de la población que realmente se usa para reunir
información.

La Estadı́stica Inferencial es el proceso de extraer conclusiones acerca de la


población basada en la información de una muestra de la misma.
Ası́, en el caso 1, la población está formada por todos los empleados de la sucursal
San Juan del Banco Nación y cada uno de ellos es una unidad( sujeto). En el caso
2, cada producto es un individuo y cada producto sometido a observación ( es decir
incluı́do en la muestra) es una unidad. La población está formada por los 1000
productos del depósito.

8
En el tercer caso la población está constituı́da por todos los varones argentinos
con edades comprendidas entre 18 y 30 años, cada uno de los cuáles es un individuo.
Cada unidad ,en este caso sujeto, es cada uno de los varones que forman la muestra
seleccionada.

1.4. Resumiendo datos gráficamente


Supongamos que tenemos una teorı́a para testear. Coleccionamos datos que nos
ayuden a verificar la teorı́a. Ahora veremos las técnicas que usa la Estadı́stica para
resumir la información en tablas y gráficos.
Supongamos que se ha llevado a cabo un estudio médico para asignar la bondad
de una nueva droga para reducir la presión sanguı́nea y también para analizar la
relación entre la dosis de droga y la cantidad de reducción en la presión de sangre.
Existen caracterı́sticas importantes que pueden influir en la presión, como: la edad,
sexo y la cantidad de medicina para reducir la presión, tomada diariamente. El
siguiente conjunto de datos contiene varias mediciones sobre 20 individuos.
CONJUNTO DE DATOS 1

Sujeto Sexo Edad Dosis Presion sanguinea Presion sanguinea


n0 de pastillas al comienzo del estudio al final del estudio
1 M 45 2 100,2 100,1
2 M 41 1 98,5 100
3 F 51 2 100,8 101,1
4 F 46 2 101,1 100,9
5 F 47 3 100 99,8
6 M 42 2 99 100,2
7 M 43 4 100,7 100,7
8 F 50 2 100,3 100,9
9 M 39 1 100,6 101
10 M 32 1 99,9 98,5
11 M 41 2 101 101,4
12 M 44 2 100,9 100,8
13 F 47 2 97,4 96,2
14 F 49 3 98,8 99,6
15 M 45 3 100,9 100
16 F 42 1 101,1 100,1
17 M 41 2 100,7 100,3
18 F 40 1 97,8 98,1
19 M 45 2 100 100,4
20 M 37 3 101,5 100,8

Como otro ejemplo, el conjunto de datos que sigue dá la longitud en cm de 20


partes consecutivas de una lı́nea de ensamble:

9
CONJUNTO DE DATOS 2

Parte N 0 1 2 3 4 5
Long.(cm) 20,011 19,985 19,998 19,992 20,008
Parte N 0 6 7 8 9 10
Long.(cm) 20,001 19,994 20,004 20,008 20
Parte N 0 11 12 13 14 15
Long.(cm) 20,007 20,004 20,001 19,997 19,984
Parte N 0 16 17 18 19 20
Long.(cm) 19,975 19,969 19,984 20,004 20,002

¿Qué notamos acerca de estos conjuntos de datos?. Las caracterı́sticas sobre


sujetos o cosas son variables, mediciones repetidas sobre los mismos individuos son
variables.¡Los datos varı́an!.
Debido a esta variación, las conclusiones basadas en los datos son inciertas. La
Estadı́stica ayuda a producir datos útiles que pueden analizarse de modo que po-
damos extraer conclusiones con un pequeño grado de incertidumbre. Por ejemplo,
un médico que considera prescribir una nueva droga para un paciente deseará saber
qué reducción en la presión sanguı́nea debe esperar después de varias dosis. Un
monitoreo cuidadoso en el dosaje y la presión sanguı́nea de los sujetos bajo estu-
dio proveerá la reducción que se espera en la presión para distintos niveles de dosis
de droga. Razonamientos estadı́sticos nos permiten cuantificar cuán inciertas son
nuestras conclusiones.

Definición 1.4.1 Una observación es la información o caracterı́stica registrada


por unidad.
Una caracterı́stica que puede variar de unidad a unidad se llama variable.
Una colección de observaciones sobre una o más variables se llama conjunto
de datos.

El segundo conjunto de datos consiste en una sola variable, longitud, que se mide
en 20 unidades. El primer conjunto de datos consiste en cinco variables medidas en
cada uno de 20 sujetos. Dos de las variables de interés fueron la presión sanguı́nea
y el sexo.¿Cómo son estas dos variables?

1.4.1. Tipos de variables


Las variables pueden ser cualitativas o cuantitativas. Las primeras toman
valores que no son necesariamente numéricos, pero pueden ser categorizados. El
sexo tiene dos posibles valores: femenino o masculino. Estos dos valores pueden ser
arbitrariamente codificados numéricamente, por ejemplo, asignando 1 a femenino y
2 a masculino. pero sumar, restar o promediar tales valores no tiene ningún sentido.
Los números telefónicos también son cualitativos con valores que son numéricos, pero
no tiene sentido operar con ellos. La profesión de las personas también es cualitativa.

10
Las observaciones hechas sobre variables cualitativas se denominan, frecuente-
mente, datos categóricos.
Las variables cuantitativas toman valores numéricos y sumar, restar o prome-
diar tales valores tiene significado. Ejemplos de variables cuantitativas son: peso,
altura, número de hijos de una familia, edad.
Existen dos tipos de variables cuantitativas: discretas y continuas. Una varia-
ble cuantitativa es discreta si su conjunto de posibles valores es finito o contable.
Ası́, el número de alumnos de la carrera Profesorado en Matemática en los últimos
10 años es una variable cuantitativa discreta. El número de llamadas telefónicas
hechas en un locutorio en un perı́odo de tiempo determinado es discreta y tiene
como posibles valores al conjunto de enteros no negativos.
Una variable cuantitativa se dice continua si su conjunto de posibles valores es
un intervalo o colección de intervalos de números reales. Por ejemplo, el peso y talla
de las personas son variables cuantitativas continuas.
Algunas veces una variable puede tratarse como discreta o continua. Considere-
mos, por ejemplo, la proporción de mujeres en una población. Si la población consiste
de 10 personas, entonces las posibles proporciones son: 0, 0,1, · · · , 0,9, 1. Existe un
número finito de resultados posibles y por lo tanto es una variable cuantitativa
discreta. No obstante, si la población es muy grande, entonces cualquier valor real
entre 0 y 1 es posible, y para los propósitos prácticos, podemos tratar la proporción
de mujeres como una variable continua.
Una variable continua puede verse como discreta si se la redondea a la unidad más
próxima. La edad, es en realidad continua, no obstante, frecuentemente la medimos
discretamente en años.
En el segundo conjunto de datos, la variable, longitud, es continua. En el primer
conjunto el sexo es cualitativo, mientras que la edad y la presión sanguı́nea son
continuas, y el número de tabletas es discreta.
Definición 1.4.2 Las variables cualitativas son las que clasifican las unidades
en categorı́as por lo que también se llaman categóricas.
Las variables cuantitativas tienen valores numéricos que son mediciones (lon-
gitud, peso, etc) o cantidades. Operaciones aritméticas sobre tales valores numéricos
tienen sentido.
Un variable cuantitativa es discreta si toma valores en un conjunto numerable.
Una variable cuantitativa es continua si puede tomar cualquier valor dentro de un
intervalo o colección de intervalos de números reales.

1.4.2. Distribución de una variable


Consideremos el primer conjunto de datos y analicemos la variable número de
tabletas tomadas por los pacientes tratados.
Tenemos 20 mediciones de la variable. Lo primero que haremos es ordenarlas en
forma creciente y luego realizaremos el recuento de cada valor observado.

11
Tabla 1.4.1
V alor Recuento
1 |||||
2 ||||||||||
3 ||||
4 |
Podemos resumir la información para esta variable discreta en la siguiente tabla
que nos dá la distribución de la misma.

Tabla 1.4.2
Dosis F recuencia
1 5
2 10
3 4
4 1
De la anterior leemos, por ejemplo, que 10 de los pacientes tomaron 2 tabletas
de la droga, 1 paciente tomó 4 tabletas, etc.

Definición 1.4.3 Se denomina frecuencia absoluta de un valor a la cantidad de


veces que ocurre.
La distribución de una variable muestra los posibles valores que ella toma y la
frecuencia de cada uno de ellos. La distribución de una variable muestra el patrón
de variación de la variable.

Si una variable cuantitativa discreta toma los valores ordenados distintos x1 , x2 , · · · , xk ,


designamos con fi , i = 1, 2, · · · , k, a las respectivas frecuencias.
Llamaremos frecuencia relativa al valor
fi
f ri =, i = 1, 2, · · · , k
n
frecuencia acumulada hasta el valor xi a
X
Fi = fj
j:xj ≤xi

y frecuencia acumulada relativa al valor


Fi
F ri =
n

Consideremos ahora la variable continua edad del paciente y realicemos el re-


cuento.

12
Tabla 1.4.3
Edad Recuento
32 |
37 |
39 |
40 |
41 |||
42 ||
43 |
44 |
45 |||
46 |
47 ||
49 |
50 |
51 |
Se denomina mı́n xi al menor valor observado de la variable y máx xi al mayor.
El rango de la variable es
R = máx xi − mı́n xi
En nuestro ejemplo R = 51 − 32 = 19.
Podemos agrupar los valores, por ser continuos, en clases. Por ejemplo si tomamos
5 clases o intervalos, para saber qué amplitud tendrá cada clase, hacemos
R
A= ,
N
19
siendo N el número de intervalos. En nuestro caso A = 5
= 3,8 ' 4.

13
Reunimos los datos en la siguiente tabla

Tabla 1.4.4
Clase Frec. Frec. Relativa Marca de clase
[32, 36) 1 1/20 = 0,05 34
[36, 40) 2 2/20 = 0,10 38
[40, 44) 7 7/20 = 0,35 42
[44, 48) 7 7/20 = 0,35 46
[48, 52) 3 3/20 = 0,15 50

agregamos en la última columna la marca de cada clase, denotada por mi para


la i−ésima clase, que es el punto medio del intervalo respectivo. Ası́ la marca de
clase del primer intervalo es m1 = 32+36
2
= 34.
Podemos desplayar la distribución de la variable en un gráfico llamado histogra-
ma que consiste en rectángulos consecutivos cuya base es igual a la amplitud de cada
intervalo y la altura es proporcional a la frecuencia ( absoluta o relativa) del mismo.
Para que el gráfico no se distorsione, conviene que el eje de las frecuencias sea
aproximadamente 2/3 del eje de datos.
Cuando los datos están agrupados en intervalos, puede dibujarse otro gráfico,
llamado polı́gono de frecuencias, que se obtiene uniendo los puntos (mi , fi )(puede
trabajarse también con las frecuencias relativas). El polı́gono de frecuencia debe ser
cerrado, entonces se lo comienza en el punto (m0 , 0) y se lo termina en el punto
(mN +1 , 0), donde m0 representa el punto medio del intervalo anterior al primero y
mN +1 el punto medio del intervalo siguiente al último. El histograma y polı́gono de
frecuencias para la distribución de las edades de los pacientes es:

14
La ojiva o polı́gono de frecuencias acumuladas se construye uniendo los
puntos (Si , Fi ), siendo Si el lı́mite superior del i−ésimo intervalo (puede usarse
también la frecuencia F ri ). El gráfico comienza en el punto (S0 , 0) y termina en el
punto (SN , 1), siendo S0 el lı́mite superior del intervalo anterior al primero. La ojiva
para el ejemplo de edades de los pacientes, obtenida por Infostat se muestra en la
figura:

Existe una fórmula que brinda la cantidad aproximada de intervalos a tomar de


acuerdo a la cantidad de datos, llamada fórmula de Sturges

N = 1 + 3,3 log n

Una fórmula más adecuada, utilizada por el paquete estadı́stico InfoStat, es

N = log2 (n + 1).

1.4.3. Diagrama de tallo y hojas


Es un diagrama que sirve para desplayar la distribución de variables cuantitativas
para un conjunto de datos relativamente pequeño. Tiene el beneficio de mostrar los
valores reales de la variable.

Pasos básicos para construirlo


Separar cada medición en un tallo y una hoja. Generalmente la hoja consiste de
exactamente un dı́gito, el último, y el tallo de uno o más dı́gitos. Por ejemplo,
si el valor observado de una variable es 734, entonces el tallo es 73 y la hoja
es 4. Si es 2,345, el tallo es 2,34 y la hoja es 5.

15
Algunas veces la parte decimal se saca del tallo pero se aclara en una nota
cómo debe leerse el dato. Por ejemplo, para el dato 2,345 establecemos que
234|5 debe leerse 2,345.
También cuando los valores observados tienen muchos dı́gitos en su parte dec-
imal puede ser útil redondearlos (por ejemplo, redondeamos 2,345 a 2,35) o
truncarlos (truncamos 2,345 a 2,34).

Escribimos los tallos uno debajo del otro, a igual espacio, en forma creciente
y dibujamos una lı́nea a la derecha de los tallos.

Unimos cada hoja el tallo correspondiente.

Agregamos las hojas en forma creciente hacia la derecha.

Ejemplo 1.4.1 Consideremos las edades de los pacientes del conjunto de Datos 1.
El correspondiente diagrama es

3 2 7 9
4 0 1 1 1 2 2 3 4 5 5 5 6 7 7 9
5 0 1

Para este ejemplo, vemos que la mayorı́a de los sujetos están en los cuarenta.
Con sólo 3 tallos y una gran cantidad de hojas sobre uno de ellos, la variación y
forma de la distribución no queda bien representada. Una modificación útil al gráfico
básico es el de tallos divididos, que consiste en separar un mismo tallo con dı́gitos
de 0 a 9 en sus hojas, en dos tallos iguales, uno que contenga las hojas con dı́gitos
0 a 4 y el otro que contenga las hojas con dı́gitos 5 a 9.
Ası́, el diagrama de tallos divididos para el ejemplo es

3 2
3 7 9
4 0 1 1 1 2 2 3 4
4 5 5 5 6 7 7 9
5 0 1
5

Ahora podemos ver mejor que la distribución de las edades de los sujetos es aproxi-
madamente simétrica, centrada en un valor comprendido entre 43 − 44 y no tiene
outliers aparentes.

16
Se pueden usar diagramas de tallo y hojas back to back (de adelante y atrás)
para comparar dos distribuciones. Supongamos que deseamos comparar un segundo
proceso de producción con respecto al primero de las partes de una linea de ensamble,
cuyos datos se muestran en el conjunto de Datos 2. Se producen 20 partes por el
segundo proceso y se miden sus longitudes. Los resultados de ambos procesos se
muestran usando el diagrama de tallo y hojas back to back siguiente

1996 9
1997 5
9 1998 4 4 5
6 4 4 1999 2 4 7 8
9 8 7 7 5 3 1 1 1 0 0 0 0 2000 0 1 1 2 4 4 4 7 8 8
1 0 0 2001 1
Nota:
9 1998 representa 19,989cm y 1998 4 representa 19,984cm
Observamos del diagrama que el segundo proceso produce una distribución de
la variable más simétrica, menos variable (comparada con el primer proceso) y que
la observación 20,001 es el valor central que deja exactamente la mitad de las obser-
vaciones por debajo y la otra mitad por encima de él.

1.4.4. Gráfico de curva simple


Cuando los datos de una variable se obtienen sobre el tiempo, puede ser útil
graficarlos en función del tiempo o en el orden en que fueron obtenidos. Un gráfico
de curva simple es también llamado gráfico de series de tiempo. Los puntos
consecutivos obtenidos se unen entre sı́ por medio de segmentos rectilı́neos a fin de
ayudarnos a determinar si la distribución cambia a lo largo del tiempo.
En un gráfico de series de tiempo se pueden observar las siguientes caracterı́sticas

Tendencias: creciente o decreciente, cambios en la localización del centro,


cambios en la variación o dispersión.

Variación estacional o ciclos: movimientos crecientes o decrecientes a pe-


riodos regulares.

Trabajemos con los datos del conjunto de Datos 2. Las partes de la lı́nea de
ensamble han sido fabricadas para tener una longitud de 20cm. En el diagrama de
tallo y hojas de estos datos hemos visualizado que la distribución es algo sesgada a
izquierda y hay más variación por debajo de 20cm que por arriba.
Ejercicio 1.4.1 1) Grafique las observaciones en el orden en que ellas fueron
obtenidas y responder:

a) ¿qué nos dicen los datos?

17
b) ¿qué preguntas puede responder mirando el gráfico?

2) Los siguientes datos muestran el número de empleados que llegaron tarde a la


empresa en la que trabajan durante un perı́odo de tres semanas.

Tabla 1.4.5
L M Mi J V
0
1 semana 10 7 6 8 11
0
2 semana 14 5 10 8 7
30 semana 9 3 6 4 6

Examine los datos a través de un gráfico de series de tiempo y comente lo que


muestra el gráfico.¿Existe relación entre el dı́a de la semana y el número de
llegadas tarde? Explique.

1.4.5. Gráficos para las variables cualitativas


Gráfico circular
Es también llamado gráfico de pastel. Consiste en considerar un cı́rculo de
radio arbitrario que representa el total (es decir, todas las unidades).
El cı́rculo se divide en sectores, cada uno de los cuáles representa una categorı́a o
valor posible de la variable cualitativa. El área de cada sector es proporcional al
porcentaje de unidades que están en cada categorı́a.
Para hallar la amplitud del sector correspondiente a una categorı́a se miltiplica
la frecuencia relativa de dicha categorı́a por 3600 y representa el porcentaje de la
misma, es decir la frecuencia relativa por 100.
Este gráfico es útil cuando el número de categorı́as es chico y también para
comparar situaciones similares (es decir la misma caracterı́stica) en poblaciones dis-
tintas.
Para la variable sexo de los 20 pacientes del conjunto de Datos 1, se tiene

Tabla 1.4.6
sexo Frec. Frec. Rel. %
F 8 8/20 = 0,40 40
M 12 12/20 = 0,60 60

18
La amplitud del sector correspondiente a la categorı́a F es 0,40 × 3600 = 1440 y la
correspondiente a M es 0,60 × 3600 = 2160 .

Gráfico de barras
Este gráfico consiste en una serie de barras, una para cada categorı́a. La altura
de cada barra es la proporción, porcentaje o frecuencia de cada categorı́a. El ancho
no tiene significado alguno, pero debe ser igual para todas las categorı́as.

Nota 1.4.1 :Las barras pueden ser horizontales o verticales. Pueden usarse para
mostrar dos variables cualitativas a la vez. Las barras no deben ser tan altas para
que no se sobredimensionen las fluctuaciones de la variable, se aconseja que el eje de
las frecuencias sea aproximadamente 2/3 del eje sobre el que se apoyan las barras.

19
1.5. Resumiendo datos numéricamente
Hasta ahora hemos resumido y organizado los datos en tablas y gráficos que nos
permiten obtener información acerca de ellos. Ahora nos dedicaremos a enriquecer
nuestras representaciones gráficas presentando varios resúmenes numéricos de los
datos. El objetivo es mostrar la utilidad de unos pocos números, bien elegidos, para
proveer un resúmen de los datos que han sido coleccionados.

1.5.1. Midiendo el centro


Consideremos la variable edad en los 20 pacientes del conjunto de Datos 1 y su-
pongamos que queremos dar un único número que represente la edad “tı́pica”para
los 20 sujetos. ¿Qué número elegirı́a? Probablemente un número cercano al centro
de la distribución de la edad.
Las medidas de tendencia central son valores numéricos que tienden a representar en
algún sentido la “parte del medio”de un conjunto de datos. Existen pocas medidas de
tendencia central que podemos elegir. Entre ellas la media aritmética y la mediana
que sirven para medir el centro de datos numéricos. Si los datos son una muestra, la
media y mediana pueden llamarse estadı́sticos y si forman una población entera,
se los llama parámetros.

Media aritmética
La media de un conjunto de n observaciones es simplemente la suma de las
mismas, dividida por n.
Si x1 , x2 , · · · , xn son n observaciones, la media aritmética o simplemente media
de ellas, denotada por x, es
n
X xi
x=
i=1
n
Para el ejemplo de las edades se tiene que la edad “promedio” es
45 + 41 + 51 + · · · + 37
x= = 43,35 años
20
Es claro que si los datos están agrupados en una tabla de frecuencias como la
siguiente

Tabla 1.5.1
Valor de la variable Frecuencia
x1 f1
x2 f2
.. ..
. .
xk fk

20
entonces
k
X xj fj
x= ,
j=1
n
k
P
siendo fj = n
j=1

Ejemplo 1.5.1 Los siguientes datos son el número de niños en cada uno de 10
hogares de un barrio: 2, 3, 0, 2, 1, 0, 3, 0, 1, 4.
2+3+0+2+1+0+3+0+1+4
x=
10
0×3+1×2+2×2+3×2+4 16
= = = 1,6
10 10
Es decir, en promedio, hay 1,6 niños por hogar en los 10 hogares observados. Supon-
gamos ahora que la observación 4 fué registrada incorrectamente como 40. ¿Qué ocurre
52
con la media? En este caso x = 10 = 5,2. notemos que hay 9 de las 10 observaciones
menores que la media.

La media es sensible a la presencia de observaciones extremas.

Ejercicio 1.5.1 Los sueldos de cinco empleados de la sección de manteni-


miento y servicio técnico de un centro comercial son $12000, $80000,$25000,
$19000 y $110000. Explique porqué la media de estos sueldos no es un buen
representante de los salarios de estos empleados.

El puntaje medio de 3 estudiantes es 54 y el puntaje medio de otros 4 estudi-


antes es 76. ¿Cuál es el puntaje medio de los 7 estudiantes?

Mediana
Hemos visto que la media tiene la desventaja de ser afectada por valores ex-
tremos. Cuando la distribución es simétrica, la media es justamente el centro de la
distribución. Para distribuciones sesgadas es conveniente registrar una medida de
tendencia central más resistente a los valores extremos: la mediana.

Definición 1.5.1 La mediana de un conjunto de n observaciones, ordenadas en


forma creciente, es el valor que deja la mitad de las observaciones por debajo y la
otra mitad por arriba.

La mediana se denota por M e. Si el número de observaciones n es impar, la


mediana es justamente el valor central, una vez ordenados los datos. Por ejemplo,
para los datos 4, 7, 3, 9, 5 , ordenamos los datos:

3 4 5 7 9

21
la mediana es 5.
Cuando el número de observaciones es par, la mediana es el promedio entre los
dos valores centrales, una vez ordenados los datos.
En general, para localizar la M e, se calcula n+1
2
. Si éste es un número entero,
la mediana es el valor que ocupa ese lugar en la serie ordenada de datos. Si n+1 2
no es entero, la mediana es el promedio de los dos valores que ocupan los lugares
inmediatos anterior y siguiente a n+1
2
.

Ejemplo 1.5.2 La mediana de las edades de los 20 pacientes calculamos n+1 2


=
20+1
2
= 10,5, entonces M e es el promedio entre las observaciones que ocupan los
lugares 10 y 11, una vez ordenados los datos:

32, 37, 39, 40, 41, 41, 41, 42, 42, 43, 44, 45, 45, 45, 46, 47, 47, 49, 50, 51

43+44
entonces M e = 2
= 43,5.

Ejercicio 1.5.2 Encuentre la M e para el número de niños en un hogar, para esta


muestra de 10 hogares de un barrio:
2, 3, 0, 1, 4, 0, 3, 0, 1, 2

a) ¿Qué ocurre con la mediana si la quinta observación hubiese sido registrada


erróneamente como 40 en lugar de 4?

b) ¿Qué ocurre con la mediana si la tercer observación fuese incorrectamente


registrada como 20 en lugar de 0?

Nota 1.5.1 :la mediana es resistente o robusta a la presencia de valores extremos.

Modo
Definición 1.5.2 El modo de un conjunto de observaciones es el que ocurre con
mayor frecuencia entre todas las observaciones. Se lo denota M o.

Si la distribución de datos no tiene un valor más frecuente que otro (todos tienen
igual frecuencia) decimos que no existe el modo. Existen casos donde hay más de
un modo. Por ejemplo, el modo en la serie de datos 0, 0, 0, 1, 1, 2, 2, 2, 4, 5 son 0 y 2
pues los dos valores son igualmente frecuentes y su frecuencia es la mayor. Se dice
que la distribución es bimodal en este caso.
Generalmente no se usa como una medida del centro de una serie de datos cuantita-
tivos, pues el valor más frecuente puede estar alejado del centro de la distribución.
El modo puede hallarse para variables cualitativas. Ası́, en el ejemplo del sexo para
los 20 pacientes del conjunto de Datos 1, si asignamos M = 1 y F = 2, el modo es
1 pues el sexo masculino es el más frecuente para esos datos.
¿Qué medida central usar?

22
Para distribuciones simétricas unimodales media, mediana y modo coinciden.
Para distribuciones simétricas bimodales media y mediana coinciden.
Para distribuciones unimodales sesgadas se tiene la siguiente relación entre me-
dia, mediana y modo:

En el caso de este último tipo de distribuciones se prefiere a la mediana como me-


dida de tendencia central por no estar afectada por la presencia de valores extremos.
Pensarlo
Supongamos que ha calculado la media, mediana y modo de una lista de números.
¿Cuáles de esos tres valores siempre aparecerá en la lista?

1.5.2. Midiendo la variación o dispersión


Las medidas de tendencia central son útiles pero dan ,con frecuencia, una inter-
pretación incompleta de los datos. Consideremos las siguientes listas de datos:

Lista 1 : 55, 56, 57, 58, 59, 60, 60, 60, 61, 62, 63, 64, 65.

23
Lista 2 : 35, 40, 45, 50, 55, 60, 60, 60, 65, 70, 75, 80, 85.
Los gráficos de frecuencia respectivos son

Para ambas listas se tiene que x = M e = M o = 60 , sin embargo observamos


que los valores de la primer lista están mucho más concentrados alrededor del valor
central 60, mientras que para la segunda lista hay mucha mayor dispersión.
Entonces es necesario medir la variación de los datos. Entre las medidas de variación
encontramos el rango, rango intercuartil, varianza y desviación estándar. Estos val-
ores describen la dispersión entre los datos, con valores mayores indicando más
variación. Si los datos son una muestra, esas medidas se llaman estadı́sticos y si
corresponden a la población total se los llama parámetros.

Rango
Es la medida más simple de variabilidad. Se define como la diferencia entre el
mayor y el menor valor observado. Para el conjunto de 20 edades de Datos 1, el
rango es 51 − 32 = 19 años. Puesto que sólo tiene en cuenta los dos valores más
extremos, puede dar una idea distorsionada de la real variación en los datos. Por
ejemplo, los siguientes conjuntos tienen el mismo rango, pero para el primero de
ellos la mayorı́a de los valores están lejos de su centro, mientras que para el segundo,
la mayorı́a están concentrados alrededor de su centro.

Rango Intercuartil
Los cuartiles son los valores que dividen al total de datos en cuatro partes
iguales. Por lo tanto hay tres cuartiles, denotados por Q1 , Q2 = M e y Q3 .
Q1 es el valor que deja por debajo el 25 % de los datos y por arriba el 75 % restante.

24
Q2 es la mediana y Q3 deja por debajo el 75 % de los datos y por arriba el 25 %
restante.
Para hallar los cuartiles se procede como sigue:
1) se encuentra la mediana.
2) se halla Q1 como la mediana de las observaciones por debajo de la mediana.
3) se determina Q3 como la mediana de las observaciones por arriba de la M e.
Nota 1.5.2 Cuando el número de observaciones es impar, la M e es el valor
del medio y no se cuenta para hallar Q1 ni Q3 .
Si una distribución es sesgada a izquierda Q1 estará más lejos de la mediana
que Q3 . Si es simétrica Q1 y Q3 están a igual distancia de la M e.
Ejemplo 1.5.3 Para la edad de los 20 sujetos del conjunto de Datos 1 encontramos
que M e = 43,5 años. Los datos ordenados son

32, 37, 39, 40, 41, 41, 41, 42, 42, 43, 44, 45, 45, 45, 46, 47, 47, 49, 50, 51

41+41 46+47
Vemos que Q1 = 2
= 41 y Q3 = 2
= 46,5.
Una medida de dispersión que sigue la idea del rango pero que no está influen-
ciada por valores extremos es el rango intercuartil, que mide la dispersión del 50 %
central de los datos. Se define por
RIC = Q3 − Q1 .
Los cuartiles son un caso particular de percentiles, cuya definición es la que sigue.

25
Definición 1.5.3 El p−ésimo percentil es el valor que deja el p % de las observa-
ciones por debajo y el (100 − p) % por arriba de él.

Datos atı́picos
Es muy frecuente que los datos presenten observaciones que contienen errores de
medida o de transcripción o que son heterogéneas con el resto porque se han obtenido
en circunstancias distintas. Llamaremos datos atı́picos (outliers, en inglés)a estas ob-
servaciones generadas de forma distinta al resto de los datos. Los análisis efectuados
sobre datos recogidos en condiciones de estrecho control revelan que es frecuente que
aparezcan entre un 1 % y un 3 % de observaciones atı́picas en la muestra. Cuando
los datos se han recogido sin un cuidado especial, la proporción de datos atı́picos
puede llegar al 5 % y ser incluso mayor.
Los datos atı́picos se identifican fácilmente con un histograma o diagrama de
lı́neas (en caso que la variable sea discreta) de los datos, porque aparecerán sepa-
rados del resto de la distribución. Sin embargo es conveniente tener reglas simples
para detectarlos. Un criterio para detectar outliers es partir de los tres cuartiles
y considerar extremos aquellos valores que se alejan una cantidad definida por la
izquierda del primer cuartil, o por la derecha del tercercuartil. Como medida de
dispersión en lugar de la Meda se utiliza el rango intercuartı́lico y se consideran
atı́picas aquellas observaciones que son menores que Q1 − 1,5 × RIC o que son may-
ores que Q3 + 1,5 × RIC. Los datos identificados como atı́picos o sospechosos deben
comprobarse para ver si es posible encontrar la causa de la heterogeneidad

Gráfico de caja y bigotes


Podemos resumir los cinco números: mı́n, máx, Q1 , Q3 y la M e en un gráfico
llamado de caja y bigotes o boxplot. Este gráfico nos muestra una medida de
tendencia central, la M e y una medida de dispersión a través del rango intercuartil
y el rango total. La distancia de Q1 y Q3 a la M e puede proveer una idea del sesgo
de la distribución.
El boxplot básico se construye como sigue:

los extremos de la caja son Q1 y Q3

se dibuja una lı́nea dentro de la caja en la M e

a partir de los cuartiles Q1 y Q3 se extienden lı́neas, llamadas bigotes, hasta


el mı́n y el máx.

Algunas modificaciones que se incorporan al boxplot básico permiten visualizar


posibles datos atı́picos.
Las reglas para construir un boxplot modificado para identificar posibles outliers
son:

se calcula la cantidad 1,5 × RIC, llamada “salto”,

26
se obtienen los valores Q1 − 1,5 × RIC y Q3 + 1,5 × RIC, llamadas cercas
internas,

las observaciones que están fuera de estas “cercas internas”se consideran out-
liers potenciales.

El boxplot se modifica dibujando los posibles outliers y extendiendo los bigotes


hasta las observaciones más alejadas que no son outliers.

Ejemplo 1.5.4 El box plot para la variable Edad de los pacientes del Conjunto de
datos 1, obtenido en Infostat se muestra en la figura:

En este gráfico observamos que la distancia entre Q1 y la M e y entre Q3 y la


M e es aproximadamente la misma, podemos decir que la distribución es aproximada-
mente simétrica (lo que ya vimos al construir el histograma).

Vemos que existe un posible outlier 32, pues éste es el único valor fuera de las
cercas internas.

Nota 1.5.3 :Si la distribución es simétrica, el boxplot es simétrico, la recı́proca no


es cierta.

27
Varianza y desvı́o estándar
Cuando se usa la media para medir el centro de los datos, la medida de dispersión
más usada es la desviación estándar. Esta medida tiene en cuenta la información
contenida en todas las observaciones y mide la dispersión de éstas respecto de su
media.
Para hallarla, encontramos primero la varianza que es un promedio de los desvı́os
cuadrados de las observaciones respecto de su media.
Supongamos, por ejemplo, que queremos hallar la varianza entre las observa-
ciones x1 = 0 , x2 = 5 y x3 = 7, en este caso x = 0+5+7
3
= 4.

Los desvı́os de cada observación xi respecto de x son

di = xi − x

.
En este caso d1 = x1 − x = −4, d2 = x2 − x = 1 y d3 = x3 − x = 3.

Si sumamos todos los desvı́os obtenemos d1 + d2 + d3 = −4 + 1 + 3 = 0 y en


n
P
general, di = 0 para cualquier conjunto de n observaciones x1 , x2 , · · · , xn . Luego
i=1
no podemos usar la suma de los desvı́os como medida de dispersión, entonces usamos
los desvı́os al cuadrado
d2i : 16, 1, 9
n
d2i = 16 + 1 + 9 = 26.
P
Ası́
i=1

28
La varianza se define como el promedio de los desvı́os cuadrados, esto es
n
d2i
P
i=1 26
= = 8,6
3 3
El desvı́o estándar se define como la raı́z aritmética de la varianza y representa el
desvı́o promedio de las observaciones de su media. En este ejemplo el desvı́o estándar
es aproximadamente 2.

Nota 1.5.4 Cuando las observaciones representan una muestra propiamente dicha,
n
d2i
P
i=1
se define la varianza muestral como n−1
.Las razones se verán en la unidad de
muestreo.

El desvı́o estándar se interpreta como una distancia de las observaciones a su


media. Si todas las observaciones coinciden, la varianza es 0. En otro caso, el desvı́o
estándar es positivo y a mayor dispersión de las observaciones con respecto a su
media, mayor es su valor.

Definición 1.5.4 Si x1 , x2 , · · · , xn denotan una población de n observaciones, se


define la varianza como
n
2
X (xi − x)2
σ =
i=1
n
y el desvı́o estándar como
v
u n
√ uX (xi − x)2
σ= 2
σ =t
i=1
n

.
Si x1 , x2 , · · · , xn denotan una muestra de n ebservaciones, la varianza muestral
se define por
n
2
X (xi − x)2
S =
i=1
n−1
y el desvı́o estándar como
v
u n
√ uX (xi − x)2
S= S2 = t .
i=1
n−1

Nota 1.5.5 : La varianza, al igual que la media, no es resistente a la presencia de


valores extremos.

29
Ejercicio 1.5.3 1) Consideremos los siguientes conjuntos de datos:

I : 20, 20, 20 II : 18, 20, 22 y III : 17, 20, 23

(a) Sin calcular, responde ¿qué conjunto de datos tiene menor varianza?.
(b) Sin calcular, ¿qué conjunto de datos tiene mayor varianza?.
(c) Halle los desvı́os estándar para cada conjunto y verificar (a) y (b).

2) Halle el desvı́o estándar para las edades del conjunto de Datos 1 y complete: En
promedio, las edades de los 20 sujetos están alrededor de · · · · · · años respecto
de su media de · · · · · · años.

Nota 1.5.6 :
El rango intercuartil es más conveniente que el desvı́o estándar como medida de
dispersión cuando la mediana se usa como medida de tendencia central de los datos,
es decir cuando las distribuciones son sesgadas o presentan outliers. En este caso
también puede usarse la desviación mediana, definida por
k
P
|xi − M e|fi
i=1
d.M e = ,
n
para un conjunto de datos x1 , · · · , xk con frecuencias f1 , · · · , fk , rspectivamente.
El desvı́o estándar y la media son más útiles para distribuciones aproximada-
mente simétricas sin outliers.

Otra medida de dispersión que asociamos a la mediana y tiene ventajas por no verse
afectada por datos extremos es la mediana de las dispersiones absolutas de cada
dato respecto a la M e:

M EDA = mediana|xi − M e|.

Otra medida de variación que es útil para comparar distribuciones con unidades
diferentes y es independiente de las escalas es el coeficiente de variación.

Definición 1.5.5 El coeficiente de variación se define como el cociente entre el


desvı́o estándar y la media
σ
C.V =
x
El coeficiente de variación de datos positivos de una población homogeńea es tı́pica-
mente menor que la unidad. Si este coeficiente es mayor que 1,5 conviene investigar
posibles fuentes de heterogeneidad en los datos.
Coeficiente de asimetrı́a y de curtosis
En un conjunto de datos simétricos respecto a su media x se cumple que

30
(xi − x)3 = 0, mientras que con datos asimétricos esta suma crecerá con
P
i
la asimetrı́a. Para obtener una medida adimensional, se define el coeficiente de
aasimetrı́a mediante: n
(xi − x)3
P
i=1
CA = .
nσ 3
donde σ se reemplaza por S en caso de trabajar con una muestra.
El signo del coeficiente de asimetrı́a indica la forma de la distribución. Si este
coeficiente es negativo, la distribución se alarga para valores inferiores a la media es
decir la distribución es asimetrı́ca negativa. Si el coeficiente es positivo, la cola de la
distribución se extiende para valores superiores a la media, es decir la distribución
es asimetrı́ca positiva.
El coeficiente de curtosis o apuntamiento es importante porque nos informa
respecto a la heterogeneidad de la distribución. Se define como:
n
(xi − x)4
P
i=1
CAap = .
nσ 4
La figura presenta cuatro distribuciones de datos reales que presentan distintos casos
de curtosis.

Las cuatro corresponden a los tiempos de servicio requeridos por distintos clientes
en distintos servicios. En el primer caso el apuntamiento de la distribución es 1,25,
y este bajo valor es indicativo de una distribución muy heterogénea. La distribución
que observamos es una mezcla de los tiempos de servicio de dos tipos de clientes que
se observa están aproximadamente repartidos al 50 %. En el segundo caso tenemos

31
Intervalo fi mi
I1 f1 m1
I2 f2 m2 (I)
.. .. ..
. . .
Ik fk mk

varios tipos de clientes, pero sus tiempos de servicio son más próximos, dando lu-
gar a una distribución menos heterogénea con curtosis 2,3. La tercera distribución
representa el tiempo de servicio cuando los clientes son homogéneos y la curtosis es
igual a 3. En la cuarta los clientes son homogéneos, pero existen de vez en cuando
valores extremos que requieren un valor o muy alto o muy bajo. Estos clientes son
atı́picos, y dan lugar a un coeficiente de curtosis muy alto, de 9,4. El coeficiente
de curtosis nos informa de la posible heterogeneidad en los datos. Si es muy bajo
(menor de 2), indica una distribución mezclada; si es muy alto (mayor de 6), indica
la presencia de valores extremos atı́picos.

1.5.3. Medidas de tendencia central y dispersión para datos


agrupados en intervalos
Cuando tenemos datos agrupados en intervalos como lo muestra la tabla I

siendo fi la frecuencia y mi la marca de clase del i−ésimo intervalo, respectivamente,


las fórmulas para calcular los parámetros de posición y dispersión son:
k k
X mi fi X
x= k
o x= mi f r i ,
P
i=1 fi i=1
i=1

k
P
pues fi = n y f ri = fi /n.
i=1
k k
2
X (mi − x)2 fi 2
X
σ = k
o σ = (mi − x)2 f ri
P
i=1 fi i=1
i=1

El modo M o se calcula como el punto medio del intervalo modal (intervalo de


mayor frecuencia) o por interpolación como

fi − fi−1
M o = Li + A
(fi − fi−1 ) + (fi − fi+1 )

donde Li es el lı́mite inferior del intervalo modal, fi+1 la frecuencia del intervalo
posterior , fi−1 la del intervalo anterior y A la amplitud del intervalo modal.

32
La mediana, cuartiles y, en general, percentiles se hallan por interpolación. Ası́ se
tiene que
( n2 − Fi−1 )A
M e = Li +
fi
donde
Li es el lı́mite inferior del intervalo mediana (que contiene por lo menos el 50 %
de los datos),
Fi−1 es la frecuencia acumulada del intervalo anterior al intervalo mediana,
A es la amplitud de dicho intervalo,
fi la frecuencia absoluta del intervalo mediana y n el número de datos.

( jn − Fi−1 )A
Q j = Li + 4 , j = 1, 2, 3.
Fi − Fi−1
permite calcular los cuartiles de la distribución.
Un tipo de percentiles usados en Psicologı́a y Educación son los deciles Dj ; j =
1, 2, · · · , 9 que dividen el conjunto de datos en 10 partes iguales y los centiles que
la dividen en 100 partes iguales y se denotan Cj ; j = 1, 2, · · · , 99. Se calculan para
datos agrupados en clases por las fórmulas

( jn − Fi−1 )A
Dj = Li + 10 , j = 1, 2, · · · , 9.
Fi − Fi−1
jn
( 100 − Fi−1 )A
Cj = Li + , j = 1, 2, · · · , 99.
Fi − Fi−1
donde los valores que aparecen en estas expresiones se definen en forma similar al
caso de los cuartiles.

1.6. Cuestionario
1) ¿Qué entiende por Estadı́stica?

2) a- ¿Cuál es el objetivo de la Estadı́stica Descriptiva?


b- ¿Cuál es el objetivo de la Estadı́stica Inferencial?

3) Proporcione el concepto de variable estadı́stica y su clasificación.

4) ¿Qué tipo de variable es?

a- El número de personas que llega a un banco entre las 11:00hs y las 12:00hs.
b- Cantidad de precipitación caı́da en mm durante un mes determinado.
c- Se arroja un par de dados y se registra si los resultados sobre los dos
dados coinciden o no.

33
d- Los números sobre las camisetas de jugar de un equipo de fútbol.
e- Se elige aleatoriamente una mujer de una ciudad y se registra si tiene o
no cáncer.
f- El peso de varios telegramas.
g- La marca de autos que se venden en una concesionaria.
h- El número total de canciones de una lista.
i- El tiempo total de duración de una lista.

4) a- Proporcione un ejemplo donde la muestra sea un subconjunto propio de


la población.
b- Proporcione un ejemplo, donde muestra y población coincidan.

5) a- ¿Qué gráficos utilizarı́a si la variable a analizar es cualitativa?


b- ¿Qué gráfico es el adecuado para “visualizar” cuartiles, deciles y per-
centiles?
c- ¿Qué gráfico es adecuado para mostrar datos que han sido observados a
lo largo del tiempo?,¿qué comportamientos se pueden visualizar en este
tipo de gráficos?

6) Indique los parámetros de tendencia central que conoce y su interpretación.


¿Qué relación existe entre media, mediana y modo para distribuciones asimétri-
cas unimodales?

7) Mencione las medidas de variabilidad que conoce, indicándo su interpretación


y utilidad.

8) ¿Qué gráfico permite visualizar una medida de tendencia central y dos medidas
de variabilidad?,¿cómo se construye?

9) ¿Qué medida de dispersión utilizarı́a si la medida de tendencia central repre-


sentativa de los datos es la media?,¿Cuál, si es la mediana?

10) ¿En qué casos utilizarı́a el coeficiente de variación para medir la dispersión de
los datos?

34
Capı́tulo 2

Teorı́a de Probabilidad

2.1. Introducción
Cuando muestreamos de una población a fin de extraer conclusiones o inferen-
cias acerca de la misma, nuestras conclusiones contienen un grado de incertidumbre.
Podemos medir esta incertidumbre con la probabilidad. Los enunciados proba-
bilı́sticos son parte de nuestra vida diaria. Ası́, escuchamos enunciados como los
siguientes:

es muy probable que llueva este fin de semana.

no existe chance de aprobar la evaluación mañana.

el juez de lı́nea arroja una moneda “ honrada”a fin de determinar qué equipo
comienza el juego, de modo que cada uno tenga una chance del 50 % de comen-
zar el juego.

¿Qué es probabilidad?
Sabemos que una moneda tiene de un lado cara y del otro cruz. Suponemos que
esta moneda es “buena”, es decir cada lado tiene igual “chance”de ocurrir cada vez
que la arrojamos. ¿Porqué decimos que la probabilidad de obtener cara es 1/2?,
¿qué significa?
Si arrojamos esta moneda una gran cantidad de veces podemos esperar obtener cara
aproximadamente la mitad de las veces. Este uso de la palabra “probabilidad”se
basa en una interpretación de frecuencia relativa, que se aplica a situaciones donde
se puede repetir la experiencia, en este caso el lanzamiento de la moneda, bajo
condiciones son estables.
La probabilidad se define como la proporción de veces que el evento puede ocurrir
si el proceso fuera repetido varias veces, bajo las mismas condiciones.

35
Definición 2.1.1 (probabilidad frecuencial o a posteriori)
La probabilidad de que ocurra un resultado es la proporción de veces que este
ocurre a largo plazo, es decir, es el valor al que se aproxima la frecuencia relativa
de dicho resultado, cuando el experimento se repite un gran número de veces, bajo
condiciones estables.

En esta definición la expresión “a largo plazo” o “a la larga” es fundamental. Que


la probabilidad de cara sea 1/2 no significa que en dos lanzamientos de la moneda,
uno resultará cara y el otro cruz, no obstante, si arrojamos la moneda 1000 veces,
bajo las mismas condiciones, aproximadamente el 50 % de las veces el resultado
será cara y el otro 50 % cruz. Mientras mayor sea el número de lanzamientos, mayor
será la aproximación.
Tengamos en cuenta que esta forma de definir probabilidad se aplica cuando es posi-
ble repetir la experiencia varias veces, bajo condiciones estables. Existen situaciones
donde esto no es posible. Ası́, por ejemplo, se jugará la final de un torneo de fútbol
entre Boca y River, ¿cuál es la probabilidad que Boca se imponga en el partido?, o,
¿qué probabilidad existe que llueva el sábado por la noche, durante una fiesta que
es al aire libre?
En tales situaciones debemos hacer uso de nuestras experiencias pasadas y de acuer-
do a esto asignar probabilidades. Tales probabilidades se llaman personales o sub-
jetivas y representan el grado de confianza que una persona tiene de que ocurra tal
resultado. Diferentes personas pueden dar diferentes probabilidades subjetivas, que
pueden considerarse como correctas.
Las probabilidades nos ayudan a tomar decisiones. El viernes a la noche el
pronóstico del tiempo afirma que existe un 80 % de probabilidad que llueva el sába-
do. Esta información puede servir para decidir realizar la fiesta adentro y no en el
jardı́n. Aún ası́, puede que no llueva en esa ocasión. Las probabilidades no pueden
determinar que un resultado ocurrirá para cualquier caso individual.
En el ejemplo de arrojar una moneda, existen dos métodos para determinar la proba-
bilidad de obtener cara. Podemos suponer que la moneda es “honrada asignar ası́ la
2

probabilidad 1/2 de obtener cara, o bien, observar la frecuencia relativa favorable


al resultado cara al realizar repetidos lanzamientos y usar dicha proporción como
estimación de tal probabilidad. Este proceso de estimar probabilidades se puede
realizar por simulación.
Una de las componentes básicas en el estudio de la probabilidad es un experi-
mento o fenómeno aleatorio, cuya definición es la siguiente.

Definición 2.1.2 Un experimento aleatorio es aquel cuyos posibles resultados


se conocen, pero el resultado exacto, en cada repetición individual del proceso, no
puede predecirse con certeza, es decir, no es uno determinado (como en el caso de
los procesos determinı́sticos). No obstante existe una regla o patrón predecible a largo
plazo de los resultados, tal que la frecuencia relativa para un resultado dado tiende
a un valor constante.

36
Arrojamos 10 veces una moneda y los resultados son CSSCCCCSSC. Esta
secuencia tiene 4 caras consecutivas, es decir una “racha”de caras. ¿Puede una racha
de 4 caras o cruces considerarse inusual si la moneda es realmente “buena¿. ¿Cuál
es la probabilidad de obtener una racha de cuatro caras o cruces en 10 lanzamientos
de una moneda honrada?.
Podemos estimar esta probabilidad a través de simulación. Simular significa imi-
tar, generar condiciones que se aproximen a las condiciones reales. Para simular un
proceso aleatorio podemos usar varias herramientas: una calculadora, un programa
de computación, o una tabla de números aleatorios.
Para simular necesitamos establecer o identificar primero las condiciones del
fenómeno aleatorio subyacente (es decir proveer un modelo que brinde los posibles
resultados individuales y les asigne probabilidades.) Para el lanzamiento de una
moneda justa se puede usar una computadora o calculadora para generar una suce-
sión aleatoria de enteros 1 y 2 y definir, por ejemplo, que 1 representa cara y el 2
cruz. También puede usarse una tabla de números aleatorios con dı́gitos 0 al 9 y
asignar, por ejemplo, que los cinco dı́gitos pares corresponden a cara y los impares
a ceca.
Para calcular la probabilidad de una racha de 4 caras en 10 lanzamientos necesitamos
simular 10 lanzamientos de una moneda justa para representar una repetición del
proceso aleatorio. Finalmente, simulamos muchas repeticiones y determinamos el
número de veces que ocurrió el resultado de interés. La correspondiente frecuencia
relativa se usará para estimar la probabilidad del evento.
Definición 2.1.3 Una simulación es la imitación de un comportamiento aleatorio
usando herramientas aleatorias tales como generadores de números al azar o tablas
de números aleatorios.
Las etapas básicas para hallar una probabilidad por simulación son:
1) especificar un modelo para los resultados individuales del fenómeno aleatorio
subyacente.
2) bosquejar o delinear cómo simular un resultado individual y cómo representar
una única repetición del proceso aleatorio.
3) simular muchas repeticiones y estimar la probabilidad de un evento con su
frecuencia relativa.
Ejemplo 2.1.1 :Un plan familiar
Apliquemos estas etapas para estimar la probabilidad que un matrimonio tenga
un varón entre sus hijos.
Un matrimonio planifica tener chicos. Desean tener un varón a fin de continuar el
apellido. Después de alguna discusión deciden tener hijos hasta tener un varón o ten-
er tres niños, lo que ocurra primero. Bajo este plan familiar,¿cuál es la probabilidad
que ellos tengan un varón entre sus hijos?.
Simularemos esta situación a fin de estimar la probabilidad buscada.

37
Paso 1 :Especificamos un modelo para los resultados individuales
El fenómeno aleatorio individual es “tener un hijo la respuesta de interés es
2

su “sexo”. Comenzamos estableciendo algunas suposiciones básicas acerca de


los posibles resultados “niña” o “niño”. Vemos razonable suponer:

• cada hijo tiene 1/2 de probabilidad de ser varón y 1/2 de ser mujer.
• el sexo de sucesivos hijos es independiente (conocer el sexo de un hijo no
influye en el sexo de cualquiera de los siguientes).

Paso 2 Simular resultados individuales y una repetición.


Necesitamos simular el sexo de un único hijo. Podemos usar una tabla de
números al azar que tiene 10 dı́gitos del 0 al 9. Debido a nuestro modelo es-
tablecido por las suposiciones del Paso 1, necesitamos que 5 dı́gitos representen
un sexo y los cinco restantes el otro.
Por ejemplo: 0, 2, 4, 6, 8 →“el hijo es varón 1, 3, 5, 7, 9 → “el hijo es mujer”.
2

De modo que un único dı́gito aleatorio, representa el sexo de un único hijo.


Para simular una repetición del plan familiar usaremos sucesivos dı́gitos aleato-
rios hasta obtener un varón o tres hijos. Comenzando con la fila 14, columna 1
de la Tabla de números al azar que figura al final del texto, leyendo de izquierda
a derecha, se registran los dı́gitos de la Tabla con V o M , según correspon-
da, para representar varón o mujer y separamos con una lı́nea las sucesivas
repeticiones.

1 0 3 6 5 6 1 1 2
M V M V M V M M V
Paso 3 :Simulamos muchas repeticiones y estimamos la probabilidad.
Trabajando en grupos simulamos muchas repeticiones del plan familiar y usa-
mos la frecuencia relativa del evento “el matrimonio tiene un varón entre sus
hijos”para estimar su probabilidad.
Cada grupo simula 10 repeticiones y reunimos la información de todos los
grupos en una tabla como la siguiente:

Tabla 2.1.1
Grupo N 0 de repeticiones N 0 de veces que nacio un varon
1
2
.. .
.
9
10
Total N= ]V

38
Luego una estimación de la probabilidad es:
]V
N
(será próxima a 0,875)

Ejercicio 2.1.1 1) Elija una herramienta aleatoria, tal como un generador de


números aleatorios o una tabla de números al azar, y establezca cómo asignar
valores para simular los siguientes resultados individuales:

(a) ¿cómo puede simular un resultado cuya probabilidad de ocurrir es 0,4?


Complete, de acuerdo a la herramienta elegida:
· · · · · · =el resultado ocurre.
· · · · · · = el resultado no ocurre.
(b) ¿cómo puede simular un proceso aleatorio que tiene cuatro posibles re-
sultados, representados por A, B, C y D, con respectivas probabilidades
0,1, 0,2, 0,3 y 0,4 de ocurrir?.
Complete, de acuerdo a la herramienta elegida:
· · · · · · = el resultado A ocurre.
· · · · · · = el resultado B ocurre.
· · · · · · = el resultado C ocurre.
· · · · · · = el resultado D ocurre.
(c) ¿cómo puede simular un resultado que tiene una probabilidad 0,45 de
ocurrir?
Complete, de acuerdo a la herramienta elegida:
· · · · · · = el resultado ocurre.
· · · · · · = el resultado no ocurre.

2) Suponga que un matrimonio planea tener chicos hasta tener un varón o 4


chicos, lo que ocurra primero.¿Piensa que la probabilidad de tener un varón
bajo esta estrategia es mayor, menor o igual que 0,875?. Elabore una simu-
lación y estime la probabilidad.

Ejemplo 2.1.2 :Las tres puertas


En un programa televisivo de entretenimientos hay un juego que consiste en lo
siguiente: hay tres puertas, detrás de dos de ellas un pollo frito y detrás de la restante
un auto 0km. Cada participante elije una puerta y se lleva el premio que está detrás
de ella.
Después que el participante selecciona la puerta, el conductor del programa abre una
de las otras dos y muestra un pollo frito detrás de ella (notar que siempre es posible
hacer esto por lo que dos de las tres puertas tienen este premio). El conductor le
dá entonces dos opciones al participante:

39
1- quedarse con la puerta que eligió originalmente y recibir el premio correspon-
diente.

2- cambiar de puerta, eligiendo la otra que está cerrada y recibir el premio que
está detrás de esta última.

¿Cuál es la probabilidad de ganar el auto si el participanmte decide no cambiar?,


¿cuál es la probabilidad de ganar el auto si decide cambiar?.
Si la respuesta no es clara podemos simular el juego, a fin de estimar ambas
probabilidades.
Una forma de simular el juego es la siguiente: se trabaja en pareja, donde uno de sus
miembros juega como conductor y el otro como participante. El conductor presenta
las tres puertas representadas por tres naipes. Una de ellas representará la del auto
y las otras dos las de los pollos.(El conductor conocerá cual representa el auto).
Se comienza el juego, registrándose en una tabla la estrategia elegida por el par-
ticipante: cambia o no cambia, y el resultado de cada juego: gana el auto o gana un
pollo frito.
Una vez que se han llevado a cabo varias representaciones, usamos la frecuencia
relativa para estimar las correspondientes probabilidades.
Comenzamos con la estrategia de no cambiar la puerta original, simulamos 20
resultados del juego y los registramos en la siguiente tabla.

Estrategia: No cambia

Gana el auto Gana un pollo frito

Luego simulamos 20 resultados, siguiendo la estrategia de cambiar y los regis-


tramos en la tabla

Estrategia:Cambia

Gana el auto Gana un pollo frito

40
Resumimos los resultados

De las 20 repeticiones para las cuales no cambia la puerta original, ¿qué propor-
ción de veces ganó el auto?
n0 de veces que gano el auto
20
Luego estimamos que la probabilidad de ganar el auto bajo la estrategia de no
cambiar es· · · · · · .
De las 20 repeticiones para las cuales cambió la puerta original, ¿qué proporción de
veces ganó el auto?
n0 de veces que gano el auto
20
.
Luego estimamos que la probabilidad de ganar el auto bajo la estrategia de cam-
biar la puerta original es · · · · · · .
¿Qué estrategia tiene mayor chance de ganar el auto?.
Combinamos los resultados de la clase para lograr mejores estimaciones de ambas
probabilidades.

Veamos la solución

La mayorı́a de la gente puede entender que puesto que se selecciona una de


tres puertas, si no cambia, la probabilidad de ganar el auto es 1/3.¿Qué ocurre si
cambia?. Suponiendo que el conductor siempre abrirá una puerta que no tiene el
auto detrás, y ésta es una suposición esencial, el participante tiene 2/3 de chance
de ganar el auto cambiando. Existen tres órdenes igualmente posibles de los premios
detrás de las puertas, mostradas en A, B o C.

Puerta original elegida


1 2 3
Situación real orden A auto pollo pollo
orden B pollo auto pollo
orden C pollo pollo auto

Supongamos que el participante elige la puerta 1. Si el auto está detrás de la


puerta 1, como en el orden A, el conductor le mostrará (abrirá) la puerta 2 o la
3, y si el participante cambia, ganará un pollo frito. Si el auto no está detrás de la
puerta 1, como en los órdenes B o C, entonces el conductor abrirá de las puertas
restantes la que tiene detrás de ella un pollo, y si el participante cambia, ganará el
auto.
Es decir, si cambia, sólo el orden A lo llevará a lo llevará a perder. Análogamente
se analiza si el participante elige las puertas 2 o 3. Luego, la probabilidad de ganar
el auto cambiando es 2/3.

41
2.2. El Lenguaje de Probabilidad
A continuación introduciremos algunas notaciones y reglas que nos permitan
calcular probabilidades, que es nuestro objetivo.

2.2.1. Espacio muestral y eventos


Cuando realizamos un proceso aleatorio, obtenemos un conjunto de posibles re-
sultados. Ası́, por ejemplo, el lanzamiento de una moneda tiene dos resultados posi-
bles C(cara) o S(sello), el lanzamiento de un dado, seis resultados posibles: 1, 2, 3, 4, 5
y 6. Al conjunto de tales resultados lo llamamos espacio muestral. Concretamente:

Definición 2.2.1 Espacio Muestral


Un espacio muestral es el conjunto formado por todos los resultados indi-
viduales de un proceso aleatorio. Generalmente se lo designa por Ω o S y puede
representarse como una lista, un diagrama arbolado, un intervalo de valores, etc.

Ası́, en el experimento de arrojar un par de dados podemos representar los posi-


bles resultados usando un diagrama de árbol, que facilite encontrar Ω.
 

 (1, 1), · · · , (1, 6) 

(2, 1), · · · , (2, 6)

 


 

(3, 1), · · · , (3, 6)
 
Ω=

 (4, 1), · · · , (4, 6) 

(5, 1), · · · , (5, 6)

 


 

(6, 1), · · · , (6, 6)
 

|Ω| = 6 × 6 = 36.

Ejercicio 2.2.1 1) Proporcione el espacio muestral Ω para cada descripción del


fenómeno aleatorio.

(a) Se arroja un par de dados y se registra la suma de los puntos obtenidos.


Ω = ···.
(b) Se elije una muestra de tamaño 10 de un lote de artı́culos y se anota el
número de defectuosos en la muestra.
Ω = ···.
(c) Se elije un estudiante aleatoriamente y se registra el tiempo, en horas,
que estudió Estadı́stica en las 24 horas del dı́a de ayer.
Ω = ···.

2) Considere el proceso de elegir, al azar, dos adultos de San Juan y registrar


su preferencia entre tres partidos polı́ticos A, B, C. Las posibles opciones de
respuesta son: A, B, C o N (ninguno). Los dos adultos elegidos son (en ese
orden) Juan y Marı́a.

42
¿Cuál de los siguientes espacios muestrales es el correcto para este experimen-
to?. Marque su respuesta.

a) Ω = {Juan, M aria}.
b) Ω = {A, B, C, N }.
c) Ω = {A, B}.
d) Ninguna de las anteriores.

Si Ud. eligió b) su respuesta es incorrecta, pues dicho espacio es el correcto si


el experimento hubiese consistido en elegir, al azar, exactamente una persona
y registrar su preferencia polı́tica.
Si eligió c), Ud. eligió en realidad uno de los posibles resultados (A, B) que
representa “Juan prefiere el partido A “Marı́a prefiere el partido B”.
2

La respuesta correcta es d)¿Porqué?

Los eventos son subconjuntos del espacio muestral y se designan con letras
mayúsculas imprentas A, B, C, · · · .
Decimos que el evento A ha ocurrido, si se ha efectuado el experimento aleatorio,
obteniéndose un resultado a ∈ A, en otro caso diremos que A no ha ocurrido.

Definición 2.2.2 Evento


Un evento es un subconjunto del espacio muestral. Se dice que el evento A ocurre
si cualquiera de los resultados en A ha ocurrido cuando el proceso aleatorio se ha
llevado a cabo.
Llamaremos Espacio de eventos y lo denotaremos con A al conjunto formado
por todos los eventos asociados a un experimento aleatorio.

Nota 2.2.1 : El espacio de eventos es una σ−álgebra de Ω.

Ejercicio 2.2.2 1) En el experimento de arrojar un par de dados, de por exten-


sión los eventos:

(a) A :“Ningún 6”.


(b) B : “Exactamente un 6”.
(c) C :“Exactamente dos 6”.

2) En un grupo de personas, algunas están a favor (F) del aborto y otras en


contra (C). Se seleccionan, al azar, tres personas de este grupo, y se registra
su opinión al respecto. Supongamos que es importante saber de qué persona
proviene cada opinión (es decir importa el orden).

(a) Escriba el espacio muestral para esta situación.

43
(b) Describa el evento A :“al menos una persona está en contra del aborto”.
(c) Describa el evento B :“exactamente dos personas están a favor del abor-
to”.

Algunas veces los eventos son combinación de varios eventos. Ası́ por ejemplo
podemos interesarnos en calcular la probabilidad de un evento que es unión o inter-
sección de dos o más eventos.

Definición 2.2.3 Dos eventos se dicen mutuamente excluyentes si son disjun-


tos, es decir no tienen elementos comunes. Esta definición se extiende a más de dos
eventos:n eventos A1 , A2 , · · · , An son mutuamente excluyentes si son disjuntos dos
a dos.

Definición 2.2.4 Dos o más eventos se dicen exhaustivos si su unión dá todo el
espacio muestral.

Ejemplo 2.2.1 Una muestra aleatoria de 200 adultos se clasifica de acuerdo a su


sexo y al mayor nivel de estudios alcanzado. Los resultados se vuelcan en la siguiente
tabla

Tabla 2.2.1
nivel de estudio

Primario Secundario Universitario


M 88
38 28 22
sexo
F 112
45 50 17
200
83 78 39

Sean A y B los eventos:

A : el adulto elegido es mujer.

B : el adulto elegido es varón.


A y B son mutuamente excluyentes y exhaustivos en este caso.
Sean
C : el adulto elegido tiene nivel de eduacación primaria.

D : el adulto elegido tiene nivel de eduacación secundaria.

44
E: el adulto elegido tiene nivel de eduacación universitaria.
C, D y E son mutuamente excluyentes y exhaustivos en este ejemplo.
Describimos ,mediante operaciones entre eventos ,los eventos
F : el adulto elegido es varón y tiene nivel de eduacación secundaria.
G: el adulto elegido es mujer o tiene nivel de eduacación universitaria.
Entonces F = B ∩ D y G = A ∪ E.
¿Son F y G mutuamente excluyentes?, ¿son exhaustivos?.

2.2.2. Reglas de Probabilidad


Hemos definido la probabilidad a posteriori o frecuencial, la cual necesita repetir
un experimento aleatorio un gran número de veces, bajo las mismas condiciones.
En algunas ocasiones el experimento arroja un número finito de resultados posibles
y todos tienen la misma “posibilidad”de ocurrencia. Tal es el caso de arrojar una
moneda justa (balanceada, simétrica), un dado no cargado, extraer al azar una carta
de un naipe bien barajado. En estos casos, la probabilidad de un evento se puede
calcular como la proporción de los resultados en el espacio muestral que satisfacen
el evento. Esto se formaliza en la siguiente

Definición 2.2.5 Si en experimento aleatorio arroja un número finito de n resul-


tados igualmente posibles y mutuamente excluyentes, entonces la probabilidad P (A)
de un evento A es
nA
P (A) = ,
n
siendo nA el número de resultados del experimento que pertenecen al evento A, es
decir nA = card(A).

Esta definición se debe a Laplace y se denomina definición clásica de proba-


bilidad.
Nota 2.2.2 Para calcular probabilidades usando la definición Laplaciana podemos
ayudarnos de las fórmulas combinatoriales para hallar n = card(Ω) y nA = card(A),
en los casos en que el conteo se nos escape de las manos.

Ejercicio 2.2.3 En el experimento del ejercicio 2.2.2, inciso 1), halle las probabi-
lidades de los eventos A, B y C.
Sea D el evento:“al menos un seis”. Encuentre la probabilidad de D y compararla
con 1 − P (A),¿cómo son los eventos A y D?.
Calcule la probabilidad de A ∪ B,¿cómo son A y B?.
Calcule P (Ω).

A partir de la definición de probabilidad podemos ver que ésta cumple ciertas reglas
básicas:

45
1) La probabilidad de cualquier evento varı́a entre 0 y 1, esto es

0 ≤ P (A) ≤ 1, para todoA ∈ A.

2) La probabilidad del evento seguro Ω es 1, esto es

P (Ω) = 1.

3) Si A es cualquier evento y A su complemento, entonces la probabilidad de A


es 1 menos P (A), esto es
P (A) = 1 − P (A).

4) Si A y B son eventos mutuamente excluyentes, entonces la probabilidad de


A ∪ B es la suma de las probabilidades de ambos eventos, esto es

P (A ∪ B) = P (A) + P (B).

En base a la definición Laplaciana y frecuencial de probabilidad surge la defini-


ción axiomática. Cualquier función definida en el espacio de eventos asociado a un
experimento aleatorio, que tiene como imágen al intervalo [0, 1] tal que aplicada al
espacio muestral Ω es 1 y tal que aplicada a la unión de eventos mutuamente ex-
cluyentes es la suma de las probabilidades de los respectivos eventos, es una función
de probabiliad definida sobre Ω. Esto se formaliza en la siguiente

Definición 2.2.6 Definición axiomática de probabilidad


Sea Ω el espacio muestral asociado a un experimento aleatorio y A su espacio de
eventos. Diremos que una función P : A → IR es una probabilidad definida sobre
Ω, si verifica los axiomas

P1 ) 0 ≤ P (A) ≤ 1, para todo A ∈ A.

P2 ) P (Ω) = 1.

P3 ) Si A1 , A2 , · · · , An , · · · 
es una 
colección numerable de eventos mutuamente ex-

S ∞
P
cluyentes, entonces P Ai = P (Ai ).
i=1 i=1

De la definición axiomática de probabilidad se deducen las propiedades

1- P (∅) = 0.

2- P (A) = 1 − P (A) para todo A ∈ A.

3- Si A, B ∈ A y A ⊆ B entonces P (A) ≤ P (B).

4- Si A, B ∈ A entonces P (A) = P (A ∩ B) + P (A ∩ B).

46
5- Si A, B ∈ A, entonces P (A ∪ B) = P (A) + P (B) − P (A ∩ B).

6- La propiedad anterior se generaliza a más de dos eventos


n
! n
[ X XX
P Ai = P (Ai ) − P (Ai ∩ Aj )
i=1 i=1 ij
XXX
+ P (Ai ∩ Aj ∩ Ak ) + · · · + (−1)n+1 P (A1 ∩ A2 ∩ · · · An ).
ijk

 n
 n
S P
7- P Ai ≤ P (Ai ).
i=1 i=1

Ejemplo 2.2.2 Considere los resultados del ejemplo 2.2.1 y los eventos
A1 :“el adulto elegido tiene nivel de educación universitario”.
A2 :“el adulto elegido es mujer”.
¿Cuál es la probabilidad que un adulto elegido al azar sea mujer o tenga nivel de
educación universitaria?.
P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) − P (A1 ∩ A2 )
39 112 17
= + −
200 200 200
139
= = 0,67.
200
Ejercicio 2.2.4 Una compañı́a de construcción local se ha presentado en una lici-
tación para dos contratos con el gobierno. La compañı́a sabe que la probabilidad de
ganar el primer contrato es 0,5, la probabilidad de ganar el segundo contrato es 0,4
y la de ganar ambos es 0,2.

(a) ¿Cuál es la probabilidad que tiene la compañı́a de ganar al menos uno de los
contratos?.

(b) ¿Cuál es la probabilidad de ganar el primer contrato pero no el segundo?.

(c) ¿Cuál es la probabilidad de ganar el segundo contrato pero no el primero?.

(d) ¿Cuál es la probabilidad de no ganar el primer contrato ni el segundo?.

2.2.3. Probabilidad Condicional


Algunas veces debemos usar alguna información acerca de los resultados del
experimento aleatorio bajo estudio y calcular la probabilidad que ocurra un deter-
minado evento, teniendo en cuenta tal información. Suponga, por ejemplo, que se
arroja una vez un dado honrado. Se sabe que la probabilidad de obtener 1 es 1/6.
Pero, asuma que se le ha informado que al llevar a cabo el experimento, se obtuvo

47
un número impar. ¿cuál es ahora la probabilidad que sea 1?.Puesto que el resultado
fué impar se restringe el espacio muestral al evento dado, {1, 3, 5}, luego la probabil-
idad buscada es 1/3. Esta última recibe el nombre de probabilidad condicional.
Se denota P (A/B) = 1/3 a la probabilidad del evento A = {1} dado el evento
“condición”B = {1, 3, 5}.

En este ejemplo se tiene que P P(A∩B)


(B)
= 1/6
3/6
= 13 , que coincide con la probabilidad
P (A/B). A partir de esto, surge como natural la definicin de probabilidad condi-
cional.

Definición 2.2.7 Sea (Ω, A, P ) un espacio de probabilidad, llamamos probabilidad


condicional del evento A, dado el evento B, y la denotamos P (A/B) a

P (A ∩ B)
P (A/B) = si P (B) > 0
P (B)

Nota 2.2.3 De la definición anterior se deduce que

P (A ∩ B) = P (B)P (A/B).

Esta propiedad se extiende a más de dos eventos y se denomina Regla de la Multi-


plicación:
Si P (A1 ∩ A2 ∩ · · · ∩ An−1 ) > 0, entonces

P (A1 ∩A2 ∩· · ·∩An ) = P (A1 )P (A2 /A1 )P (A3 /A1 ∩A2 ) · · · P (An /A1 ∩A2 ∩· · ·∩An−1 ).

Ejercicio 2.2.5 1) Pruebe que P (./B) es una función de probabilidad sobre Ω.

2) Pruebe, por inducción sobre n, la Regla de la Multiplicación.

Ejemplo 2.2.3 Considere los datos del ejemplo 2.2.1 y responda:

(a) ¿cuál es la probabilidad que un adulto elegido al azar tenga nivel de estudio
universitario, sabiendo que es mujer?.

(b) ¿cuál es la probabilidad que un adulto elegido al azar se a varón, sabiendo que
su nivel de estudio es secundario?.

2.2.4. Independencia de eventos


Considere el experimento de arrojar una vez un dado no cargado.

(a) ¿Cuál es la probabilidad de obtener un 2?

(b) ¿Cuál es la probabilidad de obtener un 2, sabiendo que el resultado fué un


número par?

48
Es claro que la respuesta a (a) es P ({2}) = 16 mientras que la respuesta a (b) es
P ({2}/{2, 4, 6}) = 13 .
En este caso la probabilidad condicional es diferente a la probabilidad no condicional
del evento. Suponga, como otro ejemplo, que se arroja dos veces una moneda justa.

(c) ¿Cuál es la probabilidad de obtener cara en el segundo lanzamiento?

(d) ¿Cuál es la probabilidad de obtener cara en el segundo lanzamiento, sabiendo


que el primer lanzamiento resultó cara?.

Sea A1 :“cara en el primer lanzamiento A2 :“cara en el segundo lanzamiento”,


2

entonces la respuesta a (c) es P (A2 ) = 24 = 12 y la respuesta a (d) es P (A2 /A1 ) = 12 .


Se observa que en este caso la probabilidad condicional coincide con la no condicional
del evento, diremos entonces que A1 y A2 son eventos independientes.

Definición 2.2.8 Dos eventos A y B son independientes si y sólo si se verifica


una de las siguientes condiciones:

(1) P (A ∩ B) = P (A)P (B).

(2) P (A/B) = P (A) si P (B) > 0.

(3) P (B/A) = P (B) si P (A) > 0.

Ejercicio 2.2.6 Pruebe que las condiciones (1), (2) y (3) de la definición anterior
son equivalentes.

Ejemplo 2.2.4 Una guirnalda contiene 30 focos de luz. Si uno de los focos falla,
entoncesa la guirnalda no enciende. La probabilidad que un único foco dure al menos
2 años es 0,98. Si los focos operan independientemente,¿cuál es la probabilidad que
la guirnalda funcione por lo menos 2 años?.
Sean los eventos F :“la guirnalda funciona por lo menos 2 años”, Fi :“el i−ésimo
foco funciona por lo menos 2 años”, entonces

P (F ) = P (F1 ∩ F2 ∩ · · · ∩ F30 ) = P (F1 )P (F2 ) · · · P (F30 ) = (0,98)30 = 0,545.

Ejemplo 2.2.5 Al comienzo de la unidad se simuló el plan familiar de un matrimo-


nio que planeó tener hijos hasta tener un varón o tres hijos, lo que ocurra primero.
Se obtuvo en la simulación que una estimación de la probabilidad que el matrimonio
tenga un varón entre sus hijos bajo este plan era aproximadamente 0,84, para 100
repeticiones del proceso aleatorio.
Ahora estamos en condiciones de modelar el problema y calcular la probabilidad
exacta. Hemos supuesto que :

1) cada hijo tiene 1/2 de probabilidad de ser varón y 1/2 de ser mujer.

49
2) el sexo de los sucesivos hijos es independiente.

Encontremos primero el espacio muestral. Existen cuatro posibles resultados de


esta experiencia:
Ω = {V, M V, M M V, M M M } .
Sea A:“el matrimonio tiene un varón entre sus hijos”, entonces
1 11 111 1 1 1
P (A) = P ({V, M V, M M V }) = + + = + + = 0,875.
2 22 222 2 4 8
Observamos ası́ que la estimación obtenida por simulación es buena y será mejor
si aumentamos el número de experiencias.

Definición 2.2.9 Una familia de n eventos A1 , A2 , · · · , An se dice mutuamente in-


dependiente si los eventos Ai son independientes de a pares, esto es si Ai es inde-
pendiente de Aj cuando i 6= j.
Se dice completamente independiente o independiente si verifica: cualquiera sea
k = 1, 2, · · · , n y cualesquiera sean i1 , i2 , · · · , ik ∈ {1, 2, · · · , n} se cumple que

P (Ai1 ∩ Ai2 ∩ · · · ∩ Aik ) = P (Ai1 )P (Ai2 ) · · · P (Aik )

Nota 2.2.4 La independencia implica la independencia de a pares, la recı́proca no


es cierta, como lo muestra el siguiente ejemplo.

Ejemplo 2.2.6 Sea el experimento de arrojar un par de dados y los eventos


A1 :“el número sobre el primer dado es impar”,
A2 :“el número sobre el segundo dado es impar 2

A3 :“la suma de los puntos obtenidos es impar”.


estos tres eventos son mutuamente independientes pero no independientes pues
P (A1 ∩ A2 ∩ A3 ) = P (∅) = 0, mientras que P (A1 )P (A2 )P (A3 ) 6= 0.

Teorema de Probabilidad Total y Teorema de Bayes


Se tienen dos urnas U1 y U2 . La urna U1 contiene 2 bolillas blancas y 2 negras; la
urna U2 contiene 4 bolillas blancas y 6 negras (todas las bolillas son indistinguibles
al tacto). Suponga que el experimento aleatorio consiste de dos etapas:

1) elegir al azar una de las dos urnas (ambas son idénticas).

2) extraer, aleatoriamente, una bolilla de la urna seleccionada.

Nos preguntamos ¿cuál es la probabilidad que la bolilla extraı́da sea blanca?.


Obviamente esta probabilidad dependerá de la urna elegida. La situación es la sigu-
iente:

50
Si llamamos Bi al evento“seleccionar la urna Ui ”, i = 1, 2, resulta que B1 y B2
forman una partición del espacio muestral. Sea B el evento “la bolilla elegida es
blanca”. Es claro que

P (B) = P (B ∩ B1 ) + P (B ∩ B2 )
2
y puesto que conocemos las probabilidades condicionales P (B/B1 ) = 4
y P (B/B2 ) =
4
10
conviene escribir

1 2 1 4
P (B) = P (B1 )P (B/B1 ) + P (B2 )P (B/B2 ) = · + · = 0,45
2 4 2 10
Esta forma de calcular probabilidades se generaliza para el caso de tener una par-
tición del espacio muestral, de más de dos eventos y conocer las probabilidades
condicionales a los eventos de la partición.

Teorema 2.2.1 Teorema de Probabilidad Total


Sea (Ω, A, P ) un espacio de probabilidad y B1 , B2 , · · · , Bn una partición de Ω,
tal que P (Bi ) > 0, i = 1, · · · , n, entonces para todo A ∈ A se verifica
n
X
P (A) = P (Bi )P (A/Bi ).
i=1

Ejercicio 2.2.7 Demuestre el teorema de probabilidad total.

Retomemos el ejemplo anterior. Supongamos que llevamos a cabo la experiencia


y la bolilla elegida resultó blanca, ¿cuál es la probabilidad que provenga de la urna
U1 ?

1 2
P (B1 ∩ B) P (B1 )P (B/B1 ) · 5
P (B1 /B) = = = 2 4 = .
P (B) P (B1 )P (B/B1 ) + P (B2 )P (B/B2 ) 0,45 9
Cuando nos preguntamos acerca de una probabilidad condicional de uno de los
eventos de la primera etapa (eventos de la partición)a un evento de una etapa
posterior, como en este caso, procedemos aplicando la llamada Regla de Bayes.

Teorema 2.2.2 Regla de Bayes


Sea (Ω, A, P ) un espacio de probabilidad y B1 , B2 , · · · , Bn una partición de Ω,
tal que P (Bi ) > 0, i = 1, · · · , n, entonces si A ∈ A es tal que P (A) > 0, se verifica
que
P (Bk )P (A/Bk )
P (Bk /A) = P n , k = 1, 2, · · · n.
P (Bi )P (A/Bi )
i=1

Ejercicio 2.2.8 Demuestre el teorema anterior.

51
Ejemplo 2.2.7 Supongamos que se ha desarrollado un test muy confiable para de-
tectar una enfermedad rara. En particular, supongamos que cuando la enfermedad
está presente, el test dá positivo el 98 % de las veces. Cuando está ausente dá ne-
gativo el 95 % de las veces. Además se sabe que, aproximadamente, el 0,1 % de la
población general tiene la enfermedad.
Se ha detectado , usando el test, que una persona tiene la enfermedad(es decir
el test dió positivo),¿cuál es la probabilidad que realmente la posea?.
Sean los eventos: E:“la persona tiene la enfermedad”, +:“el test dá positivo −:
2

“el test dá negativo”, entonces

P (E)P (+/E)
P (E/+) =
P (E)P (+/E) + P (E)P (+/E)

Se sabe que P (E) = 0,001, luego P (E) = 0,999, además P (+/E) = 0,98 (luego la
P (−/E) = 0,02) y P (−/E) = 0,95 (luego P (+/E) = 0,05), por lo tanto
0,001 · 0,98
P (E/+) = ' 2 %.
0,001 · 0,98 + 0,999 · 0,05
El complemento de esta probabilidad se denomina tasa de falsos positivos y en este
caso es
P (E/+) = 1 − P (E/+) ' 98 %.

2.3. Cuestionario

1) Explique las diferencias entre experimento determinı́stico y experimento aleato-


rio y ejemplifique cada tipo.

2) a- ¿Qué entiende por simulación?


b- Enumere las herramientas que puede usar para simular un experimento
aleatorio.

3) ¿Porqué es necesario que el espacio de eventos asociado a un experimento


aleatorio sea una σ−álgebra?

4) ¿En qué casos emplea la definición clásica de probabilidad para calcular prob-
abilidades, ¿qué limitaciones tiene esta definición?.

5) ¿Cómo procederı́a para calcular la probabilidad de que un artı́culo seleccionado


al azar sea defectuoso en un envı́o grande de tales artı́culos que se tiene en un
depósito?

6) Explique qué significa la expresión:“La probabilidad de que un determinado


tipo de semilla germine es 0,8”.

52
7) ¿Qué condiciones debe cumplir un experimento aleatorio para que las proba-
bilidades de eventos asociados al mismo se calculen por el teorema de proba-
bilidad total?.

8) Proporcione un ejemplo donde necesite de la Regla de Bayes para el cálculo


de una probabilidad requerida.

9) ¿Son equivalentes los conceptos “mutuamente independientes”y “completa-


mente independientes” para una familia de n ≥ 3 eventos? Justifique.

10) Suponga que A y B son eventos mutuamente excluyentes, ¿qué condiciones


deben cumplir dichos eventos para que sean independientes? Ejemplifique.

11) Sea Ω una región del plano de área finita y A ⊆ Ω. Se define :

área de A
P [A] =
área de Ω
Pruebe que P [.] ası́ definida es una función de probabilidad definida en P(Ω)
(Nota: esta probabilidad se denomina Probabilidad Geométrica)
Aplicación: Sea Ω = (x, y) ∈ IR2 : 0 ≤ x ≤ 1; 0 ≤ y ≤ 1 y


A = (x, y) ∈ Ω : x + y ≤ 12 .


Suponga que se arroja un dardo dentro de Ω y se gana un premio si el dardo


cae en la región A. ¿Cuál es la probabilidad de ganar el premio?
Proporcione otro ejemplo donde aplique la definición de probabilidad geométri-
ca para hallar una probabilidad requerida.

53
Capı́tulo 3

Variable Aleatoria

3.1. Introducción
Consideremos el experimento de arrojar un par de dados y apostar a la suma de
los puntos obtenidos. En este caso el interés no recae en cada uno de los 36 resultados
posibles sino en el comportamiento de la “suma de los puntos obtenidos”. Es claro
que esta suma varı́a al calcularla para cada uno de los 36 pares y esta variación
es aleatoria pues está sujeta a la naturaleza aleatoria del experimento. Decimos
que esta suma es una variable aleatoria. Las variables aleatorias se denotan con le-
tras mayúsculas imprentas del final del abecedario · · · X, Y, Z y las correspondientes
subindicadas.
Denotemos con X a la variable de nuestro ejemplo. Es claro que X toma valores
de acuerdo al resultado considerado en nuestro espacio muestral. En este caso los
posibles valores de la variable son los enteros comprendidos entre 2 y 12. Para
avanzar, con un ejemplo más sencillo, consideremos el lanzamiento de una moneda
cuyos posibles resultados son C o S. No obstante es posible asociar a cada resultado
del experimento un valor numérico, ası́ podemos asociar:

C → 1, S → 0,

es decir definimos la variable que asocia a cada resultado el número de caras obtenido.
Como estadı́sticos nos gusta trabajar con resultados numéricos y esto nos lleva a
nuestra próxima definición

Definición 3.1.1 Una Variable aleatoria es una función X : Ω → IR, esto es


una cantidad numérica incierta cuyos valores dependen del resultado aleatorio de un
experimento. Además X debe verificar que

X −1 (−∞, r] = {ω ∈ Ω : X(ω) ≤ r}

es un evento, para todo r ∈ IR.

54
Nota 3.1.1 Cuando A = P(Ω) la condición X −1 (−∞, r] ∈ A, para todo r ∈ IR se
cumple trivialmente.
Usaremos las letras minúsculas imprentas · · · x, y, z para denotar los valores de
variables aleatorias. Ası́ x = 7 nos dice que en un lanzamiento particular de un par
de dados se obtuvo un total de 7 puntos. Pensamos en X como aleatoria, el valor
de una variable antes de ser observada, mientras que x es conocida, es un valor
particular de X que ha sido observado.

Ejemplo 3.1.1 (a) Sea X la V.A que representa el número de caras obtenido al
arrojar una moneda justa 3 veces. Los posibles valores de X son x = 0, x =
1, x = 2 o x = 3.

(b) Se extrae una muestra de 10 artı́culos de un lote de artı́culos. Sea Y la V.A que
representa el número de defectuosos en la muestra. Luego Y toma los posibles
valores y = 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 o 10.

(c) Si el experimento consiste en elegir un foco de luz de una lı́nea de producción


y Z es la V.A. que representa la vida, en horas, del foco, entonces el conjunto
de valores posibles de Z es el intervalo [0, ∞).

Definición 3.1.2 Una variable aleatoria discreta es aquella que puede tomar
valores en un conjunto finito o infinito numerable.
Una variable aleatoria continua es aquella que puede tomar cualquier valor
en un intervalo o colección de intervalos.

Ası́, en el ejemplo anterior, X e Y son V.A discretas y Z es una V.A. continua.


A continuación definiremos una función real de variable real que nos permite
calcular probabilidades de eventos descriptos en términos de una V.A. X.

Nota 3.1.2 Si X : Ω → IR es una V.A., al conjunto {ω ∈ Ω : X(ω) ∈ B} , B ⊆ IR,


lo denotaremos [X ∈ B]. Ası́ X −1 (−∞, r] = [X ≤ r] y X −1 [a, b] = [a ≤ X ≤ b].

Definición 3.1.3 La función de distribución acumulada de una variable aleato-


ria X, denotada por FX : IR → IR, se define por

FX (x) = P [X ≤ x], para x ∈ IR.

Nota 3.1.3 En general lo que importa de una V.A. es su función de distribución,


más que su expresión explı́cita como función definida en algún Ω. Escribiremos “X ∼
F 00 para indicar que la variable aleatoria X tiene función de distribución acumulada
(F.D.A) F .

Ejemplo 3.1.2 Sea X la V.A. que denota “número de caras” al arrojar una moneda
justa. Luego X toma los valores x = 0, 1.
Dado x ∈ IR puede ocurrir que

55
(a) x < 0

(b) 0 ≤ x < 1

(c) x ≥ 1

Si ocurre (a) entonces FX (x) = P (∅) = 0.


Si ocurre (b) entonces FX (x) = P ({S}) = 12 .
Si ocurre (c) entonces FX (x) = P (Ω) = 1.
Luego 
0
 si x < 0,
FX (x) = 1/2 si 0 ≤ x < 1

1 si x ≥ 1.

(
1 si x ∈ A,
Usando la función indicadora IA (x) = , podemos escribir FX como la
0 si x ∈ / A.
función simple
1
FX (x) = I[0,1) (x) + I[1,∞) (x).
2

A partir del gráfico de FX del ejemplo anterior podemos ver que FX es no de-
creciente, FX (x) → 0 cuando x → −∞, FX (x) → 1 cuando x → ∞ y es continua
por derecha. Estas propiedades se verifican para cualquier función de distribución
acumulada.

Lema 3.1.1 Sea F la F.D.A. de una V.A.X, entonces se verifica

56
a- F es no decreciente, esto es

si a ≤ b entonces F (a) ≤ F (b).

b- lı́m F (x) = 0 , lı́m F (x) = 1.


x→−∞ x→∞

c- F es continua por derecha, esto es para todo x ∈ IR

F (x) = lı́m+ F (t) = lı́m+ F (x + h).


t→x h→0

Demostración
Probemos a-:
F (b) = P (X ≤ b) = P (X ≤ a) + P (a < X ≤ b) = F (a) + P (a < X ≤ b)
y puesto que P (a < X ≤ b) ≥ 0, se tiene que F (b) ≥ F (a).
Probemos b: Puesto que F es no decreciente y acotada, existe

lı́m F (x) = lı́m F (n) = lı́m P (X ≤ n)


x→∞ n→∞ n→∞

. Llamemos
S An al evento [X ≤ n] para cada n ∈ N , luego An ⊆ An+1 para todo n
y An = Ω. Entonces lı́m P (An ) = P (Ω) = 1.
n n→∞
Análogamente se demuestra que lı́m F (x) = 0.
n→−∞
Probemos c:
   
1 1
lı́m F (t) = lı́m F x+ = lı́m P X ≤x+
t→x+ n→∞ n n→∞ n

Llamando Cn = [X ≤ x + n1 ] se tiene que Cn+1 ⊆ Cn para todo n y


T
Cn = [X ≤ x],
n
luego
lı́m F (t) = F (x).
t→x+
2

Nota 3.1.4 Cualquier función F : IR → IR que verifique las propiedades anteriores


se denomina función de distribución acumulada. Dos V.A. distintas X e Y pueden
tener la misma F.D.A.

Ejercicio 3.1.1 Sean X la V.A. que representa el “número de caras” en el lan-


zamiento de una moneda honrada e Y la V.A definida por Y (ω) = 1 si ω es par,
Y (ω) = 0 si ω es impar, al arrojar un dado balanceado. Probar que FX = FY .

57
3.1.1. Variables Aleatorias Discretas
Sea X una V.A. discreta que toma valores x1 , x2 , · · · , xn , · · · . Diremos que éstos
son los puntos masa de la variable X. Se puede asignar a cada posible valor xi de X
la probabilidad que X tome dicho valor, es decir definir una función fX que a cada
xi le asocie P (X = xi ). Dicha función se denomina función másica de probabilidad
o función densidad discreta y se denota también por pX .

Definición 3.1.4 Sea X una V.A. discreta con puntos masa x1 , x2 , · · · , xn , · · · , la


función fX : IR → [0, 1] definida por
(
P (X = xi ) si x = xi para algun i,
fX (x) =
0 en otro caso.

se denomina función densidad discreta o función másica de probabilidad.

Ejemplo 3.1.3 Si X denota la suma de puntos obtenidos al arrojar un par de dados,


entonces X es discreta con valores 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12 y podemos resumir la
distribución de probabilidad de X, que nos dá la densidad en cada punto masa en el
siguiente cuadro

x 2 3 4 5 6 7 8 9 10 11 12
fX (x) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36

Vemos que en este caso fX es simétrica alrededor de x = 7 que es donde presenta


un máximo (valor más probable de X).

58
Lema 3.1.2 Propiedades de fX
Si f es la función densidad asociada a una variable aleatoria X con puntos masa
x1 , x2 , · · · , xn , · · · , entonces se verifica

a- fX (x) ≥ 0 para todo x ∈ IR.


P
b- fX (x) = 1, donde la suma es numerable ya que fX (x) > 0 sólo para los
puntos masa xi de X.

Nota 3.1.5 Cualquier función f : IR → IR para la cual exista un conjunto nu-


merable x1 , x2 , · · · , xn , · · · tal que f verifique a) y b) del lema se denomina función
densidad discreta.

Lema 3.1.3 Si X es una variable aleatoria discreta con puntos masa x1 , x2 , · · · , xn , · · ·


función densidad discreta fX y función de distribución acumulada FX , se verifica
X
FX (x) = fX (xi ),
{i:xi ≤x}

y
fX (xi ) = lı́m+ FX (t) − lı́m− FX (t) , para todo i.
t→xi t→xi

Además, en general,
X
P (X ∈ A) = fX (xi ) para todo A ∈ B1 , siendo B1 la σ-álgebra de Borel de IR .
{i:xi ∈A}

Ejercicio 3.1.2 Demostrar los lemas anteriores.

A continuación veremos una variable aleatoria discreta que toma sólo los valores
0 y 1.

El esquema Bernoulli
Veamos ahora una situación muy frecuente en probabilidad. Se arroja n veces un
dado (no necesariamente equilibrado). Queremos hallar la probabilidad de obtener
exactamente k “ases” en los n lanzamientos. Cada lanzamiento puede resultar en
“éxito”, que equivale a obtener un as, o “fracaso”, que equivale a no obtener un
as. Diremos que cada lanzamiento es un ensayo de Bernoulli. Sea p = P (exito) =
P (obtener un as).
Es claro que p es constante de prueba a prueba y además que los eventos Aj :“obtener
un as en el j−ésimo lanzamiento”,j = 1, 2, · · · , n son independientes.
Nuestro espacio muestral es

Ω = {(z1 , z2 , · · · , zn ) : zi = 1 o zi 6= 1, i = 1, · · · , n}

59
= {(z1 , z2 , · · · , zn ) : zi =éxito o zi =fracaso, i = 1, · · · , n}
Sea Bk :“exactamente k éxitos en n ensayos”, entonces Bk es unión disjunta de
todos los resultados que consisten en n−uplas con k éxitos (k ases) y n − k fracasos
(n − k no ases). Para cada uno de estos resultados, la probabilidad es, debido a las
suposiciones de independencia e invariabilidad de p, pk (1 − p)n−k .
Puesto que hay nk de tales resultados, se tiene que

 
n k
P (Bk ) = p (1 − p)n−k , k = 0, · · · , n.
k
A éstas probabilidades se las llama “distribución binomial” y se denota por b(k; n, p).

3.1.2. Distribuciones discretas importantes


Distribución Binomial
Definición 3.1.5 X tiene una distribución binomial con parámetros n y p,n ∈
IN, p ∈ (0, 1), si su densidad se da por
 
n x
fX (x) = b(x; n, p) = p (1 − p)n−x , x = 0, 1, · · · , n.
x
Nota 3.1.6 Si X tiene distribución binomial con parámetros n y p, escribiremos
X ∼ B(n, p).
Como vimos en la subsección anterior, la variable que cuenta el número de éxitos
en n ensayos de Bernoulli independientes y repetidos con probabilidad de éxito p,
tiene tal distribución. Si n = 1 la distribución es Bernoulli. En particular, si A ∈ A
y X = IA , entonces X ∼ B(1, p) siendo p = P (A).

Distribución de Poisson
Definición 3.1.6 Diremos que una V.A.X tiene distribución de Poisson con
parámetro λ, (λ > 0), si su función densidad se da por
e−λ λx
fX (x) =, x = 0, 1, 2, · · ·
x!
Nota 3.1.7 Escribiremos X ∼ P(λ) para indicar que X tiene una distribución de
Poisson con parámetro λ.
Mostraremos a continuación que la distribució de Poisson se utiliza como aprox-
imación de la binomial cuando n “grande” y p es “chico”, tomando λ = np ó para
modelar procesos estocásticos (sucesiones de variables aleatorias indexadas po el
tiempo). Por ejemplo, bajo condiciones adecuadas, la variable que cuenta el número
de sucesos que ocurren en un intervalo de tiempo de longitud t, se distribuye Poisson
con λ = ct siendo c la tasa media de ocurrencia por unidad de tiempo.

60
La aproximación de Poisson y sus aplicaciones
Consideremos a continuación una aproximación de la distribución binomial para
n “grande” y p “chico”.
Para representar esto consideramos una sucesión b(k; n, pn ) donde n → ∞, npn → λ
(esto es pn → 0).
 
n k
b(k; n, pn ) = pn (1 − pn )n−k
k
   k  n−k
n λ λ
' 1−
k n n
 k  n−k
n! λ λ
= 1−
(n − k)!k! n n
n −k
(n)k λk λk
  
λ λ
= k 1− 1− → e−λ .
n k! n n k!
−λ k
Si llamamos p(k; λ) = e k!λ , k = 0, 1, 2, · · · y λ > 0, hemos probado que
b(k; n, pn ) → p(k; λ) cuando n → ∞ y npn → λ, es decir la distribución binomial
converge a una Poisson en estos casos.
En la práctica, cuando n es “grande” y p “chico”, tomamos np = λ y usamos
p(k; λ) como aproximación para hallar las probabilidades b(k; n, p).

Ejemplo 3.1.4 Supongamos que la probabilidad de obtener un artı́culo defectuoso


de un gran lote de artı́culos es 0,01,¿cuál es la probabilidad de obtener cinco artı́culos
defectuosos en una muestra de 200 de tal lote?.
Puesto que n = 200 y p = 0,01, tomamos λ = np = 200 · 0,01 = 2 y aproximamos
−2 5
b(5; 200, 0,01) = p(5; 2) = e 5!2 , que es más fácil de calcular que 200
5
(0,01)5 (0,99)195 .

La distribución de Poisson para modelar procesos estocásticos


La distribución de Poisson provee un modelo realista para muchos fenómenos
aleatorios. Puesto que los valores de una variable aleatoria Poisson son los enteros
no negativos, cualquier fenómeno que cuenta algún suceso de interés, es un candidato
a ser modelado suponiendo una distribución de Poisson. Por ejemplo se puede contar
el número de accidentes de tránsito fatales poe semana en una ciudad determinada,
el número de emisiones de partı́culas radiactivas por unidad de tiempo, el número
de llamadas telefónicas que llegan a una central durante un perı́odo de tiempo, el
número de organismos por unidad de volúmen de algún fluı́do, el número de defectos
por unidad de algún material, etc. Naturalmente, no todas las variables aleatorias
que sean de este estilo pueden modelarse por Poisson, sino que deben darse algunas
condiciones en el fenómeno bajo observación para que el modelo Poisson sea el
correcto.

61
Suponemos que estamos observando la ocurrencia de ciertos sucesos en el tiem-
po, espacio o longitud (por ejemplo, la emisión de una partı́cula radiactiva). Supon-
dremos que los sucesos ocurren en el tiempo, pero el razonamiento es análogo en
espacio o longitud.
Suponemos la existencia de una cantidad c > 0 que satisface:

i) La probabilidad que ocurra exactamenteun suceso en un intervalo pequeño de


longitud h es aproximadamente ch, esto es

P [un suceso en un intervalo de long.h] ' ch + o(h),


o(h)
donde o(h) se mira como un infinitésimo de orden inferior a h, es decir lı́mh→0 h
=
o.

ii) La probabilidad de que más de un suceso ocurra un intervalo pequeño de lon-


gitud h es despreciable comparada con la probabilidad que justamente ocurra
un suceso en el mismo intervalo, esto es:

P [dos o más sucesos en un intervalo de long.h] = o(h),

iii) Los números de sucesos en intervalos de tiempo no rampantes (disjuntos) es


independiente.

La cantidad c recibe el nombre de ”tasa media de ocurrencia por unidad de tiempo”.

Teorema 3.1.1 Si las tres condiciones anteriores se satisfacen, el número de ocu-


rrencias de un suceso en un intervalo de longitud t tiene una distribición de Poisson
con parámetro λ = ct. Esto es: si Z(t) denota el número de ocurrencias en un
intervalo de longitud t, entonces

e−ct (ct)z
P [Z(t) = z] = , para z = 0, 1, 2, · · · .
z!
Demostración Sea t > 0, dividimos el intervalo (0, t) en n subı́ntervalos de longitud
h = t/n. La probabilidad de que exactamente k sucesos ocurran en el intervalo (0, t)
es aproximadamente igual a la probabilidad que exactamente un suceso ocurra en
cada uno de k subı́ntervalos de los n en los que fue dividido dicho intervalo.
Ahora, la probabilidad de que un suceso ocurra en un subı́ntervalo dado es ch.
Cada subı́ntervalo provee un ensayo de Bernoulli, pues en cada uno de ellos ocurre
un suceso o no ocurre. Además, en vista de las suposiciones hechas, los ensayos son
independientes y repetidos. Luego, la probabilidad de exactamente k sucesos en n
ensayos es:
     k  n−k
n k n−k n ct ct
(ch) (1 − ch) = 1− ,
k k n n

62
que es una aproximación de la probabilidad buscada. Una expresión exacta puede
obtenerse tomando n → ∞ (lo que equivale a h → 0)
   k  n−k n−k
(ct)k e−ct (ct)k

n ct ct ct (n)k
1− = 1− → .
k n n k! n nk k!
2

Ejemplo 3.1.5 Supongamos que el número promedio de llamadas que llegan a una
central es de 30 llamadas por hora. (i) ¿Cuál es la probabilidad de que no lleguen
llamadas en un perı́odo de 3 minutos?, (ii)¿Cuál es la probabilidad que más de cinco
llamadas lleguen en un intervalo de 5 minutos?
Es claro que 30 llamadas por hora equivalen a 0,5 llamadas por minuto, luego la
tasa media de ocurrencia es de 0,5 por minuto. De acuerdo al resultado tenemos:

P [ninguna llamada en un perı́odo de 30 ] = e−ct = e−0,5·3 ' 0,223.



X e−0,5·5 (2,5)k
P [más de 5 llamadas en un perı́odo de 50 ] = = 0,042.
k=6
k!

Distribución geométrica
Definición 3.1.7 X tiene una distribución geométrica con parámetro p, (0 <
p < 1), si su densidad se da por

fX (x) = pq x , x = 0, 1, 2, · · ·

donde q = 1 − p.

Nota 3.1.8 Escribiremos X ∼Ge(p) para indicar que X tiene una distribución geo-
métrica con parámetro p.

Sirve para modelar la variable que cuenta el número de fracasos hasta obtener
el primer éxito al repetir ensayos de Bernoulli independientes con probabilidad de
éxito p.

Ejemplo 3.1.6 Se arroja una moneda hasta obtener cara, ¿cuál es la probabilidad
que esto ocurra en el cuarto intento?
Sea X la V.A. que representa el “número de fracaso antes de obtener cara”, luego
la probabilidad buscada es P (X = 3) = ( 21 )( 12 )3 = 16
1
.

63
Distribución binomial negativa
Definición 3.1.8 X tiene distribución binomial negativa con parámetros r y
p, r ∈ IN, 0 < p < 1, si su densidad se da por
 
x+r−1 r x
fX (x) = p q , x = 0, 1, 2, · · ·
r−1
donde q = 1 − p.
Nota 3.1.9 Escribiremos X ∼ BN (r, p)para indicar que X tiene distribución bino-
mial negativa con parámetros r y p. Es claro que BN(1, p) =Ge(p).
Si X cuenta el “número de fracasos hasta obtener el r−ésimo éxito” al repetir
ensayos independientes de Bernoulli con probabilidad de éxito p, entonces
X ∼ BN(r, p).

Distribución Hipergeométrica
Definición 3.1.9 La V.A.X tiene distribución hipergeométrica con parámetros
M, N y n,(M ≤ N, n ≤ N, M y N ∈ IN), si su densidad se da por
M N −M
 
x n−x
fX (x) = N
 , x = 0, 1, · · · , mı́n{n, M }
n

Nota 3.1.10 Escribiremos X ∼Hi(N, M, n) para indicar que X tiene distribución


hipergeométrica con parámetros M, N y n.
Sirve para modelar variables aleatorias en experimentos sin reposición. Por ejem-
plo, se extraen n bolillas sin reemplazo de una urna que contiene N bolillas de las
cuales exactamente M son blancas. Si X denota la V.A. “número de blancas ex-
traı́das en la muestra”, entonces X ∼Hi(N, M, n).

Distribución Uniforme Discreta


Definición 3.1.10 X tiene distribución uniforme discreta con parámetro N (N ∈
IN) si su densidad se da por
1
fX (x) = , x = 1, 2, · · · , N.
N
Nota 3.1.11 También se puede definir la distribución uniforme discreta sobre un
intervalo [n1 , n2 ], n1 ≤ n2 , como aquella que tiene densidad de la forma
1
fX (x) = , con x ∈ [n1 , n2 ] y x entero.
n2 − n1 + 1
Por ejemplo, si X denota el “número obtenido” al hacer girar una ruleta, entonces
1
X tiene distribución uniforme discreta en el intervalo [0, 36], pues fX (x) = 37 para
x = 0, 1, · · · , 36.

64
Ejercicio 3.1.3 Demuestre que las funciones dadas en las definiciones anteriores
son densidades discretas.

3.2. Variables Aleatorias Continuas


Definición 3.2.1 Una V.A.X es continua si existe una función fX : IR → IR, no
negativa tal que Z x
FX (x) = fX (t)dt, para todo x ∈ IR.
−∞

La función fX se denomina función densidad continua y permite calcular la


probabilidad de eventos definidos en términos de X.

Lema 3.2.1 La función densidad continua verifica las siguientes condiciones

(a) fX (x) ≥ 0, para todo x ∈ IR.


R∞
(b) −∞ fX (x)dx = 1.

Ejercicio 3.2.1 Demuestre el lema anterior.

Nota 3.2.1 Las condiciones del lema anterior definen una función densidad con-
tinua sin hacer referencia a la variable aleatoria, es decir cualquier función real de
variable real que verifique (a) y (b) del lema es una función densidad continua.

De la definición surge que si se conoce la F.D.A. FX de una V.A. continua X,


entonces su función densidad se obtiene como
dFX
fX (x) = (x)
dx
en todos los valores x ∈ IR donde FX es diferenciable.
Además se puede demostrar que para todo A ∈ ß1
Z
P (X ∈ A) = fX (x)dx.
A

siendo ß1 la σ−álgebra de Borel de IR (en particular todo intervalo pertenece a esta


σ−álgebra)
Rb
Ası́, por ejemplo, P (a ≤ X ≤ b) = a
fX (x)dx.

Para una V.A. continua X se verifica que P (X = x) = 0, luego se tiene que


P (X ≤ x) = P (X < x), para todo x ∈ IR.

65
Nota 3.2.2 Existen deiferencias entre una función densidad continua y una fun-
ción densidad discreta. Si X es discreta entonces fX (x) ∈ [0, 1] para todo x ∈ IR,
mientras que si X es continua fX (x) ≥ 0 para todo x ∈ IR, pero no necesariamente
está acotada superiormente.
Además para variables discretas fX está unı́vocamente definida, en cambio para
variables continuas basta modificar una densidad en un conjunto numerable, para
obtener otra función densidad, ya que la integral no varı́a.
Otra diferencia es que para variables discretas fX es la probabilidad del evento
[X = x], mientras que para X continua se tiene que puesto que

dFX FX (x + δ) − FX (x − δ)
fX (x) = (x) = lı́m
dx δ→0 2δ
P (x − δ < X ≤ x + δ)
= lı́m ,
δ→0 2δ
se tiene que P (x − δ < X ≤ x + δ) = 2δfX (x) + o(δ), de modo que en este caso
fX (x) sirve para aproximar la probabilidad de un intervalo “infinitesimal” alrededor
de x.

3.2.1. Distribuciones continuas importantes


Distribución Uniforme continua
Definición 3.2.2 Decimos que una V.A.X tiene una distribución uniforme con-
tinua sobre el intervalo [a, b](a, b ∈ <) y a < b, si su densidad se da por
1
fX (x) = I[a,b] (x).
b−a
Nota 3.2.3 Escribiremos X ∼U(a, b) para indicar que X tiene una distribución
uniforme continua sobre [a, b].

Cuando se hable de elegir un punto al azar de un intervalo, se referirá a la


distribución uniforme en dicho intervalo, salvo que se indique lo contrario.
Otra situación donde se podrı́a aplicar es: el tiempo de espera de un pasajero
que llega a la parada de un colectivo del que se sabe que pasa exactamente cada 100 ,
pero ignora el horario. Luego podrı́a suponerse que el tiempo de espera sigue una
distribución U(0, 10).

Ejemplo 3.2.1 Supongamos que el tiempo para procesar una solicitud de préstamo
sigue una distribución uniforme sobre el rango de 10 a 20 dı́as.

(a) ¿Cuál es la probabilidad que una de tales solicitudes tarde más de dos semanas
en procesarse?
R 14 1
P (X > 14) = 1 − P (X ≤ 14] = 1 − 10 10 dx = 0,6.

66
(b) Dado que el tiempo de procesamiento de una solicitud de préstamo para una
elegida al azar es de al menos 12 dı́as,¿cuál es la probabilidad que en realidad
tarde más de dos semanas en procesarse?

P [(X ≥ 14) ∩ (X ≥ 12)]


P (X ≥ 14/X ≥ 12) =
P (X ≥ 12)
R 20 1
P (X ≥ 14) 10
dx
= = R1420 1 = 0,75.
P (X ≥ 12) dx
12 10

Ejercicio 3.2.2 Pruebe que si X ∼U(a, b), entonces


x−a
FX (x) = I[a,b) (x) + I[b,∞) (x).
b−a

Distribución Exponencial
Definición 3.2.3 Diremos que X tiene una distribución exponencial con parámetro
λ, (λ > 0), si su densidad se da por

fX (x) = λe−λx I[0,∞) (x).

Nota 3.2.4 Escribiremos X ∼ E(λ) para indicar que X tiene una distribución
exponencial con parámetro λ.

Esta distribución sirve para modelar tiempos de espera para procesos estocásti-
cos. En efecto, si T denota el tiempo que uno debe esperar para que se emita la
primer partı́cula desde el instante t = 0, entonces

P (T > t) = P (ninguna particula se emite en [0,t)) = e−ct

siendo c la intensidad del proceso. Luego

FT (t) = P (T ≤ t) = 1 − e−ct , t > 0.

de donde fT (t) = ce−ct para t > 0, es decir T ∼ E(c).


En general cuando la variable que cuenta el número de sucesos en un intervalo
de tiempo es Poisson con intensidad c, entonces la variable aleatoria que representa
el tiempo de espera entre dos ocurrencias sucesivas es exponencial con parámetro c
y viceversa.

67
Distribución Gama
Definición 3.2.4 Diremos que una V.A.X tiene una distribución Gama con
parámetros r y λ,(r > 0, λ > 0), si su densidad se da por
λ
fX (x) = (λx)r−1 e−λx I[0,∞) (x).
Γ(r)
R∞
donde la función Gama se define como Γ(r) = 0 xr−1 e−x dx, r > 0.
Nota 3.2.5 Escribiremos X ∼G(r, λ) para indicar que X tiene una distribución
Gama con parámetros r y λ.
La función Gama verifica
Γ(r+1) = rΓ(r) para todo r > 0 y puesto que Γ(1) = 1 resulta que Γ(n) = (n−1)!
para todo n ∈ IN, de modo que esta función generaliza al factorial de un número
natural.
Es claro que G(1, λ) = E(λ), es decir la distribución Gama es una generalización
de la exponencial y sirve para modelar tiempos de espera en procesos estocásticos.
En efecto: en el proceso de Poisson con intensidad c, sea T la variable que representa
el instante en que se produce el m−ésimo suceso,. Dado t > 0, sea N la variable
“número de sucesos en el intervalo [0, t), luego N ∼P(ct). Por lo tanto

FT (t) = P (T ≤ t) = 1 − P (T > t) = 1 − P (N < m)


m−1
X e−ct (ct)k
=1−
k=0
k!
m−1
−ct
X (ct)k
=1−e .
k=0
k!
Derivando la expresión anterior se obtiene la densidad de T , esto es

m−1 m−1
X (ct)k X ck(ct)k−1
fT (t) = ce−ct − e−ct
k=0
k! k=1
k!
m−1 m−1
X(ct)k X (ct)k−1
= ce−ct − ce−ct
k=0
k! k=1
(k − 1)!
"m−1 #
X (ct)k m−2 X (ct)s
= ce−ct −
k=0
k! s=0
s!
(ct)m−1
= ce−ct
(m − 1)!
c(ct)m−1 −ct
= e , parat > 0,
(m − 1)!
luego T ∼G(m, c).

68
Distribución Normal
Definición 3.2.5 Diremos que X tiene una distribución normal con parámetros
µ y σ 2 ,(µ ∈ IR, σ 2 > 0), si su densidad se da por
1 (x−µ)2
fX (x) = √ e− 2σ2 .
2πσ

Nota 3.2.6 Escribiremos X ∼ N (µ, σ 2 ) para indicar que X tiene una distribución
normal con parámetros µ y σ 2 .

Ejercicio 3.2.3 Pruebe que la densidad normal tiene un máximo en x = µ, puntos


+
de inflexión en los puntos x = µ − σ y es simétrica respecto del eje x = µ.

R∞ R∞ (x−µ)2
Probemos que f (x)dx = 1. Sea A = √ 1 e− 2σ 2 dx y probemos que
−∞ X −∞ 2πσ
A2 = 1.
x−µ
Haciendo el cambio z = σ
se tiene
Z ∞
1 z2
A= √ e− 2 dz,
−∞ 2π
luego Z ∞  Z ∞ 
2 1 − z2
2
− y2
2
A = e dz e dy
2π −∞ −∞

69
Z ∞ Z ∞
1 y 2 +z 2
= e− 2 dydz.
2π −∞ −∞

Haciendo una transformación a coordenadas polares (r, φ) en la integral doble, se


tiene
Z2π Z∞
1 r2
A2 = dφ e− 2 dr = 1.

0 0

y puesto que A ≥ 0 resulta que A = 1, lo que muestra que la anterior define una
función densidad continua.
Para calcular probabilidades usando la distribución normal se necesitan calcular
integrales de esta densidad, lo cual es muy complicado ya que se necesita integración
numérica. Por ello se utilizan tablas construı́das para el caso de una N (0, 1), llamada
distribución normal estándar. La densidad de una N (0, 1)se denota generalmente
con la letra griega φ y la F.D.A. de la misma por Φ. Los valores de ésta última
están tabulados y se usan para hallar probabilidades asociadas a cualquier V.A.
X ∼N(µ, σ 2 ), de acuerdo al siguiente resultado.
X−µ
Teorema 3.2.1 Si X ∼N(µ, σ 2 ), entonces Z = σ
∼N(0, 1).

Demostración
Sea FZ (z) la F.D.A. de Z, entonces
Z z
FZ (z) = fZ (t)dt.
−∞

Por otra parte, por definición


 
X −µ
FZ (z) = P (Z ≤ z) = P ≤ z = P (X ≤ µ + σz) = FX (µ + σz). (1)
σ

Además Z µ+σz Z µ+σz


1 (x−µ)2
FX (µ + σz) = fX (x)dx = √ e− 2σ2 dx.
−∞ −∞ 2πσ
x−µ
Si hacemos la transformación y = en la integral anterior, obtenemos
σ
Z z
1 y2
FX (µ + σz) = √ e− 2 dy. (2)
−∞ 2π

De (1) y (2) resulta Z z


1 y2
FZ (z) = √ e− 2 dy,
−∞ 2π
y por lo tanto
dFZ 1 z2
fZ (z) = (z) = √ e− 2
dz 2π

70
luego Z ∼N(0, 1). 2
De acuerdo a este resultado se tiene, por ejemplo, que
     
a−µ b−µ b−µ a−µ
P (a < X < b) = P <Z< =Φ −Φ .
σ σ σ σ

y estos últimos valores se hallan en la tabla de una N (0, 1).

Ejemplo 3.2.2 Sea X la V.A. que representa el coeficiente intelectual (C.I) de


niños de 12 años de edad. Supongamos que X ∼N(100, (16)2 ). Susana es una niña
de 12 años y su C.I. es de 132, ¿qué proporción de niños de 12 años de edad tienen
un C.I. inferior al de Susana?
Debemos calcular P (X < 132) y de acuerdo al resultado anterior podemos ha-
llarla como
 
132 − 100
P (X < 132) = P Z < = P (Z < 2) = Φ(2) = 0,9772.
16

Luego podemos decir que el 97,72 % de los niños de 12 años tiene un C.I. menor
que 132 o equivalentemente que un C.I. de 132 es el 97,72-percentil.

Ejercicio 3.2.4 En base al ejemplo anterior responder

(a) ¿qué proporción de niños de 12 años de edad tienen un C.I. por debajo de 84?

(b) ¿y 84 o más?

(c) ¿entre 84 y 116?

Ejemplo 3.2.3 Continuando con el ejemplo anterior consideremos la siguiente pre-


gunta: ¿qué valor del C.I. deja por encima el 1 % de la distribución de los valores
de los valores de C.I. para niños de 12 años de edad?
Necesitamos hallar x tal que P (X > x) = 0,01.
   
x − 100 x − 100
P (X > x) = P Z > =1−Φ = 0,01
16 16
luego  
x − 100
Φ = 1 − 0,01 = 0,99,
16
x − 100
es decir z = es el percentil 99 de la distribución N(0, 1). De la tabla resulta
16
x − 100
que z = 2,326, esto es = 2,326 de donde x = 137,216.
16
Esto nos permite decir que un niño de 12 años de edad debe tener un C.I. de al
menos 137,216 para estar en el 1 % superior de la distribución dada.

71
Ejercicio 3.2.5 El tiempo que tardan nadadores en correr 100m al estilo mariposa
se distribuye normalmente con parámetros 5500 y 2500 .Responder

(a) Los esponsors de un torneo deciden entregar certificados a todos los partici-
pantes que terminen antes de los 5000 en correr 100m. Si hay 50 participantes
en este torneo de natación, aproximadamente ¿cuántos certificados serán nece-
sarios?

(b) ¿Qué tiempo debe hacer un participante para estar en el 2 % superior de la


distribución de tiempos?

3.3. Aproximaciones
3.3.1. Aproximación de Binomial a Poisson
Vimos que cuando n es “grande” y p es “chico” en una distribución binomial
con parámetros n y p, la distribución binomial se aproxima a una distribución de
Poisson con parámetro λ = np. En la práctica cuando n > 30, p < 0,10 y np < 5
utilizaremos la distribución de Poisson en lugar de la binomial, por ser buena la
aproximación en estos casos.

Ejemplo 3.3.1 Supongamos que en un proceso de producción, un determinado artı́cu-


lo se fabrica en grandes cantidades. La proporción de unidades defectuosas es de
0,02. Se toma una muestra aleatoria de 200 artı́culos. Se desea conocer cuál es la
probabilidad de obtener en la muestra menos de 2 artı́culos defectuosos.
Sea X la variable aleatoria que representa el “número de artı́culos defectuosos
en la muestra de 200”. Es claro que X ∼B(200, 0,02). Puesto que se cumplen las
condiciones para la aproximación, aproximamos a una distribución de Poisson con
λ = np = 200 · 0,02 = 4. Tenemos que calcular

e−4 · 40 e−4 · 41
P (X < 2) = P (X = 0) + P (X = 1) ' + = 0,018 + 0,073 = 0,091.
0! 1!

3.3.2. Aproximación de Binomial a Normal


Una distribución binomial con n “grande” se aproxima a una distribución normal
con µ = np y σ 2 = npq, como lo indica el siguiente

Teorema 3.3.1 Sea X ∼B(n, p) entonces


   
b − np a − np
lı́m P (a < X ≤ b) = Φ √ −Φ √ .
n→∞ npq npq

La demostración del teorema anterior resulta inmediata del Teorema Central del
lı́mite que estudiaremos más adelante.

72
Nota 3.3.1 Por lo anterior se tiene que para n “grande”
   
b − np a − np
P (a < X ≤ b) ' Φ √ −Φ √ .
npq npq

En la práctica la aproximación es buena cuando np > 5 , otro criterio es npq > 3.


La aproximación mejora si se introduce la “corrección por continuidad”, que con-
siste en ampliar el intervalo considerado 0,5 unidades en cada extremo, por estar
aproximando una distribución discreta por una continua. Concretamente consiste en
reemplazar en la expresión anterior a por a − 0,5 y b por b + 0,5

Ejemplo 3.3.2 Una empresa dedicada a la realización de investigación de mercado


desea efectuar una encuesta mediante el correo. Se sabe que la probabilidad que una
persona responda a este tipo de cuestionario es de 0,20. Calcular la probabilidad que
se reciban menos de 28 respuestas, si se enviaron 100 cuestionarios.
Si X denota “número de cuestionarios respondidos entre los 100”, entonces
X ∼B(100, 0,20). Puesto que np = 100 · 0,20 = 20 aproximamos a normal con
media np = 20 y varianza npq = 16.
Tenemos que hallar P (X < 28) que será
 
27,5 − 20
P (X < 28) ' Φ = Φ(1,87) = 0,9693.
4

3.3.3. Aproximación de Poisson a Normal


Una distribución de Poisson se aproxima a una normal con µ = λ y σ 2 = λ
cuando λ es “grande”, como lo muestra el siguiente

Teorema 3.3.2 Sea X ∼P(λ) entonces


   
b−λ a−λ
lı́m P (a < X ≤ b) = Φ √ −Φ √ .
n→∞ λ λ
La demostración del teorema anterior también resulta del Teorema Central del
lı́mite.

Nota 3.3.2 Por lo anterior se tiene que para λ “grande”


   
b−λ a−λ
P (a < X ≤ b) ' Φ √ −Φ √ .
λ λ
En la práctica la aproximación es buena cuando λ > 10 y se mejora si se introduce
la corrección por continuidad como en el caso de la binomial.

73
Ejemplo 3.3.3 Se sabe que el número de clientes que llegan a un banco es, en
promedio, 10 en un perı́odo de 2 minutos. ¿Cuál es la probabilidad que lleguen a los
sumo 110 clientes en un lapso de 20 minutos?
Sea X la variable aleatoria que denota el “número de clientes que llegan al banco
en un lapso de 20 minutos”, entonces X ∼P(100). Aproximamos a una normal con
media y varianza λ = 100 . Luego la probabilidad buscada es
 
110,5 − 100
P (X ≤ 110) ' Φ = Φ(1,05) = 0,853.
10

3.4. Transformaciones de variables aleatorias


Sea X una V.A., h : IR → IR una función medible continua (más generalmente
medible borel). Luego Y = h(X) es una V.A. ¿Cómo calcular FY conociendo FX ?.
Al menos en un caso hay una respuesta simple. Supongamos que la restricción de h
al soporte X de fX es biyectiva, entonces si X es continua se tiene
Z
FY (y) = P (Y ≤ y) = P (h(X) ≤ y) = fX (x)dx.
{x:h(x)≤y}

Haciendo la transformación inversa x = h−1 (t) se tiene que


Z y
dh−1
FY (y) = (t) fX (h−1 (t))dt
−∞ dy

de donde derivando
dh−1
fY (y) = (y) fX (h−1 (y)), para y ∈ h(X ).
dy

Ejemplo 3.4.1 Sea X ∼ E(λ) esto es fX (x) = λe−λx I(0,∞) (x) y consideremos la
transformación Y = h(x) = x2 , entonces h es biyectiva en el soporte de X que es el
intervalo (0, ∞), luego
1 1/2
fY (y) = 1/2
λe−λy I(0,∞) (y).
2y
m
S
Si h es inyectiva a trozos es decir X = Xi tal que hi = h/Xi es inyectiva,
i=1
entonces m
X dh−1
fY (y) = i
(y) fX (h−1
i (y)), para y ∈ h(X ).
i=1
dy

Ejercicio 3.4.1 Pruebe que si X es continua y FX es creciente entonces la V.A., Y =


FX (X) ∼U(0, 1).

74
3.5. Distribución conjunta de variables aleatorias
Definición 3.5.1 Si X e Y son dos variables aleatorias definidas sobre el mismo
espacio de probabilidad (Ω ,A, P)entonces (X, Y ) : Ω → IR2 se denomina variable
aleatoria o vector aleatorio bidimensional.

Podemos encontrar las probabilidades de eventos definidos en términos de (X, Y )


a través de su distribución conjunta para lo cual definimos:

Definición 3.5.2 La función de distribución acumulada de (X, Y )es la función


FXY : IR2 → IR definida por

FXY (x, y) = P [X ≤ x, Y ≤ y] para todo (x, y) ∈ IR2 .

Nota 3.5.1 En la definición anterior hemos denotado con [X ≤ x, Y ≤ y] al evento


[X ≤ x) ∩ (Y ≤ y] = {ω ∈ Ω : X(ω) ≤ x, Y (ω) ≤ y}.

Lema 3.5.1 La F.D.A. bidimensional cumple las siguientes propiedades

1)
FXY (−∞, y) = lı́m FXY (x, y) = 0
x→−∞

FXY (x, −∞) = lı́m FXY (x, y) = 0,


y→−∞

FXY (∞, ∞) = x→∞


lı́m FXY (x, y) = 1.
y→∞

2) FXY es continua poe derecha en ambos argumentos,esto es

lı́m FXY (t, y) = FXY (x, y) = lı́m+ FXY (x, s).


t→x+ s→y

3) Si a < b y c < d, entonces

P (a < x ≤ b, c < Y ≤ d) = FXY (b, d) − FXY (a, d) − FXY (b, c) + FXY (a, c).

Ejercicio 3.5.1 Demuestre el lema anterior.(sugerencia: para probar 1) y 2) pro-


ceda en forma análoga al caso univariado y para 3)escriba la región (a, b] × (c, d] del
plano como diferencia de regiones no acotadas de la forma (−∞, s] × (−∞, t].

Análogamente al caso univariado las variables aleatorias bidimensionales se clasi-


fican en discretas y continuas.

75
3.5.1. Distribuciones conjuntas discretas
Definición 3.5.3 El vector aleatorio (X, Y ) es discreto si toma valores en un
conjunto numerable.

Si (X, Y ) es discreta con valores (x1 , y1 ), (x2 , y2 ), · · · (xn , yn ), · · · diremos que


(xi , yi ) es un punto masa de tal variable y podemos definir al igual que en el caso
univariado, una función que asigne a cada punto masa su probabilidad y que nos
permita calcular probabilidades dadas en términos de (X, Y ).

Definición 3.5.4 Definimos función densidad discreta conjunta de las varia-


bles X e Y a la función fXY (x, y) : IR2 → IR definida por
(
P (X = xi , Y = yi ) si (x, y) = (xi , yi ) para algun i,
fXY (x, y) =
0 en otro caso.

Teorema 3.5.1 La función densidad discreta conjunta verifica

1) fXY (x, y) ≥ 0 para todo (x, y) ∈ IR2 .


P
2) fXY (xi , yi ) = 1, donde la suma se extiende sobre todos los puntos masa de
i
(X, Y ).

Teorema 3.5.2 Si (X, Y ) es un vector aleatorio discreto entonces


X
FXY (x, y) = fXY (xi , yi )
{i:xi ≤x,yi ≤y}

y en general
X
P ((X, Y ) ∈ B) = fXY (xi , yi ), para todo B ∈ ß2
{i:(xi ,yi )∈B}

Ejercicio 3.5.2 Demuestre los dos teoremas precedentes.

Ejemplo 3.5.1 En base a experiencias pasadas se sabe que la proporción de unidades


útiles producidas por un proceso de manufactura es p1 , y las proporciones de unidades
enviadas a reprocesar y desechadas son p2 y p3 , respectivamente. Supongamos que
se producen independientemente n unidades. Encontremos la distribución conjunta
de las variables X:“número de unidades útiles” e Y :“número de unidades reproce-
sadas”, de las n producidas.
Es claro que X e Y son discretas y sus valores satisfacen: 0 ≤ x + y ≤ n, 0 ≤
x ≤ n y 0 ≤ y ≤ n; además p1 + p2 + p3 = 1. Luego para cualquiera de éstos valores
se verifica
n!
fXY (x, y) = P (X = x, Y = y) = px py pn−x−y ,
x!y!(n − x − y)! 1 2 3

76
pues para cada resultado con x unidades útiles e y unidades reprocesadas, se tendrán
necesariamente n − x − y unidades desechadas y, dada la independencia, la proba-
bilidad de cualquiera de ellos es px1 · py2 · pn−x−y
3 = px1 · py2 · (1 − p2 − p3 )n−x−y . Como
n!
existen px,y,n−x−y
n = de tales resultados y todos son equiprobables se
x!y!(n − x − y)!
tiene que
n!
fXY (x, y) = P (X = x, Y = y) = px py (1 − p1 − p2 )n−x−y , (I)
x!y!(n − x − y)! 1 2
para x, y = 0, 1, · · · , n ;0 ≤ x + y ≤ n

La expresión (I) del ejemplo anterior se conoce como distribución trinomial. Una
generalización es la distribución multinomial con parámetros n, p1 , p2 , · · · , pk , a
saber:
Si un experimento aleatorio con k + 1 resultados mutuamente excluyentes ei ,con
k+1
P
respectivas probabilidades p1 , p2 , · · · , pk+1 , de modo que pi = 1, se repite n veces
i=1
independientemente, entonces la densidad multinomial
n! xk+1
f (x1 , x2 , · · · , xk ; n, p1 , · · · , pk ) = px1 1 px2 2 · · · pk+1 ,
x1 !x2 ! · · · xk+1 !
k
P k
P
donde xi = 0, · · · n para i = 1, · · · , k ;xk+1 = n − xi y pk+1 = 1 − pi , es la
i=1 i=1
correspondiente a la distribución conjunta de las variables Xi :“número de resultados
ei en los n ensayos”,i = 1, 2, · · · , k + 1.

Ejercicio 3.5.3 Verifique que la anterior es una densidad discreta (hágalo para
k = 2).

3.5.2. Distribuciones conjuntas continuas


Definición 3.5.5 El vector aleatorio (X, Y ) es continuo, o X e Y son conjunta-
mente continuas, si existe una función fXY : IR2 → IR, llamada densidad conjunta
continua, tal que
Z y Z x
FXY (x, y) = fXY (u, v)dudv, para todo (x, y) ∈ IR2 .
−∞ −∞

Teorema 3.5.3 La función densidad conjunta continua fXY verifica

1) fXY (x, y) ≥ 0,para todo (x, y) ∈ IR2 .


R∞ R∞
2) −∞ −∞ fXY (x, y)dxdy = 1

77
Teorema 3.5.4 Si (X, Y ) es un vector aleatorio continuo entonces
Z d Z b
P (a < X ≤ b, c < Y ≤ d) = fXY (x, y)dxdy,
c a

y en general
Z
P ((X, Y ) ∈ B) = fXY (x, y)dxdy, para todo B ∈ ß2 .
B

Ejercicio 3.5.4 Demuestre los dos teoremas anteriores.

Ejemplo 3.5.2 1) Sea B cualquier región del plano con área b finita. Se define
la distribución uniforme en B como aquella con densidad
1
fXY (x, y) = IB (x, y).
b

2) Sea (X, Y ) una variable con densidad


(
k(x + y) si 0 ≤ x ≤ 1, 0 ≤ y ≤ 1 ,
fXY (x, y) =
0 en otro caso.

Se pide

a) hallar el valor de k ,
b) determinar la F.D.A. FXY ,
c) encontrar P (X ≤ 1/2, Y ≤ 3/4),
d) hallar P (1/4 ≤ X ≤ 1/2, Y ≥ 1/2)

Resolvamos
R∞ R∞ R1R1
a) −∞ −∞ fXY (x, y)dxdy = 1, esto es o 0 k(x + y)dxdy = 1 ⇒
 
R1R1 2 1 R1R1 2 1
k o 0 ( x2 + xy) 0 dy = 1 ⇒ k o 0 ( 21 + y)dy = 1 ⇒ k y2 + y2 0 = 1 ⇒
k=1

78
b)
Z y Z x
FXY (x, y) = fXY (u, v)dudv
Z−∞
y Z−∞
x
= (u + v)I(0,1) (u)I(0,1) (v)dudv
−∞
Z y Z−∞
x 
= (u + v)dudv I(0,1) (x)I(0,1) (y)
0 0
Z 1 Z x 
+ (u + v)dudv I(0,1) (x)I[1,∞) (y)
0 0
Z y Z 1 
+ (u + v)dudv I[1,∞) (x)I(0,1) (y)
0 0
Z 1 Z 1 
+ (u + v)dudv I[1,∞) (x)I[1,∞) (y)
0 0

Luego
xy(x + y) x(x + 1)
FXY (x, y) = I(0,1) (x)I(0,1) (y) + I(0,1) (x)I[1,∞) (y)
2 2
y(y + 1)
+ I[1,∞) (x)I(0,1) (y) + I[1,∞) (x)I[1,∞) (y).
2
15
c) P (X ≤ 1/2, Y ≤ 3/4) = FXY (1/2, 3/4) = 64
.
R1 R 1/2 R1 2 1/2
d) P (1/4 ≤ X ≤ 1/2, Y ≥ 1/2) = 1/4
(u+v)dudv = 1/2
( u2 +uv) 1/4
dv =
1/2
9
64
.

Nota 3.5.2 Hemos definido el concepto de distribuciones bivariadas de vectores


aleatorios. El concepto se generaliza en forma análoga al caso k− variado con k ≥ 3.
En general, si X1 , X2 , · · · , Xk son variables aleatorias definidas en Ω, entonces la
función de distribución acumulada k− dimensional ,FX1 ,··· ,Xk : IRk → IR,se define
por

FX1 ,··· ,Xk (x1 , · · · xk ) = P (X1 ≤ x1 , X2 ≤ x2 , · · · , Xk ≤ xk ) para (x1 , · · · , xk ) ∈ IRk .

Los casos discreto y continuo se trabajan al igual que en el caso bivariado.

3.5.3. Distribuciones marginales


Si (X, Y ) es una V.A. bidimensional entonces FX y FY se denominan distribu-
ciones marginales de X e Y , respectivamente.
Conocida la distribución conjunta de X e Y se determinan las marginales, la recı́pro-
ca no es cierta.

79
Lema 3.5.2 si (X, Y ) es un vector aleatorio con F.D.A. FXY , entonces

FX (x) = lı́m FXY (x, y) y FY (y) = lı́m FXY (x, y). (1)
y→∞ x→∞

Luego para el caso discreto


X X
fX (x) = fXY (x, y) , y fY (y) = fXY (x, y). (2)
y x

y para el caso continuo


Z ∞ Z ∞
fX (x) = fXY (x, y)dy y fY (y) = fXY (x, y)dx. (3)
−∞ −∞

Demostración
Probemos (3)

FX (x) = lı́m FXY (x, y)


y→∞
Z ∞Z x
= fXY (u, v)dudv
−∞ −∞
Z x Z ∞ 
= fXY (u, v)dv du
−∞ −∞
Z x
= G(u)du
−∞

Luego
Z x Z ∞
dFX d
fX (x) = (x) = G(u)du = G(x) = fXY (x, v)dv.
dx dx −∞ −∞

En forma análoga se demuestra para fY


La demostración de (2) es idem cambiando integral por suma. 2

Ejemplo 3.5.3 Encontremos las densidades marginales de la distribución con den-


sidad fXY (x, y) = (x + y)I(0,1) (x)I(0,1) (y).
1
y2
Z     
1 1
fX (x) = (x + y)dy I(0,1) (x) = xy + I (x)
0 (0,1)
= x+ I(0,1) (x).
0 2 2

Análogamente resulta que


 
1
fY (y) = y+ I(0,1) (y).
2

80
Ejercicio 3.5.5 Pruebe que si (X, Y ) tiene una distribución trinomial con parámet-
ros n, p1 y p2 , entonces X ∼B(n, p1 ) e Y ∼B(n, p2 ).
Mostremos con un ejemplo que el conocimiento de las marginales no implica el
de la conjunta.
Ejemplo 3.5.4 Se arrojan dos monedas distinguibles. Sea X la variable que denota
“número de caras para la primer moneda”, Y la variable que representa “número de
caras para la segunda moneda”. Consideremos tres casos
1) los cantos de las monedas están soldados con las dos caras hacia el mismo
lado,
2) lo mismo, pero con las caras opuestas,
3) se arroja cada moneda separadamente.
Estos tres casos describen distribuciones conjuntas de X e Y diferentes. Sin
embargo, para cada una de ellas se tienen las mismas marginales:
P (X = 1) = P (X = 0) = P (Y = 1) = P (Y = 0) = 12 .
Nota 3.5.3 La distribución conjunta contiene más información que las marginales
pues contiene información sobre la dependencia entre ellas.

3.5.4. Independencia de variables aleatorias


Definición 3.5.6 Dos variables aleatorias X e Y son estadı́sticamente indepen-
dientes si se verifica
FXY (x, y) = FX (x)FY (y) para todo (x, y) ∈ IR2 .
La definición anterior es equivalente a : X e Y son estadı́sticamente indepen-
dientes si para todo A, B ∈ ß1 , los eventos [X ∈ A] y [Y ∈ B] son independientes,
esto es
P (X ∈ A, Y ∈ B) = P (X ∈ A)P (Y ∈ B).
Lema 3.5.3 Dos variables aleatorias X e Y son estadı́sticamente independientes
sii se verifica que
fXY (xi , yi ) = fX (xi )fY (yi )
para todo (xi , yi ) punto masa de (X, Y ), en el caso discreto,ó
fXY (x, y) = fX (x)fY (y),
para todo (x, y) ∈ IR2 , en el caso continuo.
También la independencia de X e Y equivale a que existan dos funciones reales,
g y h, tales que
fXY (x, y) = g(x)h(y),
para todo (x, y) ∈ IR2 .

81
Ejercicio 3.5.6 Demuestre el lema anterior.

Nota 3.5.4 De acuerdo al resultado anterior para verificar la independencia de


dos variables, basta factorizar su densidad conjunta como producto de una función
de x por alguna función de y, sin necesidad que dichos factores sean densidades
univariadas.

Ejemplo 3.5.5 En el esquema Bernoulli con probabilidad de éxito p, sea S:“número


de intento en el que se produce el primer éxito” y T :“número de intentos entre
el primer y el segundo éxito”, de modo que la variable U = S + T es el intento
en que se produce el segundo éxito. Mostraremos que S y T son estadı́sticamente
independientes.
En efecto, el evento [S = s, T = t] = [S = s, U = s + t] o sea que haya éxitos en
los intentos s y s + t y en los restantes haya fracasos. Luego

fS,T (s, t) = P [S = s, T = t] = p2 (1 − p)s+t−2 = p(1 − p)s−1 p(1 − p)t−1 = g(s)h(t),

lo que muestra que ambas variables son independientes. También se deduce en este
ejemplo que T ∼Ge(p), es decir la misma distribución que S y, en consecuencia, los
tiempos de espera entre éxitos sucesivos tienen la misma distribución que el tiempo
entre el comienzo y el primer éxito, lo que corresponde a la idea intuitiva que el
proceso no tiene memoria.

El concepto de independencia se extiende a más de dos variables.

Definición 3.5.7 Las variables aleatorias X1 , X2 , · · · , Xk son independientes si


k
Y
FX1 ,X2 ,··· ,Xk (x1 , x2 , · · · xk ) = FXi (xi ) para todo (x1 , x2 , · · · xk ) ∈ IRk .
i=1

o, equivalentemente, si para todo A1 , A2 , · · · , Ak ∈ ß1 los eventos [Xi ∈ Ai ]son


independientes.

Lema 3.5.4 Si X e Y son independientes, entonces g(X) y h(Y ) son independien-


tes, cualesquiera sean las funciones g y h, medibles borel.

Demostración
Sean A, B ∈ ß1 , entonces

P (g(X) ∈ A, h(Y ) ∈ B) = P (X ∈ g −1 (A), Y ∈ h−1 (B))


= P (X ∈ g −1 (A))P (Y ∈ h−1 (B))
= P (g(X) ∈ A)P (h(Y ) ∈ B)
2

82
3.6. Distribuciones Condicionales
Sean X e Y dos variables aleatorias definidas en el mismo espacio Ω. ¿Qué infor-
mación aporta X respecto de Y ?. Por ejemplo : si disponemos de un modelo para
la distribución conjunta de la temperatura máxima de hoy con la de mañana, este
análisis nos permitirı́a usar la primera para obtener una predicción de la segunda.
El concepto adecuado es el de distribución condicional.

3.6.1. Caso discreto


Si la variable X es discreta, sean x1 , x2 , · · · , xn , · · · , sus puntos masa. Para cada
xi la función de y
FY /X (y/xi ) = P (Y ≤ y/X = xi )
es una función de distribución llamada función de distribución acumulada de
Y dado X = xi . Note que para esta definición sólo hace falta que X sea discreta,
Y puede ser cualquiera.
Si además la variable conjunta (X, Y ) es discreta, la función
P (X = xi , Y = yj ) fXY (xi , yj )
fY /X (yj /xi ) = P (Y = yj /X = xi ) = = ,
P (X = xi ) fX (xi )
donde yj es un punto masa de Y , es la función de densidad discreta condicional
de Y dado X = xi e indica cómo se distribuyen los valores de Y para un valor dado
de X. Es claro que para cada xi se tiene
X
fY /X (yj /xi ) ≥ 0 y fY /X (yj /xi ) = 1.
j

lo que justifica que es una densidad discreta. P


Observemos que en este caso FY /X (y/xi ) = fY /X (yj /xi ).
j:yj ≤y

Ejemplo 3.6.1 Sean S y T las variables que representan los números de intentos en
los que ocurren el primer y segundo éxito en un esquema de Bernoulli. Encontremos
la distribución condicional de S dado T . La distribución conjunta de (S, T ) es

fST (s, t) = P (S = s, T = t) = (1−p)s−1 p(1−p)t−s−1 p = p2 (1−p)t−2 , para 0 ≤ s < t,

mientras que fT (t) = (t − 1)p2 (1 − p)t−2 , luego


fST (s, t) 1
fS/T (s/t) = = para 0 ≤ s ≤ t − 1,
fT (t) t−1
de modo que la distribución condicional de S dado T es uniforme entre 0 y t − 1.
Intuitivamente, saber que el segundo éxito ocurrió en el t−ésimo intento, no da
ninguna información sobre cuándo ocurrió el primero.

83
3.6.2. Caso continuo
Si X es continua, no se puede repetir exactamente el mismo camino que para el
caso discreto, ya que P (X = x) = 0 para todo x. Supongamos que (X, Y ) es una
variable bidimensional continua y C = {x : fX (x) > 0}. Para todo x ∈ C se define
la función densidad continua condicional de Y dado X = x como
fXY (x, y)
fY /X (y/x) = .
fX (x)
Es claro que para cada x ∈ C se cumple
Z ∞
fY /X (y/x) ≥ 0 y fY /X (y/x)dy = 1,
−∞

lo que justifica que es una densidad continua.La correspondiente función de distribu-


ción condicional es Z y
FY /X (y/x) = fY /X (t/x)dt.
−∞

Ejemplo 3.6.2 Supongamos que fXY (x, y) = (x + y)I(0,1) (x)I(0,1) (y), ya vimos, en
el Ejemplo 3.5.3, que fX (x) = (x + 1/2)I(0,1) (x), luego para x ∈ (0, 1) está definida

(x + y)
fY /X (y/x) = I(0,1) (y),
x + 12

y la función de distribución acumulada condicional es

Z y
(x + t)
FY /X (y/x) = 1 I(0,1) (t)dt
−∞ x + 2
Z y
(x + t)
= dt · I(0,1] (y)
0 x + 21
xy + y 2 /2
= · I(0,1] (y), para 0 < x < 1.
x + 1/2

A partir de la distribución condicional de Y dado X y de la distribución marginal


de X se puede obtener la marginal de Y . En efecto: puesto que de la definición de
densidad condicional resulta que fXY (x, y) = fY /X (y/x)fX (x), resulta para los casos
discreto y continuo, respectivamente, que
X X
fY (yj ) = fXY (xi , yj ) = fY /X (yj /xi )fX (xi ).
i i

y Z ∞ Z ∞
fY (y) = fXY (x, y)dx = fY /X (y/x)fX (x)dx.
−∞ −∞

84
Ejemplo 3.6.3 Se supone que la cantidad de accidentes de auto en un mes es una
variable P(λ), que la probabilidad de que un accidente resulte fatal es p, y que las
consecuencias de accidentes distintos son independientes, de modo que si X e Y
son las cantidades de accidentes en general y de accidentes fatales, la distribución
condicional de Y dado X = x es B(n, p), o sea que fY /X (y/x) = xy py (1 − p)x−y
para y ≤ x. Calculemos la distribución marginal de Y
X x  λx (λp)y X ((1 − p)λ)x−y
fY (y) = py (1 − p)x−y e−λ = e−λ .
x≥y
y x! y! x≥y
(x − y)!

Haciendo en la sumatoria el cambio de ı́ndice k = x − y resulta


X ((1 − p)λ)x−y ∞
X ((1 − p)λ)k
= = e(1−p)λ ,
x≥y
(x − y)! k=0
k!

y por lo tanto
(λp)y
fY (y) = e−λp .
y!
Es decir que Y ∼P(λp), resultando bastante razonable, si se piensa en λ y p como
medias del total de accidentes y de fatalidades por accidente.

Condicionalidad e independencia
Ya vimos que la independencia de eventos está estrechamente relacionada con
la probabilidad condicional, análogamente la independencia de variables aleatorias
está muy relacionada con la distribución condicional de las variables aleatorias.
Por ejemplo, supongamos que X e Y son dos variables independientes, entonces
fXY (x, y) = fX (x)fY (y). Por otra parte sabemos que fXY (x, y) = fY /X (y/x)fX (x),
de modo que fY /X (y/x) = fY (y), es decir, la densidad condicional de Y es la densidad
marginal de Y , lo que es lógico, pues por ser X e Y independientes, dar un valor de
X no influye en Y . Luego para demostrar que dos variables son no independientes
es suficiente mostrar que fY /X (y/x) depende de x.

Ejemplo 3.6.4 Sea fXY (x, y) = (x + y)I(0,1) (x)I(0,1) (y). ¿Son X e Y independien-
tes?. Ya vimos en el Ejemplo 3.6.2 que fY /X (y/x) = (x+y) I (y) para 0 < x < 1, lo
x+ 12 (0,1)
que muestra que las dos variables no son independientes por depender la distribución
condicional de Y del valor x.

3.7. Cuestionario
1) ¿Cuál es el objetivo de definir variables aleatorias asociadas a un experimento?

2) Defina variable aleatoria y su clasificación, ejemplificando cada tipo.

85
3) Pruebe que todo intervalo de la recta puede escribirse a partir de intervalos
de la forma(−∞, x]con x ∈ IR. De aquı́ justifique porqué surge como natural
la definición de F.D.A. de una V.A
4) Enumere las propiedades que caracterizan a la F.D.A. de una variable aleato-
ria.
5) Defina función densidad en el caso discreto y en el caso continuo. Indique
diferencias relevantes entre ambas.
6) ¿En cuáles de los siguientes casos usarı́a la Distribución Binomial para modelar
la variable de interés?.En los casos afirmativos indique los valo-//res de n y p.

a) La variable cuenta el número de varones de un matrimonio que planea


tener exactamente cuatro hijos.
b) Se extraen sin reposición 10 naipes de una baraja española de 40 y la
variable de interés es el número de oros extraı́dos.
c) Idem b) pero con reposición.
d) Se arroja una moneda honrada 5 veces y luego una cargada 5 veces más.
La variable es el número de caras obtenido en los 10 lanzamientos.
e) Se arroja un dado equilibrado 12 veces. La variable de interés es el número
de resultados pares obtenido.
f) De un lote de 50 artı́culos de los cuales 15 son defectuosos se extraen,
al azar, 5 simultáneamente. La variable cuenta el número de artı́culos
defectuosos en la muestra de 15.
g) Un profesor está interesado en el número total de alumnos en una clase
de 200 que responde correctamente a una pregunta del tipo verdadero-
falso, suponiendo que cada alumno no tiene idea de la respuesta correcta
y responde al azar.

7) ¿En qué casos usa la Distribución de Poisson para modelar va?. Ejemplifique.
8) Indique la relación entre las siguientes distribuciones:

a) Poisson y Exponencial.
b) Poisson y Gama.

9) Generalice los conceptos de variable aleatoria discreta y continua al caso k-


dimensional.
10) Demuestre la equivalencia de las definiciones de variables aleatorias indepen-
dientes para el caso continuo, esto es pruebe que:

FXY (x, y) = FX (x) FY (y) ⇔ fXY (x, y) = fX (x) fY (y)

86
Capı́tulo 4

Valor medio y otros parámetros

En esta unidad se tratará el tema de cómo sintetizar las caracterı́sticas más


importantes de una distribución en unos pocos números.

4.1. Valor medio


El valor medio o valor esperado de una V.A. es esencialmente un promedio de
los valores que toma la variable, en el que cada valor recibe un peso igual a su prob-
abilidad. Tiene sus orı́genes con los juegos de azar cuando los apostadores deseaban
saber cuánto debı́an esperar ganar después de un gran número de apuestas.
Para entender esta relación supongamos que un jugador arroja una moneda hasta
obtener cara y tiene como máximo tres intentos, es decir el juego termina cuando
obtiene una cara o después de tres intentos , lo que ocurra primero. Si sale cara en
el primer intento gana $2, si sale en el segundo intento gana $4 y si sale en el tercero
gana $8, de lo contrario pierde $20. ¿Cúal es la cantidad esperada de dinero que el
jugador ganará o perderá después de realizar el juego una gran catidad de veces?.
Sea X la variable aleatoria que representa la cantidad de dinero que gana el
jugador en cada juego. Luego los valores que toma X con sus respectivas probabili-
dades son
x P (x)
2 1/2
4 1/4
8 1/8
−20 1/8
de modo que la “ganancia esperada” después de un gran número de jugadas es
1 1 1 1
µ=2· + 4 · + 8 · − 20 · = 0,50,
2 4 8 8
que no es un valor de la variable.
Este ejemplo nos conduce a dar la siguiente

87
Definición 4.1.1 Llamaremos valor esperado, valor medio o esperanza de
una V.A. X al valor
P
(i) E[X] = i xi fX (xi ) si X es discreta con puntos masa x1 , x2 , · · · ,
R∞
(ii) E[X] = −∞
xfX (x)dx si X es continua.

E[X] existe si la suma en (i) o la integral en (ii) que la define es absolutamente


convergente.

Nota 4.1.1 Escribiremos µX para denotar E[X], o simplemente µ cuando no haya


lugar a dudas sobre la variable involucrada.

Ejemplo 4.1.1 1) Sea X la variable “suma de los puntos obtenidos al arrojar


un par de dados”, entonces la distribución de X se dá en la siguiente tabla

x 2 3 4 5 6 7 8 9 10 11 12
P (x) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36

luego
1 2 1
+3·
µX = 2 · + · · · + 12 · = 7.
36 36 36
En este caso la esperanza es un valor de la variable, el más probable de ocurrir
y, como vimos, la distribución es simétrica respecto a ese valor.

2) Sea X una V.A exponencial con densidad fX (x) = 2e−2x I(0,∞) (x), luego
Z ∞ −2x
∞ e ∞ 1
µX = 2xe−2x dx = −xe−2x 0 + 0
= .
0 −2 2

Nota 4.1.2 µX es una medida de tendencia central, alrededor de la cual se concen-


tran los valores de X, es un promedio ponderado, donde reciben más peso los valores
más probables.

Se puede extender el concepto de esperanza para una función de una variable


aleatoria, como sigue

Definición 4.1.2 Dada una función g : IR → IR, el valor esperado de Y = g(X) se


define por
P
(i) E[g(X)] = i g(xi )fX (xi ) si X es discreta con puntos masa x1 , x2 , · · · ,
R∞
(ii) E[g(X)] = −∞
g(x)fX (x)dx si X es continua.

E[g(X)] existe si la suma en (i) o la integral en (ii) que la define es absolutamente


convergente.

88
Lema 4.1.1 Propiedades del valor esperado
El valor esperado verifica las siguientes propiedades

i) E[c] = c para c ∈ IR,

ii) E[c1 g1 (X) + c2 g2 (X)] = c1 E[g1 (X)] + c2 E[g2 (X)],

iii) Si g es no negativa, entonces E[g(X)] ≥ 0,

iv) Si g1 (x) ≤ g2 (x) para todo x ∈ IR, entonces E[g1 (X)] ≤ E[g2 (X)].

Ejercicio 4.1.1 Demuestre el lema anterior (es inmediato de propiedades de inte-


gral y series.)

Definición 4.1.3 Llamaremos varianza de una variable aleatoria X al valor var[X]


definido por

(i) var[X] = i (xi − µX )2 fX (xi ) si X es discreta con puntos masa x1 , x2 , · · · ,


P
R∞
(ii) var[X] = −∞ (x − µX )2 fX (x)dx si X es continua.

var[X] existe si la suma en (i) o la integral en (ii) que


p la define es convergente.
Llamaremos desvı́o estándar de X al valor σX = var[X].
2
Nota 4.1.3 Escribiremos σX para indicar la var[X] o simplemente σ 2 cuando no
2
haya lugar a dudas sobre la V.A. involucrada. Observemos que, por definición, σX =
2
E[(X − µX ) ].

Lema 4.1.2 Si E[X 2 ] < ∞, entonces existe σX


2
y se verifica que
2
σX = E[X 2 ] − µ2X .

Demostración
Como E[X 2 ] < ∞ entonces existe µX . Por otra parte

2
σX = E[(X − µX )2 ]
= E[X 2 − 2µX X + µ2X ]
= E[X 2 ] − 2µX E[X] + µ2X
= E[X 2 ] − µ2X .
2

Ejemplo 4.1.2 1) Si X representa la suma de puntos obtenidos en el experi-


mento de arrojar un par de dados, sabemos que µX = 7,luego

2 1 2 1 210
σX = (2 − 7)2 · + (3 − 7)2 · + · + (12 − 7)2 · =
36 36 36 36

89
2) Sea X la V.A exponencial con densidad fX (x) = 2e−2x I(0,∞) (x), luego
Z ∞
1
2
E[X ] = 2x2 e−2x dx = ,
0 2
por lo tanto
2 1 1 1 1
σX = E[X 2 ] − µ2X = − = ⇒σ= .
2 4 4 2
Nota 4.1.4 La varianza, al igual que el desvı́o estándar son medidas de dispersión
de la distribución de la variable. Miden cuánto, en promedio, se “alejan” los valores
de X de su media.
Lema 4.1.3 Propiedades de la varianza
La varianza de una variable aleatoria verifica las siguientes propiedades
i) var[c] = 0 para c ∈ IR,
ii) var[aX + b] = a2 var[X].
Ejercicio 4.1.2 Demuestre el lema anterior.

Desigualdad de Chebyshev
Sea X una V.A. con varianza finita σ 2 y media µ, queremos encontrar una cota
inferior para la probabilidad P (|X − µ| ≤ rσ) para r > 0, que nos permita tener una
idea de la proporción de valores de la distribución de X que se encuentra a r desvı́os
de la media, especialmente útil en los casos en que no se conoce la distribución.
La desigualdad de Chebyshev nos brinda esta cota y para demostrarla usamos el
siguiente
Teorema 4.1.1 Desigualdad de Markov
Sea X una V.A. y g : IR → IR una función no negativa, entonces
E[g(X)]
P (g(X) ≥ k) ≤ , para todo k > 0. (4,1)
k
Demostración
Lo probemos para X continua, el caso discreto es análogo, reemplazando inte-
grales por sumas. Sea A = {x : g(x) ≥ k}, entonces
Z ∞
E[g(X)] = g(x)fX (x)dx
−∞
Z Z
= g(x)fX (x)dx + g(x)fX (x)dx
A
Z IR−A
≥ g(x)fX (x)dx
A
Z
≥k fX (x)dx
A
= kP (X ∈ A),

90
y puesto que x ∈ A ⇔ g(x) ≥ k, se tiene que
E[g(X)]
E[g(X)] ≥ kP (g(X) ≥ k] ⇔ P (g(X) ≥ k) ≤ ,
k
pues k > 0. 2
Lema 4.1.4 Desigualdad de Chebyshev
Sea X una V.A. con varianza finita σ 2 y media µ, r > 0, entonces
1
P (|X − µ| < rσ) ≥ 1 − 2 . (4,2)
r
Ejercicio 4.1.3 Demuestre el lema anterior usando la desigualdad de Markov.
Ejemplo 4.1.3 Para cualquier V.A. X se tiene, de acuerdo con la desigualdad de
Chebyshev, que P (µ − 2σ < X < µ + 2σ) ≥ 43 , esto es, el 75 % de los valores de X
se encuentran a dos desvı́os de la media de su distribución. Gráficamente

4.1.1. Momentos de una distribución


Los momentos de una V.A., también llamados momentos de su distribución, son
valores numéricos que nos proporcionan información sobre ciertas caracterı́sticas de
la misma, tales como asimetrı́a, grado de “achatamiento” de la curva, medida de
tendencia central y dispersión.
Definición 4.1.4 Llamaremos r−ésimo momento no centradode la V.A. X al
valor
µ0r = E[X r ] (4,3)
y r−ésimo momento centrado alrededor de µX al valor
µr = E[(X − µX )r ]. (4,4)

91
2
Ası́, por ejemplo µ01 = E[X] = µX , µ2 = var[X] = µ02 − µ01 .
Es claro que µr puede obtenerse como función de los momentos no centrados, en
efecto

µr = E[(X − µ)r ]
" r   #
X r
=E (−1)k µk X r−k
k=0
k
r  
X r
= (−1)k µk E[X r−k ]
k=0
k
r  
X r
= (−1)k µk µ0r−k
k=0
k
2
Ası́, por ejemplo, µ3 = µ03 − 3µµ02 + 3µ2 µ01 − µ3 = µ03 − 3µ01 µ02 + 2µ01 .

Simetrı́a y curtosis
Los momentos centrados de tercer y cuarto orden nos brindan información ac-
erca de la asimetrı́a de la distribución y del grado de “achatamiento” de la misma
alrededor de µ, respectivamente.
Se define el coeficiente de asimetrı́a como
µ3
α3 = 3 . (4,5)
σ
Para distribuciones unimodales, es decir con un único modo o valor de mayor
densidad, se tiene

si α3 > 0, la distribución se dice asimétrica positivamente y es sesgada a


derecha,

si α3 < 0, la distribución se dice asimétrica negativamente y es sesgada a


izquierda,

si α3 = 0 se dice simétrica.

Nota 4.1.5 α3 mide la simetrı́a de la curva, relativa a la dispersión. Puede probarse


que si la densidad es simétrica alrededor de µ, entonces µr = 0 para todo r impar.

Se define el coeficiente de curtosis como


µ4
α4 = 4 . (4,6)
σ
si α4 > 3, se dice que la densidad es más “picuda”, alrededor de µ, que la
normal,

92
si α4 < 3,se dice que la densidad es más “achatada”, alrededor de µ, que la
normal,

si α4 = 3 el grado de “achatamiento” de la densidad, alrededor de µ es normal.

En a) la distribución es asimétrica positivamente, en b) asimétrica negativamente


y en c) es simétrica.
Del gráfico que sigue, en a) α4 > 3, en b)α4 < 3 y en c) α4 = 3.

El valor 3 con que se compara es el coeficiente de curtosis de una distribución normal


(probarlo).

93
Otras medidas importantes
Además de la media existen otras medidas de tendencia central que pueden usarse
y que para algunas distribuciones son más representativas, tales como la mediana y
el modo.

Definición 4.1.5 Dada una V.A. X se llama mediana de la distribución de X al


valor M e definido por

i) P (X < M e) ≤ 1/2 y P (X ≤ M e) ≥ 1/2 para X discreta,


ii) P (X ≤ M e) = 1/2 para X continua.

Es decir la mediana es el valor que acumula por lo menos el 50 % de los valores de


la distribución.

Ejemplo 4.1.4 1) Sea X la variable que denota la suma de los puntos obtenidos
al arrojar un par de dados, entonces
15 1 21 1
P (X < 7) = < y P (X ≤ 7) = > ,
36 2 36 2
luego M e = 7 es decir, en este caso, coincide con la media como era de esperar
por ser la distribución de X simétrica alrededor de µ = 7.
2) Sea Y una V.A. con densidad fY (y) = 2e−2y I(0,∞) (y), entonces
R M e −2y Me
0
2e dy = 12 ⇒ −e−2y o = 12 ⇒ 1 − e−2M e = 21 ⇒ −2M e = − ln 2 ⇒
M e = ln22
En este caso M e < µX como era de esperar pues la densidad es sesgada a
derecha.

La mediana es un caso particular de cuantil de la distribución cuya definición


sigue.

Definición 4.1.6 Dada una V.A. X se llama q−ésimo cuantil, 0 < q < 1, de la
distribución de X al valor xq definido por

i) P (X < xq ) ≤ q y P (X ≤ xq ) ≥ q para X discreta,


ii) P (X ≤ xq ) = q para X continua.

Es decir el q−ésimo cuantil es el valor que deja a su izquierda una proporción de


por lo menos q de la distribución de X.

Definición 4.1.7 Dada una V.A. X se llama modo de la distribución de X al


valor M o de mayor densidad, esto es
fX (M o) ≥ fX (x) para todo x.

94
Nota 4.1.6 La M e es una medida de tendencia central más apropiada que la media
para distribuciones muy sesgadas, por no estar afectada por la presencia de valores
extremos.
Existen distribuciones donde no existe el modo y otras donde existe pero no es
único, por ejemplo, para una distribución uniforme el modo no existe y para la
normal se tiene que M o = M e = µ.
Definición 4.1.8 Función generadora de momentos

La función generadora de momentos(F.G.M.) de una V.A. X, denotada por


mX (t),es la función definida por
mX (t) = E[etX ], (4,7)
si dicho valor esperado existe para t en algún entorno del orı́gen.
La función definida recibe este nombre debido a que, si existe, permite obtener los
momentos no centrados de X a partir de sus derivadas sucesivas en el orı́gen. En
efecto: si existe mX , entonces la serie o integral que la define es absolutamente
convergente y resulta infinitamente diferenciable. Se tiene que
Z ∞
dr mX dr

tx
(t) = r e fX (x)dx
dtr dt −∞
Z ∞ r
d tx
= r
(e )fX (x)dx
−∞ dt
Z ∞
= xr etx fX (x)dx.
−∞
Por lo tanto
dr mX
(t) t=0
= µ0r .
dtr
.
Hemos supuesto que X es continua, si es discreta se llega a la misma conclusión
trabajando con series en lugar de integrales. De modo que, si existe,

X µ0 r r
mX (t) = t
r=0
r!
.
Ejemplo 4.1.5 Encontremos la F.G.M. de una V.A. X ∼B(n, p):

n  
X
txn x
mX (t) = e p (1 − p)n−x
x=0
x
n  
X n
= (pet )x (1 − p)n−x
x=0
x
n
= pet + q

95
Luego
dmX n−1
µX = (t) t=0
= n pet + q pet t=0
= np
dt
y

d2 mX h n−1 n−2 i
µ02 = (t) t=0
= npet pet + q + np2 e2t (n − 1) pet + q t=0
dt2
2
= np + np (n − 1).
2
Por lo tanto σX = µ02 − µ2X = np + np2 (n − 1) − n2 p2 = np(1 − p) = npq.

Ejercicio 4.1.4 Pruebe que


t
1) Si X ∼P(λ), entonces mX (t) = eλ(e −1) , µX = λ y σX 2
= λ.
 r
p
2) Si X ∼B.N.(r, p), entonces mX (t) = 1−qe t , µX = rqp y σX
2
= rq
p2
.

nk(N −k) N −n
3) Si X ∼Hi(N, k, n), entonces µX = n Nk y σX
2

= N2 N −1
.
k N −n
2

Luego si llamamos p = N
entonces µX = np y σX = npq N −1
con q = 1 − p.
2 k
Si N es grande vemos que σX se aproxima a una binomial con p = N
.(la
n
aproximación es buena para N < 0,05).
λ 1 2 1
4) Si X ∼E(λ), entonces mX (t) = λ−t
para t < λ, µX = λ
y σX = λ2
.
λ r r r
 2
5) Si X ∼G(r, λ), entonces mX (t) = λ−t
para t < λ, µX = λ
y σX = λ2
.
1 2 2
6) Si X ∼ N (µ, σ 2 ), entonces mX (t) = etµ+ 2 t σ 2
, µX = µ y σX = σ2.
X−µ
(Sugerencia: probarlo para N (0, 1) y luego usar la transformación Z = σ
para el caso general)

Regla 68 − 95 − 99,7 para una Normal


Sea X ∼N(µ, σ 2 ) y encontremos las probabilidades P (µ − kσ < X < µ + kσ)
para k = 1, 2, 3.
X−µ
P (µ−σ < X < µ+σ) = P (−1 < σ
< 1) = Φ(1)−Φ(−1) = 2Φ(1)−1 = 0,68
luego el 68 % del área bajo una densidad normal se encuentra a un desvı́o de
la media.
X−µ
P (µ − 2σ < X < µ + 2σ) = P (−2 < σ
< 2) = Φ(2) − Φ(−2) = 2Φ(2) − 1 =
0,95
luego el 95 % del área bajo una densidad normal se encuentra a dos desvı́os de
la media.

96
X−µ
P (µ − 3σ < X < µ + 3σ) = P (−3 < σ
< 3) = Φ(3) − Φ(−3) = 2Φ(3) − 1 =
0,997
luego el 99,7 % del área bajo una densidad normal se encuentra a tres desvı́o
de la media.

Este hecho se usa para asignar normalidad a una distribución de frecuencias; es


decir brinda una regla para decidir si un conjunto de datos puede provenir de una
distribución normal, una vez realizado un histograma o diagrama de tallo y hojas
para visualizar si presenta comportamiento no normal,tales como outliers o sesgo
pronunciado.

Ejercicio 4.1.5 Un producto es empaquetado con una etiqueta que establece un peso
neto de 250gr. Al gerente de producción le gustarı́a que los paquetes se llenen con al
menos de 250gr y no más de 258gr. Para chequear la performance de este objetivo,
se tomó una muestra aleatoria de 60 paquetes y se pesó cada uno de ellos. Los
resultados, redondeados al gramo más próximo, son los siguientes

251 258 256 260 255 255 261 257 258 257
257 257 255 257 254 257 255 256 249 257
255 255 255 254 255 256 259 257 251 253
256 257 257 253 256 255 256 251 254 260
250 253 253 259 250 252 258 261 257 259
252 256 258 252 254 254 252 258 256 253

(a) Encouentre la media x y el desvı́o estándar s de los datos.

(b) Confeccione un diagrama de tallo y hojas o un histograma de los datos. De-


scribir la distribución.

(c) Halle el porcentaje de observaciones dentro de un, dos y tres desvı́os de la


media, es decir el porcentaje de datos que caen en el intervalo [x − ks, x + ks]
para k = 1, 2, 3.

(d) ¿Pueden provenir estos datos de una distribución normal?. Explique.

(e) Reporte sus resultados al gerente de producción y establecer su valoración ac-


erca de cumplir el objetivo de llenar con al menos 250gr y no más de 258gr.

4.1.2. Valor esperado para funciones de variables aleatorias


bidimensionales
Las nociones de valor esperado se generalizan al caso multivariado.

Definición 4.1.9 Si (X, Y ) es un vector aleatorio y g : IR2 → IR una función, el


valor esperado o esperanza de g(X, Y ) se define por

97
P
i) E[g(X, Y )] = i g(xi , yi )fXY (xi , yi ) si (X, Y ) es discreto con puntos masa
(x1 , y1 ), (x2 , y2 ), · · · ,
R∞ R∞
ii) E[g(X, Y )] = g(x, y)fXY (x, y)dxdy si (X, Y ) es continuo.
−∞ −∞

E[g(X, Y )] existe si la serie en i) o la integral en ii) son absolutamente convergentes.

Lema 4.1.5 El valor esperado verifica las siguientes propiedades:

1) E[c1 g1 (X, Y ) + c2 g2 (X, Y )] = c1 E[g1 (X, Y )] + c2 E[g2 (X, Y )], para c1 , c2 ∈ IR,

2) Si X e Y son independientes entonces

E[g(X)h(Y )] = E[g(X)]E[h(Y )]

cualesquiera sean las funciones g y h.

Ejercicio 4.1.6 Demuestre el lema anterior.

Definición 4.1.10 Llamaremos covarianza entre X e Y al valor

cov(X, Y ) = E[(X − µX )(Y − µY )], (4,8)

y coeficiente de correlación al valor

cov(X, Y )
ρXY = , si σX > 0 y σY > 0. (4,9)
σX σY

Tanto la covarianza como el coeficiente de correlación sirven para medir la de-


pendencia lineal entre las variables X e Y . La covarianza depende de la variación
individual de cada variable, mientras que ρXY elimina esa dependencia al dividir la
covarianza en el producto de los desvı́os. Algunas veces escribiremos ρ en lugar de
ρXY .

Lema 4.1.6 El coeficiente de correlación verifica las siguientes propiedades

i) |ρ| ≤ 1,

ii) |ρ| = 1 si y sólo si Y es combinación lineal de X, con probabilidad 1, es decir


existen constantes a y b tales que P (Y = a + bX) = 1.

Demostración
Probemos primero la desigualdad de Cauchy-Shwartz:

|E[U V ]|2 ≤ E[U 2 ]E[V 2 ], (4,10)

98
para cualquier par de variables aleatorias U y V y vale la igualdad en (4.10) si y
sólo si P [V = cU ] = 1, para alguna constante c. En efecto: sea
h(t) = E (tU − V )2 , para t ∈ IR,
 

luego h(t) = E[U 2 ]t2 − 2E[U V ]t + E[V 2 ] ≥ 0 para todo t ∈ IR, es decir h(t) es una
función cuadrática no negativa, lo que implica que su discriminante
4 (E[U V ])2 − 4E[U 2 ]E[V 2 ] ≤ 0,
de donde resulta (4.10). Además vale la igualdad si y sólo si existe t0 ∈ IR tal que
E [(t0 U − V )2 ] = 0 esto es, si y sólo si,P (V = t0 U ) = 1.
Usando la desigualdad de Cauchy-Shwartz con U = X − µX y V = Y − µY , se
tiene que
p p
|E [(X − µX )(Y − µY )] | ≤ E [(X − µX )2 ] E [(Y − µY )2 ] ⇒ |ρXY | ≤ 1,
y vale la igualdad si y sólo si P (Y − µY = t0 (X − µX )) = 1 para alguna constante
t0 , esto es si y sólo si P (Y = a + bX) = 1 para constantes a y b. 2

Nota 4.1.7 El lema anterior nos aclara porqué ρ mide el grado de relación lineal
entre dos variables aleatorias. Un valor de ρ cercano a 1, en valor absoluto, nos
dirá que X e Y tienen un alto grado de relación lineal.

Definición 4.1.11 Dos variables aleatorias X e Y son no correlacionadas si


cov(X, Y ) = 0

Es claro que si X e Y son independientes, entonces son no correlacionadas, pues


en este caso E[XY ] = E[X]E[Y ], lo que implica que cov(X, Y ) = E[XY ] − µX µy =
0. La recı́proca no es cierta como lo muestra el siguiente ejemplo.

Ejemplo 4.1.6 Sea U ∼U(0, 1), definimos las V.A.

X = cos2πU
Y = sen2πU
luego X e Y no son independientes, pues X 2 + Y 2 = 1. Veamos que son no correla-
cionadas. XY = cos2πU sen2πU = g(U ), luego:

Z 1
E[XY ] = E[g(U )] = cos2πusen2πudu
0
Z 1
sen4πu
= du
0 2
−cos4πu 1
= 0

= 0.

99
Por otra parte

Z 1
E[X] = E[g1 (U )] = cos2πudu
0
sen2πu 1
= 0

= 0,
y

Z 1
E[X] = E[g2 (U )] = sen2πudu
0
−cos2πu 1
= 0

= 0.

luego cov(X, Y ) = 0.

Lema 4.1.7 Sean a1 , a2 , · · · , an ∈ IR,y X1 , X2 , · · · , Xn variables aleatorias, en-


tonces se verifica que
Xn n
X XX
var[ ai Xi ] = a2i var[Xi ] + ai aj cov[Xi , Xj ]. (4,11)
i=1 i=1 i6=j j6=i

En particular, si X1 , X2 , · · · , Xn son independientes, entonces


Xn n
X
var[ ai Xi ] = a2i var[Xi ], (4,12)
i=1 i=1

y si además son idénticamente distribuı́das con media µ y varianza σ 2 , entonces


" n #
X Xi σ2
var[X] = var = . (4,13)
i=1
n n

Demostración

100
 !2 
Xn n
X Xn
var[ ai Xi ] = E  ai Xi − E[ ai Xi ] 
i=1 i=1 i=1
 !2 
n
X
=E ai (Xi − E[Xi ]) 
i=1
" n
#
X XX
=E a2i (Xi − E[Xi ])2 + ai aj (Xi − E[Xi ])(Xj − E[Xj ])
i=1 i6=j j6=i
n
X  XX
a2i E (Xi − E[Xi ])2 +

= ai aj E [(Xi − E[Xi ])(Xj − E[Xj ])]
i=1 i6=j j6=i
Xn XX
= a2i var[Xi ] + ai aj cov[Xi , Xj ].
i=1 i6=j i6=i

Por otra parte, (4.12) resulta de (4.11) y del hecho que cov[Xi , Xj ] = 0 si las va-
riables son independientes, y (4.13) resulta de (4.12) tomando ai = n1 , i = 1, 2, · · · , n.
2

4.1.3. Función generadora de momentos para un vector aleato-


rio
Definición 4.1.12 Sea (X, Y ) una V.A. bidimensional, la función generadora
de momentos de (X, Y ) se define como

mXY (t1 , t2 ) = E[et1 X+t2 Y ], (4,14)

si este valor esperado existe para (t1 , t2 ) en un entorno del orı́gen.

Lema 4.1.8 1) X e Y son independientes si y sólo si

mXY (t1 , t2 ) = mX (t1 )mY (t2 ), para todo t1 , t2 .

2)

mX (t1 ) = mXY (t1 , 0)


mY (t2 ) = mXY (0, t2 )

dr+s mXY
3) (t1 , t2 ) = E[X r Y s ].
dtr1 dts2 (t1 ,t2 )=(0,0)

Ejercicio 4.1.7 Demuestre el lema anterior.

101
4.2. Esperanzas condicionales
Definición 4.2.1 Sea (X, Y ) una variable aleatoria bidimensional y g : IR2 → IR.
La esperanza condicional de g(X, Y ) dado X = x se define por
Z ∞
E [g(X, Y )/X = x] = g(x, y)fY /X (y/x)dy,
−∞

si (X, Y ) es continua, y
X
E [g(X, Y )/X = x] = g(x, yj )fY /X (yj /x),
j

si (X, Y ) es discreta.
En particular, si g(x, y) = y, tenemos definida E [Y /X = x] = E [Y /x], llamada
media condicional de Y dado X = x por ser la media de tal distribución condicional.
Ejemplo 4.2.1 Para fXY (x, y) = (x+y)I(0,1) (x)I(0,1) (y) encontramos, en el capı́tulo
x+y
anterior, que fY /X (y/x) = x+1/2 I(0,1) (y) para 0 < x < 1. Luego la media condicional
de Y dado x es
x
1
+ 31
Z
x+y 2
E [Y /x] = y dy = ,
0 x + 12 x + 21
para x ∈ (0, 1).
Como, cualquiera sea g, E [g(Y )/x] es una función de x, la denotemos por h(x),
es decir, h(x) = E [g(Y )/x]. Encontremos la esperanza de h(X)

Z ∞
E [E [g(Y )/x]] = E[h(X)] = h(x)fX (x)dx
Z−∞

Z ∞ 
= g(y)fY /X (y/x)dy fX (x)dx
−∞ −∞
Z ∞Z ∞
= g(y)fY /X (y/x)fX (x)dydx
−∞ −∞
Z ∞Z ∞
= g(y)fXY (x, y)dydx = E[g(Y )].
−∞ −∞

Luego tenemos probado el siguiente teorema (para variables conjuntamente discretas


se demuestra en forma análoga.)
Teorema 4.2.1 Sea (X, Y ) una variable aleatoria bidimensional y g : IR → IR una
función, entonces
E [g(Y )] = E [E[g(Y )/X]] , (4,16)
y en particular
E[Y ] = E [E[Y /X]] . (4,17)

102
Definición 4.2.2 E[Y /X = x] se llama curva de regresión de Y sobre x.
También se denota por µY /X=x = µY /x .

Definición 4.2.3 La varianza de Y dado X = x, definida por

var [Y /X = x] = E Y 2 /X = x − (E [Y /X = x])2 .
 
(4,18)

Teorema 4.2.2

var[Y ] = E [var [Y /X]] + var [E[Y /X]] .

Demostración

E [var[Y /X]] = E E[Y 2 /X] − E (E[Y /X])2


   

= E[Y 2 ] − (E[Y ])2 − E (E[Y /X])2 + (E[Y ])2


 

= var[Y ] − E (E[Y /X])2 + (E [E[Y /X]])2


 

= var[Y ] − var [E[Y /X]] ,


lo que prueba el teorema. 2
Daremos un teorema más fuerte, cuya demostración se deja como ejercicio y se
puede extender a k− dimensiones, para k > 2.

Teorema 4.2.3 Sea (X, Y ) una variable aleatoria bidimensional, g1 y g2 funciones


de una variable, entonces

i) E [g1 (Y ) + g2 (Y )/X = x] = E [g1 (Y )/X = x] + E [g2 (Y )/X = x],


ii) E [g1 (Y ) · g2 (X)/X = x] = g2 (x)E [g1 (Y )/X = x].

Ejercicio 4.2.1 Demuestre el teorema anterior.

4.3. Predicción
Supongamos que disponemos de un modelo para la distribución conjunta de
la temperatura máxima de hoy con la de mañana y deseamos predecir esta última
conociendo la primera. Formalmente: se busca aproximar a Y (temperatura máxima
de mañana) con una función de X(temperatura máxima de hoy). Es decir, se busca
una función g : IR → IR tal que Y − g(X) sea “lo más pequeña posible”. Este
problema se denomina en general “predicción”.
Una forma de plantear el problema es minimizar alguna medida del error. El
criterio más usual es el “error medio cuadrático”(E.M.C.):

e(g) = E (Y − g(X))2 .
 
(4,19)

Se buscará entonces g de modo que haga mı́nimo e(g).

103
4.3.1. Predicción lineal
Para comenzar con un caso simple, trataremos el problema en que g es una
función lineal, es decir de la forma g(x) = a + bx. En este caso

e(g) = E (Y − a − bX)2 ,
 
(4,20)

y hay que buscar las constantes a y b que minimicen (4.20).


Desarrollando en la expresión anterior el cuadrado, e igualando a 0 las derivadas
parciales respecto de a y de b, se obtiene la solución
c
a = µY − bµX , b = 2
, (4,21)
σX
2
donde µX y σX son, respectivamente, la media y varianza de X, µY y σY2 la media y
varianza de Y , y c = cov(X, Y ).
Por lo tanto la g óptima es
x − µX
g(x) = µY + c 2
. (4,22)
σX
El E.C.M. mı́nimo es

emin = E (Y − µY − b(X − µX ))2 = σY2 + b2 σX


2
 
− 2bc
2
c
= σY2 − 2 = σY2 (1 − ρ2 ).
σX
La expresión anterior permite una interpretación intuitiva de ρ como medida de
“dependencia lineal”. En efecto, ρ = 0 (X e Y no correlacionadas) nos lleva a que
la pendiente b = 0, lo que significa que usar funciones lineales de X para aproximar
a Y , es lo mismo que nada. En cambio |ρ| = 1 implica que emin = 0 y además, por
el Lema 4.1.6 que, Y es igual (con probabilidad 1) a una función lineal de X, con
pendiente de igual signo que ρ.

4.3.2. Predicción general


Ahora buscamos minimizar el E.C.M. sin restricciones sobre g. La solución al
problema general la da el siguiente

Teorema 4.3.1 Sea g(x) = E [Y /X = x] para x ∈ C = {x : fX (x) > 0}. Entonces


g minimiza el E.C.M.

Demostración La hacemos para el caso discreto. Notemos que cualquiera sea


g el E.C.M. es
XX X X
(y − g(x))2 fXY (x, y) = fX (x) (y − g(x))2 fY /X (y/x).
x y x∈C y

104
. La constante c que minimiza (y − c)2 fY /X (y/x)
P P
Para cada x, basta con minimizar la
y y
es (derivando) X
c= yfY /X (y/x) = E [Y /X = x] .
y

La demostración para el caso continuo sigue el mismo esquema. 2

4.4. Cuestionario

1) En la definición de media de una variable aleatoria, ¿porqué es necesario pedir


que la serie o integral que la define sea absolutamente convergente?
2) Dé la interpretación de media de la distribución de una variable aleatoria. ¿Es
esta medida de tendencia central la más representativa en todos los casos?
Justifique.
3) Proporcione un ejemplo de distribución donde la mediana sea más adecuada
que la media como medida de tendencia central y otra donde media, mediana
y modo coincidan.
4) Proporcione ejemplos de:

a) distribución unimodal.
b) distribución bimodal.
c) distribución donde no exista el modo.

5) ¿A cuántos desvı́os de la media el área bajo una densidad supera a 89 ?


6) Se define el coeficiente de variación de una distribución al valor:

σ
C.V =
µ
Este mide la dispersión de la distribución relativa a µ. Si el C.V de una variable
aleatoria X es menor que el de una variable aleatoria Y , ¿para cuál de las dos
distribuciones su media representa mejor a los datos? Justifique.
7) Sean X1 , X2 , · · · , Xn variables aleatorias independientes para las cuales existe
Pn
mXi (t). Demuestre que si Y = Xi entonces existe mY (t) y se verifica:
i=1
n
Y
mY (t) = mXi (t)
i=1

105
8) Encuentre el coeficiente α3 para la distribución B(n, p) e indique para qué val-
ores de n y/o p la distribución es asimétrica positivamente, asimétrica negati-
vamente o simétrica.

9) Idem ejercicio 8) para la distribución P (λ).

10) Dado un conjunto de datos,indique qué pasos debe seguir para asignar norma-
lidad a los mismos. Elija un conjunto de datos del práctico 1 o de la bibliografı́a
y determine si puede suponer que provienen de una distribución normal.

106
Bibliografı́a

[1] Alliaga, Martha.Interactive Statictics

[2] Calot,Gerard .Estadı́stica Descriptiva.

[3] Canavos, George.Probabilidades y Estadı́stica.

[4] Feller (vol. 1 y 2),Introducción a la Teorı́a de Probabilidad y sus Apli-


caciones.

[5] Freeman Harold,Introducción a la Inferencia estadı́stica.

[6] Marona Ricardo,Probabilidad y Estadı́stica Elementales

[7] Mood A.M., Introducción a la Teorı́a de Estadı́stica.

107

También podría gustarte