Notas de Estadística

UNIVERSIDAD NACIONAL
DE SAN JUAN
Facultad de Filosofı́a, Humanidades y Artes
Notas de Estadı́stica
Descriptiva y
Teorı́a de Probabilidad
Lilian Adriana Mallea
Año: 2021
Índice general
1. Generalidades y Estadı́stica Descriptiva 5

1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2. La estadı́stica y el método cientı́fico . . . . . . . . . . . . . . . . . . . 6
1.3. ¿Para qué sirve la Estadı́stica? . . . . . . . . . . . . . . . . . . . . . . 7
1.4. Resumiendo datos gráficamente . . . . . . . . . . . . . . . . . . . . . 9
1.4.1. Tipos de variables . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4.2. Distribución de una variable . . . . . . . . . . . . . . . . . . . 11
1.4.3. Diagrama de tallo y hojas . . . . . . . . . . . . . . . . . . . . 15
1.4.4. Gráfico de curva simple . . . . . . . . . . . . . . . . . . . . . . 17
1.4.5. Gráficos para las variables cualitativas . . . . . . . . . . . . . 18
1.5. Resumiendo datos numéricamente . . . . . . . . . . . . . . . . . . . . 20
1.5.1. Midiendo el centro . . . . . . . . . . . . . . . . . . . . . . . . 20
1.5.2. Midiendo la variación o dispersión . . . . . . . . . . . . . . . . 23
1.5.3. Medidas de tendencia central y dispersión para datos agrupa-
dos en intervalos . . . . . . . . . . . . . . . . . . . . . . . . . 32
1.6. Cuestionario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2. Teorı́a de Probabilidad 35
2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.2. El Lenguaje de Probabilidad . . . . . . . . . . . . . . . . . . . . . . . 42
2.2.1. Espacio muestral y eventos . . . . . . . . . . . . . . . . . . . . 42
2.2.2. Reglas de Probabilidad . . . . . . . . . . . . . . . . . . . . . . 45
2.2.3. Probabilidad Condicional . . . . . . . . . . . . . . . . . . . . . 47
2.2.4. Independencia de eventos . . . . . . . . . . . . . . . . . . . . 48
2.3. Cuestionario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3. Variable Aleatoria 54
3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.1.1. Variables Aleatorias Discretas . . . . . . . . . . . . . . . . . . 58
3.1.2. Distribuciones discretas importantes . . . . . . . . . . . . . . 60
3.2. Variables Aleatorias Continuas . . . . . . . . . . . . . . . . . . . . . . 65
3.2.1. Distribuciones continuas importantes . . . . . . . . . . . . . . 66
3.3. Aproximaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
2
3.3.1. Aproximación de Binomial a Poisson . . . . . . . . . . . . . . 72
3.3.2. Aproximación de Binomial a Normal . . . . . . . . . . . . . . 72
3.3.3. Aproximación de Poisson a Normal . . . . . . . . . . . . . . . 73
3.4. Transformaciones de variables aleatorias . . . . . . . . . . . . . . . . 74
3.5. Distribución conjunta de variables aleatorias . . . . . . . . . . . . . . 75
3.5.1. Distribuciones conjuntas discretas . . . . . . . . . . . . . . . . 76
3.5.2. Distribuciones conjuntas continuas . . . . . . . . . . . . . . . 77
3.5.3. Distribuciones marginales . . . . . . . . . . . . . . . . . . . . 79
3.5.4. Independencia de variables aleatorias . . . . . . . . . . . . . . 81
3.6. Distribuciones Condicionales . . . . . . . . . . . . . . . . . . . . . . . 83
3.6.1. Caso discreto . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
3.6.2. Caso continuo . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
3.7. Cuestionario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
4. Valor medio y otros parámetros 87

4.1. Valor medio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.1.1. Momentos de una distribución . . . . . . . . . . . . . . . . . . 91
4.1.2. Valor esperado para funciones de variables aleatorias bidimen-
sionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
4.1.3. Función generadora de momentos para un vector aleatorio . . 101
4.2. Esperanzas condicionales . . . . . . . . . . . . . . . . . . . . . . . . . 102
4.3. Predicción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
4.3.1. Predicción lineal . . . . . . . . . . . . . . . . . . . . . . . . . 104
4.3.2. Predicción general . . . . . . . . . . . . . . . . . . . . . . . . 104
4.4. Cuestionario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
3
Prólogo
El propósito de este material es presentar los conceptos básicos de Estadı́stica

Descriptiva y Teorı́a de Probabilidad, y es el resultado de la evolución que tuvieron
las notas de clase de la cátedra “Probabilidades y Estadı́stica” que dicto a los alum-
nos de las carreras Licenciatura y Profesorado en Matemática en la Facultad de
Filosofı́a, Humanidades y Artes de la Universidad Nacional de San Juan. Para su
elaboración he consultado numerosa bibliografı́a, que se especifica al final del texto.
He elaborado un material, cuya presentación es similar, para la segunda parte del
curso, que se dedica a Estadı́stica Inferencial.
La última sección de cada capı́tulo pretende lograr un afianzamiento de los temas
tratados previamente y consiste en un cuestionario cuyas preguntas se refieren a
conceptos y resultados desarrollados en el capı́tulo, haciendo hincapié en la inter-
pretación de los mismos.
Estas notas cuentan con abundantes ejemplos que sirven al alumno para compro-
bar su comprensión de la teorı́a. Los ejercicios son una parte importante del curso.
Se presentan en una guı́a complementaria elaborada por el equipo de cátedra.
Mi intención es que este material ayude a los estudiantes a desarrollar su habi-
lidad para pensar correctamente por su cuenta, lo que debiera ser el objeto de toda
enseñanza.
Lilian Adriana Mallea
4
Capı́tulo 1
Generalidades y Estadı́stica
Descriptiva
1.1. Introducción
Para la gente común la palabra estadı́stica significa números. Ası́ los medios de
comunicación nos muestran a diario distintas estadı́sticas: números de asesinatos,
estadı́sticas acerca de la mano de obra en el paı́s tal como número de desempleados;
o las últimas estadı́sticas sobre el número de nacimientos y muertes durante un
cierto perı́odo de tiempo. Si bien ejemplos como éstos, forman parte del concepto
total de “estadı́stica”, la palabra tiene un sentido más amplio para las personas que
requieren un conocimiento más técnico de esta disciplina.
La Estadı́stica actual es el resultado de la unión entre dos disciplinas que evolu-
cionan independientemente hasta confluir en el siglo XIX: la primera es el cálculo de
probabilidades, que nace en el Siglo XVII con los juegos de azar (Se considera como
orı́gen del cálculo de probabilidades la resolución del Problema de los Puntos en la
correspondencia entre Pascal y Fermat en 1654. Éste fue planteado a los mismos por
Chevalier de Meré y consistió en cómo debı́a repartirse el dinero de las apuestas,
si el juego es interrumpido), la segunda es la Estadı́stica( o ciencia del estado, del
latı́n Status) que estudia la descripción de datos, y tiene sus raı́ces más antiguas
(los romanos ya hacı́an censos, inventarios,etc.) aunque el primer intento de aplicar
un razonamiento propiamente estadı́stico a datos demográficos es debido a Graunt,
en 1662. La integración de ambas lı́neas de pensamiento da lugar a una ciencia que
estudia cómo obtener conclusiones de la investigación empı́rica mediante el uso de
modelos matemáticos.
La estadı́stica actúa como puente entre los modelos matemáticos y los fenómenos
reales. Un modelo matemático es una abstracción simplificada de una realidad más
compleja y siempre existirá una discrepancia entre lo observado y lo previsto por el
modelo. La estadı́stica proporciona una metodologı́a para evaluar estas discrepan-
cias. Por lo tanto su estudio es básico para todos aquellos que deseen trabajar en
ciencia aplicada (Tecnologı́a, Economı́a, Sociologı́a) que requiere el análisis de datos
5
y diseño de experimentos. La estadı́stica es la metodologı́a del método Cientı́fi-
co(Mood, 1972).
1.2. La estadı́stica y el método cientı́fico

La Estadı́stica es la ciencia de los datos. El método cientı́fico es un procedimien-
to para adquirir conocimientos de un modo sistemático. La Estadı́stica y el método
cientı́fico proveen una colección de principios y procedimientos para obtener y re-
sumir información a fin de tomar decisiones. El método cientı́fico es un proceso
iterativo para aprender acerca del mundo que nos rodea. Éste se compone de las
siguientes etapas:
1- formula una teorı́a.
2- colecciona datos para testear o probar la teorı́a.
3- analiza los resultados.
4- interpreta los resultados; toma una decisión.
Comenzamos con una teorı́a. Supongamos, por ejemplo, que fabricamos un pro-
ducto y recientemente algunos clientes se han quejado devolviendo el producto,
argumentando que no funciona como esperaban. Reconocemos ésta como una opor-
tunidad para mejorar.
6
Las descripciones ofrecidas por los clientes pueden llevar a una teorı́a acerca de
cuáles son las causas por las que el producto no funciona correctamente. Deseamos
poner a prueba esta teorı́a. Coleccionamos datos para ayudar a verificar la teorı́a.
Podemos introducir cambios en el proceso de producción de nuestro producto y
medir el funcionamiento de algunos productos elaborados después de éstos cambios.
Esas mediciones constituyen los datos.
Examinamos estos datos y “resumimos”los resultados . Ası́, por ejemplo, podemos
resumir el porcentaje de productos producidos después del cambio que no opera
correctamente. Interpretamos los resultados y usamos los datos para confirmar o
refutar la teorı́a. Si el porcentaje de productos que funcionan mal se ha reducido
suficientemente, podemos concluir que la teorı́a ha sido afirmada. Se implementa el
cambio en el proceso de producción y se trabaja con el nuevo proceso para elaborar
el producto. Si el porcentaje de productos que no operan correctamente no se ha
reducido lo suficiente, la teorı́a puede no ser afirmada. Entonces una nueva teorı́a
será desarrollada y luego, sometida a prueba.
Raramente los datos afirman concluyentemente si una teorı́a es verdadera o fal-
sa. Muchas teorı́as están en permanente estado de incertidumbre. Siempre existen
nuevas observaciones acerca del mundo que nos rodea. Los cientı́ficos siempre están
pensando en nuevas formas de testear viejas teorı́as o nuevas maneras de interpretar
los datos.
Si no podemos concluir si una teorı́a es o no verdadera, puede ser que nos conformem-
os cuantificándo“cúan seguros”podemos estar en nuestra decisión, si podemos decir
algo como: “tenemos un 95 % de confianza en nuestra conclusión”. Es aquı́ donde la
estadı́stica y su colección de métodos juega un rol importante.
La habilidad para establecer tales enunciados de confianza proviene del uso de es-
tadı́stica en todas las etapas del método cientı́fico. “Una teorı́a se rechaza si puede
probarse estadı́sticamente que los datos observados pueden ser muy poco posibles
de ocurrir si la teorı́a fuera en realidad verdadera. Una teorı́a es aceptada si no es
rechazada por los datos”.
El método cientı́fico es un proceso iterativo de aprendizaje. Los resultados no
dan respuestas definitivas, ellos pueden sugerir nuevas teorı́as. Una decisión puede
ser tomada por ahora pero estará sujeta a nuevas pruebas a posteriori. Por lo tanto,
el método cientı́fico se presenta mejor por un circulo. Las diversas componentes en
el circulo están conectadas, y el circulo no tiene fin, al igual que el aprendizaje, es
un proceso que nunca termina.
1.3. ¿Para qué sirve la Estadı́stica?

Casi constantemente debemos reunir información para tomar decisiones. Consi-
deremos las siguientes situaciones:
Supongamos que usted está interesado en reunir información sobre los emplea-
dos del Banco Nación (sucursal San Juan). Por ejemplo, puede interesarse por
7
conocer qué porcentaje de ellos son mujeres, cuántos son contadores, qué por-
centaje cobra con máxima antiguedad,etc.
Supongamos que usted es un comerciante y tiene en su depósito 1000 unidades

de un producto determinado de los cuáles sospecha que no estan en óptimas
condiciones(son defectuosas). Desea saber si sus sospechas son ciertas.
Desea conocer la estatura promedio de los varones argentinos de edades com-

prendidas enre los 18 y 30 años.
Problemas como los anteriores son posibles de resolver con la ayuda de la Es-
tadı́stica. En el primer caso, puesto que el conjunto de empleados de tal sucursal es
reducido, se pueden obtener los datos necesarios trabajando con todo el grupo.
En cambio, en las dos últimas situaciones el grupo de individuos u objetos bajo
estudio es muy grande y necesitamos un método confiable para extraer conclusiones
basadas en una cantidad manejable de datos (una muestra).
La Estadı́stica tiene por objeto el desarrollo de técnicas para el conocimiento
numérico de un conjunto. Permite que problemas como los anteriores sean conve-
nientemente planteados y resueltos.
Se divide en dos ramas principales:
Estadı́stica Descriptiva: cuyo objetivo es examinar a todos los individuos

de un conjunto (caso 1).
Estadı́stica Inferencial: permite, mediante el estudio de una muestra ,sacar

conclusiones válidas para la totalidad (casos 2 y 3).
Introducimos a continuación la terminologı́a y definiciones propias de esta disci-

plina.
Definición 1.3.1 Una unidad es el ı́tem u objeto que observamos. Cuando el objeto
es una persona, nos podemos referir a la unidad como sujeto.
Una observación es la información o caracterı́stica registrada para una unidad.
La población es el grupo entero de objetos o individuos bajo estudio, acerca del
cual se desea información.
Una muestra es una parte de la población que realmente se usa para reunir
información.
La Estadı́stica Inferencial es el proceso de extraer conclusiones acerca de la

población basada en la información de una muestra de la misma.
Ası́, en el caso 1, la población está formada por todos los empleados de la sucursal
San Juan del Banco Nación y cada uno de ellos es una unidad( sujeto). En el caso
2, cada producto es un individuo y cada producto sometido a observación ( es decir
incluı́do en la muestra) es una unidad. La población está formada por los 1000
productos del depósito.
8
En el tercer caso la población está constituı́da por todos los varones argentinos
con edades comprendidas entre 18 y 30 años, cada uno de los cuáles es un individuo.
Cada unidad ,en este caso sujeto, es cada uno de los varones que forman la muestra
seleccionada.
1.4. Resumiendo datos gráficamente

Supongamos que tenemos una teorı́a para testear. Coleccionamos datos que nos
ayuden a verificar la teorı́a. Ahora veremos las técnicas que usa la Estadı́stica para
resumir la información en tablas y gráficos.
Supongamos que se ha llevado a cabo un estudio médico para asignar la bondad
de una nueva droga para reducir la presión sanguı́nea y también para analizar la
relación entre la dosis de droga y la cantidad de reducción en la presión de sangre.
Existen caracterı́sticas importantes que pueden influir en la presión, como: la edad,
sexo y la cantidad de medicina para reducir la presión, tomada diariamente. El
siguiente conjunto de datos contiene varias mediciones sobre 20 individuos.
CONJUNTO DE DATOS 1
Sujeto Sexo Edad Dosis Presion sanguinea Presion sanguinea

n0 de pastillas al comienzo del estudio al final del estudio
1 M 45 2 100,2 100,1
2 M 41 1 98,5 100
3 F 51 2 100,8 101,1
4 F 46 2 101,1 100,9
5 F 47 3 100 99,8
6 M 42 2 99 100,2
7 M 43 4 100,7 100,7
8 F 50 2 100,3 100,9
9 M 39 1 100,6 101
10 M 32 1 99,9 98,5
11 M 41 2 101 101,4
12 M 44 2 100,9 100,8
13 F 47 2 97,4 96,2
14 F 49 3 98,8 99,6
15 M 45 3 100,9 100
16 F 42 1 101,1 100,1
17 M 41 2 100,7 100,3
18 F 40 1 97,8 98,1
19 M 45 2 100 100,4
20 M 37 3 101,5 100,8
Como otro ejemplo, el conjunto de datos que sigue dá la longitud en cm de 20

partes consecutivas de una lı́nea de ensamble:
9
CONJUNTO DE DATOS 2
Parte N 0 1 2 3 4 5
Long.(cm) 20,011 19,985 19,998 19,992 20,008
Parte N 0 6 7 8 9 10
Long.(cm) 20,001 19,994 20,004 20,008 20
Parte N 0 11 12 13 14 15
Long.(cm) 20,007 20,004 20,001 19,997 19,984
Parte N 0 16 17 18 19 20
Long.(cm) 19,975 19,969 19,984 20,004 20,002
¿Qué notamos acerca de estos conjuntos de datos?. Las caracterı́sticas sobre

sujetos o cosas son variables, mediciones repetidas sobre los mismos individuos son
variables.¡Los datos varı́an!.
Debido a esta variación, las conclusiones basadas en los datos son inciertas. La
Estadı́stica ayuda a producir datos útiles que pueden analizarse de modo que po-
damos extraer conclusiones con un pequeño grado de incertidumbre. Por ejemplo,
un médico que considera prescribir una nueva droga para un paciente deseará saber
qué reducción en la presión sanguı́nea debe esperar después de varias dosis. Un
monitoreo cuidadoso en el dosaje y la presión sanguı́nea de los sujetos bajo estu-
dio proveerá la reducción que se espera en la presión para distintos niveles de dosis
de droga. Razonamientos estadı́sticos nos permiten cuantificar cuán inciertas son
nuestras conclusiones.
Definición 1.4.1 Una observación es la información o caracterı́stica registrada

por unidad.
Una caracterı́stica que puede variar de unidad a unidad se llama variable.
Una colección de observaciones sobre una o más variables se llama conjunto
de datos.
El segundo conjunto de datos consiste en una sola variable, longitud, que se mide
en 20 unidades. El primer conjunto de datos consiste en cinco variables medidas en
cada uno de 20 sujetos. Dos de las variables de interés fueron la presión sanguı́nea
y el sexo.¿Cómo son estas dos variables?
1.4.1. Tipos de variables

Las variables pueden ser cualitativas o cuantitativas. Las primeras toman
valores que no son necesariamente numéricos, pero pueden ser categorizados. El
sexo tiene dos posibles valores: femenino o masculino. Estos dos valores pueden ser
arbitrariamente codificados numéricamente, por ejemplo, asignando 1 a femenino y
2 a masculino. pero sumar, restar o promediar tales valores no tiene ningún sentido.
Los números telefónicos también son cualitativos con valores que son numéricos, pero
no tiene sentido operar con ellos. La profesión de las personas también es cualitativa.
10
Las observaciones hechas sobre variables cualitativas se denominan, frecuente-
mente, datos categóricos.
Las variables cuantitativas toman valores numéricos y sumar, restar o prome-
diar tales valores tiene significado. Ejemplos de variables cuantitativas son: peso,
altura, número de hijos de una familia, edad.
Existen dos tipos de variables cuantitativas: discretas y continuas. Una varia-
ble cuantitativa es discreta si su conjunto de posibles valores es finito o contable.
Ası́, el número de alumnos de la carrera Profesorado en Matemática en los últimos
10 años es una variable cuantitativa discreta. El número de llamadas telefónicas
hechas en un locutorio en un perı́odo de tiempo determinado es discreta y tiene
como posibles valores al conjunto de enteros no negativos.
Una variable cuantitativa se dice continua si su conjunto de posibles valores es
un intervalo o colección de intervalos de números reales. Por ejemplo, el peso y talla
de las personas son variables cuantitativas continuas.
Algunas veces una variable puede tratarse como discreta o continua. Considere-
mos, por ejemplo, la proporción de mujeres en una población. Si la población consiste
de 10 personas, entonces las posibles proporciones son: 0, 0,1, · · · , 0,9, 1. Existe un
número finito de resultados posibles y por lo tanto es una variable cuantitativa
discreta. No obstante, si la población es muy grande, entonces cualquier valor real
entre 0 y 1 es posible, y para los propósitos prácticos, podemos tratar la proporción
de mujeres como una variable continua.
Una variable continua puede verse como discreta si se la redondea a la unidad más
próxima. La edad, es en realidad continua, no obstante, frecuentemente la medimos
discretamente en años.
En el segundo conjunto de datos, la variable, longitud, es continua. En el primer
conjunto el sexo es cualitativo, mientras que la edad y la presión sanguı́nea son
continuas, y el número de tabletas es discreta.
Definición 1.4.2 Las variables cualitativas son las que clasifican las unidades
en categorı́as por lo que también se llaman categóricas.
Las variables cuantitativas tienen valores numéricos que son mediciones (lon-
gitud, peso, etc) o cantidades. Operaciones aritméticas sobre tales valores numéricos
tienen sentido.
Un variable cuantitativa es discreta si toma valores en un conjunto numerable.
Una variable cuantitativa es continua si puede tomar cualquier valor dentro de un
intervalo o colección de intervalos de números reales.
1.4.2. Distribución de una variable

Consideremos el primer conjunto de datos y analicemos la variable número de
tabletas tomadas por los pacientes tratados.
Tenemos 20 mediciones de la variable. Lo primero que haremos es ordenarlas en
forma creciente y luego realizaremos el recuento de cada valor observado.
11
Tabla 1.4.1
V alor Recuento
1 |||||
2 ||||||||||
3 ||||
4 |
Podemos resumir la información para esta variable discreta en la siguiente tabla
que nos dá la distribución de la misma.
Tabla 1.4.2
Dosis F recuencia
1 5
2 10
3 4
4 1
De la anterior leemos, por ejemplo, que 10 de los pacientes tomaron 2 tabletas
de la droga, 1 paciente tomó 4 tabletas, etc.
Definición 1.4.3 Se denomina frecuencia absoluta de un valor a la cantidad de

veces que ocurre.
La distribución de una variable muestra los posibles valores que ella toma y la
frecuencia de cada uno de ellos. La distribución de una variable muestra el patrón
de variación de la variable.
Si una variable cuantitativa discreta toma los valores ordenados distintos x1 , x2 , · · · , xk ,

designamos con fi , i = 1, 2, · · · , k, a las respectivas frecuencias.
Llamaremos frecuencia relativa al valor
fi
f ri =, i = 1, 2, · · · , k
n
frecuencia acumulada hasta el valor xi a
X
Fi = fj
j:xj ≤xi
y frecuencia acumulada relativa al valor

Fi
F ri =
n
Consideremos ahora la variable continua edad del paciente y realicemos el re-

cuento.
12
Tabla 1.4.3
Edad Recuento
32 |
37 |
39 |
40 |
41 |||
42 ||
43 |
44 |
45 |||
46 |
47 ||
49 |
50 |
51 |
Se denomina mı́n xi al menor valor observado de la variable y máx xi al mayor.
El rango de la variable es
R = máx xi − mı́n xi
En nuestro ejemplo R = 51 − 32 = 19.
Podemos agrupar los valores, por ser continuos, en clases. Por ejemplo si tomamos
5 clases o intervalos, para saber qué amplitud tendrá cada clase, hacemos
R
A= ,
N
19
siendo N el número de intervalos. En nuestro caso A = 5
= 3,8 ' 4.
13
Reunimos los datos en la siguiente tabla
Tabla 1.4.4
Clase Frec. Frec. Relativa Marca de clase
[32, 36) 1 1/20 = 0,05 34
[36, 40) 2 2/20 = 0,10 38
[40, 44) 7 7/20 = 0,35 42
[44, 48) 7 7/20 = 0,35 46
[48, 52) 3 3/20 = 0,15 50
agregamos en la última columna la marca de cada clase, denotada por mi para

la i−ésima clase, que es el punto medio del intervalo respectivo. Ası́ la marca de
clase del primer intervalo es m1 = 32+36
2
= 34.
Podemos desplayar la distribución de la variable en un gráfico llamado histogra-
ma que consiste en rectángulos consecutivos cuya base es igual a la amplitud de cada
intervalo y la altura es proporcional a la frecuencia ( absoluta o relativa) del mismo.
Para que el gráfico no se distorsione, conviene que el eje de las frecuencias sea
aproximadamente 2/3 del eje de datos.
Cuando los datos están agrupados en intervalos, puede dibujarse otro gráfico,
llamado polı́gono de frecuencias, que se obtiene uniendo los puntos (mi , fi )(puede
trabajarse también con las frecuencias relativas). El polı́gono de frecuencia debe ser
cerrado, entonces se lo comienza en el punto (m0 , 0) y se lo termina en el punto
(mN +1 , 0), donde m0 representa el punto medio del intervalo anterior al primero y
mN +1 el punto medio del intervalo siguiente al último. El histograma y polı́gono de
frecuencias para la distribución de las edades de los pacientes es:
14
La ojiva o polı́gono de frecuencias acumuladas se construye uniendo los
puntos (Si , Fi ), siendo Si el lı́mite superior del i−ésimo intervalo (puede usarse
también la frecuencia F ri ). El gráfico comienza en el punto (S0 , 0) y termina en el
punto (SN , 1), siendo S0 el lı́mite superior del intervalo anterior al primero. La ojiva
para el ejemplo de edades de los pacientes, obtenida por Infostat se muestra en la
figura:
Existe una fórmula que brinda la cantidad aproximada de intervalos a tomar de

acuerdo a la cantidad de datos, llamada fórmula de Sturges
N = 1 + 3,3 log n
Una fórmula más adecuada, utilizada por el paquete estadı́stico InfoStat, es
N = log2 (n + 1).
1.4.3. Diagrama de tallo y hojas

Es un diagrama que sirve para desplayar la distribución de variables cuantitativas
para un conjunto de datos relativamente pequeño. Tiene el beneficio de mostrar los
valores reales de la variable.
Pasos básicos para construirlo

Separar cada medición en un tallo y una hoja. Generalmente la hoja consiste de
exactamente un dı́gito, el último, y el tallo de uno o más dı́gitos. Por ejemplo,
si el valor observado de una variable es 734, entonces el tallo es 73 y la hoja
es 4. Si es 2,345, el tallo es 2,34 y la hoja es 5.
15
Algunas veces la parte decimal se saca del tallo pero se aclara en una nota
cómo debe leerse el dato. Por ejemplo, para el dato 2,345 establecemos que
234|5 debe leerse 2,345.
También cuando los valores observados tienen muchos dı́gitos en su parte dec-
imal puede ser útil redondearlos (por ejemplo, redondeamos 2,345 a 2,35) o
truncarlos (truncamos 2,345 a 2,34).
Escribimos los tallos uno debajo del otro, a igual espacio, en forma creciente
y dibujamos una lı́nea a la derecha de los tallos.
Unimos cada hoja el tallo correspondiente.
Agregamos las hojas en forma creciente hacia la derecha.
Ejemplo 1.4.1 Consideremos las edades de los pacientes del conjunto de Datos 1.
El correspondiente diagrama es
3 2 7 9
4 0 1 1 1 2 2 3 4 5 5 5 6 7 7 9
5 0 1
Para este ejemplo, vemos que la mayorı́a de los sujetos están en los cuarenta.
Con sólo 3 tallos y una gran cantidad de hojas sobre uno de ellos, la variación y
forma de la distribución no queda bien representada. Una modificación útil al gráfico
básico es el de tallos divididos, que consiste en separar un mismo tallo con dı́gitos
de 0 a 9 en sus hojas, en dos tallos iguales, uno que contenga las hojas con dı́gitos
0 a 4 y el otro que contenga las hojas con dı́gitos 5 a 9.
Ası́, el diagrama de tallos divididos para el ejemplo es
3 2
3 7 9
4 0 1 1 1 2 2 3 4
4 5 5 5 6 7 7 9
5 0 1
5
Ahora podemos ver mejor que la distribución de las edades de los sujetos es aproxi-
madamente simétrica, centrada en un valor comprendido entre 43 − 44 y no tiene
outliers aparentes.
16
Se pueden usar diagramas de tallo y hojas back to back (de adelante y atrás)
para comparar dos distribuciones. Supongamos que deseamos comparar un segundo
proceso de producción con respecto al primero de las partes de una linea de ensamble,
cuyos datos se muestran en el conjunto de Datos 2. Se producen 20 partes por el
segundo proceso y se miden sus longitudes. Los resultados de ambos procesos se
muestran usando el diagrama de tallo y hojas back to back siguiente
1996 9
1997 5
9 1998 4 4 5
6 4 4 1999 2 4 7 8
9 8 7 7 5 3 1 1 1 0 0 0 0 2000 0 1 1 2 4 4 4 7 8 8
1 0 0 2001 1
Nota:
9 1998 representa 19,989cm y 1998 4 representa 19,984cm
Observamos del diagrama que el segundo proceso produce una distribución de
la variable más simétrica, menos variable (comparada con el primer proceso) y que
la observación 20,001 es el valor central que deja exactamente la mitad de las obser-
vaciones por debajo y la otra mitad por encima de él.
1.4.4. Gráfico de curva simple

Cuando los datos de una variable se obtienen sobre el tiempo, puede ser útil
graficarlos en función del tiempo o en el orden en que fueron obtenidos. Un gráfico
de curva simple es también llamado gráfico de series de tiempo. Los puntos
consecutivos obtenidos se unen entre sı́ por medio de segmentos rectilı́neos a fin de
ayudarnos a determinar si la distribución cambia a lo largo del tiempo.
En un gráfico de series de tiempo se pueden observar las siguientes caracterı́sticas
Tendencias: creciente o decreciente, cambios en la localización del centro,

cambios en la variación o dispersión.
Variación estacional o ciclos: movimientos crecientes o decrecientes a pe-

riodos regulares.
Trabajemos con los datos del conjunto de Datos 2. Las partes de la lı́nea de
ensamble han sido fabricadas para tener una longitud de 20cm. En el diagrama de
tallo y hojas de estos datos hemos visualizado que la distribución es algo sesgada a
izquierda y hay más variación por debajo de 20cm que por arriba.
Ejercicio 1.4.1 1) Grafique las observaciones en el orden en que ellas fueron
obtenidas y responder:
a) ¿qué nos dicen los datos?
17
b) ¿qué preguntas puede responder mirando el gráfico?
2) Los siguientes datos muestran el número de empleados que llegaron tarde a la

empresa en la que trabajan durante un perı́odo de tres semanas.
Tabla 1.4.5
L M Mi J V
0
1 semana 10 7 6 8 11
0
2 semana 14 5 10 8 7
30 semana 9 3 6 4 6
Examine los datos a través de un gráfico de series de tiempo y comente lo que

muestra el gráfico.¿Existe relación entre el dı́a de la semana y el número de
llegadas tarde? Explique.
1.4.5. Gráficos para las variables cualitativas

Gráfico circular
Es también llamado gráfico de pastel. Consiste en considerar un cı́rculo de
radio arbitrario que representa el total (es decir, todas las unidades).
El cı́rculo se divide en sectores, cada uno de los cuáles representa una categorı́a o
valor posible de la variable cualitativa. El área de cada sector es proporcional al
porcentaje de unidades que están en cada categorı́a.
Para hallar la amplitud del sector correspondiente a una categorı́a se miltiplica
la frecuencia relativa de dicha categorı́a por 3600 y representa el porcentaje de la
misma, es decir la frecuencia relativa por 100.
Este gráfico es útil cuando el número de categorı́as es chico y también para
comparar situaciones similares (es decir la misma caracterı́stica) en poblaciones dis-
tintas.
Para la variable sexo de los 20 pacientes del conjunto de Datos 1, se tiene
Tabla 1.4.6
sexo Frec. Frec. Rel. %
F 8 8/20 = 0,40 40
M 12 12/20 = 0,60 60
18
La amplitud del sector correspondiente a la categorı́a F es 0,40 × 3600 = 1440 y la
correspondiente a M es 0,60 × 3600 = 2160 .
Gráfico de barras
Este gráfico consiste en una serie de barras, una para cada categorı́a. La altura
de cada barra es la proporción, porcentaje o frecuencia de cada categorı́a. El ancho
no tiene significado alguno, pero debe ser igual para todas las categorı́as.
Nota 1.4.1 :Las barras pueden ser horizontales o verticales. Pueden usarse para
mostrar dos variables cualitativas a la vez. Las barras no deben ser tan altas para
que no se sobredimensionen las fluctuaciones de la variable, se aconseja que el eje de
las frecuencias sea aproximadamente 2/3 del eje sobre el que se apoyan las barras.
19
1.5. Resumiendo datos numéricamente
Hasta ahora hemos resumido y organizado los datos en tablas y gráficos que nos
permiten obtener información acerca de ellos. Ahora nos dedicaremos a enriquecer
nuestras representaciones gráficas presentando varios resúmenes numéricos de los
datos. El objetivo es mostrar la utilidad de unos pocos números, bien elegidos, para
proveer un resúmen de los datos que han sido coleccionados.
1.5.1. Midiendo el centro

Consideremos la variable edad en los 20 pacientes del conjunto de Datos 1 y su-
pongamos que queremos dar un único número que represente la edad “tı́pica”para
los 20 sujetos. ¿Qué número elegirı́a? Probablemente un número cercano al centro
de la distribución de la edad.
Las medidas de tendencia central son valores numéricos que tienden a representar en
algún sentido la “parte del medio”de un conjunto de datos. Existen pocas medidas de
tendencia central que podemos elegir. Entre ellas la media aritmética y la mediana
que sirven para medir el centro de datos numéricos. Si los datos son una muestra, la
media y mediana pueden llamarse estadı́sticos y si forman una población entera,
se los llama parámetros.
Media aritmética
La media de un conjunto de n observaciones es simplemente la suma de las
mismas, dividida por n.
Si x1 , x2 , · · · , xn son n observaciones, la media aritmética o simplemente media
de ellas, denotada por x, es
n
X xi
x=
i=1
n
Para el ejemplo de las edades se tiene que la edad “promedio” es
45 + 41 + 51 + · · · + 37
x= = 43,35 años
20
Es claro que si los datos están agrupados en una tabla de frecuencias como la
siguiente
Tabla 1.5.1
Valor de la variable Frecuencia
x1 f1
x2 f2
.. ..
. .
xk fk
20
entonces
k
X xj fj
x= ,
j=1
n
k
P
siendo fj = n
j=1
Ejemplo 1.5.1 Los siguientes datos son el número de niños en cada uno de 10
hogares de un barrio: 2, 3, 0, 2, 1, 0, 3, 0, 1, 4.
2+3+0+2+1+0+3+0+1+4
x=
10
0×3+1×2+2×2+3×2+4 16
= = = 1,6
10 10
Es decir, en promedio, hay 1,6 niños por hogar en los 10 hogares observados. Supon-
gamos ahora que la observación 4 fué registrada incorrectamente como 40. ¿Qué ocurre
52
con la media? En este caso x = 10 = 5,2. notemos que hay 9 de las 10 observaciones
menores que la media.
La media es sensible a la presencia de observaciones extremas.
Ejercicio 1.5.1 Los sueldos de cinco empleados de la sección de manteni-

miento y servicio técnico de un centro comercial son $12000, $80000,$25000,
$19000 y $110000. Explique porqué la media de estos sueldos no es un buen
representante de los salarios de estos empleados.
El puntaje medio de 3 estudiantes es 54 y el puntaje medio de otros 4 estudi-

antes es 76. ¿Cuál es el puntaje medio de los 7 estudiantes?
Mediana
Hemos visto que la media tiene la desventaja de ser afectada por valores ex-
tremos. Cuando la distribución es simétrica, la media es justamente el centro de la
distribución. Para distribuciones sesgadas es conveniente registrar una medida de
tendencia central más resistente a los valores extremos: la mediana.
Definición 1.5.1 La mediana de un conjunto de n observaciones, ordenadas en

forma creciente, es el valor que deja la mitad de las observaciones por debajo y la
otra mitad por arriba.
La mediana se denota por M e. Si el número de observaciones n es impar, la

mediana es justamente el valor central, una vez ordenados los datos. Por ejemplo,
para los datos 4, 7, 3, 9, 5 , ordenamos los datos:
3 4 5 7 9
21
la mediana es 5.
Cuando el número de observaciones es par, la mediana es el promedio entre los
dos valores centrales, una vez ordenados los datos.
En general, para localizar la M e, se calcula n+1
2
. Si éste es un número entero,
la mediana es el valor que ocupa ese lugar en la serie ordenada de datos. Si n+1 2
no es entero, la mediana es el promedio de los dos valores que ocupan los lugares
inmediatos anterior y siguiente a n+1
2
.
Ejemplo 1.5.2 La mediana de las edades de los 20 pacientes calculamos n+1 2

=
20+1
2
= 10,5, entonces M e es el promedio entre las observaciones que ocupan los
lugares 10 y 11, una vez ordenados los datos:
32, 37, 39, 40, 41, 41, 41, 42, 42, 43, 44, 45, 45, 45, 46, 47, 47, 49, 50, 51
43+44
entonces M e = 2
= 43,5.
Ejercicio 1.5.2 Encuentre la M e para el número de niños en un hogar, para esta

muestra de 10 hogares de un barrio:
2, 3, 0, 1, 4, 0, 3, 0, 1, 2
a) ¿Qué ocurre con la mediana si la quinta observación hubiese sido registrada

erróneamente como 40 en lugar de 4?
b) ¿Qué ocurre con la mediana si la tercer observación fuese incorrectamente

registrada como 20 en lugar de 0?
Nota 1.5.1 :la mediana es resistente o robusta a la presencia de valores extremos.
Modo
Definición 1.5.2 El modo de un conjunto de observaciones es el que ocurre con
mayor frecuencia entre todas las observaciones. Se lo denota M o.
Si la distribución de datos no tiene un valor más frecuente que otro (todos tienen
igual frecuencia) decimos que no existe el modo. Existen casos donde hay más de
un modo. Por ejemplo, el modo en la serie de datos 0, 0, 0, 1, 1, 2, 2, 2, 4, 5 son 0 y 2
pues los dos valores son igualmente frecuentes y su frecuencia es la mayor. Se dice
que la distribución es bimodal en este caso.
Generalmente no se usa como una medida del centro de una serie de datos cuantita-
tivos, pues el valor más frecuente puede estar alejado del centro de la distribución.
El modo puede hallarse para variables cualitativas. Ası́, en el ejemplo del sexo para
los 20 pacientes del conjunto de Datos 1, si asignamos M = 1 y F = 2, el modo es
1 pues el sexo masculino es el más frecuente para esos datos.
¿Qué medida central usar?
22
Para distribuciones simétricas unimodales media, mediana y modo coinciden.
Para distribuciones simétricas bimodales media y mediana coinciden.
Para distribuciones unimodales sesgadas se tiene la siguiente relación entre me-
dia, mediana y modo:
En el caso de este último tipo de distribuciones se prefiere a la mediana como me-

dida de tendencia central por no estar afectada por la presencia de valores extremos.
Pensarlo
Supongamos que ha calculado la media, mediana y modo de una lista de números.
¿Cuáles de esos tres valores siempre aparecerá en la lista?
1.5.2. Midiendo la variación o dispersión

Las medidas de tendencia central son útiles pero dan ,con frecuencia, una inter-
pretación incompleta de los datos. Consideremos las siguientes listas de datos:
Lista 1 : 55, 56, 57, 58, 59, 60, 60, 60, 61, 62, 63, 64, 65.
23
Lista 2 : 35, 40, 45, 50, 55, 60, 60, 60, 65, 70, 75, 80, 85.
Los gráficos de frecuencia respectivos son
Para ambas listas se tiene que x = M e = M o = 60 , sin embargo observamos

que los valores de la primer lista están mucho más concentrados alrededor del valor
central 60, mientras que para la segunda lista hay mucha mayor dispersión.
Entonces es necesario medir la variación de los datos. Entre las medidas de variación
encontramos el rango, rango intercuartil, varianza y desviación estándar. Estos val-
ores describen la dispersión entre los datos, con valores mayores indicando más
variación. Si los datos son una muestra, esas medidas se llaman estadı́sticos y si
corresponden a la población total se los llama parámetros.
Rango
Es la medida más simple de variabilidad. Se define como la diferencia entre el
mayor y el menor valor observado. Para el conjunto de 20 edades de Datos 1, el
rango es 51 − 32 = 19 años. Puesto que sólo tiene en cuenta los dos valores más
extremos, puede dar una idea distorsionada de la real variación en los datos. Por
ejemplo, los siguientes conjuntos tienen el mismo rango, pero para el primero de
ellos la mayorı́a de los valores están lejos de su centro, mientras que para el segundo,
la mayorı́a están concentrados alrededor de su centro.
Rango Intercuartil
Los cuartiles son los valores que dividen al total de datos en cuatro partes
iguales. Por lo tanto hay tres cuartiles, denotados por Q1 , Q2 = M e y Q3 .
Q1 es el valor que deja por debajo el 25 % de los datos y por arriba el 75 % restante.
24
Q2 es la mediana y Q3 deja por debajo el 75 % de los datos y por arriba el 25 %
restante.
Para hallar los cuartiles se procede como sigue:
1) se encuentra la mediana.
2) se halla Q1 como la mediana de las observaciones por debajo de la mediana.
3) se determina Q3 como la mediana de las observaciones por arriba de la M e.
Nota 1.5.2 Cuando el número de observaciones es impar, la M e es el valor
del medio y no se cuenta para hallar Q1 ni Q3 .
Si una distribución es sesgada a izquierda Q1 estará más lejos de la mediana
que Q3 . Si es simétrica Q1 y Q3 están a igual distancia de la M e.
Ejemplo 1.5.3 Para la edad de los 20 sujetos del conjunto de Datos 1 encontramos
que M e = 43,5 años. Los datos ordenados son
32, 37, 39, 40, 41, 41, 41, 42, 42, 43, 44, 45, 45, 45, 46, 47, 47, 49, 50, 51
41+41 46+47
Vemos que Q1 = 2
= 41 y Q3 = 2
= 46,5.
Una medida de dispersión que sigue la idea del rango pero que no está influen-
ciada por valores extremos es el rango intercuartil, que mide la dispersión del 50 %
central de los datos. Se define por
RIC = Q3 − Q1 .
Los cuartiles son un caso particular de percentiles, cuya definición es la que sigue.
25
Definición 1.5.3 El p−ésimo percentil es el valor que deja el p % de las observa-
ciones por debajo y el (100 − p) % por arriba de él.
Datos atı́picos
Es muy frecuente que los datos presenten observaciones que contienen errores de
medida o de transcripción o que son heterogéneas con el resto porque se han obtenido
en circunstancias distintas. Llamaremos datos atı́picos (outliers, en inglés)a estas ob-
servaciones generadas de forma distinta al resto de los datos. Los análisis efectuados
sobre datos recogidos en condiciones de estrecho control revelan que es frecuente que
aparezcan entre un 1 % y un 3 % de observaciones atı́picas en la muestra. Cuando
los datos se han recogido sin un cuidado especial, la proporción de datos atı́picos
puede llegar al 5 % y ser incluso mayor.
Los datos atı́picos se identifican fácilmente con un histograma o diagrama de
lı́neas (en caso que la variable sea discreta) de los datos, porque aparecerán sepa-
rados del resto de la distribución. Sin embargo es conveniente tener reglas simples
para detectarlos. Un criterio para detectar outliers es partir de los tres cuartiles
y considerar extremos aquellos valores que se alejan una cantidad definida por la
izquierda del primer cuartil, o por la derecha del tercercuartil. Como medida de
dispersión en lugar de la Meda se utiliza el rango intercuartı́lico y se consideran
atı́picas aquellas observaciones que son menores que Q1 − 1,5 × RIC o que son may-
ores que Q3 + 1,5 × RIC. Los datos identificados como atı́picos o sospechosos deben
comprobarse para ver si es posible encontrar la causa de la heterogeneidad
Gráfico de caja y bigotes

Podemos resumir los cinco números: mı́n, máx, Q1 , Q3 y la M e en un gráfico
llamado de caja y bigotes o boxplot. Este gráfico nos muestra una medida de
tendencia central, la M e y una medida de dispersión a través del rango intercuartil
y el rango total. La distancia de Q1 y Q3 a la M e puede proveer una idea del sesgo
de la distribución.
El boxplot básico se construye como sigue:
los extremos de la caja son Q1 y Q3
se dibuja una lı́nea dentro de la caja en la M e
a partir de los cuartiles Q1 y Q3 se extienden lı́neas, llamadas bigotes, hasta

el mı́n y el máx.
Algunas modificaciones que se incorporan al boxplot básico permiten visualizar

posibles datos atı́picos.
Las reglas para construir un boxplot modificado para identificar posibles outliers
son:
se calcula la cantidad 1,5 × RIC, llamada “salto”,
26
se obtienen los valores Q1 − 1,5 × RIC y Q3 + 1,5 × RIC, llamadas cercas
internas,
las observaciones que están fuera de estas “cercas internas”se consideran out-
liers potenciales.
El boxplot se modifica dibujando los posibles outliers y extendiendo los bigotes

hasta las observaciones más alejadas que no son outliers.
Ejemplo 1.5.4 El box plot para la variable Edad de los pacientes del Conjunto de
datos 1, obtenido en Infostat se muestra en la figura:
En este gráfico observamos que la distancia entre Q1 y la M e y entre Q3 y la

M e es aproximadamente la misma, podemos decir que la distribución es aproximada-
mente simétrica (lo que ya vimos al construir el histograma).
Vemos que existe un posible outlier 32, pues éste es el único valor fuera de las
cercas internas.
Nota 1.5.3 :Si la distribución es simétrica, el boxplot es simétrico, la recı́proca no

es cierta.
27
Varianza y desvı́o estándar
Cuando se usa la media para medir el centro de los datos, la medida de dispersión
más usada es la desviación estándar. Esta medida tiene en cuenta la información
contenida en todas las observaciones y mide la dispersión de éstas respecto de su
media.
Para hallarla, encontramos primero la varianza que es un promedio de los desvı́os
cuadrados de las observaciones respecto de su media.
Supongamos, por ejemplo, que queremos hallar la varianza entre las observa-
ciones x1 = 0 , x2 = 5 y x3 = 7, en este caso x = 0+5+7
3
= 4.
Los desvı́os de cada observación xi respecto de x son
di = xi − x
.
En este caso d1 = x1 − x = −4, d2 = x2 − x = 1 y d3 = x3 − x = 3.
Si sumamos todos los desvı́os obtenemos d1 + d2 + d3 = −4 + 1 + 3 = 0 y en

n
P
general, di = 0 para cualquier conjunto de n observaciones x1 , x2 , · · · , xn . Luego
i=1
no podemos usar la suma de los desvı́os como medida de dispersión, entonces usamos
los desvı́os al cuadrado
d2i : 16, 1, 9
n
d2i = 16 + 1 + 9 = 26.
P
Ası́
i=1
28
La varianza se define como el promedio de los desvı́os cuadrados, esto es
n
d2i
P
i=1 26
= = 8,6
3 3
El desvı́o estándar se define como la raı́z aritmética de la varianza y representa el
desvı́o promedio de las observaciones de su media. En este ejemplo el desvı́o estándar
es aproximadamente 2.
Nota 1.5.4 Cuando las observaciones representan una muestra propiamente dicha,
n
d2i
P
i=1
se define la varianza muestral como n−1
.Las razones se verán en la unidad de
muestreo.
El desvı́o estándar se interpreta como una distancia de las observaciones a su

media. Si todas las observaciones coinciden, la varianza es 0. En otro caso, el desvı́o
estándar es positivo y a mayor dispersión de las observaciones con respecto a su
media, mayor es su valor.
Definición 1.5.4 Si x1 , x2 , · · · , xn denotan una población de n observaciones, se

define la varianza como
n
2
X (xi − x)2
σ =
i=1
n
y el desvı́o estándar como
v
u n
√ uX (xi − x)2
σ= 2
σ =t
i=1
n
.
Si x1 , x2 , · · · , xn denotan una muestra de n ebservaciones, la varianza muestral
se define por
n
2
X (xi − x)2
S =
i=1
n−1
y el desvı́o estándar como
v
u n
√ uX (xi − x)2
S= S2 = t .
i=1
n−1
Nota 1.5.5 : La varianza, al igual que la media, no es resistente a la presencia de

valores extremos.
29
Ejercicio 1.5.3 1) Consideremos los siguientes conjuntos de datos:
I : 20, 20, 20 II : 18, 20, 22 y III : 17, 20, 23
(a) Sin calcular, responde ¿qué conjunto de datos tiene menor varianza?.
(b) Sin calcular, ¿qué conjunto de datos tiene mayor varianza?.
(c) Halle los desvı́os estándar para cada conjunto y verificar (a) y (b).
2) Halle el desvı́o estándar para las edades del conjunto de Datos 1 y complete: En
promedio, las edades de los 20 sujetos están alrededor de · · · · · · años respecto
de su media de · · · · · · años.
Nota 1.5.6 :
El rango intercuartil es más conveniente que el desvı́o estándar como medida de
dispersión cuando la mediana se usa como medida de tendencia central de los datos,
es decir cuando las distribuciones son sesgadas o presentan outliers. En este caso
también puede usarse la desviación mediana, definida por
k
P
|xi − M e|fi
i=1
d.M e = ,
n
para un conjunto de datos x1 , · · · , xk con frecuencias f1 , · · · , fk , rspectivamente.
El desvı́o estándar y la media son más útiles para distribuciones aproximada-
mente simétricas sin outliers.
Otra medida de dispersión que asociamos a la mediana y tiene ventajas por no verse
afectada por datos extremos es la mediana de las dispersiones absolutas de cada
dato respecto a la M e:
M EDA = mediana|xi − M e|.
Otra medida de variación que es útil para comparar distribuciones con unidades
diferentes y es independiente de las escalas es el coeficiente de variación.
Definición 1.5.5 El coeficiente de variación se define como el cociente entre el

desvı́o estándar y la media
σ
C.V =
x
El coeficiente de variación de datos positivos de una población homogeńea es tı́pica-
mente menor que la unidad. Si este coeficiente es mayor que 1,5 conviene investigar
posibles fuentes de heterogeneidad en los datos.
Coeficiente de asimetrı́a y de curtosis
En un conjunto de datos simétricos respecto a su media x se cumple que
30
(xi − x)3 = 0, mientras que con datos asimétricos esta suma crecerá con
P
i
la asimetrı́a. Para obtener una medida adimensional, se define el coeficiente de
aasimetrı́a mediante: n
(xi − x)3
P
i=1
CA = .
nσ 3
donde σ se reemplaza por S en caso de trabajar con una muestra.
El signo del coeficiente de asimetrı́a indica la forma de la distribución. Si este
coeficiente es negativo, la distribución se alarga para valores inferiores a la media es
decir la distribución es asimetrı́ca negativa. Si el coeficiente es positivo, la cola de la
distribución se extiende para valores superiores a la media, es decir la distribución
es asimetrı́ca positiva.
El coeficiente de curtosis o apuntamiento es importante porque nos informa
respecto a la heterogeneidad de la distribución. Se define como:
n
(xi − x)4
P
i=1
CAap = .
nσ 4
La figura presenta cuatro distribuciones de datos reales que presentan distintos casos
de curtosis.
Las cuatro corresponden a los tiempos de servicio requeridos por distintos clientes
en distintos servicios. En el primer caso el apuntamiento de la distribución es 1,25,
y este bajo valor es indicativo de una distribución muy heterogénea. La distribución
que observamos es una mezcla de los tiempos de servicio de dos tipos de clientes que
se observa están aproximadamente repartidos al 50 %. En el segundo caso tenemos
31
Intervalo fi mi
I1 f1 m1
I2 f2 m2 (I)
.. .. ..
. . .
Ik fk mk
varios tipos de clientes, pero sus tiempos de servicio son más próximos, dando lu-
gar a una distribución menos heterogénea con curtosis 2,3. La tercera distribución
representa el tiempo de servicio cuando los clientes son homogéneos y la curtosis es
igual a 3. En la cuarta los clientes son homogéneos, pero existen de vez en cuando
valores extremos que requieren un valor o muy alto o muy bajo. Estos clientes son
atı́picos, y dan lugar a un coeficiente de curtosis muy alto, de 9,4. El coeficiente
de curtosis nos informa de la posible heterogeneidad en los datos. Si es muy bajo
(menor de 2), indica una distribución mezclada; si es muy alto (mayor de 6), indica
la presencia de valores extremos atı́picos.
1.5.3. Medidas de tendencia central y dispersión para datos

agrupados en intervalos
Cuando tenemos datos agrupados en intervalos como lo muestra la tabla I
siendo fi la frecuencia y mi la marca de clase del i−ésimo intervalo, respectivamente,

las fórmulas para calcular los parámetros de posición y dispersión son:
k k
X mi fi X
x= k
o x= mi f r i ,
P
i=1 fi i=1
i=1
k
P
pues fi = n y f ri = fi /n.
i=1
k k
2
X (mi − x)2 fi 2
X
σ = k
o σ = (mi − x)2 f ri
P
i=1 fi i=1
i=1
El modo M o se calcula como el punto medio del intervalo modal (intervalo de

mayor frecuencia) o por interpolación como
fi − fi−1
M o = Li + A
(fi − fi−1 ) + (fi − fi+1 )
donde Li es el lı́mite inferior del intervalo modal, fi+1 la frecuencia del intervalo
posterior , fi−1 la del intervalo anterior y A la amplitud del intervalo modal.
32
La mediana, cuartiles y, en general, percentiles se hallan por interpolación. Ası́ se
tiene que
( n2 − Fi−1 )A
M e = Li +
fi
donde
Li es el lı́mite inferior del intervalo mediana (que contiene por lo menos el 50 %
de los datos),
Fi−1 es la frecuencia acumulada del intervalo anterior al intervalo mediana,
A es la amplitud de dicho intervalo,
fi la frecuencia absoluta del intervalo mediana y n el número de datos.
( jn − Fi−1 )A
Q j = Li + 4 , j = 1, 2, 3.
Fi − Fi−1
permite calcular los cuartiles de la distribución.
Un tipo de percentiles usados en Psicologı́a y Educación son los deciles Dj ; j =
1, 2, · · · , 9 que dividen el conjunto de datos en 10 partes iguales y los centiles que
la dividen en 100 partes iguales y se denotan Cj ; j = 1, 2, · · · , 99. Se calculan para
datos agrupados en clases por las fórmulas
( jn − Fi−1 )A
Dj = Li + 10 , j = 1, 2, · · · , 9.
Fi − Fi−1
jn
( 100 − Fi−1 )A
Cj = Li + , j = 1, 2, · · · , 99.
Fi − Fi−1
donde los valores que aparecen en estas expresiones se definen en forma similar al
caso de los cuartiles.
1.6. Cuestionario
1) ¿Qué entiende por Estadı́stica?
2) a- ¿Cuál es el objetivo de la Estadı́stica Descriptiva?

b- ¿Cuál es el objetivo de la Estadı́stica Inferencial?
3) Proporcione el concepto de variable estadı́stica y su clasificación.
4) ¿Qué tipo de variable es?
a- El número de personas que llega a un banco entre las 11:00hs y las 12:00hs.
b- Cantidad de precipitación caı́da en mm durante un mes determinado.
c- Se arroja un par de dados y se registra si los resultados sobre los dos
dados coinciden o no.
33
d- Los números sobre las camisetas de jugar de un equipo de fútbol.
e- Se elige aleatoriamente una mujer de una ciudad y se registra si tiene o
no cáncer.
f- El peso de varios telegramas.
g- La marca de autos que se venden en una concesionaria.
h- El número total de canciones de una lista.
i- El tiempo total de duración de una lista.
4) a- Proporcione un ejemplo donde la muestra sea un subconjunto propio de

la población.
b- Proporcione un ejemplo, donde muestra y población coincidan.
5) a- ¿Qué gráficos utilizarı́a si la variable a analizar es cualitativa?

b- ¿Qué gráfico es el adecuado para “visualizar” cuartiles, deciles y per-
centiles?
c- ¿Qué gráfico es adecuado para mostrar datos que han sido observados a
lo largo del tiempo?,¿qué comportamientos se pueden visualizar en este
tipo de gráficos?
6) Indique los parámetros de tendencia central que conoce y su interpretación.

¿Qué relación existe entre media, mediana y modo para distribuciones asimétri-
cas unimodales?
7) Mencione las medidas de variabilidad que conoce, indicándo su interpretación

y utilidad.
8) ¿Qué gráfico permite visualizar una medida de tendencia central y dos medidas
de variabilidad?,¿cómo se construye?
9) ¿Qué medida de dispersión utilizarı́a si la medida de tendencia central repre-

sentativa de los datos es la media?,¿Cuál, si es la mediana?
10) ¿En qué casos utilizarı́a el coeficiente de variación para medir la dispersión de
los datos?
34
Capı́tulo 2
Teorı́a de Probabilidad
2.1. Introducción
Cuando muestreamos de una población a fin de extraer conclusiones o inferen-
cias acerca de la misma, nuestras conclusiones contienen un grado de incertidumbre.
Podemos medir esta incertidumbre con la probabilidad. Los enunciados proba-
bilı́sticos son parte de nuestra vida diaria. Ası́, escuchamos enunciados como los
siguientes:
es muy probable que llueva este fin de semana.
no existe chance de aprobar la evaluación mañana.
el juez de lı́nea arroja una moneda “ honrada”a fin de determinar qué equipo
comienza el juego, de modo que cada uno tenga una chance del 50 % de comen-
zar el juego.
¿Qué es probabilidad?
Sabemos que una moneda tiene de un lado cara y del otro cruz. Suponemos que
esta moneda es “buena”, es decir cada lado tiene igual “chance”de ocurrir cada vez
que la arrojamos. ¿Porqué decimos que la probabilidad de obtener cara es 1/2?,
¿qué significa?
Si arrojamos esta moneda una gran cantidad de veces podemos esperar obtener cara
aproximadamente la mitad de las veces. Este uso de la palabra “probabilidad”se
basa en una interpretación de frecuencia relativa, que se aplica a situaciones donde
se puede repetir la experiencia, en este caso el lanzamiento de la moneda, bajo
condiciones son estables.
La probabilidad se define como la proporción de veces que el evento puede ocurrir
si el proceso fuera repetido varias veces, bajo las mismas condiciones.
35
Definición 2.1.1 (probabilidad frecuencial o a posteriori)
La probabilidad de que ocurra un resultado es la proporción de veces que este
ocurre a largo plazo, es decir, es el valor al que se aproxima la frecuencia relativa
de dicho resultado, cuando el experimento se repite un gran número de veces, bajo
condiciones estables.
En esta definición la expresión “a largo plazo” o “a la larga” es fundamental. Que

la probabilidad de cara sea 1/2 no significa que en dos lanzamientos de la moneda,
uno resultará cara y el otro cruz, no obstante, si arrojamos la moneda 1000 veces,
bajo las mismas condiciones, aproximadamente el 50 % de las veces el resultado
será cara y el otro 50 % cruz. Mientras mayor sea el número de lanzamientos, mayor
será la aproximación.
Tengamos en cuenta que esta forma de definir probabilidad se aplica cuando es posi-
ble repetir la experiencia varias veces, bajo condiciones estables. Existen situaciones
donde esto no es posible. Ası́, por ejemplo, se jugará la final de un torneo de fútbol
entre Boca y River, ¿cuál es la probabilidad que Boca se imponga en el partido?, o,
¿qué probabilidad existe que llueva el sábado por la noche, durante una fiesta que
es al aire libre?
En tales situaciones debemos hacer uso de nuestras experiencias pasadas y de acuer-
do a esto asignar probabilidades. Tales probabilidades se llaman personales o sub-
jetivas y representan el grado de confianza que una persona tiene de que ocurra tal
resultado. Diferentes personas pueden dar diferentes probabilidades subjetivas, que
pueden considerarse como correctas.
Las probabilidades nos ayudan a tomar decisiones. El viernes a la noche el
pronóstico del tiempo afirma que existe un 80 % de probabilidad que llueva el sába-
do. Esta información puede servir para decidir realizar la fiesta adentro y no en el
jardı́n. Aún ası́, puede que no llueva en esa ocasión. Las probabilidades no pueden
determinar que un resultado ocurrirá para cualquier caso individual.
En el ejemplo de arrojar una moneda, existen dos métodos para determinar la proba-
bilidad de obtener cara. Podemos suponer que la moneda es “honrada asignar ası́ la
2
probabilidad 1/2 de obtener cara, o bien, observar la frecuencia relativa favorable

al resultado cara al realizar repetidos lanzamientos y usar dicha proporción como
estimación de tal probabilidad. Este proceso de estimar probabilidades se puede
realizar por simulación.
Una de las componentes básicas en el estudio de la probabilidad es un experi-
mento o fenómeno aleatorio, cuya definición es la siguiente.
Definición 2.1.2 Un experimento aleatorio es aquel cuyos posibles resultados

se conocen, pero el resultado exacto, en cada repetición individual del proceso, no
puede predecirse con certeza, es decir, no es uno determinado (como en el caso de
los procesos determinı́sticos). No obstante existe una regla o patrón predecible a largo
plazo de los resultados, tal que la frecuencia relativa para un resultado dado tiende
a un valor constante.
36
Arrojamos 10 veces una moneda y los resultados son CSSCCCCSSC. Esta
secuencia tiene 4 caras consecutivas, es decir una “racha”de caras. ¿Puede una racha
de 4 caras o cruces considerarse inusual si la moneda es realmente “buena¿. ¿Cuál
es la probabilidad de obtener una racha de cuatro caras o cruces en 10 lanzamientos
de una moneda honrada?.
Podemos estimar esta probabilidad a través de simulación. Simular significa imi-
tar, generar condiciones que se aproximen a las condiciones reales. Para simular un
proceso aleatorio podemos usar varias herramientas: una calculadora, un programa
de computación, o una tabla de números aleatorios.
Para simular necesitamos establecer o identificar primero las condiciones del
fenómeno aleatorio subyacente (es decir proveer un modelo que brinde los posibles
resultados individuales y les asigne probabilidades.) Para el lanzamiento de una
moneda justa se puede usar una computadora o calculadora para generar una suce-
sión aleatoria de enteros 1 y 2 y definir, por ejemplo, que 1 representa cara y el 2
cruz. También puede usarse una tabla de números aleatorios con dı́gitos 0 al 9 y
asignar, por ejemplo, que los cinco dı́gitos pares corresponden a cara y los impares
a ceca.
Para calcular la probabilidad de una racha de 4 caras en 10 lanzamientos necesitamos
simular 10 lanzamientos de una moneda justa para representar una repetición del
proceso aleatorio. Finalmente, simulamos muchas repeticiones y determinamos el
número de veces que ocurrió el resultado de interés. La correspondiente frecuencia
relativa se usará para estimar la probabilidad del evento.
Definición 2.1.3 Una simulación es la imitación de un comportamiento aleatorio
usando herramientas aleatorias tales como generadores de números al azar o tablas
de números aleatorios.
Las etapas básicas para hallar una probabilidad por simulación son:
1) especificar un modelo para los resultados individuales del fenómeno aleatorio
subyacente.
2) bosquejar o delinear cómo simular un resultado individual y cómo representar
una única repetición del proceso aleatorio.
3) simular muchas repeticiones y estimar la probabilidad de un evento con su
frecuencia relativa.
Ejemplo 2.1.1 :Un plan familiar
Apliquemos estas etapas para estimar la probabilidad que un matrimonio tenga
un varón entre sus hijos.
Un matrimonio planifica tener chicos. Desean tener un varón a fin de continuar el
apellido. Después de alguna discusión deciden tener hijos hasta tener un varón o ten-
er tres niños, lo que ocurra primero. Bajo este plan familiar,¿cuál es la probabilidad
que ellos tengan un varón entre sus hijos?.
Simularemos esta situación a fin de estimar la probabilidad buscada.
37
Paso 1 :Especificamos un modelo para los resultados individuales
El fenómeno aleatorio individual es “tener un hijo la respuesta de interés es
2
su “sexo”. Comenzamos estableciendo algunas suposiciones básicas acerca de

los posibles resultados “niña” o “niño”. Vemos razonable suponer:
• cada hijo tiene 1/2 de probabilidad de ser varón y 1/2 de ser mujer.
• el sexo de sucesivos hijos es independiente (conocer el sexo de un hijo no
influye en el sexo de cualquiera de los siguientes).
Paso 2 Simular resultados individuales y una repetición.

Necesitamos simular el sexo de un único hijo. Podemos usar una tabla de
números al azar que tiene 10 dı́gitos del 0 al 9. Debido a nuestro modelo es-
tablecido por las suposiciones del Paso 1, necesitamos que 5 dı́gitos representen
un sexo y los cinco restantes el otro.
Por ejemplo: 0, 2, 4, 6, 8 →“el hijo es varón 1, 3, 5, 7, 9 → “el hijo es mujer”.
2
De modo que un único dı́gito aleatorio, representa el sexo de un único hijo.

Para simular una repetición del plan familiar usaremos sucesivos dı́gitos aleato-
rios hasta obtener un varón o tres hijos. Comenzando con la fila 14, columna 1
de la Tabla de números al azar que figura al final del texto, leyendo de izquierda
a derecha, se registran los dı́gitos de la Tabla con V o M , según correspon-
da, para representar varón o mujer y separamos con una lı́nea las sucesivas
repeticiones.
1 0 3 6 5 6 1 1 2
M V M V M V M M V
Paso 3 :Simulamos muchas repeticiones y estimamos la probabilidad.
Trabajando en grupos simulamos muchas repeticiones del plan familiar y usa-
mos la frecuencia relativa del evento “el matrimonio tiene un varón entre sus
hijos”para estimar su probabilidad.
Cada grupo simula 10 repeticiones y reunimos la información de todos los
grupos en una tabla como la siguiente:
Tabla 2.1.1
Grupo N 0 de repeticiones N 0 de veces que nacio un varon
1
2
.. .
.
9
10
Total N= ]V
38
Luego una estimación de la probabilidad es:
]V
N
(será próxima a 0,875)
Ejercicio 2.1.1 1) Elija una herramienta aleatoria, tal como un generador de

números aleatorios o una tabla de números al azar, y establezca cómo asignar
valores para simular los siguientes resultados individuales:
(a) ¿cómo puede simular un resultado cuya probabilidad de ocurrir es 0,4?

Complete, de acuerdo a la herramienta elegida:
· · · · · · =el resultado ocurre.
· · · · · · = el resultado no ocurre.
(b) ¿cómo puede simular un proceso aleatorio que tiene cuatro posibles re-
sultados, representados por A, B, C y D, con respectivas probabilidades
0,1, 0,2, 0,3 y 0,4 de ocurrir?.
· · · · · · = el resultado A ocurre.
· · · · · · = el resultado B ocurre.
· · · · · · = el resultado C ocurre.
· · · · · · = el resultado D ocurre.
(c) ¿cómo puede simular un resultado que tiene una probabilidad 0,45 de
ocurrir?
· · · · · · = el resultado ocurre.
· · · · · · = el resultado no ocurre.
2) Suponga que un matrimonio planea tener chicos hasta tener un varón o 4

chicos, lo que ocurra primero.¿Piensa que la probabilidad de tener un varón
bajo esta estrategia es mayor, menor o igual que 0,875?. Elabore una simu-
lación y estime la probabilidad.
Ejemplo 2.1.2 :Las tres puertas

En un programa televisivo de entretenimientos hay un juego que consiste en lo
siguiente: hay tres puertas, detrás de dos de ellas un pollo frito y detrás de la restante
un auto 0km. Cada participante elije una puerta y se lleva el premio que está detrás
de ella.
Después que el participante selecciona la puerta, el conductor del programa abre una
de las otras dos y muestra un pollo frito detrás de ella (notar que siempre es posible
hacer esto por lo que dos de las tres puertas tienen este premio). El conductor le
dá entonces dos opciones al participante:
39
1- quedarse con la puerta que eligió originalmente y recibir el premio correspon-
diente.
2- cambiar de puerta, eligiendo la otra que está cerrada y recibir el premio que
está detrás de esta última.
¿Cuál es la probabilidad de ganar el auto si el participanmte decide no cambiar?,

¿cuál es la probabilidad de ganar el auto si decide cambiar?.
Si la respuesta no es clara podemos simular el juego, a fin de estimar ambas
probabilidades.
Una forma de simular el juego es la siguiente: se trabaja en pareja, donde uno de sus
miembros juega como conductor y el otro como participante. El conductor presenta
las tres puertas representadas por tres naipes. Una de ellas representará la del auto
y las otras dos las de los pollos.(El conductor conocerá cual representa el auto).
Se comienza el juego, registrándose en una tabla la estrategia elegida por el par-
ticipante: cambia o no cambia, y el resultado de cada juego: gana el auto o gana un
pollo frito.
Una vez que se han llevado a cabo varias representaciones, usamos la frecuencia
relativa para estimar las correspondientes probabilidades.
Comenzamos con la estrategia de no cambiar la puerta original, simulamos 20
resultados del juego y los registramos en la siguiente tabla.
Estrategia: No cambia
Gana el auto Gana un pollo frito
Luego simulamos 20 resultados, siguiendo la estrategia de cambiar y los regis-

tramos en la tabla
Estrategia:Cambia
Gana el auto Gana un pollo frito
40
Resumimos los resultados
De las 20 repeticiones para las cuales no cambia la puerta original, ¿qué propor-
ción de veces ganó el auto?
n0 de veces que gano el auto
20
Luego estimamos que la probabilidad de ganar el auto bajo la estrategia de no
cambiar es· · · · · · .
De las 20 repeticiones para las cuales cambió la puerta original, ¿qué proporción de
veces ganó el auto?
n0 de veces que gano el auto
20
.
Luego estimamos que la probabilidad de ganar el auto bajo la estrategia de cam-
biar la puerta original es · · · · · · .
¿Qué estrategia tiene mayor chance de ganar el auto?.
Combinamos los resultados de la clase para lograr mejores estimaciones de ambas
probabilidades.
Veamos la solución
La mayorı́a de la gente puede entender que puesto que se selecciona una de

tres puertas, si no cambia, la probabilidad de ganar el auto es 1/3.¿Qué ocurre si
cambia?. Suponiendo que el conductor siempre abrirá una puerta que no tiene el
auto detrás, y ésta es una suposición esencial, el participante tiene 2/3 de chance
de ganar el auto cambiando. Existen tres órdenes igualmente posibles de los premios
detrás de las puertas, mostradas en A, B o C.
Puerta original elegida

1 2 3
Situación real orden A auto pollo pollo
orden B pollo auto pollo
orden C pollo pollo auto
Supongamos que el participante elige la puerta 1. Si el auto está detrás de la

puerta 1, como en el orden A, el conductor le mostrará (abrirá) la puerta 2 o la
3, y si el participante cambia, ganará un pollo frito. Si el auto no está detrás de la
puerta 1, como en los órdenes B o C, entonces el conductor abrirá de las puertas
restantes la que tiene detrás de ella un pollo, y si el participante cambia, ganará el
auto.
Es decir, si cambia, sólo el orden A lo llevará a lo llevará a perder. Análogamente
se analiza si el participante elige las puertas 2 o 3. Luego, la probabilidad de ganar
el auto cambiando es 2/3.
41
2.2. El Lenguaje de Probabilidad
A continuación introduciremos algunas notaciones y reglas que nos permitan
calcular probabilidades, que es nuestro objetivo.
2.2.1. Espacio muestral y eventos

Cuando realizamos un proceso aleatorio, obtenemos un conjunto de posibles re-
sultados. Ası́, por ejemplo, el lanzamiento de una moneda tiene dos resultados posi-
bles C(cara) o S(sello), el lanzamiento de un dado, seis resultados posibles: 1, 2, 3, 4, 5
y 6. Al conjunto de tales resultados lo llamamos espacio muestral. Concretamente:
Definición 2.2.1 Espacio Muestral

Un espacio muestral es el conjunto formado por todos los resultados indi-
viduales de un proceso aleatorio. Generalmente se lo designa por Ω o S y puede
representarse como una lista, un diagrama arbolado, un intervalo de valores, etc.
Ası́, en el experimento de arrojar un par de dados podemos representar los posi-

bles resultados usando un diagrama de árbol, que facilite encontrar Ω.
 

 (1, 1), · · · , (1, 6) 

(2, 1), · · · , (2, 6)

 


 

(3, 1), · · · , (3, 6)
 
Ω=

 (4, 1), · · · , (4, 6) 

(5, 1), · · · , (5, 6)

 


 

(6, 1), · · · , (6, 6)
 
|Ω| = 6 × 6 = 36.
Ejercicio 2.2.1 1) Proporcione el espacio muestral Ω para cada descripción del

fenómeno aleatorio.
(a) Se arroja un par de dados y se registra la suma de los puntos obtenidos.

Ω = ···.
(b) Se elije una muestra de tamaño 10 de un lote de artı́culos y se anota el
número de defectuosos en la muestra.
Ω = ···.
(c) Se elije un estudiante aleatoriamente y se registra el tiempo, en horas,
que estudió Estadı́stica en las 24 horas del dı́a de ayer.
Ω = ···.
2) Considere el proceso de elegir, al azar, dos adultos de San Juan y registrar

su preferencia entre tres partidos polı́ticos A, B, C. Las posibles opciones de
respuesta son: A, B, C o N (ninguno). Los dos adultos elegidos son (en ese
orden) Juan y Marı́a.
42
¿Cuál de los siguientes espacios muestrales es el correcto para este experimen-
to?. Marque su respuesta.
a) Ω = {Juan, M aria}.
b) Ω = {A, B, C, N }.
c) Ω = {A, B}.
d) Ninguna de las anteriores.
Si Ud. eligió b) su respuesta es incorrecta, pues dicho espacio es el correcto si

el experimento hubiese consistido en elegir, al azar, exactamente una persona
y registrar su preferencia polı́tica.
Si eligió c), Ud. eligió en realidad uno de los posibles resultados (A, B) que
representa “Juan prefiere el partido A “Marı́a prefiere el partido B”.
2
La respuesta correcta es d)¿Porqué?
Los eventos son subconjuntos del espacio muestral y se designan con letras
mayúsculas imprentas A, B, C, · · · .
Decimos que el evento A ha ocurrido, si se ha efectuado el experimento aleatorio,
obteniéndose un resultado a ∈ A, en otro caso diremos que A no ha ocurrido.
Definición 2.2.2 Evento

Un evento es un subconjunto del espacio muestral. Se dice que el evento A ocurre
si cualquiera de los resultados en A ha ocurrido cuando el proceso aleatorio se ha
llevado a cabo.
Llamaremos Espacio de eventos y lo denotaremos con A al conjunto formado
por todos los eventos asociados a un experimento aleatorio.
Nota 2.2.1 : El espacio de eventos es una σ−álgebra de Ω.
Ejercicio 2.2.2 1) En el experimento de arrojar un par de dados, de por exten-

sión los eventos:
(a) A :“Ningún 6”.

(b) B : “Exactamente un 6”.
(c) C :“Exactamente dos 6”.
2) En un grupo de personas, algunas están a favor (F) del aborto y otras en

contra (C). Se seleccionan, al azar, tres personas de este grupo, y se registra
su opinión al respecto. Supongamos que es importante saber de qué persona
proviene cada opinión (es decir importa el orden).
(a) Escriba el espacio muestral para esta situación.
43
(b) Describa el evento A :“al menos una persona está en contra del aborto”.
(c) Describa el evento B :“exactamente dos personas están a favor del abor-
to”.
Algunas veces los eventos son combinación de varios eventos. Ası́ por ejemplo
podemos interesarnos en calcular la probabilidad de un evento que es unión o inter-
sección de dos o más eventos.
Definición 2.2.3 Dos eventos se dicen mutuamente excluyentes si son disjun-

tos, es decir no tienen elementos comunes. Esta definición se extiende a más de dos
eventos:n eventos A1 , A2 , · · · , An son mutuamente excluyentes si son disjuntos dos
a dos.
Definición 2.2.4 Dos o más eventos se dicen exhaustivos si su unión dá todo el
espacio muestral.
Ejemplo 2.2.1 Una muestra aleatoria de 200 adultos se clasifica de acuerdo a su

sexo y al mayor nivel de estudios alcanzado. Los resultados se vuelcan en la siguiente
tabla
Tabla 2.2.1
nivel de estudio
Primario Secundario Universitario

M 88
38 28 22
sexo
F 112
45 50 17
200
83 78 39
Sean A y B los eventos:
A : el adulto elegido es mujer.
B : el adulto elegido es varón.

A y B son mutuamente excluyentes y exhaustivos en este caso.
Sean
C : el adulto elegido tiene nivel de eduacación primaria.
D : el adulto elegido tiene nivel de eduacación secundaria.
44
E: el adulto elegido tiene nivel de eduacación universitaria.
C, D y E son mutuamente excluyentes y exhaustivos en este ejemplo.
Describimos ,mediante operaciones entre eventos ,los eventos
F : el adulto elegido es varón y tiene nivel de eduacación secundaria.
G: el adulto elegido es mujer o tiene nivel de eduacación universitaria.
Entonces F = B ∩ D y G = A ∪ E.
¿Son F y G mutuamente excluyentes?, ¿son exhaustivos?.
2.2.2. Reglas de Probabilidad

Hemos definido la probabilidad a posteriori o frecuencial, la cual necesita repetir
un experimento aleatorio un gran número de veces, bajo las mismas condiciones.
En algunas ocasiones el experimento arroja un número finito de resultados posibles
y todos tienen la misma “posibilidad”de ocurrencia. Tal es el caso de arrojar una
moneda justa (balanceada, simétrica), un dado no cargado, extraer al azar una carta
de un naipe bien barajado. En estos casos, la probabilidad de un evento se puede
calcular como la proporción de los resultados en el espacio muestral que satisfacen
el evento. Esto se formaliza en la siguiente
Definición 2.2.5 Si en experimento aleatorio arroja un número finito de n resul-

tados igualmente posibles y mutuamente excluyentes, entonces la probabilidad P (A)
de un evento A es
nA
P (A) = ,
n
siendo nA el número de resultados del experimento que pertenecen al evento A, es
decir nA = card(A).
Esta definición se debe a Laplace y se denomina definición clásica de proba-

bilidad.
Nota 2.2.2 Para calcular probabilidades usando la definición Laplaciana podemos
ayudarnos de las fórmulas combinatoriales para hallar n = card(Ω) y nA = card(A),
en los casos en que el conteo se nos escape de las manos.
Ejercicio 2.2.3 En el experimento del ejercicio 2.2.2, inciso 1), halle las probabi-
lidades de los eventos A, B y C.
Sea D el evento:“al menos un seis”. Encuentre la probabilidad de D y compararla
con 1 − P (A),¿cómo son los eventos A y D?.
Calcule la probabilidad de A ∪ B,¿cómo son A y B?.
Calcule P (Ω).
A partir de la definición de probabilidad podemos ver que ésta cumple ciertas reglas
básicas:
45
1) La probabilidad de cualquier evento varı́a entre 0 y 1, esto es
0 ≤ P (A) ≤ 1, para todoA ∈ A.
2) La probabilidad del evento seguro Ω es 1, esto es
P (Ω) = 1.
3) Si A es cualquier evento y A su complemento, entonces la probabilidad de A

es 1 menos P (A), esto es
P (A) = 1 − P (A).
4) Si A y B son eventos mutuamente excluyentes, entonces la probabilidad de

A ∪ B es la suma de las probabilidades de ambos eventos, esto es
P (A ∪ B) = P (A) + P (B).
En base a la definición Laplaciana y frecuencial de probabilidad surge la defini-

ción axiomática. Cualquier función definida en el espacio de eventos asociado a un
experimento aleatorio, que tiene como imágen al intervalo [0, 1] tal que aplicada al
espacio muestral Ω es 1 y tal que aplicada a la unión de eventos mutuamente ex-
cluyentes es la suma de las probabilidades de los respectivos eventos, es una función
de probabiliad definida sobre Ω. Esto se formaliza en la siguiente
Definición 2.2.6 Definición axiomática de probabilidad

Sea Ω el espacio muestral asociado a un experimento aleatorio y A su espacio de
eventos. Diremos que una función P : A → IR es una probabilidad definida sobre
Ω, si verifica los axiomas
P1 ) 0 ≤ P (A) ≤ 1, para todo A ∈ A.
P2 ) P (Ω) = 1.
P3 ) Si A1 , A2 , · · · , An , · · ·
es una
colección numerable de eventos mutuamente ex-
∞
S ∞
P
cluyentes, entonces P Ai = P (Ai ).
i=1 i=1
De la definición axiomática de probabilidad se deducen las propiedades
1- P (∅) = 0.
2- P (A) = 1 − P (A) para todo A ∈ A.
3- Si A, B ∈ A y A ⊆ B entonces P (A) ≤ P (B).
4- Si A, B ∈ A entonces P (A) = P (A ∩ B) + P (A ∩ B).
46
5- Si A, B ∈ A, entonces P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
6- La propiedad anterior se generaliza a más de dos eventos

n
! n
[ X XX
P Ai = P (Ai ) − P (Ai ∩ Aj )
i=1 i=1 ij
XXX
+ P (Ai ∩ Aj ∩ Ak ) + · · · + (−1)n+1 P (A1 ∩ A2 ∩ · · · An ).
ijk
n
n
S P
7- P Ai ≤ P (Ai ).
i=1 i=1
Ejemplo 2.2.2 Considere los resultados del ejemplo 2.2.1 y los eventos
A1 :“el adulto elegido tiene nivel de educación universitario”.
A2 :“el adulto elegido es mujer”.
¿Cuál es la probabilidad que un adulto elegido al azar sea mujer o tenga nivel de
educación universitaria?.
P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) − P (A1 ∩ A2 )
39 112 17
= + −
200 200 200
139
= = 0,67.
200
Ejercicio 2.2.4 Una compañı́a de construcción local se ha presentado en una lici-
tación para dos contratos con el gobierno. La compañı́a sabe que la probabilidad de
ganar el primer contrato es 0,5, la probabilidad de ganar el segundo contrato es 0,4
y la de ganar ambos es 0,2.
(a) ¿Cuál es la probabilidad que tiene la compañı́a de ganar al menos uno de los
contratos?.
(b) ¿Cuál es la probabilidad de ganar el primer contrato pero no el segundo?.
(c) ¿Cuál es la probabilidad de ganar el segundo contrato pero no el primero?.
(d) ¿Cuál es la probabilidad de no ganar el primer contrato ni el segundo?.
2.2.3. Probabilidad Condicional

Algunas veces debemos usar alguna información acerca de los resultados del
experimento aleatorio bajo estudio y calcular la probabilidad que ocurra un deter-
minado evento, teniendo en cuenta tal información. Suponga, por ejemplo, que se
arroja una vez un dado honrado. Se sabe que la probabilidad de obtener 1 es 1/6.
Pero, asuma que se le ha informado que al llevar a cabo el experimento, se obtuvo
47
un número impar. ¿cuál es ahora la probabilidad que sea 1?.Puesto que el resultado
fué impar se restringe el espacio muestral al evento dado, {1, 3, 5}, luego la probabil-
idad buscada es 1/3. Esta última recibe el nombre de probabilidad condicional.
Se denota P (A/B) = 1/3 a la probabilidad del evento A = {1} dado el evento
“condición”B = {1, 3, 5}.
En este ejemplo se tiene que P P(A∩B)

(B)
= 1/6
3/6
= 13 , que coincide con la probabilidad
P (A/B). A partir de esto, surge como natural la definicin de probabilidad condi-
cional.
Definición 2.2.7 Sea (Ω, A, P ) un espacio de probabilidad, llamamos probabilidad

condicional del evento A, dado el evento B, y la denotamos P (A/B) a
P (A ∩ B)
P (A/B) = si P (B) > 0
P (B)
Nota 2.2.3 De la definición anterior se deduce que
P (A ∩ B) = P (B)P (A/B).
Esta propiedad se extiende a más de dos eventos y se denomina Regla de la Multi-

plicación:
Si P (A1 ∩ A2 ∩ · · · ∩ An−1 ) > 0, entonces
P (A1 ∩A2 ∩· · ·∩An ) = P (A1 )P (A2 /A1 )P (A3 /A1 ∩A2 ) · · · P (An /A1 ∩A2 ∩· · ·∩An−1 ).
Ejercicio 2.2.5 1) Pruebe que P (./B) es una función de probabilidad sobre Ω.
2) Pruebe, por inducción sobre n, la Regla de la Multiplicación.
Ejemplo 2.2.3 Considere los datos del ejemplo 2.2.1 y responda:
(a) ¿cuál es la probabilidad que un adulto elegido al azar tenga nivel de estudio
universitario, sabiendo que es mujer?.
(b) ¿cuál es la probabilidad que un adulto elegido al azar se a varón, sabiendo que
su nivel de estudio es secundario?.
2.2.4. Independencia de eventos

Considere el experimento de arrojar una vez un dado no cargado.
(a) ¿Cuál es la probabilidad de obtener un 2?
(b) ¿Cuál es la probabilidad de obtener un 2, sabiendo que el resultado fué un

número par?
48
Es claro que la respuesta a (a) es P ({2}) = 16 mientras que la respuesta a (b) es
P ({2}/{2, 4, 6}) = 13 .
En este caso la probabilidad condicional es diferente a la probabilidad no condicional
del evento. Suponga, como otro ejemplo, que se arroja dos veces una moneda justa.
(c) ¿Cuál es la probabilidad de obtener cara en el segundo lanzamiento?
(d) ¿Cuál es la probabilidad de obtener cara en el segundo lanzamiento, sabiendo

que el primer lanzamiento resultó cara?.
Sea A1 :“cara en el primer lanzamiento A2 :“cara en el segundo lanzamiento”,

2
entonces la respuesta a (c) es P (A2 ) = 24 = 12 y la respuesta a (d) es P (A2 /A1 ) = 12 .

Se observa que en este caso la probabilidad condicional coincide con la no condicional
del evento, diremos entonces que A1 y A2 son eventos independientes.
Definición 2.2.8 Dos eventos A y B son independientes si y sólo si se verifica

una de las siguientes condiciones:
(1) P (A ∩ B) = P (A)P (B).
(2) P (A/B) = P (A) si P (B) > 0.
(3) P (B/A) = P (B) si P (A) > 0.
Ejercicio 2.2.6 Pruebe que las condiciones (1), (2) y (3) de la definición anterior
son equivalentes.
Ejemplo 2.2.4 Una guirnalda contiene 30 focos de luz. Si uno de los focos falla,
entoncesa la guirnalda no enciende. La probabilidad que un único foco dure al menos
2 años es 0,98. Si los focos operan independientemente,¿cuál es la probabilidad que
la guirnalda funcione por lo menos 2 años?.
Sean los eventos F :“la guirnalda funciona por lo menos 2 años”, Fi :“el i−ésimo
foco funciona por lo menos 2 años”, entonces
P (F ) = P (F1 ∩ F2 ∩ · · · ∩ F30 ) = P (F1 )P (F2 ) · · · P (F30 ) = (0,98)30 = 0,545.
Ejemplo 2.2.5 Al comienzo de la unidad se simuló el plan familiar de un matrimo-

nio que planeó tener hijos hasta tener un varón o tres hijos, lo que ocurra primero.
Se obtuvo en la simulación que una estimación de la probabilidad que el matrimonio
tenga un varón entre sus hijos bajo este plan era aproximadamente 0,84, para 100
repeticiones del proceso aleatorio.
Ahora estamos en condiciones de modelar el problema y calcular la probabilidad
exacta. Hemos supuesto que :
1) cada hijo tiene 1/2 de probabilidad de ser varón y 1/2 de ser mujer.
49
2) el sexo de los sucesivos hijos es independiente.
Encontremos primero el espacio muestral. Existen cuatro posibles resultados de

esta experiencia:
Ω = {V, M V, M M V, M M M } .
Sea A:“el matrimonio tiene un varón entre sus hijos”, entonces
1 11 111 1 1 1
P (A) = P ({V, M V, M M V }) = + + = + + = 0,875.
2 22 222 2 4 8
Observamos ası́ que la estimación obtenida por simulación es buena y será mejor
si aumentamos el número de experiencias.
Definición 2.2.9 Una familia de n eventos A1 , A2 , · · · , An se dice mutuamente in-

dependiente si los eventos Ai son independientes de a pares, esto es si Ai es inde-
pendiente de Aj cuando i 6= j.
Se dice completamente independiente o independiente si verifica: cualquiera sea
k = 1, 2, · · · , n y cualesquiera sean i1 , i2 , · · · , ik ∈ {1, 2, · · · , n} se cumple que
P (Ai1 ∩ Ai2 ∩ · · · ∩ Aik ) = P (Ai1 )P (Ai2 ) · · · P (Aik )
Nota 2.2.4 La independencia implica la independencia de a pares, la recı́proca no

es cierta, como lo muestra el siguiente ejemplo.
Ejemplo 2.2.6 Sea el experimento de arrojar un par de dados y los eventos

A1 :“el número sobre el primer dado es impar”,
A2 :“el número sobre el segundo dado es impar 2
A3 :“la suma de los puntos obtenidos es impar”.

estos tres eventos son mutuamente independientes pero no independientes pues
P (A1 ∩ A2 ∩ A3 ) = P (∅) = 0, mientras que P (A1 )P (A2 )P (A3 ) 6= 0.
Teorema de Probabilidad Total y Teorema de Bayes

Se tienen dos urnas U1 y U2 . La urna U1 contiene 2 bolillas blancas y 2 negras; la
urna U2 contiene 4 bolillas blancas y 6 negras (todas las bolillas son indistinguibles
al tacto). Suponga que el experimento aleatorio consiste de dos etapas:
1) elegir al azar una de las dos urnas (ambas son idénticas).
2) extraer, aleatoriamente, una bolilla de la urna seleccionada.
Nos preguntamos ¿cuál es la probabilidad que la bolilla extraı́da sea blanca?.

Obviamente esta probabilidad dependerá de la urna elegida. La situación es la sigu-
iente:
50
Si llamamos Bi al evento“seleccionar la urna Ui ”, i = 1, 2, resulta que B1 y B2
forman una partición del espacio muestral. Sea B el evento “la bolilla elegida es
blanca”. Es claro que
P (B) = P (B ∩ B1 ) + P (B ∩ B2 )
2
y puesto que conocemos las probabilidades condicionales P (B/B1 ) = 4
y P (B/B2 ) =
4
10
conviene escribir
1 2 1 4
P (B) = P (B1 )P (B/B1 ) + P (B2 )P (B/B2 ) = · + · = 0,45
2 4 2 10
Esta forma de calcular probabilidades se generaliza para el caso de tener una par-
tición del espacio muestral, de más de dos eventos y conocer las probabilidades
condicionales a los eventos de la partición.
Teorema 2.2.1 Teorema de Probabilidad Total

Sea (Ω, A, P ) un espacio de probabilidad y B1 , B2 , · · · , Bn una partición de Ω,
tal que P (Bi ) > 0, i = 1, · · · , n, entonces para todo A ∈ A se verifica
n
X
P (A) = P (Bi )P (A/Bi ).
i=1
Ejercicio 2.2.7 Demuestre el teorema de probabilidad total.
Retomemos el ejemplo anterior. Supongamos que llevamos a cabo la experiencia

y la bolilla elegida resultó blanca, ¿cuál es la probabilidad que provenga de la urna
U1 ?
1 2
P (B1 ∩ B) P (B1 )P (B/B1 ) · 5
P (B1 /B) = = = 2 4 = .
P (B) P (B1 )P (B/B1 ) + P (B2 )P (B/B2 ) 0,45 9
Cuando nos preguntamos acerca de una probabilidad condicional de uno de los
eventos de la primera etapa (eventos de la partición)a un evento de una etapa
posterior, como en este caso, procedemos aplicando la llamada Regla de Bayes.
Teorema 2.2.2 Regla de Bayes

Sea (Ω, A, P ) un espacio de probabilidad y B1 , B2 , · · · , Bn una partición de Ω,
tal que P (Bi ) > 0, i = 1, · · · , n, entonces si A ∈ A es tal que P (A) > 0, se verifica
que
P (Bk )P (A/Bk )
P (Bk /A) = P n , k = 1, 2, · · · n.
P (Bi )P (A/Bi )
i=1
Ejercicio 2.2.8 Demuestre el teorema anterior.
51
Ejemplo 2.2.7 Supongamos que se ha desarrollado un test muy confiable para de-
tectar una enfermedad rara. En particular, supongamos que cuando la enfermedad
está presente, el test dá positivo el 98 % de las veces. Cuando está ausente dá ne-
gativo el 95 % de las veces. Además se sabe que, aproximadamente, el 0,1 % de la
población general tiene la enfermedad.
Se ha detectado , usando el test, que una persona tiene la enfermedad(es decir
el test dió positivo),¿cuál es la probabilidad que realmente la posea?.
Sean los eventos: E:“la persona tiene la enfermedad”, +:“el test dá positivo −:
2
“el test dá negativo”, entonces
P (E)P (+/E)
P (E/+) =
P (E)P (+/E) + P (E)P (+/E)
Se sabe que P (E) = 0,001, luego P (E) = 0,999, además P (+/E) = 0,98 (luego la
P (−/E) = 0,02) y P (−/E) = 0,95 (luego P (+/E) = 0,05), por lo tanto
0,001 · 0,98
P (E/+) = ' 2 %.
0,001 · 0,98 + 0,999 · 0,05
El complemento de esta probabilidad se denomina tasa de falsos positivos y en este
caso es
P (E/+) = 1 − P (E/+) ' 98 %.
2.3. Cuestionario
1) Explique las diferencias entre experimento determinı́stico y experimento aleato-

rio y ejemplifique cada tipo.
2) a- ¿Qué entiende por simulación?

b- Enumere las herramientas que puede usar para simular un experimento
aleatorio.
3) ¿Porqué es necesario que el espacio de eventos asociado a un experimento

aleatorio sea una σ−álgebra?
4) ¿En qué casos emplea la definición clásica de probabilidad para calcular prob-
abilidades, ¿qué limitaciones tiene esta definición?.
5) ¿Cómo procederı́a para calcular la probabilidad de que un artı́culo seleccionado

al azar sea defectuoso en un envı́o grande de tales artı́culos que se tiene en un
depósito?
6) Explique qué significa la expresión:“La probabilidad de que un determinado

tipo de semilla germine es 0,8”.
52
7) ¿Qué condiciones debe cumplir un experimento aleatorio para que las proba-
bilidades de eventos asociados al mismo se calculen por el teorema de proba-
bilidad total?.
8) Proporcione un ejemplo donde necesite de la Regla de Bayes para el cálculo

de una probabilidad requerida.
9) ¿Son equivalentes los conceptos “mutuamente independientes”y “completa-

mente independientes” para una familia de n ≥ 3 eventos? Justifique.
10) Suponga que A y B son eventos mutuamente excluyentes, ¿qué condiciones

deben cumplir dichos eventos para que sean independientes? Ejemplifique.
11) Sea Ω una región del plano de área finita y A ⊆ Ω. Se define :
área de A
P [A] =
área de Ω
Pruebe que P [.] ası́ definida es una función de probabilidad definida en P(Ω)
(Nota: esta probabilidad se denomina Probabilidad Geométrica)
Aplicación: Sea Ω = (x, y) ∈ IR2 : 0 ≤ x ≤ 1; 0 ≤ y ≤ 1 y

A = (x, y) ∈ Ω : x + y ≤ 12 .

Suponga que se arroja un dardo dentro de Ω y se gana un premio si el dardo

cae en la región A. ¿Cuál es la probabilidad de ganar el premio?
Proporcione otro ejemplo donde aplique la definición de probabilidad geométri-
ca para hallar una probabilidad requerida.
53
Capı́tulo 3
Variable Aleatoria
3.1. Introducción
Consideremos el experimento de arrojar un par de dados y apostar a la suma de
los puntos obtenidos. En este caso el interés no recae en cada uno de los 36 resultados
posibles sino en el comportamiento de la “suma de los puntos obtenidos”. Es claro
que esta suma varı́a al calcularla para cada uno de los 36 pares y esta variación
es aleatoria pues está sujeta a la naturaleza aleatoria del experimento. Decimos
que esta suma es una variable aleatoria. Las variables aleatorias se denotan con le-
tras mayúsculas imprentas del final del abecedario · · · X, Y, Z y las correspondientes
subindicadas.
Denotemos con X a la variable de nuestro ejemplo. Es claro que X toma valores
de acuerdo al resultado considerado en nuestro espacio muestral. En este caso los
posibles valores de la variable son los enteros comprendidos entre 2 y 12. Para
avanzar, con un ejemplo más sencillo, consideremos el lanzamiento de una moneda
cuyos posibles resultados son C o S. No obstante es posible asociar a cada resultado
del experimento un valor numérico, ası́ podemos asociar:
C → 1, S → 0,
es decir definimos la variable que asocia a cada resultado el número de caras obtenido.
Como estadı́sticos nos gusta trabajar con resultados numéricos y esto nos lleva a
nuestra próxima definición
Definición 3.1.1 Una Variable aleatoria es una función X : Ω → IR, esto es

una cantidad numérica incierta cuyos valores dependen del resultado aleatorio de un
experimento. Además X debe verificar que
X −1 (−∞, r] = {ω ∈ Ω : X(ω) ≤ r}
es un evento, para todo r ∈ IR.
54
Nota 3.1.1 Cuando A = P(Ω) la condición X −1 (−∞, r] ∈ A, para todo r ∈ IR se
cumple trivialmente.
Usaremos las letras minúsculas imprentas · · · x, y, z para denotar los valores de
variables aleatorias. Ası́ x = 7 nos dice que en un lanzamiento particular de un par
de dados se obtuvo un total de 7 puntos. Pensamos en X como aleatoria, el valor
de una variable antes de ser observada, mientras que x es conocida, es un valor
particular de X que ha sido observado.
Ejemplo 3.1.1 (a) Sea X la V.A que representa el número de caras obtenido al
arrojar una moneda justa 3 veces. Los posibles valores de X son x = 0, x =
1, x = 2 o x = 3.
(b) Se extrae una muestra de 10 artı́culos de un lote de artı́culos. Sea Y la V.A que
representa el número de defectuosos en la muestra. Luego Y toma los posibles
valores y = 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 o 10.
(c) Si el experimento consiste en elegir un foco de luz de una lı́nea de producción

y Z es la V.A. que representa la vida, en horas, del foco, entonces el conjunto
de valores posibles de Z es el intervalo [0, ∞).
Definición 3.1.2 Una variable aleatoria discreta es aquella que puede tomar
valores en un conjunto finito o infinito numerable.
Una variable aleatoria continua es aquella que puede tomar cualquier valor
en un intervalo o colección de intervalos.
Ası́, en el ejemplo anterior, X e Y son V.A discretas y Z es una V.A. continua.

A continuación definiremos una función real de variable real que nos permite
calcular probabilidades de eventos descriptos en términos de una V.A. X.
Nota 3.1.2 Si X : Ω → IR es una V.A., al conjunto {ω ∈ Ω : X(ω) ∈ B} , B ⊆ IR,

lo denotaremos [X ∈ B]. Ası́ X −1 (−∞, r] = [X ≤ r] y X −1 [a, b] = [a ≤ X ≤ b].
Definición 3.1.3 La función de distribución acumulada de una variable aleato-

ria X, denotada por FX : IR → IR, se define por
FX (x) = P [X ≤ x], para x ∈ IR.
Nota 3.1.3 En general lo que importa de una V.A. es su función de distribución,

más que su expresión explı́cita como función definida en algún Ω. Escribiremos “X ∼
F 00 para indicar que la variable aleatoria X tiene función de distribución acumulada
(F.D.A) F .
Ejemplo 3.1.2 Sea X la V.A. que denota “número de caras” al arrojar una moneda
justa. Luego X toma los valores x = 0, 1.
Dado x ∈ IR puede ocurrir que
55
(a) x < 0
(b) 0 ≤ x < 1
(c) x ≥ 1
Si ocurre (a) entonces FX (x) = P (∅) = 0.

Si ocurre (b) entonces FX (x) = P ({S}) = 12 .
Si ocurre (c) entonces FX (x) = P (Ω) = 1.
Luego 
0
 si x < 0,
FX (x) = 1/2 si 0 ≤ x < 1

1 si x ≥ 1.

(
1 si x ∈ A,
Usando la función indicadora IA (x) = , podemos escribir FX como la
0 si x ∈ / A.
función simple
1
FX (x) = I[0,1) (x) + I[1,∞) (x).
2
A partir del gráfico de FX del ejemplo anterior podemos ver que FX es no de-
creciente, FX (x) → 0 cuando x → −∞, FX (x) → 1 cuando x → ∞ y es continua
por derecha. Estas propiedades se verifican para cualquier función de distribución
acumulada.
Lema 3.1.1 Sea F la F.D.A. de una V.A.X, entonces se verifica
56
a- F es no decreciente, esto es
si a ≤ b entonces F (a) ≤ F (b).
b- lı́m F (x) = 0 , lı́m F (x) = 1.

x→−∞ x→∞
c- F es continua por derecha, esto es para todo x ∈ IR
F (x) = lı́m+ F (t) = lı́m+ F (x + h).

t→x h→0
Demostración
Probemos a-:
F (b) = P (X ≤ b) = P (X ≤ a) + P (a < X ≤ b) = F (a) + P (a < X ≤ b)
y puesto que P (a < X ≤ b) ≥ 0, se tiene que F (b) ≥ F (a).
Probemos b: Puesto que F es no decreciente y acotada, existe
lı́m F (x) = lı́m F (n) = lı́m P (X ≤ n)

x→∞ n→∞ n→∞
. Llamemos
S An al evento [X ≤ n] para cada n ∈ N , luego An ⊆ An+1 para todo n
y An = Ω. Entonces lı́m P (An ) = P (Ω) = 1.
n n→∞
Análogamente se demuestra que lı́m F (x) = 0.
n→−∞
Probemos c:

1 1
lı́m F (t) = lı́m F x+ = lı́m P X ≤x+
t→x+ n→∞ n n→∞ n
Llamando Cn = [X ≤ x + n1 ] se tiene que Cn+1 ⊆ Cn para todo n y

T
Cn = [X ≤ x],
n
luego
lı́m F (t) = F (x).
t→x+
2
Nota 3.1.4 Cualquier función F : IR → IR que verifique las propiedades anteriores

se denomina función de distribución acumulada. Dos V.A. distintas X e Y pueden
tener la misma F.D.A.
Ejercicio 3.1.1 Sean X la V.A. que representa el “número de caras” en el lan-

zamiento de una moneda honrada e Y la V.A definida por Y (ω) = 1 si ω es par,
Y (ω) = 0 si ω es impar, al arrojar un dado balanceado. Probar que FX = FY .
57
3.1.1. Variables Aleatorias Discretas
Sea X una V.A. discreta que toma valores x1 , x2 , · · · , xn , · · · . Diremos que éstos
son los puntos masa de la variable X. Se puede asignar a cada posible valor xi de X
la probabilidad que X tome dicho valor, es decir definir una función fX que a cada
xi le asocie P (X = xi ). Dicha función se denomina función másica de probabilidad
o función densidad discreta y se denota también por pX .
Definición 3.1.4 Sea X una V.A. discreta con puntos masa x1 , x2 , · · · , xn , · · · , la

función fX : IR → [0, 1] definida por
(
P (X = xi ) si x = xi para algun i,
fX (x) =
0 en otro caso.
se denomina función densidad discreta o función másica de probabilidad.
Ejemplo 3.1.3 Si X denota la suma de puntos obtenidos al arrojar un par de dados,

entonces X es discreta con valores 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12 y podemos resumir la
distribución de probabilidad de X, que nos dá la densidad en cada punto masa en el
siguiente cuadro
x 2 3 4 5 6 7 8 9 10 11 12
fX (x) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36
Vemos que en este caso fX es simétrica alrededor de x = 7 que es donde presenta

un máximo (valor más probable de X).
58
Lema 3.1.2 Propiedades de fX
Si f es la función densidad asociada a una variable aleatoria X con puntos masa
x1 , x2 , · · · , xn , · · · , entonces se verifica
a- fX (x) ≥ 0 para todo x ∈ IR.

P
b- fX (x) = 1, donde la suma es numerable ya que fX (x) > 0 sólo para los
puntos masa xi de X.
Nota 3.1.5 Cualquier función f : IR → IR para la cual exista un conjunto nu-

merable x1 , x2 , · · · , xn , · · · tal que f verifique a) y b) del lema se denomina función
densidad discreta.
Lema 3.1.3 Si X es una variable aleatoria discreta con puntos masa x1 , x2 , · · · , xn , · · ·

función densidad discreta fX y función de distribución acumulada FX , se verifica
X
FX (x) = fX (xi ),
{i:xi ≤x}
y
fX (xi ) = lı́m+ FX (t) − lı́m− FX (t) , para todo i.
t→xi t→xi
Además, en general,
X
P (X ∈ A) = fX (xi ) para todo A ∈ B1 , siendo B1 la σ-álgebra de Borel de IR .
{i:xi ∈A}
Ejercicio 3.1.2 Demostrar los lemas anteriores.
A continuación veremos una variable aleatoria discreta que toma sólo los valores
0 y 1.
El esquema Bernoulli
Veamos ahora una situación muy frecuente en probabilidad. Se arroja n veces un
dado (no necesariamente equilibrado). Queremos hallar la probabilidad de obtener
exactamente k “ases” en los n lanzamientos. Cada lanzamiento puede resultar en
“éxito”, que equivale a obtener un as, o “fracaso”, que equivale a no obtener un
as. Diremos que cada lanzamiento es un ensayo de Bernoulli. Sea p = P (exito) =
P (obtener un as).
Es claro que p es constante de prueba a prueba y además que los eventos Aj :“obtener
un as en el j−ésimo lanzamiento”,j = 1, 2, · · · , n son independientes.
Nuestro espacio muestral es
Ω = {(z1 , z2 , · · · , zn ) : zi = 1 o zi 6= 1, i = 1, · · · , n}
59
= {(z1 , z2 , · · · , zn ) : zi =éxito o zi =fracaso, i = 1, · · · , n}
Sea Bk :“exactamente k éxitos en n ensayos”, entonces Bk es unión disjunta de
todos los resultados que consisten en n−uplas con k éxitos (k ases) y n − k fracasos
(n − k no ases). Para cada uno de estos resultados, la probabilidad es, debido a las
suposiciones de independencia e invariabilidad de p, pk (1 − p)n−k .
Puesto que hay nk de tales resultados, se tiene que

n k
P (Bk ) = p (1 − p)n−k , k = 0, · · · , n.
k
A éstas probabilidades se las llama “distribución binomial” y se denota por b(k; n, p).
3.1.2. Distribuciones discretas importantes

Distribución Binomial
Definición 3.1.5 X tiene una distribución binomial con parámetros n y p,n ∈
IN, p ∈ (0, 1), si su densidad se da por

n x
fX (x) = b(x; n, p) = p (1 − p)n−x , x = 0, 1, · · · , n.
x
Nota 3.1.6 Si X tiene distribución binomial con parámetros n y p, escribiremos
X ∼ B(n, p).
Como vimos en la subsección anterior, la variable que cuenta el número de éxitos
en n ensayos de Bernoulli independientes y repetidos con probabilidad de éxito p,
tiene tal distribución. Si n = 1 la distribución es Bernoulli. En particular, si A ∈ A
y X = IA , entonces X ∼ B(1, p) siendo p = P (A).
Distribución de Poisson
Definición 3.1.6 Diremos que una V.A.X tiene distribución de Poisson con
parámetro λ, (λ > 0), si su función densidad se da por
e−λ λx
fX (x) =, x = 0, 1, 2, · · ·
x!
Nota 3.1.7 Escribiremos X ∼ P(λ) para indicar que X tiene una distribución de
Poisson con parámetro λ.
Mostraremos a continuación que la distribució de Poisson se utiliza como aprox-
imación de la binomial cuando n “grande” y p es “chico”, tomando λ = np ó para
modelar procesos estocásticos (sucesiones de variables aleatorias indexadas po el
tiempo). Por ejemplo, bajo condiciones adecuadas, la variable que cuenta el número
de sucesos que ocurren en un intervalo de tiempo de longitud t, se distribuye Poisson
con λ = ct siendo c la tasa media de ocurrencia por unidad de tiempo.
60
La aproximación de Poisson y sus aplicaciones
Consideremos a continuación una aproximación de la distribución binomial para
n “grande” y p “chico”.
Para representar esto consideramos una sucesión b(k; n, pn ) donde n → ∞, npn → λ
(esto es pn → 0).

n k
b(k; n, pn ) = pn (1 − pn )n−k
k
k n−k
n λ λ
' 1−
k n n
k n−k
n! λ λ
= 1−
(n − k)!k! n n
n −k
(n)k λk λk

λ λ
= k 1− 1− → e−λ .
n k! n n k!
−λ k
Si llamamos p(k; λ) = e k!λ , k = 0, 1, 2, · · · y λ > 0, hemos probado que
b(k; n, pn ) → p(k; λ) cuando n → ∞ y npn → λ, es decir la distribución binomial
converge a una Poisson en estos casos.
En la práctica, cuando n es “grande” y p “chico”, tomamos np = λ y usamos
p(k; λ) como aproximación para hallar las probabilidades b(k; n, p).
Ejemplo 3.1.4 Supongamos que la probabilidad de obtener un artı́culo defectuoso

de un gran lote de artı́culos es 0,01,¿cuál es la probabilidad de obtener cinco artı́culos
defectuosos en una muestra de 200 de tal lote?.
Puesto que n = 200 y p = 0,01, tomamos λ = np = 200 · 0,01 = 2 y aproximamos
−2 5
b(5; 200, 0,01) = p(5; 2) = e 5!2 , que es más fácil de calcular que 200
5
(0,01)5 (0,99)195 .
La distribución de Poisson para modelar procesos estocásticos

La distribución de Poisson provee un modelo realista para muchos fenómenos
aleatorios. Puesto que los valores de una variable aleatoria Poisson son los enteros
no negativos, cualquier fenómeno que cuenta algún suceso de interés, es un candidato
a ser modelado suponiendo una distribución de Poisson. Por ejemplo se puede contar
el número de accidentes de tránsito fatales poe semana en una ciudad determinada,
el número de emisiones de partı́culas radiactivas por unidad de tiempo, el número
de llamadas telefónicas que llegan a una central durante un perı́odo de tiempo, el
número de organismos por unidad de volúmen de algún fluı́do, el número de defectos
por unidad de algún material, etc. Naturalmente, no todas las variables aleatorias
que sean de este estilo pueden modelarse por Poisson, sino que deben darse algunas
condiciones en el fenómeno bajo observación para que el modelo Poisson sea el
correcto.
61
Suponemos que estamos observando la ocurrencia de ciertos sucesos en el tiem-
po, espacio o longitud (por ejemplo, la emisión de una partı́cula radiactiva). Supon-
dremos que los sucesos ocurren en el tiempo, pero el razonamiento es análogo en
espacio o longitud.
Suponemos la existencia de una cantidad c > 0 que satisface:
i) La probabilidad que ocurra exactamenteun suceso en un intervalo pequeño de

longitud h es aproximadamente ch, esto es
P [un suceso en un intervalo de long.h] ' ch + o(h),

o(h)
donde o(h) se mira como un infinitésimo de orden inferior a h, es decir lı́mh→0 h
=
o.
ii) La probabilidad de que más de un suceso ocurra un intervalo pequeño de lon-

gitud h es despreciable comparada con la probabilidad que justamente ocurra
un suceso en el mismo intervalo, esto es:
P [dos o más sucesos en un intervalo de long.h] = o(h),
iii) Los números de sucesos en intervalos de tiempo no rampantes (disjuntos) es

independiente.
La cantidad c recibe el nombre de ”tasa media de ocurrencia por unidad de tiempo”.
Teorema 3.1.1 Si las tres condiciones anteriores se satisfacen, el número de ocu-

rrencias de un suceso en un intervalo de longitud t tiene una distribición de Poisson
con parámetro λ = ct. Esto es: si Z(t) denota el número de ocurrencias en un
intervalo de longitud t, entonces
e−ct (ct)z
P [Z(t) = z] = , para z = 0, 1, 2, · · · .
z!
Demostración Sea t > 0, dividimos el intervalo (0, t) en n subı́ntervalos de longitud
h = t/n. La probabilidad de que exactamente k sucesos ocurran en el intervalo (0, t)
es aproximadamente igual a la probabilidad que exactamente un suceso ocurra en
cada uno de k subı́ntervalos de los n en los que fue dividido dicho intervalo.
Ahora, la probabilidad de que un suceso ocurra en un subı́ntervalo dado es ch.
Cada subı́ntervalo provee un ensayo de Bernoulli, pues en cada uno de ellos ocurre
un suceso o no ocurre. Además, en vista de las suposiciones hechas, los ensayos son
independientes y repetidos. Luego, la probabilidad de exactamente k sucesos en n
ensayos es:
k n−k
n k n−k n ct ct
(ch) (1 − ch) = 1− ,
k k n n
62
que es una aproximación de la probabilidad buscada. Una expresión exacta puede
obtenerse tomando n → ∞ (lo que equivale a h → 0)
k n−k n−k
(ct)k e−ct (ct)k

n ct ct ct (n)k
1− = 1− → .
k n n k! n nk k!
2
Ejemplo 3.1.5 Supongamos que el número promedio de llamadas que llegan a una
central es de 30 llamadas por hora. (i) ¿Cuál es la probabilidad de que no lleguen
llamadas en un perı́odo de 3 minutos?, (ii)¿Cuál es la probabilidad que más de cinco
llamadas lleguen en un intervalo de 5 minutos?
Es claro que 30 llamadas por hora equivalen a 0,5 llamadas por minuto, luego la
tasa media de ocurrencia es de 0,5 por minuto. De acuerdo al resultado tenemos:
P [ninguna llamada en un perı́odo de 30 ] = e−ct = e−0,5·3 ' 0,223.

∞
X e−0,5·5 (2,5)k
P [más de 5 llamadas en un perı́odo de 50 ] = = 0,042.
k=6
k!
Distribución geométrica
Definición 3.1.7 X tiene una distribución geométrica con parámetro p, (0 <
p < 1), si su densidad se da por
fX (x) = pq x , x = 0, 1, 2, · · ·
donde q = 1 − p.
Nota 3.1.8 Escribiremos X ∼Ge(p) para indicar que X tiene una distribución geo-
métrica con parámetro p.
Sirve para modelar la variable que cuenta el número de fracasos hasta obtener
el primer éxito al repetir ensayos de Bernoulli independientes con probabilidad de
éxito p.
Ejemplo 3.1.6 Se arroja una moneda hasta obtener cara, ¿cuál es la probabilidad
que esto ocurra en el cuarto intento?
Sea X la V.A. que representa el “número de fracaso antes de obtener cara”, luego
la probabilidad buscada es P (X = 3) = ( 21 )( 12 )3 = 16
1
.
63
Distribución binomial negativa
Definición 3.1.8 X tiene distribución binomial negativa con parámetros r y
p, r ∈ IN, 0 < p < 1, si su densidad se da por

x+r−1 r x
fX (x) = p q , x = 0, 1, 2, · · ·
r−1
donde q = 1 − p.
Nota 3.1.9 Escribiremos X ∼ BN (r, p)para indicar que X tiene distribución bino-
mial negativa con parámetros r y p. Es claro que BN(1, p) =Ge(p).
Si X cuenta el “número de fracasos hasta obtener el r−ésimo éxito” al repetir
ensayos independientes de Bernoulli con probabilidad de éxito p, entonces
X ∼ BN(r, p).
Distribución Hipergeométrica
Definición 3.1.9 La V.A.X tiene distribución hipergeométrica con parámetros
M, N y n,(M ≤ N, n ≤ N, M y N ∈ IN), si su densidad se da por
M N −M

x n−x
fX (x) = N
, x = 0, 1, · · · , mı́n{n, M }
n
Nota 3.1.10 Escribiremos X ∼Hi(N, M, n) para indicar que X tiene distribución

hipergeométrica con parámetros M, N y n.
Sirve para modelar variables aleatorias en experimentos sin reposición. Por ejem-
plo, se extraen n bolillas sin reemplazo de una urna que contiene N bolillas de las
cuales exactamente M son blancas. Si X denota la V.A. “número de blancas ex-
traı́das en la muestra”, entonces X ∼Hi(N, M, n).
Distribución Uniforme Discreta

Definición 3.1.10 X tiene distribución uniforme discreta con parámetro N (N ∈
IN) si su densidad se da por
1
fX (x) = , x = 1, 2, · · · , N.
N
Nota 3.1.11 También se puede definir la distribución uniforme discreta sobre un
intervalo [n1 , n2 ], n1 ≤ n2 , como aquella que tiene densidad de la forma
1
fX (x) = , con x ∈ [n1 , n2 ] y x entero.
n2 − n1 + 1
Por ejemplo, si X denota el “número obtenido” al hacer girar una ruleta, entonces
1
X tiene distribución uniforme discreta en el intervalo [0, 36], pues fX (x) = 37 para
x = 0, 1, · · · , 36.
64
Ejercicio 3.1.3 Demuestre que las funciones dadas en las definiciones anteriores
son densidades discretas.
3.2. Variables Aleatorias Continuas

Definición 3.2.1 Una V.A.X es continua si existe una función fX : IR → IR, no
negativa tal que Z x
FX (x) = fX (t)dt, para todo x ∈ IR.
−∞
La función fX se denomina función densidad continua y permite calcular la

probabilidad de eventos definidos en términos de X.
Lema 3.2.1 La función densidad continua verifica las siguientes condiciones
(a) fX (x) ≥ 0, para todo x ∈ IR.

R∞
(b) −∞ fX (x)dx = 1.
Ejercicio 3.2.1 Demuestre el lema anterior.
Nota 3.2.1 Las condiciones del lema anterior definen una función densidad con-
tinua sin hacer referencia a la variable aleatoria, es decir cualquier función real de
variable real que verifique (a) y (b) del lema es una función densidad continua.
De la definición surge que si se conoce la F.D.A. FX de una V.A. continua X,

entonces su función densidad se obtiene como
dFX
fX (x) = (x)
dx
en todos los valores x ∈ IR donde FX es diferenciable.
Además se puede demostrar que para todo A ∈ ß1
Z
P (X ∈ A) = fX (x)dx.
A
siendo ß1 la σ−álgebra de Borel de IR (en particular todo intervalo pertenece a esta

σ−álgebra)
Rb
Ası́, por ejemplo, P (a ≤ X ≤ b) = a
fX (x)dx.
Para una V.A. continua X se verifica que P (X = x) = 0, luego se tiene que

P (X ≤ x) = P (X < x), para todo x ∈ IR.
65
Nota 3.2.2 Existen deiferencias entre una función densidad continua y una fun-
ción densidad discreta. Si X es discreta entonces fX (x) ∈ [0, 1] para todo x ∈ IR,
mientras que si X es continua fX (x) ≥ 0 para todo x ∈ IR, pero no necesariamente
está acotada superiormente.
Además para variables discretas fX está unı́vocamente definida, en cambio para
variables continuas basta modificar una densidad en un conjunto numerable, para
obtener otra función densidad, ya que la integral no varı́a.
Otra diferencia es que para variables discretas fX es la probabilidad del evento
[X = x], mientras que para X continua se tiene que puesto que
dFX FX (x + δ) − FX (x − δ)
fX (x) = (x) = lı́m
dx δ→0 2δ
P (x − δ < X ≤ x + δ)
= lı́m ,
δ→0 2δ
se tiene que P (x − δ < X ≤ x + δ) = 2δfX (x) + o(δ), de modo que en este caso
fX (x) sirve para aproximar la probabilidad de un intervalo “infinitesimal” alrededor
de x.
3.2.1. Distribuciones continuas importantes

Distribución Uniforme continua
Definición 3.2.2 Decimos que una V.A.X tiene una distribución uniforme con-
tinua sobre el intervalo [a, b](a, b ∈ <) y a < b, si su densidad se da por
1
fX (x) = I[a,b] (x).
b−a
Nota 3.2.3 Escribiremos X ∼U(a, b) para indicar que X tiene una distribución
uniforme continua sobre [a, b].
Cuando se hable de elegir un punto al azar de un intervalo, se referirá a la

distribución uniforme en dicho intervalo, salvo que se indique lo contrario.
Otra situación donde se podrı́a aplicar es: el tiempo de espera de un pasajero
que llega a la parada de un colectivo del que se sabe que pasa exactamente cada 100 ,
pero ignora el horario. Luego podrı́a suponerse que el tiempo de espera sigue una
distribución U(0, 10).
Ejemplo 3.2.1 Supongamos que el tiempo para procesar una solicitud de préstamo
sigue una distribución uniforme sobre el rango de 10 a 20 dı́as.
(a) ¿Cuál es la probabilidad que una de tales solicitudes tarde más de dos semanas
en procesarse?
R 14 1
P (X > 14) = 1 − P (X ≤ 14] = 1 − 10 10 dx = 0,6.
66
(b) Dado que el tiempo de procesamiento de una solicitud de préstamo para una
elegida al azar es de al menos 12 dı́as,¿cuál es la probabilidad que en realidad
tarde más de dos semanas en procesarse?
P [(X ≥ 14) ∩ (X ≥ 12)]

P (X ≥ 14/X ≥ 12) =
P (X ≥ 12)
R 20 1
P (X ≥ 14) 10
dx
= = R1420 1 = 0,75.
P (X ≥ 12) dx
12 10
Ejercicio 3.2.2 Pruebe que si X ∼U(a, b), entonces

x−a
FX (x) = I[a,b) (x) + I[b,∞) (x).
b−a
Distribución Exponencial
Definición 3.2.3 Diremos que X tiene una distribución exponencial con parámetro
λ, (λ > 0), si su densidad se da por
fX (x) = λe−λx I[0,∞) (x).
Nota 3.2.4 Escribiremos X ∼ E(λ) para indicar que X tiene una distribución
exponencial con parámetro λ.
Esta distribución sirve para modelar tiempos de espera para procesos estocásti-
cos. En efecto, si T denota el tiempo que uno debe esperar para que se emita la
primer partı́cula desde el instante t = 0, entonces
P (T > t) = P (ninguna particula se emite en [0,t)) = e−ct
siendo c la intensidad del proceso. Luego
FT (t) = P (T ≤ t) = 1 − e−ct , t > 0.
de donde fT (t) = ce−ct para t > 0, es decir T ∼ E(c).

En general cuando la variable que cuenta el número de sucesos en un intervalo
de tiempo es Poisson con intensidad c, entonces la variable aleatoria que representa
el tiempo de espera entre dos ocurrencias sucesivas es exponencial con parámetro c
y viceversa.
67
Distribución Gama
Definición 3.2.4 Diremos que una V.A.X tiene una distribución Gama con
parámetros r y λ,(r > 0, λ > 0), si su densidad se da por
λ
fX (x) = (λx)r−1 e−λx I[0,∞) (x).
Γ(r)
R∞
donde la función Gama se define como Γ(r) = 0 xr−1 e−x dx, r > 0.
Nota 3.2.5 Escribiremos X ∼G(r, λ) para indicar que X tiene una distribución
Gama con parámetros r y λ.
La función Gama verifica
Γ(r+1) = rΓ(r) para todo r > 0 y puesto que Γ(1) = 1 resulta que Γ(n) = (n−1)!
para todo n ∈ IN, de modo que esta función generaliza al factorial de un número
natural.
Es claro que G(1, λ) = E(λ), es decir la distribución Gama es una generalización
de la exponencial y sirve para modelar tiempos de espera en procesos estocásticos.
En efecto: en el proceso de Poisson con intensidad c, sea T la variable que representa
el instante en que se produce el m−ésimo suceso,. Dado t > 0, sea N la variable
“número de sucesos en el intervalo [0, t), luego N ∼P(ct). Por lo tanto
FT (t) = P (T ≤ t) = 1 − P (T > t) = 1 − P (N < m)

m−1
X e−ct (ct)k
=1−
k=0
k!
m−1
−ct
X (ct)k
=1−e .
k=0
k!
Derivando la expresión anterior se obtiene la densidad de T , esto es
m−1 m−1
X (ct)k X ck(ct)k−1
fT (t) = ce−ct − e−ct
k=0
k! k=1
k!
m−1 m−1
X(ct)k X (ct)k−1
= ce−ct − ce−ct
k=0
k! k=1
(k − 1)!
"m−1 #
X (ct)k m−2 X (ct)s
= ce−ct −
k=0
k! s=0
s!
(ct)m−1
= ce−ct
(m − 1)!
c(ct)m−1 −ct
= e , parat > 0,
(m − 1)!
luego T ∼G(m, c).
68
Distribución Normal
Definición 3.2.5 Diremos que X tiene una distribución normal con parámetros
µ y σ 2 ,(µ ∈ IR, σ 2 > 0), si su densidad se da por
1 (x−µ)2
fX (x) = √ e− 2σ2 .
2πσ
Nota 3.2.6 Escribiremos X ∼ N (µ, σ 2 ) para indicar que X tiene una distribución
normal con parámetros µ y σ 2 .
Ejercicio 3.2.3 Pruebe que la densidad normal tiene un máximo en x = µ, puntos

+
de inflexión en los puntos x = µ − σ y es simétrica respecto del eje x = µ.
R∞ R∞ (x−µ)2
Probemos que f (x)dx = 1. Sea A = √ 1 e− 2σ 2 dx y probemos que
−∞ X −∞ 2πσ
A2 = 1.
x−µ
Haciendo el cambio z = σ
se tiene
Z ∞
1 z2
A= √ e− 2 dz,
−∞ 2π
luego Z ∞ Z ∞
2 1 − z2
2
− y2
2
A = e dz e dy
2π −∞ −∞
69
Z ∞ Z ∞
1 y 2 +z 2
= e− 2 dydz.
2π −∞ −∞
Haciendo una transformación a coordenadas polares (r, φ) en la integral doble, se

tiene
Z2π Z∞
1 r2
A2 = dφ e− 2 dr = 1.
2π
0 0
y puesto que A ≥ 0 resulta que A = 1, lo que muestra que la anterior define una
función densidad continua.
Para calcular probabilidades usando la distribución normal se necesitan calcular
integrales de esta densidad, lo cual es muy complicado ya que se necesita integración
numérica. Por ello se utilizan tablas construı́das para el caso de una N (0, 1), llamada
distribución normal estándar. La densidad de una N (0, 1)se denota generalmente
con la letra griega φ y la F.D.A. de la misma por Φ. Los valores de ésta última
están tabulados y se usan para hallar probabilidades asociadas a cualquier V.A.
X ∼N(µ, σ 2 ), de acuerdo al siguiente resultado.
X−µ
Teorema 3.2.1 Si X ∼N(µ, σ 2 ), entonces Z = σ
∼N(0, 1).
Demostración
Sea FZ (z) la F.D.A. de Z, entonces
Z z
FZ (z) = fZ (t)dt.
−∞
Por otra parte, por definición

X −µ
FZ (z) = P (Z ≤ z) = P ≤ z = P (X ≤ µ + σz) = FX (µ + σz). (1)
σ
Además Z µ+σz Z µ+σz

1 (x−µ)2
FX (µ + σz) = fX (x)dx = √ e− 2σ2 dx.
−∞ −∞ 2πσ
x−µ
Si hacemos la transformación y = en la integral anterior, obtenemos
σ
Z z
1 y2
FX (µ + σz) = √ e− 2 dy. (2)
−∞ 2π
De (1) y (2) resulta Z z

1 y2
FZ (z) = √ e− 2 dy,
−∞ 2π
y por lo tanto
dFZ 1 z2
fZ (z) = (z) = √ e− 2
dz 2π
70
luego Z ∼N(0, 1). 2
De acuerdo a este resultado se tiene, por ejemplo, que

a−µ b−µ b−µ a−µ
P (a < X < b) = P <Z< =Φ −Φ .
σ σ σ σ
y estos últimos valores se hallan en la tabla de una N (0, 1).
Ejemplo 3.2.2 Sea X la V.A. que representa el coeficiente intelectual (C.I) de

niños de 12 años de edad. Supongamos que X ∼N(100, (16)2 ). Susana es una niña
de 12 años y su C.I. es de 132, ¿qué proporción de niños de 12 años de edad tienen
un C.I. inferior al de Susana?
Debemos calcular P (X < 132) y de acuerdo al resultado anterior podemos ha-
llarla como

132 − 100
P (X < 132) = P Z < = P (Z < 2) = Φ(2) = 0,9772.
16
Luego podemos decir que el 97,72 % de los niños de 12 años tiene un C.I. menor
que 132 o equivalentemente que un C.I. de 132 es el 97,72-percentil.
Ejercicio 3.2.4 En base al ejemplo anterior responder
(a) ¿qué proporción de niños de 12 años de edad tienen un C.I. por debajo de 84?
(b) ¿y 84 o más?
(c) ¿entre 84 y 116?
Ejemplo 3.2.3 Continuando con el ejemplo anterior consideremos la siguiente pre-

gunta: ¿qué valor del C.I. deja por encima el 1 % de la distribución de los valores
de los valores de C.I. para niños de 12 años de edad?
Necesitamos hallar x tal que P (X > x) = 0,01.

x − 100 x − 100
P (X > x) = P Z > =1−Φ = 0,01
16 16
luego
x − 100
Φ = 1 − 0,01 = 0,99,
16
x − 100
es decir z = es el percentil 99 de la distribución N(0, 1). De la tabla resulta
16
x − 100
que z = 2,326, esto es = 2,326 de donde x = 137,216.
16
Esto nos permite decir que un niño de 12 años de edad debe tener un C.I. de al
menos 137,216 para estar en el 1 % superior de la distribución dada.
71
Ejercicio 3.2.5 El tiempo que tardan nadadores en correr 100m al estilo mariposa
se distribuye normalmente con parámetros 5500 y 2500 .Responder
(a) Los esponsors de un torneo deciden entregar certificados a todos los partici-
pantes que terminen antes de los 5000 en correr 100m. Si hay 50 participantes
en este torneo de natación, aproximadamente ¿cuántos certificados serán nece-
sarios?
(b) ¿Qué tiempo debe hacer un participante para estar en el 2 % superior de la

distribución de tiempos?
3.3. Aproximaciones
3.3.1. Aproximación de Binomial a Poisson
Vimos que cuando n es “grande” y p es “chico” en una distribución binomial
con parámetros n y p, la distribución binomial se aproxima a una distribución de
Poisson con parámetro λ = np. En la práctica cuando n > 30, p < 0,10 y np < 5
utilizaremos la distribución de Poisson en lugar de la binomial, por ser buena la
aproximación en estos casos.
Ejemplo 3.3.1 Supongamos que en un proceso de producción, un determinado artı́cu-

lo se fabrica en grandes cantidades. La proporción de unidades defectuosas es de
0,02. Se toma una muestra aleatoria de 200 artı́culos. Se desea conocer cuál es la
probabilidad de obtener en la muestra menos de 2 artı́culos defectuosos.
Sea X la variable aleatoria que representa el “número de artı́culos defectuosos
en la muestra de 200”. Es claro que X ∼B(200, 0,02). Puesto que se cumplen las
condiciones para la aproximación, aproximamos a una distribución de Poisson con
λ = np = 200 · 0,02 = 4. Tenemos que calcular
e−4 · 40 e−4 · 41
P (X < 2) = P (X = 0) + P (X = 1) ' + = 0,018 + 0,073 = 0,091.
0! 1!
3.3.2. Aproximación de Binomial a Normal

Una distribución binomial con n “grande” se aproxima a una distribución normal
con µ = np y σ 2 = npq, como lo indica el siguiente
Teorema 3.3.1 Sea X ∼B(n, p) entonces

b − np a − np
lı́m P (a < X ≤ b) = Φ √ −Φ √ .
n→∞ npq npq
La demostración del teorema anterior resulta inmediata del Teorema Central del
lı́mite que estudiaremos más adelante.
72
Nota 3.3.1 Por lo anterior se tiene que para n “grande”

b − np a − np
P (a < X ≤ b) ' Φ √ −Φ √ .
npq npq
En la práctica la aproximación es buena cuando np > 5 , otro criterio es npq > 3.

La aproximación mejora si se introduce la “corrección por continuidad”, que con-
siste en ampliar el intervalo considerado 0,5 unidades en cada extremo, por estar
aproximando una distribución discreta por una continua. Concretamente consiste en
reemplazar en la expresión anterior a por a − 0,5 y b por b + 0,5
Ejemplo 3.3.2 Una empresa dedicada a la realización de investigación de mercado

desea efectuar una encuesta mediante el correo. Se sabe que la probabilidad que una
persona responda a este tipo de cuestionario es de 0,20. Calcular la probabilidad que
se reciban menos de 28 respuestas, si se enviaron 100 cuestionarios.
Si X denota “número de cuestionarios respondidos entre los 100”, entonces
X ∼B(100, 0,20). Puesto que np = 100 · 0,20 = 20 aproximamos a normal con
media np = 20 y varianza npq = 16.
Tenemos que hallar P (X < 28) que será

27,5 − 20
P (X < 28) ' Φ = Φ(1,87) = 0,9693.
4
3.3.3. Aproximación de Poisson a Normal

Una distribución de Poisson se aproxima a una normal con µ = λ y σ 2 = λ
cuando λ es “grande”, como lo muestra el siguiente
Teorema 3.3.2 Sea X ∼P(λ) entonces

b−λ a−λ
lı́m P (a < X ≤ b) = Φ √ −Φ √ .
n→∞ λ λ
La demostración del teorema anterior también resulta del Teorema Central del
lı́mite.
Nota 3.3.2 Por lo anterior se tiene que para λ “grande”

b−λ a−λ
P (a < X ≤ b) ' Φ √ −Φ √ .
λ λ
En la práctica la aproximación es buena cuando λ > 10 y se mejora si se introduce
la corrección por continuidad como en el caso de la binomial.
73
Ejemplo 3.3.3 Se sabe que el número de clientes que llegan a un banco es, en
promedio, 10 en un perı́odo de 2 minutos. ¿Cuál es la probabilidad que lleguen a los
sumo 110 clientes en un lapso de 20 minutos?
Sea X la variable aleatoria que denota el “número de clientes que llegan al banco
en un lapso de 20 minutos”, entonces X ∼P(100). Aproximamos a una normal con
media y varianza λ = 100 . Luego la probabilidad buscada es

110,5 − 100
P (X ≤ 110) ' Φ = Φ(1,05) = 0,853.
10
3.4. Transformaciones de variables aleatorias

Sea X una V.A., h : IR → IR una función medible continua (más generalmente
medible borel). Luego Y = h(X) es una V.A. ¿Cómo calcular FY conociendo FX ?.
Al menos en un caso hay una respuesta simple. Supongamos que la restricción de h
al soporte X de fX es biyectiva, entonces si X es continua se tiene
Z
FY (y) = P (Y ≤ y) = P (h(X) ≤ y) = fX (x)dx.
{x:h(x)≤y}
Haciendo la transformación inversa x = h−1 (t) se tiene que

Z y
dh−1
FY (y) = (t) fX (h−1 (t))dt
−∞ dy
de donde derivando
dh−1
fY (y) = (y) fX (h−1 (y)), para y ∈ h(X ).
dy
Ejemplo 3.4.1 Sea X ∼ E(λ) esto es fX (x) = λe−λx I(0,∞) (x) y consideremos la
transformación Y = h(x) = x2 , entonces h es biyectiva en el soporte de X que es el
intervalo (0, ∞), luego
1 1/2
fY (y) = 1/2
λe−λy I(0,∞) (y).
2y
m
S
Si h es inyectiva a trozos es decir X = Xi tal que hi = h/Xi es inyectiva,
i=1
entonces m
X dh−1
fY (y) = i
(y) fX (h−1
i (y)), para y ∈ h(X ).
i=1
dy
Ejercicio 3.4.1 Pruebe que si X es continua y FX es creciente entonces la V.A., Y =

FX (X) ∼U(0, 1).
74
3.5. Distribución conjunta de variables aleatorias
Definición 3.5.1 Si X e Y son dos variables aleatorias definidas sobre el mismo
espacio de probabilidad (Ω ,A, P)entonces (X, Y ) : Ω → IR2 se denomina variable
aleatoria o vector aleatorio bidimensional.
Podemos encontrar las probabilidades de eventos definidos en términos de (X, Y )

a través de su distribución conjunta para lo cual definimos:
Definición 3.5.2 La función de distribución acumulada de (X, Y )es la función

FXY : IR2 → IR definida por
FXY (x, y) = P [X ≤ x, Y ≤ y] para todo (x, y) ∈ IR2 .
Nota 3.5.1 En la definición anterior hemos denotado con [X ≤ x, Y ≤ y] al evento

[X ≤ x) ∩ (Y ≤ y] = {ω ∈ Ω : X(ω) ≤ x, Y (ω) ≤ y}.
Lema 3.5.1 La F.D.A. bidimensional cumple las siguientes propiedades
1)
FXY (−∞, y) = lı́m FXY (x, y) = 0
x→−∞
FXY (x, −∞) = lı́m FXY (x, y) = 0,

y→−∞
FXY (∞, ∞) = x→∞

lı́m FXY (x, y) = 1.
y→∞
2) FXY es continua poe derecha en ambos argumentos,esto es
lı́m FXY (t, y) = FXY (x, y) = lı́m+ FXY (x, s).

t→x+ s→y
3) Si a < b y c < d, entonces
P (a < x ≤ b, c < Y ≤ d) = FXY (b, d) − FXY (a, d) − FXY (b, c) + FXY (a, c).
Ejercicio 3.5.1 Demuestre el lema anterior.(sugerencia: para probar 1) y 2) pro-

ceda en forma análoga al caso univariado y para 3)escriba la región (a, b] × (c, d] del
plano como diferencia de regiones no acotadas de la forma (−∞, s] × (−∞, t].
Análogamente al caso univariado las variables aleatorias bidimensionales se clasi-

fican en discretas y continuas.
75
3.5.1. Distribuciones conjuntas discretas
Definición 3.5.3 El vector aleatorio (X, Y ) es discreto si toma valores en un
conjunto numerable.
Si (X, Y ) es discreta con valores (x1 , y1 ), (x2 , y2 ), · · · (xn , yn ), · · · diremos que

(xi , yi ) es un punto masa de tal variable y podemos definir al igual que en el caso
univariado, una función que asigne a cada punto masa su probabilidad y que nos
permita calcular probabilidades dadas en términos de (X, Y ).
Definición 3.5.4 Definimos función densidad discreta conjunta de las varia-

bles X e Y a la función fXY (x, y) : IR2 → IR definida por
(
P (X = xi , Y = yi ) si (x, y) = (xi , yi ) para algun i,
fXY (x, y) =
0 en otro caso.
Teorema 3.5.1 La función densidad discreta conjunta verifica
1) fXY (x, y) ≥ 0 para todo (x, y) ∈ IR2 .

P
2) fXY (xi , yi ) = 1, donde la suma se extiende sobre todos los puntos masa de
i
(X, Y ).
Teorema 3.5.2 Si (X, Y ) es un vector aleatorio discreto entonces

X
FXY (x, y) = fXY (xi , yi )
{i:xi ≤x,yi ≤y}
y en general
X
P ((X, Y ) ∈ B) = fXY (xi , yi ), para todo B ∈ ß2
{i:(xi ,yi )∈B}
Ejercicio 3.5.2 Demuestre los dos teoremas precedentes.
Ejemplo 3.5.1 En base a experiencias pasadas se sabe que la proporción de unidades

útiles producidas por un proceso de manufactura es p1 , y las proporciones de unidades
enviadas a reprocesar y desechadas son p2 y p3 , respectivamente. Supongamos que
se producen independientemente n unidades. Encontremos la distribución conjunta
de las variables X:“número de unidades útiles” e Y :“número de unidades reproce-
sadas”, de las n producidas.
Es claro que X e Y son discretas y sus valores satisfacen: 0 ≤ x + y ≤ n, 0 ≤
x ≤ n y 0 ≤ y ≤ n; además p1 + p2 + p3 = 1. Luego para cualquiera de éstos valores
se verifica
n!
fXY (x, y) = P (X = x, Y = y) = px py pn−x−y ,
x!y!(n − x − y)! 1 2 3
76
pues para cada resultado con x unidades útiles e y unidades reprocesadas, se tendrán
necesariamente n − x − y unidades desechadas y, dada la independencia, la proba-
bilidad de cualquiera de ellos es px1 · py2 · pn−x−y
3 = px1 · py2 · (1 − p2 − p3 )n−x−y . Como
n!
existen px,y,n−x−y
n = de tales resultados y todos son equiprobables se
x!y!(n − x − y)!
tiene que
n!
fXY (x, y) = P (X = x, Y = y) = px py (1 − p1 − p2 )n−x−y , (I)
x!y!(n − x − y)! 1 2
para x, y = 0, 1, · · · , n ;0 ≤ x + y ≤ n
La expresión (I) del ejemplo anterior se conoce como distribución trinomial. Una
generalización es la distribución multinomial con parámetros n, p1 , p2 , · · · , pk , a
saber:
Si un experimento aleatorio con k + 1 resultados mutuamente excluyentes ei ,con
k+1
P
respectivas probabilidades p1 , p2 , · · · , pk+1 , de modo que pi = 1, se repite n veces
i=1
independientemente, entonces la densidad multinomial
n! xk+1
f (x1 , x2 , · · · , xk ; n, p1 , · · · , pk ) = px1 1 px2 2 · · · pk+1 ,
x1 !x2 ! · · · xk+1 !
k
P k
P
donde xi = 0, · · · n para i = 1, · · · , k ;xk+1 = n − xi y pk+1 = 1 − pi , es la
i=1 i=1
correspondiente a la distribución conjunta de las variables Xi :“número de resultados
ei en los n ensayos”,i = 1, 2, · · · , k + 1.
Ejercicio 3.5.3 Verifique que la anterior es una densidad discreta (hágalo para
k = 2).
3.5.2. Distribuciones conjuntas continuas

Definición 3.5.5 El vector aleatorio (X, Y ) es continuo, o X e Y son conjunta-
mente continuas, si existe una función fXY : IR2 → IR, llamada densidad conjunta
continua, tal que
Z y Z x
FXY (x, y) = fXY (u, v)dudv, para todo (x, y) ∈ IR2 .
−∞ −∞
Teorema 3.5.3 La función densidad conjunta continua fXY verifica
1) fXY (x, y) ≥ 0,para todo (x, y) ∈ IR2 .

R∞ R∞
2) −∞ −∞ fXY (x, y)dxdy = 1
77
Teorema 3.5.4 Si (X, Y ) es un vector aleatorio continuo entonces
Z d Z b
P (a < X ≤ b, c < Y ≤ d) = fXY (x, y)dxdy,
c a
y en general
Z
P ((X, Y ) ∈ B) = fXY (x, y)dxdy, para todo B ∈ ß2 .
B
Ejercicio 3.5.4 Demuestre los dos teoremas anteriores.
Ejemplo 3.5.2 1) Sea B cualquier región del plano con área b finita. Se define
la distribución uniforme en B como aquella con densidad
1
fXY (x, y) = IB (x, y).
b
2) Sea (X, Y ) una variable con densidad

(
k(x + y) si 0 ≤ x ≤ 1, 0 ≤ y ≤ 1 ,
fXY (x, y) =
0 en otro caso.
Se pide
a) hallar el valor de k ,
b) determinar la F.D.A. FXY ,
c) encontrar P (X ≤ 1/2, Y ≤ 3/4),
d) hallar P (1/4 ≤ X ≤ 1/2, Y ≥ 1/2)
Resolvamos
R∞ R∞ R1R1
a) −∞ −∞ fXY (x, y)dxdy = 1, esto es o 0 k(x + y)dxdy = 1 ⇒

R1R1 2 1 R1R1 2 1
k o 0 ( x2 + xy) 0 dy = 1 ⇒ k o 0 ( 21 + y)dy = 1 ⇒ k y2 + y2 0 = 1 ⇒
k=1
78
b)
Z y Z x
FXY (x, y) = fXY (u, v)dudv
Z−∞
y Z−∞
x
= (u + v)I(0,1) (u)I(0,1) (v)dudv
−∞
Z y Z−∞
x
= (u + v)dudv I(0,1) (x)I(0,1) (y)
0 0
Z 1 Z x
+ (u + v)dudv I(0,1) (x)I[1,∞) (y)
0 0
Z y Z 1
+ (u + v)dudv I[1,∞) (x)I(0,1) (y)
0 0
Z 1 Z 1
+ (u + v)dudv I[1,∞) (x)I[1,∞) (y)
0 0
Luego
xy(x + y) x(x + 1)
FXY (x, y) = I(0,1) (x)I(0,1) (y) + I(0,1) (x)I[1,∞) (y)
2 2
y(y + 1)
+ I[1,∞) (x)I(0,1) (y) + I[1,∞) (x)I[1,∞) (y).
2
15
c) P (X ≤ 1/2, Y ≤ 3/4) = FXY (1/2, 3/4) = 64
.
R1 R 1/2 R1 2 1/2
d) P (1/4 ≤ X ≤ 1/2, Y ≥ 1/2) = 1/4
(u+v)dudv = 1/2
( u2 +uv) 1/4
dv =
1/2
9
64
.
Nota 3.5.2 Hemos definido el concepto de distribuciones bivariadas de vectores

aleatorios. El concepto se generaliza en forma análoga al caso k− variado con k ≥ 3.
En general, si X1 , X2 , · · · , Xk son variables aleatorias definidas en Ω, entonces la
función de distribución acumulada k− dimensional ,FX1 ,··· ,Xk : IRk → IR,se define
por
FX1 ,··· ,Xk (x1 , · · · xk ) = P (X1 ≤ x1 , X2 ≤ x2 , · · · , Xk ≤ xk ) para (x1 , · · · , xk ) ∈ IRk .
Los casos discreto y continuo se trabajan al igual que en el caso bivariado.
3.5.3. Distribuciones marginales

Si (X, Y ) es una V.A. bidimensional entonces FX y FY se denominan distribu-
ciones marginales de X e Y , respectivamente.
Conocida la distribución conjunta de X e Y se determinan las marginales, la recı́pro-
ca no es cierta.
79
Lema 3.5.2 si (X, Y ) es un vector aleatorio con F.D.A. FXY , entonces
FX (x) = lı́m FXY (x, y) y FY (y) = lı́m FXY (x, y). (1)
y→∞ x→∞
Luego para el caso discreto

X X
fX (x) = fXY (x, y) , y fY (y) = fXY (x, y). (2)
y x
y para el caso continuo

Z ∞ Z ∞
fX (x) = fXY (x, y)dy y fY (y) = fXY (x, y)dx. (3)
−∞ −∞
Demostración
Probemos (3)
FX (x) = lı́m FXY (x, y)

y→∞
Z ∞Z x
= fXY (u, v)dudv
−∞ −∞
Z x Z ∞
= fXY (u, v)dv du
−∞ −∞
Z x
= G(u)du
−∞
Luego
Z x Z ∞
dFX d
fX (x) = (x) = G(u)du = G(x) = fXY (x, v)dv.
dx dx −∞ −∞
En forma análoga se demuestra para fY

La demostración de (2) es idem cambiando integral por suma. 2
Ejemplo 3.5.3 Encontremos las densidades marginales de la distribución con den-

sidad fXY (x, y) = (x + y)I(0,1) (x)I(0,1) (y).
1
y2
Z
1 1
fX (x) = (x + y)dy I(0,1) (x) = xy + I (x)
0 (0,1)
= x+ I(0,1) (x).
0 2 2
Análogamente resulta que

1
fY (y) = y+ I(0,1) (y).
2
80
Ejercicio 3.5.5 Pruebe que si (X, Y ) tiene una distribución trinomial con parámet-
ros n, p1 y p2 , entonces X ∼B(n, p1 ) e Y ∼B(n, p2 ).
Mostremos con un ejemplo que el conocimiento de las marginales no implica el
de la conjunta.
Ejemplo 3.5.4 Se arrojan dos monedas distinguibles. Sea X la variable que denota
“número de caras para la primer moneda”, Y la variable que representa “número de
caras para la segunda moneda”. Consideremos tres casos
1) los cantos de las monedas están soldados con las dos caras hacia el mismo
lado,
2) lo mismo, pero con las caras opuestas,
3) se arroja cada moneda separadamente.
Estos tres casos describen distribuciones conjuntas de X e Y diferentes. Sin
embargo, para cada una de ellas se tienen las mismas marginales:
P (X = 1) = P (X = 0) = P (Y = 1) = P (Y = 0) = 12 .
Nota 3.5.3 La distribución conjunta contiene más información que las marginales
pues contiene información sobre la dependencia entre ellas.
3.5.4. Independencia de variables aleatorias

Definición 3.5.6 Dos variables aleatorias X e Y son estadı́sticamente indepen-
dientes si se verifica
FXY (x, y) = FX (x)FY (y) para todo (x, y) ∈ IR2 .
La definición anterior es equivalente a : X e Y son estadı́sticamente indepen-
dientes si para todo A, B ∈ ß1 , los eventos [X ∈ A] y [Y ∈ B] son independientes,
esto es
P (X ∈ A, Y ∈ B) = P (X ∈ A)P (Y ∈ B).
Lema 3.5.3 Dos variables aleatorias X e Y son estadı́sticamente independientes
sii se verifica que
fXY (xi , yi ) = fX (xi )fY (yi )
para todo (xi , yi ) punto masa de (X, Y ), en el caso discreto,ó
fXY (x, y) = fX (x)fY (y),
para todo (x, y) ∈ IR2 , en el caso continuo.
También la independencia de X e Y equivale a que existan dos funciones reales,
g y h, tales que
fXY (x, y) = g(x)h(y),
para todo (x, y) ∈ IR2 .
81
Nota 3.5.4 De acuerdo al resultado anterior para verificar la independencia de

dos variables, basta factorizar su densidad conjunta como producto de una función
de x por alguna función de y, sin necesidad que dichos factores sean densidades
univariadas.
Ejemplo 3.5.5 En el esquema Bernoulli con probabilidad de éxito p, sea S:“número

de intento en el que se produce el primer éxito” y T :“número de intentos entre
el primer y el segundo éxito”, de modo que la variable U = S + T es el intento
en que se produce el segundo éxito. Mostraremos que S y T son estadı́sticamente
independientes.
En efecto, el evento [S = s, T = t] = [S = s, U = s + t] o sea que haya éxitos en
los intentos s y s + t y en los restantes haya fracasos. Luego
fS,T (s, t) = P [S = s, T = t] = p2 (1 − p)s+t−2 = p(1 − p)s−1 p(1 − p)t−1 = g(s)h(t),
lo que muestra que ambas variables son independientes. También se deduce en este
ejemplo que T ∼Ge(p), es decir la misma distribución que S y, en consecuencia, los
tiempos de espera entre éxitos sucesivos tienen la misma distribución que el tiempo
entre el comienzo y el primer éxito, lo que corresponde a la idea intuitiva que el
proceso no tiene memoria.
El concepto de independencia se extiende a más de dos variables.
Definición 3.5.7 Las variables aleatorias X1 , X2 , · · · , Xk son independientes si

k
Y
FX1 ,X2 ,··· ,Xk (x1 , x2 , · · · xk ) = FXi (xi ) para todo (x1 , x2 , · · · xk ) ∈ IRk .
i=1
o, equivalentemente, si para todo A1 , A2 , · · · , Ak ∈ ß1 los eventos [Xi ∈ Ai ]son

independientes.
Lema 3.5.4 Si X e Y son independientes, entonces g(X) y h(Y ) son independien-

tes, cualesquiera sean las funciones g y h, medibles borel.
Demostración
Sean A, B ∈ ß1 , entonces
P (g(X) ∈ A, h(Y ) ∈ B) = P (X ∈ g −1 (A), Y ∈ h−1 (B))

= P (X ∈ g −1 (A))P (Y ∈ h−1 (B))
= P (g(X) ∈ A)P (h(Y ) ∈ B)
2
82
3.6. Distribuciones Condicionales
Sean X e Y dos variables aleatorias definidas en el mismo espacio Ω. ¿Qué infor-
mación aporta X respecto de Y ?. Por ejemplo : si disponemos de un modelo para
la distribución conjunta de la temperatura máxima de hoy con la de mañana, este
análisis nos permitirı́a usar la primera para obtener una predicción de la segunda.
El concepto adecuado es el de distribución condicional.
3.6.1. Caso discreto

Si la variable X es discreta, sean x1 , x2 , · · · , xn , · · · , sus puntos masa. Para cada
xi la función de y
FY /X (y/xi ) = P (Y ≤ y/X = xi )
es una función de distribución llamada función de distribución acumulada de
Y dado X = xi . Note que para esta definición sólo hace falta que X sea discreta,
Y puede ser cualquiera.
Si además la variable conjunta (X, Y ) es discreta, la función
P (X = xi , Y = yj ) fXY (xi , yj )
fY /X (yj /xi ) = P (Y = yj /X = xi ) = = ,
P (X = xi ) fX (xi )
donde yj es un punto masa de Y , es la función de densidad discreta condicional
de Y dado X = xi e indica cómo se distribuyen los valores de Y para un valor dado
de X. Es claro que para cada xi se tiene
X
fY /X (yj /xi ) ≥ 0 y fY /X (yj /xi ) = 1.
j
lo que justifica que es una densidad discreta. P

Observemos que en este caso FY /X (y/xi ) = fY /X (yj /xi ).
j:yj ≤y
Ejemplo 3.6.1 Sean S y T las variables que representan los números de intentos en
los que ocurren el primer y segundo éxito en un esquema de Bernoulli. Encontremos
la distribución condicional de S dado T . La distribución conjunta de (S, T ) es
fST (s, t) = P (S = s, T = t) = (1−p)s−1 p(1−p)t−s−1 p = p2 (1−p)t−2 , para 0 ≤ s < t,
mientras que fT (t) = (t − 1)p2 (1 − p)t−2 , luego

fST (s, t) 1
fS/T (s/t) = = para 0 ≤ s ≤ t − 1,
fT (t) t−1
de modo que la distribución condicional de S dado T es uniforme entre 0 y t − 1.
Intuitivamente, saber que el segundo éxito ocurrió en el t−ésimo intento, no da
ninguna información sobre cuándo ocurrió el primero.
83
3.6.2. Caso continuo
Si X es continua, no se puede repetir exactamente el mismo camino que para el
caso discreto, ya que P (X = x) = 0 para todo x. Supongamos que (X, Y ) es una
variable bidimensional continua y C = {x : fX (x) > 0}. Para todo x ∈ C se define
la función densidad continua condicional de Y dado X = x como
fXY (x, y)
fY /X (y/x) = .
fX (x)
Es claro que para cada x ∈ C se cumple
Z ∞
fY /X (y/x) ≥ 0 y fY /X (y/x)dy = 1,
−∞
lo que justifica que es una densidad continua.La correspondiente función de distribu-

ción condicional es Z y
FY /X (y/x) = fY /X (t/x)dt.
−∞
Ejemplo 3.6.2 Supongamos que fXY (x, y) = (x + y)I(0,1) (x)I(0,1) (y), ya vimos, en
el Ejemplo 3.5.3, que fX (x) = (x + 1/2)I(0,1) (x), luego para x ∈ (0, 1) está definida
(x + y)
fY /X (y/x) = I(0,1) (y),
x + 12
y la función de distribución acumulada condicional es
Z y
(x + t)
FY /X (y/x) = 1 I(0,1) (t)dt
−∞ x + 2
Z y
(x + t)
= dt · I(0,1] (y)
0 x + 21
xy + y 2 /2
= · I(0,1] (y), para 0 < x < 1.
x + 1/2
A partir de la distribución condicional de Y dado X y de la distribución marginal

de X se puede obtener la marginal de Y . En efecto: puesto que de la definición de
densidad condicional resulta que fXY (x, y) = fY /X (y/x)fX (x), resulta para los casos
discreto y continuo, respectivamente, que
X X
fY (yj ) = fXY (xi , yj ) = fY /X (yj /xi )fX (xi ).
i i
y Z ∞ Z ∞
fY (y) = fXY (x, y)dx = fY /X (y/x)fX (x)dx.
−∞ −∞
84
Ejemplo 3.6.3 Se supone que la cantidad de accidentes de auto en un mes es una
variable P(λ), que la probabilidad de que un accidente resulte fatal es p, y que las
consecuencias de accidentes distintos son independientes, de modo que si X e Y
son las cantidades de accidentes en general y de accidentes fatales, la distribución
condicional de Y dado X = x es B(n, p), o sea que fY /X (y/x) = xy py (1 − p)x−y
para y ≤ x. Calculemos la distribución marginal de Y
X x λx (λp)y X ((1 − p)λ)x−y
fY (y) = py (1 − p)x−y e−λ = e−λ .
x≥y
y x! y! x≥y
(x − y)!
Haciendo en la sumatoria el cambio de ı́ndice k = x − y resulta

X ((1 − p)λ)x−y ∞
X ((1 − p)λ)k
= = e(1−p)λ ,
x≥y
(x − y)! k=0
k!
y por lo tanto
(λp)y
fY (y) = e−λp .
y!
Es decir que Y ∼P(λp), resultando bastante razonable, si se piensa en λ y p como
medias del total de accidentes y de fatalidades por accidente.
Condicionalidad e independencia
Ya vimos que la independencia de eventos está estrechamente relacionada con
la probabilidad condicional, análogamente la independencia de variables aleatorias
está muy relacionada con la distribución condicional de las variables aleatorias.
Por ejemplo, supongamos que X e Y son dos variables independientes, entonces
fXY (x, y) = fX (x)fY (y). Por otra parte sabemos que fXY (x, y) = fY /X (y/x)fX (x),
de modo que fY /X (y/x) = fY (y), es decir, la densidad condicional de Y es la densidad
marginal de Y , lo que es lógico, pues por ser X e Y independientes, dar un valor de
X no influye en Y . Luego para demostrar que dos variables son no independientes
es suficiente mostrar que fY /X (y/x) depende de x.
Ejemplo 3.6.4 Sea fXY (x, y) = (x + y)I(0,1) (x)I(0,1) (y). ¿Son X e Y independien-
tes?. Ya vimos en el Ejemplo 3.6.2 que fY /X (y/x) = (x+y) I (y) para 0 < x < 1, lo
x+ 12 (0,1)
que muestra que las dos variables no son independientes por depender la distribución
condicional de Y del valor x.
3.7. Cuestionario
1) ¿Cuál es el objetivo de definir variables aleatorias asociadas a un experimento?
2) Defina variable aleatoria y su clasificación, ejemplificando cada tipo.
85
3) Pruebe que todo intervalo de la recta puede escribirse a partir de intervalos
de la forma(−∞, x]con x ∈ IR. De aquı́ justifique porqué surge como natural
la definición de F.D.A. de una V.A
4) Enumere las propiedades que caracterizan a la F.D.A. de una variable aleato-
ria.
5) Defina función densidad en el caso discreto y en el caso continuo. Indique
diferencias relevantes entre ambas.
6) ¿En cuáles de los siguientes casos usarı́a la Distribución Binomial para modelar
la variable de interés?.En los casos afirmativos indique los valo-//res de n y p.
a) La variable cuenta el número de varones de un matrimonio que planea

tener exactamente cuatro hijos.
b) Se extraen sin reposición 10 naipes de una baraja española de 40 y la
variable de interés es el número de oros extraı́dos.
c) Idem b) pero con reposición.
d) Se arroja una moneda honrada 5 veces y luego una cargada 5 veces más.
La variable es el número de caras obtenido en los 10 lanzamientos.
e) Se arroja un dado equilibrado 12 veces. La variable de interés es el número
de resultados pares obtenido.
f) De un lote de 50 artı́culos de los cuales 15 son defectuosos se extraen,
al azar, 5 simultáneamente. La variable cuenta el número de artı́culos
defectuosos en la muestra de 15.
g) Un profesor está interesado en el número total de alumnos en una clase
de 200 que responde correctamente a una pregunta del tipo verdadero-
falso, suponiendo que cada alumno no tiene idea de la respuesta correcta
y responde al azar.
7) ¿En qué casos usa la Distribución de Poisson para modelar va?. Ejemplifique.
8) Indique la relación entre las siguientes distribuciones:
a) Poisson y Exponencial.
b) Poisson y Gama.
9) Generalice los conceptos de variable aleatoria discreta y continua al caso k-

dimensional.
10) Demuestre la equivalencia de las definiciones de variables aleatorias indepen-
dientes para el caso continuo, esto es pruebe que:
FXY (x, y) = FX (x) FY (y) ⇔ fXY (x, y) = fX (x) fY (y)
86
Capı́tulo 4
Valor medio y otros parámetros
En esta unidad se tratará el tema de cómo sintetizar las caracterı́sticas más

importantes de una distribución en unos pocos números.
4.1. Valor medio

El valor medio o valor esperado de una V.A. es esencialmente un promedio de
los valores que toma la variable, en el que cada valor recibe un peso igual a su prob-
abilidad. Tiene sus orı́genes con los juegos de azar cuando los apostadores deseaban
saber cuánto debı́an esperar ganar después de un gran número de apuestas.
Para entender esta relación supongamos que un jugador arroja una moneda hasta
obtener cara y tiene como máximo tres intentos, es decir el juego termina cuando
obtiene una cara o después de tres intentos , lo que ocurra primero. Si sale cara en
el primer intento gana $2, si sale en el segundo intento gana $4 y si sale en el tercero
gana $8, de lo contrario pierde $20. ¿Cúal es la cantidad esperada de dinero que el
jugador ganará o perderá después de realizar el juego una gran catidad de veces?.
Sea X la variable aleatoria que representa la cantidad de dinero que gana el
jugador en cada juego. Luego los valores que toma X con sus respectivas probabili-
dades son
x P (x)
2 1/2
4 1/4
8 1/8
−20 1/8
de modo que la “ganancia esperada” después de un gran número de jugadas es
1 1 1 1
µ=2· + 4 · + 8 · − 20 · = 0,50,
2 4 8 8
que no es un valor de la variable.
Este ejemplo nos conduce a dar la siguiente
87
Definición 4.1.1 Llamaremos valor esperado, valor medio o esperanza de
una V.A. X al valor
P
(i) E[X] = i xi fX (xi ) si X es discreta con puntos masa x1 , x2 , · · · ,
R∞
(ii) E[X] = −∞
xfX (x)dx si X es continua.
E[X] existe si la suma en (i) o la integral en (ii) que la define es absolutamente

convergente.
Nota 4.1.1 Escribiremos µX para denotar E[X], o simplemente µ cuando no haya

lugar a dudas sobre la variable involucrada.
Ejemplo 4.1.1 1) Sea X la variable “suma de los puntos obtenidos al arrojar

un par de dados”, entonces la distribución de X se dá en la siguiente tabla
x 2 3 4 5 6 7 8 9 10 11 12
P (x) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36
luego
1 2 1
+3·
µX = 2 · + · · · + 12 · = 7.
36 36 36
En este caso la esperanza es un valor de la variable, el más probable de ocurrir
y, como vimos, la distribución es simétrica respecto a ese valor.
2) Sea X una V.A exponencial con densidad fX (x) = 2e−2x I(0,∞) (x), luego
Z ∞ −2x
∞ e ∞ 1
µX = 2xe−2x dx = −xe−2x 0 + 0
= .
0 −2 2
Nota 4.1.2 µX es una medida de tendencia central, alrededor de la cual se concen-

tran los valores de X, es un promedio ponderado, donde reciben más peso los valores
más probables.
Se puede extender el concepto de esperanza para una función de una variable

aleatoria, como sigue
Definición 4.1.2 Dada una función g : IR → IR, el valor esperado de Y = g(X) se

define por
P
(i) E[g(X)] = i g(xi )fX (xi ) si X es discreta con puntos masa x1 , x2 , · · · ,
R∞
(ii) E[g(X)] = −∞
g(x)fX (x)dx si X es continua.
E[g(X)] existe si la suma en (i) o la integral en (ii) que la define es absolutamente

convergente.
88
Lema 4.1.1 Propiedades del valor esperado
El valor esperado verifica las siguientes propiedades
i) E[c] = c para c ∈ IR,
ii) E[c1 g1 (X) + c2 g2 (X)] = c1 E[g1 (X)] + c2 E[g2 (X)],
iii) Si g es no negativa, entonces E[g(X)] ≥ 0,
iv) Si g1 (x) ≤ g2 (x) para todo x ∈ IR, entonces E[g1 (X)] ≤ E[g2 (X)].
Ejercicio 4.1.1 Demuestre el lema anterior (es inmediato de propiedades de inte-

gral y series.)
Definición 4.1.3 Llamaremos varianza de una variable aleatoria X al valor var[X]

definido por
(i) var[X] = i (xi − µX )2 fX (xi ) si X es discreta con puntos masa x1 , x2 , · · · ,

P
R∞
(ii) var[X] = −∞ (x − µX )2 fX (x)dx si X es continua.
var[X] existe si la suma en (i) o la integral en (ii) que

p la define es convergente.
Llamaremos desvı́o estándar de X al valor σX = var[X].
2
Nota 4.1.3 Escribiremos σX para indicar la var[X] o simplemente σ 2 cuando no
2
haya lugar a dudas sobre la V.A. involucrada. Observemos que, por definición, σX =
2
E[(X − µX ) ].
Lema 4.1.2 Si E[X 2 ] < ∞, entonces existe σX

2
y se verifica que
2
σX = E[X 2 ] − µ2X .
Demostración
Como E[X 2 ] < ∞ entonces existe µX . Por otra parte
2
σX = E[(X − µX )2 ]
= E[X 2 − 2µX X + µ2X ]
= E[X 2 ] − 2µX E[X] + µ2X
= E[X 2 ] − µ2X .
2
Ejemplo 4.1.2 1) Si X representa la suma de puntos obtenidos en el experi-

mento de arrojar un par de dados, sabemos que µX = 7,luego
2 1 2 1 210
σX = (2 − 7)2 · + (3 − 7)2 · + · + (12 − 7)2 · =
36 36 36 36
89
2) Sea X la V.A exponencial con densidad fX (x) = 2e−2x I(0,∞) (x), luego
Z ∞
1
2
E[X ] = 2x2 e−2x dx = ,
0 2
por lo tanto
2 1 1 1 1
σX = E[X 2 ] − µ2X = − = ⇒σ= .
2 4 4 2
Nota 4.1.4 La varianza, al igual que el desvı́o estándar son medidas de dispersión
de la distribución de la variable. Miden cuánto, en promedio, se “alejan” los valores
de X de su media.
Lema 4.1.3 Propiedades de la varianza
La varianza de una variable aleatoria verifica las siguientes propiedades
i) var[c] = 0 para c ∈ IR,
ii) var[aX + b] = a2 var[X].
Desigualdad de Chebyshev
Sea X una V.A. con varianza finita σ 2 y media µ, queremos encontrar una cota
inferior para la probabilidad P (|X − µ| ≤ rσ) para r > 0, que nos permita tener una
idea de la proporción de valores de la distribución de X que se encuentra a r desvı́os
de la media, especialmente útil en los casos en que no se conoce la distribución.
La desigualdad de Chebyshev nos brinda esta cota y para demostrarla usamos el
siguiente
Teorema 4.1.1 Desigualdad de Markov
Sea X una V.A. y g : IR → IR una función no negativa, entonces
E[g(X)]
P (g(X) ≥ k) ≤ , para todo k > 0. (4,1)
k
Demostración
Lo probemos para X continua, el caso discreto es análogo, reemplazando inte-
grales por sumas. Sea A = {x : g(x) ≥ k}, entonces
Z ∞
E[g(X)] = g(x)fX (x)dx
−∞
Z Z
= g(x)fX (x)dx + g(x)fX (x)dx
A
Z IR−A
≥ g(x)fX (x)dx
A
Z
≥k fX (x)dx
A
= kP (X ∈ A),
90
y puesto que x ∈ A ⇔ g(x) ≥ k, se tiene que
E[g(X)]
E[g(X)] ≥ kP (g(X) ≥ k] ⇔ P (g(X) ≥ k) ≤ ,
k
pues k > 0. 2
Lema 4.1.4 Desigualdad de Chebyshev
Sea X una V.A. con varianza finita σ 2 y media µ, r > 0, entonces
1
P (|X − µ| < rσ) ≥ 1 − 2 . (4,2)
r
Ejercicio 4.1.3 Demuestre el lema anterior usando la desigualdad de Markov.
Ejemplo 4.1.3 Para cualquier V.A. X se tiene, de acuerdo con la desigualdad de
Chebyshev, que P (µ − 2σ < X < µ + 2σ) ≥ 43 , esto es, el 75 % de los valores de X
se encuentran a dos desvı́os de la media de su distribución. Gráficamente
4.1.1. Momentos de una distribución

Los momentos de una V.A., también llamados momentos de su distribución, son
valores numéricos que nos proporcionan información sobre ciertas caracterı́sticas de
la misma, tales como asimetrı́a, grado de “achatamiento” de la curva, medida de
tendencia central y dispersión.
Definición 4.1.4 Llamaremos r−ésimo momento no centradode la V.A. X al
valor
µ0r = E[X r ] (4,3)
y r−ésimo momento centrado alrededor de µX al valor
µr = E[(X − µX )r ]. (4,4)
91
2
Ası́, por ejemplo µ01 = E[X] = µX , µ2 = var[X] = µ02 − µ01 .
Es claro que µr puede obtenerse como función de los momentos no centrados, en
efecto
µr = E[(X − µ)r ]
" r #
X r
=E (−1)k µk X r−k
k=0
k
r
X r
= (−1)k µk E[X r−k ]
k=0
k
r
X r
= (−1)k µk µ0r−k
k=0
k
2
Ası́, por ejemplo, µ3 = µ03 − 3µµ02 + 3µ2 µ01 − µ3 = µ03 − 3µ01 µ02 + 2µ01 .
Simetrı́a y curtosis
Los momentos centrados de tercer y cuarto orden nos brindan información ac-
erca de la asimetrı́a de la distribución y del grado de “achatamiento” de la misma
alrededor de µ, respectivamente.
Se define el coeficiente de asimetrı́a como
µ3
α3 = 3 . (4,5)
σ
Para distribuciones unimodales, es decir con un único modo o valor de mayor
densidad, se tiene
si α3 > 0, la distribución se dice asimétrica positivamente y es sesgada a

derecha,
si α3 < 0, la distribución se dice asimétrica negativamente y es sesgada a

izquierda,
si α3 = 0 se dice simétrica.
Nota 4.1.5 α3 mide la simetrı́a de la curva, relativa a la dispersión. Puede probarse

que si la densidad es simétrica alrededor de µ, entonces µr = 0 para todo r impar.
Se define el coeficiente de curtosis como

µ4
α4 = 4 . (4,6)
σ
si α4 > 3, se dice que la densidad es más “picuda”, alrededor de µ, que la
normal,
92
si α4 < 3,se dice que la densidad es más “achatada”, alrededor de µ, que la
normal,
si α4 = 3 el grado de “achatamiento” de la densidad, alrededor de µ es normal.
En a) la distribución es asimétrica positivamente, en b) asimétrica negativamente

y en c) es simétrica.
Del gráfico que sigue, en a) α4 > 3, en b)α4 < 3 y en c) α4 = 3.
El valor 3 con que se compara es el coeficiente de curtosis de una distribución normal

(probarlo).
93
Otras medidas importantes
Además de la media existen otras medidas de tendencia central que pueden usarse
y que para algunas distribuciones son más representativas, tales como la mediana y
el modo.
Definición 4.1.5 Dada una V.A. X se llama mediana de la distribución de X al

valor M e definido por
i) P (X < M e) ≤ 1/2 y P (X ≤ M e) ≥ 1/2 para X discreta,

ii) P (X ≤ M e) = 1/2 para X continua.
Es decir la mediana es el valor que acumula por lo menos el 50 % de los valores de

la distribución.
Ejemplo 4.1.4 1) Sea X la variable que denota la suma de los puntos obtenidos
al arrojar un par de dados, entonces
15 1 21 1
P (X < 7) = < y P (X ≤ 7) = > ,
36 2 36 2
luego M e = 7 es decir, en este caso, coincide con la media como era de esperar
por ser la distribución de X simétrica alrededor de µ = 7.
2) Sea Y una V.A. con densidad fY (y) = 2e−2y I(0,∞) (y), entonces
R M e −2y Me
0
2e dy = 12 ⇒ −e−2y o = 12 ⇒ 1 − e−2M e = 21 ⇒ −2M e = − ln 2 ⇒
M e = ln22
En este caso M e < µX como era de esperar pues la densidad es sesgada a
derecha.
La mediana es un caso particular de cuantil de la distribución cuya definición

sigue.
Definición 4.1.6 Dada una V.A. X se llama q−ésimo cuantil, 0 < q < 1, de la
distribución de X al valor xq definido por
i) P (X < xq ) ≤ q y P (X ≤ xq ) ≥ q para X discreta,

ii) P (X ≤ xq ) = q para X continua.
Es decir el q−ésimo cuantil es el valor que deja a su izquierda una proporción de

por lo menos q de la distribución de X.
Definición 4.1.7 Dada una V.A. X se llama modo de la distribución de X al

valor M o de mayor densidad, esto es
fX (M o) ≥ fX (x) para todo x.
94
Nota 4.1.6 La M e es una medida de tendencia central más apropiada que la media
para distribuciones muy sesgadas, por no estar afectada por la presencia de valores
extremos.
Existen distribuciones donde no existe el modo y otras donde existe pero no es
único, por ejemplo, para una distribución uniforme el modo no existe y para la
normal se tiene que M o = M e = µ.
Definición 4.1.8 Función generadora de momentos
La función generadora de momentos(F.G.M.) de una V.A. X, denotada por

mX (t),es la función definida por
mX (t) = E[etX ], (4,7)
si dicho valor esperado existe para t en algún entorno del orı́gen.
La función definida recibe este nombre debido a que, si existe, permite obtener los
momentos no centrados de X a partir de sus derivadas sucesivas en el orı́gen. En
efecto: si existe mX , entonces la serie o integral que la define es absolutamente
convergente y resulta infinitamente diferenciable. Se tiene que
Z ∞
dr mX dr

tx
(t) = r e fX (x)dx
dtr dt −∞
Z ∞ r
d tx
= r
(e )fX (x)dx
−∞ dt
Z ∞
= xr etx fX (x)dx.
−∞
Por lo tanto
dr mX
(t) t=0
= µ0r .
dtr
.
Hemos supuesto que X es continua, si es discreta se llega a la misma conclusión
trabajando con series en lugar de integrales. De modo que, si existe,
∞
X µ0 r r
mX (t) = t
r=0
r!
.
Ejemplo 4.1.5 Encontremos la F.G.M. de una V.A. X ∼B(n, p):
n
X
txn x
mX (t) = e p (1 − p)n−x
x=0
x
n
X n
= (pet )x (1 − p)n−x
x=0
x
n
= pet + q
95
Luego
dmX n−1
µX = (t) t=0
= n pet + q pet t=0
= np
dt
y
d2 mX h n−1 n−2 i
µ02 = (t) t=0
= npet pet + q + np2 e2t (n − 1) pet + q t=0
dt2
2
= np + np (n − 1).
2
Por lo tanto σX = µ02 − µ2X = np + np2 (n − 1) − n2 p2 = np(1 − p) = npq.
Ejercicio 4.1.4 Pruebe que

t
1) Si X ∼P(λ), entonces mX (t) = eλ(e −1) , µX = λ y σX 2
= λ.
r
p
2) Si X ∼B.N.(r, p), entonces mX (t) = 1−qe t , µX = rqp y σX
2
= rq
p2
.
nk(N −k) N −n
3) Si X ∼Hi(N, k, n), entonces µX = n Nk y σX
2

= N2 N −1
.
k N −n
2

Luego si llamamos p = N
entonces µX = np y σX = npq N −1
con q = 1 − p.
2 k
Si N es grande vemos que σX se aproxima a una binomial con p = N
.(la
n
aproximación es buena para N < 0,05).
λ 1 2 1
4) Si X ∼E(λ), entonces mX (t) = λ−t
para t < λ, µX = λ
y σX = λ2
.
λ r r r
2
5) Si X ∼G(r, λ), entonces mX (t) = λ−t
para t < λ, µX = λ
y σX = λ2
.
1 2 2
6) Si X ∼ N (µ, σ 2 ), entonces mX (t) = etµ+ 2 t σ 2
, µX = µ y σX = σ2.
X−µ
(Sugerencia: probarlo para N (0, 1) y luego usar la transformación Z = σ
para el caso general)
Regla 68 − 95 − 99,7 para una Normal

Sea X ∼N(µ, σ 2 ) y encontremos las probabilidades P (µ − kσ < X < µ + kσ)
para k = 1, 2, 3.
X−µ
P (µ−σ < X < µ+σ) = P (−1 < σ
< 1) = Φ(1)−Φ(−1) = 2Φ(1)−1 = 0,68
luego el 68 % del área bajo una densidad normal se encuentra a un desvı́o de
la media.
X−µ
P (µ − 2σ < X < µ + 2σ) = P (−2 < σ
< 2) = Φ(2) − Φ(−2) = 2Φ(2) − 1 =
0,95
luego el 95 % del área bajo una densidad normal se encuentra a dos desvı́os de
la media.
96
X−µ
P (µ − 3σ < X < µ + 3σ) = P (−3 < σ
< 3) = Φ(3) − Φ(−3) = 2Φ(3) − 1 =
0,997
luego el 99,7 % del área bajo una densidad normal se encuentra a tres desvı́o
de la media.
Este hecho se usa para asignar normalidad a una distribución de frecuencias; es

decir brinda una regla para decidir si un conjunto de datos puede provenir de una
distribución normal, una vez realizado un histograma o diagrama de tallo y hojas
para visualizar si presenta comportamiento no normal,tales como outliers o sesgo
pronunciado.
Ejercicio 4.1.5 Un producto es empaquetado con una etiqueta que establece un peso
neto de 250gr. Al gerente de producción le gustarı́a que los paquetes se llenen con al
menos de 250gr y no más de 258gr. Para chequear la performance de este objetivo,
se tomó una muestra aleatoria de 60 paquetes y se pesó cada uno de ellos. Los
resultados, redondeados al gramo más próximo, son los siguientes
251 258 256 260 255 255 261 257 258 257
257 257 255 257 254 257 255 256 249 257
255 255 255 254 255 256 259 257 251 253
256 257 257 253 256 255 256 251 254 260
250 253 253 259 250 252 258 261 257 259
252 256 258 252 254 254 252 258 256 253
(a) Encouentre la media x y el desvı́o estándar s de los datos.
(b) Confeccione un diagrama de tallo y hojas o un histograma de los datos. De-

scribir la distribución.
(c) Halle el porcentaje de observaciones dentro de un, dos y tres desvı́os de la

media, es decir el porcentaje de datos que caen en el intervalo [x − ks, x + ks]
para k = 1, 2, 3.
(d) ¿Pueden provenir estos datos de una distribución normal?. Explique.
(e) Reporte sus resultados al gerente de producción y establecer su valoración ac-

erca de cumplir el objetivo de llenar con al menos 250gr y no más de 258gr.
4.1.2. Valor esperado para funciones de variables aleatorias

bidimensionales
Las nociones de valor esperado se generalizan al caso multivariado.
Definición 4.1.9 Si (X, Y ) es un vector aleatorio y g : IR2 → IR una función, el

valor esperado o esperanza de g(X, Y ) se define por
97
P
i) E[g(X, Y )] = i g(xi , yi )fXY (xi , yi ) si (X, Y ) es discreto con puntos masa
(x1 , y1 ), (x2 , y2 ), · · · ,
R∞ R∞
ii) E[g(X, Y )] = g(x, y)fXY (x, y)dxdy si (X, Y ) es continuo.
−∞ −∞
E[g(X, Y )] existe si la serie en i) o la integral en ii) son absolutamente convergentes.
Lema 4.1.5 El valor esperado verifica las siguientes propiedades:
1) E[c1 g1 (X, Y ) + c2 g2 (X, Y )] = c1 E[g1 (X, Y )] + c2 E[g2 (X, Y )], para c1 , c2 ∈ IR,
2) Si X e Y son independientes entonces
E[g(X)h(Y )] = E[g(X)]E[h(Y )]
cualesquiera sean las funciones g y h.
Definición 4.1.10 Llamaremos covarianza entre X e Y al valor
cov(X, Y ) = E[(X − µX )(Y − µY )], (4,8)
y coeficiente de correlación al valor
cov(X, Y )
ρXY = , si σX > 0 y σY > 0. (4,9)
σX σY
Tanto la covarianza como el coeficiente de correlación sirven para medir la de-

pendencia lineal entre las variables X e Y . La covarianza depende de la variación
individual de cada variable, mientras que ρXY elimina esa dependencia al dividir la
covarianza en el producto de los desvı́os. Algunas veces escribiremos ρ en lugar de
ρXY .
Lema 4.1.6 El coeficiente de correlación verifica las siguientes propiedades
i) |ρ| ≤ 1,
ii) |ρ| = 1 si y sólo si Y es combinación lineal de X, con probabilidad 1, es decir

existen constantes a y b tales que P (Y = a + bX) = 1.
Demostración
Probemos primero la desigualdad de Cauchy-Shwartz:
|E[U V ]|2 ≤ E[U 2 ]E[V 2 ], (4,10)
98
para cualquier par de variables aleatorias U y V y vale la igualdad en (4.10) si y
sólo si P [V = cU ] = 1, para alguna constante c. En efecto: sea
h(t) = E (tU − V )2 , para t ∈ IR,

luego h(t) = E[U 2 ]t2 − 2E[U V ]t + E[V 2 ] ≥ 0 para todo t ∈ IR, es decir h(t) es una
función cuadrática no negativa, lo que implica que su discriminante
4 (E[U V ])2 − 4E[U 2 ]E[V 2 ] ≤ 0,
de donde resulta (4.10). Además vale la igualdad si y sólo si existe t0 ∈ IR tal que
E [(t0 U − V )2 ] = 0 esto es, si y sólo si,P (V = t0 U ) = 1.
Usando la desigualdad de Cauchy-Shwartz con U = X − µX y V = Y − µY , se
tiene que
p p
|E [(X − µX )(Y − µY )] | ≤ E [(X − µX )2 ] E [(Y − µY )2 ] ⇒ |ρXY | ≤ 1,
y vale la igualdad si y sólo si P (Y − µY = t0 (X − µX )) = 1 para alguna constante
t0 , esto es si y sólo si P (Y = a + bX) = 1 para constantes a y b. 2
Nota 4.1.7 El lema anterior nos aclara porqué ρ mide el grado de relación lineal
entre dos variables aleatorias. Un valor de ρ cercano a 1, en valor absoluto, nos
dirá que X e Y tienen un alto grado de relación lineal.
Definición 4.1.11 Dos variables aleatorias X e Y son no correlacionadas si

cov(X, Y ) = 0
Es claro que si X e Y son independientes, entonces son no correlacionadas, pues

en este caso E[XY ] = E[X]E[Y ], lo que implica que cov(X, Y ) = E[XY ] − µX µy =
0. La recı́proca no es cierta como lo muestra el siguiente ejemplo.
Ejemplo 4.1.6 Sea U ∼U(0, 1), definimos las V.A.
X = cos2πU
Y = sen2πU
luego X e Y no son independientes, pues X 2 + Y 2 = 1. Veamos que son no correla-
cionadas. XY = cos2πU sen2πU = g(U ), luego:
Z 1
E[XY ] = E[g(U )] = cos2πusen2πudu
0
Z 1
sen4πu
= du
0 2
−cos4πu 1
= 0
8π
= 0.
99
Por otra parte
Z 1
E[X] = E[g1 (U )] = cos2πudu
0
sen2πu 1
= 0
2π
= 0,
y
Z 1
E[X] = E[g2 (U )] = sen2πudu
0
−cos2πu 1
= 0
2π
= 0.
luego cov(X, Y ) = 0.
Lema 4.1.7 Sean a1 , a2 , · · · , an ∈ IR,y X1 , X2 , · · · , Xn variables aleatorias, en-

tonces se verifica que
Xn n
X XX
var[ ai Xi ] = a2i var[Xi ] + ai aj cov[Xi , Xj ]. (4,11)
i=1 i=1 i6=j j6=i
En particular, si X1 , X2 , · · · , Xn son independientes, entonces

Xn n
X
var[ ai Xi ] = a2i var[Xi ], (4,12)
i=1 i=1
y si además son idénticamente distribuı́das con media µ y varianza σ 2 , entonces

" n #
X Xi σ2
var[X] = var = . (4,13)
i=1
n n
Demostración
100
 !2 
Xn n
X Xn
var[ ai Xi ] = E  ai Xi − E[ ai Xi ] 
i=1 i=1 i=1
 !2 
n
X
=E ai (Xi − E[Xi ]) 
i=1
" n
#
X XX
=E a2i (Xi − E[Xi ])2 + ai aj (Xi − E[Xi ])(Xj − E[Xj ])
i=1 i6=j j6=i
n
X XX
a2i E (Xi − E[Xi ])2 +

= ai aj E [(Xi − E[Xi ])(Xj − E[Xj ])]
i=1 i6=j j6=i
Xn XX
= a2i var[Xi ] + ai aj cov[Xi , Xj ].
i=1 i6=j i6=i
Por otra parte, (4.12) resulta de (4.11) y del hecho que cov[Xi , Xj ] = 0 si las va-
riables son independientes, y (4.13) resulta de (4.12) tomando ai = n1 , i = 1, 2, · · · , n.
2
4.1.3. Función generadora de momentos para un vector aleato-

rio
Definición 4.1.12 Sea (X, Y ) una V.A. bidimensional, la función generadora
de momentos de (X, Y ) se define como
mXY (t1 , t2 ) = E[et1 X+t2 Y ], (4,14)
si este valor esperado existe para (t1 , t2 ) en un entorno del orı́gen.
Lema 4.1.8 1) X e Y son independientes si y sólo si
mXY (t1 , t2 ) = mX (t1 )mY (t2 ), para todo t1 , t2 .
2)
mX (t1 ) = mXY (t1 , 0)

mY (t2 ) = mXY (0, t2 )
dr+s mXY
3) (t1 , t2 ) = E[X r Y s ].
dtr1 dts2 (t1 ,t2 )=(0,0)
101
4.2. Esperanzas condicionales
Definición 4.2.1 Sea (X, Y ) una variable aleatoria bidimensional y g : IR2 → IR.
La esperanza condicional de g(X, Y ) dado X = x se define por
Z ∞
E [g(X, Y )/X = x] = g(x, y)fY /X (y/x)dy,
−∞
si (X, Y ) es continua, y
X
E [g(X, Y )/X = x] = g(x, yj )fY /X (yj /x),
j
si (X, Y ) es discreta.
En particular, si g(x, y) = y, tenemos definida E [Y /X = x] = E [Y /x], llamada
media condicional de Y dado X = x por ser la media de tal distribución condicional.
Ejemplo 4.2.1 Para fXY (x, y) = (x+y)I(0,1) (x)I(0,1) (y) encontramos, en el capı́tulo
x+y
anterior, que fY /X (y/x) = x+1/2 I(0,1) (y) para 0 < x < 1. Luego la media condicional
de Y dado x es
x
1
+ 31
Z
x+y 2
E [Y /x] = y dy = ,
0 x + 12 x + 21
para x ∈ (0, 1).
Como, cualquiera sea g, E [g(Y )/x] es una función de x, la denotemos por h(x),
es decir, h(x) = E [g(Y )/x]. Encontremos la esperanza de h(X)
Z ∞
E [E [g(Y )/x]] = E[h(X)] = h(x)fX (x)dx
Z−∞
∞
Z ∞
= g(y)fY /X (y/x)dy fX (x)dx
−∞ −∞
Z ∞Z ∞
= g(y)fY /X (y/x)fX (x)dydx
−∞ −∞
Z ∞Z ∞
= g(y)fXY (x, y)dydx = E[g(Y )].
−∞ −∞
Luego tenemos probado el siguiente teorema (para variables conjuntamente discretas

se demuestra en forma análoga.)
Teorema 4.2.1 Sea (X, Y ) una variable aleatoria bidimensional y g : IR → IR una
función, entonces
E [g(Y )] = E [E[g(Y )/X]] , (4,16)
y en particular
E[Y ] = E [E[Y /X]] . (4,17)
102
Definición 4.2.2 E[Y /X = x] se llama curva de regresión de Y sobre x.
También se denota por µY /X=x = µY /x .
Definición 4.2.3 La varianza de Y dado X = x, definida por
var [Y /X = x] = E Y 2 /X = x − (E [Y /X = x])2 .

(4,18)
Teorema 4.2.2
var[Y ] = E [var [Y /X]] + var [E[Y /X]] .
Demostración
E [var[Y /X]] = E E[Y 2 /X] − E (E[Y /X])2

= E[Y 2 ] − (E[Y ])2 − E (E[Y /X])2 + (E[Y ])2

= var[Y ] − E (E[Y /X])2 + (E [E[Y /X]])2

= var[Y ] − var [E[Y /X]] ,

lo que prueba el teorema. 2
Daremos un teorema más fuerte, cuya demostración se deja como ejercicio y se
puede extender a k− dimensiones, para k > 2.
Teorema 4.2.3 Sea (X, Y ) una variable aleatoria bidimensional, g1 y g2 funciones

de una variable, entonces
i) E [g1 (Y ) + g2 (Y )/X = x] = E [g1 (Y )/X = x] + E [g2 (Y )/X = x],

ii) E [g1 (Y ) · g2 (X)/X = x] = g2 (x)E [g1 (Y )/X = x].
Ejercicio 4.2.1 Demuestre el teorema anterior.
4.3. Predicción
Supongamos que disponemos de un modelo para la distribución conjunta de
la temperatura máxima de hoy con la de mañana y deseamos predecir esta última
conociendo la primera. Formalmente: se busca aproximar a Y (temperatura máxima
de mañana) con una función de X(temperatura máxima de hoy). Es decir, se busca
una función g : IR → IR tal que Y − g(X) sea “lo más pequeña posible”. Este
problema se denomina en general “predicción”.
Una forma de plantear el problema es minimizar alguna medida del error. El
criterio más usual es el “error medio cuadrático”(E.M.C.):
e(g) = E (Y − g(X))2 .

(4,19)
Se buscará entonces g de modo que haga mı́nimo e(g).
103
4.3.1. Predicción lineal
Para comenzar con un caso simple, trataremos el problema en que g es una
función lineal, es decir de la forma g(x) = a + bx. En este caso
e(g) = E (Y − a − bX)2 ,

(4,20)
y hay que buscar las constantes a y b que minimicen (4.20).

Desarrollando en la expresión anterior el cuadrado, e igualando a 0 las derivadas
parciales respecto de a y de b, se obtiene la solución
c
a = µY − bµX , b = 2
, (4,21)
σX
2
donde µX y σX son, respectivamente, la media y varianza de X, µY y σY2 la media y
varianza de Y , y c = cov(X, Y ).
Por lo tanto la g óptima es
x − µX
g(x) = µY + c 2
. (4,22)
σX
El E.C.M. mı́nimo es
emin = E (Y − µY − b(X − µX ))2 = σY2 + b2 σX

2

− 2bc
2
c
= σY2 − 2 = σY2 (1 − ρ2 ).
σX
La expresión anterior permite una interpretación intuitiva de ρ como medida de
“dependencia lineal”. En efecto, ρ = 0 (X e Y no correlacionadas) nos lleva a que
la pendiente b = 0, lo que significa que usar funciones lineales de X para aproximar
a Y , es lo mismo que nada. En cambio |ρ| = 1 implica que emin = 0 y además, por
el Lema 4.1.6 que, Y es igual (con probabilidad 1) a una función lineal de X, con
pendiente de igual signo que ρ.
4.3.2. Predicción general

Ahora buscamos minimizar el E.C.M. sin restricciones sobre g. La solución al
problema general la da el siguiente
Teorema 4.3.1 Sea g(x) = E [Y /X = x] para x ∈ C = {x : fX (x) > 0}. Entonces

g minimiza el E.C.M.
Demostración La hacemos para el caso discreto. Notemos que cualquiera sea

g el E.C.M. es
XX X X
(y − g(x))2 fXY (x, y) = fX (x) (y − g(x))2 fY /X (y/x).
x y x∈C y
104
. La constante c que minimiza (y − c)2 fY /X (y/x)
P P
Para cada x, basta con minimizar la
y y
es (derivando) X
c= yfY /X (y/x) = E [Y /X = x] .
y
La demostración para el caso continuo sigue el mismo esquema. 2
4.4. Cuestionario
1) En la definición de media de una variable aleatoria, ¿porqué es necesario pedir

que la serie o integral que la define sea absolutamente convergente?
2) Dé la interpretación de media de la distribución de una variable aleatoria. ¿Es
esta medida de tendencia central la más representativa en todos los casos?
Justifique.
3) Proporcione un ejemplo de distribución donde la mediana sea más adecuada
que la media como medida de tendencia central y otra donde media, mediana
y modo coincidan.
4) Proporcione ejemplos de:
a) distribución unimodal.
b) distribución bimodal.
c) distribución donde no exista el modo.
5) ¿A cuántos desvı́os de la media el área bajo una densidad supera a 89 ?

6) Se define el coeficiente de variación de una distribución al valor:
σ
C.V =
µ
Este mide la dispersión de la distribución relativa a µ. Si el C.V de una variable
aleatoria X es menor que el de una variable aleatoria Y , ¿para cuál de las dos
distribuciones su media representa mejor a los datos? Justifique.
7) Sean X1 , X2 , · · · , Xn variables aleatorias independientes para las cuales existe
Pn
mXi (t). Demuestre que si Y = Xi entonces existe mY (t) y se verifica:
i=1
n
Y
mY (t) = mXi (t)
i=1
105
8) Encuentre el coeficiente α3 para la distribución B(n, p) e indique para qué val-
ores de n y/o p la distribución es asimétrica positivamente, asimétrica negati-
vamente o simétrica.
9) Idem ejercicio 8) para la distribución P (λ).
10) Dado un conjunto de datos,indique qué pasos debe seguir para asignar norma-
lidad a los mismos. Elija un conjunto de datos del práctico 1 o de la bibliografı́a
y determine si puede suponer que provienen de una distribución normal.
106
Bibliografı́a
[1] Alliaga, Martha.Interactive Statictics
[2] Calot,Gerard .Estadı́stica Descriptiva.
[3] Canavos, George.Probabilidades y Estadı́stica.
[4] Feller (vol. 1 y 2),Introducción a la Teorı́a de Probabilidad y sus Apli-

caciones.
[5] Freeman Harold,Introducción a la Inferencia estadı́stica.
[6] Marona Ricardo,Probabilidad y Estadı́stica Elementales
[7] Mood A.M., Introducción a la Teorı́a de Estadı́stica.
107

Notas de Estadística

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Notas de Estadística

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD NACIONAL

Facultad de Filosofı́a, Humanidades y Artes

Lilian Adriana Mallea

1. Generalidades y Estadı́stica Descriptiva 5

4. Valor medio y otros parámetros 87

El propósito de este material es presentar los conceptos básicos de Estadı́stica

Lilian Adriana Mallea

1.2. La estadı́stica y el método cientı́fico

1- formula una teorı́a.

2- colecciona datos para testear o probar la teorı́a.

3- analiza los resultados.

4- interpreta los resultados; toma una decisión.

1.3. ¿Para qué sirve la Estadı́stica?

Supongamos que usted es un comerciante y tiene en su depósito 1000 unidades

Desea conocer la estatura promedio de los varones argentinos de edades com-

Estadı́stica Descriptiva: cuyo objetivo es examinar a todos los individuos

Estadı́stica Inferencial: permite, mediante el estudio de una muestra ,sacar

Introducimos a continuación la terminologı́a y definiciones propias de esta disci-

La Estadı́stica Inferencial es el proceso de extraer conclusiones acerca de la

1.4. Resumiendo datos gráficamente

Sujeto Sexo Edad Dosis Presion sanguinea Presion sanguinea

Como otro ejemplo, el conjunto de datos que sigue dá la longitud en cm de 20

¿Qué notamos acerca de estos conjuntos de datos?. Las caracterı́sticas sobre

Definición 1.4.1 Una observación es la información o caracterı́stica registrada

1.4.1. Tipos de variables

1.4.2. Distribución de una variable

Definición 1.4.3 Se denomina frecuencia absoluta de un valor a la cantidad de

Si una variable cuantitativa discreta toma los valores ordenados distintos x1 , x2 , · · · , xk ,

y frecuencia acumulada relativa al valor

Consideremos ahora la variable continua edad del paciente y realicemos el re-

agregamos en la última columna la marca de cada clase, denotada por mi para

Existe una fórmula que brinda la cantidad aproximada de intervalos a tomar de

Una fórmula más adecuada, utilizada por el paquete estadı́stico InfoStat, es

1.4.3. Diagrama de tallo y hojas

Pasos básicos para construirlo

Unimos cada hoja el tallo correspondiente.

Agregamos las hojas en forma creciente hacia la derecha.

1.4.4. Gráfico de curva simple

Tendencias: creciente o decreciente, cambios en la localización del centro,

Variación estacional o ciclos: movimientos crecientes o decrecientes a pe-

a) ¿qué nos dicen los datos?

2) Los siguientes datos muestran el número de empleados que llegaron tarde a la

Examine los datos a través de un gráfico de series de tiempo y comente lo que

1.4.5. Gráficos para las variables cualitativas

1.5.1. Midiendo el centro

La media es sensible a la presencia de observaciones extremas.

Ejercicio 1.5.1 Los sueldos de cinco empleados de la sección de manteni-

El puntaje medio de 3 estudiantes es 54 y el puntaje medio de otros 4 estudi-

Definición 1.5.1 La mediana de un conjunto de n observaciones, ordenadas en

La mediana se denota por M e. Si el número de observaciones n es impar, la

Ejemplo 1.5.2 La mediana de las edades de los 20 pacientes calculamos n+1 2

Ejercicio 1.5.2 Encuentre la M e para el número de niños en un hogar, para esta

a) ¿Qué ocurre con la mediana si la quinta observación hubiese sido registrada

b) ¿Qué ocurre con la mediana si la tercer observación fuese incorrectamente

Nota 1.5.1 :la mediana es resistente o robusta a la presencia de valores extremos.

En el caso de este último tipo de distribuciones se prefiere a la mediana como me-

1.5.2. Midiendo la variación o dispersión

Para ambas listas se tiene que x = M e = M o = 60 , sin embargo observamos

Gráfico de caja y bigotes

los extremos de la caja son Q1 y Q3

se dibuja una lı́nea dentro de la caja en la M e

a partir de los cuartiles Q1 y Q3 se extienden lı́neas, llamadas bigotes, hasta

Algunas modificaciones que se incorporan al boxplot básico permiten visualizar

se calcula la cantidad 1,5 × RIC, llamada “salto”,