Documentos de Académico
Documentos de Profesional
Documentos de Cultura
DE SAN JUAN
Notas de Estadı́stica
Descriptiva y
Teorı́a de Probabilidad
Año: 2021
Índice general
2. Teorı́a de Probabilidad 35
2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.2. El Lenguaje de Probabilidad . . . . . . . . . . . . . . . . . . . . . . . 42
2.2.1. Espacio muestral y eventos . . . . . . . . . . . . . . . . . . . . 42
2.2.2. Reglas de Probabilidad . . . . . . . . . . . . . . . . . . . . . . 45
2.2.3. Probabilidad Condicional . . . . . . . . . . . . . . . . . . . . . 47
2.2.4. Independencia de eventos . . . . . . . . . . . . . . . . . . . . 48
2.3. Cuestionario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3. Variable Aleatoria 54
3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.1.1. Variables Aleatorias Discretas . . . . . . . . . . . . . . . . . . 58
3.1.2. Distribuciones discretas importantes . . . . . . . . . . . . . . 60
3.2. Variables Aleatorias Continuas . . . . . . . . . . . . . . . . . . . . . . 65
3.2.1. Distribuciones continuas importantes . . . . . . . . . . . . . . 66
3.3. Aproximaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
2
3.3.1. Aproximación de Binomial a Poisson . . . . . . . . . . . . . . 72
3.3.2. Aproximación de Binomial a Normal . . . . . . . . . . . . . . 72
3.3.3. Aproximación de Poisson a Normal . . . . . . . . . . . . . . . 73
3.4. Transformaciones de variables aleatorias . . . . . . . . . . . . . . . . 74
3.5. Distribución conjunta de variables aleatorias . . . . . . . . . . . . . . 75
3.5.1. Distribuciones conjuntas discretas . . . . . . . . . . . . . . . . 76
3.5.2. Distribuciones conjuntas continuas . . . . . . . . . . . . . . . 77
3.5.3. Distribuciones marginales . . . . . . . . . . . . . . . . . . . . 79
3.5.4. Independencia de variables aleatorias . . . . . . . . . . . . . . 81
3.6. Distribuciones Condicionales . . . . . . . . . . . . . . . . . . . . . . . 83
3.6.1. Caso discreto . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
3.6.2. Caso continuo . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
3.7. Cuestionario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
3
Prólogo
4
Capı́tulo 1
Generalidades y Estadı́stica
Descriptiva
1.1. Introducción
Para la gente común la palabra estadı́stica significa números. Ası́ los medios de
comunicación nos muestran a diario distintas estadı́sticas: números de asesinatos,
estadı́sticas acerca de la mano de obra en el paı́s tal como número de desempleados;
o las últimas estadı́sticas sobre el número de nacimientos y muertes durante un
cierto perı́odo de tiempo. Si bien ejemplos como éstos, forman parte del concepto
total de “estadı́stica”, la palabra tiene un sentido más amplio para las personas que
requieren un conocimiento más técnico de esta disciplina.
La Estadı́stica actual es el resultado de la unión entre dos disciplinas que evolu-
cionan independientemente hasta confluir en el siglo XIX: la primera es el cálculo de
probabilidades, que nace en el Siglo XVII con los juegos de azar (Se considera como
orı́gen del cálculo de probabilidades la resolución del Problema de los Puntos en la
correspondencia entre Pascal y Fermat en 1654. Éste fue planteado a los mismos por
Chevalier de Meré y consistió en cómo debı́a repartirse el dinero de las apuestas,
si el juego es interrumpido), la segunda es la Estadı́stica( o ciencia del estado, del
latı́n Status) que estudia la descripción de datos, y tiene sus raı́ces más antiguas
(los romanos ya hacı́an censos, inventarios,etc.) aunque el primer intento de aplicar
un razonamiento propiamente estadı́stico a datos demográficos es debido a Graunt,
en 1662. La integración de ambas lı́neas de pensamiento da lugar a una ciencia que
estudia cómo obtener conclusiones de la investigación empı́rica mediante el uso de
modelos matemáticos.
La estadı́stica actúa como puente entre los modelos matemáticos y los fenómenos
reales. Un modelo matemático es una abstracción simplificada de una realidad más
compleja y siempre existirá una discrepancia entre lo observado y lo previsto por el
modelo. La estadı́stica proporciona una metodologı́a para evaluar estas discrepan-
cias. Por lo tanto su estudio es básico para todos aquellos que deseen trabajar en
ciencia aplicada (Tecnologı́a, Economı́a, Sociologı́a) que requiere el análisis de datos
5
y diseño de experimentos. La estadı́stica es la metodologı́a del método Cientı́fi-
co(Mood, 1972).
Comenzamos con una teorı́a. Supongamos, por ejemplo, que fabricamos un pro-
ducto y recientemente algunos clientes se han quejado devolviendo el producto,
argumentando que no funciona como esperaban. Reconocemos ésta como una opor-
tunidad para mejorar.
6
Las descripciones ofrecidas por los clientes pueden llevar a una teorı́a acerca de
cuáles son las causas por las que el producto no funciona correctamente. Deseamos
poner a prueba esta teorı́a. Coleccionamos datos para ayudar a verificar la teorı́a.
Podemos introducir cambios en el proceso de producción de nuestro producto y
medir el funcionamiento de algunos productos elaborados después de éstos cambios.
Esas mediciones constituyen los datos.
Examinamos estos datos y “resumimos”los resultados . Ası́, por ejemplo, podemos
resumir el porcentaje de productos producidos después del cambio que no opera
correctamente. Interpretamos los resultados y usamos los datos para confirmar o
refutar la teorı́a. Si el porcentaje de productos que funcionan mal se ha reducido
suficientemente, podemos concluir que la teorı́a ha sido afirmada. Se implementa el
cambio en el proceso de producción y se trabaja con el nuevo proceso para elaborar
el producto. Si el porcentaje de productos que no operan correctamente no se ha
reducido lo suficiente, la teorı́a puede no ser afirmada. Entonces una nueva teorı́a
será desarrollada y luego, sometida a prueba.
Raramente los datos afirman concluyentemente si una teorı́a es verdadera o fal-
sa. Muchas teorı́as están en permanente estado de incertidumbre. Siempre existen
nuevas observaciones acerca del mundo que nos rodea. Los cientı́ficos siempre están
pensando en nuevas formas de testear viejas teorı́as o nuevas maneras de interpretar
los datos.
Si no podemos concluir si una teorı́a es o no verdadera, puede ser que nos conformem-
os cuantificándo“cúan seguros”podemos estar en nuestra decisión, si podemos decir
algo como: “tenemos un 95 % de confianza en nuestra conclusión”. Es aquı́ donde la
estadı́stica y su colección de métodos juega un rol importante.
La habilidad para establecer tales enunciados de confianza proviene del uso de es-
tadı́stica en todas las etapas del método cientı́fico. “Una teorı́a se rechaza si puede
probarse estadı́sticamente que los datos observados pueden ser muy poco posibles
de ocurrir si la teorı́a fuera en realidad verdadera. Una teorı́a es aceptada si no es
rechazada por los datos”.
El método cientı́fico es un proceso iterativo de aprendizaje. Los resultados no
dan respuestas definitivas, ellos pueden sugerir nuevas teorı́as. Una decisión puede
ser tomada por ahora pero estará sujeta a nuevas pruebas a posteriori. Por lo tanto,
el método cientı́fico se presenta mejor por un circulo. Las diversas componentes en
el circulo están conectadas, y el circulo no tiene fin, al igual que el aprendizaje, es
un proceso que nunca termina.
Supongamos que usted está interesado en reunir información sobre los emplea-
dos del Banco Nación (sucursal San Juan). Por ejemplo, puede interesarse por
7
conocer qué porcentaje de ellos son mujeres, cuántos son contadores, qué por-
centaje cobra con máxima antiguedad,etc.
Problemas como los anteriores son posibles de resolver con la ayuda de la Es-
tadı́stica. En el primer caso, puesto que el conjunto de empleados de tal sucursal es
reducido, se pueden obtener los datos necesarios trabajando con todo el grupo.
En cambio, en las dos últimas situaciones el grupo de individuos u objetos bajo
estudio es muy grande y necesitamos un método confiable para extraer conclusiones
basadas en una cantidad manejable de datos (una muestra).
La Estadı́stica tiene por objeto el desarrollo de técnicas para el conocimiento
numérico de un conjunto. Permite que problemas como los anteriores sean conve-
nientemente planteados y resueltos.
Se divide en dos ramas principales:
Definición 1.3.1 Una unidad es el ı́tem u objeto que observamos. Cuando el objeto
es una persona, nos podemos referir a la unidad como sujeto.
Una observación es la información o caracterı́stica registrada para una unidad.
La población es el grupo entero de objetos o individuos bajo estudio, acerca del
cual se desea información.
Una muestra es una parte de la población que realmente se usa para reunir
información.
8
En el tercer caso la población está constituı́da por todos los varones argentinos
con edades comprendidas entre 18 y 30 años, cada uno de los cuáles es un individuo.
Cada unidad ,en este caso sujeto, es cada uno de los varones que forman la muestra
seleccionada.
9
CONJUNTO DE DATOS 2
Parte N 0 1 2 3 4 5
Long.(cm) 20,011 19,985 19,998 19,992 20,008
Parte N 0 6 7 8 9 10
Long.(cm) 20,001 19,994 20,004 20,008 20
Parte N 0 11 12 13 14 15
Long.(cm) 20,007 20,004 20,001 19,997 19,984
Parte N 0 16 17 18 19 20
Long.(cm) 19,975 19,969 19,984 20,004 20,002
El segundo conjunto de datos consiste en una sola variable, longitud, que se mide
en 20 unidades. El primer conjunto de datos consiste en cinco variables medidas en
cada uno de 20 sujetos. Dos de las variables de interés fueron la presión sanguı́nea
y el sexo.¿Cómo son estas dos variables?
10
Las observaciones hechas sobre variables cualitativas se denominan, frecuente-
mente, datos categóricos.
Las variables cuantitativas toman valores numéricos y sumar, restar o prome-
diar tales valores tiene significado. Ejemplos de variables cuantitativas son: peso,
altura, número de hijos de una familia, edad.
Existen dos tipos de variables cuantitativas: discretas y continuas. Una varia-
ble cuantitativa es discreta si su conjunto de posibles valores es finito o contable.
Ası́, el número de alumnos de la carrera Profesorado en Matemática en los últimos
10 años es una variable cuantitativa discreta. El número de llamadas telefónicas
hechas en un locutorio en un perı́odo de tiempo determinado es discreta y tiene
como posibles valores al conjunto de enteros no negativos.
Una variable cuantitativa se dice continua si su conjunto de posibles valores es
un intervalo o colección de intervalos de números reales. Por ejemplo, el peso y talla
de las personas son variables cuantitativas continuas.
Algunas veces una variable puede tratarse como discreta o continua. Considere-
mos, por ejemplo, la proporción de mujeres en una población. Si la población consiste
de 10 personas, entonces las posibles proporciones son: 0, 0,1, · · · , 0,9, 1. Existe un
número finito de resultados posibles y por lo tanto es una variable cuantitativa
discreta. No obstante, si la población es muy grande, entonces cualquier valor real
entre 0 y 1 es posible, y para los propósitos prácticos, podemos tratar la proporción
de mujeres como una variable continua.
Una variable continua puede verse como discreta si se la redondea a la unidad más
próxima. La edad, es en realidad continua, no obstante, frecuentemente la medimos
discretamente en años.
En el segundo conjunto de datos, la variable, longitud, es continua. En el primer
conjunto el sexo es cualitativo, mientras que la edad y la presión sanguı́nea son
continuas, y el número de tabletas es discreta.
Definición 1.4.2 Las variables cualitativas son las que clasifican las unidades
en categorı́as por lo que también se llaman categóricas.
Las variables cuantitativas tienen valores numéricos que son mediciones (lon-
gitud, peso, etc) o cantidades. Operaciones aritméticas sobre tales valores numéricos
tienen sentido.
Un variable cuantitativa es discreta si toma valores en un conjunto numerable.
Una variable cuantitativa es continua si puede tomar cualquier valor dentro de un
intervalo o colección de intervalos de números reales.
11
Tabla 1.4.1
V alor Recuento
1 |||||
2 ||||||||||
3 ||||
4 |
Podemos resumir la información para esta variable discreta en la siguiente tabla
que nos dá la distribución de la misma.
Tabla 1.4.2
Dosis F recuencia
1 5
2 10
3 4
4 1
De la anterior leemos, por ejemplo, que 10 de los pacientes tomaron 2 tabletas
de la droga, 1 paciente tomó 4 tabletas, etc.
12
Tabla 1.4.3
Edad Recuento
32 |
37 |
39 |
40 |
41 |||
42 ||
43 |
44 |
45 |||
46 |
47 ||
49 |
50 |
51 |
Se denomina mı́n xi al menor valor observado de la variable y máx xi al mayor.
El rango de la variable es
R = máx xi − mı́n xi
En nuestro ejemplo R = 51 − 32 = 19.
Podemos agrupar los valores, por ser continuos, en clases. Por ejemplo si tomamos
5 clases o intervalos, para saber qué amplitud tendrá cada clase, hacemos
R
A= ,
N
19
siendo N el número de intervalos. En nuestro caso A = 5
= 3,8 ' 4.
13
Reunimos los datos en la siguiente tabla
Tabla 1.4.4
Clase Frec. Frec. Relativa Marca de clase
[32, 36) 1 1/20 = 0,05 34
[36, 40) 2 2/20 = 0,10 38
[40, 44) 7 7/20 = 0,35 42
[44, 48) 7 7/20 = 0,35 46
[48, 52) 3 3/20 = 0,15 50
14
La ojiva o polı́gono de frecuencias acumuladas se construye uniendo los
puntos (Si , Fi ), siendo Si el lı́mite superior del i−ésimo intervalo (puede usarse
también la frecuencia F ri ). El gráfico comienza en el punto (S0 , 0) y termina en el
punto (SN , 1), siendo S0 el lı́mite superior del intervalo anterior al primero. La ojiva
para el ejemplo de edades de los pacientes, obtenida por Infostat se muestra en la
figura:
N = 1 + 3,3 log n
N = log2 (n + 1).
15
Algunas veces la parte decimal se saca del tallo pero se aclara en una nota
cómo debe leerse el dato. Por ejemplo, para el dato 2,345 establecemos que
234|5 debe leerse 2,345.
También cuando los valores observados tienen muchos dı́gitos en su parte dec-
imal puede ser útil redondearlos (por ejemplo, redondeamos 2,345 a 2,35) o
truncarlos (truncamos 2,345 a 2,34).
Escribimos los tallos uno debajo del otro, a igual espacio, en forma creciente
y dibujamos una lı́nea a la derecha de los tallos.
Ejemplo 1.4.1 Consideremos las edades de los pacientes del conjunto de Datos 1.
El correspondiente diagrama es
3 2 7 9
4 0 1 1 1 2 2 3 4 5 5 5 6 7 7 9
5 0 1
Para este ejemplo, vemos que la mayorı́a de los sujetos están en los cuarenta.
Con sólo 3 tallos y una gran cantidad de hojas sobre uno de ellos, la variación y
forma de la distribución no queda bien representada. Una modificación útil al gráfico
básico es el de tallos divididos, que consiste en separar un mismo tallo con dı́gitos
de 0 a 9 en sus hojas, en dos tallos iguales, uno que contenga las hojas con dı́gitos
0 a 4 y el otro que contenga las hojas con dı́gitos 5 a 9.
Ası́, el diagrama de tallos divididos para el ejemplo es
3 2
3 7 9
4 0 1 1 1 2 2 3 4
4 5 5 5 6 7 7 9
5 0 1
5
Ahora podemos ver mejor que la distribución de las edades de los sujetos es aproxi-
madamente simétrica, centrada en un valor comprendido entre 43 − 44 y no tiene
outliers aparentes.
16
Se pueden usar diagramas de tallo y hojas back to back (de adelante y atrás)
para comparar dos distribuciones. Supongamos que deseamos comparar un segundo
proceso de producción con respecto al primero de las partes de una linea de ensamble,
cuyos datos se muestran en el conjunto de Datos 2. Se producen 20 partes por el
segundo proceso y se miden sus longitudes. Los resultados de ambos procesos se
muestran usando el diagrama de tallo y hojas back to back siguiente
1996 9
1997 5
9 1998 4 4 5
6 4 4 1999 2 4 7 8
9 8 7 7 5 3 1 1 1 0 0 0 0 2000 0 1 1 2 4 4 4 7 8 8
1 0 0 2001 1
Nota:
9 1998 representa 19,989cm y 1998 4 representa 19,984cm
Observamos del diagrama que el segundo proceso produce una distribución de
la variable más simétrica, menos variable (comparada con el primer proceso) y que
la observación 20,001 es el valor central que deja exactamente la mitad de las obser-
vaciones por debajo y la otra mitad por encima de él.
Trabajemos con los datos del conjunto de Datos 2. Las partes de la lı́nea de
ensamble han sido fabricadas para tener una longitud de 20cm. En el diagrama de
tallo y hojas de estos datos hemos visualizado que la distribución es algo sesgada a
izquierda y hay más variación por debajo de 20cm que por arriba.
Ejercicio 1.4.1 1) Grafique las observaciones en el orden en que ellas fueron
obtenidas y responder:
17
b) ¿qué preguntas puede responder mirando el gráfico?
Tabla 1.4.5
L M Mi J V
0
1 semana 10 7 6 8 11
0
2 semana 14 5 10 8 7
30 semana 9 3 6 4 6
Tabla 1.4.6
sexo Frec. Frec. Rel. %
F 8 8/20 = 0,40 40
M 12 12/20 = 0,60 60
18
La amplitud del sector correspondiente a la categorı́a F es 0,40 × 3600 = 1440 y la
correspondiente a M es 0,60 × 3600 = 2160 .
Gráfico de barras
Este gráfico consiste en una serie de barras, una para cada categorı́a. La altura
de cada barra es la proporción, porcentaje o frecuencia de cada categorı́a. El ancho
no tiene significado alguno, pero debe ser igual para todas las categorı́as.
Nota 1.4.1 :Las barras pueden ser horizontales o verticales. Pueden usarse para
mostrar dos variables cualitativas a la vez. Las barras no deben ser tan altas para
que no se sobredimensionen las fluctuaciones de la variable, se aconseja que el eje de
las frecuencias sea aproximadamente 2/3 del eje sobre el que se apoyan las barras.
19
1.5. Resumiendo datos numéricamente
Hasta ahora hemos resumido y organizado los datos en tablas y gráficos que nos
permiten obtener información acerca de ellos. Ahora nos dedicaremos a enriquecer
nuestras representaciones gráficas presentando varios resúmenes numéricos de los
datos. El objetivo es mostrar la utilidad de unos pocos números, bien elegidos, para
proveer un resúmen de los datos que han sido coleccionados.
Media aritmética
La media de un conjunto de n observaciones es simplemente la suma de las
mismas, dividida por n.
Si x1 , x2 , · · · , xn son n observaciones, la media aritmética o simplemente media
de ellas, denotada por x, es
n
X xi
x=
i=1
n
Para el ejemplo de las edades se tiene que la edad “promedio” es
45 + 41 + 51 + · · · + 37
x= = 43,35 años
20
Es claro que si los datos están agrupados en una tabla de frecuencias como la
siguiente
Tabla 1.5.1
Valor de la variable Frecuencia
x1 f1
x2 f2
.. ..
. .
xk fk
20
entonces
k
X xj fj
x= ,
j=1
n
k
P
siendo fj = n
j=1
Ejemplo 1.5.1 Los siguientes datos son el número de niños en cada uno de 10
hogares de un barrio: 2, 3, 0, 2, 1, 0, 3, 0, 1, 4.
2+3+0+2+1+0+3+0+1+4
x=
10
0×3+1×2+2×2+3×2+4 16
= = = 1,6
10 10
Es decir, en promedio, hay 1,6 niños por hogar en los 10 hogares observados. Supon-
gamos ahora que la observación 4 fué registrada incorrectamente como 40. ¿Qué ocurre
52
con la media? En este caso x = 10 = 5,2. notemos que hay 9 de las 10 observaciones
menores que la media.
Mediana
Hemos visto que la media tiene la desventaja de ser afectada por valores ex-
tremos. Cuando la distribución es simétrica, la media es justamente el centro de la
distribución. Para distribuciones sesgadas es conveniente registrar una medida de
tendencia central más resistente a los valores extremos: la mediana.
3 4 5 7 9
21
la mediana es 5.
Cuando el número de observaciones es par, la mediana es el promedio entre los
dos valores centrales, una vez ordenados los datos.
En general, para localizar la M e, se calcula n+1
2
. Si éste es un número entero,
la mediana es el valor que ocupa ese lugar en la serie ordenada de datos. Si n+1 2
no es entero, la mediana es el promedio de los dos valores que ocupan los lugares
inmediatos anterior y siguiente a n+1
2
.
32, 37, 39, 40, 41, 41, 41, 42, 42, 43, 44, 45, 45, 45, 46, 47, 47, 49, 50, 51
43+44
entonces M e = 2
= 43,5.
Modo
Definición 1.5.2 El modo de un conjunto de observaciones es el que ocurre con
mayor frecuencia entre todas las observaciones. Se lo denota M o.
Si la distribución de datos no tiene un valor más frecuente que otro (todos tienen
igual frecuencia) decimos que no existe el modo. Existen casos donde hay más de
un modo. Por ejemplo, el modo en la serie de datos 0, 0, 0, 1, 1, 2, 2, 2, 4, 5 son 0 y 2
pues los dos valores son igualmente frecuentes y su frecuencia es la mayor. Se dice
que la distribución es bimodal en este caso.
Generalmente no se usa como una medida del centro de una serie de datos cuantita-
tivos, pues el valor más frecuente puede estar alejado del centro de la distribución.
El modo puede hallarse para variables cualitativas. Ası́, en el ejemplo del sexo para
los 20 pacientes del conjunto de Datos 1, si asignamos M = 1 y F = 2, el modo es
1 pues el sexo masculino es el más frecuente para esos datos.
¿Qué medida central usar?
22
Para distribuciones simétricas unimodales media, mediana y modo coinciden.
Para distribuciones simétricas bimodales media y mediana coinciden.
Para distribuciones unimodales sesgadas se tiene la siguiente relación entre me-
dia, mediana y modo:
Lista 1 : 55, 56, 57, 58, 59, 60, 60, 60, 61, 62, 63, 64, 65.
23
Lista 2 : 35, 40, 45, 50, 55, 60, 60, 60, 65, 70, 75, 80, 85.
Los gráficos de frecuencia respectivos son
Rango
Es la medida más simple de variabilidad. Se define como la diferencia entre el
mayor y el menor valor observado. Para el conjunto de 20 edades de Datos 1, el
rango es 51 − 32 = 19 años. Puesto que sólo tiene en cuenta los dos valores más
extremos, puede dar una idea distorsionada de la real variación en los datos. Por
ejemplo, los siguientes conjuntos tienen el mismo rango, pero para el primero de
ellos la mayorı́a de los valores están lejos de su centro, mientras que para el segundo,
la mayorı́a están concentrados alrededor de su centro.
Rango Intercuartil
Los cuartiles son los valores que dividen al total de datos en cuatro partes
iguales. Por lo tanto hay tres cuartiles, denotados por Q1 , Q2 = M e y Q3 .
Q1 es el valor que deja por debajo el 25 % de los datos y por arriba el 75 % restante.
24
Q2 es la mediana y Q3 deja por debajo el 75 % de los datos y por arriba el 25 %
restante.
Para hallar los cuartiles se procede como sigue:
1) se encuentra la mediana.
2) se halla Q1 como la mediana de las observaciones por debajo de la mediana.
3) se determina Q3 como la mediana de las observaciones por arriba de la M e.
Nota 1.5.2 Cuando el número de observaciones es impar, la M e es el valor
del medio y no se cuenta para hallar Q1 ni Q3 .
Si una distribución es sesgada a izquierda Q1 estará más lejos de la mediana
que Q3 . Si es simétrica Q1 y Q3 están a igual distancia de la M e.
Ejemplo 1.5.3 Para la edad de los 20 sujetos del conjunto de Datos 1 encontramos
que M e = 43,5 años. Los datos ordenados son
32, 37, 39, 40, 41, 41, 41, 42, 42, 43, 44, 45, 45, 45, 46, 47, 47, 49, 50, 51
41+41 46+47
Vemos que Q1 = 2
= 41 y Q3 = 2
= 46,5.
Una medida de dispersión que sigue la idea del rango pero que no está influen-
ciada por valores extremos es el rango intercuartil, que mide la dispersión del 50 %
central de los datos. Se define por
RIC = Q3 − Q1 .
Los cuartiles son un caso particular de percentiles, cuya definición es la que sigue.
25
Definición 1.5.3 El p−ésimo percentil es el valor que deja el p % de las observa-
ciones por debajo y el (100 − p) % por arriba de él.
Datos atı́picos
Es muy frecuente que los datos presenten observaciones que contienen errores de
medida o de transcripción o que son heterogéneas con el resto porque se han obtenido
en circunstancias distintas. Llamaremos datos atı́picos (outliers, en inglés)a estas ob-
servaciones generadas de forma distinta al resto de los datos. Los análisis efectuados
sobre datos recogidos en condiciones de estrecho control revelan que es frecuente que
aparezcan entre un 1 % y un 3 % de observaciones atı́picas en la muestra. Cuando
los datos se han recogido sin un cuidado especial, la proporción de datos atı́picos
puede llegar al 5 % y ser incluso mayor.
Los datos atı́picos se identifican fácilmente con un histograma o diagrama de
lı́neas (en caso que la variable sea discreta) de los datos, porque aparecerán sepa-
rados del resto de la distribución. Sin embargo es conveniente tener reglas simples
para detectarlos. Un criterio para detectar outliers es partir de los tres cuartiles
y considerar extremos aquellos valores que se alejan una cantidad definida por la
izquierda del primer cuartil, o por la derecha del tercercuartil. Como medida de
dispersión en lugar de la Meda se utiliza el rango intercuartı́lico y se consideran
atı́picas aquellas observaciones que son menores que Q1 − 1,5 × RIC o que son may-
ores que Q3 + 1,5 × RIC. Los datos identificados como atı́picos o sospechosos deben
comprobarse para ver si es posible encontrar la causa de la heterogeneidad
26
se obtienen los valores Q1 − 1,5 × RIC y Q3 + 1,5 × RIC, llamadas cercas
internas,
las observaciones que están fuera de estas “cercas internas”se consideran out-
liers potenciales.
Ejemplo 1.5.4 El box plot para la variable Edad de los pacientes del Conjunto de
datos 1, obtenido en Infostat se muestra en la figura:
Vemos que existe un posible outlier 32, pues éste es el único valor fuera de las
cercas internas.
27
Varianza y desvı́o estándar
Cuando se usa la media para medir el centro de los datos, la medida de dispersión
más usada es la desviación estándar. Esta medida tiene en cuenta la información
contenida en todas las observaciones y mide la dispersión de éstas respecto de su
media.
Para hallarla, encontramos primero la varianza que es un promedio de los desvı́os
cuadrados de las observaciones respecto de su media.
Supongamos, por ejemplo, que queremos hallar la varianza entre las observa-
ciones x1 = 0 , x2 = 5 y x3 = 7, en este caso x = 0+5+7
3
= 4.
di = xi − x
.
En este caso d1 = x1 − x = −4, d2 = x2 − x = 1 y d3 = x3 − x = 3.
28
La varianza se define como el promedio de los desvı́os cuadrados, esto es
n
d2i
P
i=1 26
= = 8,6
3 3
El desvı́o estándar se define como la raı́z aritmética de la varianza y representa el
desvı́o promedio de las observaciones de su media. En este ejemplo el desvı́o estándar
es aproximadamente 2.
Nota 1.5.4 Cuando las observaciones representan una muestra propiamente dicha,
n
d2i
P
i=1
se define la varianza muestral como n−1
.Las razones se verán en la unidad de
muestreo.
.
Si x1 , x2 , · · · , xn denotan una muestra de n ebservaciones, la varianza muestral
se define por
n
2
X (xi − x)2
S =
i=1
n−1
y el desvı́o estándar como
v
u n
√ uX (xi − x)2
S= S2 = t .
i=1
n−1
29
Ejercicio 1.5.3 1) Consideremos los siguientes conjuntos de datos:
(a) Sin calcular, responde ¿qué conjunto de datos tiene menor varianza?.
(b) Sin calcular, ¿qué conjunto de datos tiene mayor varianza?.
(c) Halle los desvı́os estándar para cada conjunto y verificar (a) y (b).
2) Halle el desvı́o estándar para las edades del conjunto de Datos 1 y complete: En
promedio, las edades de los 20 sujetos están alrededor de · · · · · · años respecto
de su media de · · · · · · años.
Nota 1.5.6 :
El rango intercuartil es más conveniente que el desvı́o estándar como medida de
dispersión cuando la mediana se usa como medida de tendencia central de los datos,
es decir cuando las distribuciones son sesgadas o presentan outliers. En este caso
también puede usarse la desviación mediana, definida por
k
P
|xi − M e|fi
i=1
d.M e = ,
n
para un conjunto de datos x1 , · · · , xk con frecuencias f1 , · · · , fk , rspectivamente.
El desvı́o estándar y la media son más útiles para distribuciones aproximada-
mente simétricas sin outliers.
Otra medida de dispersión que asociamos a la mediana y tiene ventajas por no verse
afectada por datos extremos es la mediana de las dispersiones absolutas de cada
dato respecto a la M e:
Otra medida de variación que es útil para comparar distribuciones con unidades
diferentes y es independiente de las escalas es el coeficiente de variación.
30
(xi − x)3 = 0, mientras que con datos asimétricos esta suma crecerá con
P
i
la asimetrı́a. Para obtener una medida adimensional, se define el coeficiente de
aasimetrı́a mediante: n
(xi − x)3
P
i=1
CA = .
nσ 3
donde σ se reemplaza por S en caso de trabajar con una muestra.
El signo del coeficiente de asimetrı́a indica la forma de la distribución. Si este
coeficiente es negativo, la distribución se alarga para valores inferiores a la media es
decir la distribución es asimetrı́ca negativa. Si el coeficiente es positivo, la cola de la
distribución se extiende para valores superiores a la media, es decir la distribución
es asimetrı́ca positiva.
El coeficiente de curtosis o apuntamiento es importante porque nos informa
respecto a la heterogeneidad de la distribución. Se define como:
n
(xi − x)4
P
i=1
CAap = .
nσ 4
La figura presenta cuatro distribuciones de datos reales que presentan distintos casos
de curtosis.
Las cuatro corresponden a los tiempos de servicio requeridos por distintos clientes
en distintos servicios. En el primer caso el apuntamiento de la distribución es 1,25,
y este bajo valor es indicativo de una distribución muy heterogénea. La distribución
que observamos es una mezcla de los tiempos de servicio de dos tipos de clientes que
se observa están aproximadamente repartidos al 50 %. En el segundo caso tenemos
31
Intervalo fi mi
I1 f1 m1
I2 f2 m2 (I)
.. .. ..
. . .
Ik fk mk
varios tipos de clientes, pero sus tiempos de servicio son más próximos, dando lu-
gar a una distribución menos heterogénea con curtosis 2,3. La tercera distribución
representa el tiempo de servicio cuando los clientes son homogéneos y la curtosis es
igual a 3. En la cuarta los clientes son homogéneos, pero existen de vez en cuando
valores extremos que requieren un valor o muy alto o muy bajo. Estos clientes son
atı́picos, y dan lugar a un coeficiente de curtosis muy alto, de 9,4. El coeficiente
de curtosis nos informa de la posible heterogeneidad en los datos. Si es muy bajo
(menor de 2), indica una distribución mezclada; si es muy alto (mayor de 6), indica
la presencia de valores extremos atı́picos.
k
P
pues fi = n y f ri = fi /n.
i=1
k k
2
X (mi − x)2 fi 2
X
σ = k
o σ = (mi − x)2 f ri
P
i=1 fi i=1
i=1
fi − fi−1
M o = Li + A
(fi − fi−1 ) + (fi − fi+1 )
donde Li es el lı́mite inferior del intervalo modal, fi+1 la frecuencia del intervalo
posterior , fi−1 la del intervalo anterior y A la amplitud del intervalo modal.
32
La mediana, cuartiles y, en general, percentiles se hallan por interpolación. Ası́ se
tiene que
( n2 − Fi−1 )A
M e = Li +
fi
donde
Li es el lı́mite inferior del intervalo mediana (que contiene por lo menos el 50 %
de los datos),
Fi−1 es la frecuencia acumulada del intervalo anterior al intervalo mediana,
A es la amplitud de dicho intervalo,
fi la frecuencia absoluta del intervalo mediana y n el número de datos.
( jn − Fi−1 )A
Q j = Li + 4 , j = 1, 2, 3.
Fi − Fi−1
permite calcular los cuartiles de la distribución.
Un tipo de percentiles usados en Psicologı́a y Educación son los deciles Dj ; j =
1, 2, · · · , 9 que dividen el conjunto de datos en 10 partes iguales y los centiles que
la dividen en 100 partes iguales y se denotan Cj ; j = 1, 2, · · · , 99. Se calculan para
datos agrupados en clases por las fórmulas
( jn − Fi−1 )A
Dj = Li + 10 , j = 1, 2, · · · , 9.
Fi − Fi−1
jn
( 100 − Fi−1 )A
Cj = Li + , j = 1, 2, · · · , 99.
Fi − Fi−1
donde los valores que aparecen en estas expresiones se definen en forma similar al
caso de los cuartiles.
1.6. Cuestionario
1) ¿Qué entiende por Estadı́stica?
a- El número de personas que llega a un banco entre las 11:00hs y las 12:00hs.
b- Cantidad de precipitación caı́da en mm durante un mes determinado.
c- Se arroja un par de dados y se registra si los resultados sobre los dos
dados coinciden o no.
33
d- Los números sobre las camisetas de jugar de un equipo de fútbol.
e- Se elige aleatoriamente una mujer de una ciudad y se registra si tiene o
no cáncer.
f- El peso de varios telegramas.
g- La marca de autos que se venden en una concesionaria.
h- El número total de canciones de una lista.
i- El tiempo total de duración de una lista.
8) ¿Qué gráfico permite visualizar una medida de tendencia central y dos medidas
de variabilidad?,¿cómo se construye?
10) ¿En qué casos utilizarı́a el coeficiente de variación para medir la dispersión de
los datos?
34
Capı́tulo 2
Teorı́a de Probabilidad
2.1. Introducción
Cuando muestreamos de una población a fin de extraer conclusiones o inferen-
cias acerca de la misma, nuestras conclusiones contienen un grado de incertidumbre.
Podemos medir esta incertidumbre con la probabilidad. Los enunciados proba-
bilı́sticos son parte de nuestra vida diaria. Ası́, escuchamos enunciados como los
siguientes:
el juez de lı́nea arroja una moneda “ honrada”a fin de determinar qué equipo
comienza el juego, de modo que cada uno tenga una chance del 50 % de comen-
zar el juego.
¿Qué es probabilidad?
Sabemos que una moneda tiene de un lado cara y del otro cruz. Suponemos que
esta moneda es “buena”, es decir cada lado tiene igual “chance”de ocurrir cada vez
que la arrojamos. ¿Porqué decimos que la probabilidad de obtener cara es 1/2?,
¿qué significa?
Si arrojamos esta moneda una gran cantidad de veces podemos esperar obtener cara
aproximadamente la mitad de las veces. Este uso de la palabra “probabilidad”se
basa en una interpretación de frecuencia relativa, que se aplica a situaciones donde
se puede repetir la experiencia, en este caso el lanzamiento de la moneda, bajo
condiciones son estables.
La probabilidad se define como la proporción de veces que el evento puede ocurrir
si el proceso fuera repetido varias veces, bajo las mismas condiciones.
35
Definición 2.1.1 (probabilidad frecuencial o a posteriori)
La probabilidad de que ocurra un resultado es la proporción de veces que este
ocurre a largo plazo, es decir, es el valor al que se aproxima la frecuencia relativa
de dicho resultado, cuando el experimento se repite un gran número de veces, bajo
condiciones estables.
36
Arrojamos 10 veces una moneda y los resultados son CSSCCCCSSC. Esta
secuencia tiene 4 caras consecutivas, es decir una “racha”de caras. ¿Puede una racha
de 4 caras o cruces considerarse inusual si la moneda es realmente “buena¿. ¿Cuál
es la probabilidad de obtener una racha de cuatro caras o cruces en 10 lanzamientos
de una moneda honrada?.
Podemos estimar esta probabilidad a través de simulación. Simular significa imi-
tar, generar condiciones que se aproximen a las condiciones reales. Para simular un
proceso aleatorio podemos usar varias herramientas: una calculadora, un programa
de computación, o una tabla de números aleatorios.
Para simular necesitamos establecer o identificar primero las condiciones del
fenómeno aleatorio subyacente (es decir proveer un modelo que brinde los posibles
resultados individuales y les asigne probabilidades.) Para el lanzamiento de una
moneda justa se puede usar una computadora o calculadora para generar una suce-
sión aleatoria de enteros 1 y 2 y definir, por ejemplo, que 1 representa cara y el 2
cruz. También puede usarse una tabla de números aleatorios con dı́gitos 0 al 9 y
asignar, por ejemplo, que los cinco dı́gitos pares corresponden a cara y los impares
a ceca.
Para calcular la probabilidad de una racha de 4 caras en 10 lanzamientos necesitamos
simular 10 lanzamientos de una moneda justa para representar una repetición del
proceso aleatorio. Finalmente, simulamos muchas repeticiones y determinamos el
número de veces que ocurrió el resultado de interés. La correspondiente frecuencia
relativa se usará para estimar la probabilidad del evento.
Definición 2.1.3 Una simulación es la imitación de un comportamiento aleatorio
usando herramientas aleatorias tales como generadores de números al azar o tablas
de números aleatorios.
Las etapas básicas para hallar una probabilidad por simulación son:
1) especificar un modelo para los resultados individuales del fenómeno aleatorio
subyacente.
2) bosquejar o delinear cómo simular un resultado individual y cómo representar
una única repetición del proceso aleatorio.
3) simular muchas repeticiones y estimar la probabilidad de un evento con su
frecuencia relativa.
Ejemplo 2.1.1 :Un plan familiar
Apliquemos estas etapas para estimar la probabilidad que un matrimonio tenga
un varón entre sus hijos.
Un matrimonio planifica tener chicos. Desean tener un varón a fin de continuar el
apellido. Después de alguna discusión deciden tener hijos hasta tener un varón o ten-
er tres niños, lo que ocurra primero. Bajo este plan familiar,¿cuál es la probabilidad
que ellos tengan un varón entre sus hijos?.
Simularemos esta situación a fin de estimar la probabilidad buscada.
37
Paso 1 :Especificamos un modelo para los resultados individuales
El fenómeno aleatorio individual es “tener un hijo la respuesta de interés es
2
• cada hijo tiene 1/2 de probabilidad de ser varón y 1/2 de ser mujer.
• el sexo de sucesivos hijos es independiente (conocer el sexo de un hijo no
influye en el sexo de cualquiera de los siguientes).
1 0 3 6 5 6 1 1 2
M V M V M V M M V
Paso 3 :Simulamos muchas repeticiones y estimamos la probabilidad.
Trabajando en grupos simulamos muchas repeticiones del plan familiar y usa-
mos la frecuencia relativa del evento “el matrimonio tiene un varón entre sus
hijos”para estimar su probabilidad.
Cada grupo simula 10 repeticiones y reunimos la información de todos los
grupos en una tabla como la siguiente:
Tabla 2.1.1
Grupo N 0 de repeticiones N 0 de veces que nacio un varon
1
2
.. .
.
9
10
Total N= ]V
38
Luego una estimación de la probabilidad es:
]V
N
(será próxima a 0,875)
39
1- quedarse con la puerta que eligió originalmente y recibir el premio correspon-
diente.
2- cambiar de puerta, eligiendo la otra que está cerrada y recibir el premio que
está detrás de esta última.
Estrategia: No cambia
Estrategia:Cambia
40
Resumimos los resultados
De las 20 repeticiones para las cuales no cambia la puerta original, ¿qué propor-
ción de veces ganó el auto?
n0 de veces que gano el auto
20
Luego estimamos que la probabilidad de ganar el auto bajo la estrategia de no
cambiar es· · · · · · .
De las 20 repeticiones para las cuales cambió la puerta original, ¿qué proporción de
veces ganó el auto?
n0 de veces que gano el auto
20
.
Luego estimamos que la probabilidad de ganar el auto bajo la estrategia de cam-
biar la puerta original es · · · · · · .
¿Qué estrategia tiene mayor chance de ganar el auto?.
Combinamos los resultados de la clase para lograr mejores estimaciones de ambas
probabilidades.
Veamos la solución
41
2.2. El Lenguaje de Probabilidad
A continuación introduciremos algunas notaciones y reglas que nos permitan
calcular probabilidades, que es nuestro objetivo.
|Ω| = 6 × 6 = 36.
42
¿Cuál de los siguientes espacios muestrales es el correcto para este experimen-
to?. Marque su respuesta.
a) Ω = {Juan, M aria}.
b) Ω = {A, B, C, N }.
c) Ω = {A, B}.
d) Ninguna de las anteriores.
Los eventos son subconjuntos del espacio muestral y se designan con letras
mayúsculas imprentas A, B, C, · · · .
Decimos que el evento A ha ocurrido, si se ha efectuado el experimento aleatorio,
obteniéndose un resultado a ∈ A, en otro caso diremos que A no ha ocurrido.
43
(b) Describa el evento A :“al menos una persona está en contra del aborto”.
(c) Describa el evento B :“exactamente dos personas están a favor del abor-
to”.
Algunas veces los eventos son combinación de varios eventos. Ası́ por ejemplo
podemos interesarnos en calcular la probabilidad de un evento que es unión o inter-
sección de dos o más eventos.
Definición 2.2.4 Dos o más eventos se dicen exhaustivos si su unión dá todo el
espacio muestral.
Tabla 2.2.1
nivel de estudio
44
E: el adulto elegido tiene nivel de eduacación universitaria.
C, D y E son mutuamente excluyentes y exhaustivos en este ejemplo.
Describimos ,mediante operaciones entre eventos ,los eventos
F : el adulto elegido es varón y tiene nivel de eduacación secundaria.
G: el adulto elegido es mujer o tiene nivel de eduacación universitaria.
Entonces F = B ∩ D y G = A ∪ E.
¿Son F y G mutuamente excluyentes?, ¿son exhaustivos?.
Ejercicio 2.2.3 En el experimento del ejercicio 2.2.2, inciso 1), halle las probabi-
lidades de los eventos A, B y C.
Sea D el evento:“al menos un seis”. Encuentre la probabilidad de D y compararla
con 1 − P (A),¿cómo son los eventos A y D?.
Calcule la probabilidad de A ∪ B,¿cómo son A y B?.
Calcule P (Ω).
A partir de la definición de probabilidad podemos ver que ésta cumple ciertas reglas
básicas:
45
1) La probabilidad de cualquier evento varı́a entre 0 y 1, esto es
P (Ω) = 1.
P (A ∪ B) = P (A) + P (B).
P2 ) P (Ω) = 1.
P3 ) Si A1 , A2 , · · · , An , · · ·
es una
colección numerable de eventos mutuamente ex-
∞
S ∞
P
cluyentes, entonces P Ai = P (Ai ).
i=1 i=1
1- P (∅) = 0.
46
5- Si A, B ∈ A, entonces P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
n
n
S P
7- P Ai ≤ P (Ai ).
i=1 i=1
Ejemplo 2.2.2 Considere los resultados del ejemplo 2.2.1 y los eventos
A1 :“el adulto elegido tiene nivel de educación universitario”.
A2 :“el adulto elegido es mujer”.
¿Cuál es la probabilidad que un adulto elegido al azar sea mujer o tenga nivel de
educación universitaria?.
P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) − P (A1 ∩ A2 )
39 112 17
= + −
200 200 200
139
= = 0,67.
200
Ejercicio 2.2.4 Una compañı́a de construcción local se ha presentado en una lici-
tación para dos contratos con el gobierno. La compañı́a sabe que la probabilidad de
ganar el primer contrato es 0,5, la probabilidad de ganar el segundo contrato es 0,4
y la de ganar ambos es 0,2.
(a) ¿Cuál es la probabilidad que tiene la compañı́a de ganar al menos uno de los
contratos?.
47
un número impar. ¿cuál es ahora la probabilidad que sea 1?.Puesto que el resultado
fué impar se restringe el espacio muestral al evento dado, {1, 3, 5}, luego la probabil-
idad buscada es 1/3. Esta última recibe el nombre de probabilidad condicional.
Se denota P (A/B) = 1/3 a la probabilidad del evento A = {1} dado el evento
“condición”B = {1, 3, 5}.
P (A ∩ B)
P (A/B) = si P (B) > 0
P (B)
P (A ∩ B) = P (B)P (A/B).
P (A1 ∩A2 ∩· · ·∩An ) = P (A1 )P (A2 /A1 )P (A3 /A1 ∩A2 ) · · · P (An /A1 ∩A2 ∩· · ·∩An−1 ).
(a) ¿cuál es la probabilidad que un adulto elegido al azar tenga nivel de estudio
universitario, sabiendo que es mujer?.
(b) ¿cuál es la probabilidad que un adulto elegido al azar se a varón, sabiendo que
su nivel de estudio es secundario?.
48
Es claro que la respuesta a (a) es P ({2}) = 16 mientras que la respuesta a (b) es
P ({2}/{2, 4, 6}) = 13 .
En este caso la probabilidad condicional es diferente a la probabilidad no condicional
del evento. Suponga, como otro ejemplo, que se arroja dos veces una moneda justa.
Ejercicio 2.2.6 Pruebe que las condiciones (1), (2) y (3) de la definición anterior
son equivalentes.
Ejemplo 2.2.4 Una guirnalda contiene 30 focos de luz. Si uno de los focos falla,
entoncesa la guirnalda no enciende. La probabilidad que un único foco dure al menos
2 años es 0,98. Si los focos operan independientemente,¿cuál es la probabilidad que
la guirnalda funcione por lo menos 2 años?.
Sean los eventos F :“la guirnalda funciona por lo menos 2 años”, Fi :“el i−ésimo
foco funciona por lo menos 2 años”, entonces
1) cada hijo tiene 1/2 de probabilidad de ser varón y 1/2 de ser mujer.
49
2) el sexo de los sucesivos hijos es independiente.
50
Si llamamos Bi al evento“seleccionar la urna Ui ”, i = 1, 2, resulta que B1 y B2
forman una partición del espacio muestral. Sea B el evento “la bolilla elegida es
blanca”. Es claro que
P (B) = P (B ∩ B1 ) + P (B ∩ B2 )
2
y puesto que conocemos las probabilidades condicionales P (B/B1 ) = 4
y P (B/B2 ) =
4
10
conviene escribir
1 2 1 4
P (B) = P (B1 )P (B/B1 ) + P (B2 )P (B/B2 ) = · + · = 0,45
2 4 2 10
Esta forma de calcular probabilidades se generaliza para el caso de tener una par-
tición del espacio muestral, de más de dos eventos y conocer las probabilidades
condicionales a los eventos de la partición.
1 2
P (B1 ∩ B) P (B1 )P (B/B1 ) · 5
P (B1 /B) = = = 2 4 = .
P (B) P (B1 )P (B/B1 ) + P (B2 )P (B/B2 ) 0,45 9
Cuando nos preguntamos acerca de una probabilidad condicional de uno de los
eventos de la primera etapa (eventos de la partición)a un evento de una etapa
posterior, como en este caso, procedemos aplicando la llamada Regla de Bayes.
51
Ejemplo 2.2.7 Supongamos que se ha desarrollado un test muy confiable para de-
tectar una enfermedad rara. En particular, supongamos que cuando la enfermedad
está presente, el test dá positivo el 98 % de las veces. Cuando está ausente dá ne-
gativo el 95 % de las veces. Además se sabe que, aproximadamente, el 0,1 % de la
población general tiene la enfermedad.
Se ha detectado , usando el test, que una persona tiene la enfermedad(es decir
el test dió positivo),¿cuál es la probabilidad que realmente la posea?.
Sean los eventos: E:“la persona tiene la enfermedad”, +:“el test dá positivo −:
2
P (E)P (+/E)
P (E/+) =
P (E)P (+/E) + P (E)P (+/E)
Se sabe que P (E) = 0,001, luego P (E) = 0,999, además P (+/E) = 0,98 (luego la
P (−/E) = 0,02) y P (−/E) = 0,95 (luego P (+/E) = 0,05), por lo tanto
0,001 · 0,98
P (E/+) = ' 2 %.
0,001 · 0,98 + 0,999 · 0,05
El complemento de esta probabilidad se denomina tasa de falsos positivos y en este
caso es
P (E/+) = 1 − P (E/+) ' 98 %.
2.3. Cuestionario
4) ¿En qué casos emplea la definición clásica de probabilidad para calcular prob-
abilidades, ¿qué limitaciones tiene esta definición?.
52
7) ¿Qué condiciones debe cumplir un experimento aleatorio para que las proba-
bilidades de eventos asociados al mismo se calculen por el teorema de proba-
bilidad total?.
área de A
P [A] =
área de Ω
Pruebe que P [.] ası́ definida es una función de probabilidad definida en P(Ω)
(Nota: esta probabilidad se denomina Probabilidad Geométrica)
Aplicación: Sea Ω = (x, y) ∈ IR2 : 0 ≤ x ≤ 1; 0 ≤ y ≤ 1 y
A = (x, y) ∈ Ω : x + y ≤ 12 .
53
Capı́tulo 3
Variable Aleatoria
3.1. Introducción
Consideremos el experimento de arrojar un par de dados y apostar a la suma de
los puntos obtenidos. En este caso el interés no recae en cada uno de los 36 resultados
posibles sino en el comportamiento de la “suma de los puntos obtenidos”. Es claro
que esta suma varı́a al calcularla para cada uno de los 36 pares y esta variación
es aleatoria pues está sujeta a la naturaleza aleatoria del experimento. Decimos
que esta suma es una variable aleatoria. Las variables aleatorias se denotan con le-
tras mayúsculas imprentas del final del abecedario · · · X, Y, Z y las correspondientes
subindicadas.
Denotemos con X a la variable de nuestro ejemplo. Es claro que X toma valores
de acuerdo al resultado considerado en nuestro espacio muestral. En este caso los
posibles valores de la variable son los enteros comprendidos entre 2 y 12. Para
avanzar, con un ejemplo más sencillo, consideremos el lanzamiento de una moneda
cuyos posibles resultados son C o S. No obstante es posible asociar a cada resultado
del experimento un valor numérico, ası́ podemos asociar:
C → 1, S → 0,
es decir definimos la variable que asocia a cada resultado el número de caras obtenido.
Como estadı́sticos nos gusta trabajar con resultados numéricos y esto nos lleva a
nuestra próxima definición
X −1 (−∞, r] = {ω ∈ Ω : X(ω) ≤ r}
54
Nota 3.1.1 Cuando A = P(Ω) la condición X −1 (−∞, r] ∈ A, para todo r ∈ IR se
cumple trivialmente.
Usaremos las letras minúsculas imprentas · · · x, y, z para denotar los valores de
variables aleatorias. Ası́ x = 7 nos dice que en un lanzamiento particular de un par
de dados se obtuvo un total de 7 puntos. Pensamos en X como aleatoria, el valor
de una variable antes de ser observada, mientras que x es conocida, es un valor
particular de X que ha sido observado.
Ejemplo 3.1.1 (a) Sea X la V.A que representa el número de caras obtenido al
arrojar una moneda justa 3 veces. Los posibles valores de X son x = 0, x =
1, x = 2 o x = 3.
(b) Se extrae una muestra de 10 artı́culos de un lote de artı́culos. Sea Y la V.A que
representa el número de defectuosos en la muestra. Luego Y toma los posibles
valores y = 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 o 10.
Definición 3.1.2 Una variable aleatoria discreta es aquella que puede tomar
valores en un conjunto finito o infinito numerable.
Una variable aleatoria continua es aquella que puede tomar cualquier valor
en un intervalo o colección de intervalos.
Ejemplo 3.1.2 Sea X la V.A. que denota “número de caras” al arrojar una moneda
justa. Luego X toma los valores x = 0, 1.
Dado x ∈ IR puede ocurrir que
55
(a) x < 0
(b) 0 ≤ x < 1
(c) x ≥ 1
A partir del gráfico de FX del ejemplo anterior podemos ver que FX es no de-
creciente, FX (x) → 0 cuando x → −∞, FX (x) → 1 cuando x → ∞ y es continua
por derecha. Estas propiedades se verifican para cualquier función de distribución
acumulada.
56
a- F es no decreciente, esto es
Demostración
Probemos a-:
F (b) = P (X ≤ b) = P (X ≤ a) + P (a < X ≤ b) = F (a) + P (a < X ≤ b)
y puesto que P (a < X ≤ b) ≥ 0, se tiene que F (b) ≥ F (a).
Probemos b: Puesto que F es no decreciente y acotada, existe
. Llamemos
S An al evento [X ≤ n] para cada n ∈ N , luego An ⊆ An+1 para todo n
y An = Ω. Entonces lı́m P (An ) = P (Ω) = 1.
n n→∞
Análogamente se demuestra que lı́m F (x) = 0.
n→−∞
Probemos c:
1 1
lı́m F (t) = lı́m F x+ = lı́m P X ≤x+
t→x+ n→∞ n n→∞ n
57
3.1.1. Variables Aleatorias Discretas
Sea X una V.A. discreta que toma valores x1 , x2 , · · · , xn , · · · . Diremos que éstos
son los puntos masa de la variable X. Se puede asignar a cada posible valor xi de X
la probabilidad que X tome dicho valor, es decir definir una función fX que a cada
xi le asocie P (X = xi ). Dicha función se denomina función másica de probabilidad
o función densidad discreta y se denota también por pX .
x 2 3 4 5 6 7 8 9 10 11 12
fX (x) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36
58
Lema 3.1.2 Propiedades de fX
Si f es la función densidad asociada a una variable aleatoria X con puntos masa
x1 , x2 , · · · , xn , · · · , entonces se verifica
y
fX (xi ) = lı́m+ FX (t) − lı́m− FX (t) , para todo i.
t→xi t→xi
Además, en general,
X
P (X ∈ A) = fX (xi ) para todo A ∈ B1 , siendo B1 la σ-álgebra de Borel de IR .
{i:xi ∈A}
A continuación veremos una variable aleatoria discreta que toma sólo los valores
0 y 1.
El esquema Bernoulli
Veamos ahora una situación muy frecuente en probabilidad. Se arroja n veces un
dado (no necesariamente equilibrado). Queremos hallar la probabilidad de obtener
exactamente k “ases” en los n lanzamientos. Cada lanzamiento puede resultar en
“éxito”, que equivale a obtener un as, o “fracaso”, que equivale a no obtener un
as. Diremos que cada lanzamiento es un ensayo de Bernoulli. Sea p = P (exito) =
P (obtener un as).
Es claro que p es constante de prueba a prueba y además que los eventos Aj :“obtener
un as en el j−ésimo lanzamiento”,j = 1, 2, · · · , n son independientes.
Nuestro espacio muestral es
Ω = {(z1 , z2 , · · · , zn ) : zi = 1 o zi 6= 1, i = 1, · · · , n}
59
= {(z1 , z2 , · · · , zn ) : zi =éxito o zi =fracaso, i = 1, · · · , n}
Sea Bk :“exactamente k éxitos en n ensayos”, entonces Bk es unión disjunta de
todos los resultados que consisten en n−uplas con k éxitos (k ases) y n − k fracasos
(n − k no ases). Para cada uno de estos resultados, la probabilidad es, debido a las
suposiciones de independencia e invariabilidad de p, pk (1 − p)n−k .
Puesto que hay nk de tales resultados, se tiene que
n k
P (Bk ) = p (1 − p)n−k , k = 0, · · · , n.
k
A éstas probabilidades se las llama “distribución binomial” y se denota por b(k; n, p).
Distribución de Poisson
Definición 3.1.6 Diremos que una V.A.X tiene distribución de Poisson con
parámetro λ, (λ > 0), si su función densidad se da por
e−λ λx
fX (x) =, x = 0, 1, 2, · · ·
x!
Nota 3.1.7 Escribiremos X ∼ P(λ) para indicar que X tiene una distribución de
Poisson con parámetro λ.
Mostraremos a continuación que la distribució de Poisson se utiliza como aprox-
imación de la binomial cuando n “grande” y p es “chico”, tomando λ = np ó para
modelar procesos estocásticos (sucesiones de variables aleatorias indexadas po el
tiempo). Por ejemplo, bajo condiciones adecuadas, la variable que cuenta el número
de sucesos que ocurren en un intervalo de tiempo de longitud t, se distribuye Poisson
con λ = ct siendo c la tasa media de ocurrencia por unidad de tiempo.
60
La aproximación de Poisson y sus aplicaciones
Consideremos a continuación una aproximación de la distribución binomial para
n “grande” y p “chico”.
Para representar esto consideramos una sucesión b(k; n, pn ) donde n → ∞, npn → λ
(esto es pn → 0).
n k
b(k; n, pn ) = pn (1 − pn )n−k
k
k n−k
n λ λ
' 1−
k n n
k n−k
n! λ λ
= 1−
(n − k)!k! n n
n −k
(n)k λk λk
λ λ
= k 1− 1− → e−λ .
n k! n n k!
−λ k
Si llamamos p(k; λ) = e k!λ , k = 0, 1, 2, · · · y λ > 0, hemos probado que
b(k; n, pn ) → p(k; λ) cuando n → ∞ y npn → λ, es decir la distribución binomial
converge a una Poisson en estos casos.
En la práctica, cuando n es “grande” y p “chico”, tomamos np = λ y usamos
p(k; λ) como aproximación para hallar las probabilidades b(k; n, p).
61
Suponemos que estamos observando la ocurrencia de ciertos sucesos en el tiem-
po, espacio o longitud (por ejemplo, la emisión de una partı́cula radiactiva). Supon-
dremos que los sucesos ocurren en el tiempo, pero el razonamiento es análogo en
espacio o longitud.
Suponemos la existencia de una cantidad c > 0 que satisface:
e−ct (ct)z
P [Z(t) = z] = , para z = 0, 1, 2, · · · .
z!
Demostración Sea t > 0, dividimos el intervalo (0, t) en n subı́ntervalos de longitud
h = t/n. La probabilidad de que exactamente k sucesos ocurran en el intervalo (0, t)
es aproximadamente igual a la probabilidad que exactamente un suceso ocurra en
cada uno de k subı́ntervalos de los n en los que fue dividido dicho intervalo.
Ahora, la probabilidad de que un suceso ocurra en un subı́ntervalo dado es ch.
Cada subı́ntervalo provee un ensayo de Bernoulli, pues en cada uno de ellos ocurre
un suceso o no ocurre. Además, en vista de las suposiciones hechas, los ensayos son
independientes y repetidos. Luego, la probabilidad de exactamente k sucesos en n
ensayos es:
k n−k
n k n−k n ct ct
(ch) (1 − ch) = 1− ,
k k n n
62
que es una aproximación de la probabilidad buscada. Una expresión exacta puede
obtenerse tomando n → ∞ (lo que equivale a h → 0)
k n−k n−k
(ct)k e−ct (ct)k
n ct ct ct (n)k
1− = 1− → .
k n n k! n nk k!
2
Ejemplo 3.1.5 Supongamos que el número promedio de llamadas que llegan a una
central es de 30 llamadas por hora. (i) ¿Cuál es la probabilidad de que no lleguen
llamadas en un perı́odo de 3 minutos?, (ii)¿Cuál es la probabilidad que más de cinco
llamadas lleguen en un intervalo de 5 minutos?
Es claro que 30 llamadas por hora equivalen a 0,5 llamadas por minuto, luego la
tasa media de ocurrencia es de 0,5 por minuto. De acuerdo al resultado tenemos:
Distribución geométrica
Definición 3.1.7 X tiene una distribución geométrica con parámetro p, (0 <
p < 1), si su densidad se da por
fX (x) = pq x , x = 0, 1, 2, · · ·
donde q = 1 − p.
Nota 3.1.8 Escribiremos X ∼Ge(p) para indicar que X tiene una distribución geo-
métrica con parámetro p.
Sirve para modelar la variable que cuenta el número de fracasos hasta obtener
el primer éxito al repetir ensayos de Bernoulli independientes con probabilidad de
éxito p.
Ejemplo 3.1.6 Se arroja una moneda hasta obtener cara, ¿cuál es la probabilidad
que esto ocurra en el cuarto intento?
Sea X la V.A. que representa el “número de fracaso antes de obtener cara”, luego
la probabilidad buscada es P (X = 3) = ( 21 )( 12 )3 = 16
1
.
63
Distribución binomial negativa
Definición 3.1.8 X tiene distribución binomial negativa con parámetros r y
p, r ∈ IN, 0 < p < 1, si su densidad se da por
x+r−1 r x
fX (x) = p q , x = 0, 1, 2, · · ·
r−1
donde q = 1 − p.
Nota 3.1.9 Escribiremos X ∼ BN (r, p)para indicar que X tiene distribución bino-
mial negativa con parámetros r y p. Es claro que BN(1, p) =Ge(p).
Si X cuenta el “número de fracasos hasta obtener el r−ésimo éxito” al repetir
ensayos independientes de Bernoulli con probabilidad de éxito p, entonces
X ∼ BN(r, p).
Distribución Hipergeométrica
Definición 3.1.9 La V.A.X tiene distribución hipergeométrica con parámetros
M, N y n,(M ≤ N, n ≤ N, M y N ∈ IN), si su densidad se da por
M N −M
x n−x
fX (x) = N
, x = 0, 1, · · · , mı́n{n, M }
n
64
Ejercicio 3.1.3 Demuestre que las funciones dadas en las definiciones anteriores
son densidades discretas.
Nota 3.2.1 Las condiciones del lema anterior definen una función densidad con-
tinua sin hacer referencia a la variable aleatoria, es decir cualquier función real de
variable real que verifique (a) y (b) del lema es una función densidad continua.
65
Nota 3.2.2 Existen deiferencias entre una función densidad continua y una fun-
ción densidad discreta. Si X es discreta entonces fX (x) ∈ [0, 1] para todo x ∈ IR,
mientras que si X es continua fX (x) ≥ 0 para todo x ∈ IR, pero no necesariamente
está acotada superiormente.
Además para variables discretas fX está unı́vocamente definida, en cambio para
variables continuas basta modificar una densidad en un conjunto numerable, para
obtener otra función densidad, ya que la integral no varı́a.
Otra diferencia es que para variables discretas fX es la probabilidad del evento
[X = x], mientras que para X continua se tiene que puesto que
dFX FX (x + δ) − FX (x − δ)
fX (x) = (x) = lı́m
dx δ→0 2δ
P (x − δ < X ≤ x + δ)
= lı́m ,
δ→0 2δ
se tiene que P (x − δ < X ≤ x + δ) = 2δfX (x) + o(δ), de modo que en este caso
fX (x) sirve para aproximar la probabilidad de un intervalo “infinitesimal” alrededor
de x.
Ejemplo 3.2.1 Supongamos que el tiempo para procesar una solicitud de préstamo
sigue una distribución uniforme sobre el rango de 10 a 20 dı́as.
(a) ¿Cuál es la probabilidad que una de tales solicitudes tarde más de dos semanas
en procesarse?
R 14 1
P (X > 14) = 1 − P (X ≤ 14] = 1 − 10 10 dx = 0,6.
66
(b) Dado que el tiempo de procesamiento de una solicitud de préstamo para una
elegida al azar es de al menos 12 dı́as,¿cuál es la probabilidad que en realidad
tarde más de dos semanas en procesarse?
Distribución Exponencial
Definición 3.2.3 Diremos que X tiene una distribución exponencial con parámetro
λ, (λ > 0), si su densidad se da por
Nota 3.2.4 Escribiremos X ∼ E(λ) para indicar que X tiene una distribución
exponencial con parámetro λ.
Esta distribución sirve para modelar tiempos de espera para procesos estocásti-
cos. En efecto, si T denota el tiempo que uno debe esperar para que se emita la
primer partı́cula desde el instante t = 0, entonces
67
Distribución Gama
Definición 3.2.4 Diremos que una V.A.X tiene una distribución Gama con
parámetros r y λ,(r > 0, λ > 0), si su densidad se da por
λ
fX (x) = (λx)r−1 e−λx I[0,∞) (x).
Γ(r)
R∞
donde la función Gama se define como Γ(r) = 0 xr−1 e−x dx, r > 0.
Nota 3.2.5 Escribiremos X ∼G(r, λ) para indicar que X tiene una distribución
Gama con parámetros r y λ.
La función Gama verifica
Γ(r+1) = rΓ(r) para todo r > 0 y puesto que Γ(1) = 1 resulta que Γ(n) = (n−1)!
para todo n ∈ IN, de modo que esta función generaliza al factorial de un número
natural.
Es claro que G(1, λ) = E(λ), es decir la distribución Gama es una generalización
de la exponencial y sirve para modelar tiempos de espera en procesos estocásticos.
En efecto: en el proceso de Poisson con intensidad c, sea T la variable que representa
el instante en que se produce el m−ésimo suceso,. Dado t > 0, sea N la variable
“número de sucesos en el intervalo [0, t), luego N ∼P(ct). Por lo tanto
m−1 m−1
X (ct)k X ck(ct)k−1
fT (t) = ce−ct − e−ct
k=0
k! k=1
k!
m−1 m−1
X(ct)k X (ct)k−1
= ce−ct − ce−ct
k=0
k! k=1
(k − 1)!
"m−1 #
X (ct)k m−2 X (ct)s
= ce−ct −
k=0
k! s=0
s!
(ct)m−1
= ce−ct
(m − 1)!
c(ct)m−1 −ct
= e , parat > 0,
(m − 1)!
luego T ∼G(m, c).
68
Distribución Normal
Definición 3.2.5 Diremos que X tiene una distribución normal con parámetros
µ y σ 2 ,(µ ∈ IR, σ 2 > 0), si su densidad se da por
1 (x−µ)2
fX (x) = √ e− 2σ2 .
2πσ
Nota 3.2.6 Escribiremos X ∼ N (µ, σ 2 ) para indicar que X tiene una distribución
normal con parámetros µ y σ 2 .
R∞ R∞ (x−µ)2
Probemos que f (x)dx = 1. Sea A = √ 1 e− 2σ 2 dx y probemos que
−∞ X −∞ 2πσ
A2 = 1.
x−µ
Haciendo el cambio z = σ
se tiene
Z ∞
1 z2
A= √ e− 2 dz,
−∞ 2π
luego Z ∞ Z ∞
2 1 − z2
2
− y2
2
A = e dz e dy
2π −∞ −∞
69
Z ∞ Z ∞
1 y 2 +z 2
= e− 2 dydz.
2π −∞ −∞
y puesto que A ≥ 0 resulta que A = 1, lo que muestra que la anterior define una
función densidad continua.
Para calcular probabilidades usando la distribución normal se necesitan calcular
integrales de esta densidad, lo cual es muy complicado ya que se necesita integración
numérica. Por ello se utilizan tablas construı́das para el caso de una N (0, 1), llamada
distribución normal estándar. La densidad de una N (0, 1)se denota generalmente
con la letra griega φ y la F.D.A. de la misma por Φ. Los valores de ésta última
están tabulados y se usan para hallar probabilidades asociadas a cualquier V.A.
X ∼N(µ, σ 2 ), de acuerdo al siguiente resultado.
X−µ
Teorema 3.2.1 Si X ∼N(µ, σ 2 ), entonces Z = σ
∼N(0, 1).
Demostración
Sea FZ (z) la F.D.A. de Z, entonces
Z z
FZ (z) = fZ (t)dt.
−∞
70
luego Z ∼N(0, 1). 2
De acuerdo a este resultado se tiene, por ejemplo, que
a−µ b−µ b−µ a−µ
P (a < X < b) = P <Z< =Φ −Φ .
σ σ σ σ
Luego podemos decir que el 97,72 % de los niños de 12 años tiene un C.I. menor
que 132 o equivalentemente que un C.I. de 132 es el 97,72-percentil.
(a) ¿qué proporción de niños de 12 años de edad tienen un C.I. por debajo de 84?
(b) ¿y 84 o más?
71
Ejercicio 3.2.5 El tiempo que tardan nadadores en correr 100m al estilo mariposa
se distribuye normalmente con parámetros 5500 y 2500 .Responder
(a) Los esponsors de un torneo deciden entregar certificados a todos los partici-
pantes que terminen antes de los 5000 en correr 100m. Si hay 50 participantes
en este torneo de natación, aproximadamente ¿cuántos certificados serán nece-
sarios?
3.3. Aproximaciones
3.3.1. Aproximación de Binomial a Poisson
Vimos que cuando n es “grande” y p es “chico” en una distribución binomial
con parámetros n y p, la distribución binomial se aproxima a una distribución de
Poisson con parámetro λ = np. En la práctica cuando n > 30, p < 0,10 y np < 5
utilizaremos la distribución de Poisson en lugar de la binomial, por ser buena la
aproximación en estos casos.
e−4 · 40 e−4 · 41
P (X < 2) = P (X = 0) + P (X = 1) ' + = 0,018 + 0,073 = 0,091.
0! 1!
La demostración del teorema anterior resulta inmediata del Teorema Central del
lı́mite que estudiaremos más adelante.
72
Nota 3.3.1 Por lo anterior se tiene que para n “grande”
b − np a − np
P (a < X ≤ b) ' Φ √ −Φ √ .
npq npq
73
Ejemplo 3.3.3 Se sabe que el número de clientes que llegan a un banco es, en
promedio, 10 en un perı́odo de 2 minutos. ¿Cuál es la probabilidad que lleguen a los
sumo 110 clientes en un lapso de 20 minutos?
Sea X la variable aleatoria que denota el “número de clientes que llegan al banco
en un lapso de 20 minutos”, entonces X ∼P(100). Aproximamos a una normal con
media y varianza λ = 100 . Luego la probabilidad buscada es
110,5 − 100
P (X ≤ 110) ' Φ = Φ(1,05) = 0,853.
10
de donde derivando
dh−1
fY (y) = (y) fX (h−1 (y)), para y ∈ h(X ).
dy
Ejemplo 3.4.1 Sea X ∼ E(λ) esto es fX (x) = λe−λx I(0,∞) (x) y consideremos la
transformación Y = h(x) = x2 , entonces h es biyectiva en el soporte de X que es el
intervalo (0, ∞), luego
1 1/2
fY (y) = 1/2
λe−λy I(0,∞) (y).
2y
m
S
Si h es inyectiva a trozos es decir X = Xi tal que hi = h/Xi es inyectiva,
i=1
entonces m
X dh−1
fY (y) = i
(y) fX (h−1
i (y)), para y ∈ h(X ).
i=1
dy
74
3.5. Distribución conjunta de variables aleatorias
Definición 3.5.1 Si X e Y son dos variables aleatorias definidas sobre el mismo
espacio de probabilidad (Ω ,A, P)entonces (X, Y ) : Ω → IR2 se denomina variable
aleatoria o vector aleatorio bidimensional.
1)
FXY (−∞, y) = lı́m FXY (x, y) = 0
x→−∞
P (a < x ≤ b, c < Y ≤ d) = FXY (b, d) − FXY (a, d) − FXY (b, c) + FXY (a, c).
75
3.5.1. Distribuciones conjuntas discretas
Definición 3.5.3 El vector aleatorio (X, Y ) es discreto si toma valores en un
conjunto numerable.
y en general
X
P ((X, Y ) ∈ B) = fXY (xi , yi ), para todo B ∈ ß2
{i:(xi ,yi )∈B}
76
pues para cada resultado con x unidades útiles e y unidades reprocesadas, se tendrán
necesariamente n − x − y unidades desechadas y, dada la independencia, la proba-
bilidad de cualquiera de ellos es px1 · py2 · pn−x−y
3 = px1 · py2 · (1 − p2 − p3 )n−x−y . Como
n!
existen px,y,n−x−y
n = de tales resultados y todos son equiprobables se
x!y!(n − x − y)!
tiene que
n!
fXY (x, y) = P (X = x, Y = y) = px py (1 − p1 − p2 )n−x−y , (I)
x!y!(n − x − y)! 1 2
para x, y = 0, 1, · · · , n ;0 ≤ x + y ≤ n
La expresión (I) del ejemplo anterior se conoce como distribución trinomial. Una
generalización es la distribución multinomial con parámetros n, p1 , p2 , · · · , pk , a
saber:
Si un experimento aleatorio con k + 1 resultados mutuamente excluyentes ei ,con
k+1
P
respectivas probabilidades p1 , p2 , · · · , pk+1 , de modo que pi = 1, se repite n veces
i=1
independientemente, entonces la densidad multinomial
n! xk+1
f (x1 , x2 , · · · , xk ; n, p1 , · · · , pk ) = px1 1 px2 2 · · · pk+1 ,
x1 !x2 ! · · · xk+1 !
k
P k
P
donde xi = 0, · · · n para i = 1, · · · , k ;xk+1 = n − xi y pk+1 = 1 − pi , es la
i=1 i=1
correspondiente a la distribución conjunta de las variables Xi :“número de resultados
ei en los n ensayos”,i = 1, 2, · · · , k + 1.
Ejercicio 3.5.3 Verifique que la anterior es una densidad discreta (hágalo para
k = 2).
77
Teorema 3.5.4 Si (X, Y ) es un vector aleatorio continuo entonces
Z d Z b
P (a < X ≤ b, c < Y ≤ d) = fXY (x, y)dxdy,
c a
y en general
Z
P ((X, Y ) ∈ B) = fXY (x, y)dxdy, para todo B ∈ ß2 .
B
Ejemplo 3.5.2 1) Sea B cualquier región del plano con área b finita. Se define
la distribución uniforme en B como aquella con densidad
1
fXY (x, y) = IB (x, y).
b
Se pide
a) hallar el valor de k ,
b) determinar la F.D.A. FXY ,
c) encontrar P (X ≤ 1/2, Y ≤ 3/4),
d) hallar P (1/4 ≤ X ≤ 1/2, Y ≥ 1/2)
Resolvamos
R∞ R∞ R1R1
a) −∞ −∞ fXY (x, y)dxdy = 1, esto es o 0 k(x + y)dxdy = 1 ⇒
R1R1 2 1 R1R1 2 1
k o 0 ( x2 + xy) 0 dy = 1 ⇒ k o 0 ( 21 + y)dy = 1 ⇒ k y2 + y2 0 = 1 ⇒
k=1
78
b)
Z y Z x
FXY (x, y) = fXY (u, v)dudv
Z−∞
y Z−∞
x
= (u + v)I(0,1) (u)I(0,1) (v)dudv
−∞
Z y Z−∞
x
= (u + v)dudv I(0,1) (x)I(0,1) (y)
0 0
Z 1 Z x
+ (u + v)dudv I(0,1) (x)I[1,∞) (y)
0 0
Z y Z 1
+ (u + v)dudv I[1,∞) (x)I(0,1) (y)
0 0
Z 1 Z 1
+ (u + v)dudv I[1,∞) (x)I[1,∞) (y)
0 0
Luego
xy(x + y) x(x + 1)
FXY (x, y) = I(0,1) (x)I(0,1) (y) + I(0,1) (x)I[1,∞) (y)
2 2
y(y + 1)
+ I[1,∞) (x)I(0,1) (y) + I[1,∞) (x)I[1,∞) (y).
2
15
c) P (X ≤ 1/2, Y ≤ 3/4) = FXY (1/2, 3/4) = 64
.
R1 R 1/2 R1 2 1/2
d) P (1/4 ≤ X ≤ 1/2, Y ≥ 1/2) = 1/4
(u+v)dudv = 1/2
( u2 +uv) 1/4
dv =
1/2
9
64
.
79
Lema 3.5.2 si (X, Y ) es un vector aleatorio con F.D.A. FXY , entonces
FX (x) = lı́m FXY (x, y) y FY (y) = lı́m FXY (x, y). (1)
y→∞ x→∞
Demostración
Probemos (3)
Luego
Z x Z ∞
dFX d
fX (x) = (x) = G(u)du = G(x) = fXY (x, v)dv.
dx dx −∞ −∞
80
Ejercicio 3.5.5 Pruebe que si (X, Y ) tiene una distribución trinomial con parámet-
ros n, p1 y p2 , entonces X ∼B(n, p1 ) e Y ∼B(n, p2 ).
Mostremos con un ejemplo que el conocimiento de las marginales no implica el
de la conjunta.
Ejemplo 3.5.4 Se arrojan dos monedas distinguibles. Sea X la variable que denota
“número de caras para la primer moneda”, Y la variable que representa “número de
caras para la segunda moneda”. Consideremos tres casos
1) los cantos de las monedas están soldados con las dos caras hacia el mismo
lado,
2) lo mismo, pero con las caras opuestas,
3) se arroja cada moneda separadamente.
Estos tres casos describen distribuciones conjuntas de X e Y diferentes. Sin
embargo, para cada una de ellas se tienen las mismas marginales:
P (X = 1) = P (X = 0) = P (Y = 1) = P (Y = 0) = 12 .
Nota 3.5.3 La distribución conjunta contiene más información que las marginales
pues contiene información sobre la dependencia entre ellas.
81
Ejercicio 3.5.6 Demuestre el lema anterior.
lo que muestra que ambas variables son independientes. También se deduce en este
ejemplo que T ∼Ge(p), es decir la misma distribución que S y, en consecuencia, los
tiempos de espera entre éxitos sucesivos tienen la misma distribución que el tiempo
entre el comienzo y el primer éxito, lo que corresponde a la idea intuitiva que el
proceso no tiene memoria.
Demostración
Sean A, B ∈ ß1 , entonces
82
3.6. Distribuciones Condicionales
Sean X e Y dos variables aleatorias definidas en el mismo espacio Ω. ¿Qué infor-
mación aporta X respecto de Y ?. Por ejemplo : si disponemos de un modelo para
la distribución conjunta de la temperatura máxima de hoy con la de mañana, este
análisis nos permitirı́a usar la primera para obtener una predicción de la segunda.
El concepto adecuado es el de distribución condicional.
Ejemplo 3.6.1 Sean S y T las variables que representan los números de intentos en
los que ocurren el primer y segundo éxito en un esquema de Bernoulli. Encontremos
la distribución condicional de S dado T . La distribución conjunta de (S, T ) es
83
3.6.2. Caso continuo
Si X es continua, no se puede repetir exactamente el mismo camino que para el
caso discreto, ya que P (X = x) = 0 para todo x. Supongamos que (X, Y ) es una
variable bidimensional continua y C = {x : fX (x) > 0}. Para todo x ∈ C se define
la función densidad continua condicional de Y dado X = x como
fXY (x, y)
fY /X (y/x) = .
fX (x)
Es claro que para cada x ∈ C se cumple
Z ∞
fY /X (y/x) ≥ 0 y fY /X (y/x)dy = 1,
−∞
Ejemplo 3.6.2 Supongamos que fXY (x, y) = (x + y)I(0,1) (x)I(0,1) (y), ya vimos, en
el Ejemplo 3.5.3, que fX (x) = (x + 1/2)I(0,1) (x), luego para x ∈ (0, 1) está definida
(x + y)
fY /X (y/x) = I(0,1) (y),
x + 12
Z y
(x + t)
FY /X (y/x) = 1 I(0,1) (t)dt
−∞ x + 2
Z y
(x + t)
= dt · I(0,1] (y)
0 x + 21
xy + y 2 /2
= · I(0,1] (y), para 0 < x < 1.
x + 1/2
y Z ∞ Z ∞
fY (y) = fXY (x, y)dx = fY /X (y/x)fX (x)dx.
−∞ −∞
84
Ejemplo 3.6.3 Se supone que la cantidad de accidentes de auto en un mes es una
variable P(λ), que la probabilidad de que un accidente resulte fatal es p, y que las
consecuencias de accidentes distintos son independientes, de modo que si X e Y
son las cantidades de accidentes en general y de accidentes fatales, la distribución
condicional de Y dado X = x es B(n, p), o sea que fY /X (y/x) = xy py (1 − p)x−y
para y ≤ x. Calculemos la distribución marginal de Y
X x λx (λp)y X ((1 − p)λ)x−y
fY (y) = py (1 − p)x−y e−λ = e−λ .
x≥y
y x! y! x≥y
(x − y)!
y por lo tanto
(λp)y
fY (y) = e−λp .
y!
Es decir que Y ∼P(λp), resultando bastante razonable, si se piensa en λ y p como
medias del total de accidentes y de fatalidades por accidente.
Condicionalidad e independencia
Ya vimos que la independencia de eventos está estrechamente relacionada con
la probabilidad condicional, análogamente la independencia de variables aleatorias
está muy relacionada con la distribución condicional de las variables aleatorias.
Por ejemplo, supongamos que X e Y son dos variables independientes, entonces
fXY (x, y) = fX (x)fY (y). Por otra parte sabemos que fXY (x, y) = fY /X (y/x)fX (x),
de modo que fY /X (y/x) = fY (y), es decir, la densidad condicional de Y es la densidad
marginal de Y , lo que es lógico, pues por ser X e Y independientes, dar un valor de
X no influye en Y . Luego para demostrar que dos variables son no independientes
es suficiente mostrar que fY /X (y/x) depende de x.
Ejemplo 3.6.4 Sea fXY (x, y) = (x + y)I(0,1) (x)I(0,1) (y). ¿Son X e Y independien-
tes?. Ya vimos en el Ejemplo 3.6.2 que fY /X (y/x) = (x+y) I (y) para 0 < x < 1, lo
x+ 12 (0,1)
que muestra que las dos variables no son independientes por depender la distribución
condicional de Y del valor x.
3.7. Cuestionario
1) ¿Cuál es el objetivo de definir variables aleatorias asociadas a un experimento?
85
3) Pruebe que todo intervalo de la recta puede escribirse a partir de intervalos
de la forma(−∞, x]con x ∈ IR. De aquı́ justifique porqué surge como natural
la definición de F.D.A. de una V.A
4) Enumere las propiedades que caracterizan a la F.D.A. de una variable aleato-
ria.
5) Defina función densidad en el caso discreto y en el caso continuo. Indique
diferencias relevantes entre ambas.
6) ¿En cuáles de los siguientes casos usarı́a la Distribución Binomial para modelar
la variable de interés?.En los casos afirmativos indique los valo-//res de n y p.
7) ¿En qué casos usa la Distribución de Poisson para modelar va?. Ejemplifique.
8) Indique la relación entre las siguientes distribuciones:
a) Poisson y Exponencial.
b) Poisson y Gama.
86
Capı́tulo 4
87
Definición 4.1.1 Llamaremos valor esperado, valor medio o esperanza de
una V.A. X al valor
P
(i) E[X] = i xi fX (xi ) si X es discreta con puntos masa x1 , x2 , · · · ,
R∞
(ii) E[X] = −∞
xfX (x)dx si X es continua.
x 2 3 4 5 6 7 8 9 10 11 12
P (x) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36
luego
1 2 1
+3·
µX = 2 · + · · · + 12 · = 7.
36 36 36
En este caso la esperanza es un valor de la variable, el más probable de ocurrir
y, como vimos, la distribución es simétrica respecto a ese valor.
2) Sea X una V.A exponencial con densidad fX (x) = 2e−2x I(0,∞) (x), luego
Z ∞ −2x
∞ e ∞ 1
µX = 2xe−2x dx = −xe−2x 0 + 0
= .
0 −2 2
88
Lema 4.1.1 Propiedades del valor esperado
El valor esperado verifica las siguientes propiedades
iv) Si g1 (x) ≤ g2 (x) para todo x ∈ IR, entonces E[g1 (X)] ≤ E[g2 (X)].
Demostración
Como E[X 2 ] < ∞ entonces existe µX . Por otra parte
2
σX = E[(X − µX )2 ]
= E[X 2 − 2µX X + µ2X ]
= E[X 2 ] − 2µX E[X] + µ2X
= E[X 2 ] − µ2X .
2
2 1 2 1 210
σX = (2 − 7)2 · + (3 − 7)2 · + · + (12 − 7)2 · =
36 36 36 36
89
2) Sea X la V.A exponencial con densidad fX (x) = 2e−2x I(0,∞) (x), luego
Z ∞
1
2
E[X ] = 2x2 e−2x dx = ,
0 2
por lo tanto
2 1 1 1 1
σX = E[X 2 ] − µ2X = − = ⇒σ= .
2 4 4 2
Nota 4.1.4 La varianza, al igual que el desvı́o estándar son medidas de dispersión
de la distribución de la variable. Miden cuánto, en promedio, se “alejan” los valores
de X de su media.
Lema 4.1.3 Propiedades de la varianza
La varianza de una variable aleatoria verifica las siguientes propiedades
i) var[c] = 0 para c ∈ IR,
ii) var[aX + b] = a2 var[X].
Ejercicio 4.1.2 Demuestre el lema anterior.
Desigualdad de Chebyshev
Sea X una V.A. con varianza finita σ 2 y media µ, queremos encontrar una cota
inferior para la probabilidad P (|X − µ| ≤ rσ) para r > 0, que nos permita tener una
idea de la proporción de valores de la distribución de X que se encuentra a r desvı́os
de la media, especialmente útil en los casos en que no se conoce la distribución.
La desigualdad de Chebyshev nos brinda esta cota y para demostrarla usamos el
siguiente
Teorema 4.1.1 Desigualdad de Markov
Sea X una V.A. y g : IR → IR una función no negativa, entonces
E[g(X)]
P (g(X) ≥ k) ≤ , para todo k > 0. (4,1)
k
Demostración
Lo probemos para X continua, el caso discreto es análogo, reemplazando inte-
grales por sumas. Sea A = {x : g(x) ≥ k}, entonces
Z ∞
E[g(X)] = g(x)fX (x)dx
−∞
Z Z
= g(x)fX (x)dx + g(x)fX (x)dx
A
Z IR−A
≥ g(x)fX (x)dx
A
Z
≥k fX (x)dx
A
= kP (X ∈ A),
90
y puesto que x ∈ A ⇔ g(x) ≥ k, se tiene que
E[g(X)]
E[g(X)] ≥ kP (g(X) ≥ k] ⇔ P (g(X) ≥ k) ≤ ,
k
pues k > 0. 2
Lema 4.1.4 Desigualdad de Chebyshev
Sea X una V.A. con varianza finita σ 2 y media µ, r > 0, entonces
1
P (|X − µ| < rσ) ≥ 1 − 2 . (4,2)
r
Ejercicio 4.1.3 Demuestre el lema anterior usando la desigualdad de Markov.
Ejemplo 4.1.3 Para cualquier V.A. X se tiene, de acuerdo con la desigualdad de
Chebyshev, que P (µ − 2σ < X < µ + 2σ) ≥ 43 , esto es, el 75 % de los valores de X
se encuentran a dos desvı́os de la media de su distribución. Gráficamente
91
2
Ası́, por ejemplo µ01 = E[X] = µX , µ2 = var[X] = µ02 − µ01 .
Es claro que µr puede obtenerse como función de los momentos no centrados, en
efecto
µr = E[(X − µ)r ]
" r #
X r
=E (−1)k µk X r−k
k=0
k
r
X r
= (−1)k µk E[X r−k ]
k=0
k
r
X r
= (−1)k µk µ0r−k
k=0
k
2
Ası́, por ejemplo, µ3 = µ03 − 3µµ02 + 3µ2 µ01 − µ3 = µ03 − 3µ01 µ02 + 2µ01 .
Simetrı́a y curtosis
Los momentos centrados de tercer y cuarto orden nos brindan información ac-
erca de la asimetrı́a de la distribución y del grado de “achatamiento” de la misma
alrededor de µ, respectivamente.
Se define el coeficiente de asimetrı́a como
µ3
α3 = 3 . (4,5)
σ
Para distribuciones unimodales, es decir con un único modo o valor de mayor
densidad, se tiene
si α3 = 0 se dice simétrica.
92
si α4 < 3,se dice que la densidad es más “achatada”, alrededor de µ, que la
normal,
93
Otras medidas importantes
Además de la media existen otras medidas de tendencia central que pueden usarse
y que para algunas distribuciones son más representativas, tales como la mediana y
el modo.
Ejemplo 4.1.4 1) Sea X la variable que denota la suma de los puntos obtenidos
al arrojar un par de dados, entonces
15 1 21 1
P (X < 7) = < y P (X ≤ 7) = > ,
36 2 36 2
luego M e = 7 es decir, en este caso, coincide con la media como era de esperar
por ser la distribución de X simétrica alrededor de µ = 7.
2) Sea Y una V.A. con densidad fY (y) = 2e−2y I(0,∞) (y), entonces
R M e −2y Me
0
2e dy = 12 ⇒ −e−2y o = 12 ⇒ 1 − e−2M e = 21 ⇒ −2M e = − ln 2 ⇒
M e = ln22
En este caso M e < µX como era de esperar pues la densidad es sesgada a
derecha.
Definición 4.1.6 Dada una V.A. X se llama q−ésimo cuantil, 0 < q < 1, de la
distribución de X al valor xq definido por
94
Nota 4.1.6 La M e es una medida de tendencia central más apropiada que la media
para distribuciones muy sesgadas, por no estar afectada por la presencia de valores
extremos.
Existen distribuciones donde no existe el modo y otras donde existe pero no es
único, por ejemplo, para una distribución uniforme el modo no existe y para la
normal se tiene que M o = M e = µ.
Definición 4.1.8 Función generadora de momentos
n
X
txn x
mX (t) = e p (1 − p)n−x
x=0
x
n
X n
= (pet )x (1 − p)n−x
x=0
x
n
= pet + q
95
Luego
dmX n−1
µX = (t) t=0
= n pet + q pet t=0
= np
dt
y
d2 mX h n−1 n−2 i
µ02 = (t) t=0
= npet pet + q + np2 e2t (n − 1) pet + q t=0
dt2
2
= np + np (n − 1).
2
Por lo tanto σX = µ02 − µ2X = np + np2 (n − 1) − n2 p2 = np(1 − p) = npq.
nk(N −k) N −n
3) Si X ∼Hi(N, k, n), entonces µX = n Nk y σX
2
= N2 N −1
.
k N −n
2
Luego si llamamos p = N
entonces µX = np y σX = npq N −1
con q = 1 − p.
2 k
Si N es grande vemos que σX se aproxima a una binomial con p = N
.(la
n
aproximación es buena para N < 0,05).
λ 1 2 1
4) Si X ∼E(λ), entonces mX (t) = λ−t
para t < λ, µX = λ
y σX = λ2
.
λ r r r
2
5) Si X ∼G(r, λ), entonces mX (t) = λ−t
para t < λ, µX = λ
y σX = λ2
.
1 2 2
6) Si X ∼ N (µ, σ 2 ), entonces mX (t) = etµ+ 2 t σ 2
, µX = µ y σX = σ2.
X−µ
(Sugerencia: probarlo para N (0, 1) y luego usar la transformación Z = σ
para el caso general)
96
X−µ
P (µ − 3σ < X < µ + 3σ) = P (−3 < σ
< 3) = Φ(3) − Φ(−3) = 2Φ(3) − 1 =
0,997
luego el 99,7 % del área bajo una densidad normal se encuentra a tres desvı́o
de la media.
Ejercicio 4.1.5 Un producto es empaquetado con una etiqueta que establece un peso
neto de 250gr. Al gerente de producción le gustarı́a que los paquetes se llenen con al
menos de 250gr y no más de 258gr. Para chequear la performance de este objetivo,
se tomó una muestra aleatoria de 60 paquetes y se pesó cada uno de ellos. Los
resultados, redondeados al gramo más próximo, son los siguientes
251 258 256 260 255 255 261 257 258 257
257 257 255 257 254 257 255 256 249 257
255 255 255 254 255 256 259 257 251 253
256 257 257 253 256 255 256 251 254 260
250 253 253 259 250 252 258 261 257 259
252 256 258 252 254 254 252 258 256 253
97
P
i) E[g(X, Y )] = i g(xi , yi )fXY (xi , yi ) si (X, Y ) es discreto con puntos masa
(x1 , y1 ), (x2 , y2 ), · · · ,
R∞ R∞
ii) E[g(X, Y )] = g(x, y)fXY (x, y)dxdy si (X, Y ) es continuo.
−∞ −∞
1) E[c1 g1 (X, Y ) + c2 g2 (X, Y )] = c1 E[g1 (X, Y )] + c2 E[g2 (X, Y )], para c1 , c2 ∈ IR,
E[g(X)h(Y )] = E[g(X)]E[h(Y )]
cov(X, Y )
ρXY = , si σX > 0 y σY > 0. (4,9)
σX σY
i) |ρ| ≤ 1,
Demostración
Probemos primero la desigualdad de Cauchy-Shwartz:
98
para cualquier par de variables aleatorias U y V y vale la igualdad en (4.10) si y
sólo si P [V = cU ] = 1, para alguna constante c. En efecto: sea
h(t) = E (tU − V )2 , para t ∈ IR,
luego h(t) = E[U 2 ]t2 − 2E[U V ]t + E[V 2 ] ≥ 0 para todo t ∈ IR, es decir h(t) es una
función cuadrática no negativa, lo que implica que su discriminante
4 (E[U V ])2 − 4E[U 2 ]E[V 2 ] ≤ 0,
de donde resulta (4.10). Además vale la igualdad si y sólo si existe t0 ∈ IR tal que
E [(t0 U − V )2 ] = 0 esto es, si y sólo si,P (V = t0 U ) = 1.
Usando la desigualdad de Cauchy-Shwartz con U = X − µX y V = Y − µY , se
tiene que
p p
|E [(X − µX )(Y − µY )] | ≤ E [(X − µX )2 ] E [(Y − µY )2 ] ⇒ |ρXY | ≤ 1,
y vale la igualdad si y sólo si P (Y − µY = t0 (X − µX )) = 1 para alguna constante
t0 , esto es si y sólo si P (Y = a + bX) = 1 para constantes a y b. 2
Nota 4.1.7 El lema anterior nos aclara porqué ρ mide el grado de relación lineal
entre dos variables aleatorias. Un valor de ρ cercano a 1, en valor absoluto, nos
dirá que X e Y tienen un alto grado de relación lineal.
X = cos2πU
Y = sen2πU
luego X e Y no son independientes, pues X 2 + Y 2 = 1. Veamos que son no correla-
cionadas. XY = cos2πU sen2πU = g(U ), luego:
Z 1
E[XY ] = E[g(U )] = cos2πusen2πudu
0
Z 1
sen4πu
= du
0 2
−cos4πu 1
= 0
8π
= 0.
99
Por otra parte
Z 1
E[X] = E[g1 (U )] = cos2πudu
0
sen2πu 1
= 0
2π
= 0,
y
Z 1
E[X] = E[g2 (U )] = sen2πudu
0
−cos2πu 1
= 0
2π
= 0.
luego cov(X, Y ) = 0.
Demostración
100
!2
Xn n
X Xn
var[ ai Xi ] = E ai Xi − E[ ai Xi ]
i=1 i=1 i=1
!2
n
X
=E ai (Xi − E[Xi ])
i=1
" n
#
X XX
=E a2i (Xi − E[Xi ])2 + ai aj (Xi − E[Xi ])(Xj − E[Xj ])
i=1 i6=j j6=i
n
X XX
a2i E (Xi − E[Xi ])2 +
= ai aj E [(Xi − E[Xi ])(Xj − E[Xj ])]
i=1 i6=j j6=i
Xn XX
= a2i var[Xi ] + ai aj cov[Xi , Xj ].
i=1 i6=j i6=i
Por otra parte, (4.12) resulta de (4.11) y del hecho que cov[Xi , Xj ] = 0 si las va-
riables son independientes, y (4.13) resulta de (4.12) tomando ai = n1 , i = 1, 2, · · · , n.
2
2)
dr+s mXY
3) (t1 , t2 ) = E[X r Y s ].
dtr1 dts2 (t1 ,t2 )=(0,0)
101
4.2. Esperanzas condicionales
Definición 4.2.1 Sea (X, Y ) una variable aleatoria bidimensional y g : IR2 → IR.
La esperanza condicional de g(X, Y ) dado X = x se define por
Z ∞
E [g(X, Y )/X = x] = g(x, y)fY /X (y/x)dy,
−∞
si (X, Y ) es continua, y
X
E [g(X, Y )/X = x] = g(x, yj )fY /X (yj /x),
j
si (X, Y ) es discreta.
En particular, si g(x, y) = y, tenemos definida E [Y /X = x] = E [Y /x], llamada
media condicional de Y dado X = x por ser la media de tal distribución condicional.
Ejemplo 4.2.1 Para fXY (x, y) = (x+y)I(0,1) (x)I(0,1) (y) encontramos, en el capı́tulo
x+y
anterior, que fY /X (y/x) = x+1/2 I(0,1) (y) para 0 < x < 1. Luego la media condicional
de Y dado x es
x
1
+ 31
Z
x+y 2
E [Y /x] = y dy = ,
0 x + 12 x + 21
para x ∈ (0, 1).
Como, cualquiera sea g, E [g(Y )/x] es una función de x, la denotemos por h(x),
es decir, h(x) = E [g(Y )/x]. Encontremos la esperanza de h(X)
Z ∞
E [E [g(Y )/x]] = E[h(X)] = h(x)fX (x)dx
Z−∞
∞
Z ∞
= g(y)fY /X (y/x)dy fX (x)dx
−∞ −∞
Z ∞Z ∞
= g(y)fY /X (y/x)fX (x)dydx
−∞ −∞
Z ∞Z ∞
= g(y)fXY (x, y)dydx = E[g(Y )].
−∞ −∞
102
Definición 4.2.2 E[Y /X = x] se llama curva de regresión de Y sobre x.
También se denota por µY /X=x = µY /x .
var [Y /X = x] = E Y 2 /X = x − (E [Y /X = x])2 .
(4,18)
Teorema 4.2.2
Demostración
4.3. Predicción
Supongamos que disponemos de un modelo para la distribución conjunta de
la temperatura máxima de hoy con la de mañana y deseamos predecir esta última
conociendo la primera. Formalmente: se busca aproximar a Y (temperatura máxima
de mañana) con una función de X(temperatura máxima de hoy). Es decir, se busca
una función g : IR → IR tal que Y − g(X) sea “lo más pequeña posible”. Este
problema se denomina en general “predicción”.
Una forma de plantear el problema es minimizar alguna medida del error. El
criterio más usual es el “error medio cuadrático”(E.M.C.):
e(g) = E (Y − g(X))2 .
(4,19)
103
4.3.1. Predicción lineal
Para comenzar con un caso simple, trataremos el problema en que g es una
función lineal, es decir de la forma g(x) = a + bx. En este caso
e(g) = E (Y − a − bX)2 ,
(4,20)
104
. La constante c que minimiza (y − c)2 fY /X (y/x)
P P
Para cada x, basta con minimizar la
y y
es (derivando) X
c= yfY /X (y/x) = E [Y /X = x] .
y
4.4. Cuestionario
a) distribución unimodal.
b) distribución bimodal.
c) distribución donde no exista el modo.
σ
C.V =
µ
Este mide la dispersión de la distribución relativa a µ. Si el C.V de una variable
aleatoria X es menor que el de una variable aleatoria Y , ¿para cuál de las dos
distribuciones su media representa mejor a los datos? Justifique.
7) Sean X1 , X2 , · · · , Xn variables aleatorias independientes para las cuales existe
Pn
mXi (t). Demuestre que si Y = Xi entonces existe mY (t) y se verifica:
i=1
n
Y
mY (t) = mXi (t)
i=1
105
8) Encuentre el coeficiente α3 para la distribución B(n, p) e indique para qué val-
ores de n y/o p la distribución es asimétrica positivamente, asimétrica negati-
vamente o simétrica.
10) Dado un conjunto de datos,indique qué pasos debe seguir para asignar norma-
lidad a los mismos. Elija un conjunto de datos del práctico 1 o de la bibliografı́a
y determine si puede suponer que provienen de una distribución normal.
106
Bibliografı́a
107