Estadística para el Clima UBA

Universidad de Buenos Aires
Facultad de Ciencias Exactas y Naturales

Departmento de Ciencias de la Atmósfera y los Océanos
Estadística para el Sistema Climático 1
Autor
Mariano Sebastián Alvarez
Versión 1.1
2020
Índice general
1. Probabilidad 2
1.1. Introducción a la estadística y probabilidad . . . . . . . . . . . . . . . . . 2
1.1.1. Poblaciones, muestras, espacio muestral . . . . . . . . . . . . . . . . 3
1.1.2. Relaciones de teoría de conjuntos y Diagramas de Venn . . . . . . . 4
1.1.3. Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2. Técnicas de conteo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.1. Permutaciones y combinaciones . . . . . . . . . . . . . . . . . . . . 7
1.2.2. Diagrama de árbol . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.3. Probabilidad hipergeométrica . . . . . . . . . . . . . . . . . . . . . 10
1.3. Probabilidad condicional, ley de probabilidad total y teorema de Bayes . . 14
1.3.1. Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3.2. Ley de probabilidad total . . . . . . . . . . . . . . . . . . . . . . . 15
1.3.3. Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3.4. Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2. Variables aleatorias y funciones de probabilidad 19

2.1. Funciones de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.1.1. Variables discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.1.2. Variables continuas . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2. Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.2.1. Momentos respecto al origen . . . . . . . . . . . . . . . . . . . . . . 26
2.2.2. Momentos respecto a la media . . . . . . . . . . . . . . . . . . . . . 27
3. Distribuciones de probabilidad Binomial, Poisson y Normal 30

3.1. Distribución de probabilidad binomial . . . . . . . . . . . . . . . . . . . . . 30
3.1.1. Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2. Distribución de probabilidad de Poisson . . . . . . . . . . . . . . . . . . . 35
3.2.1. Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.3. Distribución de probabilidad Normal . . . . . . . . . . . . . . . . . . . . . 38
3.3.1. Distribución Normal Estándar . . . . . . . . . . . . . . . . . . . . . 38
3.3.2. Tabla de probabilidad normal estándar . . . . . . . . . . . . . . . . 40
3.3.3. Medidas de posición: percentiles . . . . . . . . . . . . . . . . . . . . 42
4. Estadística descriptiva 48
4.1. Estadística descriptiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.1.1. Histogramas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
i
Estadística para el Sistema Climático 1 M.S. Alvarez
4.2. Medidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.2.1. Medidas de tendencia central . . . . . . . . . . . . . . . . . . . . . 50
4.2.2. Medidas de posición . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.2.3. Medidas de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.3. Box plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5. Viento. Distribuciones de probabilidad Weibull y Gamma 60

5.1. Viento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.1.1. Variables asociadas al viento . . . . . . . . . . . . . . . . . . . . . . 60
5.1.2. Rosas de los vientos . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
5.2. Distribución Weibull . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
5.2.1. Determinación de los parámetros de forma y escala a partir de datos:
métodos de máxima similitud . . . . . . . . . . . . . . . . . . . . . 67
5.3. Distribución Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
5.3.1. Características de la distribución . . . . . . . . . . . . . . . . . . . 70
5.3.2. Estimación de α y β . . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.3.3. Distribución Gamma Estándar . . . . . . . . . . . . . . . . . . . . . 71
5.3.4. Caso particular: ¿cómo tratar los 0 en las observaciones de precipi-
tación? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
6. Inferencia estadística 75
6.1. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
6.1.1. Intervalo de confianza para la media poblacional . . . . . . . . . . . 75
6.1.2. Intervalo de confianza para la varianza poblacional . . . . . . . . . 80
6.2. Pruebas de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
6.2.1. Pruebas de hipótesis para µ . . . . . . . . . . . . . . . . . . . . . . 83
6.2.2. Errores en las pruebas de hipótesis . . . . . . . . . . . . . . . . . . 84
6.2.3. Pruebas de hipótesis basadas en dos muestras . . . . . . . . . . . . 91
6.2.4. Bondad de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
7. Distribución de probabilidad conjunta y correlación 101

7.1. Funciones de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
7.1.1. Variables discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
7.1.2. Variables continuas . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
7.2. Momentos de la distribución conjunta . . . . . . . . . . . . . . . . . . . . . 102
7.2.1. Momentos centrados respecto al origen . . . . . . . . . . . . . . . . 102
7.2.2. Momentos centrados respecto a la media . . . . . . . . . . . . . . . 103
7.2.3. Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
7.3. Coeficiente de correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
7.4. Regresión mínimo cuadrática . . . . . . . . . . . . . . . . . . . . . . . . . . 108
7.5. Pruebas de hipótesis para el coeficiente de correlación de la población ρ . . 112
7.5.1. Procedimiento para probar H0 : ρ = 0 . . . . . . . . . . . . . . . . . 112
7.5.2. Procedimiento para probar H0 : ρ = ρ0 6= 0 . . . . . . . . . . . . . . 112
7.6. Intervalo de confianza para el coeficiente de correlación de la población ρ . 113
7.7. Series temporales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
7.7.1. Tendencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
7.7.2. Autocorrelación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
ii
8. Análisis de Varianza 121

8.1. ANOVA de un factor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
8.1.1. Notación y suposiciones . . . . . . . . . . . . . . . . . . . . . . . . 121
8.1.2. Sumas de cuadrados . . . . . . . . . . . . . . . . . . . . . . . . . . 122
8.1.3. Estadístico de prueba y prueba de hipótesis . . . . . . . . . . . . . 123
8.1.4. Tabla ANOVA unifactorial . . . . . . . . . . . . . . . . . . . . . . . 124
8.1.5. ANOVA unifactorial con tamaños de muestras desiguales . . . . . . 129
8.2. ANOVA con factores múltiples con una observación por cada combinación
de factores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
8.2.1. Notación y suposiciones (modelo aditivo) . . . . . . . . . . . . . . . 130
8.2.2. Sumas de los cuadrados . . . . . . . . . . . . . . . . . . . . . . . . 131
8.2.3. Estadísticos de prueba y pruebas de hipótesis . . . . . . . . . . . . 132
8.2.4. Tabla ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
iii
Introducción
Este apunte fue preparado por Mariano Sebastián Alvarez, Jefe de Trabajos Prácticos
de las materias Estadística para el Sistema Climático 1 y Probabilidades y Estadística
pertenecientes a los planes de estudio de las carreras Licenciatura en Ciencias de la At-
mósfera y Licenciatura en Oceanografía del Departamento de Ciencias de la Atmósfera
y los Océanos, Facultad de Ciencias Exactas y Naturales, de la Universidad de Buenos
Aires.
El contenido del apunte se basa en las clases prácticas de la materia, que fueron digita-
lizadas para adecuarse a la modalidad de enseñanza virtual forzada por las restricciones
causadas por la pandemia de COVID-19 a lo largo del 2020. En este apunte se desarrollan
brevemente explicaciones sobre cada tema, pueden encontrar algunos ejemplos y también
28 ejercicios modelo resueltos. Aún así, el apunte fue complementado por clases virtuales
en las que se continuaron discutiendo los temas, por lo que los contenidos del apunte
pueden no ser exhaustivos respecto al programa de la materia.
1
Capítulo 1
Probabilidad
1.1. Introducción a la estadística y probabilidad

La estadística proporciona métodos para organizar y resumir datos y para sacar conclu-
siones basadas en la información que contienen esos datos. En la actualidad se habla de
problemas de big data para referirse al análisis estadístico de grandes volúmenes de datos
para obtener patrones de comportamiento del consumidor, estimar cómo va a evolucionar
el mercado financiero o determinar qué publicidades nos muestran en las redes sociales
según nuestros gustos y preferencias. Bueno, la meteorología y la oceanografía son pro-
blemas de big data desde mucho antes que hablar de big data estuviera de moda. Solo
es cuestión de imaginarse que, por ejemplo, los datos de reanálisis que se utilizan para
realizar investigaciones climáticas se presentan cada 30 km en toda la superficie de la
Tierra, y en 137 niveles en la vertical. Y para cada punto, un dato por hora. O sea, 24
datos horarios, por cada punto (x,y,z), desde 1950 hasta la actualidad. Es fundamental
entonces el uso de la estadística para procesar los datos y resolver distintos interrogantes,
por ejemplo:
Cambios en los comportamientos de una variable: ¿está la temperatura promedio a
nivel global aumentando?
Encontrar formas características en las que se comportan las variables atmosféricas
u oceanográficas: ¿en qué región llueve más? ¿Dónde se produce el mayor impacto en
la precipitación cuando hay un fenómeno El Niño? ¿En que región de la plataforma
Argentina se favorece la disponibilidad de nutrientes para la pesca?
Verificación de pronósticos: es una herramienta fundamental para evaluar pronós-
ticos a distintos plazos (pronósticos a corto plazo, diarios, semanales, estacionales,
decadales). ¿En qué región de Argentina los pronósticos se parecen más a las ob-
servaciones que luego se tomaron? ¿Qué tan grande es la diferencia en promedio?
¿Cuál es la tasa de aciertos, de errores, de falsas alarmas? ¿Están los pronósticos
distinguiendo eventos de lluvia y de no-lluvia?
Elaboración de modelos estadísticos de pronóstico a partir de relaciones estadísticas
con otras variables encontradas en los datos pasados.
2
Muchos elementos y conceptos en la estadística se basan en probabilidades. Es por esto

que se comenzará discutiendo conceptos de probabilidad y a lo largo de la materia se irán
desarrollando los conceptos más básicos del análisis estadístico, que luego profundizarán
en materias posteriores y continuarán aprendiendo a lo largo de sus profesiones.
1.1.1. Poblaciones, muestras, espacio muestral

Una población es una colección bien definida de objetos, que en las ciencias de la atmósfera
y el océano pueden ser, por ejemplo, “temperatura promedio mensual de los meses de
verano en la Ciudad de Buenos Aires” o “altura horaria del pelo de agua del Río de
la Plata en la estación Puerto San Fernando”. De una población se puede extraer un
subconjunto de datos, al que se denomina muestra. Ejemplos de muestras asociados a
las poblaciones que se mencionaron son: “temperatura mensual promedio de los meses de
enero entre 1990 y 2020 en la Ciudad de Buenos Aires” y “altura a las 12:00 hs del pelo
de agua del Río de la Plata en la estación Puerto San Fernando”. Estas características
cuyo valor puede cambiar de un objeto a otro de la población se llaman variables, la
temperatura mensual promedio o la altura del Río de la Plata.
def.: Se denomina experimento a cualquier acción o proceso que genera observaciones de

una variable.
def.: El conjunto de todos los posibles resultados de un experimento es el espacio muestral,

y se nota S.
def.: Cualquier subconjunto de S es un evento o suceso.
Ejemplo 1
Considerando el experimento “observar la cobertura nubosa en Ciudad Universitaria
a las 12:00 hs”, ¿cuál es el espacio muestral? Determine además dos eventos.
La cobertura nubosa es una variable discreta que se mide en octavos. El espacio mues-
tral entonces está formado por todos los posibles resultados de medir la cobertura
nubosa:
S = {0; 1; 2; 3; 4; 5; 6; 7; 8}
Un evento puede ser “cielo despejado”, y si lo representamos con la letra D,
D = {0} ⊂ S
Esta notación significa que el único elemento de S que forma parte del evento D es el
0. Además, que el evento D está incluido en el espacio muestral S. Otro evento puede
ser “cielo mayormente nublado”, y si lo representamos con la letra M y lo definimos
acorde a la convención meteorológica,
M = {6; 7} ⊂ S
3
Es decir, el cielo está mayormente nublado cuando hay 6 o 7 octavos de cobertura

nubosa.
1.1.2. Relaciones de teoría de conjuntos y Diagramas de Venn

Al trabajar con eventos es posible crear eventos nuevos a partir de eventos dados. Para
esto se utilizan las siguientes operaciones utilizando la teoría de conjuntos.
def.: El complemento de un evento A, denotado por A0 (o también a veces notado por A∗

o A), es el conjunto de todos los resultados en S que no están contenidos en A.
def.: La unión de dos eventos A y B, denotados por A ∪ B y leídos “A o B”, es el evento

que consiste en todos los resultados que están en A o en B o en ambos eventos, es decir,
todos los resultados en por lo menos uno de los eventos.
def.: La intersección de dos eventos A y B, denotada por A ∩ B y leída “A y B”, es el

evento que consiste en todos los resultados que están tanto en A como en B.
Los diagramas de Venn son una representación gráfica de eventos. Para construir un
diagrama de Venn, con un rectángulo cuyo interior representa el espacio muestral S.
Cualquier evento A se representa como el interior de una curva cerrada (generalmente un
círculo) que está contenido en S. En la Figura 1.1 se presentan algunos ejemplos.
Figura 1.1: Diagramas de Venn para: a) Dos eventos A y B, b) la región sombreada

representa A ∩ B, c) la región sombreada representa A ∪ B, d) la región sombreada
representa el complemento de A y e) eventos mutuamente excluyentes.
4
Ejercicio 1
Un estudiante responde al azar a 3 preguntas de verdadero y falso.
a) Escriba el espacio muestral.
b) Escriba el suceso responder “falso” a una sola pregunta.
c) Escriba el suceso responder “verdadero” al menos 2 preguntas.
d) Escriba la unión de estos dos sucesos, la intersección y la diferencia del segundo y
el primero.
Resolución 1
Para resolver este ejercicio notaremos con una V cada respuesta del estudiante como
verdadero y con una F cada respuesta como falso. Entonces, V V F indica que se
respondió verdadero-verdadero-falso.
a) Espacio muestral: S = {V V V ; V F V ; V F F ; F V V ; F F V ; F V F ; F F F ; V V F } son
todas los resultados posibles al responder verdadero o falso a tres preguntas.
b) Si notamos con Φ al evento “responder falso a una sola pregunta”, entonces Φ =
{V F V ; F V V ; V V F }.
c) Si notamos con Υ al evento “responder verdadero a al menos dos preguntas”, Υ =
{V V F ; V F V ; F V V ; V V V }.
d) i) Φ ∪ Υ = {V V F ; V F V ; F V V ; V V V } son todos los elementos que están en Φ o
en Υ.
ii) Φ ∩ Υ = {V V F ; V F V ; F V V } son todos los elementos que están en Φ y en Υ.
iii) Φ∗ ∩ Υ = {V V V } es una de las formas de expresar la diferencia entre los dos
conjuntos.
1.1.3. Probabilidad
Si en un experimento se determina A un evento y es posible repetir de forma idéntica e
independiente el experimento N veces, entonces el cociente entre el número de veces que
ocurre A (n(A)) y el número de realizaciones del experimento (N ) cuando N tiende a
+∞ es la probabilidad del evento A (notada P (A)):
n(A)
lı́m = P (A) (1.1)
N →+∞ N
En esta materia utilizaremos la interpretación objetiva de la probabilidad, a partir de la

frecuencia relativa obtenida con la regla de Laplace.
def.: La regla de Laplace indica que en un espacio muestral formado por sucesos equi-
probables, la probabilidad de un suceso A es el número de casos favorables dividido por
5
el número de casos posibles.
casos f avorables
P (A) = (1.2)
casos posibles
Los axiomas de probabilidad son las condiciones mínimas que se deben verificar para
que una función definida sobre un conjunto de sucesos determine consistentemente sus
probabilidades.
Axioma 1: P (A) ≥ 0 para cualquier evento A.
Axioma 2: P (S) = 1 la probabilidad del evento seguro es 1.
Axioma 3: P (A1 ∪ A2 ∪ . . . ∪ Ak ) = ki=1 P (Ai ) si Ai son mutuamente excluyen-
P
tes. Esto indica que la probabilidad de un suceso compuesto de varias alternativas

mutuamente excluyentes (Ai ) se puede calcular sumando las probabilidades de sus
componentes.
Ejercicio 2
Dada la siguiente tabla de frecuencias absolutas de ocurrencia de temperatura de
superficie del mar tomada diariamente en una boya del Pacífico Este durante el año
2000:
T (°C) Frecuencia absoluta

15,1 a 18,0 15
18,1 a 21,0 45
21,1 a 24,0 181
24,1 a 27,0 125
= 366
P
Calcular las siguientes probabilidades:

a) P (T ≤ 18, 0)
b) P (T ≤ 30, 0)
c) P (T ≤ 27, 0)
d) P (T ≤ 15, 0)
e) P (T > 27, 0)
f) P (T ≥ 15, 1)
g) ¿Cuál es la probabilidad de que la T iguale o exceda los 24,1°C?
Resolución 2
6
En este ejercicio se indica la frecuencia absoluta (es decir, la cantidad de veces en

que se observó un evento dado) de determinados rangos de temperatura de superficie
del mar. Utilizando la regla de Laplace, es posible calcular la frecuencia relativa que
aproximamos por probabilidad. Al sumar todas las frecuencias absolutas se obtiene el
número total de medidiones (N = 366), que corresponde a los 366 días del año, pues
las mediciones son diarias; hay un valor de temperatura por cada día.
a) Para determinar P (T ≤ 18, 0) se busca en la tabla cuántas veces se registró una
temperatura menor o igual a 18, 0◦ C. En total se observaron esas temperaturas 15
veces (días) entre los 366 días en que se midió. Luego, P (T ≤ 18, 0) = 15/366 =
0, 041 = 4, 1 %
b) P (T ≤ 30, 0) = 1
c) P (T ≤ 27, 0) = 1
d) P (T ≤ 15, 0) = 0
e) P (T > 27, 0) = 0
f) P (T ≥ 15, 1) = 1
g) P (T ≥ 24, 1) = 125/366
1.2. Técnicas de conteo

Las técnicas de conteo sirven para contar sin representar uno por uno los casos de un
suceso al cual se lo quiere ordenar o se le quiere calcular la probabilidad. Se basan en
el principio aditivo, que expresa que si un experimento tiene dos formas de ser llevado a
cabo (A y B), entonces si se lleva a cabo de la forma A no puede llevarse a cabo de la
forma B; y en el principio multiplicativo, que expresa que si el primer elemento u objeto
de un par ordenado se puede seleccionar de n1 formas y por cada una de estas n1 formas
se puede seleccionar el segundo elemento del par en n2 formas, entonces el número de
pares es n1 .n2 .
1.2.1. Permutaciones y combinaciones
Ejemplo 2
Si A, B, C y D son cuatro equipos que participan de un torneo deportivo, ¿de cuántas
maneras puede asignarse el título de campeón y subcampeón?
El campeón puede ser A y el subcampeón B (llamemos AB), o AC o AD. En el caso

en que el campeón sea B, pueden ser subcampeones A, C o D. Entonces, todas las
opciones son: AB, AC, AD, BA, BC, BD, CA, CB, CD, DA, DB y DC: 12 opciones.
Para armar todos los casos posibles, se armaron permutaciones de los equipos, ya que
el orden en el que se los coloca es importante (campeón/subcampeón).
def.: Se denomina permutaciones a la forma de elegir r objetos diferentes de entre un total
7
de n objetos donde importa el orden de selección, y se nota nP r.
n!
nP r = (1.3)
(n − r)!
En el ejemplo anterior, n = 4, r = 2. Luego, nP r = 4P 2 = (4−2)!

4!
= 4!
2!
= 4.3.2.1
2.1
= 12. En
ese caso, era relativamente fácil contar uno a uno los casos, pero si en el torneo hubiera
habido 30 equipos participando, las formas de asignar campeón y subcampeón a dos
equipos habría sido más difícil de contar caso por caso. Sin embargo, usando la definición
de permutaciones: 30P 2 = (30−2)!
30!
= 30.29.28!
28!
= 30.29 = 870.
Ejemplo 3
Si A, B, C y D son cuatro equipos que participan de un torneo deportivo, ¿de cuántas
maneras puede darse el partido que defina el torneo?
Para este caso, el partido A vs. B es el mismo que B vs. A. Entonces, los partidos
posibles son AB, AC, AD, BC, BD y CD. En total, 6 partidos.
def.: Se denomina combinaciones a la forma de elegir r objetos diferentes de entre un total

de n objetos donde no importa el orden de selección, y se nota nCr.
!
n n!
nCr = = (1.4)
r r!(n − r)!
4
!
En el ejemplo anterior, 4C2 = = 4!
= 4.3.2.1
= 12
= 6.
2 2!(4−2)! (2.1)(2.1) 2
obs.: El factor r! reduce la cantidad de casos por no importar el orden en que son selec-
cionados:
nP r
nCr = (1.5)
r!
1.2.2. Diagrama de árbol

En problemas donde se aplique la regla del producto se puede utilizar una configuración
llamada diagrama de árbol para representar gráficamente todas las posibilidades de llevar
a cabo el experimento.
Ejemplo 4
Para seleccionar una dupla de ayudante de primera y de segunda para una materia se
cuenta con 4 ayudantes de primera y 2 ayudantes de segunda, ¿cuántas duplas pueden
armarse?
Recordando el principio multiplicativo, habría 4.2 = 8 duplas posibles. ¿Cómo lo
8
representamos en un diagrama de árbol? Si llamamos AP 1...AP 4 a los 4 ayudantes de

primera y AS1 y AS2 a los dos ayudantes de segunda, el diagrama queda representado
por:
Cada rama del árbol representa una forma posible de llevar a cabo el experimento.
Se denominan ramas de primer orden a aquellas que indican qué AP se elige, ramas
de segundo orden a las que indican qué AS se elige, y así sucesivamente según el
experimento. Por ejemplo, la rama resaltada en rojo marca la dupla obtenida de elegir
a AP 1 en la rama de primer orden y a AS1 en la de segundo orden. En total hay 8
ramas posibles para determinar las duplas.
Los diagramas de árbol son también útiles para determinar cuál es la probabilidad de cada
una de las formas de que un experimento se lleve a cabo. En ese caso, es necesario saber
las probabilidades de cada una de las ramas. No es necesario que las ramas de un dado
orden sean equiprobables (p.e., que P (AP 1) = P (AP 2) = P (AP 3) = P (AP 4) = 0.25),
ni que las probabilidades de las ramas de segundo orden no dependan de la rama de
primer orden elegida (p.e. P (AS1) si vengo por la rama de primer orden AP 1 puede
ser 0.75, pero P (AS1) si vengo por la rama de primer orden AP 3 puede ser 0.5). Este
último concepto es el de probabilidad condicional y lo veremos más adelante. Si queda
definida la probabilidad de cada rama, es posible obtener la probabilidad de cada dupla
multiplicando las probabilidades.
Ejemplo 5
Si las probabilidades de seleccionar cada ayudante de primera y de segunda están
dadas como las indicadas en el diagrama de árbol, ¿cuál es la probabilidad de elegir
la dupla AP 1 y AS1?
9
Determinen ahora la probabilidad de cada una de las ramas. ¿Cuánto suma la

probabilidad de todas las ramas? ¿Por qué? (Respuesta: 1)
¿Cuál es la probabilidad de que la dupla AP 3-AS2 sea elegida para la materia?
Encontrar la rama del árbol que representa este resultado. (Respuesta: 0.1)
¿Cuál es la probabilidad que el AS2 sea elegido para la materia con algún ayu-
dante de primera excepto el AP 4? (Respuesta: 0.45)
1.2.3. Probabilidad hipergeométrica

def: Si existen N elementos en total, compuestos por r1 elementos con una característica
y r2 elementos con otra característica, de forma tal que N = r1 + r2 . La probabilidad de
extraer n elementos de entre los cuales exactamente s1 tengan las características de r1 y
s2 tengan las características de r2 (n = s1 + s2 ) es:
! !
r1 r2
s1 s2
P = ! (1.6)
N
n
Ejercicio 3
¿Cuál es la probabilidad de sacar dos bolas negras de una urna que contiene 15 bolas
blancas y 12 negras, sin reintegrar la bola extraída?
10
Resolución 3
Aplicando la definición de probabilidad hipergeométrica, se tiene N = 27, r1 = 15
(bolas blancas) y r2 = 12 (bolas negras). Se quiere extraer n = 2 bolas, de las cuales
dos tienen que ser negras (s2 = 2) y entonces ninguna blanca (s1 = 0).
12 15
! !
·
2 0 12!
· 15!
12 · 11
P = = 2!10! 0!15!
= ≈ 18.8 %
27 27!
27 · 26
!
2!25!
2
Ejercicio 4
Una urna contiene 8 bolas blancas, 5 negras y 2 rojas. Se extraen tres bolas al azar y
se desea saber:
a) La probabilidad de que las tres bolas sean blancas.
b) La probabilidad de que dos sean blancas y una negra.
Resolución 4
a) Sea el suceso A = {extraer 3 bolas blancas}. Si consideramos N = 15, n = 3 y

agrupamos las características en r1 = 8 bolas blancas y r2 = 7 bolas no-blancas,
usando la definición de probabilidad hipergeométrica se obtiene:
8 7
! !
3 0 8!
8·7·6
P (A) = = 3!5!
= = 0, 123
15 15!
15 · 14 · 13
!
3!12!
3
También se puede pensar usando la regla de Laplace, como el cociente entre casos
favorables y casos posibles.
¿De cuántas formas se podrían llenar 3 casilleros con 3 bolas blancas si hay 8 bolas
blancas y no importa el orden en que son sacadas? (Puede ayudar imaginar que cada
bola blanca tiene un número, 1 a 8, y el número que tengan no ! es importante, solo
8
que son blancas, ni tampoco es importante el orden): 8C3 = .
3
¿De cuántas formas se podrían llenar 3 casilleros con 15 bolas distintas (no es impor-
15
!
tante el color, ni el orden)?: 15C3 = .
3
Luego, P (A) = 8C3
15C3
, que es exactamente lo mismo que se encontró antes.
11
b) Sea el suceso B = {extraer 2 bolas blancas y 1 negra}. Siguiendo el último razona-

miento, podemos pensar que se tienen 3 casilleros y se quiere completar 2 con bolas
blancas y 1 con una bola negra.
¿De cuántas formas se podrían llenar 2 casilleros !con 2 bolas blancas si hay 8 y no
8
importa el orden en que son sacadas? 8C2 = .
2
¿De !
cuántas formas se podría llenar 1 casilleros con 1 bola negras si hay 5? 5C1 =
5
.
1
Ahora, por el principio multiplicativo, si hay 8C2 formas de elegir las bolas blancas y
5C1 de elegir la bola negra, la cantidad total de formas de llevar a cabo el experimento
son 8C2 · 5C1.
¿De cuántas formas se podrían llenar 3 casilleros con 15 bolas distintas (no es impor-
15
!
tante el color, ni el orden)?: 15C3 = .
3
Ahora, usando la regla de Laplace: P (B) = 8C2·5C1
15C3
.
8 5
! !
2 1 8! 5! 8.7
·5

8.7.5

P (B) = = 2!6! 1!4!
= 2
= · 3 = 0.307
15 15! 15.14.13
15.14.13
!
3!12! 3.2.1
3
Ejercicio 5
Se extraen 3 cartas de una baraja de 50:
a) ¿Cuál es la probabilidad de que sean tres sotas?
b) ¿Y de que sean un as, un dos y un tres?
c) ¿Y de que salga un rey, seguido de un cinco y éste de un siete?
Resolución 5
a) Sea A = {extraer 3 sotas}. En este caso dibujar un diagrama de árbol sería com-
plicado, pero es posible imaginarlo. La baraja tiene 50 cartas, 4 de cada número y
2 comodines. En la rama de primer orden del diagrama del árbol la probabilidad de
sacar un 10, usando la regla de Laplace, es 4/50. Ahora, si se sigue imaginariamente
la rama del árbol que cumple A, se debería obtener nuevamente una sota, y como
ahora en el mazo solo hay 3 sotas entre 49 cartas, la probabilidad es 3/49. Finalmente,
para la rama de tercer orden donde se obtiene nuevamente una sota, la probabilidad
es 2/48. De esta forma, multiplicando los totales se obtiene P (A).
12
4 3 2
P (A) = · · = 0.0002 = 0.02 %
50 49 48
Alternativamente, es posible pensar el problema de la siguiente manera. Si hay tres
casilleros que se pueden llenar con cartas que se extraen del mazo. ¿De cuántas formas
se pueden sacar 3 sotas de entre 4 sotas posibles? 4C3 (esas formas son copa-basto-
oro, copa-espada-oro, copa-basto-espada, espada-oro-basto). Por otro lado, ¿de cuántas
formas se pueden llenar 3 casilleros con 50 cartas distintas? 50C3. Entonces, usando
la regla de Laplace:
4
!
3 4!
4·3·2
P (A) = = 3!·1!
= = 0.0002
50 50!
50 · 49 · 48
!
3!·47!
3
que es exactamente lo mismo que se obtuvo antes.
b) Sea B = {extraer un as, un dos y un tres}. Si se tienen 3 casilleros vacíos, la pre-

gunta es de cuántas formas es posible llenar cada uno con ases, dos o tres. Por ejemplo,
hay 4C1 formas de colocar un as en uno de los casilleros (porque son 4 palos distintos
en la baraja). Entonces, la cantidad total de casos favorables son 4C1 · 4C1 · 4C1. De
nuevo, como hay 50 cartas, hay 50C3 formas de llenar los 3 casilleros con 3 cartas.
Entonces, usando la regla de Laplace,
4 4 4
! ! !
1 1 1 4! 4! 4!
6 (4 · 4 · 4)
P (B) = = 1!3! 1!3! 1!3!
= = 0.0032 = 0.32 %
50 50!
50 · 49 · 48
!
3!47!
3
Si el problema se resuelve pensando en un diagrama de árbol, es necesario tener en

cuenta todas las ramas posibles que formen al evento B y que se sumen esas probabi-
lidades.
P (B) = P (1−2−3)+P (1−3−2)+P (2−1−3)+P (2−3−1)+P (3−1−2)+P (3−2−1) =

4 4 4
=6 · · = 0.0032 = 0.32 %
50 49 48
c) Sea C = {extraer un rey, seguido de un 5, seguido de un 7}. En este caso el orden

es importante. Las formas de llenar cada casillero con un rey, un 5 o un 7 sigue siendo
4C1. Sin embargo, las formas de llenar 3 casilleros con 50 cartas cuando es importante
el orden es 50P 3.
13
4 4 4
! ! !
1 1 1 4·4·4
P (C) = = = 0.00054 = 0.054 %
50P 3 50 · 49 · 48
Si se piensa en un diagrama de árbol, en este caso es solo una rama la que indica
el orden pedido por el enunciado. En la rama de primer orden se debe sacar un rey
(probabilidad 4/50), en la de segundo orden un 5 (probabilidad 4/49), y en la de tercer
orden un 7 (probabilidad 4/48). Luego,
4 4 4
P (C) = · · = 0.00054 = 0.054 %
50 49 48
1.3. Probabilidad condicional, ley de probabilidad to-

tal y teorema de Bayes
1.3.1. Probabilidad condicional
def: Para dos eventos cualesquiera A y B, con P (B) > 0, la probabilidad condicional de
A dado que B ha ocurrido está definida por
P (A ∩ B)
P (A|B) = (1.7)
P (B)
La Figura 1.2 ilustra la forma en la que se interpreta la probabilidad condicional. Dados

dos eventos A y B en un espacio muestral S, si se establece como condición a priori que
B haya ocurrido, entonces el espacio muestral queda reducido solo al espacio delimitado
por B (Fig. 1.2b). Como A tiene que concurrir también, entonces la zona sombreada en
la Figura 1.2c representa P (A|B). La constante de proporcionalidad P (B)1
garantiza que
P (B|B) = 1.
Figura 1.2: Diagramas de Venn para ilustrar el concepto de probabilidad condicional.

a) dos eventos A y B en el espacio muestral S b) la condición de que B haya ocurrido
restringe el espacio muestral S a B c) la región sombreada representa P (A|B)
14
obs: Notar que la diferencia entre la Figura 1.2c y la Figura 1.1b radica en como está
definido el espacio muestral, por eso la Figura 1.1b no es una probabilidad condicional,
sino una intersección.
1.3.2. Ley de probabilidad total

def: Los eventos Ai son exhaustivos si la unión de todos ellos es el suceso seguro, es decir,
un Ai debe ocurrir: A1 ∪ · · · ∪ Ak = S.
def: Se denomina sistema completo de sucesos a un conjunto de sucesos Ai si estos son
mutuamente excluyentes y exhaustivos.
Sean A1 . . . Ak un sistema completo de sucesos. Entonces para cualquier otro evento

B
k
P (B) = P (B|A1 ) P (A1 ) + · · · + P (B|Ak ) P (Ak ) = P (B|Ai ) P (Ai ) (1.8)
X
i=1
1.3.3. Teorema de Bayes

Sean A1 . . . Ak un sistema completo de sucesos con probabilidades previas P (Ai ) (i =
1, . . . , k). Entonces para cualquier otro evento B para el cual P (B) > 0, la probabilidad
posterior de Aj dado que B ha ocurrido es
P (Aj ∩ B) P (B|Aj ) P (Aj )

P (Aj |B) = = Pk j = 1, . . . , k (1.9)
P (B) i=1 P (B|Ai ) · P (Ai )
Ejercicio 6
En cierta estación de servicio, 40 % de los clientes utilizan gasolina regular sin plomo,
35 % usan gasolina extra sin plomo y 25 % gasolina premium sin plomo. De los clientes
que consumen gasolina regular, sólo 30 % llenan el tanque. De los que compran gasolina
extra, 60 % llenan el tanque, en tanto que la mitad de los que llevan gasolina premium
llenan el tanque.
a) ¿Cuál es la probabilidad de que el siguiente cliente pida gasolina extra sin plomo
y llene el tanque?
b) ¿Cuál es la probabilidad de que el siguiente cliente llene el tanque?
c) Si el siguiente cliente llena el tanque, ¿cuál es la probabilidad de que pida gasolina
regular? ¿Y extra? ¿Y premium?
Resolución 6
a) Para resolver este problema, comencemos definiendo ordenadamente los eventos:
15
R = {cliente carga gasolina regular}
E = {cliente carga gasolina extra}

P = {cliente carga gasolina premium}
T = {cliente llena el tanque al cargar gasolina}
El problema indica qué porcentaje de clientes respecto al total elige cada tipo de
gasolina, es decir, cantidad de clientes que cargan gasolina regular sobre cantidad
total de clientes (multiplicado por 100 para obtener un porcentaje). Esa es la regla
de Laplace para obtener la probabilidad. De esta forma, P (R) = 0.40, P (E) = 0.35 y
P (P ) = 0.25.
Por otro lado, el enunciado también indica qué porcentaje de clientes llena el tanque
si ese cliente cargó cada tipo de gasolina. En este caso, se nos está indicando una
probabilidad condicional: por ejemplo, ¿cuál es la probabilidad de que un cliente llene el
tanque si eligió cargar gasolina regular? La condición que restringe el espacio muestral
es el hecho de haber elegido cargar gasolina regular, es decir, el evento R. Entonces la
notación correcta es P (T |R) = 0.30. De la misma forma, P (T |E) = 0.60 y P (T |P ) =
0.50.
Ahora, se busca determinar cuál es la probabilidad de que el siguiente cliente pida
gasolina extra sin plomo y llene el tanque. En este caso, se busca la probabilidad
de que ocurran ambas cosas, sin tener información a priori, como es en el caso de
la probabilidad condicional. La probabilidad de que el siguiente cliente pida gasolina
extra sin plomo y llene el tanque es P (E ∩ T ). Para buscar esta intersección se puede
utilizar la ecuación 1.7. Despejando,
P (T ∩ E) = P (T |E) · P (E) = 0.6 · 0.35 = 0.21
Así, la probabilidad de que el siguiente cliente pida gasolina extra sin plomo y llene el
tanque es del 21.0 %.
b) Siguiendo la notación del ejercicio, debemos determinar ahora P (T ). Podríamos
usar la ley de probabilidad total siempre y cuando R, E y P sean un sistema completo
de sucesos. En primer lugar, R, E y P son mutuamente excluyentes, porque si un
usuario carga gasolina regular, no carga gasolina extra ni premium, y análogamente
para cada tipo. Por otro lado, R, E y P son exhaustivos, porque los clientes que cargan
gasolina solo pueden elegir una entre esos tres tipos. Esto puede verse también en que
P (R) + P (E) + P (P ) = 1. Entonces, se puede utilizar la ley de probabilidad total y
P (T ) = P (T |R)P (R) + P (T |E)P (E) + P (T |P )P (P )

P (T ) = 0.3 · 0.4 + 0.6 · 0.35 + 0.5 · 0.25 = 0.455
La probabilidad de que un cliente llene el tanque es del 45.5 %.
16
c) En este ítem, continuando con la notación del ejercicio, se sabe a priori que el cliente
llenó el tanque. Con esa información debemos determinar cuál es la probabilidad de
que lo haya hecho con gasolina regular. Estamos buscando entonces P (R|T ), el evento
condicionante, la información a priori, es que ocurrió el evento T .
A partir de la información del enunciado y de los ítems anteriores, considerando que
R, E y P son un sistema completo de sucesos (demostrado en el ítem b)), podemos
utilizar el teorema de Bayes.
P (T |R)P (R) P (T |R)P (R)

P (R|T ) = = =
P (T |R)P (R) + P (T |E)P (E) + P (T |P )P (P ) P (T )
0.3 · 0.4
= = 0.264
0.455
Análogamente,
P (T |E)P (E) 0.6 · 0.35

P (E|T ) = = = 0.46
P (T ) 0.455
P (T |P )P (P ) 0.5 · 0.25
P (P |T ) = = = 0.27
P (T ) 0.455
Entonces, si un cliente llenó el tanque, lo más probable es que lo haya hecho con
gasolina extra.
1.3.4. Independencia
def: Los eventos A y B son independientes si P (A|B) = P (A), es decir, el hecho de
que B haya ocurrido no condiciona la probabilidad de que ocurra A. Dos eventos son
dependientes en caso contrario.
prop: A y B son independientes si y solo si P (A ∩ B) = P (A)P (B)
def: Los eventos A1 , . . . An son mutuamente independientes si por cada k (k = 2, 3, . . . , n)

y cada subconjunto de índices i1 , i2 , . . . ik ,
P (Ai1 ∩ Ai2 ∩ · · · ∩ Aik ) = P (Ai1 )P (Ai2 ) . . . P (Aik ) (1.10)
Esto es, la probabilidad de la intersección de cualquier subconjunto de n-elementos es

igual al producto de las probabilidades individuales.
Ejemplo 6
La probabilidad de que un docente se equivoque al corregir cualquier pregunta de
un examen es 0.1. Si un examen tiene 10 preguntas y estas se corrigen de forma
17
independiente, ¿cuál es la probabilidad de que no se cometan errores?
Comenzamos nuevamente definiendo los eventos:
B = {la pregunta se corrige correctamente}
M = {la pregunta se corrige incorrectamente}

OK = {no se cometen errores al corregir las 10 preguntas}
Y sabemos P (B) = 0.9 y P (M ) = 0.1. Luego, la probabilidad de que no se cometan

errores es la probabilidad de que todas las preguntas se corrijan correctamente.
P (OK) = P (B1 ∩ B2 ∩ · · · ∩ B10 ) = P (B1 )P (B2 ) . . . P (B10 ) = 0.910 = 0.3486
18
Capítulo 2
Variables aleatorias y funciones de

probabilidad
2.1. Funciones de probabilidad

def: Una variable aleatoria (v.a.) es cualquier regla que asocia un número con cada resulta-
do de un espacio muestral de un experimento. Se suele notar con letras mayúsculas (X, Y,
...). Por ejemplo, una v.a. puede ser “cantidad de niños en un grupo de 5 hijos/as”, donde
la v.a. se definió implícitamente. Explícitamente, esa v.a. sería X = {0, 1, 2, 3, 4, 5}.
Las variables aleatorias pueden ser discretas, en el caso en que sus valores formen un
conjunto finito o se puedan listar en una sucesión infinita, o continuas, cuando sus posibles
valores abarcan un intervalo en la recta numérica. La “cantidad de niños en un grupo
de 5 hijos/as” es una v.a. discreta, mientras que “distancia del avión más cercano a
Aeroparque” es una v.a. continua.
2.1.1. Variables discretas

Las funciones de probabilidad indican cómo está repartida la probabilidad total de 1
entre todos los posibles valores de una variable aleatoria. Se notan f (x). Para las v.a.
discretas, se denominan función masa de probabilidad, mientras que para las v.a. continuas
función densidad de probabilidad. Comencemos analizando las funciones para el caso de
v.a. discretas. Si se conoce la probabilidad para cada uno de los valores de X en el
ejemplo de X = {0, 1, 2, 3, 4, 5} (cantidad de niños en un grupo de 5 hijos/as), es posible
representar la función en el siguiente tipo de gráfico.
19
Figura 2.1: Ejemplo de función masa de probabilidad: f (x) = P (X = x)
Por otro lado, la función masa de probabilidad acumulada indica para cualquier valor x de
una v.a. X, cuál es la probabilidad de que X sea a lo sumo x. Se nota con F (x) y entonces
F (x) = P (X ≤ x) = y:y≤x P (y). Siguiendo el ejemplo, del gráfico anterior vemos que
P
P (X = 0) = f (0) = 0.1, P (X = 1) = f (1) = 0.2. Para obtener F (1) deberíamos buscar

P (X ≤ 1) = P (X = 0) + P (X = 1) = 0.1 + 0.2 = 0.3. De esta forma se obtiene cada uno
de los valores de F (x) y se puede representar a través de una función escalonada, como
se muestra a continuación. Noten que el último valor de F (x) es siempre 1, pues se suma
la probabilidad de ocurrencia de todos los posibles valores de la variable aleatoria.
Figura 2.2: Ejemplo de función masa de probabilidad acumulada: F (x) = P (X ≤ x) =

y:y≤x P (y)
P
Ejercicio 7
Hallar la distribución de probabilidad de niños y niñas en familias de 3 hijos, supo-
niendo igual probabilidad para niños y niñas. Representar gráficamente la distribución
obtenida.
Resolución 7
Para encontrar como está distribuida la probabilidad de la v.a. X: “cantidad de niñas

en una familia de 3 hijos/as” es necesario determinar cuál es la probabilidad para
cada uno de los valores posibles de X, del espacio muestral. La v.a. puede tomar
20
los siguientes valores: X = {0, 1, 2, 3}. Consideramos que la probabilidad de que un

nacimiento resulte en niña o niño es independiente del próximo, y a su vez que la
probabilidad de que nazca un niño es igual a la de que nazca una niña. Notemos con
A a niña y con O a niño. Tal vez sea de ayuda imaginar un diagrama de árbol con
ramas de hasta tercer orden, y en cada orden hay dos ramas, O y A.
La probabilidad de que no haya ninguna niña en la familia es P (X = 0) (sería una

sola rama del árbol la que cumple esto). Como asumimos que un nacimiento de niña
o niño no condiciona el siguiente (independencia),
P (X = 0) = P (O ∩ O ∩ O) = P (O)P (O)P (O) = 0.5 · 0.5 · 0.5 = 0.53 = 0.125
La probabilidad de que haya solo una niña en la familia es P (X = 1). Pero la niña
puede haber nacido primera, segunda o tercera. Entonces,
P (X = 1) = P (A∩O∩O)+P (O∩A∩O)+P (O∩O∩A) = 3·0.5·0.5·0.5 = 3·0.53 = 0.375
Análogamente,
P (X = 2) = P (A∩A∩O)+P (O∩A∩A)+P (A∩O∩A) = 3·0.5·0.5·0.5 = 3·0.53 = 0.375
P (X = 3) = P (A ∩ A ∩ A) = 0.5 · 0.5 · 0.5 = 0.53 = 0.125
De esta forma la función masa de probabilidad queda definida por
0.125 si x = 0, 3
(
f (x) =
0.375 si x = 1, 2
Ya podemos realizar la representación gráfica de f (x)
21
Una vez conocida f (x) es posible buscar F (x): F (0) = f (0) = 0.125, F (1) = f (0) +
f (1) = 0.5, F (2) = f (0) + f (1) + f (2) = 0.875 y F (3) = f (0) + f (1) + f (2) + f (3) = 1.
Gráficamente:
2.1.2. Variables continuas

Para las v.a. continuas, la función de densidad de probabilidad de X es una función f (x)
´b
tal que para dos números cualesquiera a y b con a ≤ b, P (a ≤ X ≤ b) = a f (x)dx. La
función de densidad de probabilidad se representa gráficamente con la curva f (x), y el
área bajo la curva representa la probabilidad. De esta forma, el área total bajo la curva
debe ser 1. Por ejemplo, la siguiente función es una función de densidad de probabilidad,
y su gráfico se muestra en la Figura 2.3.
1
+ 83 x 0 ≤ x ≤ 2
(
f (x) = 8
0 de lo contrario
Figura 2.3: Ejemplo de función densidad de probabilidad
La función densidad de probabilidad

´ x acumulada se define para cada valor x de la v.a.
X como F (x) = P (X ≤ x) = −∞ f (y)dy. Para el ejemplo anterior, F (x) se obtiene
integrando f (x):



 0 x<0
F (x) = x
8
+ 3 2
16
x 0≤x≤2
1 2<x



22
Figura 2.4: Ejemplo de función densidad de probabilidad acumulada
Veamos ahora algunas propiedades de la función de densidad de probabilidad:

i) 0 ≤ F (x) ≤ 1
ii) Sea una v.a. X = x1 , . . . xn ⇒ F (x) = 0 ∀X < x1 y F (x) = 1 ∀X ≥ xn
iii) F (x) es creciente.
´b
iv) P (a < X < b) = F (b) − F (a) = a
f (x)dx
v) P (X = a) = 0 si X es una variable continua; es decir, la probabilidad puntual es 0.
´ +∞
vi) −∞ f (x)dx = 1, es decir, la probabilidad de X tome cualquiera de todos los valores
posibles es 1.
Ejercicio 8
Dada la siguiente función de densidad de probabilidad



 ke−x/2 si x ≥ 0
f (x) =
0

en otro caso


a) Determinar el valor de k.
b) P (2 ≤ X ≤ 6)
c) P (X ≥ 8)
d) P (X < 1)
Resolución 8
a) Dada f (x), para´determinar k usamos que f (x) es una función densidad de proba-
+∞
bilidad y entonces −∞ f (x)dx = 1
23
ˆ +∞ ˆ 0 ˆ +∞ ˆ +∞
f (x)dx = 0dx + ke −x/2
dx = k e−x/2 dx
−∞ −∞ 0 0
Haciendo un cambio de variables u = −x/2, du = −dx/2
ˆ +∞ ˆ −∞ ˆ −∞ ˆ n
k −x/2
e dx = k e (−2)du = −2k
u
e du = lı́m −2k
u
eu du =
n→−∞
0 0 0 0
= lı́m [− 2keu |n0 ]
n→−∞
Y resolviendo el límite,
lı́m [− 2keu |n0 ] = −2k lı́m (en − e0 ) = −2k(−1) = 2k

n→−∞ n→−∞
Finalmente, dado que la integral de la función densidad de probabilidad en todo el

dominio debe dar 1, k = 1/2. La función densidad de probabilidad queda definida
como:



 0.5e−x/2 si x ≥ 0
f (x) = 
0 en otro caso


b) La probabilidad de que X esté entre 2 y 6 queda representada por el área debajo

de la curva en ese intervalo:
24
Para calcularla, entonces integramos la función densidad de probabilidad entre 2 y 6.
ˆ ˆ
6
1 −x/2 1 −3 h i
P (2 ≤ X ≤ 6) = e dx = − · 2 eu du = − e−3 − e−1 = 0.3181
2 2 2 −1
donde se usó el cambio de variables u = −x/2, du = −dx/2. El resultado de 31.8 % es

coherente con la proporción de área debajo de la curva sombreada.
c) La probabilidad de que X sea mayor a 8 debería ser muy baja, lo que se evidencia
al ver el área debajo de la curva en ese intervalo:
ˆ ˆ ˆ
+∞
1 −x/2 n
1 −x/2 −n/2
P (X > 8) = e dx = lı́m e dx = − lı́m eu du =
8 2 n→+∞
8 2 n→−∞
−4
= lı́m (e −n/2
− e−4 ) = 0.018
n→+∞
Efectivamente, como era de esperar P (X ≥ 8) = 1.8 %
d) Para calcular la P (X ≤ 1) notemos que al valer f (x) = 0 para x ≤ 0, solo es

necesario integrar entre 0 y 1.
25
ˆ ˆ
1 1 −1/2 h i
P (X 6 1) = e −x/2
dx = − eu du = − e−1/2 − e0 = 1 − e−1/2 = 0.393 =
2 0 0
= 39.3 %
habiendo usado el mismo cambio de variables que en los otros ítems.
2.2. Momentos
Los momentos son un conjunto de valores que caracterizan una distribución de proba-
bilidad (por ejemplo, en qué valor de la variable aleatoria están centradas, su forma, la
dispersión de los valores). Dos distribuciones de probabilidad son iguales cuando todos
sus momentos son iguales. Los momentos pueden ser calculados respecto al origen o a la
media.
2.2.1. Momentos respecto al origen

Los momentos centrados respecto al origen se notan con α y subíndice ν, donde el subín-
dice indice el orden del momento.
∀x x P (x)
( P
ν
αν = E (X ) =ν ´ +∞ (2.1)
−∞
xν f (x)dx
El momento centrado respecto al origen que utilizaremos en este curso es el de primer

orden, 1 , que se conoce como valor medio o esperado de X. Este momento representa en
qué valor de X está centrada la distribución
∀x xP (x)
( P
α1 = E (X) = µ = ´ +∞ (2.2)
−∞
xf (x)dx
26
2.2.2. Momentos respecto a la media

Los momentos centrados respecto a la media se notan con µ y subíndice ν, donde el
subíndice indice el orden del momento.
∀x (x − µ) P (x)
( P
ν
µν = E [(X − µ) ] =
ν ´ +∞ (2.3)
−∞
(x − µ)ν f (x)dx
Los momentos que utilizaremos en este curso son el de segundo y el tercer orden. El de
segundo orden se denomina varianza, y es una medida de cuánto se dispersan los valores
de X respecto al valor medio. Se nota con σ 2 . El desvío estándar es la raíz cuadrada de
la varianza, y se nota con σ. La ventaja del desvío estándar frente a la varianza es que
tiene las mismas unidades que la variable X. Por ejemplo, si X es la temperatura máxima
diaria en Buenos Aires, su unidad es ◦ C. La varianza para la temperatura máxima en
Buenos Aires tiene entonces unidades de (◦ C)2 y el desvío estándar ◦ C. Es posible probar
que
σ 2 = E(X 2 ) − (E(X))2 (2.4)
El momento de tercer orden, µ3 es la asimetría. A partir de este momento se define el

coeficiente de asimetría γ1
µ3
γ1 = (2.5)
σ3
Si γ1 > 0 entonces la distribución de probabilidad tiene asimetría positiva o cola derecha,
es decir que la variable toma valores más altos de X menos frecuentemente que valores más
bajos de X. De manera opuesta, si γ1 < 0 la distribución tiene asimetría negativa o cola
izquierda, es decir que la variable toma valores más altos de X más frecuentemente que
valores más bajos de X. En la Figura 2.5 se muestran ejemplos para ambos casos.
Figura 2.5: a) Distribución de probabilidad representada por la función densidad de pro-

babilidad de una v.a. continua X con asimetría positiva (cola derecha). b) Distribución
de probabilidad representada por la función densidad de probabilidad de una v.a. discreta
X con asimetría negativa (cola izquierda).
27
Ejercicio 9
La función de densidad de probabilidad acumulada de una variable aleatoria X está
dada por

1 3
 27 x

 si 0 < x < 3
F (x) =
1 si x ≥ 3



a) Hallar la función de densidad de probabilidad.

b) P (X > 1)
c) P (1 < X < 2)
d) Calcular la varianza (σ 2 ) de la variable X. Interpretar el resultado.
Resolución 9
a) Dada la función de densidad acumulada (F (x)), debemos buscar la función densidad

de probabilidad (f (x)). Es posible obtener f (x) a partir de la derivada de F (x) (F 0 (x))
para cada x en donde exista la derivada. Dada F (x),

1 3
 27 x

 si 0 < x < 3
F (x) =
1 si x ≥ 3



se obtiene f (x) como


1 2
 9x

 si 0 < x < 3
f (x) = F (x) =
0
0 en otro caso



La función de densidad f (x) queda representada gráficamente por la siguiente figura:
28
b) La probabilidad P (X > 1) puede ser escrita como P (X > 1) = 1 − P (X ≤ 1), pues

los sucesos {X > 1} y {X ≤ 1} son complementarios, es decir, sus probabilidades
suman 1. Ahora, para buscar P (X ≤ 1) se puede integrar f (x) entre −∞ y 1, o
también utilizar F (x) que ya está calculada, de la siguiente forma:
1 26
P (X > 1) = 1 − P (X ≤ 1) = 1 − F (1) = 1 − = = 0.963
27 27
Se puede verificar rápidamente en la figura que el área bajo la curva en el intervalo
(1, 3) representa casi la totalidad del área bajo la función de densidad, y por eso el
resultado da cercano a 1.
c) Usando nuevamente F (x),
8 1 7
P (1 < X < 2) = F (2) − F (1) = − = = 0.259
27 27 27
d) Para calcular la varianza utilizaremos la ecuación 2.4 y que f (x) = 0 fuera del
intervalo (0, 3).
ˆ ˆ ˆ 3
+∞ 3
x2 3
x3 x4 81
E(X) = µ = xf (x)dx = x dx = dx = = = 2.25
−∞ 0 9 0 9 36 0 36
ˆ ˆ 3
+∞ 3
2x
2
x5 27
E X 2
= x f (x)dx =
2
x dx = = = 5.4
−∞ 0 9 45 0 5
σ 2 = 5.4 − (2.25)2 = 5.4 − 5.0625 = 0.3375
A partir de la varianza podemos buscar el desvío estándar,
√
σ= 0.3375 = 0.58
29
Capítulo 3
Distribuciones de probabilidad
Binomial, Poisson y Normal
3.1. Distribución de probabilidad binomial

def: Un experimento binomial es aquel que cumple las siguientes 4 condiciones:
i) El experimento consiste en una secuencia de n ensayos, donde n se fija antes del
experimento.
ii) Los ensayos son idénticos y cada uno puede resultar en éxito (E) o fracaso (F ).
iii) Los ensayos son independientes.
iv) La probabilidad de éxito (p) en cada ensayo es constante.
def: Dado un experimento binomial formado por n ensayos, la variable aleatoria binomial
X asociada con este experimento está definida como
X = {número de éxitos entre los n ensayos}
Las v.a. binomiales son siempre mayores o iguales a cero, ya que son el resultado de contar.
Las v.a. binomiales siguen una distribución de probabilidad binomial, cuyos parámetros
son n y p. Esto se nota X ∼ B(n, p).
La función masa de probabilidad binomial indica P (X = x) si X ∼ B(n, p), y se define
como:
 !
n
px (1 − p)n−x x = 0, 1, 2, . . . n



b(X = x; n, p) = x (3.1)
0 de lo contrario



La función masa de probabilidad binomial se obtiene multiplicando el número de secuen-

cias de longitud n con x éxitos por la probabilidad de cualquiera de tales secuencias
particulares.
30
3.1.1. Momentos
Si X ∼ B(n, p),
media = np (3.2)
varianza = np(1 − p) (3.3)
q
desvío estándar = np(1 − p) (3.4)
1 − 2p
coeficiente de asimetría = q (3.5)
np(1 − p)
Ejercicio 10
Una compañía que produce cristal fino sabe por experiencia que el 10 % de sus copas
tienen imperfecciones y deben clasificarse como “de segunda”.
a) Entre seis copas seleccionadas al azar, ¿qué tan probable es que sólo una sea de
segunda?
b) Entre seis copas seleccionadas al azar, ¿cuál es la probabilidad de que por lo menos
dos sean de segunda?
Resolución 10
En función de las preguntas de este problema, definimos a la v.a. X como
X = {número de copas de segunda entre 6 copas}
Si vamos a tratar a X como una v.a. binomial, debemos primero verificar que se
cumplan las condiciones para un experimento binomial. Las repetimos
i) El experimento consiste en una secuencia de n ensayos, donde n se fija antes del
experimento. En este problema, el experimento consiste de 6 ensayos; cada ensayo
consiste en analizar si una copa es de segunda o no.
ii) Los ensayos son idénticos y cada uno puede resultar en éxito (E) o fracaso (F ).
Consideramos que cada análisis de la copa es idéntico, y E es que la copa sea de
segunda y F que no lo sea.
iii) Los ensayos son independientes. Consideramos que que una copa sea de segunda
no afecta que la siguiente lo sea (o no lo sea).
31
iv) La probabilidad de éxito (p) en cada ensayo es constante. La probabilidad de que

una copa sea de segunda es de 0.1 y se mantiene constante.
Entonces, habiendo definido X, qué es E y F para cada ensayo y corroborado que X
es una v.a. que sigue una distribución de probabilidad binomial con n = 6 y p = 0.1
(X ∼ B(6, 0.1)), utilizamos la función masa de probabilidad binomial para resolver
las preguntas.
a) La probabilidad de que solo una copa sea de segunda es P (X = 1) = b(1; 6, 0.1)
6 6!
!
P (X = 1) = b(1; 6, 0.1) = 0.11 · 0.95 = 0.11 · 0.95 = 0.354
1 1!(6 − 1)!
Luego, la probabilidad de que solo una copa entre 6 sea de segunda es del 35.4 %.
b) La probabilidad de que al menos dos copas sean de segunda es P (X ≥ 2) =

b(2; 6, 0.1) + b(3; 6, 0.1) + b(4; 6, 0.1) + b(5; 6, 0.1) + b(6; 6, 0.1). Podemos hacer menos
cuentas si usamos que la probabilidad para todos los valores de X es 1:
h i
P(X ≥ 2) = 1−(b(0; 6, 0.1)+b(1; 6, 0.1)) = 1− 6!
0!(6−0)!
0.10 .0.96 + 6!
1!5!
0.11 .0.95 = 0.114
De esta forma, la probabilidad de que al menos dos copas sean de segunda es del
11.4 %.
Ejercicio 11
En una localidad de la provincia de Buenos Aires se observó la siguiente tabla de
frecuencia de días con precipitación por semana (X):
Número de días con pp por semana 0 1 2 3 4

Número de semanas observadas 9 5 2 3 1
a) Comparar la distribución observada con una distribución binomial.

b) Calcular la varianza y la asimetría considerando X ∼ Bin(n, p).
Resolución 11
La v.a. está definida en el problema como X como
X = {número de días con precipitación en una semana}
Los valores que puede tomar la v.a. son 0, 1, 2, . . . , 7. El problema nos da la siguiente
información observada:
32

Noten que si bien no se muestra en la tabla la cantidad de semanas en que llovieron

5, 6 y 7 días porque no se observaron, esto no significa que no sean valores posibles de
la v.a. Esta tabla indica que hubo 9 semanas en las que no llovió ningún día de entre
los 7, que hubo 5 semanas en las cuales llovió solo un día en cada una, que hubo 2
semanas en las que dos días han registrado lluvia, etc.
a) En este ítem debemos comparar la distribución observada de X (la informada en la

tabla) con aquella distribución teórica que tendría X si X ∼ Bin(n, p). Determinemos
primero qué valores tienen los parámetros de la distribución binomial n y p. Como
X es el número de días con precipitación en una semana, n = 7, pues el experimento
contará en tomar todos los días de una semana (7 días) y analizar si cada día se registró
precipitación o no (eso es un ensayo). Consideramos
E = {que un día llueva}
F = {que un día no llueva}
¿Cómo definimos ahora p, la probabilidad de éxito? Si tenemos la cantidad total de

días en los que se realizaron mediciones de lluvia y la cantidad de días en los que
efectivamente llovió, usamos la regla de Laplace para determinar la probabilidad.
casos favorables cantidad de días en que llovió

p= =
casos posibles cantidad de días analizados
Para determinar la cantidad de días analizados podemos contar el total de semanas y

luego multiplicarlo por la cantidad de días en cada semana (7). De la segunda fila de
la tabla se obtiene que en total se analizaron 20 semanas. Ahora, para determinar la
cantidad total de días en los que llovió, usamos la tabla. Sabemos que hay 9 semanas
en las que no llovió ningún día, así que esas semanas no aportan ningún día de lluvia.
Hubo 5 semanas en las que llovió un día en cada una; eso quiere decir que hubo 5
días con lluvia (repartidos uno en cada una de esas 5 semanas). Análogamente, hubo
2 semanas en las que se registró lluvia en 2 días de los 7; eso hace 4 días de lluvia. De
esta forma,
cantidad de días en que llovió 9·0+5·1+2·2+3·3+1·4

p= = = 0.157
cantidad de días analizados 20 · 7
Para buscar la cantidad de semanas en las que llovería 0 días, 1 día, ... , 7 días si la
v.a. X ∼ Bin(7, 0.157), determinamos primero cuál es la probabilidad de acuerdo a la
función masa de probabilidad binomial b(x; 7, 0.157) para cada valor posible de X.
33
X b(x; 7, 0.157) P (X = x) Frec. teórica

0 7
0
0.1570 0.8437 0.302 6.05

1 7
1
0.1571 0.8436 0.394 7.88

2 7
2
0.1572 0.8435 0.220 4.40

3 7
3
0.1573 0.8434 0.068 1.36

4 7
4
0.1574 0.8433 0.012 0.25

5 7
5
0.1575 0.8432 0.00142 0.02

6 7
6
0.1576 0.8431 0.00009 0.001

7 7
7
0.1577 0.8430 0.00000 4.7E-05
= 20
P
Para obtener la frecuencia teórica podemos pensar qué representa la probabilidad

recién calculada recordando la regla de Laplace: casos favorables sobre casos posibles.
En este problema, para x = 0 por ejemplo, sería “cantidad de semanas con 0 días de
lluvia” dividido “cantidad de semanas analizadas”. Luego, para obtener las frecuencias
teóricas equivalentes a la misma cantidad de semanas que se analizaron, deberíamos
despejar:
f recteo (0 días de pp en 1 semana)

0.3025 =
20
Y entonces,
f recteo (0 días de pp en 1 semana) = 0.3025 · 20 = 6.05
De esta forma pueden obtenerse cada una de las frecuencias teóricas para la variable
aleatoria. Al ser un valor teórico, y si bien representa el número de días de precipitación
en una semana, no es necesario que sea un valor entero. Por otro lado, es importante
verificar que la suma de las frecuencias teóricas sea igual a la cantidad total de semanas
analizadas en el problema. La frecuencia teórica representa entonces la cantidad de
semanas en las que lloverían x días si X ∼ Bin(7, 0.157). Ahora nos resta comparar
con la distribución observada de X. Agregamos los resultados a la tabla:
N° días con pp por semana 0 1 2 3 4 5 6 7

N° semanas observadas 9 5 2 3 1 0 0 0
N° semanas si X ∼ Bin(7, 0.157) 6.05 7.88 4.40 1.36 0.25 0.02 0.001 0
34
Al comparar la frecuencia de semanas observadas con las frecuencias de semanas teó-

ricas podemos identificar por ejemplo que la máxima frecuencia no ocurre en el mismo
valor de X: se observa que en las observaciones la mayor cantidad de semanas tienen 0
días de lluvia mientras que en la distribución binomial la mayor cantidad de semanas
tienen 1 día de lluvia. La asimetría es positiva en ambos casos (mayor frecuencia de
valores bajos de X) aunque la frecuencia observada es más alta para X = 3 y X = 4.
Esta comparación puede resultar más fácil de ver en un gráfico.
Más adelante en el curso aprenderán herramientas estadísticas que les permitan com-
parar distribuciones de probabilidad cuantitativamente.
b) Calculamos la varianza y la asimetría usando las definiciones para cuando una v.a.
sigue una distribución binomial.
varianza = np(1 − p) = 7 · 0.157 · 0.843 = 0.926
1 − 2p 1 − 2 · 0.157
coeficiente de asimetría = q = √
np(1 − p) 0.926
3.2. Distribución de probabilidad de Poisson

Una v.a. X tiene distribución de Poisson con parámetro λ (λ > 0) si la función masa de
probabilidad de X es
e−λ λx
p(X = x; λ) = x = 0, 1, 2, . . . (3.6)
x!
Si se considera una v.a. binomial, en un experimento donde n → ∞ y p → 0, de modo
tal que np tienda a un valor λ > 0, entonces b(x; n, p) → p(x; λ). Esto quiere decir que la
distribución de probabilidad de Poisson es un caso límite de la distribución de probabilidad
binomial, cuando los experimentos son muy grandes y la probabilidad de éxito muy baja.
Como regla práctica, consideraremos en este curso que n ≥ 30 y p ≤ 0.1 son condiciones
suficientes para que una función masa de probabilidad binomial sea aproximada por la
35
función masa de probabilidad de Poisson correspondiente. Este tipo de criterios puede

variar según el autor que lean.
3.2.1. Momentos
Si X ∼ P oi(λ)
media = λ = np (3.7)
varianza = λ (3.8)
√
desvío estándar = λ (3.9)
1
coeficiente de asimetría = √ (3.10)
λ
obs: Notar que el coeficiente de asimetría es siempre positivo para v.a. con distribución de
Poisson. Al ser p muy chica, la cantidad de éxitos a lo largo de n ensayos tiene más chances
de ser baja, y por eso los valores más chicos de X resultan con mayor probabilidad.
Ejercicio 12
Para evaluar el desempeño de un meteorólogo se consideran los días con errores en
su pronóstico para el mes de Septiembre. En sus 5 años de trabajo se verificó que el
meteorólogo se equivocó –considerando sólo el mes de Septiembre– 15 días. Conside-
re que la probabilidad de que un día se comentan errores en su pronóstico durante
Septiembre es constante.
a) Defina la variable aleatoria de este problema. ¿Qué distribución de probabilidad
teórica puede ajustar a este caso? Justifique. Indique los parámetros que caracte-
rizan a la distribución elegida y los valores que toman en este problema.
Considerando la distribución teórica elegida, responda:

b) ¿Cuál es la probabilidad de no cometer errores durante el mes de Septiembre?
c) Una nueva aplicación de Google ganó popularidad últimamente, y para superar el
desempeño de la aplicación, el meteorólogo debe dar un pronóstico sin errores al
menos el 85 % de los días del mes. ¿Cuál es la probabilidad de que el pronóstico
del meteorólogo supere el de la aplicación de Google?
Resolución 12
36
a) La v.a. en este problema es
X = {días con errores en el pronóstico de un meteorólogo en septiembre}
La v.a. X es discreta, por lo que si verificamos que cumple los criterios de un experi-
mento binomial, podríamos usar esa distribución. Veamos: i) el experimento consiste
de 30 ensayos (los 30 días de septiembre), fijados con antelación; ii) cada ensayo resulta
en E (el meteorólogo comete un error) o F (el meteorólogo no comete un error), y los
ensayos son idénticos; iii) tendremos que suponer que los ensayos son independientes
aunque esto no es totalmente cierto (suponemos que si un día el meteorólogo comete
un error esto no afecta a que el día siguiente vuelva a cometerlo); iv) la probabilidad
de éxito es constante (lo establece el enunciado).
Entonces, bajo las condiciones de un experimento binomial con n = 30 y buscamos p
usando la regla de Laplace:
casos favorables cantidad de días con errores 15 15

p= = = = = 0.10
casos posibles cantidad de días analizados 5 · 30 150
Dado que n = 30 y p = 0.10, estamos en un caso en el que podemos aproximar la

distribución de probabilidad binomial por una distribución de Poisson, así que usa-
remos la última que es más simple de calcular. En este caso, λ = 30 · 0.10 = 3 y
X ∼ P oi(λ = 3).
b) La probabilidad de no cometer errores durante el mes de septiembre es P (X = 0) =

p(0; 3)
e−3 30
p(X = 0; λ = 3) = = 0.0497 = 4.97 %
0!
c) Para que el pronóstico del meteorólogo supere al de Google necesitamos que él

acierte al menos el 85 % de los días del mes. El 85 % de 30 días son 25.5 días. Luego
consideramos que necesitamos un pronóstico sin error por al menos 26 días. Esto
es equivalente a pensar que entonces necesito, como mucho, 4 días con errores para
superar a Google.
P (X ≤ 4) = p(0; 3) + p(1; 3) + p(2; 3) + p(3; 3) + p(4; 3) =

e−3 30 e−3 31 e−3 32 e−3 33 e−3 34
= + + + + = 0.8152
0! 1! 2! 3! 4!
Luego, la probabilidad de que el pronóstico del meteorólogo supere a la app de Google

es del 81.52 %.
37
3.3. Distribución de probabilidad Normal

La distribución Normal es de las más importantes en probabilidad y estadística. Muchas
variables aleatorias continuas, incluyendo variables utilizadas en meteorología y oceano-
grafía, siguen -o pueden aproximarse a- una distribución de probabilidades Normal.
def: Una variable aleatoria continua X tiene una distribución normal con parámetros µ y
σ, donde −∞ < µ < +∞ y σ > 0, si la función de densidad de probabilidad de X es
1
e−(x−µ) /(2σ )
2 2
f (x; µ, σ) = √ −∞<x<∞ (3.11)
2πσ
Si X ∼ N (µ; σ), la probabilidad de que X esté entre a y b, P (a ≤ X ≤ b) se calcularía

como
ˆ b
1 2 2
P (a ≤ X ≤ b) = √ e−(x−µ) /2σ dx (3.12)
a 2πσ
Sin embargo, no es posible calcular esa integral con técnicas de integración estándar. Por
eso, se la calculó para el caso en que µ = 0 y σ = 1 para ciertos valores de a y b y se volcó
la información en una tabla, que puede ser utilizada para calcular las probabilidades para
cualquier µ y σ.
3.3.1. Distribución Normal Estándar

def: La distribución normal con valores de parámetros µ = 0 y σ = 1 se llama distribución
normal estándar. Una variable aleatoria que tiene una distribución normal estándar se lla-
ma variable aleatoria normal estándar y se nota Z. La función de densidad de probabilidad
de Z es
1 2
f (z; 0, 1) = √ e−z /2 −∞<z <∞ (3.13)
2π
La gráfica de f (z; 0, 1) se llama curva normal estándar. La función de densidad de proba-

bilidad acumulada de Z es
ˆ z
P (Z ≤ z) = f (y; 0, 1)dy = Φ(z) (3.14)
−∞
38
Figura 3.1: Φ(z0 ) es el área sombreada bajo la curva en el intervalo (−∞; z0 ) y representa
la probabilidad de que Z < z0 si Z ∼ N (0, 1)
prop: Si X ∼ N (µ, σ) ⇒ Z = X−µ

σ
∼ N (0, 1). Por lo tanto,
! !
a−µ b−µ b−µ a−µ

P (a ≤ X ≤ b) = P ≤Z≤ =P Z≤ −P Z ≤ =
σ σ σ σ
!
b−µ a−µ

=Φ −Φ (3.15)
σ σ
39

Figura 3.2: Ilustración de la propiedad P a−µ
σ
≤Z≤ b−µ
σ
=Φ b−µ
σ
−Φ a−µ
σ
prop: La distribución normal es simétrica respecto a la media. Para la distribución normal

estándar, P (Z ≥ z0 ) = P (Z ≤ −z0 ).
3.3.2. Tabla de probabilidad normal estándar

Cuando no se cuenta con una herramienta de cálculo (planilla de cálculo, software para
programar, calculadora científica, etc.) es posible utilizar la tabla de probabilidad normal
estándar que indica para cada valor de Z entre -3.49 y 3.49 (z = −3.49, −3.48, . . . 3.49) el
valor de Φ(z), es decir, la probabilidad P (Z ≤ z). En la Figura 3.3 se muestra una parte
de la tabla con el siguiente ejemplo.
40
Ejemplo 7
Determine la probabilidad P (Z < 0.55).
Para buscar P (Z < 0.55) = Φ(0.55) en la tabla, debemos ubicar la fila y columna
que forman z = 0.55. La primera columna de la tabla indica el primer decimal de z,
entonces buscamos 0.5. La primera fila de la tabla indica el segundo decimal de z,
en este caso necesitamos 0.05. Uniendo entonces estas fila y columna (como se ve en
la Figura 3.3 con una línea roja), encontramos el valor en el cuerpo de la tabla que
representa Φ(0.55) y es 0.7088. Entonces, P (Z < 0.55) = 70.88 %.
Figura 3.3: Tabla de probabilidad normal estándar tomada de Devore (2008)
Además la tabla puede usarse para encontrar un valor de z tal que P (Z ≤ z) valga algún
número en particular, como muestra el siguiente ejemplo.
Ejemplo 8
Determine z tal que la probabilidad P (Z < z) sea igual al 80 %.
41
Usando la tabla normal estándar (Fig. 3.3) en este caso se busca el valor de 0.800
en el cuerpo de la tabla. El más cercano es 0.7995. Ahora, siguiendo la misma fila y
columna de ese valor de Φ, encontramos a qué valor de z corresponde: z = 0.84. Luego,
z = 0.84 es tal que P (Z < 0.84) = 0.7995 ' 0.800 = 80 %.
3.3.3. Medidas de posición: percentiles

def: Sea p tal que 0 ≤ p ≤ 100, el percentil p de una v.a. continua X cuya función densidad
de probabilidad es f (y) denotado por Xp es tal que
ˆ Xp
p
Xp / f (y)dy = (3.16)
−∞ 100
En palabras, el percentil Xp es el valor de la variable aleatoria que deja a su izquierda el

p % de probabilidad. Por ejemplo, el percentil 30 (X30 ) es el valor tal que P (X ≤ X30 ) =
0.30.
Figura 3.4: Ilustración del percentil 30 (X30 ) de la variable X
Algunos percentiles se usan frecuentemente y tienen nombres:

Deciles: X10 , X20 , . . . , X90 . Dividen la distribución de probabilidad en 10 partes,
cada una con un 10 % de pŕobabilidad.
Quintiles: X20 , X40 , . . . , X80 . Dividen la distribución de probabilidad en 5 partes,
cada una con un 20 % de pŕobabilidad.
Cuartiles: X25 , X50 , X75 . Dividen la distribución de probabilidad en 4 partes, cada
una con un 25 % de pŕobabilidad. Se define a partir de estos el intervalo inter-
cuartil como el intervalo [X25 ; X75 ]
Mediana: X50 . Divide la distribución de probabilidad en 2 partes, cada una con un
50 % de pŕobabilidad.
42
Ejercicio 13
Suponiendo que la temperatura diaria de superficie en una dada localidad sigue una
distribución normal con media 24,0°C y desviación estándar 3,0°C.
a) Calcular la probabilidad de que la temperatura se encuentre entre 18,0 y 20,0°C.
b) Calcular la probabilidad de que la temperatura supere 21,0°C.
c) Calcular los cuartiles de la distribución.
d) ¿A qué tercil corresponde una temperatura de 23°C?
e) ¿Cuál es el valor por debajo del cual se encuentra el 2,5 % de los datos?
f) ¿Cuántos días por año se espera que la temperatura sea igual o menor que 19°C?
Resolución 13
Dada la variable temperatura diaria de superficie, que notaremos T , T ∼ N (24.0, 3.0):
a) Para buscar P (18.0 < T < 20.0), llevamos la variable T , que tiene una distribución
Normal, a una distribución Normal estándar. Esto es, estandarizamos T para obtener
Z. Usando la propiedad 3.15:
18.0 − 24.0 20.0 − 24.0

P (18.0 ≤ T ≤ 20.0) = P ≤Z≤ =
3.0 3.0
20.0 − 24.0 18.0 − 24.0

=P Z≤ −P Z ≤ =
3.0 3.0
= P (Z ≤ −1.33) − P (Z ≤ −2) = Φ (−1.33) − Φ (−2)
A continuación se muestran la distribución normal de T (N (24.0, 3.0)) y la distribución

normal estándar obtenida a partir de la estandarización de T . Se sombrea el área que
representa la probabilidad buscada en cada una de las distribuciones.
43
Utilizando la tabla de probabilidad normal estándar, Φ (−1.33) = 0.0918 y Φ (−2) =

0.0228. Entonces,
P (18.0 ≤ T ≤ 20.0) = Φ (−1.33) − Φ (−2) = 0.0918 − 0.0228 = 0.069 = 6.9 %
b) En este caso buscamos P (T > 21.0). Procedemos estandarizando la variable:
21.0 − 24.0

P (T > 21.0) = P Z > = P (Z > −1)
3.0
Al observar el área sombreada en cualquiera de las dos distribuciones notamos que

la probabilidad buscada será mayor al 50 %. Para determinar P (Z > −1) tenemos
dos opciones. Como la tabla devuelve P (Z < z), podemos buscar cuál es P (Z < −1)
(sería el área sin pintar en la distribución normal estándar) y luego sustraérsela a 1. La
otra alternativa es usar el argumento de simetría de la distribución normal, y plantear
P (Z > −1) = P (Z < 1).
P (Z > −1) = 1 − P (Z < −1) = 1 − Φ(−1) = 1 − 0.1587 = 0.8413

P (Z > −1) = P (Z < 1) = Φ(1) = 0.8413
Luego, la probabilidad de que la temperatura supere los 21.0◦ C es 84.13 %.
c) Los cuartiles de la distribución son T25 , T50 y T75 . Al no poder obtenerlos directa-
mente, buscamos primero los cuartiles de la distribución normal estándar: Z25 , Z50 y
Z75 .
Para encontrar Z25 , buscamos el valor z/Φ(z) = 0.25 usando la tabla normal estándar.
Tenemos que Φ(−0.67) = 0.2514 y Φ(−0.68) = 0.2483. Entonces, el primer cuartil
toma por valor alguno entre −0.67 y −0.68. Elegimos Z25 = −0.675.
44
El segundo cuartil Z50 es fácil, porque es la mediana de la distribución normal estándar

(que es igual a la media), y entonces Z50 = 0.
El tercer cuartil es Z75 , y como la distribución normal es simétrica respecto a la media,

entonces Z75 = −Z25 = 0.675.
Ahora necesitamos transformar los valores de Z a nuestra variable T . Para eso deses-
T −µ
tandarizamos Z usando que Z = . De esta forma es posible obtener T a partir
σ
de Z usando T = Z · σ + µ.
T25 = −0.675 · 3 + 24 = 21.96 ' 22.0◦ C

T50 = 0 · 3 + 24 = 24.0◦ C
T75 = 0.675 · 3 + 24 = 26.03 ' 26.0◦ C
Los valores T25 , T50 y T75 están representados con las líneas a guiones en la figura
de arriba, y permiten formar cuatro intervalos con la misma probabilidad, el 25 %:
(−∞, 22.0), (22.0, 24.0), (24.0, 26.0) y (26.0, +∞). A estos intervalos también se los
referencia como cuartiles: primer cuartil, segundo cuartil, tercer cuartil y cuarto cuartil.
Entonces, en función del contexto es que se determina si al hablar del, por ejemplo,
primer cuartil, se está haciendo referencia a X25 o al intervalo (−∞, X25 ). Lo mismo
es válido para cualquier otro percentil.
d) ¿A qué tercil corresponde una temperatura de 23.0◦ C? Como nos preguntan a qué
tercil pertenece un valor, se refiere en este caso a los terciles como intervalos.
Una de las formas de encarar este problema es buscar los terciles igual que en el ítem
c) y una vez encontrados X33.3 y X66.6 ver en qué tercil cae 23.0◦ C. Análogamente,
entonces, sabiendo por la tabla normal estándar que Φ(−0.43) ' 0.333 y que por
simetría Φ(0.43) ' 0.666.
T33.3 ' −0.43 · 3 + 24 = 22.7◦ C

T66.6 ' 0.43 · 3 + 24 = 25.3◦ C
45
De esta forma, los terciles son: primer tercil (frecuentemente también llamado tercil
inferior) (−∞, 22.7), segundo tercil (22.7, 25.3) y tercer tercil (frecuentemente tam-
bién llamado tercil superior) (25.3, +∞). De esta forma vemos que el valor de 23.0◦ C
pertenece al segundo tercil. En la siguiente figura se marcan los valores de T33.3 y T66.6
con líneas de guiones y con una línea negra se marca T = 23.0, que se encuentra en el
segundo tercil.
A medida que se van incorporando estos conceptos puede resultar más fácil resolver
una pregunta como la de este ítem (¿a qué tercil corresponde T = 23.0?) de la siguiente
manera:

Si buscamos P (T < 23.0) = P Z < 23.0−24.03.0
= P (Z < −0.333) ' 0.3707. Entonces,
como el primer tercil es el intervalo desde −∞ que acumula 33.3 % de probabilidad,
T = 23.0 no puede caer en el primer tercil (porque hasta 23.0 se acumula un 37.07 %
de probabilidad). El segundo tercil tiene como límite superior T66.6 y se acumula desde
−∞ un 66.6 % de probabilidad. Ese valor ya es superior al acumulado hasta T = 23.0,
por lo tanto 23.0 pertenece al segundo tercil. Noten que para seguir este razonamiento
no hizo falta calcular los valores de T33.3 ni T66.6 .
e) El valor por debajo del cual se encuentra el 2.5 % de los datos se busca de manera
análoga a los percentiles:
Por tabla, encontramos que Φ(−1.96) = 0.0250 = 2.5 %. Entonces, convertimos Z a

T : T2.5 = −1.96 · 3 + 24 = 18.1◦ C
46
f) ¿Cuántos días por año se espera una temperatura por debajo de 19.0◦ C? Dado que
T = {temperatura media diaria}
podemos buscar P (T ≤ 19.0) y luego usar la definición de probabilidad.
19.0 − 24.0

P (T ≤ 19.0) = P Z ≤ ' P (Z ≤ −1.67) = 0.0475
3.0
casos favorables
P (T ≤ 19.0) =
casos posibles
Podemos pensar que P (T ≤ 19.0) se obtiene como la cantidad de días en un año

en los que se registró una temperatura menor o igual a 19.0◦ C dividido la cantidad
de días en un año (365). Entonces, habiendo obtenido la probabilidad, la cantidad
de días en un año que se espera haya temperatura menor o igual a 19 grados es de
365 · 0.0475 = 17.34 ⇒ 17 días.
47
Capítulo 4
Estadística descriptiva
4.1. Estadística descriptiva

La estadística descriptiva consiste en agrupar la información en tablas y gráficos para
entender mejor cómo se comporta la variable de estudio.
4.1.1. Histogramas
Dada una sucesión de mediciones de una variable, los histogramas son una representación
gráfica de la probabilidad de ocurrencia de los valores que puede tomar la variable. Al
trabajar con variables continuas, se subdivide el eje de medición en un número adecuado
de intervalos de clase o clases, de forma tal que cada observación quede contenida en
exactamente una clase. La frecuencia absoluta de cada intervalo indica el número de
observaciones que caen en cada intervalo de clase, mientras que la frecuencia relativa es
el cociente entre la frecuencia absoluta de cada intervalo de clase y la cantidad total de
datos, es decir, la proporción de datos que cae en un intervalo.
Los histogramas pueden ser de frecuencias absolutas o de frecuencias relativas (ver Fig.
4.1). Este último permite visualizar una aproximación a la función de probabilidad de
la variable, ya que el área de cada rectángulo es proporcional a la frecuencia relativa
(probabilidad) del intervalo.
Si se cuenta con N datos no ordenados, para construir un histograma debemos determi-

nar:
Rango: es la resta entre el valor máximo y mínimo de la variable (xmáx − xmín ) e
indica cómo está acotada la variable que se está estudiando.
Intervalos de clase: las observaciones se agrupan en intervalos en función de su
valor. Los intervalos pueden definirse (; ] o [; ), es decir, abiertos a izquierda y ce-
rrados a derecha o cerrados a la izquierda y abiertos a la derecha. Son excepciones
los intervalos de los extremos. Las observaciones pueden caer sólo en uno de los
intervalos definidos.
48
(a) A partir de frecuencias absolutas (b) A partir de frecuencias relativas
Figura 4.1: Ejemplos de histogramas con datos de Temperatura de la Superficie del Mar
(TSM, ◦ C) del ejercicio adicional 2
(a) A partir de frecuencias absolutas acumuladas (b) A partir de frecuencias relativas acumuladas
Figura 4.2: Ejemplos de histogramas de frecuencias acumuladas con datos de Temperatura

de la Superficie del Mar (TSM, ◦ C) del ejercicio adicional 2
Cantidad de intervalos de clase: una fórmula empírica para determinarlos es

q = 5log(N ) donde N es la cantidad total de datos.
Ancho de intervalos de clase: se determinan según a = rango
q
Además del histograma de frecuencias absolutas o relativas también se puede construir

el histograma de frecuencias acumuladas, sumando en cada intervalo la frecuencia de
los intervalos anteriores (ver Fig. 4.3). El histograma de frecuencias relativas acumula-
das permite visualizar una aproximación a la función de probabilidad acumulada de la
variable.
Cuando el histograma ya está construido, la información que se pierde es cómo están

distribuidos los datos dentro de cada intervalo. A partir del histograma se pueden deter-
minar:
Marca de clase: son el punto medio de cada intervalo, y se notan xc .
Polígono de frecuencias: es la unión de los puntos (xci , fi ) con i = 1, 2, . . . q. Se
49
traza sobre el histograma de frecuencias absolutas o relativas. Es una aproximación

a la función de probabilidad de la variable.
Ojiva: es la unión de los puntos (Lsupi , facumi ) con i = 1, 2, . . . q y donde Lsupi es el
límite superior del intervalo de clase i. Se traza sobre el histograma de frecuencias
absolutas o relativas acumuladas. Es una aproximación a la función de probabilidad
acumulada de la variable.
(a) Polígono de frecuencia (b) Ojiva
Figura 4.3: Ejemplos de histogramas de frecuencias relativas y relativas acumuladas con

datos de Temperatura de la Superficie del Mar (TSM, ◦ C) del ejercicio adicional 2
4.2. Medidas
En esta sección se compilan las expresiones de las distintas medidas que caracterizan la
distribución de probabilidades representada por el histograma. Si se cuenta con todos los
datos entonces el cálculo es exacto, mientras que si se cuenta con los datos agrupados en
intervalos entonces se puede estimar un valor para cada medida, bajo distintas aproxima-
ciones basadas en la construcción del histograma y en interpolación gráfica.
4.2.1. Medidas de tendencia central

Las medidas de tendencia central son valores típicos o centrales de una distribución de
probabilidad. Abarcan la media, o media aritmética, que es el promedio entre todos los
valores de la variable; la mediana, que es el valor que separa en dos mitades los datos; y
la moda, que es el valor más frecuente.
50
Datos no agrupados Datos agrupados
1 XN
1 Xq
x̄ = xi x̄ = xc f i
Media N i=1 N i=1 i
Con xci la marca de clase del intervalo

Con xi cada uno de los datos i, fi la frecuencia absoluta del inter-
valo i y q la cantidad de intervalos
(50 − P1 )

 xN + x N +1 /2 si N par me = Linf + a
Mediana me =  x N +1 (P2 − P1 )
2 2
si N impar
2
Con P1 la probabilidad acumulada

hasta el intervalo anterior al que con-
Habiendo ordenado antes los datos de
tiene la mediana y P2 la probabilidad
menor a mayor
acumulada hasta el intervalo que con-
tiene la mediana.
Es el valor de x que se repite más ve- (f2 − f1 )

Moda ces M o = Linf + a
(f2 − f1 ) + (f2 − f3 )
Donde el subíndice 2 indica el inter-

valo que contiene a la moda y los sub-
índices 1 y 3 los intervalos anterior y
posterior respectivamente fi nota la
frecuencia absoluta o relativa del in-
tervalo i.
4.2.2. Medidas de posición

Se ordenan de menor a mayor los da- (P − P1 )
tos y se busca el dato correspondiente xp = Linf + a
Percentil (P2 − P1 )
al percentil deseado
Con P1 la probabilidad acumulada
hasta el intervalo anterior al que con-
tiene al percentil P y P2 la probabili-
dad acumulada hasta el intervalo que
contiene al percentil P
51
4.2.3. Medidas de dispersión

v v
1 XN
1 Xq
u u
s= (xi − x̄)2 s= fi (xci − x̄)2
u u
Desvío
t t
N i=1 N i=1
Con xci la marca de clase del intervalo

Con xi cada uno de los datos i, fi la frecuencia absoluta del inter-
valo i y q la cantidad de intervalos
1 XN
1 Xq
Varianza s =
2
(xi − x̄)2 s =
2
fi (xci − x̄)2
N i=1 N i=1
(xi − x̄)3
1 PN
fi (xci − x̄)3
Pq
Asimetría γ1= P i=1
N
1
2 3/2
γ1= P i=1
N
(µ3 /σ3 )

1 N
(x − 2 3/2

N i=1 i x̄) 1 q
f i (x c − x̄)
N i=1 i
(xi − x̄)4
1 PN
fi (xci − x̄)4
Pq
Curtosis γ2 = PN i=1
1
2 γ2 = P i=1
N
(µ4 /σ4 ) 1 N
i=1 (xi − x̄)2 1 q
fi (xci − x̄)2
2
N N i=1
52
Ejercicio 14
A partir de los datos agrupados de temperatura de la superficie del mar (SST) semanal
en la región Niño 3.4 para el período 1990-2010:
a) Graficar la ojiva de frecuencias relativas porcentuales.
b) Calcular el intervalo intercuartil, el primer decil, la mediana, la moda y la media.
c) Determinar el signo de la asimetría.
d) Esquematizar el box-plot utilizando mediana, intervalo intercuartil, mínimo y má-
ximo.
e) Estudios determinaron que la convección de tipo muy intenso en la región se de-
sarrolla cuando la temperatura de la superficie del mar semanal supera los 28°C.
Determinar cuál es la probabilidad de que se den condiciones para desarrollar este
tipo de convección en la región.
Figura 4.4: Histograma de frecuencias absolutas para la SST en la región Niño 3.4
Resolución 14
Usando los datos que se obtienen del histograma de frecuencias relativas de la TSM
en la región del Niño 3.4, resolvemos:
a) Para graficar la ojiva de frecuencias relativas porcentuales extraemos las frecuencias

absolutas del histograma mostrado en el ejercicio, luego las usamos para calcular las
frecuencias absolutas acumuladas, las dividimos por la cantidad total de datos para
53
obtener las frecuencias relativas acumuladas y finalmente las convertimos en porcen-

taje. Esto se muestra en la siguiente tabla, donde los valores en negrita son extraídos
directamente del histograma.
Linf xci Lsup frec. abs. frec. abs. acum. frec. rel. acum. ( %)
23.6 24 24.4 0 0 0
24.4 24.8 25.2 39 39 3.61
25.2 25.6 26 119 158 14.65
26.0 26.4 26.8 208 366 33.95
26.8 27.2 27.6 334 700 64.93
27.6 28 28.4 274 974 90.35
28.4 28.8 29.2 86 1060 98.33
29.2 29.6 30.0 18 1078 100
También del histograma se puede determinar a = 0.8, el ancho de los intervalos de

clase (puede obtenerse como la distancia entre dos marcas de clase sucesivas) y con-
secuentemente los límites inferior y superior de cada intervalo, que se agregan a la
tabla. En principio se desconoce si los intervalos fueron definidos abiertos a izquierda
y cerrados a derecha o al revés, pero no lo necesitamos para resolver el ejercicio.
Con los datos de la tabla podemos dibujar la ojiva, uniendo los puntos (Lsupi , facumi ),
usando la última columna para que sean frecuencias relativas acumuladas expresadas
en porcentaje. Se muestra sobre el histograma para que sea más fácil la asociación
entre los dos.
b) Para calcular el intervalo intercuartil, calculamos el cuartil inferior y el superior a

partir de los datos agrupados. Observando el histograma (o también la tabla) vemos
que el primer cuartil está contenido en el intervalo (26.0, 26.8], pues ahí se alcanza el
25 % de probabilidad acumulada, y el cuartil superior está contenido en el intervalo
(27.6, 28.4], ya que ahí se alcanza el 75 % de probabilidad acumulada.
54
(25 − 14.65)
x25 = 26 + 0.8 = 26.42
(33.95 − 14.65)
(75 − 64.93)
x75 = 27.6 + 0.8 = 27.91
(90.35 − 64.93)
En ambos casos se puede verificar que x25 y x75 caen en los intervalos identificados
y que si se siguen los valores de los cuartiles desde el eje x hasta la ojiva y luego
horizontalmente hasta el eje y, se acumula la probabilidad esperada. Análogamente
para la mediana, está contenida en el intervalo (26.8, 27.6],
(50 − 33.95)
me = x50 = 26.8 + 0.8 = 27.21
(64.9 − 33.95)
y queda verificado. Para calcular la media,
1 X 8
1
x̄ = xci f i = (24.8 · 39 + 25.6 · 119 + · · · + 29.9 · 18) = 27.15
1078 i=1 1078
Finalmente, para calcular la moda a partir de los datos agrupados se hace la suposición
de que la moda está contenida en el intervalo modal, lo que no es necesariamente cier-
to. Si contáramos con todos los 1078 datos podríamos buscar cuál valor se repite más:
podría ser que el valor que más se repita sea el 29.5 y que ocurra 16 veces; sin embargo,
ese valor no pertenece al intervalo modal, es decir, al intervalo con mayor frecuencia
absoluta, el (26.8, 27.6]. Habiendo aclarado esto, calculamos la moda asumiendo que
el valor más probable se encuentra en el intervalo modal:
(334 − 208)
M o = 26.8 + 0.8 = 27.34
(334 − 208) + (334 − 274)
Si bien las unidades se han omitido por simplicidad, es oportuno recordar que los
percentiles, la media, mediana y moda tienen las mismas unidades que la variable, en
este caso ◦ C.
c) Podemos determinar el signo de asimetría usando las frecuencias absolutas de cada

intervalo y sus respectivas marcas de clase
fi (xci − 27.15)3
1 P8
γ1= 1078 i=1
3/2 = −0.19 < 0
i=1 fi (xci − 27.15)
1 P8 2
1078
La asimetría es negativa, aunque es muy cercana a cero por lo que no es tan marcada.
55
d) Los box plot se explican en la próxima sección y el resultado se muestra en la Figura

4.5a. Para esquematizar el box plot, usamos las medidas calculadas en el ítem b) y el
mínimo y el máximo del histograma.
e) Definimos el evento convección intensa, C = {T SM > 28◦ C}.
P (C) = 1 − P (C ∗ ) = 1 − P (T SM < 28◦ C)
Ahora, P (T SM < 28◦ C) la podemos buscar gráficamente a partir de la ojiva, identifi-

cando la T SM = 28.0 en el eje de T SM , intersecando la ojiva y buscando a qué valor
de frecuencia relativa corresponde ese 28.0. Esa estimación daría que en T SM = 28.0
se acumula un 80 % de probabilidad aproximadamente. Luego,
P (C) = 1 − P (C ∗ ) = 1 − P (T SM < 28◦ C) ' 1 − 0.80 = 0.20
De esta forma, hay aproximadamente un 20 % de probabilidad de que se desarrolle

convección intensa en la región. Alternativamente, se puede estimar la probabilidad
acumulada hasta el valor de T SM = 28.0 buscando a qué percentil corresponde:
(P − 64.93)
28.0 = 27.6 + 0.8
(90.35 − 64.93)
Despejando P, se obtiene P = 77.64 %. Entonces P (T SM < 28◦ C) = 0.7764 %.

Finalmente,
P (C) = 1 − P (C ∗ ) = 1 − P (T SM < 28◦ C) = 1 − 0.7764 = 0.2236 = 22.36 %
4.3. Box plot

Los diagramas de caja, o box plot, sirven para resumir gráficamente los histogramas. Los
box plot se usan para mostrar, entonces, las características más importantes de un conjun-
to de datos, de su distribución de probabilidad. Se usan distintas medidas que caracterizan
esta distribución: 1) el centro, generalmente la mediana; 2) la dispersión, a través del in-
tervalo intercuartil; 3) la asimetría y, en algunos casos 4) valores extremos.
El box plot más simple entonces consta de cinco valores: valor mínimo, cuartil inferior,
mediana, cuartil superior y valor máximo. Sobre un eje (que puede ser horizontal o verti-
cal), se dibuja una caja cuyos extremos son los cuartiles inferior y superior. Dentro de la
caja se marca con una línea o un punto el valor de la mediana y finalmente se dibujan los
bigotes desde la caja: desde el cuartil inferior al valor mínimo y desde el cuartil superior
al valor máximo. En la Figura 4.5a se muestra el box plot dibujado usando los datos del
ejercicio adicional 2, mostrado sobre un eje horizontal, y se acompaña con la Figura 4.5c,
el histograma de frecuencias relativas.
56
(a) Eje horizontal
(b) Eje vertical
(c) Histograma frecuencias relativas
Figura 4.5: Ejemplos de box plot con eje horizontal (a) o vertical (c) calculados con los
datos de Temperatura de la Superficie del Mar (TSM, ◦ C) del ejercicio adicional 2. Se
incluye en (b) el histograma de frecuencias relativas.
Analizando las dos figuras se observa el resumen gráfico que es el box plot respecto al his-
tograma, que muestra de izquierda a derecha: el valor mínimo (24.4◦ C), el cuartil inferior
(26.4◦ C), la mediana (27.2◦ C), el cuartil superior (27.9◦ C) y el valor máximo (30.0◦ C).
La ventaja del box plot frente al histograma es que en un mismo gráfico pueden dibujarse
varios box plot y así comparar las características de las distribuciones de probabilidad
entre sí, como veremos en el próximo ejemplo. El mismo box plot de la Figura 4.5a se
muestra en la Figura 4.5b pero usando un eje vertical, y se interpreta de la misma forma.
En este caso, la distribución de TSM es bastante simétrica, con la mediana prácticamente
en el centro del intervalo intercuartil y una distancia similar hasta el valor mínimo y el má-
ximo. Esta simetría puede corroborarse en el histograma (Fig. 4.5b) y con el γ1 = −0.19
calculado en el ejercicio adicional 2.
Ejemplo 9. Análisis de múltiples box plot
En la Figura 4.6, tomada del resumen técnico del Quinto Informe de Evaluación del
IPCC, se muestran los cambios futuros para cada región monzónica según distintos
escenarios usando 132 box plot (¡imagínense una figura con 132 histogramas!). Los
escenarios son las diferentes configuraciones de los modelos que simulan el clima a
futuro, que para este reporte se definieron en función de trayectorias de concentración
57
de CO2 representativas (RCP) en términos del forzante radiativo global: nivel de for-
zamiento muy bajo (RCP2.6), 2 escenarios de estabilización (RCP4.5 y RCP6.0) y un
escenario con un nivel muy alto de emisiones de gases de efecto invernadero (RCP8.5).
Por ejemplo, 26 modelos climáticos distintos se configuraron bajo las condiciones del
escenario RCP8.5, y los 26 resultados se usan para construir los box plot rojos.
Figura 4.6: Cambios futuros en las estadísticas monzónicas entre la actualidad (1986-
2005) y el futuro (2080-2099) sobre la base del ensamble de la CMIP5 de las simulacio-
nes RCP2.6 (azul oscuro, 18 modelos), RCP4.5 (azul, 24 modelos), RCP6.0 (amarillo,
14 modelos) y RCP8.5 (rojo, 26 modelos). Las variables analizadas son: zona monzóni-
ca global (GMA), intensidad monzónica global (GMI), precipitación media estacional
(Pav), desviación típica de la variabilidad interanual de la precipitación estacional
(Psd), cinco días de precipitación máxima total estacional (R5d) y duración de la
estación monzónica (DUR). Las unidades es cambio en porcentaje, salvo para DUR
que es cambio en días. Los diagramas de cajas y bigotes muestran los percentiles 10,
25, 50, 75 y 90. Todos los índices se calculan para la estación de verano. Tomada del
resumen técnico del Quinto Informe de Evaluación del IPCC
Utilizaremos la Figura 4.6h que muestra los cambios esperados en el Sistema Monzó-
nico de Sudamérica como ejemplo. En este caso los box plot se dibujaron usando los
percentiles 10 y 90 como extremos de los bigotes en vez del mínimo y máximo, sin
embargo, por simplicidad, vamos a considerar para el análisis que sigue que los extre-
mos indican el mínimo y el máximo. Los primeros 4 box plot, uno por cada escenario,
muestran el cambio (en %) de la precipitación media de verano (Pav). Podemos ver
58
que en el escenario RCP8.5 (box plot rojo) la dispersión es mayor que en los otros
escenarios, porque el intervalo intercuartil es más grande (representado por el tamaño
de la caja), y que los valores extremos son más grandes que en los otros escenarios.
El segundo grupo de 4 box plot (Fig. 4.6h) representan otra característica de los
monzones. Podemos identificar que en el escenario RCP2.6 (azul oscuro), la Psd tiene
asimetría positiva, o cola derecha. Analizando el box plot desde los valores negativos
hacia los positivos del eje, observamos que el mínimo está en −5 % y la mediana en
5 % aproximadamente. Es decir, que el 0.50 de probabilidad se acumula entre −5 y
5, bastante “rápido”. Es más, el cuartil superior está en 11 %, o sea que entre 5 % y
11 % se acumula otro 0.25 de probabilidad. Llevamos acumulada una probabilidad de
0.75 desde −5 a 11. Luego, se debe alcanzar el valor de 26 para acumular un 0.25 de
probabilidad y llegar al 1.00. Este tipo de box plot indica una asimetría positiva. Se
puede comparar por ejemplo con el box plot celeste, que parece ser bastante simétrico
respecto a la mediana (misma distancia al cuartil inferior que al superior, o sea, a los
extremos de la caja, y distancia similar al mínimo y máximo).
Observando finalmente los 4 box plot que indican los cambios en días en la duración del
monzón de Sudamérica, ¿qué escenario indica una mayor probabilidad que la duración
en días disminuya (cambio negativo)? El escenario RCP8.5 tiene la mediana en 0
días, lo que indica un 50 % de probabilidad que el cambio sea negativo (monzón más
corto) y otro 50 % de probabilidad que el cambio sea positivo (monzón más largo).
Para el RCP4.5 (celeste), la mediana está en valores negativos pero cercanos a 0,
indicando que la probabilidad de que el monzón se acorte es apenas mayor al 50 %.
En el escenario RCP6.0 (naranja), la mediana es la más grande (en valor absoluto)
y negativa, indicando que la mitad de los modelos indican un cambio de −12 a −5
días en la duración del monzón. La mediana es también negativa para el escenario
RCP2.6 (azul) y el tercer cuartil se alcanza en un valor más chico que en el RCP6.0.
Eso muestra que en el RCP2.6 hay una probabilidad de casi el 75 % de un monzón
más corto en el futuro.
59
Capítulo 5
Viento. Distribuciones de
probabilidad Weibull y Gamma
5.1. Viento
El viento tiene la particularidad que es una variable tridimensional, donde se nota con u
la componente zonal (paralela a los paralelos), con v la componente meridional (paralela
a los meridianos) y con w la componente vertical (perpendicular a la superficie).
V = (u, v, w) ∈ R3
Si notamos con ǐ el versor que indica la dirección zonal (positivo hacia el este), con ǰ el
versor que indica la dirección meridional (positivo hacia el norte) y con ǩ el versor que in-
dica la dirección vertical (positivo hacia arriba), podemos escribir al viento tridimensional
con la siguiente notación
V = uǐ + v ǰ + wǩ
En las estaciones meteorológicas se mide el viento horizonal, que es entonces bidimensio-

nal, y se mide a 10 metros de altura.
VH = (u, v) ∈ R2
5.1.1. Variables asociadas al viento

def: Dirección: indica de dónde viene el viento. Se indica en grados (0◦ a 360◦ ), donde
0◦ indica viento del norte (N), 45◦ viento del noreste (NE), 90◦ viento del este, 135◦ viento
del sureste (SE), 180◦ viento del sur (S), 225◦ viento del suroeste (SO), 290◦ viento del
oeste (O) y 315◦ viento del noroeste (NO). La medición de la dirección se suele promediar
en períodos de 10 minutos.
60
Figura 5.1: Direcciones del viento utilizando 8. En este caso, se toman rangos de 45◦
alrededor de cada dirección y se asigna la dirección central. Ver por ejemplo el rango
asociado a los viento N.
def: Intensidad: es el módulo del vector viento, se mide generalmente en ms−1 o nudos.
Se suele tomar el promedio en períodos de 10 minutos.
def: Calma: se considera cuando la intensidad del viento es inferior a 1 nudo (aproxima-
damente 0.5ms−1 )
def: Intensidad media del viento (V̄ ): Es el promedio de las intensidades mayores a
0.5ms−1 . Si con Vi notamos cada una de las intensidades del viento medidas en el tiempo
i, entonces la intensidad media del viento es
1 XN
V̄ = Vi (5.1)
N i=1
def: Vector viento medio (V̄): se obtiene promediando las velocidades u y v del viento
separadamente. Es la suma vectorial dividido por el número de observaciones (incluyendo
las calmas). Si notamos
V̄ = (ū, v̄)
Para obtener ū se proyectan las intensidades con componente E y O sobre el eje de

abscisas, y para obtener v̄ se proyectan las intensidades con componente N y S sobre el
eje de ordenadas. Si consideramos 8 direcciones, las proyecciones serán con un ángulo de
45◦ :
(O − E) + cos(45◦ ) (SO + N O − SE − N E)
P P
ū = (5.2)
N
(S − N ) + sin(45◦ ) (SO + SE − N O − N E)
P P
v̄ = (5.3)
N
61
donde por ejemplo SO representa las intensidades de los vientos con dirección suroes-
te.
obs: La intensidad del viento medio no es igual a la intensidad media del viento:
|V̄| =
6 V̄
Ejemplo 10
Sean cuatro observaciones de viento, cada una con intensidad 2ms−1 y dirección N ,
S, E y W , la intensidad media del viento es
1
V̄ = (2ms−1 + 2ms−1 + 2ms−1 + 2ms−1 ) = 2ms−1
4
Por otro lado, el vector viento medio se puede verificar es
V̄ = (0ms−1 , 0ms−1 )
y entonces la intensidad del vector viento medio es |V̄| = 0ms−1 .
5.1.2. Rosas de los vientos

Rosa de los vientos radial
Representa las frecuencias relativas de las direcciones de viento, es decir, qué porcentaje
de observaciones fueron vientos con dirección E, N E, etc. La rosa de los vientos radial se
dibuja entonces usando la tabla de frecuencias.
Sea la siguiente distribución de frecuencias relativas de direcciones del viento
Dirección N NE E SE S SO O NO calmas
Frecuencia relativa ( %) 8 10 15 10 15 12 2 1 27
La rosa de los vientos radial tiene en cada dirección, desde el centro, el eje de frecuencias
relativas. Esto es, vale 0 % en el centro y aumenta la frecuencia hacia afuera radialmente.
Se puede representar con barras en cada eje o con una línea de la siguiente forma:
62
Figura 5.2: Ejemplo de rosa de los vientos radial. Calmas: 27 %
Rosa de los vientos telescópica

De forma similar a la rosa de los vientos radial, la rosa de los vientos telescópica indica la
frecuencia relativa total para cada dirección del viento, pero, además, indica por dirección
la frecuencia relativa de distintos rangos de intensidad del viento.
Figura 5.3: Ejemplo de rosa de los vientos telescópica. Calculada con el paquete de R
openair.
En esta rosa de los vientos, el largo de cada barra (en la dirección radial) indica la
frecuencia relativa y el ancho de cada barra indica el intervalo de intensidades que tiene
esa frecuencia.
63
5.2. Distribución Weibull

Generalmente la intensidad del viento se ajusta bien a la distribución Weibull. Esta función
vale 0 para cualquier valor de la variable aleatoria menor que 0, por lo que es apropiada
para representar variables que no pueden tomar valores negativos.
def: Una variable aleatoria X tiene una distribución Weibull con parámetros α (parámetro
de forma) y β (parámetro de escala), con α > 0, β > 0, si la función de densidad de
 α α−1 −(x/β)α
 x e x≥0
f (x; α, β) = βα (5.4)
0 x<0

Los distintos valores del parámetro de escala β alargan o comprimen la gráfica en la

dirección de x. La distribución de Weibull es asimétrica.
Figura 5.4: Ejemplos de distribuciones Weibull para: α = 1, β = 1 (negro), α = 2, β = 1

(rojo) y α = 2, β = 0.5 (azul)
La función densidad de probabilidad de Weibull puede integrarse analíticamente para

obtener la función de densidad de probabilidad acumulada de Weibull:
0 x<0
(
F (x; α, β) = (5.5)
1−e −(x/β)α
x≥0
obs: Despejando x de la función densidad de probabilidad de Weibull se puede obtener la

expresión para los percentiles Xp :
1
Xp = β (−ln(1 − p)) α (5.6)
64
Ejercicio 15
Dada la siguiente distribución teórica Weibull para la variable aleatoria intensidad del
viento en ms−1 con parámetro de forma α = 2 y parámetro de escala β = 5ms−1 :
Figura 5.5: Distribución teórica de Weibull Wei(α = 2, β = 5)
a) Escriba la función de densidad de probabilidad.

b) Escriba la función de densidad de probabilidad acumulada.
c) ¿Cuál es la probabilidad de que se registren intensidades de viento menores a 1
ms−1 ? Indique la probabilidad en el gráfico de la distribución.
d) ¿Cuál es la probabilidad de que se observen vientos con intensidad entre 3 y 5
e) ¿Cuál es la probabilidad de que se registren intensidades de viento mayores a 10
Resolución 15
a) Como X ∼ W ei(α = 2, β = 5ms−1 ), reemplazamos los valores de los parámetros

en la definición de la función densidad de probabilidad (Ec. 5.4).
2 2−1 −(x/5)2
= x≥0
2
2
xe−x /25
(
x e
f (x; 2, 5) = 52 25
0 x<0
b) Como X ∼ W ei(α = 2, β = 5ms−1 ), reemplazamos los valores de los parámetros

en la definición de la función densidad de probabilidad (Ec. 5.5).
65
0 x<0
(
F (x; 2, 5) =
1−e −(x/5)2
=1−e−x2 /25
x≥0
c) Usando la función densidad de probabilidad acumulada para una distribución Wei-

bull (Ec. 5.5):
2 /25
P (X < 1) = F (1) = 1 − e−1 = 0.0392 = 3.92 %
Se indica la probabilidad como el área debajo de la función densidad de probabilidad

de Weibull con α = 2 y β = 5
d) Nuevamente, usando la función densidad de probabilidad acumulada para una dis-

tribución Weibull (Ec. 5.5):

P (3 < X < 5) = F (5)−F (3) = 1 − e−1 − 1 − e−9/25 = e−9/25 −e−1 = 0.3299 = 33.0 %
66
e) De forma similar:

P (X > 10) = 1−P (X < 10) = 1− 1 − e−100/25 = 1−1+e−4 = e−4 = 0.0183 = 1.83 %
5.2.1. Determinación de los parámetros de forma y escala a par-

tir de datos: métodos de máxima similitud
Si se cuenta con una serie de datos de intensidades de viento, es posible calcular a partir
de ellos los parámetros de forma y escala de una distribución Weibull que ajuste a los
datos. Para estos cálculos se usan métodos de máxima similitud, que no desarrollaremos
en esta materia. Sin embargo, utilizaremos los resultados de este método para estimarlos.
Las siguientes fórmulas fueron derivadas por Christofferson y Gillette (1987):
 0.5
π  N (N − 1)
α = √  P (5.7)

6 N
P 2 
i=1 (ln xi )
N 2 − N
i=1 ln xi
!1/α
1 XN
β= xαi (5.8)
N i=1
en donde xi es cada uno de los datos y N la cantidad total de datos.
67
Ejercicio 16
Utilizando las expresiones del método de máxima similitud basadas en Christofferson
y Gillette (1987), calcule los parámetros de forma y escala considerando los siguientes
datos
Intensidad dirección
3,3 N
6,4 N
5,5 NE
2,7 NE
10,0 E
8,9 NE
Resolución 16
Calculamos entonces los parámetros de forma y escala a partir de los siguientes datos:
xi ln(xi ) (ln(xi ))2

3,3 1.1939 1.4255
6,4 1.8563 3.4458
5,5 1.7047 2.9062
2,7 0.9933 0.9865
10,0 2.3026 5.3019
8,9 2.1861 4.7788
10.2369 18.8447
P
En la tabla se agregaron los valores del ln de cada valor de intensidad (xi ) y el ln al

cuadrado, que es lo primero que hay que calcular para reemplazar en la expresión de
α (Ec. 5.7). Una vez calculados los valores individuales, se calcula la suma (última fila
de la tabla). Al trabajar con 6 datos, N = 6. Disponemos de todos los valores para
reemplazar en la Ecuación 5.7:
!0.5
π 6(6 − 1)
α= √ = 2.442
6 6 · 18.8477 − (10.2369)2
Una vez obtenido α, calculamos xα para luego reemplazar en la Ecuación 5.8 y calcular
el parámetro de forma β.
68
xi xαi
3,3 18.459
6,4 93.046
5,5 64.264
2,7 11.308
10,0 276.701
8,9 208.95
671.95
P
Disponemos de todos los valores para reemplazar en la Ecuación 5.8:
1
1/2.442
β= · 671.95 = 6.90
6
De esta forma obtenemos los parámetros que caracterizan a la función de densidad
Weibull y se puede graficar con el software que prefieran:
5.3. Distribución Gamma

Algunas variables atmosféricas son muy asimétricas con asimetría derecha debido a un
límite físico a la izquierda, como por ejemplo la precipitación o la intensidad del viento,
que son físicamente no-negativas. La distribución Gamma en particular es muy usada
para representar la precipitación.
def: Una variable aleatoria X tiene una distribución Gamma con parámetros α (parámetro
de forma) y β (parámetro de escala), con α > 0, β > 0, si la función de densidad de
1

xα−1 e−x/β x≥0


f (x; α, β) = β α Γ(α) (5.9)
0 de lo contrario


69
donde Γ(α) es la función Gamma, definida como:
def: Para α > 0 la función Gamma Γ(α) se define como

ˆ ∞
Γ(α) = tα−1 e−t dt (5.10)
0
prop: La media y la varianza de una variable aleatoria X que tiene distribución Gamma
son:
E(X) = µ = αβ V (X) = σ 2 = αβ 2 (5.11)
5.3.1. Características de la distribución

Si α < 1 la distribución es muy asimétrica a la derecha, de tipo exponencial (f (x) →
+∞ si x → 0+ )
Si α = 1 es un caso especial donde la distribución Gamma es igual a la distribución
Exponencial
Si α > 1 La función densidad de probabilidad empieza en el origen (f (0) = 0), crece
hasta un máximo y después decrece.
El parámetro β estira o comprime la escala de la función densidad de probabilidad
5.3.2. Estimación de α y β
Los estimadores de α y β no son momentos de la distribución y son entonces difíciles de
estimar. Usando la proposición 5.11, se pueden escribir los estimadores como:
x̄2
α̂ = (5.12)
s2
s2
β̂ = (5.13)
x̄
Sin embargo, estos estimadores solo son aceptables si α > 10, siendo muy malos para
valores bajos de α. Por esto se utilizan también métodos de máxima similitud para estimar
los parámetros α y β a partir de datos.
Métodos de máxima similitud

Para utilizarlos se necesitan todos los datos y se basan en el estadístico D,
1 XN
D = ln(x̄) − ln (xi ) (5.14)
N i=1
70
donde xi es cada uno de los datos, N la cantidad total de datos y x̄ es el valor medio de
los datos.
Método de Thom (1958):

q
1+ 1 + 4 · D/3
α̂ = (5.15)
4·D
x̄
β̂ = (5.16)
α̂
Método de Greenwood y Durán (1960)
0, 5000876 + 0, 1648852 · D − 0, 0544274 · D2


si 0 ≤ D ≤ 0.5772



D

α̂ = (5.17)
 8, 898919 + 9, 059950 · D + 0, 9775373 · D
2
 si 0.5772 < D ≤ 17.0
17, 79728 · D + 11, 968477D2 + D3


x̄
β̂ = (5.18)
α̂
5.3.3. Distribución Gamma Estándar

La distribución Gamma Estándar es el caso particular de la función densidad de proba-
bilidad Gamma (Ec. 5.9) cuando β = 1. De esta forma, la función densidad es
xα−1 e−x

x≥0


f (x; α) =  Γ(α) (5.19)

0 de lo contrario
prop: Si X es una variable aleatoria continua tal que X ∼ Gam(α, β), entonces la varia-
ble
X
ξ= ∼ Gam(α, 1) (5.20)
β
Esto es, ξ tiene una distribución Gamma estándar. Notar que el parámetro de forma (α)
no cambia de valor.
La tabla de probabilidad acumulada de la distribución Gamma permite buscar hasta qué

valor se acumula una dada probabilidad según el valor de α. Para buscar más valores
de probabilidad se debería interpolar o utilizar algún software de cálculo de probabilida-
des.
71
Ejemplo 11
Buscar en la tabla de la distribución Gamma estándar para α = 1.55 el valor de ξ
hasta el cual se acumula el 10 % de probabilidad. Si X ∼ Gam(1.55, 1.7), ¿cuál es el
valor del primer decil X10 ?
Para un valor de α = 1.55 la distribución Gamma estándar tiene la forma de la figura

que se muestra a continuación. Necesitamos entonces buscar en la tabla el valor hasta
el cual se acumula el 0.1 de probabilidad, que es el área sombreada en rojo.
Para esto buscamos la columna correspondiente a una probabilidad acumulada de 0.10

y la fila correspondiente a un α de 1.55 (ver Fig. 5.6). Encontramos entonces el valor
de ξ en el cual se acumula el 0.1 de probabilidad, ξ = 0.313.
Figura 5.6: Recorte de la tabla de la distribución Gamma estándar. Tomada de Wilks

(2006)
72
Para determinar el primer decil X10 en el caso que X ∼ Gam(1.55, 1.7) usamos la
Ecuación 5.20:
X10 = ξ10 · β = 0.313 · 1.7 = 0.5321
Luego, X10 = 0.532.
5.3.4. Caso particular: ¿cómo tratar los 0 en las observaciones

de precipitación?
La precipitación, principalmente en escala diaria, puede registrar varias observaciones en
0 mm., es decir, sin lluvia. La distribución Gamma no puede representar este tipo de
ocurrencias (pues en X = 0 hay una asíntota si α ≤ 1 o f (X = 0) = 0 si α > 1), y por
esto la probabilidad de los eventos de no-lluvia se deben tratar en forma separada.
De esta forma, los valores de 0 mm. se excluyen del cálculo para estimar α y β. Se define
el parámetro q como la probabilidad de que no llueva, y se estima como
n0 número de observaciones sin lluvia

q= =
N total de observaciones
Para el resto de los cálculos se utiliza n = N − n0 , que representa el número de observa-
ciones distintas a 0 mm.
Esta situación se puede representar con el diagrama de Venn que se muestra en la Figura
5.7. Todas las observaciones forman el espacio muestral (representado por el rectángulo
negro), y un conjunto de esas observaciones son en las cuales se registró lluvia (círculo
azul). Dentro de las observaciones de lluvia existen algunas en las que la precipitación
medida superó los 50 mm. (círculo relleno con verde). En este caso, entonces:
P (no lluvia) = q
P (lluvia) = 1 − q
La distribución de probabilidad en el conjunto lluvia es la que se aproxima con una función

de densidad de probabilidad Gamma.
Figura 5.7: Diagrama de Venn para observaciones de lluvia/no-lluvia.
73
Si sabemos que llovió y queremos determinar la probabilidad de que la lluvia haya sido
superior a 50 mm. buscamos:
P (pp>50 mm.|lluvia)
donde lluvia es el evento que condiciona para indicar cuál es la distribución de probabilidad
(p.e., Gamma con tal y cuál parámetros α y β). Sin embargo, si desconocemos si va a llover
o no y quisiéramos determinar la probabilidad de que llueva más de 50 mm., deberíamos
buscar:
P (pp>50 mm. ∩ lluvia) = P (pp>50 mm.|lluvia) · P (lluvia)
74
Capítulo 6
Inferencia estadística
6.1. Intervalos de confianza

Los intervalos de confianza permiten, en vez de estimar un parámetro poblacional (como µ)
puntualmente (con x̄ en este caso), dar un conjunto de valores posibles para el parámetro
poblacional, un intervalo de valores. Para calcular un intervalo de confianza se debe fijar
de antemano un nivel de confianza. Una confianza del 95 % se interpreta como que si
tomara 100 muestras de la población en estudio y con cada una construyera un intervalo
de confianza, entonces 95 de esos intervalos contendrían al parámetro de la población que
está siendo estimado. Para aumentar la confianza entonces tiene que aumentar el ancho
del intervalo, pues si estimamos que el parámetro está en un intervalo muy grande seguro
podremos decirlo con una confianza alta. Sin embargo, aumentar el ancho del intervalo
baja la precisión de la estimación, y entonces la información deja de ser útil. Se deben
entonces balancear la confianza y la precisión para buscar intervalos de confianza.
6.1.1. Intervalo de confianza para la media poblacional

Dada una variable aleatoria X ∼ N (µ, σ), si se toman J muestras, cada una con media
X̄1 , X̄2 , . . . X̄J , entonces por el teorema central del límite, el conjunto de medias muestrales
X̄ ∼ N (µ, √σn ). Usaremos este resultado para estimar los intervalos de confianza para
µ.
Sean n la cantidad de datos disponibles, µ la media poblacional, σ el desvío estándar

poblacional, α la significancia (α = 1 − confianza), X la media muestral, s el desvío
estándar muestral, sc el desvío estándar muestral corregido, z la variable asociada a una
distribución Normal estándar y sea zα/2 el valor de z tal que P (Z > zα/2 ) = α/2 y
P (Z < −zα/2 ) = α/2 (ver Figura 6.1).
75
Figura 6.1: Definición de zα/2
Muestras grandes
Si n ≥ 30 y σ es conocido, el intervalo de confianza de 100(1 − α) % para la media µ de

la población es
!
σ σ
X − zα/2 · √ , X + zα/2 · √ (6.1)
n n
Si n ≥ 30 y σ es desconocido, σ puede estimarse insesgadamente por sc y el intervalo de

confianza de 100(1 − α) % para la media µ de la población es
!
sc sc
X − zα/2 · √ , X + zα/2 · √ (6.2)
n n
donde el desvío muestral corregido se define como:

v 2
uP
u n − X̄
t i=1 Xi
sc = (6.3)
n−1
Usando que
√
s n
sc = √ (6.4)
n−1
el intervalo de confianza (6.2) puede reescribirse como

!
s s
X − zα/2 · √ , X + zα/2 · √ (6.5)
n−1 n−1
76
√ √
Dado que se está trabajando con muestras grandes, se puede considerar que n−1∼ n
y entonces aproximar el intervalo de confianza (6.5) por
!
s s
X − zα/2 · √ , X + zα/2 · √ (6.6)
n n
De esta forma, los intervalos de confianza (6.2) y (6.5) son equivalentes, y ambos pueden
ser aproximados por (6.6).
Muestras chicas
Si n < 30, X ∼ N y σ es conocido, el intervalo de confianza de 100(1 − α) % para la

media µ de la población es
!
σ σ
X − zα/2 · √ , X + zα/2 · √ (6.7)
n n
Si n < 30, X ∼ N y σ es desconocido, el intervalo de confianza de 100(1 − α) % para la

media µ de la población es
!
sc sc
X − tα/2 · √ , X + tα/2 · √ (6.8)
n n
donde t es la variable asociada a una distribución t-student con grados de libertad ν =

n−1. Los valores críticos tα/2 se interpretan análogamente a los valores críticos zα/2 .
Ejercicio 17
Se toma una muestra de 40 datos de precipitación diaria en una localidad del oeste
de La Pampa, para la que se obtiene una media de 5.426 mm. El desvío estándar
poblacional, σ, para esa localidad es de 0.1 mm. ¿A qué intervalo pertenece la media
de la población con un 90 % de confianza? ¿Y con un 95 % de confianza?
Resolución 17
Los datos que conocemos son: n = 40 (cantidad de datos), X̄ = 5.426mm (la media de
esos 40 datos), y el desvío estándar poblacional σ = 0.1mm. Buscamos el intervalo de
confianza al 90 %, luego α = 0.1. Dado que n es grande y se conoce el desvío estándar
poblacional, usaremos el intervalo de confianza definido en (6.1). Nos resta definir el
valor de zα/2 tal que
77
Buscamos por tabla (o con el software que prefieran) −zα/2 tal que P (Z < −zα/2 ) =
0.05. Luego, −zα/2 = −1.645. Por simetría de la distribución Normal estándar, zα/2 =
1.645. Entonces, reemplazando en (6.1),
0.1 0.1
!
µ∈ 5.426 − 1.645 · √ , 5.426 + 1.645 · √
40 40
⇒ µ ∈ (5.40, 5.452) con un 90 % de confianza
Si quisiéramos el intervalo de confianza al 95 %, α = 0.05 y α/2 = 0.025. El resto de

los valores se mantiene y el procedimiento es similar:
Por tabla (o con el software que prefieran) −zα/2 tal que P (Z < −zα/2 ) = 0.025.
Luego, −zα/2 = −1.96. Por simetría de la distribución Normal estándar, zα/2 = 1.96.
Entonces, reemplazando en (6.1),
0.1 0.1
!
µ∈ 5.426 − 1.96 · √ , 5.426 + 1.96 · √
40 40
78
Ejercicio 18
Se tienen los totales mensuales de precipitación del mes de enero de la Estación Las
Lomitas, estos son: 254,2, 248,3, 241,8, 245,4, 235,5 y 247,1. Asumir que la distribución
de la precipitación originalmente tiene una distribución Normal.
a) Hallar el intervalo de confianza de 95 % para µ.
b) Hallar el intervalo de confianza para el 99 % para µ. ¿Qué diferencia encuentra si
compara este intervalo con el obtenido en el punto (a)?
c) Si no conociera la distribución de precipitación, ¿podría encontrar el intervalo de
confianza para la µ?
Resolución 18
En este problema, X ∼ N ormal, n = 6 y no se conoce σ.
a) Para determinar el intervalo de confianza para µ al 95 % usamos el intervalo de

confianza expresado en (6.8). En este caso, X̄ ∼ t(ν = 5). Necesitamos calcular X̄ y
sc .
1X 6
254.2 + 248.3 + 241.8 + 245.4 + 235.5 + 247.1
X̄ = Xi = = 245.38
6 i=1 6
v
u 6 (X − 245.38)2
uP
i
sc = t i=1
= 6.32
6−1
Resta ahora calcular los valores críticos tα/2 cuando t tiene 5 grados de libertad.
Buscamos en la tabla de la distribución t (o con algún software) tα/2 tal que P (t >
tα/2 ) = 0.025. Luego, tα/2 = 2.571. Por simetría de la distribución t, −tα/2 = −2.571.
Entonces, reemplazando en (6.8),
79
6.32 6.32
!
µ ∈ 245.38 − 2.571 · √ , 245.38 + 2.571 · √
6 6
b) Para determinar el intervalo de confianza para µ al 99 % sólo debemos recalcular

tα/2 . Buscamos en la tabla de la distribución t (o con algún software) tα/2 tal que
P (t > tα/2 ) = 0.005. Luego, tα/2 = 4.032. Por simetría de la distribución t, −tα/2 =
−4.032. Entonces, reemplazando en (6.8)
6.32 6.32
!
µ ∈ 245.38 − 4.032 · √ , 245.38 + 4.032 · √
6 6
Notemos que la confianza aumentó, pero la precisión del intervalo bajó (el intervalo es
más ancho).
c) Si no hubiera conocido la distribución de precipitación no habría podido calcular

un intervalo de confianza porque no se conoce el desvío estándar de la población (σ).
6.1.2. Intervalo de confianza para la varianza poblacional

(n − 1)s2c
Sea una variable cX ∼ N (µ, σ), entonces la variable tiene una distribución
σ2
ji-cuadrado (χ2 ) con ν = n − 1 grados de libertad. La distribución ji-cuadrado es asimé-
trica (con asimetría positiva) y está definida sólo para valores positivos. Un intervalo de
confianza de 100(1 − α) % para la varianza σ 2 de una población Normal es
 
(n − 1)s2c (n − 1)s2c 
 , 2 (6.9)
χ2α/2,ν χ1−α/2,ν
que usando (6.4) es equivalente a

 
ns2 ns2 
 , (6.10)
χ2α/2,ν χ21−α/2,ν
con ν = n − 1 grados de libertad y donde los valores críticos χ21−α/2,ν y χ2α/2,ν represen-
tan
80
Figura 6.2: Definición de χ21−α/2,ν y χ2α/2,ν
Ejercicio 19
Sea una muestra de 30 datos de temperatura cuya distribución es normal y su sc =
2, 5°C, obtener el intervalo de confianza para la varianza poblacional al 90 %.
Resolución 19
En este problema, X ∼ N ormal, n = 30 (ν = 29) y sc = 2.5◦ C. Para buscar el

intervalo de confianza para la varianza poblacional al 90 % usando la expresión (6.9),
sólo resta calcular χ21−0.05,29 y χ20.05,29 usando la tabla para la distribución Ji-cuadrado
con grados de libertad ν = 29 o el software que prefieran.
Para buscar χ20.95,29 en la tabla buscamos χ2 tal que P (χ2 > χ20.95,29 ) = 0.95. Entonces,
χ20.95,29 = 17.708. De forma similar, buscamos χ2 tal que P (χ2 > χ20.05,29 ) = 0.05.
Entonces, χ20.05,29 = 42.557. Ahora reemplazamos en (6.9),
81
29 · 2.52 29 · 2.52
!
2
σ ∈ ,
42.557 17.7082

⇒ σ 2 ∈ 4.258◦ C 2 , 10.235◦ C 2 con un 90 % de confianza
Y se sigue que el intervalo de confianza para el desvío estándar de la población es
σ ∈ (2.06◦ C, 3.20◦ C) con un 90 % de confianza
6.2. Pruebas de hipótesis

Hasta ahora la estimación de un parámetro de la población (por ejemplo, µ) se hizo de
forma puntual o por un intervalo de posibles valores (los intervalos de confianza). En el
caso de las pruebas de hipótesis el objetivo no es estimar un valor, sino decidir cuál es la
correcta entre dos hipótesis contradictorias sobre un parámetro poblacional.
Para plantear una prueba de hipótesis (o test de hipótesis) es necesario definir:

Hipótesis nula (H0 ): es la afirmación que se supone cierta, la creencia a priori.
Hipótesis alternativa (Ha ): es la afirmación contradictoria a H0 , formulada con sus-
tento científico y nunca en base a la evidencia de una muestra en particular.
Estadístico de prueba: es una expresión en función de los datos muestrales en la que
se basa la decisión de la prueba de hipótesis.
Nivel de significancia (α): se utiliza para determinar la confianza de la prueba.
Región de rechazo: es el conjunto de los valores del estadístico de prueba para los
cuales H0 será rechazada.
La hipótesis nula será rechazada en favor de la hipótesis alternativa sólo si la evidencia
muestral sugiere que H0 es falsa. Si la muestra no contradice fuertemente a H0 entonces se
seguirá creyendo que la hipótesis nula es cierta. De esta forma, las dos posibles conclusiones
de una prueba de hipótesis son rechazar H0 o no rechazar H0 .
Sea θ un parámetro de la población, el planteo para una prueba de hipótesis comienza

definiendo la hipótesis nula: H0 : θ = θ0 . La hipótesis alternativa puede ser una entre
tres:
Ha : θ > θ0
Ha : θ < θ0
Ha : θ 6= θ0
De acuerdo a la hipótesis alternativa planteada quedan definidas las zonas de rechazo de

la hipótesis nula. Si el estadístico de prueba tuviera una distribución Normal, las regiones
de rechazo según Ha y dado α serían las ejemplificadas en la Figura 6.3.
82
(a) Ha : θ > θ0 define un test a (b) Ha : θ < θ0 define un test a (c) Ha : θ 6= θ0 define un test a
cola derecha. La zona de rechazo cola izquierda. La zona de rechazodos colas. La zona de rechazo para
para el estadístico de prueba X es para el estadístico de prueba X es el estadístico de prueba X es
R = {X/X > XR } R = {X/X < XR } R = {X/X < XR1 ∪ X > XR2 }
Figura 6.3: Posibles zonas de rechazo para una prueba de hipótesis
Pasos para plantear una prueba de hipótesis

1) Determinar el parámetro de interés.
2) Establecer el valor nulo del parámetro, esto es, la hipótesis nula.
3) Establecer la hipótesis alternativa adecuada.
4) Dar la fórmula para el estadístico de prueba.
5) Establecer la significancia de la prueba (α).
6) Definir la zona de rechazo según la distribución del estadístico de prueba, la hipó-
tesis alternativa y la significancia.
7) Calcular el estadístico de prueba usando los datos de una muestra.
8) Determinar si la hipótesis nula debe ser rechazada y concluir.
Elegir qué tipo de prueba de hipótesis usar es la parte más importante para resolver
adecuadamente los problemas. En las próximas secciones se plantean los estadísticos de
prueba y su distribución para pruebas de hipótesis basadas en una muestra para la media
(µ), para pruebas de hipótesis basadas en dos muestras (para la media µ y la varian-
za σ 2 ) y para determinar la bondad de ajuste de una distribución teórica a los datos
disponibles.
6.2.1. Pruebas de hipótesis para µ

Sean n la cantidad de datos disponibles, µ la media poblacional, σ el desvío estándar
poblacional, α la significancia, X la media muestral, s el desvío estándar muestral, sc
el desvío estándar muestral corregido, z la variable asociada a una distribución Normal
estándar y t la variable asociada a una distribución t-student. El estadístico de prueba
para probar Ho : µ = µ0 se define según los siguientes casos.
Muestras grandes
83
Si n ≥ 30 y σ es conocido, el estadístico de prueba es
X −µ
z= ∼ N (0, 1) (6.11)
√σ
n
Si n ≥ 30 y σ es desconocido, σ puede estimarse insesgadamente por sc y el estadístico

de prueba es
X −µ X −µ X −µ
z= sc = ' ∼ N (0, 1) (6.12)
√ √s √s
n n−1 n
Muestras chicas
Si n < 30, X ∼ N y σ es conocido, el estadístico de prueba es
X −µ
z= ∼ N (0, 1) (6.13)
√σ
n
Si n < 30, X ∼ N y σ es desconocido, el estadístico de prueba es
X −µ
t= sc ∼ t(ν = n − 1) (6.14)
√
n
6.2.2. Errores en las pruebas de hipótesis

def.: Error de tipo I (α) es el que se comete al rechazar H0 cuando es verdadera.
def.: Error de tipo II (β) es el que se comete al no rechazar H0 cuando es falsa.
Para entender el concepto del error de tipo II trabajaremos con el siguiente ejemplo de
una prueba de hipótesis.
Ejemplo 12
Se tiene que la temperatura (notaremos con X) sigue una distribución Normal con
media 20◦ C y se quiere evaluar si la media es en realidad menor a 20◦ C con una
confianza del 95 %. La prueba de hipótesis propuesta es:
H0 : µ = 20◦ C
Ha : µ < 20◦ C
α = 0.05
Supongamos que trabajaremos con una muestra de datos grande y entonces el estadís-
84
tico de prueba es z ∼ N (0, 1). Dada la Ha propuesta, la prueba es una prueba a cola
izquierda, y entonces el zR = −1.645 define la zona de rechazo ZR = {z/z < zR }.
Consideremos ahora que a partir del zR des-estandarizamos y encontramos que el

valor de X̄ crítico es de 18◦ C (Fig. 6.4). Esto significa que si tomamos una muestra
de la población y le calculamos la media, si esa media resulta menor a 18◦ C vamos a
rechazar H0 y si la media muestral resulta mayor a 18◦ C no podemos rechazar H0 .
Figura 6.4: Zona de rechazo para X̄
Digamos que H0 era falsa, porque en realidad µ no vale 20◦ C sino algún valor menor
(ya que tiene que ser consistente con la hipótesis alternativa). La probabilidad de no
rechazar H0 con la prueba de hipótesis diseñada, esto es, la probabilidad de tomar una
muestra y que la media de esa muestra sea mayor a 18◦ C, constituye un error, el error
de tipo II.
Para calcular el error de tipo II es necesario establecer cuál sería el valor verdadero del
parámetro poblacional de interés, en este caso, de µ. Esto significa que habrá infinitos
β ya que hay infinitos valores posibles para µ que son consistentes con la hipótesis
alternativa µ < 20◦ C. Tomemos como ejemplo que el valor verdadero de µ sea 19◦ C.
Entonces, para buscar β(19) debemos calcular la probabilidad de tomar una muestra
de la población y que esta muestra no me permita rechazar la H0 , que en este caso
significa que la media de la muestra resulte mayor a 18◦ C. Estas probabilidades están
sombreadas en la Figura 6.5.
El área sombreada en la distribución con media 19◦ C, β(19) (Fig. 6.5), representa
entonces cuál es la probabilidad de sacar una muestra de la población verdadera, y
que la media de esa muestra sea mayor a 18◦ C. En este caso estamos suponiendo que
la verdadera media poblacional es de 19◦ C, y por eso calculamos la probabilidad de
que la media de la muestra sea mayor a 18◦ C a partir de esa distribución.
En otras palabras, si la población sigue una distribución normal con media 19◦ C, la
probabilidad de sacar una muestra cuya media sea mayor a 18◦ C –y esa muestra no
me permite rechazar H0 (µ = 20◦ C) cuando es falsa (porque µ = 19◦ C)- es β(19).
85
Figura 6.5: Zona de rechazo para X̄ y error de tipo II: β(19)
Consideremos ahora otro valor verdadero posible para µ consistente con Ha : 16◦ C.
Si la población sigue una distribución normal con media µ = 16◦ C, la probabilidad
de sacar una muestra cuya media sea mayor a 18◦ C –y esa muestra no me permite
rechazar H0 (µ = 20◦ C) cuando es falsa (porque µ = 16◦C)- es β(16). En este caso el
error de tipo II es bastante menor que en el caso anterior, porque la probabilidad de
que la media muestral sea mayor a 18◦ C cuando la media poblacional es 16◦ C es baja
(ver Fig. 6.6).
Figura 6.6: Zona de rechazo para X̄ y error de tipo II: β(16)
86
¿Por qué el error de tipo II se reduce cuando el valor verdadero de µ propuesto se

aleja mucho del propuesto en la hipótesis nula? Sigamos usando el mismo ejemplo
de prueba de hipótesis para ilustrar. Cuanto más grande es la diferencia entre µ0 y
µa , más chico es β(µa ). Yendo a un caso extremo, supongamos que la media de la
población no era 20◦ C, sino 5◦ C. Imaginen qué tan baja sería la probabilidad de que
tomemos una muestra de esa población (población cuya µ = 5◦ C) y que la media de
la muestra (X̄) sea mayor a 18◦ C: ¡la probabilidad de no rechazar H0 –que es falsa-
sería igual de baja! Y eso implica un error de tipo II bajo.
Para completar el razonamiento, pensemos qué pasaría si, en cambio, H0 es falsa
porque µ = 19.8◦ C (y no 20◦ C). Si tomamos una muestra de la población, cuya media
poblacional es 19.8◦ C, la probabilidad de que la media de esa muestra sea mayor
a 18◦ C sigue siendo casi tan alta como cuando la media es de 20◦ C y entonces la
probabilidad de no rechazar H0 es muy alta (cerca de 1 − α).
En otras palabras, si la población sigue una distribución normal con media 19.8◦ C, la
probabilidad de sacar una muestra cuya media sea mayor a 18◦ C –y esa muestra no
me permite rechaza rH0 (µ = 20◦ C) cuando es falsa (porque µ = 19.8◦C)- es β(19.8).
En este caso el error de tipo II es muy alto y se acerca a 1 − α (Fig. 6.7).
Figura 6.7: Zona de rechazo para X̄ y error de tipo II: β(19.8)
87
Ejercicio 20
Las temperaturas de la superficie del mar para un punto en el Océano Atlántico
responden a una distribución Normal. Se sabe que la media poblacional para el valor
medio de julio es 18°C. En el año 2004 se extrajo la siguiente muestra
Día Temperatura (°C) Día Temperatura (°C)

1 18,5 17 18,2
2 18,2 18 18,2
3 18,3 19 18
4 17,9 20 17,7
5 17,6 21 17,4
6 17 22 17,3
7 16,8 23 17,5
8 17,1 24 17,4
9 17,4 25 17,2
10 17,4 26 16,9
11 17,6 27 17,1
12 17,7 28 17,2
13 17,9 29 17,2
14 18,1 30 17,3
15 18,3 31 17,5
16 18,4
a) Los oceanógrafos piensan que el océano podría estar enfriándose por alguna causa
desconocida. ¿Qué podría decir al respecto?
b) ¿Cuál es el error se cometería si la muestra perteneciera a una población con µ =
17°C y no se rechazara la hipótesis nula?
c) Encuentre un intervalo de confianza para la varianza poblacional.
Resolución 20
a) Trabajaremos en este ejemplo con la temperatura de la superficie del mar en un

punto del Océano Atlántico para el mes de julio (T ). Se sabe que T sigue una distri-
bución Normal con µ = 18◦ C. Se piensa que el océano puede estar enfriándose por
una causa desconocida, por lo que plantearemos una prueba de hipótesis para evaluar
si esto es cierto. Seguiremos los pasos detallados en la introducción de la Sección 6.2
para hacerlo.
(1) El parámetro de interés es la media.
(2) Lo que se sabe a priori es que la media de T es 18◦ C, por lo que esa será la hipótesis
88
nula:
H0 : µ = 18◦ C
(3) Dado que los oceanógrafos creen que el océano se está enfriando y que eso indicaría
una disminución en la temperatura media, proponemos la hipótesis alternativa
Ha : µ < 18◦ C
(4) Dado que contamos con una muestra grande de datos (n = 31) y que no conocemos
σ, el estadístico a usar es el dado en la ecuación 6.12:
T −µ
z= ∼ N (0, 1)
√s
n
(5) Como el problema no fija una significancia, la definimos nosotros. Consideremos

α = 0.05.
(6) Definimos la región de rechazo dada la hipótesis alternativa (prueba a cola izquier-
da), la distribución de probabilidad del estadístico de prueba (Normal estándar) y la
significancia (0.05).
De esta forma, buscamos en la tabla de probabilidades de la distribución Normal, o

usando algún software, el valor de zR : zR es tal que P (Z < zR ) = 0.05. Entonces,
zR = −1.645 y la zona de rechazo es: ZR : {z/z < −1.645}.
(7) Utilizamos la muestra que nos da el ejercicio para calcular el estadístico de prueba.
Previamente se debe calcular la media (T̄ = 17.62) y el desvío (s = 0.473).
T −µ 17.62 − 18
z= = = −4.47 ∈ ZR
√s 0.473
√
n 31
89
(8) Como el estadístico de prueba cae en la zona de rechazo, entonces rechazamos la

hipótesis nula en favor de la alternativa con un 95 % de confianza, y de esta forma, la
hipótesis de los oceanógrafos podría ser cierta con una confianza del 95 %.
b) Para ilustrar mejor este ítem, lo resolveremos para Ha : µ = 17.7. Ustedes pueden
repetir el procedimiento para Ha : µ = 17. Si la muestra perteneciera a una población
de µ = 17.7◦ C y no se rechazara la hipótesis nula el error que se estaría cometiendo
sería β(17.7).
Comencemos por buscar qué valor de T̄ define la zona de rechazo des-estandarizando

el estadístico de prueba para el valor crítico zR = −1.645.
s 0.473
T̄R = zR · √ + µ = −1.645 · √ + 18 = 17.86
n 31
Esto significa que cualquier muestra cuya T̄ sea menor a 17.86 nos permitiría rechazar
la hipótesis nula. Para encontrar β(17.7) entonces debemos calcular la probabilidad de
tomar una muestra de una población cuya µ = 17.7 y que la media de la muestra no
me permita rechazar H0 . Indiquemos esto en un gráfico. En la Figura 6.8 se muestra
en negro la distribución Normal con media µ = 18 que es la que considera cierta la
hipótesis nula. En rojo se marca la zona de rechazo. Luego, la zona de no rechazo
serían todas las T̄ mayores a 17.86. Se muestra además, en azul, la distribución de
probabilidades si la media poblacional fuera en realidad 17.7. De esta forma, la proba-
bilidad de tomar una muestra de esa población y que su media (T̄ ) sea mayor a 17.86
está sombreada en celeste, y ese área indica β(17.7).
Figura 6.8: Ilustración del error de tipo II para el ejercicio adicional 7
β(17.7) = P (no rechazar H0 dado que es falsa)
90
0.473
!!
β(17.7) = P T̄ > 17.86|T̄ ∼ N 17.7, √
31
 
 17.86 − 17.7 
β(17.7) = P 
z >
0.473  = P (z > 1.883) = 0.0298

√
 
31
Luego, el error que se comete si no se rechaza la hipótesis nula y la media de la

población es en realidad 17.7◦ C es del 3 %.
6.2.3. Pruebas de hipótesis basadas en dos muestras

En esta sección se discuten pruebas de hipótesis para parámetros de dos distribuciones
de población diferentes. De esta forma se pueden evaluar hipótesis contradictorias sobre
la relación entre esos parámetros.
Prueba de diferencia de medias poblacionales

Sean una muestra X1 ...Xn de tamaño n proveniente de una población con media µ1 y
varianza σ12 y otra muestra Y1 ...Yn de tamaño m proveniente de una población con media
µ2 y varianza σ22 , independientes entre sí. La prueba de hipótesis sobre la diferencia de
medias tiene como hipótesis nula
Ho : µ1 − µ2 = ∆0
y como hipótesis alternativa alguna entre las siguientes:
Ha : µ1 − µ2 > ∆0
Ha : µ1 − µ2 < ∆0
Ha : µ1 − µ2 6= ∆0
En general se busca evaluar si existe alguna diferencia entre las medias de las dos pobla-
ciones, y entonces se usa ∆0 = 0, pero la prueba de hipótesis también puede ser utilizada
para evaluar alguna diferencia particular entre dos medias. El procedimiento para resolver
estas pruebas de hipótesis es el mismo que se explicó en el recuadro de la introducción a
la Sección 6.2. Los estadísticos de prueba se definen según los siguientes casos, donde sc1
y sc2 notan los desvíos estándar corregidos de cada muestra.
Si las poblaciones son normales y sus varianzas conocidas, el estadísitico de prueba es
(X − Y ) − (µ1 − µ2 )
z= q ∼ N (0, 1) (6.15)
σ12 σ22
n
+ m
91
Si las muestras son grandes (n, m ≥ 30) y al menos una varianza poblacional es descono-
cida, σi puede estimarse aproximadamente por si y el estadístico de prueba es
(X − Y ) − (µ1 − µ2 )
z= q ∼ N (0, 1) (6.16)
s21 s22
n
+ m
Si las muestras son chicas (n < 30 o m < 30), las poblaciones tienen una distribución
Normal y las varianzas poblacionales son desconocidas, el estadístico de prueba es
(X − Y ) − (µ1 − µ2 )
t= q ∼ t(ν = mín(n, m) − 2) (6.17)
s2c1 s2c2
n
+ m
Si las muestras son chicas (n < 30 o m < 30), las poblaciones tienen una distribución
Normal y se puede asumir que las varianzas poblacionales de las distribuciones de las que
se tomaron las muestras son la misma (σ1 = σ2 ) , el estadístico de prueba es
(X − Y ) − (µ1 − µ2 )
t= q ∼ t(ν = n + m − 2) (6.18)
sp 1
n
+ 1
m
s
(n − 1)s2c1 + (m − 1)s2c2
donde sp = es el estimador del devío poblacional como la raíz
n+m−2
del promedio pesado de las varianzas muestrales. La ventaja de utilizar este estadístico
de prueba (Ec. 6.18) si se prueba que se puede asumir que σ1 = σ2 frente al estadístico de
prueba de la ecuación 6.17 es que se logran más grados de libertad. Al tener más grados de
libertad sería posible rechazar H0 con valores más bajos del estadístico de prueba evaluado
en los valores de las muestras disponibles. Esto se ilustra para un ejemplo en la Figura
6.9, donde se utilizó un α de 0.1, n = 30 y m = 4 para acentuar la diferencia.
Figura 6.9: Distribuciones t de Student con grados de libertad ν1 = 8 y ν2 = 32, junto

con las respectivas zonas de rechazo usando α = 0.1 sombreadas en celeste para t(ν2 ) y
en amarillo para t(ν1 ).
92
Prueba para las varianzas poblacionales

Sean una muestra X1 ...Xn de tamaño n proveniente de una población Normal con varianza
σ12 y otra muestra Y1 ...Yn de tamaño m proveniente de una población Normal con varianza
σ22 , independientes entre sí. La prueba de hipótesis sobre la relación entre las varianzas
poblacionales tiene como hipótesis nula
Ho : σ12 = σ22
y como hipótesis alternativa alguna entre las siguientes:
Ha : σ12 < σ22

Ha : σ12 > σ22
Ha : σ12 6= σ22
El estadístico de prueba se define como
s21 /σ12
f= ∼ F (ν1 = n − 1, ν2 = m − 1) (6.19)
s22 /σ22
La distribución F tiene dos parámetros, ν1 o los grados de libertad del numerados y ν2
o los grados de libertad del denominador. La función densidad de probabilidad F está
definida para valores positivos de la variable aleatoria y no es simétrica. En la Figura 6.10
se muestra un ejemplo para la distribución F con ν1 = ν2 = 15 grados de libertad y la
notación para los valores críticos que definen las zonas de rechazo si se realiza una prueba
de hipótesis a dos colas.
Figura 6.10: Distribución F con ν1 = ν2 = 15 y zonas de rechazo asociadas a una prueba

de hipótesis cuya Ha : σ12 6= σ22
prop.: Para encontrar el valor crítico a cola izquierda de la distribución F a partir de una
tabla que acumula probabilidad desde +ı́nf se puede utilizar la siguiente relación
1
F1−α,ν1 ,ν2 = (6.20)
Fα,ν2 ,ν1
93
Ejercicio 21
En una determinada localidad de la Pampa Húmeda se quiere estudiar la influencia
del fenómeno ENSO (El Niño Oscilación del Sur) en la precipitación anual. Para ello,
se cuenta con los totales anuales de 15 años y con un índice que permite discernir si
se trata de un año Niño o Niña. Los datos se encuentran en la tabla que se presenta
a continuación.
Fase ENSO NO NA NO NO NA NO NO NO NA NA NA NO NA NA NA
PP (mm) 1296 1256 1450 1258 1200 1156 1336 1459 1311 1126 1028 1300 1095 1201 1231
Suponiendo que la precipitación anual sigue una distribución Normal, ¿podría afirmar
que la precipitación anual en años Niño es significativamente mayor que en años Niña?
Utilizar un nivel de significancia del 5 %.
Resolución 21
En este ejercicio tenemos datos de precipitación anual para años Niño y Niña, que
dividen las dos muestras que buscaremos analizar. Habiéndolas separado, podemos
calcular la media y desvío de cada muestra, que utilizaremos más adelante.
Niño Niña
media x̄ = 1322.14 ȳ = 1181
desvío s1 = 99.68 s2 = 90.05
cantidad datos n=7 m=8
Queremos analizar si la precipitación promedio en años Niño es mayor a años Niña,

para lo que utiilzaremos una prueba de hipótesis de diferencia de medias. Como las
muestras son chicas, evaluaremos primero la relación entre las varianzas para deter-
minar el estadístico de prueba más adecuado para analizar las medias.
Ho : σ12 = σ22
Ha : σ12 6= σ22
El estadístico de prueba es
s21 /σ12
f= ∼ F (ν1 = 6, ν2 = 7)
s22 /σ22
Utilizaremos una significancia del 10 % para la prueba. Determinamos con esta infor-
mación la zona de rechazo:
94
Podemos buscar utilizando la tabla de la distribución F el valor Fα/2,ν1 ,ν2 = 3.87.

Luego, usando la propiedad (6.20), buscamos F1−α/2,ν1 ,ν2 .
1 1
F0.95,6,7 = = = 0.23
F0.05,7,6 4.21
Luego, la zona de rechazo es
ZR = {f /f ≥ 3.87 ∪ f ≤ 0.23}
Calculamos el estadístico de prueba utilizando los datos de las muestras:
s21 /σ12 s21 98.682

f= = = = 1.225 ∈
/ ZR
s22 /σ22 s22 90.052
Entonces, no puedo rechazar H0 con un 90 % de confianza. Luego, hasta no tener más

información puedo considerar que la varianza poblacional en ambas muestras es la
misma.
Con esta información planteamos ahora la prueba de hipótesis para las medias.
Ho : µ1 − µ2 = 0
Ha : µ1 − µ2 > 0
Elegimos esa Ha porque debemos decidir si la precipitación promedio anual en años

Niño es mayor que en años Niña. Para esta prueba de hipótesis tomamos un α = 0.05.
Como las muestras son chicas y podemos considerar que σ12 = σ22 por ĺa prueba recién
resuelta, el estadístico de prueba es
(x − y) − (µ1 − µ2 )
t= q ∼ t(ν = 7 + 8 − 2 = 13)
sp 1
n
+ 1
m
95
Dada la Ha , α y la distribución que sigue el estadístico de prueba, determinamos la

zona de rechazo:
Buscamos utilizando la tabla de t de Student o algún software el valor de tR como

aquel para el que P (t > tR ) = 0.05. Luego, la zona de rechazo es
ZR = {t/t > 1.771}
Podemos ahora calcular el estadístico de prueba con los datos de la muestra y resolver
la prueba de hipótesis
(x − y) − (µ1 − µ2 )
t= s
(n − 1)s2c1 + (m − 1)s2c2 q 1
+ 1
n+m−2 n m
(1322.14 − 1181) − (0) 141.14

t= s = = 2.751 ∈ ZR
(7 − 1)106.58 + (8 − 1)92.29
2 2q 51.31
1
+ 1
7+8−2 7 8
Entonces rechazamos H0 con un 95 % de confianza y la precipitación anual promedio

en años Niño es significativamente mayor a la precipitación anual promedio en años
Niña con un 95 % de confianza.
6.2.4. Bondad de ajuste

Las pruebas de bondad de ajuste se utilizan para evaluar si una distribución teórica se
ajusta a los datos de una muestra. El test es algo atípico porque el objetivo es juntar
evidencia a favor de H0 , que reflejaría que los datos fueron muestreados de la distribución
especulada. La hipótesis nula es entonces
Ho : la distribución teórica ajusta a los datos de la muestra
y como hipótesis alternativa:
Ha : la distribución teórica no ajusta a los datos de la muestra
96
Sean ni la frecuencia absoluta de cada clase, N el total de datos y pi la probabilidad

teórica de cada clase i y k la cantidad total de clases, el estadístico de prueba para la
prueba de hipótesis es
k
(ni − N pi )2
χ =
2
∼ χ2 (ν = k − l − 1) (6.21)
X
i=1 N pi
Cada término de la suma compara la frecuencia absoluta de una clase con la frecuencia
teórica de esa misma clase. Si la suma de todos los términos es pequeña, indicará que las
distribuciones se asemejan, mientras que si la suma es grande indicará que las distribucio-
nes no son similares y habría que rechazar H0 . Consecuentemente, esta prueba de hipótesis
es siempre a cola derecha. El valor l es la cantidad de parámetros de la distribución teórica
estimados a partir de la muestra.
obs.: No es necesario que las clases tengan el mismo ancho ni la misma probabilidad.
obs.: No es necesario para aplicar la prueba de hipótesis que N pi , la frecuencia teórica,

sea un valor entero.
obs.: Para aplicar esta prueba de hipótesis se debe cumplir que N pi ≥ 5 para cada
clase.
Pasos para plantear una prueba de bondad de ajuste

1) Elegir la distribución teórica que se quiere evaluar si ajusta a los datos y, si es
necesario, estimar los parámetros desconocidos utilizando la muestra.
2) Calcular la probabilidad teórica para cada clase siguiendo la distribución elegida.
3) Calcular la frecuencia teórica N pi
4) Verificar que todas las clases cumplan N pi ≥ 5. Si no, reagrupar clases y recalcular
las frecuencias observadas y teóricas.
5) Plantear la prueba de hipótesis: H0 , Ha , α, grados de libertad, zona de rechazo (a
cola derecha).
6) Calcular el estadístico de prueba.
97
7) Determinar si la hipótesis nula debe ser rechazada y concluir.
Ejercicio 22
En una localidad de la provincia de Buenos Aires se observó la siguiente tabla de
frecuencia de días con precipitación por semana (X):

Comparar estadísticamente la distribución observada con una distribución binomial.

Usar una significancia del 1 %.
Resolución 22
Se cuenta con la distribución observada de frecuencia de días con precipitación en una

semana y se pide comprar esta distribución de frecuencias con una distribución bino-
mial. La distribución binomial tiene dos parámetros, Bin(n, p). El n está determinado
por el experimento, en este caso n = 7. Como no sabemos qué p usar para comparar,
lo estimaremos a partir de la muestra. Considerando éxito a que un día se registre
lluvia,
cantidad de días en que llovió 9·0+5·1+2·2+3·3+1·4

p= = = 0.157
cantidad de días analizados 20 · 7
El próximo paso es calcular la probabilidad teórica siguiendo la distribución elegida

Bin(7, 0.157) y la frecuencia teórica multiplicando por el total de observaciones N =
20. Esto ya lo hicimos en el Ejercicio 11 en el Capítulo 3.
98
X b(x; 7, 0.157) P (X = x) Frec. teo. (N pi )

0 7
0
0.1570 0.8437 0.302 6.05

1 7
1
0.1571 0.8436 0.394 7.88

2 7
2
0.1572 0.8435 0.220 4.40

3 7
3
0.1573 0.8434 0.068 1.36

4 7
4
0.1574 0.8433 0.012 0.25

5 7
5
0.1575 0.8432 0.00142 0.02

6 7
6
0.1576 0.8431 0.00009 0.001

7 7
7
0.1577 0.8430 0.00000 4.7E-05
= 20
P
Ahora debemos verificar que cada clase cumpla N pi ≥ 5. Esto solo se cumple para
los primeros dos valores de X, por lo que debemos reagrupar las clases sumando las
frecuencias teóricas para X ≥ 2:
X frec. teo. (N pi ) frec. obs. (ni )

0 6.05 9
1 7.88 5
[2, 3, 4, 5, 6, 7] 6.07 6
= 20
P
Tenemos entonces todo lo necesario para plantear la prueba de bondad de ajuste.
Ho : la distribución Bin(7,0.157) ajusta a los datos de la muestra
Ha : la distribución Bin(7,0.157) no ajusta a los datos de la muestra
α = 0.01
En este problema sólo estimamos un parámetro de la distribución a partir de la muestra

y después de reagrupar nos quedaron tres clases. Calculamos los grados de libertad:
ν =k−l−1=3−1−1=1
99
Busquemos ahora la zona de rechazo dado α = 0.01 y los grados de libertad ν = 1.

Pueden usar la tabla o el software que prefieran. Recuerden que la prueba de bondad
de ajuste es siempre a cola derecha.
La zona de rechazo es entonces: ZR = {χ2 /χ2 > χ20.01,1 = 6.63}. Calculemos ahora el
estadístico de prueba.
3
(ni − N pi )2 (9 − 6.05)2 (5 − 7.88)2 (6 − 6.07)2
χ2 = = + + =
X
i=1 N pi 6.05 7.88 6.07

= 1.438 + 1.052 + 0 = 2.49 ∈
/ ZR
Como χ2 ∈ / ZR, no rechazo H0 con un 99 % de confianza. Luego, con la evidencia

disponible, no podemos afirmar que X no siga una distribución Bin(7, 0.157) con un
99 % de confianza.
100
Capítulo 7
Distribución de probabilidad
conjunta y correlación
7.1. Funciones de probabilidad

Cuando es de interés el comportamiento conjunto, en simultáneo, de dos variables aleato-
rias, se utilizan las funciones de probabilidad conjuntas para estudiarlas. Estas funciones
permiten luego estudiar el grado de asociación entre las variables. Así como en la práctica
2, trabajaremos con variables aleatorias discretas y continuas. Comenzamos definiendo las
funciones de probabilidad conjunta y las funciones de probabilidad marginales.
7.1.1. Variables discretas

def.: Función masa (o densidad) de probabilidad conjunta para dos variables aleatorias X
e Y, definidas en un espacio muestral S
p(x, y) = P (X = x, Y = y) = pxy (7.1)
prop.: p(x, y) ≥ 0 ∀ (x, y) por ser probabilidades, y p(x, y) = 1 por ser función de
P P
x y
probabilidad.
def.: Función masa (o densidad) de probabilidad marginal de X, es la probabilidad de que
X = x sin importar los valores de Y .
PX (x) = (7.2)
X
p(x, y)
y
def.: Función masa (o densidad) de probabilidad marginal de Y, es la probabilidad de que

Y = y sin importar los valores de X.
PY (y) = (7.3)
X
p(x, y)
x
101
prop.: Se dice que dos variables aleatorias discretas son independientes si por cada par de
valores (x, y) se cumple p(x, y) = PX (x)PY (y).
7.1.2. Variables continuas

def.: Sean X e Y dos variables aleatorias continuas, la función densidad de probabilidad
conjunta es
¨
P ((x, y) ∈ A) = f (x, y)dxdy (7.4)
A
´ +∞ ´ +∞
prop.: f (x, y) ≥ 0 ∀ (x, y) por ser probabilidades, y −∞ −∞
f (x, y)dxdy = 1 por ser
función de probabilidad.
def.: Función densidad de probabilidad marginal de X, es la función de densidad de

probabilidad X sin importar los valores de Y .
ˆ +∞
fX (x) = f (x, y)dy, −∞ ≤ x ≤ +∞ (7.5)
−∞
def.: Función densidad de probabilidad marginal de Y, es la función de densidad de

probabilidad Y sin importar los valores de X.
ˆ +∞
fY (y) = f (x, y)dx, −∞ ≤ y ≤ +∞ (7.6)
−∞
prop.: Se dice que dos variables aleatorias continuas son independientes si se cumple que
la función densidad de probabilidad es igual al producto de las funciones de densidad
marginales, esto es, f (x, y) = fX (x)fY (y).
7.2. Momentos de la distribución conjunta

Así como para las distribuciones de probabilidad de una sola variable, los momentos de las
distribuciones caracterizan a estas distribuciones y pueden calcularse respecto al origen o
respecto a las medias de cada variable.
7.2.1. Momentos centrados respecto al origen

def.: El momento centrado respecto al origen α de orden i + k, notado αik es

α ik = E xi y k (7.7)
Que para las variables aleatorias discretas es

αik = xi y k pxy (7.8)
X
x,y
102
y para las variables aleatorias continuas es

ˆ +∞ ˆ +∞
αik = xi y k f (x, y)dxdy (7.9)
−∞ −∞
Los momentos de primer orden respecto al origen son las medias de las variables: α10 =
E(x) = mx y α01 = E(y) = my . Los momentos de segundo orden respecto al origen son
tres, α11 = E(x, y), α20 = E (x2 ) y α02 = E (y 2 ).
7.2.2. Momentos centrados respecto a la media

def.: El momento centrado respecto a la media µ de orden i + k, notado µik es
h i
µik = E (x − mx )i (y − my )k (7.10)
Que para las variables aleatorias discretas es
µik = (x − mx )i (y − my )k pxy (7.11)

X
x,y
y para las variables aleatorias continuas es

ˆ +∞ ˆ +∞
µik = (x − mx )i (y − my )k f (x, y)dxdy (7.12)
−∞ −∞
El momento de segundo orden centrado respecto a la media µ11 se llama covarianza de la

distribución conjunta de X e Y , mientras que los momentos de segundo orden centrados
respecto a la media µ20 = σx2 y µ02 = σy2 son las varianzas.
7.2.3. Covarianza
def.: La covarianza de la distribución conjunta de X e Y , también notada como COV (X, Y ),
es
µ11 = E [(x − mx ) (y − my )] = α11 − mx my (7.13)
prop.: La covarianza es menor o igual al producto de los desvíos estándar, esto es, µ11 6
σx σy
La covarianza es una medida de qué tan fuertemente relacionadas están las dos variables
X e Y . Si valores grandes de X (esto es, valores de X mayores a la media µx ) ocurren
conjuntamente con valores grandes de Y (esto es, valores de Y mayores a la media µy ), y
valores chicos de X ocurren conjuntamente con valores chicos de Y (Fig. 7.1a), entonces
(x − mx ) y (y − my ) serán ambos positivos o ambos negativos, reflejando una relación
positiva fuerte. La covarianza sería entonces positiva.
Si valores grandes de X (esto es, valores de X mayores a la media µx ) ocurren conjunta-

mente con valores chicos de Y (esto es, valores de Y menores a la media µy ), y valores
103
chicos de X ocurren conjuntamente con valores grandes de Y (Fig. 7.1b), entonces (x−mx )
y (y − my ) serán uno positivos y el otro negativos, reflejando una relación negativa fuerte.
La covarianza sería entonces negativa. Si X e Y no están fuertemente relacionadas (Fig.
7.1c), la covarianza será cercana a cero.
Figura 7.1: Ejemplos de a) covarianza positiva; b) covarianza negativa; c) covarianza

cercana a cero.
Ejercicio 23
Dos líneas de producción fabrican artículos. Suponga que la capacidad es de 5 artículos
para la línea 1 y de 3 artículos para la línea 2. Sea (X,Y) la representación de la variable
aleatoria bidimensional que da el número de artículos producidos por la línea 1 y por
la línea 2, y la siguiente tabla las probabilidades p(X,Y).
X
0 1 2 3 4 5
0 0 0,01 0,03 0,05 0,07 0,09
1 0,01 0,02 0,04 0,05 0,06 0,08
Y
2 0,01 0,03 0,05 0,05 0,05 0,06
3 0,01 0,02 0,04 0,06 0,06 0,05
a) Verificar que sea una función de probabilidades.

b) Hallar las distribuciones marginales.
c) Evaluar si la cantidad de artículos que fabrica la línea 1 es independiente de la
cantidad de artículos que fabrica la línea 2.
d) Calcular la covarianza, Cov(X, Y ) = E(X, Y ) − E(X)E(Y )
Resolución 23
Dada esta función de probabilidad conjunta para las variables discretas (X, Y ), resol-
vemos.
104
a) Para verificar que esta es una función masa de probabilidad, la suma de todas las
probabilidades debe dar 1.
5 X
3
p(X, Y ) = 1
X
X=0 Y =0
Esto puede verificarse sumando todos los valores de probabilidad de la tabla.
b) Para hallar la función masa de probabilidad marginal de X, buscamos la probabi-

lidad de que X tome cada uno de sus valores posibles sin importar el valor de Y . En
la tabla, tendríamos que sumar cada una de las columnas.
Para hallar la función masa de probabilidad marginal de Y , buscamos la probabilidad

de que Y tome cada uno de sus valores posibles sin importar el valor de X. En la
tabla, tendríamos que sumar cada una de las filas.
X
0 1 2 3 4 5 PY (y)
0 0 0,01 0,03 0,05 0,07 0,09 0.25
1 0,01 0,02 0,04 0,05 0,06 0,08 0.26
Y
2 0,01 0,03 0,05 0,05 0,05 0,06 0.25
3 0,01 0,02 0,04 0,06 0,06 0,05 0.24
PX (x) 0.03 0.08 0.16 0.21 0.24 0.28 1
Al estar trabajando con funciones masa de probabilidad marginal, solamente podemos

expresarlas explícitamente. Por ejemplo, para PY (y),



0.25 si y = 0, 2
PY (y) =  0.26 si y = 1
 0.24 si y = 3

c) Para evaluar si las variables son independientes, quiero ver que p(x, y) = PX (x)PY (y)
vale para todas las combinaciones posibles de X e Y . Con encontrar un contraejemplo
es suficiente para demostrar que las variables no son independientes.
p(0, 0) = 0 6= PX (x = 0) · PY (y = 0) = 0.03 · 0.25
Luego, la cantidad de artículos que fabrica cada línea no son independientes entre sí.
d) Calculamos la covarianza Cov(X, Y ) = E(X, Y ) − E(X)E(Y ) = α11 − mx my
105
5 X
3
E(X, Y ) = x·y ·pxy = x·y ·P (X = x, Y = y) = 0·0·0+0·1·0.01+0·2·0.01+
X X
x;y x=0 y=0
+0 · 3 · 0.01 + · · · + 5 · 3 · 0.05 = 4.76
5
mx = α10 = x · PX (x) = 0 · 0.03 + 1 · 0.08 + 2 · 0.16 + 3 · 0.21 + 4 · 0.24 + 5 · 0.28 = 3.39
X
x=0
Análogamente,
3
my = α01 = y · PY (y) = 1.48
X
y=0
Entonces,
Cov(X, Y ) = 4.76 − 3.39 · 1.48 = −0.257
Ejercicio 24
Cada neumático delantero de un tipo particular de automóvil se llenará a una presión
de 26 lb/pulg2 . Suponga que la presión de aire de cada neumático es una variable
aleatoria, X para el neumático derecho e Y para el izquierdo, con una función de
densidad de probabilidad:



 k(X 2 + Y 2 ) 20 ≤ X ≤ 30, 20 ≤ Y ≤ 30
f (X, Y ) =
0

en otro caso


a) ¿Cuál es el valor de k?
b) ¿Cuál es la probabilidad de que ambos neumáticos tengan menor presión que la
requerida?
c) Determine la distribución marginal de la presión del aire del neumático derecho.
d) ¿Son X e Y variables aleatorias independientes?
Resolución 24
Dada esta función de probabilidad conjunta para las variables continuas (X, Y ), re-
106
solvemos.
a) Dado que esta función es una función densidad de probabilidad, la integral en todo
el dominio debe dar 1 y así podemos despejar k.
ˆ +∞ ˆ +∞ ˆ 30 ˆ 30 ˆ 30
"
x3 30
1= f (x, y)dxdy = k x +y2 2
dxdy = k + y 2 x dy =
−∞ −∞ 20 20 20 3 20
ˆ ˆ
30
8000 30
19000

= k 9000 + 30y − − 20y 2 dy =
2
k + 10y 2 dy =
20 3 20 3
30
19000 y 3 19000 27000 19000 8000

=k y + 10 = k · 30 + 10 · − · 20 − 10 · =
3 3 20 3 3 3 3
20 380000 3
=k 19000 = k⇒k=
3 3 380000
b) P (X ≤ 26, Y ≤ 26)?
ˆ 26 ˆ 26 ˆ 26 ˆ 26 ˆ 26
"
x3 26
f (x, y)dxdy = k x2 + y 2 dxdy = k + y 2 x dy =
−∞ −∞ 20 20 20 3 20
ˆ 26 26 3
= k 3192 + 6y 2 dy = k 3192y + 2y 3 = k · 38304 = · 38304 = 0.3024

20
20 380000
La probabilidad de que ambos neumáticos tengan menor presión que la requerida es

30.24 %.
c) La función de probabilidad marginal del neumático derecho sería fX (x).
ˆ +∞ ˆ 30
!30
y3
fX (x) = f (x, y)dy = k x +y2 2
dy = k x y + 2
=

3

−∞ 20

20
19000 3 19000 3x2 1

= k 10x + =2
10x2 + = +
3 380000 3 38000 20
d) Para determinar la independencia, buscamos primero fY (y), análogamente a como

encontramos fX (x).
107
3y 2 1
fY (y) = +
38000 20
3x2 1 3y 2 1 1 1
! !
fX (x) · fY (y) = + · + = 10kx +
2
· 10ky 2 + =
38000 20 38000 20 20 20
k k 1
= 100k 2 x2 y 2 + x2 + y 2 + 6= f (x, y)
2 2 400
Luego, X e Y , la presión de los neumáticos de cada lado, no son independientes.
7.3. Coeficiente de correlación

El defecto de la covarianza es que su valor calculado depende críticamente de las unidades
de medición. Para que la selección de las unidades no tenga efecto en la medida de la
fuerza de la relación es necesario aplicar una escala a la covarianza. La solución es el
coeficiente de correlación.
def.: El coeficiente de correlación entre X e Y , notado Corr(X, Y ), ρXY o simplemente

ρ, es
µ11 COV(X, Y )
ρ= = (7.14)
σx σy σx σy
prop.:
−1 ≤ ρ ≤ 1
ρ = 0 es equivalente a decir que no hay correlación lineal entre X e Y
Si X e Y son independientes ⇒ no están correlacionadas ( 6⇐)
ρ = 1 o ρ = −1 ⇐⇒ Y = bX + a con b 6= 0, es decir, existe una relación lineal
perfecta entre las variables.
Si dos variables tienen un coeficiente de correlación positivo, se dice que la relación entre
ellas es directa, esto es, que a mayores valores de una variable, también mayores valores
de la otra. En cambio, si dos variables tienen un coeficiente de correlación negativo, la
relación entre ellas es indirecta, esto es, que a mayores valores de una variable se tienen
menores valores de la otra; cuando una aumenta, la otra disminuye.
7.4. Regresión mínimo cuadrática

Sean x la variable independiente (predictor) e y la variable dependiente (predictando), y ∗
la variable y estimada a partir de la recta y ∗ = bx + a y el error ei = yi − yi∗ , la teoría de
108
cuadrados mínimos intenta minimizar el error al cuadrado buscando la recta que mejor
aproxime a los datos. Un ejemplo se muestra en la Figura 7.2.
Figura 7.2: Ilustración de una recta de regresión ajustada por cuadrados mínimos. Los
puntos negros marcan los datos (xi , yi ), la línea azul la recta de regresión, los puntos
azules los valores de yi∗ . La distancia entre los valores de yi y yi∗ es ei y se representa con
las líneas rojas a guiones.
Las constantes b y a se obtienen de a partir de los datos y son
( xi )( yi )
P P
xi y i −
P i
Sxy
b= N
= (7.15)
( xi )
2
Sxx
P
P 2
x i − N
a = y − bx (7.16)
donde Sxx , Syy y Sxy se llaman sumas de cuadrados y son
Sxx = (x − x)2 (7.17)

X
Syy = (y − y)2 (7.18)

X
Sxy = (x − x)(y − y) (7.19)

X
def.: El coeficiente de correlación lineal, r, expresa el grado de aproximación de los puntos

(xi , yi ) del diagrama de dispersión a la recta de regresión, y se define como
(xi − x) (yi − y)
Pn
r = qP i=1
(7.20)
i=1 (xi i=1 (yi − y)
n Pn 2
− x)2
109
Reescribiendo
q usando las sumas de cuadrados, los desvíos estándar de x y de y, sx =
q
Sxx /N sy = Syy /N y definiendo sxy = Sxy /N ,
(xi − x) (yi − y)
1 Pn
Sxy Sxy /N Sxy /N sxy
r=q = √ =q q = = N i=1
(7.21)
Sxx Syy Sxx Syy
√ √
Sxx Syy sx sy sx sy
N N N N
A partir de las expresiones (7.15) y (7.21) se puede encontrar que hay una relación entre
la pendiente de la recta de regresión y el coeficiente de correlación:
√
Sxx sx
r =b· q =b· (7.22)
Syy sy
donde se usó la definición de los desvíos estándar mencionada arriba. Dado que los desvíos
estándar son siempre positivos, esto muestra que el signo del coeficiente de correlación
es el mismo que el de la pendiente de la recta de regresión. Dos variables que tienen
una relación directa tienen un coeficiente de correlación positivo y una recta de regresión
con pendiente positiva (y la recta muestra que cuando aumenta una variable también
aumenta la otra). De igual forma,dos variables que tienen una relación indirecta tienen
un coeficiente de correlación negativo y una recta de regresión con pendiente negativa (y
la recta muestra que cuando aumenta una variable la otra disminuye).
def.: El coeficiente de determinación, r2 , expresa la proporción de la variación de y que

puede ser explicada por el modelo de regresión lineal. Así, 100r2 es el porcentaje de
varianza explicado por la recta de regresión.
110
Ejercicio 25
Se intentó analizar si existe una relación lineal entre las series de caudales del mes de
enero (en m3 s−1 ) entre las estaciones Itatí y Rosario. El período considerado fue 1930
– 1989, donde los pares de datos son independientes y las variables están normalmente
distribuidas. En este sentido se hicieron los siguientes cálculos:
1,2901E+10
P
xy
1018356
P
x
704561
P
y
2,0253E+10
P 2
x
9558485105
P 2
y
(y − yrecta ) 2
763964786
P
sx 7033,9
sy 4627,9
(x − x̄)(y − ȳ) 942826803
P
a) Obtenga la recta que mejor ajusta los datos.

b) Calcule el coeficiente de determinación. Explique su significado.
c) Si lo necesitara para hacer una prueba de hipótesis, ¿cómo probaría que las series
tienen distribución normal?
Resolución 25
Se trabaja con dos series de datos de caudales en Itatí y Rosario, un total de 60 pares
de datos independientes y con distribución normal bivariada.
a) Buscamos la recta que mejor ajusta a los datos: y ∗ = bx + a
( xi )( yi )
P P
xi y i − 1.29 · 1010 − 1018356·704561
56566078284
P
b= N
= 60
= = 0.3175
( xi )
2
2.0253 · 10 − (1018356)2 1.78131 · 1011
P
10
x2i −
P
i 60
N
704561 1018356
P P
y x
a = ȳ − b · x̄ = −b· = − 0.3175 · = 6353.88
N N 60 60
∴ y ∗ = 0.3175 · x + 6353.88
b) Calculamos el coeficiente de determinación, r2
111
1
· (x − x̄)(y − ȳ) 1
942826803
P
r= 60
= 60 = 0, 48
sx sy 7033.9 · 4627.9
∴ r2 = 0.233
c) Para probar que cada una de las series tiene una distribución normal podría aplicarse
una prueba de hipótesis de bondad de ajuste.
7.5. Pruebas de hipótesis para el coeficiente de co-

rrelación de la población ρ
7.5.1. Procedimiento para probar H0 : ρ = 0
Si los pares (xi , yi ) son independientes, para muestras grandes o para muestras chicas
en las cuales los pares de datos se obtienen de una distribución normal bivariada, el
estadístico de prueba es
√
r n−2
t= √ (7.23)
1 − r2
que tiene una distribución t con grados de libertad ν = n − 2.
√
Si los pares (xi , yi ) son independientes, para muestras grandes, r ∼ N (0, 1/ n − 3) y
entonces, el estadístico de prueba es
r−ρ
z= (7.24)
√1
n−3
que tiene una distribución Normal estándar.
7.5.2. Procedimiento para probar H0 : ρ = ρ0 6= 0

Cuando (x1 , y1 )...(xn , yn ) es una muestra de una distribución normal bivariada, la variable
aleatoria
1 1+r

v= ln (7.25)
2 1−r
tiene aproximadamente una distribución normal con media y desvío
1 1+ρ
!
µv = ln (7.26)
2 1−ρ
112
1
s
σv = (7.27)
n−3
obs.: la aproximación no es válida para tamaños de la muestra (n) muy chicos, ya que la
transformación no debería utilizarse.

v − µv
1
2
ln 1+r
1−r
− 12 ln 1+ρ
1−ρ
z= = q (7.28)
σv 1
n−3
tiene una distribución normal estándar.
7.6. Intervalo de confianza para el coeficiente de co-

rrelación de la población ρ
Conociendo r, n y α, se puede obtener primero un intervalo de confianza para µv
µv1 ≤ µv ≤ µv2 (7.29)
que usando la ecuación (7.28), se obtiene
zα/2 zα/2
v−√ ≤ µv ≤ v + √ (7.30)
n−3 n−3
y despejando ρ de la definición de µv (ecuación 7.26),
e2µv1 − 1 e2µv2 − 1
≤ ρ ≤ (7.31)
e2µv1 + 1 e2µv2 + 1
De esta forma, el intervalo de confianza al 100(1 − α) % para ρ es
e2µv1 − 1 e2µv2 − 1
!
, (7.32)
e2µv1 + 1 e2µv2 + 1
113
Ejercicio 26
Se tomaron muestras de salinidad y de la temperatura de la superficie del mar en 35
puntos distintos del Mar Argentino. Con las mismas se calculó la correlación lineal
que existe entre ambas variables, obteniéndose un valor de 0.74.
a) ¿Es significativa esta correlación, con un nivel de significancia del 5 %?
b) Halle el intervalo de confianza para el coeficiente de correlación de la población con
un nivel de confianza del 95 %.
c) ¿Qué porcentaje de la varianza no está explicado por la recta?
d) Si en un muestreo posterior se tomaron datos de temperatura y salinidad en 30
puntos sobre el Mar Argentino, cercanos a los de la primera muestra, de donde
se obtuvo un coeficiente de correlación de 0.65. ¿Puede decir que se trata de una
relación lineal diferente de la primera, con un nivel de confianza del 99 %?
e) Si en una próxima salida de campo usted sabe que no podrá medir la salinidad, en
función de lo hallado explique cómo la podría estimar.
Resolución 26
Tenemos muestras de salinidad y temperatura en 35 puntos distintos (35 pares de

datos). Conocemos r = 0.74.
a) Planteamos una prueba de hipótesis. Es posible usar el estadístico de prueba z para

muestras grandes o suponer que los pares de datos se obtienen de una distribución
Normal bivariada y usar el estadístico t. Se quiere ver que existe una relación lineal
significativa, es decir, que r proviene de una población cuyo ρ 6= 0.
H0 : ρ = 0
Ha : ρ 6= 0
α = 0.05
Elegimos el estadístico t con ν = 35 − 2 = 33 grados de libertad. Es una prueba a dos

colas, entonces la zona de rechazo queda definida por
ZR : {t/|t| > 2.035}
Calculamos el estadístico de prueba

√ √
r n−2 0.74 35 − 2
t= √ = √ = 6.32 ∈ ZR
1 − r2 1 − 0.742
114
Entonces rechazo H0 con un 95 % de confianza y el coeficiente de correlación de la

población de pares de datos de salinidad y temperatura es significativamente distin-
to de 0 al 5 %. Es decir, existe una relación lineal significativa entre la salinidad y
temperatura en el Mar Argentino con una confianza del 95 %.
b) Buscamos el intervalo de confianza al 95 %. Comenzamos buscando µv1 y µv2 .
zα/2 1 1+r zα/2

µv1 =v−√ = ln −√
n−3 2 1−r n−3
Al trabajar con α = 0.05, utilizamos la tabla de probabilidad Normal o algún software

para buscar z0.025 = 1.96. Reemplazamos,
1 1 + 0.74 1.96

µv1 = ln −√ = 0.604
2 1 − 0.74 35 − 3
Análogamente para µv2 ,
1 1 + 0.74 1.96

µv2 = ln +√ = 1.297
2 1 − 0.74 35 − 3
Entonces, el intervalo de confianza al 95 % para ρ es
e2·0.604 − 1 e2·1.297 − 1
!
;
e2·0.604 + 1 e2·1.297 + 1
ρ ∈ (0.54; 0.861)
c) El porcentaje de la varianza conjunta que está explicado por la recta de regresión

es r2 = 0.5476 = 54.76 %. Luego, el 45.24 % de la varianza conjunta no está explicado
por la regresión lineal entre temperatura y salinidad.
d) En este caso queremos comprar si este coeficiente de correlación muestral pertenece

a la misma población de ρ que el que se había obtenido en la primera muestra. Para
esto, consideraremos que el coeficiente de correlación de la población es de 0.74 y
evaluaremos con una prueba de hipótesis si esta muestra pertenece a esa población.
Suponemos que los pares de datos provienen de una población con distribución Normal
bivariada.
H0 : ρ = 0.74
Ha : ρ 6= 0.74
α = 0.01
115
El estadístico de prueba es z,

v − µv
1
2
ln 1+r
1−r
− 12 ln 1+ρ
1−ρ
z= = q ∼ N (0, 1)
σv 1
n−3
Como la prueba es a dos colas, entonces la zona de rechazo queda definida por
ZR : {z/|z| > 2.575}
Calculamos el estadístico de prueba,

1
2
ln 1+0.65
1−0.65
− 12 ln 1+0.74
1−0.74
z= q
1
= −0.91 ∈
/ ZR
30−3
Luego no puedo rechazar H0 con un 99 % de confianza y hasta no tener mayor evidencia

muestral, puedo decir que la nueva muestra presenta una relación lineal igual de fuerte
que la primera con un 1 % de significancia.
e) Dado que se probó que existe una relación lineal entre salinidad y temperatura,
puede utilizarse la recta de regresión para estimar la salinidad a partir de la tempe-
ratura. Sin embargo hay que tener en cuenta que esta relación solo explica el 54.76 %
de la varianza conjunta y que solo se puede utilizar para valores de temperatura que
estén dentro del rango para el cual se estimó la recta de regresión.
7.7. Series temporales

Una serie temporal es una sucesión de observaciones de una variable tomadas en va-
rios instantes de tiempo. La serie puede ser estacionaria si la media y variabilidad son
constantes en el tiempo, o no estacionaria si se observan cambios en la media y/o en la
varianza.
116
Figura 7.3: Ejemplos de series temporales para la variable extremos fríos anuales: a)
estacionaria, b) no estacionaria por cambios en la media, c) no estacionaria por cambios
en el desvío estándar, d) no estacionaria por cambios en la media y en el desvío estándar.
Los cambios se ejemplifican a partir de 1951. En rojo se marca el valor medio para cada
período (hasta 1950 y después de 1951).
7.7.1. Tendencia
La tendencia de una serie temporal es el cambio a largo plazo de la media de la serie (ver
ejemplo en Fig. 7.4). La tendencia lineal se obtiene de ajustar una recta de regresión de
una variable sobre el tiempo, obtenida a partir del ajuste por cuadrados mínimos (ver
Sección 7.4). La ecuación de la recta de tendencia para la serie temporal de y(t) es:
y ∗ (t) = bt + a (7.33)
Figura 7.4: Ejemplo de una serie temporal con tendencia. La recta de tendencia se muestra
en rojo.
117
Para verificar si la tendencia lineal de una serie es significativa puede entonces testearse si
el coeficiente de correlación de la población es significativamente distinto de 0 a partir del
coeficiente de correlación de la muestra, r, obtenido en el ajuste por cuadrados mínimos.
Usar los estadísticos de la Sección 7.5.2 según corresponda.
El efecto de la tendencia lineal puede ser removido (también se dice filtrado) calculando
para cada tiempo t el valor de la serie temporal menos el valor de la recta de tendencia
para ese mismo tiempo, resultando la serie filtrada yf (t) como yf (t) = y(t) − y ∗ (t).
7.7.2. Autocorrelación
La autocorrelación es la correlación de una variable consigo misma, y la autocorrelación
temporal hace referencia a la correlación de una variable con sus propios valores futuros
y pasados. A veces se la suele llamar autocorrelación laggeada.
El coeficiente de autocorrelación de lag-k se define como
[(yi − ȳ− ) (yi+k − ȳ+ )]

Pn−k
rk = hP i=1
i1/2 (7.34)
n−k
(yi − ȳ− )2 i=k+1 (yi − ȳ+ )
2
Pn
i=1
donde n es el largo de la serie temporal original (y), y los subíndices ’+’ y ’−’ indican
las medias muestrales sobre los primeros y los últimos n − k valores respectivamente.
Generalmente no se computan autocorrelaciones para lags mayores a n/3 o n/4 por la
cantidad de datos perdidos.
Cuando se dispone de una serie temporal muy larga es acepable aproximar la ecuación
(7.34) suponiendo que la media muestral y el desvío muestral serán muy similares a la
media y el desvío de cada una de las submuestras para los primeros y los últimos n − k
valores.
[(yi − y) (yi+k − y)]

Pn−k
rk ≈ i=1
(7.35)
i=1 (yi − y)
Pn 2
Al graficar los coeficientes de autocorrelación (rk ) en función del lag (k) se obtiene el
autocorrelograma. En el autocorrelograma también se marcan los valores de r que serían
significativamente distintos de 0 para cada lag k usando un determinado α. Estos valores
se determinan a partir del estadístico apropiado de la Sección 7.5.1. A mayor lag k, menor
es la cantidad de datos y por eso los valores de r críticos aumentan en valor absoluto.
Los autocorrelogramas permiten identificar los siguientes efectos en una serie temporal:
tendencia, ciclos, persistencia y aleatoriedad.
Ejemplo 13
La Figura 7.5 presenta ejemplos de autocorrelogramas para series temporales con
distintos comportamientos. Cuando una serie temporal tiene tendencia, el efecto suele
118
dominar sobre cualquier otro que se pueda identificar en el autocorrelograma (Fig.

7.5a). En este caso los coeficientes de autocorrelación son sucesivamente positivos y
relativamente altos, ya que la serie original y la desfasada van a estar reflejando el
mismo comportamiento subyacente (un aumento con el tiempo en ambas series si la
tendencia es positiva o una disminución con el tiempo en ambas series si la tendencia
es negativa). En la Figura 7.5a también se ve superpuesto un ciclo. Cuando la serie
temporal tiene ciclos y no tiene tendencia, se obtendría un autocorrelograma como el
de la Figura 7.5b. Este muestra que los rL son positivos y máximos cada 12 lags, lo
que indica que en ese desfasaje la serie vuelve a estar en fase consigo misma; en este
caso la serie tiene un período de 12 (meses, días, o la unidad de tiempo de la serie
original). Noten también que en el lag 6 se obtiene un rL mínimo negativo, indicando
que en ese desfasaje la serie está en contrafase consigo misma.
Figura 7.5: Ejemplos de autocorrelogramas para series con a) tendencia y ciclos, b)

ciclos, c) ruido rojo, d) ruido blanco. En líneas azules a guiones se indican los valores
de autocorrelación críticos para cada lag.
Se dice que una serie tiene persistencia, o ruido rojo, cuando los rk siguen un proceso
de Markov: rk ≈ r1k . La persistencia refleja que existe una relación entre los valores
en un tiempo dado y los de un tiempo posterior. Un ejemplo se muestra en la Figura
7.5c: si la serie fuera temperatura mensual, indicaría, por ejemplo, que la temperatura
de febrero guarda alguna relación con la temperatura del enero anterior (r1 > 0 y
significativamente 6= 0), que la temperatura de febrero también guarda alguna relación
con la temperatura del diciembre anterior (r2 > 0 y significativamente 6= 0), e incluso
que la temperatura de febrero también guarda alguna relación con la temperatura del
noviembre anterior (r3 > 0 y significativamente 6= 0). Lo mismo para la temperatura
de marzo con las de febrero, enero y diciembre; las temperaturas de abril con las de
119
marzo, febrero y enero, etc. Cada una guarda algún grado de relación lineal con las
temperaturas de los 3 meses anteriores. Incluso con el cuarto mes anterior, ya que r4
es levemente superior al rcrít señalado en azul. Cuando una serie es completamente
aleatoria se dice que tiene ruido blanco (Fig. 7.5d), y el autocorrelograma muestra que
r0 = 1 y luego todos los rL caen dentro de la banda delimitada por los rcrít , es decir,
que no son significativamente distintos de 0.
120
Capítulo 8
Análisis de Varianza
8.1. ANOVA de un factor

El ANOVA unifactorial se enfoca en la comparación de más de dos medias de población,
o tratamientos. La característica que diferencia los tratamientos unos de otros se llama
factor de estudio y los distintos tratamientos se denominan niveles del factor.
A lo largo de las siguientes subsecciones se explicará la notación que se usará para resolver
las pruebas ANOVA, las suposiciones necesarias, se definirán los estadísticos involucrados
y finalmente el estadístico de prueba y la prueba de hipótesis ANOVA. Toda la información
queda resumida en la tabla ANOVA unifactorial que sirve para organizar la información
y resolver la prueba de hipótesis (Sección 8.1.4).
8.1.1. Notación y suposiciones

not.: I es el número de tratamientos que se están comparando.
not.: J es el número de observaciones de cada muestra
not.: Xij es la variable aleatoria que denota la medición j-ésima tomada del tratamiento
i-ésimo.
def.: Media de la muestra individual X i· , se define como
PJ
j=1 Xij
X i. = i = 1, 2, . . . , I (8.1)
J
donde el · indica que se sumaron todos los valores de ese subíndice y la barra indica que
se hizo un promedio.
121
def.: La gran media X ·· es el promedio de todas las observaciones, y se define como
PI PJ
i=1 j=1 Xij
X .. = (8.2)
IJ
def.: La varianza de la muestra individual s2i es la varianza corregida para las muestras
de cada tratamiento
PJ 2
j=1 Xij − X i·
s2i = i = 1, 2, . . . , I (8.3)
J −1
Para utilizar el análisis de varianza es necesario suponer que las poblaciones o tratamien-
tos I son normales con la misma varianza σ 2 . Esto es que cada Xij esté normalmente
distribuida con E (Xij ) = µi y V (Xij ) = σ 2 . Una regla empírica que podemos utilizar es
que
máx(si ) < 2mín(si ) (8.4)
Pueden ahora revisar los ítems a) a d) del Ejercicio 27 al final de la Sección 8.1.4.
8.1.2. Sumas de cuadrados

def.: Sean Xi· y X·· la suma del tratamiento i y la gran suma respectivamente, tal que
J
Xi· = (8.5)
X
Xij
j=1
I X
J
X.. = (8.6)
X
Xij
i=1 j=1
Se definen las sumas de los cuadrados como:
def.: Suma total de los cuadrados (STC)
I X
J 2 I X
J
1 2
STC = = Xij2 − (8.7)
X X
Xij − X .. X
i=1 j=1 i=1 j=1 IJ ··
def.: Suma de los cuadrados del tratamiento (SCT)
I X
J 2 I 2 1X I
1 2
SCT = =J = Xi.2 − (8.8)
X X
X i· − X .. X i· − X .. X
i=1 j=1 i=1 J i=1 IJ ··
122
def.: Suma de los cuadrados del error (SCE)
I X
J 2
SCE = (8.9)
X
Xij − X i·
i=1 j=1
prop.: La SCE se puede obtener más fácilmente utilizando la relación entre las tres sumas
de cuadrados, o identidad fundamental:
STC = SCT + SCE (8.10)
A partir de las sumas de los cuadrados se puede dividir cada una por los grados de libertad
asociados para obtener los cuadrados de la media:
def.: El cuadrado de la media de tratamientos (CMTr) es una medida de las diferencias

entre las distintas muestras respecto a la media total
SCT J X I 2
CMTr = = X i − X .. (8.11)
I −1 I − 1 i=1
def.: El cuadrado de la media del error (CME) es una medida de la variación que existe
adentro de cada muestra de tratamiento
SCE s2 + s22 + · · · + s2I

CME = = 1 (8.12)
I(J − 1) I
Pueden ahora revisar los ítems e) y f) del Ejercicio 27 al final de la Sección 8.1.4.
8.1.3. Estadístico de prueba y prueba de hipótesis

Considerando que µi es la media de la población i o la respuesta promedio verdadera
cuando se aplica el tratamiento i:
La hipótesis nula es: H0 : µ1 = µ2 = · · · = µI

La hipótesis alternativa es: Ha : por lo menos dos de las µi son diferentes.
Para una significancia α, grados de libertad ν1 = I − 1 y ν2 = I(J − 1), el estadístico de
prueba f ,
CM T r
f= ∼ F (ν1 , ν2 ) (8.13)
CM E
La prueba de hipótesis es una prueba a cola derecha, por lo que si f ≥ Fα,ν1 ,ν2 rechazo
H0 en favor de Ha con un 100(1 − α) % de confianza.
123
obs.: ¿Por qué la prueba ANOVA es a cola derecha? Observemos el cociente del estadístico
de prueba. El CM T r es chico cuando la media de cada tratamiento se acerca mucho a la
gran media, eso significa que todas las medias serían parecidas a la gran media, entonces
no querría rechazar en ese caso H0 . En cambio, si las medias de cada tratamiento se alejan
de la gran media, CM T r sería grande, f también y entonces tendríamos que rechazar H0
con esa información. Los errores contribuyen a que no podamos rechazar H0 si los errores
son muy grandes (llevan a un f más chico).
8.1.4. Tabla ANOVA unifactorial

Para ordenar los cálculos, los parámetros involucrados en una prueba ANOVA suelen
agruparse en una tabla como la siguiente, que se completa de izquierda a derecha.
Origen de la Grados de Suma de los Cuadrado de

f
variación libertad cuadrados la media
tratamientos I-1 SCT CMTr CMTr/CME
error I(J-1) SCE CME
total IJ-1 STC
124
Ejercicio 27
Un estudio analiza el efecto del uso de distintos tipos de fertilizantes en plantas de
Eucalipto, bajo las mismas condiciones climáticas. Para eso, se separan 4 grupos de
6 plantas cada uno. Al primer grupo (control) no se le agrega fertilizante, al segundo
grupo (Pe) se le coloca fertilizante del tipo pellets, al tercer grupo (Po) se le coloca
fertilizante generado a partir de un polímero experimental y al cuarto (Pe+Po) se le
colocan ambos tipos de fertilizantes. Al cabo de tres meses se mide la altura de las
plantas (en decímetros) y se vuelca la información en la siguiente tabla:
Altura de plantas de Eucalipto (dm)

Control 4,01 3,83 3,91 4,21 3,79 3,8
Pe 4,3 4,25 4,15 4,3 4 4,35
Po 4,5 4,95 4,88 4,56 4,4 4,75
Pe+Po 4,3 4,55 4,42 4,15 4,35 4,38
a) Defina el número de tratamientos y la cantidad de observaciones de cada muestra.

b) Calcule las sumas muestrales y la gran suma. Expréselas con notación apropiada.
c) Calcule las medias muestrales y la gran media. Expréselas con notación apropiada.
d) Calcule los desvíos muestrales. ¿Es válida la suposición de que los tratamientos
tienen la misma varianza?
e) Calcule las sumas de los cuadrados.
f) Calcule los cuadrados de la media de tratamientos y del error.
g) Construya la tabla ANOVA unifactorial asociada a este estudio.
h) ¿Qué hipótesis se puede testear con la información calculada (exprésela también
en palabras)? ¿Qué es necesario suponer? ¿Qué permitiría ese test concluir? ¿Qué
información no me brinda ese test?
i) Plantee y realice la prueba de hipótesis ANOVA al 5 % de significancia. ¿Qué
conclusión obtiene del test? ¿Se mantiene al 99 % de confianza?
j) Repita el test de hipótesis, pero suponiendo que se perdieron los últimos dos valores
de la muestra del tratamiento control y el último valor de la muestra del tratamiento
Pe+Po.
Resolución 27
En este problema evaluaremos diferencias en alturas de plantas de eucalipto en función

de los fertilizantes utilizados a partir de la información de la siguiente tabla
125
Altura de plantas de Eucalipto (dm)

Control 4,01 3,83 3,91 4,21 3,79 3,8
Pe 4,3 4,25 4,15 4,3 4 4,35
Po 4,5 4,95 4,88 4,56 4,4 4,75
Pe+Po 4,3 4,55 4,42 4,15 4,35 4,38
a) Los tratamientos son 4 (I = 4) y cada muestra tiene 6 observaciones (J = 6).
b) Calculamos las sumas muestrales sumando todos los valores de la muestra (ecuación
(8.5)) y la gran suma usando la ecuación (8.6).
experimento sumas muestrales

control X1· = 23.55
Pe X2· = 25.35
Po X3· = 28.04
Pe+Po X4· = 26.15
X·· = 103.09
c) Ahora agreguemos a la tabla las medias muestrales para cada tratamiento, calcu-
ladas usando la ecuación (8.1)) y la gran media usando la ecuación (8.2).
experimento sumas muestrales medias muestrales

control X1· = 23.55 X̄1· = 3.93
Pe X2· = 25.35 X̄2· = 4.23
Po X3· = 28.04 X̄3· = 4.67
Pe+Po X4· = 26.15 X̄4· = 4.36
X·· = 103.09 X̄·· = 4.295
d) Seguimos completando la tabla con los desvíos muestrales para cada tratamiento,
calculados usando la ecuación (8.1))
experimento sumas muestrales medias muestrales desvíos muestrales

control X1· = 23.55 X̄1· = 3.93 s1 = 0.1622
Pe X2· = 25.35 X̄2· = 4.23 s2 = 0.1294
Po X3· = 28.04 X̄3· = 4.67 s3 = 0.2203
Pe+Po X4· = 26.15 X̄4· = 4.36 s4 = 0.1326
X·· = 103.09 X̄·· = 4.295
126
Para evaluar si es válida la suposición de que los tratamientos tienen la misma varianza
tenemos que verificar la desigualdad (8.4). Identificamos en la tabla los valores de
desvíos muestrales mínimo y máximo y:
0.2203 < 2 · 0.1294 = 0.2588
La desigualdad se cumple, por lo tanto la suposición es válida a partir de esta regla

empírica.
e) Para calcular las sumas de los cuadrados comenzamos con la suma de los cuadrados
del tratamiento, SCT (ecuación 8.8)) usando las sumas calculadas en la tabla
1X I
1 2 1 1
SCT = Xi.2 − X·· = 23.552 + 25.352 + 28.042 + 26.152 − 103.092
J i=1 IJ 6 4·6
SCT = 1.7337
Ahora es conveniente calcular la suma total de los cuadrados con la ecuación (8.7)
usando la gran suma y cada uno de los valores de las observaciones de cada tratamiento:
I X
J
1 2 1
STC = Xij2 − X·· = 4.012 + 3.832 + · · · + 4.352 + 4.382 − 103.092
X
i=1 j=1 IJ 24
STC = 2.2796
Finalmente, para calcular la suma de los cuadrados del error, utilizamos la relación
(8.10)
SCE = STC − SCT = 2.2796 − 1.7337 = 0.5459
f) Calculamos ahora el cuadrado de la media de los tratamientos (ecuación (8.11)) y

el cuadrado de la media del error (ecuación (8.12)).
SCT 1.7337
CMTr = = = 0.57789
I −1 4−1
SCE 0.5459
CME = = = 0.0273
I(J − 1) 4(6 − 1)
127
g) Ya tenemos todo calculado para completar la tabla ANOVA:

f
tratamientos I-1 SCT CMTr CMTr/CME
error I(J-1) SCE CME
total IJ-1 STC
Noten que fuimos calculando en cada ítem una columna, de izquierda a derecha, hasta
tener todo lo necesario:

f
tratamientos 3 1.7337 0.57789 CMTr/CME=21.17
error 20 0.5459 0.0273
total 23 2.2796
h) La hipótesis nula que se puede testear es H0 : µ1 = µ2 = µ3 = µ4 , es decir, que

la altura media de las plantas de eucalipto para los 4 tratamientos de fertilizante
es la misma. Sería necesario suponer que cada tratamiento tiene una distribución
normal de alturas y que las varianzas de los tratamientos son iguales (esto último lo
verificamos con la regla empírica). La prueba de hipótesis permitiría concluir si hay
algún tratamiento (algún tipo de fertilizante) que genere un crecimiento mayor/menor
en las plantas de eucalipto. Sin embargo, esta prueba de hipótesis no me brindará
información sobre cuál de los tratamientos tiene una media poblacional distinta a la
demás.
i) Planteamos la prueba de hipótesis
H0 : µ1 = µ2 = µ3 = µ4
Ha : al menos dos µi son distintas
α = 0.05 ν1 = I − 1 = 3 ν2 = I(J − 1) = 4 · 5 = 20
CM T r
f= ∼ F (ν1 = 3, ν2 = 20)
CM E
A partir de la distribución F buscamos la zona de rechazo a cola derecha:
Z.R. : {f /f > F0.05;3;20 = 3.09}
128
Como f = 0.57789
0.0273
= 21.17 ∈ Z.R. ⇒ rechazo H0 con un 95 % de confianza y al menos
dos µi son distintas. Esto significa que hay una diferencia entre la altura que alcanzan
las plantas de eucalipto con algún tipo de fertilizante y la control o entre alguna de
las fertilizadas con un 5 % de significancia.
h) La conclusión se mantiene pues F0.01;3;20 = 4.96 < f
8.1.5. ANOVA unifactorial con tamaños de muestras desigua-

les
El análisis de varianza puede realizarse aún si los tamaños de las muestras de los tra-
tamientos son desiguales. Sean J1 , J2 , . . . , JI los I tamaños muestrales y sea n = i Ji
P
el número total de observaciones, las sumas de los cuadrados, sus respectivos grados de
libertad (gdl) y cuadrados de las medias se redefinen como:
Ji
I X 2 Ji
I X
1 2
STC = = Xij2 − gdl = n − 1 (8.14)
X X
Xij − X .. X
i=1 j=1 i=1 j=1 n ..
def.: Suma de los cuadrados del tratamiento (SCT)
Ji
I X 2 I
1 2 1 2
SCT = = gdl = I − 1 (8.15)
X X
X i. − X .. Xi. − X..
i=1 j=1 i=1 Ji n
Ji
I X 2
SCE = = STC − SCT gdl = (Ji − 1) = n − I (8.16)
X X
Xij − X i.
i=1 j=1
def.: El cuadrado de la media de tratamientos (CMTr) es
SCT
CMTr = (8.17)
I −1
def.: El cuadrado de la media del error (CME) es
SCE
CME = (8.18)
n−I
De esta forma, la prueba de hipótesis es análoga exceptuando los grados de libertad. La

zona de rechazo estará dada por f ≥ Fα,I−1,n−I .
129
8.2. ANOVA con factores múltiples con una observa-

ción por cada combinación de factores
En algunas situaciones existen dos factores de interés simultáneo. Cuando el factor A
consta de I niveles y el factor B de J niveles, hay IJ diferentes combinaciones (pares) de
niveles de los dos factores, cada uno llamado tratamiento.
8.2.1. Notación y suposiciones (modelo aditivo)

not.: Xij es la variable aleatoria que denota la medición cuando el factor A se mantiene
en el nivel i y el factor B se mantiene el el nivel j.
def.: Xi· es la suma de las mediciones obtenidas cuando el factor A se mantiene al nivel
i,
J
Xi· = (8.19)
X
Xij
j=1
def.: X·j es la suma de las mediciones obtenidas cuando el factor B se mantiene al nivel
j,
I
X·j = (8.20)
X
Xij
i=1
def.: X·· es la gran suma,
J
I X
X·· = (8.21)
X
Xij
i=1 j=1
def.: X i· es el promedio de las mediciones obtenidas cuando el factor A se mantiene al

nivel i,
PJ
j=1 Xij
X i· = (8.22)
J
def.: X ·j es el promedio de las mediciones obtenidas cuando el factor B se mantiene al
nivel j,
PI
Xij
X ·j = i=1
(8.23)
I
def.: X ·· es la gran media
PI PJ
i=1 j=1 Xij
X ·· = (8.24)
IJ
130
Supondremos válido el modelo aditivo en el que cada respuesta media µij es la suma de
un efecto debido al factor A al nivel i (αi ) y al factor B al nivel j (βj ), y entonces Xij
queda determinada por
Xij = µ + αi + βj + ij (8.25)
donde Ii=1 αi = 0, Jj=1 βj = 0 y las ij se suponen independientes, normalmente distri-

P P
buidas, con media 0 y varianza común σ 2 .

Los estimadores insesgados de estos parámetros permiten entender mejor su significa-
do:
µ̂ = X ·· α̂i = X i. − X ·· β̂j = X .j − X ·· (8.26)
8.2.2. Sumas de los cuadrados

Las sumas de los cuadrados y los respectivos grados de libertad son los siguientes:
J
I X 2 J
I X
1 2
STC = = Xij2 − gdl = IJ − 1 (8.27)
X X
Xij − X .. X
i=1 j=1 i=1 j=1 IJ ··
def.: Suma de los cuadrados del fator A (SCA)
I X
J 2 I 2 1X I
1
SCA = =J = Xi.2 − X··2 gdl = I − 1 (8.28)
X X
X i. − X .. X i. − X ..
i=1 j=1 i=1 J i=1 IJ
def.: Suma de los cuadrados del factor B (SCB)
I X
J 2 J 2 1X J
1
SCB = =I = X.j2 − X··2 gdl = J −1 (8.29)
X X
X .j − X .. X .j − X ..
i=1 j=1 j=1 I j=1 IJ
I X
J 2
SCE = Xij − X i. − X .j + X .. gdl = (I − 1)(J − 1) (8.30)
X
i=1 j=1
prop.: La SCE se puede obtener más fácilmente utilizando la relación entre las cuatro
sumas de cuadrados, o identidad fundamental:
STC = SCA + SCB + SCE (8.31)
131
A partir de las sumas de los cuadrados se puede dividir cada una por los grados de libertad
asociados para obtener los cuadrados de la media:
def.: El cuadrado de la media del factor A (CMA) es
SCA
CMA = (8.32)
I −1
def.: El cuadrado de la media del factor B (CMB) es
SCB
CMB = (8.33)
J −1
def.: El cuadrado de la media del error (CME) es
SCE
CME = (8.34)
(I − 1)(J − 1)
8.2.3. Estadísticos de prueba y pruebas de hipótesis

La influencia de los niveles de los factores A y B se analiza por separado. Para el factor
A la hipótesis nula será que los niveles del factor A no tienen efecto sobre la verdadera
respuesta promedio. Es decir,
H0A : α1 = α2 = · · · = αI = 0
HaA : al menos un αi 6= 0 .
Para una significancia α, grados de libertad ν1 = I − 1 y ν2 = (I − 1)(J − 1), el estadístico

de prueba fA ,
CM A
fA = ∼ F (ν1 , ν2 ) (8.35)
CM E
La prueba de hipótesis es una prueba a cola derecha, por lo que si fA ≥ Fα,ν1 ,ν2 rechazo
H0A en favor de HaA con un 100(1 − α) % de confianza.
Análogamente, para el factor B la hipótesis nula será que los niveles del factor B no tienen
efecto sobre la verdadera respuesta promedio. Es decir,
H0B : β1 = β2 = · · · = βJ = 0
HaB : al menos un βj 6= 0 .
132
Para una significancia α, grados de libertad ν1 = J − 1 y ν2 = (I − 1)(J − 1), el estadístico

de prueba fB ,
CM B
fB = ∼ F (ν1 , ν2 ) (8.36)
CM E
La prueba de hipótesis es una prueba a cola derecha, por lo que si fB ≥ Fα,ν1 ,ν2 rechazo
H0B en favor de HaB con un 100(1 − α) % de confianza.
8.2.4. Tabla ANOVA

Los parámetros involucrados en una prueba ANOVA bifactorial también suelen agruparse
en una tabla como la siguiente, que se completa de izquierda a derecha.

f
factor A I-1 SCA CMA CMA/CME
factor B J-1 SCB CMB CMB/CME
error (I-1)(J-1) SCE CME
total IJ-1 STC
Ejercicio 28
Para analizar la severidad de las tormentas se quiere utilizar el sensor GLM (Geosta-
tionary Lightning Mapper) del satélite geoestacionario GOES-16, que puede indicar
la presencia de descargas eléctricas a través de cambios momentáneos en su escena
óptica. A través de los datos colectados, se midió el número de descargas eléctricas
por minuto en la etapa madura de tres tipos de tormentas, en tres regiones distintas
del país.
Pcia. de Bs. As. Región central Región noreste

Tormenta unicelular 32 49 39
Tormenta multicelular 65 72 61
Tormenta supercelular 89 115 103
Con estos primeros datos se quiere verificar si estadísticamente se puede afirmar que
la tasa de descargas eléctricas por minuto media es la misma en los tres tipos de
tormentas y si las tormentas son igualmente severas en las tres regiones del país.
Utilice una significancia del 5 %.
Resolución 28
En este problema consideraremos factor A al tipo de tormenta y factor B a la región
133
en la que se produce la tormenta, y evaluaremos si la severidad depende de alguno de

estos dos factores. Antes de calcular las sumas de los cuadrados, calculemos las sumas
y los promedios cuando se mantiene constante alguno de los dos factores.
factor B (J=3)
Bs. As. Centro NE sumas medias
factor A T. unicelular 32 49 39 X1· = 120 X 1· = 40
T. multicelular 65 72 61 X2· = 198 X 2· = 66
(I=3) T. supercelular 89 115 103 X3· = 307 X 3· = 102.33
sumas X·1 = 186 X·2 = 236 X·3 = 203 X·· = 625
medias X ·1 = 62 X ·2 = 78.66 X ·3 = 67.66 X ·· = 69.44
Y tenemos lo necesario para calcular las sumas de los cuadrados usando las ecuaciones
(8.27), (8.28) y (8.29).
3 X
3
1 1
STC = Xij2 − X··2 = 49831 − 6252 = 6428.22
X
i=1 j=1 9 9
1X 3
1 1 1
SCA = Xi.2 − X··2 = 147853 − 6252 = 5881.55
3 i=1 9 3 9
1X 3
1 1 1
SCB = X.j2 − X··2 = 131501 − 6252 = 430.88
3 j=1 9 3 9
Y usando la proposición (8.31) despejamos SCE,
SCE = STC − SCA − SCB = 115.77
Usando las sumas de los cuadrados se calculan los cuadrados de la media según (8.32),
(8.33) y (8.34).
5881.55
CMA = = 2940.77
2
430.88
CMB = = 215.44
2
115.77
CME = = 28.94
(2)(2)
Y por lo tanto los estadísticos fA y fB son, según las ecuaciones (8.35) y (8.36),
134
fA = 101.6 fB = 7.44
De esta forma, la tabla ANOVA para este problema queda de la siguiente forma:

f
factor A (tipo T.) I-1=2 5881.55 2940.77 101.60
factor B (región) J-1=2 430.88 215.44 7.44
error (I-1)(J-1)=4 115.77 28.94
total IJ-1=8 6428.22
Con los cálculos resueltos, podemos plantear las pruebas de hipótesis adecuadas para
evaluar si la severidad de las tormentas, medida a través de la tasa de descargas
eléctricas por minuto, depende del tipo de tormenta o de la región de ocurrencia.
Comencemos con el análisis según el tipo de tormenta:
H0A : la tasa de descargas eléctricas por minuto media no depende del tipo de
tormenta, i.e., α1 = α2 = α3 = 0
HaA : al menos un αi 6= 0
Para una significancia α = 0.05, grados de libertad ν1 = 3−1 = 2 y ν2 = (3−1)(3−1) =

4, el estadístico de prueba fA ,
CM A
fA = ∼ F (2, 4)
CM E
La zona de rechazo queda entonces definida por ZR : f /f ≥ F0.05;2;4 = 6.94
Dado que fA ∈ ZR, rechazo H0A con un 95 % de confianza y la tasa de actividad
eléctrica por minuto media es distinta para al menos un tipo de tormenta. Analicemos
ahora si la severidad depende de la región con la siguiente prueba:
H0B : la tasa de descargas eléctricas por minuto media no depende de la región

del país donde ocurre la tormenta, i.e., β1 = β2 = β3 = 0
HaB : al menos un βj 6= 0
135
Para una significancia α = 0.05, grados de libertad ν1 = 3−1 = 2 y ν2 = (3−1)(3−1) =

4, el estadístico de prueba fB ,
CM B
fB = ∼ F (2, 4)
CM E
La zona de rechazo queda entonces definida por ZR : f /f ≥ F0.05;2;4 = 6.94
Dado que fB ∈ ZR, rechazo H0B con un 95 % de confianza y la tasa de actividad
eléctrica por minuto media es distinta para al menos una región del país. De esta
forma, la severidad de las tormentas efectivamente depende del tipo de tormenta y de
la región del país en la que se producen, con un 95 % de confianza.
136
Referencias
Christofferson, R.D. y D.A. Gillette (1987): A Simple Estimator of the Shape Factor of
the Two-Parameter Weibull Distribution. J. Climate Appl. Meteor., 26, 323–325
Devore Jay L. (2008) Probabilidad y Estadística para Ingeniería y Ciencias. 7ma edi-
ción.
Greenwood, J.A., y D. Durand (1960). Aids for fitting the gamma distribution by maxi-
mum likelihood. Technometrics, 2, 55–65.
Husak, G.J., Michaelsen, J. y Funk, C. (2007), Use of the gamma distribution to represent
monthly rainfall in Africa for drought monitoring applications. Int. J. Climatol.
Pérez IA, Sánchez ML y García MA (2007). Weibull wind speed distribution: Numerical
considerations and use with sodar data. Journal of Geophysical Research.
Stocker, T.F., D. Qin, G.-K. Plattner, L.V. Alexander, S.K. Allen, N.L. Bindoff, F.-M.
Bréon, J.A. Church, U. Cubasch, S. Emori, P. Forster, P. Friedlingstein, N. Gillett, J.M.
Gregory, D.L. Hartmann, E. Jansen, B. Kirtman, R. Knutti, K. Krishna Kumar, P. Lem-
ke, J. Marotzke, V. Masson-Delmotte, G.A. Meehl, I.I. Mokhov, S. Piao, V. Ramaswamy,
D. Randall, M. Rhein, M. Rojas, C. Sabine, D. Shindell, L.D. Talley, D.G. Vaughan y S.-
P. Xie, (2013): Resumen técnico. En: Cambio climático 2013. Bases físicas. Contribución
del Grupo de trabajo I al Quinto Informe de Evaluación del Grupo Intergubernamen-
tal de Expertos sobre el Cambio Climático [Stocker, T.F., D. Qin, G.-K. Plattner, M.
Tignor, S.K. Allen, J. Boschung, A. Nauels, Y. Xia, V. Bex y P.M. Midgley (eds.)]. Cam-
bridge University Press, Cambridge, Reino Unido y Nueva York, NY, Estados Unidos de
América.
Thom, H.C.S. (1958). A note on the gamma distribution. Monthly Weather Review, 86,
117–122.
Wilks, D.S. (2006) Statistical Methods in the Atmospheric Sciences. 2nd Edition, Academic
Press, London.
137

Estadística para el Clima UBA

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadística para el Clima UBA

Cargado por

Copyright:

Formatos disponibles

Universidad de Buenos Aires

Facultad de Ciencias Exactas y Naturales

Estadística para el Sistema Climático 1

2. Variables aleatorias y funciones de probabilidad 19

3. Distribuciones de probabilidad Binomial, Poisson y Normal 30

5. Viento. Distribuciones de probabilidad Weibull y Gamma 60

7. Distribución de probabilidad conjunta y correlación 101

8. Análisis de Varianza 121

1.1. Introducción a la estadística y probabilidad

Muchos elementos y conceptos en la estadística se basan en probabilidades. Es por esto

1.1.1. Poblaciones, muestras, espacio muestral

def.: Se denomina experimento a cualquier acción o proceso que genera observaciones de

def.: El conjunto de todos los posibles resultados de un experimento es el espacio muestral,

def.: Cualquier subconjunto de S es un evento o suceso.

Es decir, el cielo está mayormente nublado cuando hay 6 o 7 octavos de cobertura

1.1.2. Relaciones de teoría de conjuntos y Diagramas de Venn

def.: El complemento de un evento A, denotado por A0 (o también a veces notado por A∗

def.: La unión de dos eventos A y B, denotados por A ∪ B y leídos “A o B”, es el evento

def.: La intersección de dos eventos A y B, denotada por A ∩ B y leída “A y B”, es el

Figura 1.1: Diagramas de Venn para: a) Dos eventos A y B, b) la región sombreada

En esta materia utilizaremos la interpretación objetiva de la probabilidad, a partir de la

el número de casos posibles.

tes. Esto indica que la probabilidad de un suceso compuesto de varias alternativas

T (°C) Frecuencia absoluta

Calcular las siguientes probabilidades:

En este ejercicio se indica la frecuencia absoluta (es decir, la cantidad de veces en

1.2. Técnicas de conteo

1.2.1. Permutaciones y combinaciones

El campeón puede ser A y el subcampeón B (llamemos AB), o AC o AD. En el caso

def.: Se denomina permutaciones a la forma de elegir r objetos diferentes de entre un total

de n objetos donde importa el orden de selección, y se nota nP r.

En el ejemplo anterior, n = 4, r = 2. Luego, nP r = 4P 2 = (4−2)!

def.: Se denomina combinaciones a la forma de elegir r objetos diferentes de entre un total

1.2.2. Diagrama de árbol

Recordando el principio multiplicativo, habría 4.2 = 8 duplas posibles. ¿Cómo lo

representamos en un diagrama de árbol? Si llamamos AP 1...AP 4 a los 4 ayudantes de

Determinen ahora la probabilidad de cada una de las ramas. ¿Cuánto suma la

1.2.3. Probabilidad hipergeométrica

a) Sea el suceso A = {extraer 3 bolas blancas}. Si consideramos N = 15, n = 3 y

b) Sea el suceso B = {extraer 2 bolas blancas y 1 negra}. Siguiendo el último razona-

que es exactamente lo mismo que se obtuvo antes.

b) Sea B = {extraer un as, un dos y un tres}. Si se tienen 3 casilleros vacíos, la pre-

Si el problema se resuelve pensando en un diagrama de árbol, es necesario tener en

P (B) = P (1−2−3)+P (1−3−2)+P (2−1−3)+P (2−3−1)+P (3−1−2)+P (3−2−1) =

c) Sea C = {extraer un rey, seguido de un 5, seguido de un 7}. En este caso el orden

1.3. Probabilidad condicional, ley de probabilidad to-

La Figura 1.2 ilustra la forma en la que se interpreta la probabilidad condicional. Dados

Figura 1.2: Diagramas de Venn para ilustrar el concepto de probabilidad condicional.

1.3.2. Ley de probabilidad total

Sean A1 . . . Ak un sistema completo de sucesos. Entonces para cualquier otro evento

1.3.3. Teorema de Bayes

P (Aj ∩ B) P (B|Aj ) P (Aj )

a) Para resolver este problema, comencemos definiendo ordenadamente los eventos:

R = {cliente carga gasolina regular}

E = {cliente carga gasolina extra}

P (T ∩ E) = P (T |E) · P (E) = 0.6 · 0.35 = 0.21

P (T ) = P (T |R)P (R) + P (T |E)P (E) + P (T |P )P (P )

La probabilidad de que un cliente llene el tanque es del 45.5 %.

P (T |R)P (R) P (T |R)P (R)

P (T |E)P (E) 0.6 · 0.35

prop: A y B son independientes si y solo si P (A ∩ B) = P (A)P (B)

def: Los eventos A1 , . . . An son mutuamente independientes si por cada k (k = 2, 3, . . . , n)

P (Ai1 ∩ Ai2 ∩ · · · ∩ Aik ) = P (Ai1 )P (Ai2 ) . . . P (Aik ) (1.10)