Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Autor
Mariano Sebastián Alvarez
Versión 1.1
2020
Índice general
1. Probabilidad 2
1.1. Introducción a la estadística y probabilidad . . . . . . . . . . . . . . . . . 2
1.1.1. Poblaciones, muestras, espacio muestral . . . . . . . . . . . . . . . . 3
1.1.2. Relaciones de teoría de conjuntos y Diagramas de Venn . . . . . . . 4
1.1.3. Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2. Técnicas de conteo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.1. Permutaciones y combinaciones . . . . . . . . . . . . . . . . . . . . 7
1.2.2. Diagrama de árbol . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.3. Probabilidad hipergeométrica . . . . . . . . . . . . . . . . . . . . . 10
1.3. Probabilidad condicional, ley de probabilidad total y teorema de Bayes . . 14
1.3.1. Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3.2. Ley de probabilidad total . . . . . . . . . . . . . . . . . . . . . . . 15
1.3.3. Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3.4. Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4. Estadística descriptiva 48
4.1. Estadística descriptiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.1.1. Histogramas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
i
Estadística para el Sistema Climático 1 M.S. Alvarez
4.2. Medidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.2.1. Medidas de tendencia central . . . . . . . . . . . . . . . . . . . . . 50
4.2.2. Medidas de posición . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.2.3. Medidas de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.3. Box plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
6. Inferencia estadística 75
6.1. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
6.1.1. Intervalo de confianza para la media poblacional . . . . . . . . . . . 75
6.1.2. Intervalo de confianza para la varianza poblacional . . . . . . . . . 80
6.2. Pruebas de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
6.2.1. Pruebas de hipótesis para µ . . . . . . . . . . . . . . . . . . . . . . 83
6.2.2. Errores en las pruebas de hipótesis . . . . . . . . . . . . . . . . . . 84
6.2.3. Pruebas de hipótesis basadas en dos muestras . . . . . . . . . . . . 91
6.2.4. Bondad de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
ii
Estadística para el Sistema Climático 1 M.S. Alvarez
iii
Introducción
Este apunte fue preparado por Mariano Sebastián Alvarez, Jefe de Trabajos Prácticos
de las materias Estadística para el Sistema Climático 1 y Probabilidades y Estadística
pertenecientes a los planes de estudio de las carreras Licenciatura en Ciencias de la At-
mósfera y Licenciatura en Oceanografía del Departamento de Ciencias de la Atmósfera
y los Océanos, Facultad de Ciencias Exactas y Naturales, de la Universidad de Buenos
Aires.
El contenido del apunte se basa en las clases prácticas de la materia, que fueron digita-
lizadas para adecuarse a la modalidad de enseñanza virtual forzada por las restricciones
causadas por la pandemia de COVID-19 a lo largo del 2020. En este apunte se desarrollan
brevemente explicaciones sobre cada tema, pueden encontrar algunos ejemplos y también
28 ejercicios modelo resueltos. Aún así, el apunte fue complementado por clases virtuales
en las que se continuaron discutiendo los temas, por lo que los contenidos del apunte
pueden no ser exhaustivos respecto al programa de la materia.
1
Capítulo 1
Probabilidad
2
Estadística para el Sistema Climático 1 M.S. Alvarez
Ejemplo 1
Considerando el experimento “observar la cobertura nubosa en Ciudad Universitaria
a las 12:00 hs”, ¿cuál es el espacio muestral? Determine además dos eventos.
La cobertura nubosa es una variable discreta que se mide en octavos. El espacio mues-
tral entonces está formado por todos los posibles resultados de medir la cobertura
nubosa:
S = {0; 1; 2; 3; 4; 5; 6; 7; 8}
Un evento puede ser “cielo despejado”, y si lo representamos con la letra D,
D = {0} ⊂ S
Esta notación significa que el único elemento de S que forma parte del evento D es el
0. Además, que el evento D está incluido en el espacio muestral S. Otro evento puede
ser “cielo mayormente nublado”, y si lo representamos con la letra M y lo definimos
acorde a la convención meteorológica,
M = {6; 7} ⊂ S
3
Estadística para el Sistema Climático 1 M.S. Alvarez
Los diagramas de Venn son una representación gráfica de eventos. Para construir un
diagrama de Venn, con un rectángulo cuyo interior representa el espacio muestral S.
Cualquier evento A se representa como el interior de una curva cerrada (generalmente un
círculo) que está contenido en S. En la Figura 1.1 se presentan algunos ejemplos.
4
Estadística para el Sistema Climático 1 M.S. Alvarez
Ejercicio 1
Un estudiante responde al azar a 3 preguntas de verdadero y falso.
a) Escriba el espacio muestral.
b) Escriba el suceso responder “falso” a una sola pregunta.
c) Escriba el suceso responder “verdadero” al menos 2 preguntas.
d) Escriba la unión de estos dos sucesos, la intersección y la diferencia del segundo y
el primero.
Resolución 1
Para resolver este ejercicio notaremos con una V cada respuesta del estudiante como
verdadero y con una F cada respuesta como falso. Entonces, V V F indica que se
respondió verdadero-verdadero-falso.
a) Espacio muestral: S = {V V V ; V F V ; V F F ; F V V ; F F V ; F V F ; F F F ; V V F } son
todas los resultados posibles al responder verdadero o falso a tres preguntas.
b) Si notamos con Φ al evento “responder falso a una sola pregunta”, entonces Φ =
{V F V ; F V V ; V V F }.
c) Si notamos con Υ al evento “responder verdadero a al menos dos preguntas”, Υ =
{V V F ; V F V ; F V V ; V V V }.
d) i) Φ ∪ Υ = {V V F ; V F V ; F V V ; V V V } son todos los elementos que están en Φ o
en Υ.
ii) Φ ∩ Υ = {V V F ; V F V ; F V V } son todos los elementos que están en Φ y en Υ.
iii) Φ∗ ∩ Υ = {V V V } es una de las formas de expresar la diferencia entre los dos
conjuntos.
1.1.3. Probabilidad
Si en un experimento se determina A un evento y es posible repetir de forma idéntica e
independiente el experimento N veces, entonces el cociente entre el número de veces que
ocurre A (n(A)) y el número de realizaciones del experimento (N ) cuando N tiende a
+∞ es la probabilidad del evento A (notada P (A)):
n(A)
lı́m = P (A) (1.1)
N →+∞ N
def.: La regla de Laplace indica que en un espacio muestral formado por sucesos equi-
probables, la probabilidad de un suceso A es el número de casos favorables dividido por
5
Estadística para el Sistema Climático 1 M.S. Alvarez
casos f avorables
P (A) = (1.2)
casos posibles
Los axiomas de probabilidad son las condiciones mínimas que se deben verificar para
que una función definida sobre un conjunto de sucesos determine consistentemente sus
probabilidades.
Axioma 1: P (A) ≥ 0 para cualquier evento A.
Axioma 2: P (S) = 1 la probabilidad del evento seguro es 1.
Axioma 3: P (A1 ∪ A2 ∪ . . . ∪ Ak ) = ki=1 P (Ai ) si Ai son mutuamente excluyen-
P
Ejercicio 2
Dada la siguiente tabla de frecuencias absolutas de ocurrencia de temperatura de
superficie del mar tomada diariamente en una boya del Pacífico Este durante el año
2000:
Resolución 2
6
Estadística para el Sistema Climático 1 M.S. Alvarez
Ejemplo 2
Si A, B, C y D son cuatro equipos que participan de un torneo deportivo, ¿de cuántas
maneras puede asignarse el título de campeón y subcampeón?
7
Estadística para el Sistema Climático 1 M.S. Alvarez
n!
nP r = (1.3)
(n − r)!
Ejemplo 3
Si A, B, C y D son cuatro equipos que participan de un torneo deportivo, ¿de cuántas
maneras puede darse el partido que defina el torneo?
Para este caso, el partido A vs. B es el mismo que B vs. A. Entonces, los partidos
posibles son AB, AC, AD, BC, BD y CD. En total, 6 partidos.
!
n n!
nCr = = (1.4)
r r!(n − r)!
4
!
En el ejemplo anterior, 4C2 = = 4!
= 4.3.2.1
= 12
= 6.
2 2!(4−2)! (2.1)(2.1) 2
obs.: El factor r! reduce la cantidad de casos por no importar el orden en que son selec-
cionados:
nP r
nCr = (1.5)
r!
Ejemplo 4
Para seleccionar una dupla de ayudante de primera y de segunda para una materia se
cuenta con 4 ayudantes de primera y 2 ayudantes de segunda, ¿cuántas duplas pueden
armarse?
8
Estadística para el Sistema Climático 1 M.S. Alvarez
Cada rama del árbol representa una forma posible de llevar a cabo el experimento.
Se denominan ramas de primer orden a aquellas que indican qué AP se elige, ramas
de segundo orden a las que indican qué AS se elige, y así sucesivamente según el
experimento. Por ejemplo, la rama resaltada en rojo marca la dupla obtenida de elegir
a AP 1 en la rama de primer orden y a AS1 en la de segundo orden. En total hay 8
ramas posibles para determinar las duplas.
Los diagramas de árbol son también útiles para determinar cuál es la probabilidad de cada
una de las formas de que un experimento se lleve a cabo. En ese caso, es necesario saber
las probabilidades de cada una de las ramas. No es necesario que las ramas de un dado
orden sean equiprobables (p.e., que P (AP 1) = P (AP 2) = P (AP 3) = P (AP 4) = 0.25),
ni que las probabilidades de las ramas de segundo orden no dependan de la rama de
primer orden elegida (p.e. P (AS1) si vengo por la rama de primer orden AP 1 puede
ser 0.75, pero P (AS1) si vengo por la rama de primer orden AP 3 puede ser 0.5). Este
último concepto es el de probabilidad condicional y lo veremos más adelante. Si queda
definida la probabilidad de cada rama, es posible obtener la probabilidad de cada dupla
multiplicando las probabilidades.
Ejemplo 5
Si las probabilidades de seleccionar cada ayudante de primera y de segunda están
dadas como las indicadas en el diagrama de árbol, ¿cuál es la probabilidad de elegir
la dupla AP 1 y AS1?
9
Estadística para el Sistema Climático 1 M.S. Alvarez
! !
r1 r2
s1 s2
P = ! (1.6)
N
n
Ejercicio 3
¿Cuál es la probabilidad de sacar dos bolas negras de una urna que contiene 15 bolas
blancas y 12 negras, sin reintegrar la bola extraída?
10
Estadística para el Sistema Climático 1 M.S. Alvarez
Resolución 3
Aplicando la definición de probabilidad hipergeométrica, se tiene N = 27, r1 = 15
(bolas blancas) y r2 = 12 (bolas negras). Se quiere extraer n = 2 bolas, de las cuales
dos tienen que ser negras (s2 = 2) y entonces ninguna blanca (s1 = 0).
12 15
! !
·
2 0 12!
· 15!
12 · 11
P = = 2!10! 0!15!
= ≈ 18.8 %
27 27!
27 · 26
!
2!25!
2
Ejercicio 4
Una urna contiene 8 bolas blancas, 5 negras y 2 rojas. Se extraen tres bolas al azar y
se desea saber:
a) La probabilidad de que las tres bolas sean blancas.
b) La probabilidad de que dos sean blancas y una negra.
Resolución 4
8 7
! !
3 0 8!
8·7·6
P (A) = = 3!5!
= = 0, 123
15 15!
15 · 14 · 13
!
3!12!
3
También se puede pensar usando la regla de Laplace, como el cociente entre casos
favorables y casos posibles.
¿De cuántas formas se podrían llenar 3 casilleros con 3 bolas blancas si hay 8 bolas
blancas y no importa el orden en que son sacadas? (Puede ayudar imaginar que cada
bola blanca tiene un número, 1 a 8, y el número que tengan no ! es importante, solo
8
que son blancas, ni tampoco es importante el orden): 8C3 = .
3
¿De cuántas formas se podrían llenar 3 casilleros con 15 bolas distintas (no es impor-
15
!
tante el color, ni el orden)?: 15C3 = .
3
Luego, P (A) = 8C3
15C3
, que es exactamente lo mismo que se encontró antes.
11
Estadística para el Sistema Climático 1 M.S. Alvarez
8 5
! !
2 1 8! 5! 8.7
·5
8.7.5
P (B) = = 2!6! 1!4!
= 2
= · 3 = 0.307
15 15! 15.14.13
15.14.13
!
3!12! 3.2.1
3
Ejercicio 5
Se extraen 3 cartas de una baraja de 50:
a) ¿Cuál es la probabilidad de que sean tres sotas?
b) ¿Y de que sean un as, un dos y un tres?
c) ¿Y de que salga un rey, seguido de un cinco y éste de un siete?
Resolución 5
a) Sea A = {extraer 3 sotas}. En este caso dibujar un diagrama de árbol sería com-
plicado, pero es posible imaginarlo. La baraja tiene 50 cartas, 4 de cada número y
2 comodines. En la rama de primer orden del diagrama del árbol la probabilidad de
sacar un 10, usando la regla de Laplace, es 4/50. Ahora, si se sigue imaginariamente
la rama del árbol que cumple A, se debería obtener nuevamente una sota, y como
ahora en el mazo solo hay 3 sotas entre 49 cartas, la probabilidad es 3/49. Finalmente,
para la rama de tercer orden donde se obtiene nuevamente una sota, la probabilidad
es 2/48. De esta forma, multiplicando los totales se obtiene P (A).
12
Estadística para el Sistema Climático 1 M.S. Alvarez
4 3 2
P (A) = · · = 0.0002 = 0.02 %
50 49 48
Alternativamente, es posible pensar el problema de la siguiente manera. Si hay tres
casilleros que se pueden llenar con cartas que se extraen del mazo. ¿De cuántas formas
se pueden sacar 3 sotas de entre 4 sotas posibles? 4C3 (esas formas son copa-basto-
oro, copa-espada-oro, copa-basto-espada, espada-oro-basto). Por otro lado, ¿de cuántas
formas se pueden llenar 3 casilleros con 50 cartas distintas? 50C3. Entonces, usando
la regla de Laplace:
4
!
3 4!
4·3·2
P (A) = = 3!·1!
= = 0.0002
50 50!
50 · 49 · 48
!
3!·47!
3
4 4 4
! ! !
1 1 1 4! 4! 4!
6 (4 · 4 · 4)
P (B) = = 1!3! 1!3! 1!3!
= = 0.0032 = 0.32 %
50 50!
50 · 49 · 48
!
3!47!
3
13
Estadística para el Sistema Climático 1 M.S. Alvarez
4 4 4
! ! !
1 1 1 4·4·4
P (C) = = = 0.00054 = 0.054 %
50P 3 50 · 49 · 48
Si se piensa en un diagrama de árbol, en este caso es solo una rama la que indica
el orden pedido por el enunciado. En la rama de primer orden se debe sacar un rey
(probabilidad 4/50), en la de segundo orden un 5 (probabilidad 4/49), y en la de tercer
orden un 7 (probabilidad 4/48). Luego,
4 4 4
P (C) = · · = 0.00054 = 0.054 %
50 49 48
P (A ∩ B)
P (A|B) = (1.7)
P (B)
14
Estadística para el Sistema Climático 1 M.S. Alvarez
obs: Notar que la diferencia entre la Figura 1.2c y la Figura 1.1b radica en como está
definido el espacio muestral, por eso la Figura 1.1b no es una probabilidad condicional,
sino una intersección.
k
P (B) = P (B|A1 ) P (A1 ) + · · · + P (B|Ak ) P (Ak ) = P (B|Ai ) P (Ai ) (1.8)
X
i=1
Ejercicio 6
En cierta estación de servicio, 40 % de los clientes utilizan gasolina regular sin plomo,
35 % usan gasolina extra sin plomo y 25 % gasolina premium sin plomo. De los clientes
que consumen gasolina regular, sólo 30 % llenan el tanque. De los que compran gasolina
extra, 60 % llenan el tanque, en tanto que la mitad de los que llevan gasolina premium
llenan el tanque.
a) ¿Cuál es la probabilidad de que el siguiente cliente pida gasolina extra sin plomo
y llene el tanque?
b) ¿Cuál es la probabilidad de que el siguiente cliente llene el tanque?
c) Si el siguiente cliente llena el tanque, ¿cuál es la probabilidad de que pida gasolina
regular? ¿Y extra? ¿Y premium?
Resolución 6
15
Estadística para el Sistema Climático 1 M.S. Alvarez
El problema indica qué porcentaje de clientes respecto al total elige cada tipo de
gasolina, es decir, cantidad de clientes que cargan gasolina regular sobre cantidad
total de clientes (multiplicado por 100 para obtener un porcentaje). Esa es la regla
de Laplace para obtener la probabilidad. De esta forma, P (R) = 0.40, P (E) = 0.35 y
P (P ) = 0.25.
Por otro lado, el enunciado también indica qué porcentaje de clientes llena el tanque
si ese cliente cargó cada tipo de gasolina. En este caso, se nos está indicando una
probabilidad condicional: por ejemplo, ¿cuál es la probabilidad de que un cliente llene el
tanque si eligió cargar gasolina regular? La condición que restringe el espacio muestral
es el hecho de haber elegido cargar gasolina regular, es decir, el evento R. Entonces la
notación correcta es P (T |R) = 0.30. De la misma forma, P (T |E) = 0.60 y P (T |P ) =
0.50.
Ahora, se busca determinar cuál es la probabilidad de que el siguiente cliente pida
gasolina extra sin plomo y llene el tanque. En este caso, se busca la probabilidad
de que ocurran ambas cosas, sin tener información a priori, como es en el caso de
la probabilidad condicional. La probabilidad de que el siguiente cliente pida gasolina
extra sin plomo y llene el tanque es P (E ∩ T ). Para buscar esta intersección se puede
utilizar la ecuación 1.7. Despejando,
Así, la probabilidad de que el siguiente cliente pida gasolina extra sin plomo y llene el
tanque es del 21.0 %.
b) Siguiendo la notación del ejercicio, debemos determinar ahora P (T ). Podríamos
usar la ley de probabilidad total siempre y cuando R, E y P sean un sistema completo
de sucesos. En primer lugar, R, E y P son mutuamente excluyentes, porque si un
usuario carga gasolina regular, no carga gasolina extra ni premium, y análogamente
para cada tipo. Por otro lado, R, E y P son exhaustivos, porque los clientes que cargan
gasolina solo pueden elegir una entre esos tres tipos. Esto puede verse también en que
P (R) + P (E) + P (P ) = 1. Entonces, se puede utilizar la ley de probabilidad total y
16
Estadística para el Sistema Climático 1 M.S. Alvarez
c) En este ítem, continuando con la notación del ejercicio, se sabe a priori que el cliente
llenó el tanque. Con esa información debemos determinar cuál es la probabilidad de
que lo haya hecho con gasolina regular. Estamos buscando entonces P (R|T ), el evento
condicionante, la información a priori, es que ocurrió el evento T .
A partir de la información del enunciado y de los ítems anteriores, considerando que
R, E y P son un sistema completo de sucesos (demostrado en el ítem b)), podemos
utilizar el teorema de Bayes.
0.3 · 0.4
= = 0.264
0.455
Análogamente,
P (T |P )P (P ) 0.5 · 0.25
P (P |T ) = = = 0.27
P (T ) 0.455
Entonces, si un cliente llenó el tanque, lo más probable es que lo haya hecho con
gasolina extra.
1.3.4. Independencia
def: Los eventos A y B son independientes si P (A|B) = P (A), es decir, el hecho de
que B haya ocurrido no condiciona la probabilidad de que ocurra A. Dos eventos son
dependientes en caso contrario.
Ejemplo 6
La probabilidad de que un docente se equivoque al corregir cualquier pregunta de
un examen es 0.1. Si un examen tiene 10 preguntas y estas se corrigen de forma
17
Estadística para el Sistema Climático 1 M.S. Alvarez
18
Capítulo 2
Las variables aleatorias pueden ser discretas, en el caso en que sus valores formen un
conjunto finito o se puedan listar en una sucesión infinita, o continuas, cuando sus posibles
valores abarcan un intervalo en la recta numérica. La “cantidad de niños en un grupo
de 5 hijos/as” es una v.a. discreta, mientras que “distancia del avión más cercano a
Aeroparque” es una v.a. continua.
19
Estadística para el Sistema Climático 1 M.S. Alvarez
Por otro lado, la función masa de probabilidad acumulada indica para cualquier valor x de
una v.a. X, cuál es la probabilidad de que X sea a lo sumo x. Se nota con F (x) y entonces
F (x) = P (X ≤ x) = y:y≤x P (y). Siguiendo el ejemplo, del gráfico anterior vemos que
P
Ejercicio 7
Hallar la distribución de probabilidad de niños y niñas en familias de 3 hijos, supo-
niendo igual probabilidad para niños y niñas. Representar gráficamente la distribución
obtenida.
Resolución 7
20
Estadística para el Sistema Climático 1 M.S. Alvarez
La probabilidad de que haya solo una niña en la familia es P (X = 1). Pero la niña
puede haber nacido primera, segunda o tercera. Entonces,
Análogamente,
0.125 si x = 0, 3
(
f (x) =
0.375 si x = 1, 2
21
Estadística para el Sistema Climático 1 M.S. Alvarez
Una vez conocida f (x) es posible buscar F (x): F (0) = f (0) = 0.125, F (1) = f (0) +
f (1) = 0.5, F (2) = f (0) + f (1) + f (2) = 0.875 y F (3) = f (0) + f (1) + f (2) + f (3) = 1.
Gráficamente:
1
+ 83 x 0 ≤ x ≤ 2
(
f (x) = 8
0 de lo contrario
22
Estadística para el Sistema Climático 1 M.S. Alvarez
Ejercicio 8
Dada la siguiente función de densidad de probabilidad
ke−x/2 si x ≥ 0
f (x) =
0
en otro caso
a) Determinar el valor de k.
b) P (2 ≤ X ≤ 6)
c) P (X ≥ 8)
d) P (X < 1)
Resolución 8
a) Dada f (x), para´determinar k usamos que f (x) es una función densidad de proba-
+∞
bilidad y entonces −∞ f (x)dx = 1
23
Estadística para el Sistema Climático 1 M.S. Alvarez
ˆ +∞ ˆ 0 ˆ +∞ ˆ +∞
f (x)dx = 0dx + ke −x/2
dx = k e−x/2 dx
−∞ −∞ 0 0
ˆ +∞ ˆ −∞ ˆ −∞ ˆ n
k −x/2
e dx = k e (−2)du = −2k
u
e du = lı́m −2k
u
eu du =
n→−∞
0 0 0 0
= lı́m [− 2keu |n0 ]
n→−∞
Y resolviendo el límite,
24
Estadística para el Sistema Climático 1 M.S. Alvarez
ˆ ˆ
6
1 −x/2 1 −3 h i
P (2 ≤ X ≤ 6) = e dx = − · 2 eu du = − e−3 − e−1 = 0.3181
2 2 2 −1
c) La probabilidad de que X sea mayor a 8 debería ser muy baja, lo que se evidencia
al ver el área debajo de la curva en ese intervalo:
ˆ ˆ ˆ
+∞
1 −x/2 n
1 −x/2 −n/2
P (X > 8) = e dx = lı́m e dx = − lı́m eu du =
8 2 n→+∞
8 2 n→−∞
−4
= lı́m (e −n/2
− e−4 ) = 0.018
n→+∞
25
Estadística para el Sistema Climático 1 M.S. Alvarez
ˆ ˆ
1 1 −1/2 h i
P (X 6 1) = e −x/2
dx = − eu du = − e−1/2 − e0 = 1 − e−1/2 = 0.393 =
2 0 0
= 39.3 %
2.2. Momentos
Los momentos son un conjunto de valores que caracterizan una distribución de proba-
bilidad (por ejemplo, en qué valor de la variable aleatoria están centradas, su forma, la
dispersión de los valores). Dos distribuciones de probabilidad son iguales cuando todos
sus momentos son iguales. Los momentos pueden ser calculados respecto al origen o a la
media.
∀x x P (x)
( P
ν
αν = E (X ) =ν ´ +∞ (2.1)
−∞
xν f (x)dx
∀x xP (x)
( P
α1 = E (X) = µ = ´ +∞ (2.2)
−∞
xf (x)dx
26
Estadística para el Sistema Climático 1 M.S. Alvarez
∀x (x − µ) P (x)
( P
ν
µν = E [(X − µ) ] =
ν ´ +∞ (2.3)
−∞
(x − µ)ν f (x)dx
Los momentos que utilizaremos en este curso son el de segundo y el tercer orden. El de
segundo orden se denomina varianza, y es una medida de cuánto se dispersan los valores
de X respecto al valor medio. Se nota con σ 2 . El desvío estándar es la raíz cuadrada de
la varianza, y se nota con σ. La ventaja del desvío estándar frente a la varianza es que
tiene las mismas unidades que la variable X. Por ejemplo, si X es la temperatura máxima
diaria en Buenos Aires, su unidad es ◦ C. La varianza para la temperatura máxima en
Buenos Aires tiene entonces unidades de (◦ C)2 y el desvío estándar ◦ C. Es posible probar
que
µ3
γ1 = (2.5)
σ3
Si γ1 > 0 entonces la distribución de probabilidad tiene asimetría positiva o cola derecha,
es decir que la variable toma valores más altos de X menos frecuentemente que valores más
bajos de X. De manera opuesta, si γ1 < 0 la distribución tiene asimetría negativa o cola
izquierda, es decir que la variable toma valores más altos de X más frecuentemente que
valores más bajos de X. En la Figura 2.5 se muestran ejemplos para ambos casos.
27
Estadística para el Sistema Climático 1 M.S. Alvarez
Ejercicio 9
La función de densidad de probabilidad acumulada de una variable aleatoria X está
dada por
1 3
27 x
si 0 < x < 3
F (x) =
1 si x ≥ 3
Resolución 9
0 en otro caso
28
Estadística para el Sistema Climático 1 M.S. Alvarez
1 26
P (X > 1) = 1 − P (X ≤ 1) = 1 − F (1) = 1 − = = 0.963
27 27
Se puede verificar rápidamente en la figura que el área bajo la curva en el intervalo
(1, 3) representa casi la totalidad del área bajo la función de densidad, y por eso el
resultado da cercano a 1.
8 1 7
P (1 < X < 2) = F (2) − F (1) = − = = 0.259
27 27 27
d) Para calcular la varianza utilizaremos la ecuación 2.4 y que f (x) = 0 fuera del
intervalo (0, 3).
ˆ ˆ ˆ 3
+∞ 3
x2 3
x3 x4 81
E(X) = µ = xf (x)dx = x dx = dx = = = 2.25
−∞ 0 9 0 9 36 0 36
ˆ ˆ 3
+∞ 3
2x
2
x5 27
E X 2
= x f (x)dx =
2
x dx = = = 5.4
−∞ 0 9 45 0 5
√
σ= 0.3375 = 0.58
29
Capítulo 3
Distribuciones de probabilidad
Binomial, Poisson y Normal
Las v.a. binomiales son siempre mayores o iguales a cero, ya que son el resultado de contar.
Las v.a. binomiales siguen una distribución de probabilidad binomial, cuyos parámetros
son n y p. Esto se nota X ∼ B(n, p).
La función masa de probabilidad binomial indica P (X = x) si X ∼ B(n, p), y se define
como:
!
n
px (1 − p)n−x x = 0, 1, 2, . . . n
b(X = x; n, p) = x (3.1)
0 de lo contrario
30
Estadística para el Sistema Climático 1 M.S. Alvarez
3.1.1. Momentos
Si X ∼ B(n, p),
media = np (3.2)
q
desvío estándar = np(1 − p) (3.4)
1 − 2p
coeficiente de asimetría = q (3.5)
np(1 − p)
Ejercicio 10
Una compañía que produce cristal fino sabe por experiencia que el 10 % de sus copas
tienen imperfecciones y deben clasificarse como “de segunda”.
a) Entre seis copas seleccionadas al azar, ¿qué tan probable es que sólo una sea de
segunda?
b) Entre seis copas seleccionadas al azar, ¿cuál es la probabilidad de que por lo menos
dos sean de segunda?
Resolución 10
Si vamos a tratar a X como una v.a. binomial, debemos primero verificar que se
cumplan las condiciones para un experimento binomial. Las repetimos
i) El experimento consiste en una secuencia de n ensayos, donde n se fija antes del
experimento. En este problema, el experimento consiste de 6 ensayos; cada ensayo
consiste en analizar si una copa es de segunda o no.
ii) Los ensayos son idénticos y cada uno puede resultar en éxito (E) o fracaso (F ).
Consideramos que cada análisis de la copa es idéntico, y E es que la copa sea de
segunda y F que no lo sea.
iii) Los ensayos son independientes. Consideramos que que una copa sea de segunda
no afecta que la siguiente lo sea (o no lo sea).
31
Estadística para el Sistema Climático 1 M.S. Alvarez
6 6!
!
P (X = 1) = b(1; 6, 0.1) = 0.11 · 0.95 = 0.11 · 0.95 = 0.354
1 1!(6 − 1)!
Luego, la probabilidad de que solo una copa entre 6 sea de segunda es del 35.4 %.
Ejercicio 11
En una localidad de la provincia de Buenos Aires se observó la siguiente tabla de
frecuencia de días con precipitación por semana (X):
Resolución 11
Los valores que puede tomar la v.a. son 0, 1, 2, . . . , 7. El problema nos da la siguiente
información observada:
32
Estadística para el Sistema Climático 1 M.S. Alvarez
Para buscar la cantidad de semanas en las que llovería 0 días, 1 día, ... , 7 días si la
v.a. X ∼ Bin(7, 0.157), determinamos primero cuál es la probabilidad de acuerdo a la
función masa de probabilidad binomial b(x; 7, 0.157) para cada valor posible de X.
33
Estadística para el Sistema Climático 1 M.S. Alvarez
De esta forma pueden obtenerse cada una de las frecuencias teóricas para la variable
aleatoria. Al ser un valor teórico, y si bien representa el número de días de precipitación
en una semana, no es necesario que sea un valor entero. Por otro lado, es importante
verificar que la suma de las frecuencias teóricas sea igual a la cantidad total de semanas
analizadas en el problema. La frecuencia teórica representa entonces la cantidad de
semanas en las que lloverían x días si X ∼ Bin(7, 0.157). Ahora nos resta comparar
con la distribución observada de X. Agregamos los resultados a la tabla:
34
Estadística para el Sistema Climático 1 M.S. Alvarez
Más adelante en el curso aprenderán herramientas estadísticas que les permitan com-
parar distribuciones de probabilidad cuantitativamente.
b) Calculamos la varianza y la asimetría usando las definiciones para cuando una v.a.
sigue una distribución binomial.
1 − 2p 1 − 2 · 0.157
coeficiente de asimetría = q = √
np(1 − p) 0.926
e−λ λx
p(X = x; λ) = x = 0, 1, 2, . . . (3.6)
x!
Si se considera una v.a. binomial, en un experimento donde n → ∞ y p → 0, de modo
tal que np tienda a un valor λ > 0, entonces b(x; n, p) → p(x; λ). Esto quiere decir que la
distribución de probabilidad de Poisson es un caso límite de la distribución de probabilidad
binomial, cuando los experimentos son muy grandes y la probabilidad de éxito muy baja.
Como regla práctica, consideraremos en este curso que n ≥ 30 y p ≤ 0.1 son condiciones
suficientes para que una función masa de probabilidad binomial sea aproximada por la
35
Estadística para el Sistema Climático 1 M.S. Alvarez
3.2.1. Momentos
Si X ∼ P oi(λ)
media = λ = np (3.7)
varianza = λ (3.8)
√
desvío estándar = λ (3.9)
1
coeficiente de asimetría = √ (3.10)
λ
obs: Notar que el coeficiente de asimetría es siempre positivo para v.a. con distribución de
Poisson. Al ser p muy chica, la cantidad de éxitos a lo largo de n ensayos tiene más chances
de ser baja, y por eso los valores más chicos de X resultan con mayor probabilidad.
Ejercicio 12
Para evaluar el desempeño de un meteorólogo se consideran los días con errores en
su pronóstico para el mes de Septiembre. En sus 5 años de trabajo se verificó que el
meteorólogo se equivocó –considerando sólo el mes de Septiembre– 15 días. Conside-
re que la probabilidad de que un día se comentan errores en su pronóstico durante
Septiembre es constante.
a) Defina la variable aleatoria de este problema. ¿Qué distribución de probabilidad
teórica puede ajustar a este caso? Justifique. Indique los parámetros que caracte-
rizan a la distribución elegida y los valores que toman en este problema.
Resolución 12
36
Estadística para el Sistema Climático 1 M.S. Alvarez
La v.a. X es discreta, por lo que si verificamos que cumple los criterios de un experi-
mento binomial, podríamos usar esa distribución. Veamos: i) el experimento consiste
de 30 ensayos (los 30 días de septiembre), fijados con antelación; ii) cada ensayo resulta
en E (el meteorólogo comete un error) o F (el meteorólogo no comete un error), y los
ensayos son idénticos; iii) tendremos que suponer que los ensayos son independientes
aunque esto no es totalmente cierto (suponemos que si un día el meteorólogo comete
un error esto no afecta a que el día siguiente vuelva a cometerlo); iv) la probabilidad
de éxito es constante (lo establece el enunciado).
Entonces, bajo las condiciones de un experimento binomial con n = 30 y buscamos p
usando la regla de Laplace:
e−3 30
p(X = 0; λ = 3) = = 0.0497 = 4.97 %
0!
37
Estadística para el Sistema Climático 1 M.S. Alvarez
def: Una variable aleatoria continua X tiene una distribución normal con parámetros µ y
σ, donde −∞ < µ < +∞ y σ > 0, si la función de densidad de probabilidad de X es
1
e−(x−µ) /(2σ )
2 2
f (x; µ, σ) = √ −∞<x<∞ (3.11)
2πσ
ˆ b
1 2 2
P (a ≤ X ≤ b) = √ e−(x−µ) /2σ dx (3.12)
a 2πσ
Sin embargo, no es posible calcular esa integral con técnicas de integración estándar. Por
eso, se la calculó para el caso en que µ = 0 y σ = 1 para ciertos valores de a y b y se volcó
la información en una tabla, que puede ser utilizada para calcular las probabilidades para
cualquier µ y σ.
1 2
f (z; 0, 1) = √ e−z /2 −∞<z <∞ (3.13)
2π
38
Estadística para el Sistema Climático 1 M.S. Alvarez
Figura 3.1: Φ(z0 ) es el área sombreada bajo la curva en el intervalo (−∞; z0 ) y representa
la probabilidad de que Z < z0 si Z ∼ N (0, 1)
! !
a−µ b−µ b−µ a−µ
P (a ≤ X ≤ b) = P ≤Z≤ =P Z≤ −P Z ≤ =
σ σ σ σ
!
b−µ a−µ
=Φ −Φ (3.15)
σ σ
39
Estadística para el Sistema Climático 1 M.S. Alvarez
Figura 3.2: Ilustración de la propiedad P a−µ
σ
≤Z≤ b−µ
σ
=Φ b−µ
σ
−Φ a−µ
σ
40
Estadística para el Sistema Climático 1 M.S. Alvarez
Ejemplo 7
Para buscar P (Z < 0.55) = Φ(0.55) en la tabla, debemos ubicar la fila y columna
que forman z = 0.55. La primera columna de la tabla indica el primer decimal de z,
entonces buscamos 0.5. La primera fila de la tabla indica el segundo decimal de z,
en este caso necesitamos 0.05. Uniendo entonces estas fila y columna (como se ve en
la Figura 3.3 con una línea roja), encontramos el valor en el cuerpo de la tabla que
representa Φ(0.55) y es 0.7088. Entonces, P (Z < 0.55) = 70.88 %.
Además la tabla puede usarse para encontrar un valor de z tal que P (Z ≤ z) valga algún
número en particular, como muestra el siguiente ejemplo.
Ejemplo 8
41
Estadística para el Sistema Climático 1 M.S. Alvarez
Usando la tabla normal estándar (Fig. 3.3) en este caso se busca el valor de 0.800
en el cuerpo de la tabla. El más cercano es 0.7995. Ahora, siguiendo la misma fila y
columna de ese valor de Φ, encontramos a qué valor de z corresponde: z = 0.84. Luego,
z = 0.84 es tal que P (Z < 0.84) = 0.7995 ' 0.800 = 80 %.
ˆ Xp
p
Xp / f (y)dy = (3.16)
−∞ 100
42
Estadística para el Sistema Climático 1 M.S. Alvarez
Ejercicio 13
Suponiendo que la temperatura diaria de superficie en una dada localidad sigue una
distribución normal con media 24,0°C y desviación estándar 3,0°C.
a) Calcular la probabilidad de que la temperatura se encuentre entre 18,0 y 20,0°C.
b) Calcular la probabilidad de que la temperatura supere 21,0°C.
c) Calcular los cuartiles de la distribución.
d) ¿A qué tercil corresponde una temperatura de 23°C?
e) ¿Cuál es el valor por debajo del cual se encuentra el 2,5 % de los datos?
f) ¿Cuántos días por año se espera que la temperatura sea igual o menor que 19°C?
Resolución 13
a) Para buscar P (18.0 < T < 20.0), llevamos la variable T , que tiene una distribución
Normal, a una distribución Normal estándar. Esto es, estandarizamos T para obtener
Z. Usando la propiedad 3.15:
43
Estadística para el Sistema Climático 1 M.S. Alvarez
21.0 − 24.0
P (T > 21.0) = P Z > = P (Z > −1)
3.0
c) Los cuartiles de la distribución son T25 , T50 y T75 . Al no poder obtenerlos directa-
mente, buscamos primero los cuartiles de la distribución normal estándar: Z25 , Z50 y
Z75 .
Para encontrar Z25 , buscamos el valor z/Φ(z) = 0.25 usando la tabla normal estándar.
Tenemos que Φ(−0.67) = 0.2514 y Φ(−0.68) = 0.2483. Entonces, el primer cuartil
toma por valor alguno entre −0.67 y −0.68. Elegimos Z25 = −0.675.
44
Estadística para el Sistema Climático 1 M.S. Alvarez
Ahora necesitamos transformar los valores de Z a nuestra variable T . Para eso deses-
T −µ
tandarizamos Z usando que Z = . De esta forma es posible obtener T a partir
σ
de Z usando T = Z · σ + µ.
Los valores T25 , T50 y T75 están representados con las líneas a guiones en la figura
de arriba, y permiten formar cuatro intervalos con la misma probabilidad, el 25 %:
(−∞, 22.0), (22.0, 24.0), (24.0, 26.0) y (26.0, +∞). A estos intervalos también se los
referencia como cuartiles: primer cuartil, segundo cuartil, tercer cuartil y cuarto cuartil.
Entonces, en función del contexto es que se determina si al hablar del, por ejemplo,
primer cuartil, se está haciendo referencia a X25 o al intervalo (−∞, X25 ). Lo mismo
es válido para cualquier otro percentil.
d) ¿A qué tercil corresponde una temperatura de 23.0◦ C? Como nos preguntan a qué
tercil pertenece un valor, se refiere en este caso a los terciles como intervalos.
Una de las formas de encarar este problema es buscar los terciles igual que en el ítem
c) y una vez encontrados X33.3 y X66.6 ver en qué tercil cae 23.0◦ C. Análogamente,
entonces, sabiendo por la tabla normal estándar que Φ(−0.43) ' 0.333 y que por
simetría Φ(0.43) ' 0.666.
45
Estadística para el Sistema Climático 1 M.S. Alvarez
De esta forma, los terciles son: primer tercil (frecuentemente también llamado tercil
inferior) (−∞, 22.7), segundo tercil (22.7, 25.3) y tercer tercil (frecuentemente tam-
bién llamado tercil superior) (25.3, +∞). De esta forma vemos que el valor de 23.0◦ C
pertenece al segundo tercil. En la siguiente figura se marcan los valores de T33.3 y T66.6
con líneas de guiones y con una línea negra se marca T = 23.0, que se encuentra en el
segundo tercil.
A medida que se van incorporando estos conceptos puede resultar más fácil resolver
una pregunta como la de este ítem (¿a qué tercil corresponde T = 23.0?) de la siguiente
manera:
Si buscamos P (T < 23.0) = P Z < 23.0−24.03.0
= P (Z < −0.333) ' 0.3707. Entonces,
como el primer tercil es el intervalo desde −∞ que acumula 33.3 % de probabilidad,
T = 23.0 no puede caer en el primer tercil (porque hasta 23.0 se acumula un 37.07 %
de probabilidad). El segundo tercil tiene como límite superior T66.6 y se acumula desde
−∞ un 66.6 % de probabilidad. Ese valor ya es superior al acumulado hasta T = 23.0,
por lo tanto 23.0 pertenece al segundo tercil. Noten que para seguir este razonamiento
no hizo falta calcular los valores de T33.3 ni T66.6 .
e) El valor por debajo del cual se encuentra el 2.5 % de los datos se busca de manera
análoga a los percentiles:
46
Estadística para el Sistema Climático 1 M.S. Alvarez
f) ¿Cuántos días por año se espera una temperatura por debajo de 19.0◦ C? Dado que
19.0 − 24.0
P (T ≤ 19.0) = P Z ≤ ' P (Z ≤ −1.67) = 0.0475
3.0
casos favorables
P (T ≤ 19.0) =
casos posibles
47
Capítulo 4
Estadística descriptiva
4.1.1. Histogramas
Dada una sucesión de mediciones de una variable, los histogramas son una representación
gráfica de la probabilidad de ocurrencia de los valores que puede tomar la variable. Al
trabajar con variables continuas, se subdivide el eje de medición en un número adecuado
de intervalos de clase o clases, de forma tal que cada observación quede contenida en
exactamente una clase. La frecuencia absoluta de cada intervalo indica el número de
observaciones que caen en cada intervalo de clase, mientras que la frecuencia relativa es
el cociente entre la frecuencia absoluta de cada intervalo de clase y la cantidad total de
datos, es decir, la proporción de datos que cae en un intervalo.
Los histogramas pueden ser de frecuencias absolutas o de frecuencias relativas (ver Fig.
4.1). Este último permite visualizar una aproximación a la función de probabilidad de
la variable, ya que el área de cada rectángulo es proporcional a la frecuencia relativa
(probabilidad) del intervalo.
48
Estadística para el Sistema Climático 1 M.S. Alvarez
Figura 4.1: Ejemplos de histogramas con datos de Temperatura de la Superficie del Mar
(TSM, ◦ C) del ejercicio adicional 2
(a) A partir de frecuencias absolutas acumuladas (b) A partir de frecuencias relativas acumuladas
49
Estadística para el Sistema Climático 1 M.S. Alvarez
4.2. Medidas
En esta sección se compilan las expresiones de las distintas medidas que caracterizan la
distribución de probabilidades representada por el histograma. Si se cuenta con todos los
datos entonces el cálculo es exacto, mientras que si se cuenta con los datos agrupados en
intervalos entonces se puede estimar un valor para cada medida, bajo distintas aproxima-
ciones basadas en la construcción del histograma y en interpolación gráfica.
50
Estadística para el Sistema Climático 1 M.S. Alvarez
1 XN
1 Xq
x̄ = xi x̄ = xc f i
Media N i=1 N i=1 i
(50 − P1 )
xN + x N +1 /2 si N par me = Linf + a
Mediana me = x N +1 (P2 − P1 )
2 2
si N impar
2
51
Estadística para el Sistema Climático 1 M.S. Alvarez
1 XN
1 Xq
Varianza s =
2
(xi − x̄)2 s =
2
fi (xci − x̄)2
N i=1 N i=1
(xi − x̄)3
1 PN
fi (xci − x̄)3
Pq
Asimetría γ1= P i=1
N
1
2 3/2
γ1= P i=1
N
(µ3 /σ3 )
1 N
(x − 2 3/2
N i=1 i x̄) 1 q
f i (x c − x̄)
N i=1 i
(xi − x̄)4
1 PN
fi (xci − x̄)4
Pq
Curtosis γ2 = PN i=1
1
2 γ2 = P i=1
N
(µ4 /σ4 ) 1 N
i=1 (xi − x̄)2 1 q
fi (xci − x̄)2
2
N N i=1
52
Estadística para el Sistema Climático 1 M.S. Alvarez
Ejercicio 14
A partir de los datos agrupados de temperatura de la superficie del mar (SST) semanal
en la región Niño 3.4 para el período 1990-2010:
a) Graficar la ojiva de frecuencias relativas porcentuales.
b) Calcular el intervalo intercuartil, el primer decil, la mediana, la moda y la media.
c) Determinar el signo de la asimetría.
d) Esquematizar el box-plot utilizando mediana, intervalo intercuartil, mínimo y má-
ximo.
e) Estudios determinaron que la convección de tipo muy intenso en la región se de-
sarrolla cuando la temperatura de la superficie del mar semanal supera los 28°C.
Determinar cuál es la probabilidad de que se den condiciones para desarrollar este
tipo de convección en la región.
Figura 4.4: Histograma de frecuencias absolutas para la SST en la región Niño 3.4
Resolución 14
Usando los datos que se obtienen del histograma de frecuencias relativas de la TSM
en la región del Niño 3.4, resolvemos:
53
Estadística para el Sistema Climático 1 M.S. Alvarez
Linf xci Lsup frec. abs. frec. abs. acum. frec. rel. acum. ( %)
23.6 24 24.4 0 0 0
24.4 24.8 25.2 39 39 3.61
25.2 25.6 26 119 158 14.65
26.0 26.4 26.8 208 366 33.95
26.8 27.2 27.6 334 700 64.93
27.6 28 28.4 274 974 90.35
28.4 28.8 29.2 86 1060 98.33
29.2 29.6 30.0 18 1078 100
Con los datos de la tabla podemos dibujar la ojiva, uniendo los puntos (Lsupi , facumi ),
usando la última columna para que sean frecuencias relativas acumuladas expresadas
en porcentaje. Se muestra sobre el histograma para que sea más fácil la asociación
entre los dos.
54
Estadística para el Sistema Climático 1 M.S. Alvarez
(25 − 14.65)
x25 = 26 + 0.8 = 26.42
(33.95 − 14.65)
(75 − 64.93)
x75 = 27.6 + 0.8 = 27.91
(90.35 − 64.93)
En ambos casos se puede verificar que x25 y x75 caen en los intervalos identificados
y que si se siguen los valores de los cuartiles desde el eje x hasta la ojiva y luego
horizontalmente hasta el eje y, se acumula la probabilidad esperada. Análogamente
para la mediana, está contenida en el intervalo (26.8, 27.6],
(50 − 33.95)
me = x50 = 26.8 + 0.8 = 27.21
(64.9 − 33.95)
1 X 8
1
x̄ = xci f i = (24.8 · 39 + 25.6 · 119 + · · · + 29.9 · 18) = 27.15
1078 i=1 1078
Finalmente, para calcular la moda a partir de los datos agrupados se hace la suposición
de que la moda está contenida en el intervalo modal, lo que no es necesariamente cier-
to. Si contáramos con todos los 1078 datos podríamos buscar cuál valor se repite más:
podría ser que el valor que más se repita sea el 29.5 y que ocurra 16 veces; sin embargo,
ese valor no pertenece al intervalo modal, es decir, al intervalo con mayor frecuencia
absoluta, el (26.8, 27.6]. Habiendo aclarado esto, calculamos la moda asumiendo que
el valor más probable se encuentra en el intervalo modal:
(334 − 208)
M o = 26.8 + 0.8 = 27.34
(334 − 208) + (334 − 274)
Si bien las unidades se han omitido por simplicidad, es oportuno recordar que los
percentiles, la media, mediana y moda tienen las mismas unidades que la variable, en
este caso ◦ C.
fi (xci − 27.15)3
1 P8
γ1= 1078 i=1
3/2 = −0.19 < 0
i=1 fi (xci − 27.15)
1 P8 2
1078
La asimetría es negativa, aunque es muy cercana a cero por lo que no es tan marcada.
55
Estadística para el Sistema Climático 1 M.S. Alvarez
(P − 64.93)
28.0 = 27.6 + 0.8
(90.35 − 64.93)
El box plot más simple entonces consta de cinco valores: valor mínimo, cuartil inferior,
mediana, cuartil superior y valor máximo. Sobre un eje (que puede ser horizontal o verti-
cal), se dibuja una caja cuyos extremos son los cuartiles inferior y superior. Dentro de la
caja se marca con una línea o un punto el valor de la mediana y finalmente se dibujan los
bigotes desde la caja: desde el cuartil inferior al valor mínimo y desde el cuartil superior
al valor máximo. En la Figura 4.5a se muestra el box plot dibujado usando los datos del
ejercicio adicional 2, mostrado sobre un eje horizontal, y se acompaña con la Figura 4.5c,
el histograma de frecuencias relativas.
56
Estadística para el Sistema Climático 1 M.S. Alvarez
Figura 4.5: Ejemplos de box plot con eje horizontal (a) o vertical (c) calculados con los
datos de Temperatura de la Superficie del Mar (TSM, ◦ C) del ejercicio adicional 2. Se
incluye en (b) el histograma de frecuencias relativas.
Analizando las dos figuras se observa el resumen gráfico que es el box plot respecto al his-
tograma, que muestra de izquierda a derecha: el valor mínimo (24.4◦ C), el cuartil inferior
(26.4◦ C), la mediana (27.2◦ C), el cuartil superior (27.9◦ C) y el valor máximo (30.0◦ C).
La ventaja del box plot frente al histograma es que en un mismo gráfico pueden dibujarse
varios box plot y así comparar las características de las distribuciones de probabilidad
entre sí, como veremos en el próximo ejemplo. El mismo box plot de la Figura 4.5a se
muestra en la Figura 4.5b pero usando un eje vertical, y se interpreta de la misma forma.
En este caso, la distribución de TSM es bastante simétrica, con la mediana prácticamente
en el centro del intervalo intercuartil y una distancia similar hasta el valor mínimo y el má-
ximo. Esta simetría puede corroborarse en el histograma (Fig. 4.5b) y con el γ1 = −0.19
calculado en el ejercicio adicional 2.
En la Figura 4.6, tomada del resumen técnico del Quinto Informe de Evaluación del
IPCC, se muestran los cambios futuros para cada región monzónica según distintos
escenarios usando 132 box plot (¡imagínense una figura con 132 histogramas!). Los
escenarios son las diferentes configuraciones de los modelos que simulan el clima a
futuro, que para este reporte se definieron en función de trayectorias de concentración
57
Estadística para el Sistema Climático 1 M.S. Alvarez
de CO2 representativas (RCP) en términos del forzante radiativo global: nivel de for-
zamiento muy bajo (RCP2.6), 2 escenarios de estabilización (RCP4.5 y RCP6.0) y un
escenario con un nivel muy alto de emisiones de gases de efecto invernadero (RCP8.5).
Por ejemplo, 26 modelos climáticos distintos se configuraron bajo las condiciones del
escenario RCP8.5, y los 26 resultados se usan para construir los box plot rojos.
Figura 4.6: Cambios futuros en las estadísticas monzónicas entre la actualidad (1986-
2005) y el futuro (2080-2099) sobre la base del ensamble de la CMIP5 de las simulacio-
nes RCP2.6 (azul oscuro, 18 modelos), RCP4.5 (azul, 24 modelos), RCP6.0 (amarillo,
14 modelos) y RCP8.5 (rojo, 26 modelos). Las variables analizadas son: zona monzóni-
ca global (GMA), intensidad monzónica global (GMI), precipitación media estacional
(Pav), desviación típica de la variabilidad interanual de la precipitación estacional
(Psd), cinco días de precipitación máxima total estacional (R5d) y duración de la
estación monzónica (DUR). Las unidades es cambio en porcentaje, salvo para DUR
que es cambio en días. Los diagramas de cajas y bigotes muestran los percentiles 10,
25, 50, 75 y 90. Todos los índices se calculan para la estación de verano. Tomada del
resumen técnico del Quinto Informe de Evaluación del IPCC
Utilizaremos la Figura 4.6h que muestra los cambios esperados en el Sistema Monzó-
nico de Sudamérica como ejemplo. En este caso los box plot se dibujaron usando los
percentiles 10 y 90 como extremos de los bigotes en vez del mínimo y máximo, sin
embargo, por simplicidad, vamos a considerar para el análisis que sigue que los extre-
mos indican el mínimo y el máximo. Los primeros 4 box plot, uno por cada escenario,
muestran el cambio (en %) de la precipitación media de verano (Pav). Podemos ver
58
Estadística para el Sistema Climático 1 M.S. Alvarez
que en el escenario RCP8.5 (box plot rojo) la dispersión es mayor que en los otros
escenarios, porque el intervalo intercuartil es más grande (representado por el tamaño
de la caja), y que los valores extremos son más grandes que en los otros escenarios.
El segundo grupo de 4 box plot (Fig. 4.6h) representan otra característica de los
monzones. Podemos identificar que en el escenario RCP2.6 (azul oscuro), la Psd tiene
asimetría positiva, o cola derecha. Analizando el box plot desde los valores negativos
hacia los positivos del eje, observamos que el mínimo está en −5 % y la mediana en
5 % aproximadamente. Es decir, que el 0.50 de probabilidad se acumula entre −5 y
5, bastante “rápido”. Es más, el cuartil superior está en 11 %, o sea que entre 5 % y
11 % se acumula otro 0.25 de probabilidad. Llevamos acumulada una probabilidad de
0.75 desde −5 a 11. Luego, se debe alcanzar el valor de 26 para acumular un 0.25 de
probabilidad y llegar al 1.00. Este tipo de box plot indica una asimetría positiva. Se
puede comparar por ejemplo con el box plot celeste, que parece ser bastante simétrico
respecto a la mediana (misma distancia al cuartil inferior que al superior, o sea, a los
extremos de la caja, y distancia similar al mínimo y máximo).
Observando finalmente los 4 box plot que indican los cambios en días en la duración del
monzón de Sudamérica, ¿qué escenario indica una mayor probabilidad que la duración
en días disminuya (cambio negativo)? El escenario RCP8.5 tiene la mediana en 0
días, lo que indica un 50 % de probabilidad que el cambio sea negativo (monzón más
corto) y otro 50 % de probabilidad que el cambio sea positivo (monzón más largo).
Para el RCP4.5 (celeste), la mediana está en valores negativos pero cercanos a 0,
indicando que la probabilidad de que el monzón se acorte es apenas mayor al 50 %.
En el escenario RCP6.0 (naranja), la mediana es la más grande (en valor absoluto)
y negativa, indicando que la mitad de los modelos indican un cambio de −12 a −5
días en la duración del monzón. La mediana es también negativa para el escenario
RCP2.6 (azul) y el tercer cuartil se alcanza en un valor más chico que en el RCP6.0.
Eso muestra que en el RCP2.6 hay una probabilidad de casi el 75 % de un monzón
más corto en el futuro.
59
Capítulo 5
Viento. Distribuciones de
probabilidad Weibull y Gamma
5.1. Viento
El viento tiene la particularidad que es una variable tridimensional, donde se nota con u
la componente zonal (paralela a los paralelos), con v la componente meridional (paralela
a los meridianos) y con w la componente vertical (perpendicular a la superficie).
V = (u, v, w) ∈ R3
Si notamos con ǐ el versor que indica la dirección zonal (positivo hacia el este), con ǰ el
versor que indica la dirección meridional (positivo hacia el norte) y con ǩ el versor que in-
dica la dirección vertical (positivo hacia arriba), podemos escribir al viento tridimensional
con la siguiente notación
V = uǐ + v ǰ + wǩ
VH = (u, v) ∈ R2
60
Estadística para el Sistema Climático 1 M.S. Alvarez
Figura 5.1: Direcciones del viento utilizando 8. En este caso, se toman rangos de 45◦
alrededor de cada dirección y se asigna la dirección central. Ver por ejemplo el rango
asociado a los viento N.
def: Intensidad: es el módulo del vector viento, se mide generalmente en ms−1 o nudos.
Se suele tomar el promedio en períodos de 10 minutos.
def: Calma: se considera cuando la intensidad del viento es inferior a 1 nudo (aproxima-
damente 0.5ms−1 )
def: Intensidad media del viento (V̄ ): Es el promedio de las intensidades mayores a
0.5ms−1 . Si con Vi notamos cada una de las intensidades del viento medidas en el tiempo
i, entonces la intensidad media del viento es
1 XN
V̄ = Vi (5.1)
N i=1
def: Vector viento medio (V̄): se obtiene promediando las velocidades u y v del viento
separadamente. Es la suma vectorial dividido por el número de observaciones (incluyendo
las calmas). Si notamos
V̄ = (ū, v̄)
(O − E) + cos(45◦ ) (SO + N O − SE − N E)
P P
ū = (5.2)
N
(S − N ) + sin(45◦ ) (SO + SE − N O − N E)
P P
v̄ = (5.3)
N
61
Estadística para el Sistema Climático 1 M.S. Alvarez
donde por ejemplo SO representa las intensidades de los vientos con dirección suroes-
te.
obs: La intensidad del viento medio no es igual a la intensidad media del viento:
|V̄| =
6 V̄
Ejemplo 10
Sean cuatro observaciones de viento, cada una con intensidad 2ms−1 y dirección N ,
S, E y W , la intensidad media del viento es
1
V̄ = (2ms−1 + 2ms−1 + 2ms−1 + 2ms−1 ) = 2ms−1
4
Por otro lado, el vector viento medio se puede verificar es
V̄ = (0ms−1 , 0ms−1 )
Dirección N NE E SE S SO O NO calmas
Frecuencia relativa ( %) 8 10 15 10 15 12 2 1 27
La rosa de los vientos radial tiene en cada dirección, desde el centro, el eje de frecuencias
relativas. Esto es, vale 0 % en el centro y aumenta la frecuencia hacia afuera radialmente.
Se puede representar con barras en cada eje o con una línea de la siguiente forma:
62
Estadística para el Sistema Climático 1 M.S. Alvarez
Figura 5.3: Ejemplo de rosa de los vientos telescópica. Calculada con el paquete de R
openair.
En esta rosa de los vientos, el largo de cada barra (en la dirección radial) indica la
frecuencia relativa y el ancho de cada barra indica el intervalo de intensidades que tiene
esa frecuencia.
63
Estadística para el Sistema Climático 1 M.S. Alvarez
def: Una variable aleatoria X tiene una distribución Weibull con parámetros α (parámetro
de forma) y β (parámetro de escala), con α > 0, β > 0, si la función de densidad de
probabilidad de X es
α α−1 −(x/β)α
x e x≥0
f (x; α, β) = βα (5.4)
0 x<0
0 x<0
(
F (x; α, β) = (5.5)
1−e −(x/β)α
x≥0
1
Xp = β (−ln(1 − p)) α (5.6)
64
Estadística para el Sistema Climático 1 M.S. Alvarez
Ejercicio 15
Dada la siguiente distribución teórica Weibull para la variable aleatoria intensidad del
viento en ms−1 con parámetro de forma α = 2 y parámetro de escala β = 5ms−1 :
Resolución 15
2 2−1 −(x/5)2
= x≥0
2
2
xe−x /25
(
x e
f (x; 2, 5) = 52 25
0 x<0
65
Estadística para el Sistema Climático 1 M.S. Alvarez
0 x<0
(
F (x; 2, 5) =
1−e −(x/5)2
=1−e−x2 /25
x≥0
2 /25
P (X < 1) = F (1) = 1 − e−1 = 0.0392 = 3.92 %
P (3 < X < 5) = F (5)−F (3) = 1 − e−1 − 1 − e−9/25 = e−9/25 −e−1 = 0.3299 = 33.0 %
66
Estadística para el Sistema Climático 1 M.S. Alvarez
e) De forma similar:
P (X > 10) = 1−P (X < 10) = 1− 1 − e−100/25 = 1−1+e−4 = e−4 = 0.0183 = 1.83 %
0.5
π N (N − 1)
α = √ P (5.7)
6 N
P 2
i=1 (ln xi )
N 2 − N
i=1 ln xi
!1/α
1 XN
β= xαi (5.8)
N i=1
67
Estadística para el Sistema Climático 1 M.S. Alvarez
Ejercicio 16
Utilizando las expresiones del método de máxima similitud basadas en Christofferson
y Gillette (1987), calcule los parámetros de forma y escala considerando los siguientes
datos
Intensidad dirección
3,3 N
6,4 N
5,5 NE
2,7 NE
10,0 E
8,9 NE
Resolución 16
Calculamos entonces los parámetros de forma y escala a partir de los siguientes datos:
!0.5
π 6(6 − 1)
α= √ = 2.442
6 6 · 18.8477 − (10.2369)2
Una vez obtenido α, calculamos xα para luego reemplazar en la Ecuación 5.8 y calcular
el parámetro de forma β.
68
Estadística para el Sistema Climático 1 M.S. Alvarez
xi xαi
3,3 18.459
6,4 93.046
5,5 64.264
2,7 11.308
10,0 276.701
8,9 208.95
671.95
P
1
1/2.442
β= · 671.95 = 6.90
6
De esta forma obtenemos los parámetros que caracterizan a la función de densidad
Weibull y se puede graficar con el software que prefieran:
def: Una variable aleatoria X tiene una distribución Gamma con parámetros α (parámetro
de forma) y β (parámetro de escala), con α > 0, β > 0, si la función de densidad de
probabilidad de X es
1
xα−1 e−x/β x≥0
f (x; α, β) = β α Γ(α) (5.9)
0 de lo contrario
69
Estadística para el Sistema Climático 1 M.S. Alvarez
prop: La media y la varianza de una variable aleatoria X que tiene distribución Gamma
son:
5.3.2. Estimación de α y β
Los estimadores de α y β no son momentos de la distribución y son entonces difíciles de
estimar. Usando la proposición 5.11, se pueden escribir los estimadores como:
x̄2
α̂ = (5.12)
s2
s2
β̂ = (5.13)
x̄
Sin embargo, estos estimadores solo son aceptables si α > 10, siendo muy malos para
valores bajos de α. Por esto se utilizan también métodos de máxima similitud para estimar
los parámetros α y β a partir de datos.
1 XN
D = ln(x̄) − ln (xi ) (5.14)
N i=1
70
Estadística para el Sistema Climático 1 M.S. Alvarez
donde xi es cada uno de los datos, N la cantidad total de datos y x̄ es el valor medio de
los datos.
x̄
β̂ = (5.16)
α̂
Método de Greenwood y Durán (1960)
x̄
β̂ = (5.18)
α̂
xα−1 e−x
x≥0
f (x; α) = Γ(α) (5.19)
0 de lo contrario
prop: Si X es una variable aleatoria continua tal que X ∼ Gam(α, β), entonces la varia-
ble
X
ξ= ∼ Gam(α, 1) (5.20)
β
Esto es, ξ tiene una distribución Gamma estándar. Notar que el parámetro de forma (α)
no cambia de valor.
71
Estadística para el Sistema Climático 1 M.S. Alvarez
Ejemplo 11
Buscar en la tabla de la distribución Gamma estándar para α = 1.55 el valor de ξ
hasta el cual se acumula el 10 % de probabilidad. Si X ∼ Gam(1.55, 1.7), ¿cuál es el
valor del primer decil X10 ?
72
Estadística para el Sistema Climático 1 M.S. Alvarez
Para determinar el primer decil X10 en el caso que X ∼ Gam(1.55, 1.7) usamos la
Ecuación 5.20:
De esta forma, los valores de 0 mm. se excluyen del cálculo para estimar α y β. Se define
el parámetro q como la probabilidad de que no llueva, y se estima como
Esta situación se puede representar con el diagrama de Venn que se muestra en la Figura
5.7. Todas las observaciones forman el espacio muestral (representado por el rectángulo
negro), y un conjunto de esas observaciones son en las cuales se registró lluvia (círculo
azul). Dentro de las observaciones de lluvia existen algunas en las que la precipitación
medida superó los 50 mm. (círculo relleno con verde). En este caso, entonces:
P (no lluvia) = q
P (lluvia) = 1 − q
73
Estadística para el Sistema Climático 1 M.S. Alvarez
Si sabemos que llovió y queremos determinar la probabilidad de que la lluvia haya sido
superior a 50 mm. buscamos:
P (pp>50 mm.|lluvia)
donde lluvia es el evento que condiciona para indicar cuál es la distribución de probabilidad
(p.e., Gamma con tal y cuál parámetros α y β). Sin embargo, si desconocemos si va a llover
o no y quisiéramos determinar la probabilidad de que llueva más de 50 mm., deberíamos
buscar:
74
Capítulo 6
Inferencia estadística
75
Estadística para el Sistema Climático 1 M.S. Alvarez
Muestras grandes
Usando que
√
s n
sc = √ (6.4)
n−1
76
Estadística para el Sistema Climático 1 M.S. Alvarez
√ √
Dado que se está trabajando con muestras grandes, se puede considerar que n−1∼ n
y entonces aproximar el intervalo de confianza (6.5) por
!
s s
X − zα/2 · √ , X + zα/2 · √ (6.6)
n n
De esta forma, los intervalos de confianza (6.2) y (6.5) son equivalentes, y ambos pueden
ser aproximados por (6.6).
Muestras chicas
Ejercicio 17
Se toma una muestra de 40 datos de precipitación diaria en una localidad del oeste
de La Pampa, para la que se obtiene una media de 5.426 mm. El desvío estándar
poblacional, σ, para esa localidad es de 0.1 mm. ¿A qué intervalo pertenece la media
de la población con un 90 % de confianza? ¿Y con un 95 % de confianza?
Resolución 17
Los datos que conocemos son: n = 40 (cantidad de datos), X̄ = 5.426mm (la media de
esos 40 datos), y el desvío estándar poblacional σ = 0.1mm. Buscamos el intervalo de
confianza al 90 %, luego α = 0.1. Dado que n es grande y se conoce el desvío estándar
poblacional, usaremos el intervalo de confianza definido en (6.1). Nos resta definir el
valor de zα/2 tal que
77
Estadística para el Sistema Climático 1 M.S. Alvarez
Buscamos por tabla (o con el software que prefieran) −zα/2 tal que P (Z < −zα/2 ) =
0.05. Luego, −zα/2 = −1.645. Por simetría de la distribución Normal estándar, zα/2 =
1.645. Entonces, reemplazando en (6.1),
0.1 0.1
!
µ∈ 5.426 − 1.645 · √ , 5.426 + 1.645 · √
40 40
Por tabla (o con el software que prefieran) −zα/2 tal que P (Z < −zα/2 ) = 0.025.
Luego, −zα/2 = −1.96. Por simetría de la distribución Normal estándar, zα/2 = 1.96.
Entonces, reemplazando en (6.1),
0.1 0.1
!
µ∈ 5.426 − 1.96 · √ , 5.426 + 1.96 · √
40 40
78
Estadística para el Sistema Climático 1 M.S. Alvarez
Ejercicio 18
Se tienen los totales mensuales de precipitación del mes de enero de la Estación Las
Lomitas, estos son: 254,2, 248,3, 241,8, 245,4, 235,5 y 247,1. Asumir que la distribución
de la precipitación originalmente tiene una distribución Normal.
a) Hallar el intervalo de confianza de 95 % para µ.
b) Hallar el intervalo de confianza para el 99 % para µ. ¿Qué diferencia encuentra si
compara este intervalo con el obtenido en el punto (a)?
c) Si no conociera la distribución de precipitación, ¿podría encontrar el intervalo de
confianza para la µ?
Resolución 18
1X 6
254.2 + 248.3 + 241.8 + 245.4 + 235.5 + 247.1
X̄ = Xi = = 245.38
6 i=1 6
v
u 6 (X − 245.38)2
uP
i
sc = t i=1
= 6.32
6−1
Resta ahora calcular los valores críticos tα/2 cuando t tiene 5 grados de libertad.
Buscamos en la tabla de la distribución t (o con algún software) tα/2 tal que P (t >
tα/2 ) = 0.025. Luego, tα/2 = 2.571. Por simetría de la distribución t, −tα/2 = −2.571.
Entonces, reemplazando en (6.8),
79
Estadística para el Sistema Climático 1 M.S. Alvarez
6.32 6.32
!
µ ∈ 245.38 − 2.571 · √ , 245.38 + 2.571 · √
6 6
6.32 6.32
!
µ ∈ 245.38 − 4.032 · √ , 245.38 + 4.032 · √
6 6
Notemos que la confianza aumentó, pero la precisión del intervalo bajó (el intervalo es
más ancho).
con ν = n − 1 grados de libertad y donde los valores críticos χ21−α/2,ν y χ2α/2,ν represen-
tan
80
Estadística para el Sistema Climático 1 M.S. Alvarez
Ejercicio 19
Sea una muestra de 30 datos de temperatura cuya distribución es normal y su sc =
2, 5°C, obtener el intervalo de confianza para la varianza poblacional al 90 %.
Resolución 19
Para buscar χ20.95,29 en la tabla buscamos χ2 tal que P (χ2 > χ20.95,29 ) = 0.95. Entonces,
χ20.95,29 = 17.708. De forma similar, buscamos χ2 tal que P (χ2 > χ20.05,29 ) = 0.05.
Entonces, χ20.05,29 = 42.557. Ahora reemplazamos en (6.9),
81
Estadística para el Sistema Climático 1 M.S. Alvarez
29 · 2.52 29 · 2.52
!
2
σ ∈ ,
42.557 17.7082
⇒ σ 2 ∈ 4.258◦ C 2 , 10.235◦ C 2 con un 90 % de confianza
Ha : θ > θ0
Ha : θ < θ0
Ha : θ 6= θ0
82
Estadística para el Sistema Climático 1 M.S. Alvarez
(a) Ha : θ > θ0 define un test a (b) Ha : θ < θ0 define un test a (c) Ha : θ 6= θ0 define un test a
cola derecha. La zona de rechazo cola izquierda. La zona de rechazodos colas. La zona de rechazo para
para el estadístico de prueba X es para el estadístico de prueba X es el estadístico de prueba X es
R = {X/X > XR } R = {X/X < XR } R = {X/X < XR1 ∪ X > XR2 }
Elegir qué tipo de prueba de hipótesis usar es la parte más importante para resolver
adecuadamente los problemas. En las próximas secciones se plantean los estadísticos de
prueba y su distribución para pruebas de hipótesis basadas en una muestra para la media
(µ), para pruebas de hipótesis basadas en dos muestras (para la media µ y la varian-
za σ 2 ) y para determinar la bondad de ajuste de una distribución teórica a los datos
disponibles.
Muestras grandes
83
Estadística para el Sistema Climático 1 M.S. Alvarez
X −µ
z= ∼ N (0, 1) (6.11)
√σ
n
X −µ X −µ X −µ
z= sc = ' ∼ N (0, 1) (6.12)
√ √s √s
n n−1 n
Muestras chicas
X −µ
z= ∼ N (0, 1) (6.13)
√σ
n
X −µ
t= sc ∼ t(ν = n − 1) (6.14)
√
n
Para entender el concepto del error de tipo II trabajaremos con el siguiente ejemplo de
una prueba de hipótesis.
Ejemplo 12
Se tiene que la temperatura (notaremos con X) sigue una distribución Normal con
media 20◦ C y se quiere evaluar si la media es en realidad menor a 20◦ C con una
confianza del 95 %. La prueba de hipótesis propuesta es:
H0 : µ = 20◦ C
Ha : µ < 20◦ C
α = 0.05
Supongamos que trabajaremos con una muestra de datos grande y entonces el estadís-
84
Estadística para el Sistema Climático 1 M.S. Alvarez
tico de prueba es z ∼ N (0, 1). Dada la Ha propuesta, la prueba es una prueba a cola
izquierda, y entonces el zR = −1.645 define la zona de rechazo ZR = {z/z < zR }.
Digamos que H0 era falsa, porque en realidad µ no vale 20◦ C sino algún valor menor
(ya que tiene que ser consistente con la hipótesis alternativa). La probabilidad de no
rechazar H0 con la prueba de hipótesis diseñada, esto es, la probabilidad de tomar una
muestra y que la media de esa muestra sea mayor a 18◦ C, constituye un error, el error
de tipo II.
Para calcular el error de tipo II es necesario establecer cuál sería el valor verdadero del
parámetro poblacional de interés, en este caso, de µ. Esto significa que habrá infinitos
β ya que hay infinitos valores posibles para µ que son consistentes con la hipótesis
alternativa µ < 20◦ C. Tomemos como ejemplo que el valor verdadero de µ sea 19◦ C.
Entonces, para buscar β(19) debemos calcular la probabilidad de tomar una muestra
de la población y que esta muestra no me permita rechazar la H0 , que en este caso
significa que la media de la muestra resulte mayor a 18◦ C. Estas probabilidades están
sombreadas en la Figura 6.5.
El área sombreada en la distribución con media 19◦ C, β(19) (Fig. 6.5), representa
entonces cuál es la probabilidad de sacar una muestra de la población verdadera, y
que la media de esa muestra sea mayor a 18◦ C. En este caso estamos suponiendo que
la verdadera media poblacional es de 19◦ C, y por eso calculamos la probabilidad de
que la media de la muestra sea mayor a 18◦ C a partir de esa distribución.
En otras palabras, si la población sigue una distribución normal con media 19◦ C, la
probabilidad de sacar una muestra cuya media sea mayor a 18◦ C –y esa muestra no
me permite rechazar H0 (µ = 20◦ C) cuando es falsa (porque µ = 19◦ C)- es β(19).
85
Estadística para el Sistema Climático 1 M.S. Alvarez
Consideremos ahora otro valor verdadero posible para µ consistente con Ha : 16◦ C.
Si la población sigue una distribución normal con media µ = 16◦ C, la probabilidad
de sacar una muestra cuya media sea mayor a 18◦ C –y esa muestra no me permite
rechazar H0 (µ = 20◦ C) cuando es falsa (porque µ = 16◦C)- es β(16). En este caso el
error de tipo II es bastante menor que en el caso anterior, porque la probabilidad de
que la media muestral sea mayor a 18◦ C cuando la media poblacional es 16◦ C es baja
(ver Fig. 6.6).
86
Estadística para el Sistema Climático 1 M.S. Alvarez
En otras palabras, si la población sigue una distribución normal con media 19.8◦ C, la
probabilidad de sacar una muestra cuya media sea mayor a 18◦ C –y esa muestra no
me permite rechaza rH0 (µ = 20◦ C) cuando es falsa (porque µ = 19.8◦C)- es β(19.8).
En este caso el error de tipo II es muy alto y se acerca a 1 − α (Fig. 6.7).
87
Estadística para el Sistema Climático 1 M.S. Alvarez
Ejercicio 20
Las temperaturas de la superficie del mar para un punto en el Océano Atlántico
responden a una distribución Normal. Se sabe que la media poblacional para el valor
medio de julio es 18°C. En el año 2004 se extrajo la siguiente muestra
a) Los oceanógrafos piensan que el océano podría estar enfriándose por alguna causa
desconocida. ¿Qué podría decir al respecto?
b) ¿Cuál es el error se cometería si la muestra perteneciera a una población con µ =
17°C y no se rechazara la hipótesis nula?
c) Encuentre un intervalo de confianza para la varianza poblacional.
Resolución 20
(2) Lo que se sabe a priori es que la media de T es 18◦ C, por lo que esa será la hipótesis
88
Estadística para el Sistema Climático 1 M.S. Alvarez
nula:
H0 : µ = 18◦ C
(3) Dado que los oceanógrafos creen que el océano se está enfriando y que eso indicaría
una disminución en la temperatura media, proponemos la hipótesis alternativa
Ha : µ < 18◦ C
(4) Dado que contamos con una muestra grande de datos (n = 31) y que no conocemos
σ, el estadístico a usar es el dado en la ecuación 6.12:
T −µ
z= ∼ N (0, 1)
√s
n
(6) Definimos la región de rechazo dada la hipótesis alternativa (prueba a cola izquier-
da), la distribución de probabilidad del estadístico de prueba (Normal estándar) y la
significancia (0.05).
(7) Utilizamos la muestra que nos da el ejercicio para calcular el estadístico de prueba.
Previamente se debe calcular la media (T̄ = 17.62) y el desvío (s = 0.473).
T −µ 17.62 − 18
z= = = −4.47 ∈ ZR
√s 0.473
√
n 31
89
Estadística para el Sistema Climático 1 M.S. Alvarez
b) Para ilustrar mejor este ítem, lo resolveremos para Ha : µ = 17.7. Ustedes pueden
repetir el procedimiento para Ha : µ = 17. Si la muestra perteneciera a una población
de µ = 17.7◦ C y no se rechazara la hipótesis nula el error que se estaría cometiendo
sería β(17.7).
s 0.473
T̄R = zR · √ + µ = −1.645 · √ + 18 = 17.86
n 31
Esto significa que cualquier muestra cuya T̄ sea menor a 17.86 nos permitiría rechazar
la hipótesis nula. Para encontrar β(17.7) entonces debemos calcular la probabilidad de
tomar una muestra de una población cuya µ = 17.7 y que la media de la muestra no
me permita rechazar H0 . Indiquemos esto en un gráfico. En la Figura 6.8 se muestra
en negro la distribución Normal con media µ = 18 que es la que considera cierta la
hipótesis nula. En rojo se marca la zona de rechazo. Luego, la zona de no rechazo
serían todas las T̄ mayores a 17.86. Se muestra además, en azul, la distribución de
probabilidades si la media poblacional fuera en realidad 17.7. De esta forma, la proba-
bilidad de tomar una muestra de esa población y que su media (T̄ ) sea mayor a 17.86
está sombreada en celeste, y ese área indica β(17.7).
90
Estadística para el Sistema Climático 1 M.S. Alvarez
0.473
!!
β(17.7) = P T̄ > 17.86|T̄ ∼ N 17.7, √
31
17.86 − 17.7
β(17.7) = P
z >
0.473 = P (z > 1.883) = 0.0298
√
31
Ho : µ1 − µ2 = ∆0
Ha : µ1 − µ2 > ∆0
Ha : µ1 − µ2 < ∆0
Ha : µ1 − µ2 6= ∆0
En general se busca evaluar si existe alguna diferencia entre las medias de las dos pobla-
ciones, y entonces se usa ∆0 = 0, pero la prueba de hipótesis también puede ser utilizada
para evaluar alguna diferencia particular entre dos medias. El procedimiento para resolver
estas pruebas de hipótesis es el mismo que se explicó en el recuadro de la introducción a
la Sección 6.2. Los estadísticos de prueba se definen según los siguientes casos, donde sc1
y sc2 notan los desvíos estándar corregidos de cada muestra.
(X − Y ) − (µ1 − µ2 )
z= q ∼ N (0, 1) (6.15)
σ12 σ22
n
+ m
91
Estadística para el Sistema Climático 1 M.S. Alvarez
Si las muestras son grandes (n, m ≥ 30) y al menos una varianza poblacional es descono-
cida, σi puede estimarse aproximadamente por si y el estadístico de prueba es
(X − Y ) − (µ1 − µ2 )
z= q ∼ N (0, 1) (6.16)
s21 s22
n
+ m
Si las muestras son chicas (n < 30 o m < 30), las poblaciones tienen una distribución
Normal y las varianzas poblacionales son desconocidas, el estadístico de prueba es
(X − Y ) − (µ1 − µ2 )
t= q ∼ t(ν = mín(n, m) − 2) (6.17)
s2c1 s2c2
n
+ m
Si las muestras son chicas (n < 30 o m < 30), las poblaciones tienen una distribución
Normal y se puede asumir que las varianzas poblacionales de las distribuciones de las que
se tomaron las muestras son la misma (σ1 = σ2 ) , el estadístico de prueba es
(X − Y ) − (µ1 − µ2 )
t= q ∼ t(ν = n + m − 2) (6.18)
sp 1
n
+ 1
m
s
(n − 1)s2c1 + (m − 1)s2c2
donde sp = es el estimador del devío poblacional como la raíz
n+m−2
del promedio pesado de las varianzas muestrales. La ventaja de utilizar este estadístico
de prueba (Ec. 6.18) si se prueba que se puede asumir que σ1 = σ2 frente al estadístico de
prueba de la ecuación 6.17 es que se logran más grados de libertad. Al tener más grados de
libertad sería posible rechazar H0 con valores más bajos del estadístico de prueba evaluado
en los valores de las muestras disponibles. Esto se ilustra para un ejemplo en la Figura
6.9, donde se utilizó un α de 0.1, n = 30 y m = 4 para acentuar la diferencia.
92
Estadística para el Sistema Climático 1 M.S. Alvarez
Ho : σ12 = σ22
s21 /σ12
f= ∼ F (ν1 = n − 1, ν2 = m − 1) (6.19)
s22 /σ22
La distribución F tiene dos parámetros, ν1 o los grados de libertad del numerados y ν2
o los grados de libertad del denominador. La función densidad de probabilidad F está
definida para valores positivos de la variable aleatoria y no es simétrica. En la Figura 6.10
se muestra un ejemplo para la distribución F con ν1 = ν2 = 15 grados de libertad y la
notación para los valores críticos que definen las zonas de rechazo si se realiza una prueba
de hipótesis a dos colas.
prop.: Para encontrar el valor crítico a cola izquierda de la distribución F a partir de una
tabla que acumula probabilidad desde +ı́nf se puede utilizar la siguiente relación
1
F1−α,ν1 ,ν2 = (6.20)
Fα,ν2 ,ν1
93
Estadística para el Sistema Climático 1 M.S. Alvarez
Ejercicio 21
En una determinada localidad de la Pampa Húmeda se quiere estudiar la influencia
del fenómeno ENSO (El Niño Oscilación del Sur) en la precipitación anual. Para ello,
se cuenta con los totales anuales de 15 años y con un índice que permite discernir si
se trata de un año Niño o Niña. Los datos se encuentran en la tabla que se presenta
a continuación.
Fase ENSO NO NA NO NO NA NO NO NO NA NA NA NO NA NA NA
PP (mm) 1296 1256 1450 1258 1200 1156 1336 1459 1311 1126 1028 1300 1095 1201 1231
Suponiendo que la precipitación anual sigue una distribución Normal, ¿podría afirmar
que la precipitación anual en años Niño es significativamente mayor que en años Niña?
Utilizar un nivel de significancia del 5 %.
Resolución 21
En este ejercicio tenemos datos de precipitación anual para años Niño y Niña, que
dividen las dos muestras que buscaremos analizar. Habiéndolas separado, podemos
calcular la media y desvío de cada muestra, que utilizaremos más adelante.
Niño Niña
media x̄ = 1322.14 ȳ = 1181
desvío s1 = 99.68 s2 = 90.05
cantidad datos n=7 m=8
Ho : σ12 = σ22
Ha : σ12 6= σ22
El estadístico de prueba es
s21 /σ12
f= ∼ F (ν1 = 6, ν2 = 7)
s22 /σ22
Utilizaremos una significancia del 10 % para la prueba. Determinamos con esta infor-
mación la zona de rechazo:
94
Estadística para el Sistema Climático 1 M.S. Alvarez
1 1
F0.95,6,7 = = = 0.23
F0.05,7,6 4.21
ZR = {f /f ≥ 3.87 ∪ f ≤ 0.23}
Con esta información planteamos ahora la prueba de hipótesis para las medias.
Ho : µ1 − µ2 = 0
Ha : µ1 − µ2 > 0
(x − y) − (µ1 − µ2 )
t= q ∼ t(ν = 7 + 8 − 2 = 13)
sp 1
n
+ 1
m
95
Estadística para el Sistema Climático 1 M.S. Alvarez
Podemos ahora calcular el estadístico de prueba con los datos de la muestra y resolver
la prueba de hipótesis
(x − y) − (µ1 − µ2 )
t= s
(n − 1)s2c1 + (m − 1)s2c2 q 1
+ 1
n+m−2 n m
96
Estadística para el Sistema Climático 1 M.S. Alvarez
k
(ni − N pi )2
χ =
2
∼ χ2 (ν = k − l − 1) (6.21)
X
i=1 N pi
Cada término de la suma compara la frecuencia absoluta de una clase con la frecuencia
teórica de esa misma clase. Si la suma de todos los términos es pequeña, indicará que las
distribuciones se asemejan, mientras que si la suma es grande indicará que las distribucio-
nes no son similares y habría que rechazar H0 . Consecuentemente, esta prueba de hipótesis
es siempre a cola derecha. El valor l es la cantidad de parámetros de la distribución teórica
estimados a partir de la muestra.
obs.: No es necesario que las clases tengan el mismo ancho ni la misma probabilidad.
obs.: Para aplicar esta prueba de hipótesis se debe cumplir que N pi ≥ 5 para cada
clase.
97
Estadística para el Sistema Climático 1 M.S. Alvarez
Ejercicio 22
En una localidad de la provincia de Buenos Aires se observó la siguiente tabla de
frecuencia de días con precipitación por semana (X):
Resolución 22
98
Estadística para el Sistema Climático 1 M.S. Alvarez
Ahora debemos verificar que cada clase cumpla N pi ≥ 5. Esto solo se cumple para
los primeros dos valores de X, por lo que debemos reagrupar las clases sumando las
frecuencias teóricas para X ≥ 2:
α = 0.01
ν =k−l−1=3−1−1=1
99
Estadística para el Sistema Climático 1 M.S. Alvarez
La zona de rechazo es entonces: ZR = {χ2 /χ2 > χ20.01,1 = 6.63}. Calculemos ahora el
estadístico de prueba.
3
(ni − N pi )2 (9 − 6.05)2 (5 − 7.88)2 (6 − 6.07)2
χ2 = = + + =
X
100
Capítulo 7
Distribución de probabilidad
conjunta y correlación
prop.: p(x, y) ≥ 0 ∀ (x, y) por ser probabilidades, y p(x, y) = 1 por ser función de
P P
x y
probabilidad.
def.: Función masa (o densidad) de probabilidad marginal de X, es la probabilidad de que
X = x sin importar los valores de Y .
PX (x) = (7.2)
X
p(x, y)
y
PY (y) = (7.3)
X
p(x, y)
x
101
Estadística para el Sistema Climático 1 M.S. Alvarez
prop.: Se dice que dos variables aleatorias discretas son independientes si por cada par de
valores (x, y) se cumple p(x, y) = PX (x)PY (y).
ˆ +∞
fX (x) = f (x, y)dy, −∞ ≤ x ≤ +∞ (7.5)
−∞
ˆ +∞
fY (y) = f (x, y)dx, −∞ ≤ y ≤ +∞ (7.6)
−∞
prop.: Se dice que dos variables aleatorias continuas son independientes si se cumple que
la función densidad de probabilidad es igual al producto de las funciones de densidad
marginales, esto es, f (x, y) = fX (x)fY (y).
α ik = E xi y k (7.7)
x,y
102
Estadística para el Sistema Climático 1 M.S. Alvarez
Los momentos de primer orden respecto al origen son las medias de las variables: α10 =
E(x) = mx y α01 = E(y) = my . Los momentos de segundo orden respecto al origen son
tres, α11 = E(x, y), α20 = E (x2 ) y α02 = E (y 2 ).
h i
µik = E (x − mx )i (y − my )k (7.10)
x,y
7.2.3. Covarianza
def.: La covarianza de la distribución conjunta de X e Y , también notada como COV (X, Y ),
es
µ11 = E [(x − mx ) (y − my )] = α11 − mx my (7.13)
prop.: La covarianza es menor o igual al producto de los desvíos estándar, esto es, µ11 6
σx σy
La covarianza es una medida de qué tan fuertemente relacionadas están las dos variables
X e Y . Si valores grandes de X (esto es, valores de X mayores a la media µx ) ocurren
conjuntamente con valores grandes de Y (esto es, valores de Y mayores a la media µy ), y
valores chicos de X ocurren conjuntamente con valores chicos de Y (Fig. 7.1a), entonces
(x − mx ) y (y − my ) serán ambos positivos o ambos negativos, reflejando una relación
positiva fuerte. La covarianza sería entonces positiva.
103
Estadística para el Sistema Climático 1 M.S. Alvarez
chicos de X ocurren conjuntamente con valores grandes de Y (Fig. 7.1b), entonces (x−mx )
y (y − my ) serán uno positivos y el otro negativos, reflejando una relación negativa fuerte.
La covarianza sería entonces negativa. Si X e Y no están fuertemente relacionadas (Fig.
7.1c), la covarianza será cercana a cero.
Ejercicio 23
Dos líneas de producción fabrican artículos. Suponga que la capacidad es de 5 artículos
para la línea 1 y de 3 artículos para la línea 2. Sea (X,Y) la representación de la variable
aleatoria bidimensional que da el número de artículos producidos por la línea 1 y por
la línea 2, y la siguiente tabla las probabilidades p(X,Y).
X
0 1 2 3 4 5
0 0 0,01 0,03 0,05 0,07 0,09
1 0,01 0,02 0,04 0,05 0,06 0,08
Y
2 0,01 0,03 0,05 0,05 0,05 0,06
3 0,01 0,02 0,04 0,06 0,06 0,05
Resolución 23
Dada esta función de probabilidad conjunta para las variables discretas (X, Y ), resol-
vemos.
104
Estadística para el Sistema Climático 1 M.S. Alvarez
a) Para verificar que esta es una función masa de probabilidad, la suma de todas las
probabilidades debe dar 1.
5 X
3
p(X, Y ) = 1
X
X=0 Y =0
X
0 1 2 3 4 5 PY (y)
0 0 0,01 0,03 0,05 0,07 0,09 0.25
1 0,01 0,02 0,04 0,05 0,06 0,08 0.26
Y
2 0,01 0,03 0,05 0,05 0,05 0,06 0.25
3 0,01 0,02 0,04 0,06 0,06 0,05 0.24
PX (x) 0.03 0.08 0.16 0.21 0.24 0.28 1
c) Para evaluar si las variables son independientes, quiero ver que p(x, y) = PX (x)PY (y)
vale para todas las combinaciones posibles de X e Y . Con encontrar un contraejemplo
es suficiente para demostrar que las variables no son independientes.
Luego, la cantidad de artículos que fabrica cada línea no son independientes entre sí.
105
Estadística para el Sistema Climático 1 M.S. Alvarez
5 X
3
E(X, Y ) = x·y ·pxy = x·y ·P (X = x, Y = y) = 0·0·0+0·1·0.01+0·2·0.01+
X X
5
mx = α10 = x · PX (x) = 0 · 0.03 + 1 · 0.08 + 2 · 0.16 + 3 · 0.21 + 4 · 0.24 + 5 · 0.28 = 3.39
X
x=0
Análogamente,
3
my = α01 = y · PY (y) = 1.48
X
y=0
Entonces,
Ejercicio 24
Cada neumático delantero de un tipo particular de automóvil se llenará a una presión
de 26 lb/pulg2 . Suponga que la presión de aire de cada neumático es una variable
aleatoria, X para el neumático derecho e Y para el izquierdo, con una función de
densidad de probabilidad:
k(X 2 + Y 2 ) 20 ≤ X ≤ 30, 20 ≤ Y ≤ 30
f (X, Y ) =
0
en otro caso
a) ¿Cuál es el valor de k?
b) ¿Cuál es la probabilidad de que ambos neumáticos tengan menor presión que la
requerida?
c) Determine la distribución marginal de la presión del aire del neumático derecho.
d) ¿Son X e Y variables aleatorias independientes?
Resolución 24
Dada esta función de probabilidad conjunta para las variables continuas (X, Y ), re-
106
Estadística para el Sistema Climático 1 M.S. Alvarez
solvemos.
a) Dado que esta función es una función densidad de probabilidad, la integral en todo
el dominio debe dar 1 y así podemos despejar k.
ˆ +∞ ˆ +∞ ˆ 30 ˆ 30 ˆ 30
"
x3 30
1= f (x, y)dxdy = k x +y2 2
dxdy = k + y 2 x dy =
−∞ −∞ 20 20 20 3 20
ˆ ˆ
30
8000 30
19000
= k 9000 + 30y − − 20y 2 dy =
2
k + 10y 2 dy =
20 3 20 3
30
19000 y 3 19000 27000 19000 8000
=k y + 10 = k · 30 + 10 · − · 20 − 10 · =
3 3 20 3 3 3 3
20 380000 3
=k 19000 = k⇒k=
3 3 380000
b) P (X ≤ 26, Y ≤ 26)?
ˆ 26 ˆ 26 ˆ 26 ˆ 26 ˆ 26
"
x3 26
f (x, y)dxdy = k x2 + y 2 dxdy = k + y 2 x dy =
−∞ −∞ 20 20 20 3 20
ˆ 26 26 3
= k 3192 + 6y 2 dy = k 3192y + 2y 3 = k · 38304 = · 38304 = 0.3024
20
20 380000
ˆ +∞ ˆ 30
!30
y3
fX (x) = f (x, y)dy = k x +y2 2
dy = k x y + 2
=
3
−∞ 20
20
107
Estadística para el Sistema Climático 1 M.S. Alvarez
3y 2 1
fY (y) = +
38000 20
3x2 1 3y 2 1 1 1
! !
fX (x) · fY (y) = + · + = 10kx +
2
· 10ky 2 + =
38000 20 38000 20 20 20
k k 1
= 100k 2 x2 y 2 + x2 + y 2 + 6= f (x, y)
2 2 400
µ11 COV(X, Y )
ρ= = (7.14)
σx σy σx σy
prop.:
−1 ≤ ρ ≤ 1
ρ = 0 es equivalente a decir que no hay correlación lineal entre X e Y
Si X e Y son independientes ⇒ no están correlacionadas ( 6⇐)
ρ = 1 o ρ = −1 ⇐⇒ Y = bX + a con b 6= 0, es decir, existe una relación lineal
perfecta entre las variables.
Si dos variables tienen un coeficiente de correlación positivo, se dice que la relación entre
ellas es directa, esto es, que a mayores valores de una variable, también mayores valores
de la otra. En cambio, si dos variables tienen un coeficiente de correlación negativo, la
relación entre ellas es indirecta, esto es, que a mayores valores de una variable se tienen
menores valores de la otra; cuando una aumenta, la otra disminuye.
108
Estadística para el Sistema Climático 1 M.S. Alvarez
cuadrados mínimos intenta minimizar el error al cuadrado buscando la recta que mejor
aproxime a los datos. Un ejemplo se muestra en la Figura 7.2.
Figura 7.2: Ilustración de una recta de regresión ajustada por cuadrados mínimos. Los
puntos negros marcan los datos (xi , yi ), la línea azul la recta de regresión, los puntos
azules los valores de yi∗ . La distancia entre los valores de yi y yi∗ es ei y se representa con
las líneas rojas a guiones.
( xi )( yi )
P P
xi y i −
P i
Sxy
b= N
= (7.15)
( xi )
2
Sxx
P
P 2
x i − N
a = y − bx (7.16)
(xi − x) (yi − y)
Pn
r = qP i=1
(7.20)
i=1 (xi i=1 (yi − y)
n Pn 2
− x)2
109
Estadística para el Sistema Climático 1 M.S. Alvarez
Reescribiendo
q usando las sumas de cuadrados, los desvíos estándar de x y de y, sx =
q
Sxx /N sy = Syy /N y definiendo sxy = Sxy /N ,
(xi − x) (yi − y)
1 Pn
Sxy Sxy /N Sxy /N sxy
r=q = √ =q q = = N i=1
(7.21)
Sxx Syy Sxx Syy
√ √
Sxx Syy sx sy sx sy
N N N N
A partir de las expresiones (7.15) y (7.21) se puede encontrar que hay una relación entre
la pendiente de la recta de regresión y el coeficiente de correlación:
√
Sxx sx
r =b· q =b· (7.22)
Syy sy
donde se usó la definición de los desvíos estándar mencionada arriba. Dado que los desvíos
estándar son siempre positivos, esto muestra que el signo del coeficiente de correlación
es el mismo que el de la pendiente de la recta de regresión. Dos variables que tienen
una relación directa tienen un coeficiente de correlación positivo y una recta de regresión
con pendiente positiva (y la recta muestra que cuando aumenta una variable también
aumenta la otra). De igual forma,dos variables que tienen una relación indirecta tienen
un coeficiente de correlación negativo y una recta de regresión con pendiente negativa (y
la recta muestra que cuando aumenta una variable la otra disminuye).
110
Estadística para el Sistema Climático 1 M.S. Alvarez
Ejercicio 25
Se intentó analizar si existe una relación lineal entre las series de caudales del mes de
enero (en m3 s−1 ) entre las estaciones Itatí y Rosario. El período considerado fue 1930
– 1989, donde los pares de datos son independientes y las variables están normalmente
distribuidas. En este sentido se hicieron los siguientes cálculos:
1,2901E+10
P
xy
1018356
P
x
704561
P
y
2,0253E+10
P 2
x
9558485105
P 2
y
(y − yrecta ) 2
763964786
P
sx 7033,9
sy 4627,9
(x − x̄)(y − ȳ) 942826803
P
Resolución 25
Se trabaja con dos series de datos de caudales en Itatí y Rosario, un total de 60 pares
de datos independientes y con distribución normal bivariada.
( xi )( yi )
P P
xi y i − 1.29 · 1010 − 1018356·704561
56566078284
P
b= N
= 60
= = 0.3175
( xi )
2
2.0253 · 10 − (1018356)2 1.78131 · 1011
P
10
x2i −
P
i 60
N
704561 1018356
P P
y x
a = ȳ − b · x̄ = −b· = − 0.3175 · = 6353.88
N N 60 60
∴ y ∗ = 0.3175 · x + 6353.88
111
Estadística para el Sistema Climático 1 M.S. Alvarez
1
· (x − x̄)(y − ȳ) 1
942826803
P
r= 60
= 60 = 0, 48
sx sy 7033.9 · 4627.9
∴ r2 = 0.233
c) Para probar que cada una de las series tiene una distribución normal podría aplicarse
una prueba de hipótesis de bondad de ajuste.
√
Si los pares (xi , yi ) son independientes, para muestras grandes, r ∼ N (0, 1/ n − 3) y
entonces, el estadístico de prueba es
r−ρ
z= (7.24)
√1
n−3
1 1+r
v= ln (7.25)
2 1−r
1 1+ρ
!
µv = ln (7.26)
2 1−ρ
112
Estadística para el Sistema Climático 1 M.S. Alvarez
1
s
σv = (7.27)
n−3
obs.: la aproximación no es válida para tamaños de la muestra (n) muy chicos, ya que la
transformación no debería utilizarse.
El estadístico de prueba es
v − µv
1
2
ln 1+r
1−r
− 12 ln 1+ρ
1−ρ
z= = q (7.28)
σv 1
n−3
zα/2 zα/2
v−√ ≤ µv ≤ v + √ (7.30)
n−3 n−3
e2µv1 − 1 e2µv2 − 1
≤ ρ ≤ (7.31)
e2µv1 + 1 e2µv2 + 1
e2µv1 − 1 e2µv2 − 1
!
, (7.32)
e2µv1 + 1 e2µv2 + 1
113
Estadística para el Sistema Climático 1 M.S. Alvarez
Ejercicio 26
Se tomaron muestras de salinidad y de la temperatura de la superficie del mar en 35
puntos distintos del Mar Argentino. Con las mismas se calculó la correlación lineal
que existe entre ambas variables, obteniéndose un valor de 0.74.
a) ¿Es significativa esta correlación, con un nivel de significancia del 5 %?
b) Halle el intervalo de confianza para el coeficiente de correlación de la población con
un nivel de confianza del 95 %.
c) ¿Qué porcentaje de la varianza no está explicado por la recta?
d) Si en un muestreo posterior se tomaron datos de temperatura y salinidad en 30
puntos sobre el Mar Argentino, cercanos a los de la primera muestra, de donde
se obtuvo un coeficiente de correlación de 0.65. ¿Puede decir que se trata de una
relación lineal diferente de la primera, con un nivel de confianza del 99 %?
e) Si en una próxima salida de campo usted sabe que no podrá medir la salinidad, en
función de lo hallado explique cómo la podría estimar.
Resolución 26
H0 : ρ = 0
Ha : ρ 6= 0
α = 0.05
114
Estadística para el Sistema Climático 1 M.S. Alvarez
1 1 + 0.74 1.96
µv1 = ln −√ = 0.604
2 1 − 0.74 35 − 3
1 1 + 0.74 1.96
µv2 = ln +√ = 1.297
2 1 − 0.74 35 − 3
e2·0.604 − 1 e2·1.297 − 1
!
;
e2·0.604 + 1 e2·1.297 + 1
ρ ∈ (0.54; 0.861)
H0 : ρ = 0.74
Ha : ρ 6= 0.74
α = 0.01
115
Estadística para el Sistema Climático 1 M.S. Alvarez
El estadístico de prueba es z,
v − µv
1
2
ln 1+r
1−r
− 12 ln 1+ρ
1−ρ
z= = q ∼ N (0, 1)
σv 1
n−3
Como la prueba es a dos colas, entonces la zona de rechazo queda definida por
e) Dado que se probó que existe una relación lineal entre salinidad y temperatura,
puede utilizarse la recta de regresión para estimar la salinidad a partir de la tempe-
ratura. Sin embargo hay que tener en cuenta que esta relación solo explica el 54.76 %
de la varianza conjunta y que solo se puede utilizar para valores de temperatura que
estén dentro del rango para el cual se estimó la recta de regresión.
116
Estadística para el Sistema Climático 1 M.S. Alvarez
Figura 7.3: Ejemplos de series temporales para la variable extremos fríos anuales: a)
estacionaria, b) no estacionaria por cambios en la media, c) no estacionaria por cambios
en el desvío estándar, d) no estacionaria por cambios en la media y en el desvío estándar.
Los cambios se ejemplifican a partir de 1951. En rojo se marca el valor medio para cada
período (hasta 1950 y después de 1951).
7.7.1. Tendencia
La tendencia de una serie temporal es el cambio a largo plazo de la media de la serie (ver
ejemplo en Fig. 7.4). La tendencia lineal se obtiene de ajustar una recta de regresión de
una variable sobre el tiempo, obtenida a partir del ajuste por cuadrados mínimos (ver
Sección 7.4). La ecuación de la recta de tendencia para la serie temporal de y(t) es:
y ∗ (t) = bt + a (7.33)
Figura 7.4: Ejemplo de una serie temporal con tendencia. La recta de tendencia se muestra
en rojo.
117
Estadística para el Sistema Climático 1 M.S. Alvarez
Para verificar si la tendencia lineal de una serie es significativa puede entonces testearse si
el coeficiente de correlación de la población es significativamente distinto de 0 a partir del
coeficiente de correlación de la muestra, r, obtenido en el ajuste por cuadrados mínimos.
Usar los estadísticos de la Sección 7.5.2 según corresponda.
El efecto de la tendencia lineal puede ser removido (también se dice filtrado) calculando
para cada tiempo t el valor de la serie temporal menos el valor de la recta de tendencia
para ese mismo tiempo, resultando la serie filtrada yf (t) como yf (t) = y(t) − y ∗ (t).
7.7.2. Autocorrelación
La autocorrelación es la correlación de una variable consigo misma, y la autocorrelación
temporal hace referencia a la correlación de una variable con sus propios valores futuros
y pasados. A veces se la suele llamar autocorrelación laggeada.
donde n es el largo de la serie temporal original (y), y los subíndices ’+’ y ’−’ indican
las medias muestrales sobre los primeros y los últimos n − k valores respectivamente.
Generalmente no se computan autocorrelaciones para lags mayores a n/3 o n/4 por la
cantidad de datos perdidos.
Cuando se dispone de una serie temporal muy larga es acepable aproximar la ecuación
(7.34) suponiendo que la media muestral y el desvío muestral serán muy similares a la
media y el desvío de cada una de las submuestras para los primeros y los últimos n − k
valores.
Al graficar los coeficientes de autocorrelación (rk ) en función del lag (k) se obtiene el
autocorrelograma. En el autocorrelograma también se marcan los valores de r que serían
significativamente distintos de 0 para cada lag k usando un determinado α. Estos valores
se determinan a partir del estadístico apropiado de la Sección 7.5.1. A mayor lag k, menor
es la cantidad de datos y por eso los valores de r críticos aumentan en valor absoluto.
Los autocorrelogramas permiten identificar los siguientes efectos en una serie temporal:
tendencia, ciclos, persistencia y aleatoriedad.
Ejemplo 13
La Figura 7.5 presenta ejemplos de autocorrelogramas para series temporales con
distintos comportamientos. Cuando una serie temporal tiene tendencia, el efecto suele
118
Estadística para el Sistema Climático 1 M.S. Alvarez
Se dice que una serie tiene persistencia, o ruido rojo, cuando los rk siguen un proceso
de Markov: rk ≈ r1k . La persistencia refleja que existe una relación entre los valores
en un tiempo dado y los de un tiempo posterior. Un ejemplo se muestra en la Figura
7.5c: si la serie fuera temperatura mensual, indicaría, por ejemplo, que la temperatura
de febrero guarda alguna relación con la temperatura del enero anterior (r1 > 0 y
significativamente 6= 0), que la temperatura de febrero también guarda alguna relación
con la temperatura del diciembre anterior (r2 > 0 y significativamente 6= 0), e incluso
que la temperatura de febrero también guarda alguna relación con la temperatura del
noviembre anterior (r3 > 0 y significativamente 6= 0). Lo mismo para la temperatura
de marzo con las de febrero, enero y diciembre; las temperaturas de abril con las de
119
Estadística para el Sistema Climático 1 M.S. Alvarez
marzo, febrero y enero, etc. Cada una guarda algún grado de relación lineal con las
temperaturas de los 3 meses anteriores. Incluso con el cuarto mes anterior, ya que r4
es levemente superior al rcrít señalado en azul. Cuando una serie es completamente
aleatoria se dice que tiene ruido blanco (Fig. 7.5d), y el autocorrelograma muestra que
r0 = 1 y luego todos los rL caen dentro de la banda delimitada por los rcrít , es decir,
que no son significativamente distintos de 0.
120
Capítulo 8
Análisis de Varianza
A lo largo de las siguientes subsecciones se explicará la notación que se usará para resolver
las pruebas ANOVA, las suposiciones necesarias, se definirán los estadísticos involucrados
y finalmente el estadístico de prueba y la prueba de hipótesis ANOVA. Toda la información
queda resumida en la tabla ANOVA unifactorial que sirve para organizar la información
y resolver la prueba de hipótesis (Sección 8.1.4).
PJ
j=1 Xij
X i. = i = 1, 2, . . . , I (8.1)
J
donde el · indica que se sumaron todos los valores de ese subíndice y la barra indica que
se hizo un promedio.
121
Estadística para el Sistema Climático 1 M.S. Alvarez
PI PJ
i=1 j=1 Xij
X .. = (8.2)
IJ
def.: La varianza de la muestra individual s2i es la varianza corregida para las muestras
de cada tratamiento
PJ 2
j=1 Xij − X i·
s2i = i = 1, 2, . . . , I (8.3)
J −1
Para utilizar el análisis de varianza es necesario suponer que las poblaciones o tratamien-
tos I son normales con la misma varianza σ 2 . Esto es que cada Xij esté normalmente
distribuida con E (Xij ) = µi y V (Xij ) = σ 2 . Una regla empírica que podemos utilizar es
que
Pueden ahora revisar los ítems a) a d) del Ejercicio 27 al final de la Sección 8.1.4.
J
Xi· = (8.5)
X
Xij
j=1
I X
J
X.. = (8.6)
X
Xij
i=1 j=1
I X
J 2 I X
J
1 2
STC = = Xij2 − (8.7)
X X
Xij − X .. X
i=1 j=1 i=1 j=1 IJ ··
I X
J 2 I 2 1X I
1 2
SCT = =J = Xi.2 − (8.8)
X X
X i· − X .. X i· − X .. X
i=1 j=1 i=1 J i=1 IJ ··
122
Estadística para el Sistema Climático 1 M.S. Alvarez
I X
J 2
SCE = (8.9)
X
Xij − X i·
i=1 j=1
prop.: La SCE se puede obtener más fácilmente utilizando la relación entre las tres sumas
de cuadrados, o identidad fundamental:
A partir de las sumas de los cuadrados se puede dividir cada una por los grados de libertad
asociados para obtener los cuadrados de la media:
SCT J X I 2
CMTr = = X i − X .. (8.11)
I −1 I − 1 i=1
def.: El cuadrado de la media del error (CME) es una medida de la variación que existe
adentro de cada muestra de tratamiento
Pueden ahora revisar los ítems e) y f) del Ejercicio 27 al final de la Sección 8.1.4.
CM T r
f= ∼ F (ν1 , ν2 ) (8.13)
CM E
La prueba de hipótesis es una prueba a cola derecha, por lo que si f ≥ Fα,ν1 ,ν2 rechazo
H0 en favor de Ha con un 100(1 − α) % de confianza.
123
Estadística para el Sistema Climático 1 M.S. Alvarez
obs.: ¿Por qué la prueba ANOVA es a cola derecha? Observemos el cociente del estadístico
de prueba. El CM T r es chico cuando la media de cada tratamiento se acerca mucho a la
gran media, eso significa que todas las medias serían parecidas a la gran media, entonces
no querría rechazar en ese caso H0 . En cambio, si las medias de cada tratamiento se alejan
de la gran media, CM T r sería grande, f también y entonces tendríamos que rechazar H0
con esa información. Los errores contribuyen a que no podamos rechazar H0 si los errores
son muy grandes (llevan a un f más chico).
124
Estadística para el Sistema Climático 1 M.S. Alvarez
Ejercicio 27
Un estudio analiza el efecto del uso de distintos tipos de fertilizantes en plantas de
Eucalipto, bajo las mismas condiciones climáticas. Para eso, se separan 4 grupos de
6 plantas cada uno. Al primer grupo (control) no se le agrega fertilizante, al segundo
grupo (Pe) se le coloca fertilizante del tipo pellets, al tercer grupo (Po) se le coloca
fertilizante generado a partir de un polímero experimental y al cuarto (Pe+Po) se le
colocan ambos tipos de fertilizantes. Al cabo de tres meses se mide la altura de las
plantas (en decímetros) y se vuelca la información en la siguiente tabla:
Resolución 27
125
Estadística para el Sistema Climático 1 M.S. Alvarez
b) Calculamos las sumas muestrales sumando todos los valores de la muestra (ecuación
(8.5)) y la gran suma usando la ecuación (8.6).
c) Ahora agreguemos a la tabla las medias muestrales para cada tratamiento, calcu-
ladas usando la ecuación (8.1)) y la gran media usando la ecuación (8.2).
d) Seguimos completando la tabla con los desvíos muestrales para cada tratamiento,
calculados usando la ecuación (8.1))
126
Estadística para el Sistema Climático 1 M.S. Alvarez
Para evaluar si es válida la suposición de que los tratamientos tienen la misma varianza
tenemos que verificar la desigualdad (8.4). Identificamos en la tabla los valores de
desvíos muestrales mínimo y máximo y:
e) Para calcular las sumas de los cuadrados comenzamos con la suma de los cuadrados
del tratamiento, SCT (ecuación 8.8)) usando las sumas calculadas en la tabla
1X I
1 2 1 1
SCT = Xi.2 − X·· = 23.552 + 25.352 + 28.042 + 26.152 − 103.092
J i=1 IJ 6 4·6
SCT = 1.7337
Ahora es conveniente calcular la suma total de los cuadrados con la ecuación (8.7)
usando la gran suma y cada uno de los valores de las observaciones de cada tratamiento:
I X
J
1 2 1
STC = Xij2 − X·· = 4.012 + 3.832 + · · · + 4.352 + 4.382 − 103.092
X
i=1 j=1 IJ 24
STC = 2.2796
Finalmente, para calcular la suma de los cuadrados del error, utilizamos la relación
(8.10)
SCT 1.7337
CMTr = = = 0.57789
I −1 4−1
SCE 0.5459
CME = = = 0.0273
I(J − 1) 4(6 − 1)
127
Estadística para el Sistema Climático 1 M.S. Alvarez
Noten que fuimos calculando en cada ítem una columna, de izquierda a derecha, hasta
tener todo lo necesario:
H0 : µ1 = µ2 = µ3 = µ4
Ha : al menos dos µi son distintas
α = 0.05 ν1 = I − 1 = 3 ν2 = I(J − 1) = 4 · 5 = 20
El estadístico de prueba es
CM T r
f= ∼ F (ν1 = 3, ν2 = 20)
CM E
A partir de la distribución F buscamos la zona de rechazo a cola derecha:
128
Estadística para el Sistema Climático 1 M.S. Alvarez
Como f = 0.57789
0.0273
= 21.17 ∈ Z.R. ⇒ rechazo H0 con un 95 % de confianza y al menos
dos µi son distintas. Esto significa que hay una diferencia entre la altura que alcanzan
las plantas de eucalipto con algún tipo de fertilizante y la control o entre alguna de
las fertilizadas con un 5 % de significancia.
el número total de observaciones, las sumas de los cuadrados, sus respectivos grados de
libertad (gdl) y cuadrados de las medias se redefinen como:
def.: Suma total de los cuadrados (STC)
Ji
I X 2 Ji
I X
1 2
STC = = Xij2 − gdl = n − 1 (8.14)
X X
Xij − X .. X
i=1 j=1 i=1 j=1 n ..
Ji
I X 2 I
1 2 1 2
SCT = = gdl = I − 1 (8.15)
X X
X i. − X .. Xi. − X..
i=1 j=1 i=1 Ji n
Ji
I X 2
SCE = = STC − SCT gdl = (Ji − 1) = n − I (8.16)
X X
Xij − X i.
i=1 j=1
SCT
CMTr = (8.17)
I −1
SCE
CME = (8.18)
n−I
129
Estadística para el Sistema Climático 1 M.S. Alvarez
def.: Xi· es la suma de las mediciones obtenidas cuando el factor A se mantiene al nivel
i,
J
Xi· = (8.19)
X
Xij
j=1
def.: X·j es la suma de las mediciones obtenidas cuando el factor B se mantiene al nivel
j,
I
X·j = (8.20)
X
Xij
i=1
J
I X
X·· = (8.21)
X
Xij
i=1 j=1
PJ
j=1 Xij
X i· = (8.22)
J
def.: X ·j es el promedio de las mediciones obtenidas cuando el factor B se mantiene al
nivel j,
PI
Xij
X ·j = i=1
(8.23)
I
def.: X ·· es la gran media
PI PJ
i=1 j=1 Xij
X ·· = (8.24)
IJ
130
Estadística para el Sistema Climático 1 M.S. Alvarez
Supondremos válido el modelo aditivo en el que cada respuesta media µij es la suma de
un efecto debido al factor A al nivel i (αi ) y al factor B al nivel j (βj ), y entonces Xij
queda determinada por
J
I X 2 J
I X
1 2
STC = = Xij2 − gdl = IJ − 1 (8.27)
X X
Xij − X .. X
i=1 j=1 i=1 j=1 IJ ··
I X
J 2 I 2 1X I
1
SCA = =J = Xi.2 − X··2 gdl = I − 1 (8.28)
X X
X i. − X .. X i. − X ..
i=1 j=1 i=1 J i=1 IJ
I X
J 2 J 2 1X J
1
SCB = =I = X.j2 − X··2 gdl = J −1 (8.29)
X X
X .j − X .. X .j − X ..
i=1 j=1 j=1 I j=1 IJ
I X
J 2
SCE = Xij − X i. − X .j + X .. gdl = (I − 1)(J − 1) (8.30)
X
i=1 j=1
prop.: La SCE se puede obtener más fácilmente utilizando la relación entre las cuatro
sumas de cuadrados, o identidad fundamental:
131
Estadística para el Sistema Climático 1 M.S. Alvarez
A partir de las sumas de los cuadrados se puede dividir cada una por los grados de libertad
asociados para obtener los cuadrados de la media:
SCA
CMA = (8.32)
I −1
SCB
CMB = (8.33)
J −1
SCE
CME = (8.34)
(I − 1)(J − 1)
H0A : α1 = α2 = · · · = αI = 0
HaA : al menos un αi 6= 0 .
CM A
fA = ∼ F (ν1 , ν2 ) (8.35)
CM E
La prueba de hipótesis es una prueba a cola derecha, por lo que si fA ≥ Fα,ν1 ,ν2 rechazo
H0A en favor de HaA con un 100(1 − α) % de confianza.
Análogamente, para el factor B la hipótesis nula será que los niveles del factor B no tienen
efecto sobre la verdadera respuesta promedio. Es decir,
H0B : β1 = β2 = · · · = βJ = 0
HaB : al menos un βj 6= 0 .
132
Estadística para el Sistema Climático 1 M.S. Alvarez
CM B
fB = ∼ F (ν1 , ν2 ) (8.36)
CM E
La prueba de hipótesis es una prueba a cola derecha, por lo que si fB ≥ Fα,ν1 ,ν2 rechazo
H0B en favor de HaB con un 100(1 − α) % de confianza.
Ejercicio 28
Para analizar la severidad de las tormentas se quiere utilizar el sensor GLM (Geosta-
tionary Lightning Mapper) del satélite geoestacionario GOES-16, que puede indicar
la presencia de descargas eléctricas a través de cambios momentáneos en su escena
óptica. A través de los datos colectados, se midió el número de descargas eléctricas
por minuto en la etapa madura de tres tipos de tormentas, en tres regiones distintas
del país.
Con estos primeros datos se quiere verificar si estadísticamente se puede afirmar que
la tasa de descargas eléctricas por minuto media es la misma en los tres tipos de
tormentas y si las tormentas son igualmente severas en las tres regiones del país.
Utilice una significancia del 5 %.
Resolución 28
En este problema consideraremos factor A al tipo de tormenta y factor B a la región
133
Estadística para el Sistema Climático 1 M.S. Alvarez
factor B (J=3)
Bs. As. Centro NE sumas medias
factor A T. unicelular 32 49 39 X1· = 120 X 1· = 40
T. multicelular 65 72 61 X2· = 198 X 2· = 66
(I=3) T. supercelular 89 115 103 X3· = 307 X 3· = 102.33
sumas X·1 = 186 X·2 = 236 X·3 = 203 X·· = 625
medias X ·1 = 62 X ·2 = 78.66 X ·3 = 67.66 X ·· = 69.44
Y tenemos lo necesario para calcular las sumas de los cuadrados usando las ecuaciones
(8.27), (8.28) y (8.29).
3 X
3
1 1
STC = Xij2 − X··2 = 49831 − 6252 = 6428.22
X
i=1 j=1 9 9
1X 3
1 1 1
SCA = Xi.2 − X··2 = 147853 − 6252 = 5881.55
3 i=1 9 3 9
1X 3
1 1 1
SCB = X.j2 − X··2 = 131501 − 6252 = 430.88
3 j=1 9 3 9
Usando las sumas de los cuadrados se calculan los cuadrados de la media según (8.32),
(8.33) y (8.34).
5881.55
CMA = = 2940.77
2
430.88
CMB = = 215.44
2
115.77
CME = = 28.94
(2)(2)
Y por lo tanto los estadísticos fA y fB son, según las ecuaciones (8.35) y (8.36),
134
Estadística para el Sistema Climático 1 M.S. Alvarez
fA = 101.6 fB = 7.44
De esta forma, la tabla ANOVA para este problema queda de la siguiente forma:
Con los cálculos resueltos, podemos plantear las pruebas de hipótesis adecuadas para
evaluar si la severidad de las tormentas, medida a través de la tasa de descargas
eléctricas por minuto, depende del tipo de tormenta o de la región de ocurrencia.
Comencemos con el análisis según el tipo de tormenta:
H0A : la tasa de descargas eléctricas por minuto media no depende del tipo de
tormenta, i.e., α1 = α2 = α3 = 0
HaA : al menos un αi 6= 0
CM A
fA = ∼ F (2, 4)
CM E
La zona de rechazo queda entonces definida por ZR : f /f ≥ F0.05;2;4 = 6.94
Dado que fA ∈ ZR, rechazo H0A con un 95 % de confianza y la tasa de actividad
eléctrica por minuto media es distinta para al menos un tipo de tormenta. Analicemos
ahora si la severidad depende de la región con la siguiente prueba:
HaB : al menos un βj 6= 0
135
Estadística para el Sistema Climático 1 M.S. Alvarez
CM B
fB = ∼ F (2, 4)
CM E
La zona de rechazo queda entonces definida por ZR : f /f ≥ F0.05;2;4 = 6.94
Dado que fB ∈ ZR, rechazo H0B con un 95 % de confianza y la tasa de actividad
eléctrica por minuto media es distinta para al menos una región del país. De esta
forma, la severidad de las tormentas efectivamente depende del tipo de tormenta y de
la región del país en la que se producen, con un 95 % de confianza.
136
Referencias
Christofferson, R.D. y D.A. Gillette (1987): A Simple Estimator of the Shape Factor of
the Two-Parameter Weibull Distribution. J. Climate Appl. Meteor., 26, 323–325
Devore Jay L. (2008) Probabilidad y Estadística para Ingeniería y Ciencias. 7ma edi-
ción.
Greenwood, J.A., y D. Durand (1960). Aids for fitting the gamma distribution by maxi-
mum likelihood. Technometrics, 2, 55–65.
Husak, G.J., Michaelsen, J. y Funk, C. (2007), Use of the gamma distribution to represent
monthly rainfall in Africa for drought monitoring applications. Int. J. Climatol.
Pérez IA, Sánchez ML y García MA (2007). Weibull wind speed distribution: Numerical
considerations and use with sodar data. Journal of Geophysical Research.
Stocker, T.F., D. Qin, G.-K. Plattner, L.V. Alexander, S.K. Allen, N.L. Bindoff, F.-M.
Bréon, J.A. Church, U. Cubasch, S. Emori, P. Forster, P. Friedlingstein, N. Gillett, J.M.
Gregory, D.L. Hartmann, E. Jansen, B. Kirtman, R. Knutti, K. Krishna Kumar, P. Lem-
ke, J. Marotzke, V. Masson-Delmotte, G.A. Meehl, I.I. Mokhov, S. Piao, V. Ramaswamy,
D. Randall, M. Rhein, M. Rojas, C. Sabine, D. Shindell, L.D. Talley, D.G. Vaughan y S.-
P. Xie, (2013): Resumen técnico. En: Cambio climático 2013. Bases físicas. Contribución
del Grupo de trabajo I al Quinto Informe de Evaluación del Grupo Intergubernamen-
tal de Expertos sobre el Cambio Climático [Stocker, T.F., D. Qin, G.-K. Plattner, M.
Tignor, S.K. Allen, J. Boschung, A. Nauels, Y. Xia, V. Bex y P.M. Midgley (eds.)]. Cam-
bridge University Press, Cambridge, Reino Unido y Nueva York, NY, Estados Unidos de
América.
Thom, H.C.S. (1958). A note on the gamma distribution. Monthly Weather Review, 86,
117–122.
Wilks, D.S. (2006) Statistical Methods in the Atmospheric Sciences. 2nd Edition, Academic
Press, London.
137