Está en la página 1de 24

ESTADÍSTICA APLICADA

Sofía Valentina Sosa Fiscella

9 DE MARZO DE 2018
FACULTAD DE CIENCIAS ASTRONÓMICAS Y GEOFÍSICA - UNLP
1. Probabilidades
Existen dos tipos de modelos matemáticos:
 Modelos deterministas o analíticos, donde las condiciones experimentales determinan el resultado.
 Modelos probabilísticos o aleatorios, donde las condiciones experimentales determinan solamente un
comportamiento probabilístico, y cada resultado es único.
1.1. Experimento, muestra y evento aleatorio
- Variable aleatoria: variables (generalmente números reales) que se asocian a ciertos eventos para clasificarlos
por medio de los posibles valores de esta variable. Pueden ser discretas (como tirar una moneda y asociar al
evento “cara” con 0 y “seca” con 1), o continúas (como tirar una rueda y medir el ángulo 𝜃 con el eje 𝑥 positivo).
- Experimento aleatorio: procedimiento preestablecido que da como resultado una variable aleatoria.
- Muestra aleatoria: subconjunto del conjunto de resultados del experimento aleatorio (el cual es un conjunto
infinito de resultados posibles), que resulta de realizar el experimento aleatorio un número finito de veces.
- Espacio muestral (del experimento): conjunto de resultados posibles, es decir, de valores que puede tomar la
variable aleatoria ({0,1} en el caso de la moneda, {𝜃: 0 ≤ 𝜃 < 2𝜋} en el caso de la ruleta).
- Evento aleatorio: describe o define aquello que es objeto de estudio. Son resultados que forman un
subconjunto del espacio muestral (en el caso de la moneda podría ser 𝐴 =”sale cara”, y en el de la ruleta
𝐴 =”sale un ángulo del 1er cuadrante”).
La probabilidad 𝑷(𝑨) asociada a un evento 𝑨 es un recurso matemático que se define como un número en una escala
de 0 (imposiblidad) a 1 (certeza absoluta) el cual se refiere a la “regularidad” con la que aparecen los resultados del
evento de estudio. Ésta puede medirse de dos maneras:
 A priori: sólo puede aplicarse cuando el experimento arroja resultados con “simetrías”. Por ejemplo, al arrojar
un dado no cargado podemos decir por simetría del dado que cada cara tiene 1/6 de probabilidad.
 Empírica: no se dispone de una simetría de modo que es necesario realizar el experimento un número 𝑁 de
veces. Si el resultado del evento 𝐴 se da 𝑁𝐴 veces, se define la probabilidad empírica como 𝑃𝑒 (𝐴) ≡ 𝑁𝐴 ⁄𝑁. Si
se repitiese el experimento infinitas veces, se obtendría entonces la probabilidad estadística:
𝑛𝐴
𝑃(𝐴) ≡ 𝑙𝑖𝑚
𝑁→∞ 𝑁
1.2. Reglas de Probabilidad
Axiomas sobre la probabilidad
a. Todo evento 𝐴 tiene un número no negativo asociado a su probabilidad: 𝑃(𝐴) ≥ 0.
b. La probabilidad asociada a la totalidad del espacio muestral, es decir, cuando el evento de estudio son todos
los resultados posibles, es 𝑃(𝑆) = 1.
c. Si 𝐴 y 𝐵 son eventos mutuamente excluyentes, la probabilidad de que ocurra 𝐴 o 𝐵 (escrito 𝐴 + 𝐵) es
𝑃(𝐴 + 𝐵) ≡ 𝑃(𝐴) + 𝑃(𝐵) (Regla de Adición)
En particular, si tomamos el evento 𝐴 y el evento ~𝐴 = 𝐴̃ (no 𝐴), entonces son mutuamente excluyentes y
𝑆 = 𝐴 + 𝐴̃ → 𝑃(𝑆) = 𝑃(𝐴) + 𝑃(𝐴̃) = 1 → 𝑃(𝐴̃) = 1 − 𝑃(𝐴) → 0 ≤ 𝑃(𝐴) ≤ 1
 Probabilidad aditiva: Sean 𝐴 y 𝐵 dos eventos cualesquiera (mutuamente excluyentes o no). Entonces:
𝑃(𝐴⋃𝐵) = 𝑃 (𝐴⋃(𝐴̃⋂𝐵)) = 𝑃(𝐴) + 𝑃(𝐴̃⋂𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴⋂𝐵) 𝐴 𝐵
donde 𝑃(𝐵) = 𝑃 ((𝐴⋂𝐵)⋃(𝐴̃⋂𝐵)) = 𝑃(𝐴⋂𝐵) + 𝑃(𝐴̃⋂𝐵) → 𝑃(𝐴̃⋂𝐵) = 𝑃(𝐵) − 𝑃(𝐴⋂𝐵)
𝐴⋂𝐵
 Probabilidad condicional: Sean 𝐴 y 𝐵 dos eventos cualesquiera. La probabilidad de que ocurra 𝐴 bajo la
condición de que también ocurra 𝐵 es:
𝑛𝐴⁄𝐵 𝑛𝐴⋂𝐵 𝑛𝐴⋂𝐵 ⁄𝑁 𝑃(𝐴⋂𝐵)
𝑃(𝐴⁄𝐵) = = = = → 𝑃(𝐴⋂𝐵) = 𝑃(𝐴⁄𝐵) ∙ 𝑃(𝐵) (1)
𝑛𝐵 𝑛𝐵 𝑛 𝐵 ⁄𝑁 𝑃(𝐵)
𝑃(𝐴⋂𝐵)
𝑃(𝐵⁄𝐴) = → 𝑃(𝐴⋂𝐵) = 𝑃(𝐵⁄𝐴) ∙ 𝑃(𝐴)
𝑃(𝐴)
Dos eventos 𝐴 y 𝐵 son independientes si el resultado de uno no altera o condiciona la probabilidad del otro. Entonces,
1
𝑃(𝐴⁄𝐵) = 𝑃(𝐴) , 𝑃(𝐴⁄𝐵) = 𝑃(𝐵) → 𝑃(𝐴⋂𝐵) = 𝑃(𝐴) ∙ 𝑃(𝐵) (2)
 Probabilidad total: sean 𝐴1 , … , 𝐴𝑛 𝑛 eventos mutuamente excluyentes, tales que su suma define el espacio
muestral (𝑆 = 𝐴1 + ⋯ + 𝐴𝑛 ). La probabilidad de que ocurra un evento con la propiedad 𝐵 es:
𝐵 = 𝐴1 ⋂𝐵 + ⋯ + 𝐴𝑛 ⋂𝐵
𝑛
𝑃(𝐵) = 𝑃(𝐴1 ⋂𝐵 + ⋯ + 𝐴𝑛 ⋂𝐵) = 𝑃(𝐴1 ⋂𝐵) + ⋯ + 𝑃(𝐴𝑛 ⋂𝐵) = 𝑃(𝐵 ⁄𝐴1 )𝑃(𝐴1 ) + ⋯ 𝑃(𝐵 ⁄𝐴𝑛 )𝑃(𝐴𝑛 ) = ∑ 𝑃(𝐵 ⁄𝐴𝑖 )𝑃(𝐴𝑖 )
𝑖=1

2. Funciones de distribución de una variable aleatoria


Consideremos una variable aleatoria 𝑋 y un número real 𝑥. La probabilidad del evento 𝑋 < 𝑥 es una función de 𝑥 y se
llama la función de distribución (acumulativa) de la variable aleatoria 𝑋:
𝑃(𝑋 < 𝑥) = 𝐹(𝑥) (3)
Como {X < x} + {X ≥ x} = S, entonces:
𝑙𝑖𝑚 𝐹(𝑥) = 𝑙𝑖𝑚 𝑃(𝑋 < 𝑥) = 𝑃(𝑆) = 1 (4)
𝑥→∞ 𝑥→∞
𝑃(𝑋 ≥ 𝑥) = 1 − 𝑃(𝑋 < 𝑥) = 1 − 𝐹(𝑥) → 𝑙𝑖𝑚 𝐹(𝑥) = 𝑙𝑖𝑚 𝑃(𝑋 < 𝑥) = 1 − 𝑙𝑖𝑚 𝑃(𝑋 ≥ 𝑥) = 1 − 1 = 0
𝑥→−∞ 𝑥→−∞ 𝑥→−∞
Si 𝐹(𝑥) es continua y diferenciable, su primera derivada se llama la densidad lineal de probabilidad de 𝑋, y mide la
probabilidad del evento (𝑥 ≤ 𝑋 < 𝑥 + 𝑑𝑥), es decir, de que la variable aleatoria 𝑋 se encuentre entre 𝑥 y 𝑥 + 𝑑𝑥:
𝑑𝐹(𝑥)
𝑓(𝑥) = 𝑑𝑥
= 𝐹 ′ (𝑥)
De (3) y (4), vemos que:
𝑎
𝑃(𝑋 < 𝑎) = 𝐹(𝑎) = ∫ 𝑓(𝑥) 𝑑𝑥
−∞
𝑏 𝑎 𝑏
𝑃(𝑎 < 𝑋 < 𝑏) = 𝑃(𝑥 < 𝑏) − 𝑃(𝑥 < 𝑎) = ∫ 𝑓(𝑥) 𝑑𝑥 − ∫ 𝑓(𝑥) 𝑑𝑥 = ∫ 𝑓(𝑥) 𝑑𝑥 = 𝐹(𝑏) − 𝐹(𝑎)
−∞ −∞ 𝑎
En particular, siempre se debe cumplir la condición de normalización

∫ 𝑓(𝑥) 𝑑𝑥 = 𝐹(𝑆) = 1
−∞
2.1. Media y Varianza
 La media de una variable aleatoria es una variable determinista que refleja el valor más representativo del
conjunto de valores de 𝑋. Según 𝑋 sea discreta o continua, se obtiene como la suma o integral de todos los valores de
𝑋 mutiplicados por sus correspondientes probabilidades:
𝑛
𝜇(𝑋) = ∑ 𝑥𝑖 𝑃(𝑋 = 𝑥𝑖 ) (variable discreta)
𝑖=1

𝜇(𝑋) = ∫ 𝑥 𝑓(𝑥) 𝑑𝑥 (variable continua)
−∞
 La varianza mide el apartamiento promedio de las medidas de 𝑋 respecto de su media, y se obtiene como:
𝑛
𝜎 2 (𝑋) = ∑ (𝑥𝑖 − 𝜇𝑋 )2 𝑃(𝑋 = 𝑥𝑖 ) (variable discreta)
𝑖=1

𝜎 2 (𝑋) = ∫ (𝑥 − 𝜇𝑋 )2 𝑓(𝑥) 𝑑𝑥 (variable continua)
−∞

 La desviación estándar (o dispersión) se define como la raíz cuadrada de la varianza 𝜎 = ±√𝜎𝑋2. Al igual que
ésta, es una medida del apartamiento promedio de las medidas de 𝑋 respecto a su media, y como tiene las mismas
dimensiones que 𝑋 se asocia al error en la medida.
 La moda es el valor 𝑥 = 𝑥0 de la variable aleatoria 𝑋 que se corresponde a la probabilidad máxima:
𝑃(𝑋 = 𝑥0 ) = máx. Si la función densidad es diferenciable corresponde a un máximo de 𝑓(𝑥) y está determinada por
𝑓 ′ (𝑥) = 0 , 𝑓 ′′ (𝑥) < 0
Cuando el máximo es único, la distribución se llama unimodal.

2
 La mediana es el valor 𝑥 = 𝑥𝑚 de la variable aleatoria 𝑋 para el cual la función de distribución es igual a 1⁄2:
𝑥𝑗 , 𝑥𝑗 <𝑥𝑚
𝐹(𝑥𝑚 ) = 𝑃(𝑋 < 𝑥𝑚 ) = ∑ 𝑃(𝑋 = 𝑥𝑖 ) = 0.5 (variable discreta)
𝑖=1
𝑥𝑚
𝐹(𝑥𝑚 ) = 𝑃(𝑋 < 𝑥𝑚 ) = ∫ 𝑓(𝑥) 𝑑𝑥 = 0.5 (variable continua)
−∞

2.2. Operador esperanza


Una función determinista 𝐻 aplicada a una variable aleatoria 𝑋 es también una variable aleatoria 𝑌 = 𝐻(𝑋), y como
tal tendrá una función de distribución y una densidad de probabilidad. Se define el operador esperanza de 𝐻(𝑥) como:
𝑛
𝐸[𝐻(𝑋)] = ∑ 𝐻(𝑥𝑖 ) 𝑃(𝑋 = 𝑥𝑖 ) (variable discreta)
𝑖=1

𝐸[𝐻(𝑋)] = ∫ 𝐻(𝑥) 𝑓(𝑥) 𝑑𝑥 (variable continua)
−∞
Si 𝐻(𝑋) = (𝑋 − 𝜇𝑋 )𝑙 , obtenemos los momentos de orden 𝒍 de la variable 𝑋 con respecto a la media 𝜇𝑋 :

𝜇𝑙 = 𝐸[(𝑋 − 𝜇𝑋 )𝑙 ] = ∫ (𝑥 − 𝜇𝑋 )𝑙 𝑓(𝑥) 𝑑𝑥
−∞
En particular, 𝜇0 = 1, 𝜇1 = 0, 𝜇2 = 𝜎𝑋2 .
El tercer momento, 𝜇3 , se llama sesgo y mide la asimetría de 𝑓(𝑥) alrededor
de la media. Las distribuciones simétricas tienen 𝜇3 = 0. Notemos además que:
𝜎𝑋2 = 𝐸[(𝑋 − 𝜇𝑋 )2 ] = 𝐸[𝑋 2 + 2𝑋𝜇𝑋 + 𝜇𝑋2 ] = 𝐸[𝑋 2 ] − 2𝜇𝑋 𝐸[𝑋] − 𝜇𝑋2 ∙ 1 = 𝐸[𝑋 2 ] − 2𝜇𝑋2 + 𝜇𝑋2 = 𝐸[𝑋 2 ] − 𝜇𝑋2

2.3. Transformación de variables


Sea 𝑌 = 𝑌(𝑋) una variable aleatoria que depende 𝑋, cuya densidad de probabilidad 𝑓(𝑥) es conocida. La probabilidad
𝑔(𝑦)𝑑𝑦 de que 𝑌 esté dentro de un intervalo 𝑑𝑦 debe ser igual a la probabilidad 𝑓(𝑥)𝑑𝑥 de que 𝑋 esté dentro del
correspondiente intervalo 𝑑𝑥, es decir que hay una equivalencia areal:
𝑑𝑥
𝑓(𝑥)𝑑𝑥 = 𝑔(𝑦)𝑑𝑦 → 𝑔(𝑦) = | | 𝑓(𝑥)|𝑥(𝑦)
𝑑𝑦 𝑦
donde el valor absoluto asegura que las densidades de probabilidad sean
positivas. Para que la derivada 𝑑𝑥 ⁄𝑑𝑦 esté unívocamente definida, 𝑔(𝑦) está
definida sólo cuando 𝑦(𝑥) es biyectiva. Sino, por ejemplo si 𝑦 = √𝑥, debemos
considerar las partes inyectivas por separado, es decir, 𝑦 = +√𝑥 y 𝑦 = −√𝑥:
𝑃(𝑦 < 𝑌 < 𝑦 + 𝑑𝑦) = 𝑃(𝑥 < 𝑋 < 𝑥 + 𝑑𝑥 ⋃ − 𝑥 − 𝑑𝑥 < 𝑋 < −𝑥)
2.4. Función de distribución conjunta
Si 𝑋 e 𝑌 son dos variables aleatorias, la probabilidad de que 𝑋 < 𝑥 y 𝑌 < 𝑦 está dada por una función de distribución
conjunta 𝐹(𝑥, 𝑦) = 𝑃(𝑋 < 𝑥, 𝑌 < 𝑦). Si 𝐹 es diferenciable respecto de 𝑥 y de 𝑦, podemos definir una función de
densidad de probabilidad conjunta de 𝑋 e 𝑌 como
𝜕 2 𝐹(𝑥, 𝑦)
𝑓(𝑥, 𝑦) = → 𝑃(𝑥 < 𝑋 < 𝑥 + 𝑑𝑥, 𝑦 < 𝑌 < 𝑦 + 𝑑𝑦) = 𝑓(𝑥, 𝑦) 𝑑𝑥 𝑑𝑦
𝜕𝑥 𝜕𝑦
Tenemos entonces que:
𝑏 𝑑
𝑃(𝑎 ≤ 𝑋 < 𝑏, 𝑐 ≤ 𝑌 < 𝑑) = ∫ [∫ 𝑓(𝑥, 𝑦) 𝑑𝑦] 𝑑𝑥
𝑎 𝑐
Para hallar la probabilidad para 𝑋 sin consideración por 𝑌 integramos sobre todo el rango de valores de 𝑌:
𝑏 ∞ 𝑏 ∞
𝑃(𝑎 ≤ 𝑋 < 𝑏, −∞ ≤ 𝑌 < ∞) = ∫ [∫ 𝑓(𝑥, 𝑦) 𝑑𝑦] 𝑑𝑥 = ∫ 𝑔(𝑥) 𝑑𝑥 , 𝑔(𝑥) = ∫ 𝑓(𝑥, 𝑦) 𝑑𝑦
𝑎 −∞ 𝑎 −∞
donde 𝑔(𝑥) es la función de densidad de probabilidad marginal de 𝑋. La distribución correspondiente para 𝑌 es:

ℎ(𝑦) = ∫ 𝑓(𝑥, 𝑦) 𝑑𝑥
−∞
Esto nos permite obtener las medias y varianzas de 𝑋 e 𝑌 como:
3
∞ ∞
2
𝜇𝑋𝑖 = ∫ 𝑥𝑖 𝑔(𝑥𝑖 )𝑑𝑥𝑖 , 𝜎𝑋2𝑖 = ∫ (𝑥𝑖 − 𝜇𝑋𝑖 ) 𝑔(𝑥𝑖 )𝑑𝑥𝑖
−∞ −∞
En analogía a la independencia de eventos (2), las variables 𝑋 e 𝑌 se dicen independientes si 𝑓(𝑥, 𝑦) = 𝑔(𝑥)ℎ(𝑦).
En analogía a la probabilidad condicional de eventos (1), la densidad de probabilidad condicional de 𝑌 bajo la condición
de que 𝑋 es conocida está dada por:
𝑓(𝑥, 𝑦)
𝑓(𝑦⁄𝑥 ) = → 𝑃(𝑦 ≤ 𝑌 < 𝑦 + 𝑑𝑦⁄𝑥 ≤ 𝑋 ≤ 𝑥 + 𝑑𝑥 ) = 𝑓(𝑦⁄𝑥 ) 𝑑𝑦
𝑔(𝑥)
En el caso de variables independientes, obtenemos que:
𝑓(𝑥, 𝑦) 𝑔(𝑥) ℎ(𝑦)
𝑓(𝑦⁄𝑥 ) = = = ℎ(𝑦)
𝑔(𝑥) 𝑔(𝑥)
2.4.1. Valor de expectación, varianza, covarianza y correlación
Se definen el operador esperanza y la varianza de una función 𝐻(𝑋, 𝑌) como:
∞ ∞
2
𝐸[𝐻(𝑋, 𝑌)] = ∫ ∫ 𝐻(𝑥, 𝑦) 𝑓(𝑥, 𝑦)𝑑𝑥 𝑑𝑦 , 𝜎2 [𝐻(𝑋, 𝑌)] = 𝐸 [(𝐻(𝑋, 𝑌) − 𝐸[𝐻(𝑋, 𝑌)]) ]
−∞ −∞
En particular, para 𝐻(𝑋, 𝑌) = 𝑎𝑋 + 𝑏𝑌 tenemos que:
𝐸(𝑎𝑋 + 𝑏𝑌) = 𝑎 𝐸[𝑋] + 𝑏 𝐸[𝑌] = 𝑎𝜇𝑋 + 𝑏𝜇𝑌
2 2
𝜎 2 (𝑎𝑋 + 𝑏𝑌) = 𝐸 [((𝑎𝑋 + 𝑏𝑌) − (𝑎𝜇𝑋 + 𝑏𝜇𝑌 )) ] = 𝐸 [(𝑎(𝑋 − 𝜇𝑋 ) + 𝑏(𝑌 − 𝜇𝑌 )) ] (5)
2 (𝑋 )2 2 (𝑌 )2
= 𝐸[𝑎 − 𝜇𝑋 + 𝑏 − 𝜇𝑌 + 2𝑎𝑏(𝑋 − 𝜇𝑋 )(𝑌 − 𝜇𝑌 )]
= 𝑎 𝐸[(𝑋 − 𝜇𝑋 ) ] + 𝑏 𝐸[(𝑌 − 𝜇𝑌 )2 ] + 2𝑎𝑏 𝐸[(𝑋 − 𝜇𝑋 )(𝑌 − 𝜇𝑌 )] = 𝑎2 𝜎𝑋2 + 𝑏2 𝜎𝑌2 + 2𝑎𝑏 cov(𝑋, 𝑌)
2 2 2

donde
∞ ∞
cov(𝑋, 𝑌) ≡ 𝐸[(𝑋 − 𝜇𝑋 )(𝑌 − 𝜇𝑌 )] = ∫ ∫ (𝑥 − 𝜇𝑋 )(𝑦 − 𝜇𝑌 ) 𝑓(𝑥, 𝑦)𝑑𝑥 𝑑𝑦
−∞ −∞
se denomina la covarianza de 𝑋 e 𝑌 y mide el grado de dependencia estadística entre estas variables. Vemos que:
 cov(𝑋, 𝑌) > 0 si valores 𝑋 > 𝜇𝑋 aparecen en cov(𝑋, 𝑌) < 0
cov(𝑋, 𝑌) > 0 cov(𝑋, 𝑌) ≈ 0
general con valores 𝑌 > 𝜇𝑌 , o 𝑋 < 𝜇𝑋 con 𝑌 < 𝜇𝑌 .
 cov(𝑋, 𝑌) < 0 si en general 𝑋 > 𝜇𝑋 implica 𝑌 <
𝜇𝑦 , o si 𝑋 < 𝜇𝑋 implica 𝑌 > 𝜇𝑌 .
 cov(𝑋, 𝑌) = 0 si el valor de 𝑋 no proporciona
información adicional sobre la posición probable de 𝑌.
Si 𝑋 e 𝑌 son independientes, entonces 𝑓(𝑥, 𝑦) = 𝑔(𝑥)ℎ(𝑦) y la covarianza se anula:
∞ ∞ ∞ ∞
cov(𝑋, 𝑌) = ∫ ∫ (𝑥 − 𝜇𝑋 )(𝑦 − 𝜇𝑌 ) 𝑔(𝑥)ℎ(𝑦) 𝑑𝑥 𝑑𝑦 = ∫ (𝑥 − 𝜇𝑋 ) ℎ(𝑥)𝑑𝑥 ∫ (𝑦 − 𝜇𝑌 ) 𝑔(𝑦)𝑑𝑦
−∞ −∞ −∞ −∞
∞ ∞ ∞ ∞
= (∫ 𝑥 ℎ(𝑥)𝑑𝑥 − 𝜇𝑋 ∫ ℎ(𝑥)𝑑𝑥) (∫ 𝑦 𝑔(𝑦)𝑑𝑦 − 𝜇𝑌 ∫ 𝑔(𝑦)𝑑𝑦) = (𝜇𝑋 − 𝜇𝑋 1)(𝜇𝑌 − 𝜇𝑌 1) = 0
−∞ −∞ −∞ −∞

El coeficiente de correlación entre 𝑋 e 𝑌 se define como:


cov(𝑋, 𝑌)
𝜌(𝑋, 𝑌) ≡
𝜎(𝑋) 𝜎(𝑌)
Éste mide la dependencia estadística entre las variables sin tener en cuenta la precisión del laboratorio, pues
normalizamos la covarianza por el desvío inherente de cada laboratorio. El coeficiente cumple con:
a. −1 ≤ 𝜌(𝑋, 𝑌) ≤ 1
Demostración: Definimos variables aleatorias normalizadas
𝑋 − 𝜇𝑋 𝑌 − 𝜇𝑌 1 1 1 𝜎𝑋2
𝑈≡ , 𝑉≡ → 𝜇𝑈 = 𝐸(𝑈) = 𝐸(𝑋 − 𝜇𝑋 ) = (𝜇𝑋 − 𝜇𝑋 ) = 0 , 𝜎𝑈2 = 2 𝐸[(𝑋 − 𝜇𝑋 )2 ] = 2 = 1
𝜎𝑋 𝜎𝑌 𝜎𝑋 𝜎𝑋 𝜎𝑋 𝜎𝑋
Usando la ecuación (5) tenemos que:
𝜎 2 (𝑈 + 𝑉) = 𝜎𝑈2 + 𝜎𝑉2 + 2 𝜌(𝑈, 𝑉)𝜎(𝑈) 𝜎(𝑉) = 2(1 + 𝜌(𝑈, 𝑉)) ≥ 0 , 𝜎 2 (𝑈 − 𝑉) = 2(1 − 𝜌(𝑈, 𝑉)) ≥ 0.
Luego, debe ser que −1 ≤ 𝜌(𝑈, 𝑉) ≤ 1. Por otro lado, tenemos que:
4
cov(𝑈, 𝑉) 1 𝑋 − 𝜇𝑋 𝑌 − 𝜇𝑌 1
𝜌(𝑈, 𝑉) = = 𝐸 [( )( )] = 𝐸[(𝑋 − 𝜇𝑋 )(𝑌 − 𝜇𝑌 )] = 𝜌(𝑋, 𝑌) → −1 ≤ 𝜌(𝑋, 𝑌) ≤ 1
𝜎(𝑈) 𝜎(𝑉) (1)(1) 𝜎𝑋 𝜎𝑌 𝜎𝑋 𝜎𝑌
b. Si 𝑋 e 𝑌 son variables independientes, entonces cov(𝑋, 𝑌) = 0 → 𝜌(𝑋, 𝑌) = 0.
c. Si una variable es una función determinista de la otra, es decir 𝑌 = 𝐻(𝑋), entonces 𝜌(𝑋, 𝑌) ≅ ±1.
Demostración: Tomando un desarrollo en serie de potencias de 𝑌 alrededor de 𝜇𝑋 a primer orden:
𝜕𝐻 𝜕𝐻 𝜕𝐻
𝑌 ≅ 𝐻(𝜇𝑋 ) + | (𝑋 − 𝜇𝑋 ) = 𝛼 + 𝛽𝑋 , 𝛼 = 𝐻(𝜇𝑋 ) − | 𝜇𝑋 , 𝛽 = |
𝜕𝑋 𝜇𝑋 𝜕𝑋 𝜇𝑋 𝜕𝑋 𝜇𝑋
𝜎𝑌2 = 𝐸[(𝑌 − 𝜇𝑌 )2 ] ≅ 𝐸[(𝛼 + 𝛽𝑋 − 𝛼 − 𝛽𝜇𝑋 )] = 𝛽 2 𝐸[(𝑋 − 𝜇𝑋 )2 ] = 𝛽 2 𝜎𝑋2 cov(𝑋, 𝑌) 𝛽𝜎𝑋2
} 𝜌(𝑋, 𝑌) = = = ±1
cov(𝑋, 𝑌) = 𝐸[(𝑋 − 𝜇𝑋 )(𝑌 − 𝜇𝑌 )] = 𝐸[(𝑋 − 𝜇𝑋 )𝛽(𝑋 − 𝜇𝑋 )] = 𝛽[(𝑋 − 𝜇𝑋 )2 ] = 𝛽𝜎𝑋2 𝜎𝑋 𝜎𝑌 𝜎𝑋 (±𝛽𝜎𝑋 )

2.5. Varias variables


La función de distribución de 𝑛 variables 𝑋1 , … , 𝑋𝑛 se define como:
𝐹(𝑥1 , 𝑥2 , … , 𝑥𝑛 ) = 𝑃(𝑋1 < 𝑥1 , 𝑋2 < 𝑥2 , … , 𝑋𝑛 < 𝑥𝑛 )
Si 𝐹 es diferenciable respecto de las 𝑥𝑖 , la densidad de probabilidad conjunta está dada por:
𝜕𝑛
𝑓(𝑥1 , 𝑥2 , … , 𝑥𝑛 ) = 𝐹(𝑥1 , 𝑥2 , … , 𝑥𝑛 )
𝜕𝑥1 𝜕𝑥2 … 𝜕𝑥𝑛
La densidad de probabilidad marginal asociada a la variable 𝑋𝑖 está dada por:
∞ ∞
𝑔𝑖 (𝑥𝑖 ) = 𝑃(−∞ < 𝑋1 < ∞, … , 𝑥𝑖 < 𝑋𝑖 < 𝑥𝑖 + 𝑑𝑥𝑖 , … , −∞ < 𝑋𝑛 < ∞) = ∫ … ∫ 𝑓(𝑥1 , … , 𝑥𝑛 ) 𝑑𝑥1 … 𝑑𝑥𝑖−1 𝑑𝑥𝑖+1 … 𝑑𝑥𝑛
−∞ −∞

Las variables 𝑋1 , … , 𝑋𝑛 son variables independientes si podemos escribir la densidad de probabilidad como:
𝑓(𝑥1 , 𝑥2 , … , 𝑥𝑛 ) = 𝑔1 (𝑥1 )𝑔2 (𝑥2 ) … 𝑔𝑛 (𝑥𝑛 )
Si 𝐻(𝑋1 , … , 𝑋𝑛 ) es una función de 𝑛 variables, el valor esperado de 𝐻 es
∞ ∞
𝐸[𝐻(𝑋1 , … , 𝑋𝑛 )] = ∫ … ∫ 𝐻(𝑥1 , … , 𝑥𝑛 )𝑓(𝑥1 , … , 𝑥𝑛 ) 𝑑𝑥1 … 𝑑𝑥𝑛
−∞ −∞

En particular, si 𝐻(𝑋⃗) = 𝑋𝑖 , tenemos que:


∞ ∞ ∞ ∞ ∞
𝜇𝑋𝑖 = 𝐸(𝑋𝑖 ) = ∫ … ∫ 𝑥𝑖 𝑓(𝑥1 , … , 𝑥𝑛 ) 𝑑𝑥1 … 𝑑𝑥𝑛 = ∫ 𝑥𝑖 (∫ 𝑓(𝑥1 , … , 𝑥𝑛 ) 𝑑𝑥1 … 𝑑𝑥𝑛 ) 𝑑𝑥𝑖 = ∫ 𝑥𝑖 𝑔𝑖 (𝑥𝑖 )𝑑𝑥𝑖
−∞ −∞ −∞ −∞ −∞

2 2
𝜎𝑋2𝑖 = 𝐸 [(𝑋𝑖 − 𝜇𝑋𝑖 ) ] = ∫ (𝑥𝑖 − 𝜇𝑋𝑖 ) 𝑔𝑖 (𝑥𝑖 )𝑑𝑥𝑖
−∞
∞ ∞ cov(𝑋𝑖 , 𝑋𝑗 )
cov(𝑋𝑖 , 𝑋𝑗 ) = 𝐸 [(𝑋𝑖 − 𝜇𝑋𝑖 ) (𝑋𝑗 − 𝜇𝑋𝑗 )] = ∫ ∫ (𝑥𝑖 − 𝜇𝑋𝑖 ) (𝑥𝑗 − 𝜇𝑋𝑗 ) 𝑓𝑖𝑗 (𝑥𝑖 , 𝑥𝑗 )𝑑𝑥𝑖 𝑑𝑥𝑗 , 𝜌(𝑋𝑖 , 𝑋𝑗 ) =
−∞ −∞ 𝜎𝑋𝑖 𝜎𝑋𝑗
2.5.1. Matriz de varianza-covarianza
Es conveniente representar a las 𝑛 variables 𝑋1 , … , 𝑋𝑛 como las componentes de un vector 𝑛 dimensional
𝜎𝑋21 cov(𝑋1 , 𝑋2 ) ⋯ cov(𝑋1 , 𝑋𝑛 )
𝑋1 𝜇𝑋1
𝑇 cov(𝑋1 , 𝑋2 ) 𝜎𝑋22 ⋯ cov(𝑋2 , 𝑋𝑛 )
𝑋 = ( ⋮ ) , 𝜇𝑋⃗⃗ = 𝐸[𝑋] = ( ⋮ ) , 𝐶𝑋⃗⃗ = 𝐸 [(𝑋⃗ − 𝜇𝑋⃗⃗ )(𝑋⃗ − 𝜇𝑋⃗⃗ ) ] =
⃗ ⃗
𝑋𝑛 𝜇𝑋1 ⋮ ⋮ ⋱ ⋮
2
cov(𝑋 ,
1 𝑛 𝑋 ) cov(𝑋 ,
2 𝑛 𝑋 ) ⋯ 𝜎𝑋𝑛
( )
La matriz 𝐶𝑋⃗⃗⃗ se llama matriz de varianza-covarianza (o matriz de error). Si las variables son independientes entonces
cov(𝑋𝑖 , 𝑋𝑗 ) = 0 y la matriz es diagonal. Por otro lado, se define la matriz de correlación como:
1 𝜌(𝑋1 , 𝑋2 ) ⋯ 𝜌(𝑋1 , 𝑋𝑛 ) 𝜎𝑋1 0 ⋯ 0
𝜌(𝑋1 , 𝑋2 ) 1 ⋯ 𝜌(𝑋2 , 𝑋𝑛 ) 0 𝜎𝑋2 ⋯ 0
𝜌𝑋⃗⃗ = 𝐷 −1 𝐶𝑋⃗⃗ 𝐷 −1 = ( ) , donde 𝐷 = ( )
⋮ ⋮ ⋱ ⋮ ⋮ ⋮ ⋱ ⋮
𝜌(𝑋1 , 𝑋𝑛 ) 𝜌(𝑋2 , 𝑋𝑛 ) ⋯ 1 0 0 ⋯ 𝜎𝑛

5
2.5.2. Transformación de variables
Sean 𝑋, 𝑌 dos variables aleatorias y consideremos la transformación a las variables 𝑈 = 𝑈(𝑋, 𝑌) , 𝑉 = 𝑉(𝑋, 𝑌). Por la
equivalencia areal, debe ser que:
𝑓(𝑥, 𝑦) 𝑑𝑥 𝑑𝑦 = 𝑔(𝑢, 𝑣) 𝑑𝑢 𝑑𝑣 𝑏 𝑐
𝑣 + 𝑑𝑣
Como 𝑑𝐴 = 𝑑𝑥 𝑑𝑦 es un elemento de área 𝑢 = 𝑢(𝑥, 𝑦)
infinitesimal, puede aproximarse como un 𝑣 = 𝑣(𝑥, 𝑦)
paralelogramo de aristas en 𝑣 𝑎 𝑑
𝑥𝑎 = 𝑥(𝑢, 𝑣) , 𝑦𝑎 = 𝑦(𝑢, 𝑣)
𝑥𝑏 = 𝑥(𝑢, 𝑣 + 𝑑𝑣) , 𝑦𝑏 = 𝑦(𝑢, 𝑣 + 𝑑𝑣)
𝑥𝑐 = 𝑥(𝑢 + 𝑑𝑢, 𝑣) , 𝑦𝑐 = (𝑢 + 𝑑𝑢, 𝑑𝑣) 𝑢 𝑢 + 𝑑𝑢

Como 𝑑𝑢 y 𝑑𝑣 son variaciones pequeñas, podemos expandir en serie:


𝜕𝑥 𝜕𝑦
𝑥𝑏 = 𝑥(𝑢, 𝑣) + 𝜕𝑣 𝑑𝑣 , 𝑦𝑏 = 𝑦(𝑢, 𝑣) + 𝜕𝑣 𝑑𝑣
𝜕𝑥 𝜕𝑦
𝑥𝑐 = 𝑥(𝑢, 𝑣) + 𝜕𝑢𝑑𝑢 , 𝑦𝑐 = 𝑦(𝑢, 𝑣) + 𝜕𝑢𝑑𝑢
Entonces el área del paralelogramo es:
1 𝑥𝑎 𝑦𝑎 𝜕𝑥 𝜕𝑦 𝜕𝑥 𝜕𝑦
𝑑𝐴 = 𝑑𝑥𝑑𝑦 = |1 𝑥𝑏 𝑦𝑏 | = (𝑥𝑏 𝑦𝑐 − 𝑥𝑐 𝑦𝑏 ) − (𝑥𝑐 𝑦𝑎 − 𝑥𝑎 𝑦𝑐 ) + (𝑥𝑎 𝑦𝑏 − 𝑥𝑏 𝑦𝑎 ) = 𝑑𝑢 𝑑𝑣 − 𝑑𝑣 𝑑𝑢
1 𝑥𝑐 𝑦𝑐 𝜕𝑢 𝜕𝑣 𝜕𝑣 𝜕𝑢
𝜕𝑥 𝜕𝑦
𝜕𝑢 𝜕𝑢
𝑥, 𝑦 𝑥, 𝑦
= | | 𝑑𝑢 𝑑𝑣 = 𝐽 ( ) 𝑑𝑢 𝑑𝑣 = 𝐽 ( ) 𝑑𝐴𝑢𝑣
𝜕𝑥 𝜕𝑦 𝑢, 𝑣 𝑢, 𝑣
𝜕𝑣 𝜕𝑣
𝑥,𝑦
donde 𝐽 (𝑢,𝑣) es el jacobiano de la transformación, y da la equivalencia variacional entre los dos espacios. Luego,
𝑥, 𝑦 𝑥, 𝑦
𝑓(𝑥, 𝑦) 𝑑𝑥 𝑑𝑦 = 𝑓(𝑥, 𝑦) 𝐽 ( ) 𝑑𝑢 𝑑𝑣 = 𝑔(𝑢, 𝑣) 𝑑𝑢 𝑑𝑣 → 𝑔(𝑢, 𝑣) = 𝑓(𝑥, 𝑦)|𝑢,𝑣 | 𝐽 ( )| |
𝑢, 𝑣 𝑢, 𝑣 𝑢,𝑣
Para el caso general de 𝑛 variables 𝑋⃗ = (𝑋1 ⋯ 𝑋𝑛 )𝑇 y la transformación 𝑌1 = 𝑌1 (𝑋⃗), … , 𝑌𝑛 = 𝑌𝑛 (𝑋⃗), la densidad de
probabilidad se transforma como
𝜕𝑥1 𝜕𝑥𝑛

𝑋⃗ 𝑋⃗ 𝑥 , … , 𝑥𝑛 𝜕𝑦1 𝜕𝑦1
⃗⃗) = |𝐽 ( )| | 𝑓(𝑋⃗) , donde 𝐽 ( )| = 𝐽 ( 1
𝑔(𝑌 )=| ⋮ ⋱ ⋮ |
⃗⃗ 𝑌⃗⃗
𝑌 ⃗⃗ 𝑌⃗⃗
𝑌 𝑦1 , … , 𝑦𝑛 𝜕𝑥1 𝜕𝑥𝑛
𝜕𝑦𝑛
⋯ 𝜕𝑦𝑛

2.6. Propagación de errores


Consideremos 𝑟 funciones 𝑌 ⃗⃗ = (𝑌1 , … , 𝑌𝑟 ) de las 𝑛 variables 𝑋⃗ = (𝑋1 , … , 𝑋𝑛 ), de las cuales se conoce la matriz de
varianza-covarianza 𝐶𝑋⃗⃗ . Queremos entonces hallar 𝐶𝑌⃗⃗ .
(a) Si la transformación es lineal, es decir que 𝑌 ⃗⃗ = 𝑇𝑋⃗ + 𝑎⃗, tenemos entonces que:
⃗⃗] = 𝐸[𝑇𝑋⃗ + 𝑎⃗] = 𝑇𝐸[𝑋⃗] + 𝑎⃗ = 𝑇𝜇⃗𝑋⃗⃗ + 𝑎⃗
𝐸[𝑌
𝑇 𝑇
⃗⃗ − 𝜇𝑌⃗⃗ ) ] = 𝐸 [(𝑇𝑋⃗ + 𝑎⃗ − 𝑇𝜇⃗𝑋⃗⃗ − 𝑎⃗)(𝑇𝑋⃗ + 𝑎⃗ − 𝑇𝜇⃗𝑋⃗⃗ − 𝑎⃗) ]
⃗⃗ − 𝜇𝑌⃗⃗ )(𝑌
𝐶𝑌⃗⃗ = 𝐸 [(𝑌
𝑇 𝑇
= 𝐸 [𝑇(𝑋⃗ − 𝜇⃗𝑋⃗⃗ )(𝑋⃗ − 𝜇⃗𝑋⃗⃗ ) 𝑇𝑇 ] = 𝑇 𝐸 [(𝑋⃗ − 𝜇⃗𝑋⃗⃗ )(𝑋⃗ − 𝜇⃗𝑋⃗⃗ ) ] 𝑇𝑇 = 𝑻𝑪𝑿
⃗⃗⃗ 𝑻
𝑻

(b) Si la transformación es no lineal, es decir 𝑌𝑖 = 𝑌𝑖 (𝑋1 , … , 𝑋𝑛 ), tomamos un desarrollo en serie alrededor de 𝜇⃗𝑋⃗⃗ :
𝜕𝑌 𝜕𝑌
𝑌𝑖 = 𝑌𝑖 (𝜇⃗𝑋⃗⃗ ) + 𝜕𝑋𝑖 | (𝑋1 − 𝜇𝑋1 ) + ⋯ + 𝜕𝑋 𝑖 | (𝑋𝑛 − 𝜇𝑋𝑛 ) + 𝑇. 𝑂. 𝑀.
1 ⃗𝜇
⃗⃗⃗⃗⃗⃗ 𝑛 ⃗𝜇⃗𝑋
𝑋 ⃗⃗⃗⃗
𝜕𝑌1 𝜕𝑌1 𝜕𝑌1

𝜕𝑋1 𝜕𝑋2 𝜕𝑋𝑛
𝜕𝑌2 𝜕𝑌2 𝜕𝑌2 |
⃗⃗ = 𝑌
𝑌 ⃗⃗(𝜇⃗ ⃗⃗ ) + 𝑇 ′ (𝑋⃗ − 𝜇⃗ ⃗⃗ ) + 𝑇𝑂𝑀 , 𝑇 ′ = 𝜕𝑋1 𝜕𝑋2

𝜕𝑋𝑛
𝑋 𝑋
⋮ ⋮ ⋱ ⋮ |
𝜕𝑌𝑟 𝜕𝑌𝑟 𝜕𝑌𝑟

(𝜕𝑋1 𝜕𝑋2 𝜕𝑋𝑛 ) ⃗𝜇⃗𝑋
⃗⃗⃗⃗

Si los errores en 𝑋⃗ son lo suficientemente pequeños, podemos despreciar los términos de orden superior y tenemos:
𝑇 𝑻
𝐶𝑌⃗⃗ = 𝐸 [(𝑌 ⃗⃗ − 𝜇𝑌⃗⃗ ) ] ≅ 𝑻′ 𝑪𝑿
⃗⃗ − 𝜇𝑌⃗⃗ )(𝑌 ⃗⃗⃗ 𝑻

6
Nota: vemos que no solamente las varianzas de 𝑋⃗ sino también las covarianzas contribuyen a los errores (varianzas)
⃗⃗, es decir, a los elementos diagonales de 𝐶𝑌⃗⃗ . Las covarianzas sólo pueden ser ignoradas cuando las variables 𝑋⃗ son
de 𝑌
independientes, es decir, cuando 𝐶𝑋⃗⃗ es diagonal. En ese caso, los elementos diagonales de 𝐶𝑌⃗⃗ son:

2 2
𝜕𝑌𝑖
𝑛 𝑛 𝜕𝑌𝑖 2
𝜎𝑌2𝑖 =∑ ( ) 𝜎𝑋2𝐽 → 𝜎𝑌𝑖 ≡ ∆𝑌𝑖 = √∑ ( ) (∆𝑋𝑗 )
𝑗=1 𝜕𝑋𝑗 𝜇⃗⃗ 𝑗=1 𝜕𝑋𝑗 𝜇⃗⃗
⃗⃗⃗
𝑋 ⃗⃗⃗
𝑋

3. Funciones de distribución de probabilidades especiales


3.1. Distribución Binomial
Un experimento binomial cumple que:
a. Los resultados posibles son solamente dos: 𝑆 = 𝐴 + 𝐴̃.
b. Las probabilidades 𝑃(𝐴) = 𝑝 y 𝑃(𝐴̃) = 1 − 𝑝 = 𝑞 son constantes a lo largo del experimento.
c. Las pruebas son independientes entre sí, es decir que el resultado de una no afecta al resultado de la siguiente.
d. Realiza un número finito 𝑛 de pruebas.
Un ejemplo es tirar una moneda 𝑛 veces y la variable aleatoria 𝑋 es el número de veces que ocurre el evento 𝐴 =
𝑠𝑎𝑙𝑒 𝑐𝑎𝑟𝑎. En ese caso, 𝑝 = 𝑞 = 1/2. La probabilidad de que las primeras 𝑘 pruebas resulten en 𝐴 y el resto en 𝐴̃ es:
𝑘 𝑛−𝑘
𝑛−𝑘
⏞ 𝐴, … , ⏞
𝑃(𝐴, 𝐴̃, 𝐴̃, …) = 𝑃(𝐴)𝑘 ∙ 𝑃(𝐴̃) = 𝑝𝑘 𝑞 𝑛−𝑘
Por las reglas de combinatoria, el evento de que “el resultado 𝐴 ocurre 𝑘 veces en 𝑛 pruebas sin importar el orden”
puede ocurrir en (𝑛𝑘) = 𝑘!(𝑛−𝑘)!
𝑛!
maneras diferentes. Luego, la probabilidad de este evento es:
𝑛!
𝑃(𝑋 = 𝑘) = 𝑝𝑘 𝑞𝑛−𝑘
𝑘! (𝑛 − 𝑘)!
Consideremos variable 𝑋𝑖 de un evento individual, tal que 𝑋𝑖 = {1 si 𝐴̃ . Entonces:
0 si 𝐴
2
𝜇𝑋𝑖 = 𝐸[𝑋𝑖 ] = ∑ 𝑥𝑗 𝑃(𝑋𝑖 = 𝑥𝑗 ) = 1 ∙ 𝑝 + 0 ∙ 𝑞 = 𝑝
𝑗=1
2 =1
2 2
𝜎𝑋2𝑖 = 𝐸 [(𝑋𝑖 − 𝜇𝑋𝑖 ) ] = ∑ (𝑋𝑖 − 𝜇𝑋𝑖 ) 𝑃(𝑥𝑗 ) = (1 − 𝑝)2 ∙ 𝑝 + (0 − 𝑝)2 ∙ 𝑞 = 𝑞 2 𝑝 + 𝑝2 𝑞 = 𝑝𝑞 (𝑞
⏞+ 𝑝) = 𝑝𝑞
𝑗=1

Generalizando este resultado al conjunto de todas las pruebas, 𝑋 = ∑ 𝑋𝑖 , tenemos que:


𝑛 𝑛 𝑛
𝐸[𝑋] = 𝐸 [∑ 𝑋𝑖 ] = ∑ 𝐸[𝑋𝑖 ] = ∑ 𝑝 = 𝑛𝑝 → 𝝁𝑿 = 𝒏𝒑
𝑖=1 𝑖=1 𝑖=1
Ahora bien,
𝑛 2 𝑛 𝑛 𝑛 𝑛 𝑛 𝑛
𝐸[𝑋 2 ] = 𝐸 [(∑ 𝑋𝑖 ) ] = 𝐸 [∑ 𝑋𝑖2 + ∑ ∑𝑗=1 𝑋𝑖 𝑋𝑗 ] = ∑ 𝐸[𝑋𝑖2 ] + ∑ ∑𝑗=1 𝐸[𝑋𝑖 𝑋𝑗 ] (1)
𝑖=1 𝑖=1 𝑖=1 𝑖=1 𝑖=1
𝑗≠𝑖 𝑗≠𝑖

Donde, como los resultados son independientes, las covarianzas se anulan y tenemos que:
cov[𝑋𝑖 𝑋𝑗 ] = 𝐸 [(𝑋𝑖 − 𝜇𝑋𝑖 ) (𝑋𝑗 − 𝜇𝑋𝑗 )] = 𝐸[(𝑋𝑖 − 𝑝)(𝑋𝑗 − 𝑝)] = 𝐸[𝑋𝑖 𝑋𝑗 − 𝑝𝑋𝑖 − 𝑝𝑋𝑗 + 𝑝2 ] (2)
= 𝐸[𝑋𝑖 𝑋𝑗 ] − 𝑝𝐸[𝑋𝑖 ] − 𝑝𝐸[𝑋𝑗 ] + 𝑝 = 𝐸[𝑋𝑖 𝑋𝑗 ] − 𝑝 ∙ 𝑝 − 𝑝 ∙ 𝑝 + 𝑝 = 𝐸[𝑋𝑖 𝑋𝑗 ] − 𝑝 = 0 → 𝐸[𝑋𝑖 𝑋𝑗 ] = 𝑝2
2 2 2

Vemos además que, para un evento individual:


𝑝𝑞 = 𝜎𝑋2𝑖 = 𝐸[𝑋𝑖2 ] − 𝜇𝑋2 𝑖 = 𝐸[𝑋𝑖2 ] − 𝑝2 → 𝐸[𝑋𝑖2 ] = 𝑝𝑞 + 𝑝2 (3)
Luego, reemplazando (2) y (3) en (1) tenemos que
𝑛 𝑛 𝑛
𝐸[𝑋 2 ] = ∑ (𝑝𝑞 + 𝑝2 ) + ∑ ∑𝑗=1 𝑝2 = 𝑛𝑝𝑞 + 𝑛𝑝2 + 𝑛(𝑛 − 1)𝑝2 = 𝑛𝑝𝑞 + 𝑛𝑝2 + 𝑛2 𝑝2 − 𝑛𝑝2 = 𝑛𝑝𝑞 + 𝑛2 𝑝2
𝑖=1 𝑖=1
𝑗≠𝑖
Por lo tanto,
𝜎𝑋2 = 𝐸[𝑋 2 ] − 𝜇𝑋2 = 𝑛𝑝𝑞 + 𝑛2 𝑝2 − 𝑛2 𝑝2 = 𝑛𝑝𝑞 → 𝝈𝟐𝑿 = 𝒏𝒑𝒒

7
3.2. Distribución Multinomial
Consideremos un experimento aleatorio con más de dos resultados mutuamente excluyentes, 𝑆 = 𝐴1 + ⋯ + 𝐴𝑙 , y
definimos la variable aleatoria multinomial 𝑋⃗ = (𝑋1 , … , 𝑋𝑙 )𝑇 , donde
𝑛 1 si en la prueba 𝑖 ocurre 𝐴𝑗
𝑋𝑗 = ∑ 𝑋𝑖𝑗 , 𝑋𝑖𝑗 = {
𝑖=1 0 si en la prueba 𝑖 ocurre ̃
𝐴𝑗
Un ejemplo es tirar un dado 𝑛 veces, y considerar los eventos 𝐴1 = 𝑠𝑎𝑙𝑒 1, 𝐴2 = 𝑠𝑎𝑙𝑒 2, 𝐴3 = 𝑠𝑎𝑙𝑒 ≥ 3. En ese caso,
𝑝1 = 𝑝2 = 1/6 y 𝑝3 = 4/6. Las variables aleatorias 𝑋1 , 𝑋2 , 𝑋3 son el número de veces que ocurren 𝐴1 , 𝐴2 , 𝐴3 .
La probabilidad de que en 𝑛 pruebas el evento 𝐴𝑗 ocurra 𝑘𝑗 veces, sin importar el orden de los resultados, es:
𝑙 𝑙
𝑛! 𝑘
𝑃(𝑋1 = 𝑘1 , … , 𝑋𝑙 = 𝑘𝑙 ) = ∏ 𝑝𝑗 𝑗 , ∑ 𝑘𝑗 = 𝑛
∏𝑙𝑗=1 𝑘𝑗 ! 𝑗=1 𝑗=1
La media de 𝑋𝑗 es:
𝑛 𝑛 𝑛 𝑛
𝜇𝑋𝑗 = 𝐸[𝑋𝑗 ] = 𝐸 [∑ 𝑋𝑖𝑗 ] = ∑ 𝐸[𝑋𝑖𝑗 ] = ∑ (1 ∙ 𝑃(𝐴𝑗 ) + 0 ∙ 𝑃(𝐴̃𝑗 )) = ∑ 𝑝𝑗 = 𝑛𝑝𝑗 → 𝝁𝑿𝒋 = 𝒏𝒑𝒋
𝑖=1 𝑖=1 𝑖=1 𝑖=1
Por otro lado, análogamente al caso binomial tenemos que:
𝜎𝑋2𝑗 = 𝐸[𝑋𝑗2 ] − 𝜇𝑋2 𝑗 = 𝑛𝑝𝑗 𝑞𝑗 = 𝑛𝑝𝑗 (1 − 𝑝𝑗 ) → 𝝈𝟐𝑿𝒋 = 𝒏𝒑𝒋 (𝟏 − 𝒑𝒋 )
Introduciendo la variable auxiliar:
𝑍𝑖𝑗 = 𝑋𝑗 + 𝑋𝑖 → 𝑃(𝑍𝑖𝑗 ) = 𝑃(𝑋𝑗 + 𝑋𝑖 ) = 𝑃(𝑋𝑗 ) + 𝑃(𝑋𝑖 ) (son mutuamente excluyentes)
tenemos que:
2 2 2
(a) 𝐸 [(𝑍𝑖𝑗 − 𝜇𝑍𝑖𝑗 ) ] = 𝐸 [(𝑋𝑗 + 𝑋𝑖 − 𝑛𝑝𝑗 − 𝑛𝑝𝑖 ) ] = 𝐸 [(𝑋𝑗 − 𝑛𝑝𝑗 ) + (𝑋𝑖 − 𝑛𝑝𝑖 )2 + 2(𝑋𝑗 − 𝑛𝑝𝑗 )(𝑋𝑖 − 𝑛𝑝𝑖 )]
2
= 𝐸 [(𝑋𝑗 − 𝑛𝑝𝑗 ) ] + 𝐸[(𝑋𝑖 − 𝑛𝑝𝑖 )2 ] + 2𝐸[(𝑋𝑗 − 𝑛𝑝𝑗 )(𝑋𝑖 − 𝑛𝑝𝑖 )] = 𝜎𝑋2𝑗 + 𝜎𝑋2𝑖 + 2cov(𝑋𝑖 , 𝑋𝑗 )
2
(b) 𝐸 [(𝑍𝑖𝑗 − 𝜇𝑍𝑖𝑗 ) ] = 𝜎𝑍2𝑗𝑖 = 𝑛 𝑝𝑍𝑗𝑖 𝑞𝑍𝑗𝑖 = 𝑛 𝑝𝑍𝑗𝑖 (1 − 𝑝𝑍𝑗𝑖 ) = 𝑛 (𝑝𝑗 + 𝑝𝑖 )(1 − 𝑝𝑗 − 𝑝𝑖 )
= 𝑛(𝑝𝑗 − 𝑝𝑗2 − 𝑝𝑗 𝑝𝑖 + 𝑝𝑖 − 𝑝𝑖 𝑝𝑗 − 𝑝𝑖2 ) = 𝑛(𝑝𝑗 (1 − 𝑝𝑗 ) + 𝑝𝑖 (1 − 𝑝𝑖 ) − 2𝑝𝑗 𝑝𝑖 ) = 𝑛(𝑝𝑗 𝑞𝑗 + 𝑝𝑖 𝑞𝑖 − 2𝑝𝑖 𝑝𝑗 )

→ 𝜎𝑋2𝑗 + 𝜎𝑋2𝑖 + 2cov(𝑋𝑖 , 𝑋𝑗 ) = 𝑛𝑝𝑗 𝑞𝑗 + 𝑛𝑝𝑖 𝑞𝑖 + 2cov(𝑋𝑖 , 𝑋𝑗 ) = 𝑛(𝑝𝑗 𝑞𝑗 + 𝑝𝑖 𝑞𝑖 − 2𝑝𝑖 𝑝𝑗 ) → 𝐜𝐨𝐯(𝑿𝒊 , 𝑿𝒋 ) = −𝒏𝒑𝒊 𝒑𝒋
Por lo tanto, los elementos de la matriz de varianza covarianza serán:
𝑐𝑖𝑗 = 𝑛𝑝𝑖 (𝛿𝑖𝑗 − 𝑝𝑗 )
Los elementos fuera de la diagonal (las covarianzas) son no nulas, puesto que las variables 𝑋𝑗 no son independientes.
3.2.1. Ley de los números grandes
Generalmente las probabilidades 𝑝𝑗 no son conocidas pero pueden obtenerse de experimentos. Si se realizan 𝑛
experimentos, la probabilidad empírica del evento 𝐴𝑗 es
𝑋𝑗 1 𝑛
ℎ𝑗 = = ∑ 𝑋𝑖𝑗
𝑛 𝑛 𝑖=1
A diferencia de la probabilidad, ésta es una variable aleatoria pues depende del resultado de 𝑛 experimentos. Luego,
𝑋 1 1
𝐸[ℎ𝑗 ] = 𝐸 [ 𝑛𝑗] = 𝑛𝐸[𝑋𝑗 ] = 𝑛(𝑛𝑝𝑗 ) = 𝑝𝑗
2 𝑋 2 𝑋 2 𝑋 1 2
𝜎ℎ2𝑗 = 𝐸 [(ℎ𝑗 − 𝜇ℎ𝑗 ) ] = 𝐸 [( 𝑛𝑗 − 𝑝𝑗 ) ] = 𝐸 [( 𝑛𝑗) + 𝑝𝑗2 − 2 𝑛𝑗𝑝𝑗 ] = 𝑛2 𝐸[𝑋𝑗2 ] + 𝐸[𝑝𝑗2 ] − 𝑛𝐸[𝑋𝑗 ]𝑝𝑗
1 2 1
= 𝑛2 𝐸[𝑋𝑗2 ] + 𝑝𝑗2 − 𝑛𝑛𝑝𝑗2 = 𝑛2 𝐸[𝑋𝑗2 ] − 𝑝𝑗2
Usando que 𝜎𝑋2𝑗 = 𝐸[𝑋𝑗2 ] − 𝜇𝑋2 𝑗 → 𝐸[𝑋𝑗2 ] = 𝜎𝑋2𝑗 + 𝜇𝑋2 𝑗 , tenemos entonces que:
1 1 1 1 𝟏
𝜎ℎ2𝑗 = 𝑛2 (𝜎𝑋2𝑗 + 𝜇𝑋2 𝑗 ) − 𝑝𝑗2 = 𝑛2 (𝑛𝑝𝑗 𝑞𝑗 + 𝑛2 𝑝𝑗2 ) − 𝑝𝑗2 = 𝑛2 𝑛𝑝𝑗 (1 − 𝑝𝑗 ) + 𝑝𝑗2 − 𝑝𝑗2 = 𝑛𝑝𝑗 (1 − 𝑝𝑗 ) → 𝝈𝒉𝒋 ∝
√𝒏
Cuanto mayor sea el número 𝑛 de pruebas, menor será el error en ℎ𝑗 respecto a su media, y mejor será la
representación de ℎ𝑗 como parámetro de probabilidad. Así, la varianza de ℎ𝑗 alrededor de 𝑝𝑗 puede hacerse
arbitrariamente pequeña aumentando 𝑛. El error, que se origina del hecho de que sólo se puede hacer un número
finito de experimentos, se llama error estadístico.

8
3.3. Distribución Poissoniana
Si reescribimos la probabilidad binomial como: k
𝑛 𝑛
𝑛! 𝑛! 𝜆 𝑘 (1 − 𝑛𝜆 ) 𝜆𝑘 𝑛! (1 − 𝑛𝜆 )
𝑃(𝑋 = 𝑘) = 𝑝𝑘 (1 − 𝑝)𝑛−𝑘 = ( ) =
𝑘! (𝑛 − 𝑘)! 𝑘! (𝑛 − 𝑘)! 𝑛 (1 − 𝜆 )𝑘 𝑘! 𝑛𝑘 (𝑛 − 𝑘)! (1 − 𝜆 )𝑘
𝑛 𝑛
𝑛
𝜆𝑘 𝑛(𝑛 − 1) … (𝑛 − 𝑘 + 1) (1 − 𝑛𝜆 ) 𝜆𝑘 𝑘 1 2 𝑘−1
𝜆 𝑛 𝑛 (1 − 𝑛)(1 − 𝑛) … (1 − 𝑛 )
= = (1 − 𝑛)
𝑘! 𝑛𝑘 (1 − 𝑛𝜆 )
𝑘 𝑘! 𝑛𝑘 (1 − 𝑛𝜆 )
𝑘

𝜆 𝑛
En el límite 𝑛 → ∞ manteniendo 𝜆 ≡ 𝑛𝑝 = cte (es decir, 𝑝 ≪ 1), los factores a la derecha tienen a 1 y lim (1 − 𝑛) =
𝑛→∞
𝑒 −𝜆 . En ese caso, la distribución binomial tiende a la distribución Poissoniana, según la cual la probabilidad de obtener
𝑘 “éxitos” en una unidad de ensayo es:
𝜆𝑘 −𝜆
lim 𝑃(𝑋 = 𝑘) = 𝑒
𝑛→∞ 𝑘!
Vemos además que esta distribución satisface que la probabilidad total es igual a 1:
∞ 𝜆𝑘 ∞ 𝜆𝑘
∑ 𝑒 −𝜆 = 𝑒 −𝜆 ∑ = 𝑒 −𝜆 𝑒 𝜆 = 1 (4)
𝑘=0 𝑘! 𝑘=0 𝑘!
La media y la varianza están dadas por:
∞ 𝜆𝑘 −𝜆 ∞ 𝜆𝑘−1 −𝜆 𝑗=𝑘−1 ∞ 𝜆𝑗 −𝜆 (4)
𝜇𝐾 = 𝐸[𝐾] = ∑ 𝑘 𝑒 = 𝜆∑ 𝑒 = 𝜆∑ 𝑒 = 𝜆∙1=𝝀 (5)
𝑘=0 𝑘! 𝑘=1 (𝑘 − 1)! 𝑗=0 𝑗!

2]
∞ 𝜆𝑘 −𝜆
2
∞ 𝜆𝑘−1 −𝜆
∞ 𝜆𝑗 −𝜆 ∞ 𝜆𝑗 −𝜆 (5)
𝐸[𝐾 =∑ 𝑘 𝑒 = 𝜆∑ 𝑘 𝑒 = 𝜆 ∑ (𝑗 + 1) 𝑒 = 𝜆 (∑ 𝑗 𝑒 + 1) = 𝜆(𝜆 + 1)
𝑘=0 𝑘! 𝑘=1 (𝑘 − 1)! 𝑗=0 𝑗! 𝑗=0 𝑗!

→ 𝜎𝐾2 = 𝐸[(𝐾 − 𝜇𝐾 )2 ] = 𝐸[𝐾 2 ] − 𝜇𝐾


2
= 𝜆(𝜆 + 1) − 𝜆2 = 𝝀
Luego, el parámetro 𝜆 es la media o valor esperado de la variable aleatoria. Así como la función binomial queda definida
por 𝑛 y 𝑝, la poissoniana depende únicamente del valor esperado de éxitos 𝜆 = 𝜇𝐾 . Además, siempre es necesario
especificar cuál es la unidad de ensayo. Sin embargo, ambas cuentan el número de éxitos.
3.3.1. Características de la distribución poissoniana
Supongamos que tenemos muchos paquetes de 100 globos, y buscamos la probabilidad de que haya 𝑋 = 𝑘 globos
pinchados por bolsa. Asumimos que:
a. El número de “éxitos” está distribuido uniformemente en todo el espacio de estudio; asumimos que un globo
pinchado puede aparecer en cualquier bolsa con igual probabilidad.
b. Cada unidad de ensayo (intervalo temporal, unidad de área, bolsa, etc.) es independiente una de la otra; los
globos pinchados de una bolsa no afecta al número de otra.
c. Uno o más eventos de estudio no pueden ocurrir simultáneamente en más de un ensayo; un mismo globo no
puede aparecer en más de una bolsa.
d. El valor esperado de éxitos es proporcional al tamaño de la unidad de ensayo; si duplicamos el número de
globos por bolsa, el valor esperado de globos pinchados debería ser el doble.
𝑁º 𝑏𝑜𝑙𝑠𝑎𝑠 𝑐𝑜𝑛 𝑘 𝑝𝑖𝑛𝑐ℎ𝑎𝑑𝑜𝑠
Podemos entonces hallar la probabilidad empírica 𝑃(𝑋 = 𝑘) = 𝑁º 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑏𝑜𝑙𝑠𝑎𝑠
y así hallar 𝜆 = 𝜇𝐾 =
𝜆𝑘 −𝜆
∑100
𝑘=0 𝑘𝑃(𝑋 = 𝑘). Entonces, la probabilidad teórica será 𝑃(𝑋 = 𝑘) = 𝑘! 𝑒 .

3.4. Distribución uniforme


La densidad de probabilidad de la distribución uniforme se define como: 𝑓(𝑥)
ℂ 𝑠𝑖 𝑎 < 𝑥 < 𝑏
𝑓(𝑥) = { 1
0 𝑠𝑖𝑛𝑜 𝑏−𝑎

Imponiendo la condición de normalización, debe ser que:


𝑏
1
∫ 𝑓(𝑥)𝑑𝑥 = ℂ(b − a) = 1 → ℂ =
𝑎 𝑏−𝑎 𝑎 𝑏
Esta distribución queda entonces definida por la longitud del intervalo (𝑎, 𝑏). Vemos que:

9
∞ 𝑏 𝑏
1 1 𝑥2 1 𝑏 2 − 𝑎2 1 (𝑏 − 𝑎)(𝑏 + 𝑎) 𝒃 + 𝒂
𝜇𝑋 = 𝐸[𝑋] = ∫ 𝑥 𝑓(𝑥)𝑑𝑥 = ∫ 𝑥 𝑑𝑥 = [ ] = = =
−∞ 𝑎 𝑏−𝑎 2𝑏 − 𝑎 𝑎 2 𝑏 − 𝑎 2 𝑏−𝑎 𝟐
𝑏−𝑎
𝑏
𝑏+𝑎 2 1 1 2 1 1 (𝑏 − 𝑎)3 (𝑎 − 𝑏)3
𝜎𝑋2 = 𝐸[(𝑋 − 𝜇𝑋 )2 ] = ∫ (𝑥 − ) 𝑑𝑥 = ∫ 𝑢2 𝑑𝑢 = [ − ]
𝑎 2 𝑏−𝑎 𝑏 − 𝑎 𝑎−𝑏 𝑏 −𝑎3 8 8
2
1 1 2(𝑏 − 𝑎)3 𝟏
= = (𝒃 − 𝒂)𝟐
𝑏−𝑎3 8 𝟏𝟐
3.4.1. Método de Montecarlo
Si 𝑋 es una variable aleatoria con densidad de probabilidad uniforme 𝑓(𝑥) = 1 en (0,1) y tenemos 𝑌 = 𝑌(𝑋) con
densidad de probabilidad 𝑔(𝑦) conocida, la transformación de variables está dada por:
𝑔(𝑦)𝑑𝑦 = 𝑓(𝑥)𝑑𝑥 = 𝑑𝑥
Usamos la función de distribución 𝐺(𝑦), la cual se relaciona con 𝑔(𝑦) por 𝑑𝐺(𝑦)/𝑑𝑦 = 𝑔(𝑦), y escribimos:
𝑦
𝑑𝑥 = 𝑔(𝑦)𝑑𝑦 = 𝑑𝐺(𝑦) → 𝑥 = 𝐺(𝑦) = ∫ 𝑔(𝑡)𝑑𝑡
−∞
−1 (𝑥)
Así, obtenemos un conjunto de números aleatorios 𝑦 = 𝐺 descripto por la densidad de probabilidad 𝑔(𝑦) a
partir de números aleatorios 𝑥 uniformemente distribuidos entre 0 y 1.
Este método también puede usarse para distribuciones discretas, donde 𝑌 puede tmar valores 𝑦1 , … , 𝑦𝑛 con
probabilidades 𝑃(𝑦1 ), … , 𝑃(𝑦𝑛 ). En ese caso,
𝑖
𝑥𝑗 = 𝐺(𝑦𝑗 ) = ∑ 𝑃(𝑦𝑘 )
𝑘=1

3.5. Distribución Gaussiana o Normal


La densidad de probabilidad gaussiana está definida por:
(𝑥 − 𝑎)2
1
𝑓(𝑥) = 𝜙(𝑥) = exp [− ] , −∞ < 𝑥 < ∞
√2𝜋𝑏 2𝑏 2
Ésta está asociada a los errores resultantes de medir un objeto, los cuales cumplen:
 Sus valores más frecuentes son cercanos al valor más representativo.
 Los valores alejados del valor más representativo son menos frecuentes cuando mayor es la diferencia.
 El comportamiento de estos errores es simétrico al valor más representativo.
La media está dada por:
∞ ∞ 𝑥−𝑎
1 (𝑥 − 𝑎)2 𝑧=
𝑏 1 ∞

𝑧2
𝜇𝑋 = 𝐸[𝑋] = ∫ 𝑥 𝜙(𝑥)𝑑𝑥 = ∫ 𝑥 exp [− ] 𝑑𝑥 = ∫ (𝑏𝑧 + 𝑎)𝑒 2 (𝑏 𝑑𝑧)
−∞ √2𝜋𝑏 −∞ 2𝑏 2 √2𝜋𝑏 −∞
∞ 𝑧2 ∞ 𝑧2
1 − − 1
= {𝑏 ∫ 𝑧𝑒 2 𝑑𝑧 + 𝑎 ∫ 𝑒 2 𝑑𝑧} = {𝑏(0) + 𝑎(√2𝜋)} = 𝒂
√2𝜋 −∞ −∞ √2𝜋
∞ 2 ⁄2 2 ⁄2
donde ∫−∞ 𝑒 −𝑧 𝑑𝑧 = √2𝜋 y como 𝑧𝑒 −𝑧 es una función impar, su integral en (−∞, ∞) es 0. Por otro lado,
∞ ∞ 𝑥−𝜇
2] 2
(𝑥 − 𝜇𝑋 )2
1 𝑧=
2 𝑏
𝑋
1 ∞
2
𝑧2
𝐸[𝑋 = ∫ 𝑥 𝜙(𝑥)𝑑𝑥 = ∫ 𝑥 exp [− ] 𝑑𝑥 = ∫ (𝑏𝑧 + 𝜇𝑋 ) exp (− ) (𝑏 𝑑𝑧)
−∞ √2𝜋𝑏 −∞ 2𝑏 2 √2𝜋𝑏 −∞ 2

1 𝑧2 ∞
𝑧2 ∞
𝑧2
= {𝑏 2 ∫ 𝑧 2 exp (− ) 𝑑𝑧 + 2𝑏𝜇𝑋 ∫ 𝑧 exp (− ) 𝑑𝑧 + 𝜇𝑋2 ∫ exp (− ) 𝑑𝑧}
√2𝜋 −∞ 2 −∞ 2 −∞ 2
∞ 2
1 𝑧
= {𝑏 2 ∫ 𝑧 2 exp (− ) 𝑑𝑧 + 2𝑏𝜇𝑋 (0) + 𝜇𝑋2 (√2𝜋)}
√2𝜋 −∞ 2
𝑧2 𝑧2
Integrando por partes, con 𝑑𝑣 = 𝑧 exp (− 2 ) → 𝑣 = − exp (− 2 ) , 𝑢 = 𝑧 → 𝑑𝑢 = 𝑑𝑧, tenemos que:

𝑏2 ∞
𝑧2 2
𝑏2 𝑧2 ∞
𝑧2 𝑏2
∫ 𝑧 exp (− ) 𝑑𝑧 = {[−𝑧 exp (− )] + ∫ exp (− ) 𝑑𝑧} = {(0) + √2𝜋} = 𝑏 2
√2𝜋 −∞ 2 √2𝜋 2 −∞ −∞ 2 √2𝜋
Entonces:
𝑏2 ∞
𝑧2
𝐸[𝑋 2 ] = ∫ 𝑧 2 exp (− ) 𝑑𝑧 + 𝜇𝑋2 = 𝑏 2 + 𝜇𝑋2 → 𝜎𝑋2 = 𝐸[(𝑋 − 𝜇𝑋 )2 ] = 𝐸[𝑋 2 ] − 𝜇𝑋2 = 𝒃𝟐
√2𝜋 −∞ 2

10
Esta distribución queda entonces definida por la media 𝜇𝑋 y la varianza 𝜎𝑋2 , y podemos reescribir la densidad como:
1 (𝑥 − 𝜇𝑋 )2
𝑓(𝑥) = 𝜙(𝑥) = exp [− ] , −∞ < 𝑥 < ∞
√2𝜋𝜎𝑋 2𝜎𝑋2
Vemos que los puntos de inflexión están en 𝑥 = 𝑎 ± 𝑏, y la distancia entre los mismos define el ancho de la campana.
Podemos normalizar la variable aleatoria mediante un cambio de variable:
𝑋 − 𝜇𝑋 𝑑𝑥 𝑓(𝑥)
𝑋 ′ (𝑋) = → 𝜇𝑋 ′ = 0 , 𝜎𝑋2′ = 1 , 𝑔(𝑥 ′ ) = 𝑓(𝑥) | ′ |= ≡ 𝜙0 (𝑥 ′ )
𝜎𝑋 𝑑𝑥 𝜎𝑋
Como 𝑓(𝑥) es una función de densidad gaussiana, entonces 𝑔(𝑥 ′ ) = 𝑓(𝑥)/𝜎𝑋 también lo será. Luego, la forma de la
densidad de probabilidad no se altera. Por simetría, tenemos entonces que:
𝑃(|𝑋 ′ | > 𝑥 ′ ) = 𝑃(𝑋 ′ < −𝑥 ′ ) + 𝑃(𝑋 ′ > 𝑥 ′ ) = 2 𝑃(𝑋 ′ < −𝑥 ′ ) = 2𝐹(−𝑥 ′ ) = 2(1 − 𝐹(𝑥 ′ ))
1 𝑥
2 /2
𝑃(|𝑋 ′ | ≤ 𝑥 ′ ) = 1 − 𝑃(|𝑋 ′ | > 𝑥 ′ ) = 1 − 2(1 − 𝐹(𝑥 ′ )) = 2𝐹(𝑥 ′ ) − 1 , 𝐹(𝑥) = ∫ 𝑒−𝑡 𝑑𝑡
√2𝜋 −∞
La probabilidad de obtener un valor aleatorio dentro de un múltiplo entero de 𝑏 = 𝜎𝑋 alrededor de la media es:
𝑃(|𝑋 − 𝜇𝑋 | ≤ 𝑛𝜎𝑋 ) = 𝑃(|𝜎𝑋 𝑋 ′ | ≤ 𝑛𝜎𝑋 ) = 𝑃(|𝑋 ′ | ≤ 𝑛) = 2𝐹(𝑛) − 1
En particular, 𝑃(|𝑋 − 𝜇𝑋 | ≤ 3𝜎𝑋 ) = 0.998, de modo que la probabilidad de obtener un valor dentro de un intervalo
dado por ±3𝜎𝑋 alrededor de la media es del 99.8%. Luego, cuando se obtiene un valor |𝑋 − 𝜇𝑋 | > 3𝜎𝑋 es común
descartarlo como un outlayer por el Filtro Win (Criterio de 3 Sigma).
Por ejemplo, supongamos que una temperatura sigue una distribución normal con 𝜇𝑋 = 23 y 𝜎𝑋 = 5. Normalizando:
4⁄5

1 ′ 2 /2
𝑃(21 ≤ 𝑋 ≤ 27) = 𝑃(−5 ≤ 𝑋 ≤ 4⁄5) = ∫ 𝑒 −𝑥 𝑑𝑥 = 0.4 → 𝑛𝐴 = 𝑃(𝐴)𝑛 ≅ (0.4)(30 días) = 13 días
√2𝜋 −2⁄5

3.6. Función Característica de una Distribución


Si 𝑋 es una variable aleatoria con función de distribución 𝐹(𝑥) = 𝑃(𝑋 < 𝑥) y densidad de probabilidad 𝑓(𝑥), se define
su función característica como el valor de expectación de exp(𝑖𝑡𝑋):

𝜑𝑋 (𝑡) = 𝐸[exp(𝑖𝑡𝑋)] = ∫ exp(𝑖𝑡𝑥) 𝑓(𝑥)𝑑𝑥 (6)
−∞
Vemos que el momento de orden 𝑛 de 𝑋 respecto al origen, 𝜆𝑛 , se obtienen derivando 𝑛 veces la función característica
en el punto 𝑡 = 0, a menos de una potencia de 𝑖:
𝑑𝑛 𝜑𝑥 (𝑡) ∞
𝑛

| = ∫ (𝑖𝑥) exp(𝑖𝑡𝑥) 𝑓(𝑥)𝑑𝑥 | = 𝑖 ∫ 𝑥 𝑛 𝑓(𝑥)𝑑𝑥 = 𝑖 𝑛 𝐸[𝑋 𝑛 ] = 𝑖 𝑛 𝜆𝑛
𝑛
𝑑𝑡 𝑛 𝑡=0 −∞ 𝑡=0 −∞
𝑑𝑥
Si introducimos la traslación 𝑌 = 𝑋 − 𝜇𝑋 → 𝑔(𝑦) = 𝑓(𝑥)|𝑑𝑦 | = 𝑓(𝑥) y construimos la función característica

𝜑𝑌 (𝑡) = 𝐸[exp(𝑖𝑡𝑌)] = 𝐸[exp(𝑖𝑡(𝑋 − 𝜇𝑋 ))] = ∫ exp[𝑖𝑡(𝑋 − 𝜇𝑋 )] 𝑓(𝑥)𝑑𝑥
−∞
vemos que el momento de orden 𝑛 de 𝑋 respecto a la media, 𝜇𝑛 , se obtiene derivando 𝑛 veces 𝜑𝑌 (𝑡) en 𝑡 = 0:
(𝑛)
𝜑𝑌 (𝑡 = 0) = 𝑖 𝑛 𝐸[(𝑋 − 𝜇𝑋 )𝑛 ] = 𝑖 𝑛 𝜇𝑛 → 𝜇𝑋 = 𝐸[𝑋] = −𝑖𝜑𝑋′ (0) , 𝜎𝑋2 = 𝐸[(𝑋 − 𝜇𝑋 )2 ] = −𝜑𝑌′′ (0)
Podemos obtener la densidad de probabilidad de la función característica invirtiendo la transformada de Fourier (6):
1 ∞
𝑓(𝑥) = ∫ exp(−𝑖𝑡𝑥) 𝜑𝑋 (𝑡) 𝑑𝑡 (7)
2𝜋 −∞
Como la transformada es unívoca, una distribución está unívocamente determinada por su función característica.
3.6.1. Convolución de distribuciones
Si tenemos la suma de dos variables aleatorias independientes, 𝑍 = 𝑋 + 𝑌, la función de
distribución de 𝑍, 𝐹(𝑧) = 𝑃(𝑍 < 𝑧) = 𝑃(𝑋 + 𝑌 < 𝑧), se obtiene integrando la densidad de
probabilidad conjunta 𝑓(𝑥, 𝑦) = 𝑓𝑥 (𝑥)𝑓𝑦 (𝑦) sobre el área 𝐴 = {(𝑥, 𝑦): 𝑥 + 𝑦 < 𝑧}:
∞ 𝑧−𝑥 ∞ ∞
𝑑𝐹(𝑧)
𝐹(𝑧) = ∬ 𝑓𝑥 (𝑥)𝑓𝑦 (𝑦) 𝑑𝑥 𝑑𝑦 = ∫ 𝑓𝑥 (𝑥)𝑑𝑥 ∫ 𝑓𝑦 (𝑦)𝑑𝑦 → 𝑓𝑧 (𝑧) = = ∫ 𝑓𝑥 (𝑥)𝑓𝑦 (𝑧 − 𝑥)𝑑𝑥 = ∫ 𝑓𝑥 (𝑧 − 𝑦)𝑓𝑦 (𝑦)𝑑𝑦
𝐴 −∞ −∞ 𝑑𝑧 −∞ −∞
11
Luego, la densidad de probabilidad de 𝑍 es igual a la convolución de las densidades de 𝑋 e 𝑌. Ahora bien,
𝜑𝑍 (𝑡) = 𝐸[exp(𝑖𝑡𝑍)] = 𝐸[exp{𝑖𝑡(𝑋 + 𝑌)}] = 𝐸[exp(𝑖𝑡𝑋) exp(𝑖𝑡𝑌)] = 𝐸[exp(𝑖𝑡𝑋)]𝐸[exp(𝑖𝑡𝑌)] = 𝜑𝑋 (𝑡)𝜑𝑌 (𝑡) (8)
donde hemos generalizado a los complejos que, para variables independientes, 𝐸(𝑋𝑌) = 𝐸(𝑋)𝐸(𝑌). De esta manera,
hacemos la convolución en el campo imaginario y luego usamos la antitransformada (7) para obtener 𝑓𝑧 (𝑧).
Ejemplo 1: La función característica de una densidad con distribución poissoniana es:
∞ 𝜆𝑘 −𝜆 ∞ (𝜆 exp(𝑖𝑡))𝑘
𝜑𝑋 (𝑡) = 𝐸[exp(𝑖𝑡𝑋)] = ∑ exp(𝑖𝑡𝑘) 𝑒 = 𝑒 −𝜆 ∑ = 𝑒 −𝜆 exp(𝜆𝑒 𝑖𝑡 ) = exp[𝜆(𝑒 𝑖𝑡 − 1)]
𝑘=1 𝑘! 𝑘=1 𝑘!
Si consideramos la suma de dos variables aleatorias independientes con densidades poissonianas de medias 𝜆1 y 𝜆2 ,
(𝜆𝑋 + 𝜆𝑌 )𝑘 −(𝜆 +𝜆 )
𝜑𝑍 (𝑡) = 𝜑𝑋 (𝑡)𝜑𝑌 (𝑡) = exp[(𝜆𝑋 + 𝜆𝑌 )(𝑒 𝑖𝑡 − 1)] → 𝑃(𝑍 = 𝑘) = 𝑒 𝑋 𝑌
𝑘!
Luego, la suma de dos variables poissonianas sigue también una distribución poissoniana con media 𝜆𝑍 = 𝜆𝑋 + 𝜆𝑌 .
Ejemplo 2: La función característica de una densidad gaussiana es:
1 (𝑥 − 𝜇𝑋 )2 1
𝜙𝑋 (𝑥) = exp [− ] → 𝜑𝑋 (𝑡) = exp(𝑖𝑡𝜇𝑋 ) exp(−2𝜎𝑋2 𝑡 2 )
√2𝜋𝜎𝑋 2𝜎𝑋2
Si consideramos la suma de dos variables aleatorias independientes con densidades gaussianas,
2
1 1 (𝑥 − (𝜇𝑋 + 𝜇𝑌 ))
𝜑𝑍 (𝑡) = 𝜑𝑋 (𝑡)𝜑𝑌 (𝑡) = exp(𝑖𝑡(𝜇𝑋 + 𝜇𝑌 )) exp(−2(𝜎𝑋2 + 𝜎𝑌2 )𝑡 2 ) → 𝜙𝑋 (𝑥) = exp [− ]
√2𝜋√𝜎𝑋2 + 𝜎𝑌2 2(𝜎𝑋2 + 𝜎𝑌2 )

Luego, la suma de variables gaussianas sigue también una distribución gaussiana con 𝜇𝑍 = 𝜇𝑋 + 𝜇𝑌 y 𝜎𝑍2 = 𝜎𝑋2 + 𝜎𝑌2 .
3.6.2. Teorema Central del Límite
Teorema: Si 𝑋1 , … , 𝑋𝑛 es un conjunto de variables aleatorias independientes que están distribuidas, cualquiera
fuera su función de densidad de probabilidad, con media 𝑎 y varianza 𝑏 2 , entonces la variable
1 𝑛
𝑋 = lim ∑ 𝑋𝑖
𝑛→∞ 𝑛 𝑖=1

sigue una distribución gaussiana con media 𝐸[𝑋] = 𝑎 y varianza 𝜎𝑋2 = 𝑏 2 /𝑛.

Demostración: Asumimos que todas las 𝑋𝑖 tienen la misma distribución. Por (8), la función característica de 𝑋̅ es:
𝑛 𝑛 𝑡 𝑋𝑖 𝑡 𝑡
𝜑𝑋 (𝑡) = lim ∏ 𝜑𝑋𝑖 (𝑡) = lim ∏ 𝜑𝑋𝑖 ( ) , 𝜑𝑋𝑖 (𝑡) = 𝐸 [exp (𝑖𝑡 )] = 𝐸 [exp (𝑖 𝑋𝑖 )] = 𝜑𝑋𝑖 ( )
𝑛→∞ 𝑖=1 𝑛 𝑛→∞ 𝑖=1 𝑛 𝑛 𝑛 𝑛 𝑛
Sin pérdida de generalidad, hacemos la traslación de coordenadas 𝑋𝑖′ = 𝑋𝑖 − 𝑎. Entonces, desarrollando en serie:
𝑡 𝑡 𝑡 1 𝑡2 𝑡 1 𝑡2 1 2
𝜑𝑋 ′ (𝑛) = 𝐸 [exp (𝑖 𝑛𝑋𝑖′ )] = 𝜑𝑋 ′ (0) + 𝜑𝑋′ 𝑖 (0) 𝑛 + 2𝜑𝑋′′𝑖 (0)𝑛2 + ⋯ ≅ 𝐸[1] + 𝑖𝐸[𝑋𝑖′ ] ∙ 𝑛 + 2(−𝑏 2 )𝑛2 = 1 − 2𝑛𝑏2 𝑡 2
𝑖 𝑖

donde usamos que 𝜑𝑋′ (0) = 𝑖𝐸[𝑋] y 𝜑𝑋′′ (0) = −𝜎𝑋2. Entonces:
𝑛
𝑡𝑛 𝑏2 1 𝑏2 2 𝑥 𝑛
𝜑𝑋 ′ (𝑡) = lim ∏ 𝜑𝑋 ′ ( ) ≅ lim (1 − 2 𝑡 2 ) = exp [− 𝑡 ] , donde lim (1 − ) = 𝑒 −𝑥
𝑛→∞ 𝑖 𝑛 𝑛→∞ 2𝑛 2𝑛 𝑛→∞ 𝑛
𝑖=1

Sin embargo, ésta es la función característica de una distribución normal de varianza 𝜎𝑋2′ = 𝑏 2 /𝑛 y media 𝜇𝑋′ = 0 (en
el caso general, es 𝜑(𝑡) = exp(𝑖𝑡𝜇𝑋 ) exp(−1/2 𝜎𝑋2 𝑡 2 )). Tomando la antitransformada, la densidad de 𝑋 es:
1 (𝑥 ′ − 𝜇𝑋′ )2 1 (𝑥 ′ )2 𝑋𝑖′ =𝑋𝑖 −𝑎 1 (𝑥 − 𝑎)2
𝑓(𝑥 ′ ) = exp [− ]= exp [− ] → 𝑓(𝑥) = exp [− ]
√2𝜋𝜎𝑋 ′ 2𝜎𝑋2′ √2𝜋 𝑏𝑛 2 𝑏 2 ⁄𝑛 √2𝜋 𝑏𝑛 2 𝑏 2 ⁄𝑛
√ √

3.7. Distribución Gaussiana conjunta


Si 𝑋⃗ = (𝑋1 , … , 𝑋𝑛 ) es un vector de 𝑛 variables aleatorias, se define la densidad de probabilidad de la distribución
gaussiana conjunta de las 𝑋𝑖 como:
1 𝑇
𝜙(𝑥⃗) = 𝑘 exp {−2(𝑥⃗ − 𝐴⃗) 𝐵(𝑥⃗ − 𝐴⃗)} , 𝑥⃗ = (𝑥1 ⋯ 𝑥𝑛 )𝑇

Como 𝜙(𝑋⃗) es simétrica respecto al punto 𝑥⃗ = 𝐴⃗:

12

𝐸[(𝑋⃗ − 𝐴⃗)] = ∫ (𝑥⃗ − 𝐴⃗)𝜙(𝑥⃗) 𝑑𝑥⃗ = 0 → ⃗𝑨⃗ = 𝑬[𝑿
⃗⃗⃗] = ⃗⃗⃗⃗⃗⃗
𝝁𝑿
−∞

Derivando esta integral con respecto a 𝐴⃗, teniendo en cuenta que para derivar matrices:
𝑇
𝜕𝑥
⃗⃗ 𝐵𝑥 ⃗⃗ 𝜕 ∞ ∞
𝑇 𝑇
= 2𝑋⃗ 𝑇 𝐵 → ∫ (𝑥⃗⃗ − 𝐴⃗)𝜙(𝑥
⃗⃗) 𝑑𝑥 ⃗⃗ − 𝐴⃗)(𝑥
⃗⃗ = ∫ [𝐼 − (𝑥 ⃗⃗ − 𝐴⃗) 𝐵] 𝜙(𝑥 ⃗⃗ = 𝐸 [𝐼 − (𝑋⃗ − 𝐴⃗)(𝑋⃗ − 𝐴⃗) 𝐵] = 0
⃗⃗)𝑑𝑥
𝜕⃗⃗
𝑥
⃗⃗ 𝜕𝐴⃗ −∞ −∞
𝑇 𝑇
→ 𝐼 = 𝐸 [(𝑋 − 𝐴)(𝑋 − 𝐴) 𝐵] = 𝐸 [(𝑋⃗ − 𝐴⃗)(𝑋⃗ − 𝐴⃗) ] 𝐵 = 𝐶𝑋⃗⃗ 𝐵 → 𝑩 = 𝑪−𝟏
⃗ ⃗ ⃗ ⃗ ⃗⃗⃗ 𝑿

donde 𝐶𝑋⃗⃗ es la matriz de varianza-covarianza de las variables 𝑋⃗.


Por otro lado, el factor 𝑘 es un factor de normalización, de modo tal que

det 𝐵 1/2
∫ 𝜙(𝑥⃗) 𝑑𝑥⃗ = 1 → 𝑘 = ( )
−∞ (2𝜋)𝑛
En el caso de dos variables, tenemos que:
𝜎12 cov(𝑋1 , 𝑋2 ) −1
1 𝜎22 −cov(𝑋1 , 𝑋2 )
𝐶𝑋1,𝑋2 = ( ) → 𝐵 = 𝐶𝑋 ,𝑋 = ( )
cov(𝑋1 , 𝑋2 ) 𝜎22 1 2
𝜎12 𝜎22 − cov(𝑋1 , 𝑋2 )2 −cov(𝑋1 , 𝑋2 ) 𝜎12
 Si 𝑋1 , 𝑋2 son independientes, las covarianzas se anulan y:
1/𝜎12 0 𝑥 − 𝜇1 1 1 (𝑥1 − 𝜇1 )2 1 (𝑥2 − 𝜇2 )2
𝐵=( ) , ⃗

𝑥 − ⃗⃗ = ( 1
𝐴 ) → 𝜙(𝑥 ,
1 2𝑥 ) = exp (− ) exp (− )
0 1/𝜎22 𝑥2 − 𝜇2 2𝜋𝜎𝑋1 𝜎𝑋2 2 𝜎12 2 𝜎22
Luego, 𝜙(𝑋⃗) es el producto de dos densidades gaussianas y, por ende, será también una densidad gaussiana.
 Si 𝑋1 , 𝑋2 no son independientes, consideramos las variables normalizadas:
𝑋1 − 𝜇1 𝑋2 − 𝜇2 cov(𝑋1 , 𝑋2 )
𝑈1 = , 𝑈2 = → 𝜌(𝑋1 , 𝑋2 ) = = 𝜌(𝑈1 , 𝑈2 ) = cov(𝑈1 , 𝑈2 )
𝜎1 𝜎2 𝜎𝑋1 𝜎𝑋2
1 1 −𝜌 1 𝑇 𝑢1
𝐵 = 𝐶𝑈−11 ,𝑈2
= ( ) → 𝜙(𝑢1 , 𝑢2 ) = 𝑘 exp (− 𝑢 ⃗⃗ 𝐵𝑢
⃗⃗) , 𝑢 ⃗⃗ = (𝑢 ) (9)
1 − 𝜌 −𝜌 1
2 2 2
Las curvas de igual densidad de probabilidad se obtienen al igual al exponente en (9) a una constante:
2 2
1 cte=1 (𝑥1 − 𝜇1 ) 𝑥1 − 𝜇1 𝑥2 − 𝜇2 (𝑥2 − 𝜇2 )
𝑈 𝐵𝑈⃗⃗ 𝑇
⃗⃗ =
2
(𝑢21 + 𝑢22 − 2𝑢1 𝑢2 𝜌) = cte → 2
− 2𝜌 + = 1 − 𝜌2
1−𝜌 𝜎1 𝜎1 𝜎2 𝜎22
Ésta es la ecuación de una elipse, llamada elipse de covarianza, correspondiente a 𝜙 = 𝑘𝑒 −1/2, centrada en (𝜇1 , 𝜇2 ),
que está dentro de un rectángulo de lados en 𝜇𝑥𝑖 ± 𝜎𝑥𝑖 , y forma un ángulo con los ejes 𝑥1 , 𝑥2 dado por:
𝑥2
2𝜌𝜎1 𝜎2 𝜇2 + 𝜎2
tan 2𝛼 = 2 𝜎2 𝑝1
𝜎1 − 𝜎22
𝛼
La elipse describe la dependencia estadística entre las variables aleatorias: 𝜇2 𝑝2
𝜎1
o Si 𝜌 = 0 (variables independientes) entonces 𝛼 = 0, 𝜋2 y la elipse está acostada (parada).
o Si 𝜌 = ±1 entonces 𝛼 = 𝜋4, 3𝜋 𝜇2 − 𝜎2
y la elipse se convierte una de las diagonales del rectángulo. 𝑥1
4 𝜇1 + 𝜎1
𝜇1 − 𝜎1 𝜇1
La distribución 𝜙(𝑋1 , 𝑋2 ) se corresponde a una superficie en el espacio tridimensional (𝑥1 , 𝑥2 , 𝜙) cuyas secciones
horizontales son elipses concéntricas, correspondientes a diferentes curvas de igual densidad de probabilidad. Al
aumentar la probabilidad, la elipse se hace más pequeña hasta colapsar al punto
(𝜇1 , 𝜇2 ). Luego, la mayor parte de las mediciones se distribuirán cerca de este punto.
Las secciones verticales a través del centro tienen la forma de una distribución
Gaussiana cuyo ancho de campana es directamente proporcional al diámetro de la
elipse de covarianza a lo largo de la cual se extiende la sección.

4. Muestreo Aleatorio
La densidad de probabilidad es una definición teórica que da la probabilidad de que una variable aleatoria 𝑋 esté entre
𝑥 y 𝑥 + 𝑑𝑥, y depende de parámetros deterministas como 𝜇 (en el caso de la Poissoniana) y 𝜎 2 (en el caso de la
gaussiana). Estos parámetros son desconocidos a priori, y deben inferirse a partir de un conjunto finito de mediciones,
llamada muestra aleatoria. Muestrear consiste en tomar un subconjunto finito del conjunto infinito de resultados
13
posibles (llamado población) al realizar el experimento aleatorio un número finito de veces, y a partir de estas
mediciones inferir las características de la 𝑓(𝑥) que la describe.
Si realizamos un experimento aleatorio varias veces, cada prueba resulta en una medida que puede considerarse una
variable aleatoria 𝑋𝑖 . Tomando una variable aleatoria de cada prueba, obtendremos un conjunto 𝑋1 , … , 𝑋𝑛 de variables
aleatorias, las cuales constituyen una muestra y pueden pensarse como las componentes del vector 𝑋⃗ = (𝑋1 , … , 𝑋𝑛 ).
Éste vector también será una variable aleatoria y tendrá una densidad de probabilidad conjunta 𝑔(𝑋⃗) = 𝑔(𝑥1 , … , 𝑥𝑛 ).
Para que la muestra pueda considerarse aleatoria, se debe cumplir que:
(a) Las variables 𝑋𝑖 deben ser independientes, de modo que: 𝑔(𝑋⃗) = 𝑔1 (𝑥1 ) … 𝑔𝑛 (𝑥𝑛 ).
(b) Las densidades marginales 𝑔𝑖 (𝑥𝑖 ) deben ser idénticas e iguales a una densidad de la población, 𝑔1 (𝑥1 ) = ⋯ =
𝑔𝑛 (𝑥𝑛 ) = 𝑓(𝑥). Se dice entonces que el muestreo es homogéneo. Esto se cumple cuando el instrumento con el que
se realizan las mediciones es el mismo, de modo que el comportamiento aleatorio inherente de medir sea el mismo.
Una estimación de un parámetro 𝜆 de la distribución se obtiene planteando una función determinista 𝑆(𝑋⃗) de los
elementos de la muestra, llamada estimador, el cual también será una variable aleatoria. Para que una función sea un
buen estimador, necesitamos que:
(a) Sea un estimador sin tendencias, es decir que 𝐸[𝑆(𝑋⃗)] = 𝜆 para todo 𝑛.
(b) Sea consistente, es decir que su varianza se anule para una muestra lo suficientemente grande: lim 𝜎𝑆 = 0.
𝑛→∞

4.1. Estimador de la Media


Consideremos una muestra de una población continua. Un buen estimador de su media es el promedio simple:
𝑋1 + ⋯ + 𝑋𝑛
𝜇̃𝑋 = (1)
𝑛
Vemos que:
𝑛 𝑛 𝑛 ∞ 𝑛 ∞ 𝑛
𝑋𝑖 1 1 1 1
𝐸[𝜇̃𝑋 ] = 𝐸 [∑ ] = ∑ 𝐸[𝑋𝑖 ] = ∑ ∫ 𝑥𝑖 𝑔𝑖 (𝑥𝑖 )𝑑𝑥𝑖 = ∑ ∫ 𝑥𝑖 𝑓(𝑥𝑖 )𝑑𝑥𝑖 = ∑ 𝜇𝑋 = 𝝁𝑿
𝑖=1 𝑛 𝑛 𝑖=1 𝑛 𝑖=1 −∞ 𝑛 𝑖=1 −∞ 𝑛 𝑖=1
𝑛 2 𝑛 𝑋 2 𝑛 2
𝑋𝑖 𝑖 𝑛 1
𝜎𝜇̃2𝑋 = 𝐸[(𝜇̃𝑋 − 𝐸[𝜇̃𝑋 ])2 ] = 𝐸 [(∑ − 𝜇𝑋 ) ] = 𝐸 [(∑ − 𝜇𝑋 ) ] = 2 𝐸 [(∑ (𝑋𝑖 − 𝜇𝑋 )) ] (2)
𝑖=1 𝑛 𝑖=1 𝑛 𝑛 𝑛 𝑖=1
1 𝑛 1 𝑛 𝑛
= 2 ∑ 𝐸[(𝑋𝑖 − 𝜇𝑋 )2 ] + 2 ∑ ∑𝑗=1 𝐸[(𝑋𝑖 − 𝜇𝑋 )(𝑋𝑗 − 𝜇𝑋 )]
𝑛 𝑖=1 𝑛 𝑖=1
𝑖≠𝑖
1 𝑛 ∞
1 1 𝑛 ∞
1 𝑛 𝝈𝟐𝑿
= 2 ∑ ∫ (𝑥𝑖 − 𝜇𝑋 )2 𝑔𝑖 (𝑥𝑖 )𝑑𝑥𝑖 + 2 (0) = 2 ∑ ∫ (𝑥𝑖 − 𝜇𝑋 )2 𝑓(𝑥𝑖 )𝑑𝑥𝑖 = 2 ∑ 𝜎𝑋2 =
𝑛 𝑖=1 −∞ 𝑛 𝑛 𝑖=1 −∞ 𝑛 𝑖=1 𝒏
donde como las 𝑋𝑖 son independientes, entonces 𝐸[(𝑋𝑖 − 𝜇𝑋 )(𝑋𝑗 − 𝜇𝑋 )] = cov(𝑋𝑖 , 𝑋𝑗 ) = 0. Luego,
𝜎𝑋
lim 𝜎𝜇̃𝑋 = lim =0
𝑛→∞ 𝑛→∞ √𝑛
Luego el promedio es un estimador sin tendencias y consistente, así que es un buen estimador de la media poblacional.
4.2. Estimador de la Varianza
Un buen estimador de la varianza poblacional está dada por el estimador de la varianza del dato, definido por:
1 𝑛
𝜎̃𝑋2 = ∑ (𝑋𝑖 − 𝜇̃𝑋 )2 (3)
𝑛 − 1 𝑖=1
La correspondiente desviación estándar, √𝜎̃𝑋2 , puede considerarse como un estimador del error del dato. Vemos que:
1 𝑛 1 𝑛 1 𝑛
𝐸[𝜎̃𝑋2 ] = 𝐸 [ ∑ (𝑋𝑖 − 𝜇̃𝑋 )2 ] = ∑ 𝐸[𝑋𝑖2 − 2𝑋𝑖 𝜇̃𝑋 + 𝜇̃𝑋2 ] = ∑ (𝐸[𝑋𝑖2 ] − 2𝐸[𝑋𝑖 𝜇̃𝑋 ] + 𝐸[𝜇̃𝑋2 ])
𝑛 − 1 𝑖=1 𝑛 − 1 𝑖=1 𝑛 − 1 𝑖=1
Ahora bien, como
𝜎2𝑋
𝜎𝑋2𝑖 = 𝐸[𝑋𝑖2 ] − 𝜇2𝑋𝑖 → 𝐸[𝑋𝑖2 ] = 𝜎𝑋2𝑖 + 𝜇2𝑋𝑖 = 𝜎𝑋2 + 𝜇2𝑋 , 𝐸[𝜇̃2𝑋 ] = 𝜎𝜇̃2𝑋 + 𝐸[𝜇̃𝑋 ]2 = + 𝜇2𝑋
𝑛
𝑛 𝑋𝑗 1 𝑛 1 𝑛 1 𝑛
𝐸[𝑋𝑖 𝜇̃𝑋 ] = 𝐸 [𝑋𝑖 ∑ ] = 𝐸 [𝑋𝑖 ∑ 𝑋𝑗 ] = ∑ 𝐸[𝑋𝑖 𝑋𝑗 ] = (∑𝑗=1 𝐸[𝑋𝑖 𝑋𝑗 ] + 𝐸[𝑋𝑖2 ])
𝑗=1 𝑛 𝑛 𝑗=1 𝑛 𝑗=1 𝑛
𝑗≠𝑖
1 𝜎2𝑋
= 𝑛
[(𝑛 − 1)𝜇𝑋2 + (𝜇𝑋2 + 𝜎2𝑋 )] = 𝜇𝑋2 + 𝑛

14
∞ ∞ ∞
𝑑𝑜𝑛𝑑𝑒 𝐸[𝑋𝑖 𝑋𝑗 ] = ∬ 𝑥𝑖 𝑥𝑗 𝑓𝑖𝑗 (𝑥𝑖 , 𝑥𝑗 )𝑑𝑥𝑖 𝑑𝑥𝑗 = ∬ 𝑥𝑖 𝑥𝑗 𝑔𝑖 (𝑥𝑖 )𝑔𝑗 (𝑥𝑗 )𝑑𝑥𝑖 𝑑𝑥𝑗 = ∬ 𝑥𝑖 𝑥𝑗 𝑓(𝑥𝑖 )𝑓(𝑥𝑗 )𝑑𝑥𝑖 𝑑𝑥𝑗
−∞ −∞ −∞
∞ ∞
= (∫ 𝑥𝑖 𝑓(𝑥𝑖 )𝑑𝑥𝑖 ) (∫ 𝑥𝑗 𝑓(𝑥𝑗 )𝑑𝑥𝑗 ) = 𝜇𝑋𝑖 𝜇𝑋𝑗 = 𝜇𝑋2
−∞ −∞
tenemos entonces que:
1 𝑛 1 𝑛 𝜎2 𝜎𝑋2
𝜎2 𝜎2 𝑋
𝐸[𝜎̃𝑋2 ] = ∑ (𝜎𝑋2 + 𝜇𝑋2 − 2 (𝜇𝑋2 + 𝑛𝑋) + 𝜇𝑋2 + 𝑛𝑋) = ∑ (𝑛 − 1) = 𝑛 = 𝜎𝑋2
𝑛 − 1 𝑖=1 𝑛 − 1 𝑖=1 𝑛 𝑛
Luego, 𝜎̃𝑋2 es un estimador sin tendencias de 𝜎𝑋2 .

4.2.1. Estimador de la varianza del promedio simple


Si bien la varianza del promedio es 𝜎𝜇̃2𝑋 = 𝜎2𝑋 /𝑛 , ésta depende de la varianza poblacional 𝜎𝑋2 la cual es desconocida a
priori. Luego, un estimador de la varianza del estimador de la media puede hallarse sustituyendo (3) en (2):
𝜎̃𝑋2 1 𝑛
𝜎̃𝜇̃2𝑋 = = ∑ (𝑋𝑖 − 𝜇̃𝑋 )2
𝑛 𝑛(𝑛 − 1) 𝑖=1
La correspondiente desviación estándar, √𝜎̃𝜇̃2𝑋 , puede considerarse como un estimador del error del promedio.
Vemos por ende que cuanto mayor sea el número 𝑛 de mediciones, menor será el error 𝜎̃𝜇̃2𝑋 cometido al aproximar a
la media poblacional 𝜇𝑋 por el promedio simple 𝜇̃𝑋 .

4.3. Muestro de poblaciones fraccionadas


Si realizamos mediciones varios instrumentos, cada uno dará un conjunto de muestras homogéneas entre sí, pero no
serán homogéneas al comparar muestras tomadas con instrumentos diferentes. Debemos entonces mezclar estas
muestras para determinar el valor más próximo al verdadero.
Dada una población 𝐺, la fraccionamos en subpoblaciones 𝐺1 , … , 𝐺𝑡 mutuamente excluyentes, descriptas por
funciones de densidad de probabilidad 𝑓𝑖 (𝑥). La función de distribución de probabilidad correspondiente a 𝑓𝑖 (𝑥) es
𝑥
𝐹𝑖 (𝑥) = 𝑃(𝑋 < 𝑥|𝑋 ∈ 𝐺𝑖 ) = ∫ 𝑓𝑖 (𝑡)𝑑𝑡
−∞
Por la regla de probabilidad total (ver capítulo 1), tenemos entonces que:
𝑡 𝑡
𝐹(𝑥) = 𝑃(𝑋 < 𝑥|𝑋 ∈ 𝐺) = ∑ 𝑃(𝑋 < 𝑥|𝑋 ∈ 𝐺𝑖 )𝑃(𝑋 ∈ 𝐺𝑖 ) = ∑ 𝐹𝑖 (𝑥) 𝑃(𝑋 ∈ 𝐺𝑖 )
𝑖=1 𝑖=1
𝑑𝐹(𝑥) 𝑡
𝑓(𝑥) = = ∑ 𝑓𝑖 (𝑥) 𝑃(𝑋 ∈ 𝐺𝑖 )
𝑑𝑥 𝑖=1
Si llamamos 𝑝𝑖 ≡ 𝑃(𝑋 ∈ 𝐺𝑖 ), entonces:
∞ ∞ 𝑡 𝑡 ∞ 𝒕
𝜇𝑋 = 𝐸[𝑋] = ∫ 𝑥𝑓(𝑥)𝑑𝑥 = ∫ 𝑥 (∑ 𝑓𝑖 (𝑥) 𝑝𝑖 ) 𝑑𝑥 = ∑ 𝑝𝑖 ∫ 𝑥 𝑓𝑖 (𝑥) 𝑑𝑥 = ∑ 𝒑𝒊 𝝁𝑿𝒊
−∞ −∞ 𝑖=1 𝑖=1 −∞ 𝒊=𝟏

Luego, la media poblacional es un promedio pesado por las probabilidades de cada subpoblación.
∞ ∞ 𝑡 𝑡 ∞
2
𝜎𝑋2 = ∫ (𝑥 − 𝜇𝑋 )2 𝑓(𝑥)𝑑𝑥 = ∫ (𝑥 − 𝜇𝑋 )2 (∑ 𝑓𝑖 (𝑥) 𝑝𝑖 ) 𝑑𝑥 = ∑ 𝑝𝑖 ∫ {(𝑥 − 𝜇𝑋 𝑖 ) + (𝜇𝑋 𝑖 − 𝜇𝑋 )} 𝑓𝑖 (𝑥) 𝑑𝑥
−∞ −∞ 𝑖=1 𝑖=1 −∞
𝑡 ∞ ∞ ∞
2 2
=∑ 𝑝𝑖 {∫ (𝑥 − 𝜇𝑋 𝑖 ) 𝑓𝑖 (𝑥) 𝑑𝑥 + (𝜇𝑋 𝑖 − 𝜇𝑋 ) ∫ 𝑓𝑖 (𝑥) 𝑑𝑥 + 2(𝜇𝑋 𝑖 − 𝜇𝑋 ) ∫ (𝑥 − 𝜇𝑋 𝑖 ) 𝑓𝑖 (𝑥) 𝑑𝑥}
𝑖=1 −∞ −∞ −∞
𝑡 2 𝒕 𝟐
=∑ 𝑝𝑖 {𝜎𝑋2𝑖 + (𝜇𝑋 𝑖 − 𝜇𝑋 ) + 2(𝜇𝑋 𝑖 − 𝜇𝑋 )(𝜇𝑋 𝑖 − 𝜇𝑋 𝑖 )} = ∑ 𝒑𝒊 {𝝈𝟐𝑿𝒊 + (𝝁𝑿 𝒊 − 𝝁𝑿 ) }
𝑖=1 𝒊=𝟏

Luego, la varianza es el promedio pesado de la suma de dos términos. El primero, 𝑝𝑖 𝜎𝑋2𝑖 , llamado acuerdo interno, está
dado por la varianza intrínseca de cada subpoblación y representa la precisión de cada instrumento. El segundo,
2
𝑝𝑖 (𝜇𝑋 𝑖 − 𝜇𝑋 ) , llamado acuerdo externo, da la desviación cuadrática de la media de cada subpoblación respecto a la
media de toda la población y representa la exactitud de cada instrumento.
Por analogía, buenos estimadores de la media y varianza poblacional están dados por:

15
𝑡 𝑡 2
𝜇̃𝑋 = ∑ 𝑝𝑖 𝜇̃𝑋𝑖 = 𝑃𝑇 𝜇̃⃗𝑋 , 𝜎̃𝑋2 = ∑ 𝑝𝑖 {𝜎̃𝑋2𝑖 + (𝜇̃𝑋𝑖 − 𝜇̃𝑋 ) }
𝑖=1 𝑖=1
𝑇
donde 𝑃 = (𝑝1 ⋯ 𝑝𝑛 )𝑇 y 𝜇̃⃗𝑋 = (𝜇̃𝑋1 ⋯ 𝜇̃𝑛 ) . Aplicando propagación de errores a 𝜇̃𝑋 = 𝑃𝑇 𝜇̃⃗𝑋 :
𝑡 𝑡 𝜎𝑋2𝑖
𝐶𝜇̃𝑋 = 𝜎𝜇̃2𝑋 = 𝑃𝑇 𝐶⃗𝜇̃⃗ 𝑃 = ∑ 𝑝𝑖2 𝜎𝜇̃2𝑖 = ∑ 𝑝𝑖2
𝑋
𝑖=1 𝑖=1 𝑛𝑖
Por analogía, un buen estimador de la varianza del promedio pesado es:
𝑡 𝑡 𝜎̃𝑋2𝑖
𝜎̃𝜇̃2𝑋 = ∑ 𝑝𝑖2 𝜎̃𝜇̃2𝑋 = ∑ 𝑝𝑖2
𝑖=1 𝑖 𝑖=1 𝑛𝑖
Luego, el error del promedio depende exclusivamente de las varianzas 𝜎̃𝑋2𝑖 estimadas en cada técnica, de modo que
no interviene el acuerdo externo.
4.4. Método de máxima verosimilitud
Supongamos que la densidad conjunta 𝑓 de las variables aleatorias 𝑋⃗ = (𝑋1 , … , 𝑋𝑛 ) depende de un conjunto de
(𝑗) (𝑗)
parámetros 𝜆⃗ = (𝜆1 , … , 𝜆𝑝 ), así que 𝑓 = 𝑓(𝑥⃗, 𝜆⃗), 𝑥⃗ = (𝑥1 , … , 𝑥𝑛 ). Si tomamos 𝑁 muestras 𝑋⃗ (𝑗) = (𝑋1 , … , 𝑋𝑛 ) , 𝑗 =
1, … , 𝑁, la probabilidad a posteriori de obtener el resultado 𝑋⃗ (𝑗) es

𝑑𝑃(𝑗) = 𝑓(𝑋⃗ (𝑗) , 𝜆⃗) 𝑑𝑋⃗


Como las muestras son independientes, la probabilidad total de que ocurran todos los eventos 𝑋⃗ (1) , … . , 𝑋⃗ (𝑁) es:
𝑁 𝑁 𝑁
𝑑𝑃 = ∏ 𝑑𝑃 (𝑗) = ∏ 𝑓(𝑋⃗ (𝑗) , 𝜆⃗) 𝑑𝑋⃗ = 𝐿(𝜆⃗) 𝑑𝑋⃗ , 𝐿(𝜆⃗) ≡ ∏ 𝑓(𝑋⃗ (𝑗) , 𝜆⃗)
𝑗=1 𝑗=1 𝑗=1

La función 𝐿(𝜆⃗) se llama función de verosimilitud. Al evaluar la densidad 𝑓 (una función determinista) en una muestra
𝑋⃗ (𝑗) , 𝐿(𝜆⃗) también será una variable aleatoria. El conjunto de parámetros 𝜆⃗ que es más probable que caractericen a
𝑓 serán entonces aquellos que maximice a 𝐿(𝜆⃗) (𝑑𝐿⁄𝑑𝜆⃗ = 0). Como 𝐿(𝜆⃗) es una productoria, tomamos su logaritmo:
𝑁
ln 𝐿(𝜆⃗) = ∑ ln 𝑓(𝑋⃗ (𝑗) , 𝜆⃗)
𝑗=1

Como el logaritmo es una función creciente, los máximos de 𝐿(𝜆⃗) coincidirán con los de ln 𝐿(𝜆⃗). Para 𝜆⃗ = 𝜆, tenemos:
𝑑 ln 𝐿(𝜆) 𝑁 𝑑 ⃗ (𝑗) , 𝜆)
𝑁 𝑓 ′ (𝑋
=∑ (ln 𝑓(𝑋⃗ (𝑗) , 𝜆)) = ∑ =0
𝑑𝜆 𝑗=1 𝑑𝜆 𝑗=1 𝑓(𝑋⃗ (𝑗) , 𝜆)
Tenemos entonces una ecuación con una incógnita, de la cual despejamos un estimador 𝜆̅ del parámetro 𝜆 (que puede
ser cualquier parámetro de 𝑓, no solamente 𝜇 o 𝜎 2 ). En el caso de 𝑝 parámetros, derivamos a ln 𝐿(𝜆) respecto de cada
uno de los parámetros y obtenemos un sistema de 𝑝 ecuaciones de la forma
𝑑 ln 𝐿(𝜆⃗)
=0 , 𝑖 = 1, … , 𝑝
𝑑𝜆𝑖
4.4.1. Mediciones repetidas con diferente precisión
Si realizamos mediciones 𝑋⃗ (𝑗) sobre un mismo objeto con diferentes instrumentos, éstas tendrán diferentes errores.
Supongamos que éstos están distribuidos normalmente, de modo que una medida corresponde a obtener una
muestra de una distribución gaussiana con media 𝜇𝑋 y varianza 𝜎𝑗 2 . Tenemos entonces que:
2 2
𝑁 𝑁 1 (𝑋 (𝑗) − 𝜇𝑋 ) 𝑁 (𝑋 (𝑗) − 𝜇 )
𝑋
𝐿(𝜆⃗) = ∏ 𝜙(𝑋 (𝑗)
, 𝜆⃗) = ∏ exp [− 2 ] → ln ⃗) = − ∑
𝐿(𝜆 2
+𝐶
𝑗=1 𝑗=1 √2𝜋𝜎𝑗 2𝜎𝑗 𝑗=1 2𝜎𝑗

Si asumimos conocidas las varianzas 𝜎𝑋2𝑗 de cada medición, entonces:


𝑑 ln 𝐿(𝜆⃗) 𝑁 𝑋 (𝑗) − 𝜇
𝑋
𝑁 1⁄𝜎𝜇̃𝑗 2
=∑ = 0 → 𝜇
̃ 𝑋 = ∑ 𝜇
̃ 𝑗
𝑑𝜇𝑋 𝑗=1 𝜎𝑗 2 𝑗=1 (∑𝑁
𝑖=1 1⁄𝜎𝜇
2
̃𝑖 )
donde 𝜇̃𝑋𝑗 = 𝑋 (𝑗) es el promedio simple de cada laboratorio. Luego, obtenemos el estimador de máxima verosimilitud
como el promedio de las mediciones pesado inversamente por las varianzas de las mediciones individuales.
16
Comparando con el estimador de la varianza poblacional, tenemos:
𝟐
𝑡 𝑡 1⁄𝜎𝜇̃𝑗 2 𝟏⁄𝝈𝜇̃𝑋
𝑗
𝜇̃𝑋 = ∑ 𝑝𝑗 𝜇̃𝑋𝑗 = ∑ 𝜇̃𝑋𝑗 → 𝒑𝒋 =
𝑗=1 𝑗=1 (∑𝑁
𝑖=1 1⁄𝜎𝜇
2
̃𝑖 ) (∑𝑵
𝒊=𝟏 𝟏⁄𝝈𝜇
𝟐
̃𝑋 ) 𝑖
Vemos entonces que la probabilidad de pertenencia a una cierta muestra 𝑗 depende del error en la medida. Si el
instrumento tiene un error grande, 1⁄𝜎𝑗 2 ≪ 1 → 𝑝𝑗 ≪ 1 y la probabilidad de pertenencia es menor. Luego, las
técnicas más precisas tienen el mayor peso estadístico al tomar el promedio pesado.
Al calcular éstos 𝜎𝑗 2 estamos despreciando la exactitud del instrumento, es decir, cuánto difiere la media 𝜇̃𝑗 obtenida
por esa técnica respecto al valor real. Por ello, es mejor realizar muchas observaciones con diferentes instrumentos.
4.5. Función de densidad de probabilidad 𝜒 2
Consideremos un conjunto de variables aleatorias 𝑋⃗ = (𝑋1 , … , 𝑋𝑛 ) que siguen densidades de probabilidad gaussiana
normalizadas (𝜇𝑋𝑖 = 0, 𝜎𝑋2𝑖 = 1). Se define la variable 𝜒 2 como:
𝜒 2 = 𝑋12 + ⋯ + 𝑋𝑛2
Para el caso 𝑛 = 1 → 𝜒 2 = 𝑋 2 , la función de distribución de 𝜒 2 es:
√𝜒2 √𝜒2 𝜒2
1 1 2 2 1 2 u=x2 1 1
𝐹(𝜒 2) 2
= 𝑃(𝑋 < 𝜒 2)
= 𝑃 (−√𝜒 2 <𝑋< √𝜒 2 ) = ∫ 𝑒 −2𝑥 𝑑𝑥 = ∫ 𝑒 −2𝑥 𝑑𝑥 = ∫ 𝑢−1⁄2 𝑒 −2𝑢 𝑑𝑢
√2𝜋 −√𝜒2 √2𝜋 0 √2𝜋 0
2)
𝑑𝐹(𝜒 1 1 2 1 1 2 1
𝑓(𝜒 2 ) = = (𝜒 2 )−1⁄2 𝑒 −2𝜒 = 𝜆 (𝜒 2 )𝜆−1 𝑒 −2𝜒 , 𝜆= (4)
𝑑𝜒 2 √2𝜋 2 𝛤(𝜆) 2
1
𝜒2 ≥0 1 ∞ ( −𝑖𝑡)𝜒2 =𝑣 1 ∞ −𝜆+1 𝑑𝑣
2 )] (𝜒 2 )𝜆−1
1 2 2 1
𝜑𝑋 2 (𝑡) = 𝐸[exp(𝑖𝑡𝜒 = ∫ exp (−2𝜒 2 + 𝑖𝑡𝜒 ) 𝑑𝜒2
= ∫ (2 − 𝑖𝑡) 𝑣 𝜆−1 𝑒 −𝑣
√2𝜋 −∞ √2𝜋 0 1⁄2 − 𝑖𝑡

1 1 𝜆=1/2
= 2𝜆 (1 − 2𝑖𝑡)−𝜆 ∫ 𝑣 𝜆−1 𝑒 −𝑣 𝑑𝑣 = 2𝜆 (1 − 2𝑖𝑡)−𝜆 𝛤(𝜆) = (1 − 2𝑖𝑡)−1/2
√2𝜋 −∞ √2𝜋
Para el caso más general de 𝑛 grados de libertad, 𝜒 2 = 𝑋12 + ⋯ + 𝑋𝑛2 , como la función característica de una suma de
variables independientes es igual al producto de las funciones características individuales, tenemos:
𝑛 1
𝜑𝜒2 (𝑡) = 𝜑𝑋12 (𝑡) … 𝜑𝑋𝑛2 (𝑡) = [(1 − 2𝑖𝑡)−1⁄2 ] = (1 − 2𝑖𝑡)−𝜆 , 𝜆 = 2𝑛
Haciendo la transformada inversa, la densidad de probabilidad de 𝜒 2 estará dada por (4), con 𝜆 = 1⁄𝑛:
1 1 2
2 )𝜆−1 −2𝜒
𝑓(𝜒 2 ) = (𝜒 𝑒
2𝜆 𝛤(𝜆)
Usando las funciones características, vemos que:
−𝜆−1
𝜇𝜒2 = 𝐸[𝜒 2 ] = −𝑖𝜑′𝜒2 (0) = 𝑖𝜆(1 − 2𝑖(0)) (−2𝑖) = 2𝜆 = 𝒏
−𝜆−2
𝜎𝜒2 = 𝐸[(𝜒 2 )2 ] − 𝜇𝜒2 2 = −𝜑′′𝜒2 (0) = −(𝜆)(𝜆 + 1)(1 − 2𝑖(0)) (−4) − (2𝜆)2 = 4𝜆 = 𝟐𝒏

4.5.1. 𝜒 2 y Estimador de la Varianza


Sean 𝑋1 , … , 𝑋𝑛 variables aleatorias distribuidas normalmente con varianza poblacional 𝜎 2 . Entonces las variables
𝑋𝑖 −𝜇̃𝑋
normalizadas 𝑌𝑖 = 𝜎
también seguirán una distribución normal, pero de media 0 y varianza 1. Ahora bien:
𝜎̃𝑋2 (𝑛 − 1) 1 𝑛 𝑋𝑖 − 𝜇̃𝑋 2 𝑛
2
= (𝑛 − 1) ∑ ( ) = ∑ 𝑌𝑖2 = 𝑌12 + ⋯ + 𝑌𝑛2
𝜎 𝑛 − 1 𝑖=1 𝜎 𝑖=1

⃗⃗ = (𝑌1 , … , 𝑌𝑛 ) que siguen densidades de probabilidad gaussiana


Luego, al ser la suma de 𝑛 variables aleatorias 𝑌
2 (𝑛
normalizadas, la cantidad 𝜎̃𝑋 − 1)/𝜎 tendrá una densidad de probabilidad de 𝜒 2 con 𝑓 = 𝑛 − 1 grados de libertad.
2

5. Mínimos Cuadrados
5.1. Observaciones Directas
Supongamos que tenemos 𝑛 mediciones 𝑌𝑖 de una cantidad desconocida 𝑥, cada una con su respectiva varianza 𝜎𝑌2𝑖 y
afectada por un error 𝜀𝑖 (en principio desconocido). Asumimos que:
 Tienen una distribución gaussiana, es decir que no hay errores sistemáticos de medición y 𝐸[𝜀𝑖 ] = 0.
 Las mediciones son independientes entre sí, lo cual implica que las covarianzas de sus errores son cero.
17
𝜎21 ⋯ 0 𝜎21 ⁄𝜎20 ⋯ 0
𝑇
⃗⃗ = 𝔸𝑥 + 𝜀⃗ , 𝐸[𝜀𝑖 ] = 0 ,
𝑌 𝐸[𝜀𝑖2 ] = 𝜎𝑖2 , 𝐶𝜀⃗ = 𝐸[𝜀⃗ 𝜀⃗ ] = ( ⋮ ⋱ 2
⋮ ) = 𝜎0 ( ⋮ ⋱ ⋮ ) = 𝜎20 𝐶′𝜀
0 ⋯ 𝜎2𝑛 0 ⋯ 𝜎2𝑛 ⁄𝜎20
La matriz de covarianza 𝐶𝜀 es diagonal (porque las medidas son independientes), 𝜎02 es el error cuadrático de la unidad
−1
de peso, 𝐶𝜀′ es la matriz cofactor y 𝑃 = 𝐶𝜀⃗⃗′ es la matriz de pesos. La matriz de diseño 𝔸 en este caso es 𝔸 = (1, … ,1)𝑇 .
Al suponer que la cantidad 𝑥 que estamos midiendo es una constante a lo largo de todas las mediciones, asumimos
un modelo determinista para 𝑥. Al suponer que la variable 𝑌𝑖 es aleatoria, asumimos un modelo estadístico.
Tenemos entonces un sistema de 𝑛 ecuaciones con 𝑛 + 1 incógnitas: 𝑥, 𝜀1 , … , 𝜀𝑛 . Luego, para poder resolverlo
necesitamos una ecuación más. Por el Método de Máxima Verosimilitud, buscamos los 𝜀𝑖 que maximicen
𝑁 𝑛 (𝑌𝑖 − 𝑥)2 𝑛 (𝑌 − 𝑥)2
𝑖
𝑛 𝜀𝑖2
ln 𝐿(𝜆⃗) = ∑ ln 𝑓𝑖 (𝑌𝑖 ) = − ∑ + cte = max ↔ ∑ = ∑ = 𝜀⃗𝑇 𝑃𝜀⃗ = min
𝑖=1 𝑖=1 2𝜎𝑖2 2 2
𝑖=1 𝜎𝑖 ⁄𝜎0
2
𝑖=1 𝜎𝑖 ⁄𝜎0
2

Luego, debemos resolver el sistema 𝑌⃗⃗ = 𝔸𝑥 + 𝜀⃗ con la restricción 𝜀⃗𝑇 𝑃𝜀⃗ = min. Para resolver este sistema, usamos el
método de los multiplicadores de Lagrange. Tomamos la función
𝜕𝛬 𝜕𝛬 𝜕𝛬
𝛬 = 𝜀⃗𝑇 𝑃𝜀⃗ − 2𝐾⃗⃗ 𝑇 (𝑌
⃗⃗ − 𝔸𝑥 − 𝜀⃗) → 𝑑𝛬 = 𝑑𝜀⃗ + 𝑑𝑥 + ⃗⃗ = 0
𝑑𝐾
𝜕𝜀⃗ 𝜕𝑥 𝜕𝐾⃗⃗
⃗⃗ es un vector de multiplicadores de Lagrange. Tenemos entonces las ecuaciones:
donde 𝐾
𝜕𝛬
= −2(𝑌 ⃗⃗ − 𝔸𝑥 − 𝜀⃗) = 0 → ⃗⃗
𝜀⃗ = 𝔸𝑥 − 𝑌
𝜕𝐾⃗⃗
𝜕𝛬
= 2𝜀⃗𝑇 𝑃 + 2𝐾 ⃗⃗ 𝑇 = 0 → ⃗⃗ = 𝑃𝜀⃗ = 𝑃(𝔸𝑥 − 𝑌
𝐾 ⃗⃗)
⃗⃗
𝜕𝜀
𝜕𝛬 𝑇
⃗⃗ 𝑇 ⃗⃗ 𝑇 ⃗⃗ = 𝔸𝑇 𝑃(𝔸𝑥 − 𝑌
𝔸𝑇 𝐾 ⃗⃗) = 0 → (𝔸𝑇 𝑃𝔸)𝑥 = 𝔸𝑇 𝑃𝑌
⃗⃗
{ 𝜕𝑥 = 2𝐾 𝔸 = 0 → (𝐾 𝔸) =
Luego, un estimador de la variable 𝑥 estará dado por:
⃗⃗ = 𝐴+ 𝑌
𝑥̃ = (𝔸𝑇 𝑃𝔸)−1 𝔸𝑇 𝑃𝑌 ⃗⃗ , 𝐴+ = (𝔸𝑇 𝑃𝔸)−1 𝔸𝑇 𝑃
donde 𝐴+ es la matriz pseudoinversa. Así, 𝑥̃ depende tanto de la matriz de diseño 𝔸 y la de pesos 𝑃 como de las
observaciones 𝑌⃗⃗. Como las observaciones ⃗𝒀⃗ son variables aleatorias, el estimador 𝒙 ̃ también será una variable
⃗⃗, cambia el valor de 𝑥̃. Como tal, tendrá una matriz de varianza-
aleatoria, no determinista. Si cambia el valor de 𝑌
covarianza. Notemos que:
𝑇 𝑇
⃗⃗ − 𝜇⃗ ⃗⃗ )(𝑌
𝐶𝑌⃗⃗ = 𝐸 [(𝑌 ⃗⃗ − 𝜇⃗ ⃗⃗ ) ] = 𝐸 [(𝑌
⃗⃗ − 𝑥)(𝑌
⃗⃗ − 𝑥) ] = 𝐸[𝜀⃗ 𝜀⃗𝑇 ] = 𝐶𝜀⃗⃗
𝑌 𝑌

⃗⃗, tenemos que:


Aplicando propagación de errores a la relación 𝑥̃ = 𝐴+ 𝑌
−1
𝜎𝑥2̃ = 𝐶𝑥̃ = 𝐴+ 𝐶𝑌⃗⃗ (𝐴+ )𝑇 = [(𝔸𝑇 𝑃𝔸)−1 𝔸𝑇 𝑃]𝐶𝑌⃗⃗ [(𝔸𝑇 𝑃𝔸)−1 𝔸𝑇 𝑃]𝑇 = [(𝔸𝑇 𝑃𝔸)−1 𝔸𝑇 𝐶𝜀′ ]𝜎02 𝐶𝜀′ [𝑃𝑇 𝔸((𝔸𝑇 𝑃𝔸)−1 )𝑇 ]
= 𝜎02 (𝔸𝑇 𝑃𝔸)−1 𝔸𝑇 𝑃𝑇 𝔸((𝔸𝑇 𝑃𝔸)𝑇 )−1 = 𝜎02 (𝔸𝑇 𝑃𝔸)−1 (𝔸𝑇 𝑃𝔸)(𝔸𝑇 𝑃𝔸)−1 = 𝜎02 (𝔸𝑇 𝑃𝔸)−1
donde usamos que en general (𝐴𝑇 )−1 = (𝐴−1 )𝑇 y que las matrices 𝑃 y (𝔸𝑇 𝑃𝔸) son simétricas. Reemplazando 𝔸 y 𝑃,
∑𝑛𝑗=1 𝑌𝑗 1⁄𝜎𝑌𝑗 2 𝑛 1
−1
𝑥̃ = , 𝜎𝑥2̃ = 𝐶𝑥̃ = (∑ 2)
∑𝑛𝑗=1 1⁄𝜎𝑌𝑗 2 𝑗=1 𝜎𝑗

Si pensamos a cada medición como la media 𝑌𝑖 = 𝜇̃𝑖 de una muestra de tamaño 1, con su respectiva desviación 𝜎𝑌𝑖 =
𝜎𝜇̃2𝑖 , entonces es equivalente al caso de muestreo, donde 𝑥̃ = 𝜇̃𝑋 = ∑𝑡𝑖=1 𝑝𝑖 𝜇̃𝑖 y 𝜎𝜇̃2𝑋 = ∑𝑡𝑖=1 𝑝𝑖2 𝜎𝜇̃2𝑖 .
Sin embargo, a diferencia del error obtenido en muestreo, el error calculado en mínimos cuadrados no tiene en cuenta
el acuerdo externo. Es decir, tiene en cuenta la precisión de cada laboratorio pero no la desviación de las medias
obtenidas por cada uno. Luego, mínimos cuadrados da una cota mínima del error cometido al estimar los parámetros.
Definimos el estimador de los residuos como: 𝜀

𝜀̃⃗ = 𝑌
⃗⃗ − 𝔸𝑥̃
𝑡
Los residuos son variables aleatorias y deben tener una distribución gaussiana con media en 0.
Si al hacer un histograma su comportamiento se aleja del gaussiano y pasa a estar en defecto en
una región y en exceso en otra, tenemos un comportamiento sistemático. Esto puede deberse a
que es falsa la asunción que 𝑥 no varía en el experimento, en cuyo caso el modelo determinista es deficiente.

18
5.2. Observaciones Indirectas
5.2.1. Caso lineal
Consideremos el caso de 𝑟 parámetros desconocidos 𝑥1 , … , 𝑥𝑟 , los cuales se asumen que son independientes entre sí
y que obedecen una relación lineal, de la forma
𝜂𝑖 = 𝑎𝑖0 + 𝑎𝑖1 𝑥1 + ⋯ + 𝑎𝑖𝑟 𝑥𝑟
donde 𝑎𝑖𝑗 son las variables independientes de las mediciones (tiempo, étc.), las cuales se asumen libres de error.
Tenemos 𝑛 mediciones 𝑦𝑖 de las cantidades 𝜂𝑖 , afectadas por errores 𝜀𝑖 que siguen una distribución gaussiana:
𝑎11 ⋯ 𝑎1𝑟 𝑥1
2 2 ⃗⃗ ⋮ ⋱ ⋮
𝑦𝑖 = 𝜂𝑖 + 𝜀𝑖 , 𝐸[𝜀𝑖 ] = 0 , 𝐸[𝜀𝑖 ] = 𝜎𝑗 → 𝑌 = 𝜂⃗ + 𝜀⃗ = 𝑎⃗0 + 𝔸𝑥⃗ + 𝜀⃗ , 𝔸 = ( ) , 𝑥⃗ = ( ⋮ )
𝑎𝑛1 ⋯ 𝑎𝑛𝑟 𝑥𝑛
Tenemos entonces un sistema de 𝑛 ecuaciones con 𝑛 + 𝑟 incógnitas (𝑟 cantidades 𝑥𝑖 y 𝑛 errores 𝜀𝑖 ). Imponemos
entonces la condición de mínimos y resolviendo por medio de multiplicadores de Lagrange:
⃗⃗ ′ ⃗⃗
{𝑌𝑇 ≡ 𝑌 − 𝑎⃗0 = 𝔸𝑥⃗ + 𝜀⃗ → 𝑋̃⃗ = (𝔸𝑇 𝑃𝔸)−1 𝔸𝑇 𝑃𝑌
⃗⃗ ′ = 𝐴+ 𝑌
⃗⃗ ′
𝜀⃗ 𝑃𝜀⃗ = min
Por propagación de errores, la matriz de varianza-covarianza para los estimadores 𝑋̃⃗ de las cantidades 𝑋⃗ es:
𝐶𝑋⃗⃗̃ = 𝜎02 (𝔸𝑇 𝑃𝔸)−1
El tamaño de la matriz 𝔸 depende del número de observaciones y de incógnitas. Sin embargo, si sus filas son similares
o combinaciones lineales entre sí (por ejemplo, si las observaciones son poco extendidas en el tiempo), entonces se
dice que está mal condicionada. Una matriz mal condicionada amplifica los errores y la solución será inestable.
5.2.2. Caso no lineal
Supongamos que la relación entre los parámetros desconocidos independientes 𝑥⃗ con los valores verdaderos 𝜂⃗ de las
⃗⃗ está dada por la función no lineal
cantidades medidas 𝑌
⃗⃗ = 𝜂⃗ + 𝜀⃗
𝜂⃗ = 𝑔⃗(𝑥⃗) → 𝜂𝑖 = 𝑔𝑖 (𝑥⃗) , 𝑌
Podemos relacionar esta situación con el caso lineal si hacemos un desarrollo en serie de Taylor a 1 er orden de las
funciones 𝑔𝑖 (𝑥⃗) en torno a una aproximación inicial 𝑥⃗0 = (𝑥10 , … , 𝑥𝑟0 ) de los parámetros:
𝜕𝑔𝑖 𝜕𝑔𝑖
𝜂𝑖 = 𝑔𝑖 (𝑥⃗) ≅ 𝑔𝑖 (𝑥⃗0 ) + | (𝑥1 − 𝑥10 ) + ⋯ + | (𝑥𝑟 − 𝑥𝑟0 )
𝜕𝑥1 𝑥⃗ 𝜕𝑥𝑟 𝑥⃗
0 0
Definimos
1 𝜕𝑔 𝜕𝑔1
𝑥1 − 𝑥10 ⋯
𝜕𝑥1 𝜕𝑥𝑟 ⃗⃗ = 𝜂⃗ + 𝜀⃗ = 𝑔⃗(𝑥⃗0 ) + 𝔸𝜉⃗ + 𝜀⃗
𝑌
𝜉⃗ = 𝑥⃗ − 𝑥⃗0 = ( ⋮ ) , 𝔸=( ⋮ ⋱ ⋮ )| →
𝑥𝑟 − 𝑥𝑟0 𝜕𝑔𝑛 𝜕𝑔𝑛 ⃗⃗ − 𝑔⃗(𝑥⃗0 ) = 𝔸𝜉⃗ + 𝜀⃗
⃗⃗ ′ ≡ 𝑌
𝑌
𝜕𝑥1
⋯ 𝜕𝑥𝑟 𝑥⃗0

Esta ecuación se llama ecuación de observación. Imponemos entonces la condición de mínimos y resolviendo por
medio de multiplicadores de Lagrange obtenemos un vector de corrección de los parámetros:
̃
𝜉⃗ = (𝔸𝑇 𝑃𝔸)−1 𝔸𝑇 𝑃𝑌
⃗⃗ ′ , 𝐶 ̃ = 𝜎02 (𝔸𝑇 𝑃𝔸)−1
⃗⃗ 𝜉
̃
Calculamos entonces los valores corregidos 𝑥̃⃗ = 𝑥⃗0 + 𝜉⃗ de los parámetros, y usamos éstos como los nuevos valores
aproximados 𝑥⃗1 para volver a aplicar mínimos cuadrados, creando así un método iterativo hasta que se cumple una
cierta tolerancia en los errores.
A diferencia de los casos de observaciones directas, y del caso lineal de observaciones indirectas, el proceso de
mínimos cuadrados no lineal no tiene una solución única sino que depende de los valores de 𝑥⃗0 y la tolerancia usada.
Si los estimadores de los residuos, 𝜀̃⃗ = 𝑌
⃗⃗ − 𝔸𝑥̃⃗, tienen un comportamiento sistemático, la matriz 𝔸 debe estar mal
condicionada. Esto puede deberse a que bien el modelo 𝑔⃗, o la aproximación inicial 𝑥⃗0 , no es la adecuada.
Ejemplo: se realizan mediciones (𝜂, 𝑡) de un oscilador armónico, el cual obedece una relación 𝜂𝑖 = 𝐴 sin(𝜔𝑡𝑖 + 𝜙) =
𝑔𝑖 (𝑥⃗), con 𝑥⃗ = (𝐴 𝜔 𝜙)𝑇 .

19
6. Tests Estadísticos
Un test estadístico es una herramienta matemática que permite concluir si una muestra aleatoria NO está bien
representada por la estimación realizada al hacer hipótesis acerca de los parámetros de esta muestra. Siempre hay
una hipótesis de partida, y si espera que el test corrobore si es no válida. Existen dos tipos de test:
 Paramétrico: analiza los parámetros que caracterizan la muestra: la varianza (Fisher) o la media (Student).
 De ajuste: analiza frecuencias relativas y su relación con la función de distribución de probabilidad (𝜒 2 ).
En general, el procedimiento de un test estadístico es el siguiente:
1) Formular la hipótesis nula sobre la naturaleza de la población de la cual proviene la muestra. Cualquier desvío
entre los parámetros que asumimos de la muestra y el valor que brinda la misma es de comportamiento aleatorio, de
modo que se espera una nulidad del valor esperado del desvío.
2) Se debe hacer una medida en la que esta hipótesis no es válida, es decir, en la que la muestra no la valida. Esta
medida se conoce como fijar un nivel de significación 𝜶, relacionado con la región de improbabilidad, que es la región
de la función de distribución de probabilidad para la cual la probabilidad es “pequeña”.
3) Se define una función 𝑇, llamada estadístico, sobre la muestra 𝑋⃗ = (𝑋1 , … , 𝑋𝑛 ), la cual mida de alguna manera
la relación entre los parámetros planteados en la hipótesis de partida. El estadístico será también una variable
aleatoria y tendrá asociada una densidad de probabilidad 𝑓(𝑇).
Fijando un nivel de significación 𝛼, la región de improbabilidad será aquella en la cual
𝑇1−𝛼
𝑓(𝑇)
𝑃(𝑇 > 𝑇1−𝛼 ) = 𝛼 → 𝑃(𝑇 < 𝑇1−𝛼 ) = ∫ 𝑓(𝑇)𝑑𝑇 = 1 − 𝛼
−∞
Dada una muestra de la población se obtiene un valor particular 𝑇𝑜𝑏𝑠 del estadístico.
Si 𝑇𝑜𝑏𝑠 está en la región de improbabilidad, es decir si 𝑇𝑜𝑏𝑠 > 𝑇1−𝛼 , la hipótesis nula
es rechazada. Lo opuesto, sin embargo, no es cierto. Si 𝑇𝑜𝑏𝑠 < 𝑇1−𝛼 entonces no
podemos decir que la hipótesis es verdadera, sólo podemos decir que no es 𝑇
contradicha por el resultado de la muestra con este nivel de significación. 𝑇1−𝛼

6.1. Test de Fisher


1) Dadas dos muestras, 𝑋⃗ = (𝑋1 , … , 𝑋𝑛 ) y 𝑋⃗ ′ = (𝑋1′ , … , 𝑋𝑚 ′ ),
donde no necesariamente 𝑛 = 𝑚, asumimos que
ambas provienen de una misma población con varianza 𝜎 ; es decir asumimos que 𝜎̃𝑋⃗⃗2 ≅ 𝜎̃𝑋⃗⃗2′ . Esta igualdad estadística
2

quiere decir que cualquier desvío entre ellas se atribuye a su comportamiento aleatorio, y el valor esperado de los
desvíos debería ser cero, de modo que 𝐸[𝜎̃𝑋⃗⃗2 ] = 𝐸[𝜎̃𝑋⃗⃗2′ ] = 𝜎 2, donde la varianza poblacional 𝜎 2 es desconocida.
2) Se fija un nivel de significación, en general del 5% (𝛼 = 0.05).
3) Dados los estimadores de las varianzas de cada muestra, 𝜎̃𝑋⃗⃗2 y 𝜎̃𝑋⃗⃗2′ , se define el estadístico:
2 2
𝜎̃𝑋⃗⃗2 𝑛
(𝑋𝑖 − 𝜇̃𝑋⃗⃗ ) 𝑚(𝑋𝑖′ − 𝜇̃𝑋⃗⃗′ )
𝐹≡ , 𝜎̃𝑋⃗⃗2 =∑ , 𝜎̃𝑋⃗⃗2′ =∑
𝜎̃𝑋⃗⃗2′ 𝑖=1 𝑛−1 𝑖=1 𝑚−1
En la práctica se toma 𝜎̃𝑋⃗⃗2 > 𝜎̃𝑋⃗⃗2′ . Sabemos además que las cantidades
𝜎̃𝑋⃗⃗2 (𝑛 − 1) ′ 𝜎̃𝑋⃗⃗2′ (𝑚 − 1)
𝜒2 ≡ , 𝜒2 ≡
𝜎𝑋⃗⃗2 𝜎𝑋⃗⃗2′
tienen densidades de probabilidad de 𝜒 2 . Luego, usando la hipótesis de que la varianza poblacional 𝜎 2 es la misma
para ambas muestras, entonces 𝜎𝑋⃗⃗2 = 𝜎𝑋⃗⃗2′ y:
𝜎̃𝑋⃗⃗2 𝜒 2 (𝑛 − 1)
𝜒 2 𝑓1
𝐹= = 2′ = ′ , 𝑓1 = 𝑛 − 1 , 𝑓2 = 𝑚 − 1
𝜎̃𝑋⃗⃗2′ 𝜒 (𝑚 − 1) 𝜒 2 𝑓2

Como 𝑋⃗ y 𝑋⃗ ′ son muestras independientes, la densidad de probabilidad conjunta 𝑓(𝜒 2 , 𝜒 2 ) es igual al producto de
las densidades marginales, las cuales serán funciones de densidad de probabilidad 𝜒 2 :

′ ′ 1 1 1 2 1 1 1 2′
𝑓(𝜒 2 , 𝜒 2 ) = 𝑓𝜒2 (𝜒 2 )𝑓𝜒2 ′ (𝜒 2 ) = [ 1 (𝜒 2 )2𝑓1 −1 𝑒 −2𝜒 ] [ 1 (𝜒 2 )2𝑓2 −1 −2𝜒
𝑒 ]
22𝑓1 𝛤(12𝑓1 ) 𝑓2 1
2 𝛤(2𝑓2 )
2

20
Si 𝑄 es una variable determinista, entonces
𝜒2 ′ ′ 𝛤[12(𝑓1 +𝑓2 )] 𝑄 1
1
𝑃( 2′
< 𝑄) = ∬𝜒2 >0,𝜒2 ′ >0 𝑓𝜒2 (𝜒 2 )𝑓𝜒2 ′ (𝜒 2 )𝑑𝜒 2 𝑑𝜒 2 = ∫ 𝑡 2𝑓2 −1 (𝑡 + 1)−2[𝑓1 +𝑓2 ] 𝑑𝑡
𝜒 ′
𝛤(12𝑓1 )𝛤(12𝑓2 ) 0
𝜒2 ⁄𝜒2 <𝑄

Si definimos 𝐹̅ = 𝑄 𝑓𝑓2 , entonces


1
𝑓
2 𝐹̅ 1 1
𝛤[12(𝑓1 +𝑓2 )]
𝜒 𝑓2 1
𝑃 ( 2 ′ < 𝑄) = 𝑃(𝐹 < 𝐹̅ ) = 1 1 ∫ 𝑡 2𝑓1 −1 (𝑡 + 1)−2(𝑓1+𝑓2) 𝑑𝑡 = 𝑊
𝜒 𝛤(2𝑓1)𝛤(2𝑓2 ) 0
1 1
𝑑𝑊 𝑓1 2𝑓1 𝛤[12(𝑓1 +𝑓2 )] 1𝑓1 −1 𝑓1 −2(𝑓1 +𝑓2 )
̅
𝑓(𝐹 ) = =( ) ̅
𝐹2 (1 + 𝐹̅ )
𝑑𝐹̅ 𝑓2 𝛤(12𝑓1 )𝛤(12𝑓2 ) 𝑓2

Ésta se llama la distribución de Fisher. Fijamos un límite 𝐹1−𝛼 (𝑓1 , 𝑓2 ) tal que
𝐹1−𝛼
𝑃(𝐹 < 𝐹1−𝛼 ) = ∫ 𝑓(𝐹)𝑑𝐹 = 1 − 𝛼
0
 Si 𝐹 > 𝐹1−𝛼 (𝑓1 , 𝑓2 ), rechazamos la hipótesis de igual varianza bajo la significancia dada y decimos que 𝜎1 > 𝜎2
 Si 𝐹 < 𝐹1−𝛼 (𝑓1 , 𝑓2 ), sólo podemos decir que no podemos rechazar la hipótesis de igual varianza bajo la
significancia dada. Sin embargo, ello no significa que 𝐹 sea un mejor o peor valor, pues no es la variable aleatoria sobre
la cual se idea la hipótesis sino que es una variable intermedia para definir la región de improbabilidad.
Ejemplo: hacemos mediciones de un mismo objeto con dos instrumentos, obteniendo dos muestras 𝑋⃗ y 𝑋⃗ ′ que no
podemos asegurar a priori que sean homogéneas entre sí. Queremos ver si los instrumentos miden con igual precisión.
Dados los estimadores de las varianzas de cada muestra, 𝜎̃𝑋⃗⃗2 y 𝜎̃𝑋⃗⃗2′ , tomamos por hipótesis nula que 𝜎̃𝑋⃗⃗2 ≅ 𝜎̃𝑋⃗⃗2′ , fijamos
el nivel de significación 𝛼, calculamos el estadístico 𝐹 y lo comparamos con 𝐹1−𝛼 . Si no podemos rechazar la hipótesis
de igual varianza, podremos trabajar con todas las observaciones como si fueran de una única muestra homogénea,
es decir, como si fuesen tomadas por un mismo instrumento.
6.2. Test de Student
Tenemos una muestra 𝑋⃗ = (𝑋1 , … , 𝑋𝑛 ) que asumimos proviene de una población con una media teórica 𝜇𝑋 . Tomamos
por hipótesis que el estimador de la media 𝜇̃𝑋 = ∑𝑛𝑖=1 𝑋𝑖 /𝑛 es estadísticamente igual a 𝜇𝑋 , es decir, que 𝜇̃𝑋 ≅ 𝜇𝑋 .
Si 𝑛 es suficientemente grande, por el Teorema Central del Límite 𝜇̃𝑋 tendrá una distribución gaus
𝝈𝟐𝑿 ̃ 𝑋 −𝜇𝑋
𝜇
siana de media 𝐸[𝜇̃𝑋 ] = 𝜇𝑋 y varianza 𝜎𝜇̃2𝑋 = , así que la variable 𝑌 = tendrá una distribución gaussiana
𝒏 𝜎𝜇̃𝑋
1
normalizada. Sin embargo, no conocemos 𝜎𝜇̃2𝑋 sino su estimador 𝜎̃𝜇̃2𝑋 = 𝑛(𝑛−1) ∑𝑛𝑖=1(𝑋𝑖 − 𝜇̃𝑋 )2 . Luego, queremos saber
cuánto se aleja 𝑌 de una distribución gaussiana normalizada al reemplazar 𝜎𝜇̃2𝑋 por 𝜎̃𝜇̃2𝑋 . Para ello, definimos
𝜇̃𝑋 − 𝜇𝑋 𝜇̃𝑋 − 𝜇𝑋
𝑡= = √𝑛
𝜎̃𝜇̃𝑋 𝜎̃𝑋
2 (𝑛−1)
̃𝑋
𝜎
Como sigue una distribución 𝜒 2 , se encuentra que
𝜎2 𝛼/2 𝛼/2
𝛤 (12(𝑓 + 1)) 𝑡2
−1⁄2(𝑓+1)
𝑓(𝑡) = (1 + ) , 𝑓 =𝑛−1
𝛤(12𝑓)√𝜋√𝑓 𝑓

La gráfica de esta densidad es similar a la de una gaussiana, simétrica alrededor de 0 y cuyo máximo depende de 𝑓.
Vemos que 𝑡 puede ser positivo o negativo, de modo que se puede alejar de la media de su distribución tanto en
exceso como en defecto. Luego, debemos realizar un tests de dos colas. Para ello, tomamos un nivel de significancia
𝛼 tal que, usando que 𝑓(𝑡) es simétrica alrededor de 0, pedimos que:
𝑡1−𝛼⁄2 𝑡1−𝛼⁄2 𝑡1−𝛼⁄2
1
𝑃(𝑡𝛼⁄2 < 𝑡 < 𝑡1−𝛼⁄2 ) = ∫ 𝑓(𝑡)𝑑𝑡 = 2 ∫ 𝑓(𝑡)𝑑𝑡 = 1 − 𝛼 ↔ ∫ 𝑓(𝑡)𝑑𝑡 = (1 − 𝛼)
𝑡 𝛼 ⁄2 0 0 2

21
 Si 𝑡 < 𝑡𝛼⁄2 o 𝑡 > 𝑡1−𝛼⁄2, rechazamos la hipótesis de que la media estimada 𝜇̃𝑋 es estadísticamente igual a 𝜇𝑋 .
 Si 𝑡𝛼⁄2 < 𝑡 < 𝑡1−𝛼⁄2 , entonces no podemos rechazar la hipótesis bajo la significancia dada.

6.2.1. Test de Student para dos poblaciones


Dadas dos muestras 𝑋⃗ = (𝑋1 , … , 𝑋𝑛 ) y 𝑋⃗ ′ = (𝑋1′ , … , 𝑋𝑚
′ ),
tomamos por hipótesis que sus medias son estadísticamente
iguales (𝜇𝑋⃗⃗ ≅ 𝜇𝑋⃗⃗ ′ ), es decir que ambas muestras son de la misma población. Entonces 𝜎𝑋⃗⃗2 y 𝜎𝑋⃗⃗2′ son iguales y podemos
tomar al promedio pesado de los estimadores de las varianzas muestrales, 𝜎̃𝑋⃗⃗2 y 𝜎̃𝑋⃗⃗2′ , como el estimador de la varianza
poblacional 𝜎̃ 2 , donde los pesos son los grados de libertad:

(𝑛 − 1)𝜎̃𝑋⃗⃗2 + (𝑚 − 1)𝜎̃𝑌⃗⃗2 𝜎̃ 2 𝜎̃ 2 (𝑛 + 𝑚) 2
2
𝜎̃ = → 𝜎̃𝜇̃2𝑋 = , 𝜎̃𝜇̃2𝑌 = → 𝜎̃∆2 = 𝜎̃𝜇̃2𝑋 + 𝜎̃𝜇̃2𝑌 = 𝜎̃
(𝑛 − 1) + (𝑚 − 1) 𝑛 𝑚 𝑛𝑚
Por el Teorema Central del Límite 𝜇̃𝑋⃗⃗ y 𝜇̃𝑌⃗⃗ , y por ende la diferencia ∆= 𝜇̃𝑋⃗⃗ − 𝜇̃𝑌⃗⃗ , tendrán una distribución gaussiana.
Puede entonces demostrarse que el estadístico
∆ 𝜇̃ ⃗⃗ − 𝜇̃𝑌⃗⃗
𝑡= = 𝑋
𝜎̃∆ 𝜎̃∆
sigue una distribución de Student con 𝑓 = 𝑛 + 𝑚 − 2 grados de libertad. Luego, tomando un valor de significancia α,
efectuamos un test de dos colas.
6.3. Test de 𝜒 2
Consideremos el caso de 𝑟 parámetros desconocidos 𝑥1 , … , 𝑥𝑟 , los cuales se relacionan por una función 𝜂⃗ = 𝑔⃗(𝑥⃗).
Tenemos 𝑛 mediciones 𝑦𝑖 de las cantidades 𝜂𝑖 , afectadas por errores 𝜀𝑖 = 𝑦𝑖 − 𝜂𝑖 . Como los errores 𝜀𝑖 siguen una
distribución gaussiana con 𝐸[𝜀𝑖 ] = 0 y 𝐸[𝜀𝑖2 ] = 𝜎𝑗2 , las variables aleatorias 𝑣𝑖 = (𝑦𝑖 − 𝜂𝑖 )⁄𝜎𝑖 = 𝜀𝑖 ⁄𝜎𝑖 deben seguir
una distribución gaussiana normalizada. Luego, la suma de cuadrados
𝑛 2 𝑛
𝜀
𝑀=∑ (𝜎𝑖 ) = ∑ 𝑣𝑖2
𝑖=1 𝑖 𝑖=1
2 2
debe seguir una distribución 𝑓(𝜒 , 𝑓) tipo 𝜒 con 𝑓 = 𝑛 − 𝑟 grados de libertad.

Por mínimos cuadrados, construimos estimadores 𝑋̃⃗ y 𝜀̃⃗ de los parámetros y de los errores, los cuales serán funciones
⃗⃗. Luego, tomamos por hipótesis que 𝜂⃗ ≅ 𝑔⃗ (𝑋̃⃗ ) y fijamos una significancia α tal que:
de las mediciones 𝑌
2
𝜒1−𝛼
2 2 )
𝑃(𝜒 < 𝜒1−𝛼 =∫ 𝑓(𝜒 2 , 𝑓)𝑑𝜒 2 = 1 − 𝛼
0

Si 𝑀 = ∑𝑛𝑖=1(𝜀𝑖 ⁄𝜎𝑖 )2 > 2


𝜒1−𝛼 , rechazamos la hipótesis de que 𝑋̃⃗ sea un buen estimador de los valores verdaderos 𝑥⃗.
6.3.1. Test de 𝜒 2 y frecuencias empíricas
Supongamos que tenemos una variable aleatoria 𝑋 definida en un intervalo [𝑎, 𝑏], la cual asumimos por hipótesis que
sigue una distribución con densidad 𝑓(𝑥). Dividimos [𝑎, 𝑏] en 𝑟 subintervalos 𝜉1 , … , 𝜉𝑟 . La probabilidad de que 𝑋 ∈ 𝜉𝑖
se obtiene integrando 𝑓(𝑥) en 𝜉𝑖 :
𝑝𝑖 = 𝑃(𝑋 ∈ 𝜉𝑖 ) = ∫ 𝑓(𝑥)𝑑𝑥
𝜉𝑖
Tomamos una muestra 𝑋⃗ = (𝑋1 , … , 𝑋𝑛 ) de tamaño 𝑛 y llamamos 𝑛𝑖 al número
de elementos de la muestra que caen dentro del subintervalo 𝜉𝑖 (en general,
pedimos que haya al menos 4 elementos por intervalo).
El número teórico de elementos por intervalo debería ser 𝑛𝑖𝑇 = 𝑛𝑝𝑖 . Para 𝑛𝑖 ≫ 1, deberíamos tener 𝜎𝑛2𝑖 = 𝑛𝑖 y
2
(𝑛𝑖 − 𝑛𝑖𝑇 ) (𝑛𝑖 − 𝑛𝑝𝑖 )2
𝑢𝑖2 = =
𝜎𝑛2𝑖 𝑛𝑖
debería seguir una distribución gaussiana normalizada. Entonces la suma de cuadrados
𝑟
𝜒2 = ∑ 𝑢𝑖2
𝑖=1

22
seguirá una densidad de probabilidad 𝜒 2 con 𝑓 = 𝑟 − 1 grados de libertad (ya que los 𝑢𝑖 no son todos independientes
pues ∑𝑟𝑖=1 𝑛𝑖 = 𝑛). El número de grados de libertad se reduce a 𝑓 = 𝑟 − 1 − 𝑝 si 𝑝 parámetros de 𝑓(𝑥) se estiman a
partir de las observaciones (en el caso de una densidad gaussiana, 𝑝 = 2 pues se estiman 𝜇𝑋 y 𝜎𝑋2 ).
2
Fijando una significación 𝛼, si 𝜒 2 > 𝜒1−𝛼 rechazamos la hipótesis de que 𝑋 sigue una distribución con densidad 𝑓(𝑥).

23

También podría gustarte