Documentos de Académico
Documentos de Profesional
Documentos de Cultura
9 DE MARZO DE 2018
FACULTAD DE CIENCIAS ASTRONÓMICAS Y GEOFÍSICA - UNLP
1. Probabilidades
Existen dos tipos de modelos matemáticos:
Modelos deterministas o analíticos, donde las condiciones experimentales determinan el resultado.
Modelos probabilísticos o aleatorios, donde las condiciones experimentales determinan solamente un
comportamiento probabilístico, y cada resultado es único.
1.1. Experimento, muestra y evento aleatorio
- Variable aleatoria: variables (generalmente números reales) que se asocian a ciertos eventos para clasificarlos
por medio de los posibles valores de esta variable. Pueden ser discretas (como tirar una moneda y asociar al
evento “cara” con 0 y “seca” con 1), o continúas (como tirar una rueda y medir el ángulo 𝜃 con el eje 𝑥 positivo).
- Experimento aleatorio: procedimiento preestablecido que da como resultado una variable aleatoria.
- Muestra aleatoria: subconjunto del conjunto de resultados del experimento aleatorio (el cual es un conjunto
infinito de resultados posibles), que resulta de realizar el experimento aleatorio un número finito de veces.
- Espacio muestral (del experimento): conjunto de resultados posibles, es decir, de valores que puede tomar la
variable aleatoria ({0,1} en el caso de la moneda, {𝜃: 0 ≤ 𝜃 < 2𝜋} en el caso de la ruleta).
- Evento aleatorio: describe o define aquello que es objeto de estudio. Son resultados que forman un
subconjunto del espacio muestral (en el caso de la moneda podría ser 𝐴 =”sale cara”, y en el de la ruleta
𝐴 =”sale un ángulo del 1er cuadrante”).
La probabilidad 𝑷(𝑨) asociada a un evento 𝑨 es un recurso matemático que se define como un número en una escala
de 0 (imposiblidad) a 1 (certeza absoluta) el cual se refiere a la “regularidad” con la que aparecen los resultados del
evento de estudio. Ésta puede medirse de dos maneras:
A priori: sólo puede aplicarse cuando el experimento arroja resultados con “simetrías”. Por ejemplo, al arrojar
un dado no cargado podemos decir por simetría del dado que cada cara tiene 1/6 de probabilidad.
Empírica: no se dispone de una simetría de modo que es necesario realizar el experimento un número 𝑁 de
veces. Si el resultado del evento 𝐴 se da 𝑁𝐴 veces, se define la probabilidad empírica como 𝑃𝑒 (𝐴) ≡ 𝑁𝐴 ⁄𝑁. Si
se repitiese el experimento infinitas veces, se obtendría entonces la probabilidad estadística:
𝑛𝐴
𝑃(𝐴) ≡ 𝑙𝑖𝑚
𝑁→∞ 𝑁
1.2. Reglas de Probabilidad
Axiomas sobre la probabilidad
a. Todo evento 𝐴 tiene un número no negativo asociado a su probabilidad: 𝑃(𝐴) ≥ 0.
b. La probabilidad asociada a la totalidad del espacio muestral, es decir, cuando el evento de estudio son todos
los resultados posibles, es 𝑃(𝑆) = 1.
c. Si 𝐴 y 𝐵 son eventos mutuamente excluyentes, la probabilidad de que ocurra 𝐴 o 𝐵 (escrito 𝐴 + 𝐵) es
𝑃(𝐴 + 𝐵) ≡ 𝑃(𝐴) + 𝑃(𝐵) (Regla de Adición)
En particular, si tomamos el evento 𝐴 y el evento ~𝐴 = 𝐴̃ (no 𝐴), entonces son mutuamente excluyentes y
𝑆 = 𝐴 + 𝐴̃ → 𝑃(𝑆) = 𝑃(𝐴) + 𝑃(𝐴̃) = 1 → 𝑃(𝐴̃) = 1 − 𝑃(𝐴) → 0 ≤ 𝑃(𝐴) ≤ 1
Probabilidad aditiva: Sean 𝐴 y 𝐵 dos eventos cualesquiera (mutuamente excluyentes o no). Entonces:
𝑃(𝐴⋃𝐵) = 𝑃 (𝐴⋃(𝐴̃⋂𝐵)) = 𝑃(𝐴) + 𝑃(𝐴̃⋂𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴⋂𝐵) 𝐴 𝐵
donde 𝑃(𝐵) = 𝑃 ((𝐴⋂𝐵)⋃(𝐴̃⋂𝐵)) = 𝑃(𝐴⋂𝐵) + 𝑃(𝐴̃⋂𝐵) → 𝑃(𝐴̃⋂𝐵) = 𝑃(𝐵) − 𝑃(𝐴⋂𝐵)
𝐴⋂𝐵
Probabilidad condicional: Sean 𝐴 y 𝐵 dos eventos cualesquiera. La probabilidad de que ocurra 𝐴 bajo la
condición de que también ocurra 𝐵 es:
𝑛𝐴⁄𝐵 𝑛𝐴⋂𝐵 𝑛𝐴⋂𝐵 ⁄𝑁 𝑃(𝐴⋂𝐵)
𝑃(𝐴⁄𝐵) = = = = → 𝑃(𝐴⋂𝐵) = 𝑃(𝐴⁄𝐵) ∙ 𝑃(𝐵) (1)
𝑛𝐵 𝑛𝐵 𝑛 𝐵 ⁄𝑁 𝑃(𝐵)
𝑃(𝐴⋂𝐵)
𝑃(𝐵⁄𝐴) = → 𝑃(𝐴⋂𝐵) = 𝑃(𝐵⁄𝐴) ∙ 𝑃(𝐴)
𝑃(𝐴)
Dos eventos 𝐴 y 𝐵 son independientes si el resultado de uno no altera o condiciona la probabilidad del otro. Entonces,
1
𝑃(𝐴⁄𝐵) = 𝑃(𝐴) , 𝑃(𝐴⁄𝐵) = 𝑃(𝐵) → 𝑃(𝐴⋂𝐵) = 𝑃(𝐴) ∙ 𝑃(𝐵) (2)
Probabilidad total: sean 𝐴1 , … , 𝐴𝑛 𝑛 eventos mutuamente excluyentes, tales que su suma define el espacio
muestral (𝑆 = 𝐴1 + ⋯ + 𝐴𝑛 ). La probabilidad de que ocurra un evento con la propiedad 𝐵 es:
𝐵 = 𝐴1 ⋂𝐵 + ⋯ + 𝐴𝑛 ⋂𝐵
𝑛
𝑃(𝐵) = 𝑃(𝐴1 ⋂𝐵 + ⋯ + 𝐴𝑛 ⋂𝐵) = 𝑃(𝐴1 ⋂𝐵) + ⋯ + 𝑃(𝐴𝑛 ⋂𝐵) = 𝑃(𝐵 ⁄𝐴1 )𝑃(𝐴1 ) + ⋯ 𝑃(𝐵 ⁄𝐴𝑛 )𝑃(𝐴𝑛 ) = ∑ 𝑃(𝐵 ⁄𝐴𝑖 )𝑃(𝐴𝑖 )
𝑖=1
La desviación estándar (o dispersión) se define como la raíz cuadrada de la varianza 𝜎 = ±√𝜎𝑋2. Al igual que
ésta, es una medida del apartamiento promedio de las medidas de 𝑋 respecto a su media, y como tiene las mismas
dimensiones que 𝑋 se asocia al error en la medida.
La moda es el valor 𝑥 = 𝑥0 de la variable aleatoria 𝑋 que se corresponde a la probabilidad máxima:
𝑃(𝑋 = 𝑥0 ) = máx. Si la función densidad es diferenciable corresponde a un máximo de 𝑓(𝑥) y está determinada por
𝑓 ′ (𝑥) = 0 , 𝑓 ′′ (𝑥) < 0
Cuando el máximo es único, la distribución se llama unimodal.
2
La mediana es el valor 𝑥 = 𝑥𝑚 de la variable aleatoria 𝑋 para el cual la función de distribución es igual a 1⁄2:
𝑥𝑗 , 𝑥𝑗 <𝑥𝑚
𝐹(𝑥𝑚 ) = 𝑃(𝑋 < 𝑥𝑚 ) = ∑ 𝑃(𝑋 = 𝑥𝑖 ) = 0.5 (variable discreta)
𝑖=1
𝑥𝑚
𝐹(𝑥𝑚 ) = 𝑃(𝑋 < 𝑥𝑚 ) = ∫ 𝑓(𝑥) 𝑑𝑥 = 0.5 (variable continua)
−∞
donde
∞ ∞
cov(𝑋, 𝑌) ≡ 𝐸[(𝑋 − 𝜇𝑋 )(𝑌 − 𝜇𝑌 )] = ∫ ∫ (𝑥 − 𝜇𝑋 )(𝑦 − 𝜇𝑌 ) 𝑓(𝑥, 𝑦)𝑑𝑥 𝑑𝑦
−∞ −∞
se denomina la covarianza de 𝑋 e 𝑌 y mide el grado de dependencia estadística entre estas variables. Vemos que:
cov(𝑋, 𝑌) > 0 si valores 𝑋 > 𝜇𝑋 aparecen en cov(𝑋, 𝑌) < 0
cov(𝑋, 𝑌) > 0 cov(𝑋, 𝑌) ≈ 0
general con valores 𝑌 > 𝜇𝑌 , o 𝑋 < 𝜇𝑋 con 𝑌 < 𝜇𝑌 .
cov(𝑋, 𝑌) < 0 si en general 𝑋 > 𝜇𝑋 implica 𝑌 <
𝜇𝑦 , o si 𝑋 < 𝜇𝑋 implica 𝑌 > 𝜇𝑌 .
cov(𝑋, 𝑌) = 0 si el valor de 𝑋 no proporciona
información adicional sobre la posición probable de 𝑌.
Si 𝑋 e 𝑌 son independientes, entonces 𝑓(𝑥, 𝑦) = 𝑔(𝑥)ℎ(𝑦) y la covarianza se anula:
∞ ∞ ∞ ∞
cov(𝑋, 𝑌) = ∫ ∫ (𝑥 − 𝜇𝑋 )(𝑦 − 𝜇𝑌 ) 𝑔(𝑥)ℎ(𝑦) 𝑑𝑥 𝑑𝑦 = ∫ (𝑥 − 𝜇𝑋 ) ℎ(𝑥)𝑑𝑥 ∫ (𝑦 − 𝜇𝑌 ) 𝑔(𝑦)𝑑𝑦
−∞ −∞ −∞ −∞
∞ ∞ ∞ ∞
= (∫ 𝑥 ℎ(𝑥)𝑑𝑥 − 𝜇𝑋 ∫ ℎ(𝑥)𝑑𝑥) (∫ 𝑦 𝑔(𝑦)𝑑𝑦 − 𝜇𝑌 ∫ 𝑔(𝑦)𝑑𝑦) = (𝜇𝑋 − 𝜇𝑋 1)(𝜇𝑌 − 𝜇𝑌 1) = 0
−∞ −∞ −∞ −∞
Las variables 𝑋1 , … , 𝑋𝑛 son variables independientes si podemos escribir la densidad de probabilidad como:
𝑓(𝑥1 , 𝑥2 , … , 𝑥𝑛 ) = 𝑔1 (𝑥1 )𝑔2 (𝑥2 ) … 𝑔𝑛 (𝑥𝑛 )
Si 𝐻(𝑋1 , … , 𝑋𝑛 ) es una función de 𝑛 variables, el valor esperado de 𝐻 es
∞ ∞
𝐸[𝐻(𝑋1 , … , 𝑋𝑛 )] = ∫ … ∫ 𝐻(𝑥1 , … , 𝑥𝑛 )𝑓(𝑥1 , … , 𝑥𝑛 ) 𝑑𝑥1 … 𝑑𝑥𝑛
−∞ −∞
5
2.5.2. Transformación de variables
Sean 𝑋, 𝑌 dos variables aleatorias y consideremos la transformación a las variables 𝑈 = 𝑈(𝑋, 𝑌) , 𝑉 = 𝑉(𝑋, 𝑌). Por la
equivalencia areal, debe ser que:
𝑓(𝑥, 𝑦) 𝑑𝑥 𝑑𝑦 = 𝑔(𝑢, 𝑣) 𝑑𝑢 𝑑𝑣 𝑏 𝑐
𝑣 + 𝑑𝑣
Como 𝑑𝐴 = 𝑑𝑥 𝑑𝑦 es un elemento de área 𝑢 = 𝑢(𝑥, 𝑦)
infinitesimal, puede aproximarse como un 𝑣 = 𝑣(𝑥, 𝑦)
paralelogramo de aristas en 𝑣 𝑎 𝑑
𝑥𝑎 = 𝑥(𝑢, 𝑣) , 𝑦𝑎 = 𝑦(𝑢, 𝑣)
𝑥𝑏 = 𝑥(𝑢, 𝑣 + 𝑑𝑣) , 𝑦𝑏 = 𝑦(𝑢, 𝑣 + 𝑑𝑣)
𝑥𝑐 = 𝑥(𝑢 + 𝑑𝑢, 𝑣) , 𝑦𝑐 = (𝑢 + 𝑑𝑢, 𝑑𝑣) 𝑢 𝑢 + 𝑑𝑢
(b) Si la transformación es no lineal, es decir 𝑌𝑖 = 𝑌𝑖 (𝑋1 , … , 𝑋𝑛 ), tomamos un desarrollo en serie alrededor de 𝜇⃗𝑋⃗⃗ :
𝜕𝑌 𝜕𝑌
𝑌𝑖 = 𝑌𝑖 (𝜇⃗𝑋⃗⃗ ) + 𝜕𝑋𝑖 | (𝑋1 − 𝜇𝑋1 ) + ⋯ + 𝜕𝑋 𝑖 | (𝑋𝑛 − 𝜇𝑋𝑛 ) + 𝑇. 𝑂. 𝑀.
1 ⃗𝜇
⃗⃗⃗⃗⃗⃗ 𝑛 ⃗𝜇⃗𝑋
𝑋 ⃗⃗⃗⃗
𝜕𝑌1 𝜕𝑌1 𝜕𝑌1
⋯
𝜕𝑋1 𝜕𝑋2 𝜕𝑋𝑛
𝜕𝑌2 𝜕𝑌2 𝜕𝑌2 |
⃗⃗ = 𝑌
𝑌 ⃗⃗(𝜇⃗ ⃗⃗ ) + 𝑇 ′ (𝑋⃗ − 𝜇⃗ ⃗⃗ ) + 𝑇𝑂𝑀 , 𝑇 ′ = 𝜕𝑋1 𝜕𝑋2
⋯
𝜕𝑋𝑛
𝑋 𝑋
⋮ ⋮ ⋱ ⋮ |
𝜕𝑌𝑟 𝜕𝑌𝑟 𝜕𝑌𝑟
⋯
(𝜕𝑋1 𝜕𝑋2 𝜕𝑋𝑛 ) ⃗𝜇⃗𝑋
⃗⃗⃗⃗
Si los errores en 𝑋⃗ son lo suficientemente pequeños, podemos despreciar los términos de orden superior y tenemos:
𝑇 𝑻
𝐶𝑌⃗⃗ = 𝐸 [(𝑌 ⃗⃗ − 𝜇𝑌⃗⃗ ) ] ≅ 𝑻′ 𝑪𝑿
⃗⃗ − 𝜇𝑌⃗⃗ )(𝑌 ⃗⃗⃗ 𝑻
′
6
Nota: vemos que no solamente las varianzas de 𝑋⃗ sino también las covarianzas contribuyen a los errores (varianzas)
⃗⃗, es decir, a los elementos diagonales de 𝐶𝑌⃗⃗ . Las covarianzas sólo pueden ser ignoradas cuando las variables 𝑋⃗ son
de 𝑌
independientes, es decir, cuando 𝐶𝑋⃗⃗ es diagonal. En ese caso, los elementos diagonales de 𝐶𝑌⃗⃗ son:
2 2
𝜕𝑌𝑖
𝑛 𝑛 𝜕𝑌𝑖 2
𝜎𝑌2𝑖 =∑ ( ) 𝜎𝑋2𝐽 → 𝜎𝑌𝑖 ≡ ∆𝑌𝑖 = √∑ ( ) (∆𝑋𝑗 )
𝑗=1 𝜕𝑋𝑗 𝜇⃗⃗ 𝑗=1 𝜕𝑋𝑗 𝜇⃗⃗
⃗⃗⃗
𝑋 ⃗⃗⃗
𝑋
Donde, como los resultados son independientes, las covarianzas se anulan y tenemos que:
cov[𝑋𝑖 𝑋𝑗 ] = 𝐸 [(𝑋𝑖 − 𝜇𝑋𝑖 ) (𝑋𝑗 − 𝜇𝑋𝑗 )] = 𝐸[(𝑋𝑖 − 𝑝)(𝑋𝑗 − 𝑝)] = 𝐸[𝑋𝑖 𝑋𝑗 − 𝑝𝑋𝑖 − 𝑝𝑋𝑗 + 𝑝2 ] (2)
= 𝐸[𝑋𝑖 𝑋𝑗 ] − 𝑝𝐸[𝑋𝑖 ] − 𝑝𝐸[𝑋𝑗 ] + 𝑝 = 𝐸[𝑋𝑖 𝑋𝑗 ] − 𝑝 ∙ 𝑝 − 𝑝 ∙ 𝑝 + 𝑝 = 𝐸[𝑋𝑖 𝑋𝑗 ] − 𝑝 = 0 → 𝐸[𝑋𝑖 𝑋𝑗 ] = 𝑝2
2 2 2
7
3.2. Distribución Multinomial
Consideremos un experimento aleatorio con más de dos resultados mutuamente excluyentes, 𝑆 = 𝐴1 + ⋯ + 𝐴𝑙 , y
definimos la variable aleatoria multinomial 𝑋⃗ = (𝑋1 , … , 𝑋𝑙 )𝑇 , donde
𝑛 1 si en la prueba 𝑖 ocurre 𝐴𝑗
𝑋𝑗 = ∑ 𝑋𝑖𝑗 , 𝑋𝑖𝑗 = {
𝑖=1 0 si en la prueba 𝑖 ocurre ̃
𝐴𝑗
Un ejemplo es tirar un dado 𝑛 veces, y considerar los eventos 𝐴1 = 𝑠𝑎𝑙𝑒 1, 𝐴2 = 𝑠𝑎𝑙𝑒 2, 𝐴3 = 𝑠𝑎𝑙𝑒 ≥ 3. En ese caso,
𝑝1 = 𝑝2 = 1/6 y 𝑝3 = 4/6. Las variables aleatorias 𝑋1 , 𝑋2 , 𝑋3 son el número de veces que ocurren 𝐴1 , 𝐴2 , 𝐴3 .
La probabilidad de que en 𝑛 pruebas el evento 𝐴𝑗 ocurra 𝑘𝑗 veces, sin importar el orden de los resultados, es:
𝑙 𝑙
𝑛! 𝑘
𝑃(𝑋1 = 𝑘1 , … , 𝑋𝑙 = 𝑘𝑙 ) = ∏ 𝑝𝑗 𝑗 , ∑ 𝑘𝑗 = 𝑛
∏𝑙𝑗=1 𝑘𝑗 ! 𝑗=1 𝑗=1
La media de 𝑋𝑗 es:
𝑛 𝑛 𝑛 𝑛
𝜇𝑋𝑗 = 𝐸[𝑋𝑗 ] = 𝐸 [∑ 𝑋𝑖𝑗 ] = ∑ 𝐸[𝑋𝑖𝑗 ] = ∑ (1 ∙ 𝑃(𝐴𝑗 ) + 0 ∙ 𝑃(𝐴̃𝑗 )) = ∑ 𝑝𝑗 = 𝑛𝑝𝑗 → 𝝁𝑿𝒋 = 𝒏𝒑𝒋
𝑖=1 𝑖=1 𝑖=1 𝑖=1
Por otro lado, análogamente al caso binomial tenemos que:
𝜎𝑋2𝑗 = 𝐸[𝑋𝑗2 ] − 𝜇𝑋2 𝑗 = 𝑛𝑝𝑗 𝑞𝑗 = 𝑛𝑝𝑗 (1 − 𝑝𝑗 ) → 𝝈𝟐𝑿𝒋 = 𝒏𝒑𝒋 (𝟏 − 𝒑𝒋 )
Introduciendo la variable auxiliar:
𝑍𝑖𝑗 = 𝑋𝑗 + 𝑋𝑖 → 𝑃(𝑍𝑖𝑗 ) = 𝑃(𝑋𝑗 + 𝑋𝑖 ) = 𝑃(𝑋𝑗 ) + 𝑃(𝑋𝑖 ) (son mutuamente excluyentes)
tenemos que:
2 2 2
(a) 𝐸 [(𝑍𝑖𝑗 − 𝜇𝑍𝑖𝑗 ) ] = 𝐸 [(𝑋𝑗 + 𝑋𝑖 − 𝑛𝑝𝑗 − 𝑛𝑝𝑖 ) ] = 𝐸 [(𝑋𝑗 − 𝑛𝑝𝑗 ) + (𝑋𝑖 − 𝑛𝑝𝑖 )2 + 2(𝑋𝑗 − 𝑛𝑝𝑗 )(𝑋𝑖 − 𝑛𝑝𝑖 )]
2
= 𝐸 [(𝑋𝑗 − 𝑛𝑝𝑗 ) ] + 𝐸[(𝑋𝑖 − 𝑛𝑝𝑖 )2 ] + 2𝐸[(𝑋𝑗 − 𝑛𝑝𝑗 )(𝑋𝑖 − 𝑛𝑝𝑖 )] = 𝜎𝑋2𝑗 + 𝜎𝑋2𝑖 + 2cov(𝑋𝑖 , 𝑋𝑗 )
2
(b) 𝐸 [(𝑍𝑖𝑗 − 𝜇𝑍𝑖𝑗 ) ] = 𝜎𝑍2𝑗𝑖 = 𝑛 𝑝𝑍𝑗𝑖 𝑞𝑍𝑗𝑖 = 𝑛 𝑝𝑍𝑗𝑖 (1 − 𝑝𝑍𝑗𝑖 ) = 𝑛 (𝑝𝑗 + 𝑝𝑖 )(1 − 𝑝𝑗 − 𝑝𝑖 )
= 𝑛(𝑝𝑗 − 𝑝𝑗2 − 𝑝𝑗 𝑝𝑖 + 𝑝𝑖 − 𝑝𝑖 𝑝𝑗 − 𝑝𝑖2 ) = 𝑛(𝑝𝑗 (1 − 𝑝𝑗 ) + 𝑝𝑖 (1 − 𝑝𝑖 ) − 2𝑝𝑗 𝑝𝑖 ) = 𝑛(𝑝𝑗 𝑞𝑗 + 𝑝𝑖 𝑞𝑖 − 2𝑝𝑖 𝑝𝑗 )
→ 𝜎𝑋2𝑗 + 𝜎𝑋2𝑖 + 2cov(𝑋𝑖 , 𝑋𝑗 ) = 𝑛𝑝𝑗 𝑞𝑗 + 𝑛𝑝𝑖 𝑞𝑖 + 2cov(𝑋𝑖 , 𝑋𝑗 ) = 𝑛(𝑝𝑗 𝑞𝑗 + 𝑝𝑖 𝑞𝑖 − 2𝑝𝑖 𝑝𝑗 ) → 𝐜𝐨𝐯(𝑿𝒊 , 𝑿𝒋 ) = −𝒏𝒑𝒊 𝒑𝒋
Por lo tanto, los elementos de la matriz de varianza covarianza serán:
𝑐𝑖𝑗 = 𝑛𝑝𝑖 (𝛿𝑖𝑗 − 𝑝𝑗 )
Los elementos fuera de la diagonal (las covarianzas) son no nulas, puesto que las variables 𝑋𝑗 no son independientes.
3.2.1. Ley de los números grandes
Generalmente las probabilidades 𝑝𝑗 no son conocidas pero pueden obtenerse de experimentos. Si se realizan 𝑛
experimentos, la probabilidad empírica del evento 𝐴𝑗 es
𝑋𝑗 1 𝑛
ℎ𝑗 = = ∑ 𝑋𝑖𝑗
𝑛 𝑛 𝑖=1
A diferencia de la probabilidad, ésta es una variable aleatoria pues depende del resultado de 𝑛 experimentos. Luego,
𝑋 1 1
𝐸[ℎ𝑗 ] = 𝐸 [ 𝑛𝑗] = 𝑛𝐸[𝑋𝑗 ] = 𝑛(𝑛𝑝𝑗 ) = 𝑝𝑗
2 𝑋 2 𝑋 2 𝑋 1 2
𝜎ℎ2𝑗 = 𝐸 [(ℎ𝑗 − 𝜇ℎ𝑗 ) ] = 𝐸 [( 𝑛𝑗 − 𝑝𝑗 ) ] = 𝐸 [( 𝑛𝑗) + 𝑝𝑗2 − 2 𝑛𝑗𝑝𝑗 ] = 𝑛2 𝐸[𝑋𝑗2 ] + 𝐸[𝑝𝑗2 ] − 𝑛𝐸[𝑋𝑗 ]𝑝𝑗
1 2 1
= 𝑛2 𝐸[𝑋𝑗2 ] + 𝑝𝑗2 − 𝑛𝑛𝑝𝑗2 = 𝑛2 𝐸[𝑋𝑗2 ] − 𝑝𝑗2
Usando que 𝜎𝑋2𝑗 = 𝐸[𝑋𝑗2 ] − 𝜇𝑋2 𝑗 → 𝐸[𝑋𝑗2 ] = 𝜎𝑋2𝑗 + 𝜇𝑋2 𝑗 , tenemos entonces que:
1 1 1 1 𝟏
𝜎ℎ2𝑗 = 𝑛2 (𝜎𝑋2𝑗 + 𝜇𝑋2 𝑗 ) − 𝑝𝑗2 = 𝑛2 (𝑛𝑝𝑗 𝑞𝑗 + 𝑛2 𝑝𝑗2 ) − 𝑝𝑗2 = 𝑛2 𝑛𝑝𝑗 (1 − 𝑝𝑗 ) + 𝑝𝑗2 − 𝑝𝑗2 = 𝑛𝑝𝑗 (1 − 𝑝𝑗 ) → 𝝈𝒉𝒋 ∝
√𝒏
Cuanto mayor sea el número 𝑛 de pruebas, menor será el error en ℎ𝑗 respecto a su media, y mejor será la
representación de ℎ𝑗 como parámetro de probabilidad. Así, la varianza de ℎ𝑗 alrededor de 𝑝𝑗 puede hacerse
arbitrariamente pequeña aumentando 𝑛. El error, que se origina del hecho de que sólo se puede hacer un número
finito de experimentos, se llama error estadístico.
8
3.3. Distribución Poissoniana
Si reescribimos la probabilidad binomial como: k
𝑛 𝑛
𝑛! 𝑛! 𝜆 𝑘 (1 − 𝑛𝜆 ) 𝜆𝑘 𝑛! (1 − 𝑛𝜆 )
𝑃(𝑋 = 𝑘) = 𝑝𝑘 (1 − 𝑝)𝑛−𝑘 = ( ) =
𝑘! (𝑛 − 𝑘)! 𝑘! (𝑛 − 𝑘)! 𝑛 (1 − 𝜆 )𝑘 𝑘! 𝑛𝑘 (𝑛 − 𝑘)! (1 − 𝜆 )𝑘
𝑛 𝑛
𝑛
𝜆𝑘 𝑛(𝑛 − 1) … (𝑛 − 𝑘 + 1) (1 − 𝑛𝜆 ) 𝜆𝑘 𝑘 1 2 𝑘−1
𝜆 𝑛 𝑛 (1 − 𝑛)(1 − 𝑛) … (1 − 𝑛 )
= = (1 − 𝑛)
𝑘! 𝑛𝑘 (1 − 𝑛𝜆 )
𝑘 𝑘! 𝑛𝑘 (1 − 𝑛𝜆 )
𝑘
𝜆 𝑛
En el límite 𝑛 → ∞ manteniendo 𝜆 ≡ 𝑛𝑝 = cte (es decir, 𝑝 ≪ 1), los factores a la derecha tienen a 1 y lim (1 − 𝑛) =
𝑛→∞
𝑒 −𝜆 . En ese caso, la distribución binomial tiende a la distribución Poissoniana, según la cual la probabilidad de obtener
𝑘 “éxitos” en una unidad de ensayo es:
𝜆𝑘 −𝜆
lim 𝑃(𝑋 = 𝑘) = 𝑒
𝑛→∞ 𝑘!
Vemos además que esta distribución satisface que la probabilidad total es igual a 1:
∞ 𝜆𝑘 ∞ 𝜆𝑘
∑ 𝑒 −𝜆 = 𝑒 −𝜆 ∑ = 𝑒 −𝜆 𝑒 𝜆 = 1 (4)
𝑘=0 𝑘! 𝑘=0 𝑘!
La media y la varianza están dadas por:
∞ 𝜆𝑘 −𝜆 ∞ 𝜆𝑘−1 −𝜆 𝑗=𝑘−1 ∞ 𝜆𝑗 −𝜆 (4)
𝜇𝐾 = 𝐸[𝐾] = ∑ 𝑘 𝑒 = 𝜆∑ 𝑒 = 𝜆∑ 𝑒 = 𝜆∙1=𝝀 (5)
𝑘=0 𝑘! 𝑘=1 (𝑘 − 1)! 𝑗=0 𝑗!
2]
∞ 𝜆𝑘 −𝜆
2
∞ 𝜆𝑘−1 −𝜆
∞ 𝜆𝑗 −𝜆 ∞ 𝜆𝑗 −𝜆 (5)
𝐸[𝐾 =∑ 𝑘 𝑒 = 𝜆∑ 𝑘 𝑒 = 𝜆 ∑ (𝑗 + 1) 𝑒 = 𝜆 (∑ 𝑗 𝑒 + 1) = 𝜆(𝜆 + 1)
𝑘=0 𝑘! 𝑘=1 (𝑘 − 1)! 𝑗=0 𝑗! 𝑗=0 𝑗!
9
∞ 𝑏 𝑏
1 1 𝑥2 1 𝑏 2 − 𝑎2 1 (𝑏 − 𝑎)(𝑏 + 𝑎) 𝒃 + 𝒂
𝜇𝑋 = 𝐸[𝑋] = ∫ 𝑥 𝑓(𝑥)𝑑𝑥 = ∫ 𝑥 𝑑𝑥 = [ ] = = =
−∞ 𝑎 𝑏−𝑎 2𝑏 − 𝑎 𝑎 2 𝑏 − 𝑎 2 𝑏−𝑎 𝟐
𝑏−𝑎
𝑏
𝑏+𝑎 2 1 1 2 1 1 (𝑏 − 𝑎)3 (𝑎 − 𝑏)3
𝜎𝑋2 = 𝐸[(𝑋 − 𝜇𝑋 )2 ] = ∫ (𝑥 − ) 𝑑𝑥 = ∫ 𝑢2 𝑑𝑢 = [ − ]
𝑎 2 𝑏−𝑎 𝑏 − 𝑎 𝑎−𝑏 𝑏 −𝑎3 8 8
2
1 1 2(𝑏 − 𝑎)3 𝟏
= = (𝒃 − 𝒂)𝟐
𝑏−𝑎3 8 𝟏𝟐
3.4.1. Método de Montecarlo
Si 𝑋 es una variable aleatoria con densidad de probabilidad uniforme 𝑓(𝑥) = 1 en (0,1) y tenemos 𝑌 = 𝑌(𝑋) con
densidad de probabilidad 𝑔(𝑦) conocida, la transformación de variables está dada por:
𝑔(𝑦)𝑑𝑦 = 𝑓(𝑥)𝑑𝑥 = 𝑑𝑥
Usamos la función de distribución 𝐺(𝑦), la cual se relaciona con 𝑔(𝑦) por 𝑑𝐺(𝑦)/𝑑𝑦 = 𝑔(𝑦), y escribimos:
𝑦
𝑑𝑥 = 𝑔(𝑦)𝑑𝑦 = 𝑑𝐺(𝑦) → 𝑥 = 𝐺(𝑦) = ∫ 𝑔(𝑡)𝑑𝑡
−∞
−1 (𝑥)
Así, obtenemos un conjunto de números aleatorios 𝑦 = 𝐺 descripto por la densidad de probabilidad 𝑔(𝑦) a
partir de números aleatorios 𝑥 uniformemente distribuidos entre 0 y 1.
Este método también puede usarse para distribuciones discretas, donde 𝑌 puede tmar valores 𝑦1 , … , 𝑦𝑛 con
probabilidades 𝑃(𝑦1 ), … , 𝑃(𝑦𝑛 ). En ese caso,
𝑖
𝑥𝑗 = 𝐺(𝑦𝑗 ) = ∑ 𝑃(𝑦𝑘 )
𝑘=1
10
Esta distribución queda entonces definida por la media 𝜇𝑋 y la varianza 𝜎𝑋2 , y podemos reescribir la densidad como:
1 (𝑥 − 𝜇𝑋 )2
𝑓(𝑥) = 𝜙(𝑥) = exp [− ] , −∞ < 𝑥 < ∞
√2𝜋𝜎𝑋 2𝜎𝑋2
Vemos que los puntos de inflexión están en 𝑥 = 𝑎 ± 𝑏, y la distancia entre los mismos define el ancho de la campana.
Podemos normalizar la variable aleatoria mediante un cambio de variable:
𝑋 − 𝜇𝑋 𝑑𝑥 𝑓(𝑥)
𝑋 ′ (𝑋) = → 𝜇𝑋 ′ = 0 , 𝜎𝑋2′ = 1 , 𝑔(𝑥 ′ ) = 𝑓(𝑥) | ′ |= ≡ 𝜙0 (𝑥 ′ )
𝜎𝑋 𝑑𝑥 𝜎𝑋
Como 𝑓(𝑥) es una función de densidad gaussiana, entonces 𝑔(𝑥 ′ ) = 𝑓(𝑥)/𝜎𝑋 también lo será. Luego, la forma de la
densidad de probabilidad no se altera. Por simetría, tenemos entonces que:
𝑃(|𝑋 ′ | > 𝑥 ′ ) = 𝑃(𝑋 ′ < −𝑥 ′ ) + 𝑃(𝑋 ′ > 𝑥 ′ ) = 2 𝑃(𝑋 ′ < −𝑥 ′ ) = 2𝐹(−𝑥 ′ ) = 2(1 − 𝐹(𝑥 ′ ))
1 𝑥
2 /2
𝑃(|𝑋 ′ | ≤ 𝑥 ′ ) = 1 − 𝑃(|𝑋 ′ | > 𝑥 ′ ) = 1 − 2(1 − 𝐹(𝑥 ′ )) = 2𝐹(𝑥 ′ ) − 1 , 𝐹(𝑥) = ∫ 𝑒−𝑡 𝑑𝑡
√2𝜋 −∞
La probabilidad de obtener un valor aleatorio dentro de un múltiplo entero de 𝑏 = 𝜎𝑋 alrededor de la media es:
𝑃(|𝑋 − 𝜇𝑋 | ≤ 𝑛𝜎𝑋 ) = 𝑃(|𝜎𝑋 𝑋 ′ | ≤ 𝑛𝜎𝑋 ) = 𝑃(|𝑋 ′ | ≤ 𝑛) = 2𝐹(𝑛) − 1
En particular, 𝑃(|𝑋 − 𝜇𝑋 | ≤ 3𝜎𝑋 ) = 0.998, de modo que la probabilidad de obtener un valor dentro de un intervalo
dado por ±3𝜎𝑋 alrededor de la media es del 99.8%. Luego, cuando se obtiene un valor |𝑋 − 𝜇𝑋 | > 3𝜎𝑋 es común
descartarlo como un outlayer por el Filtro Win (Criterio de 3 Sigma).
Por ejemplo, supongamos que una temperatura sigue una distribución normal con 𝜇𝑋 = 23 y 𝜎𝑋 = 5. Normalizando:
4⁄5
′
1 ′ 2 /2
𝑃(21 ≤ 𝑋 ≤ 27) = 𝑃(−5 ≤ 𝑋 ≤ 4⁄5) = ∫ 𝑒 −𝑥 𝑑𝑥 = 0.4 → 𝑛𝐴 = 𝑃(𝐴)𝑛 ≅ (0.4)(30 días) = 13 días
√2𝜋 −2⁄5
Luego, la suma de variables gaussianas sigue también una distribución gaussiana con 𝜇𝑍 = 𝜇𝑋 + 𝜇𝑌 y 𝜎𝑍2 = 𝜎𝑋2 + 𝜎𝑌2 .
3.6.2. Teorema Central del Límite
Teorema: Si 𝑋1 , … , 𝑋𝑛 es un conjunto de variables aleatorias independientes que están distribuidas, cualquiera
fuera su función de densidad de probabilidad, con media 𝑎 y varianza 𝑏 2 , entonces la variable
1 𝑛
𝑋 = lim ∑ 𝑋𝑖
𝑛→∞ 𝑛 𝑖=1
sigue una distribución gaussiana con media 𝐸[𝑋] = 𝑎 y varianza 𝜎𝑋2 = 𝑏 2 /𝑛.
Demostración: Asumimos que todas las 𝑋𝑖 tienen la misma distribución. Por (8), la función característica de 𝑋̅ es:
𝑛 𝑛 𝑡 𝑋𝑖 𝑡 𝑡
𝜑𝑋 (𝑡) = lim ∏ 𝜑𝑋𝑖 (𝑡) = lim ∏ 𝜑𝑋𝑖 ( ) , 𝜑𝑋𝑖 (𝑡) = 𝐸 [exp (𝑖𝑡 )] = 𝐸 [exp (𝑖 𝑋𝑖 )] = 𝜑𝑋𝑖 ( )
𝑛→∞ 𝑖=1 𝑛 𝑛→∞ 𝑖=1 𝑛 𝑛 𝑛 𝑛 𝑛
Sin pérdida de generalidad, hacemos la traslación de coordenadas 𝑋𝑖′ = 𝑋𝑖 − 𝑎. Entonces, desarrollando en serie:
𝑡 𝑡 𝑡 1 𝑡2 𝑡 1 𝑡2 1 2
𝜑𝑋 ′ (𝑛) = 𝐸 [exp (𝑖 𝑛𝑋𝑖′ )] = 𝜑𝑋 ′ (0) + 𝜑𝑋′ 𝑖 (0) 𝑛 + 2𝜑𝑋′′𝑖 (0)𝑛2 + ⋯ ≅ 𝐸[1] + 𝑖𝐸[𝑋𝑖′ ] ∙ 𝑛 + 2(−𝑏 2 )𝑛2 = 1 − 2𝑛𝑏2 𝑡 2
𝑖 𝑖
donde usamos que 𝜑𝑋′ (0) = 𝑖𝐸[𝑋] y 𝜑𝑋′′ (0) = −𝜎𝑋2. Entonces:
𝑛
𝑡𝑛 𝑏2 1 𝑏2 2 𝑥 𝑛
𝜑𝑋 ′ (𝑡) = lim ∏ 𝜑𝑋 ′ ( ) ≅ lim (1 − 2 𝑡 2 ) = exp [− 𝑡 ] , donde lim (1 − ) = 𝑒 −𝑥
𝑛→∞ 𝑖 𝑛 𝑛→∞ 2𝑛 2𝑛 𝑛→∞ 𝑛
𝑖=1
Sin embargo, ésta es la función característica de una distribución normal de varianza 𝜎𝑋2′ = 𝑏 2 /𝑛 y media 𝜇𝑋′ = 0 (en
el caso general, es 𝜑(𝑡) = exp(𝑖𝑡𝜇𝑋 ) exp(−1/2 𝜎𝑋2 𝑡 2 )). Tomando la antitransformada, la densidad de 𝑋 es:
1 (𝑥 ′ − 𝜇𝑋′ )2 1 (𝑥 ′ )2 𝑋𝑖′ =𝑋𝑖 −𝑎 1 (𝑥 − 𝑎)2
𝑓(𝑥 ′ ) = exp [− ]= exp [− ] → 𝑓(𝑥) = exp [− ]
√2𝜋𝜎𝑋 ′ 2𝜎𝑋2′ √2𝜋 𝑏𝑛 2 𝑏 2 ⁄𝑛 √2𝜋 𝑏𝑛 2 𝑏 2 ⁄𝑛
√ √
12
∞
𝐸[(𝑋⃗ − 𝐴⃗)] = ∫ (𝑥⃗ − 𝐴⃗)𝜙(𝑥⃗) 𝑑𝑥⃗ = 0 → ⃗𝑨⃗ = 𝑬[𝑿
⃗⃗⃗] = ⃗⃗⃗⃗⃗⃗
𝝁𝑿
−∞
Derivando esta integral con respecto a 𝐴⃗, teniendo en cuenta que para derivar matrices:
𝑇
𝜕𝑥
⃗⃗ 𝐵𝑥 ⃗⃗ 𝜕 ∞ ∞
𝑇 𝑇
= 2𝑋⃗ 𝑇 𝐵 → ∫ (𝑥⃗⃗ − 𝐴⃗)𝜙(𝑥
⃗⃗) 𝑑𝑥 ⃗⃗ − 𝐴⃗)(𝑥
⃗⃗ = ∫ [𝐼 − (𝑥 ⃗⃗ − 𝐴⃗) 𝐵] 𝜙(𝑥 ⃗⃗ = 𝐸 [𝐼 − (𝑋⃗ − 𝐴⃗)(𝑋⃗ − 𝐴⃗) 𝐵] = 0
⃗⃗)𝑑𝑥
𝜕⃗⃗
𝑥
⃗⃗ 𝜕𝐴⃗ −∞ −∞
𝑇 𝑇
→ 𝐼 = 𝐸 [(𝑋 − 𝐴)(𝑋 − 𝐴) 𝐵] = 𝐸 [(𝑋⃗ − 𝐴⃗)(𝑋⃗ − 𝐴⃗) ] 𝐵 = 𝐶𝑋⃗⃗ 𝐵 → 𝑩 = 𝑪−𝟏
⃗ ⃗ ⃗ ⃗ ⃗⃗⃗ 𝑿
4. Muestreo Aleatorio
La densidad de probabilidad es una definición teórica que da la probabilidad de que una variable aleatoria 𝑋 esté entre
𝑥 y 𝑥 + 𝑑𝑥, y depende de parámetros deterministas como 𝜇 (en el caso de la Poissoniana) y 𝜎 2 (en el caso de la
gaussiana). Estos parámetros son desconocidos a priori, y deben inferirse a partir de un conjunto finito de mediciones,
llamada muestra aleatoria. Muestrear consiste en tomar un subconjunto finito del conjunto infinito de resultados
13
posibles (llamado población) al realizar el experimento aleatorio un número finito de veces, y a partir de estas
mediciones inferir las características de la 𝑓(𝑥) que la describe.
Si realizamos un experimento aleatorio varias veces, cada prueba resulta en una medida que puede considerarse una
variable aleatoria 𝑋𝑖 . Tomando una variable aleatoria de cada prueba, obtendremos un conjunto 𝑋1 , … , 𝑋𝑛 de variables
aleatorias, las cuales constituyen una muestra y pueden pensarse como las componentes del vector 𝑋⃗ = (𝑋1 , … , 𝑋𝑛 ).
Éste vector también será una variable aleatoria y tendrá una densidad de probabilidad conjunta 𝑔(𝑋⃗) = 𝑔(𝑥1 , … , 𝑥𝑛 ).
Para que la muestra pueda considerarse aleatoria, se debe cumplir que:
(a) Las variables 𝑋𝑖 deben ser independientes, de modo que: 𝑔(𝑋⃗) = 𝑔1 (𝑥1 ) … 𝑔𝑛 (𝑥𝑛 ).
(b) Las densidades marginales 𝑔𝑖 (𝑥𝑖 ) deben ser idénticas e iguales a una densidad de la población, 𝑔1 (𝑥1 ) = ⋯ =
𝑔𝑛 (𝑥𝑛 ) = 𝑓(𝑥). Se dice entonces que el muestreo es homogéneo. Esto se cumple cuando el instrumento con el que
se realizan las mediciones es el mismo, de modo que el comportamiento aleatorio inherente de medir sea el mismo.
Una estimación de un parámetro 𝜆 de la distribución se obtiene planteando una función determinista 𝑆(𝑋⃗) de los
elementos de la muestra, llamada estimador, el cual también será una variable aleatoria. Para que una función sea un
buen estimador, necesitamos que:
(a) Sea un estimador sin tendencias, es decir que 𝐸[𝑆(𝑋⃗)] = 𝜆 para todo 𝑛.
(b) Sea consistente, es decir que su varianza se anule para una muestra lo suficientemente grande: lim 𝜎𝑆 = 0.
𝑛→∞
14
∞ ∞ ∞
𝑑𝑜𝑛𝑑𝑒 𝐸[𝑋𝑖 𝑋𝑗 ] = ∬ 𝑥𝑖 𝑥𝑗 𝑓𝑖𝑗 (𝑥𝑖 , 𝑥𝑗 )𝑑𝑥𝑖 𝑑𝑥𝑗 = ∬ 𝑥𝑖 𝑥𝑗 𝑔𝑖 (𝑥𝑖 )𝑔𝑗 (𝑥𝑗 )𝑑𝑥𝑖 𝑑𝑥𝑗 = ∬ 𝑥𝑖 𝑥𝑗 𝑓(𝑥𝑖 )𝑓(𝑥𝑗 )𝑑𝑥𝑖 𝑑𝑥𝑗
−∞ −∞ −∞
∞ ∞
= (∫ 𝑥𝑖 𝑓(𝑥𝑖 )𝑑𝑥𝑖 ) (∫ 𝑥𝑗 𝑓(𝑥𝑗 )𝑑𝑥𝑗 ) = 𝜇𝑋𝑖 𝜇𝑋𝑗 = 𝜇𝑋2
−∞ −∞
tenemos entonces que:
1 𝑛 1 𝑛 𝜎2 𝜎𝑋2
𝜎2 𝜎2 𝑋
𝐸[𝜎̃𝑋2 ] = ∑ (𝜎𝑋2 + 𝜇𝑋2 − 2 (𝜇𝑋2 + 𝑛𝑋) + 𝜇𝑋2 + 𝑛𝑋) = ∑ (𝑛 − 1) = 𝑛 = 𝜎𝑋2
𝑛 − 1 𝑖=1 𝑛 − 1 𝑖=1 𝑛 𝑛
Luego, 𝜎̃𝑋2 es un estimador sin tendencias de 𝜎𝑋2 .
Luego, la media poblacional es un promedio pesado por las probabilidades de cada subpoblación.
∞ ∞ 𝑡 𝑡 ∞
2
𝜎𝑋2 = ∫ (𝑥 − 𝜇𝑋 )2 𝑓(𝑥)𝑑𝑥 = ∫ (𝑥 − 𝜇𝑋 )2 (∑ 𝑓𝑖 (𝑥) 𝑝𝑖 ) 𝑑𝑥 = ∑ 𝑝𝑖 ∫ {(𝑥 − 𝜇𝑋 𝑖 ) + (𝜇𝑋 𝑖 − 𝜇𝑋 )} 𝑓𝑖 (𝑥) 𝑑𝑥
−∞ −∞ 𝑖=1 𝑖=1 −∞
𝑡 ∞ ∞ ∞
2 2
=∑ 𝑝𝑖 {∫ (𝑥 − 𝜇𝑋 𝑖 ) 𝑓𝑖 (𝑥) 𝑑𝑥 + (𝜇𝑋 𝑖 − 𝜇𝑋 ) ∫ 𝑓𝑖 (𝑥) 𝑑𝑥 + 2(𝜇𝑋 𝑖 − 𝜇𝑋 ) ∫ (𝑥 − 𝜇𝑋 𝑖 ) 𝑓𝑖 (𝑥) 𝑑𝑥}
𝑖=1 −∞ −∞ −∞
𝑡 2 𝒕 𝟐
=∑ 𝑝𝑖 {𝜎𝑋2𝑖 + (𝜇𝑋 𝑖 − 𝜇𝑋 ) + 2(𝜇𝑋 𝑖 − 𝜇𝑋 )(𝜇𝑋 𝑖 − 𝜇𝑋 𝑖 )} = ∑ 𝒑𝒊 {𝝈𝟐𝑿𝒊 + (𝝁𝑿 𝒊 − 𝝁𝑿 ) }
𝑖=1 𝒊=𝟏
Luego, la varianza es el promedio pesado de la suma de dos términos. El primero, 𝑝𝑖 𝜎𝑋2𝑖 , llamado acuerdo interno, está
dado por la varianza intrínseca de cada subpoblación y representa la precisión de cada instrumento. El segundo,
2
𝑝𝑖 (𝜇𝑋 𝑖 − 𝜇𝑋 ) , llamado acuerdo externo, da la desviación cuadrática de la media de cada subpoblación respecto a la
media de toda la población y representa la exactitud de cada instrumento.
Por analogía, buenos estimadores de la media y varianza poblacional están dados por:
15
𝑡 𝑡 2
𝜇̃𝑋 = ∑ 𝑝𝑖 𝜇̃𝑋𝑖 = 𝑃𝑇 𝜇̃⃗𝑋 , 𝜎̃𝑋2 = ∑ 𝑝𝑖 {𝜎̃𝑋2𝑖 + (𝜇̃𝑋𝑖 − 𝜇̃𝑋 ) }
𝑖=1 𝑖=1
𝑇
donde 𝑃 = (𝑝1 ⋯ 𝑝𝑛 )𝑇 y 𝜇̃⃗𝑋 = (𝜇̃𝑋1 ⋯ 𝜇̃𝑛 ) . Aplicando propagación de errores a 𝜇̃𝑋 = 𝑃𝑇 𝜇̃⃗𝑋 :
𝑡 𝑡 𝜎𝑋2𝑖
𝐶𝜇̃𝑋 = 𝜎𝜇̃2𝑋 = 𝑃𝑇 𝐶⃗𝜇̃⃗ 𝑃 = ∑ 𝑝𝑖2 𝜎𝜇̃2𝑖 = ∑ 𝑝𝑖2
𝑋
𝑖=1 𝑖=1 𝑛𝑖
Por analogía, un buen estimador de la varianza del promedio pesado es:
𝑡 𝑡 𝜎̃𝑋2𝑖
𝜎̃𝜇̃2𝑋 = ∑ 𝑝𝑖2 𝜎̃𝜇̃2𝑋 = ∑ 𝑝𝑖2
𝑖=1 𝑖 𝑖=1 𝑛𝑖
Luego, el error del promedio depende exclusivamente de las varianzas 𝜎̃𝑋2𝑖 estimadas en cada técnica, de modo que
no interviene el acuerdo externo.
4.4. Método de máxima verosimilitud
Supongamos que la densidad conjunta 𝑓 de las variables aleatorias 𝑋⃗ = (𝑋1 , … , 𝑋𝑛 ) depende de un conjunto de
(𝑗) (𝑗)
parámetros 𝜆⃗ = (𝜆1 , … , 𝜆𝑝 ), así que 𝑓 = 𝑓(𝑥⃗, 𝜆⃗), 𝑥⃗ = (𝑥1 , … , 𝑥𝑛 ). Si tomamos 𝑁 muestras 𝑋⃗ (𝑗) = (𝑋1 , … , 𝑋𝑛 ) , 𝑗 =
1, … , 𝑁, la probabilidad a posteriori de obtener el resultado 𝑋⃗ (𝑗) es
La función 𝐿(𝜆⃗) se llama función de verosimilitud. Al evaluar la densidad 𝑓 (una función determinista) en una muestra
𝑋⃗ (𝑗) , 𝐿(𝜆⃗) también será una variable aleatoria. El conjunto de parámetros 𝜆⃗ que es más probable que caractericen a
𝑓 serán entonces aquellos que maximice a 𝐿(𝜆⃗) (𝑑𝐿⁄𝑑𝜆⃗ = 0). Como 𝐿(𝜆⃗) es una productoria, tomamos su logaritmo:
𝑁
ln 𝐿(𝜆⃗) = ∑ ln 𝑓(𝑋⃗ (𝑗) , 𝜆⃗)
𝑗=1
Como el logaritmo es una función creciente, los máximos de 𝐿(𝜆⃗) coincidirán con los de ln 𝐿(𝜆⃗). Para 𝜆⃗ = 𝜆, tenemos:
𝑑 ln 𝐿(𝜆) 𝑁 𝑑 ⃗ (𝑗) , 𝜆)
𝑁 𝑓 ′ (𝑋
=∑ (ln 𝑓(𝑋⃗ (𝑗) , 𝜆)) = ∑ =0
𝑑𝜆 𝑗=1 𝑑𝜆 𝑗=1 𝑓(𝑋⃗ (𝑗) , 𝜆)
Tenemos entonces una ecuación con una incógnita, de la cual despejamos un estimador 𝜆̅ del parámetro 𝜆 (que puede
ser cualquier parámetro de 𝑓, no solamente 𝜇 o 𝜎 2 ). En el caso de 𝑝 parámetros, derivamos a ln 𝐿(𝜆) respecto de cada
uno de los parámetros y obtenemos un sistema de 𝑝 ecuaciones de la forma
𝑑 ln 𝐿(𝜆⃗)
=0 , 𝑖 = 1, … , 𝑝
𝑑𝜆𝑖
4.4.1. Mediciones repetidas con diferente precisión
Si realizamos mediciones 𝑋⃗ (𝑗) sobre un mismo objeto con diferentes instrumentos, éstas tendrán diferentes errores.
Supongamos que éstos están distribuidos normalmente, de modo que una medida corresponde a obtener una
muestra de una distribución gaussiana con media 𝜇𝑋 y varianza 𝜎𝑗 2 . Tenemos entonces que:
2 2
𝑁 𝑁 1 (𝑋 (𝑗) − 𝜇𝑋 ) 𝑁 (𝑋 (𝑗) − 𝜇 )
𝑋
𝐿(𝜆⃗) = ∏ 𝜙(𝑋 (𝑗)
, 𝜆⃗) = ∏ exp [− 2 ] → ln ⃗) = − ∑
𝐿(𝜆 2
+𝐶
𝑗=1 𝑗=1 √2𝜋𝜎𝑗 2𝜎𝑗 𝑗=1 2𝜎𝑗
5. Mínimos Cuadrados
5.1. Observaciones Directas
Supongamos que tenemos 𝑛 mediciones 𝑌𝑖 de una cantidad desconocida 𝑥, cada una con su respectiva varianza 𝜎𝑌2𝑖 y
afectada por un error 𝜀𝑖 (en principio desconocido). Asumimos que:
Tienen una distribución gaussiana, es decir que no hay errores sistemáticos de medición y 𝐸[𝜀𝑖 ] = 0.
Las mediciones son independientes entre sí, lo cual implica que las covarianzas de sus errores son cero.
17
𝜎21 ⋯ 0 𝜎21 ⁄𝜎20 ⋯ 0
𝑇
⃗⃗ = 𝔸𝑥 + 𝜀⃗ , 𝐸[𝜀𝑖 ] = 0 ,
𝑌 𝐸[𝜀𝑖2 ] = 𝜎𝑖2 , 𝐶𝜀⃗ = 𝐸[𝜀⃗ 𝜀⃗ ] = ( ⋮ ⋱ 2
⋮ ) = 𝜎0 ( ⋮ ⋱ ⋮ ) = 𝜎20 𝐶′𝜀
0 ⋯ 𝜎2𝑛 0 ⋯ 𝜎2𝑛 ⁄𝜎20
La matriz de covarianza 𝐶𝜀 es diagonal (porque las medidas son independientes), 𝜎02 es el error cuadrático de la unidad
−1
de peso, 𝐶𝜀′ es la matriz cofactor y 𝑃 = 𝐶𝜀⃗⃗′ es la matriz de pesos. La matriz de diseño 𝔸 en este caso es 𝔸 = (1, … ,1)𝑇 .
Al suponer que la cantidad 𝑥 que estamos midiendo es una constante a lo largo de todas las mediciones, asumimos
un modelo determinista para 𝑥. Al suponer que la variable 𝑌𝑖 es aleatoria, asumimos un modelo estadístico.
Tenemos entonces un sistema de 𝑛 ecuaciones con 𝑛 + 1 incógnitas: 𝑥, 𝜀1 , … , 𝜀𝑛 . Luego, para poder resolverlo
necesitamos una ecuación más. Por el Método de Máxima Verosimilitud, buscamos los 𝜀𝑖 que maximicen
𝑁 𝑛 (𝑌𝑖 − 𝑥)2 𝑛 (𝑌 − 𝑥)2
𝑖
𝑛 𝜀𝑖2
ln 𝐿(𝜆⃗) = ∑ ln 𝑓𝑖 (𝑌𝑖 ) = − ∑ + cte = max ↔ ∑ = ∑ = 𝜀⃗𝑇 𝑃𝜀⃗ = min
𝑖=1 𝑖=1 2𝜎𝑖2 2 2
𝑖=1 𝜎𝑖 ⁄𝜎0
2
𝑖=1 𝜎𝑖 ⁄𝜎0
2
Luego, debemos resolver el sistema 𝑌⃗⃗ = 𝔸𝑥 + 𝜀⃗ con la restricción 𝜀⃗𝑇 𝑃𝜀⃗ = min. Para resolver este sistema, usamos el
método de los multiplicadores de Lagrange. Tomamos la función
𝜕𝛬 𝜕𝛬 𝜕𝛬
𝛬 = 𝜀⃗𝑇 𝑃𝜀⃗ − 2𝐾⃗⃗ 𝑇 (𝑌
⃗⃗ − 𝔸𝑥 − 𝜀⃗) → 𝑑𝛬 = 𝑑𝜀⃗ + 𝑑𝑥 + ⃗⃗ = 0
𝑑𝐾
𝜕𝜀⃗ 𝜕𝑥 𝜕𝐾⃗⃗
⃗⃗ es un vector de multiplicadores de Lagrange. Tenemos entonces las ecuaciones:
donde 𝐾
𝜕𝛬
= −2(𝑌 ⃗⃗ − 𝔸𝑥 − 𝜀⃗) = 0 → ⃗⃗
𝜀⃗ = 𝔸𝑥 − 𝑌
𝜕𝐾⃗⃗
𝜕𝛬
= 2𝜀⃗𝑇 𝑃 + 2𝐾 ⃗⃗ 𝑇 = 0 → ⃗⃗ = 𝑃𝜀⃗ = 𝑃(𝔸𝑥 − 𝑌
𝐾 ⃗⃗)
⃗⃗
𝜕𝜀
𝜕𝛬 𝑇
⃗⃗ 𝑇 ⃗⃗ 𝑇 ⃗⃗ = 𝔸𝑇 𝑃(𝔸𝑥 − 𝑌
𝔸𝑇 𝐾 ⃗⃗) = 0 → (𝔸𝑇 𝑃𝔸)𝑥 = 𝔸𝑇 𝑃𝑌
⃗⃗
{ 𝜕𝑥 = 2𝐾 𝔸 = 0 → (𝐾 𝔸) =
Luego, un estimador de la variable 𝑥 estará dado por:
⃗⃗ = 𝐴+ 𝑌
𝑥̃ = (𝔸𝑇 𝑃𝔸)−1 𝔸𝑇 𝑃𝑌 ⃗⃗ , 𝐴+ = (𝔸𝑇 𝑃𝔸)−1 𝔸𝑇 𝑃
donde 𝐴+ es la matriz pseudoinversa. Así, 𝑥̃ depende tanto de la matriz de diseño 𝔸 y la de pesos 𝑃 como de las
observaciones 𝑌⃗⃗. Como las observaciones ⃗𝒀⃗ son variables aleatorias, el estimador 𝒙 ̃ también será una variable
⃗⃗, cambia el valor de 𝑥̃. Como tal, tendrá una matriz de varianza-
aleatoria, no determinista. Si cambia el valor de 𝑌
covarianza. Notemos que:
𝑇 𝑇
⃗⃗ − 𝜇⃗ ⃗⃗ )(𝑌
𝐶𝑌⃗⃗ = 𝐸 [(𝑌 ⃗⃗ − 𝜇⃗ ⃗⃗ ) ] = 𝐸 [(𝑌
⃗⃗ − 𝑥)(𝑌
⃗⃗ − 𝑥) ] = 𝐸[𝜀⃗ 𝜀⃗𝑇 ] = 𝐶𝜀⃗⃗
𝑌 𝑌
Si pensamos a cada medición como la media 𝑌𝑖 = 𝜇̃𝑖 de una muestra de tamaño 1, con su respectiva desviación 𝜎𝑌𝑖 =
𝜎𝜇̃2𝑖 , entonces es equivalente al caso de muestreo, donde 𝑥̃ = 𝜇̃𝑋 = ∑𝑡𝑖=1 𝑝𝑖 𝜇̃𝑖 y 𝜎𝜇̃2𝑋 = ∑𝑡𝑖=1 𝑝𝑖2 𝜎𝜇̃2𝑖 .
Sin embargo, a diferencia del error obtenido en muestreo, el error calculado en mínimos cuadrados no tiene en cuenta
el acuerdo externo. Es decir, tiene en cuenta la precisión de cada laboratorio pero no la desviación de las medias
obtenidas por cada uno. Luego, mínimos cuadrados da una cota mínima del error cometido al estimar los parámetros.
Definimos el estimador de los residuos como: 𝜀
𝜀̃⃗ = 𝑌
⃗⃗ − 𝔸𝑥̃
𝑡
Los residuos son variables aleatorias y deben tener una distribución gaussiana con media en 0.
Si al hacer un histograma su comportamiento se aleja del gaussiano y pasa a estar en defecto en
una región y en exceso en otra, tenemos un comportamiento sistemático. Esto puede deberse a
que es falsa la asunción que 𝑥 no varía en el experimento, en cuyo caso el modelo determinista es deficiente.
18
5.2. Observaciones Indirectas
5.2.1. Caso lineal
Consideremos el caso de 𝑟 parámetros desconocidos 𝑥1 , … , 𝑥𝑟 , los cuales se asumen que son independientes entre sí
y que obedecen una relación lineal, de la forma
𝜂𝑖 = 𝑎𝑖0 + 𝑎𝑖1 𝑥1 + ⋯ + 𝑎𝑖𝑟 𝑥𝑟
donde 𝑎𝑖𝑗 son las variables independientes de las mediciones (tiempo, étc.), las cuales se asumen libres de error.
Tenemos 𝑛 mediciones 𝑦𝑖 de las cantidades 𝜂𝑖 , afectadas por errores 𝜀𝑖 que siguen una distribución gaussiana:
𝑎11 ⋯ 𝑎1𝑟 𝑥1
2 2 ⃗⃗ ⋮ ⋱ ⋮
𝑦𝑖 = 𝜂𝑖 + 𝜀𝑖 , 𝐸[𝜀𝑖 ] = 0 , 𝐸[𝜀𝑖 ] = 𝜎𝑗 → 𝑌 = 𝜂⃗ + 𝜀⃗ = 𝑎⃗0 + 𝔸𝑥⃗ + 𝜀⃗ , 𝔸 = ( ) , 𝑥⃗ = ( ⋮ )
𝑎𝑛1 ⋯ 𝑎𝑛𝑟 𝑥𝑛
Tenemos entonces un sistema de 𝑛 ecuaciones con 𝑛 + 𝑟 incógnitas (𝑟 cantidades 𝑥𝑖 y 𝑛 errores 𝜀𝑖 ). Imponemos
entonces la condición de mínimos y resolviendo por medio de multiplicadores de Lagrange:
⃗⃗ ′ ⃗⃗
{𝑌𝑇 ≡ 𝑌 − 𝑎⃗0 = 𝔸𝑥⃗ + 𝜀⃗ → 𝑋̃⃗ = (𝔸𝑇 𝑃𝔸)−1 𝔸𝑇 𝑃𝑌
⃗⃗ ′ = 𝐴+ 𝑌
⃗⃗ ′
𝜀⃗ 𝑃𝜀⃗ = min
Por propagación de errores, la matriz de varianza-covarianza para los estimadores 𝑋̃⃗ de las cantidades 𝑋⃗ es:
𝐶𝑋⃗⃗̃ = 𝜎02 (𝔸𝑇 𝑃𝔸)−1
El tamaño de la matriz 𝔸 depende del número de observaciones y de incógnitas. Sin embargo, si sus filas son similares
o combinaciones lineales entre sí (por ejemplo, si las observaciones son poco extendidas en el tiempo), entonces se
dice que está mal condicionada. Una matriz mal condicionada amplifica los errores y la solución será inestable.
5.2.2. Caso no lineal
Supongamos que la relación entre los parámetros desconocidos independientes 𝑥⃗ con los valores verdaderos 𝜂⃗ de las
⃗⃗ está dada por la función no lineal
cantidades medidas 𝑌
⃗⃗ = 𝜂⃗ + 𝜀⃗
𝜂⃗ = 𝑔⃗(𝑥⃗) → 𝜂𝑖 = 𝑔𝑖 (𝑥⃗) , 𝑌
Podemos relacionar esta situación con el caso lineal si hacemos un desarrollo en serie de Taylor a 1 er orden de las
funciones 𝑔𝑖 (𝑥⃗) en torno a una aproximación inicial 𝑥⃗0 = (𝑥10 , … , 𝑥𝑟0 ) de los parámetros:
𝜕𝑔𝑖 𝜕𝑔𝑖
𝜂𝑖 = 𝑔𝑖 (𝑥⃗) ≅ 𝑔𝑖 (𝑥⃗0 ) + | (𝑥1 − 𝑥10 ) + ⋯ + | (𝑥𝑟 − 𝑥𝑟0 )
𝜕𝑥1 𝑥⃗ 𝜕𝑥𝑟 𝑥⃗
0 0
Definimos
1 𝜕𝑔 𝜕𝑔1
𝑥1 − 𝑥10 ⋯
𝜕𝑥1 𝜕𝑥𝑟 ⃗⃗ = 𝜂⃗ + 𝜀⃗ = 𝑔⃗(𝑥⃗0 ) + 𝔸𝜉⃗ + 𝜀⃗
𝑌
𝜉⃗ = 𝑥⃗ − 𝑥⃗0 = ( ⋮ ) , 𝔸=( ⋮ ⋱ ⋮ )| →
𝑥𝑟 − 𝑥𝑟0 𝜕𝑔𝑛 𝜕𝑔𝑛 ⃗⃗ − 𝑔⃗(𝑥⃗0 ) = 𝔸𝜉⃗ + 𝜀⃗
⃗⃗ ′ ≡ 𝑌
𝑌
𝜕𝑥1
⋯ 𝜕𝑥𝑟 𝑥⃗0
Esta ecuación se llama ecuación de observación. Imponemos entonces la condición de mínimos y resolviendo por
medio de multiplicadores de Lagrange obtenemos un vector de corrección de los parámetros:
̃
𝜉⃗ = (𝔸𝑇 𝑃𝔸)−1 𝔸𝑇 𝑃𝑌
⃗⃗ ′ , 𝐶 ̃ = 𝜎02 (𝔸𝑇 𝑃𝔸)−1
⃗⃗ 𝜉
̃
Calculamos entonces los valores corregidos 𝑥̃⃗ = 𝑥⃗0 + 𝜉⃗ de los parámetros, y usamos éstos como los nuevos valores
aproximados 𝑥⃗1 para volver a aplicar mínimos cuadrados, creando así un método iterativo hasta que se cumple una
cierta tolerancia en los errores.
A diferencia de los casos de observaciones directas, y del caso lineal de observaciones indirectas, el proceso de
mínimos cuadrados no lineal no tiene una solución única sino que depende de los valores de 𝑥⃗0 y la tolerancia usada.
Si los estimadores de los residuos, 𝜀̃⃗ = 𝑌
⃗⃗ − 𝔸𝑥̃⃗, tienen un comportamiento sistemático, la matriz 𝔸 debe estar mal
condicionada. Esto puede deberse a que bien el modelo 𝑔⃗, o la aproximación inicial 𝑥⃗0 , no es la adecuada.
Ejemplo: se realizan mediciones (𝜂, 𝑡) de un oscilador armónico, el cual obedece una relación 𝜂𝑖 = 𝐴 sin(𝜔𝑡𝑖 + 𝜙) =
𝑔𝑖 (𝑥⃗), con 𝑥⃗ = (𝐴 𝜔 𝜙)𝑇 .
19
6. Tests Estadísticos
Un test estadístico es una herramienta matemática que permite concluir si una muestra aleatoria NO está bien
representada por la estimación realizada al hacer hipótesis acerca de los parámetros de esta muestra. Siempre hay
una hipótesis de partida, y si espera que el test corrobore si es no válida. Existen dos tipos de test:
Paramétrico: analiza los parámetros que caracterizan la muestra: la varianza (Fisher) o la media (Student).
De ajuste: analiza frecuencias relativas y su relación con la función de distribución de probabilidad (𝜒 2 ).
En general, el procedimiento de un test estadístico es el siguiente:
1) Formular la hipótesis nula sobre la naturaleza de la población de la cual proviene la muestra. Cualquier desvío
entre los parámetros que asumimos de la muestra y el valor que brinda la misma es de comportamiento aleatorio, de
modo que se espera una nulidad del valor esperado del desvío.
2) Se debe hacer una medida en la que esta hipótesis no es válida, es decir, en la que la muestra no la valida. Esta
medida se conoce como fijar un nivel de significación 𝜶, relacionado con la región de improbabilidad, que es la región
de la función de distribución de probabilidad para la cual la probabilidad es “pequeña”.
3) Se define una función 𝑇, llamada estadístico, sobre la muestra 𝑋⃗ = (𝑋1 , … , 𝑋𝑛 ), la cual mida de alguna manera
la relación entre los parámetros planteados en la hipótesis de partida. El estadístico será también una variable
aleatoria y tendrá asociada una densidad de probabilidad 𝑓(𝑇).
Fijando un nivel de significación 𝛼, la región de improbabilidad será aquella en la cual
𝑇1−𝛼
𝑓(𝑇)
𝑃(𝑇 > 𝑇1−𝛼 ) = 𝛼 → 𝑃(𝑇 < 𝑇1−𝛼 ) = ∫ 𝑓(𝑇)𝑑𝑇 = 1 − 𝛼
−∞
Dada una muestra de la población se obtiene un valor particular 𝑇𝑜𝑏𝑠 del estadístico.
Si 𝑇𝑜𝑏𝑠 está en la región de improbabilidad, es decir si 𝑇𝑜𝑏𝑠 > 𝑇1−𝛼 , la hipótesis nula
es rechazada. Lo opuesto, sin embargo, no es cierto. Si 𝑇𝑜𝑏𝑠 < 𝑇1−𝛼 entonces no
podemos decir que la hipótesis es verdadera, sólo podemos decir que no es 𝑇
contradicha por el resultado de la muestra con este nivel de significación. 𝑇1−𝛼
quiere decir que cualquier desvío entre ellas se atribuye a su comportamiento aleatorio, y el valor esperado de los
desvíos debería ser cero, de modo que 𝐸[𝜎̃𝑋⃗⃗2 ] = 𝐸[𝜎̃𝑋⃗⃗2′ ] = 𝜎 2, donde la varianza poblacional 𝜎 2 es desconocida.
2) Se fija un nivel de significación, en general del 5% (𝛼 = 0.05).
3) Dados los estimadores de las varianzas de cada muestra, 𝜎̃𝑋⃗⃗2 y 𝜎̃𝑋⃗⃗2′ , se define el estadístico:
2 2
𝜎̃𝑋⃗⃗2 𝑛
(𝑋𝑖 − 𝜇̃𝑋⃗⃗ ) 𝑚(𝑋𝑖′ − 𝜇̃𝑋⃗⃗′ )
𝐹≡ , 𝜎̃𝑋⃗⃗2 =∑ , 𝜎̃𝑋⃗⃗2′ =∑
𝜎̃𝑋⃗⃗2′ 𝑖=1 𝑛−1 𝑖=1 𝑚−1
En la práctica se toma 𝜎̃𝑋⃗⃗2 > 𝜎̃𝑋⃗⃗2′ . Sabemos además que las cantidades
𝜎̃𝑋⃗⃗2 (𝑛 − 1) ′ 𝜎̃𝑋⃗⃗2′ (𝑚 − 1)
𝜒2 ≡ , 𝜒2 ≡
𝜎𝑋⃗⃗2 𝜎𝑋⃗⃗2′
tienen densidades de probabilidad de 𝜒 2 . Luego, usando la hipótesis de que la varianza poblacional 𝜎 2 es la misma
para ambas muestras, entonces 𝜎𝑋⃗⃗2 = 𝜎𝑋⃗⃗2′ y:
𝜎̃𝑋⃗⃗2 𝜒 2 (𝑛 − 1)
𝜒 2 𝑓1
𝐹= = 2′ = ′ , 𝑓1 = 𝑛 − 1 , 𝑓2 = 𝑚 − 1
𝜎̃𝑋⃗⃗2′ 𝜒 (𝑚 − 1) 𝜒 2 𝑓2
′
Como 𝑋⃗ y 𝑋⃗ ′ son muestras independientes, la densidad de probabilidad conjunta 𝑓(𝜒 2 , 𝜒 2 ) es igual al producto de
las densidades marginales, las cuales serán funciones de densidad de probabilidad 𝜒 2 :
′ ′ 1 1 1 2 1 1 1 2′
𝑓(𝜒 2 , 𝜒 2 ) = 𝑓𝜒2 (𝜒 2 )𝑓𝜒2 ′ (𝜒 2 ) = [ 1 (𝜒 2 )2𝑓1 −1 𝑒 −2𝜒 ] [ 1 (𝜒 2 )2𝑓2 −1 −2𝜒
𝑒 ]
22𝑓1 𝛤(12𝑓1 ) 𝑓2 1
2 𝛤(2𝑓2 )
2
20
Si 𝑄 es una variable determinista, entonces
𝜒2 ′ ′ 𝛤[12(𝑓1 +𝑓2 )] 𝑄 1
1
𝑃( 2′
< 𝑄) = ∬𝜒2 >0,𝜒2 ′ >0 𝑓𝜒2 (𝜒 2 )𝑓𝜒2 ′ (𝜒 2 )𝑑𝜒 2 𝑑𝜒 2 = ∫ 𝑡 2𝑓2 −1 (𝑡 + 1)−2[𝑓1 +𝑓2 ] 𝑑𝑡
𝜒 ′
𝛤(12𝑓1 )𝛤(12𝑓2 ) 0
𝜒2 ⁄𝜒2 <𝑄
Ésta se llama la distribución de Fisher. Fijamos un límite 𝐹1−𝛼 (𝑓1 , 𝑓2 ) tal que
𝐹1−𝛼
𝑃(𝐹 < 𝐹1−𝛼 ) = ∫ 𝑓(𝐹)𝑑𝐹 = 1 − 𝛼
0
Si 𝐹 > 𝐹1−𝛼 (𝑓1 , 𝑓2 ), rechazamos la hipótesis de igual varianza bajo la significancia dada y decimos que 𝜎1 > 𝜎2
Si 𝐹 < 𝐹1−𝛼 (𝑓1 , 𝑓2 ), sólo podemos decir que no podemos rechazar la hipótesis de igual varianza bajo la
significancia dada. Sin embargo, ello no significa que 𝐹 sea un mejor o peor valor, pues no es la variable aleatoria sobre
la cual se idea la hipótesis sino que es una variable intermedia para definir la región de improbabilidad.
Ejemplo: hacemos mediciones de un mismo objeto con dos instrumentos, obteniendo dos muestras 𝑋⃗ y 𝑋⃗ ′ que no
podemos asegurar a priori que sean homogéneas entre sí. Queremos ver si los instrumentos miden con igual precisión.
Dados los estimadores de las varianzas de cada muestra, 𝜎̃𝑋⃗⃗2 y 𝜎̃𝑋⃗⃗2′ , tomamos por hipótesis nula que 𝜎̃𝑋⃗⃗2 ≅ 𝜎̃𝑋⃗⃗2′ , fijamos
el nivel de significación 𝛼, calculamos el estadístico 𝐹 y lo comparamos con 𝐹1−𝛼 . Si no podemos rechazar la hipótesis
de igual varianza, podremos trabajar con todas las observaciones como si fueran de una única muestra homogénea,
es decir, como si fuesen tomadas por un mismo instrumento.
6.2. Test de Student
Tenemos una muestra 𝑋⃗ = (𝑋1 , … , 𝑋𝑛 ) que asumimos proviene de una población con una media teórica 𝜇𝑋 . Tomamos
por hipótesis que el estimador de la media 𝜇̃𝑋 = ∑𝑛𝑖=1 𝑋𝑖 /𝑛 es estadísticamente igual a 𝜇𝑋 , es decir, que 𝜇̃𝑋 ≅ 𝜇𝑋 .
Si 𝑛 es suficientemente grande, por el Teorema Central del Límite 𝜇̃𝑋 tendrá una distribución gaus
𝝈𝟐𝑿 ̃ 𝑋 −𝜇𝑋
𝜇
siana de media 𝐸[𝜇̃𝑋 ] = 𝜇𝑋 y varianza 𝜎𝜇̃2𝑋 = , así que la variable 𝑌 = tendrá una distribución gaussiana
𝒏 𝜎𝜇̃𝑋
1
normalizada. Sin embargo, no conocemos 𝜎𝜇̃2𝑋 sino su estimador 𝜎̃𝜇̃2𝑋 = 𝑛(𝑛−1) ∑𝑛𝑖=1(𝑋𝑖 − 𝜇̃𝑋 )2 . Luego, queremos saber
cuánto se aleja 𝑌 de una distribución gaussiana normalizada al reemplazar 𝜎𝜇̃2𝑋 por 𝜎̃𝜇̃2𝑋 . Para ello, definimos
𝜇̃𝑋 − 𝜇𝑋 𝜇̃𝑋 − 𝜇𝑋
𝑡= = √𝑛
𝜎̃𝜇̃𝑋 𝜎̃𝑋
2 (𝑛−1)
̃𝑋
𝜎
Como sigue una distribución 𝜒 2 , se encuentra que
𝜎2 𝛼/2 𝛼/2
𝛤 (12(𝑓 + 1)) 𝑡2
−1⁄2(𝑓+1)
𝑓(𝑡) = (1 + ) , 𝑓 =𝑛−1
𝛤(12𝑓)√𝜋√𝑓 𝑓
La gráfica de esta densidad es similar a la de una gaussiana, simétrica alrededor de 0 y cuyo máximo depende de 𝑓.
Vemos que 𝑡 puede ser positivo o negativo, de modo que se puede alejar de la media de su distribución tanto en
exceso como en defecto. Luego, debemos realizar un tests de dos colas. Para ello, tomamos un nivel de significancia
𝛼 tal que, usando que 𝑓(𝑡) es simétrica alrededor de 0, pedimos que:
𝑡1−𝛼⁄2 𝑡1−𝛼⁄2 𝑡1−𝛼⁄2
1
𝑃(𝑡𝛼⁄2 < 𝑡 < 𝑡1−𝛼⁄2 ) = ∫ 𝑓(𝑡)𝑑𝑡 = 2 ∫ 𝑓(𝑡)𝑑𝑡 = 1 − 𝛼 ↔ ∫ 𝑓(𝑡)𝑑𝑡 = (1 − 𝛼)
𝑡 𝛼 ⁄2 0 0 2
21
Si 𝑡 < 𝑡𝛼⁄2 o 𝑡 > 𝑡1−𝛼⁄2, rechazamos la hipótesis de que la media estimada 𝜇̃𝑋 es estadísticamente igual a 𝜇𝑋 .
Si 𝑡𝛼⁄2 < 𝑡 < 𝑡1−𝛼⁄2 , entonces no podemos rechazar la hipótesis bajo la significancia dada.
(𝑛 − 1)𝜎̃𝑋⃗⃗2 + (𝑚 − 1)𝜎̃𝑌⃗⃗2 𝜎̃ 2 𝜎̃ 2 (𝑛 + 𝑚) 2
2
𝜎̃ = → 𝜎̃𝜇̃2𝑋 = , 𝜎̃𝜇̃2𝑌 = → 𝜎̃∆2 = 𝜎̃𝜇̃2𝑋 + 𝜎̃𝜇̃2𝑌 = 𝜎̃
(𝑛 − 1) + (𝑚 − 1) 𝑛 𝑚 𝑛𝑚
Por el Teorema Central del Límite 𝜇̃𝑋⃗⃗ y 𝜇̃𝑌⃗⃗ , y por ende la diferencia ∆= 𝜇̃𝑋⃗⃗ − 𝜇̃𝑌⃗⃗ , tendrán una distribución gaussiana.
Puede entonces demostrarse que el estadístico
∆ 𝜇̃ ⃗⃗ − 𝜇̃𝑌⃗⃗
𝑡= = 𝑋
𝜎̃∆ 𝜎̃∆
sigue una distribución de Student con 𝑓 = 𝑛 + 𝑚 − 2 grados de libertad. Luego, tomando un valor de significancia α,
efectuamos un test de dos colas.
6.3. Test de 𝜒 2
Consideremos el caso de 𝑟 parámetros desconocidos 𝑥1 , … , 𝑥𝑟 , los cuales se relacionan por una función 𝜂⃗ = 𝑔⃗(𝑥⃗).
Tenemos 𝑛 mediciones 𝑦𝑖 de las cantidades 𝜂𝑖 , afectadas por errores 𝜀𝑖 = 𝑦𝑖 − 𝜂𝑖 . Como los errores 𝜀𝑖 siguen una
distribución gaussiana con 𝐸[𝜀𝑖 ] = 0 y 𝐸[𝜀𝑖2 ] = 𝜎𝑗2 , las variables aleatorias 𝑣𝑖 = (𝑦𝑖 − 𝜂𝑖 )⁄𝜎𝑖 = 𝜀𝑖 ⁄𝜎𝑖 deben seguir
una distribución gaussiana normalizada. Luego, la suma de cuadrados
𝑛 2 𝑛
𝜀
𝑀=∑ (𝜎𝑖 ) = ∑ 𝑣𝑖2
𝑖=1 𝑖 𝑖=1
2 2
debe seguir una distribución 𝑓(𝜒 , 𝑓) tipo 𝜒 con 𝑓 = 𝑛 − 𝑟 grados de libertad.
Por mínimos cuadrados, construimos estimadores 𝑋̃⃗ y 𝜀̃⃗ de los parámetros y de los errores, los cuales serán funciones
⃗⃗. Luego, tomamos por hipótesis que 𝜂⃗ ≅ 𝑔⃗ (𝑋̃⃗ ) y fijamos una significancia α tal que:
de las mediciones 𝑌
2
𝜒1−𝛼
2 2 )
𝑃(𝜒 < 𝜒1−𝛼 =∫ 𝑓(𝜒 2 , 𝑓)𝑑𝜒 2 = 1 − 𝛼
0
22
seguirá una densidad de probabilidad 𝜒 2 con 𝑓 = 𝑟 − 1 grados de libertad (ya que los 𝑢𝑖 no son todos independientes
pues ∑𝑟𝑖=1 𝑛𝑖 = 𝑛). El número de grados de libertad se reduce a 𝑓 = 𝑟 − 1 − 𝑝 si 𝑝 parámetros de 𝑓(𝑥) se estiman a
partir de las observaciones (en el caso de una densidad gaussiana, 𝑝 = 2 pues se estiman 𝜇𝑋 y 𝜎𝑋2 ).
2
Fijando una significación 𝛼, si 𝜒 2 > 𝜒1−𝛼 rechazamos la hipótesis de que 𝑋 sigue una distribución con densidad 𝑓(𝑥).
23