Está en la página 1de 42

Análisis de datos y Estadística Avanzada

Máster Interuniversitario de Astrofísica UCM+UAM

Tema 3: Cálculo de errores

Javier Gorgas y Nicolás Cardiel


Departamento de Astrofísica y Ciencias de la Atmósfera
Facultad de Ciencias Físicas
Universidad Complutense de Madrid

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada C


1 urso 2010/2011 1 / 78

Esquema

1 Introducción
Distinción entre errores e incertidumbres
Estandarizando la expresión de incertidumbres
Cálculo de incertidumbres
2 Incertidumbres aleatorias
Estadística de los (foto)electrones
Propagación de incertidumbres
Incertidumbres en la medida de índices
Incertidumbres en los parámetros físicos
¿Y cuando sólo tenemos los datos?
3 Efectos sistemáticos
Algunas fuentes
Tratamiento
Un ejemplo astronómico

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada C


2 urso 2010/2011 2 / 78
Introducción Distinción entre errores e incertidumbres

Esquema

1 Introducción
Distinción entre errores e incertidumbres
Estandarizando la expresión de incertidumbres
Cálculo de incertidumbres
2 Incertidumbres aleatorias
Estadística de los (foto)electrones
Propagación de incertidumbres
Incertidumbres en la medida de índices
Incertidumbres en los parámetros físicos
¿Y cuando sólo tenemos los datos?
3 Efectos sistemáticos
Algunas fuentes
Tratamiento
Un ejemplo astronómico

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada C


3 urso 2010/2011 3 / 78

Introducción Distinción entre errores e incertidumbres

Diferenciar entre errores e incertidumbres


Aunque en la literatura científica normalmente se habla genéricamente
de cálculo de errores, es muy útil distinguir entre errores e
incertidumbres.
Error: resultado de una medida menos el valor verdadero de la
magnitud (¡este último es normalmente desconocido!).
Error = Xmedida − Xreal
Incertidumbre: parámetro ∆X asociado con el resultado de una
medida, que caracteriza la dispersión de los valores que deberían
atribuirse de forma razonable a la magnitud a medir.

con una cierta
Xreal ∈ [Xmedida − ∆X, Xmedida + ∆X] ←
probabilidad

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada C


4 urso 2010/2011 4 / 78
Introducción Distinción entre errores e incertidumbres

Errores, incertidumbres,. . . ¡El caos!


Diferentes organizaciones han apoyado el desarrollo de una guía para
la expresión de incertidumbres en las medidas:
BIPM Bureau International des Poids et Measures
IEC International Electrotechnical Comission
IFCC International Federation of Clinical Chemistry
ISO International Organization of Standardization
IUPAC International Union of Pure and Applied Chemistry
IUPAP International Union of Pure and Applied Physics
OIML International Organization of Legal Metrology

⇒ GUM: Guide to the expression of Uncertainty in Measurement,


http://www.bipm.org/en/publications/guides/gum.html
(Bureau International des Poids et Measures)

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada C


5 urso 2010/2011 5 / 78

Introducción Distinción entre errores e incertidumbres

Guide to the expression of Uncertainty in Measurement(*)


Estructura de la GUM:
Conceptos básicos.
Recomendaciones.
Procedimientos de evaluación.

(*) El procedimiento de evaluación de incertidumbres presentado en la GUM, la ley de propa-


gación de incertidumbres, es válido para modelos lineales (o linealizables). Sin embargo, en
algunas ocasiones es necesario aplicar métodos más avanzados.

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada C


6 urso 2010/2011 6 / 78
Introducción Estandarizando la expresión de incertidumbres

Esquema

1 Introducción
Distinción entre errores e incertidumbres
Estandarizando la expresión de incertidumbres
Cálculo de incertidumbres
2 Incertidumbres aleatorias
Estadística de los (foto)electrones
Propagación de incertidumbres
Incertidumbres en la medida de índices
Incertidumbres en los parámetros físicos
¿Y cuando sólo tenemos los datos?
3 Efectos sistemáticos
Algunas fuentes
Tratamiento
Un ejemplo astronómico

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada C


7 urso 2010/2011 7 / 78

Introducción Estandarizando la expresión de incertidumbres

GUM: ¿Incertidumbres aleatorias y sistemáticas?


A la incertidumbre en el resultado de una medida contribuyen factores
que pueden clasificarse en dos categorías:
Categoría A: factores que pueden evaluarse utilizando métodos
estadísticos (típicamente a partir de medidas repetidas).
Categoría B: factores que deben ser evaluados por otros
métodos, como por ejemplo la información procedente de la
experiencia en la realización de medidas anteriores, de la
calibración y comportamiento de los instrumentos de medida,. . . y
del sentido común.

Estas categorías no sustituyen a los adjetivos “aleatorio” y “sistemático”.

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada C


8 urso 2010/2011 8 / 78
Introducción Estandarizando la expresión de incertidumbres

Evitar el uso de incertidumbre sistemática


La incertidumbre de una corrección realizada sobre una medida
para compensar de un efecto sistemático no es el error
sistemático en el resultado de la medida debido a dicho efecto. Se
trata más bien de una medida de la incertidumbre del resultado
debido a un conocimiento incompleto del valor de la corrección.
La incertidumbre asociada a la corrección de un efecto
sistemático debe cuantificarse. Esto podrá realizarse siguiendo
métodos estadísticos tradicionales (categoría A), o mediante
cualquier otro tipo de evaluación (categoría B).
Ejemplo de corrección sistemática, categoría B: desconocimiento absoluto de la distribución de los errores, salvo
la cuantificación del intervalo [a− , a+ ] que, de forma práctica, tiene un ∼ 100% de probabilidades de contener a la
corrección sistemática. En ese caso, la mejor estimación de la corrección será (a− + a+ )/2, y la desviación típica
asociada vendrá dada por √
s = a/ 3, con a = (a+ − a− )/2.
√ √
Si se supone una distribución triangular, se reduce en un factor 2, es decir s = a/ 6. Siguiendo con otro factor
√ √
2, podemos decir que s = a/ 12 para una normal en la que [a− , a+ ] contiene una área de 0.9995 � 1.0000.

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada C


9 urso 2010/2011 9 / 78

Introducción Estandarizando la expresión de incertidumbres

GUM: cuantifiación de incertidumbres


El conocimiento sobre cualquier magnitud que participa en el
proceso de medida es incompleto y debe expresarse como una
distribución de probabilidad o función de densidad, (PDF, del
inglés probability density function).
Como mejor estimación de cada una de las magnitudes
involucradas se utilizará el valor esperado a partir de la PDF:
8 X
>
> xi f (xi ) variable discreta (función de probabilidad)
>
< i
µ = E(X) = Z ∞
>
>
>
: x f (x) dx variable continua (función de densidad)
−∞

Como estimación√de las incertidumbres se utilizará la desviación


estándar (σ = + σ 2 ) deducida a partir de la PDF:
8 X 2
>
> xi f (xi ) − µ2 variable discreta
“ ” >
< i
σ 2 = E (X − µ)2 = E(X 2 ) − µ2 =
> Z ∞
>
>
: x2 f (x) dx − µ2 variable continua
−∞

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


10 2010/2011 10 / 78
Introducción Estandarizando la expresión de incertidumbres

GUM: expresión de incertidumbres


Determinar la incertidumbre estándar combinada uc , teniendo en
cuenta todas las fuentes de incertidumbre involucradas
(típicamente mediante una suma cuadrática).
Obtener una incertidumbre expandida U, a partir de la aplicación
de un factor de cubrimiento k, es decir U = k uc , de forma que
pueda afirmarse, con un elevado nivel de confianza,
Xreal ∈ [Xmedida − U, Xmedida + U]
Se recomienda k = 2 (que equivale a un nivel de confianza
(1 − α) � 95.5% para una distribución normal).
Justificar el uso de k �= 2.

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


11 2010/2011 11 / 78

Introducción Estandarizando la expresión de incertidumbres

GUM: ¿Qué es la probabilidad?


(...) en contraste con la visión (clásica) basada en las frecuencias,
la probabilidad debe entenderse como una medida del grado de
credibilidad de que algo va a ocurrir.

Es una definición más acorde con la visión bayesiana de


probabilidad.

Nota: auque en la definición anterior se dice textualmente “. . . de que algo va a ocurrir.”, no


significa que sólo se refiera a eventos futuros. En realidad la frase se refiere más a que algo se
probará que es, será o fue cierto.

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


12 2010/2011 12 / 78
Introducción Cálculo de incertidumbres

Esquema

1 Introducción
Distinción entre errores e incertidumbres
Estandarizando la expresión de incertidumbres
Cálculo de incertidumbres
2 Incertidumbres aleatorias
Estadística de los (foto)electrones
Propagación de incertidumbres
Incertidumbres en la medida de índices
Incertidumbres en los parámetros físicos
¿Y cuando sólo tenemos los datos?
3 Efectos sistemáticos
Algunas fuentes
Tratamiento
Un ejemplo astronómico

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


13 2010/2011 13 / 78

Introducción Cálculo de incertidumbres

CÁLCULO DE INCERTIDUMBRES
Supongamos que una magnitud A depende de una serie de parámetros (X, Y, . . .)
A = f (X, Y, . . .)
Podemos estudiar la variación en A debida a variaciones en los parámetros haciendo un desar-
rollo en serie de Taylor
»„ « „ « –2
2 ∂f ∂f
(δA) � δX + δY + . . . =
∂X ∂Y
„ « „ « „ «„ «
∂f 2 2 ∂f 2 2 ∂f ∂f
= (δX) + (δY) + . . . + 2 (δX)(δY) + . . .
∂X ∂Y ∂X ∂Y
• Se suele asumir que los parámetros (X, Y, . . .) no están correlacionados ⇒ (δX)(δY) = 0, . . .
• Al suponer (δX, δY, . . .) pequeños ⇒ despreciamos derivadas de orden superior.
• Como los valores reales de (X, Y, . . .) son desconocidos, se asume
A = f (X, Y, . . .)
Sustituyendo las variaciones en los parámetros (δX, δY, . . .) por la incertidumbres (∆X, ∆Y, . . .),
se estima la incertidumbre en la magnitud A como
„ «2 „ «2
∂f (X, Y, . . .) ∂f (X, Y, . . .)
(∆A)2 = (∆X)2 + (∆Y)2 + . . .
∂X ∂Y

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


14 2010/2011 14 / 78
Introducción Cálculo de incertidumbres

¿Cómo se suele determinar (X ± ∆X), (Y ± ∆Y),. . . ?


• Si X se deduce de una serie de medidas (X1 , X2 , . . . , Xn ), típicamente se utiliza
n
1X
X= Xi ,
n i=1
sP
n
s − X)2
i=1 (Xi
∆X = tα/2,n−1 √ , donde s=
n n−1

Por ejemplo, para un nivel de confianza del 95% (nivel de significación α = 0.05):
t0.025,1 t0.025,2 t0.025,3 t0.025,4 t0.025,5 t0.025,10 t0.025,∞ = z0.025
12.8 4.30 3.18 2.78 2.57 2.23 1.96

• Si las medidas tienen errores distintos y conocidos,


Pn
wi Xi
X = Pi=1 n , donde wi = 1/(∆Xi )2
i=1 wi
!1/2
1
∆X = tα/2,n−1 Pn
i=1 w2i

Precaución: pensar antes de eliminar puntos.


So unexpected was the hole that for several years computers analysing ozone data had systematically thrown out the readings
that should have pointed to its growth.
New Scientist, 31 March 1988

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


15 2010/2011 15 / 78

Introducción Cálculo de incertidumbres

¿Forma correcta de expresar un resultado?


[medida] ± [incertidumbre] unidades
Ejemplo: La medida la distancia entre la Tierra y la Luna en el
momento de un eclipse total de Sol es
D = 384971843 ± 124391 m
Indicar cuál es el redondeo correcto:
(a) D = (3.850 ± 0.001) × 108 m
(b) D = (3.8497 ± 0.0012) × 108 m
(c) D = (3.84972 ± 0.00124) × 108 m

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


16 2010/2011 16 / 78
Introducción Cálculo de incertidumbres

¿Forma correcta de expresar un resultado?


[medida] ± [incertidumbre] unidades
Ejemplo: La medida la distancia entre la Tierra y la Luna en el
momento de un eclipse total de Sol es
D = 384971843 ± 124391 m
Indicar cuál es el redondeo correcto:
(a) D = (3.850 ± 0.001) × 108 m
(b) D = (3.8497 ± 0.0012) × 108 m
(c) D = (3.84972 ± 0.00124) × 108 m
(d) nos falta información (¿incertidumbre en la incertidumbre?)

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


17 2010/2011 17 / 78

Introducción Cálculo de incertidumbres

¿Cómo se estima la incertidumbre en la incertidumbre?


Al estudiar la varianza de una población normal (¡sí, asumimos normalidad!), se ve que la hipóte-
sis nula H0 : σ 2 = σ02 no se puede rechazar si
(n − 1)s2
∈ [χ21−α/2,n−1 , χ2α/2,n−1 ],
σ02
donde χ2α/2,n−1 es la abcisa de la distribución χ2 con n − 1 grados de libertad que deja a su
derecha un área de probabilidad igual a α/2 (y lo equivalente para χ1−α/2,n−1 ). Empleando esta
relación, podemos expresar el cociente s/σ0 como
2s s 3
χ 2 χ 2
s 1−α/2,n−1 α/2,n−1
∈4 , 5. (1)
σ0 n−1 n−1

Suponiendo que los valores de s/σ0 para diferentes muestras de tamaño n fijo siguen aproximada-
mente una distribución normal, podemos estimar la desviación típica de este cociente utilizando
s s
χ21−α/2,n−1 χ2α/2,n−1
inferior n−1 superior n−1
σs/σ = y σs/σ = , (2)
0 zα/2 0 zα/2
donde distingimos entre el valor inferior y superior por la asimetría presente para valores de n
pequeños. Para valores de n grandes se puede demostrar que los límites no dependen de α,
σs/σ0 � (2n − 2)−1/2 . (3)

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


18 2010/2011 18 / 78
Introducción Cálculo de incertidumbres

Estudio de la variación del cociente s/σ0 con el tamaño de la muestra n. Las líneas continuas son los valores estimados a
partir de la Eq (1) para un nivel de confianza de 95% (α = 0.05; es interesante recordar que z0.025 = 1.96). Las líneas de
trazos y de puntos son la estimación de la desviación típica en cada caso, estimada como 1 ± σs/σ usando las Eqs. (2) y (3),
0
respectivamente. Los símbolos corresponden a 10000 simulaciones de Monte Carlo, para muestras de tamaño n extraídas al
azar de una población normal N(4, 1). Los círculos rojos son los valores promedio de s/σ0 en las simulaciones. Los triángulos
rellenos indican la estimación numérica de ±σs/σ alrededor de los círculos rojos, mientras que los triángulos abiertos indican
0
la región 1 ± σs/σ .
0

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


19 2010/2011 19 / 78

Introducción Cálculo de incertidumbres

n 2 3 4 5 6 7 8 9 10 20
σs/σ 0.707 0.500 0.408 0.354 0.316 0.289 0.267 0.250 0.236 0.162
0

n 30 40 50 60 70 80 90 100 1000 10000


σs/σ 0.131 0.113 0.101 0.092 0.085 0.080 0.075 0.071 0.022 0.007
0

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


20 2010/2011 20 / 78
Incertidumbres aleatorias Estadística de los (foto)electrones

Esquema

1 Introducción
Distinción entre errores e incertidumbres
Estandarizando la expresión de incertidumbres
Cálculo de incertidumbres
2 Incertidumbres aleatorias
Estadística de los (foto)electrones
Propagación de incertidumbres
Incertidumbres en la medida de índices
Incertidumbres en los parámetros físicos
¿Y cuando sólo tenemos los datos?
3 Efectos sistemáticos
Algunas fuentes
Tratamiento
Un ejemplo astronómico

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


21 2010/2011 21 / 78

Incertidumbres aleatorias Estadística de los (foto)electrones

La estadística de los (foto)electrones


Los fotones llegan al telescopio (detector) siguiendo una estadística de Poisson. El número
promedio de electrones generados en un pixel por unidad de tiempo viene determinado por el
número de fotones incidentes, Nγ , y la eficacia cuántica, q, mediante
Ne = q Nγ .
Se podría pensar, erróneamente, que la incertidumbre en el número de electrones (σe ) puede
calcularse directamente, derivando la relación anterior, es decir
s
p Ne p
σe = q σγ = q Nγ = q = qNe .
q
Sin embargo, esta deducción no es correcta. En realidad

σe = Ne .
Esto se entiende porque, dado un número de fotones que inciden en el detector, cada uno tiene
una cierta probabilidad de convertirse o no en electrón (probabilidad que viene dada por q). En
otras palabras, no podemos decir que, de manera exacta, el número de electrones es q Nγ , sino
que esta relación sólo se verifica para los valores medios, es decir
µe = q µγ .
En realidad hay que partir del número de fotones recibidos y convertirlos en electrones de una
manera más real (que no es multiplicando por la eficacia cuántica). La verdadera simulación
es tomar cada uno de los fotones y, con una probabilidad q, transformarlos o no en electrones
(siguiendo un proceso probabilístico). Esto añade más dispersión al resultado.

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


22 2010/2011 22 / 78
Incertidumbres aleatorias Estadística de los (foto)electrones

Incertidumbre (σe ) en el número de electrones generados en un pixel por efecto del ruido fotónico,
en función del número de exposiciones N realizadas. Se ha supuesto µγ = 100, con una efica-
cia cuántica q = 0.3. Para el conjunto de N exposiciones se obtiene el número promedio de
electrones/pixel y su desviación típica. Si el número de electrones fuera exactamente
√ igual a la
eficacia cuántica por el número de fotones/pixel recibidos, obtendríamos σe = q Ne = 3 e−
(línea de puntos), lo cual es erróneo. En la simulaciones se ha transformado cada uno de los
fotones en electrones siguiendo un proceso probabilístico dependiente de q. Así, para N = 250
exposiciones, el número promedio de electrones en la simulación (caso particular) es 30.26 (valor
esperado
√ 30.00), mientras que el error medido es σe = 5.68 (el valor poissoniano esperado es
0.3 × 100 � 5.48 —línea de trazos—).
Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso
23 2010/2011 23 / 78

Incertidumbres aleatorias Estadística de los (foto)electrones

Sea p̃(xe ; µγ , q) la probabilidad de que se generen xe electrones en un pixel, cuando el número


promedio de fotones incidentes por pixel es µγ , y la eficacia cuántica es q

X
p̃(xe ; µγ , q) = p(xγ ; µγ ) b(xe ; xγ , q),
xγ =xe

donde p(xγ ; µγ ) es la probabilidad de recibir xγ fotones cuando la incidencia media es de µγ


fotones (que viene dada por una distribución de Poisson), y b(xe ; xγ , q) es la probabilidad de
obtener xe electrones cuando el número de fotones es xγ y la probabilidad de que cada fotón se
convierta en un electrón es q (que sigue una distribución binomial). El sumatorio se extiende en
todos los casos en los que xγ ≥ xe , imprescindible para obtener, al menos, xe electrones.
El número promedio de electrones se calcula entonces como
8 " x #9
X∞ X∞ < X∞ γ =
µγ −µγ xγ !
µe = xe p̃(xe ; µγ , q) = xe e qxe (1 − q)xγ − xe =
x =0 x =1
:
x =x
xγ ! xe ! (xγ − xe )! ;
e e γ e
8 " #9
X∞ <
(q µγ ) xe − 1 X∞
[µγ (1 − q)] xγ − xe =
= µγ q e−µγ .
: (xe − 1)! (xγ − xe )! ;
x =1e x =x γ e

P w x
P∞ v
Haciendo w ≡ xγ − xe , v ≡ xe − 1, y sabiendo que ∞w=0 x /w! = e , y que v=0 λ /v! e
−λ = 1,
( ∞ » –) ∞  ff
(q µγ )v −µγ X [µγ (1 − q)]w (q µγ )v −qµγ
X∞ X
µe = µγ q e = µγ q e = µγ q.
v=0
v! w=0
w! v=0
v!

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


24 2010/2011 24 / 78
Incertidumbres aleatorias Estadística de los (foto)electrones

De forma análoga se deriva el valor de la varianza


∞ n
X o
σe2 = xe2 p̃(xe ; µγ , q) − µ2e . (4)
xe =0

Desarrollando el sumatorio de la última expresión se obtiene


8 " #9

X X∞ <
xe (µγ q) xe − 1 X∞
[µγ (1 − q)] xγ − xe =
xe2 p̃(xe ; µγ , q) = µγ q e−µγ ,
x =0 x =1
: (xe − 1)! x =x
(xγ − xe )! ;
e e γ e

donde el sumatorio de la derecha vuelve a ser el desarrollo en serie de la función exponencial.


Sumando y restado 1 a xe en el numerador de la primera fracción,
(xe − 1 + 1) (µγ q)xe − 1 −µγ q

X X∞
xe2 p̃(xe ; µγ , q) = µγ q e =
xe =0 x =1
(xe − 1)!
e
0 ( ) ( )1
(µγ q)xe − 2 −µγ q (µγ q)xe − 1 −µγ q A

X ∞
X
= µγ q @µγ q e + e =
xe =2
(xe − 2)! xe =1
(xe − 1)!

= µγ q (µγ q + 1),

por lo que, recordando que µe = µγ q, finalmente se obtiene


σe2 = µγ q (µγ q + 1) − µ2e = µγ q = µe .

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


25 2010/2011 25 / 78

Incertidumbres aleatorias Propagación de incertidumbres

Esquema

1 Introducción
Distinción entre errores e incertidumbres
Estandarizando la expresión de incertidumbres
Cálculo de incertidumbres
2 Incertidumbres aleatorias
Estadística de los (foto)electrones
Propagación de incertidumbres
Incertidumbres en la medida de índices
Incertidumbres en los parámetros físicos
¿Y cuando sólo tenemos los datos?
3 Efectos sistemáticos
Algunas fuentes
Tratamiento
Un ejemplo astronómico

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


26 2010/2011 26 / 78
Incertidumbres aleatorias Propagación de incertidumbres

¿Cómo propagar incertidumbres en la reducción?


Podemos utilizar distintos métodos:
a) Comparación de medidas repetidas independientes.
b) Utilización de primeros principios y fuerza bruta.
c) Utilización de primeros principios y elegancia: tratamiento
paralelo de datos e incertidumbres.

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


27 2010/2011 27 / 78

Incertidumbres aleatorias Propagación de incertidumbres

a) Comparación de medidas repetidas independientes


1 Se realizan varias medidas independientes.
2 Se reducen siguiendo el mismo procesado.
3 Se estudian las diferencias entre las medidas reducidas.

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


28 2010/2011 28 / 78
Incertidumbres aleatorias Propagación de incertidumbres

b) Primeros principios y fuerza bruta


1 Se parte de una única observación, pero usando
primeros principios deducimos sus incertidumbres
asociadas.
2 Se generan datos sintéticos mediante Monte Carlo.
3 Se continúa siguiendo los pasos del método a).

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


29 2010/2011 29 / 78

Incertidumbres aleatorias Propagación de incertidumbres

¿Cómo generar incertidumbres a partir de primeros principios?


Consideremos una imagen bidimensional A[i, j], donde i, j indica número de pixel en cada
eje.
En cada pixel se mide un número de cuentas (ADU, del inglés Analogic to Digital Unit), que
se relaciona con el número de (foto)electrones Ne [i, j] generados en cada pixel mediante
Ne [i, j]
A[i, j] = ,
g
donde g es la ganancia del detector (en e− /ADU).
Supongamos que hemos determinado con precisión la ganancia g del detector (en
e− /ADU) y el ruido de lectura en cada pixel sRN (en ADU). Normalmente se podrá
considerar que g y sRN son constantes en el detector, aunque en el caso ideal podríamos
conocer sus valores en cada pixel.
Como los electrones siguen una estadística de Poisson (ya lo vimos antes), la
incertidumbre (desviación típica) en cada pixel (en número de cuentas) será
s
1 1p 1p 1
∆A[i, j]fotones = ∆Ne [i, j] = Ne [i, j] = g A[i, j] = A[i, j].
g g g g
Si ahora consideramos también la contribución del ruido de lectura, en cada pixel
tendremos la siguiente varianza
1
(∆A[i, j])2 = A[i, j] + s2RN .
g

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


30 2010/2011 30 / 78
Incertidumbres aleatorias Propagación de incertidumbres

b) Primeros principios y fuerza bruta


1 Se parte de una única observación, pero usando
primeros principios deducimos sus incertidumbres
asociadas.
2 Se generan datos sintéticos mediante Monte Carlo.
3 Se continúa siguiendo los pasos del método a).

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


31 2010/2011 31 / 78

Incertidumbres aleatorias Propagación de incertidumbres

¿Cómo se generan datos sintéticos mediante Monte Carlo?

Partimos de una imagen de datos A[i, j] y otra de incertidumbres ∆A[i, j] (desviaciones


típicas).
Generamos nuevas imágenes sintéticas à mediante
Ã[i, j] = A[i, j] + R[i, j],
donde R[i, j] es ruido generado de forma aleatoria siguiendo una determinada distribución
de probabilidad, que será función de ∆A[i, j].
Por ejemplo, si asumimos que las incertidumbres en un pixel siguen una distribución
normal y ∆A[i, j] es la desviación típica, podemos generar el ruido utilizando la expresión
√ p
R[i, j] = 2 × ∆A[i, j] −ln(1 − ξ1 ) cos(2 π ξ2 ),
donde ξ1 y ξ2 son dos números aleatorios en el intervalo ξ1 , ξ2 ∈ [0, 1). Vamos a ver en un
momento cómo se deriva esta expresión.
Si las incertidumbres no son gaussianas, habrá que generar R[i, j] siguiendo la
distribución correspondiente.

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


32 2010/2011 32 / 78
Incertidumbres aleatorias Propagación de incertidumbres

¿Cómo se simulan datos con una determinada distribución de probabilidad?


Problema a resolver: Dada una distribución de probabilidad (o función de densidad)
unidimensional f (x), donde el recorrido de la variable independiente es x ∈ (−∞, ∞),
queremos obtener una función X (z), donde z es un número aleatorio en el intervalo
ξ ∈ (0, 1), que para una secuencia de números aleatorios ξ1 , ξ2 , ..., ξNsimul nos proporcione
otra secuencia de valores X (ξ1 ), X (ξ2 ), ..., X (ξNsimul ) que reproduzca la distribución inicial
f (x).
Podemos definir Z xmax
ξ≡ f (x) dx.
−∞

Por las propiedades de la función de densidad, si xmax ∈ (−∞, ∞) entonces ξ ∈ (0, 1).
Con esta definición ξ es la función de distribución.
Si f (x) puede integrarse analíticamente, podemos resolver la integral anterior y despejar
xmax en función de ξ. Para un valor concreto de ξ tendremos entonces el valor de xmax
hasta el cual deberíamos haber extendido la integral de la distribución de probabilidad
para obtener precisamente dicho valor de ξ. Esto significa que si generamos diversos
valores de ξ de forma aleatoria, los distintos valores de xmax (ξ) reproducirán la función de
densidad f (x). En otras palabras, xmax (ξ) es la función X (ξ) que buscábamos.
En el caso de distribuciones de probabilidad discretas (binomial, Poisson,. . . ) el método es
el mismo. Se generan números aleatorios ξ y se determina el valor de la variable aleatoria
cuya función de distribución (o función de probabilidad acumulada) es precisamente ξ.
Veamos un ejemplo. . .

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


33 2010/2011 33 / 78

Incertidumbres aleatorias Propagación de incertidumbres

Aplicación de la técnica anterior para generar ruido gaussiano


Desgraciadamente la función gaussiana unidimensional, f (x) ∝ exp[−x2 /(2σ 2 )], no puede inte-
grarse analíticamente. Para evitar este problema, vamos a trabajar con una función gaussiana en
dos dimensiones, es decir
Z Z „ 2 « Z „ «
1 x + y2 1 r2
exp − dx dy = 2 r exp − 2 dr.
2πσ 2 2σ 2 σ 2σ
donde hemos considerado σx = σy = σ, y hemos sustituido r2 = x2 + y2 . Aplicando el método
explicado anteriormente
Z rmax „ « „ 2 «
1 r2 −rmax
ξ≡ 2 r exp − 2 dr = 1 − exp .
σ 0 2σ 2σ 2
Por tanto, despejando rmax , √ p
rmax = 2σ − ln(1 − ξ).

Finalmente, podemos reproducir una secuencia de números siguiendo una distribución de proba-
bilidad gaussiana si proyectamos en una dimensión (sobre el eje x por ejemplo) y aleatoriamente
los valores obtenidos para rmax (z).
La función que utilizaremos para generar ruido gaussiano tiene entonces la forma
√ p
R(σ) = 2 σ − ln(1 − ξ1 ) cos(2πξ2 ),
donde ξ1 y ξ2 son dos números aleatorios ξ1 , ξ2 ∈ [0, 1).

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


34 2010/2011 34 / 78
Incertidumbres aleatorias Propagación de incertidumbres

b) Primeros principios y fuerza bruta


1 Se parte de una única observación, pero usando
primeros principios deducimos sus incertidumbres
asociadas.
2 Se generan datos sintéticos mediante Monte Carlo.
3 Se continúa siguiendo los pasos del método a).

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


35 2010/2011 35 / 78

Incertidumbres aleatorias Propagación de incertidumbres

c) Tratamiento paralelo de datos e incertidumbres


1 Se parte de una única observación, pero usando primeros principios deducimos sus
incertidumbres asociadas.
2 Se procesan en paralelo los datos e incertidumbres (usando la ley de propagación de
incertidumbres).
3 Se genera un resultado final con incertidumbres asociadas.

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


36 2010/2011 36 / 78
Incertidumbres aleatorias Propagación de incertidumbres

¿Cómo propagar incertidumbres en la reducción?


Podemos utilizar distintos métodos:
a) Comparación de medidas repetidas independientes.
Desventaja: muy costoso en tiempo de observación (no siempre es
posible repetir observaciones).

b) Utilización de primeros principios y fuerza bruta.


Desventaja: muy costoso en tiempo de cálculo (el procesado de la
información puede requerir mucho recursos: tiempo, memoria,. . . ).

c) Utilización de primeros principios y elegancia: tratamiento


paralelo de datos e incertidumbres.
Desventaja: no siempre se puede aplicar la ley de propagación de
incertidumbres (problema de correlación de errores).

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


37 2010/2011 37 / 78

Incertidumbres aleatorias Propagación de incertidumbres

Ejemplo de correlación de errores


Veamos un ejemplo de aparición de correlación de errores durante el proceso de recentrado de
la señal en un pixel.

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


38 2010/2011 38 / 78
Incertidumbres aleatorias Propagación de incertidumbres

Ejemplo de correlación de errores


Tras “desplazar” (remuestrear) la señal fracciones de píxel, tanto la propia señal como los errores
aleatorios asociados se distribuyen entre los pixels vecinos. Hasta aquí todo se calcula de manera
sencilla, aunque a partir de este momento los errores ya están correlacionados.

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


39 2010/2011 39 / 78

Incertidumbres aleatorias Propagación de incertidumbres

Ejemplo de correlación de errores


Al haber introducido correlación entre los errores, si no se tienen en cuenta las covarianzas, la
estimación de la incertidumbre en la estimación del flujo total es errónea. El efecto del recentrado
es filtrar la imagen y, aparentemente, se reduce el ruido.
¡Pero es falso!

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


40 2010/2011 40 / 78
Incertidumbres aleatorias Propagación de incertidumbres

El problema del aliasing en los espectros

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


41 2010/2011 41 / 78

Incertidumbres aleatorias Propagación de incertidumbres

El problema del aliasing en los espectros

Diferentes aproximaciones polinómicas a la


distribución de la señal.
(a): corrección lineal.
(b): polinomio de segundo grado
conservando la señal en cada pixel y
en los dos adyacentes.
(c): polinomio de segundo grado
conservando la señal en el pixel
central e imponiendo continuidad.
(d): polinomio de segundo grado
conservando la señal en el pixel
central e imponiendo derivadas
continuas.

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


42 2010/2011 42 / 78
Incertidumbres aleatorias Propagación de incertidumbres

El problema del aliasing en los espectros

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


43 2010/2011 43 / 78

Incertidumbres aleatorias Propagación de incertidumbres

¿Cómo evitar la introducción de correlaciones?


Durante el tratamiento de los datos, separar entre los filtros (pasos de la reducción) que
no introducen correlación (filtros sencillos) de aquellos que sí lo hacen (filtros complejos).
No ejecutar los filtros complejos, sino simplemente caracterizar las operaciones de su
procesado ⇒ las imágenes no se reducen completamente.

(Ver más detalles en Cardiel et al. 2003)

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


44 2010/2011 44 / 78
Incertidumbres aleatorias Propagación de incertidumbres

¿Cómo evitar la introducción de correlaciones?


Realizar la reducción in situ, sin rectificar las imágenes.

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


45 2010/2011 45 / 78

Incertidumbres aleatorias Propagación de incertidumbres

¿Cómo evitar la introducción de correlaciones?


La herramienta de análisis puede transformarse para poder utilizar las caracterizaciones
de los filtros complejos, y completar la reducción en tiempo real, en el momento de medir.

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


46 2010/2011 46 / 78
Incertidumbres aleatorias Incertidumbres en la medida de índices

Esquema

1 Introducción
Distinción entre errores e incertidumbres
Estandarizando la expresión de incertidumbres
Cálculo de incertidumbres
2 Incertidumbres aleatorias
Estadística de los (foto)electrones
Propagación de incertidumbres
Incertidumbres en la medida de índices
Incertidumbres en los parámetros físicos
¿Y cuando sólo tenemos los datos?
3 Efectos sistemáticos
Algunas fuentes
Tratamiento
Un ejemplo astronómico

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


47 2010/2011 47 / 78

Incertidumbres aleatorias Incertidumbres en la medida de índices

Propagación de incertidumbres en la medida de índices


Si tenemos una estimación de las incertidumbres en cada píxel de un espectro tras la
reducción de los datos, podemos estimar las incertidumbres en los índices de intensidad
de líneas utilizando la ley de propagación de incertidumbres.

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


48 2010/2011 48 / 78
Incertidumbres aleatorias Incertidumbres en la medida de índices

Índices atómicos
Z
Ia � Wλ (Å) = (1 − S(λ)/C(λ)) dλ
line

Índices moleculares
!
Wλ (Å)
I(mag) = −2.5 log10 1−
∆λ

Discontinuidades (pseudocolores): por ejemplo D4000


R 4250
S(ν) dλ
D4000 ≡ R4050
3950
3750
S(ν) dλ

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


49 2010/2011 49 / 78

Incertidumbres aleatorias Incertidumbres en la medida de índices

Un ejemplo: medida del índice Mg2


Aunque los errores en los pixels no estén correlacionados, al sustraer un mismo continuo a todos los pixels de la banda central
aparece correlación (ver detalles en Cardiel et al. 1998).
2 3 N
Npixels
C2 (λi ) σ 2 (λi ) + S2 (λi ) σC(λ
2 pixels "
pixels NX #
σ 2 [Ia ] X
i ) X S(λi ) S(λj ) “ 2 2

= 4 5+ Λ1 σS + Λ4 σSr
Θ2 i=1
C4 (λi ) i=1 j=1,j�=i
C2 (λi ) C2 (λj ) b

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


50 2010/2011 50 / 78
Incertidumbres aleatorias Incertidumbres en la medida de índices

Un ejemplo: medida del índice Mg2


Si no tenemos en cuenta la correlación entre los pixels, las estimaciones de las incertidumbres
son erróneas. Por ejemplo, comparemos las predicciones obtenidas al ignorar (izquierda) y
considerar (derecha) la correlación entre pixels en la medida de un gradiente de Mg2 en una
galaxia (triángulos abiertos).

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


51 2010/2011 51 / 78

Incertidumbres aleatorias Incertidumbres en la medida de índices

¡Podemos estimar incertidumbres en los índices!


Dada una relación señal/ruido, en principio es posible obtener una estimación aproximada de las
incertidumbres que debemos esperar en la medida de índices de intensidad de líneas.

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


52 2010/2011 52 / 78
Incertidumbres aleatorias Incertidumbres en la medida de índices
Index Name Central Bandpass (Å) Continuum Bandpasses (Å) ci

Atomic Indices c1 c2
Ca4227 4222.250–4234.750 4211.000–4219.750 4.604 0.3684
4241.000–4251.000
G4300 4281.375–4316.375 4266.375–4282.625 8.537 0.2439
4318.875–4335.125
Fe4383 4369.125–4420.375 4359.125–4370.375 13.220 0.2580
c1 − c2 Ia
4442.875–4455.375 σ[Ia ] ≈
Ca4455 4452.125–4474.625 4445.875–4454.625 7.038 0.3128 SN(Å)
4477.125–4492.125
Fe4531 4514.250–4559.250 4504.250–4514.250 11.299 0.2511 N
4560.500–4579.250 1 X S(λi )
Fe4668 4634.000–4720.250 4611.500–4630.250 17.757 0.2059
SN(Å) = √
4742.750–4756.500
N Θ i=1 σ(λi )
Hβ 4847.875–4876.625 4827.875–4847.875 7.301 0.2539
4876.625–4891.625 c1 ≡ ∆λc c2
Fe5015 4977.750–5054.000 4946.500–4977.750 16.455 0.2158
5054.000–5065.250 v !2 !2
Mgb 5160.125–5192.625 5142.625–5161.375 8.032 0.2472
u
u 1 λr − λc 1 λc − λb 1
5191.375–5206.375 c2 ≡ t + +
Fe5270 5245.650–5285.650 5233.150–5248.150 9.250 0.2313 ∆λc λr − λb ∆λb λr − λb ∆λr
5285.650–5318.150
Fe5335 5312.125–5352.125 5304.625–5315.875 10.741 0.2685
5353.375–5363.375 c1 |z = (1 + z)1/2 c1 |z=0 ,
Fe5406 5387.500–5415.000 5376.250–5387.500 7.256 0.2893
5415.000–5425.000
Fe5709 5696.625–5720.375 5672.875–5696.625 6.362 0.2679 c2 |z = (1 + z)−1/2 c2 |z=0 ,
5722.875–5736.625
Fe5782 5776.625–5796.625 5765.375–5775.375 6.134 0.3067
5797.875–5811.625
NaD 5876.875–5909.375 5860.625–5875.625 8.113 0.2496
5922.125–5948.125 c3
Ca1 8483.000–8513.000 8447.500–8462.500 8.852 0.2951 σ[Im ] ≈
8842.500–8857.500 SN(Å)
Ca2 8527.000–8557.000 8447.500–8462.500 8.330 0.2777
8842.500–8857.500 c3 ≡ 2.5 c2 log10 e
Ca3 8647.000–8677.000 8447.500–8462.500 7.750 0.2583
8842.500–8857.500

Molecular Indices c3
CN1 4142.125–4177.125 4080.125–4117.625 0.2241 v
4244.125–4284.125 u
D4000 u 1 1
CN2 4142.125–4177.125 4083.875–4096.375 0.2691 σ[D4000 ] ≈ √ t +
200 2 2
4244.125–4284.125 SN(Å)b SN(Å)r
Mg1 5069.125–5134.125 4895.125–4957.625 0.1662
5301.125–5366.125
Mg2 5154.125–5196.625 4895.125–4957.625 0.1933
5301.125–5366.125
TiO1 5936.625–5994.125 5816.625–5849.125 0.1824
6038.625–6103.625
TiO2 6189.625–6272.125 6066.625–6141.625 0.1568
6372.625–6415.125

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


53 2010/2011 53 / 78

Incertidumbres aleatorias Incertidumbres en la medida de índices

Índices genéricos
Algunas veces los índices clásicos no son adecua-
dos para extraer información en regiones espec-
trales con líneas múltiples. Una solución son los
índices genéricos (ver Cenarro et al. 2001).

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


54 2010/2011 54 / 78
Incertidumbres aleatorias Incertidumbres en la medida de índices

� �2
� N(l) �
Nf � �
σ(Ia ) C2 (λl,i ) σ 2 [S(λl,i )] + S2 (λl,i ) σ 2 [C(λl,i )]
Nf
� � � � ξ 2 (l) +
� λc2 (k) Θ C4 (λl,i )
l=1 i=1
Ia (Å) ≡ ξ(k) [1 − S(λ)/C(λ)] dλ N N(l) N N(m)
� �
k=1 λc1 (k) �f �� f �
S(λl,i ) S(λm,j )
+ ξ(l) ξ(m) 2 × cov(C(λl,i ), C(λm,j ))
C (λl,i ) C2 (λm,j )
l=1 i=1 m=1 j=1

1 1
C(λk,i ) = α1 + α2 λk,i α1 = ∆ {Σ3 Σ4 − Σ2 Σ5 } α2 = ∆ {Σ1 Σ5 − Σ2 Σ4 } ∆ = Σ1 Σ3 − Σ2 Σ2

Nc M(n) Nc M(n) Nc M(n) Nc M(n) Nc M(n)


� � 1 � � λn,h � � λ2n,h � � S(λn,h ) � � λn,h S(λn,h )
Σ1 ≡ Σ2 ≡ Σ3 ≡ Σ4 ≡ Σ5 ≡
σ 2 [S(λn,h )] σ 2 [S(λn,h )] σ 2 [S(λn,h )] σ 2 [S(λn,h )] n=1 h=1
σ 2 [S(λn,h )]
n=1 h=1 n=1 h=1 n=1 h=1 n=1 h=1

� � � ∂C(λk,i ) �2
Nc M(l) cov(C(λk,i ), C(λm,j )) = �C(λk,i ) C(λm,j )� − �C(λk,i )� �C(λm,j )� =
σ 2 [C(λk,i )] = σ 2 [S(λl,r )]
∂S(λl,r ) = [�α1 α1 � − �α1 ��α1 �] + [�α1 α2 � − �α1 ��α2 �] (λk,i + λm,j ) + [�α2 α2 � − �α2 ��α2 �] λk,i λm,j
l=1 r=1

1
� � �α1 α1 � − �α1 ��α1 � = ∆2
[Σ1 Σ3 Σ3 − Σ2 Σ2 Σ3 ]
∂C(λk,i ) 1 1 λl,r
= Σ3 − 2 Σ2 +
∂S(λl,r ) ∆ σ 2 [S(λl,r )] σ [S(λl,r )] 1
� � �α1 α2 � − �α1 ��α2 � = ∆2
[Σ2 Σ2 Σ2 − Σ1 Σ2 Σ3 ]
λk,i λl,r 1
Σ1 − 2 Σ2
∆ σ 2 [S(λl,r )] σ [S(λl,r )] �α2 α2 � − �α2 ��α2 � = 1
[Σ1 Σ1 Σ3 − Σ1 Σ2 Σ2 ]
∆2

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


55 2010/2011 55 / 78

Incertidumbres aleatorias Incertidumbres en la medida de índices

¡También podemos estimar incertidumbres en los índices genéricos!

c1 |z − c2 |z Ia |z
σ[Ia ]z � =
SN(Å)
c1 |z=0 − c2 |z=0 Ia |z=0
= (1 + z)1/2
SN(Å)

18.09 − 0.1751 CaT


σ[CaT(Å)] �
SN(Å)

14.27 − 0.1463 PaT


σ[PaT(Å)] �
SN(Å)

16.43 − 0.1052 CaT∗


σ[CaT∗ (Å)] �
SN(Å)

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


56 2010/2011 56 / 78
Incertidumbres aleatorias Incertidumbres en la medida de índices

Discontinuidades genéricas
Más recientemente también se han definido una discontinuidades genéricas (ver
Mármol-Queraltó et al., 2008).

nc Z λ
X 1 c,i 2
Fc,i (λ) dλ
i=1
λc,i2 − λc,i1 λc,i
Dgeneric ≡ 1
na Z λ
X 1 a,i2
Fa,i (λ) dλ
i=1
λa,i2 − λa,i1 λa,i
1

2
Fc2 σF
2
+ Fa2 σF
2
a c
σ [Dgeneric ] =
Fa4

i
nx NX
X pixels
Fx ≡ Θ Fx,i (λk )
i=1 k=1

i
nx NX
X pixels
2 2 2
σFx =Θ σF (λk )
x,i
i=1 k=1

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


57 2010/2011 57 / 78

Incertidumbres aleatorias Incertidumbres en la medida de índices

Discontinuidades genéricas
Más recientemente también se han definido una discontinuidades genéricas (ver
Mármol-Queraltó et al., 2008).

c
εr =
SN(Å)

Index c
COmagKH 0.7537
IPuxley 2.0258
IFrogel 0.8123
DFrogel 0.1075
DCO 0.1198

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


58 2010/2011 58 / 78
Incertidumbres aleatorias Incertidumbres en los parámetros físicos

Esquema

1 Introducción
Distinción entre errores e incertidumbres
Estandarizando la expresión de incertidumbres
Cálculo de incertidumbres
2 Incertidumbres aleatorias
Estadística de los (foto)electrones
Propagación de incertidumbres
Incertidumbres en la medida de índices
Incertidumbres en los parámetros físicos
¿Y cuando sólo tenemos los datos?
3 Efectos sistemáticos
Algunas fuentes
Tratamiento
Un ejemplo astronómico

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


59 2010/2011 59 / 78

Incertidumbres aleatorias Incertidumbres en los parámetros físicos

Una vez realizadas las medidas espectroscópicas (e.g., índices de intensidad de


líneas), deseamos interpretar dichas medidas en términos de parámetros físicos re-
levantes, como edad, composición química,. . . .

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


60 2010/2011 60 / 78
Incertidumbres aleatorias Incertidumbres en los parámetros físicos

El último paso: la determinación de parámetros físicos


Veamos cómo influyen las incertidumbres en los índices medidos ∆mi en las incer-
tidumbres ∆pj de los parámetros físicos (por ejemplo edad, metalicidad, IMF, etc.; ver
detalles en Cardiel et al. 2003).
n
X n
X
∆mi � aij ∆pj ; ∆pj � bji ∆mi
j=1 i=1

n
2 [π χ2n (α)]n/2 Y
VM = σ(mi )
n Γ(n/2) i=1

n n
2 [π χ2n (α)]n/2 Y c(mi ) Y 1
VP = | det(B)| = κ φ(α, n)
n Γ(n/2) i=1
SN(Å)i i=1
SN(Å)i

2 [π χ2n (α)]n/2
φ(α, n) ≡
n Γ(n/2)

n n
Y 1 Y
κ ≡ | det(B)| c(mi ) = × c(mi )
| det(A)| n
i=1 i=1 Y 1
| {z } | {z }
sensibilidad a la sensibilidad
⇒ VP ∝ κ
i=1
SN(Å)i
degeneración de los índices
de los parámetros a la SN(Å)
físicos

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


61 2010/2011 61 / 78

Incertidumbres aleatorias Incertidumbres en los parámetros físicos

El último paso: la determinación de parámetros físicos


Veamos cómo influyen las incertidumbres en los índices medidos ∆mi en las incer-
tidumbres ∆pj de los parámetros físicos (por ejemplo edad, metalicidad, IMF, etc.; ver
detalles en Cardiel et al. 2003).
n
X n
X
∆mi � aij ∆pj ; ∆pj � bji ∆mi
j=1 i=1

n
2 [π χ2n (α)]n/2 Y
VM = σ(mi )
n Γ(n/2) i=1

n n
2 [π χ2n (α)]n/2 Y c(mi ) Y 1
VP = | det(B)| = κ φ(α, n)
n Γ(n/2) i=1
SN(Å)i i=1
SN(Å)i

2 [π χ2n (α)]n/2
φ(α, n) ≡
n Γ(n/2)

n n
Y 1 Y
κ ≡ | det(B)| c(mi ) = × c(mi )
| det(A)| n
i=1 i=1 Y 1
| {z } | {z }
sensibilidad a la sensibilidad
⇒ VP ∝ κ
i=1
SN(Å)i
degeneración de los índices
de los parámetros a la SN(Å)
físicos

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


62 2010/2011 61 / 78
Incertidumbres aleatorias Incertidumbres en los parámetros físicos

El último paso: la determinación de parámetros físicos


Veamos cómo influyen las incertidumbres en los índices medidos ∆mi en las incer-
tidumbres ∆pj de los parámetros físicos (por ejemplo edad, metalicidad, IMF, etc.; ver
detalles en Cardiel et al. 2003).
n
X n
X
∆mi � aij ∆pj ; ∆pj � bji ∆mi
j=1 i=1

n
2 [π χ2n (α)]n/2 Y
VM = σ(mi )
n Γ(n/2) i=1

n n
2 [π χ2n (α)]n/2 Y c(mi ) Y 1
VP = | det(B)| = κ φ(α, n)
n Γ(n/2) i=1
SN(Å)i i=1
SN(Å)i

2 [π χ2n (α)]n/2
φ(α, n) ≡
n Γ(n/2)

n n
Y 1 Y
κ ≡ | det(B)| c(mi ) = × c(mi )
| det(A)| n
i=1 i=1 Y 1
| {z } | {z }
sensibilidad a la sensibilidad
⇒ VP ∝ κ
i=1
SN(Å)i
degeneración de los índices
de los parámetros a la SN(Å)
físicos

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


63 2010/2011 61 / 78

Incertidumbres aleatorias Incertidumbres en los parámetros físicos

El último paso: la determinación de parámetros físicos


Veamos cómo influyen las incertidumbres en los índices medidos ∆mi en las incer-
tidumbres ∆pj de los parámetros físicos (por ejemplo edad, metalicidad, IMF, etc.; ver
detalles en Cardiel et al. 2003).
n
X n
X
∆mi � aij ∆pj ; ∆pj � bji ∆mi
j=1 i=1

n
2 [π χ2n (α)]n/2 Y
VM = σ(mi )
n Γ(n/2) i=1

n n
2 [π χ2n (α)]n/2 Y c(mi ) Y 1
VP = | det(B)| = κ φ(α, n)
n Γ(n/2) i=1
SN(Å)i i=1
SN(Å)i

2 [π χ2n (α)]n/2
φ(α, n) ≡
n Γ(n/2)

n n
Y 1 Y
κ ≡ | det(B)| c(mi ) = × c(mi )
| det(A)| n
i=1 i=1 Y 1
| {z } | {z }
sensibilidad a la sensibilidad
⇒ VP ∝ κ
i=1
SN(Å)i
degeneración de los índices
de los parámetros a la SN(Å)
físicos

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


64 2010/2011 61 / 78
Incertidumbres aleatorias Incertidumbres en los parámetros físicos

El último paso: la determinación de parámetros físicos


Veamos cómo influyen las incertidumbres en los índices medidos ∆mi en las incer-
tidumbres ∆pj de los parámetros físicos (por ejemplo edad, metalicidad, IMF, etc.; ver
detalles en Cardiel et al. 2003).
n
X n
X
∆mi � aij ∆pj ; ∆pj � bji ∆mi
j=1 i=1

n
2 [π χ2n (α)]n/2 Y
VM = σ(mi )
n Γ(n/2) i=1

n n
2 [π χ2n (α)]n/2 Y c(mi ) Y 1
VP = | det(B)| = κ φ(α, n)
n Γ(n/2) i=1
SN(Å)i i=1
SN(Å)i

2 [π χ2n (α)]n/2
φ(α, n) ≡
n Γ(n/2)

n n
Y 1 Y
κ ≡ | det(B)| c(mi ) = × c(mi )
| det(A)| n
i=1 i=1 Y 1
| {z } | {z }
sensibilidad a la sensibilidad
⇒ VP ∝ κ
i=1
SN(Å)i
degeneración de los índices
de los parámetros a la SN(Å)
físicos

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


65 2010/2011 61 / 78

Incertidumbres aleatorias Incertidumbres en los parámetros físicos

¡La mejor opción no es necesariamente la combinación de índices con predicciones


más ortogonales!

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


66 2010/2011 62 / 78
Incertidumbres aleatorias Incertidumbres en los parámetros físicos

Incluso dentro de un mismo diagrama, las incertidumbres dependen de la posición en


el espacio de parámetros físicos.

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


67 2010/2011 63 / 78

Incertidumbres aleatorias Incertidumbres en los parámetros físicos

Cuando las incertidumbres están correlacionadas, no tiene demasiado sentido


parametrizar las incertidumbres utilizando la desviación típica.

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


68 2010/2011 64 / 78
Incertidumbres aleatorias ¿Y cuando sólo tenemos los datos?

Esquema

1 Introducción
Distinción entre errores e incertidumbres
Estandarizando la expresión de incertidumbres
Cálculo de incertidumbres
2 Incertidumbres aleatorias
Estadística de los (foto)electrones
Propagación de incertidumbres
Incertidumbres en la medida de índices
Incertidumbres en los parámetros físicos
¿Y cuando sólo tenemos los datos?
3 Efectos sistemáticos
Algunas fuentes
Tratamiento
Un ejemplo astronómico

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


69 2010/2011 65 / 78

Incertidumbres aleatorias ¿Y cuando sólo tenemos los datos?

¡Siempre se puede hacer algo!


¿Qué hacer cuando ni siquiera es posible realizar simulaciones de Monte Carlo para
generar muestras sintéticas a partir de primeros principios?
Supongamos que nuestra muestra está formada por N valores Ai
independientes e indénticamente distribuidos, por lo que el orden secuencial de
dichos valores no es consecuencia del proceso que seguimos para su obtención
(Ai tiene la misma probabilidad de aparecer en cualquier posición entre 1 y N).
Vamos a asumir que dichos datos contienen la información necesaria para
considerarlos como si fueran toda una población. Entonces podemos generar
muestras sinéticas (en lugar de datos sintéticos como hacíamos antes) a partir
de ellos.

Veamos dos métodos comúnmente utilizados


Jackknife
Bootstrap

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


70 2010/2011 66 / 78
Incertidumbres aleatorias ¿Y cuando sólo tenemos los datos?

Jackknife1
Este método consiste en generar, a partir de muestras de N elementos, N submuestras de N − 1
elementos, eliminando en cada una de estas submuestras secundarias un elemento (podemos
hacerlo de forma consecutiva, eliminando el primer elemento en la primera muestra, el segundo
en la segunda muestra, y así sucesivamente.

Bootstrap2
Es una generalización del método anterior, en el cual se generan muestras secundarias de N
elementos, seleccionando los elementos de forma aleatoria a partir de la muestra original, pero
permitiendo repetir valores. De esta forma, una fracción aleatoria de los valores iniciales apare-
cerán duplicados (∼ 1/e � 37%).

⇒ Estos métodos no dan información a partir de la nada. Nos dan información que de-
sconocíamos previamente (ver Press et al. 2002).
1
Podemos traducirlo como pequeña navaja o navaja de bolsillo.
2
El nombre se debe a la aparente capacidad del método de conseguir algo aparentemente imposible (sacar de donde no hay).
En Las increíbles aventuras del Barón Munchhausen, Rudolph Erich Raspe cuenta que en cierta ocasión el Barón logró escapar
de una muerte segura al salir volando tirando de los cordones de sus propias botas (en inglés “[. . . ] he thought to pull himself up
by his own bootstraps”).

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


71 2010/2011 67 / 78

Efectos sistemáticos Algunas fuentes

Esquema

1 Introducción
Distinción entre errores e incertidumbres
Estandarizando la expresión de incertidumbres
Cálculo de incertidumbres
2 Incertidumbres aleatorias
Estadística de los (foto)electrones
Propagación de incertidumbres
Incertidumbres en la medida de índices
Incertidumbres en los parámetros físicos
¿Y cuando sólo tenemos los datos?
3 Efectos sistemáticos
Algunas fuentes
Tratamiento
Un ejemplo astronómico

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


72 2010/2011 68 / 78
Efectos sistemáticos Algunas fuentes

Ejemplos de fuentes listados en la GUM


Definición incompleta de la magnitud a medir.
Imposibilidad de medir la magnitud definida.
Obtención de muestras no representativas.
Conocimiento incompleto de los factores ambientales que afectan a las medidas.
Sesgos personales en la lectura de medidas analógicas.
Resolución finita de los instrumentos de medida.
Valores inexactos de las magnitudes de referencia.
Valores inexactos de constantes y otros parámetros obtenidos de fuentes
externas y empleados en la reducción de los datos.
Aproximaciones y asunciones empleadas durante la toma de datos y su
manipulación posterior.
...
Recordemos: la incertidumbre de una corrección realizada sobre una medida para compensar de un efecto sistemático no es el
error sistemático en el resultado de la medida debido a dicho efecto. Se trata más bien de una medida de la incertidumbre del
resultado debido a un conocimiento incompleto del valor de la corrección.
⇒ Debemos evitar utilizar la expresión “incertidumbre sistemática” (puede ser confusa).

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


73 2010/2011 69 / 78

Efectos sistemáticos Tratamiento

Esquema

1 Introducción
Distinción entre errores e incertidumbres
Estandarizando la expresión de incertidumbres
Cálculo de incertidumbres
2 Incertidumbres aleatorias
Estadística de los (foto)electrones
Propagación de incertidumbres
Incertidumbres en la medida de índices
Incertidumbres en los parámetros físicos
¿Y cuando sólo tenemos los datos?
3 Efectos sistemáticos
Algunas fuentes
Tratamiento
Un ejemplo astronómico

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


74 2010/2011 70 / 78
Efectos sistemáticos Tratamiento

¿Se puede hacer algo?

Sí. ¡Evitarlos!
Algunos efectos sistemáticos pueden descubrirse tras el análisis
cuidadoso del experimento o proceso de medida antes de su ejecución.
— Pueden corregirse realizando las correcciones adecuadas o
modificando el diseño experimental.
Los restantes efectos sistemáticos pueden ser muy difíciles de
reconocer, y serán detectables con cierta garantía después, sólo
cuando puedan compararse medidas realizadas a través de dos o más
experimentos independientes.
— En estos casos es posible utilizar la inferencia bayesiana.

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


75 2010/2011 71 / 78

Efectos sistemáticos Tratamiento

¿Se puede hacer algo?

Sí. ¡Evitarlos!
Algunos efectos sistemáticos pueden descubrirse tras el análisis
cuidadoso del experimento o proceso de medida antes de su ejecución.
— Pueden corregirse realizando las correcciones adecuadas o
modificando el diseño experimental.
Los restantes efectos sistemáticos pueden ser muy difíciles de
reconocer, y serán detectables con cierta garantía después, sólo
cuando puedan compararse medidas realizadas a través de dos o más
experimentos independientes.
— En estos casos es posible utilizar la inferencia bayesiana.

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


76 2010/2011 71 / 78
Efectos sistemáticos Tratamiento

¡La inferencia bayesiana al rescate!

Una de las características de las técnicas bayesianas es su capacidad


de incorporar información inicial (prior) y estudiar cómo afecta a
nuestras conclusiones.
Un efecto sistemático puede introducirse como un nuevo parámetro en
el estudio, y tratarlo como un nuisance parameter (parámetro
irrelevante) e integrar sobre él (marginalizar). Si la incertidumbre debida
al efecto sistemático es muy grande, ello se reflejará en nuestra
inferencia final.

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


77 2010/2011 72 / 78

Efectos sistemáticos Un ejemplo astronómico

Esquema

1 Introducción
Distinción entre errores e incertidumbres
Estandarizando la expresión de incertidumbres
Cálculo de incertidumbres
2 Incertidumbres aleatorias
Estadística de los (foto)electrones
Propagación de incertidumbres
Incertidumbres en la medida de índices
Incertidumbres en los parámetros físicos
¿Y cuando sólo tenemos los datos?
3 Efectos sistemáticos
Algunas fuentes
Tratamiento
Un ejemplo astronómico

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


78 2010/2011 73 / 78
Efectos sistemáticos Un ejemplo astronómico

Ley de Hubble: v = H0 x
Determinar la distribución de probabilidad posterior para la distancia x a una galaxia cuya ve-
locidad de recesión es vg = (100 ± 5) × 103 km s−1 , asumiendo H0 = 70 km s−1 Mpc−1 y en las
siguientes cuatro situaciones:
1 Para un valor fijo de H0 = 70 km s−1 Mpc−1 , es decir, p(H0 |I) = δ(H − H0 ).
2 Para un valor de H0 con una icertidumbre dada por una distribución de probabilidad
gaussiana
 ff
(H0 − 70)2
p(H0 |I) = k exp − .
2 × 102
3 Asumiendo una distribución de probabilidad uniforme para H0

1/(90 − 50), para 50 ≤ H0 ≤ 90
p(H0 |I) =
0, en otro caso.
4 Asumiendo una distribución de probabilidad de Jeffreys (igual probabilidad por década
—invarianza de escala—)

[H0 ln(90/50)]−1 , para 50 ≤ H0 ≤ 90
p(H0 |I) =
0, en otro caso.
Considerar que la velocidad de recesión medida es vg = vreal + �, donde � es la incertidumbre,
admitiendo que � sigue una distribución N(µ = 0, σ = 5). Suponer además que la incertidumbre
en la velocidad no está correlacionada con la incertidumbre en H0 .

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


79 2010/2011 74 / 78

Efectos sistemáticos Un ejemplo astronómico

Ley de Hubble: v = H0 x
Calculamos la PDF posterior para x marginalizando el parámetro H0
Z ∞
p(x|D, I) = p(x, H0 |D, I) dH0 .
−∞

Usando el Teorema de Bayes


Z ∞
p(x|D, I) ∝ p(x|I) p(H0 |x, I) p(D|x, H0 , I) dH0 .
−∞

Asumiendo que H0 y x son independientes


Z ∞
p(x|D, I) ∝ p(x|I) p(H0 |I) p(D|x, H0 , I) dH0 .
−∞

En este caso, I incluye la información relevante a nuestro conocimiento sobre H0 , que, para los
casos propuestos, tiene una PDF que sigue 1) una delta de Dirac, 2) una gaussiana, 3) una
función uniforme y 4) una función de Jeffreys.

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


80 2010/2011 75 / 78
Efectos sistemáticos Un ejemplo astronómico

Ley de Hubble: v = H0 x
1 H0 constante  ff
1 (vg − H0 x)2
p(x|D, I) ∝ p(x|I) √ exp − .
2πσ 2σ 2
2 PDF de H0 gaussiana
Z  ff  ff
∞ (H0 − 70)2 1 (vg − H0 x)2
p(x|D, I) ∝ p(x|I) k exp − ×√ exp − dH0 .
−∞ 2 × 102 2πσ 2σ 2
3 PDF de H0 uniforme
Z 90  ff
1 1 (vg − H0 x)2
p(x|D, I) ∝ p(x|I) ×√ exp − dH0 .
50 (90 − 50) 2πσ 2σ 2
4 PDF de H0 siguiendo una función de Jeffreys
Z 90  ff
1 1 (vg − H0 x)2
p(x|D, I) ∝ p(x|I) ×√ exp − dH0 .
50 H0 ln(90/50) 2πσ 2σ 2

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


81 2010/2011 76 / 78

Efectos sistemáticos Un ejemplo astronómico

Ley de Hubble: v = H0 x
Resultado asumiendo un prior uniforme p(x|I)

Las consecuencias de introducir incertidumbre en H0 son: i) la PDF posterior para la galaxia es más ancha y ii) la media de la PDF
se desplaza a valores más altos (las medias son 1429, 1486, 1512 y 1556 km s−1 , respectivamente), es decir, la PDF posterior
es asimétrica.

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


82 2010/2011 77 / 78
Efectos sistemáticos Un ejemplo astronómico

Referencias
Cardiel N., Gorgas J., Cenarro J., González, J.J., Reliable random error estimation in the
measurement of line-strength indices, 1998, A&AS 127, 597
Cardiel N., Gorgas J., Gallego J., et al., Proper handling of random errors and distortions in
astronomical data analysis, 2002, SPIE, 4847, 297
Cardiel N., Gorgas J., Sánchez-Blázquez P., et al., Using spectroscopic data to
disentangle stellar population properties, 2003, A&A, 409, 511
Cenarro A.J., Cardiel N., Gorgas J., et al., Empirical calibration of the near-infrared Ca II
triplet - I. The stellar library and index definition, 2001, MNRAS, 326, 959
D’Agostini G., Probability and Measurement Uncertainty in Physics, 1995,
arXiv:hep-ph/9512295v2
Gregory P.C., Bayesian Logical Data Analysis for the Physical Sciences, 2005, Cambridge
University Press
Internatinal Organization for Standardization (ISO), Guide to the expression of uncertainty
in measurement, 1993, Geneva, Switzerland
Mármol-Queraltó E., Cardiel N., Cenarro A.J., et al., 2008, A&A, en prensa
Press W.H., et al., Numerical Recipes in Fortran 77, 2002, Cambridge University Press
Trager S.C., Faber S.M., Worthey G., González J.J., 2000a, AJ, 119, 1645

Tema 3: Cálculo de errores (♣) Análisis de datos y Estadística Avanzada Curso


83 2010/2011 78 / 78

También podría gustarte