Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Palabras clave: estadística, Monte Carlo, p-valor, física de partículas, bosón de Higgs.
«El principio de la ciencia, la definición, casi, es la La física de partículas surge como disciplina propia
siguiente: la prueba de todo conocimiento es el expe- hacia los años 1950, siendo pionera de la «gran ciencia»,
rimento. El experimento es el único juez de lo cientí- dado que requiere experimentos con grandes detectores
ficamente “verdadero”. Pero, ¿cuál es el origen del co- y aceleradores de partículas, e infraestructuras de ma-
nocimiento? ¿De dónde provienen las leyes que deben crodatos, desarrollados por grandes colaboraciones. En
ser testeadas? El experimento, por sí mismo, ayuda a este entorno la estadística ha representado un papel de
generar esas leyes, en el sentido que nos da pistas. Pero enorme importancia, aunque se ha hecho sin unos fuer-
también se necesita imaginación para crear a partir de tes vínculos con la comunidad estadística, una situación
esas evidencias las grandes gene- que en los últimos años ha mejo-
ralizaciones [...], y luego vuelta al rado considerablemente (Physics
experimento para comprobar de Statistics Code Repository, 2002,
nuevo si hemos hecho la suposi- «EN LA ERA DE LA 2003, 2005, 2007, 2011).
ción correcta.» (Feynman, 1963). GENERACIÓN Y Su campo de estudio son las
De este modo el gran físico Ri- MANIPULACIÓN DE «partículas elementales» que se
chard Feynman resumía el papel han ido descubriendo y que, junto
CANTIDADES MASIVAS DE
de la experimentación en el mé- con las fuerzas que surgen entre
todo científico. Hoy día, inmer- DATOS, LA ESTADÍSTICA ellas, configuran lo que cono-
sos en la era de la generación y ES UNA HERRAMIENTA cemos como modelo estándar:
manipulación de cantidades ma- FUNDAMENTAL PARA HACER 6 quarks (u, d, s, c, b, t); 6 leptones
sivas de datos, lo que se conoce CIENCIA»
(electrón, muón, tau y sus neutri-
como macrodatos, la estadística nos asociados); los bosones in-
es una herramienta fundamental termediarios de las interacciones
para hacer ciencia. En genómica, fundamentales (el fotón para la
cambio climático o física de partículas, los descubri- interacción electromagnética, dos W y el Z para la dé-
mientos surgen sólo cuando los datos son vistos a tra- bil, y los 8 gluones de la fuerte; la gravitatoria, mucho
vés del riguroso prisma de la estadística, dado que la menos intensa, aún no ha sido incluida satisfactoria-
señal buscada, si existe, se encuentra oculta entre un mente); y los dos centenares de hadrones constituidos
ruido de fondo gigantesco. por dos quarks (llamados mesones), tres (bariones), e
MÈTODE
MONOGRÁFICO
Los números de la ciencia
MÈTODE
MONOGRÁFICO
Los números de la ciencia
desintegran produciendo una cascada de entre cente- el histograma de la masa invariante de los pares de fo-
nares y miles de partículas más ligeras y estables, que tones que han superado el trigger, la reconstrucción y
son las que se observan directamente en los detectores. la clasificación como sucesos «candidatos» a bosones
Utilizando unas pocas características de estos restos, de Higgs producidos y desintegrados en dos fotones.
unos sistemas electrónicos ultrarápidos llamados tri- La magnitud física en este caso, la masa invariante, se
ggers deciden en tiempo real si la colisión es intere- calcula a partir de la energía y dirección de los fotones
sante y, en tal caso, se registra en discos duros para re- medidas con los calorímetros. La reconstrucción com-
construirla y analizarla posteriormente. Estos sistemas pleta de la colisión que da lugar a uno de estos candi-
de adquisición de datos (figura 1) reducen a unos cen- datos se ilustra en la figura 4, en la que se identifican
tenares por segundo las colisiones que producen física claramente los dos fotones sobre los cientos de trayec-
de interés, lo que genera aproximadamente 1 petabyte torias reconstruidas de otras partículas producidas en la
(mil millones de megabytes) de datos «crudos» al año colisión. Si los dos fotones proceden efectivamente de
por experimento. la producción y desintegración de una nueva partícula,
En la fase de reconstrucción las señales electrónicas el histograma debería presentar un exceso de sucesos
que constituyen los datos crudos se combinan e inter- localizado sobre un continuo de ruido de fondo, como
pretan: los impactos que dejan las partículas a su paso así parece observarse. Es en la confrontación de esta
por los sensores forman las trazas de sus trayectorias,
se buscan intersecciones de éstas para identificar la
posición de la colisión y los puntos de desintegración Centros Tier-2
(alrededor de 160)
de las partículas inestables, la curvatura de las trayec-
torias en el seno de un campo magnético determina
el momento, los calorímetros miden la energía de las Centros Tier-1
KIT 10 enlaces Gb/s
partículas, etc. De este proceso de reconocimiento Karlsruhe, Alemania BNL
Brookhaven, NY-EE UU
de patrones emerge el «suceso» reconstruido como NDGF
Países
.ch
una lista de partículas producidas con sus mag- nórdicos SARA-NIKHEF
RAL
identidad. En los experimentos del LHC se ha Oxfordshire,
ASGC Reino Unido
desarrollado una infraestructura de almacena- Taipei, Taiwan
ati o n
Barcelona, España Batavia, IL
EE UU
distribuir la reconstrucción de los miles de millo-
bor
CCIN2P3 TRIUMF
olla
nes de sucesos producidos anualmente entre cente- Lyon, Francia
Vancouver,
GC
Canadá
nares de miles de procesadores repartidos por todo
LC
INFN-CNAF KISTI-GSDC
W
Daejeon, Corea del Sur
el mundo (figura 2). Bolonia, Italia
MÈTODE
MONOGRÁFICO
Los números de la ciencia
200
Ponderación / GeV
∫ Ldt = 4,5 fb-1 √s = 7 TeV ATLAS en su lugar estadística binomial, o gaussiana sin que se
180 ∫ Ldt = 20,3 fb-1 √s = 8 TeV Datos trate del límite para N grande). Esta aleatoriedad, sin
Suma ponderada de la relación Ajuste combinado: embargo, no es consecuencia de un error de muestreo
160 señal/ruido
Categorías de medida de masa
Señal + Ruido de fondo sino que está relacionada con la naturaleza cuántica de
140 Ruido de fondo
los procesos.
Señal
120 Las distribuciones predichas por la teoría suelen ser
sencillas. Por ejemplo, las distribuciones angulares pue-
100
den ser uniformes o venir dadas por funciones trigono-
80 métricas, las masas suelen seguir una distribución de
60 Cauchy (que los físicos de partículas llaman de Breit-
Wigner), las distribuciones temporales pueden ser ex-
Ponderación - ajustado fondo
40
ponenciales o exponenciales moduladas por funciones
20 trigonométricas o hiperbólicas. Estas formas sencillas
0 se ven modificadas a menudo por efectos teóricos com-
8
6
plejos, y siempre por la resolución, eficiencia y ruidos
4 de fondo asociados a la reconstrucción de los sucesos.
2
0 Estas distribuciones se generan utilizando simula-
-2
-4 ciones de Monte Carlo. En primer lugar las partículas
-6
-8 se generan siguiendo las distribuciones sencillas ini-
110 120 130 140 150 160 ciales, incluyendo posteriormente las complicaciones
m γγ [GeV] teóricas. Para ello se ha desarrollado un elenco de
Figura 3. En la parte superior se muestra la distribución, en forma de generadores con nombres tan exóticos como Herwig,
histograma (puntos), de la masa invariante de los sucesos candida- Pythia o Sherpa, que proporcionan una simulación
tos a bosones de Higgs producidos y desintegrados en dos fotones completa de la dinámica de las colisiones (Nason y
(Aad et al., 2012). Esta distribución se ha ajustado por el método de Skands, 2013). En segundo lugar se corrigen las distri-
máxima verosimilitud a un modelo (línea continua roja) dado por
buciones teóricas por la respuesta del detector, para lo
la suma de una función de señal para una masa del bosón de 126,5
GeV (línea continua negra) y una función de ruido de fondo (línea que es necesario codificar un modelo virtual preciso
discontinua azul). En la parte inferior se muestra la distribución de de su geometría y composición en programas específi-
los datos (puntos) y del modelo ajustado (línea) después de haber cos, de los que el más sofisticado y extendido es Geant
sustraído la contribución del fondo. La suma cuadrática para todos (Agostinelli, 2003). De este modo, la simulación del
los intervalos de la distancia de cada punto a la curva, normalizada
detector da cuenta de efectos tales como la interacción
a la correspondiente incertidumbre, define un test estadístico χ2
con el que se juzga la correcta descripción de los datos obtenida de las partículas con los materiales que éstas atravie-
por el modelo. san, la cobertura angular, las regiones muertas, la exis-
FUENTE : ATLAS Experiment © 2014 CERN. tencia de canales electrónicos defectuosos o las impre-
cisiones en el posicionamiento de los dispositivos.
distribución con la teoría cuando surgen las cuestiones Uno de los problemas fundamentales de la simu-
estadísticas de interés: ¿Hay alguna evidencia del bosón lación en sus diferentes fases es muestrear con alta
Higgs? ¿Cuál es el mejor estimador de su masa, sección eficiencia y máxima velocidad las funciones de den-
eficaz de producción y probabilidad de desintegración sidad de probabilidad que definen las distribuciones.
al estado final de dos fotones? ¿Son estos resultados Para ello se usan generadores de números aleatorios
compatibles con la predicción del modelo estándar? uniformes de período largo o extremadamente largo.
Cuando es posible calcular analíticamente la inversa
de la función acumulativa, se muestrea la función de
■ ESTADÍSTICA Y SIMULACIONES DE MONTE
probabilidad con algoritmos específicos. Este es el
CARLO
caso de algunas funciones comunes como exponencia-
Todo experimento en física de partículas puede enten- les, de Breit-Wigner o gaussianas. En caso contrario se
derse como un experimento de contaje de sucesos. Así, emplea el método más general pero menos eficiente de
para observar una partícula y medir su masa se hace Von Neumann (aceptación y rechazo).
uso de un histograma como el de la figura 3, en el que La información simulada se utiliza para reconstruir
el número de sucesos N en cada intervalo de masa in- las magnitudes cinemáticas con los mismos progra-
variante es aleatorio y viene determinado por la distri- mas que se usan para los datos reales, lo que permite
bución de Poisson, con desviación estándar √N (sólo realizar una predicción completa de las distribuciones
en algunos casos particulares se hace preciso utilizar que siguen los datos. Por su complejidad y lentitud de
MÈTODE
MONOGRÁFICO
Los números de la ciencia
Figura 4. Un suceso candidato a bosón de Higgs desintegrándose en dos fotones cuyas energías depositadas en los calorímetros del detector
aparecen representadas por las «torres» rojas. Las líneas rectas discontinuas amarillas ilustran las direcciones de los fotones, definidas por
el punto de colisión y las torres. Las líneas continuas amarillas representan las trayectorias reconstruidas de los cientos de otras partículas
producidas en la colisión. La curvatura de estas trayectorias permite medir el momento de las partículas que las han producido, y es debida
a la presencia de un campo magnético muy intenso.
MÈTODE
MONOGRÁFICO
Los números de la ciencia
MÈTODE
MONOGRÁFICO
Los números de la ciencia
do de fondo) de 350, o el del bosón W por el experimen- falta de información en el método de máxima verosimi-
to UA1 (Arnison et al., 1983), con 6 sucesos observados litud que permita juzgar la calidad del modelo que mejor
sobre un ruido estimado despreciable, no evaluaron el describe los datos. La solución habitualmente adoptada
nivel de significación de los hallazgos. En la actualidad es la de determinar el p-valor para un test estadístico
se realizan análisis pormenorizados de este tipo de in- χ2. Un test alternativo ocasionalmente utilizado es el de
certidumbres cuyo control requiere, por ejemplo, cali- Kolmogorov-Smirnov (Barlow, 1998).
brar millones de canales de lectura del detector y afinar
minuciosamente los datos simulados. Una tarea que en
■ EL BOSÓN DE HIGGS
la práctica es compleja y que se propaga, en general, in-
duciendo incertidumbres sistemáticas no despreciables. Estamos ahora en situación de intentar responder a las
La definición de la significación estadística en tér- cuestiones estadísticas formuladas (Aad et al., 2012;
minos de un p-valor hace patente la importancia de Chatrchyan et al., 2012). Para ello, los datos que dan
la decisión a priori en la elección del test estadístico, lugar al histograma de la figura 3 se ajustan por el mé-
dada la dependencia de éste de los propios datos con todo de máxima verosimilitud completo a un modelo
los que se pretende realizar la observación. Esta liber- constituido por la suma de una función paramétrica de
tad de elección puede dar lugar a lo que se ha denomi- señal fija para diferentes masas del bosón y otra de
nado p-hacking (Nuzzo, 2014). El riesgo de p-hacking ruido de fondo. La descripción de la forma de la señal
radica en que el experimentador, incluso inconsciente- se ha obtenido a partir de simulaciones de Monte Car-
mente, monitoriza el experimento lo completas, mientras que la del
con los mismos datos con los que fondo se ha efectuado usando los
realiza la observación, introdu- datos a ambos lados de la región
«AUNQUE EL MODELO
ciendo cambios en los criterios donde se observa el exceso. Ex-
de selección y en las correcciones ESTÁNDAR NO PREDICE plorando para diferentes masas
de las distribuciones hasta que LA MASA DEL BOSÓN DE del bosón se ajusta la constan-
obtiene el acuerdo deseado, y no HIGGS, SÍ PREDICE EL te de normalización de la señal.
hasta que considera que todas PRODUCTO DE SU SECCIÓN
Sustrayendo de la distribución de
las modificaciones necesarias se los datos y del modelo ajustado la
EFICAZ DE PRODUCCIÓN
han tenido en cuenta. Este modo contribución del fondo se obtiene
de proceder puede inducir sesgos Y LA PROBABILIDAD DE la parte inferior de la figura. Las
tanto en la estimación de los pará- QUE SE DESINTEGRE EN diferencias entre los puntos y la
metros como en el propio p-valor. UN CIERTO ESTADO FINAL. curva definen el test estadístico
2
Aunque la física de partículas ha ESTA PREDICCIÓN RESULTA
χ con el que se juzga la correcta
sido siempre cuidadosa, y prueba descripción de los datos obtenida
FUNDAMENTAL»
de ello es el hábito casi obsesivo por el modelo. La técnica de blin-
de explicar los detalles de la se- daje en este caso ha consistido en
lección de los datos, no ha dejado ocultar la distribución de masa
de verse afectada por este problema. Para eliminarlo entre 110 y 140 GeV hasta concluir la fase de selección
es frecuente utilizar la técnica de «blindaje», en la que de los datos y optimización del análisis.
se definen los criterios de selección de los datos, las A continuación se determina la significación esta-
correcciones de las distribuciones y el test estadístico dística del exceso de sucesos en la región cercana al
sin tener conocimiento de los datos, haciendo uso de mejor valor del estimador de la masa de la partícula.
datos simulados o muestras de datos reales en las que Para ello se calcula el p-valor con un test estadístico
no se espera ninguna señal, o introduciendo un sesgo construido a partir del cociente de verosimilitudes
desconocido en los parámetros físicos a medir. entre el ajuste de la distribución de masa con y sin la
Con todo, el p-valor sólo se utiliza para determinar el componente de señal. Explorando para distintos valo-
grado de incompatibilidad entre los datos y la hipótesis res de la masa y combinando con otros estados finales
nula, evitando hacer un uso abusivo como herramienta de desintegración analizados no discutidos aquí (dos y
de inferencia sobre la naturaleza real del efecto. Además, cuatro leptones, sean electrones o muones) se obtiene
el grado de convencimiento de la observación en base al la curva continua de la figura 5. El menor p-valor, co-
p-valor también depende de otros factores tales como la rrespondiente a una significación estadística de 5,9σ,
confianza en el modelo que ha dado lugar al mismo y ocurre para una masa de 126,5 GeV, unas 130 veces
la existencia de múltiples hipótesis nulas con p-valores mayor que la masa del átomo de hidrógeno. El corres-
similares. Para ello hay que afrontar el problema de la pondiente valor considerando sólo el estado final a dos
MÈTODE
MONOGRÁFICO
Los números de la ciencia
fotones es 4,5σ. Estos resultados, junto con la correcta A RNISON, G. et al., 1983. «Experimental Observation of Isolated Large Trans-
verse Energy Electrons with Associated Missing Energy at √s=450 GeV».
descripción de los datos obtenida por el modelo con se- Physics Letters B, 122(1): 103-116. DOI: <10.1016/0370-2693(83)91177-2>.
ñal, permiten refutar la hipótesis nula y obtener eviden- BARLOW, R. J., 1989. Statistics. A Guide to the Use of Statistical Methods in
cia convincente del descubrimiento de la producción y the Physical Sciences. John Wiley & Sons. Chichester (Inglaterra).
CHATRCHYAN, S. et al., 2012. «Observation of a New Boson at a Mass of 125
desintegración de una partícula en dos fotones. Que la GeV with the CMS Experiment at the LHC». Physics Letters B, 716(1): 30-
partícula sea un bosón (partícula con un valor entero 61. DOI: <10.1016/j.physletb.2012.08.021>.
del espín) se infiere directamente de su desintegración CHATRCHYAN, S. et al., 2013. «Study of the Mass and Spin-Parity of the Hi-
ggs Boson Candidate via Its Decays to Z Boson Pairs». Physical Review
en dos fotones (a su vez bosones con espín 1). Letters, 110: 081803. DOI: <10.1103/PhysRevLett.110.081803>.
Otra cuestión es establecer la naturaleza real de la COWAN, G., 2013. «Statistics». En OLIVE, K. A. et al., 2014. «Review of Par-
observación, empezando por si estamos o no ante el bo- ticle Physics». Chinese Physics C, 38(9): 090001. DOI: <10.1088/1674-
1137/38/9/090001>.
són de Higgs del modelo estándar. Aunque el modelo ELLIS, J., 2012. «Outstanding Questions: Physics Beyond the Standard Mo-
estándar no predice su masa, sí predice, en función de del». Philosophical Transactions of The Royal Society A, 370: 818-830.
ésta, el producto de su sección eficaz de producción y DOI: <10.1098/rsta.2011.0452>.
FEYNMAN, R. P., 1963. The Feynman Lectures on Physics. Addison-Wesley.
la probabilidad de que se desintegre en un cierto estado Reading, Massachusetts.
final. Esta predicción resulta fundamental, ya que, con H ERB, S. W. et al., 1977. «Observation of a Dimuon Resonance at 9.5 GeV
la ayuda de las simulaciones de Monte Carlo, permite in 400-GeV Proton-Nucleus Collisions». Physical Review Letters, 39: 252-
255. DOI: < 10.1103/PhysRevLett.39.252>.
establecer la señal que se espera con su incertidumbre NASON, P. y P. Z. SKANDS, 2013. «Monte Carlo Event Generators». En Olive,
y los correspondientes p-valores en términos de la masa, K.A. et al., 2014. «Review of Particle Physics». Chinese Physics C, 38(9):
como se muestra en la curva discontinua y la banda azul 090001. DOI: <10.1088/1674-1137/38/9/090001>.
NUZZO, R., 2014. «Statistical Errors». Nature, 506: 150-152. DOI:
de la figura 5. La comparación entre la curva continua <10.1038/506150a>.
y la banda indica que la intensidad de la señal observa- P HYSICS STATISTICS CODE R EPOSITORY, 2002; 2003; 2005; 2007; 2011. Con-
da es compatible con la esperada a 1σ (p-valor de 0,317, greso PHYSTAT 2002. Durham. Disponible en: <http://phystat.org>.
SCHIRBER, M., 2013. «Focus: Nobel Prize-Why Particles Have Mass». Phy-
o equivalentemente, un contenido de probabilidad del sics, 6: 111. DOI: <10.1103/Physics.6.111>.
68,3%), y por tanto no se excluye que se trate del bosón SWANSON, E., 2013. «Viewpoint: New Particle Hints at Four-Quark Matter».
de Higgs del modelo estándar. Con el cociente entre las Physics, 6: 69. DOI: <10.1103/Physics.6.69>.
WEBB, A., 2002. Statistical Pattern Recognition. John Wiley & Sons. Chi-
dos intensidades se construye un nuevo test estadístico chester (Inglaterra).
que, al explorarse en función de la masa, permite obte-
ner el mejor estimador de la masa de la nueva partícula ABSTRACT
y su intervalo de confianza a 1σ, 126.0 ± 0.4 ± 0.4 GeV, Statistics in Particle Physics. The Role It Played in Discove-
donde el segundo (tercer) valor denota la incertidum- ring Higgs Boson.
bre estadística (sistemática). Estudios similares realiza- Statistics has played a decisive role in the development of
dos analizando la distribución angular de los fotones y particle physics, a pioneer of the so-called «big science».
leptones, magnitud física sensible al espín y la paridad Its usage has grown alongside technological developments,
(otra propiedad cuántica que toma valores + y –) del enabling us to go from recording a few hundred events to
bosón, han permitido excluir con p-valores menores de thousands of millions of events. This article discusses how
0,022 asignaciones de espín-paridad 0–, 1+, 1–, 2+ fren- we have solved the problem of handling these huge data-
te a la asignación 0+ predicha por el modelo estándar sets and how we have implemented the main statistical
(Aad et al., 2013; Chatrchyan et al., 2013). tools since the 1990s to search for ever smaller signals hid-
den in increasing background noise. The history of particle
Con toda esta información no podemos concluir sin
physics has witnessed many experiments that could illus-
riesgo de abusar de la ciencia estadística que se trata trate the role of statistics, but few can boast a discovery of
del bosón de Higgs del modelo estándar, pero cierta- such scientific impact and dimensions as the Higgs boson,
mente se le parece mucho. resulting from a colossal collective and technological en-
deavour.
REFERENCIAS
A AD, G. et al., 2013. «Observation of a New Particle in the Search for the Keywords: statistics, Monte Carlo, p-value, particle physics,
Standard Model Higgs Boson with the ATLAS Detector at the LHC». Phy- Higgs boson.
sics Letters B, 716(1): 1-29. DOI: <10.1016/j.physletb.2012.08.020>.
A AD, G. et al., 2013. «Evidence for the Spin-0 Nature of the Higgs Bo-
son Using ATLAS Data». Physics Letters B, 726(1-3): 120-144. DOI: AGRADECIMIENTOS:
<10.1016/j.physletb.2013.08.026>. El autor agradece a los profesores Santiago González de la Hoz y Jesús
A AIJ, R. et al., 2014. «Observation of the Resonant Character of the Navarro Faus, así como a los revisores anónimos, por sus comentarios y
Z(4430) – State». Physical Review Letters, 112: 222002. DOI: <10.1103/ aportaciones a este manuscrito.
PhysRevLett.112.222002>.
AGOSTINELLI, S. et al., 2003. «Geant4-a Simulation Toolkit». Nuclear Ins-
truments and Methods in Physics Research A, 506(3): 250-303. DOI: Fernando Martínez Vidal. Profesor titular del Instituto de Física Corpus-
<10.1016/S0168-9002(03)01368-8>. cular (CSIC-UV). Valencia.
MÈTODE