Está en la página 1de 29

METABOLÓMICA.

GENERALIDADES II

Miguel Fernández García.

Ayudante de Investigación Doctor.

Centro de Metabolómica y Bioanálisis (CEMBIO), Facultad de Farmacia, Universidad San


Pablo-CEU, CEU Universities, Urbanización Montepríncipe, 28660 Boadilla del Monte.
España.

TALLER TEÓRICO PRÁCTICO DE METABOLÓMICA Y SU APLICACIÓN


EN TOXICOLOGÍA FORENSE

22-23 de septiembre de 2022

1
SUMARIO

1. FLUJO DE TRABAJO EN METABOLÓMICA 6

2. DISEÑO EXPERIMENTAL EN METABOLÓMICA 6


2.1. GENERALIDADES 6
2.2. SELECCIÓN DE ENFOQUE (CUALITATIVO VS CUANTITATIVO) 6
2.3. SELECCIÓN DE FACTORES EN ANÁLISIS COMPARATIVOS 7
2.4. SELECCIÓN DE ENFOQUE (DIRIGIDO VS NO DIRIGIDO) 7
2.5. SELECCIÓN DE TÉCNICA Y MÉTODO ANALÍTICO 7
2.6. SELECCIÓN DE TAMAÑO MUESTRAL 8
2.7. DISEÑO Y UTILIZACIÓN DE ESTÁNDARES INTERNOS 9
2.8. DISEÑO DE CONTROLES DE CALIDAD 9
2.9. DISEÑO DE BLANCOS 9

3. OBTENCIÓN Y PREPARACIÓN DE MUESTRA EN METABOLÓMICA 10


3.1. OBTENCIÓN DE MUESTRA 10
3.1.1. Plasma 10
3.1.2. Suero 10
3.1.3. Fluido bronqueoalveolar (BALF) 10
3.1.1. Orina 11
3.1.2. Tejidos 11
3.2. PREPARACIÓN DE MUESTRA INDEPENDIENTE DE TÉCNICA 11
3.2.1. Homogeneización de muestra y lisis celular 11
3.2.2. Inactivación metabólica o quenching 11
3.2.3. Extracción de metabolitos 12
3.3. PREPARACIÓN DE MUESTRA DEPENDIENTE DE TÉCNICA 12
3.3.1. Preparación de muestra en GC-MS 12
3.3.2. Preparación de muestra en CE-MS 13
3.3.3. Preparación de muestra en LC-MS 13

4. ANÁLISIS DE MUESTRA EN METABOLÓMICA 13

2
4.1. SECUENCIA ANALÍTICA PARA MÉTODOS DIRIGIDOS 14
4.2. SECUENCIA ANALÍTICA PARA MÉTODOS NO DIRIGIDOS 15
4.3. EJEMPLOS DE MÉTODOS DE ANÁLISIS NO DIRIGIDO REPRESENTATIVOS 16

5. PROCESADO DE DATOS EN METABOLÓMICA 16


5.1. PROCESADO Y TRATAMIENTO DE DATOS EN ANÁLISIS DIRIGIDOS 16
5.1.1. Extracción e integración de trazas de iones e integración 16
5.1.2. Control de calidad inicial 17
5.1.3. Sustracción de blancos 17
5.1.4. Filtrado 17
5.1.5. Generación de rectas de calibrado y cuantificación 18
5.2. PROCESADO Y TRATAMIENTO DE DATOS NO DIRIGIDO 18
5.2.1. Alineamiento 18
5.2.2. Deconvolución 19
5.2.3. Integración 19
5.2.4. Sustracción de blancos 20
5.2.5. Imputación de valores perdidos 20
5.2.6. Control de calidad inicial 20
5.2.7. Filtrado 20
5.2.8. Normalización 20
5.2.9. Transformación 21
5.2.10. Escalado 21

6. ANOTACIÓN/IDENTIFICACIÓN DE METABOLITOS 21
6.1.1. Anotación en análisis no dirigidos por GC-EI-MS 22
6.1.1. Anotación en análisis no dirigidos por LC-ESI-MS 23
6.1.2. Anotación en análisis no dirigidos por CE-ESI-MS 24

7. ANÁLISIS ESTADÍSTICO Y DE DATOS 24


7.1. ANÁLISIS ESTADÍSTICO UNIVARIANTE 24
7.2. ANÁLISIS DE DATOS MULTIVARIANTE 25
7.2.1. Análisis de clustering, mapas de calor 25
7.2.2. Análisis de componentes principales o PCA 26

3
7.2.3. Análisis discriminante de mínimos cuadrados parciales (PLS-DA) y análisis de
mínimos cuadrados parciales ortogonales (OPLS-DA) 27
7.2.4. Análisis de curvas Receiver Operating Characteristic (ROC) 27

8. INTERPRETACIÓN BIOLÓGICA 28
8.1. BÚSQUEDA DE INFORMACIÓN EN BASES DE DATOS 29
8.2. ANÁLISIS DE ENRIQUECIMIENTO BIOLÓGICO 29
8.3. ANÁLISIS DE REDES METABÓLICAS 29

4
RESUMEN
Tal y como se justifica en la ponencia escrita “Metabolómica: Generalidades I”, la
metabolómica puede ser de gran utilidad en el campo de la toxicología forense. El flujo de
trabajo en metabolómica es un proceso versátil y complejo, que consta de distintas etapas, en
las que se debe de prestar especial atención a detalles de alta importancia para la realización
de un experimento y obtención de datos de alta calidad. La presente ponencia constituye un
acercamiento práctico hacia el experimento de metabolómica, orientado a profesionales con
formación en ciencias químicas y farmacéuticas poco familiarizados con esta disciplina, y
recoge los distintos pasos clave que comprenden el flujo de trabajo de metabolómica, tanto en
experimentos dirigidos como no dirigidos: diseño experimental, obtención y preparación de
muestra, análisis de muestra, procesado de datos, y análisis e interpretación de datos. Dentro
de estos distintos módulos del flujo de trabajo de metabolómica, se detallan aspectos críticos y
clave para la realización de experimentos, haciendo especial énfasis en las plataformas
analíticas LC-ESI-MS, LC-ESI-MS/MS, CE-ESI-MS, y GC-EI-MS.

5
1. FLUJO DE TRABAJO EN METABOLÓMICA
Los estudios de metabolómica pueden interpretarse como estudios modulares o
secuenciales, en los que se establece un flujo de trabajo que parte del diseño experimental del
estudio, seguido por la obtención y preparación de muestras, realización de análisis formal de
la muestra, recolección, procesado y tratamiento de datos, identificación/anotación de
compuestos e interpretación de resultados. En todas estas etapas del experimento de
metabolómica se debe de prestar especial atención a multitud de detalles críticos que pueden
introducir sesgo en los resultados finales o, de ser ignorados, precisar de iteraciones sobre el
flujo de trabajo para obtener una calidad aceptable de resultados. La utilización de un flujo de
trabajo u otro debe de ser definida en el mayor grado posible durante el diseño experimental,
para garantizar una buena calidad de resultados y minimizar la pérdida de información.

Figura 1. Esquema representativo del flujo de trabajo en metabolómica


2. DISEÑO EXPERIMENTAL EN METABOLÓMICA
2.1. GENERALIDADES
El diseño experimental en metabolómica constituye un elemento de vital importancia ya
que, debe de ser realizado correctamente y disponiendo de la mayor cantidad de información a
priori para tomar decisiones correctas en relación con los elementos siguientes del flujo de
trabajo en metabolómica. Un incorrecto diseño experimental tendrá como consecuencias la
pérdida de información necesaria para obtener un análisis de gran calidad, que tenga sentido de
acorde a la hipótesis planteada, y realizar una adecuada interpretación de los datos. La falta de
esta información conduce a la necesidad de repetición del experimento metabolómico, con los
consecuentes costes en tiempo, recursos y esfuerzo.
2.2. SELECCIÓN DE ENFOQUE (CUALITATIVO VS CUANTITATIVO)
El primer paso que debe de ser considerado en el diseño experimental de un estudio
metabolómico es si se pretende realizar un análisis cualitativo de un único tipo de muestra
biológica, o si por el contrario es necesario realizar un análisis comparativo entre dos o más
grupos. El ejemplo más simple de análisis metabolómico exploratorio es la determinación
cualitativa y/o de la presencia o ausencia de metabolitos en una muestra biológica. Dentro de
los análisis comparativos, dicha comparación puede ser cualitativa (presencia o ausencia de
metabolito), semicuantitativa (diferencias en abundancias/respuesta del detector entre una o
más comparativas) o cuantitativa (diferencias en concentraciones entre una o más
comparativas) (1). La necesidad de cuantificación de metabolitos implica la adquisición de
estándares puros que deben de encontrarse disponibles en el laboratorio, y la disponibilidad de
un método validado de cuantificación fiable antes de proceder a las siguientes etapas del
experimento.

1. Liu X, Locasale JW. Metabolomics: A Primer. Trends Biochem Sci. 2017;42(4):274-84.

6
2.3. SELECCIÓN DE FACTORES EN ANÁLISIS COMPARATIVOS
En los análisis comparativos, se han de definir de manera precisa los factores a comparar
(p. ej.: presencia de intoxicación) y los niveles del factor (p. ej.: intoxicado frente a no
intoxicado). Mientras que el diseño experimental de análisis comparativos de un solo factor
resulta relativamente sencillo, en estudios en los que se presentan múltiples factores deben de
seleccionarse y recogerse todos aquellos factores de relevancia para el estudio metabolómico.
Esto también incluye asegurar la trazabilidad de factores potencialmente causantes de sesgo de
tipo confounding (2), que suelen ser en muestras humanas tanto factores discretos (sexo,
fumador) como continuos (IMC, edad). Los factores de confounding pueden ser considerados
en etapas posteriores del reprocesado para tratar de eliminar el enmascarado de las diferencias
en análisis comparativos que se deriva de los mismos (3).

Resulta también de gran importancia el definir si se trata de un estudio pareado o no


pareado (4). En el primero, las muestras correspondientes a dos o más distintos niveles de un
factor son adquiridas del mismo individuo (p. ej.: sangre femoral tomada a las 1, 3, 5, 7 h
postmortem de un mismo individuo fallecido debido a una intoxicación por fentanilo vs sangre
femoral tomada a las 1, 3, 5 y 7h postmortem de mismo un individuo fallecido por causas
naturales), mientras que en el segundo serían adquiridas de individuos independientes (sangre
femoral tomada a las 1, 3, 5 y 7 h postmortem de individuos fallecidos por ambas causas). El
diseño de estudios pareados tiene por objeto principal la reducción de la variabilidad asociada
al individuo y precisa de análisis estadísticos específicos (4).
2.4. SELECCIÓN DE ENFOQUE (DIRIGIDO VS NO DIRIGIDO)
En la selección de enfoque se ha de definir si el experimento debe de tener por objetivo
el obtener señales correspondientes a una mayor cobertura metabolómica, sin definir
previamente un grupo de compuestos concretos de interés (análisis no dirigido o untargeted),
o, por el contrario, si el análisis está centrado en la determinación de unos compuestos de interés
conocidos previamente (análisis dirigido o targeted) (1). Estrictamente, el análisis dirigido entra
en contraposición con el enfoque holístico de la metabolómica. No obstante, por razones
históricas y consenso, los análisis dirigidos se enmarcan en la misma. La selección de enfoque
es uno de los pasos más condicionantes del resto de aspectos del flujo de trabajo de
metabolómica. Idealmente, previo a la realización de estudios dirigidos deben de haberse
adquirido por el laboratorio y caracterizado los estándares puros de metabolitos de interés en el
método a aplicar en el experimento metabolómico.
2.5. SELECCIÓN DE TÉCNICA Y MÉTODO ANALÍTICO
La selección de técnica analítica debe de ser realizada en función de las restricciones en
términos de coberturas de metaboloma que presentan las distintas técnicas de separación, los
distintos modos de ionización y el método. Dentro de los análisis no dirigidos, se ha de por lo
menos definir si hay un interés en la determinación de compuestos polares (CE-MS, GC-MS,
1. Liu X, Locasale JW. Metabolomics: A Primer. Trends Biochem Sci. 2017;42(4):274-84.
2. Tokarz J, Adamski J. Chapter 2 - Confounders in Metabolomics. In: Adamski J, editor. Metabolomics
for Biomedical Research: Academic Press; 2020. p. 17-32.
3. Li Y, Li M, Jia W, Ni Y, Chen T. MCEE: a data preprocessing approach for metabolic confounding
effect elimination. Anal Bioanal Chem. 2018;410(11):2689-99.
4. Ranganathan P. An Introduction to Statistics: Choosing the Correct Statistical Test. Indian J Crit
Care Med. 2021;25(Suppl 2):S184-S6.

7
HILIC-MS) o apolares (RPLC-MS). La selección de técnica resulta especialmente crítica en los
análisis dirigidos ya que, idealmente, se ha de garantizar previamente que la técnica analítica
sea adecuada para cuantificar los metabolitos deseados (> límite de cuantificación o LOQ).
Dentro de cada técnica analítica, el método de elección constituye un paso más de restricción
de cobertura del metaboloma y debe de ser adecuado para identificar y cuantificar
correctamente los metabolitos de interés. Otro aspecto a tener en cuenta en cuanto a la selección
de técnica es su simplicidad de tratamiento de muestra (habitualmente LC-MS < CE-MS < GC-
MS) y tiempo de análisis (dependiente del método), especialmente en estudios de un gran
tamaño muestral. Para garantizar la máxima cobertura del metaboloma se pueden realizar
estudios que apliquen más de una técnica (habitualmente GC-MS y RPLC-MS para cubrir tanto
compuestos polares como apolares), denominados estudios multiplataforma. No obstante, la
realización de este tipo de estudios requiere el dominio de varias técnicas y conlleva una gran
cantidad de tiempo necesaria para llevar a cabo todos los pasos del flujo de trabajo dependientes
de la técnica aplicada.
2.6. SELECCIÓN DE TAMAÑO MUESTRAL
En análisis comparativos, la selección de tamaño muestral depende de una multitud de
factores, entre los que se incluyen la variabilidad estimada de medición, el poder estadístico
deseado, el corte de significación, las magnitudes de diferencias esperadas entre los niveles a
comparar y el tipo de test estadístico a aplicar (5). No obstante, resulta extremadamente
complejo conocer estos parámetros a priori en estudios no dirigidos, y son habitualmente
desconocidos para los metabolitos en análisis dirigidos. En teoría, se debería de maximizar el
tamaño muestral del estudio metabolómico tanto como permitan los costes asociados al estudio.
En la práctica, grandes tamaños muestrales (n > 100 por grupo) suelen estar restringidos a
estudios con hipótesis muy relevantes, o de validación previa a su aplicación a nivel
poblacional. En pequeños estudios, nunca se debe de tener un n < 3 por grupo, y un n < 5
permite usar un número muy bajo de tipos de análisis estadístico. Un alto tamaño muestral
implicará secuencias más largas y por lo tanto los análisis deben de ser lo suficientemente
robustos y estables como para garantizar que las muestras son medidas en condiciones
similares.

El tamaño muestral resulta especialmente crítico para los análisis comparativos no


dirigidos, especialmente en LC-MS, ya que se mide un elevado número de variables
(metabolitos y redundancias) y las correcciones estadísticas aplicadas para minimizar la
proporción de falsos negativos aumentan enormemente los valores de significación asociados
a cada variable (6). Esto se traduce en que, con un tamaño muestral bajo, se posee evidencia
robusta de que los metabolitos determinados como estadísticamente significativos en el análisis
comparativo presenten diferencias de medias entre los niveles del factor estudiado (verdadero
positivo, p. ej.: la administración de morfina causa un incremento en los niveles de fenilpiruvato
sérico y su p valor corregido es < 0.05), pero debido al corte restrictivo hay variables con
diferencias en las medias no determinados como estadísticamente significativos (falso negativo,
la administración de codeína causa un incremento en los niveles de fenilpiruvato sérico y su p-
valor corregido es > 0.05)).

5. Chander NG. Sample size estimation. J Indian Prosthodont Soc. 2017;17(3):217-8.


6. Midway S, Robertson M, Flinn S, Kaller M. Comparing multiple comparisons: practical guidance for
choosing the best multiple comparisons test. PeerJ. 2020;8:e10387.

8
2.7. DISEÑO Y UTILIZACIÓN DE ESTÁNDARES INTERNOS
Los estándares o patrones internos (IS) son compuestos que son utilizados para
monitorizar la reproducibilidad de uno o varios procesos analíticos. Pueden ser utilizados desde
el inicio del proceso de preparación de muestra, en cuyo caso resulta una práctica habitual el
generar una disolución de estándar interno en el extractante utilizado en el experimento. El IS
debe de ser idealmente un compuesto no presente en las muestras biológicas a utilizar, y que
posea una respuesta idéntica o lo más parecida posible en el detector a los metabolitos de interés.
Tanto en análisis dirigidos como no dirigidos que no requieren cuantificación absoluta, es
habitual la utilización de un estándar interno, asumiendo en el experimento que todos los
analitos se comportan de manera análoga con respecto al IS. Los IS son muy importantes en los
procesos de evaluación de control de calidad de los datos (ver apartado 5.1.2) y en su
normalización (ver apartado 5.2.8) y se requiere de su utilización para monitorizar procesos en
la preparación y/o análisis de muestra sospechosos de ser una fuente relevante de variabilidad
no biológica (7).
2.8. DISEÑO DE CONTROLES DE CALIDAD
Los controles de calidad (QC) son aquellas muestras utilizadas para realizar una
evaluación de la calidad del análisis, así como de los datos obtenidos a partir de él (8).
Idealmente, los QC deben de tener una composición lo más parecida posible a la matriz
biológica a realizar. La práctica más adecuada en análisis no dirigidos es, asumiendo que la
matriz biológica a evaluar no difiere enormemente entre los niveles de los factores a estudiar
en el análisis comparativo, preparar alícuotas a partir de volúmenes iguales obtenidas de cada
muestra, las cuales representan un promedio de las matrices biológicas a evaluar. Otras
aproximaciones válidas según el tipo de experimento son utilizar una matriz biológica de
referencia (p. ej.: plasma certificado para estudios de plasma), o bien una mezcla sintética de
compuestos en los niveles esperados en la matriz biológica a evaluar, lo cual resulta de especial
aplicación en análisis dirigidos. Previo al experimento metabolómico no dirigido, se debe de
garantizar de la suficiencia de volumen de muestra para la generación de QC.
2.9. DISEÑO DE BLANCOS
Los blancos analíticos son fundamentales en el experimento metabolómico y son
utilizados para determinar el estado del equipo en términos de origen artefactual de un
compuesto (contaminación), y en caso de que éste se encuentre en muestra biológica pero sus
niveles provengan parcialmente de una contaminación, realizar la estimación de la
concentración presente en muestra biológica. Los blancos de inyección informan de
contaminaciones en el sistema, mientras que los blancos de extracción deben de parecerse lo
más posible a la muestra biológica y deben de ser procesados mediante condiciones de
preparación de muestra idénticas a las muestras biológicas para que la determinación de
contaminaciones pueda ser fiable. Los blancos de extracción deben de prepararse al menos por
triplicado en un experimento metabolómico.

7. Sysi-Aho M, Katajamaa M, Yetukuri L, Oresic M. Normalization method for metabolomics data using
optimal selection of multiple internal standards. BMC Bioinformatics. 2007;8:93.
8. Broadhurst D, Goodacre R, Reinke SN, Kuligowski J, Wilson ID, Lewis MR, et al. Guidelines and
considerations for the use of system suitability and quality control samples in mass spectrometry assays applied in
untargeted clinical metabolomic studies. Metabolomics. 2018;14(6):72.

9
3. OBTENCIÓN Y PREPARACIÓN DE MUESTRA EN METABOLÓMICA
La obtención y preparación de muestras constituye un proceso crítico del que depende
gran cantidad de la calidad del análisis metabolómico. Salvo que el diseño experimental lo
requiera, todas las muestras deben de ser preparadas en las mismas condiciones de análisis, con
objeto de reducir la variabilidad introducida por el personal de laboratorio que realiza esta etapa
del estudio metabolómico.
3.1. OBTENCIÓN DE MUESTRA
La obtención de la muestra constituye un paso fundamental y habitualmente subestimado
en el experimento metabolómico. Para garantizar la fiabilidad de los hallazgos relativos a
sistemas biológicos vivos, en caso de requerirse que las concentraciones de metabolitos sean lo
más parecidas posibles a las que tenían lugar en el momento de recolección de la muestra, las
muestras deben de ser adquiridas con gran rapidez y ser sometidas a muy bajas temperaturas
que inactiven las reacciones enzimáticas. No obstante, en metabolómica postmortem esto
podría no ser necesario. Además, en estudios controlados, se debe de garantizar la
reproducibilidad del estudio, por lo que las muestras deben de ser recolectadas siempre de la
misma manera, utilizando un protocolo definido y respetando los intervalos de tiempo. El
material a utilizar debe de ser lo más inerte químicamente posible y estar lo más libre de
contaminaciones por moléculas pequeñas. Idealmente, debe de utilizarse vidrio o plástico inerte
de alta calidad, siendo este desaconsejado en estudios de análisis de lípidos. Las siguientes
recomendaciones no aplican a metabolómica postmortem, en donde se deben de utilizar
protocolos de recolección específicos (9).
3.1.1. Plasma
Debe de ser recolectado de una vena periférica a un tubo que contenga anticoagulante.
Es desaconsejable utilizar tubos con heparina y especialmente tubos con citrato, ya que hacen
imposible la determinación de citrato endógeno. Tras su centrifugación (2000 x g, 4 ºC, 20 min)
se ha de separar el sobrenadante y ser transferido a tubos compatibles para ser posteriormente
congelado a – 80 ºC (10).
3.1.2. Suero
Debe de ser recolectado de manera análoga al plasma, pero utilizando tubos que
contengan activadores de coagulación basados en silicatos. Tras la coagulación, la
centrifugación se realiza de manera análoga al apartado 3.1.1 y el suero es congelado a -80 ºC
(10).
3.1.3. Fluido bronqueoalveolar (BALF)
Es recolectado en tubos estériles y sometido a centrifugación lenta (300 x g, 4 ºC, 10
min) (10).

9. Pesko BK, Weidt S, McLaughlin M, Wescott DJ, Torrance H, Burgess K, et al. Postmortomics: The
Potential of Untargeted Metabolomics to Highlight Markers for Time Since Death. OMICS. 2020;24(11):649-59.
10. Rey-Stolle F, Dudzik D, Gonzalez-Riano C, Fernández-García M, Alonso-Herranz V, Rojo D, et al. Low
and high resolution gas chromatography-mass spectrometry for untargeted metabolomics: A tutorial. Anal Chim
Acta. 2022;1210:339043.

10
3.1.1. Orina
Idealmente debe de considerarse siempre el mismo tipo de orina (primera de la mañana
u otra) para todos los individuos y debe de ser inmediatamente transferida a tubos inertes
compatibles y sometida a congelación a -80 ºC (10).
3.1.2. Tejidos
En líneas generales, se deben de adquirir porciones que sean similares histológicamente
para reducir la variabilidad entre individuos debida a la recolección de muestra. Se debe de
minimizar el contacto del tejido con la sangre. Es habitual congelar inmediatamente los tejidos
en nitrógeno líquido y preservarlos a -80 ºC (10)
3.2. PREPARACIÓN DE MUESTRA INDEPENDIENTE DE TÉCNICA
3.2.1. Homogeneización de muestra y lisis celular
En el caso de muestras sólidas (tejidos) y en muestras sólidas provenientes de células se
debe de realizar una homogeneización con objeto de romper los tejidos y células para poder
facilitar la extracción de los metabolitos (ver apartado 3.2.3). Esta homogeneización se puede
realizar (i) preservando la muestra en nitrógeno líquido y con ayuda de un mortero y pistilo
previo al quenching metabólico y previo a la extracción (habitualmente tejidos (11), ver
apartado 3.2.2) (ii) por medio de la utilización de una sonda (células, tejidos) o baño (células)
de ultrasonidos (12), (iii) depositando las muestras en tubos específicos compatibles con un
homogenizador concreto (p.ej.: TissueLyser) que también contienen perlas que favorecen la
ruptura de los tejidos/células (13) y (iv) por medio de ciclos de congelación/descongelación en
mezclas de solventes (12) (ver apartados 3.2.2 y 3.2.3) con una proporción de agua que permite
la formación de cristales que rompen la integridad de las membranas celulares, causando la
liberación de metabolitos intracelulares (específico para células). Idealmente, en los procesos
de homogenización no se deben de superar los 20 ºC y por ello es común que los procesos de
homogeneización cíclicos que suministran energía y por tanto calor a la muestra se alternen con
períodos de enfriamiento en baño de hielo.
3.2.2. Inactivación metabólica o quenching
Debido a la acción que ejercen las enzimas sobre metabolitos, en el caso de estudiar
fenómenos que tienen lugar in vivo o in vitro, se debe de realizar una inactivación de las enzimas
para garantizar que las concentraciones de metabolitos son equivalentes a aquellas en el
momento de adquisición de la muestra (14). Después de la recolección de la muestra, las
enzimas generalmente son inactivadas debido a que la muestra es o bien conservada a -80 ºC o
congelada en nitrógeno líquido y después conservada a -80 ºC (tejidos y células), pero esta

10. Rey-Stolle F, Dudzik D, Gonzalez-Riano C, Fernández-García M, Alonso-Herranz V, Rojo D, et al. Low


and high resolution gas chromatography-mass spectrometry for untargeted metabolomics: A tutorial. Anal Chim
Acta. 2022;1210:339043.
11. Lin CY, Wu H, Tjeerdema RS, Mark V. Evaluation of Metabolite Extraction Strategies From Tissue
Samples Using NMR Metabolomics. Metabolomics. 2007;3(1):55-67.
12. Mathon C, Bovard D, Dutertre Q, Sendyk S, Bentley M, Hoeng J, et al. Impact of sample preparation
upon intracellular metabolite measurements in 3D cell culture systems. Metabolomics. 2019;15(6):92.
13. Luo X, Li L. Metabolomics of Small Numbers of Cells: Metabolomic Profiling of 100, 1000, and 10000
Human Breast Cancer Cells. Anal Chem. 2017;89(21):11664-71.
14. Pinu FR, Villas-Boas SG, Aggio R. Analysis of Intracellular Metabolites from Microorganisms:
Quenching and Extraction Protocols. Metabolites. 2017;7(4):53.

11
inactivación es reversible al aumentar la temperatura. Además, las proteínas ensucian el liner
y/o la columna de GC al no ser volátiles, así como generalmente producen efectos indeseables
en los capilares de CE y columnas de LC (salvo aplicaciones específicas de determinación de
proteínas). Por ello, previo al análisis metabolómico, es necesario realizar una deproteinización
de la muestra. La deproteinización implica desnaturalización de las proteínas y puede ser
realizada mediante cambios drásticos a pH muy extremos, temperaturas extremas, filtración
rápida por un tamaño de poro inferior al tamaño de la mayoría de las proteínas, y por medio de
la adición de disolventes orgánicos, siendo esta última la metodología mas comúnmente
utilizada en procesos de quenching (14). Los disolventes orgánicos más comúnmente utilizados
son el metanol, el acetonitrilo, el etanol, el isopropanol, el hexano, el cloroformo y el metil-
tertbutil éter. Para garantizar un adecuado quenching, cuando la muestra es un líquido acuoso
una práctica común es añadir tres partes de disolvente frío (-20 ºC) por cada parte de muestra.
El quenching metabólico se realiza en hielo, salvo en el caso de análisis para la determinación
de lípidos y otros metabolitos que puedan precipitar a temperaturas entre 0 y 20 ºC. En el caso
de muestras postmortem, el quenching metabólico tal vez no sea necesario, en función de la
hipótesis planteada y técnica a utilizar.
3.2.3. Extracción de metabolitos
La extracción de metabolitos tiene por objeto producir una recuperación de cantidades
adecuadas y reproducibles de metabolito de la muestra biológica, que habitualmente pasa a estar
en estado de disolución. Generalmente, el proceso de extracción ocurre de manera simultánea
al proceso de quenching metabólico. No obstante, se pueden realizar extracciones secuenciales
y combinar solventes miscibles, o bien añadir otro solvente a la mezcla tras el quenching, etc.
Los extractantes más comunes son los disolventes mencionados en el apartado 3.2. El
extractante debe de ser elegido en función de la solubilidad de los metabolitos a analizar. En el
caso de análisis no dirigidos, la cobertura de metaboloma de los análisis por RPLC-MS sin
haber extraído previamente con mezclas que contengan solventes muy apolares (hexano,
cloroformo, metil-tertbutiléter) no permitirá identificar lípidos muy apolares, tales como los
triglicéridos. En CE-MS y GC-MS, el uso de extractantes apolares comprometerá los niveles
de la mayoría de los metabolitos detectables por estas técnicas. En HILIC-MS, generalmente la
muestra debe de ir disuelta en acetonitrilo o mezclas de acetonitrilo y agua, ya que el uso de
otros disolventes de muestra conlleva grandes efectos deletéreos en la resolución
cromatográfica.
3.3. PREPARACIÓN DE MUESTRA DEPENDIENTE DE TÉCNICA
3.3.1. Preparación de muestra en GC-MS
Existe una gran diversidad de metodologías de preparación de muestra en GC-MS. En
metabolómica, habitualmente las muestras a analizar son disoluciones de metabolitos ya
extraídos (las metodologías relacionadas con microextracción en fase sólida e inyección del
espacio de cabeza se encuentran fuera del objetivo de esta ponencia). En estos casos, resulta
prácticamente indispensable realizar la derivatización de los metabolitos en solución para
aumentar la cobertura del metaboloma. Los protocolos de derivatización para análisis dirigidos
deben de estar validados, mientras que aquellos para análisis no dirigidos deben al menos de
contener agente derivatizante en exceso para poder realizar la derivatización lo más completa
posible de los metabolitos, ya que se debe de tratar de reducir la formación de múltiples
derivados lo máximo posible. Las distintas metodologías de derivatización para GC-MS

14. Pinu FR, Villas-Boas SG, Aggio R. Analysis of Intracellular Metabolites from Microorganisms:
Quenching and Extraction Protocols. Metabolites. 2017;7(4):53.

12
habitualmente producen la sililación, acetilación ó alquilación de grupos polares capaces de
formar puentes de hidrógeno. Es habitual que las reacciones de derivatización transcurran en
unas condiciones de disolución distintas del disolvente de extracción, por lo que se suele
realizar una evaporación a alto vacío o en corriente de nitrógeno previo a la derivatización (debe
de garantizarse la completa sequedad de los viales tras la evaporación).
Como ejemplo extendido en la comunidad metabolómica, para la realización de análisis
no dirigidos se suele utilizar una derivatización secuencial que permite la metoximación de
grupos carbonilo utilizando O-metoxiamina en piridina (para bloquear los múltiples derivados
generados por la tautomería cetoenólica) y una posterior trimetilsililación de grupos polares
mediante trimetilclorosilano. Una vez producida la reacción de derivatización, los compuestos
son reconstituidos en un solvente apolar (p. ej.: n-heptano) y son analizados siguiendo un
protocolo específico (15).
3.3.2. Preparación de muestra en CE-MS
Habitualmente, la preparación de muestra en CE-MS implica que el extracto
deproteinizado debe de ser preconcentrado utilizando o bien una evaporación a alto vacío o bien
secado en corriente de nitrógeno para alcanzar una mayor cobertura metabólica (16) (la orina
constituye habitualmente una excepción a esta norma) Tras esta evaporación, las muestras
pueden preconcentrarse reconstituyendo en volúmenes que son más dependientes de la altura
del vial mínima para el equipo que del volumen de inyección en CE (nL). Es común que el
disolvente de reconstitución sea acuoso y posea un pH ácido o básico, en consonancia con el
buffer de separación por CE (16). Es importante que los viales de CE se encuentren libres de
burbujas que pueden obstruir el capilar, para ello pueden ser centrifugados, previamente al
análisis de los mismos.
3.3.3. Preparación de muestra en LC-MS
El análisis por LC-MS permite el análisis directo de los extractos de metabolitos siempre
y cuando la naturaleza de este extracto sea compatible con la configuración del LC. No obstante,
se pueden utilizar procesos de evaporación/resuspensión en caso de necesitar producir la
medición de metabolitos que se encuentran a bajas concentraciones (17), siendo también
habitual utilizar una purificación y preconcentración mediante extracción en fase sólida (18)
(los fundamentos de ésta se encuentran fuera de los objetivos de la ponencia). Resulta
importante verificar la correcta adaptación de las tapas de los viales para impedir que se
produzcan interrupciones en la secuencia por fallo del multisampler.
4. ANÁLISIS DE MUESTRA EN METABOLÓMICA
El análisis de muestra constituye el último paso experimental de wet lab en el flujo de
trabajo de metabolómica. En los análisis no dirigidos, se requiere de instrumentación de alta
resolución de masas (p. ej.: TOF, Orbitrap). Idealmente, las muestras deben de ser analizadas

15. Fiehn O. Metabolite profiling in Arabidopsis. In: Salinas J, Sanchez-Serrano JJ, editors. Arabidopsis
Protocols. 2nd ed. Berlin: Springer; 2006. p. 439–47.
16. García A, Godzien J, López-Gonzálvez Á, Barbas C. Capillary electrophoresis mass spectrometry as a
tool for untargeted metabolomics. Bioanalysis. 2017;9(1):99-130.
17. Lindahl A, Sääf S, Lehtiö J, Nordström A. Tuning Metabolome Coverage in Reversed Phase LC-MS
Metabolomics of MeOH Extracted Samples Using the Reconstitution Solvent Composition. Anal Chem.
2017;89(14):7356-64.
18. Sitnikov DG, Monnin CS, Vuckovic D. Systematic Assessment of Seven Solvent and Solid-Phase
Extraction Methods for Metabolomics Analysis of Human Plasma by LC-MS. Sci Rep. 2016;6:38885.

13
en una sola secuencia y ser aleatorizadas, ya que es habitual que se produzca una disminución
en la sensibilidad del equipo conforme avanza la secuencia, atribuible a la acumulación de
residuos en la fuente de ionización. Debido al gran tamaño muestral que suelen presentar los
estudios de metabolómica deben de realizarse multitud de comprobaciones previas a la
ejecución de la secuencia, así como durante la secuencia. En concreto se debe de comprobar
que se posee de (i) volumen de líquido suficiente en todos los reservorios y viales a ser
analizados, así como de soluciones de masas de referencia para corrección online en equipos
que las necesiten (ii) analizador de masa correctamente calibrado en términos de resolución de
masa, (iii) analizador de masa operando en niveles de sensibilidad adecuados y reproducibles,
(iv) técnica de separación operando de manera adecuada y reproducible y (v) secuencia
correctamente introducida y (vi) tiempo de análisis suficiente.
4.1. SECUENCIA ANALÍTICA PARA MÉTODOS DIRIGIDOS
La secuencia analítica para métodos dirigidos en metabolómica consta de tres elementos
fundamentales: blancos, disoluciones de estándares y muestras. En caso de necesitarse
cuantificación, se deben de utilizar disoluciones de estándares a distintas concentraciones para
generar rectas de calibrado. Como buena práctica, estas rectas deben de generarse por el método
de diluciones seriadas y encontrarse los niveles del metabolito a analizar dentro del intervalo
de linealidad de la recta de calibrado. La secuencia debe de comenzar con blancos de inyección
y de extracción, seguida de al menos una tanda de diluciones seriadas comenzando en orden
creciente de concentración, seguida de al menos un blanco y/o una inyección repetida de una
muestra (especialmente en LC-MS) para evitar carryover sobre las muestras aleatorizadas.

Seguidamente, se procede al análisis de las muestras aleatorizadas, en el que no es


infrecuente utilizar una disolución seriada de concentración intermedia (QC) para ser inyectada
periódicamente cada N muestras (al menos cada 6) para determinar la evolución del sistema en
términos de sensibilidad, resolución, etc. conforme avanza la secuencia. Tras el análisis de la
secuencia de muestras aleatorizadas, se realiza una segunda medición de tanda de diluciones
seriadas en orden creciente precedida por tres blancos y sucedida por otro. Idealmente, deberían
de analizarse al menos tres tandas de diluciones seriadas de estándares para obtener la recta de
calibrado. Para ello, se pueden insertar o bien rectas de calibrado “en sándwich” en medio de
la secuencia de muestras aleatorizadas y siempre de manera simétrica, o añadir una dilución
seriada cada N muestras, siempre seguida de un blanco y/o una inyección repetida de una
muestra. Las inyecciones repetidas de muestra se realizan debido a que el análisis de blancos
durante la secuencia altera el equilibrio cromatográfico y por lo tanto ha de ser recuperado al
menos parcialmente para que las muestras sean analizadas en condiciones cromatográficas
similares.

En la secuencia analítica para análisis dirigidos se deben de utilizar métodos con un modo
de adquisición que permita (i) obtener información para identificar de manera inequívoca al
metabolito en función de sus propiedades espectrales y cromatográficas, que deben de
corresponder con las de los estándares utilizados y (ii) realizar una integración de las
abundancias, habitualmente sobre un fragmento abundante (GC-EI-MS) o un ión
pseudomolecular (LC-ESI-MS y CE-ESI-MS). Para identificar de manera inequívoca al

14
metabolito, se debe de realizar un spiking de la muestra con una concentración de estándar que
permita observar como las propiedades del estándar y del metabolito son idénticas (19).

Figura 2. Esquema representativo de secuencia analítica para métodos dirigidos


4.2. SECUENCIA ANALÍTICA PARA MÉTODOS NO DIRIGIDOS
La secuencia analítica para métodos no dirigidos consta habitualmente de blancos sin
inyección, de inyección, blancos de extracción, QC y muestras aleatorizadas (8, 20). La
secuencia comienza siempre con al menos tres inyecciones de blancos de extracción, que como
buena práctica deberían de estar precedidos de blancos de inyección y blancos sin inyección. A
estos blancos de extracción les sucede una serie de inyecciones que tienen por objeto alcanzar
condiciones cromatográficas reproducibles. Idealmente, estas inyecciones deberían ser de QC
y no menos de 6 inyecciones para GC-MS (viales preparados independientemente) y no menos
de 10 para LC-MS y CE-MS (puede ser del mismo vial, si el volumen lo permite). Tras este
equilibrado, se procedería al análisis de las muestras aleatorizadas, realizando periódicamente
una inyección de QC tras no más de 6 muestras. Tras completar el análisis de las muestras
aleatorizadas, idealmente se deberían de inyectar blancos de extracción (no menos de 3). Este
análisis de muestras debe de ser realizado con un modo de adquisición que permita la
integración de los picos cromatográficos con un número de puntos por pico aceptable, lo más
habitual full-MS. A estas inyecciones, les pueden suceder en la secuencia inyecciones con otros
métodos capaces de arrojar información estructural útil en la anotación de compuestos
desconocidos. En analizadores simples (p. ej.: TOF), no resulta desdeñable incrementar el
voltaje del fragmentor en análisis con distintos métodos de QC o pools de grupos de muestras
para producir una mayor fragmentación en fuente que puede ser posteriormente utilizada para
identificar el ión pseudomolecular y fragmentos específicos. En el caso de los analizadores
híbridos, lo más frecuente es realizar inyecciones sucesivas de QC o pools de grupos de
muestras, utilizando un método de adquisición de espectrometría de masas en tándem
dependiente de datos (ddMS2, iterative-MS/MS, etc.) de manera que se pretenda obtener
espectros de MS/MS de todos los distintos iones medidos para facilitar la anotación de
metabolitos por bases de datos. Una alternativa, utilizada antes del surgimiento de estos
métodos es adquirir espectros de MS/MS realizando una nueva secuencia una vez terminado el
experimento e identificados tentativamente los metabolitos relevantes en el análisis no dirigido.
No obstante, esto requiere la congelación y descongelación adicional de las muestras y se
desaconseja actualmente por la posible pérdida de reproducibilidad en el experimento

8. Broadhurst D, Goodacre R, Reinke SN, Kuligowski J, Wilson ID, Lewis MR, et al. Guidelines and
considerations for the use of system suitability and quality control samples in mass spectrometry assays applied in
untargeted clinical metabolomic studies. Metabolomics. 2018;14(6):72.
19. Wishart DS. Computational strategies for metabolite identification in metabolomics. Bioanalysis.
2009;1(9):1579-96.
20. Riquelme G, Zabalegui N, Marchi P, Jones CM, Monge ME. A Python-Based Pipeline for Preprocessing
LC-MS Data for Untargeted Metabolomics Workflows. Metabolites. 2020;10(10):416.

15
Figura 3. Esquema representativo de secuencia analítica para métodos no dirigidos
4.3. EJEMPLOS DE MÉTODOS DE ANÁLISIS NO DIRIGIDO REPRESENTATIVOS
Como ejemplos a destacar en metodologías no dirigidas, destacan el método de Fiehn
para GC-EI-MS (15) asociado a la librería FiehnLib (21) que permite una anotación de
compuestos con alta confianza debido al uso de tiempo de retención como criterio adicional, el
método de lipidómica Lipid Annotator (22) asociado al software del mismo nombre que permite
la anotación masiva de lípidos endógenos mediante espectros de MS/MS, y los métodos de CE-
MS compatibles con la herramienta CE-MS Experimental RMT Search (23), que permiten la
anotación de compuestos con alta confianza utilizando el tiempo de migración relativo de una
base de datos de estándares puros.
5. PROCESADO DE DATOS EN METABOLÓMICA
El objetivo del procesado y tratamiento de datos es obtener datos cualitativos y
cuantitativos/semicuantitativos fiables a partir de los datos crudos que son generados por el
software asociado al espectrómetro de masas. El procesado de datos se realiza con distintos
softwares específicos de cada casa comercial (p.ej.: Thermo Fisher Scientific, Agilent
Technologies, Waters) o softwares de acceso abierto desarrollados por la comunidad de
científicos dedicados a la metabolómica (24).
5.1. PROCESADO Y TRATAMIENTO DE DATOS EN ANÁLISIS DIRIGIDOS
5.1.1. Extracción e integración de trazas de iones e integración
Para extraer e integrar trazas de iones, se utiliza un software capaz de extraer la
información de la traza correspondiente a uno o varios metabolitos de manera individual; se
seleccionan las trazas de los m/z del ión pseudomolecular (CE-ESI-MS, LC-ESI-MS), del
fragmento (GC-EI-MS) ó de las transiciones en caso de espectrometría de masas en tándem
15. Fiehn O. Metabolite profiling in Arabidopsis. In: Salinas J, Sanchez-Serrano JJ, editors. Arabidopsis
Protocols. 2nd ed. Berlin: Springer; 2006. p. 439–47.
21. Kind T, Wohlgemuth G, Lee DY, Lu Y, Palazoglu M, Shahbaz S, et al. FiehnLib: mass spectral and
retention index libraries for metabolomics based on quadrupole and time-of-flight gas chromatography/mass
spectrometry. Anal Chem. 2009;81(24):10038-48.
22. Koelmel J, Sartain M, Salcedo J, Murali A, Xiangdong L, Stow S. Improving Coverage of the Plasma
Lipidome Using Iterative MS/MS Data Acquisition Combined with Lipid Annotator Software and 6546 LC/Q-
TOF 2019 [Available from: https://www.agilent.com/cs/library/applications/application-6546-q-tof-lipidome-
5994-0775en-agilent.pdf].
23. Mamani-Huanca M, de la Fuente AG, Otero A, Gradillas A, Godzien J, Barbas C, et al. Enhancing
confidence of metabolite annotation in Capillary Electrophoresis-Mass Spectrometry untargeted metabolomics
with relative migration time and in-source fragmentation. J Chromatogr A. 2021;1635:461758.

16
(p.ej.: 162.1 -> 89.2) con un intervalo de tolerancia de masa adecuado (p. ej.: 0.5 amu para QqQ
ó 20 ppm para TOF, 5 ppm para OT). La traza suele ser extraída en una ventana de tiempo de
retención/migración definida, para todas las muestras. Una vez extraída, la traza, que
idealmente debería de seguir un perfil de gaussiana, es integrada de manera automática
utilizando un algoritmo de integración. Habitualmente, esta integración debe de ser corregida
manualmente para obtener un valor de área bajo la curva adecuado. En algunos softwares de
búsqueda y extracción de trazas de iones se tiene en cuenta la distribución isotópica que debería
de ser generada por la fórmula molecular del compuesto. Las áreas bajo la curva para cada uno
de los compuestos en cada una de las muestras, blancos, análisis de diluciones seriadas de
estándares, o QC basado en estándar son integradas, generando una matriz de dimensiones m x
n (metabolitos x muestras analizadas, o viceversa), que contiene las abundancias
correspondientes.
5.1.2. Control de calidad inicial
Como control de calidad inicial, se deben de utilizar las abundancias de los QC
inyectados a lo largo de la secuencia, y/o del estándar interno presente en las muestras
analizadas. Al ser provenientes de la misma mezcla de muestras, las diferencias que puedan
ocurrir a lo largo de la secuencia estarán relacionadas con aspectos analíticos y/o artefactuales
no representan la variabilidad biológica inherente a las muestras. Se debe de inspeccionar al
menos la evolución en la suma de abundancias total de cada QC y la abundancia del estándar
interno para evaluar si hay alguna tendencia, ya que una tendencia a aumentar implica posible
carryover, y una tendencia a disminuir habitualmente implica disminución en la sensibilidad
del instrumento; si existe una tendencia, en el caso de los QC se debe de evaluar si esta se
produce de manera global o se produce por un metabolito determinado. Tendencias temporales
de disminución progresiva del área en un metabolito en concreto no justificadas por el
comportamiento global de los datos son indicativos de la degradación progresiva del
metabolito. Se deben de eliminar observaciones con características de outlier atribuibles a un
problema instrumental (p.ej.: inyección accidental de menor volumen) tanto en abundancias
globales de QC como en IS.
5.1.3. Sustracción de blancos
En términos generales, se deberían de promediar las abundancias de los metabolitos
determinadas para todas las réplicas de blancos de extracción utilizados de manera consecutiva
al principio o al final de la secuencia (en función de varios factores tales como la
reproducibilidad cromatográfica de los blancos iniciales y el carryover presente en los finales)
cuya señal sea cuantificable (> LOQ o ratio señal-ruido > 10). Si el análisis es semicuantitativo,
este promedio debería sustraerse en términos de abundancia al valor de las abundancias del
mismo en cada muestra, QC, o dilución seriada. No obstante, si el análisis requiere
cuantificación, se debe de evaluar el comportamiento de la señal del blanco con respecto a la
señal en muestra para determinar si la sustracción de abundancias tiene como resultado valores
fiables, o si por el contrario y es posible, se deben de estimar las concentraciones de cada réplica
de blanco, promediarse y sustraerse a las concentraciones calculadas de cada muestra, QC, y/o
dilución seriada (ver apartado 4.1).
5.1.4. Filtrado
Las metodologías de filtrado tienen por objeto eliminar aquellas variables que presentan
un sesgo tan grande en su medición que justifica su eliminación para análisis estadísticos

17
posteriores. Por lo general, en análisis dirigidos no se realizan filtrados basados en los controles
de calidad. No obstante, se debe de conocer que, si el metabolito se encuentra presente y ausente
en los QC, su determinación puede estar sesgada. Además, si la desviación estándar relativa o
RSD ((desviación estándar/promedio)*100) es mayor de 30%, existe una gran variabilidad
analítica que podría enmascarar las diferencias entre medias buscadas en los análisis
estadísticos (25). Los filtros basados en presencia utilizan un umbral de presencia (típicamente
60-80% en al menos un grupo) permiten determinar que la presencia de un metabolito es
representativa de un grupo de muestras. Los metabolitos que no superen los cortes de filtrado
seleccionados son eliminados de la matriz de datos.
5.1.5. Generación de rectas de calibrado y cuantificación
La cuantificación absoluta de un metabolito o panel de metabolitos requiere de un
método validado, la utilización de estándares deuterados y la generación de rectas de calibrado
por spiking en la misma matriz biológica. No obstante, estos requisitos no se cumplen en la
mayoría de los experimentos metabolómicos dirigidos y por lo tanto se recurre a una estimación
más o menos precisa de los valores absolutos de concentración de metabolitos.
La generación de rectas de calibrado se realiza idealmente generando una regresión lineal
y utilizando como puntos aquellas abundancias generadas por diluciones seriadas de
concentración conocida para cada metabolito. Es habitual que esta condición no se dé, y por lo
tanto se deban de realizar rectas de calibrado independientes en distintos puntos de la secuencia
e interpolar los niveles de las muestras a la recta de calibrado más cercana, pero esto puede
acarrear la introducción de sesgo. Una recta de calibrado es considerada válida desde el punto
de vista analítico si posee un r2 ≥ 0.999, y debe de poseer > 3 puntos de concentración
analizados. Debe de haber varios puntos de abundancia por encima y por debajo de los
obtenidos por las medidas de las muestras. En la práctica, debido a la gran diferencia en órdenes
de magnitud de los metabolitos, es posible que muchos de ellos se encuentren en regiones no
lineales de respuesta del detector. La solución más propia desde el punto de vista analítico
resulta en subdividir el método n veces para determinar aquellos metabolitos que se encuentran
fuera de la linealidad, modificando la concentración de la muestra o el volumen de inyección.
Una posible solución que no requiere de la realización de análisis adicionales es evaluar la
respuesta del detector y ajustar una función no lineal a los datos. No obstante, la interpolación
de muestras en estas curvas puede estar sujeta a sesgo y bajo ningún concepto debe de ser
realizada fuera de los puntos definidos por las abundancias de las diluciones seriadas. Una vez
cuantificados los metabolitos, se posee una matriz de datos m x n con las concentraciones
correspondientes a cada metabolito en cada muestra.
5.2. PROCESADO Y TRATAMIENTO DE DATOS NO DIRIGIDO
5.2.1. Alineamiento
El alineamiento tiene por objeto modificar computacionalmente los datos de tiempos de
retención para producir tiempos de retención similares para los desconocidos, ya que esto
facilita las siguientes etapas del procesado de datos. No obstante, siempre resulta más adecuado
disponer de un método de separación robusto. Existen distintos algoritmos de alineamiento (26),
los cuales se encuentran fuera del objetivo de esta ponencia.
25. Ivanisevic J, Want EJ. From Samples to Insights into Metabolism: Uncovering Biologically Relevant
Information in LC-HRMS Metabolomics Data. Metabolites. 2019;9(12):308.
26. Lab F. Peak Alignment of LC, GC, MS, NMR data 2016 [Available from:
https://fiehnlab.ucdavis.edu/staff/kind/metabolomics/peak-alignment].

18
5.2.2. Deconvolución
La deconvolución constituye el primer paso del procesado de datos de metabolitos no
dirigidos y consiste en la aplicación de un algoritmo basado en ciertos parámetros que deben
de ser provistos, y que tiene por objeto reconocer señales en los datos crudos que por su
elución/migración en el cromatograma/electroferograma, y sus propiedades de m/z pertenezcan
al mismo compuesto. Es decir, el algoritmo de deconvolución agrupa m/z correspondientes al
mismo compuesto y por lo tanto es capaz de determinar un número concreto de compuestos
desconocidos presentes en el análisis. Los algoritmos de deconvolución suelen ser dependientes
de la fuente de ionización y la técnica aplicada (GC-EI-MS vs LC-ESI-MS ó CE-ESI-MS), y
se utilizan en distintos softwares (24) (p.ej.: Agilent MassHunter Profinder, Thermo Compound
Discoverer, Agilent MassHunter Unknowns Analysis). Para agrupar los m/z correspondientes al
mismo compuesto, los algoritmos pueden tomar información “no dirigida” en la que los m/z
son asociados a un mismo compuesto única y exclusivamente en función del perfil
cromatográfico del m/z, o bien de manera “dirigida o semidirigida”, en la cual se establecen
restricciones adicionales para la asociación de m/z con un compuesto en función de la
distribución isotópica esperada (p. ej.: halogenados o compuestos comunes orgánicos ó bien
seleccionando número de cargas esperadas), los iones pseudomoleculares posibles (p. ej.: se
selecciona únicamente [M + H]+ y [M + Na]+ para un reprocesado de LC-ESI-MS en polaridad
positiva). Frecuentemente pueden utilizarse filtros adicionales basados en umbrales de
abundancia, de saturación, o de forma aberrante del pico. Debido a que los experimentos de
metabolómica requieren del procesado de varias muestras, los softwares de deconvolución
habitualmente también producen un agrupado de desconocidos en muestras basado en umbrales
de tolerancia de m/z y de tiempos de retención y/o migración. El resultado formal de la
deconvolución es la generación de un perfil cromatográfico y un pseudoespectro de m/z por
cada desconocido detectado, pero muchos softwares con algoritmos de deconvolución no
necesariamente reportan ambos, aunque si proveen de una lista de desconocidos con m/z
asociados que es utilizada en la siguiente fase del reprocesado.
5.2.3. Integración
Una vez determinados el número de desconocidos en la muestra y sus m/z, se procede a
la extracción de las trazas de estos iones, de manera análoga al punto 5.1.1. Una vez extraídas,
se suele continuar el flujo de reprocesado aplicando un algoritmo de integración de trazas. La
revisión y corrección manual de las áreas bajo la curva de las trazas en experimentos no
dirigidos es muy demandante en tiempo y esfuerzo, ya que fácilmente un análisis RPLC-ESI
pueden 1000 trazas por muestra (debido a redundancias y falta de agrupación eficiente de
fragmentos en fuente e iones pseudomoleculares en la deconvolución). La integración en
paralelo por superposición de trazas de un mismo desconocido es una estrategia que reduce
considerablemente el tiempo de procesado manual, pero se han de realizar pequeñas
correcciones posteriores en la integración, especialmente en el caso de coeluciones y trazas que
presentan un ruido irregular y una baja señal de compuesto. El resultado de la integración es
una matriz de dimensiones m x n (metabolitos x muestras analizadas, o viceversa), que contiene
las abundancias correspondientes. La integración constituye uno de los grandes cuellos de
botella de la metabolómica y recientemente se han propuesto estrategias basadas en inteligencia
artificial para solventar esta limitación (27).

24. Misra BB. New software tools, databases, and resources in metabolomics: updates from 2020.
Metabolomics. 2021;17(5):49.
27. Melnikov AD, Tsentalovich YP, Yanshole VV. Deep Learning for the Precise Peak Detection in High-
Resolution LC-MS Data. Anal Chem. 2020;92(1):588-92.

19
5.2.4. Sustracción de blancos
En los análisis no dirigidos, la sustracción del blanco se debe de realizar de manera
análoga a la descrita en el punto 5.1.3. para análisis semicuantitativos.
5.2.5. Imputación de valores perdidos
La imputación de valores perdidos es un proceso que tiene por objeto reducir el sesgo
dependiente de la metodología de preparación de muestra, análisis y procesado de datos,
facilitando el análisis estadístico posterior (28); estos pueden producirse arbitrariamente, (p.ej.:
debido a diferencias en la derivatización inherentes al proceso de preparación de muestra,
debido a una falta de integración del pico en el software) o de manera no arbitraria (p.ej.: al
producirse pérdida de sensibilidad aquellos compuestos con señal muy baja aparecen como
<LOD y no son representativos). Existe una gran cantidad de algoritmos de imputación de
valores perdidos, destacando la imputación por K-vecinos cercanos o KNN (más adecuada para
valores perdidos arbitrarios), y la sustitución por ceros o valores pequeños (más adecuada para
valores perdidos no arbitrarios). La imputación de valores perdidos constituye una gran fuente
de sesgo, requiere de una justificación del posible origen del valor perdido y de la elección del
algoritmo de imputación. Para evitar el uso indiscriminado de algoritmos de imputación se debe
de comprobar visualmente una integración de datos adecuada en cada variable y muestra.
5.2.6. Control de calidad inicial
Se debe de realizar un control de calidad de manera similar al mencionado en el apartado
5.1.2.
5.2.7. Filtrado
El filtrado de análisis no dirigidos es habitualmente el descrito en el punto 5.1.4;
primeramente, tras la sustracción del blanco, un filtrado en presencia de QCs del 100%, seguido
de un filtrado de presencia en al menos un grupo muestral del 80%. También se utiliza un
filtrado por RSD < 30% en GC-MS y metodologías que impliquen derivatización, y RSD < 20-
30% en CE-MS y LC-MS, sin utilizar derivatización. No obstante, en análisis comparativos
debería de realizarse una evaluación de las diferencias entre medias grupales de aquellos
metabolitos con RSD > 30% ya que la diferencia puede ser muy significativa y no estar
enmascarada por la alta varianza analítica.
5.2.8. Normalización
La normalización es un proceso de corrección de los datos que tiene por objeto reducir distintos
tipos de variabilidad para obtener unos datos que permitan un análisis comparativo fiable y
adecuado para realizar una correcta interpretación de los datos. Existen numerosas técnicas de
normalización, algunas muy complejas y fuera de los objetivos de esta ponencia (29). Una de
las normalizaciones más habituales es la normalización por IS, en la que la abundancia de un
desconocido en una muestra es dividida entre la abundancia en esa misma muestra de uno o
más IS utilizados en el experimento. Esta división tiene por objeto eliminar la variabilidad
introducida desde el momento en el que el IS se introduce en el proceso de preparación de
muestra hasta que es medido en el análisis; otra normalización típica es la normalización por
señal total o TUS, en la que la abundancia del desconocido en una muestra es dividida por la

28. Wei R, Wang J, Su M, Jia E, Chen S, Chen T, et al. Missing Value Imputation Approach for Mass
Spectrometry-based Metabolomics Data. Sci Rep. 2018;8(1):663.
29. Misra BB. Data normalization strategies in metabolomics: Current challenges, approaches, and tools. Eur
J Mass Spectrom (Chichester). 2020;26(3):165-74.

20
suma total de abundancia para esa muestra, arrojando un valor relativo con respecto al total. La
normalización TUS no solamente corrige la variabilidad analítica y en procesado de muestra,
sino también aquella variabilidad asociada a diferencias en biomasa o grado de dilución en
muestras líquidas (p.ej.: saliva). Otra de las normalizaciones habituales es la normalización por
metadatos, en la que se recaban datos de la muestra (p.ej.: peso, cantidad de DNA, cantidad de
proteína total) y las abundancias de los metabolitos en una muestra son divididas por los
metadatos de las mismas. Toda normalización debe de hacer un sentido lógico con respecto al
flujo de trabajo de metabolómica (30).
5.2.9. Transformación
La transformación consiste en realizar una conversión no lineal de los datos y se realizan
para reducir la heteroscedasticidad de las varianzas de los datos, así como para aumentar el
grado de simetría de los datos (31). La transformación más utilizada es la transformación
logarítmica, ya que habitualmente permite obtener distribuciones más cercanas a la distribución
normal de los datos y por lo tanto la realización de test estadísticos que la requieren (ver
apartado 7.2).
5.2.10. Escalado
El escalado consiste en una conversión adicional de los datos realizada para que aquellos
con mayores valores de abundancia absolutos en la matriz de datos de metabolómica, no tengan
una importancia mayor en modelos estadísticos multivariantes (ver apartado 7.2). Las
conversiones de escalado más frecuentes son el autoescalado (UV) y el escalado de Pareto (31).
6. ANOTACIÓN/IDENTIFICACIÓN DE METABOLITOS
La anotación/e identificación de compuestos es de vital importancia en los experimentos
de metabolómica ya permite conocer la naturaleza química de las trazas de potenciales
compuestos que han sido procesadas e integradas previamente (ver apartado 5.2).
Estrictamente, el término “identificación” debe de reservarse para aquellos supuestos en los que
se conoce de manera inequívoca la estructura del compuesto y su configuración espacial. Esto
requiere el análisis de estándares puros en condiciones de análisis que permiten obtener señales
inequívocas para los mismos y no siempre es posible, especialmente en el caso de enantiómeros
que requieren del uso de metodologías específicas (p. ej.: resolución cromatográfica utilizando
columnas quirales). En los supuestos casos en los que podemos afirmar con confianza ciertas
propiedades estructurales del compuesto, el término correcto y en correspondencia con las
demás ciencias ómicas es “anotación”. Existen distintas iniciativas que permiten subdividir los
distintos grados de anotación, hasta llegar a la identificación del compuesto (32, 33). Por lo
general, en análisis dirigidos se requiere de la identificación del compuesto, mientras que en
análisis no dirigidos se realiza una anotación tentativa de los compuestos, y se seleccionan las
variables de interés para su posterior identificación si así lo requiere el estudio.

30. Cuevas-Delgado P, Dudzik D, Miguel V, Lamas S, Barbas C. Data-dependent normalization strategies


for untargeted metabolomics-a case study. Anal Bioanal Chem. 2020;412(24):6391-405.
31. van den Berg RA, Hoefsloot HC, Westerhuis JA, Smilde AK, van der Werf MJ. Centering, scaling, and
transformations: improving the biological information content of metabolomics data. BMC Genomics.
2006;7:142.
32. Blaženović I, Kind T, Ji J, Fiehn O. Software Tools and Approaches for Compound Identification of LC-
MS/MS Data in Metabolomics. Metabolites. 2018;8(2):31.
33. Salek RM, Steinbeck C, Viant MR, Goodacre R, Dunn WB. The role of reporting standards for metabolite
annotation and identification in metabolomic studies. Gigascience. 2013;2(1):13.

21
Debido al alto número de variables que poseen los reprocesados no dirigidos realizados
sobre análisis no dirigidos, es habitual que las anotaciones se realicen exclusivamente de
aquellas variables determinadas como estadísticamente significativas (ver apartado 7). Al
proceso de refinado de anotaciones se conoce como curación. Idealmente, la anotación tentativa
y curación de datos debería de realizarse sobre toda la matriz de datos, ya que, en función de
los parámetros de normalizado, escalado y transformación, así como del análisis estadístico a
realizar, distintos metabolitos pueden ser determinados como relevantes. Asimismo, las
matrices deben de encontrarse libres de contaminaciones que no siempre son eliminadas de la
matriz de datos por la sustracción de blancos (ver apartado 5.1.3) y por tanto la anotación de
las mismas con alta confianza puede ser utilizada como criterio de filtrado de variables. Por
último y especialmente en deconvoluciones de datos procedentes de análisis por ESI, se produce
una gran redundancia de señal debido al agrupamiento incorrecto de iones pseudomoleculares
en la deconvolución, especialmente de aquellos compuestos más abundantes en el
cromatograma/electroferograma (34). Por lo tanto, anotar con confianza dichos iones
pseudomoleculares para posteriormente filtrar la matriz reduce las penalizaciones impuestas
por correcciones post-hoc en análisis estadísticos univariantes (ver apartado 7.1) y evita la
duplicidad de variables, que asigna una importancia desigual a las mismas en modelos
estadísticos multivariantes (ver apartado 7.2).
6.1.1. Anotación en análisis no dirigidos por GC-EI-MS
Debido a la reproducibilidad de fragmentación en EI los pseudoespectros de
deconvolución son enfrentados a bases de datos espectrales de estándares (p.ej.: NIST, Wiley
(35)) utilizando algoritmos que consideran tanto la tolerancia de los m/z de los fragmentos como
su intensidad para realizar la anotación. Algunas librerías permiten la inclusión del tiempo de
retención como parámetro adicional para la anotación si el análisis se ha realizado utilizando
un método cromatográfico específico (p.ej.: FiehnLib (21)). Por la alta fragmentación que
presentan los compuestos en los análisis de GC-EI-MS, habitualmente no es necesario utilizar
analizadores de alta resolución de masa para realizar una anotación de compuestos con niveles
de confianza aceptables.

Aquellos compuestos que no tienen ningún espectro asociado en las librerías utilizadas,
son tratados como compuestos desconocidos. Se puede proceder a la elucidación estructural de
novo de estos compuestos, que siguen unas reglas de fragmentación complejas pero
ampliamente descritas (36). No obstante, este proceso tiene un bajo grado de automatización
aun utilizando softwares específicos (p.ej.: ChemSketch), de modo que la porción de
desconocidos tras la aplicación de algoritmos de anotación basada similitud espectral en GC-
EI-MS es descartada, o bien conservada pero otorgando el nivel más bajo de anotación.

21. Kind T, Wohlgemuth G, Lee DY, Lu Y, Palazoglu M, Shahbaz S, et al. FiehnLib: mass spectral and
retention index libraries for metabolomics based on quadrupole and time-of-flight gas chromatography/mass
spectrometry. Anal Chem. 2009;81(24):10038-48.
34. Mahieu NG, Patti GJ. Systems-Level Annotation of a Metabolomics Data Set Reduces 25 000 Features
to Fewer than 1000 Unique Metabolites. Anal Chem. 2017;89(19):10397-406.
35. Stein SE, Ausloos P, Lias SG. Comparative evaluations of mass spectral databases. J Am Soc Mass
Spectrom. 1991; 2(5):441-3.
36. McLafferty FW, Tureek F. Interpretation Of Mass Spectra. Sausalito, California: University Science
Books; 1993.

22
Debido a la facilidad del proceso de anotación por similitud espectral en GC-EI-MS, es
también habitual que éste se realice previo a la integración de iones traza, eliminándose los
compuestos desconocidos y constituyendo una excepción en el orden de los pasos del flujo de
trabajo de metabolómica.
6.1.1. Anotación en análisis no dirigidos por LC-ESI-MS
El grado de anotación por LC-ESI-MS viene fuertemente condicionado por la presencia
de espectros de masas en tándem de los iones precursores a anotar. Si éstos no se poseen, las
anotaciones requieren de alta resolución de masa y deben de realizarse primariamente en
función del m/z (p.ej.: METLIN (37), HMDB (38), CMM (39)). Estas bases de datos arrojan
una lista de anotaciones candidatas para cada m/z que pueden ser posteriormente refinadas en
función de distintos parámetros. El primero y fundamental, resulta de identificar el ión
pseudomolecular que corresponde a la anotación y puede realizarse identificando iones
pseudomoleculares del mismo estimando M y extrayendo las trazas de los iones
pseudomoleculares predichos (p.ej.: [M + Cl]- y [M + HCOO]- en un método que utilice
formiato y medición en ESI en polaridad negativa), o buscándolos en los pseudoespectros de
deconvolución. Se asume que al encontrar dichos m/z en un equipo de alta resolución a la
diferencia de masa exacta adecuada y con el mismo perfil cromatográfico éstos pertenecen al
mismo compuesto, permitiendo determinar el valor de M. También se debe de comprobar una
adecuada distribución isotópica de acuerdo a la fórmula molecular de la anotación y la
naturaleza del ión pseudomolecular (p.ej.: [M + Cl]- y compuestos azufrados poseen
distribución isotópica muy característica a comparación de moléculas únicamente con C, H, O
y N). La anotación también debe de ser compatible con su elución en el gradiente, siendo el
logP y logD indicadores relativamente útiles si una parte de los compuestos de la matriz de
datos han sido anotados. Una última información de especial relevancia para la anotación en
espectros de ESI-MS es la fragmentación originada en la fuente, ya que puede producir
fragmentos específicos dependientes de la estructura (40). Recientemente se han desarrollado
metodologías basadas en inteligencia artificial para la generación de modelos de tiempos de
retención en LC basados en la estructura del compuesto (41).

La disponibilidad de espectros de MS/MS ofrece información particularmente relevante


para la anotación de compuestos. Estos pueden ser utilizados en softwares basados en similitud
espectral de manera análoga a los utilizados en GC-EI-MS, utilizando métodos específicos de
fragmentación (p. ej.: Agilent MassHunter Lipid Annotator (22)). También los
22. Koelmel J, Sartain M, Salcedo J, Murali A, Xiangdong L, Stow S. Improving Coverage of the Plasma
Lipidome Using Iterative MS/MS Data Acquisition Combined with Lipid Annotator Software and 6546 LC/Q-
TOF 2019 [Available from: https://www.agilent.com/cs/library/applications/application-6546-q-tof-lipidome-
5994-0775en-agilent.pdf].
37. Guijas C, Montenegro-Burke JR, Domingo-Almenara X, Palermo A, Warth B, Hermann G, et al.
METLIN: A Technology Platform for Identifying Knowns and Unknowns. Anal Chem. 2018;90(5):3156-64.
38. Wishart DS, Feunang YD, Marcu A, Guo AC, Liang K, Vázquez-Fresno R, et al. HMDB 4.0: the human
metabolome database for 2018. Nucleic Acids Res. 2018;46(D1):D608-D17.
39. Gil-de-la-Fuente A, Godzien J, Saugar S, Garcia-Carmona R, Badran H, Wishart DS, et al. CEU Mass
Mediator 3.0: A Metabolite Annotation Tool. J Proteome Res. 2019;18(2):797-802.
40. Seitzer PM, Searle BC. Incorporating In-Source Fragment Information Improves Metabolite
Identification Accuracy in Untargeted LC-MS Data Sets. J Proteome Res. 2019;18(2):791-6.
41. Bonini P, Kind T, Tsugawa H, Barupal DK, Fiehn O. Retip: Retention Time Prediction for Compound
Annotation in Untargeted Metabolomics. Anal Chem. 2020;92(11):7515-22.

23
espectros de MS/MS pueden ser comparados manualmente con librerías de MS/MS tanto
generadas in silico (22) como experimentales (p. ej.: METLIN, HMDB). Tanto la aceptación
como la refutación de candidatos basada en espectros de ESI-MS/MS debe de ser consistente
con las reglas de fragmentación producidas en la misma (42), y que se encuentran fuera de los
objetivos de esta ponencia.
6.1.2. Anotación en análisis no dirigidos por CE-ESI-MS
La anotación en este tipo de análisis es análoga a la realizada en LC-MS en términos
relacionados con los distintos m/z originados por un compuesto (ver apartado 5.2.2). No
obstante, se han desarrollado varias metodologías para la estimación de tiempos de migración
relativos/movilidad efectiva, gracias a la utilización de un estándar interno o el tiempo de
migración del flujo electroosmótico para su generación, respectivamente (23). Los tiempos de
migración relativos poseen una alta reproducibilidad en zonas intermedias del electroferograma
y pueden ser utilizados en bases de datos (p.ej.: CMM) para la anotación de desconocidos.
7. ANÁLISIS ESTADÍSTICO Y DE DATOS
Muchos de estos test se encuentran disponibles en herramientas online como MetaboAnalyst
5.0 (43).
7.1. ANÁLISIS ESTADÍSTICO UNIVARIANTE
En el análisis estadístico univariante, la significación de los metabolitos es determinada
de manera individual, variable por variable. En metabolómica, los test estadísticos se dirigen a
determinar diferencias entre medias grupales de abundancias/concentraciones de metabolitos
en estudios comparativos. El test a aplicar dependerá del diseño experimental de factores y
niveles, así como de la capacidad de testar la distribución normal de los datos. Previo a la
adquisición de los datos, se deben de realizar tests de normalidad (p.ej.: Levene, Kolmogorov-
Smirnov, Shapiro Wilk) y homoscedasticidad de varianzas (p.ej.: prueba de Bartlett). Si como
resultado de los tests, no se tiene evidencia de que los datos no sigan una distribución normal o
varianzas desiguales, deben de realizarse tests paramétricos (salvo que n < 5 en algún grupo, en
cuyo caso es aconsejable realizar siempre tests no paramétricos). De lo contrario, se realizarán
tests no paramétricos. En diseños de un factor y dos niveles, el test paramétrico por excelencia
es la prueba t de Student, y su equivalente no paramétrico, la U de Mann-Whitney. En diseños
de un factor y varios niveles, se utiliza o bien el test paramétrico análisis de la varianza
(ANOVA) de una vía, o bien el test no paramétrico Kruskal-Wallis. En diseños de dos factores
y varios niveles, se realizan análisis ANOVA o Kruskal-Wallis de dos vías, y así sucesivamente.
Es importante recalcar que en los análisis de más de una vía se obtiene un p-valor por cada
factor estudiado, y un p-valor por cada interacción entre dos factores. En el caso de análisis
pareados, se debe de buscar el test estadístico de ‘medidas repetidas’ equivalente. Los test
22. Koelmel J, Sartain M, Salcedo J, Murali A, Xiangdong L, Stow S. Improving Coverage of the Plasma
Lipidome Using Iterative MS/MS Data Acquisition Combined with Lipid Annotator Software and 6546 LC/Q-
TOF 2019 [Available from: https://www.agilent.com/cs/library/applications/application-6546-q-tof-lipidome-
5994-0775en-agilent.pdf].
23. Mamani-Huanca M, de la Fuente AG, Otero A, Gradillas A, Godzien J, Barbas C, et al. Enhancing
confidence of metabolite annotation in Capillary Electrophoresis-Mass Spectrometry untargeted metabolomics
with relative migration time and in-source fragmentation. J Chromatogr A. 2021;1635:461758.
42. Steckel A, Schlosser G. An Organic Chemist's Guide to Electrospray Mass Spectrometric Structure
Elucidation. Molecules. 2019;24(3):611.
43. Pang Z, Chong J, Zhou G, de Lima Morais DA, Chang L, Barrette M, et al. MetaboAnalyst 5.0: narrowing
the gap between raw spectra and functional insights. Nucleic Acids Res. 2021;49(W1):W388-W96.

24
estadísticos poseen fundamentos extensos y complejos que se encuentran fuera del objetivo de
esta ponencia general.
La naturaleza de los datos de metabolómica posee habitualmente un número mayor de
variables dependientes (metabolitos) que de variables independientes (observaciones). Debido
a la gran cantidad de metabolitos presentes en las matrices de datos de estudios metabolómicos,
al realizar test estadísticos univariantes consecutivos para todas las variables, aparecen falsos
positivos simplemente por azar debido al problema de las comparaciones múltiples (recordemos
que un p-valor de 0.05 implica que existe un 5% de probabilidades de que la distribución de los
datos se deba al azar, y por lo tanto en 100 comparativas con ese p-valor, son esperables 5 falsos
positivos). Para reducir el número de falsos positivos, se utilizan estrategias post-hoc de
corrección de p-valores basados en número de metabolitos de la matriz. Las más utilizadas son
el False Discovery Rate o FDR (menos restrictivo), y la corrección de Bonferroni (más
restrictivo). Todos los análisis estadísticos univariantes en datos de metabolómica deben de
considerar el problema de comparaciones múltiples.

Por último, cabe resaltar que algunos estudios precisan del estudio de regresiones de
datos univariantes (p.ej.: se quiere mostrar asociación entre los niveles de un metabolito
determinado y el índice de masa corporal). En estos casos se procede a evaluar, para cada
variable, si correlacionan con la variable continua a la que se pretende encontrar una asociación,
y si esa correlación es lineal, polinómica, logarítmica, exponencial, etc.
7.2. ANÁLISIS DE DATOS MULTIVARIANTE
Los análisis multivariantes tienen por objeto generar modelos en cuya generación si
tienen influencia unas variables sobre las otras. Estos modelos son capaces de describir las
propiedades globales de los datos y son utilizados para abordar un problema de clasificación
(44) (p.ej. generación de un modelo predictivo capaz de discriminar la muerte por intoxicación
aguda frente a otras causas de muerte) o bien un problema de regresión (p.ej.: estimación del
intervalo postmortem). Dentro de los análisis de clasificación, existen análisis supervisados en
los que se proporciona información al modelo de a qué grupo pertenece cada observación, y
análisis no supervisados en los que se testa la capacidad clasificatoria del algoritmo sin
introducir información acerca de a qué grupo pertenece la observación. A continuación se citan
brevemente los análisis estadísticos multivariantes más frecuentes en estudios de metabolómica
(45).
7.2.1. Análisis de clustering, mapas de calor
El análisis de clustering es un análisis de clasificación no supervisado que mide las
diferencias que existen entre las observaciones independientes en función de cálculos de
distancias que involucran a todas las variables (p.ej.: distancias euclídeas). Los datos para el
cálculo de clustering suelen precisar de un escalado previo y es habitual su representación visual
en un mapa de calor, de dimensiones equivalentes a la matriz de datos de metabolitos utilizada
como input. Generalmente, los algoritmos de clustering van sucedidos de algoritmos que
definen grupos (clustering particional) o ramas (clustering jerárquico) tanto en las variables
dependientes como independientes, de manera que se pueden examinar relaciones de
agrupamiento en ambos metabolitos y observaciones.

44. Heinemann J. Cluster Analysis of Untargeted Metabolomic Experiments. Methods Mol Biol.
2019;1859:275-85.
45. Worley B, Powers R. Multivariate Analysis in Metabolomics. Curr Metabolomics. 2013;1(1):92-107.

25
Figura 4. Vista general de mapa de calor obtenido a partir de clustering jerárquico de
datos pertenecientes a estudio con un factor, tres niveles por factor (MetaboAnalyst 5.0).
7.2.2. Análisis de componentes principales o PCA
El análisis por PCA es un algoritmo multivariante, no supervisado y de clasificación en
el cual se produce una reducción de la dimensionalidad de la matriz de n metabolitos en un
número determinado de componentes principales que recogen la mayor parte de la varianza del
modelo (45). Es común representar las dos primeras componentes en un plano, en el que se
debe de evaluar como buena práctica el agrupado de los QC. Una agrupación de los QC mayor
que la agrupación de las muestras indica una buena calidad de los datos. Por el contrario,
desplazamientos en los puntos correspondientes a los QC son indicativos de la necesidad de
realizar una normalización para reducir la variabilidad analítica, especialmente si el
desplazamiento correlaciona con el orden de inyección. La observación de agrupamiento en los
gráficos de PCA es indicativa de que existe un perfil global fuertemente discriminatorio entre
grupos de muestras, y común en el mismo grupo de muestras.

26
Figura 5. Gráfico de tipo PCA bidimensional de datos pertenecientes a estudio con un
factor, tres niveles por factor. Nótese el agrupamiento de los QC (MetaboAnalyst 5.0).

7.2.3. Análisis discriminante de mínimos cuadrados parciales (PLS-DA) y análisis


de mínimos cuadrados parciales ortogonales (OPLS-DA)
Ambos PLS-DA y OPLS-DA tienen un fundamento similar al del análisis PCA, con la
salvedad de que se trata de análisis supervisados, ya que la pertenecencia a los grupos también
es utilizada como factor determinante en la discriminación de acorde al algoritmo matemático
subyacente (45). En los modelos PLS-DA y OPLS-DA, resulta de vital importancia el resultado
de Q2 global que toma valores de 0 a 1 y refleja el poder predictivo del modelo (p.ej.: un valor
de Q2 de 0.7 indica que el modelo es capaz de predecir correctamente la pertenecencia de una
muestra a su grupo correcto con una probabilidad del 70%). Los modelos OPLS-DA son
utilizados para comparativas de dos grupos y los PLS-DA para más de dos grupos. De ambos
análisis se puede obtener la lista de valores de importancia en la proyección (VIP), que son
indicativos de la importancia de la variable en el modelo discriminatorio. Se recomienda al
menos un VIP ≥ 1 para determinar un metabolito como relevante en la discriminación del
modelo.
7.2.4. Análisis de curvas Receiver Operating Characteristic (ROC)
El análisis de curvas ROC (46) es un tipo de representación que sirve para calcular el poder
discriminatorio de un umbral lineal entre dos grupos. Esta representación está basada en la
matriz de confusión, compuesta por el número de verdaderos positivos (TP), falsos positivos
(FP), verdaderos negativos (TN) y falsos negativos (FN) en base a un clasificador con un valor
definido. En función de estos parámetros se calculan los valores representados en la curva ROC:
la sensibilidad (sensibilidad = (TP/(TP + FN))), en el eje de ordenadas y el ratio de falsos

45. Worley B, Powers R. Multivariate Analysis in Metabolomics. Curr Metabolomics. 2013;1(1):92-107.


46. Xia J, Broadhurst DI, Wilson M, Wishart DS. Translational biomarker discovery in clinical
metabolomics: an introductory tutorial. Metabolomics. 2013;9(2):280-99.

27
positivos (FPR = (FP/(FP + TN)). La curva ROC es una representación de los valores de
sensibilidad y ratio de falsos positivos conforme se va modificando el valor umbral del
clasificador. El área bajo la curva ROC (AUROC) toma valores entre 0.5 y 1, y se relaciona
con el poder discriminatorio del metabolito evaluado; de esta manera, un AUROC = 0.5 indica
ausencia de poder discriminatorio, AUROC = 0.5-0.7 discriminacion pobre, AUROC = 0.7-0.8
discriminación notable, 0.8-0.9 discriminación muy alta y >0.9 discriminación excelente,
siendo AUROC = 1 un umbral que muestra perfecta discriminación. También existen
metodologías de generación de curvas ROC multivariantes, disponibles en distintas
herramientas online como MetaboAnalyst 5.0 (43) y cuyo algoritmo subyacente se encuentra
fuera de los objetivos de esta ponencia.

Figura 6. Curva ROC y AUROC para el metabolito acetato obtenida a partir de datos de
estudio con un factor, dos niveles por factor (MetaboAnalyst 5.0).
8. INTERPRETACIÓN BIOLÓGICA
Los experimentos de metabolómica requieren de varias estrategias tanto manuales como
bioinformáticas para la generación de hipótesis acerca del comportamiento de los datos. Para
ello, es necesario considerar que tras el análisis estadístico realizado en análisis comparativos
se identifican alteraciones en las diferencias entre las medias de las abundancias de los
metabolitos lo cual refleja o bien un cambio en el volumen (que puede ser corregido por
estrategias de normalización, ver apartado 5.2.8), la transferencia de masa de un compartimento
biológico al compartimento analizado, o bien en un cambio el equilibrio entre las reacciones de
producción y consumo del metabolito (modificación de flujos de las reacciones enzimáticas).
En función de la función biológica del metabolito y localización del metabolito en las distintas
rutas metabólicas y en la red metabólica global se pueden utilizar distintas aproximaciones,
detallándose las principales a continuación.

43. Pang Z, Chong J, Zhou G, de Lima Morais DA, Chang L, Barrette M, et al. MetaboAnalyst 5.0: narrowing
the gap between raw spectra and functional insights. Nucleic Acids Res. 2021;49(W1):W388-W96.

28
8.1. BÚSQUEDA DE INFORMACIÓN EN BASES DE DATOS
La información del papel funcional de los distintos metabolitos puede ser consultada en
distintas bases de datos en las que se poseen de fichas asociadas a cada metabolito (p.ej.:
HMDB). Asimismo, la ubicación en la red metabólica puede ser localizada en distintas bases
de datos de redes y rutas metabólicas (p.ej.: KEGG (47), Reactome (48)). La interpretación de
los datos se produce por integración de dichos datos en el marco de la bibliografía consultada.
8.2. ANÁLISIS DE ENRIQUECIMIENTO BIOLÓGICO
Los análisis de enriquecimiento biológico tienen por fundamento determinar si existe
enriquecimientos significativos en el conjunto de metabolitos determinado como
estadísticamente significativo de sets de metabolitos de una determinada ruta metabólica,
proceso biológico, compartimento celular, etc. Por ejemplo, si un metaboloma de referencia
para el análisis de enriquecimiento está compuesto de 1000 metabolitos y el set ‘metabolitos
mitocondriales’ corresponde a 20 metabolitos, simplemente por azar 2 metabolitos
significativos de una lista de 100 metabolitos significativos deberían corresponder al set
‘metabolitos mitocondriales’, de manera que el conjunto de metabolitos significativos se
encuentra enriquecido en el set ‘metabolitos mitocondriales’ si se posee un número mayor que
2 en la lista de metabolitos significativos y dicho número arroja un p-valor corregido
significativo según el algoritmo de cálculo del análisis de enriquecimiento biológico. Los
análisis de enriquecimiento biológico más comunes son el análisis de sobrerrepresentación
(ORA), en el que el análisis de enriquecimiento solamente tiene en cuenta el número de
metabolitos y los enfrenta a sets definidos, análisis de enriquecimiento cuantitativo (QEA), en
el que el algoritmo tiene en cuenta tanto el número de los metabolitos como la magnitud del
cambio en concentraciones para la determinación del enriquecimiento, y el enriquecimiento de
rutas (PA) en el cual se tiene en cuenta la topología de la ruta metabólica para determinar la
importancia del enriquecimiento. Ambos ORA, QEA y PA se encuentran disponibles en
multitud de herramientas online, tales como MetaboAnalyst 5.0 (43).
8.3. ANÁLISIS DE REDES METABÓLICAS
El análisis de redes metabólicas corresponde a la superposición de los metabolitos
estadísticamente significativos y sus magnitudes de abundancia con la red metabólica global de
un organismo determinado, realizándose cálculos específicos basados en la topología y otras
propiedades de la red metabólica para inferir interacciones entre rutas metabólicas y determinar
la relevancia de los metabolitos estadísticamente significativos dentro de la red metabólica
global. El análisis de redes biológicas (49) constituye una disciplina de la bioinformática y se
encuentra fuera de los objetivos de esta ponencia.

43. Pang Z, Chong J, Zhou G, de Lima Morais DA, Chang L, Barrette M, et al. MetaboAnalyst 5.0: narrowing
the gap between raw spectra and functional insights. Nucleic Acids Res. 2021;49(W1):W388-W96.
47. Kanehisa M, Furumichi M, Tanabe M, Sato Y, Morishima K. KEGG: new perspectives on genomes,
pathways, diseases and drugs. Nucleic Acids Res. 2017;45(D1):D353-D61.
48. Jassal B, Matthews L, Viteri G, Gong C, Lorente P, Fabregat A, et al. The reactome pathway
knowledgebase. Nucleic Acids Res. 2020;48(D1):D498-D503.
49. Rosato A, Tenori L, Cascante M, De Atauri Carulla PR, Martins Dos Santos VAP, Saccenti E. From
correlation to causation: analysis of metabolomics data using systems biology approaches. Metabolomics.
2018;14(4):37.

29

También podría gustarte