Está en la página 1de 28

Identificación de proteínas basada en espectrometría de masas en

proteómica: una revisión


Estadísticamente, la identificación precisa de proteínas es una piedra angular fundamental de
la proteómica y sustenta la comprensión y aplicación de esta tecnología en todos los
elementos de la medicina y la biología. La proteómica, como rama de la bioquímica, ha
desempeñado en los últimos años un papel fundamental en la extensión y el desarrollo de la
ciencia de identificar con precisión la biología y las interacciones de grupos de proteínas o
proteomas. La proteómica ha utilizado principalmente técnicas basadas en espectrometría de
masas (MS) para identificar proteínas, aunque otras técnicas, incluidas las identificaciones
basadas en afinidad, siguen desempeñando funciones importantes. Aquí, describimos los
conceptos básicos de la EM para comprender cómo se generan los datos y los parámetros
utilizados para informar las herramientas computacionales utilizadas en la identificación de
proteínas. A continuación, describimos un análisis exhaustivo de las metodologías
bioinformáticas y computacionales utilizadas en la identificación de proteínas en la
proteómica, incluida la discusión de las métricas comúnmente aceptables más actuales para
validar cualquier identificación. Palabras clave: espectrometría de masas; identificación de
proteínas; proteómica; caracterización de proteínas; herramientas bioinformáticas; proteoma

Introducción
Las proteínas son las entidades funcionales primarias en cualquier sistema biológico. Por lo
tanto, la búsqueda por comprender cómo funcionan y los roles que desempeñan en biología y
medicina ha sido una preocupación importante de la bioquímica. Un prerrequisito
fundamental para comprender la función es la capacidad de identificar cualquier proteína
dada, con precisión y con el rigor suficiente para evitar afirmaciones y conclusiones erróneas.
Las proteínas, a diferencia del ADN de sus contrapartes genómicas parentales, contienen no
solo una serie lineal de aminoácidos, sino que también se pliegan en innumerables formas que
están influenciadas por más de 28 modificaciones postraduccionales conocidas (PTMS) [1],
cada una de las cuales se mantiene, con el potencial de decenas de miles de variaciones. Estas
y otras complicaciones habían hecho que la identificación de proteínas fuera particularmente
desafiante, hasta la aparición de la proteómica basada en espectrometría de masas (MS).

El término proteómica se acuñó por primera vez a principios de los años 90 [2] y es una rama
de la bioquímica que ha contribuido de manera importante a las herramientas / metodologías
que permiten la identificación de proteínas. La proteómica ha crecido exponencialmente en las
últimas dos décadas (como lo demuestran las> 68 000 publicaciones — búsqueda en PubMed).
Aunque la proteómica tiene un alcance mucho más amplio, el principio fundamental de la
proteómica es la capacidad de identificar y cuantificar conjuntos de proteínas (proteomas) que
se expresan en una dimensión temporal espacial particular, por una célula / tejido / organismo
específico, en condiciones definidas. La identificación y cuantificación se han logrado
históricamente utilizando dos enfoques principales. El primero implica la identificación de
antígenos en proteínas (y por lo tanto proteínas), a menudo usando anticuerpos o tecnologías
asociadas basadas en afinidad, mientras que el segundo usa secuenciación de proteínas
(recientemente por MS) y sus tecnologías asociadas.
Esta revisión guiará al lector a través de muchos aspectos fundamentales de estas
metodologías con un mayor enfoque en la EM y las tecnologías asociadas para permitir al
usuario seleccionar la mejor metodología, instrumentación y parámetros que puedan ajustarse
a su diseño experimental. Hay varias revisiones anteriores sobre elementos específicos de la
identificación de proteínas de la EM [3, 4], ninguna de ellas abarca el aliento total de la
identificación de proteínas como se explica en esta revisión. La combinación de los aspectos
analíticos y computacionales en un solo lugar no solo brinda una perspectiva única del futuro
del campo, sino que también ayuda a identificar obstáculos y oportunidades de manera
holística. Nos enfocamos en las dos formas más comunes de identificación de proteínas en la
proteómica, que son los anticuerpos: basados y basados en EM, con un mayor enfoque en EM,
ya que actualmente existe una mayor preponderancia del uso de EM en proteómica [5]. Otras
técnicas distintas de la EM se han revisado exhaustivamente en otros lugares y, por lo tanto,
merecen una mirada rápida en la siguiente sección.

Identificación de proteínas por afinidad


Los métodos basados en anticuerpos se encuentran entre las herramientas más utilizadas en la
detección / identificación y cuantificación de proteínas. Estos representan un potente reactivo
de afinidad que se puede aplicar a muchos tipos de aplicaciones de identificación de proteínas,
incluyendo Western blot [6, 7], inmunohistoquímica [8], inmunofluorescencia [9],
inmunoprecipitación [10], ensayo inmunoabsorbente ligado a enzimas [11 –13] y citometría f
baja [14]. Los anticuerpos monoclonales fueron desarrollados por primera vez por Kohler y
Milstein en 1975 utilizando la fusión de un linfocito B productor de anticuerpos único
seleccionado de un huésped inmunizado con una célula tumoral murina para producir un
"hibridoma" [15]. Desde entonces, el mercado mundial de anticuerpos ha crecido rápidamente
[16], reflejado por la disponibilidad de más de 3 millones de anticuerpos de más de 300
proveedores comerciales. En los últimos años, sin embargo, una serie de artículos han
destacado las importantes limitaciones y problemas del uso desinformado o sin experiencia de
muchos anticuerpos comerciales [17-19]. Estos problemas cubren áreas como caracterización
deficiente, unión no específica, baja sensibilidad y especificidad, reactividad cruzada con
isotipos, baja reproducibilidad y otros [17-19]. De hecho, Human Protein Atlas (una parte
integral del Human Proteome Project) ha examinado más de 5000 anticuerpos comerciales.
Han demostrado que menos del 50% de los anticuerpos satisfacen sus criterios para
aplicaciones precisas de detección / identificación de proteínas [20]. Además, una empresa de
bioinformática probó recientemente más de 6000 anticuerpos comerciales de 26 proveedores
y descubrió que más del 75% de los anticuerpos no eran específicos de los antígenos
registrados [17] y, a menudo, no eran adecuados para su propósito. Por tanto, la selección y
verificación de anticuerpos debe considerarse como la primera tarea importante para
cualquier experimento de identificación de proteínas basado en anticuerpos. La Tabla 1
resume una lista de bases de datos de anticuerpos útiles para la búsqueda y comparación de
anticuerpos. Se deben realizar encuestas de literatura para encontrar si alguna publicación ya
presenta anticuerpos dirigidos a una proteína de interés. Se han publicado anteriormente
recomendaciones de selección de anticuerpos (véanse las referencias [21-23]). Si bien no
existen pautas actuales disponibles para la identificación de proteínas basadas en anticuerpos,
el enfoque más apropiado es validar las proteínas identificadas utilizando métodos
ortogonales de identificación de proteínas, como la inmunoprecipitación seguida de la
identificación de EM.
Tabla 1. Una lista de bases de datos de anticuerpos.
Bases de datos Descripciones Aplicaciones URL
AbMiner Proporciona anticuerpos disponibles comercialmente seleccionados mediante Western blot. WB https://discover.nci.nih.gov/ abminer/
La base de datos contiene información sobre anticuerpos relevantes para el estudio de la enfermedad
Alzforum de Alzheimer y enfermedades neurodegenerativas relacionadas. Contiene anticuerpos disponibles Varias aplicaciones http://www.alzforum.org/ antibodies
comercialmente, laboratorios académicos y otras fuentes privadas.
Proporciona más de 1 000 000 de anticuerpos comerciales primarios probados para una amplia gama http://www.antibodies-online.
Antibodies-online Vinculado a Abs comerciales com/antibody/
de métodos de aplicación.
Obtenido a partir de informes de datos primarios, publicaciones y comentarios sobre anticuerpos
Antibodypedia disponibles públicamente. Un total de 2834223 revisaron anticuerpos de 76 proveedores, que cubren Vinculado a Abs comerciales https://www.antibodypedia.com/
productos genéticos codificados por 19177 genes
Proporciona más de 250000 información sobre anticuerpos de proveedores comerciales y miles de
Antibody Registry Varias aplicaciones http://antibodyregistry.org/
laboratorios individuales.
Proporciona una base de datos y software relacionados con anticuerpos que incluye herramientas de
https://www.antibodyresource.
Antibody Resource secuenciación de aminoácidos, herramientas de secuenciación de nucleótidos, herramientas de Vinculado a Abs comerciales com/antibody-database.html
modelado estructural y bases de datos de cultivo celular / hibridomas.
Contiene más de 18 000 anticuerpos que cubren 15 000 productos génicos y 19 000 patrones de EM de
Atlas Antibodies IHC, IF, ICC, WB y MS https://atlasantibodies.com/
cuantificación de proteínas adicionales que representan 13 000 objetivos de proteínas.
Compara más de 3 millones de anticuerpos de cientos de empresas diferentes, que incluyen el antígeno http://www.biocompare.com/
Biocompare Varias aplicaciones Antibodies/
diana, la reactividad de las especies, el huésped, el conjugado o la aplicación.
http://www.bionity.com/en/
Bionity Proporciona más de 17 000 información sobre anticuerpos disponibles comercialmente. Vinculado a Abs comerciales antibodies/all.html
CiteAb (Antibody
Proporciona más de 3 571 269 anticuerpos, con 1 089 200 citas de 145 proveedores. Varias aplicaciones https://www.citeab.com/
Search Engine)
Human Protein La base de datos (versión 16.1) contiene la validación de 25 682 anticuerpos con la expresión de 16 998 IHC, IF, ICC, WB y matriz de
http://www.proteinatlas.org/
Atlas proteínas únicas de un total de 287 tejidos humanos (incluidos los tejidos cancerosos) y líneas celulares. proteínas
Simple Western https://www.proteinsimple.com/
Proporciona información de más de 2000 anticuerpos para análisis occidental. WB antibody/antibodies.html
antibody database
Vinculado a ensayos
Therapeutic Proporciona información detallada sobre casi 2000 anticuerpos terapéuticos, dirigidos a más de 750
clínicos, artículos, patentes, http://tabs.craic.com/users/sign_in
Antibody Database antígenos, que están siendo desarrollados por más de 600 empresas.
acciones regulatorias
Validated Antibody Proporciona una base de datos para anticuerpos validados basados en la literatura, siRNA / shRNA, Vinculado a artículos
https://www.labome.com/
Database ELISA, clones de cDNA, proteínas / péptidos, ensayos y bioquímicos. publicados
Abs: anticuerpos, ICC: inmunocitoquímica, IF: inmunofluorescencia, IHC: inmunohistoquímica, IP: inmunoprecipitación, WB: Western blot.
Identificación de proteínas por espectrometría de masas
La MS es una técnica analítica utilizada para la identificación y cuantificación de analitos de
muestra en estado gaseoso en función de su relación masa / carga (m / z) en un entorno de
vacío. Las grandes biomoléculas polares y biopolímeros se introdujeron por primera vez en la
EM en la década de 1980 con el desarrollo de técnicas de ionización de bombardeo de átomos
rápidos (FAB) y desorción de plasma (PD). Posteriormente, se logró la ionización de proteínas,
péptidos, glicolípidos, glicoproteínas, lípidos y oligonucleótidos utilizando técnicas avanzadas
de ionización por electropulverización (ESI) y desorción láser asistida por matriz (MALDI) (Ver
Tabla 2). Estas técnicas se han vuelto ampliamente utilizadas para la identificación,
cuantificación y caracterización de la secuencia, localización y expresión espacio-temporal de
una proteína. Mide la relación masa / carga de un péptido y, utilizando herramientas
computacionales / bioinformáticas, decodifica la secuencia completa de aminoácidos de una
proteína, al tiempo que puede descifrar muchos PTMS. Más recientemente, la EM y la
computación asociada se han empleado para elucidar la estructura tridimensional de las
proteínas [24, 25] y para determinar las redes de interacción de proteínas [26, 27] que son
fundamentales para la apreciación de la biología de los sistemas del organismo. A diferencia de
las técnicas clásicas de detección e identificación de proteínas, como SDS-PAGE, electroforesis
en gel bidimensional (2DE) y transferencia Western (descrita anteriormente), la EM ha
acelerado el proceso de identificación y cuantificación de proteomas con una sensibilidad
mejorada y una generación de datos detallados.

En la siguiente sección, se discutirán brevemente las técnicas y estrategias que constituyen los
componentes principales de la identificación de moléculas biológicas por EM (resumidas en la
Figura 1). Una descripción detallada de todos los instrumentos está más allá del alcance de
esta revisión; sin embargo, su modo de operación y competencias funcionales se ilustrarán
exhaustivamente, ya que forman los cimientos críticos de todos los métodos computacionales
que siguen a su uso.

Figura 1.
Resumen de la información central generada durante los experimentos basados en MS. Las flechas
muestran la información experimental recopilada de cada paso del MS. Esta información es crucial para
permitir una identificación precisa de proteínas mediante análisis computacional.
Tabla 2. Características de las fuentes de ionización utilizadas en la EM.

Método de ionización Separación Moléculas diana Muestra Técnica Salida Eficiencia


Ionización por Muestra que pasa a través de una Más suave, sin
RPLC, HPLC, Grandes biomoléculas Multiplicar iones
electropulverización Líquido aguja de alto voltaje (4-5 kV) (alto bombardeos ni procesos
CE polares no volátiles cargados
(ESI) caudal) químicos
Nanospray (ionización
por electropulverización Caudal bajo
de baja velocidad)
Micro-
Caudal intermedio
electropulverización
SDS-PAGE,
Ionización por desorción Sólido / Fragmentos (F+) /
cromatografía Biomoléculas grandes (~ 6 10 −1 −2
láser asistida por matriz líquido / Pulso láser (10 a 10 J seg cm iones moleculares Alta transmisión
de exclusión 350 kDa)
(MALDI) condensado protonados
por tamaño
Ionización de electrones Moléculas orgánicas Colisión de haz de electrones Fragmentos (F+) / Robusto, enérgico y
GC, LC Gas
(EI) volátiles (<1000 Da) (∼70 eV o 6,8 × 103 kJ mol−1) iones moleculares reproducible
Biomoléculas (∼1000 Transferencia de carga (protón) Iones moleculares Sin fragmentación, menos
Ionización química (CI) GC Gas
Da) de iones de gas reactivo (∼10 eV) protonados contaminación
Diferencia de potencial usando
Ionización / desorción de Compuestos no polares Sólido /
HPLC un campo eléctrico alto (∼108 V Iones moleculares No fragmentación
campo (FI o FD) de alta masa molecular líquido
cm−1)
Desorción de plasma Biomoléculas grandes ∼ Sólido / Transferencia de energía a través
Iones moleculares Reemplazado por MALDI
(PD) (10000 Da) líquido de compuestos radiactivos
Moléculas orgánicas y
Bombardeo rápido de Sólido / Colisión de átomos de alta
HPLC biológicas pequeñas Iones moleculares Reemplazado por ESI
átomos o iones (FAB) líquido energía (argón)
(grandes = cheque)
Pequeñas moléculas
Ionización por Líquido / Colisión de solución a alta Iones moleculares
LC orgánicas y biológicas de Reemplazado por ESI
termopulverización (TSI) condensado temperatura (100 ° C) protonados
tamaño moderado
Más enérgico y uniforme,
Ionización química a
Biomoléculas polares Transferencia de carga (protón) a Iones moleculares a menudo utilizado para
presión atmosférica GC, LC Condensado
(∼1000 Da) presión atmosférica protonados distribución y cinética de
(APCI)
fármacos
Fundamentos de la EM para la proteómica
Técnicas analíticas utilizadas en conjunto con la EM
La mayoría de las muestras biológicas consisten principalmente en una mezcla muy compleja
de diversas biomoléculas polares y no polares, que deben separarse antes de ser admitidas en
una fuente de iones. Las mezclas con componentes de baja masa molecular se pueden ionizar
y detectar directamente en MS, mientras que las muestras complejas grandes generalmente se
fraccionan previamente o se separan mediante técnicas analíticas como la electroforesis
capilar (CE), la cromatografía líquida (LC) y / o la cromatografía de gases (GC). Estas técnicas de
separación se utilizan en dos modos diferentes, a saber, fuera de línea y en línea. En el modo
fuera de línea, las moléculas de analito se recogen por separado y se inyectan en la fuente de
iones / MS, mientras que, en el modo en línea, el cromatógrafo se interconecta con un MS y
los componentes puros de la muestra se transfieren directamente al MS a medida que se
liberan del cromatógrafo. Este acoplamiento de dos técnicas analíticas complementarias
(cromatografía y EM) condujo al desarrollo de procedimientos GC / MS, LC / MS y CE-MS para
la separación e identificación paralela de moléculas biológicas grandes altamente polares.

Cromatografía de gases

La GC es una técnica de separación, en la que los analitos de mezclas relativamente complejas


se separan mediante el movimiento de moléculas en una fase móvil gaseosa (gas portador). El
movimiento de las moléculas de muestra que tienen diferentes volatilidades se ve afectado
por la temperatura interna de la columna de GC. La tasa más baja de gas, que atraviesa una
columna de GC (aproximadamente 1 ml / min), hace que este aparato sea fácil de conectar con
la fuente de iones de MS sin afectar su entorno de vacío. Con la llegada de la GC / MS [28, 29],
se puede obtener un espectro de calidad para todos los analitos de la muestra en un
experimento. Esta técnica se considera la más adecuada para la identificación y cuantificación
de una variedad de compuestos volátiles no polares / ligeramente polares y químicamente
derivados de tamaño moderado (<1 kDa), como productos metabólicos [30], compuestos
farmacológicos [31], carcinógenos [32] y contaminantes ambientales [33].

Cromatografía líquida

La LC o cromatografía líquida de alta resolución / presión (HPLC) es una técnica de separación


utilizada para compuestos biológicos no volátiles polares de gran tamaño (péptidos /
proteínas) (aproximadamente 100 kDa). En las técnicas estándar de identificación de proteínas
de EM, la LC de elección es a menudo un medio estacionario de fase inversa (cromatografía
líquida de fase inversa (RPLC)), cuya fase móvil acuosa es más polar que la fase estacionaria
(que es la inversa de la normal LC). La mezcla de la muestra (disolvente) se separa mediante
una transición progresiva de la composición de la fase móvil del estado acuoso al orgánico.
Durante el proceso, 1 ml del solvente orgánico generalmente produce alrededor de 1000 ml de
vapor, lo que dificulta la interfaz LC con MS sin modificaciones. Este problema se resolvió con
el desarrollo de técnicas de electropulverización y de ionización química a presión atmosférica
(APCI), en las que la ionización de las moléculas de analito LC se realiza fuera de la cámara de
vacío de un MS. Esta variación ha ampliado la utilidad de la EM para identificar y cuantificar
grandes biomoléculas, como péptidos, proteínas y biopolímeros [34, 35].
Gel / CE

CE es una forma de LC, en la que los componentes de la muestra atravesaron la fase líquida y
se separaron según su carga y tamaño. Las moléculas pasan a través de capilares de sílice
fundida bajo la influencia de un campo eléctrico de alto voltaje. La CE suele interactuar con la
MS a través de una fuente de ionización por electropulverización (ESI), aunque una tasa muy
baja (aprox. 200 nl / min) de vapores provoca problemas de compatibilidad. La CE es más
ventajosa que la GC y la LC en términos de eficiencia de separación y tamaño de la muestra y
se ha utilizado ampliamente en estudios de identificación de proteínas y descubrimiento de
biomarcadores [36-38].

Ionización
Para detectar y analizar los componentes de la muestra sobre la base de sus valores de
relación masa / carga, es necesaria la ionización de péptidos o moléculas. Esto se realiza
utilizando diferentes fuentes de ionización. Hasta ahora, se han diseñado una variedad de
fuentes de iones (ver Tabla 2), que generan especies cargadas positivamente (catiónicas) o
negativamente (aniónicas). El análisis bioinformático posterior depende en gran medida de la
entrada de configuración correcta del instrumento para una identificación precisa. La
ionización generalmente se realiza mediante la adición de energía a las moléculas de péptidos,
lo que resulta en la eliminación de uno o más electrones para producir monocargado ([M] + ·,
[M + H]+) o múltiple ([M + nH]n+) iones, respectivamente. Dependiendo del tipo de muestra y
las moléculas objetivo, la ionización de las moléculas se puede realizar dentro de la cámara de
vacío de MS (al vacío) o en el exterior a presión atmosférica (API). La ionización electrónica (EI),
la ionización química (CI) y la MALDI suelen ser técnicas al vacío [39-41], mientras que la API
incluye las técnicas ESI y APCI [42, 43]. La IE se considera una técnica de "ionización dura", ya
que se ejecuta mediante la colisión de un haz de electrones de alta energía con los iones
moleculares, lo que da como resultado una fragmentación. Por el contrario, ESI, CI, MALDI y
APCI se consideran técnicas de "ionización blanda", ya que retienen iones moleculares. Entre
todos los métodos de ionización disponibles, ESI y MALDI son actualmente ampliamente
favorecidos para la ionización de péptidos y proteínas debido a su mayor sensibilidad y
precisión de medición, diversos modos de separación y fácil implementación [44, 45]. Debido a
su compatibilidad con biomoléculas polares de gran tamaño [46], también han reemplazado
algunas de las técnicas primitivamente desarrolladas, incluidas la desorción de campo y plasma
(PD / FD), FAB e ionización por termopulverización (TSI) [47, 48].

La precisión y eficacia de la información obtenida de la EM dependen en gran medida del tipo


y la naturaleza de la muestra analizada. La técnica de ionización óptima adecuada para una
muestra en particular puede variar. Más recientemente, el uso de la tecnología MALDI para
ionizar el tejido incrustado in situ que da como resultado la obtención de imágenes de EM es
un nuevo y emocionante enfoque no solo para analizar proteínas sino también moléculas más
pequeñas [49].

Fragmentación
La fragmentación es un proceso de descomposición / ruptura de 'iones moleculares o
precursores' (o 'iones precursores'), recuperados de las fuentes de iones, en 'iones producto'
más pequeños (o 'iones fragmentos / hijos') y forma el núcleo de la EM 'secuenciación' y, por
tanto, identificación de péptidos / proteínas [50]. Este proceso, aunque técnicamente ocurre
en el analizador de masas, se analiza por separado para mayor brevedad. La fragmentación se
induce proporcionando energía adicional a los iones precursores cargados, ya sea en un
analizador simple o en un instrumento analizador doble (consulte la Sección: Analizadores de
masas). En MS en tándem (MS / MS o MS 2), los iones precursores / parentales de interés (que
tienen un rango m / z específico) son seleccionados por el primer analizador de masas y luego
pasados a las fuentes de fragmentación externas (ver Tabla 3) (también llamado una celda de
colisión) para crear posteriormente iones de producto, que luego se analizan en un segundo
analizador de masas para generar espectros secundarios detallados de cualquier molécula o
ion objetivo. Durante la fragmentación, la rotura de enlaces se produce en tres posiciones
diferentes en una cadena peptídica, y esto se basa en la "notación de fragmentación", donde
los iones producto se denominan iones a-x, b-y y c-z. Los iones formados por escisión de
enlaces entre Cα y carbono carbonilo son iones a-x, entre carbono carbonilo y nitrógeno son
iones b-y y entre nitrógeno y Cα son iones c-z.

La disociación inducida por colisión (CID) [51], la disociación por captura de electrones (ECD)
[52] y la disociación por transferencia de electrones (ETD) [53] son técnicas comúnmente
utilizadas para la fragmentación de iones peptídicos y tienen muchas aplicaciones en
proteómica [54-56]. Un factor crítico en la identificación computacional de proteínas también
se basa en la interpretación de la variedad de patrones de fragmentación de datos de MS.

Analizadores de masas
Un analizador de masas se considera la unidad central de procesamiento de MS. Realiza la
separación de iones según su relación masa / carga utilizando un campo eléctrico o magnético.
Los analizadores de masas funcionan en un entorno de vacío a bajas presiones (10 −4 a 10−7 Pa)
para que los iones puedan pasar a través de ellos de manera eficiente y sin interrupciones.
Existen diferentes tipos de analizadores de masas y se utilizan de forma independiente o en
combinación (Tabla 4), dependiendo de las moléculas objetivo y la información requerida. Los
iones atraviesan directamente de los analizadores al detector (MS) o a las celdas de colisión
entre dos analizadores, y luego al detector (MS / MS), donde se registran las intensidades, el
tiempo de retención y los valores m / z de los iones.

Los diferentes tipos de analizadores de masas incluyen analizadores de cuadrupolo (Q),


analizadores de tiempo de luz f (ToF), trampas de iones de transformada de Fourier (FT),
analizadores de sector magnético (B) y analizadores de movilidad iónica (consulte la Tabla 4).
Los parámetros operativos de estos analizadores los clasifican como analizadores de masas "en
el tiempo" o "en el espacio". Los analizadores de sector magnético se consideran el primero de
los instrumentos utilizados para la identificación de proteínas (tanto secuenciales como
estructurales). Sin embargo, han sido reemplazados por analizadores de masas de cuadripolo y
ToF y ahora solo se utilizan para análisis de pequeñas moléculas ambientales orgánicas [57].
Los analizadores de cuadripolo y de sector magnético funcionan en modo de escaneo (es decir,
sus parámetros deben modificarse progresivamente), mientras que los iones se recolectan
consecutivamente dentro de un período de tiempo de milisegundos a segundos, conocido
como sistemas "in-time". Los analizadores que recogen y detectan todos los iones
simultáneamente en modo sin exploración se denominan analizadores de masas "en el
espacio", por ejemplo, ToF y FT. Además, una combinación de analizadores de masas en
tándem o "híbridos" da como
resultado información más detallada y específica en comparación con cualquier instrumento analizador de masas individual [58, 59]. Los instrumentos
tándem están compuestos por el mismo tipo de analizadores, tales como triple cuadrupolo (QqQ) y tiempo de f luz / tiempo de f luz (ToF / ToF), mientras
que los instrumentos híbridos son aquellos que identifican y detectan iones de péptidos utilizando diferentes tipos de analizadores. Ejemplos de híbridos
incluyen analizadores de cuadrupolo / tiempo de luz f (Q / ToF) y trampa de iones lineal / transformada de Fourier (LIT / FT). Para la identificación secuencial
y estructural de biomoléculas grandes, la utilización de analizadores de masas híbridos avanzados, junto con ESI o MALDI, es ahora un lugar común. [60-62]
Todos los analizadores de masas tienen su propia ingeniería operativa, moléculas objetivo, grado de resolución, precisión de medición de masa y rango de
masa a carga (ver Tabla 4), que forman la base para diferentes experimentos.

Tabla 3. Técnicas de fragmentación junto con su mecanismo de trabajo y propiedades.

Técnica Iones padres Molécula objetivo Mecanismo Iones de producto Eficiencia / inconvenientes
Disociación inducida Cationes de proteínas / Péptidos de pequeño Calentamiento lento a través de iones b-y Pérdida de H2O, NH3 y PTM
por colisión (CID) o péptidos gaseosos tamaño (∼15 múltiples colisiones con átomos
disociación activada aminoácidos) de gas raros
por colisión (CAD)
Disociación por Cationes de proteína / Grandes fosfopéptidos Captura de electrones térmicos iones c-z Romper los enlaces S-S, preservar
captura de péptido gaseosos con intactos H2O, PO4 y PTM
electrones (ECD) carga múltiple
Disociación por Catión peptídico Péptidos de tamaño Transferencia de electrones del iones c-z Altamente eficiente y rápido,
transferencia de protonado con carga mediano a grande (15 a anión radical al catión peptídico preserva los PTM
electrones (ETD) múltiple 40 aminoácidos)
(reacción ion-ion)
Disociación Catión de péptido Péptidos de tamaño El aumento de la energía interna iones b-y, iones c-z Más secuencia y sitio específico
fotoinducida (PID) protonado con carga mediano de los iones peptídicos tras la (basado en la longitud de onda
única / múltiple irradiación con fotones. del láser de irradiación)
Disociación inducida Catión peptídico Pequeñas moléculas, El aumento de la energía interna iones b-y Una ganancia de altas energías
por superficie (SID) protonado péptidos, grandes debido a la colisión de iones internas incluso en colisiones de
multiplicado complejos no covalentes peptídicos en la superficie del baja energía.
líquido metálico / viscoso.
Tabla 4. Clasificación de los analizadores de masas, sus técnicas y características destacadas

Resolución Rango de Gama


Ionización / Eficiencia /
Analizadores de masas Técnica / instrumento (fwhm) / masa / carga dinámic
fragmentación inconveniente
precisión (ppm) (m / z) (z = 1) a
Sistema de Analizadores Cuadrupolo Oscilación de iones ESI, EI, APCI 2000/100 4 kDa - Filtración de masa (iones
analizador de cuadrupolo (Q) entre un conjunto de seleccionados), escaneo
único (MS) cuatro varillas rápido, cualitativo,
recubiertas de metal con cuantitativo / baja
pares opuestos resolución
conectados
eléctricamente (+/− dc)
Trampa de Movimiento de iones en ESI, APCI, 4000/100–1000 6 kDa 103 Todos los iones quedan
iones una trayectoria MALDI/CID atrapados y se pueden
cuadrupolo 3D sinusoidal entre almacenar para
(QIT) cuadrupolo 3D con experimentos posteriores
electrodo de anillo / baja resolución, efecto
toroidal y dos tapas de carga espacial (espacio
terminales de almacenamiento de
carga limitado), regla 1/3
Trampa de Oscilación de iones de ESI, APCI∗ 4000/100–500 2 kDa 104 Sin efecto de carga
iones lineal forma lineal entre dos espacial (∼7 × 106 iones) /
(LIT o 2D QIT, varillas conectadas baja resolución
LTQ) eléctricamente
Analizador de Tiempo de El tiempo necesario para MALDI 2000–5000/200 ∼>350 kDa 104 Sin límite superior
tiempo de vuelo lineal que los iones se aceleren específico del rango m / z,
vuelo (TOF) a través del tubo detecta todos los iones de
analizador que tiene el todos los valores m / z /
mismo voltaje y energía baja resolución
cinética. Los iones viajan
a diferentes velocidades
según su relación m / z.
Reflectron Los iones acelerados se ∼30 000/10–20 ∼5 kDa Alta resolución / rango
tiempo de reflejan a través de un m / z limitado
vuelo (reToF) espejo de iones
colocado en un ángulo
de 180 grados
Trampas de Orbitrap Iones como pulsos de ESI, APCI ∼200 000/2–5 6 kDa 103 Alta resolución, máquina
iones por alta velocidad simple / más cara que QIT
transformada inyectados en el y LIT
de Fourier Orbitrap con dos
(FT) electrodos simétricos de
eje coaxial con campo
eléctrico estático y
oscilan / rotan a lo largo
de los electrodos
Resonancia Movimiento de iones en ESI, MALDI 3 000 000/<2 4 kDa 103 Resolución ultra alta,
ciclotrónica de un movimiento circular máxima precisión / muy
iones (FT-ICR) en presencia de campo cara
magnético. Los iones
viajan a diferentes
frecuencias según m / z
y la fuerza del campo
magnético
Analizadores Aceleración de iones en ESI / CID ∗ 2000–5000 / 5– ∼2 kDa ∗ - Alta resolución y
de sector presencia de voltaje fijo 60 ∗ precisión, proporcionan
magnético y ángulo de movimiento información espacial de
específico bajo campo iones / tiempo
magnético prolongado requerido
para alta resolución,
ahora se usa solo para
pequeños compuestos
orgánicos (dioxinas)
Sistema de Tándem Triple Dos analizadores de ESI, EI, CI 1000– 1–4 kDa 66 Monitoreo de iones
analizador cuadrupolo cuadrupolo (Q1, Q3) APCI/CID, ETD 4000/100–1000 seleccionados, amplio
múltiple (QqQ) rodean la celda / rango dinámico, alta
(MS / MS) componente de colisión capacidad de muestra,
central (q2) donde se espectros de MS / MS
produce la menos complejos /
fragmentación fragmentación de iones
del producto, baja
resolución
Tiempo de La combinación de dos MALDI/CID 5000–10 ∼>350 kDa 104 Las muestras grandes se
vuelo / tiempo analizadores de luz de 000/<20 pueden analizar
de vuelo tiempo de f, entre rápidamente / solo se
(ToF / ToF) celda / compartimento pueden usar con
de colisión, realiza la analizadores lineales de
fragmentación tiempo de vuelo
Híbrido Tiempo de Todos los iones o los ESI, MALDI/CID, 10 000–12 ∼>350 kDa 104 Mayor sensibilidad con
vuelo seleccionados pasan del ETD 000/10–20 alta resolución que QqQ,
cuadrupolo analizador Q a la celda rango m / z ilimitado
(QToF o de colisión (q) y los
QqToF) fragmentos se ingresan
al analizador ToF
Trampa de La combinación del ESI, MALDI >100 000/2–5 4-6 kDa 403 Mayor precisión y alta
iones lineal: analizador LIT con velocidad de adquisición
transformada cualquiera de los de datos, alta precisión y
de Fourier analizadores FT. Además poder de resolución
(LIT-Orbitrap o de LIT, también se
LIT-ICR) introduce una segunda
celda de colisión
Detección
Una vez que los iones se separan de acuerdo con las proporciones de masa a carga en un
analizador de masas, se pasan al detector, que es el componente final del espectrómetro de
masas. Detectan las señales en forma de corrientes de iones, las amplifican y determinan su
abundancia. El tránsito de iones desde la fuente de iones al analizador de masas y al detector
constituye la corriente de iones, donde el haz incidente de 10 iones por segundo corresponde
a una corriente eléctrica de 1,6 × 10 −18 A. El número de iones que atraviesan los analizadores
de masas es bastante pequeño y se amplía significativamente mediante el uso de diferentes
multiplicadores en casi todos los tipos de detectores (ver Tabla 5), excepto los detectores de
corriente de imagen y copa de Faraday. La copa de Faraday se considera un detector
convencional / primario para MS, que simplemente detecta y amplifica la corriente de iones y
no realiza la multiplicación. Asimismo, los detectores de corriente de imagen crean la imagen
de iones oscilantes y, con frecuencia, son compatibles con los analizadores de masas por
transformada de Fourier. Los multiplicadores de electrones, incluidos los detectores de placa
multicanal, son los detectores más utilizados para identificar proteínas y péptidos y se utilizan
comercialmente con analizadores de cuadrupolo y de tiempo de luz [63, 64]. Para mejorar la
sensibilidad y el tiempo de respuesta, los detectores híbridos (también llamados detectores de
matriz) también están diseñados y frecuentemente asociados con analizadores de sector
magnético para su identificación [65]. La Tabla 5 revisa el mecanismo de trabajo y las
eficiencias funcionales de diferentes detectores junto con algunos ejemplos más recientes.

Sistema de datos o computadoras


Un sistema de datos para EM es la potencia computacional (hardware y software) dedicada
específicamente a la adquisición, procesamiento y análisis posterior de datos por
espectrometría de masas de una manera eficaz y automatizada [66]. Los espectrómetros de
masas modernos, junto con sus instrumentos periféricos, como los sistemas GC / LC, también
se operan utilizando computadoras desde la introducción de muestras hasta la generación del
espectro. La digitalización de los datos analógicos adquiridos del detector se realiza utilizando
estas computadoras, donde se generan los espectros. Los espectros representan la relación
entre la abundancia relativa o la intensidad de cada ión de un péptido / proteína y su valor de
masa para cargar. Mientras se grafican las señales electrónicas, la manipulación de datos,
como el umbral máximo de m / z y la reducción de ruido, también se realiza casi siempre de
forma automática. En los espectrómetros de masas avanzados, el software de manejo de datos
está integrado, proporcionando un paquete completo para todo el experimento en una sola
plataforma. Cada proveedor de espectrómetros de masas a menudo tiene sus propios
detectores, software y tipo de archivo de salida únicos, aunque la mayoría tiene herramientas
de interpretación y conversión que permiten la compatibilidad de datos entre plataformas [67,
68]. La Tabla 6 destaca los proveedores de MS más comunes, una selección de la gama de
máquinas que ofrecen, el software que utilizan y los respectivos tipos de archivos. Un factor
crítico en bioinformática e identificación computacional (o evaluación de ID) de proteínas es la
naturaleza, los parámetros y la configuración del instrumento.
Tabla 5. Características de los detectores de EM y sus competencias

Detectores Técnica Instrumento Amplificador / Analizador Eficiencia / inconveniente


amplificación de masas
Copa de Detector de carga eléctrica, detecta y amplifica la Una caja rectangular delgada con un colector Amplificador ADC MALDI-ToF Económico, confiable y de bajo
faraday corriente de iones golpeando y neutralizando los (dinodo (BeO, GaP, CsSb)) en la base y una ruido eléctrico. Cuantificación y
iones positivos en el dínodo. resistencia de alta resistencia a través de la medición de masa precisa /
base solo válido para corrientes de
iones de cambio lento,
amplificación de señal limitada
Multiplicador Emisión de electrones secundarios. Un golpe Una serie de 12 a 24 dinodos de potencial Amplificador Cuadrupolo, Mayores eficiencias de
de electrones progresivo amplificado y una aceleración de creciente (Al2O3) electrónico / 106 a sector detección, amplificación de
(EM) electrones a través de una cadena de resistencias 108 magnético, señal / experimentos de
de alto voltaje al golpear iones positivos en el ToF, cuantificación de efectos de
primer dínodo. Orbitrap detección no lineal
Multiplicadores Un micromultiplicador. Emisión secundaria Una placa de vidrio poroso con pequeños Amplificador ToF Rápido y tiene un área de
de electrones amplificada y desviación de electrones a través de poros o canales individuales, que están en ADC / 108 detección grande / no apto
de placa canales opuestos al golpear iones positivos en la ángulo para desviar los electrones. para cuantificación (analice
multicanal pared de la placa. solo un ion por fórmula
(MCP) empírica en un momento
específico), vida útil más corta
debido a la contaminación
Detectores Conversión de iones en corriente electrónica a Un dinodo de conversión con una placa Fotomultiplicador Sector El instrumento tiene una vida
Daly (electro- través del dinodo e impacto de electrones en la centelleante emisora de fotones de acción / 106 a 108 magnético útil más larga que los
ópticos) placa centelleante. Los fotones de la placa rápida seguida de un fotomultiplicador multiplicadores de electrones,
impactan en el fotocátodo en el fotomultiplicador puede detectar iones de gran
produciendo una cascada amplificada de masa, tratar con iones positivos
electrones. y negativos / sistema complejo
Corriente de Detección de carga espacial. La corriente de iones Pantallas de formación de imágenes y - FT, LIT- Detección simultánea de iones
imagen se detecta a través de una corriente de imagen conductores de metal Orbitrap en todo el espectro de masas
(detección de que se produce por el paso de iones, cerca de una
iones) superficie metálica, en el camino sinusoidal,
produciendo una corriente de imagen oscilante.
Detectores de Producción de fotones de la pantalla Matriz o serie de múltiples detectores. Los más Fotomultiplicador Sector Los iones de gran masa a rango
matriz fosforescente al golpear el electrón emitido por comunes son las matrices de fotodiodos (PDA) magnético de carga se pueden detectar
(híbridos) MCP. Los fotones se convierten en cargas en el donde el MCP está acoplado al canal de fibra simultáneamente / baja
canal de fibra óptica y se detectan. óptica mediante una pantalla fosforescente resolución
(aluminio recubierto con fósforo cristalino)

Tabla 6. Espectrómetros de masas, su software de compatibilidad y características destacadas

Máquinas Detectores Software de Características Herramientas de Parámetros / tipos de archivo


análisis interpretación / conversión
Waters® • QqQ (UPLC®- ACQUITY® TQD, QDa, Software Waters® • Análisis de datos automatizado • Waters® OpenLynxTM Datos de MS y MS / MS de masa
MS/MS) SQ Detector2 MassLynxTM 4.1, • Detección e identificación (cualitativo) nominal y exacta, espectros de
• ToF (UPLC-MS) software de cualitativa • Waters® QuanLynxTM masas de baja y alta energía,
• Q-ToF (UPLC – contabilidad MSE • Análisis cuantitativo dirigido (cuantificación) fuentes de ionización, método y
MS/MS) • Adquisición independiente de detectores de MS / ∗ .txt, ∗ .csv y ∗
datos de rango completo m / z .xml
Thermo Fisher • Orbitrap- iCAPTM Q ICP-MS- Thermo • Identificación de PTM • Utilidad Proteome ∗.msf, ∗.MZDATA, ∗.DTA, ∗.MZML,
ScientificTM cuadrupolo híbrido Q SEM Detector, SEM ScientificTM • Marcado masivo isobárico DiscovererTM Daemon ∗.MGF
ExactiveTM HF Detector Software • Cuantificación del cálculo de
• Cuadrupolo simple Proteome iones precursores, iones
MSQ PlusTM DiscovererTM informadores y áreas de picos
• Búsqueda de base de datos
(SequestHT), SEQUEST, Mascot)
• Determinación FDR
Tecnologías • Q GC/LC/MS • QqQ • Detector de matriz Software de • Análisis GC / LC / ICP-MS • Análisis de datos de MSD Fuente de datos, filtrado de
Agilent GC/LC/MS de diodos Infinity II estación de cualitativo y cuantitativo ChemStation abundancia relativa, tiempo de
• Q-ToF GC/LC/MS • Detector de trabajo Agilent automatizado • Biblioteca y base de datos retención, número de iones,
• ToF LC/MS longitud de onda MassHunter 4.2 • Caracterización y cuantificación de compuestos personales filtrado de masas, estados de
variable Infinity II de nanomateriales para extraer (PCDL) carga / ∗ .cef,
• Detector de la máxima información de las • BioConfirm
dispersión de luz muestras • PCDL
evaporativa Infinity II • Búsqueda de base de datos • DrugQuant
• Detector de (METLIN, Fiehn Library, NIST, • Arquitecto de caminos
fluorescencia Infinity Spectrum Mill) • Integración de Skyline
II
Bruker • Rapif lex (MALDI Bruker SCiLS Lab: • Estructura tridimensional de un • Laboratorio SCiLS ∗.tdf
ToF, MALDI ToF / la solución ion • SCiLS Lab 3D
ToF) avanzada de • Múltiples anotaciones para • SCiLS Cloud
• Movilidad de iones software de caracterización clínica y • Velocidad autof lex
(timsToF) imágenes de MS, preclínica • Análisis de datos 4.3
• GC-Triple Quad MS solución de estudios • BioTools 3.2 SR5
• solariX XR software Bruker • Descomposición de la mezcla • ClinProTools3.0
Daltonics • Clasificación de nuevas [81] (descubrimiento de
(bioinformática) muestras basadas en datos de biomarcadores)
entrenamiento
Ionicon • Reacción de Detector de COV Software de • Soluciones ultrasensibles para • Visor PTR-MS 3.1 Datos del instrumento, datos
transferencia de (compuestos posprocesamient la detección de gases traza en • Visor PTR-TOF 1.4.3 espectrales, lista de masas, picos
protones: orgánicos volátiles) o PTR-MS Viewer tiempo real • Unidad de calibración de múltiples, calibración del eje de
espectrómetro de ultrasensible en 3.1 • Separación previa rápida de GC líquidos (LCU) masas, corrección de tiempo
masas (PTR-MS) tiempo real PTR-QMS • Automuestreador muerto / ∗ .h5 (HDF 5)
• Espectrómetro de • Sistema de calibración y
masas de tiempo de servicios analíticos
vuelo ioniTOF (PTR- • Multiplexación
ToFMS)
• PTR-MS de
cuadrupolo (PTR-
QMS)
AB Sciex • Sistemas QTOF • Detector ExionLC SCIEX OS, • Control de instrumentos y • Software Skyline Duración del método, fuente de
(Serie X) PDA (matriz de software Analyst® adquisición / procesamiento de • Software PeakView gas y voltaje, rango de masa de la
• Sistemas QTRAP fotodiodos) datos • Herramientas para muestra y tiempo de acumulación,
(4000, 4500, 5500, • Detector UV • Detección, identificación y encontrar metabolitos, rango de masa del fragmento, /
6500+) ® ExionLC cuantificación simultáneas de especies de lípidos, ∗ .wiff, ∗ mzML, ∗ .mzXML, ∗ .tsv, ∗
• Sistemas de triple • Detectores de alta péptidos moléculas similares a .csv, ∗ .txt
cuádruple (4500, energía IonDrive • Pantallas MRM y de calibración fármacos y búsqueda en
5500, 6500+) TM • Búsqueda e interpretación bibliotecas y data mining
• Sistemas TOF / TOF automatizada de bibliotecas de • OpenSWATH
(5800) TM MS / MS • Espectronauta
• Adquisición SWATH
Shimadzu • Sistema de triple • Detector de conteo LabSolutions • Detección de alta sensibilidad, • Escaneo de levantamiento Parámetros LC (muestreador
cuadrante (LCMS de pulsos LCMS precisión y alta velocidad sincronizado (SSS): escaneo automático, bomba, temperatura,
8060, 8050, 2020) ultrarrápido GCMSsolution • Optimización cuantitativa y de iones de productos presión), parámetros MS (tiempo
• LCMS-QIT-TOF • Detector de Software MALDI cualitativa automatizada • Solución de creación de de adquisición, voltaje del
• Sistema de triple ionización de llama SolutionsTM • Operación automatizada a perfiles Ver 1.1: análisis de detector, rango m / z) / ∗ .lcm, ∗
cuadrante (GCMS- (FID) través de Smart MRM picos .lcr, ∗ .lcb, ∗ .lcd
TQ8040) • Detector • Protocolo de velocidad de • Software de análisis de
• MALDI TOF-TOF termoiónico de llama escaneo avanzado (ASSP) iones de carga múltiple
(MALDI-7090 TM) (FTD) • Software de análisis
• MALDI-QIT-TOF • Detector multivariante Traverse MS
(AXIMA-QITIT) fotométrico de llama
Análisis bioinformático de datos de EM
Hay varios paquetes de software disponibles para analizar los datos de MS. Estos pueden
almacenar los datos adquiridos y realizar búsquedas en bases de datos de secuencias de
proteínas, lo que da como resultado la identificación y cuantificación de las proteínas que se
encuentran en la muestra. Luego, las identificaciones se utilizan en procesos posteriores para
inferir la relevancia biológica. La interpretación y el análisis de datos de escopeta incorporan
cuatro pasos básicos: (i) la conversión de datos MS sin procesar en formatos openXML, que
pueden ser leídos e interpretados por diferentes softwares de análisis MS, (ii) identificación
espectral después de la búsqueda en la base de datos y (iii) validación que conduce a (iv)
inferencia de proteínas y, si es necesario, cuantificación (resumido en la Figura 2, tablas de
referencias cruzadas). Se han desarrollado varias herramientas de software de análisis de
datos, algunas de las cuales están especializadas para tareas específicas, mientras que otras
proporcionan un paquete completo (de múltiples herramientas integradas) y canales de
análisis en una sola plataforma.

Figura 2. Resumen de los pasos informáticos y computacionales. Los pasos computacionales (y las
herramientas correspondientes con referencias cruzadas en tablas) analizan y transforman los datos de
MS en bruto en información proteómica útil, incluido el descubrimiento de proteínas faltantes.

El Trans-Proteomic Pipeline (TPP) es un canal de herramientas integradas para el análisis de


proteómica MS / MS, iniciado principalmente en el Instituto de Biología de Sistemas (ISB), y ha
sido mantenido por diferentes colaboradores en colaboración [69]. Aparte del TPP, hay varias
otras herramientas gratuitas disponibles, OpenMS Proteomics Pipeline (TOPP) [70], Central
Proteomics Facilities Pipeline (CPFP) (repositorio colectivo basado en la web) [71, 72] y
SORCERER de Sage-N Research (www.sagenresearch.com), un sistema de análisis de datos
integrado comercial con módulos de análisis de datos de MS automatizados y de alto
rendimiento. También está disponible otra tubería, diseñada mediante la incorporación de
múltiples herramientas de libre acceso, llamada Automated Proteomics Pipeline (APP) [73]. Ha
combinado TPP y otras herramientas individuales como complementos, lo que permite la
facilidad de generar un pipeline personalizado. Integrated Proteomics Applications también ha
diseñado un Integrated Proteomics Pipeline (IP2), un conjunto de herramientas de análisis de
datos, que proporciona computación local y en la nube. El pipeline tiene herramientas
integradas para la búsqueda de bases de datos para análisis cuantitativo, de agrupamiento,
PTM y funcional. Además, la Iniciativa de Estándares de Proteómica (PSI), un grupo de trabajo
de la Organización del Proteoma Humano (HUPO), ha proporcionado los estándares de la
comunidad para acelerar el análisis de datos de proteómica [74, 75]. La ISP ha establecido
cuatro grupos de trabajo principales para el intercambio, la comparación y la verificación de
datos, como los Estándares proteómicos generales (GPS), MS (MS), Interacciones moleculares
(MI) y Modificaciones de proteínas (Mod) [76].

Conversión de datos de MS
La mayor parte del software de análisis de datos de MS requiere que los archivos de datos de
entrada se conviertan de formularios sin procesar a formatos estándar (como OpenXML). Los
datos sin procesar de MS se convierten en formatos mzXML, mzDATA y mzML utilizando las
herramientas MSconvert, RawConverter, Mascot Distiller, ReAdW, MassWolf y mzWiff
(consulte la Tabla 7). Además, TPP y PSI tratan los datos de MS en sus propios formatos de
archivo específicos, como pepXML, protXML y analysisXML. Los archivos pepXML y protXML
almacenan y analizan datos de nivel de péptidos y proteínas, respectivamente, mientras que
analysisXML almacena todo el análisis de identificación y cuantificación de espectros de MS.
Todas estas herramientas están disponibles gratuitamente y se resumen en la Tabla 7 para sus
formatos de datos admitidos y proveedores de MS compatibles.

Tabla 7. Lista de herramientas de conversión de datos de MS


Herramientas de conversión Formato de archivo Compatibilidad Sitios web
Mascot Distiller mzXML, mzML Agilent, AB Sciex, Bruker, http://www.matrixscience.com/distiller.html
Shimadzu, Thermo Fisher,
Waters
ReAdW .raw a mzXML Xcalibur por Thermo http://www.ionsource.com/functional_
reviews/readw/t2x_update_readw.htm
Fisher
mzWiff .wiff a mzXML AB Sciex http://tools.proteomecenter.org/wiki/index.
php?title=Software:mzWiff
massWolf .raw a mzXML MassLynx por Waters http://tools.proteomecenter.org/wiki/index.
php?title=Software:massWolf
Msconvert mzXML, mzML, Agilent, Thermo, AB Sciex http://tools.proteomecenter.org/wiki/index.
php?title=Msconvert_Capabilities
pepXML, protXML
RawConverter .raw a MS1/MS2, Thermo http://fields.scripps.edu/rawconv/
MGF, mzXML

Identificación de espectro o búsqueda de secuencia


Después de la conversión de datos espectrales MS sin procesar en formatos legibles, el
siguiente paso es realizar la identificación de espectros o búsqueda de secuencias. La tarea
puede estar mediada por la coincidencia de las transiciones espectrales con las secuencias de
péptidos generadas in silico o la información espectral previamente identificada. Los métodos
de identificación del espectro más utilizados son los siguientes:

Búsqueda en la base de datos de secuencias


En este método, todas las posibles secuencias de péptidos que se observa que tienen valores
similares de relación masa de precursor a carga, como muestra, se seleccionan para la
investigación. Los espectros de iones de fragmentos experimentales tomados de la EM en
tándem se emparejan luego con los espectros de iones teóricos de los péptidos preferidos.
Para cada uno de los perfiles coincidentes, se calculan las puntuaciones para examinar la
semejanza entre dos espectros [77]. Por lo general, las secuencias de proteínas se toman de las
bases de datos UniProt y NCBI y la búsqueda se realiza a través de diferentes herramientas
comerciales y de libre disponibilidad, como se resume en la Tabla 8.

Coincidencia espectral

Los espectros, después de la identificación correcta, junto con la información de péptidos /


proteínas, se pueden almacenar en bibliotecas especialmente diseñadas (bibliotecas
espectrales). Estas bibliotecas se utilizan luego para el emparejamiento espectral, que es el
proceso de ajustar nuevos espectros observados experimentalmente sobre los espectros de
consenso MS / MS de proteínas identificadas anteriormente. Este método acelera en gran
medida el proceso de detección al eliminar el redescubrimiento repetido de proteínas que se
han procesado previamente en la experimentación con EM / EM. Algunas de las grandes
bibliotecas espectrales de acceso público incluyen SRMAtlas (también Human SRMAtlas) [78],
PeptideAtlas [79] y ProteomeXchange [80], que se pueden explorar utilizando diferentes
herramientas de coincidencia espectral (ver Tabla 8).

Secuenciación de novo

El tercer método de identificación del espectro es la secuenciación de novo, que se aplica


cuando no hay información presente en las bases de datos o ésta es muy limitada. En este
método, la secuencia de una proteína o un péptido se interpreta explícitamente mediante la
manipulación de picos espaciados de espectros de iones de fragmentos de alta resolución [77].
La secuencia identificada puede buscarse homólogos o secuencias similares en una base de
datos utilizando herramientas de búsqueda de alineación de secuencias, como BLAST. El
método de secuenciación de novo se utiliza principalmente para realizar las desafiantes tareas
de identificación y caracterización de modificaciones de péptidos y polimorfismos de
proteínas. Para lograr esto, hay varias herramientas disponibles, incluidas PepNovo, PEAKS,
Sequit y Lutefisk (consulte la Tabla 8).

Enfoque híbrido

El último enfoque para la identificación del espectro es un híbrido de las técnicas


convencionales de búsqueda en bases de datos de secuencias y de secuenciación de novo. En
este método, usando la secuenciación de novo, se generan etiquetas de secuencia corta de
pocos aminoácidos y se combinan con los valores precursores m / z de los péptidos diana.
Estos parámetros combinados se utilizan luego para una búsqueda en una base de datos de
secuencias en la que solo los péptidos que abarcan una o más etiquetas de secuencia y valores
m / z similares se aíslan para la generación de espectro teórico. Este método es más preciso y
eficiente que la búsqueda tradicional en una base de datos de secuencias, ya que no requiere
que uno recorra las bases de datos de secuencias grandes y completas, lo que limita el espacio
de búsqueda (ver Tabla 8).
Tabla 8. Lista de software de identificación del espectro

Software Comentarios Páginas web


Base de datos de secuencia
Sequest (Thermo Las primeras herramientas (que desde https://sourceforge.net/projects/sashimi/files/latest/download?source=files
Fisher) entonces han evolucionado marginalmente),
parte de TPP
Mascot (Matrix http://www.matrixscience.com/distiller_download.html
Science)
X! Tandem Gratis, parte de TPP http://www.thegpm.org/tandem/
X!! Tandem Gratis, parte de TPP http://wiki.thegpm.org/wiki/X!!Tandem
(paralelización de
X! Tandem)
Morpheus Gratis, informó ser mucho más rápido y https://sourceforge.net/projects/morpheus-ms/
preciso que otras herramientas de búsqueda
ProbID Gratis, realiza búsquedas mediante modelo https://www.systemsbiology.org/research/
probabilístico
MyriMatch Tiene en cuenta los picos mayores y menores https://medschool.vanderbilt.edu/msrc/
para la coincidencia, supuestamente mejor
que Sequest y Mascot
MassMatrix Herramienta de búsqueda más sensible y http://www.massmatrix.net/
eficiente en cuanto a precisión masiva y
consumo de tiempo.
Comet Motor de búsqueda de código abierto http://comet-ms.sourceforge.net/
altamente eficiente y multiproceso
ProLuCID Gratis, parte de IP2, basado en el algoritmo https://github.com/bathyg/Prolucid_gui
Sequest
MS-GF+ Herramienta de búsqueda de bases de datos https://github.com/MSGFPlus/msgfplus
más sensible y universal
Coincidencia espectral
SpectraST Herramienta de generación y búsqueda de https://sourceforge.net/projects/spectrastwindows/
(herramienta de bibliotecas, desarrollada en ISB, parte de TPP
búsqueda de
espectros)
Bibliospec BlibBuild: Edificio de la biblioteca https://skyline.ms/wiki/home/software/BiblioSpec/page.view?name=default
(MacCoss Lab) BlibFilter: Eliminación o datos redundantes
BlibSearch: Búsqueda de biblioteca
BlibtoMS2: Escribe la biblioteca en un archivo
de texto
LibToSqlite: Conversión de biblioteca a
diferentes formatos
X! Hunter (máquina Búsqueda a través de bibliotecas espectrales http://www.thegpm.org/Hunter/index.html
de proteoma de levadura y humanos anotadas generadas
global) internamente (bases de datos GPM)
MyriMatch Tiene en cuenta los picos mayores y menores https://medschool.vanderbilt.edu/msrc/
para la coincidencia, mejor que Sequest y
Mascot
Secuenciación de novo
PepNovo (CCMS) Búsqueda altamente eficiente y precisa http://proteomics.ucsd.edu/Software/PepNovo/
mediante modelado de red probabilístico
PEAKS studio Búsqueda automatizada de modificaciones e http://www.bioinfor.com/peaks-studio/
(Bioinformatics identificación de PTM
Solutions Inc.)
Sequit (Fábrica de Más compatible con espectrometría MALDI y http://www.proteome-factory.com/index.php/downloads
proteomas) ESI MS / MS
Lutefisk Plataforma independiente específicamente http://www.hairyfatguy.com/lutefisk/
para los espectros generados a través de CID
Híbrido
GutenTag Inferencia automatizada y eficiente de http://fields.scripps.edu/yates/wp/?page_id
(Laboratorio Yates) etiquetas de secuencia a partir de espectros
mediante un modelo derivado
empíricamente y la selección de la mejor
coincidencia a partir de la identificación
múltiple
InsPecT Específico para la identificación de PTM, http://proteomics.ucsd.edu/software-tools/inspectms-alignment/
identificó modificaciones más novedosas que
otras herramientas
SpecNets (Spectral Emparejamiento rápido de patrones a través https://bix-lab.ucsd.edu/display/CCMStools/Spectral+Networks+-
+Installation+guide
Networks) (CCMS) de pares espectrales (pares de espectros de
péptidos superpuestos)

Evaluación estadística de identificaciones de péptidos


Los péptidos que se han identificado a través de varios motores de búsqueda de secuencias a
menudo no son correctos y requieren una validación estadística extensa de coincidencias de
espectro de péptidos (PSM) antes de un análisis adicional. Entonces, para determinar las
identificaciones correctas de alta confianza, existen diferentes esquemas de puntuación,
algunos ya están incorporados en las herramientas de búsqueda (¡Sequest, Mascot, X! Tandem
y MyriMatch) (ver Tabla 8). Estas puntuaciones representan la medida de similitud entre la
secuencia de péptidos y los espectros o entre los espectros observados y de biblioteca. Las
puntuaciones se suelen convertir en una evaluación estadística más detallada y para cada
puntuación de coincidencia adquirida, se calculan las probabilidades o los valores y para
realizar una estimación de la tasa de descubrimiento falso (FDR) [81]. Las dos amplias
categorías de estimación FDR para espectros MS / MS son la búsqueda Target-Decoy [82] y los
enfoques empíricos de Bayes. Los diferentes esquemas de puntuación empleados en diversas
herramientas de evaluación estadística se aclaran en la Tabla 9.

Tabla 9. Lista de herramientas de evaluación estadística de identificación de péptidos

Software / método Comentarios Páginas web


PeptideProphet Evaluación empírica de bayes, parte del https://moritz.systemsbiology.org/resources/software/
iProphet TPP
PTMProphet
Scaffold (software de proteoma) Realiza validación y visualización http://www.proteomesoftware.com/products/scaffold/
MAYU Estimaciones de FDR a niveles de http://proteomics.ethz.ch/muellelu/web/LukasReiter/Mayu/
péptido (pepFDR) proteína (protFDR) y
PSM (mFDR)
FDRAnalysis Estimación FDR de coincidencias de https://omictools.com/fdranalysis-tool
espectro de péptidos (PSM) de
múltiples motores de búsqueda
Puntuación probabilística de Realiza una combinación de https://www.openms.de/
consenso puntuaciones y estimación del valor p
para cada péptido de varios motores de
búsqueda
Algoritmo de expectativa- Identificación y validación basada en http://tools.proteomecenter.org/software.php
maximización (EM) semi modelos semisupervisados mediante
supervisado modelo de mezcla de probabilidad.
También extiende PeptideProphet
Espectrometrista de masas http://www.yass.sdu.dk/
experto virtual (VEMS)

Inferencia de proteínas a partir de identificaciones espectrales


El objetivo final de realizar la EM en proteómica es la identificación [83] y cuantificación [84]
de las proteínas que se encuentran en una muestra biológica particular. La identificación
espectral es un paso intermedio en el que los péptidos o espectros identificados de alta
confianza se fusionan para realizar la inferencia de proteínas. La inferencia de proteínas es un
proceso complejo y presenta una serie de desafíos, como el mapeo de péptidos correctamente
identificados a una cantidad muy pequeña de proteínas, enormes identificaciones falsas que
coinciden aleatoriamente con una gran cantidad de proteínas y la presencia de secuencias de
péptidos en múltiples registros de proteínas ya que las bases de datos generalmente exhiben
homólogos de secuencia, isoformas y datos redundantes. Hasta la fecha, se han establecido
varios métodos y estrategias para interpretar péptidos en proteínas, por ejemplo, mapear
grandes espectros combinados de MS / MS ininterrumpidos directamente a una secuencia de
proteínas en la base de datos y agrupar las secuencias de péptidos en proteínas a través de
métodos estadísticos (asignando probabilidades y puntuaciones). Tras la inferencia de
proteínas, se vuelve a realizar una validación estadística y se estiman los FDR a nivel de
proteínas. Muchas inferencias de proteínas y módulos de evaluación se integran con motores
de búsqueda de péptidos / espectrales como se describe en la Tabla 10.

Tabla 10. Lista de herramientas de evaluación estadística e inferencia de proteínas

Software Comentarios Páginas web


Paquete de contraste Reúne y compara péptidos identificados por http://fields.scripps.edu/yates/wp/?page_id=17
DTASelect SEQUEST, parte de IP2
DBParser (Mascot) Realiza análisis de parsimonia para lidiar con la http://www.matrixscience.com/distiller_download.html
redundancia en la inferencia de proteínas
Scaffold (software de Realiza validación y visualización http://www.proteomesoftware.com/products/scaffold/
proteoma)
ProteinProphet Utiliza el resultado de PeptideProphet, parte de https://moritz.systemsbiology.org/resources/software/
TPP
PAnalyzer Herramienta para la inferencia de proteínas en la https://code.google.com/archive/p/ehu-
bio/wikis/PAnalyzer.wiki
proteómica de escopeta, utilizando los
resultados del software ProteinLynx Global de
Waters Corporation
ProteinLasso Realiza inferencias de proteínas utilizando https://sourceforge.net/projects/proteinlasso/
modelos de regresión de Lasso
PIA Motor de inferencia de proteínas que https://github.com/mpc-bioinformatics/pia
implementa algoritmos de inferencia
desarrollados previamente y combina resultados
de múltiples motores de búsqueda

Almacenamiento y organización de datos de MS


Una vez que se identifican e interpretan todos los datos espectrales generados por los
experimentos de MS / MS, a menudo se envían para ser almacenados en repositorios y
sistemas de almacenamiento. Para que todos los datos experimentales estén disponibles
públicamente, no solo es necesario reducir el poder computacional utilizado en la
identificación de la misma proteína repetidamente, sino que también es beneficioso para que
otros científicos realicen análisis más detallados y generen nuevas hipótesis y experimentos.
Dichos repositorios mantienen un registro de los datos espectrales, de péptidos y de proteínas
desde la forma sin procesar hasta la forma anotada (ver Tabla 11).

Tabla 11. Lista de herramientas de almacenamiento de datos de MS

Repositorio Comentarios Páginas web


Proteomics IDEntifications Uno de los repositorios más grandes de http://www.ebi.ac.uk/pride/archive/
(PRIDE) (EBI) datos proteómicos basados en MS
ProteomeXchange Un consorcio de datos en bruto, http://www.proteomexchange.org/
cuantitativos y metadatos de proteómica
basados en MS
Proteios Paquetes independientes de la http://www.proteios.org/
Sistema de análisis de plataforma de código abierto para la https://www.labkey.org/home/project-begin.view?
proteómica gestión y publicación de datos
computacional (CPAS) proteómicos
Sistema de gestión de Sistema de gestión de bases de datos http://www.sbeams.org/download/
análisis de experimentos relacionales para datos genómicos y
de biología de sistemas proteómicos
(SBEAMS)
La base de datos abierta Contiene datos de cinco organismos http://data.marcottelab.org/MSdata/OPD/
de proteómica (OPD) diferentes
(Marcotte Lab)
Peptidome (NCBI) Repositorios públicos de libre acceso de https://www.ncbi.nlm.nih.gov/peptidome/
datos proteómicos basados en MS
Sistema de análisis MS Base de datos gratuita e integrada de http://genome.tugraz.at/maspectras/maspectras_description.shtml
(MASPECTRAS2) identificaciones de MS
Base de datos de Repositorio integrado de datos http://yped.med.yale.edu/yped_dist/
expresión de proteínas de generados en electroforesis diferencial
Yale (TIPOS) en gel y experimentos de EM

Desafíos en la identificación de proteínas


La identificación de proteínas, aunque en los últimos años se ha vuelto mucho más fácil y
barata, conlleva un conjunto significativo de dificultades que conducen a una identificación
errónea. Las revistas y repositorios de proteómica están repletas de proteínas mal
identificadas como en el caso de las "proteínas faltantes" [85], donde a pesar de más de 4
millones de entradas de péptidos para proteínas faltantes en los repositorios de datos, menos
de un puñado de estas se presumen "reales". Otros escollos importantes que conducen a la
identificación de falsos positivos de proteínas en el análisis de MS incluyen, entre otros, la
configuración incorrecta del instrumento, la conversión incorrecta de datos, la configuración
de parámetros de búsqueda subóptima (incluida la elección de la base de datos de búsqueda,
la calidad de la base de datos, umbrales de rigurosidad, etc.), variabilidad en algoritmos de
coincidencia espectral, péptidos no proteotípicos y muchos más [5]. De manera similar, las
identificaciones de proteínas no basadas en MS también sufren problemas importantes como
bajo rendimiento, anticuerpos no específicos, modificaciones de proteínas que no permiten la
identificación, unión no específica y otros como se discutió anteriormente.
Conclusiones
La identificación precisa de proteínas es fundamental para publicar análisis de datos donde la
identidad solo se utiliza para inferir la biología. La mayoría de los análisis posteriores a la
identificación se pueden dividir en estudios cualitativos y estudios cuantitativos. Los estudios
cualitativos (Figura 2) a menudo implican una combinación de (i) términos de ontología
genética correlativos, que ilustran su componente celular, función molecular y procesos
biológicos [86]; (ii) comprensión de las modificaciones posteriores a la traducción que son
responsables de regular diferentes rutas celulares y conducen a la formación de entradas de
isoformas de proteínas en las bases de datos; (iii) análisis de dominios y motivos donde la
información de los pliegues conservados de dominios y motivos en proteínas previamente
anotadas se puede emplear para predecir los sitios estructuralmente esenciales en una
proteína recién identificada; (iv) Interacciones proteína-proteína: uno de los objetivos finales
de la identificación de proteínas es inferir cuáles son los socios interactuantes de estas
proteínas, que luego son responsables de la regulación de diferentes procesos biológicos. Esto
es crucial porque, para que una proteína sea completamente funcional, es necesaria una
interacción estable con sus proteínas asociadas o receptoras; (v) el análisis de vías es la
exploración de un conjunto completo de reacciones químicas y proteínas involucradas en un
determinado proceso biológico; (vi) análisis filogenético: las isoformas de proteínas, que
difieren entre sí en función de algún sitio modificado o debido a polimorfismos de nucleótidos
únicos o múltiples, pueden detectarse mediante análisis de novo de arriba hacia abajo basados
en MS. Para evaluar tales mutaciones a lo largo de la evolución, se realiza un análisis
filogenético.

Un uso igualmente crítico de la identificación precisa de proteínas es en estudios cuantitativos.


Estos evalúan el grado de expresión de proteínas después del tratamiento o en alguna forma
de estado ambiental o patológico en comparación con "normal". Estos estudios no solo
informan el diagnóstico y la terapéutica en humanos, sino que también tienen aplicaciones en
la agricultura, la conservación y la biotecnología, por nombrar algunos.

Reconociendo la importancia de una identificación precisa y la multitud de usos posteriores de


las identificaciones precisas de proteínas, la HUPO publicó un conjunto de métricas [87] para
ayudar a los profesionales y usuarios por igual a evaluar los datos de identificación de
proteínas de la EM y ha generado un conjunto de parámetros aceptados por la comunidad.
para una identificación precisa. Proponemos que la aplicación de estas métricas sea previa a
cualquier posprocesamiento (Figura 2). Aunque no existen tales directrices para la
identificación de proteínas a partir de datos que no son de EM [88], la aceptación general es el
uso de metodologías ortogonales para validar una identidad que sea suficiente para establecer
o probar una hipótesis (por ejemplo, EM y transferencia de Western).

El panorama de la identificación y anotación de proteínas está cambiando rápidamente y


constantemente se agregan nuevas herramientas y metodologías al repertorio central,
mientras que las técnicas informáticas y computacionales actuales se refinan y actualizan
constantemente. Esta revisión ha intentado resumir una instantánea de todas las técnicas y
metodologías más populares y actuales en la identificación de proteínas y analiza brevemente
la utilidad de la identificación precisa de proteínas. La comprensión de los métodos de
preparación de muestras, las metodologías centrales, los parámetros de los instrumentos y las
herramientas bioinformáticas disponibles, así como el cumplimiento de métricas estrictas para
la identificación de proteínas, pueden conducir a un mayor éxito en el análisis posterior de los
datos de proteínas.

Puntos clave

 Fundamentos y avances de la proteómica basada en EM que abordan aspectos tanto


experimentales (generación de datos) como bioinformáticos (análisis de datos).
 Resumen detallado paso a paso de los métodos basados en MS para guiar al investigador
sobre la selección de instrumentos y métodos de análisis adecuados para su estudio
objetivo.
 Proporciona una perspectiva bioinformática para el análisis de datos de proteómica
basado en EM con la evaluación detallada, compatibilidad, funcionalidad y accesibilidad de
herramientas y software especializados disponibles.

También podría gustarte