Está en la página 1de 11

Errores comunes en el análisis basado en

espectrometría de masas de modificaciones


postraduccionales
La espectrometría de masas (MS) es una herramienta poderosa para analizar mezclas
complejas de proteínas de una manera de alto rendimiento. El análisis del proteoma ya
se ha convertido en una tarea rutinaria en la investigación biomédica con la aparición de
instalaciones centrales de proteómica en la mayoría de las instituciones de
investigación. Las modificaciones postraduccionales (PTM) representan un mecanismo
por el cual los procesos biológicos complejos se orquestan dinámicamente a nivel de
sistemas. La EM se está volviendo rápidamente popular para descubrir nuevas
modificaciones y nuevos sitios de PTM conocidos, revolucionando la comprensión
actual de diversas vías de señalización y procesos biológicos. Sin embargo, el análisis
de PTM basado en la EM tiene sus propias advertencias y dificultades que pueden llevar
a conclusiones erróneas. Aquí, revisamos los errores más comunes en los análisis PTM
basados en MS con el objetivo de adoptar estrategias que maximicen la interpretación
correcta en el contexto de las preguntas biológicas que se están abordando. Finalmente,
ofrecemos sugerencias que deberían ayudar a los espectrometristas de masas,
bioinformáticos y biólogos a realizar e interpretar los análisis PTM basados en MS con
mayor precisión.

La EM se ha convertido rápidamente en un método de elección para el análisis de


mezclas complejas de proteínas de una manera de alto rendimiento . La PTM de las
proteínas es un mecanismo común por el cual la función de las proteínas se puede
regular de forma precisa y dinámica. Hay más de 200 tipos de PTM y 300 tipos de
modificaciones biológicas y químicas, como se documenta en las bases de datos PSI-
MOD , RESID, UniProt y UniMod (para revisiones representativas, ver [7 –9] para
fosforilación y [10] para O-GlcNAcylation). El análisis PTM basado en MS es de gran
interés para la mayoría de los biólogos debido a la oportunidad única de obtener
información cualitativa y cuantitativa a escala global [11, 12]. Sin embargo, el análisis
PTM con EM tiene muchas advertencias y dificultades que pueden conducir a una
interpretación incorrecta de los datos y conclusiones erróneas [13, 14]. Aquí, resumimos
una variedad de errores comunes que pueden ocurrir durante el análisis de PTM basado
en MS.

1 PTM incorrectos asignados a un péptido

Aunque las PTM isobáricas se definen como aquellas PTM que tienen pesos
moleculares idénticos (es decir, no se pueden distinguir solo con EM), hay una serie de
situaciones en las que las PTM particulares no son estrictamente isobáricas, pero
pueden identificarse erróneamente debido a errores de medición de masa de los tipos
particulares de espectrómetros de masas. La Figura 1 muestra cómo la precisión de
masa de los espectrómetros de masas puede afectar la capacidad de distinguir PTM
con masas contenidas dentro de las tolerancias especificadas. El impacto de la precisión
de la masa en la discernibilidad de los PTM es dramático cuando se emplean
espectrómetros de masas de baja resolución (por ejemplo, trampa de iones) en lugar de
espectrómetros de masas de alta resolución (por ejemplo, Q-TOF y Orbitrap). Por
ejemplo, dos modificaciones que se producen en los residuos de lisina: la trimetilación
(C3H6, 42.04695 Da) y la acetilación (C2H2O, 42.01057 Da) están muy próximas en su
masa. Además, ambos tipos de modificaciones con frecuencia ocurren conjuntamente
in vivo en la misma clase de moléculas (por ejemplo, histonas) [15-17]. La diferencia de
masa entre estos dos PTM es 0.03638 Da (es decir, 36 ppm de diferencia para un
péptido con 1000 Da). Ciertamente, los espectrómetros de masas de baja resolución,
como las trampas de iones, no tenían la capacidad de diferenciarlos. Aunque este tipo
de error podría no ser un problema con los espectrómetros de masas de alta resolución
de última generación, como Orbitraps [18] y TOF de alta definición [15] para la
proteómica de abajo hacia arriba, esta situación persiste en la proteómica de arriba
hacia abajo porque 0.03638 La diferencia de masa de Da sigue siendo de 1,8 ppm para
una proteína intacta de 20 000 Da (que es aproximadamente del tamaño de las
histonas). Otro ejemplo de este tipo es distinguir entre fosforilación (HPO3, 79.96633
Da) y O-sulfonación (SO3, 79.95682 Da). Estas dos PTM también comparten
exactamente los mismos sitios de modificaciones (es decir, serina, treonina y tirosina)
[19] y se ha informado que la sulfatación podría surgir de forma artificial del proceso de
tinción de plata [20]. La diferencia de masa entre estos dos PTM (sulfatación y
fosforilación) es de 0.00951 Da, que corresponde a 9.5 ppm para un péptido con 1000
Da. A veces, también se pueden observar modificaciones químicas que se consideran
artefactos. Por ejemplo, la glicinilación (C2H3NO, 57.021464 Da) se puede confundir
fácilmente con la carbamidometilación (C2H3NO, 57.02146 Da) y, de manera similar, la
modificación de ubiquitylation remanente, di-Gly (C4H6N2O2, 114.04292 Da) es
isobárica con dicarbamidometilación (C4H4N2292, 292, 214, 212, 214, 212 ].
Además, las sustituciones de aminoácidos también pueden imitar PTM si son isobáricas
con la masa de otros aminoácidos modificados. Por ejemplo, la metilación puede ocurrir
en ácido aspártico y residuos de ácido glutámico [22] y estos aminoácidos con la masa
añadida de grupos metilo (es decir, 14.01565 Da) son isobáricos con variantes de
aminoácidos (por ejemplo, V a I / L o D a E) . Por ejemplo, un péptido totalmente tríptico
(LVNELTEFAK) de albúmina de suero bovino, que se utiliza como proteína estándar en
muchos laboratorios de proteómica, podría identificarse erróneamente como un péptido
humano (LVNEVTEFAK) con metilación en E4, aunque el ion y6 existe y los distingue.
Como otro ejemplo, se ha descrito la conversión de ácido aspártico a ácido isoaspártico,
que es un cambio isobárico, por lo que es casi imposible diferenciarlos por masa a
menos que se utilicen métodos basados en electrones como ECD y ETD para la
fragmentación, lo que genera un diagnóstico único. iones (es decir, c + 57 o z * -57) [23,
24].
En la naturaleza, hay muchos más ejemplos de tales PTM isobáricas en el mundo de
las glucoproteínas, ya que los monosacáridos isoméricos pueden unirse como
secuencias de péptidos codificados. Hay más de 250 glicosiltransferasas en el genoma
humano, lo que puede conducir a la adición de glicanos a más del 50% del proteoma
humano [25]. Molecularmente, se sabe que ocho aminoácidos diferentes están
involucrados en enlaces de glucoproteína con más de 13 monosacáridos diferentes
usando más de 41 enlaces químicos diferentes [26]. Las estructuras de glicanos
isobáricos pueden ser presentadas por diversos isómeros estructurales a través de una
combinación de múltiples posiciones de enlace, centros anoméricos (es decir, o) y
estructuras de anillo (es decir, furanosa o piranosa). No es sorprendente que el número
de subestructuras de glicano se haya estimado en más de 10 000 [27]. Por lo tanto, se
deben desarrollar estrategias más nuevas en el futuro para caracterizar la naturaleza
precisa de las modificaciones de carbohidratos. Esperamos que las modificaciones de
los lípidos de la proteína puedan ser tan diversas como la glicosilación. Por ejemplo, las
modificaciones de los lípidos proteicos, como la N-acilación y la S-acilación, a menudo
permiten que las proteínas se anclen en las membranas celulares. Esto juega un papel
clave en diversas vías de señalización que implican, por ejemplo, la miristoilación N-
terminal del residuo de glicina de las tirosina quinasas Sí, Fyn y Lck, palmitoilación de
la cisteína N-terminal de la familia de proteínas hedgehog o la acilación de lisina por la
familia sirtuina [ 28, 29].
2 PTM asignados a una proteína / gen incorrecto

Muchos péptidos trípticos se comparten entre genes distintos o entre isoformas del
mismo gen debido a la identidad de secuencia. Una limitación importante de la EM es
que no puede ayudar de manera confiable a rastrear el origen de estos péptidos trípticos
para determinar qué gen (s) codifican las proteínas que se detectan en la muestra.
Además, la naturaleza isobárica de dos aminoácidos (es decir, leucina e isoleucina)
hace que la inferencia de proteínas sea más complicada [30]. Aunque se han realizado
esfuerzos [31, 32] para resolver computacionalmente los problemas de inferencia de
proteínas, este problema es inherente a la proteómica basada en la EM y siempre habrá
un cierto nivel de preocupación con respecto a qué productos proteicos de los genes se
identificaron realmente. 'Por lo tanto, todavía existe una necesidad urgente de métodos
más nuevos / ortogonales para complementar el tema de inferencia de proteínas que se
persigue desde hace mucho tiempo y que es más agudo en los experimentos de
proteómica de abajo hacia arriba. De la misma manera, los sitios PTM identificados en
los péptidos no pueden localizarse en una proteína cuando la secuencia del péptido en
sí no es exclusiva de una proteína. Como ilustración, Fyn, Hck, Lck, Src y Yes1
pertenecen a la familia de tirosina quinasa no receptora de Src cuya fosforilación
desempeña un papel importante en diversas vías de señalización. Sin embargo, debido
a que tienen una estructura de dominio similar y secuencias de aminoácidos altamente
relacionadas, puede ser difícil decidir qué proteína se fosforila como se ilustra en la Fig.
2. Los dominios de tirosina quinasa de las tirosina quinasas no receptoras Src son
altamente homólogos, lo que hace que algunos sean trípticos. péptidos idénticos /
isobáricos entre proteínas (Fig. 2A). Por ejemplo, dos fosfopéptidos isobáricos,
IIEDNEpYTAR y LIEDNEpYTAR, identificados a partir de un estudio fosfoproteómico,
donde IIEDNEpYTAR se observa en Hck quinasa, mientras que Fyn, Lck, Src y Yes
comparten LIEDNEpYTAR. Por lo tanto, la identificación de este fosfopéptido no puede
resolver el enigma de las quinasas fosforiladas correspondientes incluso con una buena
asignación espectral (Fig. 2B). En los estudios presentados por Zhong et al. [33], los
autores mostraron un aumento en la abundancia de este péptido en las células
estimuladas con TSLP, de lo cual se podría concluir que una o más de estas tirosina
quinasas no receptoras podrían estar hiperfosforiladas. Por lo tanto, la participación
exacta de estas quinasas en la señalización de TSLP aún permanece indecisa
basándose solo en estas identificaciones de péptidos. En realidad, este problema es
intrínseco a la convención de usar tripsina para la proteómica de abajo hacia arriba, ya
que la secuencia de péptidos completamente tríptica (I / LIEDNEYTAR) es compartida
por proteínas codificadas por cinco genes (Fyn, Src, Yes, Hck y Lck). Para superar este
problema, uno puede usar otra enzima como Lys-C para generar una secuencia
peptídica más larga a partir de la región de tirosina quinasa altamente homóloga que
puede ayudar a identificar un solo producto génico o reducir a menos alternativas. En el
escenario presentado, Lys-C produciría cuatro secuencias de péptidos diferentes a
partir de las proteínas en comparación con un péptido isobárico compartido por la
tripsina: un péptido (VADFGLARLIEDNEYTARQGAK) único para Src, otro péptido
(IADFGLARLIEDNEYTARQGAK) compartido entre Fyn y Yes y dos únicos pero
secuencias de péptidos isobáricos (IADFGLARI / LIEDNEYTAREGAK) compartidas
entre Hck y Lck. Por supuesto, el uso de enzimas proteolíticas adicionales puede
resolver muchas más ambigüedades relacionadas con los péptidos compartidos.

3 PTM asignado a un residuo incorrecto en un péptido identificado correctamente

En la mayoría de los análisis de proteómica, generalmente se emplea un enfoque


ascendente utilizando tripsina. Los PTM se pueden identificar junto con las secuencias
de péptidos correspondientes cuando se utilizan algoritmos de búsqueda en la base de
datos. Sin embargo, saber que cualquier PTM existe en un péptido es solo el primer
paso y, un segundo paso igualmente importante, es localizar el sitio de modificación en
uno o más de varios aminoácidos plausibles. El número total de residuos en el proteoma
humano anotado en la base de datos de proteínas RefSeq [34], por ejemplo, es de 20
millones con el tamaño aproximado de un péptido tríptico promedio de 10 aminoácidos
de largo. El número de residuos de serina, treonina y tirosina, los principales sitios de
fosforilación en eucariotas, es de 1.5 millones, 1 millón y 0.5 millones, respectivamente,
lo que resulta en un estimado de 1.5 sitios potenciales de fosforilación por péptido que
tiene una longitud de diez aminoácidos. Por lo tanto, casi la mitad de los péptidos tendría
un problema con la localización del sitio, lo que implica la necesidad de una evaluación
computacional y estadística de la localización del sitio PTM. Se han desarrollado varios
algoritmos como MD-Score [35], PhosphoRS [36], PTM score [37] y A-Score [38] para
evaluar estadísticamente el sitio de localización de la fosforilación. Aunque estos
algoritmos son complementarios entre sí para localizar sitios de fosforilación [39],
podrían haberse optimizado para una de las modificaciones más abundantes, como la
fosforilación. Para mejorar el rendimiento de estos algoritmos para localizar con
precisión los sitios de modificaciones que no sean la fosforilación, existe una necesidad
urgente de conjuntos de datos MS / MS estándar basados en péptidos sintéticos de
diversos péptidos modificados postraduccionalmente (no solo algunos tipos de
modificaciones como la fosforilación) . Aquí, discutiremos las causas más frecuentes de
ambigüedad de la asignación de sitios PTM:

3.1 Un patrón de fragmentación deficiente observado en el espectro MS / MS

Aunque muchos espectros de masas en tándem contienen iones de fragmentos


informativos, algunos de ellos exhiben una pobre fragmentación de iones de péptidos
que conduce a la ambigüedad en la asignación del sitio de PTM. Para superar este
problema, a menudo se emplea una prueba estadística para ver qué sitio de todos los
sitios posibles en un péptido dado es modificado por el PTM. Debido a que el PTM más
investigado por MS es la fosforilación, muchos de los algoritmos de localización se han
optimizado en función de la naturaleza de la fosforilación. Se debe tener en cuenta que
un PTM puede asignarse erróneamente a un sitio en una secuencia de péptidos incluso
cuando se emplean dichos programas. Cuando el espectro MS / MS es demasiado
pobre para localizar el sitio de modificación, los algoritmos generalmente proporcionan
una probabilidad uniforme entre todos los sitios plausibles. Por lo tanto, se podría
emplear un límite de probabilidad del 75% para minimizar en general los sitios de
modificación con falsos positivos. Sin embargo, una elección simple del 75% como límite
sigue siendo arbitraria y se debe evaluar sistemáticamente un método, ya que puede
haber otros escenarios que hagan que la probabilidad de que un sitio de modificación
real sea puntuado en <75% (ver ejemplos a continuación).

3.2 Falla en la localización del sitio de modificación por algoritmos

La Figura 3 muestra un ejemplo de un espectro MS / MS con iones de fragmentos ricos


de un péptido (NIPIALCTSSNKTK) que contiene un remanente di-Gly en uno de los dos
residuos de lisina (el protocolo experimental enriquecido para el motivo di-Gly que
contiene péptidos usando inmunoafinidad basada en anticuerpos purificación). El
algoritmo de puntuación PTM integrado en la plataforma MaxQuant proporciona una
puntuación de probabilidad más alta para el sitio de modificación di-Gly a la lisina C-
terminal al estimar la puntuación de probabilidad para la lisina interna como 0.226 y la
lisina terminal como 0.774 (es decir, NIPIALCTSSNK (0.226) TK ( 0,774)). Actualmente,
muchos grupos usan un umbral de 0,75 para informar con confianza las localizaciones
de sitios de PTM. Sin embargo, una cuidadosa evaluación manual indicó que la lisina
interna es un sitio de modificación debido a la existencia de iones y1 y iones y2 sin di-
Gly y la ausencia de iones y1 y y2 que contienen di-Gly. Por lo tanto, en este caso,
parece que el algoritmo de puntuación PTM no pesó estos iones de baja abundancia de
manera adecuada, lo que resultó en una puntuación ligeramente más alta para el
aminoácido terminal.

3.3 Co-elución de péptidos que contienen el mismo PTM en diferentes residuos

Otro problema es la coelución de dos (o más) péptidos con el mismo PTM en diferentes
sitios (dado que la secuencia de péptidos es la misma, los péptidos modificados son
obviamente isobáricos). Aquí, mostramos un ejemplo donde una mezcla de dos péptidos
fosforilados en tirosina que eluyeron estrechamente durante la cromatografía (Fig. 4).
Esta secuencia peptídica (YYEGYYAAGPGYGGR) con una fosforilación contiene cinco
residuos de tirosina que posiblemente podrían ser modificados por un resto fosfato. El
software de localización de sitios (PhosphoRS) asignó una probabilidad del 50% a Y5,
50% a Y6 y 0% a los otros tres sitios. Dado que no hay sitios con una probabilidad más
alta (por ejemplo, cuando se usa un umbral arbitrario del 75%), uno eliminaría ambos
sitios (Y5 e Y6) de la lista final de sitios identificados con confianza. Sin embargo, en
realidad, no hay duda de que existen dos fosfopéptidos diferentes con la secuencia
peptídica idéntica, se eluyeron y se cofragmentaron como lo demuestran dos iones y10
diferentes, uno con y el otro sin fosfato (Fig. 4). A este respecto, Thibault y sus colegas
han demostrado recientemente que del 3 al 6% de todos los péptidos fosforilados
identificados se encuentran en esta categoría de 'péptidos con el mismo PTM en
diferentes sitios' y que aproximadamente la mitad de ellos eluyen de la columna ( es
decir, dentro de 2 min) [40]. Sin embargo, aún es difícil determinar todos los
fosfopéptidos que existen en una muestra debido al potencial de sesgos sistemáticos,
como la eficiencia de la digestión del impedimento estructural diferencial, así como
debido a la estequiometría de esos fosfopéptidos isobáricos.

3.4 Múltiples PTM "isobáricos" distintos en un péptido

.Como se discutió anteriormente, la acetilación y la trimetilación a menudo ocurren en


los residuos de lisina de las colas de histonas, lo que conduce a posibles errores en la
identificación del tipo exacto de PTM. Recientemente, se ha informado que se pueden
observar PTM combinatorias en histonas y que se encontró que una fracción
considerable de péptidos tiene ambas modificaciones en un péptido dado (es decir,
acetilación y tri-metilación) [41]. Para localizar correctamente las dos modificaciones en
diferentes residuos de lisina en un péptido, uno debe adquirir datos de fragmentación
en una MS de alta resolución para que las masas de iones fragmentadas con una
diferencia de 36 ppm se puedan diferenciar con confianza independientemente de la
elección del método de fragmentación (por ejemplo, CID, HCD o ETD).

4 péptidos modificados postraduccionalmente perdidos debido a la estrategia de


búsqueda en la base de datos

La mayoría de los sitios PTM se identifican desde enfoques proteómicos de abajo hacia
arriba mediante la búsqueda de espectros de masas en tándem contra bases de datos
de proteínas teóricas utilizando algoritmos de búsqueda de bases de datos. Los
componentes de tales tuberías computacionales afectan dramáticamente la
identificación de sitios PTM en el análisis. Actualmente, la identificación de péptidos
modificados postraduccionalmente por MS se basa principalmente en el análisis basado
en algoritmos de espectros de masas reales contra espectros de masas teóricos
generados a partir de bases de datos proteicas seleccionadas. Dos componentes
computacionales juegan papeles críticos en tales identificaciones PTM: el algoritmo en
sí y la base de datos que se busca. Aquí, discutimos los escenarios en los que los
péptidos con PTM se omitieron incorrectamente de la identificación: (i) La base de datos
no tenía la secuencia de péptidos: es decir, faltaba la proteína de interés, o la proteína
estaba presente pero correspondía a una variante diferente (por ejemplo, un aminoácido
cambio debido a una mutación o SNP), (ii) El algoritmo de búsqueda perdió la
identificación; y (iii) El usuario no especificó la modificación apropiada mientras buscaba.

4.1 Base de datos


Las bases de datos de proteínas pueden ser incompletas y / o inexactas ya que ninguna
de las secuencias del genoma más complejas, incluido el genoma humano, es
realmente completa [42]. Algunas de las proteínas no están anotadas, algunas de las
secuencias de proteínas anotadas son incorrectas e incluso aquellas que son correctas
reflejan secuencias de un individuo determinado sin tener en cuenta los SNP. Esta
situación continuará mejorando hasta que las secuencias del genoma y sus regiones de
codificación de proteínas estén completamente anotadas. Se ha demostrado que los
péptidos que contienen aminoácidos alterados por SNP o mutaciones pueden extraerse
de grandes conjuntos de datos de MS [43]. Si las secuencias de proteínas no están
disponibles, una opción es utilizar la información de secuencia de transcripción
disponible públicamente de especies relacionadas a partir de las cuales se puede
generar una base de datos de proteínas [44, 45]. También se podría usar un
transcriptoma personalizado para crear una base de datos de proteínas personalizada
en la que se puedan buscar las PTM, con la disponibilidad de datos de secuenciación
de próxima generación, dicho uso continuará siendo aún más popular.

4.2 Algoritmos y parámetros de búsqueda

Hay muchos algoritmos de búsqueda disponibles para la identificación de péptidos.


Aquí, no revisamos todos los algoritmos de búsqueda de bases de datos disponibles,
pero proporcionamos ejemplos sobre algunas de sus limitaciones que los investigadores
deben tener en cuenta. Algunos algoritmos como MASCOT [46], X! Tandem [47] y
Sequest [48] actualmente solo permiten buscar 10 modificaciones, lo que puede llevar
a que uno pierda la identificación de ciertos PTM a menos que se realice una búsqueda
iterativa. Sin embargo, debe señalarse que un aumento en el número de parámetros de
búsqueda también afecta a las puntuaciones de las coincidencias del espectro peptídico,
lo que en sí mismo puede complicar el análisis. En general, se elige un pequeño conjunto
de modificaciones en un análisis proteómico de rutina, como la oxidación en la
acetilación de metionina y / o N-terminal de la proteína. Sin embargo, incluso estas
modificaciones de rutina (y comunes) (por ejemplo, acetilación de N-terminal de
proteína) no siempre se pueden especificar durante una búsqueda con todos los
algoritmos de búsqueda. Una limitación para algunos algoritmos como Sequest es que
no tienen la capacidad de buscar directamente la acetilación N-terminal de proteínas,
aunque la acetilación N-terminal peptídica puede usarse a expensas de un aumento de
falsos positivos. Por lo tanto, la acetilación N-terminal de proteínas, que es bastante
común, puede pasarse por alto fácilmente en la identificación. Para eludir las
limitaciones inherentes a los algoritmos de búsqueda, se pueden crear bases de datos
personalizadas de modo que todos los péptidos trípticos N-terminales teóricos con las
divisiones perdidas deseadas se incluyan en el espacio de búsqueda.

4.3 PTM no especificados durante la búsqueda

Muy a menudo, muchos de los PTM no se especifican durante la búsqueda. Por ejemplo,
la modificación de lípidos y la glicosilación generalmente no se incluyen durante la
mayoría de los análisis de datos de rutina. Desafortunadamente, esto significa que las
tuberías de análisis actuales pierden rutinariamente muchas PTM interesantes ocultas
en los datos. Por ejemplo, una serie de modificaciones novedosas en los residuos de
lisina como la propionilación, la butirilación, la succinilación, la malonilación y la
glutarilación se han informado recientemente [49-52], mientras que otras modificaciones
como la hidroxilación y la metilación también se pueden observar con frecuencia en las
muestras [53]. La búsqueda de todos los PTM sigue siendo un área de investigación y
las estrategias más apropiadas que equilibran la sensibilidad y las tasas de
descubrimiento falso aún no se han explorado por completo, aunque se están probando.

4.4 Confianza en la identificación de PTM

Uno de los aspectos difíciles del análisis de datos para la identificación y localización de
PTM se refiere a la estimación de la confianza en los PTM identificados. Se pueden usar
todas las PTM posibles como modificaciones variables en la misma búsqueda o emplear
búsquedas iterativas utilizando múltiples conjuntos de PTM [54,55]. También se ha
informado que la "búsqueda abierta" podría ayudar a identificar muchos más péptidos
modificados [56, 57]. Aunque no existe una evaluación sistemática de qué estrategia
puede funcionar mejor para qué PTM, creemos que tales estudios sistemáticos deberían
llevarse a cabo en el futuro cercano utilizando conjuntos de datos estándar apropiados.

5 Sitio de un PTM etiquetado incorrectamente como novela

El análisis bioinformático a menudo se lleva a cabo para obtener nuevos conocimientos


biológicos a través del análisis proteómico de PTM. El primero de estos análisis es a
menudo encontrar nuevos sitios PTM identificados a través del análisis proteómico. El
análisis espectrométrico de masas de PTM ya ha llevado a la acumulación de datos en
cientos de miles de sitios PTM. Existen muchas bases de datos y repositorios como
recursos para la comunidad científica que proporcionan información sobre genes,
proteínas, péptidos, PTM y datos sin procesar de EM [34, 58-63]. Sin embargo, ninguno
de estos recursos se puede sincronizar fácilmente o asumir que está completamente
actualizado, lo que hace que la simple pregunta de "si la identificación del sitio de
modificaciones es nueva", sea casi imposible de responder. Por lo tanto, informar PTMs
anotadas como "novedosas" a menudo puede resultar erróneo. Por ejemplo, Kim et al.
demostró que el nivel de fosforilación en el terminal C98 del receptor de tirosina quinasa
EphB4 fue heterogéneo en metástasis múltiples de un solo paciente con cáncer
pancreático [64]. Este sitio de fosforilación puede ser reportado como "novedoso"
basado en HPRD [58], pero ya ha sido anotado en PhopshoSitePlus, que contiene tanto
conjuntos de datos publicados como datos generados internamente por Cell Signaling
Technology [61]. Una solución más fácil es que cualquier reclamo de novedad de los
sitios PTM identificados podría evitarse en publicaciones, como ya es la política de las
Actas de la Academia Nacional de Ciencias de EE. UU. Con respecto a cualquier
declaración de novedad y prioridad.

6 Conclusiones incorrectas derivadas de la falta de conciencia de la naturaleza


sesgada de los experimentos

El análisis de motivos es un ejercicio de bioinformática de rutina cuando se ha


identificado un gran número de sitios PTM a partir de un estudio de proteómica. El
análisis a menudo requiere dos conjuntos de datos: el conjunto de datos en primer plano
y el conjunto de datos en segundo plano. El conjunto de datos en primer plano a menudo
proviene de sitios PTM identificados en el experimento y el conjunto de datos de fondo
está compuesto de sitios PTM teóricos. Sin embargo, varios factores afectan la
identificación de los sitios PTM, lo que sesga el análisis de motivos. Estos factores
incluyen, pero no se limitan a, enzima, método de enriquecimiento sesgado, desalación
selectiva en punta / cartucho C18, eficiencia desigual de transferencia de iones
gaseosos, PTM múltiples y / o grandes, análisis dependiente de datos para mayor
abundancia, método de fragmentación, preferencia de disociación desigual entre
enlaces peptídicos, base de datos incorrecta y dependencia de algoritmos de búsqueda.
Aquí, describiremos cómo algunos de estos factores pueden llevar a conclusiones
erróneas.

6.1 Procesamiento de muestras y extracción de proteínas.

Las proteínas citoplasmáticas se extraen más fácilmente que las proteínas de


membrana a pesar de los métodos desarrollados para minimizar este problema [65, 66].
Esto se debe a que los tramos de aminoácidos hidrofóbicos de las proteínas de
membrana no son óptimos para los métodos actuales de LC-MS / MS, ya que esos
péptidos altamente hidrofóbicos tienden a unirse fuertemente a los materiales C18 a lo
largo del procesamiento de la muestra desde la columna de fraccionamiento RPLC
básica, la punta de la etapa, la columna de trampa y columna analítica. Se sabe que
algunos PTM se alteran durante el procesamiento de la muestra. Por ejemplo, varios
estudios han informado que algunas fosfoproteínas están alteradas por la isquemia
antes de la extracción de proteínas [67-69]. Anticipamos que muchos otros PTM pueden
verse alterados durante el paso de extracción de proteínas, aunque todavía no se han
estudiado sistemáticamente. Además, uno podría tener que evaluar sistemáticamente
el efecto de variables como los tampones de lisis en cualquier nuevo análisis de PTM.

6.2 Enzima

La tripsina es la primera opción como enzima para digerir proteínas en péptidos en


estudios de proteómica basados en EM. Las limitaciones de los espectrómetros de
masas a menudo dificultan la identificación de péptidos extremadamente cortos o largos.
Para usar el proteoma humano como ejemplo, solo el 60% de la secuencia de proteínas
en el proteoma completo es susceptible de identificación, en base a la suposición de
que los péptidos con 6 a 25 aminoácidos de longitud se identifican fácilmente. Por lo
tanto, se espera que el 60% de los fosfopéptidos en el proteoma humano pueda
examinarse mediante el análisis espectrométrico de masas actual. Hay esfuerzos para
obtener una mayor cobertura utilizando proteasa múltiple para el análisis proteómico,
así como el análisis PTM [70-74], aunque no se intentan de forma rutinaria.

6.3 Captura de afinidad

Los péptidos con PTM son generalmente de baja abundancia, cuya detección se ve
afectada negativamente por el gran exceso de péptidos no modificados. Por lo tanto, los
análisis actuales de PTM a menudo emplean captura de afinidad enriqueciendo péptidos
que contienen PTM, agotando péptidos no modificados o separando péptidos
modificados por cromatografía. En el caso de los métodos basados en anticuerpos, la
mayoría, si no todos, los anticuerpos producidos contra PTM tienen alguna preferencia
a ciertas secuencias. Esta selectividad vagamente conocida conduce a la identificación
de péptidos preferidos de reactivos de captura, que se asocia con el nivel de abundancia
de las secuencias de péptidos modificados. Por lo tanto, los repetidos experimentos de
proteómica basados en afinidad por el mismo laboratorio u otros laboratorios
identificarían preferentemente los sitios modificados con PTM conocidos. Por lo tanto,
es bueno continuar desarrollando métodos más nuevos que complementen los métodos
actuales para minimizar este tipo de sesgo.

6.4 Limpieza basada en C18


El análisis espectrométrico de masas en la mayoría de las configuraciones proteómicas
emplea pasos de desalación para agotar las sales que interfieren con el ESI estable.
Los métodos de desalación utilizaron material unido a 18 cadenas de carbono (es decir,
C18) como STAGE-tip y Zip-tip. Este principio básico de este método se basa en la
hidrofobicidad de los péptidos generados por la proteasa de tripsina de manera que la
mayoría de los péptidos se unen a las puntas mientras que las moléculas hidrofílicas
incluyen metabolitos pequeños, péptidos de pequeño tamaño (es decir, monómero,
dímero, etc.) y moléculas de ADN / ARN fragmentadas fluir a través de la punta. Sin
embargo, los péptidos altamente hidrófobos o hidrófilos no estarían disponibles para el
análisis de MS después de este paso. En otras palabras, solo los péptidos de tamaño
preferido con perfiles de hidrofobicidad preferidos se inyectan rutinariamente en el
espectrómetro de masas, que nuevamente se conecta en línea con una trampa y / o una
columna analítica empaquetada con material C18. Esto crea un sesgo sistemático y crea
falsos negativos en los conjuntos de datos adquiridos incluso cuando son muy grandes.

6.5 Elección de métodos de secuenciación

La mayoría de los investigadores utilizan métodos de adquisición dependientes de datos


para perfilar mezclas de péptidos y PTM. Este método está diseñado para realizar un
ciclo de MS junto con varios escaneos MS / MS de los iones más abundantes. Por lo
tanto, los iones de baja abundancia se pierden de la secuenciación para la identificación.
Por lo tanto, la velocidad de adquisición de MS / MS sin pérdida de intensidad de señal
es muy importante para un análisis proteómico exitoso [75]. Alternativamente, el análisis
independiente de los datos se puede llevar a cabo de manera programada para adquirir
todos los iones de fragmentos posibles, incluidos los de iones de baja abundancia [76-
79]. Conceptualmente, este método debería tener la ventaja de recuperar integralmente
la mayoría de los iones de péptidos para la secuenciación.

6.6 Método de fragmentación

El análisis de proteómica basado en MS emplea métodos de fragmentación basados en


colisión como CID y HCD. Estos dos métodos también son complementarios a los
métodos de fragmentación basados en electrones (es decir, ETD y ECD). Las porciones
de péptidos que contienen estados de carga más altos (z 3) se secuenciarán mejor
mediante ETD, mientras que otras porciones de péptidos con z = 2 tienen una mayor
probabilidad de identificarse con CID y HCD. Parece que los péptidos con PTM también
siguen esta tendencia, al menos para el análisis de fosfoproteomía [80-83]. En el futuro,
las estrategias híbridas de fragmentación podrían volverse más populares cuando se
busca una caracterización más detallada de las PTM. 6.7 Motor de búsqueda de bases
de datos El uso de múltiples algoritmos de búsqueda de bases de datos puede ayudar
a aumentar las identificaciones de péptidos, así como el análisis PTM, ya que ningún
motor de búsqueda es perfecto.

7 Cuantificación incorrecta de PTM

Se han desarrollado una serie de estrategias de etiquetado para cuantificar el cambio


del estado de PTM en proteínas, incluyendo 18O, ICAT, SILAC, TMT, iTRAQ y el
etiquetado de dimetilo isotópico estable [84-89]. Sin embargo, la coelución de péptidos
afecta significativamente la cuantificación de PTM independientemente de los métodos
de cuantificación empleados. La Figura 4 representa un ejemplo de coelución de
fosfopéptidos isobáricos donde no se puede cuantificar cada fosfopéptido. Bajo las
condiciones de LC del experimento que se muestra en la Fig. 5, dos péptidos isobáricos
se eluyeron muy estrechamente de la columna analítica que afecta los valores de
cuantificación. En el caso de los métodos cuantitativos basados en etiquetas isobáricas
como iTRAQ y TMT, este tipo de problema es más problemático ya que muchos iones
interferentes dentro de una ventana m / z (por ejemplo, 1.9 Da) que cubren el valor
objetivo del ion m / z están todos seleccionados para aislamiento y fragmentación. Por
lo tanto, otros iones peptídicos co-fragmentados junto con el ión peptídico diana, aunque
no son isobáricos, pueden producir iones reporteros no deseados que conducen a
información cuantitativa inexacta.

8 Interpretación incorrecta de un aumento de PTM

Las mediciones actuales del estado de PTM en cualquier proteoma se realizan a través
de la cuantificación de péptidos que contienen PTM. Sin embargo, una posibilidad en
abundancia del péptido modificado no implica necesariamente un cambio en la
extensión del sitio PTM. Por ejemplo, los cambios en la abundancia de la fosforilación
de proteínas podrían resultar de cambios en la abundancia de fosforilación en el sitio o
de cambios en la abundancia de la proteína misma. Por lo tanto, es importante evaluar
la abundancia de proteínas para una mejor interpretación de la fosforilación [90]. Otros
posibles problemas a considerar para el análisis de fosfoproteomía en la interpretación
de datos se han revisado en otra parte [91,92]. Como se muestra en la Fig. 6, una
relación SILAC que indica una disminución en la abundancia relativa de fosfopéptido
puede resultar de cuatro escenarios diferentes a nivel de proteína. Aunque SILAC se
usó aquí para discutir los problemas específicos relacionados con la interpretación, otros
tipos de métodos cuantitativos, incluidos iTRAQ y TMT, tienen problemas similares.

9 Discusión

Aquí, hemos discutido muchos aspectos de la tubería proteómica actual para el análisis
PTM en biología, donde debemos ser cautelosos. Antes de apresurarnos a sacar
conclusiones biológicas de los datos de espectrometría de masas, debemos tener en
cuenta los siguientes parámetros: (i) la resolución del espectrómetro de masas que se
está empleando; (ii) PTM isobáricos, modificaciones químicas y aminoácidos; (iii)
enzimas utilizadas; (iv) algoritmo de búsqueda; (v) bases de datos de proteínas; (vi)
parámetros de búsqueda de PTM; (vii) algoritmo de localización del sitio; (viii) coelución
de péptidos modificados; y (ix) interpretación de datos de cuantificación. Algunos de los
problemas que hemos enumerado se pueden resolver, por ejemplo, utilizando diferentes
proteasas, algoritmos múltiples, bases de datos de proteínas más curadas o parámetros
de búsqueda optimizados. Otros problemas pueden resolverse mediante mejoras en las
tuberías de bioinformática actuales, como la integración de diferentes bases de datos
PTM para una mejor y más completa anotación. Algunos problemas, como las PTM
isobáricas, pueden no resolverse simplemente mediante métodos proteómicos. Estos
problemas pueden resolverse mediante el uso de métodos bioquímicos distintos de la
EM o mediante una combinación de métodos. La siguiente lista de sugerencias se puede
utilizar como guía al realizar análisis PTM basados en MS. Sugerencia n. ° 1: Conozca
los errores en masa de las masas medidas por la EM empleada. Sugerencia n. ° 2:
Conozca explicaciones alternativas de las masas delta de PTM de interés. La Tabla 1
muestra una lista de masas isobáricas. Sugerencia # 3: Use la presencia de iones de
firma en los espectros de MS / MS para aumentar el nivel de confianza de los PTM
identificados. La Tabla 2 muestra una lista de iones de firma frecuentemente observados
en los datos de MS. Sugerencia n. ° 4: Emplee un análisis estadístico para evaluar la
probabilidad de localización en un sitio dado para identificar el aminoácido modificado
por PTM con mayor confianza. Sugerencia n. ° 5: Emplee enzimas que no sean tripsina
para identificar la proteína de interés con PTM. Sugerencia # 6: Conozca formas
alternativas de interpretar un resultado cuantitativo de PTM. Sugerencia n. ° 7: deposite
los datos de MS adquiridos en repositorios públicos como ProteomeXchange [93] y
MassIVE. Creemos que la difusión pública de los datos de proteómica en última
instancia permitirá la evaluación, validación cruzada, integración, análisis comparativo y
nuevos descubrimientos. Por último, uno debe entender que un análisis PTM estándar
basado en MS no proporciona ocupación del sitio PTM (es decir, estequiometría). Esto
se debe a que los péptidos modificados y no modificados se comportan de manera
desigual en la tubería proteómica, lo que hace difícil compararlos directamente en
función de sus respuestas relativas de MS. Otro factor de complicación es que algunas
PTM como la S-nitrosilación y la fosfo (ribosil) ación indicativa de mono- o poli-ADP-
ribosilación son menos estables durante la preparación de las muestras [94, 95], lo que
podría no permitir un verdadero medición del estado de modificación de las proteínas in
vivo. En nuestra experiencia, una evaluación cuidadosa de los péptidos modificados
postraduccionalmente a menudo está justificada y vale la pena, especialmente si va a
servir como la base de experimentos biológicos adicionales que pueden llevar mucho
tiempo. Este estudio fue apoyado por una subvención del Instituto Nacional del Cáncer
(CA184165 a AP) y la iniciativa del Consorcio de Análisis de Tumor Proteómico Clínico
del NCI (U24CA160036 a AP). Los autores han declarado no tener ningún conflicto de
intereses.

También podría gustarte