Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ARTÍCULO DE INVESTIGACIÓN
Resumen Las funciones reguladoras y efectoras de las células T se inician con la unión de sus
receptor de células T (TCR) de la superficie celular a péptidos presentados por proteínas del
complejo mayor de histocompatibilidad (CMH) en otras células. Así pues, la especificidad de las
interacciones TCR:péptido-MHC subyace a casi todas las respuestas inmunitarias adaptativas. A
pesar del gran interés que despiertan, los modelos predictivos generalizables de la especificidad
TCR:- péptido-MHC siguen estando fuera de nuestro alcance; dos barreras clave son la
diversidad de los modos de reconocimiento TCR y la escasez de datos de entrenamiento.
Inspirados por los recientes avances en la predicción de la estructura de las proteínas logrados
por las redes neuronales profundas, evaluamos el modelado estructural como una vía potencial
para predecir la especificidad del TCR.
para la predicción de la especificidad del epítopo TCR. Demostramos que una versión especializada
del predictor de red neuronal AlphaFold puede generar modelos de interacciones TCR:péptido-MHC
que pueden utilizarse para discriminar los epítopos peptídicos correctos de los incorrectos con una
precisión sustancial. Aunque queda mucho trabajo por hacer para que estas predicciones tengan
una utilidad práctica generalizada, somos optimistas en cuanto a que el modelado estructural
basado en el aprendizaje profundo representa un camino hacia la predicción generalizable de la
especificidad de la interacción TCR:péptido-MHC.
Intereses contrapuestos: El
autor declara que no existen
intereses contrapuestos.
Introducción
La especificidad de los
receptores de células T
(TCR) para los péptidos
presentados por las
proteínas del complejo
mayor de
histocompatibilidad
(pMHC) es un
determinante crítico de las
respuestas inmunitarias
adaptativas a patógenos y
tumores y de las
enfermedades
autoinmunes. Un modelo
predictivo de las
interacciones TCR:pMHC,
capaz de trazar un mapa
entre las secuencias TCR y
las dianas pMHC, podría
conducir a avances en la
inmunoterapia del cáncer y
en el diagnóstico y
tratamiento de
enfermedades infecciosas y
autoinmunes. A pesar de
los recientes avances en el
análisis y modelado de
secuencias de TCR
Resultados
Predicción de estructuras
En primer lugar, evaluamos el rendimiento de la predicción de estructuras de una versión
recientemente publicada de AlphaFold (AlphaFold-Multimer Evans et al., 2021) que fue
entrenada específicamente para el acoplamiento proteína:proteína. AlphaFold-Multimer
aprovecha la covariación de residuos entre cadenas observada en ortólogos de las proteínas
diana para identificar pares de aminoácidos que establecen contactos de interfaz. Dado que las
interacciones TCR:pMHC están determinadas en parte por regiones CDR3 altamente variables y
no codificadas en la línea germinal, no estaba claro si el buen rendimiento de AlphaFold en otros
sistemas se traduciría en interacciones TCR:pMHC. De hecho, los desarrolladores de AlphaFold-
Multimer señalaron que no funciona bien en complejos anticuerpo:antígeno, que comparten
muchas características con los complejos TCR:pMHC.
Probamos dos versiones de AlphaFold-Multimer, una en la que las secuencias completas de
los socios interactuantes se proporcionan como entrada ('AFM_full': MHC-I o MHC-IIa, beta-2
microglobulina o MHC-IIb, péptido, dominios variables y constantes TCRa y TCRb), y otra en la
que sólo se introducen los dominios que interactúan directamente ('AFM_trim': Se eliminan los
dominios constantes del TCR, la microglobulina beta-2 y los dominios MHC C-terminales). La
restricción a los dominios que interactúan en el núcleo acelera sustancialmente los cálculos a
riesgo de introducir sitios de acoplamiento señuelo en la ubicación de las interfaces con los
dominios que faltan. Aunque ambos modelos fueron capaces de generar predicciones de alta calidad
en un conjunto no redundante de 130 complejos TCR:pMHC (como indican las RMSDs de los bucles
CDR iguales o inferiores a ~2 Å; más detalles a continuación), la calidad de la predicción fue muy
variable, y la inspección visual reveló que muchos de los modelos predichos tenían péptidos
desplazados y/o modos de acoplamiento TCR:pMHC que estaban fuera del rango observado en
las proteínas nativas. Además, estas predicciones AlphaFold tardaban varias horas en
A B
D
Tres ejecuciones AlphaFold por
objetivo
Figura 1. Construcción de diversas plantillas híbridas para el modelado AlphaFold. (A) Se identifican cuatro plantillas estructurales para cada cadena
TCR y para el péptido:MHC en el Protein Databank (Berman et al., 2000) mediante búsqueda de similitud de secuencias. (B) La geometría de
acoplamiento TCR:pMHC se define calculando la transformación de cuerpo rígido entre los marcos de coordenadas TCR y pMHC. Los marcos de
coordenadas se orientan basándose en la pseudosimetría interna, tal y como se describe en los Métodos. (C) Se realizan tres simulaciones
AlphaFold independientes, cada una con cuatro plantillas híbridas construidas a partir de los cuatro conjuntos
La figura 1 continúa en la página siguiente
V, la precisión del modelado del bucle CDR, la precisión del modelado del péptido y la precisión del
acoplamiento TCRalpha/TCRbeta (Figura 2-suplemento gráfico 6).
Una característica atractiva de las arquitecturas de redes neuronales es la posibilidad de "ajustar"
una red general para mejorar la precisión de la predicción en un dominio específico. Hemos ajustado
los parámetros de AlphaFold en el contexto del pipeline TCR de AlphaFold en el conjunto de 93
complejos TCR:pMHC humanos del conjunto de referencia y, posteriormente, hemos evaluado el
rendimiento de este modelo en las 37 dianas TCR:pMHC de ratón. A pesar del pequeño tamaño de la
base de datos de la estructura ternaria TCR:pMHC, el modelo de ajuste fino mostró un mejor
rendimiento en los objetivos de ratón (Figura 2F; Wilcoxon p<0,015), que son distintos en los detalles
de su epítopo, MHC y secuencias TCR del conjunto de entrenamiento humano, lo que sugiere que el
modelo fue capaz de aprender características generalizables de las interacciones TCR:pMHC. Este
procedimiento de ajuste fino se vio facilitado por el hecho de que el modelo AF2 requiere
significativamente menos memoria en ausencia de información MSA, lo que hace posible realizar la
optimización de parámetros en sistemas TCR:pMHC completos sin ningún recorte de residuos.
A B C
D E Mejor que
F
la plantilla
Mejor que mediana
la mejor
plantilla
Figura 2. Precisión del modelado del TCR. (A) Comparación entre Alphafold-Multimer con secuencias de entrada completas ('AFM_full') o recortadas
('AFM_trim') y el modelo híbrido de TCR ('AF_TCR'). Los valores CDR RMSD (eje y) se calculan superponiendo las coordenadas MHC nativas y
modeladas y comparando la colocación de los bucles TCR CDR (ver Métodos). (B) Igual que en (A) pero para los 20 objetivos de referencia no
relacionados con ninguna estructura TCR:pMHC depositada antes de mayo de 2018, la fecha de corte para el conjunto de entrenamiento AlphaFold-
Multimer. (C) La medida de error alineado predicho (PAE) de AlphaFold, evaluada entre TCR y pMHC, se correlaciona con CDR RMSD entre el
modelo y la estructura nativa. (D) La geometría de acoplamiento del modelo final AlphaFold mejora sobre la mejor de las 12 plantillas en el 30% de los
casos (puntos sobre la línea y=x). (E) La geometría de acoplamiento del modelo final AlphaFold
mejora sobre la mediana de las 12 plantillas en el 94% de los casos (puntos sobre la línea y=x). (F) El ajuste fino de los parámetros de AlphaFold en los
complejos TCR:pMHC humanos mejora la predicción de los complejos TCR:pMHC de ratón. Los recuadros de A, B y F muestran los cuartiles de las
distribuciones representadas.
La versión en línea de este artículo incluye los siguientes datos de origen y suplemento(s) de figura para la figura 2:
Fuente de datos 1. Predicción de estructuras de referencia.
Figura suplementaria 1. Composición de la base de datos de la estructura ternaria TCR:pMHC.
Figura suplementaria 2. Precisión del modelado estructural de péptidos.
Figura suplementaria 3. Rendimiento del modelado TCR:pMHC.
Figura suplementaria 4. Comparación de la RMSD de acoplamiento con la RMSD de CDR.
Figura suplementaria 5. Paisajes geométricos de acoplamiento para la predicción estructural de referencia.
Figura suplementaria 6. Factores que influyen en la precisión del acoplamiento AF_TCR.
características como bucles CDR3 más largos o el uso de genes V sin una plantilla estructural
cercana. Observamos tendencias similares, aunque más débiles, en los distintos complejos
péptido:MHC, quizá debido a la confianza de AlphaFold en la estructura del péptido unida al
MHC. Los factores intrínsecos del TCR no cambian el orden relativo de los péptidos candidatos,
pero dificultan las comparaciones de las predicciones de unión entre los TCR; los efectos del
Al clasificar los péptidos por su afinidad por el CMH, corregimos estos efectos intrínsecos del TCR y
del CMHp para generar una serie de puntuaciones de unión TCR:CMHp que se pretendía que fueran
comparables entre diferentes CMHp y TCR (Figura 3B, panel central; las puntuaciones más bajas
indican una unión predicha más fuerte, véase Métodos). Evaluamos la precisión de estas
predicciones de unión en los ocho epítopos pMHC. En primer lugar, calculamos el rango del
verdadero epítopo peptídico entre los 9 péptidos señuelo (Figura 3B, panel derecho) por cada
TCR. Para visualizar cómo varían estos rangos en cada repertorio específico de pMHC, construimos
árboles de agrupación jerárquica de las secuencias de TCR utilizando la medida TCRdist (Dash et al.,
2017) y los coloreamos según el rango del péptido verdadero (Figura 3C y Figura 4). Los
bordes internos, que corresponden a múltiples TCR "hoja", se colorean por el rango del péptido
verdadero después de promediar las puntuaciones de unión sobre los TCR hoja. Observando los
ocho epítopos, podemos ver, en primer lugar, que las predicciones no son aleatorias: por término
medio, el péptido correcto se clasifica más favorablemente que la mayoría de los señuelos (es decir,
hay más azul que rojo). Para seis de los ocho epítopos, el péptido correcto ocupa el primer lugar
cuando promediamos las puntuaciones de unión de todos los TCR del repertorio (Figura 3D;
Figura 4: la rama más grande del árbol es de color azul oscuro). También parece que los epítopos
con repertorios de secuencia más diversa (A*0201-GLC9 y A*02:01-NLV9) son más difíciles de
predecir: los árboles que se fusionan completamente con valores de TCRdist más pequeños (más
a la izquierda) son más azules que los demás árboles de la Figura 4. Esto puede observarse
cuantitativamente mediante el análisis de las puntuaciones de unión de todos los TCR del
repertorio (Figura 3D; Figura 4: la rama más grande del árbol es de color azul oscuro). Esto se
puede ver cuantitativamente trazando la medida de diversidad de secuencias del repertorio TCRdiv
(Dash et al., 2017) frente a las medidas de éxito de predicción de unión (Figura 4-suplemento de
figura 1). Si clasificamos los péptidos por puntuación de unión y comparamos la recuperación de los
péptidos de unión verdadera con los señuelos utilizando curvas de características operativas del
receptor (ROC), podemos ver que algunos epítopos, como A*02:01-YLQ9 y A*02:01-ELA10 se
predicen muy bien (por área bajo la curva ROC, AUROC ≥ 0,96) y algunas predicciones son solo
ligeramente mejores que el azar (Figura 3E). Encontramos un valor AUROC global de 0,82
cuando los pares TCR:pMHC vinculantes y no vinculantes de todos los epítopos se clasifican juntos.
Intentamos ver si la precisión del modelado estructural se correlacionaba con el éxito de la
predicción de unión (Figura 5). Aunque muy pocos de los TCR específicos modelados se han
caracterizado estructuralmente, cada uno de los epítopos tiene al menos una estructura ternaria
resuelta en la base de datos de estructuras proteicas. Para cada TCR, calculamos los RMSD de
acoplamiento entre el modelo TCR:pMHC en complejo con su epítopo asociado y las estructuras
ternarias resueltas para ese epítopo, y tomamos el valor mínimo como indicador de la precisión del
modo de unión predicho. La Figura 5A muestra la distribución de estos valores RMSD en cada
repertorio. Los epítopos bien predichos como A*02:01-YLQ9 y A*02:01-ELA10 parecen tener valores
RMSD más pequeños que otros repertorios. El pMHC H2Db-ASN9 de ratón es un caso atípico, con
una distribución RMSD desplazada hacia valores muy altos. El examen de las tres estructuras
ternarias para este pMHC reveló que representan una población única de TCRs TRBV17+ que es
distinta del repertorio consenso modelado aquí. Dos de los tres TCRs se unen con una orientación de
A B D
C
E
verdaderos
positivos
Tasa de
peor
Rango
del
péptido
WT Tasa de falsos
mejo positivos
r
Figura 3. El modelado estructural puede a veces distinguir entre emparejamientos TCR:pMHC correctos e incorrectos. (A) Para cada uno de los ocho
epítopos péptido:CMH, acoplamos múltiples TCRs cognados contra múltiples péptidos señuelo y el epítopo de tipo salvaje. Aquí se muestran tres
TCR y tres pMHC; en realidad se modelaron 9 señuelos y hasta 50 TCR. (B) Para cada emparejamiento candidato TCR:pMHC, se calculó el error
alineado medio predicho por AlphaFold (PAE) para la interfaz TCR:pMHC (izquierda) y se transformó en una puntuación de unión restando los
factores intrínsecos del TCR e intrínsecos del pMHC (centro).
Estas puntuaciones de unión se promediaron para definir una puntuación de unión a nivel de repertorio para el epítopo WT y cada uno de los señuelos
(abajo). También se calculó el rango de la puntuación de unión del WT dentro de la lista de todas las puntuaciones de unión para cada TCR (derecha).
(C) Árbol de agrupamiento jerárquico TCRdist de los 50 TCR modelados para el epítopo A*02:01 GIL9, etiquetado con la información de la secuencia
del TCR, el péptido mejor clasificado y el rango del péptido WT, y coloreado por el rango del péptido WT. Los bordes internos, que corresponden a
múltiples TCRs "hoja", están coloreados por el rango del péptido WT después de promediar las puntuaciones de unión sobre los TCRs hoja. (D)
Puntuaciones de unión del repertorio para cada uno de los ocho epítopos diana y los 9 péptidos señuelo, con la puntuación de unión más baja (más
favorable) en cada fila en recuadro. (E) Curvas de características operativas del receptor (ROC) para la discriminación de los péptidos WT de los
péptidos señuelo según la puntuación de unión.
Los valores del área bajo la curva ROC (AUROC) se indican en la leyenda junto con la secuencia del péptido WT.
La versión en línea de este artículo incluye los siguientes datos de origen para la figura 3:
Fuente de datos 1. TCR de referencia de especificidad epitópica.
Fuente de datos 2. Péptidos de referencia de especificidad epitópica.
al menos en parte por la recuperación de características estructurales de tipo nativo (el análisis de las
RMSD de la espina dorsal del péptido muestra una correlación positiva, pero mucho más débil, entre
la predicción de la unión y la precisión del modelado: Figura 5-suplemento gráfico 2).
Para investigar más a fondo el comportamiento de nuestro enfoque de modelado, realizamos
una exploración in silico del epítopo de alanina de cada uno de los ocho repertorios específicos del
pMHC. Construimos modelos y calculamos las puntuaciones de unión para cada TCR específico del
epítopo acoplado a todas las mutaciones de alanina del péptido nativo (los residuos de alanina
nativos se mutaron a glicina). Las puntuaciones de unión para cada TCR y cada uno de los
mutantes de alanina se muestran en los mapas térmicos de la Figura 6. El promedio de estas
Figura 4. Resultados de la discriminación del péptido señuelo para los ocho epítopos de referencia. El rango del péptido de tipo salvaje en relación con
los 9 señuelos (0=mejor, 9=peor) se muestra en un mapa de calor y en un árbol de agrupación jerárquica TCRdist de los TCR específicos del epítopo.
Cada fila del mapa de calor corresponde a un único TCR; cada columna corresponde a uno de los 10 péptidos modelados, con el péptido de tipo
salvaje a la izquierda. El orden vertical de los TCRs en los mapas térmicos y en los árboles es el mismo. Los bordes internos de los árboles, que
corresponden a múltiples TCRs "hoja", están coloreados por el rango del péptido de tipo salvaje después de promediar las puntuaciones de unión
sobre los TCRs hoja.
La versión en línea de este artículo incluye la(s) siguiente(s) figura(s) suplementaria(s) para la figura 4:
Figura suplementaria 1. La precisión de la predicción de la especificidad peptídica está inversamente correlacionada con la diversidad de secuencias del
repertorio.
péptido en la mayoría de las posiciones, con un subconjunto de posiciones que muestran una alta
sensibilidad. Colorear las estructuras pMHC por sensibilidad de mutación (Figura 6A) revela que
estas posiciones altamente sensibles están en gran parte expuestas al TCR; varias son sitios de
mutaciones de escape virales conocidas, como la posición L5 de A*02:01-KLV (Wölfl et al., 2008) y
la posición R7 de H2Db-SSL (Valkenburg et al., 2013). Aunque la observación de que las posiciones
predichas para interrumpir la unión al TCR están en gran medida expuestas al TCR concuerda con la
intuición biofísica, esto sigue siendo una validación importante del protocolo. Dado que las
puntuaciones de unión se derivan de medidas de confianza AlphaFold por pares que implican
parcialmente al péptido, una preocupación es que podrían estar reflejando preferencias de unión
péptido-MHC en lugar de unión pMHC-TCR. El hecho de que las mutaciones de anclaje del péptido
no se encuentren entre las posiciones más fuertemente predichas aquí sugiere que, restando la
A B C
Figura 5. El éxito en la discriminación de señuelos se correlaciona con la precisión del modelo estructural. (A) Para cada TCR, el modelo estructural en
complejo con el epítopo de tipo salvaje se comparó con todas las estructuras ternarias determinadas experimentalmente para ese epítopo y se registró
la RMSD de acoplamiento más pequeña. Las distribuciones RMSD resultantes se suavizaron mediante la estimación de la densidad del núcleo y se
representaron gráficamente. (B) Diagrama de dispersión de la RMSD de acoplamiento a la estructura de tipo silvestre más cercana frente a la
puntuación de unión para el péptido de tipo silvestre. Las puntuaciones de unión favorables para el tipo silvestre se correlacionan con valores RMSD
más bajos. (C) Distribuciones de RMSD de acoplamiento a la estructura de tipo silvestre más cercana (eje y) en función del rango del péptido de tipo
silvestre (eje x). Cuando el péptido de tipo salvaje está clasificado en primer lugar (violín izquierdo), las geometrías de acoplamiento correspondientes
son más similares a las de los complejos ternarios para ese epítopo, lo que sugiere una mayor precisión.
La versión en línea de este artículo incluye la(s) siguiente(s) figura(s) suplementaria(s) para
la figura 5: Figure supplement 1. Hierarchical clustering tree of TCR:pMHC class I docking
geometries. Árbol de agrupación jerárquica de las geometrías de acoplamiento TCR:pMHC
Debate
La predicción de las interacciones TCR:pMHC es un reto debido a la diversidad de los modos de
reconocimiento TCR:pMHC y al número limitado de interacciones validadas disponibles para el
entrenamiento. Inspirados por los recientes avances en la predicción de estructuras proteicas (Baek
et al., 2021; Jumper et al., 2021), planteamos la hipótesis de que los enfoques basados en
estructuras, que pueden aprovechar las características generales de las estructuras e interacciones
proteicas, podrían ofrecer una vía para realizar predicciones generalizables de la unión T C R : pMHC
a partir de datos limitados. Hemos desarrollado una línea especializada AlphaFold para la predicción
de la estructura TCR:pMHC que utiliza plantillas híbridas ensambladas a partir de estructuras
TCR:pMHC existentes para restringir la orientación de acoplamiento TCR a geometrías similares a
las nativas. Aquí demostramos que esta línea de trabajo puede generar predicciones de estructuras
de complejos TCR:pMHC más precisas que el método de vanguardia Alphafold-Multimer. La
precisión de la predicción se correlaciona con la confianza en el modelo, y la calidad del modelo
puede mejorarse aún más ajustando los parámetros de AlphaFold en las estructuras TCR:pMHC.
Cuando se probó la discriminación de péptidos señuelo, descubrimos que las estimaciones de
precisión de acoplamiento del modelo, corregidas para los efectos intrínsecos del TCR y del pMHC,
podían utilizarse para seleccionar los péptidos diana correctos de entre los señuelos con una
precisión sustancial. El éxito en esta tarea de discriminación de señuelos se correlacionaba con la
precisión estructural de los modelos, lo que sugería que la línea de producción seleccionaba el
T8
E4
R5 I5 R7 F5
E4
E7
L5
B
delpertorio delta a
Puntuación de unión
tipo salvaje
Figura 6. Resultados del barrido de alaninas para los ocho epítopos de referencia. (A) Mapas de calor que muestran las puntuaciones de unión para el
péptido de tipo salvaje (columna izquierda) y todos los mutantes de una sola alanina (columnas etiquetadas con la secuencia de tipo salvaje) en
complejo con cada TCR (filas). Debajo de cada mapa térmico, se muestra la estructura cristalina del pMHC de tipo silvestre con el péptido coloreado
por el delta entre las puntuaciones de unión promediadas del repertorio del mutante y del tipo silvestre. (B) Los diagramas de líneas del delta entre las
puntuaciones de unión promediadas del repertorio mutante y el silvestre reflejan la sensibilidad prevista a nivel de repertorio a las mutaciones del
epítopo.
La versión en línea de este artículo incluye la(s) siguiente(s) figura(s) suplementaria(s) para la figura 6:
Figura suplementaria 1. Comparación con datos experimentales sobre la unión de TCR individuales a ligandos peptídicos alterados.
Métodos
Definición de la geometría de acoplamiento TCR:pMHC
La geometría de acoplamiento TCR:pMHC está definida por la transformación de cuerpo rígido que
mapea entre los marcos de coordenadas MHC y TCR (Figura 1B). El marco de coordenadas del
MHC se define sobre la base del eje de simetría doble aproximado que relaciona las mitades N- y C-
terminal de la hoja beta que forma el suelo del bolsillo de unión al péptido. Se seleccionaron 12
residuos centrales en la hoja beta (Figura 1-figura suplemento 1A), 6 de la mitad N-terminal y 6 de
la mitad C-terminal, que están relacionados por esta simetría rotacional doble aproximada. Para una
estructura MHC dada, se calcula la transformación que mapea estos 12 residuos sobre sí mismos,
intercambiando los residuos N- y C-terminales y minimizando el RMSD de los átomos de carbono
alfa. El eje de rotación de esta trans- formación ortogonal, orientado hacia el péptido, se toma como
eje x del marco de coordenadas MHC. El eje z del marco de coordenadas apunta desde el centro de
masa (COM) de los 6 carbonos alfa del núcleo N-terminal al COM de los 6 carbonos alfa del núcleo
C-terminal. El marco de coordenadas está centrado en el COM de los 12 residuos del núcleo.
Para definir el marco de coordenadas del TCR, se seleccionaron 13 residuos centrales
estructuralmente conservados de la cadena alfa del TCR y 13 residuos centrales alineados de la
Modelado AlphaFold
Para modelar una diana TCR:pMHC determinada, se realizan tres simulaciones AlphaFold (utilizando
el conjunto d e parámetros 'model_2_ptm') y se selecciona el modelo final con el error alineado
predicho (PAE) más bajo entre el TCR y el pMHC (Figura 1). El conjunto de parámetros
model_2_ptm se eligió en base a nuestra experiencia en predicciones de unión péptido:MHC, pero el
conjunto model_1_ptm ofrece resultados muy similares. Para reducir el sesgo del entrenamiento de
parámetros, utilizamos los parámetros monoméricos originales de AlphaFold, que fueron entrenados
en cadenas de proteínas individuales, en lugar del c o n j u n t o d e parámetros AlphaFold-Multimer,
cuyo conjunto de entrenamiento incluía complejos de proteínas. Cada simulación AlphaFold puede
utilizar un máximo de cuatro plantillas, lo que permite un total de 12 plantillas en las tres ejecuciones
(Figura 1C). Estas 12 plantillas se construyen a partir de cuatro plantillas para cada una de las
cadenas pMHC, TCRA y TCRB seleccionadas en función de la identidad de secuencia con el objetivo
de modelado (Figura 1A) combinadas con 12 plantillas de geometría de acoplamiento. Se utilizan las
mismas cuatro plantillas por cadena en cada una de las tres ejecuciones de AlphaFold; sólo varían
las geometrías de acoplamiento entre ejecuciones. Por lo tanto, no se muestrea toda la combinatoria
de plantillas de cadenas por geometrías de acoplamiento. Las plantillas péptido-MHC se ordenan por
identidad de secuencia total calculada sobre el MHC y el péptido. Para crear plantillas híbridas para
el modelado AlphaFold, las coordenadas de las plantillas pMHC y TCRB deben mapearse en el
marco de coordenadas de la estructura de la plantilla TCRA. En primer lugar, la estructura del TCR
de la que se toman las coordenadas de la plantilla TCRB se superpone a la estructura de la plantilla
TCRA superponiendo los 13 residuos del núcleo TCRA. A continuación, las coordenadas TCRB
superpuestas se añaden a la plantilla híbrida después de las coordenadas TCRA. Para mapear las
coordenadas pMHC en el marco de coordenadas de las coordenadas TCRA y TCRB, se definen los
marcos de coordenadas MHC y TCR como se ha descrito anteriormente, y se seleccionan 12
geometrías de acoplamiento representativas. Cada geometría de acoplamiento define la
transformación entre los marcos de coordenadas MHC y TCR, lo que permite mapear las
coordenadas de la plantilla pMHC en el marco de coordenadas de la plantilla híbrida TCR. Para elegir
las 12 geometrías de acoplamiento representativas, las geometrías de acoplamiento de las
estructuras T C R :pMHC de la misma clase MHC que la diana se agrupan jerárquicamente y el árbol
de agrupamiento se corta en un umbral de distancia en el que hay 12 agrupaciones. La geometría de
acoplamiento de cada clúster con la menor distancia media a los otros miembros del clúster se elige
como representante. Para la agrupación jerárquica, se proporciona una matriz de RMSDs de
acoplamiento (definida a continuación) a la f u n c i ó n h i e r a r c h y . linkage del módulo de agrupación
de SciPy (Virtanen et al., 2020). La función hierarchy.fcluster con el criterio 'maxclust' se utiliza para
Predicción de estructuras
El conjunto de referencia de predicción de estructuras consta de 130 estructuras ternarias
TCR:pMHC no redundantes depositadas antes de 2021-08-05 (Figura 2-datos de origen 1). No
hay dos estructuras en el conjunto que tengan menos de 3 desajustes peptídicos y una distancia
TCRdist emparejada (Dash et al., 2017) menor o igual que
120. Esta restricción elimina pares de estructuras con TCR iguales o similares que se unen a
péptidos iguales o similares. Tras una inspección visual, eliminamos las siguientes 9 estructuras
atípicas con modos de unión muy divergentes (orientaciones de acoplamiento invertidas,
péptidos muy abultados, etc.): PDB IDs 5sws, 7jwi, 4jry, 4nhu, 3tjh, 4y19, 4y1a, 1ymm y 2wbj.
Durante la evaluación comparativa, excluimos las plantillas y geometrías de acoplamiento que
eran demasiado similares a la secuencia diana modelada. Las plantillas péptido-MHC se excluyeron
si tenían menos de tres desajustes peptídicos con el péptido diana. Las plantillas de cadena TCR se
excluyeron si tenían una distancia TCRdist de cadena única de 36 o menos con la cadena diana
(correspondiente a tres desajustes no conservativos o indels en el bucle CDR3). Las geometrías de
acoplamiento se excluyeron si procedían de una estructura con menos de tres desajustes peptídicos
respecto al objetivo o una distancia TCRdist de 48 o menos respecto al TCR objetivo.
Medidas RMSD
Evaluamos la precisión del modelo comparando la ubicación de los bucles CDR en relación con el
CMH en las estructuras nativa y modelada. Primero se superpusieron las dos estructuras sobre las
coordenadas del CMH; después se calculó una RMSD de carbono alfa (sin más superposición) sobre
los bucles CDR, ponderando los residuos en la CDR3 por un factor de 3 para reflejar la mayor
importancia de la CDR3 para el reconocimiento del epítopo (esta es la "RMSD CDR" que se muestra
en la Figura 2). Se utilizaron las definiciones de bucle CDR de TCRdist.
Para comparar las geometrías de acoplamiento entre estructuras con diferentes secuencias de
bucles CDR, desarrollamos una "geometría de acoplamiento RMSD" destinada a aproximar la RMSD
CDR de forma independiente de la secuencia. Primero se utilizó la base de datos de plantillas
completa para calcular un centro de masa medio de los residuos en cada bucle CDR con respecto al
marco de coordenadas del TCR. Para calcular la RMSD de acoplamiento entre dos geometrías de
acoplamiento, cada geometría de acoplamiento se utiliza para construir un marco de coordenadas
TCR asumiendo que el marco de coordenadas MHC está centrado en el origen y alineado con los
ejes de coordenadas. A continuación, se construyen los centros de masa CDR con respecto a cada
uno de estos dos marcos de coordenadas TCR, y se calcula una RMSD entre estos dos conjuntos de
ocho puntos (4 centros de masa CDR cada uno para las cadenas TCRA y TCRB) sin superposición,
ponderando el centro de masa CDR3 por un factor de 3. La correlación entre la RMSD CDR y la
RMSD de acoplamiento se muestra en la Figura 2-suplemento gráfico 4.
Agradecimientos
Doy las gracias a Jeremy Crawford, Anastasia Minervina, Amir Motmaen, Paul Thomas y Albert Yeh
por sus útiles comentarios sobre el manuscrito, a Justas Dauparas por su ayuda en la puesta a punto
de AlphaFold, a los creadores de AlphaFold por compartir libremente su software y parámetros, y a
Fred Hutch Scientific Computing y NIH ORIP S10OD028685 por su excelente infraestructura
informática. Esta investigación ha contado con el apoyo de las subvenciones R35 GM141457 y R01
AI136514 de los NIH.
Información complementaria
Financiación
Financiador Número de referencia de la subvención Autor
Archivos adicionales
Ficheros complementarios
• Lista de control MDAR
Disponibilidad de datos
El presente manuscrito es un estudio computacional, por lo que no se han generado datos para el
mismo. Los conjuntos de datos de referencia compilados a partir de la literatura están disponibles
como Datos de Origen para las figuras 2 y
3. El código de modelización es de acceso público a través del repositorio github
https://github.com/phbradley/ TCRdock, (copia archivada en
swh:1:rev:060bdb4a59391f2d7d57b0f2a923e4b4d6c9a89f).
Referencias
10xGenomics. 2020. A new way of exploring immunity: linking highly multiplexed antigen recognition to immune
repertoire and phenotype. https://pages.10xgenomics.com/rs/446-PBO-704/images/10x_AN047_IP_
A_New_Way_of_Exploring_Immunity_Digital.pdf [Consultado el 1 de junio de 2021].
Baek M, DiMaio F, Anishchenko I, Dauparas J, Ovchinnikov S, Lee GR, Wang J, Cong Q, Kinch LN, Schaeffer RD,
Millán C, Park H, Adams C, Glassman CR, DeGiovanni A, Pereira JH, Rodrigues AV, van Dijk AA, Ebrecht AC,
Opperman DJ, et al. 2021. Predicción precisa de estructuras e interacciones proteicas utilizando una red neuronal
de tres pistas . Science 373:871-876. DOI: https://doi.org/10.1126/science.abj8754, PMID: 34282049
Beringer DX, Kleijwegt FS, Wiede F, van der Slik AR, Loh KL, Petersen J, Dudek NL, Duinkerken G, Laban S,
Joosten A, Vivian JP, Chen Z, Uldrich AP, Godfrey DI, McCluskey J, Price DA, Radford KJ, Purcell AW, Nikolic T,
Reid HH, et al. 2015. Reconocimiento de polaridad invertida del receptor de células T de un complejo mayor
de histocompatibilidad autoantígeno. Nature Immunology 16:1153-1161. DOI: https://doi.org/10.1038/ni.3271,
PMID: 26437244
Berkhoff EGM, de Wit E, Geelhoed-Mieras MM, Boon ACM, Symons J, Fouchier RAM, Osterhaus ADME,
Rimmelzwaan GF. 2005. Las restricciones funcionales de los epítopos del virus de la gripe A limitan el escape
de los linfocitos T citotóxicos. Journal of Virology 79:11239-11246. DOI: https://doi.org/10.1128/JVI.79.17.11239-
11246.2005, PMID: 16103176
Berman HM, Westbrook J, Feng Z, Gilliland G, Bhat TN, Weissig H, Shindyalov IN, Bourne PE. 2000. El banco de
datos de proteínas . Nucleic Acids Research 28:235-242. DOI: https://doi.org/10.1093/nar/28.1.235, PMID:
10592235 Borrman T, Pierce BG, Vreven T, Baker BM, Weng Z. 2020. High-throughput modeling and scoring of
TCR-pmhc
para predecir péptidos de reactividad cruzada. Bioinformatics 36:5377-5385. DOI: https://doi.org/10.1093/
bioinformatics/btaa1050, PMID: 33355667
Bradley P. 2022a. Alphafold_finetune. swh:1:rev:af1f2f7507975ffc734ae57a928786e7f90f93b1. Software
Heritage. https://archive.softwareheritage.org/swh:1:dir:3e0d466550a96a7eed8e94327b1808aa142e7306;
origin=https://github.com/phbradley/alphafold_finetune;visit=swh:1:snp:d9526429d564ae1b7b0a8441adec
6d6be4ada724;anchor=swh:1:rev:af1f2f7507975ffc734ae57a928786e7f90f93b1
Bradley P. 2022b. TCRdock. swh:1:rev:060bdb4a59391f2d7d57b0f2a923e4b4d6c9a89f. Software Heritage.
https://archive.softwareheritage.org/swh:1:dir:1ae0f2747ae6587bb308c3fdcdcf790bc7e26c9a;origin=https://
github.com/phbradley/TCRdock;visit=swh:1:snp:69d59008ec0f75b8a0a9c021df0410ab88369817;anchor=swh:
1:rev:060bdb4a59391f2d7d57b0f2a923e4b4d6c9a89f
Dash P, Fiore-Gartland AJ, Hertz T, Wang GC, Sharma S, Souquette A, Crawford JC, Clemens EB, Nguyen THO,
Kedzierska K, La Gruta NL, Bradley P, Thomas PG. 2017. Características predictivas cuantificables definen
repertorios de receptores de células T específicos de epítopos. Nature 547:89-93. DOI:
https://doi.org/10.1038/nature22383, PMID: 28636592
Evans R, O'Neill M, Pritzel A, Antropova N, Senior A, Green T, Žídek A, Bates R, Blackwell S, Yim J,
Ronneberger O, Bodenstein S, Zielinski M, Bridgland A, Potapenko A, Cowie A, Tunyasuvunakool K, Jain R,
Clancy E, Kohli P, et al. 2021. Protein Complex Prediction with AlphaFold-Multimer. bioRxiv. DOI: https://doi.