Art 1 Es

Suscríbete a DeepL Pro para poder traducir archivos de mayor tamaño.
Más información disponible en www.DeepL.com/pro.
ARTÍCULO DE INVESTIGACIÓN
Predicción basada en la estructura

de las interacciones receptor de
células T:péptido-MHC
Philip Bradley *1,2
1Programa Herbold de Biología Computacional, División de Ciencias de la Salud
Pública. Fred Hutchinson Cancer Center, Seattle, Estados Unidos;2 Institute for
Protein Design.
Universidad de Washington, Seattle, Estados Unidos
Resumen Las funciones reguladoras y efectoras de las células T se inician con la unión de sus
receptor de células T (TCR) de la superficie celular a péptidos presentados por proteínas del
complejo mayor de histocompatibilidad (CMH) en otras células. Así pues, la especificidad de las
interacciones TCR:péptido-MHC subyace a casi todas las respuestas inmunitarias adaptativas. A
pesar del gran interés que despiertan, los modelos predictivos generalizables de la especificidad
TCR:- péptido-MHC siguen estando fuera de nuestro alcance; dos barreras clave son la
diversidad de los modos de reconocimiento TCR y la escasez de datos de entrenamiento.
Inspirados por los recientes avances en la predicción de la estructura de las proteínas logrados
por las redes neuronales profundas, evaluamos el modelado estructural como una vía potencial
para predecir la especificidad del TCR.
para la predicción de la especificidad del epítopo TCR. Demostramos que una versión especializada
del predictor de red neuronal AlphaFold puede generar modelos de interacciones TCR:péptido-MHC
que pueden utilizarse para discriminar los epítopos peptídicos correctos de los incorrectos con una
precisión sustancial. Aunque queda mucho trabajo por hacer para que estas predicciones tengan
una utilidad práctica generalizada, somos optimistas en cuanto a que el modelado estructural
basado en el aprendizaje profundo representa un camino hacia la predicción generalizable de la
especificidad de la interacción TCR:péptido-MHC.
Editor revisor: Michael L Dustin, Universidad de Oxford, Reino Unido

Copyright Bradley. Este artículo se distribuye bajo los términos de la Licencia de Atribución Creative
*Para correspondencia: Commons, que permite su uso y redistribución sin restricciones siempre que se cite al autor original y la fuente.
pbradley@fredhutch.org
Intereses contrapuestos: El
autor declara que no existen
intereses contrapuestos.
Financiación: Véase la página

15
Preimpresión: 06 agosto 2022
Recibido: 18 de agosto de 2022
Aceptado: 05 enero 2023
Publicado: 20 enero 2023
Bradley. eLife 2023;12:e82813. DOI: https://doi.org/10.7554/eLife.82813 1 de

32
(Gielis et al., 2019; Huang et al., 2020; Mayer-Blackwell et al., 2021; Montemurro et al., 2021),
Evaluación del un modelo predictivo generalizable de interacciones TCR:pMHC sigue estando fuera de alcance: los
editor predictores existentes pueden aprender a reconocer nuevas secuencias de TCR específicas
El estudio supone un para pMHC en su conjunto de entrenamiento, pero no se ha demostrado de forma convincente
importante paso adelante una generalización robusta a epítopos pMHC no vistos (Moris et al., 2021). Dos dificultades
en la predicción del clave son la diversidad de modos de reconocimiento TCR:pMHC, consecuencia de la diversidad
acoplamiento de estructural y de secuencia del TCR y de la flexibilidad en la orientación de acoplamiento TCR:pMHC,
receptores de células T a y el número limitado de ejemplos de interacción TCR:pMHC validados experimentalmente para su
ligandos del complejo uso en el entrenamiento.
mayor de
histocompatibilidad
peptídico mediante una
versión especializada del
programa de predicción
estructural de redes
neuronales profundas
AlphaFold. El avance hacia
este objetivo tiene
implicaciones para el
desarrollo de vacunas y la
inmunoterapia del cáncer, y
es un problema estructural
intrínsecamente interesante
debido a la variabilidad del
andamiaje del receptor de
células T.
Introducción
La especificidad de los
receptores de células T
(TCR) para los péptidos
presentados por las
proteínas del complejo
mayor de
histocompatibilidad
(pMHC) es un
determinante crítico de las
respuestas inmunitarias
adaptativas a patógenos y
tumores y de las
enfermedades
autoinmunes. Un modelo
predictivo de las
interacciones TCR:pMHC,
capaz de trazar un mapa
entre las secuencias TCR y
las dianas pMHC, podría
conducir a avances en la
inmunoterapia del cáncer y
en el diagnóstico y
tratamiento de
enfermedades infecciosas y
autoinmunes. A pesar de
los recientes avances en el
análisis y modelado de
secuencias de TCR
Bradley. eLife 2023;12:e82813. DOI: https://doi.org/10.7554/eLife.82813 2 de

32
Artículo de Biología computacional y de sistemas | Inmunología e inflamación
investigación
Nuestra hipótesis es que el modelado estructural 3D podría ofrecer una vía hacia la predicción
generalizable de las interacciones TCR:pMHC en el régimen actual de datos limitados. A nivel
biofísico, la especificidad de la interacción TCR:pMHC viene determinada por las estructuras y las
flexibilidades de los socios que interactúan. Una gran cantidad de estudios estructurales han
proporcionado información valiosa sobre los determinantes atomísticos de la especificidad
(Rossjohn et al., 2015; Rudolph et al., 2006; Singh et al., 2017). En conjunto, estas estructuras
determinadas experimentalmente definen una gama de geometrías de acoplamiento que
probablemente cubren la mayoría de las interacciones invisibles; también proporcionan plantillas
valiosas para los métodos de predicción de estructuras de redes neuronales profundas de
vanguardia, como AlphaFold (Jumper et al., 2021) y RoseTTAfold (Baek et al., 2021). Estas
herramientas de predicción presentan arquitecturas de red avanzadas con millones de parámetros
que se entrenan en proteínas caracterizadas estructuralmente y sus secuencias homólogas. A pesar
de estar e n t r e n a d o s en estructuras monoméricas, estos enfoques pueden generar predicciones
de estructura de vanguardia para complejos de proteínas, e incluso se han utilizado para predecir si
los pares de proteínas se asociarán o no (Humphreys et al., 2021).
Aquí mostramos que una versión de AlphaFold especializada para el modelado TCR:pMHC puede
utilizarse para predecir la especificidad de unión TCR:pMHC con cierto éxito. Mientras que la versión
predeterminada de AlphaFold entrenada para predecir el acoplamiento proteína:proteína (AlphaFold-
Multimer Evans et al., 2021) muestra un rendimiento inconsi s t e n t e en las estructuras TCR:pMHC
(Yin et al., 2022), nuestra canalización especializada demuestra una precisión mejorada y un coste
computacional reducido. Además, esta línea de modelado tiene un poder significativo para
discriminar los péptidos diana de los péptidos señuelo, tal y como se evaluó en una referencia de
epítopos MHC de clase I humanos y de ratón. Es importante destacar que el éxito en la predicción de
la diana peptídica correcta se correlaciona con la precisión estructural de los modelos, lo que sugiere
que cuando el proceso tiene éxito, lo hace recapitulando determinantes clave de especificidad. Este
trabajo, junto con estudios previos que aplican técnicas de modelado molecular a los TCR (Borrman
et al., 2020; Jensen et al., 2019; Lanzarotti et al., 2018; Pierce y Weng, 2013), sugiere que los
enfoques basados en estructuras representan un camino prometedor para predecir la especificidad
de la interacción TCR:pMHC.
Resultados
Predicción de estructuras
En primer lugar, evaluamos el rendimiento de la predicción de estructuras de una versión
recientemente publicada de AlphaFold (AlphaFold-Multimer Evans et al., 2021) que fue
entrenada específicamente para el acoplamiento proteína:proteína. AlphaFold-Multimer
aprovecha la covariación de residuos entre cadenas observada en ortólogos de las proteínas
diana para identificar pares de aminoácidos que establecen contactos de interfaz. Dado que las
interacciones TCR:pMHC están determinadas en parte por regiones CDR3 altamente variables y
no codificadas en la línea germinal, no estaba claro si el buen rendimiento de AlphaFold en otros
sistemas se traduciría en interacciones TCR:pMHC. De hecho, los desarrolladores de AlphaFold-
Multimer señalaron que no funciona bien en complejos anticuerpo:antígeno, que comparten
muchas características con los complejos TCR:pMHC.
Probamos dos versiones de AlphaFold-Multimer, una en la que las secuencias completas de
los socios interactuantes se proporcionan como entrada ('AFM_full': MHC-I o MHC-IIa, beta-2
microglobulina o MHC-IIb, péptido, dominios variables y constantes TCRa y TCRb), y otra en la
que sólo se introducen los dominios que interactúan directamente ('AFM_trim': Se eliminan los
dominios constantes del TCR, la microglobulina beta-2 y los dominios MHC C-terminales). La
restricción a los dominios que interactúan en el núcleo acelera sustancialmente los cálculos a
riesgo de introducir sitios de acoplamiento señuelo en la ubicación de las interfaces con los
dominios que faltan. Aunque ambos modelos fueron capaces de generar predicciones de alta calidad
en un conjunto no redundante de 130 complejos TCR:pMHC (como indican las RMSDs de los bucles
CDR iguales o inferiores a ~2 Å; más detalles a continuación), la calidad de la predicción fue muy
variable, y la inspección visual reveló que muchos de los modelos predichos tenían péptidos
desplazados y/o modos de acoplamiento TCR:pMHC que estaban fuera del rango observado en
las proteínas nativas. Además, estas predicciones AlphaFold tardaban varias horas en
Bradley. eLife 2023;12:e82813. DOI: https://doi.org/10.7554/eLife.82813 3 de 32

investigación completarse por objetivo, lo que limitaba su rendimiento.
Una limitación de AlphaFold-Multimer es que no admite plantillas multicadena (Evans et al.,
2021): la información de plantilla de la base de datos de estructuras resueltas puede informar de
la conformación interna de cadenas individuales, pero no guía el acoplamiento de cadenas en
complejos de orden superior. La naturaleza restringida del modo de unión TCR:pMHC sugiere que
se podría obtener una precisión de predicción mayor y más consistente proporcionando
información de plantilla adicional. Un reto a la hora de modelar las estructuras del TCR es que los
genes V-alfa y V-beta determinan en gran medida el modo de unión del TCR al pMHC.

investigación
mejor plantilla estructural, y estos genes se asocian libremente en lugar de en emparejamientos fijos,
lo que significa que la plantilla estructural óptima para la cadena TCR-alfa a menudo provendrá de
una estructura PDB diferente a la de la cadena TCR-beta. Además, el modo de acoplamiento
TCR:pMHC varía ampliamente dentro de un modo de unión diagonal general, de una forma que no
es fácil de predecir directamente a partir de la secuencia, lo que dificulta la selección de una plantilla
óptima para la orientación relativa TCR:pMHC. Guiados por estas consideraciones, desarrollamos un
proceso de acoplamiento de TCR basado en AlphaFold que utiliza plantillas estructurales híbridas
para proporcionar un muestreo amplio y nativo de los posibles modos de acoplamiento (Figura 1). En
este enfoque, las plantillas de cadenas individuales se seleccionan primero en función de la similitud
de secuencia con el TCR:pMHC diana (Figura 1A). Los complejos híbridos se crean a partir de estas
plantillas de cadenas individuales utilizando un conjunto diverso de geometrías de acoplamiento
representativas para orientar las cadenas de TCR en relación con el pMHC (véanse los Métodos).
Las geometrías de acoplamiento se definen en términos de los 6 grados de libertad que relacionan el
marco de referencia del CMH con el marco de referencia del TCR, donde los marcos de referencia
del CMH y del TCR se definen basándose en la pseudosimetría interna (Figura 1B y D y Métodos).
Estos complejos híbridos se proporcionan como plantillas para múltiples simulaciones independientes
AlphaFold, cuatro plantillas por simulación, con el modelo de mayor confianza de las simulaciones
tomadas como la predicción final (Figura 1C). Durante la evaluación comparativa, se excluyen las
plantillas y las geometrías de acoplamiento de estructuras con TCR o pMHC similares a la diana para
reducir el sesgo hacia la estructura nativa (véase Métodos; esta restricción no se aplicó a los
métodos AlphaFold-Multimer predeterminados). Dado que proporcionamos información de plantilla
que limita el acoplamiento entre cadenas, decidimos no incluir información adicional de alineación de
secuencias múltiples (MSA) más allá de la secuencia diana. Esto acelera enormemente las
predicciones: La construcción del MSA es la parte del proceso AlphaFold que más tiempo consume,
y el paso de inferencia de la red neuronal también es significativamente más rápido sin la información
del MSA.
Descubrimos que las plantillas híbridas de la tubería AlphaFold especializadas para TCR:pMHC
('AF_TCR')
produce modelos de mayor calidad que cualquiera de las variantes Alphafold-Multimer en un conjunto
de referencia (Figura 2-suplemento gráfico 1) de 130 complejos TCR:pMHC (Figura 2A, Wilcoxon
P<10–7 vs AFM_full y P<10–12 vs AFM_trim en el conjunto completo; Figura 2B, P<10–3 para ambas
comparaciones en 20 dianas sin un homólogo cercano en el conjunto de entrenamiento AlphaFold-
Multimer; y Figura 2-suplemento gráfico 2 para la precisión del modelado de péptidos). El pipeline
AF_TCR también supera al pipeline TCRpMHCmodels de última generación (Jensen et al., 2019)
para el modelado de TCR MHC de Clase I (Figura 2-suplemento de figuras 3A-B), y produce
mejores geometrías de acoplamiento que simplemente tomar prestada la geometría de la plantilla
más similar en secuencia (Figura 2-suplemento de figuras 3C). Hubo una correlación positiva
significativa entre la precisión del modelo predicho y observado (Figura 2C).
Para cada diana de referencia, AlphaFold TCR pipeline dispone de 12 complejos plantilla híbridos
cuyos modos de acoplamiento TCR:pMHC se toman de 12 estructuras ternarias diversas no
relacionadas con la diana. Teníamos curiosidad por saber si la simulación AlphaFold mejoraba la
información de acoplamiento presente en estas estructuras plantilla. Para responder a esta pregunta,
comparamos la precisión de la geometría de acoplamiento presente en el modelo final con las
precisiones de las 12 estructuras plantilla. Dado que las 12 plantillas difieren en las secuencias y
estructuras de sus bucles CDR, desarrollamos una distancia entre las geometrías de acoplamiento
TCR:pMHC que compara la colocación de los bucles CDR "genéricos" ("RMSD de acoplamiento", ver
Métodos). Esta medida de RMSD de acoplamiento está correlacionada con la RMSD de CDR en
comparaciones de modelos con nativos (Figura 2-suplemento gráfico 4), pero se centra
exclusivamente en la geometría de acoplamiento y proporciona una forma independiente de la
secuencia de comparar modos de unión que hace hincapié en la colocación del bucle CDR. Para el
30% de las dianas, el modelo final AlphaFold TCR tenía una RMSD menor que la mejor geometría de
acoplamiento de la plantilla (Figura 2D); el modelo final mejoraba la RMSD mediana de la plantilla
para el 94% de las dianas (Figura 2E). Para visualizar el panorama general de la geometría de
acoplamiento de modelos y nativos, calculamos los valores de RMSD de acoplamiento entre todas
las estructuras ternarias nativas y los modelos AlphaFold-TCR y AlphaFold-Multimer y transformamos
esta matriz de distancia en una proyección 2D (Figura 2-suplemento de figuras 5) utilizando el

investigación algoritmo UMAP (McInnes et al., 2018). La inspección de este paisaje geométrico de acoplamiento
en 2D revela regiones distantes de las estructuras nativas y solo muestreadas por los modelos
AlphaFold-Multimer, lo que respalda la opinión de que la incorporación de geometrías de
acoplamiento de plantilla ayuda a restringir las predicciones a geometrías similares a las nativas.
Analizamos los factores que contribuyen a la precisión de la predicción de acoplamiento y
descubrimos que dos factores dominantes son el grado en que la geometría de acoplamiento en la
estructura nativa se desvía del modo de unión consensuado (tal y como se captura en una
puntuación Z multidimensional, ver métodos) y la clase MHC (los modos de unión de clase II se
predijeron mejor que los de clase I), con contribuciones menores de

investigación
A B
D
Tres ejecuciones AlphaFold por
objetivo
Cuatro complejos plantilla por ciclo AlphaFold
Figura 1. Construcción de diversas plantillas híbridas para el modelado AlphaFold. (A) Se identifican cuatro plantillas estructurales para cada cadena
TCR y para el péptido:MHC en el Protein Databank (Berman et al., 2000) mediante búsqueda de similitud de secuencias. (B) La geometría de
acoplamiento TCR:pMHC se define calculando la transformación de cuerpo rígido entre los marcos de coordenadas TCR y pMHC. Los marcos de
coordenadas se orientan basándose en la pseudosimetría interna, tal y como se describe en los Métodos. (C) Se realizan tres simulaciones
AlphaFold independientes, cada una con cuatro plantillas híbridas construidas a partir de los cuatro conjuntos
La figura 1 continúa en la página siguiente

investigación
Figura 1 continuación
de plantillas de cadena única orientadas entre sí utilizando una de las doce geometrías de acoplamiento representativas elegidas para cubrir una amplia
gama de complejos ternarios determinados experimentalmente. (D) Los marcos de coordenadas TCR de las estructuras ternarias pMHC de clase I y las
12 transformaciones representativas (flechas más gruesas) se muestran en un sistema de coordenadas común definido por sus correspondientes
marcos de coordenadas pMHC.
La versión en línea de este artículo incluye la(s) siguiente(s) figura(s) suplementaria(s) para la figura 1:
Figura suplementaria 1. Definiciones de residuos centrales de MHC y TCR.
V, la precisión del modelado del bucle CDR, la precisión del modelado del péptido y la precisión del
acoplamiento TCRalpha/TCRbeta (Figura 2-suplemento gráfico 6).
Una característica atractiva de las arquitecturas de redes neuronales es la posibilidad de "ajustar"
una red general para mejorar la precisión de la predicción en un dominio específico. Hemos ajustado
los parámetros de AlphaFold en el contexto del pipeline TCR de AlphaFold en el conjunto de 93
complejos TCR:pMHC humanos del conjunto de referencia y, posteriormente, hemos evaluado el
rendimiento de este modelo en las 37 dianas TCR:pMHC de ratón. A pesar del pequeño tamaño de la
base de datos de la estructura ternaria TCR:pMHC, el modelo de ajuste fino mostró un mejor
rendimiento en los objetivos de ratón (Figura 2F; Wilcoxon p<0,015), que son distintos en los detalles
de su epítopo, MHC y secuencias TCR del conjunto de entrenamiento humano, lo que sugiere que el
modelo fue capaz de aprender características generalizables de las interacciones TCR:pMHC. Este
procedimiento de ajuste fino se vio facilitado por el hecho de que el modelo AF2 requiere
significativamente menos memoria en ausencia de información MSA, lo que hace posible realizar la
optimización de parámetros en sistemas TCR:pMHC completos sin ningún recorte de residuos.
Predicción de la especificidad de unión

Una vez comprobado que AlphaFold TCR pipeline puede generar modelos TCR:pMHC más precisos
que AlphaFold-Multimer, evaluamos su rendimiento en la predicción de epítopos TCR. El problema
general de predecir, de novo, qué péptido:MHC reconoce un determinado TCR es probablemente
muy difícil debido a la diversidad de modos de reconocimiento TCR:pMHC, la poliespecificidad de los
TCR individuales y la escasez de datos de entrenamiento disponibles (Moris et al., 2021). Aquí
consideramos en cambio el problema más simple de seleccionar el péptido diana correcto a partir de
un pequeño conjunto de candidatos. Esto podría corresponder a un escenario del mundo real en el
que conocemos el antígeno fuente del que se toma el epítopo peptídico desconocido, o tenemos un
resultado positivo en un ensayo de estimulación de células T que implica un conjunto de péptidos en
lugar de un epítopo único. Para la evaluación comparativa, nos centramos en los epítopos peptídicos
del CMH para los que se ha identificado un repertorio de TCR afines. Esto nos permite evaluar la
sensibilidad de las predicciones a pequeños cambios en la secuencia del TCR. También nos permite
investigar un escenario en el que se nos da no un TCR, sino un conjunto de TCRs que se predice
que reconocen el mismo epítopo, y consideramos hasta qué punto esto ayuda a restringir el epítopo
diana. Con la mejora de las tecnologías unicelulares para la secuenciación de TCR emparejados y la
mejora de los métodos para identificar la convergencia de secuencias de TCR, nuestra hipótesis es
que este escenario será cada vez más común.
Seleccionamos un conjunto de 8 sistemas péptido:MHC de Clase I (Tabla 1) para los que se
disponía de un repertorio de TCRs epítopo-específicos emparejados y una estructura ternaria
resuelta. Estos sistemas incluyen un alelo MHC humano (A*0201) y otro de ratón (H2-Db), cada
uno con péptidos de 9 y 10 residuos. Los repertorios de TCR que contenían más de 50
secuencias de TCR únicas se submuestrearon en un conjunto de 50 TCR utilizando un algoritmo
que eliminaba la redundancia a la vez que se concentraba en las regiones más densamente
muestreadas del espacio de TCR (ver Métodos). Para cada combinación MHC/longitud del péptido,
utilizamos el método NetMHCpan-4.1 (Reynisson et al., 2020) para seleccionar 9 péptidos
señuelo con puntuaciones de unión en el rango de los péptidos verdaderos. Además,
seleccionamos 50 TCR irrelevantes al azar de conjuntos de datos de células T CD8 humanas y de
ratón puestos a disposición por 10 X Genomics (estos TCR se utilizaron para corregir los efectos
intrínsecos del pMHC; véase más abajo y Métodos).
Se utilizó el canal AlphaFold TCR para generar complejos acoplados y estimaciones de precisión
de interfaz asociadas para emparejamientos de cada TCR con su verdadero epítopo pMHC y con 9
péptidos señuelo de la misma longitud (Figura 3A). Esto produce, para cada uno de los ocho

investigación pMHCs, una matriz Nx10 de precisiones de interfaz predichas (Figura 3B, panel izquierdo), donde N
es el número de TCRs específicos para el pMHC dado. Para generar un único número que
representara la precisión de interfaz estimada de un complejo, sumamos el error alineado predicho
(PAE) residuo-residuo para todos los pares residuo TCR:pMHC. Estas estimaciones brutas de
precisión mostraron efectos significativos intrínsecos al TCR y al pMHC (Figura 3B). Ciertos TCR
presentaban sistemáticamente precisiones de interfaz predichas superiores o inferiores a la media
debido a

investigación
A B C
D E Mejor que
F
la plantilla
Mejor que mediana
la mejor
plantilla
Figura 2. Precisión del modelado del TCR. (A) Comparación entre Alphafold-Multimer con secuencias de entrada completas ('AFM_full') o recortadas
('AFM_trim') y el modelo híbrido de TCR ('AF_TCR'). Los valores CDR RMSD (eje y) se calculan superponiendo las coordenadas MHC nativas y
modeladas y comparando la colocación de los bucles TCR CDR (ver Métodos). (B) Igual que en (A) pero para los 20 objetivos de referencia no
relacionados con ninguna estructura TCR:pMHC depositada antes de mayo de 2018, la fecha de corte para el conjunto de entrenamiento AlphaFold-
Multimer. (C) La medida de error alineado predicho (PAE) de AlphaFold, evaluada entre TCR y pMHC, se correlaciona con CDR RMSD entre el
modelo y la estructura nativa. (D) La geometría de acoplamiento del modelo final AlphaFold mejora sobre la mejor de las 12 plantillas en el 30% de los
casos (puntos sobre la línea y=x). (E) La geometría de acoplamiento del modelo final AlphaFold
mejora sobre la mediana de las 12 plantillas en el 94% de los casos (puntos sobre la línea y=x). (F) El ajuste fino de los parámetros de AlphaFold en los
complejos TCR:pMHC humanos mejora la predicción de los complejos TCR:pMHC de ratón. Los recuadros de A, B y F muestran los cuartiles de las
distribuciones representadas.
La versión en línea de este artículo incluye los siguientes datos de origen y suplemento(s) de figura para la figura 2:
Fuente de datos 1. Predicción de estructuras de referencia.
Figura suplementaria 1. Composición de la base de datos de la estructura ternaria TCR:pMHC.
Figura suplementaria 2. Precisión del modelado estructural de péptidos.
Figura suplementaria 3. Rendimiento del modelado TCR:pMHC.
Figura suplementaria 4. Comparación de la RMSD de acoplamiento con la RMSD de CDR.
Figura suplementaria 5. Paisajes geométricos de acoplamiento para la predicción estructural de referencia.
Figura suplementaria 6. Factores que influyen en la precisión del acoplamiento AF_TCR.
características como bucles CDR3 más largos o el uso de genes V sin una plantilla estructural
cercana. Observamos tendencias similares, aunque más débiles, en los distintos complejos
péptido:MHC, quizá debido a la confianza de AlphaFold en la estructura del péptido unida al
MHC. Los factores intrínsecos del TCR no cambian el orden relativo de los péptidos candidatos,
pero dificultan las comparaciones de las predicciones de unión entre los TCR; los efectos del

investigación pMHC tienen el potencial de cambiar el orden de clasificación de los epítopos peptídicos
candidatos. Dado que lo que nos interesa aquí es evaluar la compatibilidad entre el TCR y el
pMHC y no, por ejemplo, la compatibilidad entre el TCR y el pMHC,

investigación
Tabla 1. Referencia de especificidad de unión.
Organismo MHC Longitud del Secuencia peptídica Antígeno
péptido
humano HLA-A*02:01 9 GILGFVFTL Gripe M1
humano HLA-A*02:01 9 GLCTLVAML VEB BMLF1

humano HLA-A*02:01 9 NLVPMVATV CMV pp65
humano HLA-A*02:01 9 YLQPRTFLL Pico de SARS-CoV-2
humano HLA-A*02:01 10 ELAGIGILTV MART-1 humano
humano HLA-A*02:01 10 KLVALGINAV VHC POLG
ratón H2-Db 9 ASNENMETM Gripe NP
ratón H2-Db 10 SSLENFRAYV Gripe PA
Al clasificar los péptidos por su afinidad por el CMH, corregimos estos efectos intrínsecos del TCR y
del CMHp para generar una serie de puntuaciones de unión TCR:CMHp que se pretendía que fueran
comparables entre diferentes CMHp y TCR (Figura 3B, panel central; las puntuaciones más bajas
indican una unión predicha más fuerte, véase Métodos). Evaluamos la precisión de estas
predicciones de unión en los ocho epítopos pMHC. En primer lugar, calculamos el rango del
verdadero epítopo peptídico entre los 9 péptidos señuelo (Figura 3B, panel derecho) por cada
TCR. Para visualizar cómo varían estos rangos en cada repertorio específico de pMHC, construimos
árboles de agrupación jerárquica de las secuencias de TCR utilizando la medida TCRdist (Dash et al.,
2017) y los coloreamos según el rango del péptido verdadero (Figura 3C y Figura 4). Los
bordes internos, que corresponden a múltiples TCR "hoja", se colorean por el rango del péptido
verdadero después de promediar las puntuaciones de unión sobre los TCR hoja. Observando los
ocho epítopos, podemos ver, en primer lugar, que las predicciones no son aleatorias: por término
medio, el péptido correcto se clasifica más favorablemente que la mayoría de los señuelos (es decir,
hay más azul que rojo). Para seis de los ocho epítopos, el péptido correcto ocupa el primer lugar
cuando promediamos las puntuaciones de unión de todos los TCR del repertorio (Figura 3D;
Figura 4: la rama más grande del árbol es de color azul oscuro). También parece que los epítopos
con repertorios de secuencia más diversa (A*0201-GLC9 y A*02:01-NLV9) son más difíciles de
predecir: los árboles que se fusionan completamente con valores de TCRdist más pequeños (más
a la izquierda) son más azules que los demás árboles de la Figura 4. Esto puede observarse
cuantitativamente mediante el análisis de las puntuaciones de unión de todos los TCR del
repertorio (Figura 3D; Figura 4: la rama más grande del árbol es de color azul oscuro). Esto se
puede ver cuantitativamente trazando la medida de diversidad de secuencias del repertorio TCRdiv
(Dash et al., 2017) frente a las medidas de éxito de predicción de unión (Figura 4-suplemento de
figura 1). Si clasificamos los péptidos por puntuación de unión y comparamos la recuperación de los
péptidos de unión verdadera con los señuelos utilizando curvas de características operativas del
receptor (ROC), podemos ver que algunos epítopos, como A*02:01-YLQ9 y A*02:01-ELA10 se
predicen muy bien (por área bajo la curva ROC, AUROC ≥ 0,96) y algunas predicciones son solo
ligeramente mejores que el azar (Figura 3E). Encontramos un valor AUROC global de 0,82
cuando los pares TCR:pMHC vinculantes y no vinculantes de todos los epítopos se clasifican juntos.
Intentamos ver si la precisión del modelado estructural se correlacionaba con el éxito de la
predicción de unión (Figura 5). Aunque muy pocos de los TCR específicos modelados se han
caracterizado estructuralmente, cada uno de los epítopos tiene al menos una estructura ternaria
resuelta en la base de datos de estructuras proteicas. Para cada TCR, calculamos los RMSD de
acoplamiento entre el modelo TCR:pMHC en complejo con su epítopo asociado y las estructuras
ternarias resueltas para ese epítopo, y tomamos el valor mínimo como indicador de la precisión del
modo de unión predicho. La Figura 5A muestra la distribución de estos valores RMSD en cada
repertorio. Los epítopos bien predichos como A*02:01-YLQ9 y A*02:01-ELA10 parecen tener valores
RMSD más pequeños que otros repertorios. El pMHC H2Db-ASN9 de ratón es un caso atípico, con
una distribución RMSD desplazada hacia valores muy altos. El examen de las tres estructuras
ternarias para este pMHC reveló que representan una población única de TCRs TRBV17+ que es
distinta del repertorio consenso modelado aquí. Dos de los tres TCRs se unen con una orientación de

investigación acoplamiento invertida (Gras et al., 2016), y el tercero tiene una huella de unión altamente
desplazada (Zareie et al., 2021); los tres son valores atípicos en un árbol de agrupamiento jerárquico
de TCRs de Clase I basado en RMSD de acoplamiento (Figura 5-suplemento gráfico 1). Si
excluimos H2Db:ASN9 y trazamos la RMSD de acoplamiento a la estructura epitópica más cercana
frente a la puntuación de unión para el péptido correcto, vemos que existe una correlación positiva
(Figura 5B). Los TCRs para los que el péptido correcto está clasificado en primer lugar tienen una
distribución RMSD más baja que otros TCRs, y esta distribución RMSD se desplaza hacia arriba a
medida que disminuye el rango del péptido correcto (Figura 5C). Estos resultados sugieren que las
predicciones de unión correctas están impulsadas

investigación
A B D
C
E
verdaderos
positivos
Tasa de
peor
Rango
del
péptido
WT Tasa de falsos
mejo positivos
r
Figura 3. El modelado estructural puede a veces distinguir entre emparejamientos TCR:pMHC correctos e incorrectos. (A) Para cada uno de los ocho
epítopos péptido:CMH, acoplamos múltiples TCRs cognados contra múltiples péptidos señuelo y el epítopo de tipo salvaje. Aquí se muestran tres
TCR y tres pMHC; en realidad se modelaron 9 señuelos y hasta 50 TCR. (B) Para cada emparejamiento candidato TCR:pMHC, se calculó el error
alineado medio predicho por AlphaFold (PAE) para la interfaz TCR:pMHC (izquierda) y se transformó en una puntuación de unión restando los
factores intrínsecos del TCR e intrínsecos del pMHC (centro).
Estas puntuaciones de unión se promediaron para definir una puntuación de unión a nivel de repertorio para el epítopo WT y cada uno de los señuelos
(abajo). También se calculó el rango de la puntuación de unión del WT dentro de la lista de todas las puntuaciones de unión para cada TCR (derecha).
(C) Árbol de agrupamiento jerárquico TCRdist de los 50 TCR modelados para el epítopo A*02:01 GIL9, etiquetado con la información de la secuencia
del TCR, el péptido mejor clasificado y el rango del péptido WT, y coloreado por el rango del péptido WT. Los bordes internos, que corresponden a
múltiples TCRs "hoja", están coloreados por el rango del péptido WT después de promediar las puntuaciones de unión sobre los TCRs hoja. (D)
Puntuaciones de unión del repertorio para cada uno de los ocho epítopos diana y los 9 péptidos señuelo, con la puntuación de unión más baja (más
favorable) en cada fila en recuadro. (E) Curvas de características operativas del receptor (ROC) para la discriminación de los péptidos WT de los
péptidos señuelo según la puntuación de unión.
Los valores del área bajo la curva ROC (AUROC) se indican en la leyenda junto con la secuencia del péptido WT.
La versión en línea de este artículo incluye los siguientes datos de origen para la figura 3:
Fuente de datos 1. TCR de referencia de especificidad epitópica.
Fuente de datos 2. Péptidos de referencia de especificidad epitópica.
al menos en parte por la recuperación de características estructurales de tipo nativo (el análisis de las
RMSD de la espina dorsal del péptido muestra una correlación positiva, pero mucho más débil, entre
la predicción de la unión y la precisión del modelado: Figura 5-suplemento gráfico 2).
Para investigar más a fondo el comportamiento de nuestro enfoque de modelado, realizamos
una exploración in silico del epítopo de alanina de cada uno de los ocho repertorios específicos del
pMHC. Construimos modelos y calculamos las puntuaciones de unión para cada TCR específico del
epítopo acoplado a todas las mutaciones de alanina del péptido nativo (los residuos de alanina
nativos se mutaron a glicina). Las puntuaciones de unión para cada TCR y cada uno de los
mutantes de alanina se muestran en los mapas térmicos de la Figura 6. El promedio de estas

investigación puntuaciones de unión en todos los péptidos se muestra en la Figura 7. Si se promedian estas
puntuaciones de unión de todos los TCR para cada epítopo y se resta la puntuación del péptido
nativo, se obtiene la sensibilidad prevista a nivel de repertorio a la mutación en cada posición del
péptido (Figura 6B). A partir de estos gráficos de sensibilidad, podemos ver que la mayoría de los
repertorios específicos de epítopos muestran la preferencia esperada por el péptido nativo.

investigación
Figura 4. Resultados de la discriminación del péptido señuelo para los ocho epítopos de referencia. El rango del péptido de tipo salvaje en relación con
los 9 señuelos (0=mejor, 9=peor) se muestra en un mapa de calor y en un árbol de agrupación jerárquica TCRdist de los TCR específicos del epítopo.
Cada fila del mapa de calor corresponde a un único TCR; cada columna corresponde a uno de los 10 péptidos modelados, con el péptido de tipo
salvaje a la izquierda. El orden vertical de los TCRs en los mapas térmicos y en los árboles es el mismo. Los bordes internos de los árboles, que
corresponden a múltiples TCRs "hoja", están coloreados por el rango del péptido de tipo salvaje después de promediar las puntuaciones de unión
sobre los TCRs hoja.
Figura suplementaria 1. La precisión de la predicción de la especificidad peptídica está inversamente correlacionada con la diversidad de secuencias del
repertorio.
péptido en la mayoría de las posiciones, con un subconjunto de posiciones que muestran una alta
sensibilidad. Colorear las estructuras pMHC por sensibilidad de mutación (Figura 6A) revela que
estas posiciones altamente sensibles están en gran parte expuestas al TCR; varias son sitios de
mutaciones de escape virales conocidas, como la posición L5 de A*02:01-KLV (Wölfl et al., 2008) y
la posición R7 de H2Db-SSL (Valkenburg et al., 2013). Aunque la observación de que las posiciones
predichas para interrumpir la unión al TCR están en gran medida expuestas al TCR concuerda con la
intuición biofísica, esto sigue siendo una validación importante del protocolo. Dado que las
puntuaciones de unión se derivan de medidas de confianza AlphaFold por pares que implican
parcialmente al péptido, una preocupación es que podrían estar reflejando preferencias de unión
péptido-MHC en lugar de unión pMHC-TCR. El hecho de que las mutaciones de anclaje del péptido
no se encuentren entre las posiciones más fuertemente predichas aquí sugiere que, restando la

investigación puntuación de unión media de cada péptido para los TCR "no ligadores" de fondo, somos capaces de
corregir estas características intrínsecas del péptido. Como prueba final, evaluamos el protocolo de
especificidad en un escenario más desafiante: TCRs individuales (en lugar de repertorios de TCRs)
interactuando con péptidos alterados.

investigación
A B C
Figura 5. El éxito en la discriminación de señuelos se correlaciona con la precisión del modelo estructural. (A) Para cada TCR, el modelo estructural en
complejo con el epítopo de tipo salvaje se comparó con todas las estructuras ternarias determinadas experimentalmente para ese epítopo y se registró
la RMSD de acoplamiento más pequeña. Las distribuciones RMSD resultantes se suavizaron mediante la estimación de la densidad del núcleo y se
representaron gráficamente. (B) Diagrama de dispersión de la RMSD de acoplamiento a la estructura de tipo silvestre más cercana frente a la
puntuación de unión para el péptido de tipo silvestre. Las puntuaciones de unión favorables para el tipo silvestre se correlacionan con valores RMSD
más bajos. (C) Distribuciones de RMSD de acoplamiento a la estructura de tipo silvestre más cercana (eje y) en función del rango del péptido de tipo
silvestre (eje x). Cuando el péptido de tipo salvaje está clasificado en primer lugar (violín izquierdo), las geometrías de acoplamiento correspondientes
son más similares a las de los complejos ternarios para ese epítopo, lo que sugiere una mayor precisión.
La versión en línea de este artículo incluye la(s) siguiente(s) figura(s) suplementaria(s) para
la figura 5: Figure supplement 1. Hierarchical clustering tree of TCR:pMHC class I docking
geometries. Árbol de agrupación jerárquica de las geometrías de acoplamiento TCR:pMHC
clase I. Suplemento de figura 2 . Precisión del esqueleto peptídico en la prueba de

especificidad.
variantes, algunas con diversas mutaciones de aminoácidos. Aquí encontramos un rendimiento

mucho peor que en la tarea de discriminación de señuelos (Figura 6-suplemento gráfico 1), que
podría mejorarse en cierta medida incluyendo complejos TCR:pMHC relacionados en el conjunto de
plantillas (lo que sugiere que futuras mejoras en los métodos de predicción de estructuras podrían
traducirse en mejores predicciones de unión).
Debate
La predicción de las interacciones TCR:pMHC es un reto debido a la diversidad de los modos de
reconocimiento TCR:pMHC y al número limitado de interacciones validadas disponibles para el
entrenamiento. Inspirados por los recientes avances en la predicción de estructuras proteicas (Baek
et al., 2021; Jumper et al., 2021), planteamos la hipótesis de que los enfoques basados en
estructuras, que pueden aprovechar las características generales de las estructuras e interacciones
proteicas, podrían ofrecer una vía para realizar predicciones generalizables de la unión T C R : pMHC
a partir de datos limitados. Hemos desarrollado una línea especializada AlphaFold para la predicción
de la estructura TCR:pMHC que utiliza plantillas híbridas ensambladas a partir de estructuras
TCR:pMHC existentes para restringir la orientación de acoplamiento TCR a geometrías similares a
las nativas. Aquí demostramos que esta línea de trabajo puede generar predicciones de estructuras
de complejos TCR:pMHC más precisas que el método de vanguardia Alphafold-Multimer. La
precisión de la predicción se correlaciona con la confianza en el modelo, y la calidad del modelo
puede mejorarse aún más ajustando los parámetros de AlphaFold en las estructuras TCR:pMHC.
Cuando se probó la discriminación de péptidos señuelo, descubrimos que las estimaciones de
precisión de acoplamiento del modelo, corregidas para los efectos intrínsecos del TCR y del pMHC,
podían utilizarse para seleccionar los péptidos diana correctos de entre los señuelos con una
precisión sustancial. El éxito en esta tarea de discriminación de señuelos se correlacionaba con la
precisión estructural de los modelos, lo que sugería que la línea de producción seleccionaba el

investigación péptido correcto basándose en determinantes de especificidad molecular. La precisión de la
predicción varió en función de los epítopos pMHC, siendo más difícil modelizar los epítopos con
repertorios TCR de secuencia más diversa.
Este trabajo presenta una serie de advertencias. En primer lugar, el nivel general de precisión es
inferior al necesario para la mayoría de las aplicaciones prácticas de predicción de la unión
TCR:pMHC. Como se describe más adelante, estamos estudiando múltiples vías para mejorar este
proyecto inicial; también puede ser posible predecir a partir de las propias simulaciones qué sistemas
se modelan de forma fiable, lo que podría permitir

investigación
T8
E4
R5 I5 R7 F5
E4
E7
L5
B
delpertorio delta a
Puntuación de unión
tipo salvaje
Posición de escaneo AlaPosición de escaneo Ala
Figura 6. Resultados del barrido de alaninas para los ocho epítopos de referencia. (A) Mapas de calor que muestran las puntuaciones de unión para el
péptido de tipo salvaje (columna izquierda) y todos los mutantes de una sola alanina (columnas etiquetadas con la secuencia de tipo salvaje) en
complejo con cada TCR (filas). Debajo de cada mapa térmico, se muestra la estructura cristalina del pMHC de tipo silvestre con el péptido coloreado
por el delta entre las puntuaciones de unión promediadas del repertorio del mutante y del tipo silvestre. (B) Los diagramas de líneas del delta entre las
puntuaciones de unión promediadas del repertorio mutante y el silvestre reflejan la sensibilidad prevista a nivel de repertorio a las mutaciones del
epítopo.
Figura suplementaria 1. Comparación con datos experimentales sobre la unión de TCR individuales a ligandos peptídicos alterados.

investigación
predicciones útiles a partir de cálculos a gran escala. En segundo lugar, varios de los epítopos de
nuestro péptido señuelo de discriminación de referencia han sido ampliamente caracterizados en
estudios estructurales. Aunque nos hemos esforzado por evitar el uso de información de estructuras
relacionadas durante el ensamblaje de la plantilla (véase Métodos), es posible que se haya
introducido un sesgo hacia conformaciones similares a las nativas. Por ejemplo, los parámetros de
AlphaFold en los que nos basamos en la tubería se entrenaron en cadenas de proteínas individuales
(no complejos de proteínas) depositadas antes de mayo de 2018. Algunas de las cadenas TCR
modeladas en la tarea de discriminación de señuelos son probablemente similares a las cadenas de
proteínas presentes en este conjunto de entrenamiento AlphaFold. A medida que crezca la base de
datos de pares TCR:pMHC, futuras evaluaciones comparativas establecerán si el rendimiento
observado aquí se extenderá a epítopos sin cobertura estructural. Hasta entonces, estos resultados
deben considerarse un límite superior favorable del rendimiento del método. Por último, es poco
probable que nuestro método de modelado basado en plantillas tenga éxito en sistemas TCR:pMHC
con modos de unión muy divergentes. Aunque vemos pruebas de que AlphaFold puede mejorar la
mejor plantilla proporcionada (Figura 2D), es poco probable que pueda predecir de forma fiable
complejos que se desvían sustancialmente de cualquier plantilla (por ejemplo, geometrías de
orientación invertida Beringer et al., 2015; Gras et al., 2016). De forma más general, un enfoque
basado en plantillas como el nuestro está fundamentalmente limitado por la cobertura de la base de
datos de estructuras, que está muy sesgada hacia alelos bien estudiados como HLA-A*02:01 y, para
MHC Clase I, hacia epítopos canónicos de 9 residuos (Figura 2-suplemento de figura 1).
La línea de modelado descrita aquí representa un primer paso en la aplicación de herramientas de
predicción de estructuras de aprendizaje profundo para estudiar las interacciones TCR:pMHC.
Anticipamos que se puede mejorar mediante pruebas adicionales en otros sistemas y mediante la
comparación con otros tipos de datos experimentales (afinidades de unión, mutaciones de interfaz,
etc.). Este pipeline inicial no hace uso de la información de alineamiento de secuencias múltiples
(MSA), pero puede ser útil incluir MSAs para cadenas individuales o construir 'MSAs emparejados'
consistentes en secuencias concatenadas TCR:péptido:MHC de ejemplos de unión conocidos. Estos
MSA emparejados podrían sustituir a las alineaciones ortólogas emparejadas utilizadas por
AlphaFold-Multimer para detectar la covariación de residuos entre interfaces. Evaluamos el uso de la
estimación de precisión de residuo-residuo (PAE) de AlphaFold para discriminar el tipo salvaje de los
epítopos de péptido-MHC señuelo, pero también puede valer la pena explorar el uso de otras
estimaciones de afinidad de unión, como las energías de unión calculadas con el paquete de
software Rosetta (Leaver-Fay et al., 2011) u otras herramientas de modelado molecular (Lee et al.,
2018). Por último, puede ser posible ajustar los parámetros de AlphaFold directamente para
discriminar los ejemplos de unión TCR:pMHC de los ejemplos no vinculantes, como hemos
demostrado recientemente para las interacciones péptido:MHC (Motmaen et al., 2022). Esto nos
permitiría aprovechar directamente los miles de interacciones TCR:pMHC validadas en el contexto de
un procedimiento de entrenamiento estructuralmente informado.
Métodos
Definición de la geometría de acoplamiento TCR:pMHC
La geometría de acoplamiento TCR:pMHC está definida por la transformación de cuerpo rígido que
mapea entre los marcos de coordenadas MHC y TCR (Figura 1B). El marco de coordenadas del
MHC se define sobre la base del eje de simetría doble aproximado que relaciona las mitades N- y C-
terminal de la hoja beta que forma el suelo del bolsillo de unión al péptido. Se seleccionaron 12
residuos centrales en la hoja beta (Figura 1-figura suplemento 1A), 6 de la mitad N-terminal y 6 de
la mitad C-terminal, que están relacionados por esta simetría rotacional doble aproximada. Para una
estructura MHC dada, se calcula la transformación que mapea estos 12 residuos sobre sí mismos,
intercambiando los residuos N- y C-terminales y minimizando el RMSD de los átomos de carbono
alfa. El eje de rotación de esta trans- formación ortogonal, orientado hacia el péptido, se toma como
eje x del marco de coordenadas MHC. El eje z del marco de coordenadas apunta desde el centro de
masa (COM) de los 6 carbonos alfa del núcleo N-terminal al COM de los 6 carbonos alfa del núcleo
C-terminal. El marco de coordenadas está centrado en el COM de los 12 residuos del núcleo.
Para definir el marco de coordenadas del TCR, se seleccionaron 13 residuos centrales
estructuralmente conservados de la cadena alfa del TCR y 13 residuos centrales alineados de la

investigación cadena beta del TCR (Figura 1-suplemento de figura 1B-C) sobre la base de la inspección visual
de las alineaciones estructurales múltiples del TCR. Para definir el marco de coordenadas del TCR se
utilizó el mismo procedimiento descrito anteriormente para el MHC, sustituyendo los 6 residuos del
núcleo N-terminal y los 6 residuos del núcleo C-terminal del MHC por los 13 residuos del núcleo
TCRA y los 13 residuos del núcleo TCRB del heterodímero del TCR. El eje x del marco de
coordenadas se escoge para que apunte a lo largo del pseudocuerpo del TCR.

investigación
eje de simetría hacia los bucles CDR, mientras que el eje z apunta desde el COM de los residuos del
núcleo TCRA al COM de los residuos del núcleo TCRB.
La geometría de acoplamiento viene definida por la transformación de cuerpo rígido que
relaciona el marco de coordenadas del MHC con el marco de coordenadas del TCR. Esta
transformación vive naturalmente en un espacio no euclidiano de 6 dimensiones (SE(3)).
Aprovechamos el hecho de que, tal y como se ha definido anteriormente, los ejes x de los
marcos MHC y TCR apuntan hacia la ubicación típica de su pareja para definir una
parametrización local de 6 dimensiones de este espacio en términos de la distancia entre los
orígenes de los marcos, un ángulo diedro sobre el eje que conecta los orígenes de los marcos,
el vector unitario que apunta del MHC al TCR en el marco MHC, y el vector unitario que apunta
del TCR al MHC en el marco TCR (véase el README en https://github.com/phbradley/TCRdock
para más detalles y visualizaciones). Esta asignación de las geometrías de acoplamiento
TCR:pMHC a 6 parámetros de valor real nos permite aproximar el espacio de las geometrías de
acoplamiento mediante una distribución normal multidimensional y asignar una "puntuación Z"
(utilizando la distancia de Mahalanobis) a cualquier geometría de acoplamiento observada. Esta
puntuación refleja el grado en que la geometría de acoplamiento diverge del modo de unión
consensuado para su clase MHC y resultó ser un fuerte predictor de la precisión del acoplamiento
(Figura 2-suplemento gráfico 6, panel superior izquierdo). El script de Python
parse_tcr_pmhc_pdbfile.py del repositorio de github de TCRdock (véase Code Availability)
calcula los marcos de coordenadas MHC y TCR para una estructura PDB de entrada y calcula la
geometría de acoplamiento.
Modelado AlphaFold
Para modelar una diana TCR:pMHC determinada, se realizan tres simulaciones AlphaFold (utilizando
el conjunto d e parámetros 'model_2_ptm') y se selecciona el modelo final con el error alineado
predicho (PAE) más bajo entre el TCR y el pMHC (Figura 1). El conjunto de parámetros
model_2_ptm se eligió en base a nuestra experiencia en predicciones de unión péptido:MHC, pero el
conjunto model_1_ptm ofrece resultados muy similares. Para reducir el sesgo del entrenamiento de
parámetros, utilizamos los parámetros monoméricos originales de AlphaFold, que fueron entrenados
en cadenas de proteínas individuales, en lugar del c o n j u n t o d e parámetros AlphaFold-Multimer,
cuyo conjunto de entrenamiento incluía complejos de proteínas. Cada simulación AlphaFold puede
utilizar un máximo de cuatro plantillas, lo que permite un total de 12 plantillas en las tres ejecuciones
(Figura 1C). Estas 12 plantillas se construyen a partir de cuatro plantillas para cada una de las
cadenas pMHC, TCRA y TCRB seleccionadas en función de la identidad de secuencia con el objetivo
de modelado (Figura 1A) combinadas con 12 plantillas de geometría de acoplamiento. Se utilizan las
mismas cuatro plantillas por cadena en cada una de las tres ejecuciones de AlphaFold; sólo varían
las geometrías de acoplamiento entre ejecuciones. Por lo tanto, no se muestrea toda la combinatoria
de plantillas de cadenas por geometrías de acoplamiento. Las plantillas péptido-MHC se ordenan por
identidad de secuencia total calculada sobre el MHC y el péptido. Para crear plantillas híbridas para
el modelado AlphaFold, las coordenadas de las plantillas pMHC y TCRB deben mapearse en el
marco de coordenadas de la estructura de la plantilla TCRA. En primer lugar, la estructura del TCR
de la que se toman las coordenadas de la plantilla TCRB se superpone a la estructura de la plantilla
TCRA superponiendo los 13 residuos del núcleo TCRA. A continuación, las coordenadas TCRB
superpuestas se añaden a la plantilla híbrida después de las coordenadas TCRA. Para mapear las
coordenadas pMHC en el marco de coordenadas de las coordenadas TCRA y TCRB, se definen los
marcos de coordenadas MHC y TCR como se ha descrito anteriormente, y se seleccionan 12
geometrías de acoplamiento representativas. Cada geometría de acoplamiento define la
transformación entre los marcos de coordenadas MHC y TCR, lo que permite mapear las
coordenadas de la plantilla pMHC en el marco de coordenadas de la plantilla híbrida TCR. Para elegir
las 12 geometrías de acoplamiento representativas, las geometrías de acoplamiento de las
estructuras T C R :pMHC de la misma clase MHC que la diana se agrupan jerárquicamente y el árbol
de agrupamiento se corta en un umbral de distancia en el que hay 12 agrupaciones. La geometría de
acoplamiento de cada clúster con la menor distancia media a los otros miembros del clúster se elige
como representante. Para la agrupación jerárquica, se proporciona una matriz de RMSDs de
acoplamiento (definida a continuación) a la f u n c i ó n h i e r a r c h y . linkage del módulo de agrupación
de SciPy (Virtanen et al., 2020). La función hierarchy.fcluster con el criterio 'maxclust' se utiliza para

investigación seleccionar el umbral de distancia en el que el árbol geométrico de docking se divide en 12 clusters.
Las estructuras modelo se descargaron del sitio ftp del banco de datos de proteínas RCSB (Berman
et al., 2000) el 2021-08-05.
Perfeccionamiento de AlphaFold para la predicción de estructuras

TCR:pMHC
Para afinar los parámetros AlphaFold para la predicción de la estructura TCR:pMHC, utilizamos una
versión del paquete AlphaFold ligeramente modificada para exponer la interfaz de entrenamiento de
parámetros (Motmaen

investigación
et al., 2022). El script de Python run_finetuning_for_structure.py del repositorio de github
alphafold_finetune (https://github.com/phbradley/alphafold_finetune; Bradley, 2022a) con los
indicadores de línea de comandos adicionales '--model_name model_2_ptm --crop_size
419' se proporcionó con un conjunto de entrenamiento formado por tres ejecuciones para cada
una de las 93 estructuras ternarias humanas (279 exámenes de entrenamiento totales). Debido
al pequeño tamaño del conjunto de datos de entrenamiento, éste se detuvo después de dos
épocas para evitar un ajuste excesivo.
Predicción de estructuras
El conjunto de referencia de predicción de estructuras consta de 130 estructuras ternarias
TCR:pMHC no redundantes depositadas antes de 2021-08-05 (Figura 2-datos de origen 1). No
hay dos estructuras en el conjunto que tengan menos de 3 desajustes peptídicos y una distancia
TCRdist emparejada (Dash et al., 2017) menor o igual que
120. Esta restricción elimina pares de estructuras con TCR iguales o similares que se unen a
péptidos iguales o similares. Tras una inspección visual, eliminamos las siguientes 9 estructuras
atípicas con modos de unión muy divergentes (orientaciones de acoplamiento invertidas,
péptidos muy abultados, etc.): PDB IDs 5sws, 7jwi, 4jry, 4nhu, 3tjh, 4y19, 4y1a, 1ymm y 2wbj.
Durante la evaluación comparativa, excluimos las plantillas y geometrías de acoplamiento que
eran demasiado similares a la secuencia diana modelada. Las plantillas péptido-MHC se excluyeron
si tenían menos de tres desajustes peptídicos con el péptido diana. Las plantillas de cadena TCR se
excluyeron si tenían una distancia TCRdist de cadena única de 36 o menos con la cadena diana
(correspondiente a tres desajustes no conservativos o indels en el bucle CDR3). Las geometrías de
acoplamiento se excluyeron si procedían de una estructura con menos de tres desajustes peptídicos
respecto al objetivo o una distancia TCRdist de 48 o menos respecto al TCR objetivo.
Medidas RMSD
Evaluamos la precisión del modelo comparando la ubicación de los bucles CDR en relación con el
CMH en las estructuras nativa y modelada. Primero se superpusieron las dos estructuras sobre las
coordenadas del CMH; después se calculó una RMSD de carbono alfa (sin más superposición) sobre
los bucles CDR, ponderando los residuos en la CDR3 por un factor de 3 para reflejar la mayor
importancia de la CDR3 para el reconocimiento del epítopo (esta es la "RMSD CDR" que se muestra
en la Figura 2). Se utilizaron las definiciones de bucle CDR de TCRdist.
Para comparar las geometrías de acoplamiento entre estructuras con diferentes secuencias de
bucles CDR, desarrollamos una "geometría de acoplamiento RMSD" destinada a aproximar la RMSD
CDR de forma independiente de la secuencia. Primero se utilizó la base de datos de plantillas
completa para calcular un centro de masa medio de los residuos en cada bucle CDR con respecto al
marco de coordenadas del TCR. Para calcular la RMSD de acoplamiento entre dos geometrías de
acoplamiento, cada geometría de acoplamiento se utiliza para construir un marco de coordenadas
TCR asumiendo que el marco de coordenadas MHC está centrado en el origen y alineado con los
ejes de coordenadas. A continuación, se construyen los centros de masa CDR con respecto a cada
uno de estos dos marcos de coordenadas TCR, y se calcula una RMSD entre estos dos conjuntos de
ocho puntos (4 centros de masa CDR cada uno para las cadenas TCRA y TCRB) sin superposición,
ponderando el centro de masa CDR3 por un factor de 3. La correlación entre la RMSD CDR y la
RMSD de acoplamiento se muestra en la Figura 2-suplemento gráfico 4.
Criterio de discriminación de señuelos epitópicos

Se seleccionaron ocho epítopos de clase I del CMH con datos de repertorio de TCR y estructuras
determinadas experimentalmente como objetivos para una referencia de discriminación de señuelos
(Tabla 1). Se recopilaron de la bibliografía secuencias alfa y beta emparejadas de TCR específicos
para estos ocho epítopos (10xGenomics, 2020; Dash et a l ., 2017; Francis et al., 2022; Minervina
et al., 2022; Schattgen et al., 2022; Shugay et al., 2018). Los repertorios de TCR específicos de
epítopos con más de 50 TCR se submuestrearon a 50 repre- sentativos utilizando un algoritmo
basado en la densidad del kernel gaussiano diseñado para muestrear preferentemente regiones más
densas del espacio de TCR sin introducir una redundancia excesiva (véase
algorithms_from_the_paper. py en el repositorio github de TCRdock). El objetivo del muestreo de
regiones más densas del espacio TCR era evitar secuencias TCR atípicas que pudieran representar

investigación errores experimentales. Se seleccionaron al azar 100 secuencias TCR de fondo "irrelevantes"
adicionales (50 TCRs de ratón y 50 TCRs humanos) de células T CD8 ingenuas en conjuntos de
datos puestos a disposición del público por 10xGenomics, 2020 para humanos y aquí para ratones.
Todas las secuencias de TCR específicas del epítopo y de fondo se enumeran en la Figura 3-datos
de origen 1.
Los ocho epítopos MHC de clase I incluyen péptidos de 9 y 10 residuos presentados por los alelos
MHC HLA-A*02:01 y H2-Db. Para cada MHC y longitud de péptido, se seleccionaron 9 péptidos
señuelo por

investigación
escaneando una secuencia de antígeno fuente artificial de 1500 residuos con NetMHCpan-4.1
(Reynisson et al., 2020) y seleccionando los 9 ligantes predichos más importantes (Figura 3-datos
fuente 2). La secuencia de antígeno fuente artificial se creó concatenando las secuencias de
antígeno fuente para las nueve dianas de referencia (Tabla 1), barajando y seleccionando los
primeros 1500 residuos.
Cada TCR epitopo-específico se modeló en complejo con su epítopo peptídico afín y en complejo
con los nueve péptidos señuelo de longitud y MHC emparejados utilizando el canal AlphaFold
especializado para TCRs. Para cada complejo se calculó la medida de exactitud del error medio
predicho alineado (PAE) residuo-residuo para los pares residuo TCR:pMHC y se almacenó en una
matriz Nx10, donde N es el número de TCRs (cada fila corresponde a un TCR y cada columna a un
péptido). Para convertir estos valores brutos de TCR:pMHC PAE en una puntuación de unión que
pueda compararse entre TCRs y pMHCs, también modelamos cada pMHC en complejo con 50 TCRs
de fondo irrelevantes del mismo organismo. Se calculó la PAE media TCR:pMHC de estos complejos
de fondo para cada pMHC y se restó de la columna de la matriz de valores PAE que implicaban a
ese pMHC. A continuación, los valores de la matriz resultante de valores PAE ajustados se
desplazaron para tener sumas de 0 filas restando su valor medio de cada fila. Así, en la matriz final
Nx10 de puntuaciones de unión, el valor medio de cada fila es 0, mientras que los valores medios de
las columnas reflejan la preferencia de unión global del repertorio completo de TCRs para el péptido
correspondiente a la columna ("Puntuación de unión del repertorio" en las Figuras 3 y 6).
Durante el modelado, se aplicaron las restricciones de similitud de TCR y pMHC descritas
anteriormente en 'Structure Predic- tion Benchmark' para excluir plantillas; además, las estructuras
ternarias con un péptido con menos de tres desajustes respecto al péptido de tipo salvaje se
excluyeron de todas las simulaciones (con péptidos señuelo o de tipo salvaje). Nótese que la red
monomérica original de AlphaFold (model_2_ ptm), y no la red de ajuste fino de estructuras, se
utilizó para la prueba de referencia de especificidad epitópica, ya que el conjunto de
entrenamiento utilizado para el ajuste fino se solapaba con los objetivos de la prueba de
referencia de especificidad.
La prueba de referencia de exploración de alanina del epítopo se realizó como se ha descrito
anteriormente, con la diferencia de que los señuelos eran mutantes de alanina de un solo residuo del
péptido de tipo salvaje (los residuos de alanina del péptido de tipo salvaje se mutaron a glicina).
Así pues, había nueve señuelos para péptidos de 9 residuos y 10 señuelos para péptidos de 10
residuos.
Software y disponibilidad de datos

El software Python para configurar y ejecutar el canal AlphaFold especializado en TCR descrito aquí
y para analizar las estructuras ternarias TCR:pMHC está disponible en el repositorio github TCRdock
(https://github.com/ phbradley/TCRdock, copia archivada en
swh:1:rev:060bdb4a59391f2d7d57b0f2a923e4b4d6c9a89f; Bradley, 2022b). Los conjuntos de datos
de referencia se proporcionan como Datos de Origen para las Figuras 2 y 3.
Agradecimientos
Doy las gracias a Jeremy Crawford, Anastasia Minervina, Amir Motmaen, Paul Thomas y Albert Yeh
por sus útiles comentarios sobre el manuscrito, a Justas Dauparas por su ayuda en la puesta a punto
de AlphaFold, a los creadores de AlphaFold por compartir libremente su software y parámetros, y a
Fred Hutch Scientific Computing y NIH ORIP S10OD028685 por su excelente infraestructura
informática. Esta investigación ha contado con el apoyo de las subvenciones R35 GM141457 y R01
AI136514 de los NIH.
Información complementaria
Financiación
Financiador Número de referencia de la subvención Autor

Institutos R35 GM141457Philip Bradley
investigación
Nacionales de Salud
Institutos R01 AI136514Philip Bradley

Nacionales de Salud
Los financiadores no intervinieron en el diseño del estudio, la recopilación e
interpretación de los datos, ni en la decisión de presentar el trabajo para su
publicación.

investigación
Contribuciones de los autores
Philip Bradley, Conceptualización, Recursos, Conservación de datos, Software, Análisis formal,
Supervisión, Obtención de financiación, Validación, Investigación, Visualización, Metodología,
Redacción - borrador original, Administración del proyecto, Redacción - revisión y edición
Autor ORCIDs
Philip Bradley http://orcid.org/0000-0002-0224-6464
Carta de decisión y respuesta del autor
Carta de decisión https://doi.org/10.7554/eLife.82813.sa1
Respuesta del autor https://doi.org/10.7554/eLife.82813.sa2
Archivos adicionales
Ficheros complementarios
• Lista de control MDAR
Disponibilidad de datos
El presente manuscrito es un estudio computacional, por lo que no se han generado datos para el
mismo. Los conjuntos de datos de referencia compilados a partir de la literatura están disponibles
como Datos de Origen para las figuras 2 y
3. El código de modelización es de acceso público a través del repositorio github
https://github.com/phbradley/ TCRdock, (copia archivada en
swh:1:rev:060bdb4a59391f2d7d57b0f2a923e4b4d6c9a89f).
Referencias
10xGenomics. 2020. A new way of exploring immunity: linking highly multiplexed antigen recognition to immune
repertoire and phenotype. https://pages.10xgenomics.com/rs/446-PBO-704/images/10x_AN047_IP_
A_New_Way_of_Exploring_Immunity_Digital.pdf [Consultado el 1 de junio de 2021].
Baek M, DiMaio F, Anishchenko I, Dauparas J, Ovchinnikov S, Lee GR, Wang J, Cong Q, Kinch LN, Schaeffer RD,
Millán C, Park H, Adams C, Glassman CR, DeGiovanni A, Pereira JH, Rodrigues AV, van Dijk AA, Ebrecht AC,
Opperman DJ, et al. 2021. Predicción precisa de estructuras e interacciones proteicas utilizando una red neuronal
de tres pistas . Science 373:871-876. DOI: https://doi.org/10.1126/science.abj8754, PMID: 34282049
Beringer DX, Kleijwegt FS, Wiede F, van der Slik AR, Loh KL, Petersen J, Dudek NL, Duinkerken G, Laban S,
Joosten A, Vivian JP, Chen Z, Uldrich AP, Godfrey DI, McCluskey J, Price DA, Radford KJ, Purcell AW, Nikolic T,
Reid HH, et al. 2015. Reconocimiento de polaridad invertida del receptor de células T de un complejo mayor
de histocompatibilidad autoantígeno. Nature Immunology 16:1153-1161. DOI: https://doi.org/10.1038/ni.3271,
PMID: 26437244
Berkhoff EGM, de Wit E, Geelhoed-Mieras MM, Boon ACM, Symons J, Fouchier RAM, Osterhaus ADME,
Rimmelzwaan GF. 2005. Las restricciones funcionales de los epítopos del virus de la gripe A limitan el escape
de los linfocitos T citotóxicos. Journal of Virology 79:11239-11246. DOI: https://doi.org/10.1128/JVI.79.17.11239-
11246.2005, PMID: 16103176
Berman HM, Westbrook J, Feng Z, Gilliland G, Bhat TN, Weissig H, Shindyalov IN, Bourne PE. 2000. El banco de
datos de proteínas . Nucleic Acids Research 28:235-242. DOI: https://doi.org/10.1093/nar/28.1.235, PMID:
10592235 Borrman T, Pierce BG, Vreven T, Baker BM, Weng Z. 2020. High-throughput modeling and scoring of
TCR-pmhc
para predecir péptidos de reactividad cruzada. Bioinformatics 36:5377-5385. DOI: https://doi.org/10.1093/
bioinformatics/btaa1050, PMID: 33355667
Bradley P. 2022a. Alphafold_finetune. swh:1:rev:af1f2f7507975ffc734ae57a928786e7f90f93b1. Software
Heritage. https://archive.softwareheritage.org/swh:1:dir:3e0d466550a96a7eed8e94327b1808aa142e7306;
origin=https://github.com/phbradley/alphafold_finetune;visit=swh:1:snp:d9526429d564ae1b7b0a8441adec
6d6be4ada724;anchor=swh:1:rev:af1f2f7507975ffc734ae57a928786e7f90f93b1
Bradley P. 2022b. TCRdock. swh:1:rev:060bdb4a59391f2d7d57b0f2a923e4b4d6c9a89f. Software Heritage.
https://archive.softwareheritage.org/swh:1:dir:1ae0f2747ae6587bb308c3fdcdcf790bc7e26c9a;origin=https://
github.com/phbradley/TCRdock;visit=swh:1:snp:69d59008ec0f75b8a0a9c021df0410ab88369817;anchor=swh:
1:rev:060bdb4a59391f2d7d57b0f2a923e4b4d6c9a89f
Dash P, Fiore-Gartland AJ, Hertz T, Wang GC, Sharma S, Souquette A, Crawford JC, Clemens EB, Nguyen THO,
Kedzierska K, La Gruta NL, Bradley P, Thomas PG. 2017. Características predictivas cuantificables definen
repertorios de receptores de células T específicos de epítopos. Nature 547:89-93. DOI:
https://doi.org/10.1038/nature22383, PMID: 28636592
Evans R, O'Neill M, Pritzel A, Antropova N, Senior A, Green T, Žídek A, Bates R, Blackwell S, Yim J,
Ronneberger O, Bodenstein S, Zielinski M, Bridgland A, Potapenko A, Cowie A, Tunyasuvunakool K, Jain R,
Clancy E, Kohli P, et al. 2021. Protein Complex Prediction with AlphaFold-Multimer. bioRxiv. DOI: https://doi.

investigación org/10.1101/2021.10.04.463034
Francis JM, Leistritz-Edwards D, Dunn A, Tarr C, Lehman J, Dempsey C, Hamel A, Rayon V, Liu G, Wang Y,
Wille M, Durkin M, Hadley K, Sheena A, Roscoe B, Ng M, Rockwell G, Manto M, Gienger E, Nickerson J, et al.

investigación
2022. La variación alélica en HLA de clase I determina la forma del repertorio de células T CD8+ y las
respuestas de memoria de reactividad cruzada al SARS-cov-2. Science Immunology 7:eabk3070. DOI:
https://doi.org/10.1126/sciimmunol.abk3070, PMID: 34793243
Gielis S, Moris P, Bittremieux W, De Neuter N, Ogunjimi B, Laukens K, Meysman P. 2019. Detección de
especificidad de epítopos de células T enriquecidas en repertorios de secuencias de receptores de células
T completos. Fronteras en inmunología 10:2820. DOI: https://doi.org/10.3389/fimmu.2019.02820, PMID:
31849987
Gras S, Chadderton J, Del Campo CM, Farenc C, Wiede F, Josephs TM, Sng XYX, Mirams M, Watson KA,
Tiganis T, Quinn KM, Rossjohn J, La Gruta NL. 2016. El acoplamiento invertido del receptor de células T
en un complejo mayor de histocompatibilidad de clase I limita la participación en la respuesta inmune.
Inmunidad 45:749-760. DOI: https://doi.org/10.1016/j.immuni.2016.09.007, PMID: 27717799
Huang H, Wang C, Rubelt F, Scriba TJ, Davis MM. 2020. Analyzing the Mycobacterium tuberculosis immune
response by T-cell receptor clustering with GLIPH2 and genome-wide antigen screening. Nature Biotechnology
38:1194-1202. DOI: https://doi.org/10.1038/s41587-020-0505-4, PMID: 32341563
Humphreys IR, Pei J, Baek M, Krishnakumar A, Anishchenko I, Ovchinnikov S, Zhang J, Ness TJ, Banjade S,
Bagde SR, Stancheva VG, Li X-H, Liu K, Zheng Z, Barrero DJ, Roy U, Kuper J, Fernández IS, Szakal B, Branzei
D, et al. 2021. Computed structures of core eukaryotic protein complexes. Science 374:eabm4805. DOI: https://
doi.org/10.1126/science.abm4805, PMID: 34762488
Jensen KK, Rantos V, Jappe EC, Olsen TH, Jespersen MC, Jurtz V, Jessen LE, Lanzarotti E, Mahajan S, Peters
B, Nielsen M, Marcatili P. 2019. TCRpMHCmodels: modelado estructural de complejos TCR-pmhc de clase I.
Scientific Reports 9:14530. DOI: https://doi.org/10.1038/s41598-019-50932-4, PMID: 31601838
Jumper J, Evans R, Pritzel A, Green T, Figurnov M, Ronneberger O, Tunyasuvunakool K, Bates R, Žídek A,
Potapenko A, Bridgland A, Meyer C, Kohl SAA, Ballard AJ, Cowie A, Romera-Paredes B, Nikolov S, Jain
R, Adler J, Back T, et al. 2021. Predicción altamente precisa de la estructura de proteínas con alphafold.
Nature 596:583-589. DOI: https://doi.org/10.1038/s41586-021-03819-2, PMID: 34265844
Lanzarotti E, Marcatili P, Nielsen M. 2018. Identificación de la diana cognada péptido-MHC de receptores de
células T utilizando modelado molecular y puntuación de campo de fuerza. Inmunología molecular 94:91-97. DOI:
https://doi.org/10. 1016/j.molimm.2017.12.019, PMID: 29288899
Leaver-Fay A, Tyka M, Lewis SM, Lange OF, Thompson J, Jacak R, Kaufman K, Renfrew PD, Smith CA,
Sheffler W, Davis IW, Cooper S, Treuille A, Mandell DJ, Richter F, Ban YEA, Fleishman SJ, Corn JE, Kim
DE, Bradley P. 2011. ROSETTA3: una suite de software orientado a objetos para la simulación y el diseño
de macromoléculas. Métodos en Enzimología 487:545-574.
Lee TS, Cerutti DS, Mermelstein D, Lin C, LeGrand S, Giese TJ, Roitberg A, Case DA, Walker RC, York DM. 2018.
Métodos de dinámica molecular y energía libre acelerados por GPU en amber18: mejoras de rendimiento y
nuevas características. Revista de información y modelización química 58:2043-2050. DOI:
https://doi.org/10.1021/acs. jcim.8b00462, PMID: 30199633
Mayer-Blackwell K, Schattgen S, Cohen-Lavi L, Crawford JC, Souquette A, Gaevert JA, Hertz T, Thomas PG,
Bradley P, Fiore-Gartland A. 2021. Tcr meta-clonotypes for biomarker discovery with tcrdist3 enabled
identification of public, HLA-restricted clusters of SARS-cov-2 tcrs. eLife 10:e68605. DOI: https://doi.org/10.
7554/eLife.68605, PMID: 34845983
McInnes L, Healy J, Saul N, Großberger L. 2018. UMAP: aproximación y proyección de colectores uniformes.
Revista de software de código abierto 3:861. DOI: https://doi.org/10.21105/joss.00861
Minervina AA, Pogorelyy MV, Kirk AM, Crawford JC, Allen EK, Chou C-H, Mettelman RC, Allison KJ, Lin C-Y,
Brice DC, Zhu X, Vegesana K, Wu G, Trivedi S, Kottapalli P, Darnell D, McNeely S, Olsen SR, Schultz-Cherry S,
Estepp JH, et al. 2022. La historia de exposición al antígeno SARS-cov-2 moldea los fenotipos y la especificidad
de las células T CD8+ de memoria. Nature Immunology 23:781-790. DOI: https://doi.org/10.1038/s41590-
022-01184-4, PMID: 35383307
Montemurro A, Schuster V, Povlsen HR, Bentzen AK, Jurtz V, Chronister WD, Crinklaw A, Hadrup SR, Winther O,
Peters B, Jessen LE, Nielsen M. 2021. NetTCR-2.0 enables accurate prediction of TCR-peptide binding by
using paired TCRα and β sequence d a t a . Communications Biology 4:1060. DOI: https://doi.org/10.1038/
s42003-021-02610-3, PMID: 34508155
Moris P, De Pauw J, Postovskaya A, Gielis S, De Neuter N, Bittremieux W, Ogunjimi B, Laukens K, Meysman P.
2021. Current challenges for unseen-epitope TCR interaction prediction and a new perspective derived from
image classification. Briefings in Bioinformatics 22:bbaa318. DOI: https://doi.org/10.1093/bib/bbaa318, PMID:
33346826
Motmaen A, Dauparas J, Baek M, Abedi MH, Baker D, Bradley P. 2022. Peptide Binding Specificity Prediction
Using Fine-Tuned Protein Structure Prediction Networks. bioRxiv. DOI: https://doi.org/10.1101/2022.07.12.
499365
Pettmann J, Huhn A, Abu Shah E, Kutuzov MA, Wilson DB, Dustin ML, Davis SJ, van der Merwe PA, Dushek O.
2021. El poder discriminatorio del receptor de células T. eLife 10:e67092. DOI: https://doi.org/10.7554/eLife.
67092, PMID: 34030769
Pierce BG, Weng Z. 2013. A flexible docking approach for prediction of T cell receptor-peptide-MHC complexes.
Ciencia de las proteínas 22:35-46. DOI: https://doi.org/10.1002/pro.2181, PMID: 23109003
Reynisson B, Alvarez B, Paul S, Peters B, Nielsen M. 2020. NetMHCpan-4.1 and netmhciipan-4.0: improved
predictions of MHC antigen presentation by concurrent motif deconvolution and integration of MS MHC
eluted ligand data. Nucleic Acids Research 48:W449-W454. DOI: https://doi.org/10.1093/nar/gkaa379, PMID:
32406916

investigación
Rossjohn J, Gras S, Miles JJ, Turner SJ, Godfrey DI, McCluskey J. 2015. T cell antigen receptor recognition of
antigen-presenting molecules. Revista anual de inmunología 33:169-200. DOI: https://doi.org/10.1146/
annurev-immunol-032414-112334, PMID: 25493333
Rudolph MG, Stanfield RL, Wilson IA. 2006. How tcrs bind mhcs, peptides, and coreceptors. Annual Review of
Immunology 24:419-466. DOI: https://doi.org/10.1146/annurev.immunol.23.021704.115658, PMID: 16551255
Schattgen SA, Guion K, Crawford JC, Souquette A, Barrio AM, Stubbington MJT, Thomas PG, Bradley P. 2022.
Integrating T cell receptor sequences and transcriptional profiles by clonotype neighbor graph analysis (conga).
Nature Biotechnology 40:54-63. DOI: https://doi.org/10.1038/s41587-021-00989-2, PMID: 34426704
Shugay M, Bagaev DV, Zvyagin IV, Vroomans RM, Crawford JC, Dolton G, Komech EA, Sycheva AL, Koneva AE,
Egorov ES, Eliseev AV, Van Dyk E, Dash P, Attaf M, Rius C, Ladell K, McLaren JE, Matthews KK, Clemens EB,
Douek DC, et al. 2018. VDJdb: una base de datos curada de secuencias de receptores de células T con
especificidad de antígeno conocida. Investigación de ácidos nucleicos 46:D419-D427. DOI:
https://doi.org/10.1093/nar/gkx760, PMID: 28977646
Singh NK, Riley TP, Baker SCB, Borrman T, Weng Z, Baker BM. 2017. Conceptos emergentes en la especificidad del
TCR:
racionalizar y (tal vez) predecir los resultados. Revista de Inmunología 199:2203-2213. DOI: https://doi.org/
10.4049/jimmunol.1700744, PMID: 28923982
Valkenburg SA, Quiñones-Parra S, Gras S, Komadina N, McVernon J, Wang Z, Halim H, Iannello P, Cole C,
Laurie K, Kelso A, Rossjohn J, Doherty PC, Turner SJ, Kedzierska K. 2013. Aparición aguda y reversión de
cuasiespecies del virus de la gripe A dentro de péptidos antigénicos de células T CD8+. Nature
Communications 4:2663. DOI: https://doi.org/10.1038/ncomms3663, PMID: 24173108
Virtanen P, Gommers R, Oliphant TE, Haberland M, Reddy T, Cournapeau D, Burovski E, Peterson P,
Weckesser W, Bright J, van der Walt SJ, Brett M, Wilson J, Millman KJ, Mayorov N, Nelson ARJ, Jones E,
Kern R, Larson E, Carey CJ, et al. 2020. SciPy 1.0: algoritmos fundamentales para la computación científica en
python. Nature Methods 17:261-272. DOI: https://doi.org/10.1038/s41592-019-0686-2, PMID: 32015543
Wölfl M, Rutebemberwa A, Mosbruger T, Mao Q, Li H, Netski D, Ray SC, Pardoll D, Sidney J, Sette A, Allen T,
Kuntzen T, Kavanagh DG, Kuball J, Greenberg PD, Cox AL. 2008. Hepatitis C virus immune escape via
exploitation of a hole in the T cell repertoire. Revista de Inmunología 181:6435-6446. DOI: https://doi.org/10.
4049/jimmunol.181.9.6435, PMID: 18941234
Yin R, Feng BY, Varshney A, Pierce BG. 2022. Benchmarking alphafold for protein complex modeling reveals
accuracy determinants. Protein Science 31:e4379. DOI: https://doi.org/10.1002/pro.4379, PMID: 35900023
Zareie P, Szeto C, Farenc C, Gunasinghe SD, Kolawole EM, Nguyen A, Blyth C, Sng XYX, Li J, Jones CM,
Fulcher AJ, Jacobs JR, Wei Q, Wojciech L, Petersen J, Gascoigne NRJ, Evavold BD, Gaus K, Gras S, Rossjohn
J, et al. 2021. Canonical T cell receptor docking on peptide-MHC is essential for T cell signaling. Science
372:eabe9124. DOI: https://doi.org/10.1126/science.abe9124, PMID: 34083463

Art 1 Es

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Art 1 Es

Cargado por

Copyright:

Formatos disponibles

Suscríbete a DeepL Pro para poder traducir archivos de mayor tamaño.

Más información disponible en www.DeepL.com/pro.

Predicción basada en la estructura

Editor revisor: Michael L Dustin, Universidad de Oxford, Reino Unido

Financiación: Véase la página

Bradley. eLife 2023;12:e82813. DOI: https://doi.org/10.7554/eLife.82813 1 de

Bradley. eLife 2023;12:e82813. DOI: https://doi.org/10.7554/eLife.82813 2 de

Bradley. eLife 2023;12:e82813. DOI: https://doi.org/10.7554/eLife.82813 3 de 32

Bradley. eLife 2023;12:e82813. DOI: https://doi.org/10.7554/eLife.82813 4 de 32

Bradley. eLife 2023;12:e82813. DOI: https://doi.org/10.7554/eLife.82813 5 de 32

Bradley. eLife 2023;12:e82813. DOI: https://doi.org/10.7554/eLife.82813 6 de 32

Cuatro complejos plantilla por ciclo AlphaFold

Bradley. eLife 2023;12:e82813. DOI: https://doi.org/10.7554/eLife.82813 7 de 32

Predicción de la especificidad de unión

Bradley. eLife 2023;12:e82813. DOI: https://doi.org/10.7554/eLife.82813 8 de 32

Bradley. eLife 2023;12:e82813. DOI: https://doi.org/10.7554/eLife.82813 9 de 32

Bradley. eLife 2023;12:e82813. DOI: https://doi.org/10.7554/eLife.82813 10 de 32

Bradley. eLife 2023;12:e82813. DOI: https://doi.org/10.7554/eLife.82813 11 de 32

humano HLA-A*02:01 9 GLCTLVAML VEB BMLF1

humano HLA-A*02:01 10 ELAGIGILTV MART-1 humano

humano HLA-A*02:01 10 KLVALGINAV VHC POLG

ratón H2-Db 9 ASNENMETM Gripe NP

ratón H2-Db 10 SSLENFRAYV Gripe PA

Bradley. eLife 2023;12:e82813. DOI: https://doi.org/10.7554/eLife.82813 12 de 32

Bradley. eLife 2023;12:e82813. DOI: https://doi.org/10.7554/eLife.82813 13 de 32

Bradley. eLife 2023;12:e82813. DOI: https://doi.org/10.7554/eLife.82813 14 de 32

Bradley. eLife 2023;12:e82813. DOI: https://doi.org/10.7554/eLife.82813 15 de 32

Bradley. eLife 2023;12:e82813. DOI: https://doi.org/10.7554/eLife.82813 16 de 32

Bradley. eLife 2023;12:e82813. DOI: https://doi.org/10.7554/eLife.82813 17 de 32

clase I. Suplemento de figura 2 . Precisión del esqueleto peptídico en la prueba de

variantes, algunas con diversas mutaciones de aminoácidos. Aquí encontramos un rendimiento

Bradley. eLife 2023;12:e82813. DOI: https://doi.org/10.7554/eLife.82813 18 de 32

Bradley. eLife 2023;12:e82813. DOI: https://doi.org/10.7554/eLife.82813 19 de 32

Posición de escaneo AlaPosición de escaneo Ala

Bradley. eLife 2023;12:e82813. DOI: https://doi.org/10.7554/eLife.82813 20 de 32

Bradley. eLife 2023;12:e82813. DOI: https://doi.org/10.7554/eLife.82813 21 de 32

Bradley. eLife 2023;12:e82813. DOI: https://doi.org/10.7554/eLife.82813 22 de 32

Bradley. eLife 2023;12:e82813. DOI: https://doi.org/10.7554/eLife.82813 23 de 32

Perfeccionamiento de AlphaFold para la predicción de estructuras

Bradley. eLife 2023;12:e82813. DOI: https://doi.org/10.7554/eLife.82813 24 de 32

Criterio de discriminación de señuelos epitópicos

Bradley. eLife 2023;12:e82813. DOI: https://doi.org/10.7554/eLife.82813 25 de 32

Bradley. eLife 2023;12:e82813. DOI: https://doi.org/10.7554/eLife.82813 26 de 32

Software y disponibilidad de datos

Bradley. eLife 2023;12:e82813. DOI: https://doi.org/10.7554/eLife.82813 27 de 32

Institutos R01 AI136514Philip Bradley

Bradley. eLife 2023;12:e82813. DOI: https://doi.org/10.7554/eLife.82813 28 de 32

Bradley. eLife 2023;12:e82813. DOI: https://doi.org/10.7554/eLife.82813 29 de 32

Bradley. eLife 2023;12:e82813. DOI: https://doi.org/10.7554/eLife.82813 30 de 32

Bradley. eLife 2023;12:e82813. DOI: https://doi.org/10.7554/eLife.82813 31 de 32

Bradley. eLife 2023;12:e82813. DOI: https://doi.org/10.7554/eLife.82813 32 de 32

También podría gustarte