Secuenciación y análisis de cardiopatías
Secuenciación y análisis de cardiopatías
Resumen ....................................................................................................................................................... 4
Resumo ......................................................................................................................................................... 7
Abstract ....................................................................................................................................................... 10
Introducción ................................................................................................................................................ 13
Secuenciación ......................................................................................................................................... 14
Métodos históricos ............................................................................................................................. 14
Next generation sequencing ............................................................................................................... 18
Secuenciación Illumina........................................................................................................................ 28
Sistemas de enriquecimiento.................................................................................................................. 32
Bioinformática......................................................................................................................................... 35
Alineamiento ....................................................................................................................................... 39
Ensamblaje .......................................................................................................................................... 42
Detección de variantes ....................................................................................................................... 42
Métodos de análisis de variaciones en el número de copias (CNVs).................................................. 44
Anotación de variantes ....................................................................................................................... 47
Predictores .......................................................................................................................................... 50
Bases Genéticas de las enfermedades Cardiovasculares........................................................................ 53
Miocardiopatías. Trastornos Estructurales. ........................................................................................ 53
Trastornos arritmogénicos .................................................................................................................. 57
Objetivos ..................................................................................................................................................... 60
Materiales ................................................................................................................................................... 62
y métodos ................................................................................................................................................... 62
Preparación de la muestra .......................................................................................................................... 63
Extracción de ADN .................................................................................................................................. 63
Lisis ...................................................................................................................................................... 63
Filtración ............................................................................................................................................. 63
Elución ................................................................................................................................................. 63
Cuantificación de ADN total .................................................................................................................... 63
Medida de calidad y cantidad del ADN ................................................................................................... 64
Integridad. ........................................................................................................................................... 64
1
Cuantificación del ADN de doble cadena. ........................................................................................... 66
Genotipado mediante sondas Taqman. .............................................................................................. 67
Fragmentación del ADN. ..................................................................................................................... 67
Preparación de librerías .......................................................................................................................... 68
Selección del tamaño de los fragmentos generados .......................................................................... 68
Preparación de muestras Haloplex ......................................................................................................... 74
Preparación de las muestras con SureselectQXT.................................................................................... 75
Preparación de un genoma completo. ................................................................................................... 77
Puesta a punto para la técnica de la PCR para la detección de los puntos de rotura de un CNV. ......... 77
Secuenciación ......................................................................................................................................... 81
Bioinformática ........................................................................................................................................... 86
Generación de muestra in silico.............................................................................................................. 86
Alineamiento ........................................................................................................................................... 86
Postprocesado ........................................................................................................................................ 89
Variant calling ......................................................................................................................................... 91
Métricas de calidad ................................................................................................................................. 93
Anotación de las variantes ...................................................................................................................... 94
Filtrado de Variantes ............................................................................................................................... 94
Detección de Variantes estructurales ..................................................................................................... 95
Por profundidad de cobertura ............................................................................................................ 96
Por distancia entre pares PEM ............................................................................................................ 96
Visualización de alineamientos ........................................................................................................... 97
Diseño de las regiones a estudiar ........................................................................................................... 97
Evaluar la implantación de la NGS en el estudio de cardiopatías congénitas humanas........................... 100
Comparación de métodos de enriquecimiento. ................................................................................... 100
Haloplex y SureselectXT .................................................................................................................... 100
Exoma vs panel personalizado. ......................................................................................................... 112
Comparación entre secuenciadores ................................................................................................. 115
Comparación de alineadores ............................................................................................................ 120
Comparación entre variants calling .................................................................................................. 121
Regiones con mala mapabilidad ....................................................................................................... 123
Regiones con baja profundidad ........................................................................................................ 126
2
Desarrollo de un flujo de trabajo para la implantación de la NGS en el diagnóstico de cardiopatías
congénitas ................................................................................................................................................. 128
Preparación de la muestra .................................................................................................................... 128
Secuenciación de la muestra ................................................................................................................ 129
Alineamiento contra la secuencia de referencia. ............................................................................. 130
Medida de contaminación de las muestras. ..................................................................................... 130
Genotipado mediante 4 variant calling............................................................................................. 131
Anotación de las variantes .................................................................................................................... 132
Detección de CNVs. ........................................................................................................................... 133
Deleción de gen completo SCN5A mediante genoma completo. ......................................................... 138
Puesta a punto de la técnica de la PCR para la detección de los puntos de rotura de un CNV............ 139
Validación de la aplicabilidad de la NGS para el diagnóstico de cardiopatías congénitas humanas. ... 141
Discusión ................................................................................................................................................... 143
Evaluar la implantación de la NGS para el diagnóstico de cardiopatías congénitas humanas ............. 144
Desarrollo de un flujo de trabajo para la implantación de la NGS en el diagnóstico de cardiopatías
congénitas ............................................................................................................................................. 154
Validación de la aplicabilidad de la NGS para el diagnóstico de cardiopatías congénitas humanas .... 160
Conclusiones ............................................................................................................................................. 161
Bibliografía ................................................................................................................................................ 165
ANEXO A ................................................................................................................................................ 174
Tabla de detección de variantes de la muestra in silico ....................................................................... 174
ANEXO B ................................................................................................................................................ 175
Métricas de cobertura de las muestras secuenciadas en el Hiscan...................................................... 175
ANEXO C ................................................................................................................................................ 176
Métricas de cobertura de la comparación entre XT y QXT ................................................................... 176
ANEXO D................................................................................................................................................ 177
Métricas de coberturas Nextseq y HIseq .............................................................................................. 177
ANEXO E ................................................................................................................................................ 179
Script para generar un genoma de referencia de las regiones de estudio ........................................... 179
ANEXO F ................................................................................................................................................ 185
Script para calcular el BAF..................................................................................................................... 185
ANEXO G ............................................................................................................................................... 186
3
Lista de genes estudiados ..................................................................................................................... 186
ANEXO H................................................................................................................................................ 194
Lista de variantes incluida en la validación por Sanger. ....................................................................... 194
Anexo I Publicaciones ............................................................................................................................... 217
Resumen
4
Resumen
Desde el año 2005, se ha venido desarrollando una nueva técnica de secuenciación denominada,
secuenciación de nueva generación (NGS). que permite secuenciar de forma rápida y económica
cualquier genoma.
Su aplicación en la práctica clínica necesita una extensa validación y puesta a punto de todo el
flujo de trabajo que conlleva utilizar estas nuevas tecnologías, a dos niveles:
Existen diferentes alternativas para lograr llegar al objetivo final de proporcionar un diagnóstico
rápido y preciso.
Con el objetivo final de validar un protocolo con alta reproducibilidad y sensibilidad para la
detección variantes genéticas implicadas en el diagnóstico de enfermedades cardiovasculares de
origen congénito.
5
Resumo
6
Resumo
Resumo
7
Resumo
Dada a importancia que está a adquirir a secuenciación de ácidos nucleicos, non só no ámbito do
diagnostico xenético, senón naquel da medicina en xeral.
Dende o ano 2005 veuse desenvolvendo una nova técnica de secuenciación denominada:
Secuencaición de nova xeración (NGS). Que permite secuenciar de forma rápida e económica
calquera xenoma
A súa aplicación na práctica clínica necesita dunha extensa validación e afinación de todo o fluxo
de traballo que acarrega utilizar estas novas tecnoloxías a dous niveis.
Existen diferentes alternativas para lograr acadar o obxetivo final de proporcionar un diagnose
rápida e precisa
Con o obxetivo final de validar un protocolo con alta reproducibilidade e sensibilidade para o
diagnóstico de enfermedades cardiovasculares de origen conxénito.
8
Abstract
9
Abstract
Abstract
10
Abstract
Due the actual importance of nucleic acids sequencing, not just in the field of genetic diagnosis, but also
on general medicine
Since 2005, a new sequencing technique has been developed, called Next Generation Sequencing
(NGS), wich allows a rapid and economical sequencing for any genome
Its application in clinical practice requires a wide validadtion and fine tuning of the entire workflow wich
involve the use of these new technologies at two levels:
There are different alternatives to archive the goal of providing a rapid and accurate diagnosis.
Witth the goal of validating a protocol with high reproductibility and accuracy for the deteccion of
11
Introducción
12
Introducción
Introducción
13
Introducción
Secuenciación
Una secuencia de ADN es una disposición u ordenamiento de las cuatro bases nitrogenadas que forman
una molécula de ácido desoxirribonucleico: Adenina (A), Guanina(G), Citosina (C) y Timina (T). Así pues,
se puede definir secuenciación como un conjunto de métodos y técnicas bioquímicas cuya finalidad es la
determinación de los nucleótidos: A, G, C y T, en una cadena de ácido desoxirribonucleico (ADN).
Normalmente, la secuencia de ADN constituye la información genética heredable, por lo que su
determinación resulta útil en el estudio de la investigación básica y aplicada, pero en los últimos tiempos
ha dado el salto al diagnóstico clínico.
Métodos históricos
El primer concepto de secuenciación tuvo lugar en 1949 cuando Sanger en sus estudios sobre la insulina,
denotó la importancia de la secuencia en macromoléculas biológicas (1), resumiendo sus hallazgos en el
trabajo que le valió el Premio Nobel en 1959: Examination of the sequences of the two chains reveals
neither evidence of periodicity of any kind, nor does there seem to be any basic principle which determines
the arrangement of the residues. (2).
En 1953, Watson y Crick descubrieron la doble hélice del ADN (3); sin embargo, transcurrieron 15 años
más hasta la primera determinación experimental de la secuenciación del ADN, este hecho fue debido a
distintos factores
● Las propiedades químicas de las distintas moléculas de ADN eran tan similares que era difícil
separarlas para poder trabajar con ellas.
● La longitud de la cadena de ADN de origen natural es mucho mayor que las de las proteínas,
la secuencia completa era inaccesible.
● Los 20 residuos de aminoácidos que se encontraron en las proteínas tienen propiedades
ampliamente variables, las cuales se había demostrado que eran útiles en la separación de
péptidos. La existencia de sólo cuatro bases en el ADN, suponía un problema mayor para
secuenciar el ADN en comparación a la secuenciación de proteínas.
● No se conocían ADNasas específicas, mientras que la secuenciación de las proteínas
dependía de proteasas capaces de escindirlos aminoácidos adyacentes.
Con el descubrimiento de las enzimas de restricción en 1970 de Hemophilus influenzae (4), (5) se obtuvo
un método para cortar las largas moléculas de ADN en pequeños fragmentos que podían ser separados
en función de su tamaño usando un gel agarosa mediante electroforesis, facilitando así su procesamiento.
14
Introducción
En 1975 Sanger desarrolla el método plus and minus para la secuenciación de ADN (6) , que consistía en
separar los productos sintetizados por la ADN polimerasa en función de su tamaño en un gel de
poliacrilamida. La síntesis del ADN mediante la extensión del cebador se llevó a cabo en dos reacciones
secuenciales. La primera era lenta y asincrónica resultando una población de productos desde uno a unos
pocos cientos de bases. El marcaje P32 era incorporado en este paso. Este producto era dividido en 8
alícuotas y usado como cebador en la segunda ronda de síntesis por la ADN polimerasa. En esta reacción,
la síntesis era terminada por la aportación de sólo uno de los cuatro nucleótidos trifosfato (reacción
“plus”) o bien tres de los cuatro (reacción minus). Las productos de esas 8 reacciones son entonces
analizados por una electroforesis y radiografiadas con rayos X, al revelar la película existen moléculas que
difieren en un simple nucleótido, de esta manera se secuenció el primer genoma completo del φX174 (7)
el cual se utiliza hoy en día como control de secuenciación en plataformas illumina.
En 1977 Maxan and Gilbert (8) publican un método para secuenciar ADN basado en la modificación
química del ADN y su posterior escisión en bases específicas . Para ello, usaban un gel de poliacrilamida
en el que se marcaba el límite de resolución de la técnica por la separación de los fragmentos generados.
La técnica consistía en romper estas moléculas marcadas con reacciones químicas específicas para cada
una de las cuatro bases. Cuatro alícuotas de la misma muestra se tratan bajo condiciones distintas,
posteriormente el tratamiento con piperidina rompe la molécula de ADN a nivel de la base modificada.
Los productos de estas cuatro reacciones se resuelven en función de su tamaño en geles de poliacrilamida
donde la secuencia puede leerse en base al patrón de bandas radiactivas obtenidas. Esta técnica permite
la lectura de unas 100 bases de secuencia. En resumen, el método requiere marcaje radiactivo en uno de
los extremos y la purificación del fragmento de ADN que se desea secuenciar. El tratamiento químico
genera rupturas en una pequeña proporción de uno o dos de los cuatro nucleótidos en cada una de las
cuatro reacciones; una reacción fragmentaba en ambas purinas dando preferencia a la Guanina (reacción
G >A) o a la Adenina (reacción A > G), otra actuaba contra las pirimidinas (C + T) y la última sólo actuaba
contra las Citosinas (C). De ese modo se genera una serie de fragmentos marcados a partir del final
marcado radiactivamente hasta el primer lugar de corte en cada molécula. Los fragmentos
posteriormente se separan por tamaño mediante electroforesis en gel de poliacrilamida, separando los
productos de las cuatro reacciones en cuatro carriles distintas, pero una al lado de la otra. Para visualizar
los fragmentos generados en cada reacción, se hace una autorradiografía del mismo, lo que proporciona
una imagen de una serie de bandas oscuras correspondientes a los fragmentos marcados con el
radioisótopo, a partir de las cuales se puede inferir la secuencia.
15
Introducción
En diciembre de 1977 se publica el método dideoxy desarrollado por Sanger (9) , este método consistía
en el uso de nucleótidos terminadores de cadena que eran análogos a los 4 dNTPs pero con una
modificación para que pudieran terminar la elongación de la cadena. La modificación consistía en la
ausencia de un grupo 3´-OH necesario para la formación del enlace fosfodiéster entre dos nucleótidos
consecutivos durante la elongación de la cadena de ADN.
El método clásico de terminación de la cadena o método de Sanger necesita una hebra molde de ADN de
cadena sencilla, un cebador de ADN, una ADN polimerasa con nucleótidos marcados radiactivamente o
mediante fluorescencia y nucleótidos modificados que terminan la elongación de la cadena de ADN. La
muestra de ADN se divide en cuatro reacciones de secuenciación separadas que contienen los cuatro
desoxinucleótidos estándar (dATP, dGTP, dCTP y dTTP) y una ADN polimerasa. En cada reacción se añade
solo uno de los cuatro dideoxinucleótidos (ddATP, ddGTP, ddCTP, o ddTTP), cuando se incorpora uno de
estos dideoxinucleótidos se termina la elongación de la cadena al carecer un grupo 3'-OH que se necesita
para la formación del enlace fosfodiéster entre dos nucleótidos durante la elongación de la cadena de
ADN, esta incorporación en la cadena naciente de ADN termina su extensión, lo que produce varios
fragmentos de ADN de longitud variable.
Los dideoxinucleótidos se añaden a concentraciones lo suficientemente bajas como para que produzcan
todas las posibilidades de fragmentos y al mismo tiempo sean suficientes para realizar la secuenciación.
Los fragmentos de ADN sintetizados y marcados de nuevo son desnaturalizados por calor y separados por
tamaño (con una resolución de un solo nucleótido) mediante electroforesis en gel de poliacrilamida-urea.
Cada una de las cuatro reacciones de síntesis se analiza en carriles individuales para cada nucleótido (A,
T, G y C) y se visualizan las bandas de ADN mediante autorradiografía o luz ultravioleta. El resultado se lee
de abajo arriba por peso molecular como se indica en la figura 1.
16
Introducción
marcaje del ADN con S35 que permitía bandas más nítidas que el marcaje con P32 debido a la menor
energía de las partículas beta emitidas.
Figure 1. Representación esquematica de la secuenciación de Sanger. Una banda oscura en un carril indica que el final de la
elongación de la cadena.
En 1986, en el laboratorio de Leroy Hood (14) en colaboración con Applied Biosystems, se publican los
resultados de la primera secuenciación automática. En este estudio se muestra como el resultado de la
secuenciación fue obtenido directamente por un ordenador sin necesidad de autorradiografiar el gel.
Para ello, elegidieron el método dideoxy, en el que los ddNTPs estaban marcados usando 4
electrofluoróforos diferentes. La diferencia con el método clásico era que se habían mezclado los 4
ddNTPs en una sola reacción y la electroforesis se realizaba en un gel con forma de tubo. La fluorescencia
desprendida por los fragmentos de ADN era captada por un detector óptico que era capaz de distinguir
los 4 dideoxinucleótidos en función del fluoróforo con el que estaban marcados. Los datos obtenidos por
el detector de fluorescencia eran almacenados en un ordenador. Al igual que en los métodos basados en
gel, la secuencia era deducida por el orden en cual los 4 diferentes ddNTPs pasaban por el detector.
Nuevas versiones de esta técnica empezaron a surgir, potenciando el empleo cada vez mayorde la
secuenciación automática.
En 1996, ABI introdujo el primer secuenciador de electroforesis capilar: el ABI Prism 310, presentando dos
años más tarde el ABI Prism 3700 con 96 capilares. Es en este punto, cuando por primera vez se considera
17
Introducción
realmente secuenciación automática ya que el gel había sido sustituido por un sistema de capilares y una
matriz polimérica. Las muestras para electroforesis eran cargadas directamente desde las placas,
eliminado este paso manual que era necesario en la anterior generación de secuenciadores.
Hasta 1995, solamente se habían secuenciado virus y genomas de organelas, per es en este año cuando
Craig Venter secuenció dos especies de bacterias: Haemophilus influenzae (15) y Mycoplasma genitalium
(16). La secuenciación de H. influenzae introdujo la fragmentación del genoma completo, método
utilizado para secuenciar genomas celulares de gran importancia como fueron el primer genoma eucariota
de la levadura [Link], de 12 Mb a finales de 1996 (17). El primer genoma animal fue el de C. elegans
de 97 Mb en 1998 (18) y en el año 2001 se publica el primer borrador del genoma humano (19), (20).
Revolucionando el diagnóstico genético humano.
Las tecnologías next generation sequencing incluyen una variedad de métodos que se pueden agrupar de
manera general en:
Cada tecnología utiliza protocolos específicos y la producción de los datos son diferentes, lo que
representa una serie de retos cuando se comparan las plataformas entre sí, en base a la calidad de los
datos y su coste. Los protocolos corrientes implican la fragmentación del ADN genómico inicial.
Hay que añadirle un adaptador universal a cada lado del fragmento generado, este, es utilizado cono diana
por los cebadores específicos en una reacción de amplificación. Quedando la molécula de ADN lista para
su secuenciación.
18
Introducción
• La PCR de emulsión.
• La amplificación en fase sólida.
En el año 2004, sale a la luz el primer ultrasecuenciador conocido como Roche 454 FLX, el cual utiliza una
tecnología de secuenciación alternativa, la pirosecuenciación. Este método fue desarrollado por Mostafa
Ronaghi y Pal Nyrén en 1996 (21). Está basada en la secuenciación por síntesis, acoplando la síntesis de
ADN a una reacción quimioluminiscente, lo que permite una rápida determinación de secuencias en
tiempo real. La técnica utiliza cuatro reacciones enzimáticas que tienen lugar en un único tubo en el que
se monitoriza la síntesis de la cadena complementaria de ADN, usando como molde ADN de cadena
simple. Los nucleótidos son añadidos de forma consecutiva a la reacción y en caso de incorporación, se
libera pirofosfato inorgánico (PPi), éste desencadena una serie de reacciones que resultan en la
producción de luz, de forma proporcional a la cantidad de DNA y el número de nucleótidos incorporados.
La generación de luz se detecta en forma de pico y se graba gracias a un sistema de detección, reflejando
la actividad de los enzimas en la reacción.
Figura 1 (1). una molécula de ssDNA amplificado por PCR híbrida con el cebador de secuenciación y se incuba con los enzimas
DNA polimerasa, ATP sulfurilasa, luciferasa y apirasa, más los sustratos adenosina-5’-fosfosulfato (APS) y luciferina. (2) La
19
Introducción
adición de uno de los 4 dNTPs inicia el segundo paso, en el que la DNA polimerasa cataliza la incorporación del dNTP al molde si
es complementario. (3) La ATP-sulfurilasa convierte cuantitativamente el PPi en ATP en presencia de APS. El ATP generado
permite la conversión de la luciferina en oxiluciferina por acción de la luciferasa, generando luz visible en cantidades
proporcionales a la cantidad de ATP presente. La luz emitida es detectada por una cámara CCD y puede ser analizada por el
programa. Cada señal luminosa es proporcional a la cantidad de nucleótidos incorporados. (4)Para continuar con la
secuenciación, es esencial la degradación de aquellos dNTPs que no han sido incorporados. La apirasa es el enzima encargado
de ello. [Link] dNTPs pueden ser añadidos para iniciar un nuevo ciclo.
Roche 454
En la aproximación de Roche 454 FLX, (22) los fragmentos generados del ADN son mezclados con perlas
de agarosa, las cuales tienen oligonucleótidos complementarios al adaptador específico del 454 que llevan
los fragmentos de ADN generados. Cada perla se asocia con un único fragmento, cada uno de estos
complejos perla/fragmento es aislado en una micela de agua y aceite que contienen los reactivos para la
PCR, con la ayuda de un termociclador, tiene lugar la PCR de emulsión en la que cada micela produce
aproximadamente un millón de copias de cada fragmento de ADN anclado en la superficie de las perlas.
Estas moléculas amplificadas individualmente son luego secuenciadas en masa. Para ello, las perlas se
disponen sobre una placa picotiter que contiene una única perla en cada uno de varios cientos de miles
de pocillos individuales, que proporciona un lugar fijo en el que cada reacción de secuenciación se pueda
controlar. A continuación, se le añaden unas esferas liofilizadas que contienen las polimerasas y se
distribuyen en capas dentro de la placa junto con otras esferas enzimáticas que contienen luciferasa y
sulfurilasa. Esta capa de esferas enzimáticas ayuda a que las perlas con ADN permanezcan en el interior
del pocillo durante la reacción de secuenciación. Una vez que la picotiter está preparada, se coloca en
frente de la cámara CCD (Charge-coupled Device) que captará la luz emitida por cada perla durante el
proceso de secuenciación, el cual tiene lugar gracias a la adición de los reactivos de secuenciación que
fluyen a través de los pocillos de la placa. Durante el flujo de nucleótidos, cada una de los cientos de miles
de perlas con millones de copias de ADN se secuencia en paralelo, cuando un nucleótido es
complementario a la cadena molde, la polimerasa extiende la hebra existente de ADN mediante la adición
de nucleótidos. Esta adición resulta en una reacción que genera una señal de luz que es recogida por la
cámara CCD del equipo. La intensidad de la señal es proporcional al número de nucleótidos incorporados.
Como se puede ver en la figura 3, los cuatro primeros nucleótidos (TCGA) situados en el adaptador son
utilizados para la construcción de la librería y permiten al software del 454 calibrar la luz emitida por la
incorporación de cada nucleótido de manera individual. En la secuencia TTCTGCGAA, se observa que la
intensidad asociada a las primera T es el doble que a la tercera base T, esto indica que se han añadido dos
T al mismo tiempo, lo mismo ocurre con las dos adeninas del final de la secuencia.
20
Introducción
La mayor limitación de la tecnología 454 es la falta de detección de homopolímeros debido a que no existe
ningún elemento preventivo que evite las múltiples incorporaciones consecutivas en el mismo ciclo. La
longitud de todos los homopolímeros se infiere por la intensidad de la señal, lo que le hace propenso a
una tasa de error mayor que la discriminación de incorporaciones contra no incorporaciones. Como
consecuencia, el tipo de error dominante en esta plataforma es inserción–deleción. (23)
En comparación con otras plataformas de nueva generación, la ventaja clave de la plataforma 454 es de
longitud de lectura, aunque el coste por base de secuenciación de esta plataforma 454 es mucho mayor
que el de otras plataformas. Sin embargo, es el método más utilizado para ciertas aplicaciones en el que
las longitudes de lectura son críticas, como son, el ensamblaje de novo y la metagenómica.
Figura 2. Esquema de las intensidades de las bases incorporadas en el sistema de Roche 454, a intensidad
más alta indica la adición de dos o más nucleótidos iguales añadidos al mismo tiempo.
ABI SOLiD
21
Introducción
Al igual que en la plataforma de Roche 454, la amplificación de los fragmentos se realiza por PCR de
emulsión en unas micelas de agua-aceite que contienen todo lo necesario para realizar la amplificación y
una perla magnética de 1 µm que lleva unida el adaptador P1 a su superficie. Los cebadores hibridan con
el adaptador P1, antes de la emulsión se diluye el producto para maximizar el número de microrreactores
que contienen una única molécula de ADN y una única perla. Cuando se crea la emulsión, se realiza la
amplificación clonal de la única molécula de ADN. Las emulsiones se rompen para liberar las perlas
magnéticas de los microrreactores y se purifica mediante diferentes lavados con sus respectivos
tampones. La secuenciación tiene lugar cuando un cebador universal complementario a la secuencia del
adaptador P1 se ancla y permite las posteriores reacciones de ligación (Figura 4).
La plataforma SOLid utiliza un sistema novedoso basado en la codificación de dos bases. Como resultado
se obtiene una secuencia de nucleótidos interpretada a partir de una secuencia de colores mediante el
uso de las dos bases de codificación anteriormente mencionadas. Cada uno de los cuatro posibles
fluoróforos representa cuatro posibles combinaciones de dinucleótidos.
Durante la ligación cada base es interrogada dos veces, el color desprendido en cada ciclo de ligación es
almacenado digitalmente. El beneficio de la codificación de dos bases de colores, es que el diseño único
de la matriz permite que los errores generados por la medición sean fácilmente distinguibles de los
verdaderos polimorfismos. Una medición errónea se produce cuando un color es incorrecto, y por lo tanto
un espacio de color único que discrepa con el espacio de color de la secuencia de referencia. Un verdadero
polimorfismo requiere que dos colores adyacentes cambien al mismo tiempo. Esto permite una fácil
discriminación entre las medidas erróneas y los polimorfismos. Esta característica confiere una clara
ventaja sobre la codificación de una sola base usada por los sistemas basados en ADN polimerasas, en las
que no es posible distinguir entre una medida errónea y un polimorfismo, lo que hace que requiera de
una mayor profundidad de cobertura.
22
Introducción
Figura 3. A) un cebador universal, una Ligasa y una mezcla de sondas octaméricas fluorescentes que
contienen todas las posibles combinaciones de A, C, G, T, interrogan la secuencia del molde desconocido.
(B) Sólo la sonda homóloga a las primeras 5 bases de la secuencia desconocida estará en la posición
apropiada para ser ligado al cebador universal de secuenciación. Las sondas que hibridan en otras regiones
de la secuencia de ADN no funcionan como sustratos para la ligasa, porque la enzima sólo puede
establecer un enlace fosfodiéster entre el fosfato 5´ de un oligonucleótido y el 3´hidroxilo del segundo
oligonucleótido. El extremo 3´de la sonda que interroga sólo ligara con el extremo 5´del cebador universal.
Las sondas están marcadas con cuatro diferentes fluoróforos, cada uno asociado dentro de la sonda con
un conjunto distinto de cuatro combinaciones de dinucleótidos en las posiciones 1 y 2. (C) ,la fluorescencia
emitida de manera específica en función del fluoróforo durante la reacción será captada por el sensor.. La
sonda y los nucleótidos del 6 al 8 son liberados antes de la siguiente ronda de ligación, esta eliminación
ese produce mediante escisión química del enlace modificado entre los nucleótidos 5 y 6 de la sonda.
23
Introducción
Es un método de secuenciación por síntesis, durante el cual una hebra complementaria se construye sobre
la base de la secuencia molde. En la naturaleza, la incorporación de un desoxirribonucleótido trifosfato
(dNTP) en una cadena de ADN en crecimiento implica la formación de un enlace covalente y la liberación
de pirofosfato y una carga positiva de iones hidrógeno. Un dNTP sólo será incorporado si es
complementario a un nucleótido no apareado de la cadena molde. La secuenciación mediante
semiconductores aprovecha estos hechos ya que si se libera un ión hidrógeno es porque se ha producido
una reacción de un dNTP.
La reacción tiene lugar en micropocillos dentro de un chip semiconductor, cada micropocillo contiene
una sola molécula de ADN molde y una polimerasa. Estos pocillos son secuencialmente inundados con
dNTP´s sin modificar. Si un dNTP introducido es complementario al siguiente nucleótido desapareado en
la cadena molde, éste es incorporado a la cadena complementaria por la ADN polimerasa. El ion de
hidrógeno que se libera en la reacción cambia el pH de la solución, y es detectada por un ISFET (transistor
de efecto campo sensible a iones). Las moléculas de dNTP no adheridas se eliminan antes del siguiente
ciclo.
Debajo de la capa de micropocillos hay una capa susceptible a iones, por debajo de la cual se sitúa el
sensor de iones ISFET. Todas las capas están contenidas dentro de un chip semiconductor CMOS
(Semiconductor complementario de óxido metálico), similar a los usados en la industria electrónica. Cada
chip contiene una matriz de micropocillos con sus correspondientes detectores ISFET. Cada ion hidrógeno
liberado dispara el sensor ISFET. La serie de impulsos eléctricos transmitidos desde el chip a un ordenador
se traduce en una secuencia de ADN, sin requerir conversión de señal intermedia, ya que los eventos de
incorporación de nucleótidos se miden directamente, evitando así el uso de nucleótidos marcados y las
mediciones ópticas. El procesamiento de señales y la obtención de la secuencia de ADN puede llevarse a
cabo con el software apropiado para ello.
24
Introducción
Esta tecnología difiere de otras en que no se usan nucleótidos modificados ni procesos ópticos, con lo que
los costes de secuenciación se abaratan drásticamente. La tecnología fue patentada por ADN Electronics
Ltd, desarrollado por Ion Torrent Systems Inc. Ion Torrent ha comercializado su máquina como un
secuenciador rápido, compacto y económico.
Figura 4. Se muestra un esquema del funcionamiento del sistema donde cuando se incorpora un nucleótido se libera un hidrógeno.
Si el nucleótido no es incorporado no se libera el hidrogeno, en el caso de que se incorporen dos bases iguales se liberan dos
Los principales beneficios de la secuenciación por semiconductores son la alta velocidad de secuenciación
y el bajo coste. Mientras que la limitación más importante, al igual que ocurre con la pirosecuenciación,
la encontramos en zonas donde se secuencian homopolímeros, donde resulta difícil diferenciar
longitudes de 7 ó 8 unidades del mismo nucleótido.
Pacific Biosciences
En 2009 se presenta la primera secuenciación en tiempo real procedente de una molécula única de ADN.
(26). La tecnología SMRT (single molecule real-time), aprovecha el proceso natural de la replicación del
25
Introducción
ADN. En esta técnica, encontramos una sucesión de pocillos sobre una película de aluminio que a su vez,
está depositada sobre un sustrato de vidrio.
Cada hueco o pocillo recibe el nombre de ZMW (zero-mode waveguide) de sus siglas en inglés. El volumen
de este pocillo se mide en escala de zeptolitros. En el interior de cada ZMW hay una ADN polimerasa junto
con la molécula molde. La ADN polimerasa se encuentra unida al sustrato de vidrio mediante una
interacción mediada por proteínas. A su vez, al ADN utilizado como molde previamente se le han unido
los adaptadores específicos para la secuenciación. La característica principal de estos adaptadores es su
forma de burbuja y son añadidos al ADN molde resultando éste en una molécula circular.
Un aspecto clave de este tipo de secuenciación son los nucleótidos marcados, los cuales presentan la
fluorescencia unida a la cadena de fosfato del nucleótido, en lugar de a la base., Típicamente, una ADN
polimerasa puede incorporar unos pocos nucleótidos marcados antes de que deje de polimerizar, los
nucleótidos utilizados en este sistema. Como un paso natural en el proceso de síntesis, la cadena de
fosfato se escinde, por acción del ADN polimerasa cuando es incorporado a la cadena creciente, tras esta
escisión el fluoróforo difunde rápidamente, dejando un fragmento de ADN completamente natural.
Cuando la reacción de secuencia comienza, la polimerasa incorpora nucleótidos en los que cada base lleva
un fluoróforo distinto, durante la iniciación de la incorporación de bases, el nucleótido fluorescente es
capturado por el sitio activo de la polimerasa cerca del fondo de la ZMW, en este fondo, existe una cámara
de alta resolución que graba la fluorescencia del nucleótido recién incorporado. Durante la unión, la pareja
fosfato y fluoróforo son separados del nucleótido, lo que hace que disminuya la señal fluorescente. La
polimerasa sintetiza una copia del ADN molde teniendo lugar una sucesión de incorporación de
nucleótidos que son grabados en tiempo real. La polimerasa tiene la capacidad de desplazar la cadena de
ADN mediante RCA (Rolling circle amplification), esta capacidad unida a las librerías circularizadas en las
que los tamaños de insertos sean relativamente pequeños, la secuenciación puede realizarse primero en
un sentido y después en el antisentido, y en repetidas ocasiones,lo que hace que mejore la precisión de
la identificación de bases, ya que la secuenciación en tiempo real tiene altas tasas de error. En tamaños
de inserto grandes la precisión disminuye ya que la secuencia es leída menos veces.
La principal ventaja de esta tecnología es la obtención de lecturas largas, las cuales son ideales para el
ensamblaje de genomas aún por descubrir. Al tratarse de secuenciación en tiempo real, tiene aplicaciones
directas importantes como el estudio de modificaciones de bases como pueden ser las metilaciones,
basándose en las diferentes cinéticas de la polimerasa al incluir una base modificada.
26
Introducción
Oxford nanopore
La primera secuenciación mediante un canal de membrana fue descrita en 1996 (27)
La técnica del nanoporo no modifica el DNA, ni lo copia, ni utiliza marcadores fluorescentes. Esta técnica
permite diferenciar los nucleótidos del DNA haciendo atravesar las moléculas de ácidos nucléicos por unos
diminutos poros. Cuando los nucleótidos atraviesan el poro, se produce un cambio de carga eléctrica,
específica para cada tipo de base nucleotídica, que pueden ser detectados, registrados y almacenados
para posteriormente presentarse en forma de secuencia de nucleótidos.
Esta tecnología fue lanzada al público general en mayo del 2015 y requiere de dos proteínas. En un primer
paso, una exonucleasa se une a la doble cadena de ADN e introduce primeramente una cadena de ADN
en el poro, el cual está formado por la proteína alfa hemolisina y una proteína heptamérica con un
diámetro de 1nm. A su vez, el poro presenta en su interior una ciclodextrina que actúa como sitio de
unión para los nucleótidos.
Durante la fase de unión, el paso por el nanoporo se interrumpe creando una señal característica para
cada nucleótido. El rastro de corriente eléctrica proporciona una grabación de la secuencia de nucleótidos
a medida que estos van pasando a través del nanoporo.
La principal ventaja que presenta este sistema es que ofrece una solución a las limitaciones de la
secuenciación de lecturas cortas, permitiendo la secuenciación de moléculas de ADN largas en minutos
sin la necesidad de modificar o preparar las muestras.
Con los avances en microscopía se pueden crear imágenes con un límite de resolución de 0,1 nanómetros,
utilizando esta tecnología ZS Genetics ha conseguido secuenciar largas moléculas de ADN. Todavía no se
ha lanzado el producto comercialmente.
El ADN normal, no es visible con un microscopio electrónico debido a que solamente presenta elementos
con una masa atómica ligera en su composición, para ello utilizan unos dNTPS con átomos con una mayor
masa atómica. El ADN de doble cadena debe ser desnaturalizado para convertirlo en ADN de cadena
simple. Posteriormente tiene lugar la reacción de polimerización, no amplificación, en la cual los dNTPS
usados tienen una masa atómica alta y lo suficientemente distinta como para poder diferenciar cada
nucleótido en una imagen de microscopía electrónica. Las cadenas de ADN son alineadas en un sustrato
27
Introducción
mediante DNA combing con el fin de que el microscopio electrónico pueda diferenciar cada base. Las
cadenas de ADN son bombardeadas con una fuente de electrones obteniéndose una imagen de claros y
oscuros que posteriormente son descifrados por el software informático y traducidos en una secuencia
de ADN.
Secuenciación Illumina
El proceso descrito a continuación es el típico de uno de sus modelos, el hiseq y con secuenciación tipo
paired end, además requiere de un cBot para amplificar las librerías generadas. Las diferentes librerías
son añadidas a cada carril de la célula de flujo para permitir secuenciaciones independientes. La
separación de esta celda en carriles y su sellado minimizan el riesgo de contaminación y el manejo de los
errores. Los grupos clonales son generados en una estación de cluster de Illumina o en un cBot, este
proceso no requiere habitaciones limpias, robótica o hardware adicional.
Esta amplificación se lleva a cabo mediante una PCR mediada por puente, la cual tiene lugar en un soporte
sólido con las librerías inmovilizadas mediante puentes de hidrógeno y en condiciones isotérmicas. En esa
matriz sólida, es donde tienen lugar los ciclos de desnaturalización, anillamiento, extensión y lavado.
(figura 6)
La molécula de ADN anclada actúa como molde para la polimerasa que realiza la etapa de extensión, la
nueva molécula creada es complementaria y se encuentra unida a la célula de flujo mediante un enlace
covalente, es esta, la que forma el puente con otro punto cercano de la célula de flujo mediante un enlace
por puentes de hidrógeno en un extremo mientras conserva su enlace covalente en el otro. En ese punto
28
Introducción
ocurre otra extensión dando como resultado una molécula igual a la original, pero ahora está unida por
un extremo mediante puentes de hidrógeno y por el otro mediante un enlace covalente.
La posterior desnaturalización tiene como objetivo eliminar las uniones débiles (puentes de hidrógeno)
obteniendo en este caso, dos moléculas complementarias separadas en lugar de una inicial. Repitiendo
los ciclos se generan grupos de moléculas o clusters. El ciclo acaba con la liberación de la cadena
complementaria para tener solamente un grupo de moléculas de ADN de simple cadena, todas ellas
iguales en cada cluster mediante el proceso que Illumina llama linealización del extremo P5.
El extremo 3´OH libre es bloqueado para prevenir uniones no específicas, los cebadores de secuenciación
son hibridados a los extremos del ADN molde, se transfiere la célula de flujo que contiene los clusters de
clonación al secuenciador.
Figura 5 La librería de ADN es diluida a pM, desnaturalizada e introducida en los 8 carriles de la célula de flujo, las secuencias de
ADN son capturadas por sus extremos en donde llevan los adaptadores unidos, estos adaptadores se unen covalentemente a los
adaptadores anclados en la superficie de la célula de flujo. Los ADN unidos son extendidos desde el extremo 3´ y permanecen
unidos covalentemente con el oligonucleótido de la célula de flujo, se produce desnaturalización para obtener ADN de simple
cadena, el otro extremo libre híbrida con un oligonucleótido adyacente de la célula de flujo formando puentes en forma de U
invertida. Esta molécula de ADN que ha formado el puente es copiada creando de esta manera ADN de doble cadena, ambas
cadenas están unidas entre sí por enlaces de hidrógeno y con la célula de flujo por enlaces covalentes. Posteriormente vuelve a
ser desnaturalizado, el extremo libre de esas dos moléculas hibrida de nuevo con los oligonucleótidos unidos a la célula de flujo,
se forman nuevos puentes y se vuelven a extender. Este proceso de amplificación por puentes isotérmicos es repetido 35 veces
para crear un cluster de aproximadamente 2000 moléculas, las cadenas de sentido negativas son liberadas mediante un proceso
de escisión específica de los oligonucleótidos de la célula de flujo. [Link]
courses/[Link]
La terminación de la síntesis del ADN después de la adición de un único nucleótido illumina utiliza unos
terminadores reversibles 3´-O-azidomethyl 2´deoxynucleosido trifosfato (A, C, T, G), cada uno marcado
29
Introducción
con un fluoróforo diferente (28). Para la incorporación de estos nucleótidos la polimerasa debe estar
modificada en su centro activo. Después de la incorporación del nucleótido, los restantes que no han sido
incorporados son lavados. Es en este momento cuando tiene lugar la captura de la imagen mediante la
excitación de los fluoróforos por dos tipos de láser. El láser verde identifica la incorporación de las bases
G y T, mientras que el láser rojo identifica la incorporación de las bases A y C, también se utilizan dos
diferentes filtros para distinguir entre (G/T) y (A/C), la señal llega a la cámara CCD la cual determina cual
es el nucleótido incorporado. Se obtiene una foto de múltiples clústeres a la vez, cada cluster es
identificado por una posición X-Y. Después le sigue el paso de la escisión, el cual elimina el grupo inhibidor
y el fluoróforo. Antes de empezar un nuevo ciclo de incorporación de nucleótidos tiene lugar un lavado
adicional.
La extensión sincrónica nucleótido a nucleótido hace que la secuenciación de homopolímeros sea posible,
sin embargo, un posible error en la incorporación del nucleótido durante el ciclo de secuencia crea un
efecto de desfase, algunas moléculas de ese clúster van más adelantadas deteriorando las señales a través
de los ciclos, es por este proceso que Illumina sólo puede secuenciar moléculas pequeñas. El gran éxito
de secuenciación de la plataforma Illumina radica en su habilidad para realizar billones de reacciones a la
vez, teniendo lugar todas ellas en la célula de flujo. Normalmente, estos secuenciadores cuentan con
hasta ocho cámaras distintas que reciben el nombre de líneas, cada línea es independiente pudiéndose
secuenciar mezclas de librerías distintas en cada una de ellas sin que exista contaminación entre esas
líneas.
Debido a que el dispositivo de captura de imagen no puede capturar todos los clústeres presentes en una
línea en una simple imagen, se obtienen varias imágenes de múltiples localizaciones de una línea, a estas
localizaciones se les llama tiles (figura7). Cada imagen puede tener cientos de miles de clústeres, cada
cluster está formado por una molécula que consta de mil copias. La función de estas mil copias de la
misma molécula es incrementar el nivel de intensidad de la señal emitida, sería imposible detectar la señal
proveniente de una sola secuencia de ADN molde. Sin embargo, la distancia física de las copias de ADN
que forman un cluster está por debajo del límite de difracción, permitiendo que la imagen a percibir se
corresponda con un solo punto.
30
Introducción
Figura 6 Se muestra una célula de flujo de ocho carriles en el que el primer zoon muestra una baldosa (tile) formada por miles de
clusteres, en el que cada cluster está formado por la amplificación clonal de una molecula inicial de ADN [122]
Los datos obtenidos por esta secuenciación es una serie de imágenes obtenidas de la emisión de millones
de clústeres en una combinación específica de línea, tile, ciclo y fluoróforo. Estas imágenes sirven de
entrada al algoritmo de base calling.
Una vez que se obtienen las imágenes, es necesario discernir en cada posición que base se corresponde
con cada imagen y con qué calidad. Para ello Illumina utiliza un algoritmo en el que es prioritario pasar la
imagen a una intensidad utilizando el programa de multiplexing Firecrest, que identifica cada posición del
cluster y extrae la intensidad mediante el filtrado de imágenes, realza los clusters, elimina el ruido de
fondo y detecta clústeres basados en características morfológicas en la imagen. Firecrest también ajusta
la escala y el registro de una imagen. Actualmente, se realiza en tiempo real con el proceso de
secuenciación en un servidor dedicado, el cual crea un archivo de intensidades que contienen la posición
de cada cluster en línea, tile, X e Y coordenadas junto con una matriz de cuatro intensidades, una por cada
base en cada ciclo. Los valores de intensidades muestran una correlación linear con los datos obtenidos
con las imágenes generadas.
Por otra parte, se utiliza un módulo llamado Bustard para el base calling, que descodifica la señal y aplica
una serie de correcciones para el cross-talk, phasing y prephasing.
31
Introducción
Las plataformas Illumina poseen dos láseres y cuatro filtros para detectar los cuatro fluoróforos distintos
anclados a cada nucleótido. Las frecuencias de emisión de estos cuatro fluoróforos se superponen, por lo
que las cuatro imágenes generadas no son independientes, Bustard realiza una deconvolución mediante
una matriz de frecuencias.
En cuanto al fenómeno Phasing/Prephasing, cabe destacar que dependiendo de la eficacia de los fluidos
y de la reacción de secuenciación, un número pequeño de moléculas de cada cluster pueden adelantarse
al resto (prephasing) o retrasarse del resto (phasing) durante la incorporación de nucleótidos en cada
ciclo. Este efecto es mitigado aplicando correcciones basadas en la misma frecuencia de bases durante la
fase de base calling.
Otros problemas que pueden aparecer en este tipo de secuenciación son aquellos relacionados con el
descoloramiento que sufre el fluoróforo, debido a que el proceso de secuenciación puede durar días y el
ADN es lavado en exceso. La presencia del láser puede crear especies reactivas y al mismo tiempo, el ADN
está sometido a condiciones ambientales adversas. Es por todo ello que la intensidad de la señal
fluorescente disminuye con el tiempo. La escisión insuficiente del fluoróforo puede crear una distorsión
residual; diferentes tipos de fluoróforos pueden tener diferentes probabilidades de escisión y si un
fluoróforo tiene una probabilidad más alta de una mala escisión que los otros puede crear un sesgo de un
nucleótido determinado, que aumentará con los ciclos de secuenciación.
Sistemas de enriquecimiento
Debido a que no todos los secuenciadores tienen la capacidad para secuenciar un genoma humano
completo, se han creado diferentes sistemas de enriquecimiento que permiten al usuario seleccionar
zonas específicas del ADN que son las que después se secuenciarán.
Con los sistemas de enriquecimiento de las zonas de interés, los costes y los esfuerzos se reducen
significativamente en comparación con la secuenciación del genoma completo. Existen diversos sistemas
de enriquecimiento, cada uno caracterizado por unas cuestiones técnicas y de facilidad de uso propias.
32
Introducción
Los sistemas de enriquecimiento se pueden clasificar según la naturaleza de la reacción principal (29)
(figura 8)
● Hibridación: cadenas cortas de ácidos nucleicos complementarias a las zonas de interés hibridan
con los fragmentos de ADN preparados mediante perdigonada,. Se puede llevar a cabo tanto en
solución líquida como en soporte sólido. De esta manera se puede capturar y aislar físicamente
las secuencias de interés.
Es necesario una correcta elección del sistema de enriquecimiento debido a las diferentes características
de los mismos, así pues, si se necesita una gran cantidad de megabases para analizar por ejemplo un
exoma, la aproximación de captura por hibridación sería la mejor opción, aun cuando existan regiones
con una captura no óptima. Sin embargo, cuando se quiere estudiar una región pequeña en muchas
muestras, el enriquecimiento basado en la PCR puede ser la mejor opción para el análisis de variantes
genéticas en la región de interés.
Algunos de los principales problemas que pueden aparecer asociados al uso de las diferentes técnicas de
enriquecimiento son:
33
Introducción
● Los elementos repetidos, tanto los intercalados como las repeticiones en tándem, así como los
pseudogenes localizados en las cercanías de la región de interés. La exclusión de los elementos
repetitivos enmascarados de la región de interés es una forma eficiente de reducir los productos
no deseados.
Figura 7. Métodos usados en el enriquecimiento de regiones de interés según el tamaño de la región enriquecida, 1
Enriquecimiento basado en hibridación por captura, puede ser en soporte solido (a) como en solución (b). Una librería
fragmentada por perdigonada es hibridada contra unas sondas homologas a las secuencias de interés, posteriormente a la
hibridación las regiones no homologas a la zona de interés son descartadas mediante lavados con diferentes reactivos. 2
Enriquecimiento mediante MIPs compuesta por una molécula universal (azul) flanqueada por unas regiones diana especificas,
la amplificación tiene lugar cuando se circulariza la mólecula y se cierran el circulo mediante una ligasa, los clásicos MIPs
hibridan contra ADN fragmentado mecánicamente (a) mientras que otras pueden estar adaptadas a un coctel de enzimas de
restricción en el que las MIPs deben ser adaptadas al patrón de restricción enzimática (b).3 Enriquecimiento mediante PCR,
típicamente un fragmento por reacción (a) Multiplex PCR (b) o PCR basada en microgotas (c) (modificado de Mertes et al.)
34
Introducción
las librerías ya que los primers de secuenciación son añadidos a la sonda de circularización, lo que
elimina la necesidad de más pasos para la preparación de las librerías.
Entre las opciones para preparar una librería mediante hibridación existen dos estrategias distintas:
La principal ventaja de las librerías pre-captura es que se reduce el tiempo de procesado y los costes de
los reactivos. Como desventaja, aparece una disminución de la eficiencia de captura (32),(33). Esta
disminución puede ser compensada aumentando la cantidad de datos generados, pero siempre hay que
tener en cuenta que en este tipo de estrategias alguna muestra puede no funcionar correctamente dando
resultados inferiores a los esperados, siendo necesaria su repetición.
Por otro lado, las estrategias post-captura en la que cada muestra se trata individualmente hasta su
entrada en el secuenciador, tienen el inconveniente de que se requiere un mayor tiempo de procesado
para cada muestra. La principal ventaja radica en que la eficiencia de la captura es superior. Otra
desventaja importante de las estrategias pre-captura, es que después de la captura se realiza una PCR
que puede formar lo que se denomina jumping PCR, causando cierta ambigüedad en las lecturas
generadas para cada muestra, esto ocurre en los últimos ciclos de la PCR cuando el ADN molde empieza
a funcionar como cebador en la reacción de amplificación, se ha calculado que este fenómeno ocurre con
una incidencia del 0,4% (34).
Bioinformática
Cuando en 1953 Watson y Crick propusieron el modelo de la doble hélice para explicar la estructura del
ADN, no imaginaron el gran volumen de información que de forma exponencial se generaría a partir de
ese momento (figura 9).
35
Introducción
científicos a combinar las estrategias de la biología molecular, las matemáticas y la informática, para
enfrentar con éxito el desafío que ello representaba. Y en este punto aparecen la bioinformática y la
biología computacional como disciplinas íntimamente relacionadas, donde la primera, de acuerdo con la
definición de la NCBI (National Center for Biotechnology Information de los Estados Unidos de América),
busca y utiliza patrones y estructuras inherentes en datos biológicos como secuencias génicas, así como
el desarrollo de nuevas metodologías para acceso y búsquedas en bases de datos, mientras que la segunda
se refiere a la simulación física y matemática de los procesos biológicos (35)
La difusión de las nuevas técnicas para secuenciar ADN proteínas, así como el volumen cada vez mayor
de secuencias almacenadas en los bancos de datos, hicieron necesaria la creación de algoritmos a fin de
catalogar y comparar secuencias, en los que se reconoce como pionera a Margaret Oakley Dayhoff (1925-
1983). La doctora Dayhoff desarrolló métodos computacionales que le permitieron comparar secuencias
proteicas y a partir de los alineamientos entre ellas, investigar las relaciones y por tanto la historia
evolutiva entre los diferentes reinos, phyla y taxa biológicos (36)
En 1980, la doctora Dayhoff crea la primera base de datos computarizada, con secuencias de ácidos
nucleicos y de proteínas, en un ordenador personal al que los usuarios externos podían conectarse por
vía telefónica. Para 1983 la Protein Sequence Database (PSD) era la base de datos más grande del mundo,
con más de 2,000,000 de nucleótidos secuenciados, con sus respectivas referencias y anotaciones. Sin
embargo, este avance no hubiera sido posible sin la llegada de Internet. La red proveyó las facilidades de
acceso para los usuarios, así como también para el desarrollo del software necesario en el manejo y el
análisis de inmensurables cantidades de datos.
36
Introducción
Sin embargo, los métodos de alineamiento global disponibles son poco adecuados para alinear genomas
completos por dos motivos. El primer inconveniente es el elevado coste temporal de estos algoritmos,
aproximadamente cuadrático con la longitud de las secuencias, haciendo, por tanto, inabordable el
alineamiento de miles de secuencias en un tiempo razonable. En segundo lugar, a diferencia de las
secuencias de proteínas, las secuencias de ADN de organismos relacionados suelen poseer pocas
similitudes (normalmente concentradas en una región pequeña) siendo el alineamiento global menos útil
en estas situaciones que otros tipos de alineamiento.
La similitud entre dos secuencias evalúa el parecido entre éstas, recompensando a nivel estadístico las
coincidencias (y en menor medida las sustituciones) y penalizando las inserciones/deleciones. De esta
manera un alineamiento óptimo permite identificar la máxima similitud posible entre dos secuencias.
Dadas dos secuencias, el alineamiento local busca encontrar todos aquellos pares de sub-secuencias que
posean un valor de similitud por encima de un determinado umbral. En contraste al global, el alineamiento
local es una técnica útil cuando se pretende alinear secuencias que difieren claramente en tamaño y
37
Introducción
contenido, pero que son tentativas de poseer pequeños segmentos o regiones con un alto grado de
similitud. Este tipo de alineamiento es, por tanto, idóneo cuando se pretende encontrar pares de genes
(regiones de una secuencia) o elementos evolutivos entre dos genomas.
El algoritmo Smith-Waterman propuesto por primera vez en 1981 por Temple F. Smith y Michael S.
Waterman (38), es una variante del algoritmo Needleman-Wunsch para el caso del alineamiento local de
secuencias. Al igual que el algoritmo en el que está inspirado, Smith-Waterman hace uso de un esquema
de programación dinámica, garantizando, de esta manera, el descubrimiento del alineamiento local
óptimo (dependiente del sistema de puntuación que esté siendo utilizado).
BLAST o Basic Local Alignment Search Tool es posiblemente la herramienta bioinformática más popular.
El programa fue creado por Eugene Myers, Stephen Altschul, Warren Gish, David J. Lipman y Webb Miller
en el NCBI (National Center for Biotechnology Information) y publicado en 1990 (39), convirtiéndose en
uno de los artículos más citados de la década de los 90, cuenta con más 32.000 referencias. La
característica que distingue a BLAST de herramientas más tradicionales es que usando el algoritmo Smith-
Waterman, tiene un mayor énfasis en reducir el tiempo necesario para realizar el alineamiento local, a
cambio de sacrificar la sensibilidad. Dicha eficiencia temporal se logra gracias al uso de un algoritmo
heurístico, no se garantiza, por tanto, el descubrimiento del alineamiento óptimo.
A comienzos de los 90, se fueron creando bases de datos primarias como GenBank, y programas
informáticos como BLAST. Mientras GenBank almacenaba y catalogaba las secuencias de ADN y de
proteínas, BLAST permitía comparar con mayor rapidez que su predecesor FASTA las secuencias de interés
contra cada una de las secuencias contenidas dentro de la enorme base de datos.
Sin embargo, los métodos clásicos anteriores, no son muy adecuados para el alineamiento de un número
muy grande de secuencias cortas contra una secuencia de referencia grande (40) , por lo que se requiere
el desarrollo de nuevos métodos matemáticos y heurísticos para conseguir sistemas óptimos de
alineamiento. Es en este campo en el que durante los últimos años los científicos computacionales han
desarrollado multitud de algoritmos para solucionar este problema, y además han tenido que ajustarse a
unos requerimientos técnicos para evitar la necesidad de utilizar excesivo poder computacional. El
objetivo global de la asignación de lecturas cortas es obtener resultados satisfactorios de la manera más
eficiente posible (en términos de requisitos de memoria y tiempo). Como resultado obtenemos que
muchos métodos están basados en principios y algoritmos similares pero difieren en la implementación y
en la aplicación de heurísticas concretas con el fin de incrementar la velocidad con la mínima pérdida de
38
Introducción
precisión (41). Los desarrollos en estos campos están actualmente en auge y se producen casi
semanalmente herramientas nuevas o modificadas (42)
Para cubrir estas necesidades, a lo largo de los últimos años se han desarrollado multitud de programas,
algunos multiplataforma y otros específicos para cada plataforma. (43) (44) (45).
Todos los beneficios que se pueden obtener mediante el uso de las técnicas NGS, quedan relegados a un
segundo plano, hasta que la bioinformática consiga maximizar la interpretación de estas pequeñas
lecturas.(46)
Alineamiento
El alineamiento de lecturas contra una referencia consiste en asignar esas lecturas cortas contra un
genoma conocido con anterioridad.
39
Introducción
Dependiendo de las propiedades del indexado, los algoritmos de alineamiento pueden ser agrupados en
3 categorías:
Los basados en tablas hash siguen el mismo principio de encontrar una pequeña región que actúa como
semilla del alineamiento y extender el resto de la secuencia (seed-and-extend), el mismo principio que el
Blast. La semilla o seed es un conjunto de k-meros, 11 nucleótidos, por ejemplo, que actúan como
secuencia problema y se buscan las posiciones dentro de la referencia indexada en la que coincide sin
ningún error. Una vez que la ha encontrado, la seed extiende el resto de la secuencia. Una mejora son los
algoritmos que soportan spaced seed, que permite mismatches internos en la secuencia. El primer
programa en utilizarlo en el contexto del alineamiento de secuencias cortas fue Eland diseñado por
illumina , que divide la lectura en 4 partes de aproximadamente el mismo tamaño (indexación de lecturas)
y usa un conjunto de 6 seeds no contiguas a lo largo de toda la secuencia corta, permitiendo 2 mismatches
para que al menos una seed sea la correcta.
Otro programa es Soap (47), que utiliza la misma estrategia pero en este caso es el genoma el que está
indexado. Este tipo de algoritmos dan resultados pobres cuando las lecturas caen en zonas repetitivas, ya
que necesitan verificar en la fase de extensión, lo que lleva a un consumo de recursos informáticos
superior (48).
En los algoritmos basados en suffix trees, a diferencia de los anteriores en los que el problema se basa en
solucionar los mismacht, el problema son los alineamientos exactos, lo que conlleva identificar primero
los alineamientos correctos y posteriormente construir alineamientos incorrectos que están soportados
por los correctos.
La ventaja de utilizar este tipo de algoritmos es que el alineamiento de una secuencia en múltiples
localizaciones solamente se realiza una vez, ya que todas estas copias idénticas colapsan en un punto del
árbol generado.
40
Introducción
que es el consumo de memoria. Este algoritmo permuta el orden de las bases y consigue que la misma
base se repita varias veces de manera consecutiva lo cual es útil como paso previo para la compresión y
almacenamiento de los datos.
Unos de los alineadores más conocidos es el BWA (Burrows Wheler aligment) BWA es un paquete de
software para alinear secuencias con baja divergencia contra un gran genoma de referencia, como el
genoma humano. Lo constituyen 3 algoritmos distintos: BWA-aln, BWA-SW y BWA-MEM. El primer
algoritmo está designado para secuenciación en secuenciadores Illumina en los que la generación de
lecturas es hasta 100 pb, mientras que los otros dos han sido diseñados para secuencias más largas de 70
pb hasta 1 Mb de longitud. Bwa-SW y MEM comparten características similares, lecturas largas y Split
alignment (partir una lectura en dos para un mejor alineamiento, importante característica para la
detección de variantes estructurales), pero como BWA-MEM es el último, es el que presenta una alta
calidad en sus alineamientos, combinándolo con una gran rapidez y una sensibilidad mayor que sus
predecesores. BWA-MEM está basado en un algoritmo super-maximal exact matches (SMEMs). Este
algoritmo realiza la alineación local. Se puede producir múltiples alineaciones principales para diferentes
partes de una lectura.
Adicionalmente, los algoritmos basados en merge sorting se basan en la técnica divide y vencerás,
solamente existe un programa basado en este tipo de algoritmos de alineamiento de secuencias cortas:
Slider y Slider II (49)
Se han descrito multitud de programas para realizar alineamientos sobre el ADN , como se muestra en la
figura 10
41
Introducción
Figura 9 Diferentes programas de alineamieto utilizados en NGS. en azul son los utilizados para alinear
ADN
No existe un consenso claro sobre qué metodología es mejor, cada una tiene sus ventajas e
inconvenientes. Así pues, los basados en la BWT son los más rápidos y los que necesitan menos
requerimientos informáticos, por el contrario, no presentan una corrección de errores y el tiempo de
computación no está bien escalado cuando aumentan los errores. Por otra parte, los métodos basados en
hash pueden manejar los errores siempre que no presenten uniformidad a lo largo de la lectura, ya que
la seed no podría ser encontrada, pero presentan problemas con las regiones repetitivas, una de las
mejores opciones pudiera ser la que se presenta en Stampy que usa los dos métodos.(50)
Ensamblaje
El ensamblaje de novo comparándolo con el proceso anterior es un desafío mayor, aunque con el avance
en las longitudes de lecturas que se están llevando a cabo es siempre una ayuda para este proceso, aunque
también la secuenciación por lecturas pareadas ayuda al correcto ensamblaje de un nuevo genoma. Las
lecturas pareadas consisten en secuenciar dos partes distintas de la molécula de ADN problema, dejando
una parte en el medio sin secuenciar, pero debido a que normalmente estas moléculas se superponen y
se puede llegar a conocer la secuencia de esa región.
Detección de variantes
La detección de variantes se realiza en las secuencias alineadas contra la referencia y identificando qué
nucleótidos no coinciden con esta referencia. Es una parte crucial en el análisis de datos de NGS, existen
42
Introducción
diferentes herramientas para la detección de variantes llamados variant callers, estos se pueden dividir
en línea germinal, somática, identificación de CNVs e identificación de variantes estructurales, la
detección de variantes en la línea germinal es la parte central de los hallazgos causantes de las
enfermedades raras.
Los variant callers consisten en dos pasos diferenciados, por un lado, tratan de identificar la variante y por
el otro asignarle un genotipo.
● métodos probabilísticos
● métodos heurísticos
Métodos Probabilísticos
En un mundo libre de errores de secuenciación, con alta profundidad de cobertura la tarea de un variant
caller en datos de NGS parece muy simple, en cada locus, el número de ocurrencias de cada nucleótido a
lo largo de la lectura alineada en una posición concreta puede ser tenido en cuenta y el verdadero
genotipo parece obvio AA para el alelo A, BB para el alelo B y AB si están presentes los dos alelos, pero
cuando se trabaja con datos reales de NGS este planteamiento naive no debe de ser usado debido al ruido
que se genera y a los sesgos.
Los métodos basados en probabilidad intentan superar el problema de los errores produciendo
estimaciones robustas de las probabilidades de cada uno de los posibles genotipos, para ello tienen en
cuenta el ruido y cualquier información previa disponible que se puede utilizar para mejorar las
estimaciones.
Estos métodos están basados en el teorema de Bayes que en este contexto se define como la probabilidad
de que cada genotipo sea el genotipo verdadero dado los datos observados, en términos de las
probabilidades previas de cada genotipo posible, y la distribución de probabilidad de los datos dados cada
genotipo posible.
43
Introducción
Los diferentes softwares tienen diferentes formas de calcular las probabilidades a priori P(G) o el
modelo usado para calcular el error de las probabilidades P(D|G).
En lugar de modelar la distribución de los datos observados y usar estadísticas bayesianas para calcular
las probabilidades del genotipo, las variant callers se hacen basadas en una variedad de factores
heurísticos, tales como recuentos mínimos de alelos, cortes de calidad de lectura, límites en la
profundidad de lectura, etc.
Una parte importante del diseño de los métodos de variant callers utilizando datos de NGS es la secuencia
de ADN utilizada como referencia para alinear las regiones secuenciadas. En los estudios de genética
humana, las referencias de alta calidad están disponibles a partir de fuentes como el proyecto HapMap .,
En el caso de alinear contra una referencia, hay que asegurarse de que ésta esté correctamente
construida. En el caso del rs6025 causante de la alteración del Factor V Leiden, el alelo menor es el que se
encuentra en la referencia GRCh37, además de otro millón de posiciones que han sido anotadas con el
menor alelo por lo que resultaría imposible encontrar esas variantes (51).
Existen multitud de programas para la detección de variantes: Samtools (52); GATK (53); VarScan2 (54);
SNver, (55); y cada día se siguen desarrollando nuevos tales como INDELseek (56) o SNVSniffer (57) Es por
tanto un campo en continuo desarrollo y resulta difícil estar actualizado en todos los nuevos lanzamientos,
sin embargo, todos tienen en común que no son perfectos y muestran baja concordancia entre los
resultados obtenidos (58) (59)
En cuanto a los métodos de detección de variaciones en el número de copias o CNV, existen tres
aproximaciones diferentes:
44
Introducción
El concepto subyacente a identificar CNVs usando DOC es similar a la utilización de datos de intensidad:
una menor profundidad (intensidad) indica supresión (deleción) y una superior a lo esperado (intensidad)
indica la ganancia (duplicación). La mayoría de los algoritmos utilizados en DOC requieren el número de
lecturas que caen en un intervalo de un cierto tamaño (60) , (61) (62). El algoritmo depende en gran
medida de la asunción que el proceso de secuenciación es uniforme, es decir, el número de lecturas
asignado a una región se supone que sigue una distribución de Poisson y es proporcional al número de
copias como se puede ver en la figura 11. Sin embargo, en ciertos casos como el contenido en GC y los
problemas de alineamiento implican que la asunción sea poco realista. Algunas regiones del genoma
pueden ser (sobre o bajo-muestreadas) independientemente del número de copias de la región, a
menudo resultando en señales falsas. La mayoría de algoritmos DOC corrigen el sesgo causado por el
contenido de GC antes de detectar el CNV.
Figura 10. Comparación entre la recnología de un array CGH y la metodología de NGS para detectar CNVs
45
Introducción
Existe otro tipo de algoritmo que utiliza las proporciones entre lecturas de la muestra problema con una
de referencia para pretenden mitigar la necesidad de corrección de GC si los dos conjuntos de datos están
dispuestos de la misma manera.(63)
Los métodos basados en PEM requieren que las lecturas sean pareadas (65) (66) (67) . El concepto en el
que se apoya esta metodología supone que los fragmentos de ADN que van a ser secuenciados tienen una
longitud de fragmento (tamaño de inserto) con una cierta distribución.
Cuando los extremos del fragmento son alineados contra la referencia, y la distancia es mayor que la
esperada, es indicativo de una deleción en el genoma. Por el contrario, cuando los extremos secuenciados
del fragmento alineados contra la referencia presentan una distancia más corta de la esperada, es
indicativo de una inserción en el genoma estudiado.
Basado en los patrones con los que las lecturas emparejadas se asignan a la referencia, PEM también
puede detectar inversiones y translocaciones. Por ejemplo, si los dos extremos de un fragmento son
alineados con una orientación incorrecta, podría ser una indicación de una inversión. El tamaño de CNVs
detectado usando estos algoritmos está a su vez limitado por el tamaño del del fragmento del ADN
Estos métodos se centran en parejas de lecturas donde una lectura del par es alineada inequívocamente
frente a la referencia, mientras que la otra lectura no es alineada, uno de los algoritmos que soporta este
análisis es Delly (68). La idea es que la ubicación de la lectura no alineada puede abarcar el punto de corte
o breakpoint de la CNV. La lectura alineada correctamente se utiliza como un ancla para reducir el espacio
46
Introducción
de búsqueda de la no alineada. El análisis por el método SR tiene la ventaja de ser capaz de localizar la
ubicación del breakpoint.
Anotación de variantes
Una vez detectadas las variantes, son anotadas en el formato vcf (variant call format). A diferencia de
otros formatos de anotación de datos genéticos como el GFF, en el vcf solamente quedan anotadas las
variantes, lo que hace que sean archivos pequeños y de gran facilidad para compartir. En la siguiente
figura 12 se puede ver en resumen de que consta este formato:
Figura 11 Se muestra el esquema típico que sigue un formato vcf. Un encabezado (vcf header) en el que se describe lo que
significa cada apartado incluyendo un campo en mayúsculas anterior a las propias variantes, en el que se indica el orden de
cada campo: Cromosoma, posición cromosómica de la variante. Referencia, alternativo (lo que se ha encontrado) Qual, valores
de la calidad con la que se ha detectado esa variante, los distintos programas tienen diferentes codificaciones de qual
La anotación y la predicción funcional se realiza una vez que ha tenido éxito el alineamiento y la detección
de variantes, en este paso el desafío es la interpretación de las aparentemente nuevas variantes genéticas
que están presentes, por ejemplo, en el genoma humano es difícil identificar cuáles se consideran
causantes de la enfermedad y cuáles no. Existen multitud de herramientas bioinformáticas para la
anotación y la predicción funcional.
Se han desarrollado múltiples herramientas bioinformáticas para la anotación de las variantes producidas
por NGS:
47
Introducción
● Annovar: es una herramienta basada en línea de comandos que permite la anotación funcional
de las variantes. (69) Esta herramienta depende de muchas bases de datos diferentes que deben
ser descargadas individualmente . Se ha desarrollado una versión web para evitar la necesidad de
descargar las bases de datos. [Link]
● SnpEff: es una herramienta muy popular en la anotación de variantes que se ha integrado en el
paquete GATK.
● Variant effect predictor (VEP): en la herramienta del Ensembl para las anotaciones de las
variantes, esta herramienta se puede usar mediante línea de comandos o mediante su acceso vía
web aunque esta versión tiene una capacidad limitada de analizar grandes volúmenes de datos.
● Sequence variant analyzer (SVA): herramienta utilizada por el visor genómico de la UCSC, tiene el
inconveniente de que las anotaciones están en su propia versión del genoma.
● SeattleSeq annotation server: aplicación web para la anotación de las variantes.
Una ventaja de las aplicaciones web son que tiene todos los cálculos están precargados y no se necesita
espacio dedicado en un ordenador personal. Además, las anotaciones suelen tener información
poblacional de distintas bases de datos, lo que produce un ahorro de espacio para los usuarios. El
inconveniente es que las anotaciones pueden estar utilizando antiguas bases de datos o versiones
antiguas del genoma de referencia.
Las variantes detectadas mediante NGS pueden ser clasificadas en base a su posición en el genoma, por
el tipo de alteración que induce al nivel de DNA y por el efecto de la variante al nivel de la proteína.
Variantes localizadas en regiones que flanquean genes y otros elementos codificadores como microRNAs
son clasificadas como no genéticas (non-genic) o como variantes intergénicas, estas variantes pueden
afectar a la regulación de los genes si están localizadas en sitios regulatorios del genoma.
● Codificadoras: están localizadas en las regiones exónicas de los genes y están presentes en los
mRNAs maduros después de que las partes intrónicas sean cortadas del pre-mRNA. Los exones
definen la secuencia primaria de la proteína Estas variantes, tienen el potencial de cambiar la
estructura primaria de la proteína directamente.
● No codificadoras: están localizadas entre las zonas UTR y las regiones intrónicas. Aunque estas
variantes no cambian directamente el producto primario del gen, si pueden alterar el patrón de
splicing en el mRNA y dar como resultado, un producto alternativo del gen, este tipo de variantes,
48
Introducción
también tienen efectos en la regulación, estabilidad y traducción de los productos del mRNA.
Las variantes también pueden ser clasificadas en base a los efectos a nivel de ADN. Inserciones y
deleciones de bases en la secuencia del ADN son llamadas comúnmente indels, mientras que un simple
cambio de un nucleótido se conoce como SNPs. Los SNPs que ocurren en las regiones codificantes de los
genes también pueden ser clasificados en base a los efectos a nivel de proteína en sinónimos y no
sinónimos. Los sinónimos no cambian la secuencia de aminoácidos, contrario a los no sinónimos que si lo
hacen. Los no sinónimos se pueden clasificar en variantes missense y en variantes nonsense, estas últimas
introducen un codón de stop dando lugar a un truncamiento de la proteína.
En la búsqueda de variantes que causan enfermedades como las cardiopatías, las variantes en las regiones
codificantes son consideradas muy interesantes ya que pueden alterar los productos finales de los genes,
pudiendo llegar a tener efectos drásticos en el fenotipo.
Las variantes nonsense son probablemente las que tienen un mayor efecto dañino, ya que alteran la
longitud de la proteína.
Las inserciones o deleciones en las regiones codificadoras de los genes en muchos casos se consideran
dañinas ya que introducen un desplazamiento de la pauta de lectura en la secuencia codificadora. Éstas
pueden cambiar el producto de la proteína significativamente dependiendo de la localización de la
variante en el gen.
Las consecuencias de las variantes missense son muchos más difíciles de predecir en comparación con las
anteriores, por ello, el desarrollo de métodos para predecir el efecto de este tipo de variantes ha sido uno
de los grandes campos de investigación bioinformática durante la década pasada. Hoy en día, con el gran
número de este tipo de variantes que se detectan mediante la secuenciación NGS, son una herramienta
básica para la clasificación de las variantes.
Este tipo de programas desarrollados para evaluar los efectos de las mutaciones en el fenotipo utilizan la
información de los cambios a nivel de ADN y lo extienden a nivel de proteínas.
Para predecir estos efectos de las variantes, los predictores de tolerancia consideran muchas
características: conservación en la evolución, cambios en las propiedades físico-químicas de los
aminoácidos y alteraciones en las propiedades estructurales de las proteínas.
49
Introducción
Predictores
Los predictores de tolerancia pueden ser divididos en tres categorías en base a los métodos basados en la
predicción:
La mayoría de los predictores de tolerancia sólo consideran los efectos de las variantes missense, sin
embargo, algunos como Mutation taster (70) evaluar los efectos de las de las indels y también puede
evaluar los efectos de las variantes no codificadoras, lo que lo convierte en el programa más versátil.
SIFT
Sorting Intolerant From Tolerant, (71) es un programa informático que utiliza únicamente información
filogenética para evaluar si la variante es tolerada o no. La predicción se basa en el cálculo de las
probabilidades normalizadas de todas las posibles sustituciones aminoacídicas para cada posición del
aminoácido. Las probabilidades son obtenidas por múltiples alineamientos de secuencia (MSA) que son
construidos con la proteína mutada y sus homólogos. Las secuencias para realizar el MSA pueden ser
definidas por el usuario o por el propio programa. En este último caso, busca secuencias similares en
swiss-prot, Swiss-Prot/TrEMBL o en las bases de proteínas no redundantes del NCBI [52] para construir el
MSA.
50
Introducción
PolyPhen-2
PolyPhen-2 predice el efecto de las variantes missense basándose en una clasificación bayesiana (72, 73)
Consiste en dos modelos de predicción que han sido entrenados usando uno o dos juegos de variantes:
HumVar o HumDiv.
El juego de variantes HumVar consiste en 3155snps anotados en SwissProt los cuales han sido asociados
con enfermedades de tipo mendeliano y 6321 SNPs neutrales.
HumDiv contiene 13032 variantes causantes de enfermedades humanas según swissprot y 8946 human
SNPs que no han sido asociados con enfermedades [53].
Polyphen-2 clasifica las variantes en una de las tres categorías: benigna, posiblemente dañina, y
probablemente dañina en base a la probabilidad de la patogenicidad dada por el clasificador. La variante
es considerada benigna si la probabilidad de la patogenicidad es por debajo de 0,15, posiblemente
patogénica si la probabilidad es entre 0,15 y 0,85, mientras que es probablemente patogénica cuando la
probabilidad es mayor que 0,85.
51
Introducción
Mutation Taster
Es una herramienta de predicciones con capacidad para analizar SNP, sinónimos, no sinónimos y no
codificadores. Además, tiene la posibilidad de predecir el efecto de pequeñas Indels hasta 12 bases de
longitud. Tiene 3 modelos diferentes de predicciones de las variantes:
● Without_aae: es el utilizado para las variantes sinónimas y no codificadoras que no tienen efecto
en la sustitución de aminoácidos pero que pueden tener efecto en el patrón de splicing del
transcrito.
● Simple_aae: el utilizado para las variantes missense.
● Complex_aae: para variantes que causan un efecto más complejo como frameshifts o
truncamientos [54].
Mutation taster utiliza un clasificador bayesiano que ha sido entrenado con variantes de diferentes
lugares. Los datos que contienen variantes neutrales son una selección de los de SNP e Indel de dbsnp. La
selección de los SNPs se basa en las frecuencias poblacionales del proyecto HapMap, usando un
procedimiento de filtrado por el cual una posible variante que cause una enfermedad rara fuera excluida.
Su selección está basada en las frecuencias genotípicas y el criterio fue que al menos dos diferentes
genotipos tuvieron que haber sido encontrados en las poblaciones. Los datos utilizados contienen 515263
SNPs y 8162 indels en total. Los datos asociados a enfermedades fueron obtenidos de OMIM, HGMD y la
literatura, y consisten en 42989 SNPs y 14067 indels. Los rasgos por los que estas variantes fueron
seleccionadas para el clasificador incluyen: conservación a lo largo de la evolución, sitios que afectan al
splicing, pérdidas de las características de la proteína, cambios en la cantidad del mRNA y en la longitud
de las proteínas.
● Todo idéntico
● Conservado
● No conservado.
Además, Mutation taster utiliza el programa NNSplice para predecir si la alteración en la secuencia
genómica puede llevar a un proceso de splicing alternativo. NNSplice analiza 60 bases alrededor de la
52
Introducción
variante comparando las secuencias salvajes y la de la variante. El programa puede predecir si la variante
afecta a un lugar conocido de splicing, haciéndolo más fuerte, débil o perdiéndolo completamente.
También puede determinar si la variante activa un sitio adicional de splicing, si el score de Nnsplice es 0,5
o mayor, Mutation taster considera que altera al splicing. Mutation taster evalúa los cambios en la
cantidad de mRNA investigando si la variante tiene efecto en la secuencia consensus de kozak, o en la
señal de poliadenilación. La secuencia de kozak es una pequeña secuencia que inicia la traducción del
mRNA a la proteína y se encuentra localizada aguas arriba del codón de iniciación y termina 4 bases aguas
abajo de la primera base del codón de iniciación. La secuencia tiene dos bases, una purina y otra guanina
en las posiciones -3 y +4 respectivamente.
Mutation taster evalúa si la variante produce cambios en estas bases conservadas que puedan ocasionar
una posible alteración en el inicio de la traducción que pueda tener un efecto en la cantidad de mRNA.
Mutation taster clasifica las variantes en una de las dos clases: polimorfismo o patogénica en base a la
probabilidad de la patogenicidad. Con valores por encima de 0,5 es considerada patogénica y valores
inferiores, polimorfismo.
Los considerables avances que se han producido en el campo de la genética molecular han aportado
instrumentos importantes para esclarecer los sustratos genéticos de muchos trastornos genéticos que
siguen patrones de herencia mendelianos. Se ha identificado y actualmente se conoce mejor el
fundamento genético de ciertas miocardiopatías y canalopatías cardiacas hereditarias y potencialmente
mortales, como la miocardiopatía hipertrófica (MCH), la miocardiopatía dilatada (MCD), la displasia
arritmogénica de ventrículo derecho, el síndrome de QT largo (LQTS), la taquicardia ventricular
polimórfica catecolaminérgica (CPVT) y el síndrome de Brugada (SB).
Se conoce como heterogeneidad genética cuando un mismo fenotipo se produce por variantes en
diferentes genes siguiendo modelos de transmisión monogénico, siendo ésta una de la característica clave
de los trastornos de las enfermedades cardiovasculares de origen genético.
53
Introducción
Las agrupa dentro de una morfología específica y fenotipo funcional; luego, cada fenotipo es
subclasificado en formas familiar y no familiar.
Muchas de las miocardiopatías familiares están determinadas por alteraciones monogénicas. Cuando la
mutación es de novo son asignadas igualmente a la categoría familiar, ya que dichas alteraciones pueden
ser transmitidas a posteriores generaciones. La forma no familiar es definida como la presencia de
miocardiopatía en el paciente índice y la ausencia de enfermedad en otros miembros de la familia. Se
subdividen en idiopáticas y miocardiopatías adquiridas en las que la disfunción ventricular es una
complicación de la alteración más que una característica intrínseca de la enfermedad.
Figura 12. Clasificación de las miocardiopatías propuesta por la sociedad europea de cardiología
Miocardiopatía Hipertrófica Familiar
La miocardiopatía hipertrófica familiar (MCH) se presenta como una enfermedad familiar, con un modo
de herencia autosómico dominante que se manifiesta con hipertrofia ventricular izquierda (HVI) en
ausencia de otras enfermedades cardiovasculares y pérdida de la correcta organización de los miocitos.
La MCH afecta a ambos sexos, presentándose en pacientes de diferentes razas y ampliamente distribuidas
geográficamente La penetrancia depende de la edad del paciente y del gen en donde se encuentre la
variante. La susceptibilidad a complicaciones como la muerte súbita y la progresión a situaciones como la
insuficiencia cardiaca, han motivado a los investigadores para buscar indicadores capaces de identificar la
54
Introducción
enfermedad en estadios tempranos. Las guías clínicas recomiendan estudiar 17 genes principales, entre
los que se encuentran los 9 genes sarcoméricos y 8 genes asociados a enfermedades cuya presentación
clínica puede ser indistinguible de la MCH clásica.
ACTC1, DES, FLNC, GLA, LAMP2, MYBPC3, MYH7, MYL2, MYL3, PLN, PRKAG2, PTPN11, TNNC1, TNNI3,
TNNT2, TPM1, TTR.
Miocardiopatía Dilatada
La Miocardiopatía Dilatada se define por la presencia de dilatación y disfunción sistólica ventricular
izquierda en ausencia de condiciones anormales de sobrecarga (hipertensión, enfermedad valvular) o
enfermedad de las arterias coronarias suficiente para causar empeoramiento global de la función sistólica.
Afecta aproximadamente a 1 por cada 3000 individuos y representa la tercera causa más común de fallo
cardíaco, siendo la primera causa de trasplante cardíaco.
Entre el 30 y el 50% de los casos de DCM son familiares con una penetrancia dependiente de la edad.
Hasta la fecha se han identificado mutaciones asociadas con esta enfermedad en más de 25 genes
diferentes, relacionados con proteínas del citoesqueleto, el sarcómero, las uniones intercelulares, la
membrana nuclear, canales iónicos y proteínas mitocondriales. El modo predominante de herencia es
autosómico dominante, siendo las formas recesivas ligadas al sexo y la herencia mitocondrial menos
frecuente.
ACTC1, BAG3, DES, DMD, DSP, FLNC, LMNA, MYBPC3, MYH7, PKP2, PLN, RBM20, TAZ, TNNC1, TNNI3,
TNNT2, TPM1, TTN
Miocardiopatía Restrictiva
La miocardiopatía restrictiva es una enfermedad del miocardio que se caracteriza por un llenado
ventricular defectuoso en presencia de un corazón no hipertrofiado, con función sistólica normal, con
ventrículos de tamaño normal o reducido y aurículas muy aumentadas de tamaño. Inicialmente se creyó
que era debida únicamente a enfermedades infiltrativas o sistémicas, pero recientemente se han
identificado mutaciones responsables en genes sarcoméricos. Incluso se ha observado que la
miocardiopatía restrictiva puede coexistir con la miocardiopatía hipertrófica en la misma familia.
55
Introducción
ACTC1, DES, GLA, MYBPC3, MYH7, MYL2, MYL3, TNNI3, TNNT2, TPM1, TTR, ACTN2, FHL1, HFE, MYPN,
TNNC1, TTN
56
Introducción
llevado a la búsqueda de causas genéticas. En un corto lapso se ha podido demostrar que, al igual que
ocurre con el resto de las miocardiopatías primarias, la miocardiopatía no compactada también es una
enfermedad heterogénea desde el punto de vista genético.
Se han identificado como causa de la enfermedad mutaciones en genes relacionados con la función
mitocondrial, como G4.5, que codifica la proteína tafazzina, genes relacionados con el citoesqueleto,
como el de la alfa-distrobrevina o el de la distrofina, genes que codifican proteínas de la línea Z del
sarcómero, como LDB3, que codifica la proteína Cypher/ZASP, genes de proteínas de la membrana interna
nuclear (LMNA, que codifica la lamina A/C) e incluso genes que codifican proteínas sarcoméricas como la
alfaactina cardiaca y la cadena pesada de la beta-miosina. Esta heterogeneidad genética explica la
variabilidad en los patrones de herencia, la morfología y las alteraciones asociadas a la miocardiopatía no
compactada.
CTC1, MYBPC3, MYH7, TAZ, ACTN2, DMD, DNAJC19, DTNA, FHL1, HCN4, LDB3, LMNA, MIB1, MYH6, MYL2,
NKX2-5, NNT, PLN, PRDM16, RYR2, TNNT2, TPM1,
Trastornos arritmogénicos
Los trastornos arritmogénicos reciben el nombre de canalopatías debido a que las arritmias se generan
por defectos en los canales iónicos que regulan el flujo de iones entre el interior y el exterior del miocito.
Los canales iónicos son proteínas integrales de membrana que regulan el flujo de iones a través de la
membrana celular, se trata de canales selectivos para los diferentes aniones y cationes Na+, K+,Ca2+ y Cl-
. Están formados por unidades multiméricas que generalmente están codificadas por genes diferentes. La
subunidad alfa forma el poro y hace de mediador en la corriente de iones, mientras que las subunidades
beta son reguladoras.
Defectos en estos canales, debido a mutaciones en los genes que codifican cada una de las subunidades
que los forman o mutaciones en proteínas asociadas a estos canales, pueden dar lugar a una alteración o
inestabilidad eléctrica en el corazón que conlleve el desarrollo de canalopatías. Las canalopatías son
síndromes hereditarios entre los que se encuentran el Síndrome de QT largo, el Síndrome de QT corto, el
Síndrome de Brugada y la Taquicardia Ventricular Polimórfica Catecolaminérgica.
57
Introducción
Síndrome de QT largo
El Síndrome de QT largo es una enfermedad genética asociada al funcionamiento anormal de canales
iónicos cardíacos y que se manifiesta por un alargamiento del intervalo QT en el electrocardiograma. Esta
anormalidad predispone al desarrollo de arritmias ventriculares que pueden llevar a síncope, parada
cardíaca y muerte súbita, pudiendo ser estas las primeras manifestaciones de la enfermedad a cualquier
edad.
Síndrome de QT corto
El síndrome de QT corto es una entidad genética muy rara producida en general por un aumento en la
función de algunos canales iónicos cardíacos, que conduce a un acortamiento anormal de la repolarización
cardíaca. Se asocia con una elevada predisposición a arritmias ventriculares, pudiendo los pacientes
presentar síncope, parada cardíaca o muerte súbita. Como ocurre en el síndrome de QT largo, estas
pueden ser las primeras manifestaciones de la enfermedad, y pueden ocurrir a cualquier edad.
58
Introducción
RYR2 y CASQ2
59
Objetivos
Objetivos
60
Objetivos
Con esta tesis se pretende construir un flujo de trabajo utilizando la técnica de NGS para caracterizar,
desde el punto de vista genético, un grupo de pacientes afectos de patología cardiovascular de origen
heterogéneo mediante la utilización de paneles personalizados de resecuenciación dirigida.
61
Materiales y métodos
Materiales
y métodos
62
Materiales y métodos
Preparación de la muestra
Extracción de ADN
La extracción de ADN se realiza a partir de sangre periférica en tubos con EDTA (ácido
etilendiaminotetraacético). Las muestras se conservan a 4ºC hasta su
utilización. Para la extracción se utilizó el QIAamp DNA Blood Maxi Kit
(Quiagen, Valencia, California, USA) ([Link] siguiendo las
instrucciones de uso de la casa comercial. Los pasos se muestran en la figura
14
Lisis
Se utilizan 10ml de sangre total con Buffer AL (12ml) para lisar las células
sanguíneas. Se incuba a 70ºC durante 10 minutos con una proteinasa K
(500μl) para desnaturalizar las proteínas. Se añade 10 ml de etanol puro (96-
100%) a la solución para precipitar el ADN.
Filtración
El homogeneizado se pasa a través de una columna, que contiene una
membrana de sílice, Se centrifugan a 3000 rpm durante 3 minutos. Esta
membrana atrapa las moléculas de ADN dejando pasar el resto de sustancias
Figura 13. Figura 15. Esquema (cromatografía de adsorción). La columna se lava con buffer AW1 a 5000 rpm
de la preparación de un gel de
agarosa para medir la durante 1 minuto y buffer AW2 a 5000 rpm durante 15 minutos.
integridad del ADN
Elución
Una vez lavada la columna, se añadió 1ml de buffer AE y se centrifugó a 5000 rpm durante 5 minutos. De
esta forma se obtuvo una concentración de ADN purificado de 100 ng/µl con un peso molecular mayor
de 60 Kb.
La pureza de la muestra está relacionada con el valor de máxima absorbancia de los ácidos nucleicos
detectada a una longitud de onda de 260 nm. La relación de las absorbancias A260/A280 permite conocer
si el ADN obtenido está contaminado por la presencia de compuestos aromáticos, ya que éstos absorben
63
Materiales y métodos
a una longitud de onda de 280 nm. Por el contrario, si esta relación es baja (A260/280 < 1.6) la muestra
está contaminada por proteínas o fenoles. En el caso de contaminaciones por proteínas o fenoles es
necesario llevar a cabo un tratamiento adicional para eliminarlas.
La relación de absorbancia A260/230 se utiliza como medida adicional para determinar la pureza del ADN
puesto que a 230 nm se detecta la máxima absorbancia de sales presentes en la solución, carbohidratos
u otros posibles contaminantes. Generalmente se considera que el ADN es puro cuando la proporción
A260/230 se sitúa entre 1,5 y 2,2.
La electroforesis en gel de agarosa es una de las técnicas más utilizadas para analizar y caracterizar ácidos
nucleicos de distintas procedencias. Los geles se comportan como un tamiz molecular y permiten separar
moléculas cargadas en función de su tamaño y forma.
Para disolver la agarosa en 150 ml de Buffer TBE 0,5x se utiliza un microondas; una vez enfriada la mezcla
se añaden los 8 µl de REDSAFE [20.000x],
El soporte (molde) donde se vierte el gel se sella con cinta adhesiva, cerrando sus extremos para retener
la disolución de agarosa. Se incorpora lentamente la disolución de agarosa en el molde, por uno de los
extremos, retirando las burbujas que se puedan formar con ayuda de una punta de pipeta; seguidamente,
64
Materiales y métodos
se colocan los peines en el gel, insertándolos en las muescas del molde y se deja reposar durante unos 30
min, de modo que el gel se polimeriza después de enfriarse y solidificarse.
extremos, retirando las burbujas que se puedan formar con ayuda de una punta de pipeta limpia;
seguidamente, se colocan los peines en el gel, insertándolos en las muescas del molde y se deja reposar
durante unos 30 min, de modo que el gel se polimeriza después de enfriarse y solidificarse.
Cuando el gen se ha solidificado, se retiran los peines, que dejan marcados en el gel los pocillos en los que
se cargarán las muestras de ADN. A partir de este momento, el gel está listo para su utilización. En caso
de que no se emplee de forma inmediata, debe conservarse en una cubeta con buffer TBE 0,5x en
oscuridad.
Para cargar las muestras en el gel se dispensan 5 µl de tampón de carga en papel de parafina que se
mezclan con 2 µl de cada muestra. Esta mezcla de tampón de carga y muestra se transfiere entonces a
cada pocillo de gel de agarosa, utilizándose uno de ellos para contener un ADN control sin degradar y a
una concentración de 100 ng/µl.
El tampón de carga tiene colorante lo que posibilita la visualización de la muestra y, al ser ligeramente
denso, permite que ésa caiga dentro del pocillo del gel en lugar de flotar y desbordarse. El esquema de
este proceso se muestra en la figura 15
Figura 15. Esquema de la preparación de un gel de agarosa para medir la integridad del ADN
65
Materiales y métodos
Para medir el ADN, se utilizó el kit Qubit dsDNA BR (rango 1-1000 ng). Siguiendo las indicaciones
mostradas en la figura 16. Su funcionamiento se basa en la unión de un fluoróforo al DNA de doble cadena.
Las muestras se procesaron en lotes de 16 reacciones para evitar la degradación del fluoróforo con el paso
del tiempo.
Para este proceso se utilizan tubos de propileno de pared fina de 500 µl (uno por cada muestra), en los
que se dispensa 198 µl Working Solution + 2 µl de ADN. Se incuban durante 2 minutos y se procede a su
medición.
La concentración final del ADN de cada muestra se debe ajustar a 23 ng/µl, aproximadamente, 3ug/130
µl para proceder a su fragmentación en un fragmentador por ultrasonicación Covaris.
66
Materiales y métodos
Para un correcto seguimiento de la muestra durante todo el proceso de preparación de librerías se realiza
un genotipado mediante sondas Taqman (Applied Biosystems™ TaqMan™) de 8 posiciones, siguiendo el
protocolo del fabricante. Las posiciones interrogadas se muestran en la tabla 1
Cada muestra se distribuye en la placa especial, ver Figura . Asegurándose que no se generen burbujas
de aire , para ello se introduce la punta de la pipeta en el pocillo y se dispensa el líquido suavemente por
la pared.
figura
Figura 14.
15. Placa
Placa de
de covaris
Covaris • Temperatura 4ºC -8ºC
67
Materiales y métodos
Preparación de librerías
Selección del tamaño de los fragmentos generados
Cada muestra se dispensa en una placa nueva, se le añaden 180 μl de Agencort AMPure XP beads. Se
incuban a temperatura ambiente durante 5 minutos. Se deposita la placa encima de un soporte
magnético y se retira el sobrenadante. Se añaden 300 ml de etanol al 70% (Este proceso se repite dos
veces). Se retira nuevamente el etanol y se dejaron secar Agencort AMPure XP beads a temperatura
ambiente durante 5 minutos. Se les añade 50 μl de agua libre de DNAsas.
Se incuba durante 5 minutos a temperatura ambiente para que el ADN se deposite en la solución. Se
coloca la placa en el soporte magnético y se conserva el sobrenadante.
Se confirma el tamaño de los fragmentos mediante electroforesis automática utilizando para ello la
Tapestation 2200 de Agilent Technologies siguiendo el protocolo del fabricante.
Para cada muestra, se añade 3 μl del reactivo D1000 Sample Buffer y 1 μl de muestra. La placa se agita
durante 1 minuto a 2000 rpm en agitador IKA MS3 Vortex y se centrifuga. Una vez finalizado, se carga en
la máquina y se cuantifican los picos comprendidos entre 200-250 pb como se muestra en la Figura 16.
68
Materiales y métodos
Figura 16. Tamaños de los fragmentos después de la rotura del ADN con el Covaris
Figura 18. Representación esquemática de la molecula de AND una protocolo descrito anteriormente.
vez se le han rellenado los extremos para acabar con extremos romos
Inmediatamente después es necesario realizar
la adenilación del extremo 3´ con la ayuda de la Exo Klenow polimerasa; esta reacción se lleva a cabo a
37ºC durante 30 minutos.
69
Materiales y métodos
Figura 19. Esquema de la molécula de ADN una vez que tiene los extremos adenilados
A continuación, se procede a la ligación de los adaptadores específicos mediante la T4 DNA ligasa por un
tiempo de 15 minutos a 20ºC. El adaptador empieza con una T que es complementaria de la A insertada
en el paso anterior (ver figura 20) , la estructura final se puede ver en la Figura 20.
Figura 20. Esquema de la molécula final con los adaptadores, la primera base de los adaptadores es una T
Seguidamente se procede a la amplificación de los fragmentos de ADN mediante PCR utilizando los
cebadores: InPe1.0 y Precapture PCR junto con la Herculasa II Fusion DNA Polimerasa durante 4 ciclos.
Para la hibridación, la concentración de ADN de las muestras es ajustada a 147 ng/μl. Para ello se utiliza
una centrífuga de vacío (Eppendorf Vacufuge Plus concentrator). Y se resuspenden en el volumen
necesario para obtener 500 ng en un volumen de 3,4 μl.
70
Materiales y métodos
Figura 21. Medida del tamaño del producto obtenido después de la PCR por duplicado
La hibridación se realiza siguiendo el protocolo SureSelectXT Target Enrichment System for Illumina
Paired-End Sequencing Library versión 1.2 de Mayo del 2011 de Agilent Technologies.
Se necesitan 3 termocicladores, dos de ellos con temperaturas a 65ºC, por un lado el termociclador A que
tiene la Placa A en la que se le añadió entre 15-18 μl de buffer de hibridación a cada pocillo.
El termociclador B con la Placa B que contiene la Master mix con los oligonucleótidos que van a impedir
que durante el proceso de hibridación se formen dímeros de moléculas de ADN. El ciclo del termociclador
es de 95ºC durante 5 minutos, el ADN sufre una desnaturalización, y 65ºC durante al menos otros 5
minutos, tiempo en el que se hibrida los oligonucleótidos bloqueantes con la librería generada formada
por ADN de cadena simple (figura23)
Figura 22 Esquema que muestra la función de los oligonucleótidos bloqueantes para que las moléculas no hibriden entre sus
extremos
71
Materiales y métodos
Las regiones de interés son capturadas mediante la utilización de Dynal MyOne Streptovidin T1
(Invitrogen) y, posteriormente, son purificadas con Agencourt AMPure XP beads. Una vez purificadas se
procede al indexado de las librerías donde a cada muestra se le inserta una etiqueta o índice diferente de
6-8 nucleótidos conocidos. Para ello se realiza una PCR de 12 ciclos. Posteriormente se purifica con
Agencourt AMPure XP beads y se confirma que el rango de los fragmentos de ADN este comprendido
entre 330-350 nucleótidos mediante electroforesis automática utilizando el chip de alta sensibilidad
72
Materiales y métodos
Posteriormente se realiza una cuantificación por duplicado de cada muestra utilizando fluorescencia en
el Qubit con el kit High Sensitivity, y se calcula la molaridad de cada muestra siguiendo la siguiente
fórmula:
Una vez que se ha calculado la molaridad de cada muestra se realiza un pool siguiendo la siguiente
fórmula:
Una vez constituido el pool se procedió a medir su molaridad mediante el uso de la Tapestation de Agilent
con el kit High Sensitivity por triplicado. El resultado debe ser similar al calculado en el paso anterior. Se
calculó la molaridad como la media de las 3 medidas, y además para comprobar que la tapestation no ha
cometido ningún error se utiliza una muestra a una molaridad de 10nM como control (figura25).
73
Materiales y métodos
Figura 24. Resultado de la Tapestation 2200 para la medición de los pooles de secuenciación
Se siguieron las recomendaciones del fabricante del protocolo HaloPlex Target Enrichment System for
Illumina sequencing version 2012.
El primer paso es la fragmentación mediante enzimas de restricción, para ello se requirieren 225ng totales
en un volumen de 45 μl, se crean 8 alícuotas de la misma muestra con un volumen de 5 μl cada una. Se
procede a la digestión del ADN mediante un coctel de 16 enzimas de restricción, dos enzimas por alícuota,
y se incuban a 37º durante 30minutos.
Se procede a la hibridación del ADN con las regiones de interés, este proceso se realiza durante 16 horas
a 54ºC.
Posteriormente tiene lugar la captura de las regiones de interés mediante las Haloplex magnetic bead
suspensión.
Se procede a la ligación de las regiones y a la circularización de los fragmentos generados durante una
reacción de incubación a 55ºC durante 10 minutos
Se eluyen los fragmentos de interés mediante NaOH y se procede a una amplificación final mediante PCR.
74
Materiales y métodos
Se siguieron las recomendaciones del fabricante para el protocolo SureSelectQXT target enrichment for
Illumina Multiplexed Sequencing.2015. El resumen del funcionamiento se puede ver en la figura 27
Se requieren 50ng de ADN genómico como cantidad inicial, el primer paso es la tagmentación del ADN
mediante un coctel enzimático durante 10 minutos a 45ºC, durante este periodo la transposasa corta el
ADN a la vez que añade un adaptador, como se indica en la figura 16. Se realiza una purificación con
Ampure Beads
En el segundo paso el adaptador es utilizado como diana para la amplificación mediante una reacción de
PCR, para acabar realizando otra purificación de la reacción mediante Ampure Beads.
75
Materiales y métodos
Se realiza la hibridación como en el caso de SureselectXT pero únicamente durante 90minutos siguiendo
el siguiente esquema.
Figura 26. Representación esquemática del proceso de preparación de la muestra utilizando el protocolo SureselectQXT.
76
Materiales y métodos
El ADN es aislado y cuantificado por los métodos anteriormente descritos, siendo la cantidad total
necesaria de 1ug
La fragmentación del ADN genómico se lleva a cabo en el Covaris utilizando los siguientes parámetros
para obtener fragmentos de 800pb de tamaño
Se usan los kits NEXTflex™ Rapid DNA Sequencing Kit (Bioo Scientific, 5144-02) y NEXTflex™ DNA Barcodes-
96 (Bioo Scientific, 514105) para la generación de las librerias siguiendo las instrucciones del fabricante.
La principal diferencia con el método de SureselectXT es que la reacción de reparación de los extremos
y la adenilación tienen lugar en la misma reacción, siendo la temperatura el factor determinante para que
cada reacción tenga lugar en su tiempo justo. La reparación de los extremos tiene lugar durante
20minutos a 22ºC y una vez transcurridos se sube la temperatura a 72ºC durante otros 20 minutos la
adenilación. El volumen de la reacción es de 50 μl
Con el fin de determinar la secuencia genética que se encuentra en las proximidades de una región de
secuencia conocida, se realiza una modificación de la técnica de PCR basada en la extensión de un único
primer.
Esta metodología consiste en el uso de modificaciones sobre la reacción de PCR que incluye el uso de una
mezcla de oligonucleótidos degenerados y fosforilados en el extremo 5' que se añade a la mezcla de la
reacción.
77
Materiales y métodos
La reacción se lleva a cabo utilizando un único oligonucleótido específico contra la región adyacente al
punto de inserción o deleción. Este oligonucleótido puede estar diseñado para que hibride en la zona del
cromosoma intacto que se localiza en la proximidad de la mutación. Esto se usa en el caso de deleciones,
por ejemplo, donde el oligonucleótido hibridaría en la región del cromosoma que rodea a la deleción, para
que se extienda cubriendo el punto de corte y empalme.
La reacción de PCR incluye un paso de annealing a baja temperatura durante un tiempo muy corto para
permitir la incorporación de los oligonucleótidos degenerados a las cadenas de nueva síntesis. Por ello, y
para evitar que el oligonucleótido se una a regiones inespecíficas del genoma, el diseño de este
oligonucleótido debe incluir en su extremo 5' una secuencia complementaria a la de su extremo 3'. De
este modo, se favorece la formación de estructuras en horquilla a temperaturas de annealing reducidas
para reducir la posibilidad de homología inespecífica con el ADN de estudio.
Como resultado del uso de un único oligonucleótido, se obtiene una amplificación lineal. La incorporación
de oligonucleótidos fosforilados a la reacción permite primar las cadenas lineales y generar regiones
locales de doble hebra sobre las que la polimerasa regenera un ácido nucleico de doble cadena, que se
utilizara como material de partida para la preparación de muestras para secuenciación NGS siguiendo
protocolos establecidos.
1.- Primer extension utilizando un oligonucleótido que hibrida con la región intacta (no delecionada) más
próxima a la zona delecionada.
Se utiliza el oligonucleótido:
FBN1-Ex58-FW: GCTTTCCCCTCTTGCTTCTTCT
78
Materiales y métodos
Primer FBN1-Ex58-FW………………………………………………………1 μM
Template DNA…………………………………………………………………..50 ng
N7*…………………………………………………………………………………..0,2 μM
3 min, 94ºC;
25 ciclos [94ºC, 20s; 60ºC; 30 s 30ºC, 1 s; 68ºC, 20 min, con una extensión de 15 s por ciclo]
En el caso de ganancia de material genético, se diseña un primer que extienda la secuencia desde la región
insertada y que cubra el punto de inserción sobre el cromosoma salvaje
1.- Primer extensión utilizando un oligonucleótido que hibrida dentro de la zona duplicada. En este caso,
se diseña un oligonucleótido que incluye en su región 5’ una secuencia complementaria a la del extremo
3’ para minimizar la posibilidad de hibridación inespecífica a bajas temperaturas de annealing.
Se utiliza el oligonucleótido:
5’- CACATAGTTGTTTTGTTGTCTTTTGGGAACTATGTG.
79
Materiales y métodos
Figura 27. Modelos que predicen la ausencia de estructura secundaria a 60ºC (temperatura del Segundo anneling en la reacción
de primer extensión).
80
Materiales y métodos
Secuenciación
El primer paso es la desnaturalización del pool de librerías que se ha generado. Los cálculos se realizan
siguiendo la siguiente figura 29
Figura 28. Ejemplo de como desnaturalizar una librería para su secuenciación en un HIseq1500
El pool se diluye a 2 nM, se realizó una desnaturalización con NAOH, se incuba durante 5 minutos a
temperatura ambiente y se neutraliza la reacción con el Buffer HT1 para acabar obteniendo una
concentración final de 12pM. El PhiX se utiliza como control.
81
Materiales y métodos
cada uno de los pooles generados (multiplexados, añadidos los TAGs y en formato paired-end) fueron
desnaturalizados, sometidos a la generación de cluster en el cBOT y secuenciados en el Hiseq1500
utilizando los reactivos de las figuras 30 y 31.
Figura 30. Se muestra la gran cantidad de reactivos que hacen falta para llevar a cabo una secuenciación
en un Hiseq 1,2 y 3. Muestra la orientación correcta de la célula de flujo dentro del secuenciador
82
Materiales y métodos
Una vez finalizada la secuenciación se procede al estudio de los parámetros de calidad utilizando, para
ello, el programa Illumina Sequencing analysis viewer (SAV).
En la pestaña principal de Analysis, Se deben observar entre otros datos, las que se consideran los 4
parámetros de calidad más importantes.
• Data By Cycle: presenta múltiples opciones de visualización, una de las más importantes es la
intensidad de la excitación registrada, cuanto más baja sea, mayor será la probabilidad de un error
en la llamada de variantes. Otro parámetro muy importante es la tasa de error en la que se puede
detectar la tasa de error en cada base.
• Data by Lane: Se puede observar entre otras opciones la densidad de los clusters por línea, la caja
en azul representa el número total de clusters y la caja en verde los que han pasado los filtros y
serán las lecturas que se van a analizar.
• Qscore Distribution: Se puede observar el porcentaje de datos asociados a una calidad, en azul
representan datos por debajo de un Q30 y en verde los superiores Q30.
• Qscore Heatmap: Representa la calidad por posición de todas las bases secuenciadas.
83
Materiales y métodos
En la pestaña Indexing podemos encontrar el valor numérico total de las lecturas generadas: el porcentaje
de lecturas que pasan los filtros, el porcentaje de lecturas identificadas que pasan los filtros y el porcentaje
de lecturas que lleva cada una de las muestras de esa línea.
En la pestaña Indexing podemos encontrar el valor numérico total de las lecturas generadas: el porcentaje
de lecturas que pasan los filtros, el porcentaje de lecturas identificadas que pasan los filtros y el porcentaje
de lecturas que lleva cada una de las muestras de esa línea (figura 33)
84
Materiales y métodos
85
Materiales y métodos
Bioinformática
Generación de muestra in silico.
Debido a que este programa no puede generar lecturas en regiones no adyacentes se procedió a la
generación de un genoma haploide artificial que cubriera las regiones de interés más 100 pb a cada lado.
La creación de este genoma artificial se realizó concatenando las diferentes regiones de interés, y en y en
la región de unión de cada exón se le añaden 100N que indica secuencia desconocida, pIRS solamente
genera lecturas en las zonas en las que los nucleótidos están bien definidos. Para ello se utilizó el script
para generar un genoma de referencia de las regiones de estudio (disponible en el anexo E)
Se procede a la generación del genoma diploide mediante pIRS, con 2134 variantes en la región de
interés. Las lecturas son generadas con una longitud de 100 pb en un formato paired end y con tamaño
de inserto de 200pb. El resto de las opciones del programa se utilizaron por defecto. Se generaron las
lecturas a 4 profundidades de cobertura media diferentes: 50x , 100x , 400x , 1000x.
Alineamiento
Para realizar el alineamiento frente al genoma de referencia, hg19, se utilizaron dos programas diferentes
BWA y Stampy, ambos con los parámetros por defecto.
1.- Construcción de un índice de la secuencia de referencia, este paso sólo se requiere hacer una vez:
bwa index [Link]
La construcción del indexado consiste simplemente en cambiarle el formato al genoma de referencia para
que el programa pueda buscarlo eficientemente; cada programa construye un tipo diferente de índice.
2.- Las lecturas en formato Fastq son alineadas contra la secuencia de referencia.
Bwa mem -t8 [Link] $i_R1* $i_R2* >$[Link]
86
Materiales y métodos
El resultado es un fichero en formato SAM (Sequence Aligment Map), es uno de los más recientes
formatos utilizados en bioinformática y se ha convertido en el formato estándar para almacenar y
representar los resultados procedentes de NGS. La figura 18 muestra como es el formato SAM
El formato SAM contiene toda la información sobre la muestra y su alineamiento, se puede consultar más
información en el siguiente enlance.
[Link]
El fichero SAM es un fichero de texto delimitado por tabulaciones y consiste en una sección de encabezado
(Header) donde cada línea contiene metadata y la sección del alineamiento donde cada línea contiene la
información del alineamiento. Este formato requiere de al menos las siguientes columnas
87
Materiales y métodos
samtools flags,
lo que devuelve:
De esta manera se pueden identificar los duplicados de secuencia, lecturas que no pareadas, identificar
alineamientos primarios (en el caso de que una lectura tenga múltiples alineamientos el software
designara una como primaria), alineamientos secundarios, alineamiento suplementario o quimérico.
La comprensión de estos tres tipos de alineamientos resulta de gran ayuda cuando se intentan detectar
reordenamientos.
5. MAPQ indica la calidad del alineamiento frente a la referencia. Es la probabilidad de que un alineamiento
sea incorrecto, si MAPQ es 60 la probabilidad es 10-6, es decir, hay una probabilidad entre un millón de
que el alineamiento no sea correcto.
El programa BWA ha desarrollado un MAPQ=0 para designar que una lectura alinea igualmente en más de
una localización.
88
Materiales y métodos
● M match o mismatch
● I insertion
● D deletion
● S soft clip
● H hard clip
● N skipping
Por ejemplo una lectura con 69M32S indica que 69 bases son match o mismatch y las 32 restante tienen
un soft clip.
7. RNEXT indica si las dos lecturas que forman el par están alineadas en el mismo cromosoma , se denota
como “ = ”
9. TLEN indica la distancia entre los extremos del alineamiento por parejas
Postprocesado
El siguiente paso en el análsisis es la transformación del archivo con formato SAM a un archivo con
formato BAM (Binary aligment map). En este proceso se comprime el fichero SAM para que ocupe menos
espacio. El fichero BAM almacena toda la información del fichero SAM en menos espacio y siempre es
posible revertirlos (BAM/SAM ó SAM/BAM).
El siguiente paso fue la eliminación de lecturas duplicadas, éstas son lecturas que después del
alineamiento, comienzan y acaban en la misma posición cromosómica y, además, presentan el mismo
CIGAR. En este proceso se utilizó la opción Mark duplicates del paquete Picard
89
Materiales y métodos
\OUTPUT=[Link] \METRICS_FILE=13/metrics
\CREATE_INDEX=true \VALIDATION_STRINGENCY=LENIENT
Una vez realizado, se procedió al realineamiento de las posibles indels. Para ello se utilizó el programa
RealignerTargetCreator de GATK para la identificación de las regiones que son susceptibles de ser
realineadas. Estas zonas pueden aparecer en el CIGAR del fichero bam (alineado) o bien se le puede
suministrar una fichero en formato vcf donde se encontraran descritas las indels más comunes. El archivo
resultante lo denominamos .[Link].
Para finalizar este paso se procedió al realineamiento con la opción IndelRealigner del propio paquete
GATK, con la generación de un nuevo fichero bam ya realineado alrededor de las indels. Este proceso
minimiza el riesgo de falsos positivos al buscar posteriormente variantes.
El siguiente paso es el recalibrado de las bases secuenciadas. Este proceso es fundamental ya que los
quality score son críticos para los pasos posteriores del análisis. Los sesgos sistemáticos generados por el
secuenciador tienen una gran importancia en la incorrecta llamada de variantes ya que las calidades
reportadas dependen de la posición en la que se encuentre el nucleótido. La opción BaseRecalibrator
genera un modelo de errores y el recalibrado de esas calidades. Utiliza como comparador la base de datos
de SNPs (dbSNP).
90
Materiales y métodos
-o recal_data.table
TableRecalibration \--out
Variant calling
Seguidamente se procede a la llamada de variantes. Para ello se utilizaron 4 variant caller distintos:
• Mpileup de samtools: Utiliza un modelo estadístico de tipo bayesiano para computar las
probabilidades a posteriori de los 3 posibles genotipos y elegir el genotipo con más alta
probabilidad asignándolo al genotipo consenso. La variante es llamada si el genotipo consenso es
diferente del genotipo utilizado como referencia. Además informa de un phred-like consensus
quality score que representa la sensibilidad con la que la posición ha sido llamada. El phred-like
consensus quality score es igual a − 10 log 10[1 − PH], PH es la probabilidad más alta de que el
genotipo llamado sea el consenso.
• GATK-UG utiliza un algoritmo bayesiano similar seguido de sofisticados filtros
• GATK-HC realiza un ensamblaje de novo basándose en un grafo de Brujin en el cual las diferentes
rutas del grafo son potenciales haplotipos que necesitan ser evaluados. Calcula las probabilidades
de cada haplotipo utilizando modelos ocultos de Markov pareados (pairHMM) y determina en las
variantes el haplotipo más posible y computa la frecuencia de cada alelo para calcular el más
probable y, en caso afirmativo, emitir una variante.
• SNver emplea un modelo binomial para calcular la significancia de la frecuencia del alelo
observado frente a un error de secuenciación. Este variant caller aporta un p-Valor para evaluar
la probabilidad de que cada locus candidato se convierta en una variante. Este método examina
91
Materiales y métodos
UnifiedGenotyper (GATK-UG)
HaplotypeCaller (GATK-HC)
SNVer
Como resultado se generan 4 ficheros de variantes en formato VCF (Variant Call Format)
VCF
Como resultado de la utilización de los 4 variant caller se generan 4 ficheros de variantes en formato VCF
(Variant Call Format)
El formato VCF esta formado por dos secciones, el encabezado que se encuentra al comienzo de cada
fichero y empieza con los símbolos “ ## “.
El campo INFO contiene información referente al software empleado para la llamada de variantes.
El otro campo se corresponde con las anotaciones y está formado habitualmente por 9 columnas
● CHROM Cromosoma.
● POS Posición de referencia.
● ID Identificador en la base dbSNP (si está presente). En esta tesis no se ha usado
● REF Base de referencia. En las inserciones, señala la base previa.
● ALT Variación encontrada (alelo alternativo).
● QUAL Puntuación de calidad de la variación ALT.
92
Materiales y métodos
● FILTER Filtros. PASS indica que ha pasado todos los filtros; si no pasa alguno, lo muestra. En esta
tesis no se ha usado
● INFO Información adicional de cada anotacion. Tiene muchas posibilidades
● FORMAT GT. Genotipo. Muestra 2 valores separados por una barra (alelos diploides). Para los
alelos de los cromosomas X o Y sólo se da un valor.
0/0 la muestra es homocigota para el alelo de la referencia
0/1 la muestra es heterocigota presenta el alelo de referencia y un alelo alternativo.
1/1 la muestra es homocigota para el alelo alternativo.
Para integrar la información procedente de los 4 variant callers se utilizó el paquete vcftools, con el
siguiente comando,
Para obtener los datos de cada VCF frente a la lista de variantes generada artificialmente se utilizó el
comando
Este comando se utilizó para cada una de las posibles combinaciones entre los 4 variant callers y los dos
alineadores utilizados (BWA-mem y Stampy).
Métricas de calidad
Cobertura
La cobertura nos indica si una región esta presente o no después de realizar el alineamiento. Las técnicas
de captura o de amplificación de las secuencias, así como la propia secuenciación, pueden provocar que
alguna región concreta no se secuencie completamente y por ello se pierda información de una o varias
regiones.
El resultado muestra todas las regiones que no están cubiertas por al menos una lectura
93
Materiales y métodos
Profundidad
La profundidad es el número de veces que una posición determinada sale representada y es uno de los
factores determinantes para evaluar la fiabilidad del nucleótido asignado a una posición del genoma.
Para su calculo se utiliza
El archivo resultante se puede leer en formato tabulado e incluye los datos necesarios para una correcta
anotación de cada variante en términos de su función en la proteína, también incluye la frecuencia con
la que esa variante ha sido encontrada en diferentes bases de datos como 1000G , ExAC, clinvar y ESP6500.
Filtrado de Variantes
Para el filtrado de variantes se usa el algoritmo diseñado por Health in code y con la ayuda de su base de
datos que cuenta con más de 60000 variantes encontradas en pacientes con enfermedades cardíacas
congénitas. La figura 36 muestra el esquema de filtrado de variantes.
Una vez se ha realizado la clasificación de patogenicidad, las variantes son asociadas en tres campos: No
Patogénica, posiblemente patogénica, y patogenicidad incierta, se realiza una clasificación en función de
la calidad y la cobertura de las variantes, solamente se descartan las variantes de baja calidad si no son
patogénicas.
94
Materiales y métodos
En último lugar se realiza una clasificación manual para las variantes de patogenicidad incierta.
Figura 35. Esquema para el filtrado de variantes utilizando el sistema desarrollado por Health in code
Para la correcta identificación de las variantes estructurales, las muestras que se analizan conjuntamente
han de ser preparadas en la misma tanda en el laboratorio. Bajo las mismas condiciones y la calidad del
ADN de partida tiene que ser homogéneo alrededor de todas las muestras.
Para la puesta a punto del método se han utilizado dos muestras con delecciones conocidas.
95
Materiales y métodos
Las métricas de este método se calculan mediante el contaje de fragmentos por kilobase por millón de
par de bases RPKM , y se calcula para cada región descrita en el fichero BED, el cálculo de RPKM se obtiene
mediante la siguiente fórmula.
RPKM = C /(N*L)
● C es el número de lecturas que mapean contra cada región
● N es el número total de lecturas alineadas divididas por un millón
● L es la longitud de la región en kilobases
[Link]
Este parámetro se calculó para cada muestra a fin de obtener el número de lecturas esperadas y el de
observadas. Si la razón entre los esperados y los observados es menor de 0.5 indica una deleción en
heterocigosis y si la razón es mayor de 1,4 implica una duplicación.
Además se calculó la frecuencia alélica para las variantes tipo SNPs encontradas en la región de interés.
En el caso de las deleciones en heterocigosis se deberían observar pérdidas de heterocigosidad en dicha
región y en el caso de las duplicaciones el porcentaje alélico debería de estar alterado.
Se analizan todas las lecturas que tengan una distancia superior a 4 veces la media de todas las lecturas
procesadas. Y se ordenan por posición cromosómica. Para este paso nos fijamos en la columna 9 del
fichero BAM (TLEN).
Se utiliza el programa Delly para la llamada de variantes, y se revisa el número de lecturas que soportan
la variante. Si son más de 3 lecturas las que soportan la variante se revisa en el IGV
Para ver si la lectura cubre el punto de rotura se utiliza la información recogida en el campo CIGAR. Y se
busca información sobre hard clip o softclip.
96
Materiales y métodos
Visualización de alineamientos
[Link]
Primeramente se realizaron búsquedas bibliográficas buscando variantes asociadas a distintos genes que
estuviesen relacionadas con el desarrollo de enfermedad cardiovascular de origen genético
(cardiomiopatías, canalopatias, enfermedad familiar de la aorta y dislipidemias familiares). Esta tarea fue
realizada por el departamento de cardiología de la empresa Health in code
En una primera revisión se encontraron 126 genes. El total de bases cubiertas fue de 1951876 pb totales
incluyendo regiones exónicas e intrónicas. Para realizar este diseño de sondas, se utilizó la herramienta
Earray (actualmente ha sido substituido por la herramienta Suredesign) de Agilent Technologies. Se utiliza
en la nube. , se puede acceder desde:
[Link]
En el diseño se cubrieron todos los exones de los genes de interés mas 100 pb flanqueando el exón. El
tilling (número de sondas solapadas que cubren cada región) fue de 2x lo que garantiza que cada base del
diseño esté cubierta por al menos por 2 sondas diferentes.
● En el primer grupo de sondas fueron introducidas las regiones de interés, se elige un tilling de 5x,
la opción Max Performance y Modelately stringent. Este paso cubre todas las regiones con al
menos 5 sondas solapantes y dejando sin cubrir las regiones repetitivas
97
Materiales y métodos
● El segundo grupo de sondas se utiliza para cubrir las regiones repetitivas, se utiliza un tilling de 2x
, Max Performance y least stringency.
● Tercer grupo de sondas en el caso de que alguna región no esté cubierta, son las zonas repetitivas.
Tilling de 2x , no boosting y no masking.
● Se utilizó un cuarto grupo de sondas para cubrir las regiones con alta incidencia de CNVs, en este
grupo de sondas solo se incluyen posiciones intrónicas tratando de cubrir el gen entero en el caso
de que dicho gen sea de un tamaño manejable, por ejemplo FBN1 o se colocan sondas espaciadas
a un determinado número de bases para como en el caso de la DMD.
98
Resultados
Resultados
99
Resultados
Haloplex y SureselectXT
Una de las primeras diferencias que nos hemos encontrado fue a nivel de diseño de las regiones a estudiar,
la tecnología basada en Haloplex no tenía la posibilidad de colocar sondas en cualquier región del genoma
como si ocurría con Sureselect.
Se estudiaron en paralelo 16 muestras con las tecnologías Haloplex y Sureselect para comparar los
resultados. Fueron secuenciadas en un Hiseq2000 de Illumina. Solamente se analizaron las regiones en
común que compartían ambos métodos de enriquecimiento; y para las variantes solamente las muestras
pareadas que resultaron ser 9. Para la detección de las variantes fue utilizado el software Surecall de
Figura 36. Representación de las profundiadades medias de cada exón incluido en el panel a lo largo del genoma para los
enriquecimientos de SureSelect y Haloplex
100
Resultados
Agilent Technologies, Inc., ya que presentaba un algoritmo optimizado para el caso de Haloplex. Se
cuantificaron la cobertura y la profundidad de las muestras.
En el caso de las muestras preparadas con Haloplex, la profundidad varió drásticamente en cada exón
como se puede ver en la figura 37 (pagina anterior), donde se han representado las profundidades de los
dos métodos de captura a lo largo de todo el genoma. La profundidad presentada por SureSelectXT fue
más homogénea.
Los valores de profundidad media de Haloplex fueron de 235.8X, mientras que los valores de profundidad
media de SureselectXT fueron de 325.5X.
Los coeficientes de variación de Haloplex y SureselectXT de las profundidades de la suma del total de las
regiones donde se realizó el diseño, fueron respectivamente 0.87 y 0.32.
En cuanto a las regiones sin cobertura, las muestras procesadas por Haloplex representaron un 3% del
total de las regiones, mientras que en las muestras procesadas por Sureselect, esta proporción fue menor
del 1%.
La figura 37 muestra las diferencias de ambos métodos de captura a nivel del gen LMNA. Existen
diferencias significativas en la profundidad que se obtiene por cada método. Haloplex presenta zonas de
máxima profundidad de 6500X y regiones sin cubrir, mientras que con Sureselect no aparecieron zonas
exónicas sin cobertura.
Figura 37. Se representan las profundidades entre SureSelctXT y Haloplex a nivel del gen LMNA.
101
Resultados
La máxima profundidad alcanzada en ese gen en muestras procesadas con Sureselect fue de 512X.
En la figura 39, se puede observar la representación de las lecturas que alinean contra el gen FUS, que no
está incluido en el diseño del panel. Al procesar las muestras con Sureselect, pueden apreciarse lecturas
esparcidas a lo largo de este gen, generando lecturas fuera de la región de interés, lo que se denomina off
target. Sin embargo, con Haloplex no se observaron lecturas cubriendo este gen. Estas lecturas en
regiones inespecíficas hacen que el enriquecimiento mediante Sureselect no fuese tan alto como con
Haloplex, presentando valores de enriquecimiento de 70% y 97% respectivamente.
Figura 38 Representación del off target generado por cada uno de los métodos utilizados. Las regiones off target aparecen como
están marcadas en un rectángulo rojo correspondiente a la muestra de Sureselect, la muestra correspondiente a haloplex no
presenta , marcada con un rectángulo azul no presenta off target.
En cuanto a las variantes encontradas mediante las dos técnicas, se puede observar una concordancia del
88.5%, los resultados pueden verse en la figura 40.
102
Resultados
La metodología Sureselect consiguió detectar más variantes que Haloplex. Un ejemplo puede verse en la
figura 41, donde se aprecia una variante A>G en una región de 35X de profundidad con un balance alélico
de 43/57, mientras que en la muestra con Haloplex, esa variante no fue detectada.
Tras la revisión manual en el IGV se encontró que esa posición también contaba con una profundidad de
35X con la tecnología Haloplex, para la sustitución de A>G, pero en este caso, el balance alélico fue de
83/17, razón por la que el variant caller no pudo detectar la variante. Otra posible razón por la que esta
variante en Haloplex haya pasado desapercibida fue porque presentaba un sesgo de cadena. En el IGV,
las cadenas positivas se representan en rojo mientras que las cadenas negativas en azul. Las lecturas
alinean contra cualquiera de las dos cadenas, pero algunos variant callers necesitan que las variantes
estén presentes en las dos cadenas para poder ser llamadas. En este ejemplo son Sureselect la variante
está presente en 6 lecturas alineadas contra la cadena positiva y en 14 alineadas contra la cadena
negativa, en el caso de Haloplex solamente aparecen lecturas con la variante alineadas sobre la cadena
positiva.
Otro ejemplo de discrepancias en la detección de variantes se puede ver en la figura 42. En este caso, se
observó la presencia de dos cambios en la muestra preparada con Sureselect, mientras que la misma
muestra procesada por Haloplex presentó un hueco en la cobertura con lo que no se pudieron detectar
esas dos variantes en heterocigosis, produciendo dos falsos negativos. Además, Haloplex detectó una
variante en heterocigosis (señalada en amarillo), en un porcentaje cercano al 50% que no fue detectada
103
Resultados
por Sureselect. En esa variante, se alcanzó una profundidad de 439X para esa posición y solamente
aparecía el cambio de A>C en una única lectura, lo cual indica un error por alguno de los dos métodos.
En otro caso, se observó una inserción en la muestra procedente de Haloplex en un total de 214 lecturas,
donde la profundidad total fue de 637X, esta inserción no fue detectada por Sureselect (figura 43).
Figura 42. Error de Inserción de una G en Haloplex. No se aprecia en la ilustración mostrada en IGV pero si se muestra en el cuadro
de texto asociado al evento.
104
Resultados
En la figura 44 se muestra el mismo caso anterior, pero la gráfica corresponde únicamente a los datos
obtenidos por procesamiento mediante Haloplex. Las fechas negras y rojas hacen referencia al par de
lecturas generado dentro de la secuenciación en formato pair end, en donde cada fragmento de ADN es
secuenciado en los dos sentidos, correspondiendo a la misma única molécula de ADN. En este caso, las
flechas negras señalan a una molécula de ADN y las rojas a otra. La región de la inserción, que aparece
resaltada por una línea de coloración morada, presenta un solapamiento entre las dos lecturas de la
misma molécula. Sin embargo, la inserción solamente se detectó en la cadena positiva, lo que sugiere un
error de secuenciación.
105
Resultados
Figura 44. Resumen errores illumina En el punto (1) se observa un error aleatorio, solamente aparece en una única lectura. En el
punto (2), se aprecia un error aleatorio asociado a una región rica en homopolímeros tipo C, en este caso los errores aparecen
debido a la baja complejidad de la región. Por último, en el punto (3), aparece un error sistemático debido a problemas en el
phasing. Nótese que solamente aparece la lectura en base G en un único sentido (indicado por las flechas negras acompañando
a las lecturas), como resultado podemos llegar a la falsa interpretación de un heterocigoto.
La figura 46 muestra el error de lectura GGC de plataformas illumina, la flecha azul indica el sentido de la
secuenciación , en este el secuenciador leyó la secuencia GGC, las lectura en azul correspondientes a la
cadena negativa presenta este error el 17% , 2% y 16% pero todos esos errores solamente estaban
presentes en la cadena negativa, en la figura 47 se representa la misma región pero alineada sobre la
cadena positiva en la que el sentido de la lectura es CGG y no se detecta ningún error.
106
Resultados
107
Resultados
SureselectXT y SureselectQXT
Se estudiaron 13 muestras pareadas entre los dos métodos de preparación de librerías XT y QXT, se
utilizaron las mismas sondas de captura. Se secuenciaron en un Hiseq 1500 de Illumina. Se calculó la
cobertura y profundidad de las 13 muestras pareadas y se detectaron las variantes. Los valores de
cobertura media se pueden ver en la figura 13. El grado de enriquecimiento que se obtuvo en estas
preparaciones fue del 70% en el caso de XT, frente al 35% para el caso de QXT. El grado de cobertura fue
de un 99,9% para XT y de un 99,7% para QXT. El porcentaje de regiones cubiertas por encima de 50X fue
de 99,7% para XT y 87% para QXT.
En cuanto a las variantes detectadas por cada sistema de preparación, también se encontraron
diferencias, aunque es este caso fueron menores a las reportadas anteriormente. En este experimento la
concordancia de variantes detectadas fue superior al 98% (figura 48).
Figura 47. Representación mediante diagrama de cajas de la profundidad de las muestras preparadas con QXT y XT. En el eje de
Abscisas se representa la profundidad media para un total de 13 muestras.
La distribución de variantes detectadas por cada metodología puede consultarse en la figura 49.
108
Resultados
Las discrepancias entre ambos sistemas, correspondieron a errores presentes que se encontraron en
regiones de baja profundidad o bien en regiones de baja complejidad genómica como queda plasmado
en las figuras 50 y 51. Estas discrepancias se debieron a la falta de profundidad en algunas regiones y a la
región del genoma en donde se encontraban las variantes, ricas en homopolimeros. En la figura 14, se
puede apreciar cómo fue detectada una variante de T>G a una profundidad de 291X por la metodología
XT, mientras que por QXT esta variante no fue detectada a una profundidad de 49X.
Sin embargo, una vez realizada la inspección manual en el IGV puede verse que existen tres lecturas que
la soportan (figura 50). Una de las dificultades para llamar esta variante en ambas preparaciones fue que
se encontraba en una zona con un homopolímero de T muy extenso.
Figura 49. Error en la llamada de una variante debido a una región de baja complejidad y de profundidad baja. Se puede observar
que aparecen 3 lecturas en base G en QXT a una profundidad de 49X, mientras que con XT aparecen de manera estadísticamente
más fiable cuando se aumenta la profundidad
Por otro lado, en la figura 51 se muestra una variante no detectada por la química QXT debido a una baja
profundidad de 1X, mientras que en XT la profundidad alcanzó un 50X y esto permitió que se detectara el
cambio de T>G en heterocigosis.
109
Resultados
Figura 50. Error en la llamada de una variante a profundidad de 1X en preparación con QXT, que queda resuelto cuando se prepara
la muestra con el sistema XT
En relación a las variantes únicas detectadas por cada preparación, se determinó que tenían diferentes
patrones de sustituciones. Mientras que el sistema XT mostraba una preferencia por la sustitución G>A,
QXT mostró preferencia por A>G, C>A, T>G (figura 52). Este hecho pudo deberse a errores en el patrón de
corte mediado por la trasnposasa, tal y como se argumentará más adelante.
Figura 51. Distribución del patrón de sustitución de las variantes detectadas en cada metodología de preparación de librerías. En
el eje de abscisas se observa el número de veces x100 que aparece cada tipo de sustitución
110
Resultados
Otro punto de discrepancia apareció en una región que no se cubría en todas las muestras procesadas por
QXT, mientras que si estaba cubierta en las muestras procesadas por XT. Dicha región correspondía con
las coordenadas chr6:123851633-123851743, que formaban parte de una región exónica del gen TRDN.
La profundidad media de esta región es de 90X para XT mientras que en el exón adyacente es de 235X
En el caso de QXT la región problema no está cubierta y la media del exón adyacente es de 62X
Figura 52. Se muestran los alineamientos en el IGV del gen TRDN, centrado en el exón no cubierto por QXT
111
Resultados
Se realizó una comparación entre los datos de cobertura y profundidad de determinadas regiones del
exón 26 del gen APOB presentes en el diseño de los exomas anteriormente mencionados (figura 18),
frente a muestras de nuestro panel personalizado que presentaban también dichas regiones en su diseño.
En los exomas se obtuvieron unas profundidades medias de 113X con una desviación estándar de 59,2.
En ese sentido, para reducir el sesgo de las métricas, se utilizaron muestras analizadas con los paneles
personalizados que tuvieran una media de profundidad similar 122X , con una desviación típica de 37,5.
Se calculó el coeficiente de variación, que fue 0,52 para los exomas y de 0,30 para el panel personalizado.
Adicionalmente, en la figura 54 puede apreciarse también como todo el exón 26 del gen APOB está
cubierto, sin embargo, su profundidad presentó fluctuaciones a lo largo del gen en diferentes puntos del
mismo. Cabe destacar que este exón tiene una longitud aproximada de 7,6 kb, la cual se considera extensa
y que puede originar problemas de uniformidad.
112
Resultados
Figura 53 Variación de la profundidad a lo largo del exón 26 de APOB, el recuadro rojo muestra los datos de exomas, el panel
customizado se muestra en azúl.
En la siguiente figura 55, podemos observar que se encontraron regiones de estudio que no estaban
cubiertas o con una profundidad insuficiente en el exoma (rectángulo rojo), como es el caso de regiones
en los genes PKP2 y KCNQ1, que si presentaba buena profundidad en el panel personalizado (rectángulo
azul).
113
Resultados
Figura 54 Resultados de los exomas frente al exón 2 del gen PKP2 y el exón 1 de KCNQ1, ambos con profundidad
insuficiente
114
Resultados
Hiscan vs Hiseq
Se realizó una preparación de 16 muestras mediante SureSelectXT y se cargaron en dos líneas del Hiscan
y en dos líneas del Hiseq.
Para calcular los errores producidos por los secuenciadores se utilizó la herramienta informática
ErrorPerCicle contenida en el paquete GATK. Los datos obtenidos se pueden observar en forma de gráfica
en la figura 56.
Se calcularon las correlaciones de Pearson entre los valores de qual y la tasa de error dando resultados
por encima del 0.97 para las 4 líneas.
figura 55 En la parte de la izquierda se muestra los errores producidos por el Hiscan, en la de la derecha, los producidos por el
Hiseq. El eje X muestra en primer lugar el valor de qual asignado, en el eje Y, el número de ciclo secuenciado.
115
Resultados
Se calcularon las correlaciones de Pearson entre los valores de qual y el tasa de error dando resultados
por encima del 0.97 para las 4 líneas secuenciadas.
Puede observarse que los errores tienen una correlación positiva con la calidad (qual) que da el
secuenciador, mayor qual, menor número de errores. También se calculó la reproducibilidad de datos
entre líneas, mediante la ya mencionada correlación de Pearson. Se observó un 93% de errores detectados
en las mismas posiciones en el Hiscan, mientras que descendió hasta el 51% en el caso del Hiseq, lo que
indica que los errores en el Hiseq fueron más aleatorios.
En cuanto al número de lecturas generadas por el Hiscan en cada línea, ronda los 80 millones de lecturas,
obteniéndose más del doble del valor en el Hiseq, 180 millones. Se procedió al cálculo de errores
presentes en cada lectura producida.
La tasa de error Hiseq, fue superior a la del Hiscan, el 50% de las lecturas producidas por el Hiseq en esta
carrera presentó al menos un mismatch frente a la referencia, para el Hiscan el 90% de las lecturas no
presentaban ningún mismatch (figura 57).
Figura 56. Gráfica del porcentaje de error en las lecturas. En eje de abscisas, se indica el
porcentaje de error, mientras que el eje de ordenadas, se muestra el número de errores
dentro de la misma lectura.
116
Resultados
Los datos de profundidad media de las muestras fueron de 151X para el Hiscan, manteniendo el 98% de
las regiones cubiertas, mientras que para el Hiseq fueron de 425X y más del 99,9% estaba cubierto.
Los datos de detección de variantes obtenidos por el Hiscan se eliminaron del estudio por su baja calidad
de cobertura, centrando el análisis únicamente en los datos obtenidos en las dos líneas del Hiseq. Así
pues, se detectaron un total de 33216 variantes, de las cuales 31312 fueron detectadas en común por las
dos líneas ya que cada línea había detectado por un lado 1216 variantes exclusivas de esa línea y 256 de
otra, haciendo que el porcentaje de discrepancia fuera del 5,73%.
Debido a estas diferencias, se calculó la correlación en la profundidad de cada una de las muestras, dando
como resultado una correlación del 98% entre los duplicados de cada muestra (figura 58.a).
Se observó que un 24,5% de las lecturas producidas en ambas líneas eran diferentes, lo que sugirió que
no procedían de la misma molécula. Posteriormente, se procedió a la detección de las variantes de nuevo
y se concretó la pérdida de las variantes individuales encontradas en cada duplicado. No obstante, se
obtuvieron 341 nuevas variantes, las cuales no habían sido reportadas anteriormente, todas ellas en
regiones intrónicas, lo cual puede ser indicativo de errores vinculados a la secuenciación.
a b
Figura 57. (a) correlación existente entre la profundidad encontrada en una muestra por duplicado para las zonas a estudiar. (b) Número de
variantes detectadas en función del número de lecturas totales.
117
Resultados
Se detectaron un total de 9520 variantes, presentando unos resultados en común de solo el 29,5% de
todas las variantes en las 3 plataformas. Sin embargo, una vez que se eliminaron las regiones de
profundidad inferior a 10x, el porcentaje de variantes que compartían aumento a 66,2%.
Por último, se estudiaron un total de 333 variantes exónicas y se encontró un 83,8% en común (figura 24).
Un dato significativo fue que empleando como secuenciador el Nextseq, se observó un mayor número de
variantes no detectadas por los otros secuenciadores. Este hecho será discutido en mayor profundidad
en sucesivos apartados.
En la figura 60 se muestran los datos correspondientes del alineamiento en el IGV procedente de una
misma muestra y los distintos resultados de secuenciación en función de la plataforma empleada.
De este modo, se puede apreciar una variante en el gen MYH7 solamente en el alineamiento
correspondiente al resultado arrojado por el Nextseq, en el que presenta una profundidad de 304X y el
cambio de G>C aparece 75 veces, 74 sobre la cadena negativa y 1 sobre la cadena positiva. En las muestras
del Hiseq y del Miseq, este resultado no aparece.
118
Resultados
Hiseq
Nextseq
Miseq
Hiseq vs Nextseq.
Se detectaron un total de 57960 variantes entre las 21 muestras por duplicado. El Nextseq presentó casi
4 veces más variantes únicas a nivel genómico en su secuencaición que el Hiseq. En cuanto a las variantes
presentes en exones, el Nextseq notificó casi 23 veces más (525), que las identificadas por el Hiseq (23).
Se calculó el porcentaje de lecturas que contuvieran de 0 a 5 mismatches (figura 61). Los resultados
muestran que el Hiseq tiene un 54% de lecturas con 0 mismatches mientras que el Nextseq presenta un
68%.
119
Resultados
A partir de 4 mismatches por lectura, los datos procedentes del Nextseq son superiores a los mostrados
por el Hiseq, lo cual implica una mayor tasa de error.
Figura 60 Se muestra los porcentajes de lecturas con diversos mismatche para los dos secuenciadores
Comparación de alineadores
Se alineó una muestra sintética con 2134 variantes contra un genoma humano de referencia (versión
hg19). Se utilizaron los alineadores BWA y Stampy, generando un alineamiento a distintas profundidades:
50X, 100X, 400X y 1000X.
Los datos de cobertura no variaron entre los dos alineadores. Sin embargo, se observó que Stampy
descartaba más lecturas que BWA (Tabla 3).
Se calculó el tiempo de alineamiento para la muestra de 1000X en formato pair end. En este punto, BWA
mostró un tiempo de procesado inferior a 1 hora, mientras que Stampy necesitó alrededor de 10 horas
para completar la misma acción.
120
Resultados
media sd no mapeadas
BWA50 58.3 20.9 60
BWA100 116.7 39.7 67
BWA400 454.2 148 287
BWA1000 1072 338 685
Stampy50 58.3 20.9 274
Stampy100 116.7 39.7 455
Stampy400 454.2 148 1963
Stampy1000 1072 338 5104
Se utilizaron 8 diferentes combinaciones de pipelines para detectar las 2134 variantes introducidas en la
muestra in silico.
Siendo:
Los resultados de la simulación figura 61 muestran que las predicciones realizadas por el GATK-HC tienen
una sensibilidad similar, independientemente del alineador utilizado, debido a una mayor complejidad de
su algoritmo (ensamblaje de novo alrededor de las variantes, descrito en el apartado materiales y
métodos).
121
Resultados
En cuanto a los falsos positivos, podemos decir que han sido producidos aleatoriamente en todas las
lecturas. Su eliminación en esta simulación se podría conseguir mediante un filtrado con unos valores de
qual altos. Sin embargo, en regiones de baja profundidad este tipo de filtro también podría eliminar
verdaderos positivos, razón por la que se ha decidido no aplicar filtros de ninguna clase.
Al mismo tiempo, se han encontrado zonas con una alta profundidad en la que las variantes no han podido
ser detectadas. En este sentido, se puede ver la figura 62 como una variante que no fue detectada por
los 4 variant caller a una profundidad de 63X para un cambio de G>C, la variante se encuentra en ambas
cadenas en un porcentaje similar (18 en cadena positiva 12 en la negativa) y ningún pipeline fue capaz de
detectarla en las simulaciones a 50X y 100X.
122
Resultados
Figura 62. Alineamiento de la muestra sintética que muestra una sustitución G>C que no ha sido llamada por los pipelines.
Se buscaron regiones que presentaban una mapabilidad de 0 (mq=0) indicativo de zonas de alineamiento
múltiple (secuencias repetidas del genoma), en las cuales en caso de que una variante tuviese lugar, no
sería posible asegurar que dicha variante perteneciera a ese locus. Por lo tanto, había que evaluar si añadir
estas regiones al panel personalizado. Un ejemplo de este suceso aparecía en el exón 27 de MYH7, el cual
tiene la misma secuencia que el exón 26 de MYH6.
Esta región presenta 481 bases idénticas. En el caso del alineador BWA, esas lecturas aparecen con una
calidad de mapeado de 0 sobre 60, por lo aparecen las lecturas coloreadas de blanco, ya que IGV identifica
así las regiones con mq=0. (figura 64)
En el caso del alineador Stampy, se le asignó a la región problema una calidad de mapeado de 3 sobre 99,
motivo por lo que en la representación por IGV, no aparecen coloreadas de blanco. Ningún alineador
123
Resultados
puede distinguir a qué región concreta corresponde una zona con mq=0. Por lo tanto, en este caso
particular donde aparecen regiones de alineamiento múltiple, solamente las lecturas que comienzan fuera
de la región son alineadas con propiedad.
Figura 63. Alineamiento de los exones 26 MYH6 y 27 MYH7 , los alineamientos procedentes del BWA de muestran en rectángulo rojo
y los de Stampy en azul.
Otras regiones fueron con las mismas características fueron encontradas (tabla 4)
Se comprobaron estos resultados con las pistas del UCSC genome browser, self chain y segmental dups.
Sin embargo como puede verse en la figura 64, para el caso de MYH7 todo el gen está contenido dentro
de la pista self chain, pero la simulación solo marca problemas de alineamiento en la región del exón 27
(marcada con flecha roja). figura 65
124
Resultados
figura 64 Imagen obtenida del UCSC genome Browser donde se puede ver el gen MYH7
Otro caso es el gen CEL, (figura 66) que se encuentra marcado por el track de segmental dups, sin embargo
el alineador es capaz de diferenciarlo correctamente. Este gen CEL no se ha incluido en los paneles de esta
tesis.
a b
figura 65. a) Se muestra una captura de la región genómica del gen CEL contenido en un segmento duplicado, señalado con la
flecha roja. b) El alineamiento de una simulación para el gen Cel, presentando una mapabilidad superior a 0.
Una posible explicación a este fenómeno ocurre si hacemos un blat de la región completa del gen. Muestra
un score de 6122 y una identidad de 96.7% con la región homologa, se encuentra en la posición genómica
chr9:135,956,013-135,962,783 pero presenta pequeñas diferencias en forma de unas pocas bases 1-3pb
que hacen que el alineamiento se pueda llevar a cabo con éxito, los resultado se muestran en la figura 67
Figure SEQ Figure \* ARABIC 3 En la parte izquierda se muestra el gen CEL incluido en una región duplicada, sim embargo
125
Resultados
figura 66 En la parte superior se muestra el resultado del BLAT para el gen CEL completo, en la parte inferior se
muestra la región genómica que presenta una identidad del 96,7% con el gen
Otro ejemplo fue el del gen LPA, donde los exones del 4 al 19 se encuentran en una región duplicada en
el genoma, . Cualquier variante entre estas regiones no sería capaz de distinguirla.
a b
figura 67 a) Se muestra la región genómica que comprende los exones 4 a 19 del gen LPA, la flecha roja indica una región duplicada
que cubre los genes del 4 al 19. b) Muestra los resultados de la simulación con alineamientos de con una mapabilidad de 0.
Los resultados de la simulación mostraron regiones de baja profundidad a lo largo de todo el diseño, se
compararon las profundidades de las regiones de la simulación con las muestras de la tanda del Hiscan vs
Hiseq, presentó una correlación lineal de 43% para las profundidades de cada exón.
Se encontró una relación entre las regiones de profundidad menor de 30x, las regiones de baja
profundidad tienen una correlación del 72% con la muestra simulada a profundidad de 400x, las regiones
126
Resultados
afectadas se pueden consultar en el anexo E y un ejemplo puede verse en la figura 68 a) donde se puede
ver por un lado el exón 1 de KCNQ1 en donde en la simulación presenta una profundidad de 12x y en la
muestra real una profundidad de 6X. en la figura 69 b puede verse el mismo resultado en el gen APOB
donde en la simulación presentó una profundidad 12X y la muestra real 18X
b
a
figura 68 Se muestran dos regiones genómicas con baja profundidad . la imagen de la izquierda es el exón 1 del gen KCNQ1
mientras que la de la derecha es el exón 1 de APOB.
127
Resultados
Preparación de la muestra
El método de preparación elegido fue SureselectXT paneles personalizados. El secuenciador elegido fue
Hiseq1500 de Illumina.
El protocolo de laboratorio se estableció en 5 días, (figura 69)de lunes a viernes, disponiendo del fin de
semana para llevar a cabo la secuenciación de forma completamente automática.
128
Resultados
El día 2 se empezó la preparación de las librerías incluyendo los pasos de reparación de extremos , adicción
de la Adenina a cada extremo , la ligación de los adaptadores, la amplificación del genoma, medida de la
concentración y su liofilización y posterior resupensión en el volumen necesario.
Secuenciación de la muestra
En este paso se trató de conseguir el mayor número de lecturas utilizables, deben de pasar los filtros
establecidos por el fabricante. Se hizo una calibración entre la concentración de entrada en el
secuenciador y el número de lecturas generado.
tabla 5 Relación entre concentración, la densidad de clusters generados y los millones de lecturas que pasan los filtros. En el
Hiseq1500.
Estos datos se generaron utilizando la química V1 para el Hiseq1500 en modo rápido. Para una correcta
evaluación de las muestras, fue fundamental una correcta medida de cada muestra individualmente,
después de varios intentos se consiguió que cada muestra en el pool se obtuviera un número de lecturas
similar, para lograr esto fue fundamental utilizar la medida por duplicado del qubit junto con la longitud
de los fragmentos generados por la tapestation o el bioanalizer.
La figura 71.a muestra una mala cuantificación de cada muestra como resultado de una carrera de
secuenciación en la que el pool de muestras no estaba equilibrado, muestra un coeficiente de variación
del 0.91, mientras que en la figura 71.b en la que se presenta un pool equimolecular el coeficiente de
129
Resultados
variación es de 0,11. La profundidad entre las muestras de la tabla de la derecha es mucho más
homogénea que entre las muestras de la tabla de la izquierda.
Para la secuenciación se utilizó el modo rápido y se cargaron 16 muestras por carril. Para garantizar una
cobertura máxima.
A B
Figura 70 Se muestran dos tablas generadas por el software del secuenciador con resultado del número de lecturas por
muestra
a b Figura 71 Se muestra la
frecuencia alélica de las snps
presentes en el diseño, la
imagen de la izquierda
muestra no contaminada, la
imagen de la derecha
contaminada
130
Resultados
En la figura 72 a se puede ver como existen 3 grupos de frecuencias alélicas , los homocigotos con la
referencia se representa como 0 , los homocigotos alternativos representados somo 100 y los
heterocigotos que ocupan mayormente el rango entre 35 y 60. En la b se puede ver que que el rango de
los heterocigotos es un amplio rango desde 10 a 90 %, lo que es indicativo de una contaminación de la
muestra.
Se utilizaron los 4 variant callers conjuntamente para llamar a las variantes de las muestras.
La figura 73.1 muestra la distribución de todas las variantes detectadas, en azul las detectadas en los
cuatro variant calllers en común, en verde la suma de las detectadas solamente por cada uno de los
variant callers, en amarillo las detectadas por cualquier combinación de dos variant callers y que no
aparecieron en los demás, en rojo lo mismo para tres variant caller en común. La figura 73.2 muestra el
131
Resultados
ratio presentes en dbsnp/detectadas para cada uno de los cuatro variant caller y en común. La figura73.3
muestra el ratio Ts/Tv de las variantes detectadas por cada variant caller y las que presentan en común.
La figura 73.4 muestra los datos.
Estos resultados muestran cómo el 82,4% de las variantes son detectadas por los 4 variant callers, con un
ratio Ts/Tv de 2,60 estando presentes en dbsnp el 92.5%.
Para una mayor comprensión del funcionamiento de las indels, se han estudiado, las indels de 15 muestras
procedentes de varones a los que se le estudiaron las indels del cromosoma X.
Para ver en más detalle la gran discordancia, se realizó una inspección manual de las variantes, se vio que
las anotaciones no eran correctas entre los distintos variant caller, pero la posición de inicio de cada de
cada variante tenía una coincidencia mayor. Los datos pusieron de manifiesto que Samtools es el que peor
detectó las indels, pero sin embargo mostro una gran sensibilidad al anotar su genotipo, dando la gran
mayoría como homocigotos, un dato que no presentó el GATK-HC, en este caso en particular muestra
valores cercanos al 50% en la detección de variantes descritas, sin embargo muchas de ellas son anotadas
como heterocigotos en lugar de homocigotos que sería lo correcto.
132
Resultados
Los resultados del annovar mostraron la anotación de la variantes procedentes del vcf, por un lado se
encuentran las coordenadas cromosómicas de la variante, su función (exonica, intronica) su función
(sinónima , no sinónima..) el gen al que pertenece, y el cambio que produce a nivel del aminoácido.
Se incorporaron a este fichero una serie de datos poblacionales de diferentes bases de datos como
1000G, ExAC, ESP6500 etc. También fueron incorporados bases de datos especificas de patogenicidad
como Clinvar y Cosmic, y por último se incluyeron los predictores de variantes , Sift , Polyphen y Mutation
taster.
Detección de CNVs.
Para la puesta a punto de esta metodología se utilizaron dos muestras en las que habían sido reportadas
dos deleciones:
● GLA chrX:100654344-100657483
● RYR2 exon 3
Ambas variantes fueron detectadas previamente por MLPA en un laboratorio externo.
La muestra con la delección en GLA, El resultado mediante PEM Y SR fue una deleción que abarca las
posiciones chrX:100654997-100657178 Mientras que el resultado mediante DOC mostraba una deleción
en los exones 5 y 6. Los resultados muestran una una región no cubierta en heterocigosis de alrededor
133
Resultados
2100 pb , mientras que la media se encuentra a 210pb, lo que es indicativo de una reorganización
cromosómica (figura75.a). En la figura 75.b se puede ver como en la lectura, los nucleótidos del extremo
3' no coinciden con la referencia relizando un soft clip, sin embargo estas lecturas tienen una calidad de
60 de mapeado, este soft-clip nos da el punto exacto donde es la rotura. En la figura 75.c se muestra
otro soft-clip que marca el inicio del punto de rotura. Utilizando métodos basados en profundidad de
cobertura también se ha detectado (tabla7).
tabla 7 Se muestra los resultados de la llamada de CNV mediante profundidad de lectura para las dos muestras
Reads.e
CNV [Link] [Link] xpected [Link] [Link] Gen
chrX:100655235
Deletion 2 -100657139 1808 1239 0.685 GLAexon5
chrX:100655235
Deletion 2 -100657139 1808 1239 0.685 GLAexon6
chr1:237494128-
Deletion 1 237494336 563 311 0.552 RYR2exon3
En el caso de la delección de RYR2 exón 3, el análisis mediante PEM , únicamente da una lectura que cubre
el evento , lo cual no es suficiente para su correcta detección. Sin embargo, el análisis de las coberturas
normalizadas, da claramente que el exón 3 está delecionado, al mostrar una cobertura inferior a la de los
controles como se puede ver en la tabla 7 . La figura 76 muestra solamente una lectura con un tamaño
del inserto cercano a 1600 pb lo cual no es suficiente para su detección con fiabilidad mediante PEM. La
figura 48 muestra solamente una lectura con un tamaño del inserto cercano a 1600 pb lo cual no es
suficiente para su detección con fiabilidad, por otro lado, mediante la deficiencia en la cobertura mostrado
en el método DOC (tabla 7) y con los SNPs en heterocigosis (círculos) que se muestran en la imagen se
puede llegar a delimitar el evento, aunque no se obtengan las coordenadas concretas.
Estas variantes son muy pequeñas, menores de 3000 pb , pero esta metodología empleada también sirve
para cnv de mayor tamaño como es el caso de la figura 77, se puede observar una deleción en
heterocigosis de los últimos 32 exones del gen FBN1.
134
Resultados
B C
Figura 75. Se muestra el alineamiento de la muestra que presenta la delección en el exón 3 de la RYR2 , la flecha
marca la única lectura que soporta la deleción mediante PEM.
135
Resultados
Se obtuvieron las coordenadas del evento 15:48692459-48765158, 72699 bp y se vió que se introducía
en el espacio intergénico, esta estrategia PEM , con que una lectura del par se encuentre en la zona donde
se produce el evento es suficiente, ya que la otra quedará alineada donde le corresponda.
Los resultados mediante DOC también mostraron la delección del los últimos exones de FBN1
Figure SEQ Figure \* ARABIC 17 Imagen del alineamiento de una muesra con una delección en el exón 3 de RYR2 en
Figura 76 Se muestra una delecion en el gen FBN1 de los últimos 32 exones. Se puede ver que la distancia del pair end es mas
grande de los normal (líneas rojas)
Otro ejemplo fue el caso de una Duplicación. Mediante DOC se encontraron duplicados los exones 44-48
además existe un snp con unas unas proporciones de frecuencia alélica de 3:1 lo que ayuda al método de
DOC a que la predicción sea más sensible. Por otro lado, mediante el análisis PEM , se puede observar que
una duplicación en tandem, chr2:228165686-28172527; SVLEN=6841;CT=5to3;PE=8;MAPQ=60. El
alineamiento muestra lecturas en la misma orientación a la referencia, pero sentido contrario Puede
verse en figura 78.a muestra la distancia entre las lecturas, las flechas en azul representan la orientación
de las lecturas, están en sentidos opuestos lo que es indicativo de una duplicación en tándem. En la figura
78.b y 78.c se puede ver el soft-clip de las lecturas, la parte de las lecturas que presenta el soft-clip en
la 78.b alinean en la región mostrada en 78.c y viceversa.
136
Resultados
B c
Detección de inserciones
Para la detección del Polimorfismo ACE ID no es necesario realizar un ensamblaje de novo, simplemente
realizando un diseño de captura adecuado (regiones adyacentes al polimorfismo ) es suficiente para
detectar su presencia. Para ello se busca en esa región lecturas quiméricas, lecturas en las que una parte
de ella alinean correctamente, pero en la otra parte no alinean y se muestra un soft-clip
Figura 78 Se muestra una lectura quimérica en la que solamente alinea la región marcada en azul, la región marcada en roja no
alinea contra la referencia.
137
Resultados
Esta lectura es una quimera 36 bases alinean contra el gen y las primeras 65 no. Sólo han alineado 36
bases y el alineador realiza un soft-clip ,porque esa secuencia corresponde a una secuencia repetitiva Alu,
forzando a que las 65 bases anteriores se descarten por no tener referencia. Una manera fácil de ver si
esa inserción esta presente en heterocigosis o homocigosis mediante inspección visual en el IGV pudimos
ver si todas las lecturas que están alineadas sobre el aumento repentino de profundiad contiene el soft-
clip se trata de una inserción en homocigosis y si no todas los tienen son en heterocigosis.
Figura 79 Alineamiento de dos muestras con una inserción en el gen ACE, la muestra superior la presenta en los dos alelos, todas
las lecturas que alinean sobre la región presenta soft-clip. La muestra inferior, sola la mitad de las lecturas presenta soft-clip.
Chr3:38221384-38859330; LEN=637946;CT=3to5;PE=3;MAPQ=60
138
Resultados
Involucrando a los genes OXSR1, SLC22A13, SLC22A14, XLYB, ACVR2B, EXOG, SCN5A y SCN10A. Solamente
3 lecturas soportaron la delección de una media de 15X en la región. La importancia de encontrar el punto
de rotura permitió estudiar a los familiares en una única reacción de secuenciación tipo Sanger.
Otro resultado del genoma completo fue ver como al aumentar el tamaño del ADN , los exones de MYH7
y MYH6 eran cubiertos sin el problema de mapeo como se puede ver en la figura 81
figura 80 Se muestran los alineamientos con una distancia superior a 500pb y como la mapabilidad mejora para la región
del exón 26 de MYH6 y el exón 27 de MYH7
De este modo, el estudio de la posible presencia de la mutación en muestras de parientes del probando
queda reducida al análisis del amplicón obtenido a partir de los oligonucleótidos que flanquean la
delección.
139
Resultados
figura 81 Se muestra el resultado de la caracterización de una deleción de los últimos 8 exones del gen
FBN1
Del mismo modo al anterior se caracterizó una duplicación en tándem del gen DMD (83A). La comparación
de estas secuencias con el genoma de referencia utilizando la herramienta BLAT (UCSC Genome Browse)
sugirió que dichas secuencias abarcaban los extremos de una posible duplicación en tándem de ~32,4 Kb
que incluye los exones 46 y 47 de DMD (Figura 83 B). Para confirmar que dicha duplicación era real, se
diseñaron y sintetizaron oligonucleótidos a ambos extremos de la posible región duplicada. Una reacción
de PCR sobre el ADN de la muestra que presentaba la duplicación produjo un amplicón de ~500 pb que
no aparecía en muestras control. Este amplicón se secuenció por medio de secuenciación Sanger (Figura
83C) y se confirmó la presencia de una duplicación en tándem de la región cromosómica que corresponde
con las coordenadas chX:31920489-3195317.
De este modo, el estudio de la posible presencia de la mutación en muestras de parientes del probando
quedo reducida al análisis del amplicón obtenido a partir de los oligonucleótidos que flanquean el punto
de inserción de la duplicación.
140
Resultados
Figura 82. Se muestra el resultado de una caracterización del punto de rotura de una duplicación en DMD
Se realizaron 649 determinaciones mediante secuenciación sanger para confirmar los resultados de la
NGS.
219 variantes no fueron confirmadas mediante secuenciación de Sanger, presentaron una media de la
profundida de 15,5X y unos valores de qual inferiores a 50
La sensibilidad total del método fue de 63% para las variantes posiblemente patogénicas.
141
Resultados
Realizando un filtrado de qual >50 los falsos positivos se redujeron hasta 18 lo que hizo aumentar la
sensibilidad de la técnica hasta 95.5%
De esas 18 variantes solamente 3 presentaba profundidades mayor a 10x. Aplicando este filtro, la
sensibilidad obtenida fue de 99,3%.
El estudio de los CNV mostró 13 variantes relacionadas con el fenotipo del paciente.
142
Discusión
Discusión
143
Discusión
Con la llegada de las nuevas tecnologías de secuenciación al diagnóstico clínico, ya no es suficiente con
conocer la patología de interés, hace falta tener en cuenta la parte tecnológica. Actualmente existen en
el mercado multitud de alternativas para llevar a cabo una secuenciación masiva con éxito. Sin embargo,
no todas pueden ofrecer los mismos resultados y cada estrategia tiene sus puntos fuertes y sus
debilidades (74) (75).
El primer aspecto que se evalúo fue la cobertura y profundidad de las muestras, sobre la que existe gran
disparidad de criterios. En este sentido Bentley y colaboradores estimaron que a una profundidad entre
15X y 33X era suficiente para detectar variantes en homocigosis y heterocigosis respectivamente, sobre
un genoma humano completo (76).
En el trabajo publicado por Ajay y colaboradores en 2011 recomiendan 50X de profundidad (77). Al mismo
tiempo, Clack y colaboradores recomiendan una profundidad de 80X (78), mientras que otros
recomiendan profundidades entre 30X y 70X (79).
Por lo tanto, revisando la bibliografía vemos que no se ha llegado a un consenso claro en este punto. En
este estudio, se han clasificado las variantes detectadas por debajo de 10X como variantes asociadas a
una baja calidad y variantes de buena calidad cuando la profundidad asociada fue superior a 50X.
Cabe destacar que la evolución de los secuenciadores de Illuminna, permitió la obtención de cada vez un
mayor número de lecturas, empezando con el y continuando con otros modelos como el Hiscan, Hiseq,
Miseq o Nextseq.
Al ir aumentando el número de lecturas de cada muestra, las regiones cubiertas han ido aumentando, por
lo que se ha establecido una correlación positiva entre ambos parámetros.
144
Discusión
Es las pruebas realizadas con el modelo Hiseq, la práctica totalidad de las regiones exónicas estaban
cubiertas, llegando a coberturas totales en alguna de las muestras.
Los resultados mostraron la dificultad de tener una cobertura completa a lo largo de todo el panel
personalizado, independientemente del método de captura utilizado, o el secuenciador utilizado. Así, se
observó cómo con la preparación mediante Haloplex se obtuvieron unas medias de profundidad más
elevadas que las obtenidas con la tecnología de enriquecimiento Sureselect. No obstante,
sistemáticamente presentaba regiones sin cobertura, llegando éstas a ser de hasta un 3% del diseño. Por
otro lado, la tecnología de preparación de librerías Sureselect presentó un porcentaje menor de regiones
sin cubrir. Estos datos, coinciden con los descritos en el trabajo de Samorodnitsky (80), donde realizaron
una comparación entre los métodos de enriquecimiento basados en captura y los basados en amplicones,
encontrando que la profundidad es más uniforme en los primeros.
Por otra parte, hablando de la preparación de librerías mediante métodos enzimáticos basados en
transposasa, se encontró una mejora sistemática en comparación a la seguida por los métodos
tradicionales, ya que se combinan en una única reacción: la fragmentación, la reparación de los extremos
y la ligación de adaptadores (81). Esta metodología permite que se reduzca el tiempo de procesado en la
preparación de librerías. Otra de las ventajas de este protocolo, es que no requiere de un equipamiento
especial durante la preparación de la muestra como puede ser un sonicador, lo que lleva a una reducción
de costes durante todo el proceso. Por el contrario, este método es muy sensible a la cantidad y calidad
del ADN de partida. Se ha reportado que los métodos enzimáticos pueden presentar sesgo a la hora de
utilizar este tipo de fragmentación (82) (83). Probablemente ésta pueda ser la causa del sesgo encontrado
en el caso del gen TRDN, donde sistemáticamente aparecía un exón sin cubrir a lo largo de las 13 muestras
procesadas (figura 53). Este mismo resultado fue obtenido en los exomas facilitados por el fabricante.
Este tipo de errores había generado un sesgo en la detección de variantes en comparación con el
protocolo convencional no enzimático (SureselectXT), en el que aparecía una tasa más elevada de lo
normal en sustituciones G>A.
La revisión manual de esa región en el IGV detectó la presencia de dos polimorfismos: rs12198167 y
rs12198164; que estaban presentes en las muestras procesadas por la metodología XT haciendo bajar el
sesgo G>A y colocándolo en valores normales (figura 52), aumentando así la concordancia entre ambas
metodologías en lo referente a la de detección de variantes.
145
Discusión
Con los avances que se están llevando a cabo en los métodos de preparación de librerías mediante
transposasas, cada vez más empleadas (84),
es posible que pronto este sesgo sea corregido, tal y como se indica en el artículo publicado por Kia y
colaboradores donde han utilizado una mejora de la transposasa TN5 para secuenciar el genoma completo
(85).
En cuanto a la secuenciación de exomas, existen multitud de opciones en el mercado actual, pero casi dos
décadas después de la secuenciación del genoma todavía no existe un consenso en los genes que se
deberían incluir en este tipo de paneles. En este sentido, en un trabajo realizado con diferentes exomas
pertenecientes a diferentes proveedores, la longitud en megabases de cada uno es diferente, desde 45
Mb hasta 64 Mb (86).
En otro estudio, también evaluaron los exomas en función del contenido de diferentes bases de datos
como CCDS, Refseq o Ensembl (87), y otros incluso realizaron experimentos cambiando entre versiones
de exomas (78).
Un punto importante a tener en cuenta es la existencia de exones no cubiertos del exoma, como se puede
observar en la figura 55. Se han descrito ciertas mutaciones patogénicas en exones que no están cubiertos
por los exomas (88). Junto a estas regiones perdidas habría que añadir las mutaciones patogénicas
encontradas en regiones intrónicas profundas que no pueden ser estudiadas por los exomas. Por ejemplo,
en un trabajo detectaron este tipo de mutaciones en una familia con síndrome de Marfan, el resultado de
la mutación genera un nuevo donador de splicing que produce una inserción de 90 pb entre los exones
56 y 57 a nivel de cDNA, produciendo un codón de stop. Esta variante no podría ser detectada por los
exomas (89).
Los resultados presentados en este estudio, reflejan que la utilidad de nuestro panel personalizado es
superior a la del exoma, desde el punto de vista de la homogeneidad de cobertura y profundidad; tal y
como podemos ver en la figura 54.
A lo largo del gráfico, donde se muestran las profundidades, vemos que los 16 exomas presentan
alteraciones en la profundidad por toda la región, mientras que en nuestro panel personalizado estas
variaciones son mínimas. Estos datos son apoyados por los datos obtenidos en un estudio en 2017, en el
cual concluyen que los exomas presentan baja uniformidad local y global (90). Del mismo modo, en esta
publicación hacen referencia al problema de cobertura en el exón 1 del gen KCNQ1, que tal y como se
146
Discusión
muestra en la figura 55, no se encuentra totalmente cubierto en la preparación utilizando el diseño del
exoma pero si por el panel customizado.
En 2015, otro trabajo (91) realizó una combinación del exoma de Agilent y Haloplex para conseguir cubrir
las regiones no incluidas en el exoma.
La ausencia de cobertura en determinadas regiones puede influir en la aparición de falsos negativos. Así,
los paneles personalizados utilizados en este trabajo mediante la tecnología Sureselect presentaron un
coeficiente de variación inferior a lo largo de los más de 3700 exones de los que están formados. Y las
profundidades fueron más altas en comparación con los datos obtenidos al procesar las muestras con un
diseño tipo exoma.
En el trabajo publicado por Manase et al. (92) donde estudiaron la profundidad y cobertura de 50 genes
relevantes en cardiología, encontraron que solamente existía una cobertura y profundidad adecuada
(>30x) en el 64% de los 50 genes que estudiaron.
Estos datos nos sugieren que el exoma debe de utilizarse solamente después de realizar un panel con
resultado negativo para evitar falsos negativos.
En cuanto a la detección de variantes, los datos difieren según el método de captura que ha sido
empleado, como ocurre en un estudio de 2015 donde se comparó Haloplex y Sureselect junto con otras
metodologías, obteniendo valores de discrepancia que van desde el 29% utilizando el variant caller
Samtools, hasta el 14% utilizando el GATK en un total de 4 muestras pareadas (93). Aparecieron también
discrepancias según la metodología empleada cercanas al 12% en el caso de Haloplex contra Sureselect.
También muestra que utilizando Sureselect se detectan más variantes que utilizando Haloplex.
En 2015, el trabajo de Philippe y colaboradores (94) también comparó Sureselect contra Haloplex y se
detectó hasta un 20% menos de variantes que la combinación de otros métodos de enriquecimiento entre
los que se encuentra Sureselect.
Ambos resultados son similares a los que se han encontrado en este trabajo donde hemos encontrado un
12% de discrepancias a nivel de variantes detectadas utilizando Haloplex y Sureselect (figura 40), aunque
debido a que ninguna de estas variantes ha sido clasificada como patogénica por el algoritmo de filtrado
de variantes, no se han realizado comprobaciones por secuenciación Sanger para ninguna de las variantes
incluidas entre las discrepancias. Lo que sugiere que no todas las estrategias de paneles customizados
presentan la misma sensibilidad
147
Discusión
Se encontró que el error de secuenciación dependía del valor de qual asociado, a mayor qual menor error
de secuenciación (figura 56).
En el caso del Hiscan se observaron que los errores siguen una correlación directa entre ambos duplicados,
existen unas posiciones ubicadas entre las bases 20 a 40 y 60 a 80, en las que la acumulación de errores
fue más elevada.
El Hiseq, no presentó una correlación directa entre ambas líneas del mismo cartucho de secuenciación. La
acumulación de los errores de secuenciación mostró un patrón aleatorio pero dependiente del qual
asociado.
La forma en la que fue calculada la tasa de error fue diferente a la que utiliza el software del fabricante
de los secuenciadores Illumina, basado en el alineamiento de las lecturas del fago phiX174 contra su
referencia. Extrapolando el error de una carrera en un pequeño número de lecturas, normalmente inferior
al 1% del total de lecturas. Este método reconoce las lecturas que alinean contra una referencia de 5386
pb, en donde el homopolimero más largo es de solo 7 T, mientras que en esta tesis se han utilizado las
lecturas alineándolas contra el genoma humano, contabilizando de esta manera el número de bases
diferentes a la referencia y asumiendo que, al utilizar las mismas muestras, tanto los errores producidos
mediante las PCRs, como las variantes propias de las muestras son las mismas.
La tasa de error fue inferior en el Hiscan que en el Hiseq. Sin embargo, la cantidad limitada de lecturas
que suministro el Hiscan no garantizó una correcta cobertura para el panel.
Estos datos correspondientes a los errores no coinciden con los reportados en la literatura, donde el Hiseq
siempre presenta una tasa de error menor (95), (96). Sin embargo, una posible explicación puede ser la
148
Discusión
influencia en la diferente tasa de error del Hiseq de la cantidad de lecturas generadas, el número de ellas
que alinean fuera de la región de interés es mayor. Dichas lecturas, suelen estar distribuidas por todo el
genoma, por lo que lecturas que alinean en regiones que no son de estudio, pueden tener efectos
negativos en estas estadísticas debido a que el genoma está lleno de regiones repetitivas y de baja
complejidad, donde una lectura alineada puede generar un alineamiento con una puntuación más baja.
Este hecho es debido a un incremento en el número de mismatch superior al que presentan las regiones
de alta complejidad. Al generar menos lecturas, estas estarán centradas principalmente en regiones de
alta complejidad, reduciendo así los porcentajes de errores del Hiscan. Son necesarios estudios
adicionales para poder confirmar este hecho.
Otra posibilidad es que esta ronda de secuenciación en particular, no fuese satisfactoria en términos de
calidad, (alta generación de clusteres). Este grupo de muestras fueron enviadas a empresas de
secuenciación externas, y no fue posible obtener los datos crudos del secuenciador.
El estudio de las variantes de estas muestras por duplicado mostró una discrepancia cercana al 5,73 %
para un total de más de 33000 variantes, la discrepancia fue atribuida a la existencia de un 24,5 % de
lecturas diferentes entre los duplicados de la secuenciación del Hiseq. Al unirlos en un único fichero y
volver a analizarlos, esas variantes desaparecieron al aumentar la profundidad. Por otra parte, se
generaron otras nuevas que no habían sido detectadas con anterioridad, todas ellas en regiones intrónicas
de baja complejidad.
En las comparaciones realizadas entre los sistemas de illumina de 4 canales (Miseq y Hiseq) y el de 2
canales (Nextseq), éste siempre tiene una tasa mayor de detección de variantes, incluso una vez aplicado
un filtro de profundidad restrictivo para zonas con profundidad menor a 10X. Centrándonos en las 21
muestras que se secuenciaron en paralelo entre estos dos secuenciadores, el porcentaje Ts/Tv es del 0,53
% sugiriendo que las variantes son errores. Se ha descrito que la tasa de error del Nextseq es del 1%,
mientras que la del Hiseq y Miseq son del 0.1% (97). Apoyando el uso de sistemas más robustos como el
Hiseq.
Para paliar estas diferencias entre los métodos de secuenciación y poder diferenciar una variante real de
un error hace falta un conocimiento tecnológico de las técnicas utilizadas. Así pues, se han descrito
multitud de errores en los secuenciadores de Illumina, siendo uno de los más importantes las secuencias
que producen errores sistemáticos, como son las repeticiones invertidas y las secuencias GGC, como se
149
Discusión
puede ver en la figuras 46 y 47. En la publicación de Nakamura et al. (98) especulan que este error es
favorecido el phasing, inhibiendo la elongación de la bases durante el proceso de secuenciación. Este tipo
de errores sistemáticos sólo ocurre en una de las cadenas del ADN que se está secuenciando, en la cadena
complementaria. La secuencia es CCG, pero además como está siendo leído en otra orientación, el
resultado sería GCC y no está descrito como un error sistemático, lo que supone que los errores
sistemáticos son fácilmente identificables porque solamente se presenta en una orientación de la cadena
de ADN
Estos errores de sesgo de cadena son más difíciles de paliar cuando el enriquecimiento de las regiones
está basado en amplicones (80). Aunque este tipo de error GGC*G es el error sistemático más descrito en
la literatura (99) y (95) en donde describen que la tasa de error después de una secuencia GG, es más alta
que en cualquiera otra combinación de nucleótidos. También se han descrito otros errores sistemáticos
como el GGT (100) y otros que aparecen publicados en el trabajo de Allhoff et al. en 2013, donde se
describe una lista de errores no limitados a 3 pares de bases.
En relación a los dos tipos de errores (sistemáticos y aleatorios), se observa que tienen un efecto más
acusado en las regiones de baja profundidad. De este modo, mientras que los errores aleatorios pueden
ser solucionados aumentado la profundidad, los errores sistemáticos necesitan de una corrección más
elaborada como puede ser la adición de un bajo porcentaje de secuencias sintéticas a la secuenciación
para poder realizar un recalibrado de los errores de secuenciación (103), así como complicados análisis
informáticos basados en machine learning (104), o finalmente, estrategias de filtrado de datos crudos
(105).
150
Discusión
También como método para la corrección de errores, se puede emplear el Duplex sequencing, que
consiste en añadir un índice a un adaptador que se une a las dos cadenas del ADN, y las variantes
solamente son llamadas si aparecen en las dos cadenas del ADN de la misma molécula. (108) (109).
Se encontró que la mayoría de los errores sistemáticos fueron encontrados después de realizar una
revisión manual en el IGV. Este efecto ocurre en las primeras bases de cada región de interés, donde
solamente se presentaban coberturas por un único tipo de lecturas alineadas contra la cadena positiva o
la negativa. Para solventar este error se añadieron 100 pb a cada lado de nuestras regiones de interés,
haciendo de esta manera el diseño más grande y aumentando el número de lecturas alineadas en ambas
cadenas cuando la secuencia se acerca al nivel del exón.
La generación de una muestra in silico permitió la puesta a punto del análisis bioinformático, la simulación
mediante pIRS tiene en cuenta el sesgo producido en plataformas Illumina por la influencia del porcentaje
de GC y el error del secuenciador producido en cada lectura (110). La opción de generar una muestra
sintética con un comportamiento similar a una muestra real, posibilitó la construcción de un flujo de
trabajo para la correcta detección de las variantes generadas, además de proporcionar información sobre
el comportamiento de las herramientas bioinformáticas utilizadas para la construcción del pipeline con el
aumento de la profundidad generada.
Los resultados muestran que cada herramienta tiene una sensibilidad diferente según la profundidad a la
que se predice una variante. Así pues, a una profundidad media de 50X la mayor sensibilidad la
proporcionan el alineador BWA y el variant caller GATK-UG con una sensibilidad superior al 99 %; dejando
el menor número de variantes sin detectar en comparación con las otras 7 combinaciones. Sin embargo,
la tasa más baja de falso positivos la presentaba el GATK-HC sin importar el alineador utilizado.
151
Discusión
Podemos decir que la predicción de las variantes se ve influenciada por el algoritmo utilizado en el
alineamiento. Se observa al utilizar el mismo variant caller sobre cada uno de los dos alineadores
utilizados.
Aunque existen múltiples formas de comparar la sensibilidad de los algoritmos de alineamiento: basados
en porcentaje de lecturas alineadas; medición de lecturas alineadas como únicas frente a lecturas
alineadas con múltiples localizaciones; tiempo de computación y memoria empleada (48) (111) (112); en
este trabajo la evaluación se ha realizado mediante la detección de variantes conocidas y el tiempo de
computación necesario para realizar el alineamiento. En estos términos, el uso del algoritmo BWA supera
al Stampy en un total de 11 casos contra 4, en los que Stampy obtiene mayor sensibilidad. Stampy
presenta datos de sensibilidad más baja en la simulación a 1000X que en la de 400X, lo cual parece una
limitación para trabajar a altas profundidades.
En cuanto a los variant callers utilizados, la mayor sensibilidad se produce con el GATK-HC con variaciones
de sensibilidad mínimas entre los alineadores utilizados, probablemente debido a su característica de
realizar un alineamiento de novo alrededor de cada variante para ser llamada, por lo que los efectos de
los alineadores tienen menos importancia. GATK-HC es el único que consigue tener una sensibilidad del
100% cuando se llega a los 1000x de media, aunque a bajas profundidades es el GATK-UG el que presenta
una mayor sensibilidad.
Solamente se han detectado todas las variantes en las combinaciones de algoritmos a una profundidad
de 1000X, en profundidades inferiores no se han detectado todas las variantes ni teniendo en cuenta
todas las detectadas individualmente por cada combinación de alineadores y variant callers. Este hecho
junto con las variantes que tenían alta profundidad y no fueron detectadas, sugiere que los programas
utilizados para tal fin comenten errores y se puede requerir la inclusión de un quinto método de detección
de variantes basado únicamente en el número de ocasiones que aparece esa variante en el total de las
lecturas para ese locus. Esta estrategia, podría producir un sinfín de falsos positivos, pero es necesario
para eliminar los falsos negativos que pueden pasar inadvertidos por la baja profundidad, tal y como se
sugiere en varias publicaciones (113).
La simulación in silico de una muestra tiene la ventaja de conocer de una manera rápida la mapabilidad
que presenta cada región simulada. Regiones con una mapabilidad de 0 serían indicativas de
alineamientos múltiples, ya que gracias a la NGS, cada vez se están conociendo nuevos genes implicados
en las enfermedades humanas y los diseños de las regiones a estudiar cambian constantemente. Se
152
Discusión
propone esta simulación para tratar de conocer de una manera fácil y rápida el comportamiento de las
futuras regiones a estudiar antes de ordenar un nuevo diseño de sondas de captura. Ya que es capaz de
proporcionar el comportamiento de las regiones a estudiar.
Actualmente, existen herramientas que ayudan a conocer la complejidad del genoma y se encuentran
disponibles dentro del visor genómico de la UCSC, como son Segmental dups, self chain, simple repeats
entre otras. También están disponibles las herramientas típicas de mapabilidad como Duke Uniqueness
20 pb y 35 pb (114), pero la principal ventaja de la aproximación mostrada en este trabajo es que podemos
utilizar el mismo algoritmo de alineamiento que se va a utilizar para alinear las secuencias crudas.
Para la realización de estas predicciones que se muestran en el visor genómico se utilizaron diferentes
herramientas, los cálculos de la mapabilidad ya están realizados y no existe la posibilidad de incluir nuevos
haplotipos alternativos o nuevas versiones del genoma. Sin embargo, con esta aproximación es posible
tener estos resultados de cualquier genoma o haplotipo nuevo en un par de horas. Sólo es necesario
disponer de la secuencia Fasta contra la que se va a realizar el alineamiento. Mediante esta simulación
hemos descartado varios genes que se habían propuesto para el panel personalizado como LPA, debido a
que no presentaban valores óptimos de mapabilidad.
Conociendo la relación directa que existe entre la parte bioinformática y la parte experimental, se puede
llegar a modificar el protocolo para conseguir que regiones sin mapabilidad puedan pasar a tener una
mapabilidad superior. El tamaño de los fragmentos de la librería generada tiene una relación directa con
este paso (115), de esta manera, modificando la primera parte del protocolo, aumentando el tamaño
del fragmento medio generado de 200 pb a 800 pb se puede ver como la mapabilidad aumenta en
regiones que antes presentaban valores de 0, como es el caso del Exon 27 de MYH7, en el que ahora
puede apreciarse como ha mejorado este parámetro (figuras 64 y 81).
Aunque la simulación de las lecturas no es capaz de predecir la profundidad en cada región, si se han
encontrado zonas en las que la profundidad es inferior a la media, posiblemente relacionado con el
porcentaje en GC que es un factor que el programa pIRS tiene en cuenta, como muestra la figura 69. Este
hecho ha servido para reforzar ciertas regiones en el proceso del diseño de sondas, aumentando el
número de éstas en esas regiones.
153
Discusión
Una vez evaluadas las distintas estrategias de sistemas de enriquecimiento, preparación de librerías, y
sistemas de secuenciación, se optó por elegir como mejor método, el sistema SureselectXT. En cuanto al
secuenciador, se optó por un Hiseq 1500, por presentar éste el mayor número de lecturas posibles con
un tiempo de secuenciación de 24 horas en formato 2x100 pb.
Durante el desarrollo de esta tesis, se detectaron problemas en el seguimiento de las muestras durante
todo el proceso: extracción, cuantificación, fragmentación del ADN, preparación de las librerías,
hibridación y amplificación. En todos estos pasos que se realizan durante los primeros cuatro días de
preparación de la muestra, hasta que se le añade un índice que la hace identificable, ocurren multitud de
pasos de laboratorio donde se pueden cometer errores, ya sea contaminación por mezclado de muestras
o por un pipeteado incorrecto, no existiendo un protocolo totalmente automatizado, requiriéndose
siempre de la intervención humana.
Existe poca literatura sobre cómo introducir un control en los primeros pasos después de la etapa de la
extracción del ADN para utilizarlo como identificador. En el presente estudio, para este propósito se
realizó una determinación mediante sondas Taqman que permitían genotipar 8 posiciones. Estas
posiciones correspondían a polimorfismos poblacionales incluidos en el diseño, en los que cada muestra
presentaba una combinación única. Esto se realizó con el objetivo de hacer un seguimiento de la muestra
desde el principio de su procesamiento hasta la obtención de los resultados de secuenciación, y así poder
comprobar que cada muestra presenta los mismos polimorfismos.
Una vez que cada muestra queda identificada correctamente durante todo el proceso, existen diferentes
maneras de realizar este control de seguridad sobre la muestra que dependen de los equipos disponibles
en cada laboratorio. En este sentido, últimamente se están incluyendo este control en las guías de la NGS
en el diagnóstico clínico (116, 117), a así se garantiza la identidad de cada muestra. Es importante que
este mecanismo se realice en una única reacción, para garantizar unos buenos resultados y no cometer
errores en el momento de realizar el primer genotipado.
154
Discusión
Existen nuevos métodos de preparación de librerías en los que el identificador de cada muestra es
utilizado durante la primera parte del protocolo, reduciendo de esta manera el tiempo de exposición a
posibles errores humanos. Por ejemplo, el protocolo utilizado para realizar el genoma completo está
basado en este principio. Otras casas comerciales han apostado por esta estrategia. Sin embargo, uno de
los problemas es que el multiplexado está limitado a un número pequeño de muestras, puesto que las
combinaciones de los oligonucleótidos que se utilizan para evitar que los fragmentos se unan entre sí
durante la hibridación (blockers), son reducidas.
De igual modo, al final de la preparación de las librerías es necesaria una correcta cuantificación que
permita la utilización de cantidades equimolares para cada muestra, lo cual garantiza un número similar
de lecturas. En este aspecto, aunque la única manera de conocer si las muestras están multiplexadas en
cantidades equimoleculares se basa en la realización de una carrera preparatoria, esta aproximación
aumentaría los costes considerablemente.
Es por ello, que nuestra aproximación basada en electroforesis capilar y fluorometría, ha dado muy
buenos resultados a la hora de secuenciar las muestras, tal y como se puede observar en la figura 71 del
apartado de resultados, en los que aparecen 16 muestras en las que un porcentaje de lecturas asociado a
cada muestra presenta un alto coeficiente de variación (0,91), lo que hace que en algunas muestras no se
obtengan el número mínimo de lecturas para garantizar una buena cobertura. Una vez que se ha
optimizado el protocolo y se han utilizado diversos métodos de cuantificación los resultados muestran
una menor variación (CV=0.11) y las muestras presentan una cobertura y profundidad homogénea entre
ellas. Todo esto se realizó para conseguir una correcta secuenciación sobre todas las muestras, y así
conseguir que la mayoría de las regiones queden cubiertas por un suficiente número de lecturas.
A su vez, para conseguir este mayor número de lecturas aprovechables generadas en el secuenciador,
observamos que el secuenciador empleado producía unos resultados óptimos a una concentración final
de 12 pM, obteniéndose una densidad superior a 1100 clústeres tabla 5, la recomendación del fabricante
155
Discusión
se sitúa ente 850-1000 clusteres. Por otro lado, el fabricante de los reactivos de preparación de librerías
recomienda una carga de entre 6 y 8 pM, optimizando este parámetro se pueden abaratar los costes de
secuenciación, generando más lecturas. Posiblemente este aumento en el número de lecturas viene
avalado por el tamaño de la librería generada, que incluyendo los adaptadores es inferior 500 pb. Este
tamaño es el que considera Illumina como el tamaño recomendado para cada librería y es el tamaño que
tiene el ADN control de Illumina Phix. Se ha descrito que cada tamaño de librería necesita una correcta
cantidad para la carga (121) en el que hacen una comparación entre tamaños de librería típicos de 400 pb
contra tamaños de 800 pb. En este último tamaño, la carga recomendada es de 18-19 pM. Se siguieron
estas recomendaciones para cargar las muestras para la secuenciación del genoma completo.
Se detectó en la simulación, que no era posible identificar todas las variantes generadas aleatoriamente.
A partir de este punto se decidió emplear los 4 variant callers como rutina en el pipeline de análisis, junto
con el alineador BWA. Cuando se realizó la secuenciación de las muestras por duplicado, se observó un
alto porcentaje de coincidencias entre las variantes detectadas, sin embargo, existían discrepancias.
Las muestras por duplicado presentaban una excelente correlación de profundidades entre ellas, las
variantes no dependían de las profundidades generadas ya que éstas eran adecuadas. Tal y como se
detalla en el apartado de resultados, existía una diferencia del 24.5 % entre las lecturas generadas entre
los duplicados. Al incluir todos los duplicados en una única muestra, y llamar un bajo porcentaje de
variantes nuevas, podemos pensar que la profundidad nunca es suficiente y siempre aparece el problema
de los falsos negativos que normalmente están asociados a una baja profundidad de cobertura, pero
también existe este problema en regiones de alta profundidad que presentan baja complejidad.
Otros autores han encontrado estos efectos de las discrepancias entre los duplicados de una muestra, por
ejemplo Yuan Qi et al.(122) que van desde el 52.7% hasta 75%, en el que la concordancia total es alrededor
del 99.99%, teniendo en cuenta las regiones que no tienen variantes. En el trabajo publicado por Cherukuri
et al. (123) en el que hacen triplicados de exomas, se encuentran con solo 65 diferencias entre los
triplicados, utilizado sofisticados filtros para eliminar falsos positivos.
Siendo conscientes de que la aproximación utilizada en este trabajo se aleja de las guías de buenas
prácticas en detección de variantes en NGS, mediante el uso de una serie de filtros; en esta tesis se ha
preferido identificar a las variantes que se escapan de esas reglas y así poder observar el efecto que
pudieran producir sobre la proteína. Este protocolo, permite comprobar si existe alguna referencia
bibliográfica o caso clínico que reporte la misma variante y de este modo, evitar que se pierda en alguno
156
Discusión
de los filtrados estándar. El objetivo final, es proporcionar la información veraz y más concreta posible al
especialista clínico encargado de realizar el diagnóstico. El esquema de filtrado de variantes empleado
puede verse en la figura 36
La menor discrepancia entre los datos procedentes del análisis de las muestras por duplicado aparece
cuando se emplea el variant caller GATK-UG, el cual obtuvo los mejores resultados compartiendo este
hecho con la publicación de Mark A DePristo (53).
El porcentaje de variantes identificado en la base de datos de dbSNP es empleado como indicador de los
falsos positivos que comete el variant caller. En el presente trabajo se ha empleado dbSNP132. Es
necesario entender que la tasa de detección presente en dbSNP, no es una forma absoluta de medir qué
algoritmo es el mejor, pero los altos porcentajes encontrados en la combinación de los 4 variant callers,
sugieren una tasa de error menor en la detección de falsos positivos. Las bajas tasas encontradas en los
diferentes variant callers por separado sugieren que la tasa de falsos positivos es mayor.
Al observar que el 92% de las variantes detectadas por la combinación de los 4 variant callers estaban
descritos en dbSNP132, se sugiere que la sensibilidad de esta combinación es más alta que la de cualquiera
de ellos por separado. Estos datos son comparables con los obtenidos por Qi Liu y colaboradores en 2012,
en los que obtenía una porcentaje de 77% de variantes presentes en dbSNP129 cuando analizaba exomas
(124). Esta discrepancia entre los programas de detección de variantes coincide con los datos que
aparecen en la literatura consultada y en particular con los mostrados por Jason O´Rove et al. en los que
comparaba distintos pipelines de análisis con diferentes programas obteniendo distintos resultados (125),
a su vez coinciden con el trabajo publicado por Hwang et al. (59) y Cornish et al. (126).
Las variantes que fueron identificadas entre cualquiera de las transiciones (cambio de purina por purina
o entre pirimidinas) o transversiones (cambio de una purina por una pirimidina), la proporción de
transiciones frente a las transversiones fue particularmente beneficiosa para obtener una mayor
sensibilidad en la detección de SNP.
En un genoma humano completo esta proporción TS/TV suele presentar valores en torno al 2.1, mientras
que en las regiones del exoma suele ser cercano a 3,5. Valores altos de TS/TV generalmente indican alta
sensibilidad (124), cuando se detectan variantes con una proporción cercana a 0,5 suelen ser sustituciones
aleatorias y es indicativo de una baja sensibilidad en las variantes detectadas. Nuestros datos presentan
similitudes con estas asunciones.
157
Discusión
Aunque la principal área de estudio se ha centrado en la detección de SNPs, también los CNV y las
pequeñas Indels producen un efecto biológicamente relevante en la variación genética (127) . Recientes
estimaciones del proyecto 1000 genomas sugieren que existe una proporción 10:1 de SNP frente a las
indels en el genoma humano. Una detección correcta de las Indels podría ser un componente crucial para
entender la relevancia clínica de las variantes genéticas. A diferencia de los SNP, solo unas pocas
herramientas para detectar indels han sido desarrolladas por lo que las implicaciones de las indels en la
práctica clínica se están viendo retrasadas.
La detección de indels es relativamente imprecisa. Así pues, la posición de la indel con respecto a la
referencia es en muchos casos ambigua pudiendo estar representada en muchas localizaciones. En las
bases de datos usadas comúnmente como dbSNPs se reporta la indel detectada con una cierta imprecisión
(128). El típico ejemplo lo encontramos cuando una indel es identificada por el programa samtools como
una variante TAAAA:TAAA (referencia contra alternativo), en una posición concreta mientras que el GATK
la nombra como una indel TA:A, donde encontramos deleción de la T. En este caso, esa variante si está
presente en la dbSNP con un rs asignado, por lo que hay que tener un especial cuidado a la hora de
detectar este tipo de variantes y su anotación. Puede ayudar a esta labor, una inspección visual en el IGV
de las indels. Este hecho se discute en el artículo de Jason O´Rove et al. (125) en el que trata de la difícil
estandarización en la detección de indels y su comparación entre distintos pipelines. Los datos mostrados
en esos estudios coinciden con los presentados en esta tesis, donde se muestran las dificultades para
identificar a una indel como homocigota cuando estamos comparando regiones del cromosoma X en
varones sin afectaciones estructurales conocidas.
En cuanto a la detección de CNVs mediante NGS, la primera aproximación siempre debe de ser basada en
los métodos basados en la profundidad de cobertura, para posteriormente emplear otros métodos.
Aunque el porcentaje de CNVs clínicamente relevantes en pacientes afectados de cardiomiopatías es muy
bajo, menos del 1% (129) y en los casos de las canalopatías, del 2% (130) hasta el 11% (131), todavía se
puede incrementar este porcentaje con la llegada de técnicas de NGS, sobre todo centrándose en
pequeñas deleciones o duplicaciones del tamaño de un exón o de varios exones. Durante la realización de
esta tesis se han detectado distintos CNVs, lo que hace suponer que en los próximos años aumente el
porcentaje de CNVs implicados en enfermedades cardiovasculares. En este sentido, en el Sindrome de
Marfan, la tasa de CNV es más alta. En el trabajo publicado por Blyth et al. (132) han reportado dos
deleciones, la primera de un único exón y la segunda de 37 exones, múltiples autores han reportado
158
Discusión
distintos CNVs (133),(134) resultados similares a los nuestros utilizando diferentes técnicas de biología
molecular.
Por otra parte, la posibilidad de añadir sondas de captura en cualquier región del genoma mediante el uso
de paneles personalizados, dota de alta sensibilidad a la técnica, dejando el reto para la parte
bioinformática, donde cada día aparecen nuevas publicaciones. Del mismo modo, son cada vez más los
programas para detectar CNVs (135).
Aunque se ha descrito múltiples aproximaciones para la detección de CNV procedentes de NGS, todavía
existen dificultades para su detección, especialmente si nos centramos solamente en las regiones exónicas
donde el principal método de detección es la profundidad de cobertura, lo que incrementa la tasa de
falsos negativos o falsos positivos (136). En relación a este hecho, en este estudio se observó que cuanto
más pequeño es el CNV, más difícil es su detección.
En esta tesis el diseño personalizado en ocasiones era capaz de cubrir todo el gen, como es el caso del gen
FBN1, lo que hace detectable los puntos de rotura a nivel de base tal y como fue descrito anteriormente
en otra publicación (137), aunque no siempre se puede realizar este tipo de diseños debido a la existencia
de regiones repetitivas. Como ejemplo, se podría citar la muestra control del gen RYR2, en el que
solamente existía una lectura cubriendo una deleción en ese gen. El punto de rotura se sitúa entre dos
regiones repetitivas de la familia génica Alu, y en el momento del diseño, no se consideró la inclusión de
sondas contra zonas repetitivas ya que podían generar un alto off target.
Para la confirmación de este tipo de variantes se desarrolló una técnica basada en la PCR y posterior
secuenciación mediante NGS. Esta técnica permitirá abaratar los costes en la caracterización de los puntos
de rotura. Por ejemplo, para la caracterización de la deleción de gen SCN5A, se utilizó un genoma
completo. Aunque los recientes avances en las técnicas de secuenciación que emplean las plataformas
HiseqX o Novaseq de Illumina hacen posible que los precios se reduzcan cada vez más, todavía resulta
difícil secuenciar un genoma humano por debajo de los mil euros. Otro punto importante, tal y como ha
sido documentado, es que existen pocas evidencias de los efectos patogénicos de los CNVs en el campo
de la cardiología, por lo que un estudio de cosegregación de la variante en los familiares puede elucidar
la importancia sobre la patogenicidad de la misma.
En términos de coste resulta difícil la realización de una técnica tan costosa como es actualmente un
genoma completo o la re-secuenciación mediante el mismo panel personalizado a los familiares.
159
Discusión
Mediante la estrategia presentada en este trabajo, es posible confirmar CNV, sin necesidad de realizar los
estudios anteriormente mencionados. En este sentido y como podemos observar en la figura 83C, se
verifica la existencia de una duplicación en el gen DMD, correspondiente a un fragmento de unos 500 pb,
que posteriormente se secuenció mediante Sanger. Sin duda una de las ventajas de esta técnica es que,
en el caso de las duplicaciones se puede conocer la orientación y localización del reordenamiento,
pudiendo distinguir duplicaciones en tándem de ganancias de material genético.
Una revisión manual en el IGV del total de variantes detectada puede ayudar a eliminar falsos negativos
favoreciendo falsos positivos que siempre se generan pero que en caso de ser potencialmente
patogénicos pueden confirmarse por Sanger.
En términos de eficacia diagnóstica, ésta es dependiente de la patología mostrada por el paciente. En los
datos obtenidos en este estudio, se alcanzó un valor del 50% de eficacia diagnostica para muestras de
individuos afectados con fenotipos que se encontraban representados en el panel. Estos datos son
similares a los mostrados por Lopes et al, (139). para un panel de cardiomiopatía hipertrófica de 43 genes.
160
Conclusiones
Conclusiones
161
Conclusiones
Conclusiones
2. Se ha desarrollado una metodología para caracterizar los puntos de rotura e inserción de los
CNVs
3. Se ha implantado un flujo de trabajo que permite relizar de una manera coste efectivo un mejor
diagnostico genético de enfermedades relacionadas con las cardiopatías congénitas humanas.
162
Conclusiones
163
Bibliografia
164
Bibliografia
Bibliografía
165
Bibliografia
166
Bibliografia
(2009).
27. J. J. Kasianowicz, E. Brandin, D. Branton, D. W. Deamer, Characterization of individual
polynucleotide molecules using a membrane channel. Proc Natl Acad Sci U S A 93, 13770-13773
(1996).
28. D. R. Bentley et al., Accurate whole human genome sequencing using reversible terminator
chemistry. Nature 456, (2008).
29. F. Mertes et al., Targeted enrichment of genomic DNA regions for next-generation sequencing.
Brief Funct Genomics 10, 374-386 (2011).
30. R. Tewhey et al., Enrichment of sequencing targets from the human genome by solution
hybridization. Genome Biology 10, R116 (2009).
31. F. Antequera, A. Bird, Number of CpG islands and genes in human and mouse. Proc Natl Acad Sci
U S A 90, 11995-11999 (1993).
32. E. M. Kenny et al., Multiplex target enrichment using DNA indexing for ultra-high throughput
SNP detection. DNA Res 18, 31-38 (2011).
33. A. E. Shearer et al., Pre-capture multiplexing improves efficiency and cost-effectiveness of
targeted genomic enrichment. BMC Genomics 13, 618 (2012).
34. M. Kircher, S. Sawyer, M. Meyer, Double indexing overcomes inaccuracies in multiplex
sequencing on the Illumina platform. Nucleic Acids Res 40, e3 (2012).
35. U. Yu, S. H. Lee, Y. J. Kim, S. Kim, Bioinformatics in the post-genome era. J Biochem Mol Biol 37,
75-82 (2004).
36. P. Meisel, Margaret O. Dayhoff: Atlas of Protein Sequence and Structure 1969 (Volume 4) XXIV
u. 361 S., 21 Ausklapptafeln, 68 Abb. und zahlreiche Tabellen. National Biomedical Research
Foundation, Silver Spring/Maryland 1969. Preis $ 12,50. Food / Nahrung 15, 217-218 (1971).
37. S. B. Needleman, C. D. Wunsch, A general method applicable to the search for similarities in the
amino acid sequence of two proteins. J Mol Biol 48, 443-453 (1970).
38. T. F. Smith, M. S. Waterman, Identification of common molecular subsequences. J Mol Biol 147,
195-197 (1981).
39. S. F. Altschul, W. Gish, W. Miller, E. W. Myers, D. J. Lipman, Basic local alignment search tool. J
Mol Biol 215, 403-410 (1990).
40. C. Trapnell, S. L. Salzberg, How to map billions of short reads onto genomes. Nat Biotechnol 27,
455-457 (2009).
41. P. Medvedev, K. Georgiou, G. Myers, M. Brudno, in Algorithms in Bioinformatics: 7th
International Workshop, WABI 2007, Philadelphia, PA, USA, September 8-9, 2007. Proceedings,
R. Giancarlo, S. Hannenhalli, Eds. (Springer Berlin Heidelberg, Berlin, Heidelberg, 2007), pp. 289-
301.
42. A. Bateman, J. Quackenbush, Editorial. Bioinformatics 25, 429-429 (2009).
43. M. P. Dolled-Filhart, M. Lee, C. W. Ou-Yang, R. R. Haraksingh, J. C. Lin, Computational and
bioinformatics frameworks for next-generation whole exome and genome sequencing.
ScientificWorldJournal 2013, 730210 (2013).
44. S. Pabinger et al., A survey of tools for variant analysis of next-generation genome sequencing
data. Briefings in Bioinformatics 15, 256-278 (2014).
45. J. D. Hintzsche, W. A. Robinson, A. C. Tan, A Survey of Computational Tools to Analyze and
Interpret Whole Exome Sequencing Data. Int J Genomics 2016, 7983236 (2016).
46. M. Pop, S. L. Salzberg, Bioinformatics challenges of new sequencing technology. Trends Genet
24, 142-149 (2008).
47. R. Li, Y. Li, K. Kristiansen, J. Wang, SOAP: short oligonucleotide alignment program.
Bioinformatics 24, 713-714 (2008).
48. S. Schbath et al., Mapping reads on a genomic sequence: an algorithmic overview and a practical
167
Bibliografia
168
Bibliografia
169
Bibliografia
92. D. Manase et al., High throughput exome coverage of clinically relevant cardiac genes. BMC Med
Genomics 7, 67 (2014).
93. E. Samorodnitsky et al., Comparison of custom capture for targeted next-generation DNA
sequencing. J Mol Diagn 17, 64-75 (2015).
94. J. Philippe et al., What Is the Best NGS Enrichment Method for the Molecular Diagnosis of
Monogenic Diabetes and Obesity? PLoS One 10, e0143373 (2015).
95. M. Schirmer, R. D’Amore, U. Z. Ijaz, N. Hall, C. Quince, Illumina error profiles: resolving fine-scale
variation in metagenomic sequencing data. BMC Bioinformatics 17, 125 (2016).
96. A. E. Minoche, J. C. Dohm, H. Himmelbauer, Evaluation of genomic high-throughput sequencing
data generated on Illumina HiSeq and genome analyzer systems. Genome Biol 12, (2011).
97. S. Goodwin, J. D. McPherson, W. R. McCombie, Coming of age: ten years of next-generation
sequencing technologies. Nat Rev Genet 17, 333-351 (2016).
98. K. Nakamura et al., Sequence-specific error profile of Illumina sequencers. Nucleic Acids Res 39,
e90 (2011).
99. C. Luo, D. Tsementzi, N. Kyrpides, T. Read, K. T. Konstantinidis, Direct comparisons of Illumina vs.
Roche 454 sequencing technologies on the same microbial community DNA sample. PLoS One 7,
e30087 (2012).
100. F. Meacham et al., Identification and correction of systematic error in high-throughput sequence
data. BMC Bioinformatics 12, 451 (2011).
101. M. Allhoff et al., Discovering motifs that induce sequencing errors. BMC Bioinformatics 14 Suppl
5, S1 (2013).
102. A. F. Gardner et al., Rapid incorporation kinetics and improved fidelity of a novel class of 3′-OH
unblocked reversible terminators. Nucleic Acids Research 40, 7404-7415 (2012).
103. J. M. Zook, D. Samarov, J. McDaniel, S. K. Sen, M. Salit, Synthetic Spike-in Standards Improve
Run-Specific Systematic Error Analysis for DNA and RNA Sequencing. PLOS ONE 7, e41356
(2012).
104. X. Liu, S. Han, Z. Wang, J. Gelernter, B. Z. Yang, Variant callers for next-generation sequencing
data: a comparison study. PLoS One 8, e75619 (2013).
105. M. Pirooznia et al., Validation and assessment of variant calling pipelines for next-generation
sequencing. Human Genomics 8, 14-14 (2014).
106. R. Kou et al., Benefits and Challenges with Applying Unique Molecular Identifiers in Next
Generation Sequencing to Detect Low Frequency Mutations. PLoS ONE 11, e0146638 (2016).
107. D. I. Lou et al., High-throughput DNA sequencing errors are reduced by orders of magnitude
using circle sequencing. Proceedings of the National Academy of Sciences of the United States of
America 110, 19872-19877 (2013).
108. S. R. Kennedy et al., Detecting ultralow-frequency mutations by Duplex Sequencing. Nature
protocols 9, 2586-2606 (2014).
109. M. W. Schmitt et al., Sequencing small genomic targets with high efficiency and extreme
accuracy. Nature methods 12, 423-425 (2015).
110. X. Hu et al., pIRS: Profile-based Illumina pair-end reads simulator. Bioinformatics 28, 1533-1535
(2012).
111. S. Bao et al., Evaluation of next-generation sequencing software in mapping and assembly. J
Hum Genet 56, 406-414 (2011).
112. M. Ruffalo, T. LaFramboise, M. Koyutürk, Comparative analysis of algorithms for next-generation
sequencing read alignment. Bioinformatics 27, 2790-2796 (2011).
113. X. F. Huang, J. Wu, J. N. Lv, X. Zhang, Z. B. Jin, Identification of false-negative mutations missed
by next-generation sequencing in retinitis pigmentosa patients: a complementary approach to
clinical genetic diagnostic testing. Genet Med 17, 307-311 (2015).
170
Bibliografia
114. T. Derrien et al., Fast Computation and Applications of Genome Mappability. PLOS ONE 7,
e30377 (2012).
115. D. Sims, I. Sudbery, N. E. Ilott, A. Heger, C. P. Ponting, Sequencing depth and coverage: key
considerations in genomic analyses. Nat Rev Genet 15, 121-132 (2014).
116. R. J. Pengelly et al., A SNP profiling panel for sample tracking in whole-exome sequencing
studies. Genome Medicine 5, 89 (2013).
117. Z. C. Deans et al., Integration of next-generation sequencing in clinical diagnostic molecular
pathology laboratories for analysis of solid tumours; an expert opinion on behalf of IQN Path
ASBL. Virchows Archiv 470, 5-20 (2017).
118. S. Overballe-Petersen, L. Orlando, E. Willerslev, Next-generation sequencing offers new insights
into DNA degradation. Trends Biotechnol 30, 364-368 (2012).
119. C. D. Millar, L. Huynen, S. Subramanian, E. Mohandesan, D. M. Lambert, New developments in
ancient genomics. Trends Ecol Evol 23, 386-393 (2008).
120. S. Q. Le, R. Durbin, SNP detection and genotyping from low-coverage sequencing data on
multiple diploid samples. Genome Res 21, 952-960 (2011).
121. W. S. Liang et al., Long insert whole genome sequencing for copy number variant and
translocation detection. Nucleic Acids Research 42, e8-e8 (2014).
122. Y. Qi et al., Reproducibility of Variant Calls in Replicate Next Generation Sequencing
Experiments. PLOS ONE 10, e0119230 (2015).
123. P. F. Cherukuri et al., Replicate exome-sequencing in a multiple-generation family: improved
interpretation of next-generation sequencing data. BMC Genomics 16, 998 (2015).
124. Q. Liu et al., Steps to ensure accuracy in genotype and SNP calling from Illumina sequencing
data. BMC Genomics 13 Suppl 8, S8 (2012).
125. J. O'Rawe et al., Low concordance of multiple variant-calling pipelines: practical implications for
exome and genome sequencing. Genome Medicine 5, 28 (2013).
126. A. Cornish, C. Guda, A Comparison of Variant Calling Pipelines Using Genome in a Bottle as a
Reference. Biomed Res Int 2015, 456479 (2015).
127. J. M. Mullaney, R. E. Mills, W. S. Pittard, S. E. Devine, Small insertions and deletions (INDELs) in
human genomes. Hum Mol Genet 19, R131-136 (2010).
128. P. Krawitz et al., Microindel detection in short-read sequence data. Bioinformatics 26, 722-729
(2010).
129. O. Ceyhan-Birsoy et al., Next generation sequencing-based copy number analysis reveals low
prevalence of deletions and duplications in 46 genes associated with genetic cardiomyopathies.
Molecular Genetics & Genomic Medicine 4, 143-151 (2016).
130. D. J. Tester et al., Prevalence and Spectrum of Large Deletions or Duplications in the Major Long
QT Syndrome-Susceptibility Genes and Implications for Long QT Syndrome Genetic Testing. The
American journal of cardiology 106, 1124-1128 (2010).
131. C. A. Eddy et al., Identification of large gene deletions and duplications in KCNQ1 and KCNH2 in
patients with long QT syndrome. Heart Rhythm 5, 1275-1281 (2008).
132. M. Blyth, N. Foulds, C. Turner, D. Bunyan, Severe Marfan syndrome due to FBN1 exon deletions.
Am J Med Genet A 146A, 1320-1324 (2008).
133. G. Mátyás et al., Large genomic fibrillin-1 (FBN1) gene deletions provide evidence for true
haploinsufficiency in Marfan syndrome. Hum Genet 122, 23-32 (2007).
134. K. K. Singh et al., Multi-exon out of frame deletion of the FBN1 gene leading to a severe juvenile
onset cardiovascular phenotype in Marfan syndrome. J Mol Cell Cardiol 42, 352-356 (2007).
135. M. Zhao, Q. Wang, Q. Wang, P. Jia, Z. Zhao, Computational tools for copy number variation
(CNV) detection using next-generation sequencing data: features and perspectives. BMC
Bioinformatics 14, S1 (2013).
171
Bibliografia
136. L. R. Lopes et al., Use of high-throughput targeted exome-sequencing to screen for copy number
variation in hypertrophic cardiomyopathy. Eur J Med Genet 58, 611-616 (2015).
137. A. Abyzov, M. Gerstein, AGE: defining breakpoints of genomic structur
138. A. Hamilton et al., Concordance between whole-exome sequencing and clinical Sanger
sequencing: implications for patient care. Molecular Genetics & Genomic Medicine 4, 504-512
(2016).
139. L. R. Lopes et al., Genetic complexity in hypertrophic cardiomyopathy revealed by high-
throughput sequencing. Journal of Medical Genetics 50, 228-239 (2013).
172
Anexo
ANEXO
173
Anexo
ANEXO A
Tabla de detección de variantes de la muestra in silico
Falso
33 65 18 236 32 140 90 255
Negativo
Falso Positivo 1 17 1 4 1 81 13 0
Falso
11 64 5 198 10 138 51 227
Negativo
Falso Positivo 1 4 1 3 1 69 13 13
Falso
2 63 1 141 2 136 38 38
Negativo
Falso Posivo 0 14 4 3 0 80 16 3
Falso
0 63 2 118 0 135 161 110
Negativo
174
Anexo
ANEXO B
Métricas de cobertura de las muestras secuenciadas en el Hiscan
mean %_bases_above_1 %_bases_above_10 %_bases_above_50
162.22 99.4 96.1 78.9
134.6 99.1 94.3 76
211.60 99.2 95.1 80.0
192.19 99.0 94.0 77.5
192.61 99.4 96.1 82.4
159.16 99.0 93.5 76.1
112.36 99.0 93.0 72.2
105.38 99.0 93.4 72.7
139.07 98.9 93.6 75.0
147.11 98.6 90.7 71.4
116.75 98.7 90.5 69.2
124.07 98.7 91.4 71.3
324.97 99.2 96.4 85.0
192.74 99.1 94.8 79.1
128.29 99.1 94.8 76.8
160.40 99.0 93.9 76.3
175
Anexo
ANEXO C
%_bases_above_10 %_bases_above_50
mean QXT %_bases_above_1 QXT QXT QXT
97.44 100.0 99.6 87.1
94.84 99.9 99.6 89.0
116.29 99.9 99.7 91.1
90.16 99.9 99.6 86.1
112.47 99.9 99.6 90.4
100.76 99.9 99.5 86.7
108.47 99.9 99.6 90.2
104.42 99.9 99.6 87.9
106.44 99.9 99.6 88.9
101.19 99.9 99.6 87.6
97.29 99.9 99.6 86.4
105.50 99.9 99.6 88.6
102.30 99.9 99.6 87.7
176
Anexo
ANEXO D
Métricas de coberturas Nextseq y HIseq
Nextseq
mean %_bases_above_1 %_bases_above_10 %_bases_above_50
110.83 99.9 99.6 91.4
115.06 99.9 99.6 92.5
69.74 99.9 99.4 73.8
86.15 99.9 99.6 85.4
79.80 99.9 99.6 81.9
76.31 99.9 99.5 78.3
91.38 99.9 99.6 87.3
99.25 99.9 99.6 90.0
73.63 99.9 99.5 77.8
73.95 99.9 99.5 79.0
74.53 99.9 99.5 78.7
74.79 99.9 99.5 80.1
75.27 99.9 99.4 78.9
79.22 99.9 99.5 81.8
77.16 99.9 99.5 81.6
80.23 99.9 99.6 84.8
65.71 99.9 99.5 73.9
290.68 99.9 99.8 99.0
316.67 99.9 99.8 98.9
289.99 99.9 99.8 99.2
331.29 99.9 99.8 98.9
336.95 99.9 99.8 99.1
Hiseq
177
Anexo
178
Anexo
ANEXO E
Script para generar un genoma de referencia de las regiones de estudio
#!/usr/bin/env python3
################################################################################
# IMPORTS
################################################################################
import sys
import [Link]
import argparse
################################################################################
# PARSER
################################################################################
def _parser():
parser = [Link](version="v1.0 / 19.03.2012 (by Ingo Thomsen)",
description='''
The script takes a FASTA reference and a BED file and creates a
FASTA
reference with one contig. This contig contains the reference
regions
defined by the BED file, separated by 'N's.
parser.add_argument("FASTA",
help="""FASTA file, possibly containing multiple contigs.""")
parser.add_argument("BED",
help="BED file describing regions within the FASTA file.")
parser.add_argument("OUTFILE",
help="""File name (without extension), which will be used for the
created fasta reference and the translation file.""")
parser.add_argument("CONTIG_NAME",
help="""The contig name, that will be written after the '>' in the first
line of the output file.""")
parser.add_argument("--buffer", "-b", metavar="INT", default=50, type=int,
help="Number of 'N's between BED regions")
parser.add_argument("--padding", "-p", metavar="INT", default=50, type=int,
help="""Number of bases to left and right of a BED region that will be
included in the reference.""")
# checking
if [Link] < 0 or [Link] <0:
abort("Options --buffer and --padding must be integers >= 0")
return args
################################################################################
# MAIN
################################################################################
179
Anexo
def _main():
args = _parser()
print()
print("Regions extracted from BED file")
print("-------------------------------")
print("number of regions:", no_raw_regions)
print("number of joint regions:", no_joint_regions)
print("total length of joint regions:", no_joint_bases)
#
# Now, let's go through the reference file
#
act_regions_iter = None
act_ref_pos = None
act_start = None
act_stop = None
printing = None
skipped_bed_regions = []
print ()
print ()
print ("Extracting reference bases")
print ("--------------------------")
try:
while True:
try:
line = ref_fd.readline().rstrip("\n")
try:
if line[0] == ">":
raise
NextChrException(line[1:].split()[0])
except IndexError:
# EOF of reference file
raise StopIteration
act_ref_pos += 1
if act_ref_pos == act_start:
printing = True
[Link]()
tp.set_start(act_chr, act_start)
180
Anexo
if printing:
fp.print_base(base)
if act_ref_pos == act_stop:
printing = False
[Link]()
try:
act_start, act_stop =
next(act_regions_iter)
except StopIteration:
try:
while line[0] != ">":
line =
ref_fd.readline()
raise
NextChrException(line[1:].split()[0])
except IndexError:
# EOF of reference
file
raise StopIteration
except NextChrException as e:
[Link]()
act_chr = str(e)
act_ref_pos = 0
printing = None
try:
act_regions_iter = target_regions_iter[act_chr]
act_start, act_stop = next(act_regions_iter)
print("contig:", act_chr)
except KeyError:
# a reference contig, without regions specified
in the BED file
act_regions_iter = None
act_start, act_stop = -1, -1
except StopIteration:
[Link]()
[Link]()
print()
print()
print("Skipped BED regions:")
print("(incl. padding bases)")
print("--------------------")
print()
print()
print("Done!")
print("-----")
################################################################################
# CLASSES
################################################################################
#
# CLASS for creating a one-contig-fasta file base-by-base
#
class fasta_printer():
181
Anexo
self.__act_fasta_pos += 1
def pad(self):
if self.__act_fasta_pos > 1:
act = 0
while act < self.__buffer:
self.print_base("N")
act += 1
def get_act_pos(self):
return self.__act_fasta_pos
def close(self):
print(file=self.__fd)
self.__fd.close()
#
# CLASS dealing with transformation table
#
class transformation_printer():
def flush(self):
if self.__in_region:
self.__in_region = False
print (self.__fp_start, self.__fp.get_act_pos()-1, self.__act_chr,
self.__orig_start, sep="\t", file=self.__fd)
################################################################################
# FUNCTIONS
################################################################################
def abort(s):
print("ABORTING:", str(s).strip())
[Link](1)
def open_files(args):
182
Anexo
try:
bed_fd = open([Link])
except:
abort("Could not open BED file '" + [Link]+ "' for reading.")
try:
out_ref_fd = open(out_ref_name, "w")
except:
abort("Could not open '" + out_ref_name + "' writing.")
try:
out_trans_fd = open(out_trans_name, "w")
except:
abort("Could not open '" + out_trans_name + "' writing.")
target_regions = {}
try:
target_regions[chr]
except KeyError:
target_regions[chr] = []
def iterators_on_merged_overlapping_regions(target_regions):
#
# merge overlapping regions
#
no_joint_bases = 0
no_joint_regions = 0
l = []
183
Anexo
act_start = None
act_stop = None
for start, stop in sorted(target_regions[chr]):
try:
if act_stop + 1 < start:
[Link]( (act_start, act_stop ) )
no_joint_bases += act_stop - act_start + 1
act_start = start
act_stop = stop
else:
act_stop = stop
except TypeError:
act_start = start
act_stop = stop
target_regions[chr] = l
#
# create a chromosome-wise dict with iterators on the merged regions
#
target_regions_iter = {}
for chr in target_regions.keys():
target_regions_iter[chr] = iter(target_regions[chr])
################################################################################
# FINALLY
################################################################################
if __name__ == "__main__":
_main()
184
Anexo
ANEXO F
Script para calcular el BAF
#!/usr/bin/perl
use strict;
use warnings;
use Getopt::Long qw(:config pass_through no_ignore_case);
my ($min_reads) = (10);
GetOptions (
"min-reads:s" => \$min_reads,
);
while (<>) {
my $line = $_;
my @columns = split("\t",$line);
my $chr = $columns[0];
my $start = $columns[1];
my $end = $start + 1;
my $num_reads = $columns[3];
my $calls = $columns[4];
my $id = "mpileup_number_" . $.;
if($num_reads < $min_reads){ # not enough coverage to have good confidence in the call
next;
}
my $num_ref = 0;
while ($calls =~ /[,.]/g) { $num_ref++ }
my $num_var = $num_reads - $num_ref;
my $varAlleleFreq = ($num_var/$num_reads)*100;
print("$chr\t$start\t$end\t$id\t$varAlleleFreq\n");
}
185
Anexo
ANEXO G
Lista de genes estudiados
Símbolo Nombre Banda Posición cromosómica
ABCC9 ATP-binding cassette, sub-family C (CFTR/MRP), member 9 12p12.1 12:21,950,323-22,089,629
ACTA2 actin, alpha 2, smooth muscle, aorta 10q23.31 10:90,694,831-90,751,148
ACTC1 actin, alpha, cardiac muscle 1 15q14 15:35,080,297-35,087,928
ACTN2 actinin, alpha 2 1q42-q43 1:236,849,754-236,927,932
ACVRL1 activin A receptor type IL 12q13.13 12:52,301,202-52,317,146
ADAMTSL4 ADAMTS-like 4 1q21.2 1:150,521,845-150,533,414
ADRB1 adrenoceptor beta 1 10q25.3 10:115,803,806-115,806,668
ADRB2 adrenoceptor beta 2, surface 5q31-q32 5:148,206,156-148,208,198
ADRB3 adrenoceptor beta 3 8p11.23 8:37,820,513-37,824,185
AGL amylo-alpha-1, 6-glucosidase, 4-alpha-glucanotransferase 1p21 1:100,315,640-100,389,580
AKAP9 A kinase (PRKA) anchor protein 9 7q21-q22 7:91,570,189-91,739,988
ANK2 ankyrin 2, neuronal 4q25-q26 4:113,739,239-114,304,897
ANK3 ankyrin 3, node of Ranvier (ankyrin G) 10q21 10:61,786,056-62,493,285
ANKRD1 ankyrin repeat domain 1 (cardiac muscle) 10q23.33 10:92,671,857-92,681,033
APOB apolipoprotein B 2p24-p23 2:21,224,301-21,266,946
ASPH aspartate beta-hydroxylase 8q12.1 8:62,413,115-62,627,200
10q25.2-
BAG3 BCL2-associated athanogene 3 10:121,410,882-121,437,332
q26.2
BMPR1B bone morphogenetic protein receptor, type IB 4q23-q24 4:95,679,128-96,079,602
BMPR2 bone morphogenetic protein receptor, type II (serine/threonine kinase) 2q33-q34 2:203,241,050-203,432,475
BRAF B-Raf proto-oncogene, serine/threonine kinase 7q34 7:140,433,812-140,624,565
CACNA1B calcium channel, voltage-dependent, N type, alpha 1B subunit 9q34 9:140,772,241-141,019,077
CACNA1C calcium channel, voltage-dependent, L type, alpha 1C subunit 12p13.3 12:2,162,416-2,807,116
CACNA1D calcium channel, voltage-dependent, L type, alpha 1D subunit 3p14.3 3:53,529,076-53,846,493
186
Anexo
187
Anexo
188
Anexo
189
Anexo
190
Anexo
191
Anexo
SCN3B sodium channel, voltage gated, type III beta subunit 11q24.1 11:123,499,895-123,525,316
SCN4B sodium channel, voltage gated, type IV beta subunit 11q23.3 11:118,004,092-118,023,631
SCN5A sodium channel, voltage gated, type V alpha subunit 3p21 3:38,589,553-38,691,165
16p12.2-
SCNN1B sodium channel, non voltage gated 1 beta subunit 16:23,313,591-23,392,621
p12.1
SCNN1G sodium channel, non voltage gated 1 gamma subunit 16p12 16:23,194,040-23,228,201
SGCD sarcoglycan, delta (35kDa dystrophin-associated glycoprotein) 5q33-q34 5:155,753,767-156,194,800
SHOC2 SHOC2 leucine-rich repeat scaffold protein 10q25 10:112,679,301-112,773,426
SLC25A4 solute carrier family 25 (mitochondrial carrier; adenine nucleotide translocator), member 4 4q35 4:186,064,417-186,071,539
SLC2A10 solute carrier family 2 (facilitated glucose transporter), member 10 20q13.12 20:45,338,279-45,364,987
SLC39A13 solute carrier family 39 (zinc transporter), member 13 11p11.2 11:47,430,046-47,438,052
SMAD1 SMAD family member 1 4q31.21 4:146,402,951-146,480,329
SMAD3 SMAD family member 3 15q21-q22 15:67,358,195-67,487,534
SMAD4 SMAD family member 4 18q21.1 18:48,556,583-48,611,413
SMAD9 SMAD family member 9 13q12-q14 13:37,418,968-37,494,410
SNTA1 syntrophin, alpha 1 20q11.2 20:31,995,763-32,031,699
SOS1 son of sevenless homolog 1 (Drosophila) 2p21 2:39,208,690-39,347,605
SQSTM1 sequestosome 1 5q35 5:179,233,388-179,265,079
SRF serum response factor 6p21.1 6:43,139,033-43,149,245
SRY sex determining region Y Yp11.3 Y:2,654,896-2,655,783
TAZ Tafazzin Xq28 X:153,639,854-153,650,066
TBX20 T-box 20 7p14.3 7:35,242,042-35,293,712
TBX5 T-box 5 12q24.1 12:114,791,735-114,846,248
TCAP titin-cap 17q12 17:37,821,599-37,822,808
TGFB3 transforming growth factor beta 3 14q24 14:76,424,442-76,448,093
TGFBR1 transforming growth factor beta receptor I 9q22 9:101,867,371-101,916,475
TGFBR2 transforming growth factor beta receptor II 3p22 3:30,647,994-30,735,635
TGFBR3 transforming growth factor beta receptor III 1p33-p32 1:92,145,900-92,371,560
192
Anexo
193
Anexo
ANEXO H
Lista de variantes incluida en la validación por Sanger.
Funcion confirmada profundidad Qual baf Chr Inicial Final REF ALT
exonic Negativo 23 4.12 8.7 chr10 88428527 88428527 C A
exonic Negativo 2 68 100 chr9 101867573 101867573 C A
exonic Negativo 16 18.1 12.5 chr15 63340848 63340848 A G
splicing Negativo 12 26 16.67 chr10 121411372 121411372 G C
exonic Negativo 15 21 13.33 chr12 33049611 33049611 G A
exonic Negativo 15 4.12 13.33 chr1 156100499 156100499 A C
exonic Negativo 5 17.1 40 chr7 150648629 150648629 T G
exonic Negativo 18 5.46 11.11 chr1 237948010 237948010 A G
exonic;splici
ng Negativo 11 6.19 18.18 chr3 38620833 38620833 A C
exonic Negativo 16 18.1 12.5 chr20 42744577 42744577 G T
exonic Negativo 15 13.2 13.33 chrX 153640428 153640428 A G
exonic Negativo 9 39 22.22 chr15 35086946 35086946 C A
exonic Negativo 9 4.76 22.22 chr17 39925284 39925284 T C
exonic Negativo 12 30 16.67 chr9 140865970 140865970 G T
exonic Negativo 22 4.12 9.09 chr1 156085025 156085025 C A
exonic Negativo 20 8.64 10 chr7 150671967 150671967 C A
exonic Negativo 10 36 20 chr2 39347545 39347545 G T
exonic Negativo 18 21 11.11 chr19 55668447 55668447 G A
exonic Negativo 8 32 25 chr15 73615246 73615246 G A
exonic Negativo 21 10.4 9.52 chr5 45695856 45695856 A C
exonic Negativo 155 44 15.48 chr17 21318826 21318826 G A
exonic Negativo 19 4.76 10.53 chr15 63340881 63340881 A G
exonic Negativo 2 62 100 chr18 29078241 29078241 C G
exonic Negativo 7 47 28.57 chr10 112404261 112404261 G A
194
Anexo
195
Anexo
196
Anexo
197
Anexo
exonic;splici
ng Negativo 5 48 40 chr17 39914030 39914030 A T
exonic Negativo 17 8.64 11.76 chr11 2869082 2869082 G T
exonic Negativo 10 35 20 chr17 37822066 37822066 C T
exonic Negativo 6 56 33.33 chr20 42788990 42788990 C A
splicing Negativo 11 43 18.18 chr11 47353436 47353436 C T
exonic Negativo 14 26 14.29 chr20 42744756 42744756 C G
exonic Negativo 15 22 13.33 chr17 37822177 37822177 G T
exonic Negativo 11 6.97 18.18 chr11 2466561 2466561 A C
exonic Negativo 9 26 22.22 chrX 153640202 153640202 C T
exonic Negativo 12 8.64 16.67 chr2 220283564 220283564 G A
exonic Negativo 10 29 20 chr1 156085024 156085024 G C
exonic Negativo 12 44 16.67 chr15 48737693 48737693 C A
exonic Negativo 4 57 50 chr12 2614072 2614072 C A
exonic Negativo 5 55 40 chr6 7585515 7585515 G A
exonic Negativo 4 42 50 chr6 7580363 7580363 G A
exonic Negativo 6 40 33.33 chr10 69926250 69926250 C A
exonic Negativo 2 49 100 chr7 150655285 150655285 C A
exonic Negativo 10 46 20 chr11 47354761 47354761 G A
exonic Negativo 12 32 16.67 chr1 156084798 156084798 A G
exonic Negativo 13 31 15.38 chr10 88476473 88476473 C T
exonic Negativo 23 5.46 8.7 chr7 150647300 150647300 C A
exonic Negativo 3 46 66.67 chr8 62626866 62626866 C A
exonic Negativo 9 47 22.22 chr2 220435797 220435797 G T
exonic Negativo 22 5.46 9.09 chr1 156105054 156105054 G A
exonic Negativo 8 17.1 25 chr15 63340842 63340842 C T
exonic Negativo 6 45 33.33 chr2 220283294 220283294 G A
exonic Negativo 6 40 33.33 chr8 11566407 11566407 G A
exonic Negativo 3 27 66.67 chr8 11566258 11566258 G T
exonic;splici
ng Negativo 24 5.46 8.33 chr1 156109561 156109561 A G
198
Anexo
199
Anexo
200
Anexo
201
Anexo
202
Anexo
203
Anexo
204
Anexo
205
Anexo
206
Anexo
207
Anexo
208
Anexo
209
Anexo
210
Anexo
exonic;splici
ng Positivo 72 255 59.72 chrX 153607921 153607921 T C
exonic Positivo 891 255 49.83 chrX 153607921 153607921 T C
exonic Positivo 140 242 53.57 chr1 237791224 237791224 T C
splicing Positivo 637 242 43.64 chr14 23887591 23887591 G C
exonic Positivo 547 255 46.44 chr2 179469713 179469713 C T
exonic Positivo 45 218 42.22 chr10 18439856 18439856 T -
exonic Positivo 1300 255 43.85 chr2 179605216 179605217 TT -
exonic Positivo 843 255 45.67 chr1 237798237 237798237 C T
exonic Positivo 321 242 46.42 chr7 150655161 150655161 C A
exonic Positivo 383 255 41.25 chr4 114294297 114294297 A G
exonic Positivo 342 255 41.52 chr1 237991722 237991722 G A
exonic Positivo 70 255 37.14 chr2 179464302 179464304 CCT -
exonic Positivo 247 255 47.37 chrX 100656642 100656642 G T
exonic;splici
ng Positivo 186 255 46.24 chr8 103663953 103663953 C A
exonic Positivo 201 255 43.28 chr5 137216547 137216547 C T
exonic Positivo 249 255 49.4 chr12 2613692 2613692 G A
exonic Positivo 74 255 47.3 chr3 38655514 38655514 G A
exonic Positivo 91 255 42.86 chr1 236912497 236912497 A G
exonic Positivo 58 255 53.45 chr2 179425366 179425366 C T
exonic Positivo 131 242 49.62 chr10 88451786 88451786 T C
splicing Positivo 54 242 53.7 chr14 23855319 23855319 C T
splicing Positivo 176 255 52.27 chr11 47371315 47371315 G A
exonic Positivo 122 255 43.44 chr7 128488780 128488781 CT -
splicing Positivo 140 255 40 chr12 33031040 33031040 - C
splicing Positivo 268 242 44.03 chr14 23900793 23900793 C T
exonic Positivo 240 255 48.75 chr15 63336360 63336360 A G
exonic Positivo 28 190 39.29 chr1 237774125 237774125 C T
exonic;splici
ng Positivo 284 255 47.54 chr2 179442209 179442209 T -
exonic Positivo 142 255 50.7 chr11 47358942 47358942 C T
211
Anexo
212
Anexo
213
Anexo
214
Anexo
215
Anexo
216
Anexo
Anexo I Publicaciones
217
Anexo
218
Anexo
219
Anexo
220
Anexo
221
Anexo
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241