0% encontró este documento útil (0 votos)
58 vistas241 páginas

Secuenciación y análisis de cardiopatías

Este documento describe los métodos de secuenciación de nueva generación (NGS) para el estudio de las bases genéticas de las enfermedades cardiovasculares. Explica los procesos de preparación de muestras, secuenciación, alineamiento, detección de variantes y anotación. También compara diferentes métodos de enriquecimiento, secuenciadores, alineadores y herramientas de llamada de variantes. El objetivo final es desarrollar un flujo de trabajo para implementar la NGS en el diagnóstico de cardiopatías cong
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
58 vistas241 páginas

Secuenciación y análisis de cardiopatías

Este documento describe los métodos de secuenciación de nueva generación (NGS) para el estudio de las bases genéticas de las enfermedades cardiovasculares. Explica los procesos de preparación de muestras, secuenciación, alineamiento, detección de variantes y anotación. También compara diferentes métodos de enriquecimiento, secuenciadores, alineadores y herramientas de llamada de variantes. El objetivo final es desarrollar un flujo de trabajo para implementar la NGS en el diagnóstico de cardiopatías cong
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Indice de contenidos

Resumen ....................................................................................................................................................... 4
Resumo ......................................................................................................................................................... 7
Abstract ....................................................................................................................................................... 10
Introducción ................................................................................................................................................ 13
Secuenciación ......................................................................................................................................... 14
Métodos históricos ............................................................................................................................. 14
Next generation sequencing ............................................................................................................... 18
Secuenciación Illumina........................................................................................................................ 28
Sistemas de enriquecimiento.................................................................................................................. 32
Bioinformática......................................................................................................................................... 35
Alineamiento ....................................................................................................................................... 39
Ensamblaje .......................................................................................................................................... 42
Detección de variantes ....................................................................................................................... 42
Métodos de análisis de variaciones en el número de copias (CNVs).................................................. 44
Anotación de variantes ....................................................................................................................... 47
Predictores .......................................................................................................................................... 50
Bases Genéticas de las enfermedades Cardiovasculares........................................................................ 53
Miocardiopatías. Trastornos Estructurales. ........................................................................................ 53
Trastornos arritmogénicos .................................................................................................................. 57
Objetivos ..................................................................................................................................................... 60
Materiales ................................................................................................................................................... 62
y métodos ................................................................................................................................................... 62
Preparación de la muestra .......................................................................................................................... 63
Extracción de ADN .................................................................................................................................. 63
Lisis ...................................................................................................................................................... 63
Filtración ............................................................................................................................................. 63
Elución ................................................................................................................................................. 63
Cuantificación de ADN total .................................................................................................................... 63
Medida de calidad y cantidad del ADN ................................................................................................... 64
Integridad. ........................................................................................................................................... 64

1
Cuantificación del ADN de doble cadena. ........................................................................................... 66
Genotipado mediante sondas Taqman. .............................................................................................. 67
Fragmentación del ADN. ..................................................................................................................... 67
Preparación de librerías .......................................................................................................................... 68
Selección del tamaño de los fragmentos generados .......................................................................... 68
Preparación de muestras Haloplex ......................................................................................................... 74
Preparación de las muestras con SureselectQXT.................................................................................... 75
Preparación de un genoma completo. ................................................................................................... 77
Puesta a punto para la técnica de la PCR para la detección de los puntos de rotura de un CNV. ......... 77
Secuenciación ......................................................................................................................................... 81
Bioinformática ........................................................................................................................................... 86
Generación de muestra in silico.............................................................................................................. 86
Alineamiento ........................................................................................................................................... 86
Postprocesado ........................................................................................................................................ 89
Variant calling ......................................................................................................................................... 91
Métricas de calidad ................................................................................................................................. 93
Anotación de las variantes ...................................................................................................................... 94
Filtrado de Variantes ............................................................................................................................... 94
Detección de Variantes estructurales ..................................................................................................... 95
Por profundidad de cobertura ............................................................................................................ 96
Por distancia entre pares PEM ............................................................................................................ 96
Visualización de alineamientos ........................................................................................................... 97
Diseño de las regiones a estudiar ........................................................................................................... 97
Evaluar la implantación de la NGS en el estudio de cardiopatías congénitas humanas........................... 100
Comparación de métodos de enriquecimiento. ................................................................................... 100
Haloplex y SureselectXT .................................................................................................................... 100
Exoma vs panel personalizado. ......................................................................................................... 112
Comparación entre secuenciadores ................................................................................................. 115
Comparación de alineadores ............................................................................................................ 120
Comparación entre variants calling .................................................................................................. 121
Regiones con mala mapabilidad ....................................................................................................... 123
Regiones con baja profundidad ........................................................................................................ 126

2
Desarrollo de un flujo de trabajo para la implantación de la NGS en el diagnóstico de cardiopatías
congénitas ................................................................................................................................................. 128
Preparación de la muestra .................................................................................................................... 128
Secuenciación de la muestra ................................................................................................................ 129
Alineamiento contra la secuencia de referencia. ............................................................................. 130
Medida de contaminación de las muestras. ..................................................................................... 130
Genotipado mediante 4 variant calling............................................................................................. 131
Anotación de las variantes .................................................................................................................... 132
Detección de CNVs. ........................................................................................................................... 133
Deleción de gen completo SCN5A mediante genoma completo. ......................................................... 138
Puesta a punto de la técnica de la PCR para la detección de los puntos de rotura de un CNV............ 139
Validación de la aplicabilidad de la NGS para el diagnóstico de cardiopatías congénitas humanas. ... 141
Discusión ................................................................................................................................................... 143
Evaluar la implantación de la NGS para el diagnóstico de cardiopatías congénitas humanas ............. 144
Desarrollo de un flujo de trabajo para la implantación de la NGS en el diagnóstico de cardiopatías
congénitas ............................................................................................................................................. 154
Validación de la aplicabilidad de la NGS para el diagnóstico de cardiopatías congénitas humanas .... 160
Conclusiones ............................................................................................................................................. 161
Bibliografía ................................................................................................................................................ 165
ANEXO A ................................................................................................................................................ 174
Tabla de detección de variantes de la muestra in silico ....................................................................... 174
ANEXO B ................................................................................................................................................ 175
Métricas de cobertura de las muestras secuenciadas en el Hiscan...................................................... 175
ANEXO C ................................................................................................................................................ 176
Métricas de cobertura de la comparación entre XT y QXT ................................................................... 176
ANEXO D................................................................................................................................................ 177
Métricas de coberturas Nextseq y HIseq .............................................................................................. 177
ANEXO E ................................................................................................................................................ 179
Script para generar un genoma de referencia de las regiones de estudio ........................................... 179
ANEXO F ................................................................................................................................................ 185
Script para calcular el BAF..................................................................................................................... 185
ANEXO G ............................................................................................................................................... 186

3
Lista de genes estudiados ..................................................................................................................... 186
ANEXO H................................................................................................................................................ 194
Lista de variantes incluida en la validación por Sanger. ....................................................................... 194
Anexo I Publicaciones ............................................................................................................................... 217

Resumen

4
Resumen

Dada la importancia que está adquiriendo la secuenciación de ácidos nucleicos, no sólo en el


ámbito del diagnóstico genético, sino en el de la medicina en general.

Desde el año 2005, se ha venido desarrollando una nueva técnica de secuenciación denominada,
secuenciación de nueva generación (NGS). que permite secuenciar de forma rápida y económica
cualquier genoma.

Su aplicación en la práctica clínica necesita una extensa validación y puesta a punto de todo el
flujo de trabajo que conlleva utilizar estas nuevas tecnologías, a dos niveles:

• Flujo de trabajo en el laboratorio de biología molecular


• Procesado de datos bioinformáticos .

Existen diferentes alternativas para lograr llegar al objetivo final de proporcionar un diagnóstico
rápido y preciso.

Se evaluaron diferentes flujos de trabajo a nivel de laboratorio e bioinformáticos, incluyendo:

• Diferentes métodos de preparación de muestras


• Distintos equipos de secuenciación de nueva generación
• Variados métodos de procesado informático de los datos generados

Con el objetivo final de validar un protocolo con alta reproducibilidad y sensibilidad para la
detección variantes genéticas implicadas en el diagnóstico de enfermedades cardiovasculares de
origen congénito.

5
Resumo

6
Resumo

Resumo

7
Resumo

Dada a importancia que está a adquirir a secuenciación de ácidos nucleicos, non só no ámbito do
diagnostico xenético, senón naquel da medicina en xeral.

Dende o ano 2005 veuse desenvolvendo una nova técnica de secuenciación denominada:
Secuencaición de nova xeración (NGS). Que permite secuenciar de forma rápida e económica
calquera xenoma

A súa aplicación na práctica clínica necesita dunha extensa validación e afinación de todo o fluxo
de traballo que acarrega utilizar estas novas tecnoloxías a dous niveis.

• Fluxo de traballo no laboratorio de bioloxía molecular


• Procesado de datos bioinformáticos

Existen diferentes alternativas para lograr acadar o obxetivo final de proporcionar un diagnose
rápida e precisa

Evaluáronse diferentes fluxos de traballo a nivel de laboratorio e bioinformáticos , incluindo:

• Diferentes métodos de preparación de mostras.


• Distintos equipos de secuenciación de nova xeración.
• Variados métodos do procesado informático dos datos xerados.

Con o obxetivo final de validar un protocolo con alta reproducibilidade e sensibilidade para o
diagnóstico de enfermedades cardiovasculares de origen conxénito.

8
Abstract

9
Abstract

Abstract

10
Abstract

Due the actual importance of nucleic acids sequencing, not just in the field of genetic diagnosis, but also
on general medicine

Since 2005, a new sequencing technique has been developed, called Next Generation Sequencing
(NGS), wich allows a rapid and economical sequencing for any genome

Its application in clinical practice requires a wide validadtion and fine tuning of the entire workflow wich
involve the use of these new technologies at two levels:

Workflow in the molecular biology laboratory.

Bioinformatics data processing

There are different alternatives to archive the goal of providing a rapid and accurate diagnosis.

Different workflows were evaluated at laboratory and bioinformatics levels including:

Different methods for sample preparation.

Several New Generation Sequencing equipment

Various methods of informatic data processing.

Witth the goal of validating a protocol with high reproductibility and accuracy for the deteccion of

genetics variants involved in the diagnosis of congenital cardiovascular diseases.

11
Introducción

12
Introducción

Introducción

13
Introducción

Secuenciación
Una secuencia de ADN es una disposición u ordenamiento de las cuatro bases nitrogenadas que forman
una molécula de ácido desoxirribonucleico: Adenina (A), Guanina(G), Citosina (C) y Timina (T). Así pues,
se puede definir secuenciación como un conjunto de métodos y técnicas bioquímicas cuya finalidad es la
determinación de los nucleótidos: A, G, C y T, en una cadena de ácido desoxirribonucleico (ADN).
Normalmente, la secuencia de ADN constituye la información genética heredable, por lo que su
determinación resulta útil en el estudio de la investigación básica y aplicada, pero en los últimos tiempos
ha dado el salto al diagnóstico clínico.

Métodos históricos
El primer concepto de secuenciación tuvo lugar en 1949 cuando Sanger en sus estudios sobre la insulina,
denotó la importancia de la secuencia en macromoléculas biológicas (1), resumiendo sus hallazgos en el
trabajo que le valió el Premio Nobel en 1959: Examination of the sequences of the two chains reveals
neither evidence of periodicity of any kind, nor does there seem to be any basic principle which determines
the arrangement of the residues. (2).

En 1953, Watson y Crick descubrieron la doble hélice del ADN (3); sin embargo, transcurrieron 15 años
más hasta la primera determinación experimental de la secuenciación del ADN, este hecho fue debido a
distintos factores

● Las propiedades químicas de las distintas moléculas de ADN eran tan similares que era difícil
separarlas para poder trabajar con ellas.
● La longitud de la cadena de ADN de origen natural es mucho mayor que las de las proteínas,
la secuencia completa era inaccesible.
● Los 20 residuos de aminoácidos que se encontraron en las proteínas tienen propiedades
ampliamente variables, las cuales se había demostrado que eran útiles en la separación de
péptidos. La existencia de sólo cuatro bases en el ADN, suponía un problema mayor para
secuenciar el ADN en comparación a la secuenciación de proteínas.
● No se conocían ADNasas específicas, mientras que la secuenciación de las proteínas
dependía de proteasas capaces de escindirlos aminoácidos adyacentes.
Con el descubrimiento de las enzimas de restricción en 1970 de Hemophilus influenzae (4), (5) se obtuvo
un método para cortar las largas moléculas de ADN en pequeños fragmentos que podían ser separados
en función de su tamaño usando un gel agarosa mediante electroforesis, facilitando así su procesamiento.

14
Introducción

En 1975 Sanger desarrolla el método plus and minus para la secuenciación de ADN (6) , que consistía en
separar los productos sintetizados por la ADN polimerasa en función de su tamaño en un gel de
poliacrilamida. La síntesis del ADN mediante la extensión del cebador se llevó a cabo en dos reacciones
secuenciales. La primera era lenta y asincrónica resultando una población de productos desde uno a unos
pocos cientos de bases. El marcaje P32 era incorporado en este paso. Este producto era dividido en 8
alícuotas y usado como cebador en la segunda ronda de síntesis por la ADN polimerasa. En esta reacción,
la síntesis era terminada por la aportación de sólo uno de los cuatro nucleótidos trifosfato (reacción
“plus”) o bien tres de los cuatro (reacción minus). Las productos de esas 8 reacciones son entonces
analizados por una electroforesis y radiografiadas con rayos X, al revelar la película existen moléculas que
difieren en un simple nucleótido, de esta manera se secuenció el primer genoma completo del φX174 (7)
el cual se utiliza hoy en día como control de secuenciación en plataformas illumina.

En 1977 Maxan and Gilbert (8) publican un método para secuenciar ADN basado en la modificación
química del ADN y su posterior escisión en bases específicas . Para ello, usaban un gel de poliacrilamida
en el que se marcaba el límite de resolución de la técnica por la separación de los fragmentos generados.
La técnica consistía en romper estas moléculas marcadas con reacciones químicas específicas para cada
una de las cuatro bases. Cuatro alícuotas de la misma muestra se tratan bajo condiciones distintas,
posteriormente el tratamiento con piperidina rompe la molécula de ADN a nivel de la base modificada.
Los productos de estas cuatro reacciones se resuelven en función de su tamaño en geles de poliacrilamida
donde la secuencia puede leerse en base al patrón de bandas radiactivas obtenidas. Esta técnica permite
la lectura de unas 100 bases de secuencia. En resumen, el método requiere marcaje radiactivo en uno de
los extremos y la purificación del fragmento de ADN que se desea secuenciar. El tratamiento químico
genera rupturas en una pequeña proporción de uno o dos de los cuatro nucleótidos en cada una de las
cuatro reacciones; una reacción fragmentaba en ambas purinas dando preferencia a la Guanina (reacción
G >A) o a la Adenina (reacción A > G), otra actuaba contra las pirimidinas (C + T) y la última sólo actuaba
contra las Citosinas (C). De ese modo se genera una serie de fragmentos marcados a partir del final
marcado radiactivamente hasta el primer lugar de corte en cada molécula. Los fragmentos
posteriormente se separan por tamaño mediante electroforesis en gel de poliacrilamida, separando los
productos de las cuatro reacciones en cuatro carriles distintas, pero una al lado de la otra. Para visualizar
los fragmentos generados en cada reacción, se hace una autorradiografía del mismo, lo que proporciona
una imagen de una serie de bandas oscuras correspondientes a los fragmentos marcados con el
radioisótopo, a partir de las cuales se puede inferir la secuencia.

15
Introducción

En diciembre de 1977 se publica el método dideoxy desarrollado por Sanger (9) , este método consistía
en el uso de nucleótidos terminadores de cadena que eran análogos a los 4 dNTPs pero con una
modificación para que pudieran terminar la elongación de la cadena. La modificación consistía en la
ausencia de un grupo 3´-OH necesario para la formación del enlace fosfodiéster entre dos nucleótidos
consecutivos durante la elongación de la cadena de ADN.

El método clásico de terminación de la cadena o método de Sanger necesita una hebra molde de ADN de
cadena sencilla, un cebador de ADN, una ADN polimerasa con nucleótidos marcados radiactivamente o
mediante fluorescencia y nucleótidos modificados que terminan la elongación de la cadena de ADN. La
muestra de ADN se divide en cuatro reacciones de secuenciación separadas que contienen los cuatro
desoxinucleótidos estándar (dATP, dGTP, dCTP y dTTP) y una ADN polimerasa. En cada reacción se añade
solo uno de los cuatro dideoxinucleótidos (ddATP, ddGTP, ddCTP, o ddTTP), cuando se incorpora uno de
estos dideoxinucleótidos se termina la elongación de la cadena al carecer un grupo 3'-OH que se necesita
para la formación del enlace fosfodiéster entre dos nucleótidos durante la elongación de la cadena de
ADN, esta incorporación en la cadena naciente de ADN termina su extensión, lo que produce varios
fragmentos de ADN de longitud variable.

Los dideoxinucleótidos se añaden a concentraciones lo suficientemente bajas como para que produzcan
todas las posibilidades de fragmentos y al mismo tiempo sean suficientes para realizar la secuenciación.
Los fragmentos de ADN sintetizados y marcados de nuevo son desnaturalizados por calor y separados por
tamaño (con una resolución de un solo nucleótido) mediante electroforesis en gel de poliacrilamida-urea.
Cada una de las cuatro reacciones de síntesis se analiza en carriles individuales para cada nucleótido (A,
T, G y C) y se visualizan las bandas de ADN mediante autorradiografía o luz ultravioleta. El resultado se lee
de abajo arriba por peso molecular como se indica en la figura 1.

A partir de estos métodos basados en separación en matrices sólidas, de fragmentos en función de su


tamaño,empezó una carrera por secuenciar cada vez organismos más grandes. El progreso en la
metodología permitió aumentar la complejidad de las regiones a secuenciar. Así, en 1981 Sanger y
colaboradores (10) , secuenciaron el genoma mitocondrial humano de 16,5 kb, después el genoma
completo del fago lambda de 48,5 kb (11) , seguido de por Baer (12)ly la secuenciación del Epstein-Barr
virus de 172kb en 1984 y también el genoma del citomegalovirus humano de 273kb en 1991. (13) Durante
este periodo se consiguió aumentar la longitud de las lecturas de la secuenciación dideoxy desde las 100
pb hasta unas 400 pb. Esta mejora fue resultado del uso de geles más delgados y con más carriles, y del

16
Introducción

marcaje del ADN con S35 que permitía bandas más nítidas que el marcaje con P32 debido a la menor
energía de las partículas beta emitidas.

Figure 1. Representación esquematica de la secuenciación de Sanger. Una banda oscura en un carril indica que el final de la
elongación de la cadena.

En 1986, en el laboratorio de Leroy Hood (14) en colaboración con Applied Biosystems, se publican los
resultados de la primera secuenciación automática. En este estudio se muestra como el resultado de la
secuenciación fue obtenido directamente por un ordenador sin necesidad de autorradiografiar el gel.
Para ello, elegidieron el método dideoxy, en el que los ddNTPs estaban marcados usando 4
electrofluoróforos diferentes. La diferencia con el método clásico era que se habían mezclado los 4
ddNTPs en una sola reacción y la electroforesis se realizaba en un gel con forma de tubo. La fluorescencia
desprendida por los fragmentos de ADN era captada por un detector óptico que era capaz de distinguir
los 4 dideoxinucleótidos en función del fluoróforo con el que estaban marcados. Los datos obtenidos por
el detector de fluorescencia eran almacenados en un ordenador. Al igual que en los métodos basados en
gel, la secuencia era deducida por el orden en cual los 4 diferentes ddNTPs pasaban por el detector.
Nuevas versiones de esta técnica empezaron a surgir, potenciando el empleo cada vez mayorde la
secuenciación automática.

En 1996, ABI introdujo el primer secuenciador de electroforesis capilar: el ABI Prism 310, presentando dos
años más tarde el ABI Prism 3700 con 96 capilares. Es en este punto, cuando por primera vez se considera

17
Introducción

realmente secuenciación automática ya que el gel había sido sustituido por un sistema de capilares y una
matriz polimérica. Las muestras para electroforesis eran cargadas directamente desde las placas,
eliminado este paso manual que era necesario en la anterior generación de secuenciadores.

Hasta 1995, solamente se habían secuenciado virus y genomas de organelas, per es en este año cuando
Craig Venter secuenció dos especies de bacterias: Haemophilus influenzae (15) y Mycoplasma genitalium
(16). La secuenciación de H. influenzae introdujo la fragmentación del genoma completo, método
utilizado para secuenciar genomas celulares de gran importancia como fueron el primer genoma eucariota
de la levadura [Link], de 12 Mb a finales de 1996 (17). El primer genoma animal fue el de C. elegans
de 97 Mb en 1998 (18) y en el año 2001 se publica el primer borrador del genoma humano (19), (20).
Revolucionando el diagnóstico genético humano.

Next generation sequencing

Las tecnologías next generation sequencing incluyen una variedad de métodos que se pueden agrupar de
manera general en:

• el modo de preparar la muestra.


• obtención de la imagen
• análisis de los datos.

Tienen en común que el fragmento de ADN no necesita una migración electroforética.

Cada tecnología utiliza protocolos específicos y la producción de los datos son diferentes, lo que
representa una serie de retos cuando se comparan las plataformas entre sí, en base a la calidad de los
datos y su coste. Los protocolos corrientes implican la fragmentación del ADN genómico inicial.

Hay que añadirle un adaptador universal a cada lado del fragmento generado, este, es utilizado cono diana
por los cebadores específicos en una reacción de amplificación. Quedando la molécula de ADN lista para
su secuenciación.

Normalmente el ADN es amplificado clonalmente en un primer paso previo a la secuenciación, ya que la


mayoría de los sistemas basados en imágenes no son capaces de detectar la fluorescencia desprendida
por una sola molécula, haciendo necesaria la amplificación previa de los ADN moldes. Los métodos más
comunes utilizados para tal fin son:

18
Introducción

• La PCR de emulsión.
• La amplificación en fase sólida.

Finalmente, el producto es inmovilizado en una superficie sólida o soporte. La inmovilización espaciada


de estos fragmentos permite que miles de millones de reacciones de secuencia tengan lugar
simultáneamente.

En el año 2004, sale a la luz el primer ultrasecuenciador conocido como Roche 454 FLX, el cual utiliza una
tecnología de secuenciación alternativa, la pirosecuenciación. Este método fue desarrollado por Mostafa
Ronaghi y Pal Nyrén en 1996 (21). Está basada en la secuenciación por síntesis, acoplando la síntesis de
ADN a una reacción quimioluminiscente, lo que permite una rápida determinación de secuencias en
tiempo real. La técnica utiliza cuatro reacciones enzimáticas que tienen lugar en un único tubo en el que
se monitoriza la síntesis de la cadena complementaria de ADN, usando como molde ADN de cadena
simple. Los nucleótidos son añadidos de forma consecutiva a la reacción y en caso de incorporación, se
libera pirofosfato inorgánico (PPi), éste desencadena una serie de reacciones que resultan en la
producción de luz, de forma proporcional a la cantidad de DNA y el número de nucleótidos incorporados.
La generación de luz se detecta en forma de pico y se graba gracias a un sistema de detección, reflejando
la actividad de los enzimas en la reacción.

La técnica de pirosecuenciación se realiza en 5 pasos como se puede ver en la figura 2

Figura 1 (1). una molécula de ssDNA amplificado por PCR híbrida con el cebador de secuenciación y se incuba con los enzimas
DNA polimerasa, ATP sulfurilasa, luciferasa y apirasa, más los sustratos adenosina-5’-fosfosulfato (APS) y luciferina. (2) La

19
Introducción

adición de uno de los 4 dNTPs inicia el segundo paso, en el que la DNA polimerasa cataliza la incorporación del dNTP al molde si
es complementario. (3) La ATP-sulfurilasa convierte cuantitativamente el PPi en ATP en presencia de APS. El ATP generado
permite la conversión de la luciferina en oxiluciferina por acción de la luciferasa, generando luz visible en cantidades
proporcionales a la cantidad de ATP presente. La luz emitida es detectada por una cámara CCD y puede ser analizada por el
programa. Cada señal luminosa es proporcional a la cantidad de nucleótidos incorporados. (4)Para continuar con la
secuenciación, es esencial la degradación de aquellos dNTPs que no han sido incorporados. La apirasa es el enzima encargado
de ello. [Link] dNTPs pueden ser añadidos para iniciar un nuevo ciclo.

Roche 454
En la aproximación de Roche 454 FLX, (22) los fragmentos generados del ADN son mezclados con perlas
de agarosa, las cuales tienen oligonucleótidos complementarios al adaptador específico del 454 que llevan
los fragmentos de ADN generados. Cada perla se asocia con un único fragmento, cada uno de estos
complejos perla/fragmento es aislado en una micela de agua y aceite que contienen los reactivos para la
PCR, con la ayuda de un termociclador, tiene lugar la PCR de emulsión en la que cada micela produce
aproximadamente un millón de copias de cada fragmento de ADN anclado en la superficie de las perlas.

Estas moléculas amplificadas individualmente son luego secuenciadas en masa. Para ello, las perlas se
disponen sobre una placa picotiter que contiene una única perla en cada uno de varios cientos de miles
de pocillos individuales, que proporciona un lugar fijo en el que cada reacción de secuenciación se pueda
controlar. A continuación, se le añaden unas esferas liofilizadas que contienen las polimerasas y se
distribuyen en capas dentro de la placa junto con otras esferas enzimáticas que contienen luciferasa y
sulfurilasa. Esta capa de esferas enzimáticas ayuda a que las perlas con ADN permanezcan en el interior
del pocillo durante la reacción de secuenciación. Una vez que la picotiter está preparada, se coloca en
frente de la cámara CCD (Charge-coupled Device) que captará la luz emitida por cada perla durante el
proceso de secuenciación, el cual tiene lugar gracias a la adición de los reactivos de secuenciación que
fluyen a través de los pocillos de la placa. Durante el flujo de nucleótidos, cada una de los cientos de miles
de perlas con millones de copias de ADN se secuencia en paralelo, cuando un nucleótido es
complementario a la cadena molde, la polimerasa extiende la hebra existente de ADN mediante la adición
de nucleótidos. Esta adición resulta en una reacción que genera una señal de luz que es recogida por la
cámara CCD del equipo. La intensidad de la señal es proporcional al número de nucleótidos incorporados.

Como se puede ver en la figura 3, los cuatro primeros nucleótidos (TCGA) situados en el adaptador son
utilizados para la construcción de la librería y permiten al software del 454 calibrar la luz emitida por la
incorporación de cada nucleótido de manera individual. En la secuencia TTCTGCGAA, se observa que la
intensidad asociada a las primera T es el doble que a la tercera base T, esto indica que se han añadido dos
T al mismo tiempo, lo mismo ocurre con las dos adeninas del final de la secuencia.

20
Introducción

La mayor limitación de la tecnología 454 es la falta de detección de homopolímeros debido a que no existe
ningún elemento preventivo que evite las múltiples incorporaciones consecutivas en el mismo ciclo. La
longitud de todos los homopolímeros se infiere por la intensidad de la señal, lo que le hace propenso a
una tasa de error mayor que la discriminación de incorporaciones contra no incorporaciones. Como
consecuencia, el tipo de error dominante en esta plataforma es inserción–deleción. (23)

En comparación con otras plataformas de nueva generación, la ventaja clave de la plataforma 454 es de
longitud de lectura, aunque el coste por base de secuenciación de esta plataforma 454 es mucho mayor
que el de otras plataformas. Sin embargo, es el método más utilizado para ciertas aplicaciones en el que
las longitudes de lectura son críticas, como son, el ensamblaje de novo y la metagenómica.

Figura 2. Esquema de las intensidades de las bases incorporadas en el sistema de Roche 454, a intensidad
más alta indica la adición de dos o más nucleótidos iguales añadidos al mismo tiempo.

ABI SOLiD

En el 2005 se desarrolla en el laboratorio de George Church una tecnología de secuenciación basada en


ligación (24) y en 2007 Applied biosystems la redefine y lanza al mercado la plataforma ABI SOLiDTM,
siendo un enfoque único para la secuenciación de los fragmentos amplificados, la aproximación de
ligación

21
Introducción

Al igual que en la plataforma de Roche 454, la amplificación de los fragmentos se realiza por PCR de
emulsión en unas micelas de agua-aceite que contienen todo lo necesario para realizar la amplificación y
una perla magnética de 1 µm que lleva unida el adaptador P1 a su superficie. Los cebadores hibridan con
el adaptador P1, antes de la emulsión se diluye el producto para maximizar el número de microrreactores
que contienen una única molécula de ADN y una única perla. Cuando se crea la emulsión, se realiza la
amplificación clonal de la única molécula de ADN. Las emulsiones se rompen para liberar las perlas
magnéticas de los microrreactores y se purifica mediante diferentes lavados con sus respectivos
tampones. La secuenciación tiene lugar cuando un cebador universal complementario a la secuencia del
adaptador P1 se ancla y permite las posteriores reacciones de ligación (Figura 4).

La plataforma SOLid utiliza un sistema novedoso basado en la codificación de dos bases. Como resultado
se obtiene una secuencia de nucleótidos interpretada a partir de una secuencia de colores mediante el
uso de las dos bases de codificación anteriormente mencionadas. Cada uno de los cuatro posibles
fluoróforos representa cuatro posibles combinaciones de dinucleótidos.

Durante la ligación cada base es interrogada dos veces, el color desprendido en cada ciclo de ligación es
almacenado digitalmente. El beneficio de la codificación de dos bases de colores, es que el diseño único
de la matriz permite que los errores generados por la medición sean fácilmente distinguibles de los
verdaderos polimorfismos. Una medición errónea se produce cuando un color es incorrecto, y por lo tanto
un espacio de color único que discrepa con el espacio de color de la secuencia de referencia. Un verdadero
polimorfismo requiere que dos colores adyacentes cambien al mismo tiempo. Esto permite una fácil
discriminación entre las medidas erróneas y los polimorfismos. Esta característica confiere una clara
ventaja sobre la codificación de una sola base usada por los sistemas basados en ADN polimerasas, en las
que no es posible distinguir entre una medida errónea y un polimorfismo, lo que hace que requiera de
una mayor profundidad de cobertura.

22
Introducción

Figura 3. A) un cebador universal, una Ligasa y una mezcla de sondas octaméricas fluorescentes que
contienen todas las posibles combinaciones de A, C, G, T, interrogan la secuencia del molde desconocido.
(B) Sólo la sonda homóloga a las primeras 5 bases de la secuencia desconocida estará en la posición
apropiada para ser ligado al cebador universal de secuenciación. Las sondas que hibridan en otras regiones
de la secuencia de ADN no funcionan como sustratos para la ligasa, porque la enzima sólo puede
establecer un enlace fosfodiéster entre el fosfato 5´ de un oligonucleótido y el 3´hidroxilo del segundo
oligonucleótido. El extremo 3´de la sonda que interroga sólo ligara con el extremo 5´del cebador universal.
Las sondas están marcadas con cuatro diferentes fluoróforos, cada uno asociado dentro de la sonda con
un conjunto distinto de cuatro combinaciones de dinucleótidos en las posiciones 1 y 2. (C) ,la fluorescencia
emitida de manera específica en función del fluoróforo durante la reacción será captada por el sensor.. La
sonda y los nucleótidos del 6 al 8 son liberados antes de la siguiente ronda de ligación, esta eliminación
ese produce mediante escisión química del enlace modificado entre los nucleótidos 5 y 6 de la sonda.

23
Introducción

Semiconductores: Ion torrent


La secuenciación por semiconductores es lanzada al mercado en febrero del 2010 y es un método de
secuenciación de ADN basado en la detección de iones de hidrógeno que se liberan durante la
polimerización de ADN (25). No usando una secuenciación óptica como en los casos anteriores.

Es un método de secuenciación por síntesis, durante el cual una hebra complementaria se construye sobre
la base de la secuencia molde. En la naturaleza, la incorporación de un desoxirribonucleótido trifosfato
(dNTP) en una cadena de ADN en crecimiento implica la formación de un enlace covalente y la liberación
de pirofosfato y una carga positiva de iones hidrógeno. Un dNTP sólo será incorporado si es
complementario a un nucleótido no apareado de la cadena molde. La secuenciación mediante
semiconductores aprovecha estos hechos ya que si se libera un ión hidrógeno es porque se ha producido
una reacción de un dNTP.

La reacción tiene lugar en micropocillos dentro de un chip semiconductor, cada micropocillo contiene
una sola molécula de ADN molde y una polimerasa. Estos pocillos son secuencialmente inundados con
dNTP´s sin modificar. Si un dNTP introducido es complementario al siguiente nucleótido desapareado en
la cadena molde, éste es incorporado a la cadena complementaria por la ADN polimerasa. El ion de
hidrógeno que se libera en la reacción cambia el pH de la solución, y es detectada por un ISFET (transistor
de efecto campo sensible a iones). Las moléculas de dNTP no adheridas se eliminan antes del siguiente
ciclo.

Si están presentes homopolímeros en la secuencia molde, múltiples moléculas de dNTP se incorporarán


en un solo ciclo. Esto conduce a un número correspondiente de átomos de hidrógeno liberados y una
señal electrónica proporcionalmente mayor.

Debajo de la capa de micropocillos hay una capa susceptible a iones, por debajo de la cual se sitúa el
sensor de iones ISFET. Todas las capas están contenidas dentro de un chip semiconductor CMOS
(Semiconductor complementario de óxido metálico), similar a los usados en la industria electrónica. Cada
chip contiene una matriz de micropocillos con sus correspondientes detectores ISFET. Cada ion hidrógeno
liberado dispara el sensor ISFET. La serie de impulsos eléctricos transmitidos desde el chip a un ordenador
se traduce en una secuencia de ADN, sin requerir conversión de señal intermedia, ya que los eventos de
incorporación de nucleótidos se miden directamente, evitando así el uso de nucleótidos marcados y las
mediciones ópticas. El procesamiento de señales y la obtención de la secuencia de ADN puede llevarse a
cabo con el software apropiado para ello.

24
Introducción

Esta tecnología difiere de otras en que no se usan nucleótidos modificados ni procesos ópticos, con lo que
los costes de secuenciación se abaratan drásticamente. La tecnología fue patentada por ADN Electronics
Ltd, desarrollado por Ion Torrent Systems Inc. Ion Torrent ha comercializado su máquina como un
secuenciador rápido, compacto y económico.

Figura 4. Se muestra un esquema del funcionamiento del sistema donde cuando se incorpora un nucleótido se libera un hidrógeno.
Si el nucleótido no es incorporado no se libera el hidrogeno, en el caso de que se incorporen dos bases iguales se liberan dos

hidrógenos. Estructura del microchip. Imágenes procedentes de: [Link]


science/sequencing/next-generation-sequencing/ion-torrent-next-generation-sequencing-
[Link]

Los principales beneficios de la secuenciación por semiconductores son la alta velocidad de secuenciación
y el bajo coste. Mientras que la limitación más importante, al igual que ocurre con la pirosecuenciación,
la encontramos en zonas donde se secuencian homopolímeros, donde resulta difícil diferenciar
longitudes de 7 ó 8 unidades del mismo nucleótido.

Pacific Biosciences
En 2009 se presenta la primera secuenciación en tiempo real procedente de una molécula única de ADN.
(26). La tecnología SMRT (single molecule real-time), aprovecha el proceso natural de la replicación del

25
Introducción

ADN. En esta técnica, encontramos una sucesión de pocillos sobre una película de aluminio que a su vez,
está depositada sobre un sustrato de vidrio.

Cada hueco o pocillo recibe el nombre de ZMW (zero-mode waveguide) de sus siglas en inglés. El volumen
de este pocillo se mide en escala de zeptolitros. En el interior de cada ZMW hay una ADN polimerasa junto
con la molécula molde. La ADN polimerasa se encuentra unida al sustrato de vidrio mediante una
interacción mediada por proteínas. A su vez, al ADN utilizado como molde previamente se le han unido
los adaptadores específicos para la secuenciación. La característica principal de estos adaptadores es su
forma de burbuja y son añadidos al ADN molde resultando éste en una molécula circular.

Un aspecto clave de este tipo de secuenciación son los nucleótidos marcados, los cuales presentan la
fluorescencia unida a la cadena de fosfato del nucleótido, en lugar de a la base., Típicamente, una ADN
polimerasa puede incorporar unos pocos nucleótidos marcados antes de que deje de polimerizar, los
nucleótidos utilizados en este sistema. Como un paso natural en el proceso de síntesis, la cadena de
fosfato se escinde, por acción del ADN polimerasa cuando es incorporado a la cadena creciente, tras esta
escisión el fluoróforo difunde rápidamente, dejando un fragmento de ADN completamente natural.
Cuando la reacción de secuencia comienza, la polimerasa incorpora nucleótidos en los que cada base lleva
un fluoróforo distinto, durante la iniciación de la incorporación de bases, el nucleótido fluorescente es
capturado por el sitio activo de la polimerasa cerca del fondo de la ZMW, en este fondo, existe una cámara
de alta resolución que graba la fluorescencia del nucleótido recién incorporado. Durante la unión, la pareja
fosfato y fluoróforo son separados del nucleótido, lo que hace que disminuya la señal fluorescente. La
polimerasa sintetiza una copia del ADN molde teniendo lugar una sucesión de incorporación de
nucleótidos que son grabados en tiempo real. La polimerasa tiene la capacidad de desplazar la cadena de
ADN mediante RCA (Rolling circle amplification), esta capacidad unida a las librerías circularizadas en las
que los tamaños de insertos sean relativamente pequeños, la secuenciación puede realizarse primero en
un sentido y después en el antisentido, y en repetidas ocasiones,lo que hace que mejore la precisión de
la identificación de bases, ya que la secuenciación en tiempo real tiene altas tasas de error. En tamaños
de inserto grandes la precisión disminuye ya que la secuencia es leída menos veces.

La principal ventaja de esta tecnología es la obtención de lecturas largas, las cuales son ideales para el
ensamblaje de genomas aún por descubrir. Al tratarse de secuenciación en tiempo real, tiene aplicaciones
directas importantes como el estudio de modificaciones de bases como pueden ser las metilaciones,
basándose en las diferentes cinéticas de la polimerasa al incluir una base modificada.

26
Introducción

Oxford nanopore
La primera secuenciación mediante un canal de membrana fue descrita en 1996 (27)

La técnica del nanoporo no modifica el DNA, ni lo copia, ni utiliza marcadores fluorescentes. Esta técnica
permite diferenciar los nucleótidos del DNA haciendo atravesar las moléculas de ácidos nucléicos por unos
diminutos poros. Cuando los nucleótidos atraviesan el poro, se produce un cambio de carga eléctrica,
específica para cada tipo de base nucleotídica, que pueden ser detectados, registrados y almacenados
para posteriormente presentarse en forma de secuencia de nucleótidos.

Esta tecnología fue lanzada al público general en mayo del 2015 y requiere de dos proteínas. En un primer
paso, una exonucleasa se une a la doble cadena de ADN e introduce primeramente una cadena de ADN
en el poro, el cual está formado por la proteína alfa hemolisina y una proteína heptamérica con un
diámetro de 1nm. A su vez, el poro presenta en su interior una ciclodextrina que actúa como sitio de
unión para los nucleótidos.

Durante la fase de unión, el paso por el nanoporo se interrumpe creando una señal característica para
cada nucleótido. El rastro de corriente eléctrica proporciona una grabación de la secuencia de nucleótidos
a medida que estos van pasando a través del nanoporo.

La principal ventaja que presenta este sistema es que ofrece una solución a las limitaciones de la
secuenciación de lecturas cortas, permitiendo la secuenciación de moléculas de ADN largas en minutos
sin la necesidad de modificar o preparar las muestras.

Secuenciación mediante microscopía

Con los avances en microscopía se pueden crear imágenes con un límite de resolución de 0,1 nanómetros,
utilizando esta tecnología ZS Genetics ha conseguido secuenciar largas moléculas de ADN. Todavía no se
ha lanzado el producto comercialmente.

El ADN normal, no es visible con un microscopio electrónico debido a que solamente presenta elementos
con una masa atómica ligera en su composición, para ello utilizan unos dNTPS con átomos con una mayor
masa atómica. El ADN de doble cadena debe ser desnaturalizado para convertirlo en ADN de cadena
simple. Posteriormente tiene lugar la reacción de polimerización, no amplificación, en la cual los dNTPS
usados tienen una masa atómica alta y lo suficientemente distinta como para poder diferenciar cada
nucleótido en una imagen de microscopía electrónica. Las cadenas de ADN son alineadas en un sustrato

27
Introducción

mediante DNA combing con el fin de que el microscopio electrónico pueda diferenciar cada base. Las
cadenas de ADN son bombardeadas con una fuente de electrones obteniéndose una imagen de claros y
oscuros que posteriormente son descifrados por el software informático y traducidos en una secuencia
de ADN.

Secuenciación Illumina

El proceso descrito a continuación es el típico de uno de sus modelos, el hiseq y con secuenciación tipo
paired end, además requiere de un cBot para amplificar las librerías generadas. Las diferentes librerías
son añadidas a cada carril de la célula de flujo para permitir secuenciaciones independientes. La
separación de esta celda en carriles y su sellado minimizan el riesgo de contaminación y el manejo de los
errores. Los grupos clonales son generados en una estación de cluster de Illumina o en un cBot, este
proceso no requiere habitaciones limpias, robótica o hardware adicional.

Un requisito indispensable para la secuenciación en estas plataformas es la adición de unas pequeñas


secuencias de nucleótidos a cada extremo del ADN que se quiere estudiar, estos oligonucleótidos reciben
el nombre de adaptadores, son secuencias diferentes en cada extremo y obedecen al nombre de P5 y P7.
Como característica, tienen una secuencia complementaria a los oligonucleótidos presentes en la célula
de flujo con los cuales se unirán. Este soporte sólido de sílice sirve para inmovilizar la librería y proceder
a su amplificación para generar copias idénticas de la misma, las cuales son necesarias para potenciar la
resolución del aparato, ya que necesita que un alto número de copias idénticas sean excitadas al mismo
tiempo para que se pueda detectar la señal.

Esta amplificación se lleva a cabo mediante una PCR mediada por puente, la cual tiene lugar en un soporte
sólido con las librerías inmovilizadas mediante puentes de hidrógeno y en condiciones isotérmicas. En esa
matriz sólida, es donde tienen lugar los ciclos de desnaturalización, anillamiento, extensión y lavado.
(figura 6)

La molécula de ADN anclada actúa como molde para la polimerasa que realiza la etapa de extensión, la
nueva molécula creada es complementaria y se encuentra unida a la célula de flujo mediante un enlace
covalente, es esta, la que forma el puente con otro punto cercano de la célula de flujo mediante un enlace
por puentes de hidrógeno en un extremo mientras conserva su enlace covalente en el otro. En ese punto

28
Introducción

ocurre otra extensión dando como resultado una molécula igual a la original, pero ahora está unida por
un extremo mediante puentes de hidrógeno y por el otro mediante un enlace covalente.

La posterior desnaturalización tiene como objetivo eliminar las uniones débiles (puentes de hidrógeno)
obteniendo en este caso, dos moléculas complementarias separadas en lugar de una inicial. Repitiendo
los ciclos se generan grupos de moléculas o clusters. El ciclo acaba con la liberación de la cadena
complementaria para tener solamente un grupo de moléculas de ADN de simple cadena, todas ellas
iguales en cada cluster mediante el proceso que Illumina llama linealización del extremo P5.

El extremo 3´OH libre es bloqueado para prevenir uniones no específicas, los cebadores de secuenciación
son hibridados a los extremos del ADN molde, se transfiere la célula de flujo que contiene los clusters de
clonación al secuenciador.

Figura 5 La librería de ADN es diluida a pM, desnaturalizada e introducida en los 8 carriles de la célula de flujo, las secuencias de
ADN son capturadas por sus extremos en donde llevan los adaptadores unidos, estos adaptadores se unen covalentemente a los
adaptadores anclados en la superficie de la célula de flujo. Los ADN unidos son extendidos desde el extremo 3´ y permanecen
unidos covalentemente con el oligonucleótido de la célula de flujo, se produce desnaturalización para obtener ADN de simple
cadena, el otro extremo libre híbrida con un oligonucleótido adyacente de la célula de flujo formando puentes en forma de U
invertida. Esta molécula de ADN que ha formado el puente es copiada creando de esta manera ADN de doble cadena, ambas
cadenas están unidas entre sí por enlaces de hidrógeno y con la célula de flujo por enlaces covalentes. Posteriormente vuelve a
ser desnaturalizado, el extremo libre de esas dos moléculas hibrida de nuevo con los oligonucleótidos unidos a la célula de flujo,
se forman nuevos puentes y se vuelven a extender. Este proceso de amplificación por puentes isotérmicos es repetido 35 veces
para crear un cluster de aproximadamente 2000 moléculas, las cadenas de sentido negativas son liberadas mediante un proceso
de escisión específica de los oligonucleótidos de la célula de flujo. [Link]
courses/[Link]

La terminación de la síntesis del ADN después de la adición de un único nucleótido illumina utiliza unos
terminadores reversibles 3´-O-azidomethyl 2´deoxynucleosido trifosfato (A, C, T, G), cada uno marcado

29
Introducción

con un fluoróforo diferente (28). Para la incorporación de estos nucleótidos la polimerasa debe estar
modificada en su centro activo. Después de la incorporación del nucleótido, los restantes que no han sido
incorporados son lavados. Es en este momento cuando tiene lugar la captura de la imagen mediante la
excitación de los fluoróforos por dos tipos de láser. El láser verde identifica la incorporación de las bases
G y T, mientras que el láser rojo identifica la incorporación de las bases A y C, también se utilizan dos
diferentes filtros para distinguir entre (G/T) y (A/C), la señal llega a la cámara CCD la cual determina cual
es el nucleótido incorporado. Se obtiene una foto de múltiples clústeres a la vez, cada cluster es
identificado por una posición X-Y. Después le sigue el paso de la escisión, el cual elimina el grupo inhibidor
y el fluoróforo. Antes de empezar un nuevo ciclo de incorporación de nucleótidos tiene lugar un lavado
adicional.

La extensión sincrónica nucleótido a nucleótido hace que la secuenciación de homopolímeros sea posible,
sin embargo, un posible error en la incorporación del nucleótido durante el ciclo de secuencia crea un
efecto de desfase, algunas moléculas de ese clúster van más adelantadas deteriorando las señales a través
de los ciclos, es por este proceso que Illumina sólo puede secuenciar moléculas pequeñas. El gran éxito
de secuenciación de la plataforma Illumina radica en su habilidad para realizar billones de reacciones a la
vez, teniendo lugar todas ellas en la célula de flujo. Normalmente, estos secuenciadores cuentan con
hasta ocho cámaras distintas que reciben el nombre de líneas, cada línea es independiente pudiéndose
secuenciar mezclas de librerías distintas en cada una de ellas sin que exista contaminación entre esas
líneas.

Debido a que el dispositivo de captura de imagen no puede capturar todos los clústeres presentes en una
línea en una simple imagen, se obtienen varias imágenes de múltiples localizaciones de una línea, a estas
localizaciones se les llama tiles (figura7). Cada imagen puede tener cientos de miles de clústeres, cada
cluster está formado por una molécula que consta de mil copias. La función de estas mil copias de la
misma molécula es incrementar el nivel de intensidad de la señal emitida, sería imposible detectar la señal
proveniente de una sola secuencia de ADN molde. Sin embargo, la distancia física de las copias de ADN
que forman un cluster está por debajo del límite de difracción, permitiendo que la imagen a percibir se
corresponda con un solo punto.

30
Introducción

Figura 6 Se muestra una célula de flujo de ocho carriles en el que el primer zoon muestra una baldosa (tile) formada por miles de
clusteres, en el que cada cluster está formado por la amplificación clonal de una molecula inicial de ADN [122]

Los datos obtenidos por esta secuenciación es una serie de imágenes obtenidas de la emisión de millones
de clústeres en una combinación específica de línea, tile, ciclo y fluoróforo. Estas imágenes sirven de
entrada al algoritmo de base calling.

Una vez que se obtienen las imágenes, es necesario discernir en cada posición que base se corresponde
con cada imagen y con qué calidad. Para ello Illumina utiliza un algoritmo en el que es prioritario pasar la
imagen a una intensidad utilizando el programa de multiplexing Firecrest, que identifica cada posición del
cluster y extrae la intensidad mediante el filtrado de imágenes, realza los clusters, elimina el ruido de
fondo y detecta clústeres basados en características morfológicas en la imagen. Firecrest también ajusta
la escala y el registro de una imagen. Actualmente, se realiza en tiempo real con el proceso de
secuenciación en un servidor dedicado, el cual crea un archivo de intensidades que contienen la posición
de cada cluster en línea, tile, X e Y coordenadas junto con una matriz de cuatro intensidades, una por cada
base en cada ciclo. Los valores de intensidades muestran una correlación linear con los datos obtenidos
con las imágenes generadas.

Por otra parte, se utiliza un módulo llamado Bustard para el base calling, que descodifica la señal y aplica
una serie de correcciones para el cross-talk, phasing y prephasing.

31
Introducción

Las plataformas Illumina poseen dos láseres y cuatro filtros para detectar los cuatro fluoróforos distintos
anclados a cada nucleótido. Las frecuencias de emisión de estos cuatro fluoróforos se superponen, por lo
que las cuatro imágenes generadas no son independientes, Bustard realiza una deconvolución mediante
una matriz de frecuencias.

En cuanto al fenómeno Phasing/Prephasing, cabe destacar que dependiendo de la eficacia de los fluidos
y de la reacción de secuenciación, un número pequeño de moléculas de cada cluster pueden adelantarse
al resto (prephasing) o retrasarse del resto (phasing) durante la incorporación de nucleótidos en cada
ciclo. Este efecto es mitigado aplicando correcciones basadas en la misma frecuencia de bases durante la
fase de base calling.

Otros problemas que pueden aparecer en este tipo de secuenciación son aquellos relacionados con el
descoloramiento que sufre el fluoróforo, debido a que el proceso de secuenciación puede durar días y el
ADN es lavado en exceso. La presencia del láser puede crear especies reactivas y al mismo tiempo, el ADN
está sometido a condiciones ambientales adversas. Es por todo ello que la intensidad de la señal
fluorescente disminuye con el tiempo. La escisión insuficiente del fluoróforo puede crear una distorsión
residual; diferentes tipos de fluoróforos pueden tener diferentes probabilidades de escisión y si un
fluoróforo tiene una probabilidad más alta de una mala escisión que los otros puede crear un sesgo de un
nucleótido determinado, que aumentará con los ciclos de secuenciación.

Sistemas de enriquecimiento

Debido a que no todos los secuenciadores tienen la capacidad para secuenciar un genoma humano
completo, se han creado diferentes sistemas de enriquecimiento que permiten al usuario seleccionar
zonas específicas del ADN que son las que después se secuenciarán.

Con los sistemas de enriquecimiento de las zonas de interés, los costes y los esfuerzos se reducen
significativamente en comparación con la secuenciación del genoma completo. Existen diversos sistemas
de enriquecimiento, cada uno caracterizado por unas cuestiones técnicas y de facilidad de uso propias.

32
Introducción

Uno de los mayores desafíos de los sistemas de enriquecimiento es el factor de enriquecimiento,


relacionado con la especificidad. Este parámetro responde a la relación de las secuencias leídas on/off
target y a la profundidad de cobertura, que es el número de veces que se repite una misma base
secuenciada, siendo este último aspecto el que sufre más variaciones.

Los sistemas de enriquecimiento se pueden clasificar según la naturaleza de la reacción principal (29)
(figura 8)

● Hibridación: cadenas cortas de ácidos nucleicos complementarias a las zonas de interés hibridan
con los fragmentos de ADN preparados mediante perdigonada,. Se puede llevar a cabo tanto en
solución líquida como en soporte sólido. De esta manera se puede capturar y aislar físicamente
las secuencias de interés.

● Circularización selectiva: también llamadas sondas de inversión molecular (MIPs) , consisten en


sondas circulares que son complementarias a los extremos de las zonas de interés, estas sondas
circulares una vez unidas a la región de interés mediante unas reacciones muy específicas son
capaces de capturar las secuencias deseadas para posteriormente realizar una amplificación
selectiva de las mismas. En este caso la fragmentación del ADN suele realizarse de una manera
controlada mediante enzimas de restricción.

● Amplificación por PCR: donde la reacción en cadena de la polimerasa es directamente llevada a


las regiones de interés, se suelen utilizar múltiples Long-range PCR en paralelo, dependiendo del
tamaño que posea la región de interés. Se puede realizar con unas reacciones estándar de PCR
multiplex o mediante un gran número de reacciones de PCR que amplifiquen un gran número de
reacciones de pequeños fragmentos.

Es necesario una correcta elección del sistema de enriquecimiento debido a las diferentes características
de los mismos, así pues, si se necesita una gran cantidad de megabases para analizar por ejemplo un
exoma, la aproximación de captura por hibridación sería la mejor opción, aun cuando existan regiones
con una captura no óptima. Sin embargo, cuando se quiere estudiar una región pequeña en muchas
muestras, el enriquecimiento basado en la PCR puede ser la mejor opción para el análisis de variantes
genéticas en la región de interés.

Algunos de los principales problemas que pueden aparecer asociados al uso de las diferentes técnicas de
enriquecimiento son:

33
Introducción

● Los elementos repetidos, tanto los intercalados como las repeticiones en tándem, así como los
pseudogenes localizados en las cercanías de la región de interés. La exclusión de los elementos
repetitivos enmascarados de la región de interés es una forma eficiente de reducir los productos
no deseados.

● Valores extremos en el porcentaje de Guaninas y Citosinas (<25% o >65%) tienen un considerable


impacto negativo en la eficiencia del enriquecimiento (30), lo que hace difícil enriquecer las zonas
5´UTR/ promotoras y los primeros exones de cada gen. Que normalmente son ricos en contenido
G/C (31)

Figura 7. Métodos usados en el enriquecimiento de regiones de interés según el tamaño de la región enriquecida, 1
Enriquecimiento basado en hibridación por captura, puede ser en soporte solido (a) como en solución (b). Una librería
fragmentada por perdigonada es hibridada contra unas sondas homologas a las secuencias de interés, posteriormente a la
hibridación las regiones no homologas a la zona de interés son descartadas mediante lavados con diferentes reactivos. 2
Enriquecimiento mediante MIPs compuesta por una molécula universal (azul) flanqueada por unas regiones diana especificas,
la amplificación tiene lugar cuando se circulariza la mólecula y se cierran el circulo mediante una ligasa, los clásicos MIPs
hibridan contra ADN fragmentado mecánicamente (a) mientras que otras pueden estar adaptadas a un coctel de enzimas de
restricción en el que las MIPs deben ser adaptadas al patrón de restricción enzimática (b).3 Enriquecimiento mediante PCR,
típicamente un fragmento por reacción (a) Multiplex PCR (b) o PCR basada en microgotas (c) (modificado de Mertes et al.)

Los tres sistemas de enriquecimiento se diferencian en la preparación específica, la hibridación de las


sondas específicas utilizadas para la captura, requiere como paso previo la fragmentación del ADN en
rangos de 100 a 250 pb. ,El enriquecimiento mediante PCR se realiza directamente sobre el ADN
genómico empleando una batería de oligonucleótidos que actúan como cebadores en las regiones de
interés; mientras que el enriquecimiento mediante MIPS ofrece la manera más rápida de preparación de

34
Introducción

las librerías ya que los primers de secuenciación son añadidos a la sonda de circularización, lo que
elimina la necesidad de más pasos para la preparación de las librerías.

Entre las opciones para preparar una librería mediante hibridación existen dos estrategias distintas:

● La realización de una mezcla de muestras antes de realizar el enriquecimiento, conocidas en la


literatura como pre-captura.
● La realización de una mezcla de muestras que se realiza después del enriquecimiento, conocidas
como librerías basadas en post-captura.

La principal ventaja de las librerías pre-captura es que se reduce el tiempo de procesado y los costes de
los reactivos. Como desventaja, aparece una disminución de la eficiencia de captura (32),(33). Esta
disminución puede ser compensada aumentando la cantidad de datos generados, pero siempre hay que
tener en cuenta que en este tipo de estrategias alguna muestra puede no funcionar correctamente dando
resultados inferiores a los esperados, siendo necesaria su repetición.

Por otro lado, las estrategias post-captura en la que cada muestra se trata individualmente hasta su
entrada en el secuenciador, tienen el inconveniente de que se requiere un mayor tiempo de procesado
para cada muestra. La principal ventaja radica en que la eficiencia de la captura es superior. Otra
desventaja importante de las estrategias pre-captura, es que después de la captura se realiza una PCR
que puede formar lo que se denomina jumping PCR, causando cierta ambigüedad en las lecturas
generadas para cada muestra, esto ocurre en los últimos ciclos de la PCR cuando el ADN molde empieza
a funcionar como cebador en la reacción de amplificación, se ha calculado que este fenómeno ocurre con
una incidencia del 0,4% (34).

Bioinformática

Cuando en 1953 Watson y Crick propusieron el modelo de la doble hélice para explicar la estructura del
ADN, no imaginaron el gran volumen de información que de forma exponencial se generaría a partir de
ese momento (figura 9).

Contrariamente a lo que podría suponerse, las herramientas computacionales comenzaron a aplicarse en


la biología molecular mucho antes del comienzo de la era de Internet o de los proyectos de secuenciación
del genoma. Hacia 1960, la creciente cantidad de datos referentes a la química de las proteínas llevó a los

35
Introducción

científicos a combinar las estrategias de la biología molecular, las matemáticas y la informática, para
enfrentar con éxito el desafío que ello representaba. Y en este punto aparecen la bioinformática y la
biología computacional como disciplinas íntimamente relacionadas, donde la primera, de acuerdo con la
definición de la NCBI (National Center for Biotechnology Information de los Estados Unidos de América),
busca y utiliza patrones y estructuras inherentes en datos biológicos como secuencias génicas, así como
el desarrollo de nuevas metodologías para acceso y búsquedas en bases de datos, mientras que la segunda
se refiere a la simulación física y matemática de los procesos biológicos (35)

Figura 8. Número de secuencias de genes y genomas encontrados


en GenBank en enero 2017

La difusión de las nuevas técnicas para secuenciar ADN proteínas, así como el volumen cada vez mayor
de secuencias almacenadas en los bancos de datos, hicieron necesaria la creación de algoritmos a fin de
catalogar y comparar secuencias, en los que se reconoce como pionera a Margaret Oakley Dayhoff (1925-
1983). La doctora Dayhoff desarrolló métodos computacionales que le permitieron comparar secuencias
proteicas y a partir de los alineamientos entre ellas, investigar las relaciones y por tanto la historia
evolutiva entre los diferentes reinos, phyla y taxa biológicos (36)

En 1980, la doctora Dayhoff crea la primera base de datos computarizada, con secuencias de ácidos
nucleicos y de proteínas, en un ordenador personal al que los usuarios externos podían conectarse por
vía telefónica. Para 1983 la Protein Sequence Database (PSD) era la base de datos más grande del mundo,
con más de 2,000,000 de nucleótidos secuenciados, con sus respectivas referencias y anotaciones. Sin
embargo, este avance no hubiera sido posible sin la llegada de Internet. La red proveyó las facilidades de
acceso para los usuarios, así como también para el desarrollo del software necesario en el manejo y el
análisis de inmensurables cantidades de datos.

36
Introducción

El problema bioinformático más antiguo es el de alineamiento de secuencias. Un alineamiento de dos


secuencias es una superposición exacta de los caracteres de ambas cadenas (residuos) que
arbitrariamente determinará el número de residuos similares coincidentes en cada posición de estas. Un
alineamiento global efectúa la correspondencia entre las secuencias completas, maximizando el número
total de caracteres coincidentes a lo largo de dos cadenas, teniendo en cuenta que las correspondencias
entre dos huecos no están permitidas. Es fundamental establecer un sistema de evaluación que asigne
diferentes puntuaciones a coincidencias, sustituciones y huecos para clasificar todos los posibles
alineamientos. Para evaluar la bondad de un alineamiento se suele definir la distancia como el mínimo
número de cambios necesarios para transformar la primera secuencia en la segunda. Únicamente las
diferencias son penalizadas, un alineamiento óptimo permite medir la mínima distancia existente entre
dos secuencias.

Posiblemente el primer intento de resolver el problema del alineamiento global es el algoritmo de


Needleman-Wunsch, aproximación que calcula la distancia de edición óptima entre dos cadenas mediante
programación dinámica (37).

Sin embargo, los métodos de alineamiento global disponibles son poco adecuados para alinear genomas
completos por dos motivos. El primer inconveniente es el elevado coste temporal de estos algoritmos,
aproximadamente cuadrático con la longitud de las secuencias, haciendo, por tanto, inabordable el
alineamiento de miles de secuencias en un tiempo razonable. En segundo lugar, a diferencia de las
secuencias de proteínas, las secuencias de ADN de organismos relacionados suelen poseer pocas
similitudes (normalmente concentradas en una región pequeña) siendo el alineamiento global menos útil
en estas situaciones que otros tipos de alineamiento.

Un alineamiento local realiza exclusivamente la correspondencia entre aquellos fragmentos de las


secuencias que poseen una coincidencia máxima de caracteres, descartando el resto de regiones a lo largo
de dichas secuencias que no presentan una mínima similitud.

La similitud entre dos secuencias evalúa el parecido entre éstas, recompensando a nivel estadístico las
coincidencias (y en menor medida las sustituciones) y penalizando las inserciones/deleciones. De esta
manera un alineamiento óptimo permite identificar la máxima similitud posible entre dos secuencias.
Dadas dos secuencias, el alineamiento local busca encontrar todos aquellos pares de sub-secuencias que
posean un valor de similitud por encima de un determinado umbral. En contraste al global, el alineamiento
local es una técnica útil cuando se pretende alinear secuencias que difieren claramente en tamaño y

37
Introducción

contenido, pero que son tentativas de poseer pequeños segmentos o regiones con un alto grado de
similitud. Este tipo de alineamiento es, por tanto, idóneo cuando se pretende encontrar pares de genes
(regiones de una secuencia) o elementos evolutivos entre dos genomas.

El algoritmo Smith-Waterman propuesto por primera vez en 1981 por Temple F. Smith y Michael S.
Waterman (38), es una variante del algoritmo Needleman-Wunsch para el caso del alineamiento local de
secuencias. Al igual que el algoritmo en el que está inspirado, Smith-Waterman hace uso de un esquema
de programación dinámica, garantizando, de esta manera, el descubrimiento del alineamiento local
óptimo (dependiente del sistema de puntuación que esté siendo utilizado).

BLAST o Basic Local Alignment Search Tool es posiblemente la herramienta bioinformática más popular.
El programa fue creado por Eugene Myers, Stephen Altschul, Warren Gish, David J. Lipman y Webb Miller
en el NCBI (National Center for Biotechnology Information) y publicado en 1990 (39), convirtiéndose en
uno de los artículos más citados de la década de los 90, cuenta con más 32.000 referencias. La
característica que distingue a BLAST de herramientas más tradicionales es que usando el algoritmo Smith-
Waterman, tiene un mayor énfasis en reducir el tiempo necesario para realizar el alineamiento local, a
cambio de sacrificar la sensibilidad. Dicha eficiencia temporal se logra gracias al uso de un algoritmo
heurístico, no se garantiza, por tanto, el descubrimiento del alineamiento óptimo.

A comienzos de los 90, se fueron creando bases de datos primarias como GenBank, y programas
informáticos como BLAST. Mientras GenBank almacenaba y catalogaba las secuencias de ADN y de
proteínas, BLAST permitía comparar con mayor rapidez que su predecesor FASTA las secuencias de interés
contra cada una de las secuencias contenidas dentro de la enorme base de datos.

Sin embargo, los métodos clásicos anteriores, no son muy adecuados para el alineamiento de un número
muy grande de secuencias cortas contra una secuencia de referencia grande (40) , por lo que se requiere
el desarrollo de nuevos métodos matemáticos y heurísticos para conseguir sistemas óptimos de
alineamiento. Es en este campo en el que durante los últimos años los científicos computacionales han
desarrollado multitud de algoritmos para solucionar este problema, y además han tenido que ajustarse a
unos requerimientos técnicos para evitar la necesidad de utilizar excesivo poder computacional. El
objetivo global de la asignación de lecturas cortas es obtener resultados satisfactorios de la manera más
eficiente posible (en términos de requisitos de memoria y tiempo). Como resultado obtenemos que
muchos métodos están basados en principios y algoritmos similares pero difieren en la implementación y
en la aplicación de heurísticas concretas con el fin de incrementar la velocidad con la mínima pérdida de

38
Introducción

precisión (41). Los desarrollos en estos campos están actualmente en auge y se producen casi
semanalmente herramientas nuevas o modificadas (42)

Básicamente, el estudio bioinformático en técnicas de secuenciación masiva de última generación o NGS


se centra en:

• Alineamiento de las lecturas contra una referencia (mapping)


• Ensamblaje de novo
• Base calling y detección de variantes genéticas
• Anotación del genoma y funcional
• Utilidades para el análisis de datos

Para cubrir estas necesidades, a lo largo de los últimos años se han desarrollado multitud de programas,
algunos multiplataforma y otros específicos para cada plataforma. (43) (44) (45).

La estrategia empleada en técnicas de secuenciación NGS, de generación de múltiples y pequeñas lecturas


en paralelo, es desde el punto de vista de la bioinformática un reto.

Todos los beneficios que se pueden obtener mediante el uso de las técnicas NGS, quedan relegados a un
segundo plano, hasta que la bioinformática consiga maximizar la interpretación de estas pequeñas
lecturas.(46)

Alineamiento

El alineamiento de lecturas contra una referencia consiste en asignar esas lecturas cortas contra un
genoma conocido con anterioridad.

Normalmente, en un único experimento de NGS se generan cientos de gigabytes en formato de pequeñas


lecturas, que a nivel informático son terabytes de datos crudos, haciendo que su análisis sea el principal
problema de esta generación de secuenciadores. Podemos decir que la mayoría de las herramientas de
asignación de lecturas cortas contemplan la creación de un índice de las posiciones de todos los K-meros
distintos, tanto de las lecturas de la secuencia como de la secuencia del genoma. La diferencias
fundamentales entre los distintos algoritmos de asignación se basan en la indexación del genoma e en la
asignación de las lecturas de la secuencia problema, y en el método de indexación aplicado.

39
Introducción

Dependiendo de las propiedades del indexado, los algoritmos de alineamiento pueden ser agrupados en
3 categorías:

• Basados en tablas hash


• Basados en suffix trees
• Basados en merge sorting

Los basados en tablas hash siguen el mismo principio de encontrar una pequeña región que actúa como
semilla del alineamiento y extender el resto de la secuencia (seed-and-extend), el mismo principio que el
Blast. La semilla o seed es un conjunto de k-meros, 11 nucleótidos, por ejemplo, que actúan como
secuencia problema y se buscan las posiciones dentro de la referencia indexada en la que coincide sin
ningún error. Una vez que la ha encontrado, la seed extiende el resto de la secuencia. Una mejora son los
algoritmos que soportan spaced seed, que permite mismatches internos en la secuencia. El primer
programa en utilizarlo en el contexto del alineamiento de secuencias cortas fue Eland diseñado por
illumina , que divide la lectura en 4 partes de aproximadamente el mismo tamaño (indexación de lecturas)
y usa un conjunto de 6 seeds no contiguas a lo largo de toda la secuencia corta, permitiendo 2 mismatches
para que al menos una seed sea la correcta.

Otro programa es Soap (47), que utiliza la misma estrategia pero en este caso es el genoma el que está
indexado. Este tipo de algoritmos dan resultados pobres cuando las lecturas caen en zonas repetitivas, ya
que necesitan verificar en la fase de extensión, lo que lleva a un consumo de recursos informáticos
superior (48).

En los algoritmos basados en suffix trees, a diferencia de los anteriores en los que el problema se basa en
solucionar los mismacht, el problema son los alineamientos exactos, lo que conlleva identificar primero
los alineamientos correctos y posteriormente construir alineamientos incorrectos que están soportados
por los correctos.

La ventaja de utilizar este tipo de algoritmos es que el alineamiento de una secuencia en múltiples
localizaciones solamente se realiza una vez, ya que todas estas copias idénticas colapsan en un punto del
árbol generado.

Una forma eficaz de indexado es utilizando la transformada de Burrows-Wheeler , es un algoritmo de


permutación reversible utilizado en programas de ensamblaje de secuencias contra una referencia, ya
que permite dar una solución parcial a uno de los principales problemas del ensamblaje de secuencias

40
Introducción

que es el consumo de memoria. Este algoritmo permuta el orden de las bases y consigue que la misma
base se repita varias veces de manera consecutiva lo cual es útil como paso previo para la compresión y
almacenamiento de los datos.

Unos de los alineadores más conocidos es el BWA (Burrows Wheler aligment) BWA es un paquete de
software para alinear secuencias con baja divergencia contra un gran genoma de referencia, como el
genoma humano. Lo constituyen 3 algoritmos distintos: BWA-aln, BWA-SW y BWA-MEM. El primer
algoritmo está designado para secuenciación en secuenciadores Illumina en los que la generación de
lecturas es hasta 100 pb, mientras que los otros dos han sido diseñados para secuencias más largas de 70
pb hasta 1 Mb de longitud. Bwa-SW y MEM comparten características similares, lecturas largas y Split
alignment (partir una lectura en dos para un mejor alineamiento, importante característica para la
detección de variantes estructurales), pero como BWA-MEM es el último, es el que presenta una alta
calidad en sus alineamientos, combinándolo con una gran rapidez y una sensibilidad mayor que sus
predecesores. BWA-MEM está basado en un algoritmo super-maximal exact matches (SMEMs). Este
algoritmo realiza la alineación local. Se puede producir múltiples alineaciones principales para diferentes
partes de una lectura.

Adicionalmente, los algoritmos basados en merge sorting se basan en la técnica divide y vencerás,
solamente existe un programa basado en este tipo de algoritmos de alineamiento de secuencias cortas:
Slider y Slider II (49)

Se han descrito multitud de programas para realizar alineamientos sobre el ADN , como se muestra en la
figura 10

41
Introducción

Figura 9 Diferentes programas de alineamieto utilizados en NGS. en azul son los utilizados para alinear
ADN
No existe un consenso claro sobre qué metodología es mejor, cada una tiene sus ventajas e
inconvenientes. Así pues, los basados en la BWT son los más rápidos y los que necesitan menos
requerimientos informáticos, por el contrario, no presentan una corrección de errores y el tiempo de
computación no está bien escalado cuando aumentan los errores. Por otra parte, los métodos basados en
hash pueden manejar los errores siempre que no presenten uniformidad a lo largo de la lectura, ya que
la seed no podría ser encontrada, pero presentan problemas con las regiones repetitivas, una de las
mejores opciones pudiera ser la que se presenta en Stampy que usa los dos métodos.(50)

Ensamblaje

El ensamblaje de novo comparándolo con el proceso anterior es un desafío mayor, aunque con el avance
en las longitudes de lecturas que se están llevando a cabo es siempre una ayuda para este proceso, aunque
también la secuenciación por lecturas pareadas ayuda al correcto ensamblaje de un nuevo genoma. Las
lecturas pareadas consisten en secuenciar dos partes distintas de la molécula de ADN problema, dejando
una parte en el medio sin secuenciar, pero debido a que normalmente estas moléculas se superponen y
se puede llegar a conocer la secuencia de esa región.

Detección de variantes

La detección de variantes se realiza en las secuencias alineadas contra la referencia y identificando qué
nucleótidos no coinciden con esta referencia. Es una parte crucial en el análisis de datos de NGS, existen

42
Introducción

diferentes herramientas para la detección de variantes llamados variant callers, estos se pueden dividir
en línea germinal, somática, identificación de CNVs e identificación de variantes estructurales, la
detección de variantes en la línea germinal es la parte central de los hallazgos causantes de las
enfermedades raras.

Los variant callers consisten en dos pasos diferenciados, por un lado, tratan de identificar la variante y por
el otro asignarle un genotipo.

Existen dos métodos para la detección de variantes procedentes de NGS

● métodos probabilísticos
● métodos heurísticos

Métodos Probabilísticos

En un mundo libre de errores de secuenciación, con alta profundidad de cobertura la tarea de un variant
caller en datos de NGS parece muy simple, en cada locus, el número de ocurrencias de cada nucleótido a
lo largo de la lectura alineada en una posición concreta puede ser tenido en cuenta y el verdadero
genotipo parece obvio AA para el alelo A, BB para el alelo B y AB si están presentes los dos alelos, pero
cuando se trabaja con datos reales de NGS este planteamiento naive no debe de ser usado debido al ruido
que se genera y a los sesgos.

Los métodos basados en probabilidad intentan superar el problema de los errores produciendo
estimaciones robustas de las probabilidades de cada uno de los posibles genotipos, para ello tienen en
cuenta el ruido y cualquier información previa disponible que se puede utilizar para mejorar las
estimaciones.

Estos métodos están basados en el teorema de Bayes que en este contexto se define como la probabilidad
de que cada genotipo sea el genotipo verdadero dado los datos observados, en términos de las
probabilidades previas de cada genotipo posible, y la distribución de probabilidad de los datos dados cada
genotipo posible.

D son los datos observados

43
Introducción

G es el genotipo en el que la probabilidad ha sido calculada

Gi es el posible genotipo dentro de todas las posibilidades

Los diferentes softwares tienen diferentes formas de calcular las probabilidades a priori P(G) o el
modelo usado para calcular el error de las probabilidades P(D|G).

Los métodos heurísticos

En lugar de modelar la distribución de los datos observados y usar estadísticas bayesianas para calcular
las probabilidades del genotipo, las variant callers se hacen basadas en una variedad de factores
heurísticos, tales como recuentos mínimos de alelos, cortes de calidad de lectura, límites en la
profundidad de lectura, etc.

Una parte importante del diseño de los métodos de variant callers utilizando datos de NGS es la secuencia
de ADN utilizada como referencia para alinear las regiones secuenciadas. En los estudios de genética
humana, las referencias de alta calidad están disponibles a partir de fuentes como el proyecto HapMap .,
En el caso de alinear contra una referencia, hay que asegurarse de que ésta esté correctamente
construida. En el caso del rs6025 causante de la alteración del Factor V Leiden, el alelo menor es el que se
encuentra en la referencia GRCh37, además de otro millón de posiciones que han sido anotadas con el
menor alelo por lo que resultaría imposible encontrar esas variantes (51).

Existen multitud de programas para la detección de variantes: Samtools (52); GATK (53); VarScan2 (54);
SNver, (55); y cada día se siguen desarrollando nuevos tales como INDELseek (56) o SNVSniffer (57) Es por
tanto un campo en continuo desarrollo y resulta difícil estar actualizado en todos los nuevos lanzamientos,
sin embargo, todos tienen en común que no son perfectos y muestran baja concordancia entre los
resultados obtenidos (58) (59)

Métodos de análisis de variaciones en el número de copias (CNVs)

En cuanto a los métodos de detección de variaciones en el número de copias o CNV, existen tres
aproximaciones diferentes:

● Mediante profundidad de cobertura (DOC)

44
Introducción

● Mediante distancia de lecturas pareadas PEM


● Métodos de rotura de la lectura (SR)

Mediante profundidad de cobertura (DOC)

El concepto subyacente a identificar CNVs usando DOC es similar a la utilización de datos de intensidad:
una menor profundidad (intensidad) indica supresión (deleción) y una superior a lo esperado (intensidad)
indica la ganancia (duplicación). La mayoría de los algoritmos utilizados en DOC requieren el número de
lecturas que caen en un intervalo de un cierto tamaño (60) , (61) (62). El algoritmo depende en gran
medida de la asunción que el proceso de secuenciación es uniforme, es decir, el número de lecturas
asignado a una región se supone que sigue una distribución de Poisson y es proporcional al número de
copias como se puede ver en la figura 11. Sin embargo, en ciertos casos como el contenido en GC y los
problemas de alineamiento implican que la asunción sea poco realista. Algunas regiones del genoma
pueden ser (sobre o bajo-muestreadas) independientemente del número de copias de la región, a
menudo resultando en señales falsas. La mayoría de algoritmos DOC corrigen el sesgo causado por el
contenido de GC antes de detectar el CNV.

Figura 10. Comparación entre la recnología de un array CGH y la metodología de NGS para detectar CNVs

45
Introducción

Existe otro tipo de algoritmo que utiliza las proporciones entre lecturas de la muestra problema con una
de referencia para pretenden mitigar la necesidad de corrección de GC si los dos conjuntos de datos están
dispuestos de la misma manera.(63)

Otros algoritmos también exploran la información de la heterocigosidad de los polimorfismos de


nucleótido simple o SNPs, también conocida como 'Frecuencia del alelo B' (BAF), para detectar CNVs y
pérdida de regiones heterozigóticas (LOH) (64) . Algoritmos basados en DOC suelen detectar grandes CNVs
y son incapaces de detectar eventos neutros en copia, tales como inversiones y translocaciones. Sólo
datos basados en PEM pueden ser usados para este análisis.

Mediante distancia de lecturas pareadas PEM

Los métodos basados en PEM requieren que las lecturas sean pareadas (65) (66) (67) . El concepto en el
que se apoya esta metodología supone que los fragmentos de ADN que van a ser secuenciados tienen una
longitud de fragmento (tamaño de inserto) con una cierta distribución.

Cuando los extremos del fragmento son alineados contra la referencia, y la distancia es mayor que la
esperada, es indicativo de una deleción en el genoma. Por el contrario, cuando los extremos secuenciados
del fragmento alineados contra la referencia presentan una distancia más corta de la esperada, es
indicativo de una inserción en el genoma estudiado.

Basado en los patrones con los que las lecturas emparejadas se asignan a la referencia, PEM también
puede detectar inversiones y translocaciones. Por ejemplo, si los dos extremos de un fragmento son
alineados con una orientación incorrecta, podría ser una indicación de una inversión. El tamaño de CNVs
detectado usando estos algoritmos está a su vez limitado por el tamaño del del fragmento del ADN

Métodos de rotura de la lectura (SR)

Estos métodos se centran en parejas de lecturas donde una lectura del par es alineada inequívocamente
frente a la referencia, mientras que la otra lectura no es alineada, uno de los algoritmos que soporta este
análisis es Delly (68). La idea es que la ubicación de la lectura no alineada puede abarcar el punto de corte
o breakpoint de la CNV. La lectura alineada correctamente se utiliza como un ancla para reducir el espacio

46
Introducción

de búsqueda de la no alineada. El análisis por el método SR tiene la ventaja de ser capaz de localizar la
ubicación del breakpoint.

Anotación de variantes

Una vez detectadas las variantes, son anotadas en el formato vcf (variant call format). A diferencia de
otros formatos de anotación de datos genéticos como el GFF, en el vcf solamente quedan anotadas las
variantes, lo que hace que sean archivos pequeños y de gran facilidad para compartir. En la siguiente
figura 12 se puede ver en resumen de que consta este formato:

Figura 11 Se muestra el esquema típico que sigue un formato vcf. Un encabezado (vcf header) en el que se describe lo que
significa cada apartado incluyendo un campo en mayúsculas anterior a las propias variantes, en el que se indica el orden de
cada campo: Cromosoma, posición cromosómica de la variante. Referencia, alternativo (lo que se ha encontrado) Qual, valores
de la calidad con la que se ha detectado esa variante, los distintos programas tienen diferentes codificaciones de qual

La anotación y la predicción funcional se realiza una vez que ha tenido éxito el alineamiento y la detección
de variantes, en este paso el desafío es la interpretación de las aparentemente nuevas variantes genéticas
que están presentes, por ejemplo, en el genoma humano es difícil identificar cuáles se consideran
causantes de la enfermedad y cuáles no. Existen multitud de herramientas bioinformáticas para la
anotación y la predicción funcional.

Se han desarrollado múltiples herramientas bioinformáticas para la anotación de las variantes producidas
por NGS:

47
Introducción

● Annovar: es una herramienta basada en línea de comandos que permite la anotación funcional
de las variantes. (69) Esta herramienta depende de muchas bases de datos diferentes que deben
ser descargadas individualmente . Se ha desarrollado una versión web para evitar la necesidad de
descargar las bases de datos. [Link]
● SnpEff: es una herramienta muy popular en la anotación de variantes que se ha integrado en el
paquete GATK.
● Variant effect predictor (VEP): en la herramienta del Ensembl para las anotaciones de las
variantes, esta herramienta se puede usar mediante línea de comandos o mediante su acceso vía
web aunque esta versión tiene una capacidad limitada de analizar grandes volúmenes de datos.
● Sequence variant analyzer (SVA): herramienta utilizada por el visor genómico de la UCSC, tiene el
inconveniente de que las anotaciones están en su propia versión del genoma.
● SeattleSeq annotation server: aplicación web para la anotación de las variantes.

Una ventaja de las aplicaciones web son que tiene todos los cálculos están precargados y no se necesita
espacio dedicado en un ordenador personal. Además, las anotaciones suelen tener información
poblacional de distintas bases de datos, lo que produce un ahorro de espacio para los usuarios. El
inconveniente es que las anotaciones pueden estar utilizando antiguas bases de datos o versiones
antiguas del genoma de referencia.

Las variantes detectadas mediante NGS pueden ser clasificadas en base a su posición en el genoma, por
el tipo de alteración que induce al nivel de DNA y por el efecto de la variante al nivel de la proteína.
Variantes localizadas en regiones que flanquean genes y otros elementos codificadores como microRNAs
son clasificadas como no genéticas (non-genic) o como variantes intergénicas, estas variantes pueden
afectar a la regulación de los genes si están localizadas en sitios regulatorios del genoma.

Las variantes localizadas en genes pueden ser divididas en dos categorías:

● Codificadoras: están localizadas en las regiones exónicas de los genes y están presentes en los
mRNAs maduros después de que las partes intrónicas sean cortadas del pre-mRNA. Los exones
definen la secuencia primaria de la proteína Estas variantes, tienen el potencial de cambiar la
estructura primaria de la proteína directamente.
● No codificadoras: están localizadas entre las zonas UTR y las regiones intrónicas. Aunque estas
variantes no cambian directamente el producto primario del gen, si pueden alterar el patrón de
splicing en el mRNA y dar como resultado, un producto alternativo del gen, este tipo de variantes,

48
Introducción

también tienen efectos en la regulación, estabilidad y traducción de los productos del mRNA.
Las variantes también pueden ser clasificadas en base a los efectos a nivel de ADN. Inserciones y
deleciones de bases en la secuencia del ADN son llamadas comúnmente indels, mientras que un simple
cambio de un nucleótido se conoce como SNPs. Los SNPs que ocurren en las regiones codificantes de los
genes también pueden ser clasificados en base a los efectos a nivel de proteína en sinónimos y no
sinónimos. Los sinónimos no cambian la secuencia de aminoácidos, contrario a los no sinónimos que si lo
hacen. Los no sinónimos se pueden clasificar en variantes missense y en variantes nonsense, estas últimas
introducen un codón de stop dando lugar a un truncamiento de la proteína.

En la búsqueda de variantes que causan enfermedades como las cardiopatías, las variantes en las regiones
codificantes son consideradas muy interesantes ya que pueden alterar los productos finales de los genes,
pudiendo llegar a tener efectos drásticos en el fenotipo.

Las variantes nonsense son probablemente las que tienen un mayor efecto dañino, ya que alteran la
longitud de la proteína.

Las inserciones o deleciones en las regiones codificadoras de los genes en muchos casos se consideran
dañinas ya que introducen un desplazamiento de la pauta de lectura en la secuencia codificadora. Éstas
pueden cambiar el producto de la proteína significativamente dependiendo de la localización de la
variante en el gen.

Las consecuencias de las variantes missense son muchos más difíciles de predecir en comparación con las
anteriores, por ello, el desarrollo de métodos para predecir el efecto de este tipo de variantes ha sido uno
de los grandes campos de investigación bioinformática durante la década pasada. Hoy en día, con el gran
número de este tipo de variantes que se detectan mediante la secuenciación NGS, son una herramienta
básica para la clasificación de las variantes.

Este tipo de programas desarrollados para evaluar los efectos de las mutaciones en el fenotipo utilizan la
información de los cambios a nivel de ADN y lo extienden a nivel de proteínas.

Para predecir estos efectos de las variantes, los predictores de tolerancia consideran muchas
características: conservación en la evolución, cambios en las propiedades físico-químicas de los
aminoácidos y alteraciones en las propiedades estructurales de las proteínas.

49
Introducción

Predictores
Los predictores de tolerancia pueden ser divididos en tres categorías en base a los métodos basados en la
predicción:

● Basados en la evolución: aplica la información filogenética derivada de múltiples alineamientos


de secuencia de las proteínas para evaluar la probabilidad de patogenicidad.
● Métodos bayesianos: aplican estadística bayesiana para inferir la patogenicidad de la variante
basado en ejemplos conocidos de variantes patogénicas y neutrales.
● Machine learning se basan en la clasificación de algoritmos entrenados para distinguir entre
variantes patogénicas y neutrales. De una manera similar a los métodos bayesianos, utilizan
conjuntos de ejemplos conocidos de variantes patogénicas y neutrales que son usados para
entrenar el clasificador.

La mayoría de los predictores de tolerancia sólo consideran los efectos de las variantes missense, sin
embargo, algunos como Mutation taster (70) evaluar los efectos de las de las indels y también puede
evaluar los efectos de las variantes no codificadoras, lo que lo convierte en el programa más versátil.

SIFT
Sorting Intolerant From Tolerant, (71) es un programa informático que utiliza únicamente información
filogenética para evaluar si la variante es tolerada o no. La predicción se basa en el cálculo de las
probabilidades normalizadas de todas las posibles sustituciones aminoacídicas para cada posición del
aminoácido. Las probabilidades son obtenidas por múltiples alineamientos de secuencia (MSA) que son
construidos con la proteína mutada y sus homólogos. Las secuencias para realizar el MSA pueden ser
definidas por el usuario o por el propio programa. En este último caso, busca secuencias similares en
swiss-prot, Swiss-Prot/TrEMBL o en las bases de proteínas no redundantes del NCBI [52] para construir el
MSA.

La salida de SIFT es la probabilidad normalizada de que la variante es tolerada, si la probabilidad de la


tolerancia es por debajo de 0,05 Sift considera que no es tolerada, en cualquier otro resultado, se
considera tolerada.

50
Introducción

PolyPhen-2
PolyPhen-2 predice el efecto de las variantes missense basándose en una clasificación bayesiana (72, 73)
Consiste en dos modelos de predicción que han sido entrenados usando uno o dos juegos de variantes:
HumVar o HumDiv.

El juego de variantes HumVar consiste en 3155snps anotados en SwissProt los cuales han sido asociados
con enfermedades de tipo mendeliano y 6321 SNPs neutrales.

HumDiv contiene 13032 variantes causantes de enfermedades humanas según swissprot y 8946 human
SNPs que no han sido asociados con enfermedades [53].

PolyPhen-2 realiza la predicción basándose en la conservación de la posición de la secuencia que está


siendo afectada, las características físico-químicas del aminoácido involucrado en la sustitución, la
localización genómica de la variante y los rasgos estructurales que se ven afectados por la variante. Los
rasgos de la secuencia son evaluados primero por búsqueda y selección de secuencias ortólogas y
parálogas de la proteína usando Blast, seguidos por la construcción de múltiples alineamientos de
secuencia usando MAFFT (Multiple Alignment using Fast Fourier Transform program). El rasgo esencial
considerado por PolyPhen2 es la Position Specific Independent Counts score (PSIC) del residuo salvaje y
su diferencia con el residuo de la variante. El PSIC score, representa la probabilidad de que ése aminoácido
está presente en la secuencia de la proteína y está basada en el número de veces que ocurre con los
diferentes residuos en relación a las secuencias que aparecen en el MSA. Otro rasgo determinado por el
MSA incluye la profundidad de alineamiento en la posición de la variable. La identidad de la secuencia del
homólogo más cercano que presenta un aminoácido diferente del residuo salvaje y la congruencia del
residuo mutante. Además, tiene en cuenta dos características físico-químicas que pueden afectar a la
variante, el cambio en el tamaño del aminoácido, y las características hidrofóbicas de éste. También
calcula si hay cambios en el contexto CpG de la secuencia de ADN. También evalúa los rasgos estructurales,
de la posición del aminoácido, la superficie del área accesible de aminoácido salvaje y la anotación de los
dominios PFAM asociados al sitio de la variante.

Polyphen-2 clasifica las variantes en una de las tres categorías: benigna, posiblemente dañina, y
probablemente dañina en base a la probabilidad de la patogenicidad dada por el clasificador. La variante
es considerada benigna si la probabilidad de la patogenicidad es por debajo de 0,15, posiblemente
patogénica si la probabilidad es entre 0,15 y 0,85, mientras que es probablemente patogénica cuando la
probabilidad es mayor que 0,85.

51
Introducción

Mutation Taster
Es una herramienta de predicciones con capacidad para analizar SNP, sinónimos, no sinónimos y no
codificadores. Además, tiene la posibilidad de predecir el efecto de pequeñas Indels hasta 12 bases de
longitud. Tiene 3 modelos diferentes de predicciones de las variantes:

● Without_aae: es el utilizado para las variantes sinónimas y no codificadoras que no tienen efecto
en la sustitución de aminoácidos pero que pueden tener efecto en el patrón de splicing del
transcrito.
● Simple_aae: el utilizado para las variantes missense.
● Complex_aae: para variantes que causan un efecto más complejo como frameshifts o
truncamientos [54].
Mutation taster utiliza un clasificador bayesiano que ha sido entrenado con variantes de diferentes
lugares. Los datos que contienen variantes neutrales son una selección de los de SNP e Indel de dbsnp. La
selección de los SNPs se basa en las frecuencias poblacionales del proyecto HapMap, usando un
procedimiento de filtrado por el cual una posible variante que cause una enfermedad rara fuera excluida.
Su selección está basada en las frecuencias genotípicas y el criterio fue que al menos dos diferentes
genotipos tuvieron que haber sido encontrados en las poblaciones. Los datos utilizados contienen 515263
SNPs y 8162 indels en total. Los datos asociados a enfermedades fueron obtenidos de OMIM, HGMD y la
literatura, y consisten en 42989 SNPs y 14067 indels. Los rasgos por los que estas variantes fueron
seleccionadas para el clasificador incluyen: conservación a lo largo de la evolución, sitios que afectan al
splicing, pérdidas de las características de la proteína, cambios en la cantidad del mRNA y en la longitud
de las proteínas.

La conservación de la variante es analizada concluyendo un MSA de 10 secuencias homólogas de


diferentes especies usando para ello bl2seq. Basándose en el MSA, mutation taster asigna la posición del
aminoácido en la secuencia a una de las 3 categorías diferentes:

● Todo idéntico
● Conservado
● No conservado.

Además, Mutation taster utiliza el programa NNSplice para predecir si la alteración en la secuencia
genómica puede llevar a un proceso de splicing alternativo. NNSplice analiza 60 bases alrededor de la

52
Introducción

variante comparando las secuencias salvajes y la de la variante. El programa puede predecir si la variante
afecta a un lugar conocido de splicing, haciéndolo más fuerte, débil o perdiéndolo completamente.

También puede determinar si la variante activa un sitio adicional de splicing, si el score de Nnsplice es 0,5
o mayor, Mutation taster considera que altera al splicing. Mutation taster evalúa los cambios en la
cantidad de mRNA investigando si la variante tiene efecto en la secuencia consensus de kozak, o en la
señal de poliadenilación. La secuencia de kozak es una pequeña secuencia que inicia la traducción del
mRNA a la proteína y se encuentra localizada aguas arriba del codón de iniciación y termina 4 bases aguas
abajo de la primera base del codón de iniciación. La secuencia tiene dos bases, una purina y otra guanina
en las posiciones -3 y +4 respectivamente.

Mutation taster evalúa si la variante produce cambios en estas bases conservadas que puedan ocasionar
una posible alteración en el inicio de la traducción que pueda tener un efecto en la cantidad de mRNA.

Mutation taster clasifica las variantes en una de las dos clases: polimorfismo o patogénica en base a la
probabilidad de la patogenicidad. Con valores por encima de 0,5 es considerada patogénica y valores
inferiores, polimorfismo.

Bases Genéticas de las enfermedades Cardiovasculares.

Los considerables avances que se han producido en el campo de la genética molecular han aportado
instrumentos importantes para esclarecer los sustratos genéticos de muchos trastornos genéticos que
siguen patrones de herencia mendelianos. Se ha identificado y actualmente se conoce mejor el
fundamento genético de ciertas miocardiopatías y canalopatías cardiacas hereditarias y potencialmente
mortales, como la miocardiopatía hipertrófica (MCH), la miocardiopatía dilatada (MCD), la displasia
arritmogénica de ventrículo derecho, el síndrome de QT largo (LQTS), la taquicardia ventricular
polimórfica catecolaminérgica (CPVT) y el síndrome de Brugada (SB).

Se conoce como heterogeneidad genética cuando un mismo fenotipo se produce por variantes en
diferentes genes siguiendo modelos de transmisión monogénico, siendo ésta una de la característica clave
de los trastornos de las enfermedades cardiovasculares de origen genético.

Miocardiopatías. Trastornos Estructurales.


En 2008 la ESC (Sociedad Europea de Cardiología), propone una clasificación en la que las alteraciones del
músculo cardíaco son agrupadas según la morfología y función ventricular, definiendo la miocardiopatía

53
Introducción

como una “afectación miocárdica en la que el músculo cardíaco es estructuralmente y funcionalmente


anormal, en ausencia de coronariopatía, hipertensión, valvulopatías o cardiopatías congénitas, suficientes
para causar dicha afectación miocárdica”.

Las agrupa dentro de una morfología específica y fenotipo funcional; luego, cada fenotipo es
subclasificado en formas familiar y no familiar.

La forma familiar se refiere a la incidencia en más de un miembro de la familia de otra o la misma


alteración o de un fenotipo causado por la misma mutación genética y no una enfermedad cardiaca o
sistémica adquirida en la que el fenotipo clínico esté influenciado por un polimorfismo genético.

Muchas de las miocardiopatías familiares están determinadas por alteraciones monogénicas. Cuando la
mutación es de novo son asignadas igualmente a la categoría familiar, ya que dichas alteraciones pueden
ser transmitidas a posteriores generaciones. La forma no familiar es definida como la presencia de
miocardiopatía en el paciente índice y la ausencia de enfermedad en otros miembros de la familia. Se
subdividen en idiopáticas y miocardiopatías adquiridas en las que la disfunción ventricular es una
complicación de la alteración más que una característica intrínseca de la enfermedad.

Figura 12. Clasificación de las miocardiopatías propuesta por la sociedad europea de cardiología
Miocardiopatía Hipertrófica Familiar
La miocardiopatía hipertrófica familiar (MCH) se presenta como una enfermedad familiar, con un modo
de herencia autosómico dominante que se manifiesta con hipertrofia ventricular izquierda (HVI) en
ausencia de otras enfermedades cardiovasculares y pérdida de la correcta organización de los miocitos.
La MCH afecta a ambos sexos, presentándose en pacientes de diferentes razas y ampliamente distribuidas
geográficamente La penetrancia depende de la edad del paciente y del gen en donde se encuentre la
variante. La susceptibilidad a complicaciones como la muerte súbita y la progresión a situaciones como la
insuficiencia cardiaca, han motivado a los investigadores para buscar indicadores capaces de identificar la

54
Introducción

enfermedad en estadios tempranos. Las guías clínicas recomiendan estudiar 17 genes principales, entre
los que se encuentran los 9 genes sarcoméricos y 8 genes asociados a enfermedades cuya presentación
clínica puede ser indistinguible de la MCH clásica.

Los genes principales para su estudio son:

ACTC1, DES, FLNC, GLA, LAMP2, MYBPC3, MYH7, MYL2, MYL3, PLN, PRKAG2, PTPN11, TNNC1, TNNI3,
TNNT2, TPM1, TTR.

Miocardiopatía Dilatada
La Miocardiopatía Dilatada se define por la presencia de dilatación y disfunción sistólica ventricular
izquierda en ausencia de condiciones anormales de sobrecarga (hipertensión, enfermedad valvular) o
enfermedad de las arterias coronarias suficiente para causar empeoramiento global de la función sistólica.

Afecta aproximadamente a 1 por cada 3000 individuos y representa la tercera causa más común de fallo
cardíaco, siendo la primera causa de trasplante cardíaco.

Entre el 30 y el 50% de los casos de DCM son familiares con una penetrancia dependiente de la edad.
Hasta la fecha se han identificado mutaciones asociadas con esta enfermedad en más de 25 genes
diferentes, relacionados con proteínas del citoesqueleto, el sarcómero, las uniones intercelulares, la
membrana nuclear, canales iónicos y proteínas mitocondriales. El modo predominante de herencia es
autosómico dominante, siendo las formas recesivas ligadas al sexo y la herencia mitocondrial menos
frecuente.

Los genes principales para su estudio son:

ACTC1, BAG3, DES, DMD, DSP, FLNC, LMNA, MYBPC3, MYH7, PKP2, PLN, RBM20, TAZ, TNNC1, TNNI3,
TNNT2, TPM1, TTN

Miocardiopatía Restrictiva
La miocardiopatía restrictiva es una enfermedad del miocardio que se caracteriza por un llenado
ventricular defectuoso en presencia de un corazón no hipertrofiado, con función sistólica normal, con
ventrículos de tamaño normal o reducido y aurículas muy aumentadas de tamaño. Inicialmente se creyó
que era debida únicamente a enfermedades infiltrativas o sistémicas, pero recientemente se han
identificado mutaciones responsables en genes sarcoméricos. Incluso se ha observado que la
miocardiopatía restrictiva puede coexistir con la miocardiopatía hipertrófica en la misma familia.

55
Introducción

La prevalencia exacta es desconocida, pero se trata probablemente de la miocardiopatía menos frecuente.


Se han descrito formas idiopáticas, familiares y asociadas a diversas patologías sistémicas como la
amiloidosis, sarcoidosis, tumores cardiacos, escleroderma y toxicidad a antraciclina. Las formas familiares
de MCR con frecuencia presentan un modo de herencia autosómico dominante. Se han descrito
mutaciones en el gen que codifica la troponina I. En otros casos se han asociado con defectos en la
conducción causados por el gen de la desmina. Raramente se presenta una herencia autosómica recesiva
en las formas familiares como, por ejemplo, en la hemocromatosis causada por mutaciones en el gen HFE,
o en enfermedades relacionadas con el almacenamiento del glucógeno o con un patrón ligado al
cromosoma X como la enfermedad de Anderson-Fabry.

Los genes principales de esta patología son:

ACTC1, DES, GLA, MYBPC3, MYH7, MYL2, MYL3, TNNI3, TNNT2, TPM1, TTR, ACTN2, FHL1, HFE, MYPN,
TNNC1, TTN

Miocardiopatía Arritmogénica del Ventrículo Derecho


La displasia/miocardiopatía arritmogénica de ventrículo derecho es una enfermedad del músculo cardíaco
de origen genético. Está caracterizada por anormalidades estructurales y funcionales del ventrículo
derecho principalmente, con sustitución progresiva del miocardio por tejido graso y fibroso tras un
inadecuado proceso apoptótico. Afecta a 1de cada 5000 individuos.

Sus manifestaciones clínicas abarcan individuos asintomáticos, arritmias ventriculares e insuficiencia


cardíaca derecha o biventricular. Además, constituye una de las principales causas de muerte súbita en
adultos jóvenes con una incidencia aún mayor entre los deportistas. Aunque existen formas autosómicas
recesivas (e.g. Naxos y el síndrome de Carvajal causados por mutaciones en genes que codifican la
placoglobina y la desmoplaquina respectivamente), en la mayoría de los casos presenta una herencia
autosómica dominante en genes que codifican para la placofilina 2 y otros genes encargados de codificar
las proteínas del desmosoma de los cardiomiocitos.

Se han asociado con ARVC mutaciones en los genes:

DSC2, DSG2, DSP, FLNC, JPP, PKP2, PLN,TMEM43

No Compactación del Ventrículo Izquierdo


La no compactación del ventrículo izquierdo se presenta con una morfología esponjosa característica. El
reconocimiento de que la miocardiopatía no compactada es una enfermedad eminentemente familiar ha

56
Introducción

llevado a la búsqueda de causas genéticas. En un corto lapso se ha podido demostrar que, al igual que
ocurre con el resto de las miocardiopatías primarias, la miocardiopatía no compactada también es una
enfermedad heterogénea desde el punto de vista genético.

Se han identificado como causa de la enfermedad mutaciones en genes relacionados con la función
mitocondrial, como G4.5, que codifica la proteína tafazzina, genes relacionados con el citoesqueleto,
como el de la alfa-distrobrevina o el de la distrofina, genes que codifican proteínas de la línea Z del
sarcómero, como LDB3, que codifica la proteína Cypher/ZASP, genes de proteínas de la membrana interna
nuclear (LMNA, que codifica la lamina A/C) e incluso genes que codifican proteínas sarcoméricas como la
alfaactina cardiaca y la cadena pesada de la beta-miosina. Esta heterogeneidad genética explica la
variabilidad en los patrones de herencia, la morfología y las alteraciones asociadas a la miocardiopatía no
compactada.

Los genes principales son:

CTC1, MYBPC3, MYH7, TAZ, ACTN2, DMD, DNAJC19, DTNA, FHL1, HCN4, LDB3, LMNA, MIB1, MYH6, MYL2,
NKX2-5, NNT, PLN, PRDM16, RYR2, TNNT2, TPM1,

Trastornos arritmogénicos
Los trastornos arritmogénicos reciben el nombre de canalopatías debido a que las arritmias se generan
por defectos en los canales iónicos que regulan el flujo de iones entre el interior y el exterior del miocito.
Los canales iónicos son proteínas integrales de membrana que regulan el flujo de iones a través de la
membrana celular, se trata de canales selectivos para los diferentes aniones y cationes Na+, K+,Ca2+ y Cl-
. Están formados por unidades multiméricas que generalmente están codificadas por genes diferentes. La
subunidad alfa forma el poro y hace de mediador en la corriente de iones, mientras que las subunidades
beta son reguladoras.

Defectos en estos canales, debido a mutaciones en los genes que codifican cada una de las subunidades
que los forman o mutaciones en proteínas asociadas a estos canales, pueden dar lugar a una alteración o
inestabilidad eléctrica en el corazón que conlleve el desarrollo de canalopatías. Las canalopatías son
síndromes hereditarios entre los que se encuentran el Síndrome de QT largo, el Síndrome de QT corto, el
Síndrome de Brugada y la Taquicardia Ventricular Polimórfica Catecolaminérgica.

57
Introducción

Síndrome de QT largo
El Síndrome de QT largo es una enfermedad genética asociada al funcionamiento anormal de canales
iónicos cardíacos y que se manifiesta por un alargamiento del intervalo QT en el electrocardiograma. Esta
anormalidad predispone al desarrollo de arritmias ventriculares que pueden llevar a síncope, parada
cardíaca y muerte súbita, pudiendo ser estas las primeras manifestaciones de la enfermedad a cualquier
edad.

La prevalencia estimada de la enfermedad es de 1/2000, afectando individuos de diversas etnias. El patrón


de transmisión generalmente es de tipo autosómico dominante.

Los genes principales son:

KCNQ1, KCNH2, SCN5A, KCNE1, KCNE2, KCNJ2, CACNA1C, RYR2

Síndrome de QT corto
El síndrome de QT corto es una entidad genética muy rara producida en general por un aumento en la
función de algunos canales iónicos cardíacos, que conduce a un acortamiento anormal de la repolarización
cardíaca. Se asocia con una elevada predisposición a arritmias ventriculares, pudiendo los pacientes
presentar síncope, parada cardíaca o muerte súbita. Como ocurre en el síndrome de QT largo, estas
pueden ser las primeras manifestaciones de la enfermedad, y pueden ocurrir a cualquier edad.

Los genes asociados son:

KCNH2, KCNJ2, KCNQ1, CACNA1C, CACNA2D1, CACNB2

Síndrome de Brugada y onda J


Estas dos enfermedades se producen por el funcionamiento anormal de algunos de los canales iónicos
cardíacos. Se incluyen juntas en este apartado debido a que el mecanismo fisiopatológico es muy similar,
incluso algunos autores postulan que son espectros de la misma enfermedad. Se manifiestan por
anormalidades en el ECG de superficie, con una predisposición al desarrollo de arritmias ventriculares que
pueden producir síncope, parada cardíaca o muerte súbita, siendo muchas veces éstas las primeras
manifestaciones de la enfermedad.

Los genes principales son:

SCN5A, CACNA1C, CACNA2D1, CACNB2, KCNJ8, SCN1B, SCN10A

58
Introducción

Taquicardia Ventricular Polimórfica Catecolaminérgica.


Es una condición genética rara caracterizada por el desarrollo de arritmias ventriculares típicas
desencadenadas por estrés físico o emocional. La prevalencia de esta enfermedad se estima en 1/10.000
individuos. El desarrollo de arritmias ventriculares puede determinar síncope, parada cardíaca o muerte
súbita, ocurriendo especialmente en niños o adultos jóvenes sin antecedentes de anormalidades
cardíacas. El modo de transmisión es de tipo autosómico dominante, aunque una proporción significativa
de casos presenta mutaciones de novo

Los principales genes afectados son:

RYR2 y CASQ2

59
Objetivos

Objetivos

60
Objetivos

Con esta tesis se pretende construir un flujo de trabajo utilizando la técnica de NGS para caracterizar,
desde el punto de vista genético, un grupo de pacientes afectos de patología cardiovascular de origen
heterogéneo mediante la utilización de paneles personalizados de resecuenciación dirigida.

Para ello, es necesario el desarrollo de los siguientes objetivos:

1. Evaluar la implantación de la NGS para el diagnóstico de cardiopatías congénitas humanas

2. Desarrollo de un flujo de trabajo para la implantación de la NGS en el diagnóstico de cardiopatías


congénitas

3. Validación de la aplicabilidad de la NGS para el diagnóstico de cardiopatías congénitas humanas

61
Materiales y métodos

Materiales

y métodos

62
Materiales y métodos

Preparación de la muestra

Extracción de ADN
La extracción de ADN se realiza a partir de sangre periférica en tubos con EDTA (ácido
etilendiaminotetraacético). Las muestras se conservan a 4ºC hasta su
utilización. Para la extracción se utilizó el QIAamp DNA Blood Maxi Kit
(Quiagen, Valencia, California, USA) ([Link] siguiendo las
instrucciones de uso de la casa comercial. Los pasos se muestran en la figura
14

Lisis
Se utilizan 10ml de sangre total con Buffer AL (12ml) para lisar las células
sanguíneas. Se incuba a 70ºC durante 10 minutos con una proteinasa K
(500μl) para desnaturalizar las proteínas. Se añade 10 ml de etanol puro (96-
100%) a la solución para precipitar el ADN.

Filtración
El homogeneizado se pasa a través de una columna, que contiene una
membrana de sílice, Se centrifugan a 3000 rpm durante 3 minutos. Esta
membrana atrapa las moléculas de ADN dejando pasar el resto de sustancias
Figura 13. Figura 15. Esquema (cromatografía de adsorción). La columna se lava con buffer AW1 a 5000 rpm
de la preparación de un gel de
agarosa para medir la durante 1 minuto y buffer AW2 a 5000 rpm durante 15 minutos.
integridad del ADN

Elución
Una vez lavada la columna, se añadió 1ml de buffer AE y se centrifugó a 5000 rpm durante 5 minutos. De
esta forma se obtuvo una concentración de ADN purificado de 100 ng/µl con un peso molecular mayor
de 60 Kb.

Cuantificación de ADN total


Una vez obtenido el ADN en suspensión, se utilizó 1 µl para medir su pureza en un espectrofotómetro
(nanodrop Thermo Fisher Scientific).

La pureza de la muestra está relacionada con el valor de máxima absorbancia de los ácidos nucleicos
detectada a una longitud de onda de 260 nm. La relación de las absorbancias A260/A280 permite conocer
si el ADN obtenido está contaminado por la presencia de compuestos aromáticos, ya que éstos absorben

63
Materiales y métodos

a una longitud de onda de 280 nm. Por el contrario, si esta relación es baja (A260/280 < 1.6) la muestra
está contaminada por proteínas o fenoles. En el caso de contaminaciones por proteínas o fenoles es
necesario llevar a cabo un tratamiento adicional para eliminarlas.

La relación de absorbancia A260/230 se utiliza como medida adicional para determinar la pureza del ADN
puesto que a 230 nm se detecta la máxima absorbancia de sales presentes en la solución, carbohidratos
u otros posibles contaminantes. Generalmente se considera que el ADN es puro cuando la proporción
A260/230 se sitúa entre 1,5 y 2,2.

Medida de calidad y cantidad del ADN


Integridad.

La electroforesis en gel de agarosa es una de las técnicas más utilizadas para analizar y caracterizar ácidos
nucleicos de distintas procedencias. Los geles se comportan como un tamiz molecular y permiten separar
moléculas cargadas en función de su tamaño y forma.

La electroforesis en gel de agarosa al 1% (p/v) permite la valoración de la integridad de la muestra de ADN.


Si la muestra es íntegra, presentará una banda de ADN única y perfectamente definida en la parte superior
del gel de agarosa. Una muestra de ADN degradada presentará una estela o smear a lo largo del gel que
será más pronunciada cuanto mayor sea su degradación.

Para la preparación del gel de agarosa se utiliza:

• 150 ml TBE 0,5x


• 1,50 g AGAROSA D1 LOW EEO (Pronadisa)
• 8 µl REDSAFE [20.000x] (Chembio)

Para disolver la agarosa en 150 ml de Buffer TBE 0,5x se utiliza un microondas; una vez enfriada la mezcla
se añaden los 8 µl de REDSAFE [20.000x],

El soporte (molde) donde se vierte el gel se sella con cinta adhesiva, cerrando sus extremos para retener
la disolución de agarosa. Se incorpora lentamente la disolución de agarosa en el molde, por uno de los
extremos, retirando las burbujas que se puedan formar con ayuda de una punta de pipeta; seguidamente,

64
Materiales y métodos

se colocan los peines en el gel, insertándolos en las muescas del molde y se deja reposar durante unos 30
min, de modo que el gel se polimeriza después de enfriarse y solidificarse.

extremos, retirando las burbujas que se puedan formar con ayuda de una punta de pipeta limpia;
seguidamente, se colocan los peines en el gel, insertándolos en las muescas del molde y se deja reposar
durante unos 30 min, de modo que el gel se polimeriza después de enfriarse y solidificarse.

Cuando el gen se ha solidificado, se retiran los peines, que dejan marcados en el gel los pocillos en los que
se cargarán las muestras de ADN. A partir de este momento, el gel está listo para su utilización. En caso
de que no se emplee de forma inmediata, debe conservarse en una cubeta con buffer TBE 0,5x en
oscuridad.

Para cargar las muestras en el gel se dispensan 5 µl de tampón de carga en papel de parafina que se
mezclan con 2 µl de cada muestra. Esta mezcla de tampón de carga y muestra se transfiere entonces a
cada pocillo de gel de agarosa, utilizándose uno de ellos para contener un ADN control sin degradar y a
una concentración de 100 ng/µl.

El tampón de carga tiene colorante lo que posibilita la visualización de la muestra y, al ser ligeramente
denso, permite que ésa caiga dentro del pocillo del gel en lugar de flotar y desbordarse. El esquema de
este proceso se muestra en la figura 15

Figura 15. Esquema de la preparación de un gel de agarosa para medir la integridad del ADN

A continuación, se corre el ADN a 250V – 150mA durante una hora.

65
Materiales y métodos

Cuantificación del ADN de doble cadena.


La medida de la concentración de ADN de doble cadena se realiza mediante fluorimetría (Qubit 2.0
Fluorometer, Invitrogen).

Para medir el ADN, se utilizó el kit Qubit dsDNA BR (rango 1-1000 ng). Siguiendo las indicaciones
mostradas en la figura 16. Su funcionamiento se basa en la unión de un fluoróforo al DNA de doble cadena.

Figura16. Preparación de la solución de trabajo del Qubit

Las muestras se procesaron en lotes de 16 reacciones para evitar la degradación del fluoróforo con el paso
del tiempo.

Se prepara una solución de trabajo siguiendo el esquema de la Figura

Para este proceso se utilizan tubos de propileno de pared fina de 500 µl (uno por cada muestra), en los
que se dispensa 198 µl Working Solution + 2 µl de ADN. Se incuban durante 2 minutos y se procede a su
medición.

Se anota la concentración teniendo en cuenta que el volumen de muestra utilizada es de 2 µl

La concentración final del ADN de cada muestra se debe ajustar a 23 ng/µl, aproximadamente, 3ug/130
µl para proceder a su fragmentación en un fragmentador por ultrasonicación Covaris.

66
Materiales y métodos

Genotipado mediante sondas Taqman.

Para un correcto seguimiento de la muestra durante todo el proceso de preparación de librerías se realiza
un genotipado mediante sondas Taqman (Applied Biosystems™ TaqMan™) de 8 posiciones, siguiendo el
protocolo del fabricante. Las posiciones interrogadas se muestran en la tabla 1

tabla 1. SNPs genotipados para el seguimiento de la muestra durante el proceso de NGS.

Gen SNP Posición cromosómica


MYH7 rs2069540 Chr14:23902753
TTN rs6715406 Chr2:179650701
DSG2 rs1791235 Chr18:29126670
CRYAB rs11603779 Chr11:111781047
LDLR rs5925 Chr19:11230881
PLEC rs6984820 Chr8:144993324
CACNA2D1 rs1229502 Chr7:81588636
TGFBR3 rs1805112 Chr1:92185657

Fragmentación del ADN.

Cada muestra se distribuye en la placa especial, ver Figura . Asegurándose que no se generen burbujas
de aire , para ello se introduce la punta de la pipeta en el pocillo y se dispensa el líquido suavemente por
la pared.

El ADN fragmenta en un Covaris E220 (Covaris inc). Los parámetros


utilizados para el fraccionamiento fueron:

• Duty Factor 10%


• Peak Incident Power (PIP) 175
• Cycles per Burst 200
• Tiempo de tratamiento 180 segundos.

figura
Figura 14.
15. Placa
Placa de
de covaris
Covaris • Temperatura 4ºC -8ºC

67
Materiales y métodos

Preparación de librerías
Selección del tamaño de los fragmentos generados

Después de la fragmentación, la selección de fragmentos de ADN en el rango de 100 a 400 pb mediante


la utilización de una solución de Agencort AMPure XP beads (Beckman coulter).

Esta solución debe ser homogénea y atemperada.

Cada muestra se dispensa en una placa nueva, se le añaden 180 μl de Agencort AMPure XP beads. Se
incuban a temperatura ambiente durante 5 minutos. Se deposita la placa encima de un soporte
magnético y se retira el sobrenadante. Se añaden 300 ml de etanol al 70% (Este proceso se repite dos
veces). Se retira nuevamente el etanol y se dejaron secar Agencort AMPure XP beads a temperatura
ambiente durante 5 minutos. Se les añade 50 μl de agua libre de DNAsas.

Se incuba durante 5 minutos a temperatura ambiente para que el ADN se deposite en la solución. Se
coloca la placa en el soporte magnético y se conserva el sobrenadante.

Se confirma el tamaño de los fragmentos mediante electroforesis automática utilizando para ello la
Tapestation 2200 de Agilent Technologies siguiendo el protocolo del fabricante.

Para realizar la electroforesis de alta resolución se procedió de la siguiente manera:

Para cada muestra, se añade 3 μl del reactivo D1000 Sample Buffer y 1 μl de muestra. La placa se agita
durante 1 minuto a 2000 rpm en agitador IKA MS3 Vortex y se centrifuga. Una vez finalizado, se carga en
la máquina y se cuantifican los picos comprendidos entre 200-250 pb como se muestra en la Figura 16.

68
Materiales y métodos

Figura 16. Tamaños de los fragmentos después de la rotura del ADN con el Covaris

Preparación de la muestra para la secuenciación


Dado que la fragmentación del ADN en el Covaris da lugar a extremos cohesivos, es necesaria su su
conversión a extremos romos como se muestra en las figura 18 .

Para ello, las muestras son


incubadas con exonucleasa
Klenow (3´-5´), T4 ADN
polimerasa y la T4 Quinasa
en presencia de dNTPs. La
Figura 17. Representación esquemática del aspecto de los fragmentos después del covaris
T4 ADN polimerasa elimina
los extremos 3´ protuberantes (actividad polimerasa) y junto con la exonucleasa Klenow rellena los
fragmentos en la posición 5´. La fosforilación final del extremo 5´ ocurre en paralelo por la acción de la
T4 Quinasa. Este proceso tiene lugar durante 30 minutos a 20ºC.

Una vez finalizado se procede a la purificación


con Agencourt AMPure XP beads, siguiendo el

Figura 18. Representación esquemática de la molecula de AND una protocolo descrito anteriormente.
vez se le han rellenado los extremos para acabar con extremos romos
Inmediatamente después es necesario realizar
la adenilación del extremo 3´ con la ayuda de la Exo Klenow polimerasa; esta reacción se lleva a cabo a
37ºC durante 30 minutos.

69
Materiales y métodos

Figura 19. Esquema de la molécula de ADN una vez que tiene los extremos adenilados

De nuevo se repite el proceso de purificación con Agencourt AMPure XP beads.

A continuación, se procede a la ligación de los adaptadores específicos mediante la T4 DNA ligasa por un
tiempo de 15 minutos a 20ºC. El adaptador empieza con una T que es complementaria de la A insertada
en el paso anterior (ver figura 20) , la estructura final se puede ver en la Figura 20.

Figura 20. Esquema de la molécula final con los adaptadores, la primera base de los adaptadores es una T

Se vuelve a purificar con Agencourt AMPure XP beads.

Seguidamente se procede a la amplificación de los fragmentos de ADN mediante PCR utilizando los
cebadores: InPe1.0 y Precapture PCR junto con la Herculasa II Fusion DNA Polimerasa durante 4 ciclos.

Esta reacción se realiza por duplicado.

Se mezclan ambos productos de amplificación y nuevamente se realiza la purificación mediante Agencourt


AMPure XP beads. Para la confirmación de que los adaptadores se ligan adecuadamente a los fragmentos
de ADN se realiza una mediada de control mediante una electroforesis en la Tapestation 2200, siguiendo
el procedimiento descrito anteriormente. El resultado debe arrojar un rango de picos comprendido entre
300-320 pb, con una concentración de alrededor de 40 ng/μl. Como se muestra en la Figura 21

Para la hibridación, la concentración de ADN de las muestras es ajustada a 147 ng/μl. Para ello se utiliza
una centrífuga de vacío (Eppendorf Vacufuge Plus concentrator). Y se resuspenden en el volumen
necesario para obtener 500 ng en un volumen de 3,4 μl.

70
Materiales y métodos

Figura 21. Medida del tamaño del producto obtenido después de la PCR por duplicado

La hibridación se realiza siguiendo el protocolo SureSelectXT Target Enrichment System for Illumina
Paired-End Sequencing Library versión 1.2 de Mayo del 2011 de Agilent Technologies.

Se preparan los reactivos en las proporciones indicadas en el protocolo, incluyendo un tampón de


hibridación, una master mix con diferentes agentes bloqueantes y las sondas de captura.

Se necesitan 3 termocicladores, dos de ellos con temperaturas a 65ºC, por un lado el termociclador A que
tiene la Placa A en la que se le añadió entre 15-18 μl de buffer de hibridación a cada pocillo.

El termociclador B con la Placa B que contiene la Master mix con los oligonucleótidos que van a impedir
que durante el proceso de hibridación se formen dímeros de moléculas de ADN. El ciclo del termociclador
es de 95ºC durante 5 minutos, el ADN sufre una desnaturalización, y 65ºC durante al menos otros 5
minutos, tiempo en el que se hibrida los oligonucleótidos bloqueantes con la librería generada formada
por ADN de cadena simple (figura23)

Figura 22 Esquema que muestra la función de los oligonucleótidos bloqueantes para que las moléculas no hibriden entre sus
extremos

71
Materiales y métodos

Transcurridos esos cinco minutos se traspasan 13μl de la placa A, a la placa C y 9 μl de la placa B a la C. A


la placa C se le añaden 7 μl de la Master MIx de las sondas de captura, que contienen 2 μl de las sondas
de captura y 5 μl de RNasa block. figura24

Figura 23. Esquema de trabajo para la Hibridación

Se procedió al sellado de la placa C.

Transcurridas las 24 horas que dura la hibridación a 65ºC, se procede a la captura.

Las regiones de interés son capturadas mediante la utilización de Dynal MyOne Streptovidin T1
(Invitrogen) y, posteriormente, son purificadas con Agencourt AMPure XP beads. Una vez purificadas se
procede al indexado de las librerías donde a cada muestra se le inserta una etiqueta o índice diferente de
6-8 nucleótidos conocidos. Para ello se realiza una PCR de 12 ciclos. Posteriormente se purifica con
Agencourt AMPure XP beads y se confirma que el rango de los fragmentos de ADN este comprendido
entre 330-350 nucleótidos mediante electroforesis automática utilizando el chip de alta sensibilidad

72
Materiales y métodos

Posteriormente se realiza una cuantificación por duplicado de cada muestra utilizando fluorescencia en
el Qubit con el kit High Sensitivity, y se calcula la molaridad de cada muestra siguiendo la siguiente
fórmula:

Una vez que se ha calculado la molaridad de cada muestra se realiza un pool siguiendo la siguiente
fórmula:

El resultado obtenido es en nanomolar.

Una vez constituido el pool se procedió a medir su molaridad mediante el uso de la Tapestation de Agilent
con el kit High Sensitivity por triplicado. El resultado debe ser similar al calculado en el paso anterior. Se
calculó la molaridad como la media de las 3 medidas, y además para comprobar que la tapestation no ha
cometido ningún error se utiliza una muestra a una molaridad de 10nM como control (figura25).

73
Materiales y métodos

Figura 24. Resultado de la Tapestation 2200 para la medición de los pooles de secuenciación

Preparación de muestras Haloplex

Se siguieron las recomendaciones del fabricante del protocolo HaloPlex Target Enrichment System for
Illumina sequencing version 2012.

El primer paso es la fragmentación mediante enzimas de restricción, para ello se requirieren 225ng totales
en un volumen de 45 μl, se crean 8 alícuotas de la misma muestra con un volumen de 5 μl cada una. Se
procede a la digestión del ADN mediante un coctel de 16 enzimas de restricción, dos enzimas por alícuota,
y se incuban a 37º durante 30minutos.

Se procede a la hibridación del ADN con las regiones de interés, este proceso se realiza durante 16 horas
a 54ºC.

Posteriormente tiene lugar la captura de las regiones de interés mediante las Haloplex magnetic bead
suspensión.

Se procede a la ligación de las regiones y a la circularización de los fragmentos generados durante una
reacción de incubación a 55ºC durante 10 minutos

Se eluyen los fragmentos de interés mediante NaOH y se procede a una amplificación final mediante PCR.

74
Materiales y métodos

Los pasos del protocolo resumido se pueden ver en la figura 26.

Figura 25. Principales pasos del protocol de Haloplex.

Preparación de las muestras con SureselectQXT

Se siguieron las recomendaciones del fabricante para el protocolo SureSelectQXT target enrichment for
Illumina Multiplexed Sequencing.2015. El resumen del funcionamiento se puede ver en la figura 27

Se requieren 50ng de ADN genómico como cantidad inicial, el primer paso es la tagmentación del ADN
mediante un coctel enzimático durante 10 minutos a 45ºC, durante este periodo la transposasa corta el
ADN a la vez que añade un adaptador, como se indica en la figura 16. Se realiza una purificación con
Ampure Beads

En el segundo paso el adaptador es utilizado como diana para la amplificación mediante una reacción de
PCR, para acabar realizando otra purificación de la reacción mediante Ampure Beads.

Se cuantifica mediante Tapestation 2200.

75
Materiales y métodos

La hibridación requiere una cantidad comprendida entre 750ng y 1500ng.

Se realiza la hibridación como en el caso de SureselectXT pero únicamente durante 90minutos siguiendo
el siguiente esquema.

Llegados a este punto, el protocolo es similar al de SureSelectXT.

Figura 26. Representación esquemática del proceso de preparación de la muestra utilizando el protocolo SureselectQXT.

76
Materiales y métodos

Preparación de un genoma completo.

El ADN es aislado y cuantificado por los métodos anteriormente descritos, siendo la cantidad total
necesaria de 1ug

La fragmentación del ADN genómico se lleva a cabo en el Covaris utilizando los siguientes parámetros
para obtener fragmentos de 800pb de tamaño

• Peak Incident Power 450


• Duty Factor 5%
• Cycles per bust 200
• Tiempo 120segundos

Se usan los kits NEXTflex™ Rapid DNA Sequencing Kit (Bioo Scientific, 5144-02) y NEXTflex™ DNA Barcodes-
96 (Bioo Scientific, 514105) para la generación de las librerias siguiendo las instrucciones del fabricante.
La principal diferencia con el método de SureselectXT es que la reacción de reparación de los extremos
y la adenilación tienen lugar en la misma reacción, siendo la temperatura el factor determinante para que
cada reacción tenga lugar en su tiempo justo. La reparación de los extremos tiene lugar durante
20minutos a 22ºC y una vez transcurridos se sube la temperatura a 72ºC durante otros 20 minutos la
adenilación. El volumen de la reacción es de 50 μl

Se ligan los adaptadores durante 15 minutos a 22ºC y se procede a la PCR final.

Puesta a punto para la técnica de la PCR para la detección de los puntos


de rotura de un CNV.

Con el fin de determinar la secuencia genética que se encuentra en las proximidades de una región de
secuencia conocida, se realiza una modificación de la técnica de PCR basada en la extensión de un único
primer.

Esta metodología consiste en el uso de modificaciones sobre la reacción de PCR que incluye el uso de una
mezcla de oligonucleótidos degenerados y fosforilados en el extremo 5' que se añade a la mezcla de la
reacción.

77
Materiales y métodos

La reacción se lleva a cabo utilizando un único oligonucleótido específico contra la región adyacente al
punto de inserción o deleción. Este oligonucleótido puede estar diseñado para que hibride en la zona del
cromosoma intacto que se localiza en la proximidad de la mutación. Esto se usa en el caso de deleciones,
por ejemplo, donde el oligonucleótido hibridaría en la región del cromosoma que rodea a la deleción, para
que se extienda cubriendo el punto de corte y empalme.

La reacción de PCR incluye un paso de annealing a baja temperatura durante un tiempo muy corto para
permitir la incorporación de los oligonucleótidos degenerados a las cadenas de nueva síntesis. Por ello, y
para evitar que el oligonucleótido se una a regiones inespecíficas del genoma, el diseño de este
oligonucleótido debe incluir en su extremo 5' una secuencia complementaria a la de su extremo 3'. De
este modo, se favorece la formación de estructuras en horquilla a temperaturas de annealing reducidas
para reducir la posibilidad de homología inespecífica con el ADN de estudio.

Como resultado del uso de un único oligonucleótido, se obtiene una amplificación lineal. La incorporación
de oligonucleótidos fosforilados a la reacción permite primar las cadenas lineales y generar regiones
locales de doble hebra sobre las que la polimerasa regenera un ácido nucleico de doble cadena, que se
utilizara como material de partida para la preparación de muestras para secuenciación NGS siguiendo
protocolos establecidos.

Caracterización de la deleción de los exones 59-66 del gen FBN1.

1.- Primer extension utilizando un oligonucleótido que hibrida con la región intacta (no delecionada) más
próxima a la zona delecionada.

Se utiliza el oligonucleótido:

FBN1-Ex58-FW: GCTTTCCCCTCTTGCTTCTTCT

1.1.- Composición de la reacción:

10X Long PCR buffer with 15 mM MgCl2**……………………..5 µl

dNTP Mix, 2 mM cada uno……………………………………………….5 μl (0,2 mM cada uno).

78
Materiales y métodos

Primer FBN1-Ex58-FW………………………………………………………1 μM

Template DNA…………………………………………………………………..50 ng

N7*…………………………………………………………………………………..0,2 μM

Enzima Long PCR**…………………………………………………………..2,5 u

H2O libre de nucleasas……………………………………………………..hasta 50 µl

*.- N7 = mezcla de oligonucleótidos degenerados fosforilados en 5’ (5’-pNNNNNNN-3’)

**Long PCR Enzyme Mix (Thermo Scientific, K0181).

1.2.- Condiciones de la reacción de PCR:

3 min, 94ºC;

10 ciclos [94ºC, 20s; 60ºC 30 s; 30ºC, 1 s; 68ºC, 20 min];

25 ciclos [94ºC, 20s; 60ºC; 30 s 30ºC, 1 s; 68ºC, 20 min, con una extensión de 15 s por ciclo]

Extensión final de 10 min a 68ºC.

Caracterización de la duplicación exones 46 y 47 del gen DMD

En el caso de ganancia de material genético, se diseña un primer que extienda la secuencia desde la región
insertada y que cubra el punto de inserción sobre el cromosoma salvaje

1.- Primer extensión utilizando un oligonucleótido que hibrida dentro de la zona duplicada. En este caso,
se diseña un oligonucleótido que incluye en su región 5’ una secuencia complementaria a la del extremo
3’ para minimizar la posibilidad de hibridación inespecífica a bajas temperaturas de annealing.

Se utiliza el oligonucleótido:

5’- CACATAGTTGTTTTGTTGTCTTTTGGGAACTATGTG.

79
Materiales y métodos

(posiciones 8-36 del oligonucleótido) son complementaria a las coordenadas chrX:31951631-31951659,


contenidas dentro de la zona duplicada. Las posiciones 1-9 del oligonucleótido son complementarias a las
posiciones 28-36. Se predice según diferentes modelos que este oligonucleótido presenta estructura
secundaria a 30ºC (temperatura del segundo annealing en la reacción de primer extensión):

Figura 27. Modelos que predicen la ausencia de estructura secundaria a 60ºC (temperatura del Segundo anneling en la reacción
de primer extensión).

Las condiciones de la PCR fueron las mismas que en el ejemplo anterior.

80
Materiales y métodos

Secuenciación
El primer paso es la desnaturalización del pool de librerías que se ha generado. Los cálculos se realizan
siguiendo la siguiente figura 29

Figura 28. Ejemplo de como desnaturalizar una librería para su secuenciación en un HIseq1500

El pool se diluye a 2 nM, se realizó una desnaturalización con NAOH, se incuba durante 5 minutos a
temperatura ambiente y se neutraliza la reacción con el Buffer HT1 para acabar obteniendo una
concentración final de 12pM. El PhiX se utiliza como control.

81
Materiales y métodos

Figura 29. Se muestran lo necesario para


hacer la amplificación clonal de las
librerías generadas. 1 cBOT , sistema
similar a un termociclador en el que la
amplificación ocurre por puente. 2
Manifold , es la encargada de añadir los
reactivos necesarios a las muestras para
su amplificación.3 Son los reactivos
necesarios para que la amplificación
tenga lugar.4 célula de flujo que es el
soporte al que quedan ancladas las
moléculas de ADN para su amplificación
clonal.

cada uno de los pooles generados (multiplexados, añadidos los TAGs y en formato paired-end) fueron
desnaturalizados, sometidos a la generación de cluster en el cBOT y secuenciados en el Hiseq1500
utilizando los reactivos de las figuras 30 y 31.

Figura 30. Se muestra la gran cantidad de reactivos que hacen falta para llevar a cabo una secuenciación
en un Hiseq 1,2 y 3. Muestra la orientación correcta de la célula de flujo dentro del secuenciador

82
Materiales y métodos

Una vez finalizada la secuenciación se procede al estudio de los parámetros de calidad utilizando, para
ello, el programa Illumina Sequencing analysis viewer (SAV).

Figura 31. Resumen de los datos mostrados por el programa SAV

En la pestaña principal de Analysis, Se deben observar entre otros datos, las que se consideran los 4
parámetros de calidad más importantes.

• Data By Cycle: presenta múltiples opciones de visualización, una de las más importantes es la
intensidad de la excitación registrada, cuanto más baja sea, mayor será la probabilidad de un error
en la llamada de variantes. Otro parámetro muy importante es la tasa de error en la que se puede
detectar la tasa de error en cada base.
• Data by Lane: Se puede observar entre otras opciones la densidad de los clusters por línea, la caja
en azul representa el número total de clusters y la caja en verde los que han pasado los filtros y
serán las lecturas que se van a analizar.
• Qscore Distribution: Se puede observar el porcentaje de datos asociados a una calidad, en azul
representan datos por debajo de un Q30 y en verde los superiores Q30.
• Qscore Heatmap: Representa la calidad por posición de todas las bases secuenciadas.

83
Materiales y métodos

Figure 2 Resultados de la pestaña Summary del SAV

En la pestaña Summary podemos encontrar el resumen de los datos generados en la carrera.

• Densidad = el número de Clusters generados.


• Cluster PF = Número de Clusters que han pasado los filtros.
• El porcentaje de Phasing/Prephasing.
• El número de lecturas generadas las que pasan los filtros.
• El porcentaje de bases identificadas con una calidad superior a Q30
• El total de gigabases generados que pasan los filtros
• Diferentes parámetros de la tasa de error.

En la pestaña Indexing podemos encontrar el valor numérico total de las lecturas generadas: el porcentaje
de lecturas que pasan los filtros, el porcentaje de lecturas identificadas que pasan los filtros y el porcentaje
de lecturas que lleva cada una de las muestras de esa línea.

En la pestaña Indexing podemos encontrar el valor numérico total de las lecturas generadas: el porcentaje
de lecturas que pasan los filtros, el porcentaje de lecturas identificadas que pasan los filtros y el porcentaje
de lecturas que lleva cada una de las muestras de esa línea (figura 33)

84
Materiales y métodos

Figura 32. Resultado de la pestaña indexing del programa SAV

85
Materiales y métodos

Bioinformática
Generación de muestra in silico.

Se utiliza el programa pIRS para la generación de las lecturas.

Debido a que este programa no puede generar lecturas en regiones no adyacentes se procedió a la
generación de un genoma haploide artificial que cubriera las regiones de interés más 100 pb a cada lado.
La creación de este genoma artificial se realizó concatenando las diferentes regiones de interés, y en y en
la región de unión de cada exón se le añaden 100N que indica secuencia desconocida, pIRS solamente
genera lecturas en las zonas en las que los nucleótidos están bien definidos. Para ello se utilizó el script
para generar un genoma de referencia de las regiones de estudio (disponible en el anexo E)

Se procede a la generación del genoma diploide mediante pIRS, con 2134 variantes en la región de
interés. Las lecturas son generadas con una longitud de 100 pb en un formato paired end y con tamaño
de inserto de 200pb. El resto de las opciones del programa se utilizaron por defecto. Se generaron las
lecturas a 4 profundidades de cobertura media diferentes: 50x , 100x , 400x , 1000x.

Alineamiento

Para realizar el alineamiento frente al genoma de referencia, hg19, se utilizaron dos programas diferentes
BWA y Stampy, ambos con los parámetros por defecto.

El funcionamiento de estos alineadores de lecturas cortas es similar:

1.- Construcción de un índice de la secuencia de referencia, este paso sólo se requiere hacer una vez:
bwa index [Link]

./[Link] --species=human --assembly=hg19 -G [Link]

La construcción del indexado consiste simplemente en cambiarle el formato al genoma de referencia para
que el programa pueda buscarlo eficientemente; cada programa construye un tipo diferente de índice.

2.- Las lecturas en formato Fastq son alineadas contra la secuencia de referencia.
Bwa mem -t8 [Link] $i_R1* $i_R2* >$[Link]

86
Materiales y métodos

./[Link] -g hg19 -h hg19 -M $i_R1* $i_R2 >$[Link]

El resultado es un fichero en formato SAM (Sequence Aligment Map), es uno de los más recientes
formatos utilizados en bioinformática y se ha convertido en el formato estándar para almacenar y
representar los resultados procedentes de NGS. La figura 18 muestra como es el formato SAM

Figura 33. Se muestran las primeras líneas de un fichero en format SAM

El formato SAM contiene toda la información sobre la muestra y su alineamiento, se puede consultar más
información en el siguiente enlance.

[Link]

El fichero SAM es un fichero de texto delimitado por tabulaciones y consiste en una sección de encabezado
(Header) donde cada línea contiene metadata y la sección del alineamiento donde cada línea contiene la
información del alineamiento. Este formato requiere de al menos las siguientes columnas

1. QNAME String [!-?A-~]{1,254} Query template NAME


2. FLAG Int [0,65535] bitwise FLAG
3. RNAME String *|[!-()+-<>-~][!-~]* Reference sequence NAME
4. POS Int [0,2147483647] 1-based leftmost mapping POSition
5. MAPQ Int [0,255] MAPping Quality
6. CIGAR String *|([0-9]+[MIDNSHPX=])+ CIGAR string
7. RNEXT String *|=|[!-()+-<>-~][!-~]* Ref. name of the mate/next read
8. PNEXT Int [0,2147483647] Position of the mate/next read
9. TLEN Int [-2147483647,2147483647] observed Template LENgth
10. SEQ String *|[A-Za-z=.]+ segment SEQuence
11. QUAL String [!-~]+ ASCII of Phred-scaled base QUALity+33

1. QNAME = alineamientos realizados contra una referencia.

87
Materiales y métodos

2. FLAG = Se corresponde a un código numérico en el que se puede encontrar toda la información


referente a un alineamiento, se puede consultar los significados de cada flag mediante el comando:

samtools flags,

lo que devuelve:

Figura 34. Descripción de las flags más importantes

De esta manera se pueden identificar los duplicados de secuencia, lecturas que no pareadas, identificar
alineamientos primarios (en el caso de que una lectura tenga múltiples alineamientos el software
designara una como primaria), alineamientos secundarios, alineamiento suplementario o quimérico.

La comprensión de estos tres tipos de alineamientos resulta de gran ayuda cuando se intentan detectar
reordenamientos.

3. RNAME Indica el nombre de la secuencia de referencia

4. POS Indica la posición que ocupa la lectura en la secuencia de referencia.

5. MAPQ indica la calidad del alineamiento frente a la referencia. Es la probabilidad de que un alineamiento
sea incorrecto, si MAPQ es 60 la probabilidad es 10-6, es decir, hay una probabilidad entre un millón de
que el alineamiento no sea correcto.

El programa BWA ha desarrollado un MAPQ=0 para designar que una lectura alinea igualmente en más de
una localización.

88
Materiales y métodos

6. CIGAR: Representa el alineamiento mediante números seguidos por letras:

● M match o mismatch
● I insertion
● D deletion
● S soft clip
● H hard clip
● N skipping
Por ejemplo una lectura con 69M32S indica que 69 bases son match o mismatch y las 32 restante tienen
un soft clip.

7. RNEXT indica si las dos lecturas que forman el par están alineadas en el mismo cromosoma , se denota
como “ = ”

8. PNEXT Indica la posición de la primera lectura alineada

9. TLEN indica la distancia entre los extremos del alineamiento por parejas

10. SEQ Muestra la secuencia de nucleótidos de la lectura

11. QUAL Indica la calidad con la que es llamada cada nucleótido.

BWA genera por defecto los siguiente tags:

● NM Número de bases de una lectura que no están en la secuencia de referencia


● MD Muestra la posición en la lectura que no está presente en la referencia.

Postprocesado

El siguiente paso en el análsisis es la transformación del archivo con formato SAM a un archivo con
formato BAM (Binary aligment map). En este proceso se comprime el fichero SAM para que ocupe menos
espacio. El fichero BAM almacena toda la información del fichero SAM en menos espacio y siempre es
posible revertirlos (BAM/SAM ó SAM/BAM).

samtools view -Sbh [Link] >[Link]

Posteriormente hay que ordenar el [Link]

samtools sort [Link]

El siguiente paso fue la eliminación de lecturas duplicadas, éstas son lecturas que después del
alineamiento, comienzan y acaban en la misma posición cromosómica y, además, presentan el mismo
CIGAR. En este proceso se utilizó la opción Mark duplicates del paquete Picard

89
Materiales y métodos

java -Xmx16G -jar picard/[Link] \INPUT=[Link]

\OUTPUT=[Link] \METRICS_FILE=13/metrics

\CREATE_INDEX=true \VALIDATION_STRINGENCY=LENIENT

Una vez realizado, se procedió al realineamiento de las posibles indels. Para ello se utilizó el programa
RealignerTargetCreator de GATK para la identificación de las regiones que son susceptibles de ser
realineadas. Estas zonas pueden aparecer en el CIGAR del fichero bam (alineado) o bien se le puede
suministrar una fichero en formato vcf donde se encontraran descritas las indels más comunes. El archivo
resultante lo denominamos .[Link].

java -Xmx16G -jar gatk/[Link] \-T

RealignerTargetCreator \-R hg19M/[Link] \-o [Link] \-I


[Link]

Para finalizar este paso se procedió al realineamiento con la opción IndelRealigner del propio paquete
GATK, con la generación de un nuevo fichero bam ya realineado alrededor de las indels. Este proceso
minimiza el riesgo de falsos positivos al buscar posteriormente variantes.

java -Xmx16G -jar gatk/[Link] \ -I

13/[Link] \ -R hg19M/[Link] \-T IndelRealigner \-

targetIntervals [Link] \ -o [Link]

El siguiente paso es el recalibrado de las bases secuenciadas. Este proceso es fundamental ya que los
quality score son críticos para los pasos posteriores del análisis. Los sesgos sistemáticos generados por el
secuenciador tienen una gran importancia en la incorrecta llamada de variantes ya que las calidades
reportadas dependen de la posición en la que se encuentre el nucleótido. La opción BaseRecalibrator
genera un modelo de errores y el recalibrado de esas calidades. Utiliza como comparador la base de datos
de SNPs (dbSNP).

90
Materiales y métodos

java -Xmx16G -jar gatk/[Link] \ -T BaseRecalibrator \ -R


[Link] \ -I [Link] \ -knownSites
latest_dbsnp.vcf \

-o recal_data.table

El recalibrado de la calidad quedará reflejado en un nuevo fichero bam.

java -Xmx16G -jar gatk/[Link] \-l INFO \-R

hg19M/[Link] \-I [Link] \-T

TableRecalibration \--out

[Link] \-recalFile recal_data.table

Variant calling
Seguidamente se procede a la llamada de variantes. Para ello se utilizaron 4 variant caller distintos:

• Mpileup de samtools: Utiliza un modelo estadístico de tipo bayesiano para computar las
probabilidades a posteriori de los 3 posibles genotipos y elegir el genotipo con más alta
probabilidad asignándolo al genotipo consenso. La variante es llamada si el genotipo consenso es
diferente del genotipo utilizado como referencia. Además informa de un phred-like consensus
quality score que representa la sensibilidad con la que la posición ha sido llamada. El phred-like
consensus quality score es igual a − 10 log 10[1 − PH], PH es la probabilidad más alta de que el
genotipo llamado sea el consenso.
• GATK-UG utiliza un algoritmo bayesiano similar seguido de sofisticados filtros
• GATK-HC realiza un ensamblaje de novo basándose en un grafo de Brujin en el cual las diferentes
rutas del grafo son potenciales haplotipos que necesitan ser evaluados. Calcula las probabilidades
de cada haplotipo utilizando modelos ocultos de Markov pareados (pairHMM) y determina en las
variantes el haplotipo más posible y computa la frecuencia de cada alelo para calcular el más
probable y, en caso afirmativo, emitir una variante.
• SNver emplea un modelo binomial para calcular la significancia de la frecuencia del alelo
observado frente a un error de secuenciación. Este variant caller aporta un p-Valor para evaluar
la probabilidad de que cada locus candidato se convierta en una variante. Este método examina

91
Materiales y métodos

todas las posiciones por independiente.

Las opciones utilizadas para la detección de las variantes fueron:

Mpileup del samtools:

samtools mpileup -C 50 -E -m3 -F0.0002 -L100000 -d100000 -DSgu -f [Link]


-e20 -h -L20 -o40 -l [Link] | bcftools view -ecvg -P flat

UnifiedGenotyper (GATK-UG)

java -Xmx16g -jar [Link] -R human_g1k_v37.fasta -T


UnifiedGenotyper -I [Link] -nt 8 -o [Link] -L [Link]

HaplotypeCaller (GATK-HC)

java -Xmx16g -jar [Link] -R human_g1k_v37.fasta -T


HaplotypeCaller -I [Link] -o [Link] -L [Link]

SNVer

java -jar [Link] -i [Link] -r [Link]

Como resultado se generan 4 ficheros de variantes en formato VCF (Variant Call Format)

VCF

Como resultado de la utilización de los 4 variant caller se generan 4 ficheros de variantes en formato VCF
(Variant Call Format)

El formato VCF esta formado por dos secciones, el encabezado que se encuentra al comienzo de cada
fichero y empieza con los símbolos “ ## “.
El campo INFO contiene información referente al software empleado para la llamada de variantes.
El otro campo se corresponde con las anotaciones y está formado habitualmente por 9 columnas

● CHROM Cromosoma.
● POS Posición de referencia.
● ID Identificador en la base dbSNP (si está presente). En esta tesis no se ha usado
● REF Base de referencia. En las inserciones, señala la base previa.
● ALT Variación encontrada (alelo alternativo).
● QUAL Puntuación de calidad de la variación ALT.

92
Materiales y métodos

● FILTER Filtros. PASS indica que ha pasado todos los filtros; si no pasa alguno, lo muestra. En esta
tesis no se ha usado
● INFO Información adicional de cada anotacion. Tiene muchas posibilidades
● FORMAT GT. Genotipo. Muestra 2 valores separados por una barra (alelos diploides). Para los
alelos de los cromosomas X o Y sólo se da un valor.
0/0 la muestra es homocigota para el alelo de la referencia
0/1 la muestra es heterocigota presenta el alelo de referencia y un alelo alternativo.
1/1 la muestra es homocigota para el alelo alternativo.

Para integrar la información procedente de los 4 variant callers se utilizó el paquete vcftools, con el
siguiente comando,

vcf-merge [Link] [Link] [Link] [Link] >[Link]

Para obtener los datos de cada VCF frente a la lista de variantes generada artificialmente se utilizó el
comando

vcf-compare -H [Link] [Link]

Este comando se utilizó para cada una de las posibles combinaciones entre los 4 variant callers y los dos
alineadores utilizados (BWA-mem y Stampy).

Métricas de calidad
Cobertura
La cobertura nos indica si una región esta presente o no después de realizar el alineamiento. Las técnicas
de captura o de amplificación de las secuencias, así como la propia secuenciación, pueden provocar que
alguna región concreta no se secuencie completamente y por ello se pierda información de una o varias
regiones.

Para calcular la cobertura se utiliza el siguiente comando

samtools depth -a -b [Link] [Link] | awk '$3 < 1 { print $0 }' | wc


-l

El resultado muestra todas las regiones que no están cubiertas por al menos una lectura

93
Materiales y métodos

Profundidad
La profundidad es el número de veces que una posición determinada sale representada y es uno de los
factores determinantes para evaluar la fiabilidad del nucleótido asignado a una posición del genoma.
Para su calculo se utiliza

java -Xmx4g -jar [Link]


-T DepthOfCoverage / -R [Link] / -I [Link] / -L [Link]
/-omitDepthOutputAtEachBase / -o [Link]

Anotación de las variantes


Para la anotación de las variantes se utilizó el programa Annovar

El archivo resultante se puede leer en formato tabulado e incluye los datos necesarios para una correcta
anotación de cada variante en términos de su función en la proteína, también incluye la frecuencia con
la que esa variante ha sido encontrada en diferentes bases de datos como 1000G , ExAC, clinvar y ESP6500.

Filtrado de Variantes
Para el filtrado de variantes se usa el algoritmo diseñado por Health in code y con la ayuda de su base de
datos que cuenta con más de 60000 variantes encontradas en pacientes con enfermedades cardíacas
congénitas. La figura 36 muestra el esquema de filtrado de variantes.

El primer paso es la clasificación funcional de la variante, la frecuencia encontrada en bases de datos, si el


gen donde se ha encontrado la variante se corresponde con el fenotipo indicado por el cardiólogo, y las
predicciones bioinformáticas de patogenicidad.

En el segundo paso se compara la clasificación suministrada anteriormente con la clasificación de la base


de datos de Health in code, en el caso de que no coincidencia, se realiza una inspección manual de la
variante.

En un tercer paso se realiza una inspección de las variantes en homocigosis

Una vez se ha realizado la clasificación de patogenicidad, las variantes son asociadas en tres campos: No
Patogénica, posiblemente patogénica, y patogenicidad incierta, se realiza una clasificación en función de
la calidad y la cobertura de las variantes, solamente se descartan las variantes de baja calidad si no son
patogénicas.

94
Materiales y métodos

En último lugar se realiza una clasificación manual para las variantes de patogenicidad incierta.

Las variantes posiblemente patogénicas se validan por Sanger

Figura 35. Esquema para el filtrado de variantes utilizando el sistema desarrollado por Health in code

Detección de Variantes estructurales

Para la correcta identificación de las variantes estructurales, las muestras que se analizan conjuntamente
han de ser preparadas en la misma tanda en el laboratorio. Bajo las mismas condiciones y la calidad del
ADN de partida tiene que ser homogéneo alrededor de todas las muestras.

Para la puesta a punto del método se han utilizado dos muestras con delecciones conocidas.

95
Materiales y métodos

Por profundidad de cobertura

Las métricas de este método se calculan mediante el contaje de fragmentos por kilobase por millón de
par de bases RPKM , y se calcula para cada región descrita en el fichero BED, el cálculo de RPKM se obtiene
mediante la siguiente fórmula.

RPKM = C /(N*L)
● C es el número de lecturas que mapean contra cada región
● N es el número total de lecturas alineadas divididas por un millón
● L es la longitud de la región en kilobases

Se utiliza el script Bam2Rpkm. Disponible en:

[Link]

Este parámetro se calculó para cada muestra a fin de obtener el número de lecturas esperadas y el de
observadas. Si la razón entre los esperados y los observados es menor de 0.5 indica una deleción en
heterocigosis y si la razón es mayor de 1,4 implica una duplicación.

Además se calculó la frecuencia alélica para las variantes tipo SNPs encontradas en la región de interés.
En el caso de las deleciones en heterocigosis se deberían observar pérdidas de heterocigosidad en dicha
región y en el caso de las duplicaciones el porcentaje alélico debería de estar alterado.

Por distancia entre pares PEM

Se analizan todas las lecturas que tengan una distancia superior a 4 veces la media de todas las lecturas
procesadas. Y se ordenan por posición cromosómica. Para este paso nos fijamos en la columna 9 del
fichero BAM (TLEN).

Se utiliza el programa Delly para la llamada de variantes, y se revisa el número de lecturas que soportan
la variante. Si son más de 3 lecturas las que soportan la variante se revisa en el IGV

Para ver si la lectura cubre el punto de rotura se utiliza la información recogida en el campo CIGAR. Y se
busca información sobre hard clip o softclip.

96
Materiales y métodos

Visualización de alineamientos

Se utiliza el programa IGV. Que se puede encontrar en:

[Link]

Diseño de las regiones a estudiar

Primeramente se realizaron búsquedas bibliográficas buscando variantes asociadas a distintos genes que
estuviesen relacionadas con el desarrollo de enfermedad cardiovascular de origen genético
(cardiomiopatías, canalopatias, enfermedad familiar de la aorta y dislipidemias familiares). Esta tarea fue
realizada por el departamento de cardiología de la empresa Health in code

En una primera revisión se encontraron 126 genes. El total de bases cubiertas fue de 1951876 pb totales
incluyendo regiones exónicas e intrónicas. Para realizar este diseño de sondas, se utilizó la herramienta
Earray (actualmente ha sido substituido por la herramienta Suredesign) de Agilent Technologies. Se utiliza
en la nube. , se puede acceder desde:

[Link]

En el diseño se cubrieron todos los exones de los genes de interés mas 100 pb flanqueando el exón. El
tilling (número de sondas solapadas que cubren cada región) fue de 2x lo que garantiza que cada base del
diseño esté cubierta por al menos por 2 sondas diferentes.

Posteriormente se realizó una actualización bibliográfica de las regiones a estudiar. La periodicidad de


estas actualizaciones suele ser mensual por lo que se necesita un método rápido para poder comprobar
el funcionamiento de las librerías in silico.

Se utiliza la herramienta online Suredesign de Agilent Technologies.

Cada nuevo diseño está formado por diferentes grupos de sondas:

● En el primer grupo de sondas fueron introducidas las regiones de interés, se elige un tilling de 5x,
la opción Max Performance y Modelately stringent. Este paso cubre todas las regiones con al
menos 5 sondas solapantes y dejando sin cubrir las regiones repetitivas

97
Materiales y métodos

● El segundo grupo de sondas se utiliza para cubrir las regiones repetitivas, se utiliza un tilling de 2x
, Max Performance y least stringency.
● Tercer grupo de sondas en el caso de que alguna región no esté cubierta, son las zonas repetitivas.
Tilling de 2x , no boosting y no masking.
● Se utilizó un cuarto grupo de sondas para cubrir las regiones con alta incidencia de CNVs, en este
grupo de sondas solo se incluyen posiciones intrónicas tratando de cubrir el gen entero en el caso
de que dicho gen sea de un tamaño manejable, por ejemplo FBN1 o se colocan sondas espaciadas
a un determinado número de bases para como en el caso de la DMD.

98
Resultados

Resultados

99
Resultados

Evaluar la implantación de la NGS en el estudio de cardiopatías


congénitas humanas.

Comparación de métodos de enriquecimiento.

Haloplex y SureselectXT

Una de las primeras diferencias que nos hemos encontrado fue a nivel de diseño de las regiones a estudiar,
la tecnología basada en Haloplex no tenía la posibilidad de colocar sondas en cualquier región del genoma
como si ocurría con Sureselect.

Se estudiaron en paralelo 16 muestras con las tecnologías Haloplex y Sureselect para comparar los
resultados. Fueron secuenciadas en un Hiseq2000 de Illumina. Solamente se analizaron las regiones en
común que compartían ambos métodos de enriquecimiento; y para las variantes solamente las muestras
pareadas que resultaron ser 9. Para la detección de las variantes fue utilizado el software Surecall de

Figura 36. Representación de las profundiadades medias de cada exón incluido en el panel a lo largo del genoma para los
enriquecimientos de SureSelect y Haloplex

100
Resultados

Agilent Technologies, Inc., ya que presentaba un algoritmo optimizado para el caso de Haloplex. Se
cuantificaron la cobertura y la profundidad de las muestras.

En el caso de las muestras preparadas con Haloplex, la profundidad varió drásticamente en cada exón
como se puede ver en la figura 37 (pagina anterior), donde se han representado las profundidades de los
dos métodos de captura a lo largo de todo el genoma. La profundidad presentada por SureSelectXT fue
más homogénea.

Los valores de profundidad media de Haloplex fueron de 235.8X, mientras que los valores de profundidad
media de SureselectXT fueron de 325.5X.

Los coeficientes de variación de Haloplex y SureselectXT de las profundidades de la suma del total de las
regiones donde se realizó el diseño, fueron respectivamente 0.87 y 0.32.

En cuanto a las regiones sin cobertura, las muestras procesadas por Haloplex representaron un 3% del
total de las regiones, mientras que en las muestras procesadas por Sureselect, esta proporción fue menor
del 1%.

La figura 37 muestra las diferencias de ambos métodos de captura a nivel del gen LMNA. Existen
diferencias significativas en la profundidad que se obtiene por cada método. Haloplex presenta zonas de
máxima profundidad de 6500X y regiones sin cubrir, mientras que con Sureselect no aparecieron zonas
exónicas sin cobertura.

Figura 37. Se representan las profundidades entre SureSelctXT y Haloplex a nivel del gen LMNA.

101
Resultados

La máxima profundidad alcanzada en ese gen en muestras procesadas con Sureselect fue de 512X.

En la figura 39, se puede observar la representación de las lecturas que alinean contra el gen FUS, que no
está incluido en el diseño del panel. Al procesar las muestras con Sureselect, pueden apreciarse lecturas
esparcidas a lo largo de este gen, generando lecturas fuera de la región de interés, lo que se denomina off
target. Sin embargo, con Haloplex no se observaron lecturas cubriendo este gen. Estas lecturas en
regiones inespecíficas hacen que el enriquecimiento mediante Sureselect no fuese tan alto como con
Haloplex, presentando valores de enriquecimiento de 70% y 97% respectivamente.

Figura 38 Representación del off target generado por cada uno de los métodos utilizados. Las regiones off target aparecen como
están marcadas en un rectángulo rojo correspondiente a la muestra de Sureselect, la muestra correspondiente a haloplex no
presenta , marcada con un rectángulo azul no presenta off target.

En cuanto a las variantes encontradas mediante las dos técnicas, se puede observar una concordancia del
88.5%, los resultados pueden verse en la figura 40.

Figura 39. Comparación


del número de variantes
detectadas por cada
método utilizado.

102
Resultados

La metodología Sureselect consiguió detectar más variantes que Haloplex. Un ejemplo puede verse en la
figura 41, donde se aprecia una variante A>G en una región de 35X de profundidad con un balance alélico
de 43/57, mientras que en la muestra con Haloplex, esa variante no fue detectada.

Tras la revisión manual en el IGV se encontró que esa posición también contaba con una profundidad de
35X con la tecnología Haloplex, para la sustitución de A>G, pero en este caso, el balance alélico fue de
83/17, razón por la que el variant caller no pudo detectar la variante. Otra posible razón por la que esta
variante en Haloplex haya pasado desapercibida fue porque presentaba un sesgo de cadena. En el IGV,
las cadenas positivas se representan en rojo mientras que las cadenas negativas en azul. Las lecturas
alinean contra cualquiera de las dos cadenas, pero algunos variant callers necesitan que las variantes
estén presentes en las dos cadenas para poder ser llamadas. En este ejemplo son Sureselect la variante
está presente en 6 lecturas alineadas contra la cadena positiva y en 14 alineadas contra la cadena
negativa, en el caso de Haloplex solamente aparecen lecturas con la variante alineadas sobre la cadena
positiva.

Figura 40 Diferente balance alélico entre los métodos

Otro ejemplo de discrepancias en la detección de variantes se puede ver en la figura 42. En este caso, se
observó la presencia de dos cambios en la muestra preparada con Sureselect, mientras que la misma
muestra procesada por Haloplex presentó un hueco en la cobertura con lo que no se pudieron detectar
esas dos variantes en heterocigosis, produciendo dos falsos negativos. Además, Haloplex detectó una
variante en heterocigosis (señalada en amarillo), en un porcentaje cercano al 50% que no fue detectada

103
Resultados

por Sureselect. En esa variante, se alcanzó una profundidad de 439X para esa posición y solamente
aparecía el cambio de A>C en una única lectura, lo cual indica un error por alguno de los dos métodos.

Figura 41. Diferencias en la coberturas y falsos negativos

En otro caso, se observó una inserción en la muestra procedente de Haloplex en un total de 214 lecturas,
donde la profundidad total fue de 637X, esta inserción no fue detectada por Sureselect (figura 43).

Figura 42. Error de Inserción de una G en Haloplex. No se aprecia en la ilustración mostrada en IGV pero si se muestra en el cuadro
de texto asociado al evento.

104
Resultados

En la figura 44 se muestra el mismo caso anterior, pero la gráfica corresponde únicamente a los datos
obtenidos por procesamiento mediante Haloplex. Las fechas negras y rojas hacen referencia al par de
lecturas generado dentro de la secuenciación en formato pair end, en donde cada fragmento de ADN es
secuenciado en los dos sentidos, correspondiendo a la misma única molécula de ADN. En este caso, las
flechas negras señalan a una molécula de ADN y las rojas a otra. La región de la inserción, que aparece
resaltada por una línea de coloración morada, presenta un solapamiento entre las dos lecturas de la
misma molécula. Sin embargo, la inserción solamente se detectó en la cadena positiva, lo que sugiere un
error de secuenciación.

Figura 43 Error de insercion Haloplex parte 2

105
Resultados

Errores relacionados con la técnica de secuenciación.


Adicionalmente, durante la realización del presente trabajo se encontraron numerosos errores
relacionados con la secuenciación de illumina que se resumen en la figura 45.

Figura 44. Resumen errores illumina En el punto (1) se observa un error aleatorio, solamente aparece en una única lectura. En el
punto (2), se aprecia un error aleatorio asociado a una región rica en homopolímeros tipo C, en este caso los errores aparecen
debido a la baja complejidad de la región. Por último, en el punto (3), aparece un error sistemático debido a problemas en el
phasing. Nótese que solamente aparece la lectura en base G en un único sentido (indicado por las flechas negras acompañando
a las lecturas), como resultado podemos llegar a la falsa interpretación de un heterocigoto.

La figura 46 muestra el error de lectura GGC de plataformas illumina, la flecha azul indica el sentido de la
secuenciación , en este el secuenciador leyó la secuencia GGC, las lectura en azul correspondientes a la
cadena negativa presenta este error el 17% , 2% y 16% pero todos esos errores solamente estaban
presentes en la cadena negativa, en la figura 47 se representa la misma región pero alineada sobre la
cadena positiva en la que el sentido de la lectura es CGG y no se detecta ningún error.

106
Resultados

Figura 45 Error GGC en tres muestras independientes.

Figura 46. Error GGC en tres muestras independientes 2

107
Resultados

SureselectXT y SureselectQXT

Se estudiaron 13 muestras pareadas entre los dos métodos de preparación de librerías XT y QXT, se
utilizaron las mismas sondas de captura. Se secuenciaron en un Hiseq 1500 de Illumina. Se calculó la
cobertura y profundidad de las 13 muestras pareadas y se detectaron las variantes. Los valores de
cobertura media se pueden ver en la figura 13. El grado de enriquecimiento que se obtuvo en estas
preparaciones fue del 70% en el caso de XT, frente al 35% para el caso de QXT. El grado de cobertura fue
de un 99,9% para XT y de un 99,7% para QXT. El porcentaje de regiones cubiertas por encima de 50X fue
de 99,7% para XT y 87% para QXT.

En cuanto a las variantes detectadas por cada sistema de preparación, también se encontraron
diferencias, aunque es este caso fueron menores a las reportadas anteriormente. En este experimento la
concordancia de variantes detectadas fue superior al 98% (figura 48).

Figura 47. Representación mediante diagrama de cajas de la profundidad de las muestras preparadas con QXT y XT. En el eje de
Abscisas se representa la profundidad media para un total de 13 muestras.

La distribución de variantes detectadas por cada metodología puede consultarse en la figura 49.

Figura 48. Total de


variantes reportadas
por ambas métodos

108
Resultados

Las discrepancias entre ambos sistemas, correspondieron a errores presentes que se encontraron en
regiones de baja profundidad o bien en regiones de baja complejidad genómica como queda plasmado
en las figuras 50 y 51. Estas discrepancias se debieron a la falta de profundidad en algunas regiones y a la
región del genoma en donde se encontraban las variantes, ricas en homopolimeros. En la figura 14, se
puede apreciar cómo fue detectada una variante de T>G a una profundidad de 291X por la metodología
XT, mientras que por QXT esta variante no fue detectada a una profundidad de 49X.

Sin embargo, una vez realizada la inspección manual en el IGV puede verse que existen tres lecturas que
la soportan (figura 50). Una de las dificultades para llamar esta variante en ambas preparaciones fue que
se encontraba en una zona con un homopolímero de T muy extenso.

Figura 49. Error en la llamada de una variante debido a una región de baja complejidad y de profundidad baja. Se puede observar
que aparecen 3 lecturas en base G en QXT a una profundidad de 49X, mientras que con XT aparecen de manera estadísticamente
más fiable cuando se aumenta la profundidad

Por otro lado, en la figura 51 se muestra una variante no detectada por la química QXT debido a una baja
profundidad de 1X, mientras que en XT la profundidad alcanzó un 50X y esto permitió que se detectara el
cambio de T>G en heterocigosis.

109
Resultados

Figura 50. Error en la llamada de una variante a profundidad de 1X en preparación con QXT, que queda resuelto cuando se prepara
la muestra con el sistema XT

En relación a las variantes únicas detectadas por cada preparación, se determinó que tenían diferentes
patrones de sustituciones. Mientras que el sistema XT mostraba una preferencia por la sustitución G>A,
QXT mostró preferencia por A>G, C>A, T>G (figura 52). Este hecho pudo deberse a errores en el patrón de
corte mediado por la trasnposasa, tal y como se argumentará más adelante.

Figura 51. Distribución del patrón de sustitución de las variantes detectadas en cada metodología de preparación de librerías. En
el eje de abscisas se observa el número de veces x100 que aparece cada tipo de sustitución

110
Resultados

Otro punto de discrepancia apareció en una región que no se cubría en todas las muestras procesadas por
QXT, mientras que si estaba cubierta en las muestras procesadas por XT. Dicha región correspondía con
las coordenadas chr6:123851633-123851743, que formaban parte de una región exónica del gen TRDN.

En la figura 53 puede apreciarse el alineamiento de esta región y la ausencia de profundidad en las


muestras analizadas con QXT (enmarcado en negro). La muestra analizada con XT aparece en el margen
superior. El resto de muestras, que aparecen enmarcadas en rojo, son los alineamientos correspondientes
al procesamiento QXT. La última muestra se corresponde con un exoma procesado con QXT en el cual el
fichero del alineamiento ha sido cedido por el fabricante.

La profundidad media de esta región es de 90X para XT mientras que en el exón adyacente es de 235X

En el caso de QXT la región problema no está cubierta y la media del exón adyacente es de 62X

Figura 52. Se muestran los alineamientos en el IGV del gen TRDN, centrado en el exón no cubierto por QXT

111
Resultados

Exoma vs panel personalizado.


Se estudiaron 16 exomas v5 de Agilent tech., preparados con la química XT y se secuenciaron en 4 líneas
de secuenciación en un secuenciador Hiseq 2000 de Illumina.

Se realizó una comparación entre los datos de cobertura y profundidad de determinadas regiones del
exón 26 del gen APOB presentes en el diseño de los exomas anteriormente mencionados (figura 18),
frente a muestras de nuestro panel personalizado que presentaban también dichas regiones en su diseño.
En los exomas se obtuvieron unas profundidades medias de 113X con una desviación estándar de 59,2.

En ese sentido, para reducir el sesgo de las métricas, se utilizaron muestras analizadas con los paneles
personalizados que tuvieran una media de profundidad similar 122X , con una desviación típica de 37,5.

Se calculó el coeficiente de variación, que fue 0,52 para los exomas y de 0,30 para el panel personalizado.

Adicionalmente, en la figura 54 puede apreciarse también como todo el exón 26 del gen APOB está
cubierto, sin embargo, su profundidad presentó fluctuaciones a lo largo del gen en diferentes puntos del
mismo. Cabe destacar que este exón tiene una longitud aproximada de 7,6 kb, la cual se considera extensa
y que puede originar problemas de uniformidad.

112
Resultados

Figura 53 Variación de la profundidad a lo largo del exón 26 de APOB, el recuadro rojo muestra los datos de exomas, el panel
customizado se muestra en azúl.

En la siguiente figura 55, podemos observar que se encontraron regiones de estudio que no estaban
cubiertas o con una profundidad insuficiente en el exoma (rectángulo rojo), como es el caso de regiones
en los genes PKP2 y KCNQ1, que si presentaba buena profundidad en el panel personalizado (rectángulo
azul).

113
Resultados

Figura 54 Resultados de los exomas frente al exón 2 del gen PKP2 y el exón 1 de KCNQ1, ambos con profundidad
insuficiente

114
Resultados

Comparación entre secuenciadores

Hiscan vs Hiseq

Se realizó una preparación de 16 muestras mediante SureSelectXT y se cargaron en dos líneas del Hiscan
y en dos líneas del Hiseq.

Para calcular los errores producidos por los secuenciadores se utilizó la herramienta informática
ErrorPerCicle contenida en el paquete GATK. Los datos obtenidos se pueden observar en forma de gráfica
en la figura 56.

Se calcularon las correlaciones de Pearson entre los valores de qual y la tasa de error dando resultados
por encima del 0.97 para las 4 líneas.

figura 55 En la parte de la izquierda se muestra los errores producidos por el Hiscan, en la de la derecha, los producidos por el
Hiseq. El eje X muestra en primer lugar el valor de qual asignado, en el eje Y, el número de ciclo secuenciado.

115
Resultados

Se calcularon las correlaciones de Pearson entre los valores de qual y el tasa de error dando resultados
por encima del 0.97 para las 4 líneas secuenciadas.

Puede observarse que los errores tienen una correlación positiva con la calidad (qual) que da el
secuenciador, mayor qual, menor número de errores. También se calculó la reproducibilidad de datos
entre líneas, mediante la ya mencionada correlación de Pearson. Se observó un 93% de errores detectados
en las mismas posiciones en el Hiscan, mientras que descendió hasta el 51% en el caso del Hiseq, lo que
indica que los errores en el Hiseq fueron más aleatorios.

En cuanto al número de lecturas generadas por el Hiscan en cada línea, ronda los 80 millones de lecturas,
obteniéndose más del doble del valor en el Hiseq, 180 millones. Se procedió al cálculo de errores
presentes en cada lectura producida.

La tasa de error Hiseq, fue superior a la del Hiscan, el 50% de las lecturas producidas por el Hiseq en esta
carrera presentó al menos un mismatch frente a la referencia, para el Hiscan el 90% de las lecturas no
presentaban ningún mismatch (figura 57).

Figura 56. Gráfica del porcentaje de error en las lecturas. En eje de abscisas, se indica el
porcentaje de error, mientras que el eje de ordenadas, se muestra el número de errores
dentro de la misma lectura.

116
Resultados

Los datos de profundidad media de las muestras fueron de 151X para el Hiscan, manteniendo el 98% de
las regiones cubiertas, mientras que para el Hiseq fueron de 425X y más del 99,9% estaba cubierto.

Los datos de detección de variantes obtenidos por el Hiscan se eliminaron del estudio por su baja calidad
de cobertura, centrando el análisis únicamente en los datos obtenidos en las dos líneas del Hiseq. Así
pues, se detectaron un total de 33216 variantes, de las cuales 31312 fueron detectadas en común por las
dos líneas ya que cada línea había detectado por un lado 1216 variantes exclusivas de esa línea y 256 de
otra, haciendo que el porcentaje de discrepancia fuera del 5,73%.

Debido a estas diferencias, se calculó la correlación en la profundidad de cada una de las muestras, dando
como resultado una correlación del 98% entre los duplicados de cada muestra (figura 58.a).

Se calculó la correlación entre el número de variantes y el número de lecturas resultando un coeficiente


de Pearson del 41% (figura 58.b).

Se observó que un 24,5% de las lecturas producidas en ambas líneas eran diferentes, lo que sugirió que
no procedían de la misma molécula. Posteriormente, se procedió a la detección de las variantes de nuevo
y se concretó la pérdida de las variantes individuales encontradas en cada duplicado. No obstante, se
obtuvieron 341 nuevas variantes, las cuales no habían sido reportadas anteriormente, todas ellas en
regiones intrónicas, lo cual puede ser indicativo de errores vinculados a la secuenciación.

a b

Figura 57. (a) correlación existente entre la profundidad encontrada en una muestra por duplicado para las zonas a estudiar. (b) Número de
variantes detectadas en función del número de lecturas totales.

117
Resultados

Miseq vs Hiseq vs Nextseq

Se prepararon 4 muestras por triplicado y se secuenciaron en 3 secuenciadores distintos. Al mismo


tiempo, se comprobó que la cobertura y la profundidad fuera homogénea en los 4 triplicados de muestras.

Se detectaron un total de 9520 variantes, presentando unos resultados en común de solo el 29,5% de
todas las variantes en las 3 plataformas. Sin embargo, una vez que se eliminaron las regiones de
profundidad inferior a 10x, el porcentaje de variantes que compartían aumento a 66,2%.

Por último, se estudiaron un total de 333 variantes exónicas y se encontró un 83,8% en común (figura 24).

Un dato significativo fue que empleando como secuenciador el Nextseq, se observó un mayor número de
variantes no detectadas por los otros secuenciadores. Este hecho será discutido en mayor profundidad
en sucesivos apartados.

totales Profundidad >10x Exónicas


Figura 58. Variantes compartidas entre las 3 distintas preparaciones de muestra y los 3 secuenciadores

En la figura 60 se muestran los datos correspondientes del alineamiento en el IGV procedente de una
misma muestra y los distintos resultados de secuenciación en función de la plataforma empleada.

De este modo, se puede apreciar una variante en el gen MYH7 solamente en el alineamiento
correspondiente al resultado arrojado por el Nextseq, en el que presenta una profundidad de 304X y el
cambio de G>C aparece 75 veces, 74 sobre la cadena negativa y 1 sobre la cadena positiva. En las muestras
del Hiseq y del Miseq, este resultado no aparece.

118
Resultados

Hiseq

Nextseq

Miseq

Figura 59. Variante solamente detectada por el Nextseq en el gen MYH7

Hiseq vs Nextseq.

Se prepararon 21 muestras y se secuenciaron en paralelo empleando un Hiseq y un Nextseq. Ambas


preparaciones tuvieron una cobertura superior al 99,9%.

Los resultados de las variantes detectadas pueden verse en la Tabla 2

Tabla 2. Resumen de las variantes encontradas entre ambas secuenciaciones.

Hiseq Común Nextseq Totales


Variantes 1785 49182 6993 57960
Ts/Tv 1.3 2.3 0.53 2.1
Exones 23 6909 525 7457

Se detectaron un total de 57960 variantes entre las 21 muestras por duplicado. El Nextseq presentó casi
4 veces más variantes únicas a nivel genómico en su secuencaición que el Hiseq. En cuanto a las variantes
presentes en exones, el Nextseq notificó casi 23 veces más (525), que las identificadas por el Hiseq (23).

Se calculó el porcentaje de lecturas que contuvieran de 0 a 5 mismatches (figura 61). Los resultados
muestran que el Hiseq tiene un 54% de lecturas con 0 mismatches mientras que el Nextseq presenta un
68%.

119
Resultados

A partir de 4 mismatches por lectura, los datos procedentes del Nextseq son superiores a los mostrados
por el Hiseq, lo cual implica una mayor tasa de error.

Figura 60 Se muestra los porcentajes de lecturas con diversos mismatche para los dos secuenciadores

Comparación de alineadores

Se alineó una muestra sintética con 2134 variantes contra un genoma humano de referencia (versión
hg19). Se utilizaron los alineadores BWA y Stampy, generando un alineamiento a distintas profundidades:
50X, 100X, 400X y 1000X.

Los datos de cobertura no variaron entre los dos alineadores. Sin embargo, se observó que Stampy
descartaba más lecturas que BWA (Tabla 3).

Se calculó el tiempo de alineamiento para la muestra de 1000X en formato pair end. En este punto, BWA
mostró un tiempo de procesado inferior a 1 hora, mientras que Stampy necesitó alrededor de 10 horas
para completar la misma acción.

120
Resultados

Tabla 3. Métricas de cobertura y de lecturas no mapeadas

media sd no mapeadas
BWA50 58.3 20.9 60
BWA100 116.7 39.7 67
BWA400 454.2 148 287
BWA1000 1072 338 685
Stampy50 58.3 20.9 274
Stampy100 116.7 39.7 455
Stampy400 454.2 148 1963
Stampy1000 1072 338 5104

Comparación entre variants calling

Se utilizaron 8 diferentes combinaciones de pipelines para detectar las 2134 variantes introducidas en la
muestra in silico.

Se calculó la sensibilidad de cada pipeline según la siguiente fórmula:

Sensibilidad= Positivos / (Positivos + Falso negativo +Falso positivo)

Siendo:

• Positivos: variantes generadas sintéticamente y llamadas por el pipeline


• Falso Positivos: Variantes no generadas sintéticamente y que el pipeline ha llamado
• Falso negativo: Variantes generadas sintéticamente y que el pipeline no ha llamado

Los resultados de la simulación figura 61 muestran que las predicciones realizadas por el GATK-HC tienen
una sensibilidad similar, independientemente del alineador utilizado, debido a una mayor complejidad de
su algoritmo (ensamblaje de novo alrededor de las variantes, descrito en el apartado materiales y
métodos).

121
Resultados

En cuanto a los falsos positivos, podemos decir que han sido producidos aleatoriamente en todas las
lecturas. Su eliminación en esta simulación se podría conseguir mediante un filtrado con unos valores de
qual altos. Sin embargo, en regiones de baja profundidad este tipo de filtro también podría eliminar
verdaderos positivos, razón por la que se ha decidido no aplicar filtros de ninguna clase.

Figura 61. Sensibilidad de los pipelines utilizados en la simulación a diferentes profundidades.

Al mismo tiempo, se han encontrado zonas con una alta profundidad en la que las variantes no han podido
ser detectadas. En este sentido, se puede ver la figura 62 como una variante que no fue detectada por
los 4 variant caller a una profundidad de 63X para un cambio de G>C, la variante se encuentra en ambas
cadenas en un porcentaje similar (18 en cadena positiva 12 en la negativa) y ningún pipeline fue capaz de
detectarla en las simulaciones a 50X y 100X.

La misma variante si fue detectada a profundidades de 400X y 1000X

122
Resultados

Figura 62. Alineamiento de la muestra sintética que muestra una sustitución G>C que no ha sido llamada por los pipelines.

Regiones con mala mapabilidad

Se buscaron regiones que presentaban una mapabilidad de 0 (mq=0) indicativo de zonas de alineamiento
múltiple (secuencias repetidas del genoma), en las cuales en caso de que una variante tuviese lugar, no
sería posible asegurar que dicha variante perteneciera a ese locus. Por lo tanto, había que evaluar si añadir
estas regiones al panel personalizado. Un ejemplo de este suceso aparecía en el exón 27 de MYH7, el cual
tiene la misma secuencia que el exón 26 de MYH6.

Esta región presenta 481 bases idénticas. En el caso del alineador BWA, esas lecturas aparecen con una
calidad de mapeado de 0 sobre 60, por lo aparecen las lecturas coloreadas de blanco, ya que IGV identifica
así las regiones con mq=0. (figura 64)

En el caso del alineador Stampy, se le asignó a la región problema una calidad de mapeado de 3 sobre 99,
motivo por lo que en la representación por IGV, no aparecen coloreadas de blanco. Ningún alineador

123
Resultados

puede distinguir a qué región concreta corresponde una zona con mq=0. Por lo tanto, en este caso
particular donde aparecen regiones de alineamiento múltiple, solamente las lecturas que comienzan fuera
de la región son alineadas con propiedad.

Figura 63. Alineamiento de los exones 26 MYH6 y 27 MYH7 , los alineamientos procedentes del BWA de muestran en rectángulo rojo
y los de Stampy en azul.

Otras regiones fueron con las mismas características fueron encontradas (tabla 4)

tabla 4 Regiones incluidas en el diseño con mapabilidad de 0

12:21951259-21952215 ABCC9 2:179519114-179519982 TTN


14:23859261-23859643 MYH6 2:179523630-179524063 TTN
14:23889158-23889348 MYH7 2:179528051-179528267 TTN
15:48822115-48822297 FBN1 7:128498183-128498466 FLNC

Se comprobaron estos resultados con las pistas del UCSC genome browser, self chain y segmental dups.
Sin embargo como puede verse en la figura 64, para el caso de MYH7 todo el gen está contenido dentro
de la pista self chain, pero la simulación solo marca problemas de alineamiento en la región del exón 27
(marcada con flecha roja). figura 65

124
Resultados

figura 64 Imagen obtenida del UCSC genome Browser donde se puede ver el gen MYH7

El resto de exones de ese gen no ha presentado ningún problema de alineamiento.

Otro caso es el gen CEL, (figura 66) que se encuentra marcado por el track de segmental dups, sin embargo
el alineador es capaz de diferenciarlo correctamente. Este gen CEL no se ha incluido en los paneles de esta
tesis.

a b

figura 65. a) Se muestra una captura de la región genómica del gen CEL contenido en un segmento duplicado, señalado con la
flecha roja. b) El alineamiento de una simulación para el gen Cel, presentando una mapabilidad superior a 0.

Una posible explicación a este fenómeno ocurre si hacemos un blat de la región completa del gen. Muestra
un score de 6122 y una identidad de 96.7% con la región homologa, se encuentra en la posición genómica
chr9:135,956,013-135,962,783 pero presenta pequeñas diferencias en forma de unas pocas bases 1-3pb
que hacen que el alineamiento se pueda llevar a cabo con éxito, los resultado se muestran en la figura 67

Figure SEQ Figure \* ARABIC 3 En la parte izquierda se muestra el gen CEL incluido en una región duplicada, sim embargo
125
Resultados

figura 66 En la parte superior se muestra el resultado del BLAT para el gen CEL completo, en la parte inferior se
muestra la región genómica que presenta una identidad del 96,7% con el gen

Otro ejemplo fue el del gen LPA, donde los exones del 4 al 19 se encuentran en una región duplicada en
el genoma, . Cualquier variante entre estas regiones no sería capaz de distinguirla.

a b

figura 67 a) Se muestra la región genómica que comprende los exones 4 a 19 del gen LPA, la flecha roja indica una región duplicada
que cubre los genes del 4 al 19. b) Muestra los resultados de la simulación con alineamientos de con una mapabilidad de 0.

Regiones con baja profundidad

Los resultados de la simulación mostraron regiones de baja profundidad a lo largo de todo el diseño, se
compararon las profundidades de las regiones de la simulación con las muestras de la tanda del Hiscan vs
Hiseq, presentó una correlación lineal de 43% para las profundidades de cada exón.

Se encontró una relación entre las regiones de profundidad menor de 30x, las regiones de baja
profundidad tienen una correlación del 72% con la muestra simulada a profundidad de 400x, las regiones

126
Resultados

afectadas se pueden consultar en el anexo E y un ejemplo puede verse en la figura 68 a) donde se puede
ver por un lado el exón 1 de KCNQ1 en donde en la simulación presenta una profundidad de 12x y en la
muestra real una profundidad de 6X. en la figura 69 b puede verse el mismo resultado en el gen APOB
donde en la simulación presentó una profundidad 12X y la muestra real 18X

b
a

figura 68 Se muestran dos regiones genómicas con baja profundidad . la imagen de la izquierda es el exón 1 del gen KCNQ1
mientras que la de la derecha es el exón 1 de APOB.

127
Resultados

Desarrollo de un flujo de trabajo para la implantación de la NGS


en el diagnóstico de cardiopatías congénitas

Preparación de la muestra

El método de preparación elegido fue SureselectXT paneles personalizados. El secuenciador elegido fue
Hiseq1500 de Illumina.
El protocolo de laboratorio se estableció en 5 días, (figura 69)de lunes a viernes, disponiendo del fin de
semana para llevar a cabo la secuenciación de forma completamente automática.

Figura 69 División de los


pasos del protocolo de
laboratorio en días, la
imagen ha sido
modificada del protocolo
de SureselectXT

128
Resultados

El día 1 se aisló el ADN, se cualificó y se procedió a la fragmentación del mismo en un covaris.

El día 2 se empezó la preparación de las librerías incluyendo los pasos de reparación de extremos , adicción
de la Adenina a cada extremo , la ligación de los adaptadores, la amplificación del genoma, medida de la
concentración y su liofilización y posterior resupensión en el volumen necesario.

El día 3 consistió en realizar la hibridación a 65ºC durante 24 horas.

El día 4 se realizaron los pasos de la post-hibridación , incluyendo la captura y la amplificación final de la


librería donde se le añadieron los índices identificativos de cada muestra.

El día 5 se hicieron los pooles equimoleculares y la secuenciación.

Secuenciación de la muestra

En este paso se trató de conseguir el mayor número de lecturas utilizables, deben de pasar los filtros
establecidos por el fabricante. Se hizo una calibración entre la concentración de entrada en el
secuenciador y el número de lecturas generado.

tabla 5 Relación entre concentración, la densidad de clusters generados y los millones de lecturas que pasan los filtros. En el
Hiseq1500.

Estos datos se generaron utilizando la química V1 para el Hiseq1500 en modo rápido. Para una correcta
evaluación de las muestras, fue fundamental una correcta medida de cada muestra individualmente,
después de varios intentos se consiguió que cada muestra en el pool se obtuviera un número de lecturas
similar, para lograr esto fue fundamental utilizar la medida por duplicado del qubit junto con la longitud
de los fragmentos generados por la tapestation o el bioanalizer.

La figura 71.a muestra una mala cuantificación de cada muestra como resultado de una carrera de
secuenciación en la que el pool de muestras no estaba equilibrado, muestra un coeficiente de variación
del 0.91, mientras que en la figura 71.b en la que se presenta un pool equimolecular el coeficiente de

129
Resultados

variación es de 0,11. La profundidad entre las muestras de la tabla de la derecha es mucho más
homogénea que entre las muestras de la tabla de la izquierda.

Para la secuenciación se utilizó el modo rápido y se cargaron 16 muestras por carril. Para garantizar una
cobertura máxima.

A B

Figura 70 Se muestran dos tablas generadas por el software del secuenciador con resultado del número de lecturas por
muestra

Alineamiento contra la secuencia de referencia.


Para el alineamiento de la muestra se utilizó el únicamente BWA y como referencia la versión del genoma
humano hg19.

Medida de contaminación de las muestras.


Una vez alineadas las muestras lo primero es revisar que no presentaron contaminación cruzada, para eso
se calculó la frecuencia alélica de los polimorfismos presentes en dbsnp132.

a b Figura 71 Se muestra la
frecuencia alélica de las snps
presentes en el diseño, la
imagen de la izquierda
muestra no contaminada, la
imagen de la derecha
contaminada

130
Resultados

En la figura 72 a se puede ver como existen 3 grupos de frecuencias alélicas , los homocigotos con la
referencia se representa como 0 , los homocigotos alternativos representados somo 100 y los
heterocigotos que ocupan mayormente el rango entre 35 y 60. En la b se puede ver que que el rango de
los heterocigotos es un amplio rango desde 10 a 90 %, lo que es indicativo de una contaminación de la
muestra.

Las muestras pasaron el sistema de trazabilidad utilizado mediante sondas taqman,

Genotipado mediante 4 variant calling

Se utilizaron los 4 variant callers conjuntamente para llamar a las variantes de las muestras.

Figura 72 Se representa el número total de variantes detectadas en una tanda de 16 muestras

La figura 73.1 muestra la distribución de todas las variantes detectadas, en azul las detectadas en los
cuatro variant calllers en común, en verde la suma de las detectadas solamente por cada uno de los
variant callers, en amarillo las detectadas por cualquier combinación de dos variant callers y que no
aparecieron en los demás, en rojo lo mismo para tres variant caller en común. La figura 73.2 muestra el

131
Resultados

ratio presentes en dbsnp/detectadas para cada uno de los cuatro variant caller y en común. La figura73.3
muestra el ratio Ts/Tv de las variantes detectadas por cada variant caller y las que presentan en común.
La figura 73.4 muestra los datos.

Estos resultados muestran cómo el 82,4% de las variantes son detectadas por los 4 variant callers, con un
ratio Ts/Tv de 2,60 estando presentes en dbsnp el 92.5%.

Para una mayor comprensión del funcionamiento de las indels, se han estudiado, las indels de 15 muestras
procedentes de varones a los que se le estudiaron las indels del cromosoma X.

Los resultados de muestran en la tabla 6.

tabla 6 Detección de Indels en varones en el cromosoma X

Samtools GATK-UG GATK-HC Snver


Totales 64 82 96 92
descritas 8 50 54 50
hetero 4 12 20 30

Para ver en más detalle la gran discordancia, se realizó una inspección manual de las variantes, se vio que
las anotaciones no eran correctas entre los distintos variant caller, pero la posición de inicio de cada de
cada variante tenía una coincidencia mayor. Los datos pusieron de manifiesto que Samtools es el que peor
detectó las indels, pero sin embargo mostro una gran sensibilidad al anotar su genotipo, dando la gran
mayoría como homocigotos, un dato que no presentó el GATK-HC, en este caso en particular muestra
valores cercanos al 50% en la detección de variantes descritas, sin embargo muchas de ellas son anotadas
como heterocigotos en lugar de homocigotos que sería lo correcto.

Anotación de las variantes

La anotación de las variantes se realizó con el software annovar.

132
Resultados

Figura 73 Resultados de la annotación de variantes, solo se muestras los primeros

Los resultados del annovar mostraron la anotación de la variantes procedentes del vcf, por un lado se
encuentran las coordenadas cromosómicas de la variante, su función (exonica, intronica) su función
(sinónima , no sinónima..) el gen al que pertenece, y el cambio que produce a nivel del aminoácido.

Se incorporaron a este fichero una serie de datos poblacionales de diferentes bases de datos como
1000G, ExAC, ESP6500 etc. También fueron incorporados bases de datos especificas de patogenicidad
como Clinvar y Cosmic, y por último se incluyeron los predictores de variantes , Sift , Polyphen y Mutation
taster.

Las variantes fueron filtradas siguiendo el algoritmo descrito en materiales y métodos

Detección de CNVs.

Para la puesta a punto de esta metodología se utilizaron dos muestras en las que habían sido reportadas
dos deleciones:

● GLA chrX:100654344-100657483
● RYR2 exon 3
Ambas variantes fueron detectadas previamente por MLPA en un laboratorio externo.

La muestra con la delección en GLA, El resultado mediante PEM Y SR fue una deleción que abarca las
posiciones chrX:100654997-100657178 Mientras que el resultado mediante DOC mostraba una deleción
en los exones 5 y 6. Los resultados muestran una una región no cubierta en heterocigosis de alrededor

133
Resultados

2100 pb , mientras que la media se encuentra a 210pb, lo que es indicativo de una reorganización
cromosómica (figura75.a). En la figura 75.b se puede ver como en la lectura, los nucleótidos del extremo
3' no coinciden con la referencia relizando un soft clip, sin embargo estas lecturas tienen una calidad de
60 de mapeado, este soft-clip nos da el punto exacto donde es la rotura. En la figura 75.c se muestra
otro soft-clip que marca el inicio del punto de rotura. Utilizando métodos basados en profundidad de
cobertura también se ha detectado (tabla7).

tabla 7 Se muestra los resultados de la llamada de CNV mediante profundidad de lectura para las dos muestras

Reads.e
CNV [Link] [Link] xpected [Link] [Link] Gen

chrX:100655235
Deletion 2 -100657139 1808 1239 0.685 GLAexon5

chrX:100655235
Deletion 2 -100657139 1808 1239 0.685 GLAexon6

chr1:237494128-
Deletion 1 237494336 563 311 0.552 RYR2exon3

En el caso de la delección de RYR2 exón 3, el análisis mediante PEM , únicamente da una lectura que cubre
el evento , lo cual no es suficiente para su correcta detección. Sin embargo, el análisis de las coberturas
normalizadas, da claramente que el exón 3 está delecionado, al mostrar una cobertura inferior a la de los
controles como se puede ver en la tabla 7 . La figura 76 muestra solamente una lectura con un tamaño
del inserto cercano a 1600 pb lo cual no es suficiente para su detección con fiabilidad mediante PEM. La
figura 48 muestra solamente una lectura con un tamaño del inserto cercano a 1600 pb lo cual no es
suficiente para su detección con fiabilidad, por otro lado, mediante la deficiencia en la cobertura mostrado
en el método DOC (tabla 7) y con los SNPs en heterocigosis (círculos) que se muestran en la imagen se
puede llegar a delimitar el evento, aunque no se obtengan las coordenadas concretas.

Estas variantes son muy pequeñas, menores de 3000 pb , pero esta metodología empleada también sirve
para cnv de mayor tamaño como es el caso de la figura 77, se puede observar una deleción en
heterocigosis de los últimos 32 exones del gen FBN1.

134
Resultados

B C

Figura 74. Alineamiento sobre GLA mostrando una delecion en heterocigosis

Figura 75. Se muestra el alineamiento de la muestra que presenta la delección en el exón 3 de la RYR2 , la flecha
marca la única lectura que soporta la deleción mediante PEM.

135
Resultados

Se obtuvieron las coordenadas del evento 15:48692459-48765158, 72699 bp y se vió que se introducía
en el espacio intergénico, esta estrategia PEM , con que una lectura del par se encuentre en la zona donde
se produce el evento es suficiente, ya que la otra quedará alineada donde le corresponda.

Los resultados mediante DOC también mostraron la delección del los últimos exones de FBN1

Figure SEQ Figure \* ARABIC 17 Imagen del alineamiento de una muesra con una delección en el exón 3 de RYR2 en

Figura 76 Se muestra una delecion en el gen FBN1 de los últimos 32 exones. Se puede ver que la distancia del pair end es mas
grande de los normal (líneas rojas)

Otro ejemplo fue el caso de una Duplicación. Mediante DOC se encontraron duplicados los exones 44-48
además existe un snp con unas unas proporciones de frecuencia alélica de 3:1 lo que ayuda al método de
DOC a que la predicción sea más sensible. Por otro lado, mediante el análisis PEM , se puede observar que
una duplicación en tandem, chr2:228165686-28172527; SVLEN=6841;CT=5to3;PE=8;MAPQ=60. El
alineamiento muestra lecturas en la misma orientación a la referencia, pero sentido contrario Puede
verse en figura 78.a muestra la distancia entre las lecturas, las flechas en azul representan la orientación
de las lecturas, están en sentidos opuestos lo que es indicativo de una duplicación en tándem. En la figura
78.b y 78.c se puede ver el soft-clip de las lecturas, la parte de las lecturas que presenta el soft-clip en
la 78.b alinean en la región mostrada en 78.c y viceversa.

136
Resultados

B c

Figura 77 Se muestra una duplicación de de los exones 44 a 48 en el gen COL4A3

Detección de inserciones

Para la detección del Polimorfismo ACE ID no es necesario realizar un ensamblaje de novo, simplemente
realizando un diseño de captura adecuado (regiones adyacentes al polimorfismo ) es suficiente para
detectar su presencia. Para ello se busca en esa región lecturas quiméricas, lecturas en las que una parte
de ella alinean correctamente, pero en la otra parte no alinean y se muestra un soft-clip

Figura 78 Se muestra una lectura quimérica en la que solamente alinea la región marcada en azul, la región marcada en roja no
alinea contra la referencia.

137
Resultados

Esta lectura es una quimera 36 bases alinean contra el gen y las primeras 65 no. Sólo han alineado 36
bases y el alineador realiza un soft-clip ,porque esa secuencia corresponde a una secuencia repetitiva Alu,
forzando a que las 65 bases anteriores se descarten por no tener referencia. Una manera fácil de ver si
esa inserción esta presente en heterocigosis o homocigosis mediante inspección visual en el IGV pudimos
ver si todas las lecturas que están alineadas sobre el aumento repentino de profundiad contiene el soft-
clip se trata de una inserción en homocigosis y si no todas los tienen son en heterocigosis.

Figura 79 Alineamiento de dos muestras con una inserción en el gen ACE, la muestra superior la presenta en los dos alelos, todas
las lecturas que alinean sobre la región presenta soft-clip. La muestra inferior, sola la mitad de las lecturas presenta soft-clip.

Deleción de gen completo SCN5A mediante genoma completo.

Tras el estudio de un paciente con diagnostico de síndrome de brugada, se le realizó el panel y no se


encontró ninguna mutación puntual, pero los estudios mediante profundidad normalizada detectaron una
deleción de todo el gen SCN5A, pero puesto que el siguiente gen en el diseño se encontraba muy lejos,
no se detectó el punto de rotura. Para esta detección se realizó el estudio del genoma completo y se
encontró exactamente el punto de rotura mediante el análisis de PEM se encontraron los puntos de
rotura.

Chr3:38221384-38859330; LEN=637946;CT=3to5;PE=3;MAPQ=60

138
Resultados

Involucrando a los genes OXSR1, SLC22A13, SLC22A14, XLYB, ACVR2B, EXOG, SCN5A y SCN10A. Solamente
3 lecturas soportaron la delección de una media de 15X en la región. La importancia de encontrar el punto
de rotura permitió estudiar a los familiares en una única reacción de secuenciación tipo Sanger.

Otro resultado del genoma completo fue ver como al aumentar el tamaño del ADN , los exones de MYH7
y MYH6 eran cubiertos sin el problema de mapeo como se puede ver en la figura 81

figura 80 Se muestran los alineamientos con una distancia superior a 500pb y como la mapabilidad mejora para la región
del exón 26 de MYH6 y el exón 27 de MYH7

Puesta a punto de la técnica de la PCR para la detección de los puntos de


rotura de un CNV.
Este análisis permitió detectar varias secuencias quiméricas no duplicadas que se localizan aguas arriba
de la deleción (figura 82A). La comparación de estas secuencias quiméricas con el genoma de referencia
utilizando la herramienta BLAT (UCSC Genome Browse) mostró que dichas secuencias incluían, cubriendo
ambos extremos, una aparente deleción de ~73,8 Kb (Figura 82B). Para confirmar que dicha deleción era
real, se diseñaron y sintetizaron oligonucleótidos a ambos extremos de la deleción. Una reacción de PCR
sobre el ADN de la muestra que presentaba la deleción produjo un amplicón de ~500 pb que no aparecía
en muestras control. Este amplicón se secuenció por medio de secuenciación Sanger (Figura 82C) y se
confirmó la presencia de una deleción con coordenadas. chr:48645275-48719058.

De este modo, el estudio de la posible presencia de la mutación en muestras de parientes del probando
queda reducida al análisis del amplicón obtenido a partir de los oligonucleótidos que flanquean la
delección.

139
Resultados

figura 81 Se muestra el resultado de la caracterización de una deleción de los últimos 8 exones del gen
FBN1

Del mismo modo al anterior se caracterizó una duplicación en tándem del gen DMD (83A). La comparación
de estas secuencias con el genoma de referencia utilizando la herramienta BLAT (UCSC Genome Browse)
sugirió que dichas secuencias abarcaban los extremos de una posible duplicación en tándem de ~32,4 Kb
que incluye los exones 46 y 47 de DMD (Figura 83 B). Para confirmar que dicha duplicación era real, se
diseñaron y sintetizaron oligonucleótidos a ambos extremos de la posible región duplicada. Una reacción
de PCR sobre el ADN de la muestra que presentaba la duplicación produjo un amplicón de ~500 pb que
no aparecía en muestras control. Este amplicón se secuenció por medio de secuenciación Sanger (Figura
83C) y se confirmó la presencia de una duplicación en tándem de la región cromosómica que corresponde
con las coordenadas chX:31920489-3195317.

De este modo, el estudio de la posible presencia de la mutación en muestras de parientes del probando
quedo reducida al análisis del amplicón obtenido a partir de los oligonucleótidos que flanquean el punto
de inserción de la duplicación.

140
Resultados

Figura 82. Se muestra el resultado de una caracterización del punto de rotura de una duplicación en DMD

Validación de la aplicabilidad de la NGS para el diagnóstico de


cardiopatías congénitas humanas.

Se realizaron 649 determinaciones mediante secuenciación sanger para confirmar los resultados de la
NGS.

219 variantes no fueron confirmadas mediante secuenciación de Sanger, presentaron una media de la
profundida de 15,5X y unos valores de qual inferiores a 50

430 fueron confirmadas mediante secuenciación de Sanger.

La Tabla con todas las confirmaciones puede verse en el anexo

Por otro lado se evaluaron 43 indels. resultando positiva su confirmación en 42 casos.

La sensibilidad total del método fue de 63% para las variantes posiblemente patogénicas.

141
Resultados

Realizando un filtrado de qual >50 los falsos positivos se redujeron hasta 18 lo que hizo aumentar la
sensibilidad de la técnica hasta 95.5%

De esas 18 variantes solamente 3 presentaba profundidades mayor a 10x. Aplicando este filtro, la
sensibilidad obtenida fue de 99,3%.

El estudio de los CNV mostró 13 variantes relacionadas con el fenotipo del paciente.

142
Discusión

Discusión

143
Discusión

Evaluar la implantación de la NGS para el diagnóstico de cardiopatías


congénitas humanas

Con la llegada de las nuevas tecnologías de secuenciación al diagnóstico clínico, ya no es suficiente con
conocer la patología de interés, hace falta tener en cuenta la parte tecnológica. Actualmente existen en
el mercado multitud de alternativas para llevar a cabo una secuenciación masiva con éxito. Sin embargo,
no todas pueden ofrecer los mismos resultados y cada estrategia tiene sus puntos fuertes y sus
debilidades (74) (75).

En la primera parte de la tesis se ha comparado dos estrategias de enriquecimiento, basadas en


amplicones (Haloplex) y en captura (Sureselect). A su vez, se compararon también dos tipos de
preparación de librerías para captura: una basada en fragmentación mecánica (XT) y otra en una
transposasa (QXT). Por último, se han utilizado diferentes secuenciadores para obtener los datos: Hiscan,
Hiseq, Miseq y Nextseq y así poder comparar los resultados obtenidos por cada plataforma.

El primer aspecto que se evalúo fue la cobertura y profundidad de las muestras, sobre la que existe gran
disparidad de criterios. En este sentido Bentley y colaboradores estimaron que a una profundidad entre
15X y 33X era suficiente para detectar variantes en homocigosis y heterocigosis respectivamente, sobre
un genoma humano completo (76).

En el trabajo publicado por Ajay y colaboradores en 2011 recomiendan 50X de profundidad (77). Al mismo
tiempo, Clack y colaboradores recomiendan una profundidad de 80X (78), mientras que otros
recomiendan profundidades entre 30X y 70X (79).

Por lo tanto, revisando la bibliografía vemos que no se ha llegado a un consenso claro en este punto. En
este estudio, se han clasificado las variantes detectadas por debajo de 10X como variantes asociadas a
una baja calidad y variantes de buena calidad cuando la profundidad asociada fue superior a 50X.

Cabe destacar que la evolución de los secuenciadores de Illuminna, permitió la obtención de cada vez un
mayor número de lecturas, empezando con el y continuando con otros modelos como el Hiscan, Hiseq,
Miseq o Nextseq.

Al ir aumentando el número de lecturas de cada muestra, las regiones cubiertas han ido aumentando, por
lo que se ha establecido una correlación positiva entre ambos parámetros.

144
Discusión

Es las pruebas realizadas con el modelo Hiseq, la práctica totalidad de las regiones exónicas estaban
cubiertas, llegando a coberturas totales en alguna de las muestras.

Los resultados mostraron la dificultad de tener una cobertura completa a lo largo de todo el panel
personalizado, independientemente del método de captura utilizado, o el secuenciador utilizado. Así, se
observó cómo con la preparación mediante Haloplex se obtuvieron unas medias de profundidad más
elevadas que las obtenidas con la tecnología de enriquecimiento Sureselect. No obstante,
sistemáticamente presentaba regiones sin cobertura, llegando éstas a ser de hasta un 3% del diseño. Por
otro lado, la tecnología de preparación de librerías Sureselect presentó un porcentaje menor de regiones
sin cubrir. Estos datos, coinciden con los descritos en el trabajo de Samorodnitsky (80), donde realizaron
una comparación entre los métodos de enriquecimiento basados en captura y los basados en amplicones,
encontrando que la profundidad es más uniforme en los primeros.

Por otra parte, hablando de la preparación de librerías mediante métodos enzimáticos basados en
transposasa, se encontró una mejora sistemática en comparación a la seguida por los métodos
tradicionales, ya que se combinan en una única reacción: la fragmentación, la reparación de los extremos
y la ligación de adaptadores (81). Esta metodología permite que se reduzca el tiempo de procesado en la
preparación de librerías. Otra de las ventajas de este protocolo, es que no requiere de un equipamiento
especial durante la preparación de la muestra como puede ser un sonicador, lo que lleva a una reducción
de costes durante todo el proceso. Por el contrario, este método es muy sensible a la cantidad y calidad
del ADN de partida. Se ha reportado que los métodos enzimáticos pueden presentar sesgo a la hora de
utilizar este tipo de fragmentación (82) (83). Probablemente ésta pueda ser la causa del sesgo encontrado
en el caso del gen TRDN, donde sistemáticamente aparecía un exón sin cubrir a lo largo de las 13 muestras
procesadas (figura 53). Este mismo resultado fue obtenido en los exomas facilitados por el fabricante.

Este tipo de errores había generado un sesgo en la detección de variantes en comparación con el
protocolo convencional no enzimático (SureselectXT), en el que aparecía una tasa más elevada de lo
normal en sustituciones G>A.

La revisión manual de esa región en el IGV detectó la presencia de dos polimorfismos: rs12198167 y
rs12198164; que estaban presentes en las muestras procesadas por la metodología XT haciendo bajar el
sesgo G>A y colocándolo en valores normales (figura 52), aumentando así la concordancia entre ambas
metodologías en lo referente a la de detección de variantes.

145
Discusión

Con los avances que se están llevando a cabo en los métodos de preparación de librerías mediante
transposasas, cada vez más empleadas (84),

es posible que pronto este sesgo sea corregido, tal y como se indica en el artículo publicado por Kia y
colaboradores donde han utilizado una mejora de la transposasa TN5 para secuenciar el genoma completo
(85).

En cuanto a la secuenciación de exomas, existen multitud de opciones en el mercado actual, pero casi dos
décadas después de la secuenciación del genoma todavía no existe un consenso en los genes que se
deberían incluir en este tipo de paneles. En este sentido, en un trabajo realizado con diferentes exomas
pertenecientes a diferentes proveedores, la longitud en megabases de cada uno es diferente, desde 45
Mb hasta 64 Mb (86).

En otro estudio, también evaluaron los exomas en función del contenido de diferentes bases de datos
como CCDS, Refseq o Ensembl (87), y otros incluso realizaron experimentos cambiando entre versiones
de exomas (78).

Un punto importante a tener en cuenta es la existencia de exones no cubiertos del exoma, como se puede
observar en la figura 55. Se han descrito ciertas mutaciones patogénicas en exones que no están cubiertos
por los exomas (88). Junto a estas regiones perdidas habría que añadir las mutaciones patogénicas
encontradas en regiones intrónicas profundas que no pueden ser estudiadas por los exomas. Por ejemplo,
en un trabajo detectaron este tipo de mutaciones en una familia con síndrome de Marfan, el resultado de
la mutación genera un nuevo donador de splicing que produce una inserción de 90 pb entre los exones
56 y 57 a nivel de cDNA, produciendo un codón de stop. Esta variante no podría ser detectada por los
exomas (89).

Los resultados presentados en este estudio, reflejan que la utilidad de nuestro panel personalizado es
superior a la del exoma, desde el punto de vista de la homogeneidad de cobertura y profundidad; tal y
como podemos ver en la figura 54.

A lo largo del gráfico, donde se muestran las profundidades, vemos que los 16 exomas presentan
alteraciones en la profundidad por toda la región, mientras que en nuestro panel personalizado estas
variaciones son mínimas. Estos datos son apoyados por los datos obtenidos en un estudio en 2017, en el
cual concluyen que los exomas presentan baja uniformidad local y global (90). Del mismo modo, en esta
publicación hacen referencia al problema de cobertura en el exón 1 del gen KCNQ1, que tal y como se

146
Discusión

muestra en la figura 55, no se encuentra totalmente cubierto en la preparación utilizando el diseño del
exoma pero si por el panel customizado.

En 2015, otro trabajo (91) realizó una combinación del exoma de Agilent y Haloplex para conseguir cubrir
las regiones no incluidas en el exoma.

La ausencia de cobertura en determinadas regiones puede influir en la aparición de falsos negativos. Así,
los paneles personalizados utilizados en este trabajo mediante la tecnología Sureselect presentaron un
coeficiente de variación inferior a lo largo de los más de 3700 exones de los que están formados. Y las
profundidades fueron más altas en comparación con los datos obtenidos al procesar las muestras con un
diseño tipo exoma.

En el trabajo publicado por Manase et al. (92) donde estudiaron la profundidad y cobertura de 50 genes
relevantes en cardiología, encontraron que solamente existía una cobertura y profundidad adecuada
(>30x) en el 64% de los 50 genes que estudiaron.

Estos datos nos sugieren que el exoma debe de utilizarse solamente después de realizar un panel con
resultado negativo para evitar falsos negativos.

En cuanto a la detección de variantes, los datos difieren según el método de captura que ha sido
empleado, como ocurre en un estudio de 2015 donde se comparó Haloplex y Sureselect junto con otras
metodologías, obteniendo valores de discrepancia que van desde el 29% utilizando el variant caller
Samtools, hasta el 14% utilizando el GATK en un total de 4 muestras pareadas (93). Aparecieron también
discrepancias según la metodología empleada cercanas al 12% en el caso de Haloplex contra Sureselect.
También muestra que utilizando Sureselect se detectan más variantes que utilizando Haloplex.

En 2015, el trabajo de Philippe y colaboradores (94) también comparó Sureselect contra Haloplex y se
detectó hasta un 20% menos de variantes que la combinación de otros métodos de enriquecimiento entre
los que se encuentra Sureselect.

Ambos resultados son similares a los que se han encontrado en este trabajo donde hemos encontrado un
12% de discrepancias a nivel de variantes detectadas utilizando Haloplex y Sureselect (figura 40), aunque
debido a que ninguna de estas variantes ha sido clasificada como patogénica por el algoritmo de filtrado
de variantes, no se han realizado comprobaciones por secuenciación Sanger para ninguna de las variantes
incluidas entre las discrepancias. Lo que sugiere que no todas las estrategias de paneles customizados
presentan la misma sensibilidad

147
Discusión

La comparación de los resultados obtenidos según el método de preparación de librerías; XT o QXT; y


mismo sistema de enriquecimiento Sureselect establecieron una concordancia superior al 98%. Estos
resultados son similares a los mostrados por Shigemizu en una comparación entre muestras de dos
exomas preparadas en paralelo mediante XT y QXT (86), donde las diferencias fueron descritas en regiones
de baja profundidad y por la proximidad a regiones de baja complejidad como se muestra en figuras 50 y
51 .Lo que sugiere que los métodos basados en captura presenta una mayor reproducibilidad.

En relación a la reproducibilidad de datos obtenidos por técnicas de secuenciación masiva, se procedió


mediante una única preparación de 16 muestras a su secuenciación en paralelo dentro del mismo
secuenciador y entre distintos secuenciadores. Para ello se utilizaron los secuenciadores Hiscan y Hiseq.

Se encontró que el error de secuenciación dependía del valor de qual asociado, a mayor qual menor error
de secuenciación (figura 56).

En el caso del Hiscan se observaron que los errores siguen una correlación directa entre ambos duplicados,
existen unas posiciones ubicadas entre las bases 20 a 40 y 60 a 80, en las que la acumulación de errores
fue más elevada.

El Hiseq, no presentó una correlación directa entre ambas líneas del mismo cartucho de secuenciación. La
acumulación de los errores de secuenciación mostró un patrón aleatorio pero dependiente del qual
asociado.

La forma en la que fue calculada la tasa de error fue diferente a la que utiliza el software del fabricante
de los secuenciadores Illumina, basado en el alineamiento de las lecturas del fago phiX174 contra su
referencia. Extrapolando el error de una carrera en un pequeño número de lecturas, normalmente inferior
al 1% del total de lecturas. Este método reconoce las lecturas que alinean contra una referencia de 5386
pb, en donde el homopolimero más largo es de solo 7 T, mientras que en esta tesis se han utilizado las
lecturas alineándolas contra el genoma humano, contabilizando de esta manera el número de bases
diferentes a la referencia y asumiendo que, al utilizar las mismas muestras, tanto los errores producidos
mediante las PCRs, como las variantes propias de las muestras son las mismas.

La tasa de error fue inferior en el Hiscan que en el Hiseq. Sin embargo, la cantidad limitada de lecturas
que suministro el Hiscan no garantizó una correcta cobertura para el panel.

Estos datos correspondientes a los errores no coinciden con los reportados en la literatura, donde el Hiseq
siempre presenta una tasa de error menor (95), (96). Sin embargo, una posible explicación puede ser la

148
Discusión

influencia en la diferente tasa de error del Hiseq de la cantidad de lecturas generadas, el número de ellas
que alinean fuera de la región de interés es mayor. Dichas lecturas, suelen estar distribuidas por todo el
genoma, por lo que lecturas que alinean en regiones que no son de estudio, pueden tener efectos
negativos en estas estadísticas debido a que el genoma está lleno de regiones repetitivas y de baja
complejidad, donde una lectura alineada puede generar un alineamiento con una puntuación más baja.
Este hecho es debido a un incremento en el número de mismatch superior al que presentan las regiones
de alta complejidad. Al generar menos lecturas, estas estarán centradas principalmente en regiones de
alta complejidad, reduciendo así los porcentajes de errores del Hiscan. Son necesarios estudios
adicionales para poder confirmar este hecho.

Otra posibilidad es que esta ronda de secuenciación en particular, no fuese satisfactoria en términos de
calidad, (alta generación de clusteres). Este grupo de muestras fueron enviadas a empresas de
secuenciación externas, y no fue posible obtener los datos crudos del secuenciador.

El estudio de las variantes de estas muestras por duplicado mostró una discrepancia cercana al 5,73 %
para un total de más de 33000 variantes, la discrepancia fue atribuida a la existencia de un 24,5 % de
lecturas diferentes entre los duplicados de la secuenciación del Hiseq. Al unirlos en un único fichero y
volver a analizarlos, esas variantes desaparecieron al aumentar la profundidad. Por otra parte, se
generaron otras nuevas que no habían sido detectadas con anterioridad, todas ellas en regiones intrónicas
de baja complejidad.

En las comparaciones realizadas entre los sistemas de illumina de 4 canales (Miseq y Hiseq) y el de 2
canales (Nextseq), éste siempre tiene una tasa mayor de detección de variantes, incluso una vez aplicado
un filtro de profundidad restrictivo para zonas con profundidad menor a 10X. Centrándonos en las 21
muestras que se secuenciaron en paralelo entre estos dos secuenciadores, el porcentaje Ts/Tv es del 0,53
% sugiriendo que las variantes son errores. Se ha descrito que la tasa de error del Nextseq es del 1%,
mientras que la del Hiseq y Miseq son del 0.1% (97). Apoyando el uso de sistemas más robustos como el
Hiseq.

Para paliar estas diferencias entre los métodos de secuenciación y poder diferenciar una variante real de
un error hace falta un conocimiento tecnológico de las técnicas utilizadas. Así pues, se han descrito
multitud de errores en los secuenciadores de Illumina, siendo uno de los más importantes las secuencias
que producen errores sistemáticos, como son las repeticiones invertidas y las secuencias GGC, como se

149
Discusión

puede ver en la figuras 46 y 47. En la publicación de Nakamura et al. (98) especulan que este error es
favorecido el phasing, inhibiendo la elongación de la bases durante el proceso de secuenciación. Este tipo
de errores sistemáticos sólo ocurre en una de las cadenas del ADN que se está secuenciando, en la cadena
complementaria. La secuencia es CCG, pero además como está siendo leído en otra orientación, el
resultado sería GCC y no está descrito como un error sistemático, lo que supone que los errores
sistemáticos son fácilmente identificables porque solamente se presenta en una orientación de la cadena
de ADN

Estos errores de sesgo de cadena son más difíciles de paliar cuando el enriquecimiento de las regiones
está basado en amplicones (80). Aunque este tipo de error GGC*G es el error sistemático más descrito en
la literatura (99) y (95) en donde describen que la tasa de error después de una secuencia GG, es más alta
que en cualquiera otra combinación de nucleótidos. También se han descrito otros errores sistemáticos
como el GGT (100) y otros que aparecen publicados en el trabajo de Allhoff et al. en 2013, donde se
describe una lista de errores no limitados a 3 pares de bases.

Es característico en la secuenciación Illumina, la acumulación de errores al final de las lecturas atribuidas


al phasing y pre-phasing durante la carrera de secuenciación. Tal como se describe en el trabajo de ChenF
et al., las propiedades químicas y estructurales asociadas a los ddNTPs contribuyen a estos efectos.
Después de la hendidura del grupo enlazador que lleva el fluoróforo, moléculas suplementarias actúan
sobre las purinas y pirimidinas que permanecen y no son eliminadas eficientemente. Este vestigio de
moléculas puede afectar a la acción de la ADN polimerasa y limitar la longitud de la lectura, perturbando
el sustrato para el reconocimiento y extensión de la molécula de ADN (101). Futuros desarrollos como los
Lightning terminators, en donde el terminador reversible no necesita de enzimas para ser desprendido
prometen hacer las secuencias más largas con menor tasa de error (102).

En relación a los dos tipos de errores (sistemáticos y aleatorios), se observa que tienen un efecto más
acusado en las regiones de baja profundidad. De este modo, mientras que los errores aleatorios pueden
ser solucionados aumentado la profundidad, los errores sistemáticos necesitan de una corrección más
elaborada como puede ser la adición de un bajo porcentaje de secuencias sintéticas a la secuenciación
para poder realizar un recalibrado de los errores de secuenciación (103), así como complicados análisis
informáticos basados en machine learning (104), o finalmente, estrategias de filtrado de datos crudos
(105).

150
Discusión

Otros métodos de reducción de errores de secuenciación se asocian con la preparación de la muestra,


como son los UIM (identificadores de molécula única), especialmente diseñados para la detección de
mutaciones en baja frecuencia alélica (106), o los basados en Rolling cyrcle PCR con los que han llegado a
bajar el error de secuenciación de un Miseq hasta 7.6 × 10−6 (107), teniendo este sistema menores costes
que los UIM.

También como método para la corrección de errores, se puede emplear el Duplex sequencing, que
consiste en añadir un índice a un adaptador que se une a las dos cadenas del ADN, y las variantes
solamente son llamadas si aparecen en las dos cadenas del ADN de la misma molécula. (108) (109).

Se encontró que la mayoría de los errores sistemáticos fueron encontrados después de realizar una
revisión manual en el IGV. Este efecto ocurre en las primeras bases de cada región de interés, donde
solamente se presentaban coberturas por un único tipo de lecturas alineadas contra la cadena positiva o
la negativa. Para solventar este error se añadieron 100 pb a cada lado de nuestras regiones de interés,
haciendo de esta manera el diseño más grande y aumentando el número de lecturas alineadas en ambas
cadenas cuando la secuencia se acerca al nivel del exón.

La generación de una muestra in silico permitió la puesta a punto del análisis bioinformático, la simulación
mediante pIRS tiene en cuenta el sesgo producido en plataformas Illumina por la influencia del porcentaje
de GC y el error del secuenciador producido en cada lectura (110). La opción de generar una muestra
sintética con un comportamiento similar a una muestra real, posibilitó la construcción de un flujo de
trabajo para la correcta detección de las variantes generadas, además de proporcionar información sobre
el comportamiento de las herramientas bioinformáticas utilizadas para la construcción del pipeline con el
aumento de la profundidad generada.

Los resultados muestran que cada herramienta tiene una sensibilidad diferente según la profundidad a la
que se predice una variante. Así pues, a una profundidad media de 50X la mayor sensibilidad la
proporcionan el alineador BWA y el variant caller GATK-UG con una sensibilidad superior al 99 %; dejando
el menor número de variantes sin detectar en comparación con las otras 7 combinaciones. Sin embargo,
la tasa más baja de falso positivos la presentaba el GATK-HC sin importar el alineador utilizado.

151
Discusión

Podemos decir que la predicción de las variantes se ve influenciada por el algoritmo utilizado en el
alineamiento. Se observa al utilizar el mismo variant caller sobre cada uno de los dos alineadores
utilizados.

Aunque existen múltiples formas de comparar la sensibilidad de los algoritmos de alineamiento: basados
en porcentaje de lecturas alineadas; medición de lecturas alineadas como únicas frente a lecturas
alineadas con múltiples localizaciones; tiempo de computación y memoria empleada (48) (111) (112); en
este trabajo la evaluación se ha realizado mediante la detección de variantes conocidas y el tiempo de
computación necesario para realizar el alineamiento. En estos términos, el uso del algoritmo BWA supera
al Stampy en un total de 11 casos contra 4, en los que Stampy obtiene mayor sensibilidad. Stampy
presenta datos de sensibilidad más baja en la simulación a 1000X que en la de 400X, lo cual parece una
limitación para trabajar a altas profundidades.

En cuanto a los variant callers utilizados, la mayor sensibilidad se produce con el GATK-HC con variaciones
de sensibilidad mínimas entre los alineadores utilizados, probablemente debido a su característica de
realizar un alineamiento de novo alrededor de cada variante para ser llamada, por lo que los efectos de
los alineadores tienen menos importancia. GATK-HC es el único que consigue tener una sensibilidad del
100% cuando se llega a los 1000x de media, aunque a bajas profundidades es el GATK-UG el que presenta
una mayor sensibilidad.

Solamente se han detectado todas las variantes en las combinaciones de algoritmos a una profundidad
de 1000X, en profundidades inferiores no se han detectado todas las variantes ni teniendo en cuenta
todas las detectadas individualmente por cada combinación de alineadores y variant callers. Este hecho
junto con las variantes que tenían alta profundidad y no fueron detectadas, sugiere que los programas
utilizados para tal fin comenten errores y se puede requerir la inclusión de un quinto método de detección
de variantes basado únicamente en el número de ocasiones que aparece esa variante en el total de las
lecturas para ese locus. Esta estrategia, podría producir un sinfín de falsos positivos, pero es necesario
para eliminar los falsos negativos que pueden pasar inadvertidos por la baja profundidad, tal y como se
sugiere en varias publicaciones (113).

La simulación in silico de una muestra tiene la ventaja de conocer de una manera rápida la mapabilidad
que presenta cada región simulada. Regiones con una mapabilidad de 0 serían indicativas de
alineamientos múltiples, ya que gracias a la NGS, cada vez se están conociendo nuevos genes implicados
en las enfermedades humanas y los diseños de las regiones a estudiar cambian constantemente. Se

152
Discusión

propone esta simulación para tratar de conocer de una manera fácil y rápida el comportamiento de las
futuras regiones a estudiar antes de ordenar un nuevo diseño de sondas de captura. Ya que es capaz de
proporcionar el comportamiento de las regiones a estudiar.

Actualmente, existen herramientas que ayudan a conocer la complejidad del genoma y se encuentran
disponibles dentro del visor genómico de la UCSC, como son Segmental dups, self chain, simple repeats
entre otras. También están disponibles las herramientas típicas de mapabilidad como Duke Uniqueness
20 pb y 35 pb (114), pero la principal ventaja de la aproximación mostrada en este trabajo es que podemos
utilizar el mismo algoritmo de alineamiento que se va a utilizar para alinear las secuencias crudas.

Para la realización de estas predicciones que se muestran en el visor genómico se utilizaron diferentes
herramientas, los cálculos de la mapabilidad ya están realizados y no existe la posibilidad de incluir nuevos
haplotipos alternativos o nuevas versiones del genoma. Sin embargo, con esta aproximación es posible
tener estos resultados de cualquier genoma o haplotipo nuevo en un par de horas. Sólo es necesario
disponer de la secuencia Fasta contra la que se va a realizar el alineamiento. Mediante esta simulación
hemos descartado varios genes que se habían propuesto para el panel personalizado como LPA, debido a
que no presentaban valores óptimos de mapabilidad.

Conociendo la relación directa que existe entre la parte bioinformática y la parte experimental, se puede
llegar a modificar el protocolo para conseguir que regiones sin mapabilidad puedan pasar a tener una
mapabilidad superior. El tamaño de los fragmentos de la librería generada tiene una relación directa con
este paso (115), de esta manera, modificando la primera parte del protocolo, aumentando el tamaño
del fragmento medio generado de 200 pb a 800 pb se puede ver como la mapabilidad aumenta en
regiones que antes presentaban valores de 0, como es el caso del Exon 27 de MYH7, en el que ahora
puede apreciarse como ha mejorado este parámetro (figuras 64 y 81).

Aunque la simulación de las lecturas no es capaz de predecir la profundidad en cada región, si se han
encontrado zonas en las que la profundidad es inferior a la media, posiblemente relacionado con el
porcentaje en GC que es un factor que el programa pIRS tiene en cuenta, como muestra la figura 69. Este
hecho ha servido para reforzar ciertas regiones en el proceso del diseño de sondas, aumentando el
número de éstas en esas regiones.

153
Discusión

Desarrollo de un flujo de trabajo para la implantación de la NGS en el


diagnóstico de cardiopatías congénitas

Una vez evaluadas las distintas estrategias de sistemas de enriquecimiento, preparación de librerías, y
sistemas de secuenciación, se optó por elegir como mejor método, el sistema SureselectXT. En cuanto al
secuenciador, se optó por un Hiseq 1500, por presentar éste el mayor número de lecturas posibles con
un tiempo de secuenciación de 24 horas en formato 2x100 pb.

Durante el desarrollo de esta tesis, se detectaron problemas en el seguimiento de las muestras durante
todo el proceso: extracción, cuantificación, fragmentación del ADN, preparación de las librerías,
hibridación y amplificación. En todos estos pasos que se realizan durante los primeros cuatro días de
preparación de la muestra, hasta que se le añade un índice que la hace identificable, ocurren multitud de
pasos de laboratorio donde se pueden cometer errores, ya sea contaminación por mezclado de muestras
o por un pipeteado incorrecto, no existiendo un protocolo totalmente automatizado, requiriéndose
siempre de la intervención humana.

En muchos estudios publicados solamente se menciona la confirmación mediante la técnica de


secuenciación Sanger para las mutaciones patogénicas y regiones de baja profundidad.

Existe poca literatura sobre cómo introducir un control en los primeros pasos después de la etapa de la
extracción del ADN para utilizarlo como identificador. En el presente estudio, para este propósito se
realizó una determinación mediante sondas Taqman que permitían genotipar 8 posiciones. Estas
posiciones correspondían a polimorfismos poblacionales incluidos en el diseño, en los que cada muestra
presentaba una combinación única. Esto se realizó con el objetivo de hacer un seguimiento de la muestra
desde el principio de su procesamiento hasta la obtención de los resultados de secuenciación, y así poder
comprobar que cada muestra presenta los mismos polimorfismos.

Una vez que cada muestra queda identificada correctamente durante todo el proceso, existen diferentes
maneras de realizar este control de seguridad sobre la muestra que dependen de los equipos disponibles
en cada laboratorio. En este sentido, últimamente se están incluyendo este control en las guías de la NGS
en el diagnóstico clínico (116, 117), a así se garantiza la identidad de cada muestra. Es importante que
este mecanismo se realice en una única reacción, para garantizar unos buenos resultados y no cometer
errores en el momento de realizar el primer genotipado.

154
Discusión

Existen nuevos métodos de preparación de librerías en los que el identificador de cada muestra es
utilizado durante la primera parte del protocolo, reduciendo de esta manera el tiempo de exposición a
posibles errores humanos. Por ejemplo, el protocolo utilizado para realizar el genoma completo está
basado en este principio. Otras casas comerciales han apostado por esta estrategia. Sin embargo, uno de
los problemas es que el multiplexado está limitado a un número pequeño de muestras, puesto que las
combinaciones de los oligonucleótidos que se utilizan para evitar que los fragmentos se unan entre sí
durante la hibridación (blockers), son reducidas.

La calidad del ADN en términos de su fragmentación (118), (119) y el descenso en la profundidad de


cobertura (120) pueden resultar en problemas a la hora de la llamada de las variantes. Por ello, resulta
fundamental una buena cualificación del material genético de partida En esta tesis se emplearon por esa
razón, tres métodos de cualificación del ADN: espectrofotometría, electroforesis y fluorometría, teniendo
especial interés para la detección de CNV basado en profundidad de cobertura. El principal objetivo fue
que todas las muestras presentaran una calidad similar en el primer paso del protocolo a seguir.

De igual modo, al final de la preparación de las librerías es necesaria una correcta cuantificación que
permita la utilización de cantidades equimolares para cada muestra, lo cual garantiza un número similar
de lecturas. En este aspecto, aunque la única manera de conocer si las muestras están multiplexadas en
cantidades equimoleculares se basa en la realización de una carrera preparatoria, esta aproximación
aumentaría los costes considerablemente.

Es por ello, que nuestra aproximación basada en electroforesis capilar y fluorometría, ha dado muy
buenos resultados a la hora de secuenciar las muestras, tal y como se puede observar en la figura 71 del
apartado de resultados, en los que aparecen 16 muestras en las que un porcentaje de lecturas asociado a
cada muestra presenta un alto coeficiente de variación (0,91), lo que hace que en algunas muestras no se
obtengan el número mínimo de lecturas para garantizar una buena cobertura. Una vez que se ha
optimizado el protocolo y se han utilizado diversos métodos de cuantificación los resultados muestran
una menor variación (CV=0.11) y las muestras presentan una cobertura y profundidad homogénea entre
ellas. Todo esto se realizó para conseguir una correcta secuenciación sobre todas las muestras, y así
conseguir que la mayoría de las regiones queden cubiertas por un suficiente número de lecturas.

A su vez, para conseguir este mayor número de lecturas aprovechables generadas en el secuenciador,
observamos que el secuenciador empleado producía unos resultados óptimos a una concentración final
de 12 pM, obteniéndose una densidad superior a 1100 clústeres tabla 5, la recomendación del fabricante

155
Discusión

se sitúa ente 850-1000 clusteres. Por otro lado, el fabricante de los reactivos de preparación de librerías
recomienda una carga de entre 6 y 8 pM, optimizando este parámetro se pueden abaratar los costes de
secuenciación, generando más lecturas. Posiblemente este aumento en el número de lecturas viene
avalado por el tamaño de la librería generada, que incluyendo los adaptadores es inferior 500 pb. Este
tamaño es el que considera Illumina como el tamaño recomendado para cada librería y es el tamaño que
tiene el ADN control de Illumina Phix. Se ha descrito que cada tamaño de librería necesita una correcta
cantidad para la carga (121) en el que hacen una comparación entre tamaños de librería típicos de 400 pb
contra tamaños de 800 pb. En este último tamaño, la carga recomendada es de 18-19 pM. Se siguieron
estas recomendaciones para cargar las muestras para la secuenciación del genoma completo.

Se detectó en la simulación, que no era posible identificar todas las variantes generadas aleatoriamente.
A partir de este punto se decidió emplear los 4 variant callers como rutina en el pipeline de análisis, junto
con el alineador BWA. Cuando se realizó la secuenciación de las muestras por duplicado, se observó un
alto porcentaje de coincidencias entre las variantes detectadas, sin embargo, existían discrepancias.

Las muestras por duplicado presentaban una excelente correlación de profundidades entre ellas, las
variantes no dependían de las profundidades generadas ya que éstas eran adecuadas. Tal y como se
detalla en el apartado de resultados, existía una diferencia del 24.5 % entre las lecturas generadas entre
los duplicados. Al incluir todos los duplicados en una única muestra, y llamar un bajo porcentaje de
variantes nuevas, podemos pensar que la profundidad nunca es suficiente y siempre aparece el problema
de los falsos negativos que normalmente están asociados a una baja profundidad de cobertura, pero
también existe este problema en regiones de alta profundidad que presentan baja complejidad.

Otros autores han encontrado estos efectos de las discrepancias entre los duplicados de una muestra, por
ejemplo Yuan Qi et al.(122) que van desde el 52.7% hasta 75%, en el que la concordancia total es alrededor
del 99.99%, teniendo en cuenta las regiones que no tienen variantes. En el trabajo publicado por Cherukuri
et al. (123) en el que hacen triplicados de exomas, se encuentran con solo 65 diferencias entre los
triplicados, utilizado sofisticados filtros para eliminar falsos positivos.

Siendo conscientes de que la aproximación utilizada en este trabajo se aleja de las guías de buenas
prácticas en detección de variantes en NGS, mediante el uso de una serie de filtros; en esta tesis se ha
preferido identificar a las variantes que se escapan de esas reglas y así poder observar el efecto que
pudieran producir sobre la proteína. Este protocolo, permite comprobar si existe alguna referencia
bibliográfica o caso clínico que reporte la misma variante y de este modo, evitar que se pierda en alguno

156
Discusión

de los filtrados estándar. El objetivo final, es proporcionar la información veraz y más concreta posible al
especialista clínico encargado de realizar el diagnóstico. El esquema de filtrado de variantes empleado
puede verse en la figura 36

La menor discrepancia entre los datos procedentes del análisis de las muestras por duplicado aparece
cuando se emplea el variant caller GATK-UG, el cual obtuvo los mejores resultados compartiendo este
hecho con la publicación de Mark A DePristo (53).

El porcentaje de variantes identificado en la base de datos de dbSNP es empleado como indicador de los
falsos positivos que comete el variant caller. En el presente trabajo se ha empleado dbSNP132. Es
necesario entender que la tasa de detección presente en dbSNP, no es una forma absoluta de medir qué
algoritmo es el mejor, pero los altos porcentajes encontrados en la combinación de los 4 variant callers,
sugieren una tasa de error menor en la detección de falsos positivos. Las bajas tasas encontradas en los
diferentes variant callers por separado sugieren que la tasa de falsos positivos es mayor.

Al observar que el 92% de las variantes detectadas por la combinación de los 4 variant callers estaban
descritos en dbSNP132, se sugiere que la sensibilidad de esta combinación es más alta que la de cualquiera
de ellos por separado. Estos datos son comparables con los obtenidos por Qi Liu y colaboradores en 2012,
en los que obtenía una porcentaje de 77% de variantes presentes en dbSNP129 cuando analizaba exomas
(124). Esta discrepancia entre los programas de detección de variantes coincide con los datos que
aparecen en la literatura consultada y en particular con los mostrados por Jason O´Rove et al. en los que
comparaba distintos pipelines de análisis con diferentes programas obteniendo distintos resultados (125),
a su vez coinciden con el trabajo publicado por Hwang et al. (59) y Cornish et al. (126).

Las variantes que fueron identificadas entre cualquiera de las transiciones (cambio de purina por purina
o entre pirimidinas) o transversiones (cambio de una purina por una pirimidina), la proporción de
transiciones frente a las transversiones fue particularmente beneficiosa para obtener una mayor
sensibilidad en la detección de SNP.

En un genoma humano completo esta proporción TS/TV suele presentar valores en torno al 2.1, mientras
que en las regiones del exoma suele ser cercano a 3,5. Valores altos de TS/TV generalmente indican alta
sensibilidad (124), cuando se detectan variantes con una proporción cercana a 0,5 suelen ser sustituciones
aleatorias y es indicativo de una baja sensibilidad en las variantes detectadas. Nuestros datos presentan
similitudes con estas asunciones.

157
Discusión

Aunque la principal área de estudio se ha centrado en la detección de SNPs, también los CNV y las
pequeñas Indels producen un efecto biológicamente relevante en la variación genética (127) . Recientes
estimaciones del proyecto 1000 genomas sugieren que existe una proporción 10:1 de SNP frente a las
indels en el genoma humano. Una detección correcta de las Indels podría ser un componente crucial para
entender la relevancia clínica de las variantes genéticas. A diferencia de los SNP, solo unas pocas
herramientas para detectar indels han sido desarrolladas por lo que las implicaciones de las indels en la
práctica clínica se están viendo retrasadas.

La detección de indels es relativamente imprecisa. Así pues, la posición de la indel con respecto a la
referencia es en muchos casos ambigua pudiendo estar representada en muchas localizaciones. En las
bases de datos usadas comúnmente como dbSNPs se reporta la indel detectada con una cierta imprecisión
(128). El típico ejemplo lo encontramos cuando una indel es identificada por el programa samtools como
una variante TAAAA:TAAA (referencia contra alternativo), en una posición concreta mientras que el GATK
la nombra como una indel TA:A, donde encontramos deleción de la T. En este caso, esa variante si está
presente en la dbSNP con un rs asignado, por lo que hay que tener un especial cuidado a la hora de
detectar este tipo de variantes y su anotación. Puede ayudar a esta labor, una inspección visual en el IGV
de las indels. Este hecho se discute en el artículo de Jason O´Rove et al. (125) en el que trata de la difícil
estandarización en la detección de indels y su comparación entre distintos pipelines. Los datos mostrados
en esos estudios coinciden con los presentados en esta tesis, donde se muestran las dificultades para
identificar a una indel como homocigota cuando estamos comparando regiones del cromosoma X en
varones sin afectaciones estructurales conocidas.

En cuanto a la detección de CNVs mediante NGS, la primera aproximación siempre debe de ser basada en
los métodos basados en la profundidad de cobertura, para posteriormente emplear otros métodos.
Aunque el porcentaje de CNVs clínicamente relevantes en pacientes afectados de cardiomiopatías es muy
bajo, menos del 1% (129) y en los casos de las canalopatías, del 2% (130) hasta el 11% (131), todavía se
puede incrementar este porcentaje con la llegada de técnicas de NGS, sobre todo centrándose en
pequeñas deleciones o duplicaciones del tamaño de un exón o de varios exones. Durante la realización de
esta tesis se han detectado distintos CNVs, lo que hace suponer que en los próximos años aumente el
porcentaje de CNVs implicados en enfermedades cardiovasculares. En este sentido, en el Sindrome de
Marfan, la tasa de CNV es más alta. En el trabajo publicado por Blyth et al. (132) han reportado dos
deleciones, la primera de un único exón y la segunda de 37 exones, múltiples autores han reportado

158
Discusión

distintos CNVs (133),(134) resultados similares a los nuestros utilizando diferentes técnicas de biología
molecular.

Por otra parte, la posibilidad de añadir sondas de captura en cualquier región del genoma mediante el uso
de paneles personalizados, dota de alta sensibilidad a la técnica, dejando el reto para la parte
bioinformática, donde cada día aparecen nuevas publicaciones. Del mismo modo, son cada vez más los
programas para detectar CNVs (135).

Aunque se ha descrito múltiples aproximaciones para la detección de CNV procedentes de NGS, todavía
existen dificultades para su detección, especialmente si nos centramos solamente en las regiones exónicas
donde el principal método de detección es la profundidad de cobertura, lo que incrementa la tasa de
falsos negativos o falsos positivos (136). En relación a este hecho, en este estudio se observó que cuanto
más pequeño es el CNV, más difícil es su detección.

En esta tesis el diseño personalizado en ocasiones era capaz de cubrir todo el gen, como es el caso del gen
FBN1, lo que hace detectable los puntos de rotura a nivel de base tal y como fue descrito anteriormente
en otra publicación (137), aunque no siempre se puede realizar este tipo de diseños debido a la existencia
de regiones repetitivas. Como ejemplo, se podría citar la muestra control del gen RYR2, en el que
solamente existía una lectura cubriendo una deleción en ese gen. El punto de rotura se sitúa entre dos
regiones repetitivas de la familia génica Alu, y en el momento del diseño, no se consideró la inclusión de
sondas contra zonas repetitivas ya que podían generar un alto off target.

Para la confirmación de este tipo de variantes se desarrolló una técnica basada en la PCR y posterior
secuenciación mediante NGS. Esta técnica permitirá abaratar los costes en la caracterización de los puntos
de rotura. Por ejemplo, para la caracterización de la deleción de gen SCN5A, se utilizó un genoma
completo. Aunque los recientes avances en las técnicas de secuenciación que emplean las plataformas
HiseqX o Novaseq de Illumina hacen posible que los precios se reduzcan cada vez más, todavía resulta
difícil secuenciar un genoma humano por debajo de los mil euros. Otro punto importante, tal y como ha
sido documentado, es que existen pocas evidencias de los efectos patogénicos de los CNVs en el campo
de la cardiología, por lo que un estudio de cosegregación de la variante en los familiares puede elucidar
la importancia sobre la patogenicidad de la misma.

En términos de coste resulta difícil la realización de una técnica tan costosa como es actualmente un
genoma completo o la re-secuenciación mediante el mismo panel personalizado a los familiares.

159
Discusión

Mediante la estrategia presentada en este trabajo, es posible confirmar CNV, sin necesidad de realizar los
estudios anteriormente mencionados. En este sentido y como podemos observar en la figura 83C, se
verifica la existencia de una duplicación en el gen DMD, correspondiente a un fragmento de unos 500 pb,
que posteriormente se secuenció mediante Sanger. Sin duda una de las ventajas de esta técnica es que,
en el caso de las duplicaciones se puede conocer la orientación y localización del reordenamiento,
pudiendo distinguir duplicaciones en tándem de ganancias de material genético.

Una revisión manual en el IGV del total de variantes detectada puede ayudar a eliminar falsos negativos
favoreciendo falsos positivos que siempre se generan pero que en caso de ser potencialmente
patogénicos pueden confirmarse por Sanger.

Validación de la aplicabilidad de la NGS para el diagnóstico de


cardiopatías congénitas humanas

En cuanto a la validación de la aplicabilidad de la NGS para un diagnóstico clínico, se obtuvo una


sensibilidad superior al 99% en cuanto a su validación mediante la secuenciación Sanger. Nuestros
resultados son similares a los mostrados por Hamilton y colaboradores en 2016 donde validaron 919
variantes identificadas previamente por secuenciación Sanger y un 97.3% cuando realizaron exomas
(138).

En términos de eficacia diagnóstica, ésta es dependiente de la patología mostrada por el paciente. En los
datos obtenidos en este estudio, se alcanzó un valor del 50% de eficacia diagnostica para muestras de
individuos afectados con fenotipos que se encontraban representados en el panel. Estos datos son
similares a los mostrados por Lopes et al, (139). para un panel de cardiomiopatía hipertrófica de 43 genes.

160
Conclusiones

Conclusiones

161
Conclusiones

Conclusiones

1. Se han probado diferentes sistemas de enriquecimieto, distintos métodos de preparación de


librerías para NGS, con diferentes aparatos de secuenciación masiva , demostrando que los
paneles personalizados tienen las propiedades técnicas idóneas para una efectiva implantación
en el diagnóstico de cardiopatías congénitas humanas.

2. Se ha desarrollado una metodología para caracterizar los puntos de rotura e inserción de los
CNVs

3. Se ha implantado un flujo de trabajo que permite relizar de una manera coste efectivo un mejor
diagnostico genético de enfermedades relacionadas con las cardiopatías congénitas humanas.

4. La sensibilidad de la técnica es superior al 99% para la detección de variantes implicadas en las


miocardiopatías congénitas humanas.

162
Conclusiones

163
Bibliografia

164
Bibliografia

Bibliografía

165
Bibliografia

1. F. SANGER, The terminal peptides of insulin. Biochem J 45, 563-574 (1949).


2. F. SANGER, Chemistry of insulin; determination of the structure of insulin opens the way to
greater understanding of life processes. Science 129, 1340-1344 (1959).
3. J. D. WATSON, F. H. CRICK, Molecular structure of nucleic acids; a structure for deoxyribose
nucleic acid. Nature 171, 737-738 (1953).
4. H. O. Smith, K. W. Wilcox, A restriction enzyme from Hemophilus influenzae. I. Purification and
general properties. J Mol Biol 51, 379-391 (1970).
5. T. J. Kelly, H. O. Smith, A restriction enzyme from Hemophilus influenzae. II. J Mol Biol 51, 393-
409 (1970).
6. F. Sanger, A. R. Coulson, A rapid method for determining sequences in DNA by primed synthesis
with DNA polymerase. J Mol Biol 94, 441-448 (1975).
7. F. Sanger et al., Nucleotide sequence of bacteriophage phi X174 DNA. Nature 265, 687-695
(1977).
8. A. M. Maxam, W. Gilbert, A new method for sequencing DNA. Proc Natl Acad Sci U S A 74, 560-
564 (1977).
9. F. Sanger, S. Nicklen, A. R. Coulson, DNA sequencing with chain-terminating inhibitors. Proc Natl
Acad Sci U S A 74, 5463-5467 (1977).
10. S. Anderson et al., Sequence and organization of the human mitochondrial genome. Nature 290,
457-465 (1981).
11. F. Sanger, A. R. Coulson, G. F. Hong, D. F. Hill, G. B. Petersen, Nucleotide sequence of
bacteriophage lambda DNA. J Mol Biol 162, 729-773 (1982).
12. R. Baer et al., DNA sequence and expression of the B95-8 Epstein[mdash]Barr virus genome.
Nature 310, 207-211 (1984).
13. A. T. Bankier et al., The DNA sequence of the human cytomegalovirus genome. DNA Seq 2, 1-12
(1991).
14. L. M. Smith et al., Fluorescence detection in automated DNA sequence analysis. Nature 321,
674-679 (1986).
15. R. D. Fleischmann et al., Whole-genome random sequencing and assembly of Haemophilus
influenzae Rd. Science 269, 496-512 (1995).
16. C. M. Fraser et al., The minimal gene complement of Mycoplasma genitalium. Science 270, 397-
403 (1995).
17. A. Goffeau et al., Life with 6000 genes. Science 274, 546, 563-547 (1996).
18. C. e. S. Consortium, Genome sequence of the nematode C. elegans: a platform for investigating
biology. Science 282, 2012-2018 (1998).
19. J. C. Venter et al., The sequence of the human genome. Science 291, 1304-1351 (2001).
20. E. S. Lander et al., Initial sequencing and analysis of the human genome. Nature 409, 860-921
(2001).
21. M. Ronaghi, S. Karamohamed, B. Pettersson, M. Uhlén, P. Nyrén, Real-time DNA sequencing
using detection of pyrophosphate release. Anal Biochem 242, 84-89 (1996).
22. M. Margulies et al., Genome sequencing in microfabricated high-density picolitre reactors.
Nature 437, 376-380 (2005).
23. L. Liu et al., Comparison of next-generation sequencing systems. J Biomed Biotechnol 2012,
251364 (2012).
24. J. Shendure et al., Accurate multiplex polony sequencing of an evolved bacterial genome.
Science 309, 1728-1732 (2005).
25. J. M. Rothberg et al., An integrated semiconductor device enabling non-optical genome
sequencing. Nature 475, 348-352 (2011).
26. J. Eid et al., Real-time DNA sequencing from single polymerase molecules. Science 323, 133-138

166
Bibliografia

(2009).
27. J. J. Kasianowicz, E. Brandin, D. Branton, D. W. Deamer, Characterization of individual
polynucleotide molecules using a membrane channel. Proc Natl Acad Sci U S A 93, 13770-13773
(1996).
28. D. R. Bentley et al., Accurate whole human genome sequencing using reversible terminator
chemistry. Nature 456, (2008).
29. F. Mertes et al., Targeted enrichment of genomic DNA regions for next-generation sequencing.
Brief Funct Genomics 10, 374-386 (2011).
30. R. Tewhey et al., Enrichment of sequencing targets from the human genome by solution
hybridization. Genome Biology 10, R116 (2009).
31. F. Antequera, A. Bird, Number of CpG islands and genes in human and mouse. Proc Natl Acad Sci
U S A 90, 11995-11999 (1993).
32. E. M. Kenny et al., Multiplex target enrichment using DNA indexing for ultra-high throughput
SNP detection. DNA Res 18, 31-38 (2011).
33. A. E. Shearer et al., Pre-capture multiplexing improves efficiency and cost-effectiveness of
targeted genomic enrichment. BMC Genomics 13, 618 (2012).
34. M. Kircher, S. Sawyer, M. Meyer, Double indexing overcomes inaccuracies in multiplex
sequencing on the Illumina platform. Nucleic Acids Res 40, e3 (2012).
35. U. Yu, S. H. Lee, Y. J. Kim, S. Kim, Bioinformatics in the post-genome era. J Biochem Mol Biol 37,
75-82 (2004).
36. P. Meisel, Margaret O. Dayhoff: Atlas of Protein Sequence and Structure 1969 (Volume 4) XXIV
u. 361 S., 21 Ausklapptafeln, 68 Abb. und zahlreiche Tabellen. National Biomedical Research
Foundation, Silver Spring/Maryland 1969. Preis $ 12,50. Food / Nahrung 15, 217-218 (1971).
37. S. B. Needleman, C. D. Wunsch, A general method applicable to the search for similarities in the
amino acid sequence of two proteins. J Mol Biol 48, 443-453 (1970).
38. T. F. Smith, M. S. Waterman, Identification of common molecular subsequences. J Mol Biol 147,
195-197 (1981).
39. S. F. Altschul, W. Gish, W. Miller, E. W. Myers, D. J. Lipman, Basic local alignment search tool. J
Mol Biol 215, 403-410 (1990).
40. C. Trapnell, S. L. Salzberg, How to map billions of short reads onto genomes. Nat Biotechnol 27,
455-457 (2009).
41. P. Medvedev, K. Georgiou, G. Myers, M. Brudno, in Algorithms in Bioinformatics: 7th
International Workshop, WABI 2007, Philadelphia, PA, USA, September 8-9, 2007. Proceedings,
R. Giancarlo, S. Hannenhalli, Eds. (Springer Berlin Heidelberg, Berlin, Heidelberg, 2007), pp. 289-
301.
42. A. Bateman, J. Quackenbush, Editorial. Bioinformatics 25, 429-429 (2009).
43. M. P. Dolled-Filhart, M. Lee, C. W. Ou-Yang, R. R. Haraksingh, J. C. Lin, Computational and
bioinformatics frameworks for next-generation whole exome and genome sequencing.
ScientificWorldJournal 2013, 730210 (2013).
44. S. Pabinger et al., A survey of tools for variant analysis of next-generation genome sequencing
data. Briefings in Bioinformatics 15, 256-278 (2014).
45. J. D. Hintzsche, W. A. Robinson, A. C. Tan, A Survey of Computational Tools to Analyze and
Interpret Whole Exome Sequencing Data. Int J Genomics 2016, 7983236 (2016).
46. M. Pop, S. L. Salzberg, Bioinformatics challenges of new sequencing technology. Trends Genet
24, 142-149 (2008).
47. R. Li, Y. Li, K. Kristiansen, J. Wang, SOAP: short oligonucleotide alignment program.
Bioinformatics 24, 713-714 (2008).
48. S. Schbath et al., Mapping reads on a genomic sequence: an algorithmic overview and a practical

167
Bibliografia

comparative analysis. J Comput Biol 19, 796-813 (2012).


49. N. Malhis, Y. S. N. Butterfield, M. Ester, S. J. M. Jones, Slider—maximum use of probability
information for alignment of short sequence reads and SNP detection. Bioinformatics 25, 6-13
(2009).
50. G. Lunter, M. Goodson, Stampy: A statistical algorithm for sensitive and fast mapping of Illumina
sequence reads. Genome Research 21, 936-939 (2011).
51. F. E. Dewey et al., Phased whole-genome genetic risk in a family quartet using a major allele
reference sequence. PLoS Genet 7, e1002280 (2011).
52. H. Li et al., The Sequence Alignment/Map format and SAMtools. Bioinformatics 25, 2078-2079
(2009).
53. M. A. DePristo et al., A framework for variation discovery and genotyping using next-generation
DNA sequencing data. Nat Genet 43, 491-498 (2011).
54. D. C. Koboldt et al., VarScan 2: somatic mutation and copy number alteration discovery in cancer
by exome sequencing. Genome Res 22, 568-576 (2012).
55. Z. Wei, W. Wang, P. Hu, G. J. Lyon, H. Hakonarson, SNVer: a statistical tool for variant calling in
analysis of pooled or individual next-generation sequencing data. Nucleic Acids Res 39, e132
(2011).
56. C. H. Au, A. Y. H. Leung, A. Kwong, T. L. Chan, E. S. K. Ma, INDELseek: detection of complex
insertions and deletions from next-generation sequencing data. BMC Genomics 18, 16 (2017).
57. Y. Liu, M. Loewer, S. Aluru, B. Schmidt, SNVSniffer: an integrated caller for germline and somatic
single-nucleotide and indel mutations. BMC Syst Biol 10 Suppl 2, 47 (2016).
58. J. O'Rawe et al., Low concordance of multiple variant-calling pipelines: practical implications for
exome and genome sequencing. Genome Med 5, 28 (2013).
59. S. Hwang, E. Kim, I. Lee, E. M. Marcotte, Systematic comparison of variant calling pipelines using
gold standard personal exome variants. Scientific Reports 5, 17875 (2015).
60. A. Abyzov, A. E. Urban, M. Snyder, M. Gerstein, CNVnator: an approach to discover, genotype,
and characterize typical and atypical CNVs from family and population genome sequencing.
Genome Res 21, 974-984 (2011).
61. C. Xie, M. T. Tammi, CNV-seq, a new method to detect copy number variation using high-
throughput sequencing. BMC Bioinformatics 10, 80 (2009).
62. S. Yoon, Z. Xuan, V. Makarov, K. Ye, J. Sebat, Sensitive and accurate detection of copy number
variants using read depth of coverage. Genome Res 19, 1586-1592 (2009).
63. C. Xie, M. T. Tammi, CNV-seq, a new method to detect copy number variation using high-
throughput sequencing. BMC Bioinformatics 10, (2009).
64. J. F. Sathirapongsasuti et al., Exome sequencing-based copy-number variation and loss of
heterozygosity detection: ExomeCNV. Bioinformatics 27, 2648-2654 (2011).
65. K. Chen et al., BreakDancer: an algorithm for high-resolution mapping of genomic structural
variation. Nat Methods 6, 677-681 (2009).
66. F. Hormozdiari, C. Alkan, E. E. Eichler, S. C. Sahinalp, Combinatorial algorithms for structural
variation detection in high-throughput sequenced genomes. Genome Res 19, 1270-1278 (2009).
67. J. O. Korbel et al., PEMer: a computational framework with simulation-based error models for
inferring genomic structural variants from massive paired-end sequencing data. Genome Biol 10,
R23 (2009).
68. T. Rausch et al., DELLY: structural variant discovery by integrated paired-end and split-read
analysis. Bioinformatics 28, i333-i339 (2012).
69. K. Wang, M. Li, H. Hakonarson, ANNOVAR: functional annotation of genetic variants from high-
throughput sequencing data. Nucleic Acids Res 38, e164 (2010).
70. J. M. Schwarz, C. Rodelsperger, M. Schuelke, D. Seelow, MutationTaster evaluates disease-

168
Bibliografia

causing potential of sequence alterations. Nat Meth 7, 575-576 (2010).


71. P. C. Ng, S. Henikoff, SIFT: predicting amino acid changes that affect protein function. Nucleic
Acids Research 31, 3812-3814 (2003).
72. I. A. Adzhubei et al., A method and server for predicting damaging missense mutations. Nat
Methods 7, 248-249 (2010).
73. I. Adzhubei, D. M. Jordan, S. R. Sunyaev, Predicting Functional Effect of Human Missense
Mutations Using PolyPhen-2. Current protocols in human genetics / editorial board, Jonathan L.
Haines ... [et al.] 0 7, Unit7.20-Unit27.20 (2013).
74. J. S. Ware, A. M. Roberts, S. A. Cook, Next generation sequencing for clinical diagnostics and
personalised medicine: implications for the next generation cardiologist. Heart 98, 276-281
(2012).
75. P. N. Gray, C. L. Dunlop, A. M. Elliott, Not All Next Generation Sequencing Diagnostics are
Created Equal: Understanding the Nuances of Solid Tumor Assay Design for Somatic Mutation
Detection. Cancers (Basel) 7, 1313-1332 (2015).
76. D. R. Bentley et al., Accurate whole human genome sequencing using reversible terminator
chemistry. Nature 456, 53-59 (2008).
77. S. S. Ajay, S. C. Parker, H. O. Abaan, K. V. Fajardo, E. H. Margulies, Accurate and comprehensive
sequencing of personal genomes. Genome Res 21, 1498-1505 (2011).
78. M. J. Clark et al., Performance comparison of exome DNA sequencing technologies. Nat
Biotechnol 29, 908-914 (2011).
79. H. L. Rehm et al., ACMG clinical laboratory standards for next-generation sequencing. Genet
Med 15, 733-747 (2013).
80. E. Samorodnitsky et al., Evaluation of Hybridization Capture Versus Amplicon-Based Methods for
Whole-Exome Sequencing. Hum Mutat 36, 903-914 (2015).
81. S. R. Head et al., Library construction for next-generation sequencing: overviews and challenges.
Biotechniques 56, 61-64, 66, 68, passim (2014).
82. M. S. Poptsova et al., Non-random DNA fragmentation in next-generation sequencing. Scientific
Reports 4, 4532 (2014).
83. R. Marine et al., Evaluation of a transposase protocol for rapid generation of shotgun high-
throughput sequencing libraries from nanogram quantities of DNA. Appl Environ Microbiol 77,
8071-8079 (2011).
84. B. C. Sos et al., Characterization of chromatin accessibility with a transposome hypersensitive
sites sequencing (THS-seq) assay. Genome Biol 17, 20 (2016).
85. A. Kia et al., Improved genome sequencing using an engineered transposase. BMC Biotechnol
17, 6 (2017).
86. D. Shigemizu et al., Performance comparison of four commercial human whole-exome capture
platforms. Sci Rep 5, 12742 (2015).
87. C. S. R. Chilamakuri et al., Performance comparison of four exome capture systems for deep
sequencing. BMC Genomics 15, 449 (2014).
88. H. LaDuca et al., Exome sequencing covers >98% of mutations identified on targeted next
generation sequencing panels. PLoS One 12, e0170843 (2017).
89. E. Gillis et al., An FBN1 deep intronic mutation in a familial case of Marfan syndrome: an
explanation for genetically unsolved cases? Hum Mutat 35, 571-574 (2014).
90. Q. Wang, C. S. Shashikant, M. Jensen, N. S. Altman, S. Girirajan, Novel metrics to measure
coverage in whole exome sequencing datasets reveal local and global non-uniformity. Scientific
Reports 7, 885 (2017).
91. F. Miya et al., A combination of targeted enrichment methodologies for whole-exome
sequencing reveals novel pathogenic mutations. Scientific Reports 5, 9331 (2015).

169
Bibliografia

92. D. Manase et al., High throughput exome coverage of clinically relevant cardiac genes. BMC Med
Genomics 7, 67 (2014).
93. E. Samorodnitsky et al., Comparison of custom capture for targeted next-generation DNA
sequencing. J Mol Diagn 17, 64-75 (2015).
94. J. Philippe et al., What Is the Best NGS Enrichment Method for the Molecular Diagnosis of
Monogenic Diabetes and Obesity? PLoS One 10, e0143373 (2015).
95. M. Schirmer, R. D’Amore, U. Z. Ijaz, N. Hall, C. Quince, Illumina error profiles: resolving fine-scale
variation in metagenomic sequencing data. BMC Bioinformatics 17, 125 (2016).
96. A. E. Minoche, J. C. Dohm, H. Himmelbauer, Evaluation of genomic high-throughput sequencing
data generated on Illumina HiSeq and genome analyzer systems. Genome Biol 12, (2011).
97. S. Goodwin, J. D. McPherson, W. R. McCombie, Coming of age: ten years of next-generation
sequencing technologies. Nat Rev Genet 17, 333-351 (2016).
98. K. Nakamura et al., Sequence-specific error profile of Illumina sequencers. Nucleic Acids Res 39,
e90 (2011).
99. C. Luo, D. Tsementzi, N. Kyrpides, T. Read, K. T. Konstantinidis, Direct comparisons of Illumina vs.
Roche 454 sequencing technologies on the same microbial community DNA sample. PLoS One 7,
e30087 (2012).
100. F. Meacham et al., Identification and correction of systematic error in high-throughput sequence
data. BMC Bioinformatics 12, 451 (2011).
101. M. Allhoff et al., Discovering motifs that induce sequencing errors. BMC Bioinformatics 14 Suppl
5, S1 (2013).
102. A. F. Gardner et al., Rapid incorporation kinetics and improved fidelity of a novel class of 3′-OH
unblocked reversible terminators. Nucleic Acids Research 40, 7404-7415 (2012).
103. J. M. Zook, D. Samarov, J. McDaniel, S. K. Sen, M. Salit, Synthetic Spike-in Standards Improve
Run-Specific Systematic Error Analysis for DNA and RNA Sequencing. PLOS ONE 7, e41356
(2012).
104. X. Liu, S. Han, Z. Wang, J. Gelernter, B. Z. Yang, Variant callers for next-generation sequencing
data: a comparison study. PLoS One 8, e75619 (2013).
105. M. Pirooznia et al., Validation and assessment of variant calling pipelines for next-generation
sequencing. Human Genomics 8, 14-14 (2014).
106. R. Kou et al., Benefits and Challenges with Applying Unique Molecular Identifiers in Next
Generation Sequencing to Detect Low Frequency Mutations. PLoS ONE 11, e0146638 (2016).
107. D. I. Lou et al., High-throughput DNA sequencing errors are reduced by orders of magnitude
using circle sequencing. Proceedings of the National Academy of Sciences of the United States of
America 110, 19872-19877 (2013).
108. S. R. Kennedy et al., Detecting ultralow-frequency mutations by Duplex Sequencing. Nature
protocols 9, 2586-2606 (2014).
109. M. W. Schmitt et al., Sequencing small genomic targets with high efficiency and extreme
accuracy. Nature methods 12, 423-425 (2015).
110. X. Hu et al., pIRS: Profile-based Illumina pair-end reads simulator. Bioinformatics 28, 1533-1535
(2012).
111. S. Bao et al., Evaluation of next-generation sequencing software in mapping and assembly. J
Hum Genet 56, 406-414 (2011).
112. M. Ruffalo, T. LaFramboise, M. Koyutürk, Comparative analysis of algorithms for next-generation
sequencing read alignment. Bioinformatics 27, 2790-2796 (2011).
113. X. F. Huang, J. Wu, J. N. Lv, X. Zhang, Z. B. Jin, Identification of false-negative mutations missed
by next-generation sequencing in retinitis pigmentosa patients: a complementary approach to
clinical genetic diagnostic testing. Genet Med 17, 307-311 (2015).

170
Bibliografia

114. T. Derrien et al., Fast Computation and Applications of Genome Mappability. PLOS ONE 7,
e30377 (2012).
115. D. Sims, I. Sudbery, N. E. Ilott, A. Heger, C. P. Ponting, Sequencing depth and coverage: key
considerations in genomic analyses. Nat Rev Genet 15, 121-132 (2014).
116. R. J. Pengelly et al., A SNP profiling panel for sample tracking in whole-exome sequencing
studies. Genome Medicine 5, 89 (2013).
117. Z. C. Deans et al., Integration of next-generation sequencing in clinical diagnostic molecular
pathology laboratories for analysis of solid tumours; an expert opinion on behalf of IQN Path
ASBL. Virchows Archiv 470, 5-20 (2017).
118. S. Overballe-Petersen, L. Orlando, E. Willerslev, Next-generation sequencing offers new insights
into DNA degradation. Trends Biotechnol 30, 364-368 (2012).
119. C. D. Millar, L. Huynen, S. Subramanian, E. Mohandesan, D. M. Lambert, New developments in
ancient genomics. Trends Ecol Evol 23, 386-393 (2008).
120. S. Q. Le, R. Durbin, SNP detection and genotyping from low-coverage sequencing data on
multiple diploid samples. Genome Res 21, 952-960 (2011).
121. W. S. Liang et al., Long insert whole genome sequencing for copy number variant and
translocation detection. Nucleic Acids Research 42, e8-e8 (2014).
122. Y. Qi et al., Reproducibility of Variant Calls in Replicate Next Generation Sequencing
Experiments. PLOS ONE 10, e0119230 (2015).
123. P. F. Cherukuri et al., Replicate exome-sequencing in a multiple-generation family: improved
interpretation of next-generation sequencing data. BMC Genomics 16, 998 (2015).
124. Q. Liu et al., Steps to ensure accuracy in genotype and SNP calling from Illumina sequencing
data. BMC Genomics 13 Suppl 8, S8 (2012).
125. J. O'Rawe et al., Low concordance of multiple variant-calling pipelines: practical implications for
exome and genome sequencing. Genome Medicine 5, 28 (2013).
126. A. Cornish, C. Guda, A Comparison of Variant Calling Pipelines Using Genome in a Bottle as a
Reference. Biomed Res Int 2015, 456479 (2015).
127. J. M. Mullaney, R. E. Mills, W. S. Pittard, S. E. Devine, Small insertions and deletions (INDELs) in
human genomes. Hum Mol Genet 19, R131-136 (2010).
128. P. Krawitz et al., Microindel detection in short-read sequence data. Bioinformatics 26, 722-729
(2010).
129. O. Ceyhan-Birsoy et al., Next generation sequencing-based copy number analysis reveals low
prevalence of deletions and duplications in 46 genes associated with genetic cardiomyopathies.
Molecular Genetics & Genomic Medicine 4, 143-151 (2016).
130. D. J. Tester et al., Prevalence and Spectrum of Large Deletions or Duplications in the Major Long
QT Syndrome-Susceptibility Genes and Implications for Long QT Syndrome Genetic Testing. The
American journal of cardiology 106, 1124-1128 (2010).
131. C. A. Eddy et al., Identification of large gene deletions and duplications in KCNQ1 and KCNH2 in
patients with long QT syndrome. Heart Rhythm 5, 1275-1281 (2008).
132. M. Blyth, N. Foulds, C. Turner, D. Bunyan, Severe Marfan syndrome due to FBN1 exon deletions.
Am J Med Genet A 146A, 1320-1324 (2008).
133. G. Mátyás et al., Large genomic fibrillin-1 (FBN1) gene deletions provide evidence for true
haploinsufficiency in Marfan syndrome. Hum Genet 122, 23-32 (2007).
134. K. K. Singh et al., Multi-exon out of frame deletion of the FBN1 gene leading to a severe juvenile
onset cardiovascular phenotype in Marfan syndrome. J Mol Cell Cardiol 42, 352-356 (2007).
135. M. Zhao, Q. Wang, Q. Wang, P. Jia, Z. Zhao, Computational tools for copy number variation
(CNV) detection using next-generation sequencing data: features and perspectives. BMC
Bioinformatics 14, S1 (2013).

171
Bibliografia

136. L. R. Lopes et al., Use of high-throughput targeted exome-sequencing to screen for copy number
variation in hypertrophic cardiomyopathy. Eur J Med Genet 58, 611-616 (2015).
137. A. Abyzov, M. Gerstein, AGE: defining breakpoints of genomic structur
138. A. Hamilton et al., Concordance between whole-exome sequencing and clinical Sanger
sequencing: implications for patient care. Molecular Genetics & Genomic Medicine 4, 504-512
(2016).
139. L. R. Lopes et al., Genetic complexity in hypertrophic cardiomyopathy revealed by high-
throughput sequencing. Journal of Medical Genetics 50, 228-239 (2013).

172
Anexo

ANEXO

173
Anexo

ANEXO A
Tabla de detección de variantes de la muestra in silico

50x 50x 50x 50x 50x 50x 50x 50x

BWA BWA BWA BWA STAMPY STAMPY STAMPY STAMPY

GATK-HC SAMTOOLS GATK-UG SNVER GATK-HC SAMTOOLS GATK-UG SNVER

Positivos 2101 2069 2116 1898 2102 1994 2044 1879

Falso Positivo 0 94 1 4 0 161 11 19

Falso
33 65 18 236 32 140 90 255
Negativo

Sensibilidad 0,984 0,928 0,991 0,887 0,985 0,868 0,952 0,872

100x 100x 100x 100x 100x 100x 100x 100x

Positivos 2123 2070 2129 1936 2124 1996 2083 1907

Falso Positivo 1 17 1 4 1 81 13 0

Falso
11 64 5 198 10 138 51 227
Negativo

Sensibilidad 0,994 0,962 0,997 0,905 0,994 0,901 0,970 0,893

400x 400x 400x 400x 400x 400x 400x 400x

Positivos 2132 2071 2133 1991 2132 1998 2096 2096

Falso Positivo 1 4 1 3 1 69 13 13

Falso
2 63 1 141 2 136 38 38
Negativo

Sensibilidad 0,998 0,968 0,999 0,932 0,998 0,906 0,976 0,976

1000x 1000x 1000x 1000x 1000x 1000x 1000x 1000x

Positivos 2134 2071 2132 2016 2134 1999 1973 2024

Falso Posivo 0 14 4 3 0 80 16 3

Falso
0 63 2 118 0 135 161 110
Negativo

Sensibilidad 1 0,964 0,997 0,943 1 0,902 0,917 0,947

174
Anexo

ANEXO B
Métricas de cobertura de las muestras secuenciadas en el Hiscan
mean %_bases_above_1 %_bases_above_10 %_bases_above_50
162.22 99.4 96.1 78.9
134.6 99.1 94.3 76
211.60 99.2 95.1 80.0
192.19 99.0 94.0 77.5
192.61 99.4 96.1 82.4
159.16 99.0 93.5 76.1
112.36 99.0 93.0 72.2
105.38 99.0 93.4 72.7
139.07 98.9 93.6 75.0
147.11 98.6 90.7 71.4
116.75 98.7 90.5 69.2
124.07 98.7 91.4 71.3
324.97 99.2 96.4 85.0
192.74 99.1 94.8 79.1
128.29 99.1 94.8 76.8
160.40 99.0 93.9 76.3

175
Anexo

ANEXO C

Métricas de cobertura de la comparación entre XT y QXT


%_bases_above_50
mean XT %_bases_above_1 XT %_bases_above_10 XT XT
402.15 99.9 99.9 99.7
330.16 100.0 99.9 99.7
301.49 100.0 99.9 99.7
322.36 100.0 99.9 99.7
464.77 99.9 99.9 99.7
437.74 99.9 99.9 99.7
435.25 99.9 99.9 99.7
449.24 99.9 99.9 99.7
500.66 99.9 99.9 99.7
482.66 100.0 99.9 99.7
418.78 99.9 99.9 99.6
401.77 100.0 99.9 99.7
320.76 100.0 99.9 99.6

%_bases_above_10 %_bases_above_50
mean QXT %_bases_above_1 QXT QXT QXT
97.44 100.0 99.6 87.1
94.84 99.9 99.6 89.0
116.29 99.9 99.7 91.1
90.16 99.9 99.6 86.1
112.47 99.9 99.6 90.4
100.76 99.9 99.5 86.7
108.47 99.9 99.6 90.2
104.42 99.9 99.6 87.9
106.44 99.9 99.6 88.9
101.19 99.9 99.6 87.6
97.29 99.9 99.6 86.4
105.50 99.9 99.6 88.6
102.30 99.9 99.6 87.7

176
Anexo

ANEXO D
Métricas de coberturas Nextseq y HIseq
Nextseq
mean %_bases_above_1 %_bases_above_10 %_bases_above_50
110.83 99.9 99.6 91.4
115.06 99.9 99.6 92.5
69.74 99.9 99.4 73.8
86.15 99.9 99.6 85.4
79.80 99.9 99.6 81.9
76.31 99.9 99.5 78.3
91.38 99.9 99.6 87.3
99.25 99.9 99.6 90.0
73.63 99.9 99.5 77.8
73.95 99.9 99.5 79.0
74.53 99.9 99.5 78.7
74.79 99.9 99.5 80.1
75.27 99.9 99.4 78.9
79.22 99.9 99.5 81.8
77.16 99.9 99.5 81.6
80.23 99.9 99.6 84.8
65.71 99.9 99.5 73.9
290.68 99.9 99.8 99.0
316.67 99.9 99.8 98.9
289.99 99.9 99.8 99.2
331.29 99.9 99.8 98.9
336.95 99.9 99.8 99.1

Hiseq

mean %_bases_above_1 %_bases_above_10 %_bases_above_50


147.53 99.9 99.8 97.2
160.06 99.9 99.8 97.6
157.15 99.9 99.8 97.5
146.35 99.9 99.8 97.1
220.71 99.9 99.9 99.0
175.58 99.9 99.8 98.1
171.74 99.9 99.8 98.0

177
Anexo

161.07 99.9 99.8 97.6


161.09 99.9 99.8 97.6
152.83 99.9 99.8 97.4
174.03 99.9 99.8 98.2
145.85 99.9 99.8 97.0
180.32 99.9 99.8 98.0
142.54 99.9 99.8 96.6
169.40 99.9 99.8 98.5
151.34 99.9 99.8 97.9
161.50 99.9 99.8 98.3
143.46 99.9 99.8 97.1
172.57 99.9 99.8 98.3
151.57 99.9 99.8 97.5
158.51 99.9 99.8 97.6
154.18 99.9 99.8 98.5

178
Anexo

ANEXO E
Script para generar un genoma de referencia de las regiones de estudio
#!/usr/bin/env python3

################################################################################
# IMPORTS
################################################################################

import sys
import [Link]
import argparse

from [Link] import join, basename, dirname

################################################################################
# PARSER
################################################################################

def _parser():
parser = [Link](version="v1.0 / 19.03.2012 (by Ingo Thomsen)",
description='''
The script takes a FASTA reference and a BED file and creates a
FASTA
reference with one contig. This contig contains the reference
regions
defined by the BED file, separated by 'N's.

EXAMPLE: make_bed_based_reference.py [Link] [Link] hs37_ccds_exome


''',
formatter_class=[Link])

parser.add_argument("FASTA",
help="""FASTA file, possibly containing multiple contigs.""")
parser.add_argument("BED",
help="BED file describing regions within the FASTA file.")
parser.add_argument("OUTFILE",
help="""File name (without extension), which will be used for the
created fasta reference and the translation file.""")
parser.add_argument("CONTIG_NAME",
help="""The contig name, that will be written after the '>' in the first
line of the output file.""")
parser.add_argument("--buffer", "-b", metavar="INT", default=50, type=int,
help="Number of 'N's between BED regions")
parser.add_argument("--padding", "-p", metavar="INT", default=50, type=int,
help="""Number of bases to left and right of a BED region that will be
included in the reference.""")

# parsing the args


args = parser.parse_args()

# checking
if [Link] < 0 or [Link] <0:
abort("Options --buffer and --padding must be integers >= 0")

return args

################################################################################
# MAIN
################################################################################

179
Anexo

def _main():
args = _parser()

# Get the file descriptors


ref_fd, bed_fd, out_ref_fd, out_trans_fd = open_files(args)

# Get a dict with lists with the requested regions


# (and the number of orignal regions for summary output at the end)
target_regions, no_raw_regions = target_regions_dict(bed_fd, [Link])

# Merge the overlapping target regions and put


# iterators on them into a chromosome-wise dict
# (and the number of joint regions for summary output)
target_regions_iter, no_joint_regions, no_joint_bases =
iterators_on_merged_overlapping_regions(target_regions)

print()
print("Regions extracted from BED file")
print("-------------------------------")
print("number of regions:", no_raw_regions)
print("number of joint regions:", no_joint_regions)
print("total length of joint regions:", no_joint_bases)

fp = fasta_printer(out_ref_fd, args.CONTIG_NAME, [Link])


tp = transformation_printer( out_trans_fd, fp)

#
# Now, let's go through the reference file
#
act_regions_iter = None
act_ref_pos = None
act_start = None
act_stop = None
printing = None

skipped_bed_regions = []

# an exception with a nice name


class NextChrException(Exception):
pass

print ()
print ()
print ("Extracting reference bases")
print ("--------------------------")

try:
while True:
try:
line = ref_fd.readline().rstrip("\n")
try:
if line[0] == ">":
raise
NextChrException(line[1:].split()[0])
except IndexError:
# EOF of reference file
raise StopIteration

for base in line:

act_ref_pos += 1

if act_ref_pos == act_start:
printing = True
[Link]()

tp.set_start(act_chr, act_start)

180
Anexo

if printing:
fp.print_base(base)

if act_ref_pos == act_stop:
printing = False

[Link]()

try:
act_start, act_stop =
next(act_regions_iter)
except StopIteration:
try:
while line[0] != ">":
line =
ref_fd.readline()
raise
NextChrException(line[1:].split()[0])
except IndexError:
# EOF of reference
file
raise StopIteration

except NextChrException as e:

[Link]()
act_chr = str(e)
act_ref_pos = 0
printing = None

try:
act_regions_iter = target_regions_iter[act_chr]
act_start, act_stop = next(act_regions_iter)
print("contig:", act_chr)

except KeyError:
# a reference contig, without regions specified
in the BED file
act_regions_iter = None
act_start, act_stop = -1, -1

except StopIteration:
[Link]()
[Link]()
print()
print()
print("Skipped BED regions:")
print("(incl. padding bases)")
print("--------------------")

for chr in target_regions_iter.keys():


for start, stop in target_regions_iter[chr]:
print (chr,start,stop,sep="\t")

print()
print()
print("Done!")
print("-----")

################################################################################
# CLASSES
################################################################################

#
# CLASS for creating a one-contig-fasta file base-by-base
#
class fasta_printer():

181
Anexo

def __init__(self, fd, headline, buffer):


self.__fd = fd
self.__buffer = buffer
self.__act_fasta_pos = 1
self.__act_line_len = 0
print (">", headline, sep="", file=fd)

def print_base(self, b):


if self.__act_line_len == 80:
print (b,file=self.__fd)
self.__act_line_len = 0
else:
print (b,end="",file=self.__fd)
self.__act_line_len += 1

self.__act_fasta_pos += 1

def pad(self):
if self.__act_fasta_pos > 1:
act = 0
while act < self.__buffer:
self.print_base("N")
act += 1

def get_act_pos(self):
return self.__act_fasta_pos

def close(self):
print(file=self.__fd)
self.__fd.close()

#
# CLASS dealing with transformation table
#
class transformation_printer():

def __init__(self, fd, fasta_printer):


self.__fd = fd
self.__fp = fasta_printer
self.__in_region = False

def set_start(self, act_chr, act_start):


self.__act_chr = act_chr
self.__fp_start = self.__fp.get_act_pos()
self.__orig_start = act_start
self.__in_region = True

def flush(self):
if self.__in_region:
self.__in_region = False
print (self.__fp_start, self.__fp.get_act_pos()-1, self.__act_chr,
self.__orig_start, sep="\t", file=self.__fd)

################################################################################
# FUNCTIONS
################################################################################

def abort(s):
print("ABORTING:", str(s).strip())
[Link](1)

def open_files(args):

182
Anexo

# Check and open files


try:
ref_fd = open([Link])
except:
abort("Could not open reference file '" + [Link]+ "' for reading.")

try:
bed_fd = open([Link])
except:
abort("Could not open BED file '" + [Link]+ "' for reading.")

out_ref_name = [Link] + ".fasta"


out_trans_name = [Link] + ".trans"

try:
out_ref_fd = open(out_ref_name, "w")
except:
abort("Could not open '" + out_ref_name + "' writing.")

try:
out_trans_fd = open(out_trans_name, "w")
except:
abort("Could not open '" + out_trans_name + "' writing.")

return ref_fd, bed_fd, out_ref_fd, out_trans_fd

def target_regions_dict(bed_fd, padding):

# drop first BED file line


bed_fd.readline()

target_regions = {}

# get the target regions into the memory


# list of start/stop tuples in a dict with the chr as key
no_raw_regions = 0
for line in bed_fd:
parts = [Link]()
if len(parts) >= 3:
chr, start,stop = parts[0], max(0,int(parts[1]) - padding),
int(parts[2]) + padding

try:
target_regions[chr]
except KeyError:
target_regions[chr] = []

# "shifting" from 0-based to 1-based


target_regions[chr].append( ( start+1, stop ) )
no_raw_regions += 1
else:
if len(parts) > 0:
print("WARNING: skipped this BED line:", [Link]())

return target_regions, no_raw_regions

def iterators_on_merged_overlapping_regions(target_regions):

#
# merge overlapping regions
#
no_joint_bases = 0
no_joint_regions = 0

for chr in target_regions.keys():

l = []

183
Anexo

act_start = None
act_stop = None
for start, stop in sorted(target_regions[chr]):

try:
if act_stop + 1 < start:
[Link]( (act_start, act_stop ) )
no_joint_bases += act_stop - act_start + 1
act_start = start
act_stop = stop
else:
act_stop = stop
except TypeError:
act_start = start
act_stop = stop

[Link]( ( act_start, act_stop) )

no_joint_bases += act_stop - act_start + 1


no_joint_regions += len(l)

target_regions[chr] = l

#
# create a chromosome-wise dict with iterators on the merged regions
#
target_regions_iter = {}
for chr in target_regions.keys():
target_regions_iter[chr] = iter(target_regions[chr])

return target_regions_iter, no_joint_regions, no_joint_bases

################################################################################
# FINALLY
################################################################################

if __name__ == "__main__":
_main()

184
Anexo

ANEXO F
Script para calcular el BAF
#!/usr/bin/perl
use strict;
use warnings;
use Getopt::Long qw(:config pass_through no_ignore_case);

my ($min_reads) = (10);
GetOptions (
"min-reads:s" => \$min_reads,
);

while (<>) {
my $line = $_;
my @columns = split("\t",$line);
my $chr = $columns[0];
my $start = $columns[1];
my $end = $start + 1;
my $num_reads = $columns[3];
my $calls = $columns[4];
my $id = "mpileup_number_" . $.;
if($num_reads < $min_reads){ # not enough coverage to have good confidence in the call
next;
}
my $num_ref = 0;
while ($calls =~ /[,.]/g) { $num_ref++ }
my $num_var = $num_reads - $num_ref;
my $varAlleleFreq = ($num_var/$num_reads)*100;
print("$chr\t$start\t$end\t$id\t$varAlleleFreq\n");
}

185
Anexo

ANEXO G
Lista de genes estudiados
Símbolo Nombre Banda Posición cromosómica
ABCC9 ATP-binding cassette, sub-family C (CFTR/MRP), member 9 12p12.1 12:21,950,323-22,089,629
ACTA2 actin, alpha 2, smooth muscle, aorta 10q23.31 10:90,694,831-90,751,148
ACTC1 actin, alpha, cardiac muscle 1 15q14 15:35,080,297-35,087,928
ACTN2 actinin, alpha 2 1q42-q43 1:236,849,754-236,927,932
ACVRL1 activin A receptor type IL 12q13.13 12:52,301,202-52,317,146
ADAMTSL4 ADAMTS-like 4 1q21.2 1:150,521,845-150,533,414
ADRB1 adrenoceptor beta 1 10q25.3 10:115,803,806-115,806,668
ADRB2 adrenoceptor beta 2, surface 5q31-q32 5:148,206,156-148,208,198
ADRB3 adrenoceptor beta 3 8p11.23 8:37,820,513-37,824,185
AGL amylo-alpha-1, 6-glucosidase, 4-alpha-glucanotransferase 1p21 1:100,315,640-100,389,580
AKAP9 A kinase (PRKA) anchor protein 9 7q21-q22 7:91,570,189-91,739,988
ANK2 ankyrin 2, neuronal 4q25-q26 4:113,739,239-114,304,897
ANK3 ankyrin 3, node of Ranvier (ankyrin G) 10q21 10:61,786,056-62,493,285
ANKRD1 ankyrin repeat domain 1 (cardiac muscle) 10q23.33 10:92,671,857-92,681,033
APOB apolipoprotein B 2p24-p23 2:21,224,301-21,266,946
ASPH aspartate beta-hydroxylase 8q12.1 8:62,413,115-62,627,200
10q25.2-
BAG3 BCL2-associated athanogene 3 10:121,410,882-121,437,332
q26.2
BMPR1B bone morphogenetic protein receptor, type IB 4q23-q24 4:95,679,128-96,079,602
BMPR2 bone morphogenetic protein receptor, type II (serine/threonine kinase) 2q33-q34 2:203,241,050-203,432,475
BRAF B-Raf proto-oncogene, serine/threonine kinase 7q34 7:140,433,812-140,624,565
CACNA1B calcium channel, voltage-dependent, N type, alpha 1B subunit 9q34 9:140,772,241-141,019,077
CACNA1C calcium channel, voltage-dependent, L type, alpha 1C subunit 12p13.3 12:2,162,416-2,807,116
CACNA1D calcium channel, voltage-dependent, L type, alpha 1D subunit 3p14.3 3:53,529,076-53,846,493

186
Anexo

CACNA2D1 calcium channel, voltage-dependent, alpha 2/delta subunit 1 7q21-q22 7:81,579,418-82,073,123


CACNB2 calcium channel, voltage-dependent, beta 2 subunit 10p12 10:18,429,606-18,830,689
CALM1 calmodulin 1 (phosphorylase kinase, delta) 14q32.11 14:90,863,327-90,874,620
2p21.3-
CALM2 calmodulin 2 (phosphorylase kinase, delta) 2:47,387,221-47,404,076
p21.1
CALR3 calreticulin 3 19p13.11 19:16,589,868-16,607,004
CAPN3 calpain 3 15q15.1 15:42,651,698-42,704,516
CASQ2 calsequestrin 2 (cardiac muscle) 1p13.1 1:116,242,624-116,311,427
CAV1 caveolin 1, caveolae protein, 22kDa 7q31 7:116,164,839-116,201,240
CAV3 caveolin 3 3p25 3:8,775,486-8,788,452
CBS cystathionine-beta-synthase 21q22.3 21:44,473,301-44,496,473
CHST14 carbohydrate (N-acetylgalactosamine 4-0) sulfotransferase 14 15q15.1 15:40,763,160-40,765,358
CLIC2 chloride intracellular channel 2 Xq28 X:154,505,516-154,563,991
CNBP CCHC-type zinc finger, nucleic acid binding protein 3q21 3:128,886,658-128,902,811
COL10A1 collagen, type X, alpha 1 6q21-q22 6:116,440,085-116,447,297
COL1A1 collagen, type I, alpha 1 17q21.33 17:48,261,457-48,279,001
COL1A2 collagen, type I, alpha 2 7q21.3 7:94,023,873-94,060,545
COL3A1 collagen, type III, alpha 1 2q32.2 2:189,839,099-189,877,473
COL4A1 collagen, type IV, alpha 1 13q34 13:110,801,305-110,959,505
COL4A3 collagen, type IV, alpha 3 (Goodpasture antigen) 2q36-q37 2:228,029,281-228,179,509
COL4A4 collagen, type IV, alpha 4 2q35-q37 2:227,867,427-228,029,276
COL4A5 collagen, type IV, alpha 5 Xq22 X:107,683,074-107,940,776
9q34.2-
COL5A1 collagen, type V, alpha 1 9:137,533,651-137,736,690
q34.3
COL5A2 collagen, type V, alpha 2 2q14-q32 2:189,896,641-190,044,606
CRYAB crystallin, alpha B 11q23.1 11:111,779,344-111,783,938
CSRP3 cysteine and glycine-rich protein 3 (cardiac LIM protein) 11p15.1 11:19,203,578-19,223,590
CTF1 cardiotrophin 1 16p11.2 16:30,907,928-30,914,882

187
Anexo

CXADR coxsackie virus and adenovirus receptor 21q21.1 21:18,885,224-18,965,898


DES Desmin 2q35 2:220,283,099-220,291,462
DMD Dystrophin Xp21.2 X:31,137,345-33,357,727
DMPK dystrophia myotonica-protein kinase 19q13.3 19:46,272,967-46,285,816
DOLK dolichol kinase 9q34.13 9:131,707,809-131,710,013
DPP6 dipeptidyl-peptidase 6 7q36.2 7:153,584,182-154,686,001
DSC2 desmocollin 2 18q12.1 18:28,645,939-28,682,396
DSG2 desmoglein 2 18q12.1 18:29,078,027-29,128,815
DSP Desmoplakin 6p24.3 6:7,541,870-7,586,947
DTNA dystrobrevin, alpha 18q12 18:32,073,254-32,471,809
7q11.1-
ELN Elastin 7:73,442,119-73,484,238
q21.1
EMD Emerin Xq27.3-q28 X:153,607,597-153,609,884
ENG Endoglin 9q34.11 9:130,577,291-130,617,053
ERF Ets2 repressor factor 19q13 19:42,751,713-42,759,317
EYA4 EYA transcriptional coactivator and phosphatase 4 6q23 6:133,562,495-133,853,259
FBN1 fibrillin 1 15q21.1 15:48,700,503-48,937,986
FBN2 fibrillin 2 5q23-q31 5:127,593,601-127,873,736
FHL1 four and a half LIM domains 1 Xq26.3 X:135,228,861-135,293,519
FHL2 four and a half LIM domains 2 2q12.2 2:105,977,283-106,055,231
FKRP fukutin related protein 19q13.32 19:47,249,303-47,261,833
FKTN Fukutin 9q31.2 9:108,320,411-108,403,400
FLNA filamin A, alpha Xq28 X:153,576,900-153,603,007
FLNC filamin C, gamma 7q32-q35 7:128,470,483-128,499,329
FXN Frataxin 9q21.11 9:71,650,479-71,715,095
17q25.2-
GAA glucosidase, alpha; acid 17:78,075,355-78,093,680
q25.3
GATA4 GATA binding protein 4 8p23.1-p22 8:11,534,428-11,617,512

188
Anexo

GJA1 gap junction protein, alpha 1, 43kDa 6q22.31 6:121,756,723-121,770,891


GJA5 gap junction protein, alpha 5, 40kDa 1q21.2 1:147,228,309-147,245,473
GLA galactosidase, alpha Xq21.3-q22 X:100,652,779-100,663,002
GPD1L glycerol-3-phosphate dehydrogenase 1-like 3p22.3 3:32,148,003-32,210,208
HCN1 hyperpolarization activated cyclic nucleotide gated potassium channel 1 5p12 5:45,255,052-45,696,221
HCN4 hyperpolarization activated cyclic nucleotide gated potassium channel 4 15q24.1 15:73,612,200-73,661,606
HRAS Harvey rat sarcoma viral oncogene homolog 11p15.5 11:532,242-535,551
20p12.1-
JAG1 jagged 1 20:10,618,332-10,654,695
p11.23
JPH2 junctophilin 2 20q13.12 20:42,740,337-42,816,219
JUP junction plakoglobin 17q21 17:39,910,859-39,942,965
KCNA5 potassium channel, voltage gated shaker related subfamily A, member 5 12p13 12:5,153,085-5,155,955
KCND3 potassium channel, voltage gated Shal related subfamily D, member 3 1p13.2 1:112,318,454-112,531,778
21q22.1-
KCNE1 potassium channel, voltage gated subfamily E regulatory beta subunit 1 21:35,818,986-35,883,638
q22.2
KCNE2 potassium channel, voltage gated subfamily E regulatory beta subunit 2 21q22.1 21:35,736,323-35,743,441
KCNE3 potassium channel, voltage gated subfamily E regulatory beta subunit 3 11q13.4 11:74,165,886-74,178,601
KCNE4 potassium channel, voltage gated subfamily E regulatory beta subunit 4 2q36.1 2:223,916,648-223,920,357
KCNE5 potassium channel, voltage gated subfamily E regulatory beta subunit 5 Xq22.3 X:108,866,929-108,868,394
KCNH2 potassium channel, voltage gated eag related subfamily H, member 2 7q36.1 7:150,642,044-150,675,403
KCNJ11 potassium channel, inwardly rectifying subfamily J, member 11 11p15.1 11:17,406,795-17,410,879
KCNJ12 potassium channel, inwardly rectifying subfamily J, member 12 17p11.1 17:21,279,699-21,323,180
KCNJ2 potassium channel, inwardly rectifying subfamily J, member 2 17q24.3 17:68,165,676-68,176,186
KCNJ3 potassium channel, inwardly rectifying subfamily J, member 3 2q24.1 2:155,555,093-155,714,865
KCNJ5 potassium channel, inwardly rectifying subfamily J, member 5 11q24 11:128,761,313-128,787,965
KCNJ8 potassium channel, inwardly rectifying subfamily J, member 8 12p12.1 12:21,917,889-21,927,756
KCNQ1 potassium channel, voltage gated KQT-like subfamily Q, member 1 11p15.5 11:2,466,221-2,870,341
KCNQ2 potassium channel, voltage gated KQT-like subfamily Q, member 2 20q13.33 20:62,037,542-62,103,994

189
Anexo

KLF10 Kruppel-like factor 10 8q22.3 8:103,661,005-103,668,131


KRAS Kirsten rat sarcoma viral oncogene homolog 12p12.1 12:25,357,723-25,403,866
LAMA2 laminin, alpha 2 6q22-q23 6:129,204,286-129,837,712
LAMA4 laminin, alpha 4 6q21 6:112,429,134-112,575,918
LAMP2 lysosomal-associated membrane protein 2 Xq24 X:119,560,003-119,603,205
10q22.3-
LDB3 LIM domain binding 3 10:88,428,206-88,495,826
q23.2
LDLR low density lipoprotein receptor 19p13.2 19:11,200,038-11,244,507
LMNA lamin A/C 1q22 1:156,052,337-156,109,881
LRP6 low density lipoprotein receptor-related protein 6 12p13.2 12:12,268,959-12,419,812
15q22.1-
MAP2K1 mitogen-activated protein kinase kinase 1 15:66,679,211-66,783,883
q22.33
MAP2K2 mitogen-activated protein kinase kinase 2 19p13.3 19:4,090,319-4,124,127
MEF2A myocyte enhancer factor 2A 15q26 15:100,106,133-100,256,631
MIB1 mindbomb E3 ubiquitin protein ligase 1 18q11.2 18:19,321,290-19,450,919
MURC muscle-related coiled-coil protein 9q31.1 9:103,340,361-103,350,672
MYBPC3 myosin binding protein C, cardiac 11p11.2 11:47,352,957-47,374,254
MYH11 myosin, heavy chain 11, smooth muscle 16p13.11 16:15,796,992-15,950,888
14q11.2-
MYH6 myosin, heavy chain 6, cardiac muscle, alpha 14:23,851,199-23,877,487
q13
14q11.2-
MYH7 myosin, heavy chain 7, cardiac muscle, beta 14:23,881,947-23,904,871
q13
MYL2 myosin, light chain 2, regulatory, cardiac, slow 12q24.11 12:111,348,623-111,358,405
MYL3 myosin, light chain 3, alkali; ventricular, skeletal, slow 3p 3:46,899,357-46,904,974
MYLK myosin light chain kinase 3q21 3:123,331,143-123,603,150
MYLK2 myosin light chain kinase 2 20q13.31 20:30,407,178-30,422,501
MYOT Myotilin 5q31.2 5:137,203,545-137,223,541
MYOZ2 myozenin 2 4q26-q27 4:120,056,939-120,108,945
MYPN Myopalladin 10q22.1 10:69,865,874-69,971,775

190
Anexo

NBR1 neighbor of BRCA1 gene 1 17q21.31 17:41,322,488-41,363,709


NEBL Nebulette 10p12 10:21,068,902-21,463,117
NEXN nexilin (F actin binding protein) 1p31.1 1:78,354,200-78,409,581
NKX2-5 NK2 homeobox 5 5q34 5:172,659,107-172,662,316
NOS1AP nitric oxide synthase 1 (neuronal) adaptor protein 1q23.3 1:162,039,581-162,339,814
NOTCH1 notch 1 9q34.3 9:139,388,896-139,440,239
NPPA natriuretic peptide A 1p36.21 1:11,905,766-11,907,841
NRAS neuroblastoma RAS viral (v-ras) oncogene homolog 1p13.2 1:115,247,078-115,259,516
OBSL1 obscurin-like 1 2q35 2:220,415,450-220,436,269
PDLIM3 PDZ and LIM domain 3 4q35 4:186,421,814-186,456,713
PKP2 plakophilin 2 12p11 12:32,943,680-33,049,781
PKP4 plakophilin 4 2q24.1 2:159,313,392-159,537,941
PLEC Plectin 8q24 8:144,989,315-145,050,914
PLN Phospholamban 6q22.1 6:118,869,442-118,881,588
PLOD1 procollagen-lysine, 2-oxoglutarate 5-dioxygenase 1 1p36.22 1:11,994,724-12,035,600
PNN pinin, desmosome associated protein 14q21.1 14:39,644,387-39,652,423
PRKAG2 protein kinase, AMP-activated, gamma 2 non-catalytic subunit 7q35-q36 7:151,253,200-151,574,317
PSEN1 presenilin 1 14q24.3 14:73,603,143-73,690,400
PSEN2 presenilin 2 1q42.13 1:227,058,273-227,083,805
PTPN11 protein tyrosine phosphatase, non-receptor type 11 12q24.1 12:112,856,536-112,947,718
RAF1 Raf-1 proto-oncogene, serine/threonine kinase 3p25 3:12,625,100-12,705,701
RANGRF RAN guanine nucleotide release factor 17p13 17:8,191,969-8,193,410
RBM20 RNA binding motif protein 20 10q25.3 10:112,404,155-112,599,228
RBX1 ring-box 1, E3 ubiquitin protein ligase 22q13.2 22:41,347,351-41,369,020
RYR2 ryanodine receptor 2 (cardiac) 1q43 1:237,205,702-237,997,289
SCN1B sodium channel, voltage gated, type I beta subunit 19q13.12 19:35,521,592-35,531,354
SCN2B sodium channel, voltage gated, type II beta subunit 11q23.3 11:118,033,519-118,047,338

191
Anexo

SCN3B sodium channel, voltage gated, type III beta subunit 11q24.1 11:123,499,895-123,525,316
SCN4B sodium channel, voltage gated, type IV beta subunit 11q23.3 11:118,004,092-118,023,631
SCN5A sodium channel, voltage gated, type V alpha subunit 3p21 3:38,589,553-38,691,165
16p12.2-
SCNN1B sodium channel, non voltage gated 1 beta subunit 16:23,313,591-23,392,621
p12.1
SCNN1G sodium channel, non voltage gated 1 gamma subunit 16p12 16:23,194,040-23,228,201
SGCD sarcoglycan, delta (35kDa dystrophin-associated glycoprotein) 5q33-q34 5:155,753,767-156,194,800
SHOC2 SHOC2 leucine-rich repeat scaffold protein 10q25 10:112,679,301-112,773,426
SLC25A4 solute carrier family 25 (mitochondrial carrier; adenine nucleotide translocator), member 4 4q35 4:186,064,417-186,071,539
SLC2A10 solute carrier family 2 (facilitated glucose transporter), member 10 20q13.12 20:45,338,279-45,364,987
SLC39A13 solute carrier family 39 (zinc transporter), member 13 11p11.2 11:47,430,046-47,438,052
SMAD1 SMAD family member 1 4q31.21 4:146,402,951-146,480,329
SMAD3 SMAD family member 3 15q21-q22 15:67,358,195-67,487,534
SMAD4 SMAD family member 4 18q21.1 18:48,556,583-48,611,413
SMAD9 SMAD family member 9 13q12-q14 13:37,418,968-37,494,410
SNTA1 syntrophin, alpha 1 20q11.2 20:31,995,763-32,031,699
SOS1 son of sevenless homolog 1 (Drosophila) 2p21 2:39,208,690-39,347,605
SQSTM1 sequestosome 1 5q35 5:179,233,388-179,265,079
SRF serum response factor 6p21.1 6:43,139,033-43,149,245
SRY sex determining region Y Yp11.3 Y:2,654,896-2,655,783
TAZ Tafazzin Xq28 X:153,639,854-153,650,066
TBX20 T-box 20 7p14.3 7:35,242,042-35,293,712
TBX5 T-box 5 12q24.1 12:114,791,735-114,846,248
TCAP titin-cap 17q12 17:37,821,599-37,822,808
TGFB3 transforming growth factor beta 3 14q24 14:76,424,442-76,448,093
TGFBR1 transforming growth factor beta receptor I 9q22 9:101,867,371-101,916,475
TGFBR2 transforming growth factor beta receptor II 3p22 3:30,647,994-30,735,635
TGFBR3 transforming growth factor beta receptor III 1p33-p32 1:92,145,900-92,371,560

192
Anexo

TKT Transketolase 3p14.3 3:53,258,723-53,290,131


TMEM43 transmembrane protein 43 3p25.1 3:14,166,440-14,185,181
TMPO Thymopoietin 12q22 12:98,909,351-98,944,158
TNNC1 troponin C type 1 (slow) 3p21.1 3:52,485,107-52,488,058
TNNI3 troponin I type 3 (cardiac) 19q13.4 19:55,663,135-55,669,101
TNNT2 troponin T type 2 (cardiac) 1q32 1:201,328,136-201,346,829
TNXB tenascin XB 6p21.3 6:32,008,932-32,077,152
TPM1 tropomyosin 1 (alpha) 15q22.1 15:63,334,838-63,364,114
TRDN Triadin 6q22.31 6:123,537,484-123,958,239
TRIM55 tripartite motif containing 55 8q13.1 8:67,039,278-67,087,719
TRIM63 tripartite motif containing 63, E3 ubiquitin protein ligase 1p34-p33 1:26,377,795-26,394,126
TRPM4 transient receptor potential cation channel, subfamily M, member 4 19q13.3 19:49,661,016-49,715,099
TTN Titin 2q31 2:179,390,716-179,672,151
TTR Transthyretin 18q12.1 18:29,171,730-29,178,988
10q22.1-
VCL Vinculin 10:75,757,872-75,879,919
q23

193
Anexo

ANEXO H
Lista de variantes incluida en la validación por Sanger.

Funcion confirmada profundidad Qual baf Chr Inicial Final REF ALT
exonic Negativo 23 4.12 8.7 chr10 88428527 88428527 C A
exonic Negativo 2 68 100 chr9 101867573 101867573 C A
exonic Negativo 16 18.1 12.5 chr15 63340848 63340848 A G
splicing Negativo 12 26 16.67 chr10 121411372 121411372 G C
exonic Negativo 15 21 13.33 chr12 33049611 33049611 G A
exonic Negativo 15 4.12 13.33 chr1 156100499 156100499 A C
exonic Negativo 5 17.1 40 chr7 150648629 150648629 T G
exonic Negativo 18 5.46 11.11 chr1 237948010 237948010 A G
exonic;splici
ng Negativo 11 6.19 18.18 chr3 38620833 38620833 A C
exonic Negativo 16 18.1 12.5 chr20 42744577 42744577 G T
exonic Negativo 15 13.2 13.33 chrX 153640428 153640428 A G
exonic Negativo 9 39 22.22 chr15 35086946 35086946 C A
exonic Negativo 9 4.76 22.22 chr17 39925284 39925284 T C
exonic Negativo 12 30 16.67 chr9 140865970 140865970 G T
exonic Negativo 22 4.12 9.09 chr1 156085025 156085025 C A
exonic Negativo 20 8.64 10 chr7 150671967 150671967 C A
exonic Negativo 10 36 20 chr2 39347545 39347545 G T
exonic Negativo 18 21 11.11 chr19 55668447 55668447 G A
exonic Negativo 8 32 25 chr15 73615246 73615246 G A
exonic Negativo 21 10.4 9.52 chr5 45695856 45695856 A C
exonic Negativo 155 44 15.48 chr17 21318826 21318826 G A
exonic Negativo 19 4.76 10.53 chr15 63340881 63340881 A G
exonic Negativo 2 62 100 chr18 29078241 29078241 C G
exonic Negativo 7 47 28.57 chr10 112404261 112404261 G A

194
Anexo

exonic Negativo 14 19.1 14.29 chr7 150674943 150674943 C T


exonic Negativo 19 18.1 10.53 chr2 220285250 220285250 C A
exonic Negativo 7 17.1 28.57 chr15 63335039 63335039 T C
exonic Negativo 9 3.54 22.22 chr14 23884307 23884307 A C
exonic Negativo 6 27 33.33 chr4 186456539 186456539 A G
exonic Negativo 6 23 33.33 chr7 128494159 128494159 C T
exonic;splici
ng Negativo 12 8.64 16.67 chr11 533454 533454 T C
exonic Negativo 12 7.79 16.67 chrX 119603002 119603002 G A
exonic Negativo 12 11.3 16.67 chr2 220283744 220283744 T C
exonic Negativo 22 5.46 9.09 chr1 156084858 156084858 G T
exonic Negativo 19 13.2 10.53 chr19 47259547 47259547 A C
exonic Negativo 12 32 16.67 chr20 42744717 42744717 C T
exonic Negativo 21 8.64 9.52 chr1 156085055 156085055 C A
exonic Negativo 5 33 40 chr7 150655485 150655485 G A
exonic Negativo 14 28 14.29 chr11 533300 533300 A G
exonic Negativo 15 20 13.33 chr11 533316 533316 C T
exonic;splici
ng Negativo 20 36 15 chr20 42788267 42788267 G A
exonic Negativo 18 14.2 11.11 chr15 63340809 63340809 G C
exonic Negativo 19 12.3 10.53 chr17 37822045 37822045 C T
exonic Negativo 6 19.1 33.33 chr11 2869174 2869174 A C
exonic Negativo 21 15.1 9.52 chrX 135291591 135291591 C A
exonic Negativo 16 26 12.5 chrX 153608326 153608326 C T
exonic Negativo 10 6.19 20 chr10 88466436 88466436 T C
exonic Negativo 4 37 50 chr1 156084819 156084819 A C
exonic;splici
ng Negativo 5 12.3 40 chr1 156106010 156106010 G T
exonic Negativo 12 4.76 16.67 chr9 141016329 141016329 C A
exonic Negativo 8 24 25 chrX 119602993 119602993 C T
exonic Negativo 12 4.12 16.67 chr17 39923805 39923805 A T
exonic Negativo 18 11.3 11.11 chr10 121411271 121411271 C G

195
Anexo

exonic Negativo 11 19.1 18.18 chr3 38592075 38592075 G C


exonic Negativo 13 3.54 15.38 chr3 38620849 38620849 T G
exonic Negativo 10 12.3 20 chr17 39913958 39913958 C A
exonic Negativo 6 11.3 33.33 chr7 150642548 150642548 G T
exonic Negativo 7 32 28.57 chrX 153648399 153648399 T G
exonic Negativo 19 6.19 10.53 chr7 150644772 150644772 G T
exonic Negativo 17 15.1 17.65 chr18 28681912 28681912 C T
splicing Negativo 14 13.2 14.29 chr9 140772674 140772674 C A
splicing Negativo 19 12.3 10.53 chr3 38640544 38640544 G T
exonic Negativo 2 73 100 chr15 73615117 73615117 G T
splicing Negativo 16 24 12.5 chr1 201328387 201328387 C A
exonic Negativo 20 6.19 10 chrX 153607914 153607914 G A
exonic Negativo 12 24 16.67 chr7 150655452 150655452 G T
splicing Negativo 21 6.19 9.52 chr15 63335144 63335144 T C
splicing Negativo 21 4.76 9.52 chr7 35293096 35293096 C G
exonic Negativo 18 15.1 11.11 chr17 39925842 39925842 G T
exonic;splici
ng Negativo 9 35 22.22 chr7 140624374 140624374 G T
exonic Negativo 14 24 14.29 chr15 73615216 73615216 G T
exonic Negativo 8 42 25 chr7 140624499 140624499 G A
exonic Negativo 10 40 20 chr7 140624380 140624380 C A
exonic Negativo 6 45 33.33 chr20 42744747 42744747 G T
exonic Negativo 30 28.2 10 chr2 179446464 179446468 CCAAG -
intronic;exo
nic Negativo 183 88 18.58 chr17 21319498 21319498 G T
exonic Negativo 19 10.4 10.53 chr12 33049637 33049637 T A
exonic Negativo 84 49 11.9 chr2 220286254 220286254 C T
exonic Negativo 22 4.76 9.09 chr11 2466585 2466585 G T
exonic Negativo 5 51 40 chr2 220283734 220283734 C A
exonic Negativo 5 42 40 chr1 237777902 237777902 T C
exonic Negativo 19 14.2 10.53 chr18 29175139 29175139 A G

196
Anexo

exonic Negativo 19 8.64 10.53 chr2 39251202 39251202 T A


exonic Negativo 22 6.19 9.09 chr7 150642503 150642503 C A
exonic Negativo 21 4.12 9.52 chr11 2869130 2869130 G A
exonic Negativo 19 15.1 10.53 chr2 220283588 220283588 C A
exonic Negativo 9 42 22.22 chr7 150674998 150674998 G A
exonic Negativo 14 13.2 14.29 chr1 156085029 156085029 G A
exonic Negativo 12 35 16.67 chr15 73615700 73615700 T A
exonic Negativo 15 26 13.33 chr17 37822136 37822136 T A
splicing Negativo 14 25 14.29 chr17 39923837 39923837 G T
exonic Negativo 18 21 11.11 chrX 153607864 153607864 T A
exonic;splici
ng Negativo 20 4.12 10 chrX 153607921 153607921 T A
exonic Negativo 6 16.1 33.33 chr12 98909865 98909865 A C
splicing Negativo 19 8.64 10.53 chr20 30409543 30409543 A G
exonic;splici
ng Negativo 17 4.12 11.76 chr10 75758125 75758125 C T
exonic Negativo 19 8.64 10.53 chr17 37821683 37821683 A T
exonic Negativo 20 9.52 10 chr7 128490043 128490043 T C
exonic Negativo 16 5.46 12.5 chr12 33049596 33049596 G C
exonic Negativo 19 17.1 10.53 chr19 55668456 55668456 A G
exonic Negativo 22 9.52 9.09 chr1 156105013 156105013 C A
exonic;splici
ng Negativo 9 7.79 22.22 chr7 128488113 128488113 T C
exonic Negativo 21 7.79 9.52 chr11 47365142 47365142 A G
exonic Negativo 13 18.1 15.38 chr7 150648653 150648653 T C
exonic Negativo 15 22 20 chr10 88476182 88476182 G C
exonic Negativo 8 42 25 chr7 150674983 150674983 G T
exonic Negativo 14 18.1 14.29 chr7 150671976 150671976 A G
exonic Negativo 13 28 15.38 chrX 153607909 153607909 C A
exonic Negativo 17 15.1 11.76 chr1 201328364 201328364 C A
exonic;splici
ng Negativo 17 17.1 11.76 chr11 47360228 47360228 C T

197
Anexo

exonic;splici
ng Negativo 5 48 40 chr17 39914030 39914030 A T
exonic Negativo 17 8.64 11.76 chr11 2869082 2869082 G T
exonic Negativo 10 35 20 chr17 37822066 37822066 C T
exonic Negativo 6 56 33.33 chr20 42788990 42788990 C A
splicing Negativo 11 43 18.18 chr11 47353436 47353436 C T
exonic Negativo 14 26 14.29 chr20 42744756 42744756 C G
exonic Negativo 15 22 13.33 chr17 37822177 37822177 G T
exonic Negativo 11 6.97 18.18 chr11 2466561 2466561 A C
exonic Negativo 9 26 22.22 chrX 153640202 153640202 C T
exonic Negativo 12 8.64 16.67 chr2 220283564 220283564 G A
exonic Negativo 10 29 20 chr1 156085024 156085024 G C
exonic Negativo 12 44 16.67 chr15 48737693 48737693 C A
exonic Negativo 4 57 50 chr12 2614072 2614072 C A
exonic Negativo 5 55 40 chr6 7585515 7585515 G A
exonic Negativo 4 42 50 chr6 7580363 7580363 G A
exonic Negativo 6 40 33.33 chr10 69926250 69926250 C A
exonic Negativo 2 49 100 chr7 150655285 150655285 C A
exonic Negativo 10 46 20 chr11 47354761 47354761 G A
exonic Negativo 12 32 16.67 chr1 156084798 156084798 A G
exonic Negativo 13 31 15.38 chr10 88476473 88476473 C T
exonic Negativo 23 5.46 8.7 chr7 150647300 150647300 C A
exonic Negativo 3 46 66.67 chr8 62626866 62626866 C A
exonic Negativo 9 47 22.22 chr2 220435797 220435797 G T
exonic Negativo 22 5.46 9.09 chr1 156105054 156105054 G A
exonic Negativo 8 17.1 25 chr15 63340842 63340842 C T
exonic Negativo 6 45 33.33 chr2 220283294 220283294 G A
exonic Negativo 6 40 33.33 chr8 11566407 11566407 G A
exonic Negativo 3 27 66.67 chr8 11566258 11566258 G T
exonic;splici
ng Negativo 24 5.46 8.33 chr1 156109561 156109561 A G

198
Anexo

exonic Negativo 26 3.54 7.69 chr12 5154906 5154906 G T


exonic Negativo 10 17.1 20 chr1 112524609 112524609 G A
exonic Negativo 21 13.2 9.52 chr7 150649841 150649841 C A
exonic Negativo 6 55 33.33 chr17 37822117 37822117 C T
exonic Negativo 19 11.3 10.53 chr7 150671969 150671969 T A
splicing Negativo 16 9.52 12.5 chr12 33049433 33049433 C A
exonic Negativo 8 25 25 chr11 2466570 2466570 C T
exonic Negativo 16 25 12.5 chr17 37822184 37822184 C A
exonic Negativo 16 24 12.5 chr7 150671888 150671888 C T
exonic Negativo 24 4.12 8.33 chr1 156084801 156084801 A G
exonic Negativo 19 19.1 10.53 chr1 156084879 156084879 C A
exonic Negativo 20 40 15 chr19 47259456 47259456 C T
exonic Negativo 6 17.1 33.33 chr15 73660281 73660281 C T
exonic Negativo 6 51 33.33 chr15 40763446 40763446 C A
exonic Negativo 17 16.1 11.76 chr11 47436655 47436655 C A
exonic Negativo 19 12.3 10.53 chr9 139417431 139417431 C T
exonic Negativo 4 65 50 chr20 42744777 42744777 T C
exonic Negativo 21 16.1 9.52 chr2 39249837 39249837 C G
exonic Negativo 8 52 25 chr6 7574421 7574421 G A
exonic Negativo 19 15.1 10.53 chr7 150652589 150652589 C T
exonic Negativo 20 6.97 10 chr2 39347524 39347524 C A
exonic Negativo 10 30 20 chr20 32031218 32031218 G T
splicing Negativo 15 18.1 20 chr17 39925931 39925931 T C
exonic Negativo 17 18.1 11.76 chr17 39925873 39925873 T A
exonic Negativo 138 255 50.72 chr19 11230888 11230888 C A
exonic Negativo 9 40 22.22 chr7 150655191 150655191 A G
exonic Negativo 6 39 33.33 chr7 150671973 150671973 T A
exonic Negativo 5 35 40 chr6 7542263 7542263 A T
exonic Negativo 11 34 18.18 chr9 140917923 140917923 C T
exonic Negativo 14 30 14.29 chr9 140917782 140917782 G T

199
Anexo

exonic Negativo 20 3.54 10 chr2 220283433 220283433 C A


exonic Negativo 2 60 100 chrY 2655050 2655050 T C
exonic Negativo 11 25 18.18 chr9 139440196 139440196 G A
exonic Negativo 3 61.3 66.67 chr2 220435801 220435801 G T
exonic Negativo 4 38 50 chr20 42744952 42744952 G A
exonic Negativo 8 18.1 25 chr12 33049565 33049565 G A
exonic Negativo 15 30 20 chrX 153608680 153608680 C A
exonic Negativo 19 9.52 10.53 chrX 153583022 153583022 G A
exonic Negativo 20 10.4 10 chr9 139399264 139399264 G T
exonic Negativo 20 8.64 10 chr7 150647342 150647342 T A
exonic Negativo 19 7.79 10.53 chr7 150672008 150672008 T A
exonic Negativo 20 6.19 10 chr9 139409841 139409841 C A
exonic;splici
ng Negativo 18 16.1 16.67 chr20 42745024 42745024 G T
exonic Negativo 4 16.1 50 chr2 220435795 220435795 C A
exonic Negativo 6 15.1 33.33 chr2 220435813 220435813 C T
exonic Negativo 7 51 28.57 chr19 47259491 47259491 C A
exonic Negativo 7 37 28.57 chrX 153607884 153607884 A C
exonic Negativo 11 33 18.18 chr19 47259389 47259389 C A
exonic Negativo 15 25 13.33 chr6 7542251 7542251 G A
exonic Negativo 13 25 15.38 chr19 47259534 47259534 T C
exonic Negativo 14 23 14.29 chr3 32148240 32148240 T A
exonic Negativo 16 20 12.5 chr19 49671216 49671216 A G
exonic Negativo 17 15.1 11.76 chr2 220435455 220435455 G A
exonic Negativo 16 11.3 12.5 chr2 220435489 220435489 C A
exonic Negativo 14 26 14.29 chr18 19321563 19321563 A G
exonic Negativo 15 25 13.33 chr11 47372152 47372152 T C
exonic Negativo 14 13.2 14.29 150644718 150644718 T C
exonic Negativo 8 30 25 chr2 220283491 220283491 A G
exonic Negativo 11 30 18.18 chrX 153608090 153608090 C A

200
Anexo

exonic Negativo 7 29 28.57 chr20 42744561 42744561 G A


exonic Negativo 23 3.54 8.7 chr15 63335100 63335100 G T
exonic;splici
ng Negativo 15 21 13.33 chr15 63340902 63340902 A G
exonic Negativo 30 4.12 10 chr17 39921015 39921015 G A
exonic Negativo 11 19.1 18.18 chr12 33049583 33049583 G A
exonic Negativo 6 36 33.33 chr15 63340847 63340847 G C
exonic Negativo 9 33 22.22 chr1 156108384 156108384 G T
exonic Negativo 11 28 18.18 chr6 7542195 7542195 G A
exonic;splici
ng Negativo 14 10.4 14.29 chr11 47360074 47360074 T A
exonic Negativo 16 6.19 18.75 chr19 4101123 4101123 A G
exonic Negativo 9 38 22.22 chr1 156100488 156100488 C G
exonic Negativo 13 19.1 15.38 chr15 73615108 73615108 G T
exonic Negativo 7 44 28.57 chr20 42788952 42788952 G T
exonic Negativo 22 5.46 9.09 chr17 37822244 37822244 A G
exonic Negativo 11 60 27.27 chr2 220283413 220283413 A G
exonic Negativo 3 58 66.67 chr2 220435802 220435802 C G
exonic Negativo 9 29 44.44 chr2 220435920 220435920 G C
exonic;splici
ng Negativo 22 23 13.64 chr11 47354881 47354881 T A
exonic Negativo 16 9.52 12.5 chr11 47356669 47356669 T G
exonic Negativo 10 43 20 chr8 11566405 11566405 G T
exonic Negativo 8 36 25 chr19 47259015 47259015 T A
exonic Positivo 13 237 100 chrX 32662421 32662421 T C
exonic Positivo 556 255 46.04 chr5 155771510 155771510 G C
splicing Positivo 1016 255 49.51 chr2 105979907 105979907 T G
splicing Positivo 30 117 30 chr17 78081528 78081528 - AGCGGGC
splicing Positivo 241 255 42.74 chr10 69966667 69966667 G A
splicing Positivo 51 255 50.98 chr1 237863520 237863520 A G
exonic Positivo 52 255 38.46 chr11 47371475 47371475 T C
exonic Positivo 29 243 51.72 chr12 112926873 112926873 G T

201
Anexo

exonic Positivo 4 57 50 chr3 14180758 14180758 A G


exonic Positivo 178 255 46.63 chr10 92679979 92679979 G C
exonic Positivo 19 242 73.68 chr14 23856987 23856987 C T
exonic Positivo 122 255 45.9 chr14 23872631 23872631 A T
exonic Positivo 385 255 42.86 chr3 12645699 12645699 G A
exonic Positivo 321 255 46.73 chr7 151478370 151478370 C A
exonic;splici
ng Positivo 153 255 51.63 chr4 114277029 114277029 G A
exonic Positivo 427 255 51.29 chr14 23895019 23895019 A G
exonic;splici
ng Positivo 13 127 38.46 chr14 23893309 23893309 T C
exonic Positivo 50 255 46 chr1 201328760 201328760 T A
exonic Positivo 95 255 45.26 chr11 19206558 19206558 C T
exonic Positivo 345 255 44.64 chr12 2788668 2788668 C G
splicing Positivo 49 255 44.9 chr11 47369442 47369442 C A
exonic Positivo 591 242 47.72 chr14 23895164 23895164 C T
exonic Positivo 442 255 45.7 chr19 4099276 4099276 C T
exonic Positivo 126 255 37.3 chr11 111782334 111782334 G C
exonic Positivo 58 242 34.48 chr14 23897020 23897020 G -
exonic Positivo 89 242 35.96 chr14 23885343 23885343 C T
exonic Positivo 14 130 50 chr2 159499113 159499113 A G
exonic Positivo 1820 255 45.16 chr10 18828640 18828640 - AGGGATGTTTA
exonic Positivo 174 255 52.3 chr2 179544700 179544700 - TCT
exonic Positivo 369 255 47.97 chr12 33030827 33030827 A -
exonic Positivo 12 83 33.33 chr7 91670120 91670121 AG CA
exonic Positivo 1017 242 49.26 chr10 90699314 90699314 C T
splicing Positivo 925 255 46.27 chr7 91670121 91670121 G A
exonic Positivo 61 44.2 32.79 chr11 2592640 2592640 C T
exonic;splici
ng Positivo 179 255 48.6 chr18 28648002 28648002 - CT
splicing Positivo 184 255 45.11 chr4 114284618 114284618 T G
exonic Positivo 1097 255 50.87 chr10 18439808 18439809 TT G

202
Anexo

exonic Positivo 137 242 32.85 chr2 179602968 179602968 G A


exonic Positivo 429 255 50.35 chr7 151372519 151372519 G A
exonic Positivo 774 255 45.99 chr3 12645687 12645687 G A
exonic Positivo 826 242 44.07 chr8 62580820 62580820 - TTCTGGGA
exonic Positivo 181 255 51.38 chr6 7580598 7580598 G A
exonic Positivo 116 242 49.14 chrX 119581776 119581776 C T
exonic Positivo 168 255 39.29 chr2 179634907 179634907 T -
exonic Positivo 281 255 49.11 chr7 81599241 81599241 C G
exonic Positivo 86 255 46.51 chr7 35244126 35244128 TCT -
exonic Positivo 98 255 51.02 chr18 32455306 32455306 C T
exonic Positivo 73 255 46.58 chr1 237870323 237870323 G A
exonic;splici
ng Positivo 48 255 45.83 chr7 151478391 151478391 C T
exonic Positivo 177 255 38.42 chr1 201333497 201333497 G A
exonic Positivo 36 255 100 chr14 23885493 23885493 A C
exonic Positivo 720 255 47.22 chr7 151478406 151478406 C T
exonic Positivo 470 255 50.64 chr1 237777722 237777722 C G
exonic Positivo 98 255 44.9 chr17 78078692 78078692 T C
exonic Positivo 29 255 48.28 chr11 47374186 47374186 C G
exonic Positivo 124 242 44.35 chr1 237758826 237758826 T C
exonic Positivo 17 141 41.18 chr2 179453427 179453427 G A
exonic Positivo 26 180 34.62 chr3 14180756 14180756 T G
exonic Positivo 1086 255 47.15 chr1 236924443 236924443 - ATC
exonic Positivo 371 255 46.9 chr7 150649814 150649814 A G
exonic Positivo 123 127 47.97 chr1 201328373 201328373 G A
exonic Positivo 110 242 40.91 chr12 32945401 32945401 A T
exonic Positivo 126 255 50 chr18 29125786 29125786 T C
exonic Positivo 268 255 45.52 chr7 128483926 128483926 C -
CTGAGACAGTCAGGGGA
exonic Positivo 324 242 47.22 chr9 103348400 103348400 - GAGG
exonic;splici
ng Positivo 9 74 33.33 chr19 47259650 47259650 C G

203
Anexo

exonic Positivo 35 211 45.71 chr14 23895023 23895023 G A


exonic Positivo 32 242 43.75 chr18 28648002 28648002 - CT
exonic Positivo 315 255 46.35 chr17 37822045 37822045 C T
exonic Positivo 52 242 46.15 chr7 151478453 151478453 C T
exonic Positivo 72 196 34.72 chr7 150644474 150644474 - CCG
exonic Positivo 7 121 71.43 chr18 32428280 32428280 G A
exonic Positivo 28 110 28.57 chr12 33030827 33030827 A -
exonic Positivo 95 255 51.58 chr3 38591853 38591853 A G
exonic Positivo 38 210 47.37 chr5 45696002 45696010 CCACCGCCG -
exonic Positivo 172 255 47.67 chr12 2675728 2675728 A G
exonic Positivo 26 212 42.31 chr1 237730059 237730059 C T
exonic Positivo 17 163 47.06 chr1 227073271 227073271 C T
exonic Positivo 50 255 48 chr1 237540674 237540674 G A
exonic Positivo 341 255 48.97 chr12 2675728 2675728 A G
exonic Positivo 15 212 66.67 chr17 39913901 39913901 G A
exonic Positivo 134 255 50.75 chr14 23863311 23863311 T C
exonic Positivo 192 255 40.62 chr18 28671068 28671068 C T
exonic Positivo 147 255 46.26 chr10 112572062 112572062 G A
exonic Positivo 192 255 47.4 chr12 33031395 33031395 G A
exonic Positivo 123 255 51.22 chr18 29178610 29178610 C T
exonic Positivo 233 255 51.07 chr7 81603842 81603842 G A
exonic Positivo 8 58 37.5 chr12 112926848 112926848 G A
exonic Positivo 195 255 100 chr6 121768369 121768369 C A
exonic Positivo 316 242 44.94 chr2 159490618 159490618 G A
exonic;splici
ng Positivo 114 242 49.12 chr10 88466442 88466442 A G
exonic Positivo 93 255 47.31 chr1 201328760 201328760 T A
exonic Positivo 4 79 75 chr2 21225614 21225618 ACCGT -
CTGAGACAGTCAGGGGA
exonic Positivo 9 22 22.22 chr9 103348400 103348400 - GAGG
exonic Positivo 224 255 41.07 chr19 4099312 4099312 G T

204
Anexo

exonic Positivo 484 255 39.05 chr20 32031313 32031313 G A


exonic Positivo 385 255 49.09 chr9 140772415 140772415 C T
exonic Positivo 138 255 45.65 chr19 55665477 55665477 G A
exonic Positivo 398 255 97.74 chr1 237608788 237608788 C T
exonic;splici
ng Positivo 15 129 40 chr12 2602427 2602427 A G
exonic Positivo 955 255 48.27 chr14 23885041 23885041 C A
exonic Positivo 866 255 48.27 chrX 119581851 119581851 T A
exonic;splici
ng Positivo 84 255 47.62 chr17 39925402 39925402 G A
exonic Positivo 54 255 46.3 chr4 114269433 114269433 A G
exonic Positivo 75 255 50.67 chr15 48766766 48766766 C G
exonic Positivo 175 255 48.57 chr20 30409345 30409345 G A
exonic Positivo 66 255 46.97 chr15 73616089 73616089 A C
exonic Positivo 398 255 44.47 chr7 150644465 150644465 G A
exonic;splici
ng Positivo 36 212 50 chr11 47364189 47364189 C T
splicing Positivo 1480 255 46.89 chr11 47359343 47359343 C T
exonic Positivo 188 255 48.94 chr10 112583237 112583237 G T
exonic Positivo 1465 255 47.92 chr7 150652530 150652530 C T
exonic Positivo 874 255 50.23 chr21 35742947 35742947 T C
exonic Positivo 590 255 48.31 chr12 33030921 33030921 G T
exonic Positivo 21 146 28.57 chr1 237993918 237993918 T G
exonic Positivo 14 109 35.71 chr4 114277747 114277747 G A
exonic Positivo 17 192 70.59 chr3 53839113 53839113 C G
exonic Positivo 1141 255 46.54 chr9 140918181 140918195 ACCACGGAGAAGGAG -
exonic Positivo 23 255 100 chr7 150655510 150655518 CGCCGCCCG -
exonic Positivo 124 255 49.19 chr10 88441437 88441437 C T
exonic Positivo 43 210 37.21 chr18 29104712 29104712 G A
exonic Positivo 705 255 48.09 chrX 108867969 108867969 G C
splicing Positivo 560 255 47.32 chr12 2786965 2786965 G A
exonc Positivo 996 255 48.09 chr11 47369236 47369236 G C

205
Anexo

exonic Positivo 671 255 44.71 chr14 23900677 23900677 C T


exonic Positivo 288 255 48.26 chr17 68171545 68171545 G A
exonic Positivo 357 255 46.5 chr1 237675024 237675024 G A
exonic Positivo 62 112 45.16 chr10 92678687 92678687 C A
exonic Positivo 299 255 47.16 chr3 38592527 38592527 G A
splicing Positivo 977 255 53.33 chr3 38628904 38628904 C G
exonic Positivo 74 255 60.81 chr10 18439808 18439809 TT G
exonic Positivo 212 255 45.75 chr1 201334426 201334426 G A
exonic Positivo 71 255 43.66 chr4 114286254 114286254 G C
exonic;splici
ng Positivo 231 255 54.11 chr11 47362731 47362731 C T
exonic Positivo 327 255 55.96 chr11 47360955 47360955 C T
exonic Positivo 770 255 49.35 chr1 156107470 156107470 G A
exonic Positivo 564 255 46.28 chr10 88477867 88477867 C T
exonic Positivo 1056 255 51.52 chr14 23895001 23895001 A T
exonic Positivo 778 225 21.85 chr18 29126615 29126615 G T
exonic Positivo 948 255 45.78 chr14 23862645 23862645 G A
exonic Positivo 31 255 48.39 chr2 179428619 179428619 G A
exonic Positivo 1586 255 48.05 chr2 179514941 179514958 TTTTCCTCTTCAGGAGCA -
exonic Positivo 220 255 34.55 chr18 29126689 29126689 C T
exonic Positivo 1144 255 46.85 chr7 73477543 73477543 G A
exonic Positivo 1259 255 45.59 chr11 19204267 19204267 T C
exonic Positivo 844 255 45.38 chr14 23885394 23885394 A T
splicing Positivo 815 255 47.36 chr10 112769067 112769067 A G
exonic;splici
ng Positivo 285 255 45.96 chr12 32945428 32945428 T G
exonic Positivo 649 255 46.22 chr12 33021868 33021868 C T
exonic Positivo 650 242 50.46 chr14 23899059 23899059 C T
exonic Positivo 602 255 46.35 chr10 112572355 112572355 C G
exonic Positivo 27 241 48.15 chr6 112512969 112512969 T C
exonic Positivo 282 255 50.71 chr2 179606004 179606004 - GAT

206
Anexo

exonic Positivo 368 255 54.35 chr15 66729196 66729196 G A


exonic Positivo 1590 255 50.75 chr17 37821709 37821709 C T
exonic;splici
ng Positivo 1660 255 46.39 chr11 47359115 47359115 C T
exonic Positivo 1235 255 46.8 chr14 23895023 23895023 G A
exonic Positivo 241 255 53.53 chr1 116287463 116287463 A T
exonic Positivo 51 255 49.02 chr1 116287479 116287479 T C
exonic Positivo 56 255 57.14 chr6 7580084 7580084 A T
exonic Positivo 94 255 55.32 chr6 7585509 7585509 C G
splicing Positivo 8 126 62.5 chr7 151478406 151478406 C T
exonic Positivo 606 255 46.04 chr7 128486043 128486043 G C
exonic Positivo 648 255 41.82 chr12 33030988 33030988 G A
exonic Positivo 550 255 47.82 chr20 42744802 42744802 C T
exonic;splici
ng Positivo 2058 242 46.55 chr14 23899092 23899092 C T
exonic Positivo 2100 176 42.33 chr18 29099774 29099774 C G
exonic Positivo 1119 255 50.49 chr8 11615928 11615928 G A
exonic Positivo 261 255 45.21 chr12 25362759 25362761 CTT -
exonic;splici
ng Positivo 540 255 46.3 chr12 25362755 25362757 ACT -
exonic Positivo 474 19.3 86.08 chr4 186425638 186425638 C T
exonic Positivo 1320 255 47.73 chr12 111356949 111356949 A G
splicing Positivo 873 255 51.89 chr17 8193156 8193156 C T
exonic Positivo 600 242 45.17 chr7 81603872 81603872 - GA
exonic Positivo 584 131 40.92 chr19 16596048 16596048 C A
exonic Positivo 157 255 44.59 chr1 78408505 78408505 T A
exonic Positivo 28 136 25 chr6 7580212 7580212 - CC
exonic Positivo 1260 255 46.9 chr6 7580211 7580211 - GC
exonic Positivo 347 255 48.13 chr17 78092585 78092585 C T
exonic Positivo 321 255 43.3 chr17 78091513 78091513 G A
exonic Positivo 524 255 49.62 chr1 236894600 236894600 T C
exonic Positivo 452 255 49.56 chr21 35821826 35821826 C T

207
Anexo

exonic Positivo 394 242 42.13 chr10 121429517 121429517 A G


exonic Positivo 802 255 48 chr3 38647498 38647498 C T
exonic Positivo 304 255 45.07 chr1 201334420 201334420 G A
exonic Positivo 125 242 40.8 chr1 237758833 237758833 G -
exonic Positivo 786 255 46.44 chr3 38646292 38646292 C T
exonic Positivo 217 255 51.61 chr14 23894525 23894525 C T
exonic Positivo 850 255 47.41 chr17 37821649 37821651 GAG -
exonic Positivo 265 255 48.3 chr14 23894528 23894528 G A
exonic Positivo 909 242 46.86 chr10 121436429 121436429 G A
exonic;splici
ng Positivo 3 130 100 chr6 133827305 133827305 A G
exonic Positivo 249 255 48.19 chr12 112924286 112924286 C T
exonic Positivo 363 255 44.9 chr6 7575564 7575566 TTG -
exonic Positivo 433 255 48.04 chr11 47372955 47372971 GCCAGCGCACCTTCACT -
exonic Positivo 676 255 47.04 chr14 23874951 23874951 A C
exonic Positivo 295 242 45.42 chr20 42815093 42815093 C T
exonic Positivo 299 255 33.11 chr3 38597947 38597947 G C
exonic Positivo 1135 255 46.78 chr2 179437213 179437213 G C
exonic Positivo 555 255 53.15 chr2 21236191 21236191 - AACACCCAG
exonic;splici
ng Positivo 613 255 40.62 chr12 33031281 33031281 A G
exonic Positivo 117 255 50.43 chr1 237670107 237670107 A G
exonic Positivo 971 255 44.39 chr17 68171380 68171380 G A
exonic Positivo 261 255 49.81 chr10 18828446 18828446 C G
exonic Positivo 665 255 46.77 chr14 23902931 23902931 G A
exonic Positivo 2440 255 48.24 chr1 237804240 237804240 G A
exonic;splici
ng Positivo 267 255 46.44 chr15 63349280 63349280 C G
exonic;splici
ng Positivo 47 255 48 chr1 237670107 237670107 A G
exonic Positivo 36 154 25 chr1 237954736 237954736 T G
exonic Positivo 704 255 47.16 chr14 23887429 23887429 C G
exonic Positivo 153 255 50.33 chr7 128470940 128470940 C G

208
Anexo

exonic Positivo 39 255 58.97 chr15 35086934 35086934 C T


splicing Positivo 23 253 65.22 chr18 28666624 28666624 C A
exonic Positivo 708 255 46.47 chr3 38663985 38663985 G T
exonic Positivo 69 255 56.52 chr5 127599241 127599241 A G
exonic Positivo 997 255 49.45 chr14 23887522 23887522 C T
exonic Positivo 387 255 99.48 chr4 114275121 114275121 G C
exonic Positivo 160 255 55.62 chr11 47372859 47372859 C T
exonic Positivo 18 204 50 chr1 237586436 237586436 G A
exonic Positivo 856 255 44.04 chrX 135292104 135292104 T C
exonic Positivo 412 242 34.22 chr21 35821754 35821754 C T
exonic;splici
ng Positivo 36 240 47.22 chr17 37822174 37822174 C T
exonic Positivo 63 255 44.44 chr18 28648301 28648301 T C
ATCGTTTTTCGACAATGT
exonic Positivo 605 242 43.14 chr2 179427439 179427439 - AGTTT
exonic Positivo 1042 242 51.92 chr7 128494160 128494160 G A
exonic Positivo 13 255 100 chr7 151478498 151478498 G A
exonic Positivo 37 242 48.65 chr12 21958185 21958185 - A
exonic;splici
ng Positivo 257 255 50.19 chr2 179423092 179423092 G -
exonic Positivo 1281 255 45.82 chrX 153607921 153607921 T C
exonic Positivo 637 255 48.19 chr7 128493545 128493545 T -
exonic;splici
ng Positivo 8 104 50 chr1 156105716 156105716 C T
exonic Positivo 11 84 36.36 chr2 179603871 179603871 T A
splicing Positivo 90 242 46.67 chr2 179430143 179430143 G G
exonic Positivo 143 255 39.16 chr12 33049442 33049442 C T
exonic Positivo 269 242 47.21 chr12 33049510 33049510 C G
exonic Positivo 265 242 43.77 chr10 121429564 121429564 - AG
exonic;splici
ng Positivo 43 255 44.19 chr10 121429543 121429543 C T
exonic Positivo 673 255 49.48 chr10 121432162 121432162 G -
exonic Positivo 12 144 50 chr10 121436382 121436383 TA -

209
Anexo

exonic Positivo 231 255 37.23 chr1 201333463 201333463 C T


exonic Positivo 2229 255 46.52 chr2 179604819 179604819 C A
splicing Positivo 1638 242 50.31 chr7 150674974 150674974 G A
exonic Positivo 1159 255 47.8 chr7 128480071 128480071 C G
exonic Positivo 298 255 54.03 chr2 179435424 179435424 C T
exonic Positivo 85 255 44.71 chr2 179399106 179399107 CT -
exonic;splici
ng Positivo 108 255 49.07 chr1 100346234 100346234 C G
exonic Positivo 332 255 47.89 chr1 201331144 201331144 G A
exonic Positivo 120 255 50 chr3 52485461 52485461 C T
exonic Positivo 31 159 29.03 chr6 7583008 7583008 G A
exonic Positivo 207 255 99.52 chr6 7576616 7576616 G A
exonic Positivo 17 255 100 chr1 156104249 156104249 G A
exonic;splici
ng Positivo 211 255 52.13 chr1 236849999 236849999 A G
exonic;splici
ng Positivo 10 100 40 chrX 32456360 32456360 C A
exonic Positivo 16 255 100 chrX 153607921 153607921 T C
exonic Positivo 185 255 44.86 chr10 75854109 75854109 A G
exonic;splici
ng Positivo 288 255 45.49 chr18 28681922 28681922 G A
exonic Positivo 194 255 50.52 chrX 153607921 153607921 T C
splicing Positivo 13 138 46.15 chr6 7583346 7583346 C T
exonic Positivo 143 255 44.06 chr9 108358939 108358939 G A
exonic Positivo 10 250 100 chr10 75854109 75854109 A G
splicing Positivo 30 254 53.33 chr18 28681922 28681922 G A
exonic;splici
ng Positivo 32 209 43.75 chr3 46899772 46899772 A T
exonic Positivo 3 103 100 chrX 153607921 153607921 T C
exonic Positivo 8 183 100 chr11 47371385 47371385 G T
exonic;splici
ng Positivo 11 235 100 chr19 11233940 11233940 G A
exonic;splici
ng Positivo 449 255 49.44 chrX 153607921 153607921 T C

210
Anexo

exonic;splici
ng Positivo 72 255 59.72 chrX 153607921 153607921 T C
exonic Positivo 891 255 49.83 chrX 153607921 153607921 T C
exonic Positivo 140 242 53.57 chr1 237791224 237791224 T C
splicing Positivo 637 242 43.64 chr14 23887591 23887591 G C
exonic Positivo 547 255 46.44 chr2 179469713 179469713 C T
exonic Positivo 45 218 42.22 chr10 18439856 18439856 T -
exonic Positivo 1300 255 43.85 chr2 179605216 179605217 TT -
exonic Positivo 843 255 45.67 chr1 237798237 237798237 C T
exonic Positivo 321 242 46.42 chr7 150655161 150655161 C A
exonic Positivo 383 255 41.25 chr4 114294297 114294297 A G
exonic Positivo 342 255 41.52 chr1 237991722 237991722 G A
exonic Positivo 70 255 37.14 chr2 179464302 179464304 CCT -
exonic Positivo 247 255 47.37 chrX 100656642 100656642 G T
exonic;splici
ng Positivo 186 255 46.24 chr8 103663953 103663953 C A
exonic Positivo 201 255 43.28 chr5 137216547 137216547 C T
exonic Positivo 249 255 49.4 chr12 2613692 2613692 G A
exonic Positivo 74 255 47.3 chr3 38655514 38655514 G A
exonic Positivo 91 255 42.86 chr1 236912497 236912497 A G
exonic Positivo 58 255 53.45 chr2 179425366 179425366 C T
exonic Positivo 131 242 49.62 chr10 88451786 88451786 T C
splicing Positivo 54 242 53.7 chr14 23855319 23855319 C T
splicing Positivo 176 255 52.27 chr11 47371315 47371315 G A
exonic Positivo 122 255 43.44 chr7 128488780 128488781 CT -
splicing Positivo 140 255 40 chr12 33031040 33031040 - C
splicing Positivo 268 242 44.03 chr14 23900793 23900793 C T
exonic Positivo 240 255 48.75 chr15 63336360 63336360 A G
exonic Positivo 28 190 39.29 chr1 237774125 237774125 C T
exonic;splici
ng Positivo 284 255 47.54 chr2 179442209 179442209 T -
exonic Positivo 142 255 50.7 chr11 47358942 47358942 C T

211
Anexo

exonic Positivo 373 255 44.77 chr11 47356625 47356625 G A


splicing Positivo 26 255 46.15 chr2 179447199 179447199 T C
exonic;splici
ng Positivo 29 238 44.83 chr11 47357564 47357564 T C
exonic Positivo 6 183 100 chr2 39216452 39216452 T C
exonic Positivo 130 255 42.31 chr19 49699879 49699879 C T
exonic Positivo 9 220 100 chr7 128490046 128490046 C T
splicing Positivo 22 255 100 chrX 153607867 153607867 C G
exonic;splici
ng Positivo 23 255 100 chr11 47360070 47360070 C T
exonic;splici
ng Positivo 14 255 100 chrX 153607921 153607921 T C
exonic;splici
ng Positivo 222 255 50.45 chrX 153607921 153607921 T C
exonic;splici
ng Positivo 7 31 57.14 chrX 153607921 153607921 T C
exonic Positivo 236 255 53.81 chrX 153607921 153607921 T C
exonic Positivo 322 255 45.96 chr15 63349280 63349280 C G
exonic Positivo 127 69.2 40.94 chr2 220435325 220435325 G T
exonic Positivo 395 255 47.34 chr7 73470720 73470720 G A
exonic Positivo 52 255 59.62 chr2 179446842 179446842 G T
exonic;splici
ng Positivo 88 255 56.82 chr11 2610034 2610034 - C
exonic Positivo 213 255 48.83 chr1 237923082 237923082 C T
exonic Positivo 375 242 43.73 chr3 38645234 38645234 C A
exonic Positivo 78 242 42.31 chr20 62046403 62046403 C T
exonic Positivo 472 255 41.1 chr14 23894525 23894525 C T
exonic Positivo 264 255 49.24 chr3 123419122 123419124 CTT -
exonic Positivo 118 255 45.76 chr17 37821649 37821651 GAG -
exonic Positivo 598 255 43.65 chr6 112513026 112513026 G C
exonic Positivo 252 255 52.78 chr14 23898246 23898246 C T
exonic Positivo 475 255 47.58 chr19 46273841 46273841 A T
exonic Positivo 33 242 45.45 chr18 29126108 29126108 T G
exonic Positivo 152 242 31.58 chr15 66679738 66679738 C T

212
Anexo

exonic Positivo 197 255 50.25 chr12 32994037 32994037 C T


exonic Positivo 621 255 46.7 chr2 220422132 220422144 GCTCCGTGCCCCC -
GCATTCCTACTTACGGGGT
exonic Positivo 206 242 37.86 chr7 73470628 73470651 TGGAG -
exonic Positivo 455 255 47.69 chr9 141012490 141012490 G A
splicing Positivo 4 79.2 75 chr5 137211553 137211553 C A
exonic Positivo 160 255 50 chr9 141000148 141000148 T -
exonic Positivo 130 4.77 100 chr1 26393918 26393918 C T
exonic Positivo 372 255 47.31 chr11 2466509 2466509 C A
exonic Positivo 416 255 42.31 chr11 47364270 47364270 G A
exonic Positivo 22 137 31.82 chr10 112572458 112572458 G T
exonic Positivo 217 255 53 chr1 237604682 237604682 G A
exonic Positivo 370 255 42.97 chr7 91603082 91603082 C G
exonic Positivo 240 242 34.17 chr11 47433573 47433573 C T
exonic Positivo 90 255 54.44 chr3 8775651 8775651 A G
exonic Positivo 20 242 55 chr18 28659897 28659897 T C
AAGGCAGTCAGGAGAGAG
exonic Positivo 523 210 25.24 chr9 103348340 103348360 GCT -
exonic Positivo 283 255 45.58 chr19 55667616 55667616 G A
GCTGCTGTTGCCGCTGC
exonic Positivo 131 242 44.27 chr8 62626906 62626906 - T
exonic Positivo 161 255 100 chr10 92678687 92678687 C A
exonic Positivo 126 255 44.44 chr2 220286102 220286102 G A
exonic Positivo 417 255 45.56 chr1 12024294 12024295 TC -
exonic Positivo 59 234 37.29 chr15 63335090 63335090 G T
exonic Positivo 200 255 46 chr1 201333469 201333469 C T
exonic Positivo 772 255 45.47 chr18 28648870 28648870 C T
exonic Positivo 110 255 44.55 chr7 150654468 150654468 G A
exonic;splici
ng Positivo 336 255 47.92 chr10 112540896 112540896 A T
exonic Positivo 377 255 48.28 chr18 19345740 19345740 G C
exonic;splici
ng Positivo 267 255 46.82 chr6 7576540 7576540 G T

213
Anexo

exonic Positivo 252 255 45.24 chr15 48782270 48782270 G A


exonic;splici
ng Positivo 657 255 49.01 chr7 150654525 150654525 G A
exonic Positivo 334 255 41.62 chr3 38593041 38593041 G A
exonic Positivo 137 255 52.55 chr19 55665477 55665477 G A
exonic Positivo 308 242 45.45 chr14 23898487 23898487 C T
exonic Positivo 804 255 47.14 chr7 81689787 81689787 A G
exonic Positivo 846 255 46.34 chr11 2591915 2591915 G A
exonic Positivo 307 255 43 chr7 128486496 128486496 - A
exonic Positivo 610 255 48.69 chr6 133769292 133769292 T A
exonic Positivo 38 255 55.26 chr9 103340756 103340756 C G
exonic Positivo 346 255 45.95 chr14 23876384 23876384 G A
exonic Positivo 262 255 40.84 chr2 39213165 39213165 C T
exonic Positivo 223 255 41.26 chr14 23859492 23859492 C T
exonic Positivo 316 255 47.15 chr8 62430100 62430100 C T
exonic Positivo 270 255 46.67 chr1 162337045 162337045 G A
exonic Positivo 637 242 47.72 chr8 62577896 62577896 G A
exonic Positivo 62 255 50 chr9 103348558 103348558 G C
exonic Positivo 24 255 95.83 chr14 23894580 23894580 G C
exonic Positivo 15 131 53.33 chr6 7585192 7585192 - G
exonic Positivo 603 255 47.76 chr10 18429691 18429691 C T
exonic Positivo 17 161 76.47 chrX 108868207 108868207 G A
exonic Positivo 489 242 48.06 chr9 137534095 137534095 C G
exonic Positivo 283 242 33.92 chr3 30729990 30729990 G C
exonic Positivo 218 255 43.12 chr9 140917996 140917996 G A
exonic Positivo 86 255 47.67 chr2 179416868 179416870 TCC -
exonic Positivo 320 255 41.56 chr2 179547542 179547559 ATATTCCTCATATTCTTC -
exonic Positivo 732 255 46.72 chr21 44482447 44482447 A G
exonic Positivo 509 255 47.35 chr1 237205828 237205828 G A
exonic Positivo 858 255 47.67 chr9 131709267 131709267 A G

214
Anexo

exonic Positivo 735 242 42.72 chr6 129609038 129609038 T C


exonic Positivo 72 255 43.06 chr6 129571338 129571338 C T
exonic Positivo 57 255 38.6 chr6 129609038 129609038 T C
exonic Positivo 55 139 29.09 chr6 129573393 129573394 AG -
exonic;splici
ng Positivo 14 96 50 chr3 38627361 38627361 C T
exonic;splici
ng Positivo 239 255 46.03 chr10 112581039 112581039 G A
exonic Positivo 202 242 56.93 chrX 119575586 119575586 T -
exonic Positivo 25 182 48 chr10 88441401 88441401 C T
exonic Positivo 81 255 43.21 chr5 148206683 148206683 A C
exonic Positivo 362 255 44.48 chr12 33031155 33031155 - T
exonic Positivo 34 233 52.94 chr3 38603958 38603958 G A
exonic Positivo 3 37.1 66.67 chr2 179458924 179458924 C T
exonic;splici
ng Positivo 253 255 41.9 chr15 48905269 48905269 C T
exonic Positivo 20 130 45 chr11 47355553 47355553 G A
splicing Positivo 165 255 39.39 chr11 2466509 2466509 C A
exonic Positivo 46 242 50 chr15 48740964 48740964 C A
exonic Positivo 187 255 51.87 chr3 38622687 38622687 C T
exonic Positivo 351 255 44.16 chr18 29100782 29100782 C A
exonic Positivo 221 4.77 99.1 chr2 21233102 21233104 TCA -
exonic Positivo 394 255 45.43 chr11 128786490 128786490 G A
exonic Positivo 353 255 48.44 chr10 121436477 121436477 G A
exonic;splici
ng Positivo 134 255 49.25 chr19 35524944 35524944 G A
exonic Positivo 273 255 45.05 chr19 55663278 55663278 C T
exonic Positivo 422 255 47.39 chr20 30414640 30414640 G A
exonic Positivo 453 207 36.64 chr12 2800336 2800336 G T
exonic Positivo 544 255 45.04 chr11 47353674 47353674 C T
exonic Positivo 44 255 50 chr2 189854850 189854850 G A
exonic;splici AAGGCAGTCAGGAGAGAG
ng Positivo 13 119 38.46 chr9 103348340 103348360 GCT -

215
Anexo

exonic Positivo 126 244 32.54 chr2 189974954 189974954 A C


exonic Positivo 37 160 35.14 chr3 12645690 12645690 G A
exonic Positivo 145 255 44.83 chr10 75855425 75855425 A C
exonic Positivo 169 242 40.24 chr10 112579911 112579911 C A
exonic Positivo 58 255 50 chr14 23859551 23859551 G C
exonic Positivo 122 255 57.38 chr18 32418752 32418752 C T
exonic Positivo 178 255 48.88 chr11 47364241 47364243 CTT -
exonic Positivo 9 75 44.44 chr11 47371414 47371414 C T
exonic Positivo 273 255 54.21 chr7 91690709 91690709 C G
exonic Positivo 136 255 42.65 chr4 114294462 114294462 C T
exonic Positivo 314 242 46.5 chr17 39925402 39925402 G A
exonic Positivo 49 178 51.02 chr18 29111191 29111191 A G
exonic Positivo 149 255 61.74 chr10 88459081 88459081 C T
exonic Positivo 138 255 43.48 chr1 116243877 116243879 GTC -
exonic Positivo 247 255 40.89 chr14 23859338 23859338 C G
exonic Positivo 59 255 47.46 chr1 147230821 147230821 C A
exonic Positivo 114 255 47.37 chr18 29099850 29099850 G A
splicing Positivo 513 255 49.32 chr1 237617752 237617752 G A
exonic Positivo 34 226 41.18 chr11 47355103 47355103 C T
exonic Positivo 19 147 47.37 chr12 112940026 112940026 C T
exonic Positivo 145 255 46.21 chr6 7583974 7583974 G A
splicing Positivo 204 255 51.47 chr1 156106998 156106998 C T

216
Anexo

Anexo I Publicaciones

217
Anexo

218
Anexo

219
Anexo

220
Anexo

221
Anexo

222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241

También podría gustarte