Está en la página 1de 101

GENÓMICA

María Rodríguez Barrio


3º de biotecnología
Genómica 3º Biotecnología

TECNOLOGÍAS DE EDICIÓN DEL GENOMA 


1. INTRODUCCIÓN

Edición Genómica​: técnicas avanzadas de biología molecular para facilitar modificaciones genómicas
en puntos concretos de una manera precisa y eficiente.

Hay tres tipos:

1. ZFN (Zinc Finger)


2. TALEN (Transcriptional Activator-Like Effector Nucleases)
3. CRISPR/Cas9 (Clustered Regulatory Interspaces Short Palindromic Repeats/ associated
endonuclease Cas9)

Las tres hacen el mismo proceso, cortar el genoma en un punto concreto, pero de diferentes formas.
Se diferencian en la manera en la que se localiza el punto de corte en el genoma y cómo se quiere
cortar.
Buscan la manera de reconocer secuencias específicas del genoma y las tres cuentan con
endonucleasas asociadas a dominios de localización encargadas de realizar el corte en el genoma.
Cuando las sondas “se pegan” al genoma las endonucleasas cortan en ambas cadenas. Tras la
ruptura, existen 2 sistemas de reparación (que son sistemas intrínsecos de la célula):
- ​NHEJ: se introducen deleciones o inserciones. Por lo tanto, se elimina la función del gen

(gen knock out). También, aunque raras veces, se produce inserción de genes (knock in).
- ​HR: si añadimos una pieza externa de DNA, el sistema lo introduce en el lugar donde se

ha producido la ruptura “break” (gen knock in). O también, podemos modificar una
simple base, creando un alelo nuevo, causante de muchas modificaciones.

PROS Y CONTRAS

Lucía Casas, Eduardo Fernández, Patricia R. Tascón


Genómica 3º Biotecnología

NEHJ HR

Mutaciones aleatorias (inserciones Más preciso


deleciones)

Genes knockout Genes knock -in

Mayor frecuencia de cometer errores Menor frecuencia de cometer errores

Más utilizado (eucariotas) Menos utilizado (la eficiencia de que el gen se


inserte en el lugar que queremos es muy baja
<1%)

2. ZFNs, TALENs y CRISPR


Se obtienen mediante ingeniería genética.
Ambos presentan dos dominios:
-​ ​Dominio de reconocimiento
- ​Dominio endonucleasa denominado FokI. Funciona como un dímero, necesita de ambas

partes para cortar. Ambos módulos tienen que estar unidos cuando se produce el corte.

2.1. ZFNs
Cada módulo de reconocimiento,
denominados “fingers”, reconoce de tres en
tres bases (característica principal). Tienen
que ser bases fijadas. Por ello, es un proceso
más complicado y poco eficiente, además de
lento, razón por la cual se han dejado de
utilizar prácticamente.

2.2. TALENs
A diferencia de los ZFNs no reconocen de tres en tres, sino de uno en uno. En cada módulo se
reconoce una base, lo que permite un diseño de la sonda mucho más flexible y por lo tanto más
precisa, además de que se incrementa el
número de sitios potenciales. Está
formado por 33 aminoácidos y en
función de el dominio de
reconocimiento (combinación de
aminoácidos) reconoce una base u otra.
Los módulos de corte (endonucleasa) se
encuentran próximos entre ellos, puede
haber solapamiento o que entre ellos
haya un hueco.

Lucía Casas, Eduardo Fernández, Patricia R. Tascón


Genómica 3º Biotecnología

Este proceso ya no es tan complicado, es decir, el proceso de fabricación a nivel de laboratorio es


más fácil, aunque sigue siendo bastante laborioso y la eficiencia es variable pero más que ZNFs.
2.3. C​RISPR ​(Visión general)
En este caso la endonucleasa es la denominada Cas9. Además, presenta un fragmento de RNA, el
cual contiene la zona de reconocimiento que se quiere cortar en el DNA. Si no introducimos un gen
se produce una deleción. También mediante este proceso se puede producir inserciones.

§ Simple y fácil de usar. No requiere de compleja ingeniería genética.


§ Eficiente.
§ Bajo coste.
§ Permite editar varios genes al mismo tiempo.

Es el mecanismo de inserción más utilizado hoy en día.

Ejemplos en plantas​: los primeros en ser utilizados fueron los ZFNs que posteriormente fueron
reemplazados por los TALENs y ahora prácticamente solo se utiliza el CRISPR.

PROS Y CONTRAS​ ​(Resumen de los que más se utilizan)

Si tenemos bases metiladas CRISPR no las va a reconocer pero TALENs sí. De todos modos, TALENs
se sigue utilizando porque tiene una menor actividad de los efectos ​“ Off target “.​En los cromosomas
, los sistemas de edición genética actúan sobre determinados “target gens”. En el sistema CRISPR
puede ocurrir que no solo se modifique el gen diana, sino que se modifican genes no deseados,
estamos modificando otras partes del genoma que no queremos (mutaciones no deseadas), por lo
que tienen altos efectos off-target.

3. CRISPR ​(Un poco de historia)

Hace 30 años, un grupo investigando un gen, mediante el uso de las técnicas disponibles en aquella
época, descubrieron que existían secuencias repetidas. No se les dio demasiada importancia hasta
que otro grupo estudiando otro microorganismo (E. coli: icolaiiiiiii jj) y encontraron que no solo
estaban repetidas las secuencias, sino que también era palindrómicas. Estas secuencias repetidas se
encontraban separadas mediante espaciadores que presentaban el mismo número de bases
aproximadamente, al igual que dichas secuencias.

Sin embargo, aún no sabían para qué servían, no conocían su función y se expusieron diferentes
hipótesis.
Estudiando el gen iap, tras él se encontraron las secuencias repetidas y analizando las secuencias
más alejadas se descubrieron proteínas con funciones diferentes, a las que se las denominó CAS
(CRISPR Asociated genes) las cuales codificaban para genes siempre cercanos de los de CRISPR, pero
no se las relacionó con las repeticiones. Se pensaba que estaban relacionados con la reparación de
DNA.
Lucía Casas, Eduardo Fernández, Patricia R. Tascón
Genómica 3º Biotecnología

No fue hasta los años 2000 cuando, comparando con otros organismos, Mojica y Pourcel observaron
que había mucha similitud entre la secuencia de los spacers y secuencias de bacteriófagos, virus y
plásmidos.
Si los espaciadores tenían secuencias de estos microorganismos en determinadas plantas podrían ser
resistentes a ellos, por lo que ​se relacionó CRISPR con el sistema inmune​.
Cuando se produce la ​infección de un virus (u otro agente patógeno), éste inserta su DNA y, en este
caso la bacteria, que pretende defenderse, expresa las proteínas Cas con acción endonucleasa y
cortan el DNA foráneo en fragmentos y lo incorpora entre los espaciadores, haciéndose de esta
manera resistente a dicho agente patógeno. De este modo, cada vez que ataque el mismo agente
patógeno, cuando se inserta el DNA se une a Cas9 + crRNA (módulo de reconocimiento y corte)
eliminando el DNA invasor.
Cada vez que se añade un DNA invasor, éste es insertado siempre por la izquierda, “acumulándose”
hacia la derecha.

3.1. Integración

Lucía Casas, Eduardo Fernández, Patricia R. Tascón


Genómica 3º Biotecnología

3.2. Clases de CRISPR-Cas

En primer lugar, se descubrieron dos: las de Tipo I y Tipo II, que posteriormente pasaron a ser Clase I
y Clase II.
La interferencia se produce por la interacción de muchas proteínas Cas o de una sola, de esta
manera diferenciamos las clases. Las de Clase I son capaces de interaccionar con muchas proteínas
Cas o con una sola y las de Clase II solo con una proteína cas.

Es importante destacar que no todas las bacterias tienen el mismo tipo de sistema. El sistema de
defensa CRISPR no es único, hay variaciones, y cada vez se van conociendo más.
Independientemente del sistema que se utilice, el resultado es el mismo: degradación del material
extraño que se ha introducido.
La más utilizada es la Cas9.

Cas9 multidomain effector


Si queremos usar el sistema para edición, debemos añadir:
Se forma de forma natural el complejo crRNA ( es la expresión del espaciador que contiene el DNA
del virus invasor) + tracrRNA (hace de nexo de nuestra cadena de RNA que queremos utilizar para
cortar y la proteína Cas, facilitando su unión). Cas9 presenta dos lóbulos, uno de reconocimiento de
la secuencia y otro con efecto de
corte. Dentro de ellos hay diferentes
dominios.
Cuando el crRNA reconoce la
secuencia homóloga en el DNA que
la bacteria quiere eliminar (DNA
extraño), la doble hélice se abre y es
el momento en el que se produce el
corte. En el momento de la invasión
del DNA extraño se expresan varios
pre-crRNA y luego se expresa el
crRNA que le interesa a la célula.

Las células naturalmente presentan


estas dos cadenas de RNA, pero
investigadores descubrieron que, si introducimos las dos cadenas en un cluster, funciona, por lo que
se denominó a esta molécula guide RNA o sgRNA (single).
El RNA que contiene la cadena de reconocimiento (crRNA) se junta a nuestro DNA que queremos
cortar formando doble hélice, lo abriría y el módulo de corte lo cortaría.
Todo esto funciona si tenemos lo que se denomina ​PAM motive​, tres o 4 bases en la cadena que
queremos cortar, lo que restringe los lugares en los que podemos cortar en el genoma.

Target genome editing via RNA-guide Cas9 endonucleasa

Lucía Casas, Eduardo Fernández, Patricia R. Tascón


Genómica 3º Biotecnología

Es el mecanismo general, fue el que primero se utilizó, siendo muy similar a los ZFNs y TALENs, y
utilizado solo para hacer mutaciones de genes.

La secuencia PAM, tiene una estructura NGG, pudiendo ser N cualquier nucleótido, aunque
normalmente es CGG, se tiene que dar para que se produzca un corte (imagen).

La cadena que queremos cortar es


la azul, el objetivo (target); la
verde es lo diseñado
complementario a lo que
queremos cortar, pero debemos
tener en cuenta los nucleótidos
anteriores. Cuando esto se
produce, Cas corta 3 o 4 pares de
bases hacia la izquierda.

La metodología de escisión CRISPR requiere (I) de una secuencia corta de gRNA de unos 20
nucleótidos que se unen al DNA objetivo, (II) de la enzima nucleasa Cas9 que escinde 3-4 bases
después del motivo adyacente protoespacer (PAM; generalemente 5’ NGG).

4. ÚLTIMAS TECNOLOGÍAS
Basadas en la tecnología original (reconocimiento y corte), tratando de buscar otras utilidades y
hacer el sistema más completo, han sido creadas nuevas tecnologías en los últimos años. Hay varias
clases de Cas y cada cual funciona de manera distinta.

4.1. Cas9 nickase (nCas9)​ (cambio puntual en una base : nick)

Edita directamente en el DNA sin necesidad de insertar el gen modificado con la base que nosotros
queremos modificar, es decir, edita una base en el ADN sin necesidad de tener un mecanismo de
reparación que sea capaz de reinsertar la base del gen que queremos modificar. Es una variación
muy interesante y en este momento hay dos tipos, dependiendo de si a la endonucleasa Cas9 se le
ha añadido el módulo denominado CD (Cytosine Deaminase) o el AD (Adenosine Deaminase), se
producen diferentes cambios de base.

Se reconoce la diana y el
módulo asociado a al Cas9 (en
este caso el CD) me convierte
una C en U. Este uracilo
mediante el mecanismo normal
de reparación y replicación de
la célula se convierte en una T,
y así, al final tengo una
conversión C-G en un T-A.

Lucía Casas, Eduardo Fernández, Patricia R. Tascón


Genómica 3º Biotecnología

Utilizando el otro módulo (AD) me reconoce mi punto de corte y me cambia una A por una I. La
inosina no es una nucleótido natural de la cadena d DNA , por lo que la célula cuando lo repara lo
convierte en una G, obteniendo así una conversión A-T a G-C.
Cuando se lleva a cabo la replicación una hebra va a contener la mutación y la otra hebra no, ya que
es semi-conservativa.

4.2. Dead Cas9 (dCas9)

Otra segunda nueva tecnología es la


denominada dCas9. Se trata de una
variación de lo anterior. La d proviene de
que la endonucleasa Cas se le ha realizado
una mutación para que reconozca la
cadena que queremos pero sin corte. Le
hemos pegado el módulo de Cytidine
Deaminase, y a diferencia de la anterior
tecnología, necesito introducir la cadena
que yo quiero, entonces se reconoce por
el módulo sin efecto de corte y por ello no
lo corta. Este módulo produce un cambio
de G-C a A-T.

La diferencia principal ENTRE las dos es que el corte es automáticamente reparado.El módulo realiza
la misma acción en ambos casos, un cambio de base. La deaminasa simplemente como no tiene que
realizar ningún corte hace el cambio.
Tanto la nickasa como la dead, no cortan ninguna la fibra de DNA por las dos hebras: la nickasa
realiza un nick, una muesca, no corta las dos hebras mientras que la dead crea un abultamiento de
unas pocas bases (no un nick) y este simple abultamiento es el que permite el cambio de base.

Targeted genome regulation


Se utiliza el mismo sistema para activar genes o reprimir genes.
Se une a una Cas9 sin efecto de corte, se le añade una serie de dominios, de activación, represión o
metilación, y también se le añade factores de transcripción , todo ello cerca de la cadena que
queremos activar y produce la activación. Lo mismo ocurre con los represores. También puedo
añadir un dominio según quiera metilar o desmetilar.
Hay multitud de variedades .

Se realizan ensayos sobre todo en plantas, ya que en humanos todavía puede provocar efectos
secundarios graves.

4.3. Otra técnica: CRISPR/cpf system


La Cas9 y los otros tipos de Cas realizan un corte perfecto (blunt), sin embargo, esta endonucleasa
(Cpf1) en vez de hacer un corte perfecto, hace un corte solapado, lo que conlleva dos implicaciones
importantes a la hora de introducir un gen, puesto que, al tener una cadena de nucleótidos suelta, si
yo quiere introducir un gen , es más fácil que por simple homología se pegue a ello (es intuitivo), hay

Lucía Casas, Eduardo Fernández, Patricia R. Tascón


Genómica 3º Biotecnología

mayor complementariedad que cuando hay un corte perfecto. Se realizan dos cortes en diferentes
hebras pero separados unos nucleótidos. Ver dibujito edu

Tienen implicaciones a la hora de que el sistema es más eficiente cuando queremos introducir el
gen.

5. Resumen de las técnicas que se pueden aplicar


Modificar genes en modelos de ratones y para enfermedades en humanos, variaciones genéticas de
todo tipo. Está casi siempre ligado a modificación de plantas, para diseños de nuevos materiales,
modificación de plantas para producir mayor cantidad de ciertos compuestos, mejorar cultivos,
mejorar la producción de etanol y biodiesel, etc.

6. Diseño

Diseño I
A la hora de diseñar un experimento debemos fijarnos en lo que queremos, si queremos insertar un
gen, o queremos realizar un reemplazamiento de ese gen, editar ese gen una vez o varias veces o
varios genes (posibilidad de edición múltiple), o queremos crear librerías, si queremos afectar a la
regulación del gene (que se exprese más o menos).
Una vez que tenemos lo que queremos, nos fijamos en las tecnologías disponibles y escogeríamos la
que es adecuada para lo que queremos y para el organismo en cuestión.

Diseño II
El siguiente paso es diseñar la cadena donde queremos que corte. Diseño de la secuencia diana.
La técnica CRISPR es muy fácil de usar, por ello se está utilizando mucho a diferencia de las otras dos,
además de que es muy eficiente.
Construimos el cluster para luego hacer la clonación y posteriormente meteríamos el diseño junto
con otros módulos que se utilizan casi siempre cuando se hace cluster. Existen modelos predefinidos
en los que únicamente habría que modificar el SgRNA y posteriormente clonarlo para obtener el
cluster.

Diseño III
Diseño y construcción de los cassetes, una vez metido en la planta, nuestro cassete se inserta
aleatoriamente en un cromosoma y desde ahí se expresa y hace el efecto que queremos o
esperamos que haga. Se forma un callo (masa de células) donde se encontraría nuestro gen editado
hasta formar una planta entera.

Diseño III (2)


Sig diapo: una vez que tenemos el cluster lo tenemos que meter en nuestra planta, a la hora de
hacer la clonación pueden utilizarse distintos métodos. Se puede realizar ya sea mediante:
Agrobacterium (coloniza a la planta), balística (Biolistic Gun) o microinyección. El segundo de ellos se
realiza mediante una máquina que dispara bolas con el DNA que nosotros queremos introducir, por
bombardeo esas balas pequeñas se introducen en las células de las semillas a transformar.
Posteriormente, mediante PCR o secuenciación, tenemos que asegurarnos que nuestro plásmido se
ha insertado en el material genético de la planta. Una vez comprobado, plantamos las semillas y
observamos cual es la planta que tiene el gen editado.

Lucía Casas, Eduardo Fernández, Patricia R. Tascón


Genómica 3º Biotecnología

7. CRISPR Transgenic-free plants

¿Qué es lo que diferencia un gen editado por CRISPR de un gen que está genéticamente modificado?
Cuando hacemos una planta transgénica nos queda siempre parte de un fragmento de un gen que
hemos insertado en el genoma del organismo. Por este motivo, se crean una serie de críticas y el
resultado es que las planta genéticamente modificadas tienen una regulación muy severa hasta que
las plantas puedan ponerse en le mercado.

Cuando inserto el cassette, éste lo hace aleatoriamente en cualquier lugar del genoma, entonces
cuando se expresa hace el efecto que yo quiero en el gen que yo quiero, entonces tendría una hebra
editada y otra wild type. Sin embargo, como la inserción del cassette es aleatoria se podrían producir
hebras transgénicas que no son de interés en otras partes de su genoma, lo rojo indica transgénico
(tiene un fragmento de DNA que no es de la planta) y sigo teniendo la otra hebra wild type. Por
cruzamientos entre ellos ,puedo quedarme con las plantas que me interesan, es decir, que tengan
los dos genes editados en las dos hebras pero que no tenga ningún rastro de transgénicos.

Esta técnica en teoría lo que nos permite es tener una modificación simplemente de una base, lo que
sería un alelo diferente de este gen , sin ningún rastro de transgénico .

EJEMPLOS DE CASOS REALES:

-​ ​ ​ZFN en maíz​:

Trataron de hacer dos cosas: trataron de quitarse un gen que no necesitaban, que producía
acumulación de fósforo en la semilla, produciendo que el ganado que se alimenta de él presente
problemas. Entonces se cargaron con ZFNs el gen que producía acumulación de fósforo en la semilla
pero a la vez introdujeron un gen de resistencia a herbicidas, consiguiendo dos efectos en uno ( que
estas plantas fueran resistentes a herbicidas).
Es decir, la inserción del gen de resistencia a plagas provocó el silenciamiento del gen de
acumulación de fósforo.

-​ ​TALENs en arroz
Trataban de conseguir una planta resistente a una plaga. Una vez que
supieron el gen causante, diseñaron los TALENs para que cortasen y
pegasen. Quedaron 9 que tenían modificaciones que les interesaban. Como
mutación se usan delecciones y lo que observaron en la gráfica es que en las
plantas mutantes no hay expresión por lo que se demostró que el gen había
roto.

-​ ​CRISPR en arroz:
En este caso buscaban incrementar el tamaño del
grano, similar a los TALENs y los ZFNs, mediante el
silenciamiento del efecto de un gen. Mediante
deleciones produjeron que el gen no se expresase. En
la gráfica se muestra una comparativa de peso y

Lucía Casas, Eduardo Fernández, Patricia R. Tascón


Genómica 3º Biotecnología

longitud, en el wild type se observa que tiene mayor tamaño y longitud que el mutante, mayor peso.

8. Genome-editing technology pros & cons

§ Baja eficiencia de HR.


§ Off-target effects (puede tener efectos no deseados, puesto que estas sondas sobre todo
en genomas grandes existen muchos lugares similares y estas sondas se pegarían en todos
ellos, lo que no ayuda. Para esto utilizamos los programas informáticos que nos dicen si la
secuencia que queremos atacar es única o se repite)
§ Restrictive protospacer associated motif (PAM)
sequences.
§ No resto de material genético externo.
§ Menos regulaciones

...versus genetic engineering (GMOs)

§ Random insertions. (Fenotipos aleatorios)


§ Resto de material genético extraño.
§ Más regulaciones

Lucía Casas, Eduardo Fernández, Patricia R. Tascón


Genómica 3º Biotecnología

SECUENCIACIÓN 
Un secuenciador de DNA produce archivos que contienen secuencias de DNA. Estas secuencias son
cadenas llamadas “reads” en un alfabeto formado formado por cinco letras {A,T,C,G,N}.

La letra N se utiliza cuando hay una ambigüedad. En algunas zonas no se sabe exactamente el
nucleótido que le corresponde a ese lugar y se escribe una N, son importantes en procesos de
ensamblado del genoma, se tratan de zonas de alta repetición de bases.

Experimento típico

Las bacterias que queremos secuenciar su DNA las tenemos en tubos y las sembramos en placas para
cultivarlas, posteriormente se extrae su DNA y se lleva a secuenciar.

Para llevar a cabo la secuenciación tenemos que construir una librería; en el caso de que tengamos
el cromosoma bacteriano entero, lo primero que hacemos es partirlo en millones de ​fragmentos y
cada fragmento es lo que se lleva a secuenciar; el conjunto de fragmentos es a lo que denominamos
librería.

Hoy en día, se realiza una fragmentación secundaria del DNA en fragmentos todavía más pequeños
denominados “reads” (son los que se van a observar en las gráficas).

Nobel prize series​: cuando veamos un método cuyo autor haya sido galardonado con un Nobel, en
las diapos saldrá esa medalla.

1. SECUENCIACIÓN DE PRIMERA GENERACIÓN

La primera técnica de secuenciación fue descubierta en 1977 por Frederick Sanger. Antes de este
año era imposible saber la composición en nucleótidos. Este método tuvo diversos nombres
(Método de secuenciación de Sanger, Método de terminación de cadena, Método de los
dideoxinucleótidos, Secuenciación mediante método de síntesis) hasta denominarse como se conoce
hoy en día, ​Método de Sanger​.

Debido a su gran experimento, Sanger obtuvo el premio nobel en química, fue un hecho muy
importante ya que a partir de entonces se pudo saber la composición del DNA.

1.1. Secuenciación por terminación (Método de Sanger)

·Se basa en la utilización de dideoxinucleótidos (ddNTP) en cantidades mínimas de cada uno (100
veces menor), para asegurar un final anticipado en cada reacción.

·Utiliza 4 reacciones: una reacción por base: A, G, C y T.

Lucía Casas , Eduardo Fernández, Patricia R. Tascón


Genómica 3º Biotecnología

Para que el nucleótido con su base se incorpore en la cadena tiene que tener un 3’ OH. Haciendo uso
de esto, Sanger descubrió que si ponemos cambiamos el 3’ OH por un 3’ H el nucleótido no se
incorpora al no ser reconocido por la DNA polimerasa.

El experimento se basa en mezclar estos nucleótidos que


interrumpen el crecimiento de la cadena de DNA cuando
se replica, con los otros que sí permiten la replicación.
Con todo ello se pretende que, en algún momento, todas
las bases de la cadena de DNA se hayan interrumpido al
menos una vez. Se lleva a cabo en cuatro reacciones
distintas, de modo que hay una reacción para cada base
(A, C, G, T).

En las modificaciones posteriores del experimento ya


introdujeron las 4 reacciones a la vez.

Al añadir una A modificada (Add) se interrumpe la cadena, llegando a tener cadenas de distinto
tamaño en función del lugar de interrupción la síntesis.​. Realizó el mismo procedimiento con los
otros tres nucleótidos y como producto final tendré 4 tubos con multitud fragmentos de distintos
tamaños.

Los fragmentos obtenidos se cargan en un gel, normalmente de


poliacrilamida​, ya que, a diferencia de los geles de agarosa, tienen
una resolución muy alta a nivel de base, pueden separar diferencias
de una simple base.

Una vez hayamos corrido el gel, tendremos un pocillo por base, y en


función de dónde se hayan bloqueado las cadenas de DNA
obtendremos diferentes tamaños. Para revelar los resultados hay
que ir leyendo el gel horizontalmente (empezando de abajo a arriba)
hasta obtener la cadena completa. Se cargan varios pocillos con el
mismo nucleótido en el mismo gel para poder comprobarlo después.

Se trata de una técnica muy precisa y muy laboriosa, casi no tiene


fallos y hoy en día se utiliza para sobre todo para secuenciar
fragmentos de 1kb de tamaño (vectores).

Primeros genomas secuenciados

Para demostrar su técnica, los dos primeros genomas que secuenció Sanger fueron:

· Fago phiX174 (Tamaño: 5374 bp, 1975)

· Bacteriófago ​λ ​(Tamaño: 48501 bp, 1980)

Lucía Casas , Eduardo Fernández, Patricia R. Tascón


Genómica 3º Biotecnología

Separación y detección

El método requiere:

·La separación de ambas cadenas de la hebra.

·Resolución en electroforesis base a base, se consigue gracias a:

·Geles muy finos

·Alto voltaje

·Uso de radiactivos o marcadores fluorescentes

·Secado de geles

·Placas de rayos X

Es necesario repetir las reacciones varias veces para poder comprobar zonas en las el gel no se ve
claramente las que bases hay. El mecanismo es un poco tedioso ya que hay que ir mirando base a
base lo que se ha incorporado.

Presenta una ventaja adicional, ya que es bastante fácil de automatizar.

1.2. Automatización del método de dideoxinucleótidos

La diferencia con el método tradicional es que se meten los 4 nucleótidos (además de sus
correspondientes didesoxinucleótidos) en una misma reacción, marcando cada ddNTP con un
fluorocromo distinto. Los fragmentos que terminan con la misma base tendrán el mismo color de
fluorocromo, estableciendo 4 colores: el ​A verde, ​G ​negro, ​T ​rojo y ​C ​azul. Cada vez que se bloquea la
replicación en un lugar de la cadena de DNA, se produce un color diferente correspondiente a la
base que se ha incorporado.

Los productos son desnaturalizados, y para


revelar los resultados se utiliza la ​electroforesis
capilar​, que se basa en una máquina con geles
capilares muy largos. Los fragmentos se
separan por corriente de modo que los
fragmentos más pequeños quedan abajo y los
más grandes arriba. Los fluorocromos
presentes en el DNA son observados utilizando
un rayo láser y un detector. Los datos son
recogidos por un ordenador en el que cada
fragmento aparece en un pico distinto, de
modo que el color del pico nos indica la base a
la que representa. La secuencia es leída
directamente en el ordenador, que la convierte
en la complementaria.

Lucía Casas , Eduardo Fernández, Patricia R. Tascón


Genómica 3º Biotecnología

Esto supuso un cambio radical, ya que permitió la automatización del método y permitió secuenciar
genomas más complicados. El genoma humano se secuenció gracias a este método (3 gigabases)
mediante fragmentos de 20000 bp.

¡IMPORTANTE! ​Lo que verdaderamente da este método es la cadena complementaria, a partir de la


secuencia producto queremos la original, por lo que tenemos que hacer la complementaria a la que
nos salga.

Primeros genomas secuenciados (mediante Automatización)

A raíz de este método y de su posterior automatización, pudieron ser secuenciados genomas más
grandes: 2000 el primer genoma de planta (Arabidopsis), y después el del arroz y el genoma
humano.

Posteriormente surgieron las técnicas de segunda generación, pero el genoma de la soja (2010) fue
de los últimos genomas que se secuenciaron mediante esta técnica.

Para secuenciar el genoma humano se tardaron 13 años y, aunque en el camino surgieron nuevas
técnicas, siguieron con el plan establecido (Método de Sanger).

Secuenciación del genoma humano

· El genoma humano presenta 3 Gb

·Se tardó 13 años en completar (dos años antes de lo previsto).

·Contó con la colaboración de 20 laboratorios de todo el mundo

·Costó 2,7 billones de $, cuando hoy en día se puede secuenciar por 1000$.

1.3. Método de Maxam-Gilbert

Otro método de la primera generación, muy similar al


anterior, también denominado Método de la degradación
química, fue desarrollado en 1977 y también fue premiado
con el Nobel junto a Sanger en el mismo año. Este método
se basa en marcar radiactivamente la cadena de DNA a
secuenciar. Se utiliza el método por degradación química.
Su fundamento se basa en que, en vez de impedir la
incorporación de nucleótidos como en el método anterior,
degrada el último que se ha incorporado. Se emplean 4
reacciones: una que degrada A y G, otra G, otra C y otra C y
T. Una vez revelados los resultados en el gel, primero se
mira al que tiene una base individual (ya sea G y C) y veo si
hay bandas o no, para ver las otras bases miro las que
tienen mezcla (A+G o C+T), como una segunda validación.
En los carriles donde existe una mezcla de nucleótidos
veremos la banda correspondiente a G o C que coincidirá

Lucía Casas , Eduardo Fernández, Patricia R. Tascón


Genómica 3º Biotecnología

con las bandas de sus carriles individuales de modo que, donde no haya G o C va a haber una A o T.
Se dejó de utilizar rápidamente, no era fácil de automatizar y era peligroso por radioactividad.

La secuenciación estudiada hasta el momento es la denominada Secuenciación de primera


generación, se tratan de sistemas caros, laboriosos, y llevan mucho tiempo.

2. SECUENCIACIÓN DE SEGUNDA GENERACIÓN

Durante 30 años solo se utilizó el método de Sanger con su automatización, hasta que surgieron los
métodos segunda generación.

Ventajas:

·Se generan muchos millones de “reads” cortos en paralelo (Sanger solo podía secuenciar 1 cadena
de ~ 1kb cada vez). Lo que antes era muy laborioso y solo se podría secuenciar un fragmento de cada
vez ahora resultan millones.

·Se necesita menos cantidad de DNA.

·Mucho más rápido que en la primera generación.

·A un precio mucho más bajo por muestra.

·Sin necesidad de electroforesis.

Inconvenientes:

·Se genera una gran cantidad de datos que hay que procesar.

·Se necesita personal especializado (bioinformáticos).

2.1. ​Tipos de Secuenciación de Segunda Generación

Hay dos tipos (Los nombres hacen referencia a las marcas comerciales que lo han patentado):

1.​ ​Secuenciación mediante ligación (SBL)

·ABI/SOLID

2.​ ​Secuenciación mediante síntesis (SBS)

·Roche/454

·Ion Torrent

·Illumina/Solexa

Lucía Casas , Eduardo Fernández, Patricia R. Tascón


Genómica 3º Biotecnología

SECUENCIACIÓN MEDIANTE SÍNTESIS

1. Roche/454. Pirosecuenciación

Fue el primer método de segunda generación que salió al mercado. Este método utiliza una reacción
bastante intuitiva: al incorporar una base en la cadena de replicación por la polimerasa, se
desprenden 2 fosfatos. Mediante dos enzimas (Sulfurilasa y luciferasa) se produce una luz, la cual se
registra con cámaras especiales en un pico de modo que cada vez que se incorpora un nucleótido se
traduce en un pico en la gráfica. Cada pico particular pertenece a un nucleótido, y cada vez que
añado un nucleótido lavo la reacción.

1) Reacciones

Al incorporar un nucleótido al DNA​n gracias a la polimerasa se libera una molécula de PPI


(pirofosfato) quedando el material genético como DNA​n+1​. El pirofosfato es el sustrato de la enzima
Sulfurilasa, que convierte APS (adenosin-fosfosulfato) en ATP, siendo este ATP a su vez el sustrato de
la Luciferasa, que genera como producto final luz.

2) Fundamento

A la secuencia que utilizo de plantilla, le añado una molécula de ​biotina​, que a su vez se pegara a
otra proteína: ​streptavidina​, ​que permanece unida a una bolita de metal. Cuando hago las librerías,
tengo que pegar las cadenas a secuenciar a las microbolitas. Es un proceso continuo de añadir
nucleótidos y lavarlos.

3) Descripción general del sistema de secuenciación 454

Para llegar al secuenciamiento: cómo se construye la librería: cortamos en fragmentos más


pequeños nuestro DNA, el cual hay que pegar a las microbolitas. Estas bolitas tienen unas moléculas
que se pegan a la biotina que hemos añadido. Cada bolita ha de tener una cadena única de DNA, la
cual posteriormente ha de ser multiplicada mediante una clase particular de PCR que lo que me hace
es multiplicarla múltiples veces. Cada bolita tiene que tener solo copias de la misma cadena. Esto se
lleva a cabo porque los métodos de segunda generación no tienen sensibilidad, por lo cual tenemos
que generar millones de copias, para que se genera una mayor intensidad de luz gracias a que todas
las cadenas de la bola son iguales.

4) Emulsión clonal basada en amplificación

Dentro de mi tubo de ensayo tengo las bolitas, con cada cadena individual multiplicada miles o
millones de veces (ya que la PCR se realiza en el interior del tubo). Una vez que tengo ya la muestra
multiplicada, cada bolita se introduce en una celda, de modo que hay una celda por bola. Cada bola
AZUL si se ha añadido T voy a tener un solo pulso de luz, como en el dibujo se añaden dos T tendré
un pulso de luz más alto que si solo tengo una, luego el sistema los separa: la señal es proporcional al
número de bases que se han incorporado en ese momento.

Lucía Casas , Eduardo Fernández, Patricia R. Tascón


Genómica 3º Biotecnología

Es muy difícil saber cuántas moléculas del mismo nucleótido se han incorporado, lo que supone un
inconveniente. Cada vez que añado un nucleótido limpio y empieza de nuevo el proceso hasta
completar la cadena.

5) Ve​ntajas e inconvenientes de Roche/454

Ventajas

· Reads largos (400-500 bp)

· Alta producción (400-600 Mb por run)

· Funciona bastante bien cuando tengo nucleótidos distintos.

Inconvenientes

· Alta frecuencia de errores en secuencias de polinucleótidos iguales.

· Error más frecuente: número de nucleótidos impreciso en fragmentos con la misma base.

Roche fue la primera técnica que vino después del método de Sanger, y finalizó la producción del
secuenciador 454 pyrosequencing en 2013, cuando la tecnología dejó de ser competitiva, vinieron
otras tecnologías que fueron más competitivas en cuanto a precio y calidad de producción de bases.

2. Ion Torrent

Este método fue desarrollado en 2010 y es similar al anterior, salvo que cuando se incorpora un
nucleótido nuevo a la cadena que está replicando, a parte de liberarse un pirofosfato, se libera
además un protón (H+). La tecnología anterior se basaba en detectar la presencia de un PPi y en este
caso, en detectar un protón.

El mecanismo es el mismo, en cada reacción hay una base, espero a ver si se une en la cadena en el
lugar correcto (empezando desde abajo) y una vez unido se suelta el H+, se tratan de reacciones
cíclicas. Es casi idéntico al anterior, pero en vez de fluorescencia se detectan protones a través del
pequeño cambio que se produce en el pH, microcambios que son los que se representan en la
gráfica. Como la señal es muy pequeña, mediante PCR se multiplica y la señal se amplifica y aún así,
el cambio es muy pequeño.

Cuando añado la primera base (T), como se incorporan dos y la señal es proporcional al número de
bases, el pico representado será más grande, al liberarse dos protones. La segunda base que se
añade es la A pero al no haber complementariedad no se une, por lo que no hay pico. La siguiente
base es la C, sí hay complementariedad y se observa otro pico, así sucesivamente. En resumen:

- Cuando se introducen varias bases seguidas por complementariedad se produce un


incremento proporcional en la variación de pH.
- Si la base que se introduce no es complementaria no se produce variación de pH.

A nivel molecular lo que ocurre es que si complementa se suelta un protón (que es el que
detectamos) y la base se une. Presenta el mismo problema que el Roche/454, detectar una base es

Lucía Casas , Eduardo Fernández, Patricia R. Tascón


Genómica 3º Biotecnología

relativamente sencillo y preciso, pero cuando hay varias bases seguidas y son las mismas (6/7 ​bases
seguidas iguales) el cambio es más difícil de detectar para la máquina. Cuando no hay incorporación
de ningún nucleótido, no se produce ningún pico pero se lava igual. Como se ha dicho, son procesos
cíclicos y en cada uno se produce un lavado.

Ventajas e inconvenientes de Ion Torrent

Ventajas

·No necesita de ópticas y láseres caros. Tampoco de fluorescentes.

·Ventaja principal: sistemas más asequibles y baratos, además de rápidos y fáciles de operar.

·Producen reads de hasta 600 bp y 10 gb por run.

·Error ~ 1%. Un error en torno al 1% se considera muy bueno en secuenciación.

Inconvenientes

·Alta frecuencia de errores en secuencias de polinucleótidos iguales.

·Error más frecuente: número de nucleótidos impreciso en fragmentos con la misma base.

3. Illumina sequencing

Este es un sistema de secuenciación muy preciso que produce una gran cantidad de datos y es
bastante económico. También es muy flexible ya que cuenta con 8 o 10 secuenciadores distintos en
función de la especialidad de cada laboratorio.

Su mecanismo se basa en lo que se denomina ​blocked reversible terminators​, similar al método de


Sanger: cuando añadimos una base se bloquea la reacción, pero en este caso la ventaja que presenta
es que es reversible. Además, se añaden los cuatro nucleótidos a la vez, no añado de uno en uno. En
un momento incorpora una base que tiene un block terminator: 3’-blocked reversible terminators,
que provocan el bloqueo del 3’ OH, de modo que la replicación no continua, pero si añado un
químico quita una parte de la molécula para que vuelva a exponer el 3’ OH y le hace accesible a la
incorporación de más nucleótidos. La ventaja principal de este sistema es que es reversible

También esta molécula tiene un fluorescente diferente para cada nucleótido (la cual detectamos) y
se pueden cortar (reversabilidad). En el caso de que se quieran añadir múltiples bases iguales, al
añadir una ya no se añaden más (debido al bloqueador).

La incorporación es continuamente de uno en uno, cuando tengo la fluorescencia, lavo, quito el


bloqueador y los restos de fluorescencia que pueda haber y vamos al siguiente ciclo (nueva
incorporación).

Cada ciclo es una base, cada lugar exacto


en la cuadrícula (círculo) me representa
una cadena (9 ciclos).

Lucía Casas , Eduardo Fernández, Patricia R. Tascón


Genómica 3º Biotecnología

En el primer ciclo da color verde (T), segundo azul (G), tercero rojo (C) y así sucesivamente. Estos
ciclos se repiten hasta la longitud que queramos leer.

Estas tecnologías dependen de cada máquina, pero pueden leer hasta 300-400 bases. La ventaja es
que tamaño de los “reads" es siempre igual, si yo quiero un tamaño de 100 nucleótidos lo tendrán. El
tamaño de todos los reads es igual porque se establece un número de ciclos.

1) Pasos del secuenciamiento

Una vez obtenido el DNA a secuenciar lo parto en fragmentos de 400-500 bases de forma muy
“brusca” utilizando un método de sonicación que se basa en romper la cadena de DNA por sonidos,
por ondas de sonido se parte aleatoriamente. Posteriormente, separo mediante la utilización de
geles, y seleccionamos los fragmentos que necesitamos, dependiendo del tamaño del read que
queramos. Una vez que lo parto y lo seleccionamos por tamaño, obtenemos fragmentos de 400/500
pb.

Esta tecnología permite secuenciar en dos direcciones, lo que me da el tamaño del read. Si yo quiero
los reads de 250 bp (de esta manera me va a secuenciar la mayoría) tengo que cortar fragmentos
totales más grandes (500 bp), de modo que si parto de 400 bp solo secuenciaré en una dirección.

La parte de la secuencia que nos interesa secuenciar (rosa) no se secuencia entera, sino solo una
parte de la izquierda y un parte de la derecha, los “reads”. Si quiero obtener la mayor parte de la
lectura, con un tamaño de 100 bp de reads, haré fragmentos de 250 bp por la sonicación y así
secuenciaré casi todo el fragmento entero.

En cambio, si lo que yo quiero es leer contigs, me interesan distancias más largas, puedo seleccionar
fragmentos de 800 bp y por lo tanto la parte de la secuencia desconocida será mayor, ya que mi
objetivo es unir los contigs y quiero que las secuencias estén separadas.

Después de la rotura, añado los adaptadores y los primers a los fragmentos de DNA, y como la señal
es muy pequeña, no se puede detectar el cambio en una sola base, por lo que multiplico la cadena
mediante cluster amplification para que la señal quede amplificada, posteriormente la secuencio, la
detecto y analizo.

1a. ​Library preparation

Esta tecnología se basa en los ​paired-end reads,​ debido a su capacidad de secuenciar en ambas
direcciones (lo que presenta grandes implicaciones). Uno de los problemas más grandes se
encuentra en el ensamblado del genoma, cuando me encuentro con repeticiones, lo que es muy
frecuente que ocurra en los genomas (ejemplo: genoma del trigo). A veces están en zonas entre
genes (región no codificante del genoma), son secuencias basura, altamente repetidas, por lo
secuenciarlo es muy difícil, porque al estar tan repetido el mismo read podría pegarse en cualquiera
de esas repeticiones.

Gracias a esta tecnología sabemos la secuencia de cada fragmento, pudiendo reconocer un lugar
inequívocamente. En el caso de querer realizar una alineación de mi secuencia con las secuencias
repetidas de la cadena de referencia, me puedo guiar mediante los extremos secuenciados (naranja
y azul) de modo que, si consigo averiguar en qué posición del genoma está el naranja, sabré que una

Lucía Casas , Eduardo Fernández, Patricia R. Tascón


Genómica 3º Biotecnología

distancia determinada estará el extremo azul al haber establecido previamente las distancias de los
“reads” y fragmentos totales.

Illumina necesita de una serie de adaptadores y primers para llevar a cabo su trabajo, los
adaptadores son universales de Illumina (son secuencias universales para cada tipo de primer).
Realizo PCR para pegar a los adaptadores otras estructuras esenciales, los denominados índices, que
nos sirven para que la máquina distinga a qué experimento pertenece esta secuencia.

Otra de las ventajas que presenta este sistema y que es una de las características por las que Ilumina
es tan popular, es que en un mismo secuenciamiento puedo mezclar hasta 384 librerías debido a la
utilización de ​índices (es como si asignaran un “código único” a cada experimento), que son
secuencias de unos 6-8 pares de bases que no se encuentran de forma común naturalmente.

Illumina consta de 8 índices determinados, me permite secuenciar todos los fragmentos a la vez pero
puedo separarlos sabiendo los índices específicos de cada experimento. Ilumina utiliza dos índices,
uno a cada lado, para conseguir más combinaciones hasta llegar a las 384 librerías. En cada ciclo de
paired-end reads de Illumina tendré 4 lecturas: un primer me lee el ​primer índice​, otro me lee la
lectura en sentido Forward (F), otro la ​lectura en sentido Reverse (R) y el cuarto primer me leerá el
segundo índice​. Así podré distinguir a qué experimento me pertenecen estos dos reads.

Los índices son también conocidos como barcodes (códigos de barras). Gracias a su utilización la
máquina puede hacer multiplexing, es decir, añadir muchas muestras en el mismo momento para
que la máquina las lea a la vez (se hace en grandes centros de secuenciamiento). Esto me permite
secuenciar todas las secuencias a la vez mezclando librerías y posteriormente separarlas por los
índices.

Ejemplo de experimento​: Cómo afecta una plaga a una planta

Se hacen tres repeticiones de la secuencia control y otras tres repeticiones de nuestra muestra
(tratamiento) pero, tengo que poder identificarlas de manera diferente para luego analizarlas
mediante el uso de la bioinformática. Una vez que se manda a secuenciar tras haber obtenido los
fragmentos, pondríamos la máquina a rodar seis veces seguidas así que, para que esto no suceda y
como además estas máquinas tienen una gran capacidad de secuenciamiento, lo que se hace es
añadir un barcode a cada experimento, es una preparación previa al secuenciamiento, para
identificar cada fragmento. Illumina ya los tiene seleccionados, de modo que la probabilidad que
tienen de repetirse en el genoma es bastante baja. La máquina lee el índice a la vez que lee el read
(la secuencia) y así sabe qué experimento pertenece esta cadena de DNA.

Lucía Casas , Eduardo Fernández, Patricia R. Tascón


Genómica 3º Biotecnología

Ejemplo de índices​:

-​ ​Experimento 1

Índice 1​ TTATGTT ​[​primer​] ---------------------------------------------------------​ATAA ​Índice 2

Índice 3​ AAAAATT

-​ ​ E
​ xperimento2:​ aunque empiece con el mismo índice, ya podemos adjudicarlo a un experimento
distinto por que el índice con el que termina ya es diferente.

Índice 1​ TTATGTT ​[​primer​] ----------------------------------------------------------​TGGG ​Índice 4

1b. ​Cluster amplification phase​ ​(multiplicación de cada secuencia individual hasta repetirla
millones de veces).

Además de los adaptadores y los índices, a izquierda y derecha de la secuencia hay unas “colas” que
serán la base de este paso.

En una serie de placas de cristal, hay cadenas conocidas (adaptadores), complementarias a las colas
mencionadas y son de dos tipos. Al meter mis muestras en estado monocatenario la cola de la
cadena hibrida con las cadenas de la placa (puesto que son complementarias), pero son uniones muy
débiles (por puentes de H, hibridan). Como me interesa que la unión sea más fuerte y permanente,
añadimos la polimerasa y al duplicarse se consigue que la cadena quede anclada a la placa
perfectamente. La doble hélice formada es desnaturalizada y la hebra original se lava y retira,
quedando la nueva hebra recién sintetizada anclada a la placa.

Se devuelven las condiciones fisiológicas (condiciones de temperatura) permitiendo que la “cola” del
extremo que no se ha unido a la placa busque en esta su secuencia complementaria de modo que
aparece una estructura de arco. A continuación, se lleva a cabo la polimerización, se replica de nuevo
en dos cadenas y se vuelve a poner el medio en condiciones desnaturalizantes para separar ambas
cadenas y que la secuencia original se separe de la copia de manera que ambas quedan quedan
ancladas (la original y la complementaria). Se devuelven las condiciones fisiológicas y la cola de la
secuencia original vuelve a aparear con otra cola complementaria anclada a la placa, volviendo a
formarse la estructura de arco y se polimeriza nuevamente la copia. Esto se repite hasta que se
consigue un manojo de copias (cluster) complementarias a la original.

Lucía Casas , Eduardo Fernández, Patricia R. Tascón


Genómica 3º Biotecnología

Lucía Casas , Eduardo Fernández, Patricia R. Tascón


Genómica 3º Biotecnología

Solo me interesa una dirección, por lo que lavo las de la dirección que me interesa, de modo que
cada cluster solo tiene una dirección de la cadena de DNA. Todo se hace para que los enlaces sean
covalentes (mucho más fuertes).

Video explicación del Cluster Amplification

1c. Fase de secuenciación del cluster​:

Una vez obtenido el cluster completo se lavan las secuencias complementarias y nos quedamos
únicamente con las secuencias con la dirección original (foward), de las cuales vamos a obtener la
primera lectura.

Para ello, se añaden unos capuchones al extremo 3’ de los clones obtenidos bloqueando la síntesis
en ese fragmento (porque si no, se produciría la polimerización a partir de la síntesis del fragmento
que ya tenemos y eso no es lo que queremos, vamos a introducir nucleótidos marcados que nos
informan mediante colores del nucleótido que se ha introducido) y, a continuación, se lanzan unos
cebadores complementarios a la secuencia de la “cola”. La “cola” está arriba, hibrida con el cebador
y la síntesis es hacia abajo. Una vez preparado esto, se añaden los terminadores reversibles (NTPs,
3’-blocked reversible terminators) y​ como la síntesis queda bloqueada, se ilumina con una luz de una
determinada λ, emitiendo el fluorocromo unido al NTPs un tipo de luz. Esta luz va a ser emitida por
todo un “manojo “ de secuencias.

Una vez realizada la primera lectura se secuencia los índices en ambas direcciones.

La secuenciación se produce por ciclos de forma que por cada ciclo se introduce un NTPs, por lo que
la longitud del primer read se determina con el número de ciclos.

Para llevar a cabo la segunda lectura, es decir de la secuencia complementaria, debemos habilitar la
replicación de las secuencias originales que tenemos en el cluster mediante la adición de polimerasa
y la formación de puentes por complementariedad de colas (mismo procedimiento que la
amplificación). Una vez obtenido el cluster completo se lavan las secuencias originales y nos
quedamos únicamente con las secuencias complementarias en el cluster.

El procedimiento para la lectura de la segunda lectura es igual que el explicado para la primera
lectura.

1d. Interpretación de los datos:

Illumina Flow cell​: en cada


una de esos puntos es un
cluster, donde está
multiplicada millones de veces
cada secuencia.

Lucía Casas , Eduardo Fernández, Patricia R. Tascón


Genómica 3º Biotecnología

2) Illumina secuenciadores I y II

Tabla. Se han creado multitud de secuenciadores, desde los más pequeños y baratos utilizados a
nivel de laboratorio, hasta los más caros. Se muestran variables como el tiempo de ejecución, el tipo
de secuenciamiento que puedo producir, etc. de los secuenciadores más importantes de Illumina. En
la longitud máxima de lectura (​maximum read length)​ si veo un 2 delante es que lleva el mecanismo
de ​paired end reads,​ es decir se secuencia en ambas direcciones.

Ejemplo:​ 2 *150 bp es que estoy leyendo 150 de cada lado, cada read es de 150 bp.

Ilumina ha llegado a leer 300 bp de un lado y 300 bp del otro, un total de 600. El secuenciador más
potente hoy en día de esta marca es el NovaSeq 6000, que es capaz de secuenciar 6000 Gb en un
tiempo de 24/48 horas.

3) Ventajas e inconvenientes

Ventajas

·Las primeras máquinas producían alrededor de 50bp y ahora hasta 300 bp x 2.

·Pueden producir paired-end (PE) “reads”. Es decir, se conocen las secuencias a ambos lados de la
molécula de DNA.

·Error menor al 1%.

Inconvenientes

·Se necesita un elevado control en la preparación de la muestra. Una carga excesiva resulta en
solapamiento y mala calidad de la señal.

·El error más frecuente: sustituciones de nucleótidos.

La calidad de la lectura decrece con cada ciclo, si el tamaño del read es de 300 bp, al principio tengo
una buena calidad de lectura, pero a medida que avanzo, la calidad decrece mucho. Si observo que
la calidad ha decaído mucho (por bioinformática), corto la secuencia en sus últimas 40 bases. Es una

😊
ventaja y un inconveniente a la vez. Presenta este defecto pero también es una ventaja a su vez
puesto que se de esta manera dónde están los errores (al final).​

Lucía Casas , Eduardo Fernández, Patricia R. Tascón


Genómica 3º Biotecnología

SECUENCIACIÓN MEDIANTE LIGACIÓN

1. ABI/SOLID sequencing

Este método se utiliza hoy en día, se trata de un método


brillante. Su funcionamiento se basa en una serie de oligos
llamados “pruebas”, que en total son ​16 (aunque en la
diapositiva solo veamos 4). Cada prueba está compuesta por
ocho nucleótidos​, de los cuales dos de ellos son específicos.
Existe un código de 4 colores en combinaciones de dos pares
de bases, a cada par de bases le corresponde un color
(amarillo, morado, azul o verde) y están ya prefijados, siendo
el resto combinaciones degeneradas que se pegan a
cualquier nucleótido (lo que va a distinguir este método son
las dos primeras bases).

Añado todas las pruebas a la vez, de modo que aquella que se una será la complementaria a mi
hebra de DNA. Como se tratan de pruebas de pequeña longitud tienen una mayor probabilidad de
unirse a varias partes de la cadena a secuenciar siempre que se hayan unido primero los dos
nucleótidos específicos. Por ello se podría pensar que se producirían interferencias en el análisis,
pero esto no ocurre porque no se toma la lectura hasta que no se haya actuado la ligasa uniendo el
gap. El resto de pruebas que se hayan unido a la secuencia (que no nos interesan) se lavan.
(Pregunta examen).

Por ejemplo, en la template tengo TA y se unirá con una prueba que comienza por AT, una vez unida
se excita y se obtiene el color rojo, después, se somete a un tratamiento enzimático que rompe el
oligo eliminando tres bases y el fluorescente, quedando secuenciadas dos bases. Comienzo otro
nuevo ciclo y vuelvo a introducir otra prueba complementaria a la template. En este caso, en la
template tengo AA y en la prueba TT, miro el código de colores y veo que es morado, secuencio dos
pares de bases y recorto tres y así sucesivamente. En cada ciclo se recortan tres pares de bases, y
esto supone un problema porque es necesario encontrar la estrategia precisa para saber cuáles son
esas tres bases que me salto en cada ciclo. La solución ante este problema es el uso de primers con
un número menor de bases a medida que pasan los ciclos.

Primero se añade un primer conocido a la secuencia que queremos secuenciar ​y posteriormente se


recorta una base en la secuencia del primer para secuenciar las bases que me he dejado.

Lucía Casas , Eduardo Fernández, Patricia R. Tascón


Genómica 3º Biotecnología

Recopilo la información de todas las lecturas y así conseguimos que todas las secuencias estén leídas
y no solo una vez, sino 2 (una de las mayores ventajas de este método : muy alta precisión, por ello,
cada base se lee dos veces). Se tratan de primer universales, en el primer ciclo añado el primer n
(completo) y hago los ciclos correspondientes, lavo y añado el mismo primer con una base
menos,por lo que TODO se va a mover un lugar, la lectura está corrida. El mecanismo se basa en que
cada base y su color nos definen la siguiente base en la secuencia. Las dos primeras bases las
conozco, en el caso de estar hablando de AT la fluorescencia es roja, pero si quiero saber los
nucleótidos que le siguen y la única información que tengo es el color verde y que empieza por T
puedo adivinar la siguiente base gracias al código de colores (G), y así sucesivamente. falta
explicación.

Ventajas e inconvenientes

Ventajas

·Las primeras máquinas producían alrededor 35 bp, ahora pueden leer 75 bp.

·Producción de 30 Gb/run.

·Una alta precisión (cada base se lee 2 veces) Voy a tener las secuencias leídas dos veces.

Inconvenientes

·Los reads relativamente cortos.

·Es un proceso lento.

·El error más frecuente: sustituciones de nucleótidos.

2.2 Resumen de la segunda generación

La segunda generación representó un gran avance con respecto a la primera, sin embargo:

- ​Necesita un paso previo para amplificar la señal por PCR, lo que implica un mayor tiempo, coste

y posibilidad de error ya que cuando amplificamos por PCR siempre hay una posibilidad de que
un nucleótido se incorpore mal.

- La complejidad de muchos genomas exige un tamaño de reads mayor para resolver las zonas
altamente repetidas. Para resolver genomas complicados un tamaño de reads de más de
200-600 bp no es suficiente. Para ensamblar necesitamos un tamaño de read mayor para poder
avanzar en las zonas repetitivas. Esta generación utiliza un tamaño de read muy corto, que se
compensa con que se secuencia muchísimo.

Se solapó la segunda generación con el comienzo de la tercera con el objetivo de solucionar los
problemas que presentaba la segunda. Sus comienzos fueron lentos, puesto que la tercera
generación, aunque mostró sus ventajas rápidamente, empezó con una tecnología que daba muchos
problemas, y después tardó bastante tiempo en perfeccionar sus tecnologías para que dieran
mejores productos.

Lucía Casas , Eduardo Fernández, Patricia R. Tascón


Genómica 3º Biotecnología

3​. TERCERA (SINGLE MOLECULE) GENERACIÓN DE SECUENCIACIÓN

Ventajas e inconvenientes

Ventajas

·Coste bajo.

·Facilidad de preparación de las muestras (4-6 h en lugar de días).

·El tamaño de los reads se incrementó. Longitud de reads media > 10,000 bp. Max ~60-150 kb

·Single molecule sequencing: se secuencia una sola molécula

·Secuenciamiento en tiempo real: hay posibilidad de secuenciar en tiempo real, a medida que la
molécula entra en el secuenciador podemos ver en tiempo real su secuencia de nucleótidos.

Inconvenientes

·Porcentaje de error más elevado (>10 %)

·Error más frecuente: inserciones y deleciones. (distribuidas aleatoriamente a lo largo del read).

Los errores son aleatorios, pueden ocurrir en diversas zonas del genoma (puede ocurrir en cualquier
punto de la asecuencia). En Illumina (2ª generación) son más localizados, como vimos lo que ocurría
al final de los reads. Si secuencio varias veces, con ver las diferencias entre las secuencias obtenidas
puedo obtener una secuencia muy aproximada de la real (consenso).

3.1. Métodos de Secuenciación de Tercera Generación:

3.1.1. Pacific Biosciences SMRT ó PACBIO

En este método ya no se secuencia un cluster de secuencias repetidas sino una única molécula. Las
celdillas que se denominan ZMWs, presentan un tamaño muy pequeño con el objetivo de que solo
quepa una molécula.

Si queremos secuenciar un fragmento de DNA lo circularizamos, y, como presenta un alto porcentaje


de error, se secuencia varias veces hasta dar con la secuencia consenso bastante aproximada a la
secuencia aproximada.

Este método también se basa en la fluorescencia similar a otras tecnologías (4 colores)pero, a


diferencia de los nucleótidos empleados para secuenciación de las anteriores generaciones, éstos
llevan incorporada la fluorescencia en el grupo fosfato del nucleótido y se denominan
“phospholinked”, mientras que anteriormente se encontraba ligado a la base. Por lo que ahora
cuando se realiza el enlace fosfodiéster entre nucleótidos se elimina la fluorescencia anterior cuando

Lucía Casas , Eduardo Fernández, Patricia R. Tascón


Genómica 3º Biotecnología

se incorpora un nuevo nucleótido, puesto que este fosfato con la fluorescencia se elimina en la
reacción de elaboración, y así no hace falta eliminar la fluorescencia depositada en el ciclo anterior.

Cada célula del SMRT contiene miles de toneladas de ZMWs (Zero-mode waveguides), cada ZMW es
irradiada por debajo con una longitud de onda lo suficientemente intensa como para solo atravesar
el “waveguide”, de esta manera se crea el método de detección más potente en un volumen
relativamente pequeño, que evita gran parte de las interferencias durante la lectura.

Para llevar a cabo el secuenciamiento se ha inmovilizado un complejo DNA polimerasa en el fondo


del ZMW y se introducen en la cámara los nucleótidos “phospholinked” para llevar a cabo el proceso
de lectura de las 4 diferentes fluorescencias de las distintas bases, que se realiza de forma paralela
en una gran cantidad de ZMWs de la célula del SMART.

Formación de las librerías: el proceso se lleva a cabo


parte en el laboratorio (dentro de la celda) y otra
parte en ordenadores, mediante Bioinformática
(procesamiento). En la doble hélice se introducen
adaptadores en forma de lazos que unen ambas
cadenas para así conseguir circularizarla, la
polimerasa entra dentro de la celda y se pega al
fondo de la cela junto con la cadena, comenzando a
polimerizarla (procesamiento circular).

Al tratarse de una molécula circular, se realizan


varios ciclos de polimerización. Una vez hecho este
paso, continuamos con el análisis de resultados.
Bioinformáticamente, alineamos todas las secuencias
obtenidas y damos con la secuencia consenso (ccs). Las DNA polimerasas están modificadas
genéticamente para hacer el proceso más eficiente: la polimerización no es continuada de modo que
cada vez que se incorpora una base se hace una micropausa, tiempo suficiente para que el lector
pueda leerlo.

La secuenciación se realiza varias veces debido a que la tasa de error en este tipo de secuenciación
es elevada posteriormente se concluye una secuencia consenso mediante el empleo de
herramientas bioinformáticas que realizan el alineamiento de las secuencias obtenidas.

Video explicación SMRT

La ventajas e inconvenientes son las mencionadas para la tercera generación de secuenciación.

Lucía Casas , Eduardo Fernández, Patricia R. Tascón


Genómica 3º Biotecnología

Ventajas: Inconvenientes:

· Coste bajo. · Porcentaje de error elevado (~10 %)

· Facilidad de preparación de las muestras. · Baja producción (output)

· Rápido. En tiempo real. · Error más frecuente: inserciones y


deleciones. (distribuidas aleatoriamente a lo
· Longitud de reads media > 10,000 bp. Max largo del read).
~60 kb

3.1.2 Oxford Nanopore sequencing

Es una sola molécula (común a estas tecnologías), la molécula


entra y en tiempo real se puede leer.

La detección es diferente a la del método anterior ya que no se


hace por fluorescencia si no por corriente eléctrica. Se basa en una
membrana lipídica con una proteína motor que es la que dirige
cada cadena hasta un poro (donde habrá una proteína
transmembrana que funcionará de poro) y el poro traspasa la
cadena leyéndola de un lado al otro. A ambos lados de la
membrana existe una diferencia de voltaje, existiendo un flujo
continuo de iones que se interrumpe cada vez que se incorpora una base, de modo que la
interrupción es ligeramente diferente en función de la base incorporada, el poro se bloquea por la
incorporación de cada nucleótido (detecta una diferencia en la corriente iónica que se produce
cuando este poro se bloquea con cada incorporación de un nucleótido).

Se suele añadir al final de la secuencia de interés una proteína motor que dirige cada cadena al poro
y hay otra molécula (sobre todo colesterol) que pega la secuencia a la membrana lipídica,
incrementando la eficiencia tanto de la localización de la proteína motor como posteriormente de la
secuenciación.

Distintas moléculas que se han usado como proteínas poro, modificadas por ingeniería genética con
el fin de conseguir un tamaño de poro más pequeño para que exista un menor número de
interferencias en el proceso.

Lucía Casas , Eduardo Fernández, Patricia R. Tascón


Genómica 3º Biotecnología

El proceso: la molécula entra y una segunda proteína la dirige hacia el poro, la proteína motor. La
proteína motor a su vez está compuesta por dos proteínas, la primera de ellas se encarga de separar
la hebra de DNA permitiendo únicamente el paso de una hebra a través de la segunda proteína, la
proteína que funciona como poro en la membrana; por el cambio de corriente que se produce a
nivel del poro podemos detectar cuando se incorpora el nucleótido.

Ventajas e inconvenientes

Ventajas

·Bajo coste (el que más).

·Tamaño pequeño (el que más).

·La secuencia es generada en tiempo real (no es necesario esperar a acabar el run)

·Reads muy (las que más) largas (hasta 150 kb). Se han conseguido algunas de hasta 1Mb.

Inconvenientes

·Alto porcentaje de error (12-15 %).

·Errores más frecuentes: substituciones de nucleótidos (3%), inserciones (4%) y deleciones (5%)

·Sensibilidad de los nanopores biológicos a cambios en las condiciones ambientales del experimento.

3.2. Epigenética

En la tercera generación, y gracias a la epigenética vamos a ver una serie de utilidades que no tenía
la segunda generación. La epigenética se basa en una serie de modificaciones en la cadena de DNA,
que no son heredables pero que no implican alteraciones en la molécula (incorporación de grupos
metilos en la cadena). Estas modificaciones muchos de nosotros no nacemos con ellas, si no que son
ambientales. Una parte importante de lo que somos nosotros científicamente está influenciado por
el medio ambiente.

Estas dos técnicas mencionadas (PACBIO y Oxford Nanopore) nos permiten detectar cambios
debidos a la epigenética. Cada vez que tenemos una molécula que presente un -CH​3 (metilo) se
produce una mayor retención de la DNA polimerasa en el método de PAC Bio o en la proteína que
actúa de poro en Oxford Nanopore y se traduce como un salto en la gráfica de picos, deduciendo
que es una base metilada.

4​. Resumen de la evolución de la secuenciación:

Desde que empezamos con el método de Sanger, se pasó a automatizar con fluorescencias en lugar
de tener que hacer una placa de rayos X e ir leyendo de una a una.

El Kilobase es un secuenciador Sanger pero de tipo automático. La lectura la separa por


electroforesis capilar; con esta tecnología se secuencio el genoma humano.

Lucía Casas , Eduardo Fernández, Patricia R. Tascón


Genómica 3º Biotecnología

5​. ​Características, fortalezas y debilidades de uso común de ​plataformas de


secuenciación

Sanger se sigue utilizando para secuencias muy pequeñas, alrededor de 1000 pares de bases en
método automatizado, la lectura es muy precisa si queremos ver polimorfismos normales.

Illumina se sigue utilizando muchísimo y se utilizará. Tiene hoy en día varias máquinas en las que
cada una tiene sus aplicaciones prioritarias. Ion torrente se utiliza menos que Ilumina.

6​. Extensiones de Illumina: 10x Genomics Linked-Reads

Fue una de las modificaciones que se hizo en los protocolos de secuenciación de Ilumina realizados
por una compañía que se llama 10x Genomics, de modo que fue capaz de mejorar un poco la falta de
tamaño en los reads, para que fueran más grandes. Son reads sintéticos.

A esta compañía se le ocurrió que, si yo tengo un fragmento grande de DNA y lo parto en fragmentos
más pequeños (que sean capaces de leerlos los secuenciadores de Ilumina), si a esos fragmentos soy
capaz de ponerles un barcode que me identifiquen ese experimento en particular, al secuenciarlos
podré ver a qué secuencia (de las grandes) pertenecían los pequeños. Marco todos los pequeños que
proceden del grande de la misma forma (mismo color) para luego poder unirlos. Funcionamiento: se
utiliza para secuenciar grandes genomas como el del trigo.

Cada GEM (Gel bead in Emulsion) contiene a su vez alrededor de 10 bolas de gel de colores. ​Cada
fragmento grande de DNA (gDNA) lo introduzco una de bola de color, donde tiene unos reactivos.
Cada bola de gel tiene un índice distinto, de modo que al incubarlos con la enzima que los fragmenta
(HMW gDNA enzyme) en cada caso tendré múltiples fragmentos con el mismo barcode
(identificados por su color) que me permitirán configurar los reads más grandes de partida,
denominados ​Linked reads​. Estos ​Linked reads,​ pueden tener diferentes funciones, la lectura de
exones ya que pueden servir de puente entre exones o incluso entre gaps, mutaciones como
delecciones, etc.

Vídeo explicación 10x genomics

Lucía Casas , Eduardo Fernández, Patricia R. Tascón


Genómica 3º Biotecnología

ENSAMBLADO 
INTRODUCCIÓN
- Ensamblar: alinear y fusionar fragmentos de una secuencia más larga de DNA para
reconstruir la secuencia original.
- Ensamblado genómico: ensamblaje de todos los cromosomas.
- Transcriptomas: ensamblado de los genes que se están expresado en un momento.

Houston we have a problem..


Se presenta un problema a la hora de ensamblar todos los reads que se han obtenido del
secuenciamiento, ya que debemos hacerlo tan continuadamente como se pueda y cometiendo el
menor número de errores. Tendremos que buscar los solapamientos entre reads intentando
ensamblarlas mediante herramientas bioinformáticas para ver cuáles vienen del mismo fragmento o
de cercanos. Una vez
encontrados, los unimos y
agrandamos la secuencia hasta
llegar al cromosoma original.
Muy pocas veces vamos a
poder ensamblar el genoma
completo hay áreas altamente
repetidas y es muy difícil
secuenciarlas.

Cómo ensamblar un genoma


Para ensamblar el genoma humano se utilizaron dos métodos y posteriormente se combinaron
ambos.
1. WHOLE-GENOME SHOTGUN APPROACH
En este primer método se fragmenta
completamente el cromosoma y se
secuencia a nivel de reads (fragmentos
pequeños) y posteriormente se ensambla los
reads de manera independiente hasta dar
con los contigs. Cada uno estaría formado
por la asociación de muchos reads, hasta
llegar a un lugar de secuencia repetida,
donde finalizaría el proceso. Siguiendo este
método, se fragmenta completamente el
genoma, intentamos ensamblar los contigs y
posteriormente se solapan.

Lucía Casas, Eduardo Fernández, Patricia R. Tascón 1


Genómica 3º Biotecnología

Para llevar a cabo el ensamblado de reads es necesario hacer uso de marcadores, que son
lugares del genoma de los cuales conocemos su posición exacta en él, y que nos servirán de
punto de anclaje de los diferentes reads.
Se puede averiguar si mis marcadores se encuentran en el ensamblado que hemos realizado.
Vamos añadiendo los contigs (secuencia completa, fragmento que resulta con el ensamblaje
de los reads). La parte que puedo llegar a ensamblar con los reads se denomina contigs.
El siguiente nivel al que vamos a llegar en el ensamblado de los genomas es cuando
tengamos otro contig, uniendo ambos contigs para dar lugar a lo que se conoce como
scaffold (andamio). Por último para llegar al cromosoma final, tendremos una sucesión de
scaffolds, uniéndose mediante N (rellenamos). Para ensamblar un genoma correctamente,
se toleran N puesto que son zonas repetidas que no nos interesan mucho mientras sepamos
la distancia aproximada, pero lo que sí nos importan son dos cosas:
· Cada scaffold debe estar en el lugar del genoma que le corresponde.
· Además, el scaffold debe presentar la orientación correcta (no esté invertido).

2. CLONE CONTIG APPROACH


En este método, primero se clona ciertas partes del
DNA, entonces tendremos los segmentos y
miraremos a ver si hay marcadores que coincidan
con mi cadena, con el genoma que queremos
secuenciar. En este caso hacemos el proceso
opuesto al primer método: primero localizo el clon y
una vez localizado este clon en particular (no todo)
lo fragmento en fragmentos más grandes que en el
método anterior, denominados contigs. Antes de
volver a fragmentarlos, se ordenan por marcadores.
De esta forma es más fácil secuenciar los fragmentos
finales más pequeños para posteriormente se lleva
a cabo el alineamiento.

Lucía Casas, Eduardo Fernández, Patricia R. Tascón 2


Genómica 3º Biotecnología

OPCIONES
Hay otras dos posibilidades, ya que no es lo mismo ensamblar un genoma teniendo un genoma de
referencia (genoma ya ensamblado de la misma especie), o que sea de una especie próxima. Si no
tuviéramos genoma de referencia tendríamos que hacerlo de novo.

- Con genoma de referencia​ (varias posibilidades)


A: mediante alineamiento o mapeo, como ya tenemos genoma de referencia, se busca dónde alinea
cada read en el genoma de referencia con programas bioinformático​s​, buscando simplemente los
polimorfismos (en lo que se diferencian), ya que aunque tengamos genoma de referencia, no
significa que vayan a ser iguales al 100%. Pero tener un genoma de referencia facilita mucho el
proceso, puesto que sabemos dónde va cada read.

B: otra aproximación es ensamblar cada conjunto de reads hasta que damos con los contigs, y en
este caso, en vez de alinear cada read independientemente, lo que se alinea son los contigs. Sirve
para los casos en los que no tenemos la secuencia completa, para buscar la orientación de los
contigs, para saber la distancia aproximada que hay entre los contigs, etc.

En las aproximaciones explicadas se están utilizando reads cortos, pero se puede hacer lo mismo con
reads largos utilizando los métodos de primera generación (C y D).

- Sin genoma de referencia


En este caso, no tenemos un modelo en el que poder fijarnos, por lo que alinearíamos los reads
como se pueda hasta formar contigs. Pero ahora es más difícil conocer su orientación y la distancia
existente entre los contigs.
B: en esta aproximación se utilizan reads más largas a la hora de realizar el ensamblaje, pero en la
actualidad, en vez de utilizar solo reads cortas o reads largas, se combinan ambos con otro tipo de
tecnología como 10x y otro tipo de métodos. Se tiende a hacer un ​ensamblado híbrido​, es decir, no
solo utilizando una técnica, sino mezclando varias: mezclando reads cortas y largas, pudiendo
realizarse de varias maneras. Una manera muy interesante es intentar utilizar las ventajas de cada
read, mediante métodos de segunda y tercera generación, es decir mezclando reads cortos y reads
largos. Las reads que son largas tienen la ventaja de que producen fragmentos muy largos (término
medio puede llegar a tener una media de unos 10-15 kb), pero se tienen muchos errores (10-12% de

Lucía Casas, Eduardo Fernández, Patricia R. Tascón 3


Genómica 3º Biotecnología

error). Las reads de Ilumina tienen un error inferior al 1% entonces lo que se hace muy
frecuentemente, es usar estas reads tan exactas para corregir las reads que son más largas,
alineando ambos reads, de tal manera que cuando haya un error, las pequeñas al ser mucho más
perfectas y como hay varias que lo cubren, podemos eliminar errores hasta el punto de que casi
desaparezcan. Esto es lo que se llama corrección de reads largas con reads cortas.

Sin embargo, no todo resulta tan fácil, ya que aparecen problemas. Cuando no existen secuencias
repetidas todo es fácil. El problema viene cuando tenemos repeticiones, sobre todo cuando se utiliza
un tamaño de read corto. Por ejemplo, esto ocurre cuando tenemos repeticiones en tándem
AATT,AATT,AATT. Esto hace que sea muy difícil el ensamblado, porque los extremos de un read
coinciden con el otro, por lo que se ensamblarían juntas, saltándonos toda la secuencia que hay
realmente entre ellas, puesto que se trata de una repetición.
También ocurre en el caso de que existan dos posiciones separadas pero que están repetidas.
Entonces si tengo un tamaño de read corto puede pasar que al hacer el ensamblado se junten,
saltándose de nuevo toda la secuencia intermedia.

Pero a grandes problemas, grandes soluciones. Cuando utilizamos ​paired end reads​, se secuencia con
una cobertura exagerada, es decir, no solo cubre el genoma una sola vez, sino que queda cubierto
Lucía Casas, Eduardo Fernández, Patricia R. Tascón 4
Genómica 3º Biotecnología

unas dos veces (cada posición del genoma estaría cubierta por un término medio de unos 20 reads),
lo que ayuda mucho para diferenciar errores, alinear reads donde corresponde, etc.

En el secuenciamiento que realiza Ilumina,


ahora se puede alcanzar hasta las 300 pb en
cada lado (en el dibujo aparece 35 pero es
antiguo). Cuanto más grande queremos que sea
la secuencia final, menos volumen de read
tendremos (hay que balancear). Si el read
presenta un tamaño de 100 y 100, vamos a
tener mucha más producción. Depende del tipo
de aplicación que queramos.

En la siguiente imagen se explica un


proyecto real. Cuanto más altos son los
picos, mayor es el grado de cobertura. Sirve
para visualizar dónde hay polimorfismos, las
bases con un diferente color, (arriba a la
izquierda en la imagen) nos indican que hay
un polimorfismo.

Otro tipo de plataforma (software), nos sirve


para ver si hay polimorfismo dentro de mi
gen, lecturas diferentes del gen,etc.

Si tenemos información en los dos


pares, me va a distinguir
perfectamente una repetición de
otra.

Lucía Casas, Eduardo Fernández, Patricia R. Tascón 5


Genómica 3º Biotecnología

Reads cortas frente a reads largas

Tres repeticiones marcadas en rojo


y tres posiciones independientes: si
el tamaño del read es más pequeño
que mi repetición, el software va a
ser incapaz de distinguir a qué
repetición pertenece cada read y
va a realizar bucles. Por el
contrario, si añadimos información
de reads más largas, que sean más
grandes que la longitud de la
repetición ya se va a poder
solventar el problema.

(A) Repeticiones: con reads cortos es muy difícil establecer el orden de clo contigs cuando se
presentan repeticiones.
(B) Fases del haplotipo: Se parte de un gen materno y un gen paterno para generar un haplotipo
(conjunto de variaciones del ADN, o polimorfismos, que tienden a ser heredados juntos) e
identificar qué reads van juntos y cuales pertenecen a la madre y cuales al padre, con reads
cortos no lo podré diferenciar, pero en el caso de tener reads más largos podré ensamblarlos
mejor.
(C) Isoformas transcripcionales: no siempre los mismos exones me van a formar el transcrito. En
esto se basa el splicing alternativo, con reas cortas no podré hacerlo porque mediante
transcriptoma yo no sé qué exones se están transcribiendo en ese momento (se pueden
identificar los distintos exones pero no su conexión entre ellos), pero con información de
reads más larga sí que sabre los exones que se transcriben.
(D) En el caso de Ilumina, hay que hacer amplificaciones por PCR antes de realizar el
secuenciamiento, por lo que se presenta un problema a la hora de secuenciar fragmentos
con alto contenido en CG. Tenemos poca cobertura. Sin embargo, con los métodos de 3
generación este problema no ocurre, puesto que no necesitan de ese paso previo de
amplificación.

Lucía Casas, Eduardo Fernández, Patricia R. Tascón 6


Genómica 3º Biotecnología

Closing a ‘sequence gap’


Puedo intentar rellenar los gaps con secuencias reales mediante varias técnicas, se utilizan primers
para completar las secuencias insertándose entre dos contigs, evitando así la inserción de
ambigüedades (Ns). La secuenciación de los gaps se realiza mediante el método de Sanger. SIn
embargo, si el gap a completar llega a superar las 1000pb se realiza el método de forma escalonada.
De todos modos este modelo se encuentra en desuso porque lleva mucho tiempo.

MATE PAIRS (PAREJAS DE PARES)


Este método se usa para conocer una secuencia entre dos contigs.
A diferencia de los paired end reads de Ilumina, estos presentan un fragmento de inserción mucho
más grande, que puede llegar hasta las 5000 pb o más, lo que sirve para saltar bases del genoma. Lo
que se lleva a cabo es hacer fragmentos más grandes, pero como las máquinas de Ilumina solo
permiten secuenciar insertos de hasta 500 pb, no podemos secuenciarlos directamente. Tras la
fragmentación, a los fragmentos se les añade la molécula de biotina, que provoca que los dos
extremos del fragmento se unan, es decir, circulariza los fragmentos y posteriormente, se
fragmentan aún más. De esta manera, puedo separar los fragmentos que tienen biotina con otra
proteína, consiguiendo así fragmentos más pequeños que ya sí pueden ser secuenciados.
La ventaja que presenta es que al circularizarlo, lo que se está secuenciando son los extremos que
estaban separados antes de realizar este proceso y ahora están juntos y ya pueden ser secuenciados
por Ilumina. Se utiliza esta técnica para obtener información de pares pero que se encuentran a más
distancia.

Lucía Casas, Eduardo Fernández, Patricia R. Tascón 7


Genómica 3º Biotecnología

EXTENSIONES DE ILUMINA: 10x GENOMICS LINKED-READS


Es capaz de hacer reads sintéticamente más grandes. ya visto anteriormente.

RESUMEN

A diferencia de los Mate-pairs, los Paired-end reads, me permiten conocer secuencias que están muy
cercas unas de otras, quedando entre ellos un número pequeño de bases que no conocemos
(200-500 pb). Los Mate. pairs realizan este mismo proceso pero entre ellos queda un número mayor
de bases que no conocemos (1000 pb). Esto se realiza sobre todo para unir dos contigs separados,
buscando una conexión más larga.
Para llevar a cabo la unión de contigs a un scaffold se realiza mediante Mate-pairs.

CHROMOSOME CONFORMATION CAPTURE (CCC)


Otras técnicas que se utilizan para el ensamblado de genomas más complejos, se basan en buscar las
uniones entre los cromosomas. Éstos se encuentran unidos por una serie de proteínas de manera
compacta. Dichas uniones son más frecuentes si las dos partes del DNA se encuentran en el mismo
cromosoma y también cuanto más juntan se encuentre en el cromosoma (más posibilidades) y
viceversa. Estas técnicas se denomina Chromosome conformation capture y existen diferentes
modificaciones, entre ellas Hi-C.

Lucía Casas, Eduardo Fernández, Patricia R. Tascón 8


Genómica 3º Biotecnología

- Hi-C
Técnica avanzada de secuenciamiento, utilizada para orientar una vez conseguidos los scaffolds
(piezas mayores cuando ya no se puede seguir la información de secuencia que tenemos), pero sí
sabemos su orden en el cromosoma. Normalmente, cuando se realiza un ensamblado previo,
conocemos su posición relativa. Sin genoma de referencia o sin una buena colección de marcadores
resulta más difícil orientarlos sobre todo en las zonas más repetidas del genoma.
Esta técnica lo que busca es confirmar que las secuencias estén el cromosoma correcto (está bien
esto) o si algo está sin orientar (solventar problemas).
En el núcleo hay una proteína que mantiene los cromosomas compactos. Existe un agente químico
que es el formaldehído, que puede producir, utilizando estas compactaciones, enlaces covalentes
entre los cromosomas. Quién lo descubrió se dio cuenta de que estos enlaces, cuanto más juntas
estén las secuencias en los cromosomas y si las secuencias están en el mismo cromosoma, más
probable es que se den estos enlaces (dos puntos en el mismo cromosoma tienen más posibilidades
de enlazar).
Cortamos con enzimas de restricción y se unen con una serie de químicos y finalmente lo separamos
con biotina. Se fragmenta de nuevo pero al haber añadido una molécula de biotina, nos vamos a
quedar con fragmentos que no están contiguos en el cromosoma, que son producto de las uniones,
es decir, que están separados en el cromosoma. Nos va a quedar dos posiciones en el genoma donde
ha habido interacción y que al mandarlo a secuenciar nos va a aportar mucha información. Al fin y al
cabo, nos da lugares en el genoma donde han ocurrido interacciones. Que estén el mismo
cromosoma y cuanto más juntas: más probable la interacción.
Al secuenciar por Ilumina van a resultar dos secuencias que pertenecen a dos partes del genoma
pero que estadísticamente sabemos que tienen una alta probabilidad de estar juntas. Cuanto más
cercanos estén dos puntos en el cromosoma, más probabilidad de que se me produzcan estos links y
veremos una línea en diagonal como la que se muestra en la imagen. Esto significa que en nuestro
genoma los contigs están perfectamente alineados. En la representación gráfica, la intensidad del
rojo nos da el número de links que hay.

COMBINATION MATE PAIR


Para secuenciar el genoma del trigo se combinaron muchas técnicas, las uniones que vemos entre
scaffolds fueron las uniones que Hi-C determinaron que eran las más probables, cuanto más
próximos estén, más uniones Hi-C va a haber.
El genoma del trigo es muy complejo, ya que es un hexaploide, es decir, tiene un cromosoma que se
repite 3 veces y solo el 2% es codificante. Este genoma además está muy repetido, por ello es un
genoma muy complejo.
Una vez se identificaron los scaffolds se separaron por cromosomas, se muestran dos gráficas. En
una primera fase cuando teníamos los scaffolds, estaban bastante bien colocados antes de utilizar la
técnica del Hi-C pero se encontraban invertidos (Figura 1A). Una vez que se dieron la vuelta, fueron
orientados correctamente (vemos la línea ya recta) En el centrómero hay menos enlaces y por ello se
observa una cruz en el medio de la gráfica (Figura 1B).

Lucía Casas, Eduardo Fernández, Patricia R. Tascón 9


Genómica 3ºBiotecnología

MARCADORES 
1.INTRODUCCIÓN
Lugares (hitos) en el genoma que pueden ser posicionados de manera precisa o relativa, que
presentan variabilidad (polimórficos), y que pueden estar asociados con algún carácter. El marcador
perfecto será aquel se encuentre dentro del gen, en vez de uno que esté cercano al gen, ya que
cuanto más cerca del gen mejor y si es una posición que nosotros podemos identificar con total
certeza mucho mejor.
El concepto de marcadores está asociado a gen, pero también a recombinación. Cuando no
conocemos el genoma de una especie, han de identificarse los marcadores. Una manera es por la
relación entre dos marcadores por mapeo. Esta distancia relativa está muy relacionada con la
recombinación, ya que cuanto mayor es la distancia entre dos genes, mayor es la posibilidad de que
se produzca recombinación entre las dos posiciones y viceversa. Esto nos proporciona una media
estadística para medir la distancia relativa (por el número de recombinaciones, es decir, cuantas más
recombinaciones más lejos están los marcadores o el gen y el marcador y viceversa). El marcador
ideal será aquel que se encuentre en el mismo gen o tan cercano al gen que no haya recombinación
entre ellos. Cuando no conocemos la distancia absoluta, la tenemos que calcular con distancias
relativas mediante recombinación.

Esta posición idealmente es la posición física real del genoma, pero a veces no se conoce y lo que
conocemos es la relación con otro marcador u otro gen. Los mejores marcadores son los genes en sí
mismos, porque no es posible marcar más cercanamente dicho gen si lo marco con él mismo, y si
supiese exactamente la coordenada física que tiene ese marcador en el genoma.

2. PROPIEDADES DE LOS MARCADORES

★ Polimórfico, ya que de esta manera va a ser posible distinguir varios tipos de alelos. Hay
marcadores que solo distinguen dos alelos. Cuantos más alelos diferentes tenga podremos
distinguir mejor.
★ Co-dominante​. Hay dos tipos de marcadores: dominantes, con los que no podemos
distinguir heterocigotos de homocigotos dominante pero con el codominante nos permite
distinguir los dos homocigotos.
Con los marcadores dominantes no podemos distinguir AA de Aa y además no nos va a
proporcionar tanta información. Por el contrario, si es codominante, si que vamos a ser
capaces de distinguir las tres posibilidades AA Aa aa, por lo que se puede distinguir qué alelo
tiene cada persona, pero estadísticamente también tiene implicaciones muy importantes en
el mapeo. Hoy en día, salvo en raras ocasiones, se utilizan los codominantes.
★ Distribuidos aleatoriamente y por igual en el genoma, lo que tiene importantes
implicaciones en el mapeo. Una manera de colocar los scaffolds a la hora de hacer un mapa
de un cromosoma, es mediante marcadores (es una manera de anclar los scaffolds al
cromosoma). Cuanto más igualmente espaciados estén los marcadores mucho mejor. Nos va
a permitir hacer un ensamblado y un mapa más perfecto. Hay marcadores que son muy
abundantes en las zonas con muchos genes (telómeros) y menos abundantes en zonas con
menor número de genes (centrómero).

Lucía Casas, Eduardo Fernández. Patricia R. Tascón


1
Genómica 3ºBiotecnología

★ ​Numerosos, ​cuanto más posible.


★ Reproducible, ​es decir, entre cada laboratorio debe haber marcadores reproducibles, ya
que lo que esté influenciado por el ambiente es difícilmente reproducible ya que puede dar
lugar a datos erróneos.
★ Fácil, rápido y barato de detectar ​(más implicaciones cuanto mayor sea el número que
queramos detectar)
★ Alta resolución en un número elevado de muestras ​(no debe ser particularizable de un solo
individuo si no que nos tiene que permitir conseguir información de múltiples individuos).

3. TIPOS DE MARCADORES
Hay dos grupos diferentes de marcadores: los clásicos (manera de decir que los primeros son los
más antiguos, los que ya no se utilizan) y un segundo grupo, los llamados marcadores moleculares. Y
según la dominancia, distinguimos entre dominantes o codominantes.

○ Morfológicos. Según la dominancia:


○ Bioquímicos. ○ Dominantes.
○ Cromosómicos. ○ Codominantes.
○ Moleculares (DNA).

Foto: debo de ser capaz de realmente saber la distancia (número de bases)


que hay entre un marcador a otro de una manera física y precisa.

3.1 CLÁSICOS

3.1.1 MORFOLÓGICOS
Fueron los primeros marcadores. Son marcadores básicos, basados en caracteres fenotípicos. Estos
caracteres son observados sin técnicas por lo que no sabemos por cuántos genes se encuentra
influenciado ese fenotipo observado.
Fueron los primeros marcadores que utilizaron los agricultores. Mediante el patrón de manchas de la
piel de las vacas podían inducir cual de ellas daba más leche, de modo que las vacas que presentan
manchas negras eran diferentes a las blancas y negras completas. Esto sirvió a los agricultores para
saber si este carácter de patrón de manchas estaba asociado a una mayor producción de leche
(relación marcador-productor de leche) .

Ventajas Inconvenientes
● Fáciles de observar y medir, sin ● Muy poco polimorfismo.
aparatos o técnicas especiales. ● Influenciados por las condiciones
● Disponibles inmediatamente. ambientales y edad del organismo.
● Requiere estar familiarizado con cada
organismo.
● Escasos.
● Cobertura del genoma limitada

Lucía Casas, Eduardo Fernández. Patricia R. Tascón


2
Genómica 3ºBiotecnología

En esta foto se refleja un brazo del cromosoma, posicionando


relativamente los marcadores morfológicos. Se ha de ordenar en cada
brazo del cromosoma los caracteres morfológicos que vemos, de manera
relativa, imprecisa, no exacta.

3.1.2 BIOQUÍMICOS
Están basados en propiedades bioquímicas (en series alélicas de un tipo
de enzimas isoenzimáticas). Estas enzimas se podían ver su variabilidad
rodando un gen.

Ventajas Inconvenientes
• Fáciles de observar y medir • Muy poco polimorfismo.
• Codominantes • Poco número (escasos).
• Influenciados por el ambiente o técnicas de
extracción.

3.1.3 CROMOSÓMICOS
Otro de los marcadores clásicos, basados en propiedades de los cromosomas (número, patrones de
bandas, tamaño, orden y posición) que depende de cada especie. Por ejemplo, que un individuo
tenga menos cromosomas, patrón de bandas diferente, que el tamaño sea diferente o el orden al
migrar también sea diferente.

Antes se utilizaba una conjunción de los tres marcadores clásicos, debido a que eran escasos

Inconvenientes
• Muy poco polimorfismo.
• Poco número (escasos).
• Se necesita de técnicas especiales. Caro,

3.2 MARCADORES MOLECULARES


Son los más empleadas en la actualidad. Están basados en la cadena de DNA, lo que tiene
implicaciones muy importantes, ya que de esta manera, no están influenciados por el ambiente,
pueden ser estudiados en cualquier estado del organismo sin esperar a que crezca.

▪ Son genes o secuencia de DNA fácilmente detectables.


▪ Se conoce su localización en el cromosoma.
▪ Están íntimamente asociados con un carácter, actuando como señalizadores de ese carácter. Si
tenemos un gen de interés en el cromosoma, estadísticamente podemos asociarlo con marcadores:
siempre que esté el marcador en el DNA, como está muy cerca del gen, nos va a indicar que tenemos
una alta producción de cosecha( el gen ejemplo está asociado con la producción de trigo) .

Cuando se produce recombinación en la célula, cuanto más separados estén los alelos, más
posibilidad de recombinación habrá. Si el marcador está íntimamente unido a un gen, el mejor
marcador es el que se encuentra tan próximo al gen que siempre segregan juntos (100%) ​. Nunca va
a haber recombinación entre ellos, no se me van a poder separar.

Lucía Casas, Eduardo Fernández. Patricia R. Tascón


3
Genómica 3ºBiotecnología

Mejora asistida por marcadores: nos permite saber información de interés de por ejemplo una
semilla antes de que esta se desarrolle.
Ventajas sobre los marcadores clásicos

• Pueden ser codominantes.


• Polimorfismo alto.
• Numerosos.
• Distribución aleatoria.
• Facilidad de automatización.
• Posibilidad de medir tempranamente.
• No están afectados por el ambiente,

TIPOS DE MARCADORES MOLECULARES

- Restriction Fragment Length Polimorphism (RFLP)


Fueron los primeros marcadores moleculares que se utilizaron y, al igual que ocurrió con
secuenciamiento, fue un salto muy importante: de utilizar los marcadores clásicos a ser capaces de
utilizar este tipo de marcadores.
Se basan en una propiedad muy básica: cuando se añade una nucleasa (enzima de restricción) para
cortar un DNA y posteriormente hibridaba con una sola sonda y para ver los tamaños de esos
fragmentos, había individuos que mostraban diferente patrón de bandas, por lo que había diferente
tipos de fragmentos.
La nucleasa corta en DNA por una secuencia conocida, si se ha producido una mutación en esta
secuencia, ya no va a ser reconocida y no se va a cortar, generándose así un patrón de bandeo
diferente. Por ejemplo, AATT muta a AATG o AACT.

La enzima cortaba en dos puntos en el caso 1, sin embargo en el caso 2 se añadió un punto de corte
nuevo y por ello se ven dos bandas. En el individuo 3 ha habido una delección, por lo que el
fragmento resultante del corte es más pequeño (migra más lejos en el gel). Y en el individuo 4 se ha
producido una inserción por lo que el fragmento es más grande y migra menos. Posteriormente esto

Lucía Casas, Eduardo Fernández. Patricia R. Tascón


4
Genómica 3ºBiotecnología

se hibrida con una sonda radiactiva, se iluminan estas bandas y simplemente se veía las diferencias
entre individuos.

El alelo a pequeño presenta dos puntos de corte, y el A grande 3 puntos de corte. Se estudió cómo
afectaba a la enfermedad, si los padres eran portadores ( es decir, alelo recesivo pero no presentan
la enfermedad) algunos de sus hijos no eran enfermos pero otros sí que presentaban la enfermedad.
Esto se miró con el patrón de bandas (foto) : si el
individuo era AA me iba a producir una banda más
pequeña, sin embargo si era aa el fragmento resultante
era más largo y si era Aa había dos bandas. De esta
manera se pudo saber el origen de la enfermedad y
quién era portador.

Esta técnica es muy engorrosa, ya que había que extraer


el DNA, añadir la enzima, migrarlo en geles y transferirlo
a una membrana para poder leerlo por rayos X. Se añadía
la prueba radiactiva a la membrana y así se visualizaba.

CLONAJE POSICIONAL

El aislamiento de un clon mediante RFLP permite el clonado de un gen mediante chromosome


walking. Cuando no había secuenciamiento masivo se utilizaba.
Se sabía que había un marcador que estaba muy ligado al gen, pero no se sabía exactamente cuál era
el gen. Lo que se hace una vez visto que era polimórfico, cada vez que existe este patrón se produce
un gen normal u otro patrón y se producía el gen mutado, sabíamos que el gen estaba muy cerca.

Se deducía la última parte de de la prueba del clon y se diseñaba una nueva prueba y se aislaba otro
clon que cubría esta secuencia. Iba identificando
la secuencia final y buscando nuevos clones que
incluyesen esa secuencia final pero que
extendiese la secuencia conocida y así
sucesivamente hasta dar con el gen (
procedimiento muy arduo). En la actualidad, si se
tienen marcadores cerca, se manda a secuenciar.

Lucía Casas, Eduardo Fernández. Patricia R. Tascón


5
Genómica 3ºBiotecnología

Ventajas
• Codominantes. Inconvenientes
• Numerosos. • Lento y laborioso. Difícil de automatizar.
• Reproducible. • Requiere sondas.
• Distribución aleatoria. • Caro.
• Simple. • Radioactivo.
• Positional cloning.

- Randomly Amplified Polymorphic DNA (RAPD)​: Generados por la amplificación por PCR de
secuencias de ADN genómico con parejas de cebadores de 8 o 10 nucleótidos seleccionados
al azar.

Fueron los siguientes que vinieron, fueron otra buena idea, genial en su momento, pero que está
totalmente en desuso. Se basaba en hacer unos cebadores muy cortos. El tamaño normal de los
primers en PCR es de 20-23 nt para conseguir la hibridación perfecta con la cadena a amplificar (para
asegurar que solo ampliamos la banda que queremos). En cambio, RAPD reduce el tamaño de sus
primers a 8-10 nt, de modo que al ser más pequeños las posibilidades de que hibride en diferentes
partes del genoma es mayor, ya que mi objetivo es obtener información de la mayor parte del
genoma.

Al ampliar un cebador muy corto es menos específico y los primers se van a pegar en varias zonas del
genoma y van a amplificar varios fragmentos (puede que se nos amplifiquen fragmentos que no
quiero, por ello es menos específico).
Era un poco caótico a la hora de interpretar los datos, ya que habría que ir mirando una a una como
en el método de Sanger.
Primero se añaden los primers y cuando se cumplen las condiciones para PCR, se amplifica, se migra
en un gel y se visualizan las bandas. Los fragmentos solo se van a amplificar cuando los primers
hibridan en direcciones opuestas y se encuentran a una distancia de unas 1000 pb como mucho.

Ventajas
• Técnica rápida, simple y económica.
• No requieren conocimiento previo del genoma.
• Genera un número ilimitado de marcadores.
• Polimorfismo elevado.
• Alta cobertura del genoma.

Lucía Casas, Eduardo Fernández. Patricia R. Tascón


6
Genómica 3ºBiotecnología

Inconvenientes
• Problemas de reproducibilidad se refiere a que pueden haber fragmentos representados en la
misma banda del gel que no son el mismo gen pero pesan lo mismo.
• Dominante.
• Lectura de bandas a veces complicada.
• Una banda no contiene necesariamente un único fragmento de ADN.
• Una banda del mismo tamaño en dos individuos no representa necesariamente el mismo
fragmento de ADN.

- Amplified Fragment Length Polymorphism DNA (AFLP)


Esta técnica combina características de RFLP y RAPD al amplificar selectivamente por PCR
fragmentos de restricción obtenidos tras la digestión total de un DNA genómico. Cuando se corta
con enzimas se obtienen un montón de fragmentos, más de los que se necesitan y mediante la PCR
nos quedamos con fragmentos más reducidos que ya podemos manejar.

Obtención de AFLP
En primer lugar, se produce la digestión del DNA
genómico con enzimas de restricción (usualmente dos).
Los fragmentos obtenidos se ligan a adaptadores de
secuencia conocida (20 pb) que se van a unir a los
extremos que dejan libres las enzimas de restricción.
Nos interesan las enzimas que dejan extremos sin
aparear que nos va a permitir pegar los adaptadores
(extremos romos).
Posteriormente se amplifican todos los fragmentos ​con
cebadores específicos pero no nos interesa amplificar
todos.Para ello, tenemos un siguiente paso para
intentar ser más selectivos: amplificar un número
reducido de fragmentos (subpoblación de fragmentos)
mediante el uso de cebadores complementarios a cada
uno de los adaptadores pero añadiendo una o dos bases
extra en el extremo 3’, denominándose nucleótido
selectivo (en función de cuánto queremos de
restrictivos queramos ser se añaden 2 o 3 bases,
dependiendo de la cantidad de fragmentos que
tengamos en el paso anterior). De esta manera, solo los
fragmentos que tengan esas dos bases
complementarias extras serán amplificados.

Finalmente, se separan los fragmentos en geles de acrilamida


y se detectan por radioactividad o fluorescencia.
Posteriormente este paso se automatizó un poco,
significando cada pico un tamaño de fragmento diferente.
La digestión normalmente se realiza con estas dos enzimas:
EcoRI y MseI, dependiendo del microorganismo que
tengamos.

Lucía Casas, Eduardo Fernández. Patricia R. Tascón


7
Genómica 3ºBiotecnología

Nos interesan una enzima que corte mucho y otra que corte poco para tener fragmentos
balanceados y pequeños. Al añadir los cebadores, como son conocidos, se diseñan los primers
complementarios a esa secuencia más un nucleótido extra (nucleótido selectivo).

Ventajas Inconvenientes
• Reproducible. • Complejo y laborioso.
• Distribución aleatoria. •Dominantes (inconveniente principal, ya que
• Buena cobertura. si se miraba presencia o ausencia, este
• No requieren conocimiento previo del carácter dominante nos impide distinguir
genoma. homocigotos de heterocigotos)
• La combinación de enzimas de restricción, • Coste moderado.
adaptadores y cebadores hace que el número
de AFLPs posibles sea ilimitado.

- Diversity Arrays Technology (DArT)


En la actualidad, se utilizan versiones mejoradas de esta técnica. DArT está basado en hibridaciones
de microarrays que detectan la presencia frente a la ausencia de fragmentos individuales en
representaciones genómicas. A principio de los 90, supuso un gran cambio en estos años,
utilizándose para cáncer y para identificar polimorfismos.
Se construyen secuencias en placas y posteriormente se hibridan con nuestro DNA de interés.
Estas técnicas en principio comenzaron para ver expresión diferencial de genes, pero también se
utilizaron para marcadores, simplemente viendo la diferencia de intensidad con la que hibridaba una
de las secuencias (ya que hibridaban de manera diferente si era perfectamente complementaria o si
tenía alguna diferencia).

Protocolo
1.Complexity reduction​ (reducir la complejidad de la librería, reunir nuestros fragmentos).
Se utilizan dos enzimas de restricción, una
de corte raro (corta menos) y otra de corte
frecuente (para así quedarnos con
fragmentos más pequeños).
Posteriormente nos quedamos con el
fragmento obtenido entre los puntos de
restricción de enzima de la corte raro para
utilizar estas bases apareadas y amplificar
solo estos fragmentos añadiendo
adaptadores. Solo se utilizan unos
adaptadores que complementan a la
enzima que corta menos para reducir el
número de fragmentos obtenidos.

Se trata de una tecnología privada, no es flexible, es la compañía la que se encarga de crear las
secuencias pero es posible personalizarlas ( se puede decir qué secuencias son las que quieres). No
es posible realizarlo en el laboratorio, debido a que está bajo patente. Tienen unos chips especiales
para cada especie (posibilidad de personalizarlos).

Lucía Casas, Eduardo Fernández. Patricia R. Tascón


8
Genómica 3ºBiotecnología

2.Hibridación
Una vez tenemos el chip, se hibrida con mi muestra y se mira la muestra con fluorescencia y
observamos la diferencia de intensidad. Dependiendo de si ha hibridado perfectamente o si hay
polimorfismo y por tanto no ha hibridado completamente, la señal de fluorescencia cambiará,
siendo bastante más pequeña en el último caso.

3.Escaneo de los reads de fluorescencia


A nivel de marcador nos interesa ver grupos de marcadores, es decir, que individuos presentan el
marcador A (tienen el alelo A )y cuáles tienen el B (tienen el alelo B).
*Monomórfico: no hay variabilidad, todos los individuos presentan el mismo alelo.

Ventajas Inconvenientes
• No requieren conocimiento previo del • Dominante.
genoma. • Distribución en el genoma a veces irregular.
• Técnica rápida, y de alta producción. Buena • Preparación engorrosa y necesidad de
relación coste-producción. utilizar protocolos y software propios
• Buena reproducibilidad.

DArT dejó de prestar servicios con esta plataforma en 2016 pero la adaptaron a DArTseq.

- Simple Sequence Repeat (SSR) o Microsatélites.


Está basado en una propiedad de los genomas: la repetición en tándem. Están formados por 2 a 6
nucleótidos, que se encuentran repetidos muchas veces, en el caso de la imagen es un satélite
formado por repeticiones de 4 bases (ATAG).
Este tipo de polimorfismo se sigue utilizando hoy en día porque es bastante abundante, ya que este
tipo de repeticiones se producen cuando la polimerasa, al replicar un fragmento con repeticiones, se
“desliza”, es decir, avanza un determinado número de bases. Este fenómeno de deslizamiento
ocurre alrededor de 1 de cada 1000 veces que se replica, por lo que es bastante frecuente y
polimórfico, ya que un individuo puede presentar 3 repeticiones, otro 5, 10…

Lucía Casas, Eduardo Fernández. Patricia R. Tascón


9
Genómica 3ºBiotecnología

EJEMPLO. Microsatélite formado por repeticiones AT.


Dependiendo del individuo se encuentra repetido un
determinado número de veces. El aspecto importante
de estos marcadores es que son codominantes. De
esta manera se puede distinguir si un individuo tiene
dos copias del número de repeticiones. Otro aspecto
importante a tener en cuenta es que el número de
repeticiones es variable, pero la secuencias que se
encuentran flanqueando al microsatélite son las
mismas. Así, se puede diseñar cebadores que
amplifiquen estas zonas y cuando se haga el gen me
distingan el tamaño.

DETECCIÓN
La primera manera de detectarlos fue por genes. Es
posible separar perfectamente por tamaño, ya que
cuantas más repeticiones, mayor será el tamaño. Se
puede diseñar los primers para amplificar cada
secuencia. Pero el principal inconveniente que se
presenta es que para este tipo de marcadores se
necesita saber la secuencia que los flanquea. Si la
desconocemos, no podemos utilizar este marcador.
Vemos que es muy fácil separarla por tamaño y es
codominante, ya que se puede separar los tres alelos
por tamaño (3 colores).

En la imagen de la electroforesis, el carril M son los


controles y los números se corresponden con
individuos diferentes. Sin embargo, hoy en día para
la lectura se utilizan secuenciadores, que presentan
geles capilares que separan las muestras en dicho
capilar, separando las diferentes muestras por
tamaño. Los resultados se obtienen a través de un
programa informático que nos da los picos que
producen los diferentes tamaños.

Ventajas Inconvenientes
• Polimorfismo muy elevado (multialelicos) • Necesidad de conocimiento previo del
• Codominantes. genoma de la especie en estudio.
• Fáciles de leer e interpretar. • Alto costo de desarrollo (primers).
• Reproducibilidad muy alta. • Moderado costo después (fluorescencia).
• Resultados transferibles entre laboratorios.
• Facilidad de automatización.

Lucía Casas, Eduardo Fernández. Patricia R. Tascón


10
Genómica 3ºBiotecnología

- Single Nucleotide Plymorphism (SNP)

Es la diferencia en un nucleótido entre varios individuos en la misma posición. Son los polimorfismos
más abundantes en las especies: en el genoma humano, el 99,9% de los polimorfismos son SNP o
pequeñas deleciones o inserciones.
Nuestro genoma es igual en un 99,9%, solo nos diferenciamos en un 0,1%, pudiera parecer poco
pero como el genoma tiene 3 gb, ese 0,1% supone una cantidad considerable.

El número de polimorfismos en una posición es muy reducido, como máximo hay 4 tipos de alelos
diferentes, pero por secuenciamiento masivo y técnicas de genotipado las posiciones interesantes
son aquellas en las que hay dos tipos de nucleótidos, o uno u otro en vez de haber los cuatro. Se
puede automatizar y separar fácilmente los que tienen a y los que tienen b.

Hoy en día se detectan por secuenciación aunque depende mucho de la cantidad de SNPs. Según el
número de individuos que queramos distinguir y el número de SNPs que queramos distinguir,
tendremos unas técnicas de genotipado buenas (identificar una gran cantidad de polimorfismos,
principalmente SNPs, en un gran número de individuos).

TIPOS DE SNPs A NIVEL DE GEN

Como consecuencia de que el código genético está degenerado, en la mayoría de los casos solo son
importantes las dos primeras bases en los tripletes, la tercera puede balancear (puedo tener AAG o
AAC que me dan el mismo aminoácido). Una mutación en la tercera posición del triplete no es tan
importante como en las otras dos.
Cuando se trata de una región que no codifica (intrones), la mutación da igual, ya que no produce
ningún cambio en el gen. Sin embargo, si se trata de una región que codifica (exones), se pueden dar
diferentes tipos de mutaciones. Si produce cambio de base pero el aminoácido resultante es el
mismo, se trata de una ​mutación sinónima​. En cambio, si la mutación hace que se codifique para
otro aminoácido, se producirá una proteína diferente, denominándose en este caso ​mutación no
sinónima​. Dentro de las mutaciones no sinónimas se distinguen dos tipos: ​missense​, si se produce
un cambio de aminoácido y ​nonsense si aparece un codón de STOP antes de tiempo (mutación sin
sentido).

Como hemos podido comprobar, un simple cambio en una base puede tener múltiples efectos.

Lucía Casas, Eduardo Fernández. Patricia R. Tascón


11
Genómica 3ºBiotecnología

Ventajas
• Usualmente bialelicos (facilidad para automatización): bastante raro que en un mismo lugar se
hayan producidp 4 mutaciones.
• Codominantes.
• Muy numerosos (los mas abundantes).
• Fáciles de leer e interpretar.
• Reproducibilidad muy alta.
• Facilidad de alta automatización.

Inconvenientes
• Necesidad de conocimiento previo del genoma de la especie en estudio.
• Alto costo de desarrollo. Secuenciamiento.
• Muy económicos después. Para la creación de los genomas de referencia se dedica mucho dinero,
todos los genomas que se ensamblan después son más baratos

APLICACIONES DE LOS MARCADORES MOLECULARES

• Mapeo.
• Identificación de genotipos. Identificación de material vegetal.
• Diagnóstico de enfermedades. Pre y postnatal.
• Estudios de evolución.
• Determinación de parentesco. Genealogías.
• Selección asistida por marcadores.
• Estudios de variabilidad y diversidad genética en distintas especies.
• Estudios forenses.

Lucía Casas, Eduardo Fernández. Patricia R. Tascón


12
Genómica 3º Biotecnología

GENOTIPADO
Es el proceso de determinar las diferencias en la composición genética (genotipo) de un individuo
mediante el examen de la secuencia de ADN del individuo y comparándolo con la secuencia de otro
individuo o una secuencia de referencia.

1. GENOTIPADO. POSIBLES ESCENARIOS.

1) Cientos de muestras de las que quiero saber pocos marcadores, pocos polimorfismos, solo
estamos interesados en ciertos caracteres: se utiliza para una mejora asistida por marcadores. Por
ejemplo genes que dan azúcar, tamaño, mejor conservación… Son en general pocos genes, pocos
marcadores por lo que necesitaré un número considerable de genes para poder cruzarlos.

2) Cientos de muestras entre las que quiero obtener entre varios y cientos de marcadores. En este
caso se utiliza en análisis de pureza varietal, es decir, en mejora vegetal para ver si una variedad es
verdaderamente la que nos dicen que es. Necesito un mayor número de marcadores para saber los
sitios donde se encuentran los distintos SNPs (más información).

3) Cientos o miles de muestras para analizar miles de marcadores a la vez; es el denominado


genotipado masivo​. Fundamentalmente tienen tres aplicaciones: cuando se quiere saber el
parentesco, la predisposición a enfermedades o el grupo étnico al que pertenece​.

Técnicas:

· ​Genome-Wide Association Study (GWAS)​: consiste en asociar estadísticamente los millones de


polimorfismos que tengo a un carácter asociado. ​Por ejemplo asocio el tamaño de la fruta (carácter)
con los snps diferentes a cada variedad en función del tamaño, obteniendo diferencias asociadas a
cada variedad.

· ​Genotypic Selection (GS)​: una vez identificados los polimorfismos que son importantes para un
carácter, esta técnica los trata de incorporar a mis variedades. También se realiza con técnicas
estadísticas.

No selecciona un individuo con un solo marcador o con unos pocos, sino que en esta técnica se
seleccionan miles de polimorfismos distintos. Está enfocado a ver qué efecto acumulado tiene cada
polimorfismo en la descendencia, que podamos predecir que se va a comportar mejor frente a lo
que nos interesa, por ejemplo, que de mejor fruta.

·Linkage maps

·Estudios de ancestros en humanos

Lucía Casas, Eduardo Fernández, Patricia R. Tascón 1


2. TIPOS DE GENOTIPADO (en función de lo que necesitemos)
1) ​Genotipado individual​ (pocas muestras):

· Allele-Specific PCR (ASPCR).

· Kompetitive Allele Specific PCR (KASP)

· TaqMan

· Semi Terminal Asymmetric Reverse PCR (STARP)

2) Genotipado masivo​: información de muchos individuos, y de cada individuo tengo millones


de SNPs. Son cuatro técnicas de identificación de SNPs para cuando se quiere determinar un
número reducido de alelos. El primer y segundo métodos están basados en hibridación.

· Affymetrix GeneChip.

· Affymetrix Axiom.

· Illumina Infinium

· Genotyping by Sequencing (GBS).

2.1. GENOTIPADO INDIVIDUAL​ (para saber número reducido de SNPs)

2.1.1 Allele Specific PCR

La reacción en cadena de la polimerasa específica de alelo (ASPCR) es una aplicación de la reacción


en cadena de la polimerasa (PCR) que permite la detección directa de cualquier mutación puntual en
el ADN humano mediante el análisis de los productos de PCR en un gel de agarosa o poliacrilamida
teñido con bromuro de etidio. ​Este método de genotipado fue el primero que se inventó y se
descubrió después de la PCR.

Se trata de una técnica similar a la PCR pero con condiciones más estrictas en cuanto al diseño del
primer y las temperaturas durante el proceso. Si hay un polimorfismos (según se observa en la
imagen) tendré dos opciones: ​A y ​G ​por lo que hago dos PCR distintas, una con cada primer (longitud
media: 20-23 pb). El último nucleótido del primer lo hago específico para que detecte el alelo A o G.
Si quiero añadir más especificidad añado más mutaciones, bases distintas entorno a ese área (en la
tercera o cuarta base, se señalan con estrellas en la imagen, puesto que igual se tienen ciertas
hibridaciones).

ASPCR funciona porque un cebador oligonucleotídico que forma un desajuste 3’ con la plantilla de
ADN será refractario a la extensión del cebador por la ADN polimerasa. Por lo tanto, los cebadores
oligonucleotídicos específicos para todos los alelos conocidos pueden sintetizarse y usarse para
detectar los alelos en ADN de genotipo desconocido.

2
Genómica 3º Biotecnología

Fundamento muy básico: cuando yo tengo una secuencia complementaria casi perfecta o perfecta
me produce PCR pero cuando no la tengo, no lo produce. Puedo ver el producto en el gen de la PCR
cuando lo revele en geles. La polimerización va en las dos direcciones, puedo introducir el AS primer
en la posición forward o en en el reverse.

Se sigue haciendo cada día para ver polimorfismos, no necesito ni fluorescentes ni nada.

Este dibujo está mal representado porque no hay correspondencia de complementariedad entre los
primers y el polimorfismo que presenta la secuencia.

2.1.2 Kompetitive Allele Specific PCR (KASP)

Se trata de una marca comercial junto con Taqman, se utiliza en el caso de querer saber unos pocos
SNPs en muy pocos individuos, siendo su método muy rápido. El fundamento es el mismo que en el
caso anterior: parto de una doble hebra con el SNP de interés (estrella) y hago el primer ciclo de PCR,
separo la doble hebra y en la secuencia complementaria al del SNPs utilizo el “Common Reverse
Primer”, que en la cadena opuesta no me va a linear y por ello utilizo un “Allele-Specific Forward
Primer” para elongar la cadena, de modo que se me unirá el primer específico a ese alelo. Una vez
terminado el primer ciclo de PCR, en el segundo ciclo y por polimeración, obtengo el fragmento de
secuencia complementario al Allele-Specific Forward Primer, denominado “secuencia de cola
complementaria” que es la que se unirá a un cebador marcado con fluorescencia que yo he
introducido.

Lucía Casas, Eduardo Fernández, Patricia R. Tascón 3


Vídeo 1​: para los dos alelos que quiero diferenciar, fabrico dos primer diferentes, uno para cada alelo
a diferenciar (similar al otro método) y luego tengo un reverse primer común. La detección está
basada en fluorescencia (paso nuevo de este método), en la mezcla de PCR añado los dos oligos (uno
para cada alelo) con fluorescentes (Fret cassettes) y bloqueadores, de modo que los bloqueadores
cuando están muy cerca de su fluorescente correspondiente, no se produce señal, es decir,
fluorescencia, para que no cause interferencia posteriormente. Solo cuando las dos hebras se
separan por las condiciones de PCR, el bloqueador estará lejos del fluorescente (en la segunda PCR)
y nos va a permitir detectar la señal.

Lo que es diferente al método anterior es el método de detección.

Como cada fluorescente tiene un color distinto, podré distinguir un alelo u otro ya que se me habrá
unido el primer inicial correspondiente a ese alelo (dependiendo del color que nos de la
fluorescencia). Mediante este método somos capaces de distinguir si una muestra de una especie es
homocigoto o heterocigoto.

Vídeo 2​: Aquellos que tienen los alelos iguales me van a una parte del gráfico, en los ejes X e Y se
muestran la cantidad de fluorescente de un tipo y de otro. Se obtienen tres individuos, dos
homocigotos y un heterocigoto. NTC significa que no tengo señal, no se me ha amplificado.

2.1.3 Taqman​: rival del CRISPR.

Todos estos métodos están basados en modificaciones de PCR. Este método se basa en la propiedad
exonucleasa que tiene la DNA polimerasa, que a la vez que va incorporando bases en un lado
(sentido 5’-3’) elimina bases en sentido contrario (3’-5’). Esto es posible ya que la DNA polimerasa
además de la función de polimeración, presenta funciones de correción y reparación del DNA.

La sonda taqman se compone de un fluorescente (R = Reporter) y un bloqueador (Q = Quencher). Es


importante señalar que no hablamos de PRIMERS sino sondas o pruebas TaqMan, fabricadas
específicamente para cada polimorfismo. Para identificar los snps tengo dos sondas que se
diferencian en el fluorescente, de modo que tendré un fluorescente distinto para cada sonda. Como
el bloqueador está muy cerca del fluorescente no se produce señal, pero como tenemos primers
universales, al comenzar la polimerización, la
DNA polimerasa va en sentido 5’-3’ (utiliza el
forward primer) y al llegar a la sonda (una
vez unida la correspondiente a ese alelo)
provoca su ruptura gracias a su actividad
exonucleasa. Como ambas partes se separan,
el fluorescente se aleja del bloqueador y se
produce la señal correspondiente.

Si tenemos el polimorfismo que se indica en


la imagen y queremos diferenciarlo.
Tenemos dos pruebas, una que hibrida
perfectamente y otra que no (existirá una
base que no aparea). La sonda que hibrida se
me une al polimorfismo y cuando

4
Genómica 3º Biotecnología

amplifiquemos por PCR, se va a separar el fluorescente de bloqueador, lo que nos va a permitir


visualizar la señal.

La interpretación es la misma que en el método anterior: vamos a ser capaces de distinguir los
homocigotos de los heterocigotos por la intensidad de la fluorescencia y los colores.

2.1.4 Semi Terminal Asymmetric Reverse PCR (STARP)

Se trata del cuarto método de identificación de pocos snps y es una modificación mucho más
elaborada, aunque todas ellas están basada en producir PCR muy específicas que diferencian un
alelo de otro, de manera eficiente y cometiendo el menor número de errores. Se considera un poco
complicado y complejo además de novedoso, ya que data de 2017. Además, es método flexible cuyo
fundamento se basa en que mediante PCR normales y su revelación en geles me va a permitir la
identificación por tamaño de fragmentos y por fluorescencia.

Para detectar los dos alelos (​alelo 1 y ​alelo 2​) de un SNP, para cada PCR en el ensayo STARP se
requiere:

a) Dos Priming Element-Adjustable primers (PEA-primer 1 y PEA-primer 2)


b) Un grupo de 3 cebadores específicos de locus: Dos Asymmetrically Modified Allele-Specific
primers (AMAS-primer 1 and AMAS-primer 2) y sus respectivos common reverse primer.

Necesitan de un tipo de fluorescencia distinta particular para cada alelo (dos sondas PEA y dos
sondas AMAS). El alelo 1 (fluorescencia azul) se amplifica específicamente usando un PEA-primer 1
acoplado con un AMAS-primer 1, además de su respectivo reverse primer. Para el alelo 2
(fluorescencia verde) ocurre lo mismo, se amplifica específicamente utilizando PEA-primer 2
acoplado con AMAS-primer 2, además de su respectivo reverse primer, que es común para ambos
alelos.

Las sondas PEA tienen un fluorescente al final diferente para cada alelo, de modo que cuando la DNA
polimerasa llega al bloqueador de PCR (rojo en la imagen) la polimerización no continúa, y la
polimerasa se para. El elemento dentro de la sonda Priming Element1 es lo que me va provocar que
la sonda se una consigo misma. Además de todo lo mencionado, en la sonda existe una inserción
(​Insertion​) de 4 pares de bases para poder separar los alelos por tamaños, los productos de los alelos
van a tener 4 bases de más en uno de los dos alelos.

Otra particularidad es que en condiciones normales se forma un bucle en ambas sondas


(PEA1-QFAM y PEA2-QHEX) de modos que los extremos hibridan (Priming Element 1 y 5’-Stem
Element) poniendo en contacto el bloqueador y el fluorescente dentro de la sonda, por lo que no se
produce señal.

Lucía Casas, Eduardo Fernández, Patricia R. Tascón 5


Las sonda AMAS están particularizadas para cada alelo. Si queremos diferenciar entre C y G voy a
tener una sonda AMAS con el último nucleótido que sea complementario a cada uno de mis SNPs.
Para mejorar la eficiencia y el apareamiento y evitar apareamientos no deseados entre alelos, se
añaden otras mutaciones cerca del extremo (color verde) de modo que exisistirán un total de 3
diferencias: entre las dos pruebas AMAS y el nucleótido final a separar. Muy raramente hibridarán
las sondas con el alelo que no corresponde, debido a estas diferencias. El primer AMAS consta de
dos partes: una cola y una secuencia AMAS específica para cada alelo, donde se encuentran las
diferencias; es importante mencionar que la secuencia de las colas (1 y 2) para cada alelo es igual a la
secuencia del Priming Element (1 y 2) para los primer PEA.

Durante el proceso, si consideramos el alelo 2 para la secuencia de DNA el AMAS-primer 1


correspondiente al alelo 1 no se me va a unir al no existir complementariedad en la última base, que
es la más importante para la PCR​ siempre​.

Una vez que se ha unido el AMAS-primer correspondiente a cada alelo con sus diferencias
introducidas artificialmente, comenzará la polimerización en la primera PCR. El reverse primer es el
mismo en los dos alelos si seguimos la cadena. En el segundo ciclo de PCR (B) se producirá una nueva
hebra complementaria (azul) a la AMAS, añadiendo diferencias que antes no tenía, debido a que yo
las he introducido antes. Todo ello está encaminado a crear una zona que tenga una diferencia
creada anteriormente para que se me pegen las sondas.

Al comenzar un nuevo ciclo de PCR ocurre lo mismo que antes, como he creado unos SNPs que
previamente no existían, el AMAS-primer1 no complementa con la nueva hebra generada del alelo 2
ya que ahora es mucho más diferente. La hibridaciones van a ser muy específicas, de modo que una
vez que tengo las modificaciones, se añade la sonda PEA correspondiente con el fluorescente (la
unión se produce gracias a las colas y Priming Elements) y sigo con el tercer ciclo de PCR hasta
conseguir amplificar las dos hebras, bajo las condiciones de la PCR consigo el alineamiento de la
sonda PEA, de modo que al separarse en la sonda PEA el fluorescente y el quencher (deja de estar en
estado circularizado) se producirá fluorescencia.

Todo está basado en modificaciones de PCR, con amplificaciones diferenciales que se pueden
detectar por diferencia de tamaño y de fluorescencia.

6
Genómica 3º Biotecnología

2.2. GENOTIPADO MASIVO

TÉCNICAS BASADAS EN MICROARRAYS

Sobre una placa de cristal, se añaden las pruebas (también llamadas sondas), con estas secuencias
que queremos probar (sería el DNA del que queremos averiguar el polimorfismo que presenta).
Donde haya un SNPs, la hibridación será más suave. Podemos ajustarlo con las condiciones de
temperatura: si pongo unas condiciones muy estrictas, solo las cadenas que presenten un
apareamiento perfecto me va a aparear pero si tiene un cambio no. En cuanto al DNA, añadimos
algún tipo de fluorescencia para, posteriormente, viendo la señal, saber si esa es la cantidad de DNA
que me ha hibridado. En la placa tengo la prueba y añado diferentes target, de modo que el que
hibride con la prueba es que producirá la fluorescencia (=hibridación detectada por fluorescencia).
Viendo la señal producida seré capaz de detectar la cantidad de dna que ha hibridado, y su
correspondiente pico; tendrán diferente color para cada snps. La mayoría de las técnicas utilizan
diferente color para diferentes SNPs.

Lucía Casas, Eduardo Fernández, Patricia R. Tascón 7


2.2.1 Affymetrix GeneChip

Es la técnica más antigua, data de 1992. Comenzó utilizándose principalmente para observar la
expresión de genes (para ver si los genes estaban expresando más o menos un determinado
momento) pero se adaptó para detectar polimorfismos, un grupo de mi DNA amplificado que yo
quiero probar a detectar SNPs.

En la tipología original de esta técnica solo había un tipo de fluorescencia y no se diferenciaba por
colores si no por diferencias de intensidad.

En el proceso se parte de RNA


(también se puede a partir de
DNA), se aísla y como es tan
inestable es necesario
transformarlo a DNA
complementario (cDNA)
mediante transcripción inversa y
así poder almacenarlo más
tiempo. Justo antes de la
hibridación, a partir del cDNA por
transcripción ​In Vitro obtengo
RNA complementario (cRNA) y
en cada una de las moléculas de
Uracilo de la cadena se añade
una molécula de biotina, que
funcionará como pegamento al cual se le añade una fluorescencia, que será la que posteriormente
detectaremos.

Síntesis de las cadenas en la placa: las secuencias en la placa de cristal utilizan un bloqueador que se
desbloquea con la luz, son secuencias de 25-30 nucleótidos ​(cadena presente en la placa). Cada vez
que se quiere añadir un nucleótido más a la cadena se desbloqueaba con la luz en esa zona
particular, se incorpora a la solución el nucleótido(s) correspondiente(s), volviéndose a bloquear una
vez unidos y así sucesivamente.

8
Genómica 3º Biotecnología

En esta técnica solo había un color en cuanto a fluorescencia. ​Visualización: ​los oligonucleótidos con
secuencias distintas son inmovilizadas en el chip de DNA , al añadir los fragmentos marcados
fluorescentemente, la secuencia que es perfectamente complementaria, conforma un
apareamiento perfecto y si no lo es, se formará un bucle, que en el momento en el que lave la
muestra se retira. Al añadir luz UV/láser se detectará la fluorescencia.

Muy útil en su momento pero tiene múltiples complicaciones, ya que la señal es difícil de interpretar
(aunque podría ajustar las condiciones estrictamente, se me podrían producir hibridaciones
igualmente) y además, llevaba un tratamiento estadístico muy complejo para eliminar la señal de
fondo y quedarnos con la señal real.

La separación de alelos está basada en las


diferentes intensidades, no el el color). El software
interpreta las diferentes intensidades como colores
mediante una gráfica, siendo así más fácil la
interpretación.

Para separar en un grupo a los individuos que


tienen un alelo utilizamos el color azul para los que
tienen el alelo B y rojo para los que tienen el alelo
A y el color amarillo para los heterocigotos. Esta
técnica fue pionera en este campo pero quedó
obsoleta , aunque supo adaptarse, fue comprada por otra: la tecnología AXIOM.

Lucía Casas, Eduardo Fernández, Patricia R. Tascón 9


2.2.2 Affymetrix Axiom

La tecnología AXIOM se basa en dos colores y puede identificar hasta 45000 SNPs diferentes.
Podemos amplificar el DNA, fragmentarlo, hibridarlo con la prueba, pero ahora a diferencia del
método anterior, como tenemos dos colores, podremos ver cuándo hibrida un nucleótido u otro. El
procedimiento consta de 4 partes: Preparación del DNA diana,​ en el cual se amplifica y se fragmenta
el DNA de interés; ​Hibridación​, como su propio nombre indica se captura el DNA (mediante
hibridación) y se marca; ​Ligación,​ se diferencia el DNA que nos interesa y la última fase es la de
Amplificación de la señal.

Modificaciones introducidas en este métod​o​: partimos de una cadena como antes en la pletina de
cristal, denominada prueba de array y​ a partir de ello, diseño una prueba con 9 nucleótidos de modo
que todos apareen menos el último, que es el que diferencia un SNPs de otro. SNPS simples como
[G/A], [G/T], [C/A], o [C/T] son detectados usando una prueba estándar de Axiom. Se consigue la
discriminación de alelos mediante sondas marcadas diferencialmente con fluorescente que hibridan
al alelo correspondiente (una prueba, lectura de dos colores).

Otra novedad es que un mismo SNPs es que lo medía dos veces, de modo que tengo dos datos uno
por cada lado de la cadena (forward y reverse). Este hecho es un componente de precisión bastante

😊
importante. Se trata entonces de un método más fácil, exacto y preciso para separar dos colores que
separar intensidades de un mismo color.

2.2.3 Infinium protocol (Illumina)

La marca ​GoldenGate abandonó esta técnica y ahora la maneja ​Illumina ​como rival del
método anterior (Affymetrix) se basa en placas de microarrays.

En este caso no hay amplificación del DNA por PCR si no que se utiliza una amplificación
térmica por polimerasa, y así se evitan multitud de problemas de eficiencia, que no se
amplifiquen todos los fragmentos de la misma manera, etc.

Tecnología básicamente la misma que en el método anterior. En el secuenciamiento de


Illumina se añadía una base en cada ciclo, debido a la presencia del bloqueador (que no
permite añadir más), pero en el caso de los polimorfismos es mucho más sencillo, ya que

10
Genómica 3º Biotecnología

no tengo que incrementar la cadena en 100 o 200 bases como ocurría en el secuenciamiento si no
que con añadir una es suficiente para detectar el polimorfismo (qué base es). Por lo que se añaden 2
colores en vez de 4 como en el secuenciamiento.

VÍDEO​: Cosa común a estos métodos, necesito amplificarlo de alguna manera por PCR o sin ella,
después se fragmenta en fragmentos con longitudes entre 300-600 bp, se purifica la muestra y el
DNA precipita en el fondo. Añado mis pruebas que posteriormente hibridarán con el DNA del
microarray, estas pruebas son simplemente un nucleótido que presenta un bloqueador, que cuando
se una al complementario me indicará la base que hay en ese lugar.

La detección de los alelos es mediante fluorescencia unida a la prueba y se utilizan dos colores, en
los que según la proporción detectaremos, el color rojo nos indicará que es homocigoto para un
alelo, el verde, homocigoto para el otro alelo y el heterocigoto amarillo por la mezcla de rojo y verde
en igual cantidad de alelos. El análisis de datos se realiza mediante GenomeStudio.

Illumina vs Affymetrix​:

En el caso de Affymetrix, utiliza hibridación completa con


fluorescente, y las sondas aparean perfectamente en el
lugar en el que hay complementariedad total. Por lo
contrario, en Illumina la extensión es de simplemente
una base por ciclo. En la tecnología de Affymetrix (A) si
no hay apareamiento perfecto en la detección saldría un
color menos intenso que si la complementariedad es
total, que el color aumenta en intensidad. Una
desventaja de este método es la existencia de mucho
tratamiento estadístico pero se sigue utilizando porque
es más barata que Illumina; por consiguiente, Illumina es
más precisa pero más cara.

Lucía Casas, Eduardo Fernández, Patricia R. Tascón 11


2.2.4 Genotyping by Sequencing (GBS) Methods ​Distinguimos dos tipos:

-​ ​ GBS original (Elshire)

- DArTseq​: en vez de distinguir ausencia o presencia de polimorfismo, se basa en secuenciar


directamente la secuencia que tengo en la pletina.

GBS original: Elshire

Se trata de un método de alto rendimiento para descubrir SNPs. Además, es relativamente barato.

¿Cómo lo consigue?

·GBS utiliza enzimas de restricción para reducir la complejidad del genoma y el genotipo de múltiples
muestras de ADN.

·Después de la digestión, se realiza una PCR para aumentar el conjunto de fragmentos.

·Las librerías de GBS se secuencian usando la tecnologías de secuenciación de próxima generación,


que generalmente producen lecturas de un extremo de aproximadamente 100 pb.

Parto de mi cadena de DNA, mediante dos enzimas corto el DNA en fragmentos (en el protocolo
original se cortaba con una sola enzima). Las dos enzimas utilizadas serán diferentes: una enzima
que corte mucho y una enzima que corte poco, la combinación de enzimas es particularizada para
cada especie. Este procedimiento se utiliza para reducir el genoma pero no mucho. Posteriormente
pego adaptadores con un índice único, se trata de una secuencia única para saber a qué individuo

12
Genómica 3º Biotecnología

pertenece cada una de las secuencias. Estos índices constan de 6-8 pares de bases con composición
única y diferente para cada individuo.
Realizo una serie de reacciones para unir los barcodes o índices y amplifico por PCR, en este caso
puedo mezclar todos los fragmentos porque a cada individuo le caracteriza un color, las secuencias
resultantes de DNA son distintas. Después de amplificar, secuencio masivamente por Illumina y
separó según los distintos individuos. Una vez conseguidas todas las secuencias que me caracterizan
a cada individuo, analizo bioinformáticamente las secuencias de cada individuo, comparándolos
entre sí para buscar polimorfismos.

Esta técnica utiliza los paired end read de Illumina, se basa en observar las diferencias entre
individuos, es decir los polimorfismos, que se utilizaron para construir posteriormente un mapa
genético. Este método supone una manera muy barata de fragmentar el genoma y quedarme con los
fragmentos que me interesa, que es donde cortan las enzimas, sin tener que secuenciar todo el
genoma sino solo los fragmentos que cortan las enzimas. Me ahorra dinerito pero tiene una serie de
desventajas.

Ventajas e inconvenientes:

Ventajas
·​Gran cantidad de datos obtenidos muy rápidamente.
·​Es relativamente económico (tan bajo como $ 30 / muestra).
·Relativamente libre de sesgo de verificación.

Inconvenientes
·​Faltan gran cantidad de datos. Cobertura desigual entre muestras. Se secuencia ligeramente porque
secuencio muchos individuos. Este método reduce el total de fragmentos a secuenciar (una enzima
corta mucho y la otra poco y así reduce el genoma para que puedas analizarlo pero tampoco hacerlo
tan pequeño que no se pueda dar el proceso), pero tiene una desventaja, y es que cada secuencia la
puedo cubrir de forma mínima, en unos 5 o 10x, solo para detectar los polimorfismos (no más para
ahorrar dinero pero tampoco menos para que no me impida obtener ese dato) . Tendré por lo tanto
poca cobertura por lo que tengo bastantes errores, y será más difícil cuando el locus es heterocigoto
(tengo los 2 alelos).
·Baja profundidad de lectura -> errores de llamada de genotipo (heterocigosidad mal llamada).
·Carga de trabajo bioinformático intensiva.

DArtSeq

Recordatorio: ​esta técnica no necesitaba saber la composición del genoma, me quedo con una serie
de fragmentos de mi genoma y los deposito en una pletina. Una vez depositados, observo dónde
hibridan las secuencias para mirar la presencia o ausencia de polimorfismo; el fundamento de esta
técnica es que no se sabía la secuencia de mi fragmento de DNA, simplemente se depositaba en la
pletina y me olvidaba, y únicamente se observaba la presencia o ausencia de fluorescencia o rayos X
(radioactividad).

Lucía Casas, Eduardo Fernández, Patricia R. Tascón 13


Pero ahora mediante esta técnica voy a obtener los snps que me interesan y secuencio la cadena, los
fragmentos que antes desconocía ahora los se, mirando los nucleótidos que corresponden a ese
polimorfismo (puesto que ahora los secuencio).

DArTseq es una plataforma de genotipado por secuenciación barata y fácil de usar, pero a la vez
eficiente, que permite el descubrimiento de marcadores en todo el genoma mediante la reducción
de la complejidad del genoma por enzimas de restricción y la secuenciación de los fragmentos de
restricción. En comparación con la versión de matriz de DArT, DArTseq da como resultado
densidades de marcadores más altas.

Resumen.

14
Genómica 3º Biotecnología

Fundamentos del mapeoeoeo 


Métodos usados para identificar el locus de un gen y establecer las distancias entre diversos genes.
La esencia de todo mapa genético es colocar una colección de marcadores moleculares en sus
respectivas posiciones en el genoma.

La finalidad del mapeo reside en varias utilidades:


· Nos permite conocer secuencias de grandes longitudes que se han ensamblado mediante contigs.
· Nos permite localizar y orientar scaffolds en el genoma, tras obtener el ensamblado de reads.
· Nos permite posicionar genes en un DNA de interés (mediante la técnicas QTLs y GWAS).

Los primeros mapas que se elaboraron fueron ​mapas morfológicos​, este tipo de mapa está basado
en caracteres que son observables a simple vista. Únicamente es capaz de mapear ​genes ligados​, es
decir genes que se encuentran próximos en un cromosoma. Ya que si dos genes se encuentran en
cromosomas distintos o se encuentran distanciados en el mismo cromosoma, estos genes no se
encuentran ligados.

Se observó que cuando se cruzan individuos de la misma especie se obtenían fenotipos no


esperados, denominados ​fenotipos recombinantes​. Estos fenotipos se corresponden a fenómenos
de recombinación entre genes del mismo cromosoma, es decir, a genes ligados. Este tipo de
cruzamiento da lugar a una proporción diferente de fenotipos a los esperados mediante la
segregación mendeliana.

Ejemplo del mapa genético del tomate basado en marcadores morfológicos.

Por la segregación que presentan los individuos puedo conocer si los genes se encuentran en el
mismo cromosoma. Cuando se cruzan individuos de la planta de tomate se observan que se
obtienen fenotipos recombinantes, los cuales difieren de las plantas parentales dando lugar a
nuevos fenotipos. Por lo que se deduce que los genes que influyen en el carácter de estudio se
encuentran ligados.

Se distinguen dos tipos de mapeo:

● Físico​: se consideran distancias reales, es decir, distancias que nunca varían. Ej. Nº de pares
de bases.

● Genético​: se consideran distancias relativas las cuales dependen directamente de


parámetros asociados al experimento, como el número de individuos recombinantes u otras
estadísticas. Se trata siempre de una distancia aproximada pero útil. Se basa en las
frecuencias de recombinación entre locis. Normalmente se realiza mediante estadística,
cuanto más individuos se obtengan en la descendencia, más precisas serán las distancias
relativas.

Lucía Casas, Eduardo Fernández, Patricia R.Tascón 1


Genómica 3º Biotecnología

Se suelen emplear ambos métodos simultáneamente: mediante ​mapeo genético se localiza el gen
en el genoma y mediante ​mapeo físico​ se localiza la secuencia de interés.

1. Mapas físicos.

Los mapas físicos se ordenan de menor a mayor ​resolución​. Siendo el de menor resolución el
citogenético​, ya que se basa únicamente en bandas, este tipo de mapas de baja resolución se
emplean para delimitar la región de interés del genoma. Por otro lado, un mapa físico bastante
preciso y con mayor resolución son los ​mapas de restricción​, aunque el mapa físico por excelencia es
la ​secuencia​ en sí.

a) Mapas Citogenéticos.

A penas se emplean hoy en día. Se observan directamente las distancias en los cromosomas
mediante ​FISH (Fluorescence In-Situ Hybridization)​. Se hibridan sondas con fluorescencia en los
cromosomas tras previa desnaturalización. Se observa coloración en las zonas de hibridación de muy
poca resolución.

b) Mapas de cDNA.

Tiene poca resolución pero resulta útil porque mediante el uso de un genoma de referencia se puede
localizar los genes que se están expresando en el genoma en ese momento.

También se denominan ​ESTs (Expressed Sequence Tags)​, se emplea DNA complementario a partir de
mRNA extraído, este cDNA se emplea como sonda para hibridar regiones genómicas que nos
proporciona información de la localización cromosómica de genes cuya función suele ser
desconocida. Son procesos largos que involucran muchos mapas.

Si lo aplicamos a plantas podemos aislar mRNA de una planta enferma y localizar los genes
involucrados en esa enfermedad.

c) Mapas de Radiación híbridos (RH).

Se emplea tanto en plantas como en mamíferos, sobre todo en ratones.

Se basa en irradiar una célula con una radiación fuerte con el objetivo de fragmentar el cromosoma.
Estos fragmentos de la célula irradiada se mezclan e integran en una célula normal, por lo que ésta
contendrá los fragmentos irradiados. Habrá cromosomas inviables debido a una elevada tasa de
mutación, pero los cromosomas que son viables se emplean para mapear.

Lucía Casas, Eduardo Fernández, Patricia R.Tascón 2


Genómica 3º Biotecnología

El mapeo se realiza con un marcador normal en el


que se observa presencia o ausencia (+ ó -) de ese
marcador mediante una PCR. Se realiza una tabla y
esta información nos sirve para realizar un nuevo
mapeo.

El fundamento es similar al mapeo genético con


recombinación: cuánto más distantes se encuentren
dos genes en el cromosoma, más probabilidad habrá
de que se encuentren en fragmentos diferentes tras
la radiación.

d) Mapas de contigs.

Primero se crea una librería de fragmentos de DNA, se realizan ensayos con enzimas de restricción,
se obtienen bandas en un gel para delimitar el genoma donde se producen los cortes y se analiza el
patrón de enzimas de restricción de los diferentes contigs o se emplean marcadores para observar
que fragmentos solapan. A partir de estos datos se obtiene un mapa consenso integrando varios
mapas, de esta manera reducimos el tamaño de la secuencia a partir de la cual se puede localizar un
gen de interés.

Se determina el “​minimum tiling path​”, que es el número mínimo de clones que abarca la totalidad
del genoma que se corresponde con la secuencia mínima para que no se pierda la información. No

Lucía Casas, Eduardo Fernández, Patricia R.Tascón 3


Genómica 3º Biotecnología

sirve de nada secuenciar un contig si esa información ya nos la puede proporcionar el solapamiento
de otros contigs ya secuenciados. Sin embargo, para no perder información se debe de secuenciar de
forma redundante.

Se deben secuenciar completamente los clones que constituyen el “minimum tiling path”
(fragmentos rosas) para conocer el genoma.

e) Mapas de restricción.

Se emplean ​endonucleasas que cortan fragmentos en puntos determinados y obtenemos bandas en


un gel, del cual obtenemos distancias relativas para elaborar el mapa de restricción del genoma.

f) Secuencia como mapa físico.

La propia ​secuencia del cromosoma o del genoma es el mapa físico por excelencia, se trata del mapa
perfecto. Se emplean programas bioinformáticos que nos permiten hacer zoom hasta observar las
bases que componen la secuencia.

2. Mapas genéticos.

Recombinación genética.

Estos mapas están basados en ​frecuencias de recombinación​, siempre se cumple la misma premisa:
cuanto más alejados se encuentran dos loci en un cromosoma, mayor frecuencia de recombinación
tendrán y viceversa. Estas frecuencias de recombinación son ​variables​ a lo largo del cromosoma.

Lucía Casas, Eduardo Fernández, Patricia R.Tascón 4


Genómica 3º Biotecnología

Para que se puedan mapear dos genes se deben de localizar en el mismo cromosoma y tiene que
ocurrir el fenómeno de recombinación.

Estos mapas se elaboran a partir de la ​descendencia de dos individuos conocidos que presentan
diferencias alélicas. Las pruebas más recurrentes son F2, cruzamientos prueba o RIL (recombinant
inbred line). Un porcentaje de individuos obtenidos en la descendencia mostrarán un fenotipo que
no es esperada debido al fenómeno de recombinación. También puede suceder que tras la
recombinación no se observan cambios en las frecuencias fenotípicas de la descendencia.

Para realizar un mapa genético se requieren ​marcadores (obtenidos por genotipado) y también se
necesita una ​población estructurada para compararla con la población experimental, esta
comparación se realiza mediante programas bioinformáticos.

Existen dos ​configuraciones existentes en lo que concierne a la posición de los alelos dominantes y
recesivos de dos genes en las distintas cromátidas del cromosoma:

- Configuración trans​: presencia de un alelo dominante de un gen y un alelo recesivo del otro
gen en la misma cromátida y por lo tanto lo mismo sucede en la otra cromátida.
- Configuración cis​: los dos alelos dominantes de ambos genes se encuentran en una
cromátida y los alelos recesivos de ambos genes se encuentran en la otra cromátida.

La frecuencia de recombinación se calcula mediante la fórmula:

A través de esta frecuencia podemos obtener la distancia a la que se encuentran distanciados dos
genes en centimorgan (cM).

La frecuencia de recombinación ​máxima es del 50% (0,5). Si obtengo una frecuencia menor al 50%
los genes examinados van a estar ​ligados (se encuentran en el mismo cromosoma no muy
distanciados). Sin embargo, si es del 50% los genes son ​independientes​.

Primer mapa genético.

Lucía Casas, Eduardo Fernández, Patricia R.Tascón 5


Genómica 3º Biotecnología

Uno de los primeros mapas se realizó con moscas de ojos blancos y alas pequeñas que se cruzaron
con un fenotipo de mosca silvestre, de cual se obtuvo en la descendencia de moscas de ojos blancos
y alas pequeñas y al hacer la F2 se obtenía una descendencia muy variada de ​individuos
recombinantes​.

La distancia entre genes (en unidades de mapa) es igual al porcentaje de fenómenos de


recombinación que ocurre entre diferentes alelos. Se concluyó un mapa genético en los que
intervienen muchos genes a unas distancias concretas calculadas con las descendencias obtenidas.

Recombinación mitótica o somática.

Ocurre en células somáticas en las que la frecuencia de recombinación es mucho menos que en las
células germinales.

Curiosidad. No importante.

Distancia genética vs Distancia física.

Los mapas físicos y genéticos pueden diferir en distancias relativas e incluso en la posición de genes
en un cromosoma.

● Las distancias de mapa basadas en frecuencias de recombinación no se corresponden con las


distancias físicas del cromosoma.
● Mediante los “​hot spots​” de ​recombinación​ sirven para estimar la distancia física.
● Una baja proporción de ​heterocromatina y ​centrómeros no ayuda a estimar la distancia
física real.

Lucía Casas, Eduardo Fernández, Patricia R.Tascón 6


Genómica 3º Biotecnología

Los ​centrómeros son los lugares del cromosoma donde se produce menos recombinación,
por lo que indican distancias físicas menores. Sin embargo, los ​telómeros se consideran “hot
spots” y suelen indicar distancias físicas mayores.

● También hay que tener en cuenta que solo se pueden detectar marcadores en el genoma
siempre que fenómenos de recombinación sean ​impares​, ​ya que en caso de que sean pares
se invierte la cromátida.

Todos estos factores contribuyen a que estas distancias relativas sean aproximadas a las físicas, aún
siendo así de grandísima utilidad.

Si los porcentajes de recombinación se miden para muchas parejas de genes que están ​ligados​, se
puede hacer un ​mapa de ligamiento​.

Estos mapas de ligamiento son en última instancia ​mapas de cromosomas​, pero subestiman la
distancia real debido a los cruzamientos dobles.

Mapeo óptico.

Se trata de un tipo de mapeo que se emplea bastante hoy en día, es un técnica complicada que se
emplea para genomas complejos. Se trata de una combinación de óptica y enzimas de restricción.

El procedimiento consiste en hacer pasar una ​molécula de DNA por una especie de estructura que
permite que esta se alargue y se pegue en una ​placa de cristal donde se puede observar la longitud y
la molécula de DNA perfectamente debido a que esta se encuentra atrapada. Se corta el DNA con
enzimas de restricción y se aplica ​fluorescencia​. Veremos fragmentos pequeños que van a ser
utilizados para ensamblar los más grandes, pero también observaremos moléculas de DNA intactas,
en las que se ven los huecos que dejan las enzimas (imagen diapo) . Esto nos ayudará a ensamblar
los diferentes fragmentos. A través de ​solapamientos​ entre fragmentos se obtiene el​ mapa​ ​final​.

Lucía Casas, Eduardo Fernández, Patricia R.Tascón 7


Genómica 3º Biotecnología

Existen falsos positivos y falsos negativos debido a que la enzima de restricción no siempre va a
cortar en todos los puntos de corte posibles.

Secuenciamiento óptico.

Paso 1: código de barras de ADN Las moléculas de ADN genómico se desenredan, se colocan sobre
superficies ópticas que contienen canales de microfluidos y se permite que el ADN fluya a través de
los canales. Estas moléculas están entonces codificadas por enzimas de restricción para permitir la
localización genómica a través de la técnica de mapeo óptico.

Paso 2: Se agrega la selección de la DNasa I al azar para eliminar las moléculas de ADN montadas.

Paso 3: se agrega la formación de huecos a la exonucleasa T7 que luego se pega en las moléculas de
ADN para expandir los huecos en una dirección de 5 'a 3'.

Paso 4: Se utiliza la ADN polimerasa de incorporación de fluorocromo para incorporar nucleótidos


etiquetados con fluorocromo (FdNTP) en los múltiples sitios atrapados junto a cada molécula de
ADN. Durante cada ciclo, la mezcla de reacción contiene un solo tipo de FdNTP.

Paso 5: Imágenes Este cuenta cuenta el número de nucleótidos incorporados marcados con
fluorocromo en las regiones de la brecha utilizando microscopía de fluorescencia.

Paso 6: blanqueamiento fotográfico La iluminación con láser que se utiliza para excitar el
fluorocromo también se utiliza para destruir la señal de fluorocromos.

Lucía Casas, Eduardo Fernández, Patricia R.Tascón 8


Genómica 3º Biotecnología

Paso 7: Repita los pasos 4-6 Los pasos 4-6 se repiten con el paso 4 utilizando una mezcla de reacción
que contenga un nucleótido marcado con fluorocromo diferente (FdNTP) cada vez. Esto se repite
hasta la región deseada secuenciada.

Lucía Casas, Eduardo Fernández, Patricia R.Tascón 9


Genómica 3º Biotecnología

Lucía Casas, Eduardo Fernández, Patricia R.Tascón


10
Genómica 3º Biotecnología

QTLs y GWAS 
Quantitative Trait Loci y Genome-Wide Association Studies 
Entre las utilidades que le podemos dar a los polimorfismos, una de las más claras que combina
genotipado con los mapas genéticos son los denominados QTLs. Estas técnicas están basadas en
aproximaciones estadísticas que parten de considerar que el carácter es cuantitativo. Si no fuera de
esta manera se aplicarían las técnicas de GWAS y no las de QTL.

Del año 2010 hasta 2015 todo el tema de secuenciamiento cambió muchísimo reduciendo el coste
del dólar/megabase y aumentando el tamaño de reads. Obteniendo un mayor número de SNPs a
menor precio.

Tiene mayor importancia en GWAS ya que requiere un mayor número de SNPs. Sin embargo, en QTL
necesitamos un número menor de marcadores.

1. QTL (Quantitative Trait Loci)


Es un locus cuya variación alélica está asociada con la variación de un carácter cuantitativo . Es decir,
con aquellos caracteres cuantificables que varían de forma continua, a diferencia de los que varían
de una forma discreta.

Un locus es una posición en el genoma que suele


corresponder a un gen. Por lo que la variación alélica de
ese locus va a estar asociada a un carácter cuantitativo.
Ejemplo: Tenemos una altura media y los valores que se
alejen de esa media vamos a tener un número menor de
individuos.

Se necesita:
● Marcadores moleculares (Genotipado).
● Un mapa de ligamiento.
● Una población de mapeo (aquella en la que sea posible estudiar un carácter en concreto. En
ellas solo puedo detectar QTLs si el alelo es diferente entre los dos parentales)
● Un carácter cuantitativo (o varios) a medir.

Lo que busco en estas poblaciones es cruzar dos individuos muy diferentes. Por ejemplo, respecto a
la altura, cruzaría una persona muy alta con una muy baja, ya que nos interesa ver las diferencias,
puesto que solo podemos detectar las diferencias alélicas cuanto más diferentes sean entre ellos.
Cuanto mayor sea la diferencia entre parentales mayor probabilidad de obtener variantes alélicas en
la descendencia.

Lucía Casas, Eduardo Fernández, Patricia R. Tascón 1


Genómica 3º Biotecnología

Illumina Infinium (Genotipado).

Es relativamente fácil obtener marcadores a un precio razonable. Primeramente se realiza un mapa


genético que sirva de estructura: necesitamos la cromosoma completo, para colocar
estadísticamente los QTL. Cuanto mayor es el número de marcadores mejor, y como hemos dicho los
cromosomas deben estar idealmente completos y sin grandes saltos ya que va a influir en la
resolución del QTL. Si tengo zonas con marcadores dispersos vamos a poder decir que hay un locus
que influye en mi carácter pero no va a ser posible colocarlo correctamente. Cuanto más juntos
están los marcadores más específico se puede llegar a ser.

Mapping populations: ​(lo que necesitamos)

Se hacen mayor uso de poblaciones de plantas ya que es más fácil producir poblaciones de mapeo
en plantas que en animales aunque también hay en ratones.

Hay varias poblaciones de mapeo, si continuamos fecundando F2 obtenemos “​Introgression lines​”,


si seguimos con la descendencia
obtenemos “​RILs”​. Busco que
todos esos fragmentos se hayan
producido por recombinación.
Cada cromosoma que aparece
pertenece a un individuo
diferente.

Cada color pertenece al genotipo


inicial de un parental distinto del
individuo. Cuantas más líneas, es
decir, individuos, mejor y cuanto
más fragmentados estén los
cromosomas (eventos de
recombinación) con partes que
correspondan a cada parental
mejor, porque de esta manera
se pueden comparar estadís-
ticamente los sitios de los
cromosomas.

Cuanto más individuos pueda


estudiar y eventos de
recombinación tenga en los
individuos mejor a la hora de
detectar estadísticamente los genes (más eficiente)

En estas primeras poblaciones son las que se utilizan en QTL, mientras que en GWAS se emplean
“​Accessions​” ya que no se requiere una población de mapeo. En su lugar se escogen individuos con
condiciones variables sin hacer una población de mapeo específica, es decir que se construye la

Lucía Casas, Eduardo Fernández, Patricia R. Tascón 2


Genómica 3º Biotecnología

población con individuos al azar, individuos variados, de diferentes localidades. (Esto en realidad es
una diferencia entre ambos métodos).
Se parte de dos parentales que difieran todo lo que se pueda del carácter que quiero estudiar de los
cuales se comienza a observar variaciones alélicas en la F2, ya que en la F1 todos los individuos son
iguales. Si se continúa con la descendencia se obtienen los RILs. Cuantas más generaciones tenga
mejor porque voy a obtener más fenómenos de recombinación en los nuevos individuos y por lo
tanto los cromosomas fragmentados.

Para poblaciones más avanzadas no solo partes de dos parentales, sino que se cruzan diferentes
tipos de parentales pero el fundamento es el mismo, es que al final se obtengan individuos con
diferentes composiciones alélicas a los parentales.

Carácter cuantitativo:

Suelen estar influenciados por varios genes y suelen presentar una


distribución de campana de gauss.

Análisis de QTL

El ensayo de QTL se realiza mediante programas informáticos y al final del estudio se observa el
mapa genético en el que de forma estadística se observan “dot score” que es la probabilidad de que
en esa posición del genoma se encuentre el gen del carácter de estudio.

Cada línea proporciona información de caracteres diferentes pero que se encuentran relacionados
entre ellos. En la región del cromosoma que comprende de 24 cM - 40 cM se observa un gen que
está influyendo en el carácter de interés, aunque con poca precisión ya que en esa zona tengo pocos
marcadores. Lo que se busca es obtener un pico lo más acentuado y estrecho posible.
En cada línea del eje x hay un marcador que está asociado a mi carácter, pudiendolos emplear como
señal de localización para el gen, o se pueden usar posteriormente para la mejora asistida por
marcadores.

Lucía Casas, Eduardo Fernández, Patricia R. Tascón 3


Genómica 3º Biotecnología

En este análisis final de QTL se está estudiando la altura de la planta y el tiempo de floración como
caracteres cuantitativos. Seríamos capaces de identificar por ejemplo que aquí hay un gen que me
influye en la altura de la planta (como vemos en la segunda línea del dibujo) y también el tiempo de
floración. Al final del estudio se es capaz de identificar los cromosomas en el mapa genético y los
genes que influyen para cada carácter de estudio. Un gen interesante sería en el que se encuentre
indicado un mismo carácter en diferentes años, como en este caso, en la tercera línea, hay un gen
que ha proporcionado altura en dos años diferentes.

Ventajas e inconvenientes: ​(comparando con los GWAS)

Ventajas:
● Requieren menos marcadores. (Cuantos más marcadores voy a poder localizar la región con
más precisión)
● Necesitan un número de individuos no muy numeroso. Idealmente con 100, 200 individuos
debería ser suficiente para un estudio con QTLs ( obviamente cuantos más individuos mejor).

Inconvenientes:
● Baja precisión de resolución debido al escaso número de recombinaciones.
● Poca variación alélica (hay un número limitado de QTL detectables: solo podemos detectar
los genes que difieren entre los dos parentales).
● Necesidad de crear una población de mapeo que requiere tiempo y dinero, mientras que los
GWAS no es necesaria la creación de esta población de mapeo.

Lucía Casas, Eduardo Fernández, Patricia R. Tascón 4


Genómica 3º Biotecnología

2. GWAS (Genome-Wide Association Studies)


Se trata de un método de libre hipótesis para la identificación de coincidencias entre diferentes
regiones génicas (loci) y caracteres (incluidas enfermedades).

Se representa el genoma completo, son distancias físicas reales normalmente se realiza el genoma
entero, aunque también se puede hacer a nivel de cromosoma. La posición inicial se encuentra a la
izquierda y la última posición se encuentra a la derecha. Tendremos localizaciones más precisas de la
localización del gen.

Se necesita:
● Información genómica precisa.
● Genes de referencia de la especie.
● SNPs (polimorfismos) a lo largo del genoma.

A cambio de todo ello (necesidades), vamos a tener una localización mucho más precisa de dónde
está nuestro gen.

La diferencia principal con los QTLs es que no se requiere una población estructurada, cuanto más
diversos sean los individuos mejor. Además nos interesa que los individuos no presenten relaciones
de parentesco. Lo mejor es analizar primero los datos para conocer si hay relaciones de parentesco
mediante ensayos estadísticos de parentesco al
inicio de la investigación para eliminar ese factor de
parentesco en el análisis de datos, puesto que
siempre va a haber alguna aunque cojamos
individuos muy separados.

Análisis de GWAS.

En gris se representa la población control y en rojo la


población enferma.

Existe una ​línea de significación​, a partir de esta


línea hacia arriba sería un parámetro estadístico que
mide la significancia, en caso contrario (por debajo
de la línea) sería no significativo.

Nuestro carácter en este caso se encuentra relacionado con una enfermedad que se encuentra
influenciado por 4 genes claramente diferenciados.

Otra diferencia: como QTL emplea un número menor de marcadores únicamente se observan
asociaciones entre marcadores con el carácter de estudio en ciertas regiones del genoma donde
tengo los marcadores. Sin embargo, en GWAS no se analiza un grupo pequeño de marcadores, sino

Lucía Casas, Eduardo Fernández, Patricia R. Tascón 5


Genómica 3º Biotecnología

que se utiliza toda la información del genoma aunque sea mucha información. Se utilizan SNPs en
todo el genoma, analizamos todo el genoma a la vez.

La variación genética entre individuos puede causar diferencias en sus fenotipos. Estas variaciones
están presentes con mayor frecuencia en individuos ​“caso” (individuos con el carácter) que en los
“controles”​ (individuos sin el carácter).

Un valor de ​“p-value” indica la diferencia en la frecuencia de cada alelo en particular entre los casos
y controles. Es decir, la probabilidad de que el alelo este asociado con el carácter (rasgo). Los
resultados de GWAS se representan a menudo en ​“Manhattan plot” con -log10 (p-value) en el eje y
y la posición en el genoma en el otro eje.

Al final del análisis de GWAS se obtiene una gráfica que presenta todo el genoma, cada color de la
gráfica nos indica un cromosoma distinto (hay 23 cromosomas por lo que es un humano jiji). Dentro
de cada cromosoma se observan las áreas de asociación entre las distancias y los SNPs que indican
una clara relación con la enfermedad.

Lucía Casas, Eduardo Fernández, Patricia R. Tascón 6


Genómica 3º Biotecnología

Cada punto es un SNP en el genoma y se mide en un individuo, los SNPs que se miden como
significativos en un punto determinado estarán muy cerca entre sí y del gen de interés por eso salen
juntos en una línea. Al emplear un número elevado de SNPs obtenemos varios resultados que son
significativos cerca del gen de interés.

Ventajas e inconvenientes.

Ventajas:
● Muy alta resolución
● Usa poblaciones ya existentes.
● Emplea toda la diversidad alélica.
● Explota múltiples recombinaciones acumuladas durante generaciones.

Inconvenientes:
● Requieren un gran número de marcadores.
● Requiere el empleo de muchos individuos.
● Tratamiento estadístico más complejo.

3. GWAS vs QTL
En QTL se emplean pocos marcadores respecto a GWAS.

En QTL se usa una población de mapeo artificial cruzando parientes, en GWAS son individuos
naturales seleccionados.

En una población de mapeo hay poca recombinación comparándolo con una población natural que
ha sufrido varios siglos de reproducción que han acumulado muchos procesos de recombinación.

Lucía Casas, Eduardo Fernández, Patricia R. Tascón 7


Genómica 3º Biotecnología

Normalmente se combinan las dos técnicas para evitar falsos positivos y falsos negativos, ya que si
no se han filtrado previamente los datos para GWAS se pueden producir relaciones de parentesco.
Mediante la comparación de gráficas se puede llegar a la identificación de genes involucrados. Un
falso positivo sería un SNP por encima de la línea de significación que no se encuentra en ningún
otro individuo.

Comparación visual de los distintos aspectos de ambas metodologías.

Lucía Casas, Eduardo Fernández, Patricia R. Tascón 8


Genómica 3º Biotecnología

MAS Y GS 
Marker-Assisted Selection (MAS)​: selección asistida con marcadores, se hace uso de los marcadores
asociados a un carácter o a una enfermedad y se emplea esa información para tratar de mejorar una
especie. Es equivalente a QTL. Ej. Se seleccionan genes que están influenciado en la producción de
leche mediante marcadores ligados al gen.

Genomic Selection (GS)​: Selección de un individuo por su valor usando información de todo el
genoma. Es equivalente a GWAS. Ej. No se observa solo la información acerca de la cantidad de leche
si no de otros factores de la leche a mayores.

Necesito:
● Asociaciones entre marcadores moleculares y fenotipo (caracteres de interés).
● Se manejan un número elevado de muestras, por lo que requiere un sistema eficiente para
etiquetar, almacenar, recuperar y analizar gran cantidad de datos.

1. Marker-Assisted Selection (MAS).


Es el proceso de combinar varios alelos, normalmente de 2 parentales diferentes, en un único
genotipo.

Selección de individuos según los marcadores que presenten asociados a genes. Se emplean
marcadores ya conocidos para seleccionar genes de interés. Se puede hacer mediante técnicas de
genotipado (técnicas para seleccionar marcajes individuales o técnicas más masivas),
independientemente de la técnica utilizada se puede seleccionar el individuo conociendo los alelos
del gen de interés (cantidad de leche).

Se seleccionan varios individuos con un determinado carácter mirando su composición genética.


Cuando el ternero es pequeñito se puede anticipar la cantidad de leche que producirá cuando sea
adulta.

Nos interesa un marcador que se encuentre cercano al gen, de esta manera se obtiene una menor
probabilidad de recombinación, ya que si recombina ya no se encontraría asociado a ese gen.

Se toma como valor límite que este marcador se encuentre a menos de 5 cM (este valor indica que
habrá un 5% de probabilidad de que ocurra recombinación ya que 1 cM = 1% recombinación).

También se emplean dos marcadores simultáneos uno a cada lado del gen, de esta manera la
probabilidad de que se produzcan dos fenómenos de recombinación es muy pequeña.

Se debería comprobar que el marcador se encuentre ligado al gen cada cierto número de
generaciones.

Lucía Casas, Eduardo Fernández, Patricia R. Tascón 1


Genómica 3º Biotecnología

Mejora tradicional.

Si el objetivo es mejorar un cultivo para que sea resistente a cierta plaga se requiere mucho tiempo y
dinero para observar el fenotipo en un individuo adulto, ya que de forma tradicional la selección de
las plantas resistentes se hacía mediante ​selección fenotípica​. Sin embargo, mediante esta técnica
se puede conocer el genotipo cuando la planta es pequeña mediante la localización de los
marcadores asociados a los genes de resistencia a la enfermedad.

Mejora asistida por marcadores.

Se emplea una planta susceptible y otra planta resistente. El objetivo es conseguir una planta que
contenga el gen de resistencia de la planta resistente pero que a su vez conserve el genoma bueno
de la planta susceptible y que además pierda ese gen de susceptibilidad a la enfermedad. Para ello
se identifican tanto marcadores para los genes de resistencia como para los genes susceptibles. Tras
una sucesión de generaciones se localizan los marcadores asociados a ambos marcadores, siendo los
marcadores asociados al gen de resistencia los que se localizan en la línea inferior indicados con la
flecha violeta, mientras que los marcadores asociados al gen susceptible se encuentran en la línea
superior. A través de este estudio se desechan las plantas homocigotas para el gen susceptible y las
plantas heterocigotas para ambos genes.

Lucía Casas, Eduardo Fernández, Patricia R. Tascón 2


Genómica 3º Biotecnología

Ventajas e inconvenientes.

Ventajas:
● Se puede realizar inmediatamente después de la extracción de DNA (de plantas pequeñas o
incluso de semillas). No es necesario esperar hasta que la planta sea adulta para observar el
fenotipo del carácter.
● No está afectado por condiciones ambientales.
● Cuando son alelos recesivos quienes determinan el carácter, estos no pueden ser
determinados por la evaluación fenotípica de individuos heterocigotos (mediante la mejora
tradicional).
● Dependiendo del carácter puede ser más rápido y barato.
● Cuando muchos genes para un determinado carácter se acumulan en un mismo individuo, la
presencia de cada gen individual es difícil de verificar fenotípicamente.

Inconvenientes:
● Dependiendo del carácter puede ser más caro que la técnicas convencionales.
● Si el marcador no está suficientemente cerca del gen puede ocurrir recombinación entre
ellos, produciendo falsos positivos.
● Una estimación imprecisa de QTLs puede resultar en un progreso menor del del esperado.
● Marcadores desarrollados para MAS en una población pueden no ser transferibles a otra.

MABS (Backcrossing selection)

Cuando el gen de resistencia es dominante:

Se tiene una planta con un genoma muy


bueno pero que es susceptible (planta
recurrente) por lo que quiero introducirle el
gen de resistencia de una planta resistente
(planta donante), estas plantas suelen ser
variedades silvestres. La finalidad es
conseguir la mayor parte del genoma de la
planta recurrente más el gen de resistencia
de la planta donante. Si se realiza un
cruzamiento se obtiene una F1 heterocigota
para ambos genes de las cuales se
selecciona una y se fecunda con la planta
recurrente, de esta manera se logra
recuperar parte del genoma de la planta
recurrente sin perder el alelo dominante del
gen de resistencia. Mediante marcadores se
localiza el gen de resistencia.

Lucía Casas, Eduardo Fernández, Patricia R. Tascón 3


Genómica 3º Biotecnología

Cuando el gen de resistencia es recesivo:

En este caso tenemos que la planta donante del


gen de resistencia es recesiva, mientras que la
planta susceptible con el genoma bueno (planta
recurrente) es dominante. Por lo que tras un
primer cruzamiento obtenemos que en la F1 son
todas heterocigotas y como el gen susceptible es
dominante, este fenotipo de planta no nos
interesa. Por lo que se autofecunda la F1 para
obtener una segregación mendeliana de F2
obteniendo una proporción pequeña de plantas
homocigotas recesivas quienes poseen el gen de
resistencia. Estas plantas recesivas se volverán a
cruzar con plantas recurrentes (susceptibles) para
incrementar de esta manera el genoma bueno
que aportan estas últimas.

Gen pyramiding. Acumulación de genes beneficiosos.

Hay 4 plantas silvestres que son resistentes a 4 enfermedades diferentes. El procedimiento a seguir
es que se introduce el gen de resistencia en las 4 plantas silvestres y después se busca combinar
todas las plantas obtenidas con el gen de resistencia en una sola planta, de esta forma conseguimos
una acumulación de genes beneficiosos.

Limitaciones del MAS.

La mayoría de los caracteres de valor agrícola son complejos, y los marcadores individuales son
capaces de explicar sólo una pequeña fracción de la varianza genética. Como resultado, la precisión
de las estimaciones de los efectos del genotipo-fenotipo es baja.

Para ciertos caracteres, la búsqueda de marcadores requeriría grandes tamaños de muestra y ciclos
de selección largos.

Lucía Casas, Eduardo Fernández, Patricia R. Tascón 4


Genómica 3º Biotecnología

2. Genomic Selection (GS).


Se necesita:
● Marcadores genéticos que representen la totalidad del genoma.
● Algoritmos de predicción genómica que combinen información genética con datos
fenotípicos y de pedigrí que proporcionen el valor de cada individuo.

Se parte de una población, cuanto más grande mejor porque es quien proporciona la información, se
trata de una ​población de referencia o de descubrimiento. De esta población se necesita el genotipo
(información de SNPs) y el fenotipo para cada marcador de interés. Una vez obtenida la información
se realiza un análisis estadístico para determinar el efecto de cada marcador en el fenotipo de los
individuos. Nos proporciona un valor que se denomina ​“Genomic Estimated of Breeding Value
(GEBV)”​.

Ejemplo: Un gen de producción de leche de vaca tiene un valor de GEBV de 150. Cuanto más alto sea
el valor mejor será ese gen ya que tiene todas las características que se buscan.

Ahora se puede olvidar la población de referencia y se seleccionan a los mejores candidatos (mayor
valor de GEBV). Ahora con tan solo conocer la información genotípica de un grupo de individuos se
puede predecir el fenotipo de la descendencia.

Cada ciertos años hay que ajustar el modelo de predicción estadístico, se perfecciona para hacer que
sea un modelo cíclico.

Lucía Casas, Eduardo Fernández, Patricia R. Tascón 5


Genómica 3º Biotecnología

Algunos datos:
● Empleada por primera vez en 2001 para mejora animal.
● GS es la elección de un individuo (animal/planta) por su valor usando información de todo el
genoma (genomic breeding value).
● Es una forma de MAS que considera simultáneamente el efecto de todos los marcadores
(tantos genes como sea posible) en el genoma entero para calcular el Genomic Estimate of
Breeding Value (GEBV).
● No precisa de mapeo de QTLs para establecer asociaciones carácter marcador.
● Es especialmente apropiada para caracteres que son difíciles de mejorar.

La selección genómica (GS) se basa en el principio de que la información de un gran número de


marcadores distribuidos a través del genoma puede utilizarse para capturar la diversidad en ese
genoma y de una manera suficiente para estimar los valores de reproducción ( Breeding Values ) sin
tener un conocimiento preciso de dónde se localizan genes específicos.

Es similar a la MAS convencional en que se utiliza información genética, pero en lugar de introducir
un solo carácter (como en MAS), se pueden seleccionar muchos marcadores con efectos favorables,
comunes con la población de referencia.

3. MAS vs GS
● GS no precisa de mapeo de QTLs para establecer asociaciones carácter marcador.
● GS incrementa la ganancia genética porque incrementa la precisión de selección y disminuye
el intervalo entre generaciones (selección temprana).
● MAS y GS seleccionan individuos en una edad temprana.
● Para ser preciso GS necesita genotipar un número suficientemente grande de individuos.
● Algunas especies no tienen todavía un número suficientemente elevado de marcadores para
GS.
● GS combina información de pedigrí y genómica.

Normalmente se combinan QTLs con GS y GWAS con el


objetivo final de obtener una información más precisa a la
hora de seleccionar individuos para aplicar en los métodos
de mejora.

4. Microchips de mejora.
Para cada especie, contienen SNPs específicos para cada
especie que se pueden pedir a la compañía. Como conozco
los polimorfismos que son claves para el plan de mejora se
pueden introducir en estos chips de mejora y de esta
manera se puede afinar el programa de mejora.

Lucía Casas, Eduardo Fernández, Patricia R. Tascón 6


Genómica 3º Biotecnología

TRANSCRIPTOMA 
La función de esta parte de la Genómica es cuantificar niveles de RNA de todos o parte de los genes
del genoma que se están expresando en un determinado momento. Por lo que definiríamos como
“transcriptoma” al conjunto de diferentes RNA mensajeros de la célula.

Lo que me interesa de esta metodología es ver los genes que se están expresando, por ejemplo, si
quiero analizar genes de resistencia a una enfermedad me interesará comparar dos genes:
individuos que expresan esos genes de resistencia e individuos que no los expresan, una vez
extraídos sus respectivos genes veo las diferencias entre ellos.

Si habláramos de una enfermedad en concreto, como el ​cáncer​, aisalaríamos dos tipos de células:
las cancerosas y las sanas, y observaríamos las diferencias entre ambas. Se trata de buscar
diferencias en expresión de genes para poder identificar qué genes son los más importantes, es
decir, qué genes provocan resistencia en individuos sanos o aquellos que son más susceptibles de
producir una enfermedad; para ver qué genes trata el organismo de potenciar su expresión para
luchar contra la enfermedad.

Análisis de la expresión génica

Los niveles de RNA varían según:

● Tipo de célula​: no todos los genes se expresan en las mismas células ni de la misma cantidad.
● Estado de desarroll​o: Aunque todas tengan las misma información genética, los genes que se
expresan (por ejemplo) en una planta pequeña cuando germina, son distintos a los que
expresan cuando una planta ya es adulta.
● Estímulos externos (condiciones ambientales): si sometemos al organismo a un estrés
térmico, se pretende analizar qué genes utiliza nuestro cuerpo para luchar contra esta
situación. En el caso de animales o humanos se estudia qué genes se están expresando en
nuestro organismo en respuesta a una enfermedad. Si tengo un gen que se está expresando
mucho frente a una enfermedad, puedo tratar de asociarlo con la condición ambiental.

Momento y localización de la expresión proporciona información sobre la función génica.

Análisis de expresión génica. Métodos.

-Real-time PCR (qPCR) esta técnica se utiliza cuando quiero información para pocos genes, aunque
también se utiliza como validación, es decir, para validar genes que he descubierto con técnicas
masivas. Se utiliza para validación de genes porque es una técnica muy precisa, muy real, con pocas
alteraciones, poco influenciada por las condiciones de mi experimento.

-Hibridación: se diferencian entre Nothern blots y Microarrrays (Spotted arrays y Affymetrix arrays).

Lucía Casas, Eduardo Fernández,Patricia R. Tascón


Genómica 3º Biotecnología

-Por secuenciación de RNAs.

·SAGE (Serial Analysis of Gene Expression) (obsoleto)

·MPSS (Massively Parallel Signature Sequencing) (obsoleto)

·MACE (Massively Analysis of Gene Expression)

·RNA-seq

De los tres primeros no vamos a hablar ya que pasaron un poco a la historia cuando se descubrieron
las técnicas de secuenciamiento masivo.

1. Hibridación

Nothern Blot

Esta técnica ya no se utiliza, hacia 1977 se usaba para saber los genes que se estaban expresando.
Partiendo de mi muestra, extraigo el RNA y posteriormente se realizaba una electroforesis
separando el RNA según el tamaño, transfería ese patrón de bandas a una membrana (Nothern
Blotting) y añadía pruebas marcadas que hibridarán con el RNA de la membrana. Por último, se
visualizaba las sondas unidas a mi RNA gracias a rayos X.

Ejemplo de Nothern Blot: se muestra en análisis de un Northen Blot de diferentes tejidos humanos.
En la parte superior están escritos los órganos (lo que yo quiero medir) y a la izquierda tengo cada
gen en particular; puedo estudiar varios genes al mismo tiempo. El gen beta-actin es un gen de
referencia para ajustar la expresión (en teoría tiene una expresión continua en el tiempo, igual en
todos los órganos y en el mismo nivel), se trata de un gen de división celular, no está influenciado.
Ese es el modelo, se utiliza en el resto de técnicas, un gen o varios con los que pueda ajustar la
expresión de los otros. Cada vez que vemos una mancha es que se está expresando; en la imagen
vemos que se expresa mucha beta-actin en el cerebro, riñón, páncreas y nada o muy poco en el
pulmón y corazón (en este caso la expresión no es del todo continua en todos los órganos). Cuanto
mayor sea la intensidad de la marca más se estará expresando en este gen. A la vez se presenta un
problema, porque mediante este sistema es muy difícil de cuantificar la expresión de forma exacta.
Además, solo puedo estudiar un número reducido de genes a la vez y se presentan dificultades para
normalizar las intensidades ajustando las variaciones de RNA usadas en cada calle.

ARRAYS: ​es una colección de pruebas génicas sobre una base sólida ordenadas como una matriz de
filas y columnas. Distinguimos:

Filtros de alta densidad​ (Macroarrays)

Es una forma grotesta de hacer esta metodología de forma más elaborada. Se trata de una
membrana grande donde se ponen las partículas de RNA (2400 clones/membrana) y se hibrida con
el de mis muestras (DNA?). Cuanto más intenso es el punto en el filtro más se está expresando. La
visualización se realiza por rayos X.

Lucía Casas, Eduardo Fernández,Patricia R. Tascón


Genómica 3º Biotecnología

Apenas se se utiliza, nos da una información más precisa que antes pero más escasa comparada con
los otros métodos posteriores..

Placas de vidrio​ (Spotted arrays)

Son placas de microscopio normales en las que deposito mis secuencias (10000 clones/placa). El
marcaje es fluorescente y se utilizan cuando quiero comparar dos condiciones: un individuo sano y
uno enfermo, de modo que aplico un fluorescente distinto a cada individuo (rojo enfermo, verde
sano) y observo diferencias de colores, en el caso de que vea el color amarillo es que se está
expresando igual.

Chips Oligonucleótidos de Affymetrix

A parte de utilizarse para genotipado, sirven para ensayar diferencias en expresión, pero necesito un
chip para cada condición. Se basa en extraer el RNA (300000 oligonucleótidos/chip) e hibridarlo en
un chip; con la otra condición realizo el mismo procedimiento en un chip diferente. Por
bioinformática deduciré posteriormente el resultado de mis experimentos.

Micro arrays. General

La idea es comparar dos situaciones: una condición control (individuos sanos) y una condición
experimental, en este caso individuos enfermos. Parto el experimento extrayendo el RNA, y a veces
lo que hago es pasarlo a cDNA (porque es mucho más estable que el RNA, ya que este se degrada
muy fácilmente). Hibrido ambas muestras, tanto la control como la experimental y como cada
muestra tiene un fluorescente distinto, cada vez que observo un punto de color rojo nos indicará
que la condición correspondiente a ese fluorescente se está expresando más, es decir, la
experimental. Cuando no tengo ningún color (negro) es que se expresan por igual, en cambio cuando
el color verde es el que más se expresa, nos está indicando que es la condición control la de mayor
expresión.

Se diferencian dos técnicas de array:

La primera son los ​spotted arrays​, se llaman de esta manera porque la compañía deposita gotitas de
DNA en la placa con 2 colores, pero en el caso de la derecha, la técnica de ​Affymetrix utiliza
fotoluminiscencia, y la compañía va depositando nucleótidos en la placa de manera artificial y de 1
solo color.

En spotted arrays parto de dos muestras, una de referencia y otra control. Una vez extraído el RNA
realizo una transcripción inversa obteniendo DNA complementario, que hibridaré con diferentes
fluorescentes para posteriormente detectarlos y analizarlo. Es importante recalcar que lo que
hibrido a las placas es el RNA de mi experimento para ver la diferencia de expresión entre los dos
genes a estudio.

Spotted arrays

Se consideran dos experimentos en los que yo quiero ver la diferencia que hay en cuanto a expresión
de genes, de cada célula extraído RNA y mediante transcripción inversa, lo paso cDNA. En el proceso
de extracción añado el fluorescente al cDNA y lo hibrido en la pletina. Posteriormente,comparando

Lucía Casas, Eduardo Fernández,Patricia R. Tascón


Genómica 3º Biotecnología

el patrón de colores puedo determinar en qué celda en particular está más expresado un gen que
otro (rojo: sobreexpresado en la situación de mi experimento (tratamiento), en cambio, si hay color
verde estará más sobreeexpresado en la situación de control (underexpressed), el color negro en la
pletina nos indica que no ha habido hibridación de mi RNA en la gradilla. A menudo aparece el color
amarillo (rojo + verde) y esto nos indica que ha habido igual expresión en una condición que en otra.

El software transforma el amarillo en negro (?)

Otro dos experimentos que utilizan Spotted arrays se basan en cómo crecen las células en glucosa
respecto a cómo crecen en etanol. Siempre se comparan dos experimentos y su expresión relativa.
Al igual que antes, aislo el RNA, lo transformo a cDNA, incorporo el fluorescente e hibrido en mi
placa donde habrá genes conocidos. El color negro nos indica que no ha habido hibridación, y por
ello ese gen no está expresado en ninguna de las condiciones.

Cy3-Cy5 son los fluorescentes que se utilizan, se incorporan a la cadena durante la transformación
de RNAm a cDNA.

Vídeo: puedo utilizar esta técnica para lo que yo quiera en mi experimento, ya que los genes en la
placa son conocidos: genes para terapias o genes relacionados con cáncer, con el fin de observar qué
pacientes responden bien a quimioterapia y cuáles no (para aplicar tratamientos más agresivos a
aquellos que no responden bien a la quimioterapia).

Fabricación de Spotted arrays

Se fabrican con esa maquina en la que pongo las gotas que contienen fragmentos de DNA, de modo
que cada gota representa un gen distinto. Normalmente se ponen varias copias del mismo gen en
diferentes localidades de la pletina como un método de comprobación. Se analiza un gen varias
veces. Existen dos técnicas de fabricación de microarrays muy similares: un robot que inyecta
microgotitas y una impresora de gotitas con cabezales mejorados.

Esta compañía no solo deposita la gota con la secuencia conocida a través de los cabezales, si no que
también puede sintetizar directamente el oligonucleótido en la pletina, (hace los dos procesos a la
vez) y lo introduce en el array.

El inconveniente es que pones muchos menos genes por pletina, a diferencia que ​Affymetrix que
permite en un tamaño más pequeño muchos más genes, por el tamaño del chip.

Affymetrix GeneChip

Affymetrix permite más genes por el tamaño del chip. Solo hibrido con un color, por lo que solo voy
a analizar un tipo de muestra. En el caso de que yo quiera comparar condiciones control con
condiciones experimentales (enfermos), tengo que utilizar dos chips, uno con cada RNA. Mediante el
software de la compañía podré posteriormente analizar los datos, con mucho tratamiento
estadístico y eliminando siempre el ruido de fondo (hay que ajustarlo y es más difícil que antes) ya
que ahora tenemos dos chips y no uno como en el caso anterior, se ajustan por genes control.

El fundamento es el mismo; extraigo RNA y lo paso a cDNA para estabilizarlo, cuando vaya a hacer el
experimento lo vuelvo a transformar en cRNA y en cada una de las moléculas de uracilo introduzco

Lucía Casas, Eduardo Fernández,Patricia R. Tascón


Genómica 3º Biotecnología

una molécula de biotina que actuará de pegamento. Mi fluorescente va a estar unido a la molécula
estreptavidina, que es complementaria a la biotina y se va a pegar ambas molécula. Posteriormente
se fragmenta el cRNA y realizo la hibridación en el genechip, donde se ve la fluorescencia al unirse
ambas moléculas.

Fabricación de Affymetrix arrays (GeneChips)

En la pletina se añade un bloqueador y en ese momento no se puede añadir ninguna base. En el


lugar donde quiero añadir una base, ilumino con un rayo de luz microscópico para desbloquear el
sistema y añadir la base que yo quiera (ejemplo: desbloqueo las zonas donde yo quiero añadir una
T). Es importante señalar que ​solo se puede añadir una base cada vez​.

El funcionamiento se basa en desbloquear y bloquear sucesivamente hasta crear la cadena de


oligonucleótidos en la pletina, que normalmente tienen un tamaño de 25 nucleótidos. Estos
oligonucleótidos son secuencias únicas o más o menos únicas de cada gen, de modo que tendré una
secuencia conocida o más o menos conocida de cada gen.

Vídeo​: si hay una base que no aparea, me dará una intensidad de señal diferente y mediante
tratamientos estadísticos puedo determinar alguna mutación de los genes que estoy analizando.

Tratamiento de mis datos: Resultados de análisis

Se trata de un ejemplo de lo que yo obtengo, todos mis datos se unen en clusters, donde haya
similitudes el software me los va a agrupar . Cada fila es un gen distinto, y cada columna es un
tratamiento diferente. Estos genes empiezan en estados con una regulación alta y a medida que
pasan los días va bajando a estados intermedios, de modo en los últimos días tiene una expresión
baja. En la parte inferior, en las primeras fases se expresa menos mientras que en las fases finales se
expresa más.

Me puede ayudar a averiguar la función de genes que no conozco, mediante la asociación a a genes
que sí conozco por tener un patrón de expresión similar.

Ejemplo: Comparative Genomic Hybridization

Hay enfermedades asociadas al número de copias que existen el cad genoma, y no a la ausencia o
presencia del gen. Si hay más de una copia en el paciente enfermo el color que observaré será el
verde, en cambio si hay menos copias que en un individuo normal veré el color rojo. Se fundamenta
en diferencias en el número de copias que yo tengo de un gen en particular: ​different number
variation​. Si el gen presenta más copias, más DNA va a producir (mayor expresión).

Ejemplo: Tumores. GeneChip

Se emplea otro tipo de software pero la idea es la misma. Los pacientes control se denominan Ncer.
No se realiza ningún tipo de comparación sino que únicamente se agrupan genes que se expresan
con mayor frecuencia en individuos enfermos, estos se muestran de color rojo. Cada fila es un gen y
cada columna es un estado del tratamiento.

Lucía Casas, Eduardo Fernández,Patricia R. Tascón


Genómica 3º Biotecnología

Ejemplo: Diagnosis por microarrays. GeneChip.

Se trata de un tratamiento de quimioterapia, algunos sobrevivieron y otros pues no. Se realiza una
correlación entre patrones de expresión génica en pacientes con meduloblastoma en base a su
respuesta a la quimioterapia. Luego se pueden ajustar para realizar variaciones en los tratamientos.

RNA sequencing
Es otro método de análisis de expresión genética que se emplea hoy en día. En un mismo
experimento se puede aislar DNA, ensamblar reads de ese gen de dos maneras: si no lo conozco se
realiza mediante solapamientos o mediante un genoma de referencia. Se puede conocer los genes y
su nivel de expresión.

Si se carece de información acerca del genoma se puede realizar un “​ensamblaje de novo​” aunque
mediante el empleo de un ​genoma de referencia es más preciso. No se requiere información previa
obligatoria de los genes que se están expresando ​pero si en los microarrays (?), en las gotitas​.

Análisis de la expresión.

Normalmente el secuenciamiento se realiza con Illumina porque se requiere de un gran número de


reads y tiene una buena relación precio/producción.

Como se está usando cDNA se mapea únicamente las secuencias de los exones, mientras que de los
intrones no habrá nada. Contando el número de reads que alinean con los genes se puede conocer el
nivel de expresión.

Un ejemplo de avena que mide el número de reads de un mapeo que realizó el pavo este. Extrajo
mRNA y lo ensambló, lo hizo mediante un ensamblaje de novo porque la avena no estaba descrita.

Usos.

● Observar diferencias en
el splicing​: hay un gen
con tres exones, en una
condición se expresan los
tres exones mientras que
en la otra condición se
están expresando
solamente dos porque ha
ocurrido splicing
alternativo (figura b).
● Observar diferencias
alélicas​: el alelo que
tiene una G se expresa
unas 4 veces más que el
alelo que porta una T. Un
alelo se expresa más que el otro (figura c).

Lucía Casas, Eduardo Fernández,Patricia R. Tascón


Genómica 3º Biotecnología

Problemas.

Hay lugares en el genoma en el que se tiene un gen en ambas hebras, a la hora de cuantificar se
puede producir confusión en el nivel expresión (figura b).

Hay reads que mapean únicamente en posiciones del genoma y hay otras que lo hacen en varias, si
no se filtran se obtienen interferencias porque estos últimos están mapeando en un lugar que no les
corresponde (figura c).

Normalización. RPKM (Reads Per Kilobase and Million mapped reads).

Si de un gen se obtienen 19 reads que mapean se divide por el tamaño del gen y se divide por la
cantidad total de reads. De esta manera se obtiene un valor que es posible de comparar con otros
experimentos que presentan parámetros diferentes.

Lucía Casas, Eduardo Fernández,Patricia R. Tascón


Genómica 3º Biotecnología

Patrones de expresión

Avenanthremides (antioxidantes): cada línea representa una variedad distinta, se observa la


evolución de la expresión. En todos los individuos que se estudiaron hubo una expresión similar.

Hay otros gráficos similares pero para la expresión de ácidos grasos.

Video. Expresión de genes conjuntos, son genes tumorales que han sufrido una delección y eran dos
genes por separado pero que se han juntado en el dna y ahora han aparecido unidos. Gb producción
de la máquina.

Lucía Casas, Eduardo Fernández,Patricia R. Tascón


Genómica 3º Biotecnología

Microarrays vs RNAseq

Los microarrays son mucho más antiguos, tienen una alta producción pero RNAseq tienen más. No
es necesario realizar un ensamblado previo. Proporciona datos de abundancia relativa, para obtener
datos de abundancia se necesita comparar dos sujetos y esto está limitado por el experimento y
puede llegar a ser un inconveniente.

Por otro lado, RNAseq como se realiza un ensamblado previo ya se conocen los genes presentes.

Single-cell RNA-seq (scRNA-Seq)


Es el secuenciamiento de una célula en particular, lo
que se realizaba es una extracción de muestras de
un tejido. Por ejemplo se machaca grano de maíz
para ver todo el rna, si yo quiero estudiar tumores
no me interesa mezclar células sanas con tumorales
por lo que intento separarlas.

Dentro de células tumorales se observan los


diferentes estadios de un tumor, lo importante es
que se puede analizar la expresión completa ya no
de un individuo completo si no en particular. Solo se
hace con células individuales, son dos técnicas de
separación, la primera se utiliza para la separación
de células de las sangre (microfluidos) primera base
de separación en base al tamaño, los glóbulos
blancos son más grandes, y dentro de los glóbulos
blancos por una técnica, que se llama
magnetoforesis nos separa los glóbulos blancos
enfermos de los sanos. (depleted cells, células
normales). La otra técnica se basa en el empleo de

Lucía Casas, Eduardo Fernández,Patricia R. Tascón


Genómica 3º Biotecnología

anticuerpos, se tienen tres tipos diferentes de células, por lo que se diseñan anticuerpos de
diferentes colores que se pegan a células distintas, lo rojo al azul y lo verde a lo rosa. Por un detector
se separa el fluorescente que se encuentra asociado al anticuerpo en tres tubos distintos.

Gencode Project
Trata de identificar todos los genes del genoma humano, todavía no se conocen todos ya que hay
muchos genes con diferencias de splicing, por lo que se quería también localizar todas las variaciones
de cada gen debido a este splicing. Se utiliza un primer paso de bioinformática, hay softwares que
recorren el genoma y proporciona información acerca de la localización de genes, ya que hay
secuencias que son comunes a los genes. Nos proporciona una aproximación pero luego se debe de
completar manualmente mediante RNAseq. En el lugar de alineamiento de esos reads se tiene un
gen, para conocer exactamente la función de cada uno.

Si tengo un gen similar a un gen que ya conozco en una especie determinada, ese gen primero que
es nuevo tendrá una función similar al gen que ya conozco.

Se conoce un número total de genes que hay en el momento en el genoma humano, pero solo una
parte de ese número codifica para proteínas.

Lucía Casas, Eduardo Fernández,Patricia R. Tascón

También podría gustarte