Está en la página 1de 186

Departamento de Gentica, Universidad de Granada

MANUAL DE PRCTICAS DE GENTICA

Asignaturas:
Gentica I, Grado de Biologa
Gentica II, Grado de Biologa

-1-

Departamento de Gentica, Universidad de Granada

-2-

Departamento de Gentica, Universidad de Granada

MANUAL DE PRCTICAS DE
GENTICA
Mohammed Bakkali
Francisco Javier Barrionuevo Jimnez
Miguel Burgos Poyatos
Josefa Cabrero Hurtado
Roberto de la Herrn Moreno
Manuel ngel Garrido Ramos
Michael Hackenberg
Rafael Jimnez Medina
Mara Dolores Lpez Len
Inmaculada Lpez Flores
ngel Martn Alganza
Rafael Navajas Prez
Francisco Perfectti lvarez
Francisca Robles Rodrguez
Jos Carmelo Ruiz Rejn
Esther Viseras Alarcn
Federico Zurita Martnez

Departamento de Gentica, Universidad de Granada

-3-

Departamento de Gentica, Universidad de Granada

Mohammed Bakkali
Francisco Javier Barrionuevo Jimnez
Miguel Burgos Poyatos
Josefa Cabrero Hurtado
Roberto de la Herrn Moreno
Manuel ngel Garrido Ramos
Michael Hackenberg
Rafael Jimnez Medina
Mara Dolores Lpez Len
Inmaculada Lpez Flores
ngel Martn Alganza
Rafael Navajas Prez
Francisco Perfectti lvarez
Francisca Robles Rodrguez
Jos Carmelo Ruiz Rejn
Esther Viseras Alarcn
Federico Zurita Martnez
Portada: Carlos Garrido
I.S.B.N.: 978-84-15261-49-0
Depsito legal: GR:-3572/2011

-4-

Departamento de Gentica, Universidad de Granada

NDICE
Gentica I y Gentica II

Pgina

1. Manejo y mantenimiento del microscopio


2. Mitosis y meiosis
3. Laboratorio virtual de Gentica
4. Aplicacin de la PCR al diagnstico gentico:
deteccin de parsitos que infectan a moluscos
5. Clonacin de un producto de PCR
6. Bases de datos de secuencias de ADN y protenas
7. Prediccin computacional de genes
8. Alineamiento mltiple de secuencias de ADN y protenas
9. Anlisis filogentico
10. Anlisis computacional de datos de expresin gnica
diferencial obtenidos mediante chips de ADN
11. Expresin de genes implicados en el desarrollo
testicular de mamferos
12. Estudio de expresin gnica mediante RT-PCR

Pgina 5
Pgina 11
Pgina 31

-5-

Pgina 63
Pgina 71
Pgina 79
Pgina 101
Pgina 115
Pgina 133
Pgina 149
Pgina 167
Pgina 175

Departamento de Gentica, Universidad de Granada

-6-

Departamento de Gentica, Universidad de Granada

GENTICA I y GENTICA II

-7-

Departamento de Gentica, Universidad de Granada

-8-

Departamento de Gentica, Universidad de Granada

MANEJO y MANTENIMIENTO DEL


MICROSCOPIO

-9-

Departamento de Gentica, Universidad de Granada

MANEJO y MANTENIMIENTO DEL MICROSCOPIO


Normas de uso
Al ser el microscopio un aparato de precisin, es muy conveniente asegurarle un buen
rendimiento y una larga duracin mediante una serie de normas y cuidados.
1. Conectar el foco de luz.
2. Colocar la preparacin sobre la platina y centrar, mirando exteriormente, la zona
teida sobre el eje del objetivo.
3. Abrir el diafragma del condensador y colocar ste en su posicin ms alta.

- 10 -

Departamento de Gentica, Universidad de Granada

4. Colocar el objetivo de menor potencia (10X) lo ms cerca posible de la preparacin,


sin que llegue a tocarla. Hacer esta operacin bajando el tubo mediante el
tornillo macromtrico (ms grueso), observando lateralmente el microscopio.
5. Observar a travs del ocular.
6. Levantar lentamente el objetivo, moviendo el tornillo macromtrico, hasta que,
mirando a travs del ocular, aparezca ntida la imagen.
7. Una vez enfocado con el objetivo de 10X, no volver a tocar el tornillo macromtrico,
de modo que los enfoques en los siguientes objetivos se realizarn utilizando
nicamente el tornillo micromtrico.
8. Se proceder a observar toda la preparacin. Para ello, se mueve ordenadamente
la platina con los tornillos del veraier, de izquierda a derecha y de arriba abajo,
procurando no pasar dos veces por el mismo punto de la preparacin. Se
tomarn las coordenadas de aquellas clulas que resulte interesante observar
con objetivos de mayor aumento.
9. Una vez terminada la revisin de la preparacin, se pasar a observar las clulas
cuyas coordenadas se anotaron, con objetivos de mayor aumento. Con el
objetivo de 40X hay que tener la precaucin, al igual que con el objetivo de
inmersin, de 100X, de no tocar nunca la preparacin. En aquellas
observaciones que se quieran realizar con ms detalle, se utilizar el objetivo
de inmersin 100X, colocando una gotita de aceite de inmersin sobre la
preparacin. Al cambiar los objetivos, un click avisa cuando el objetivo encaja
en su lugar.
10. En cada paso a objetivos de mayor potencia, rectificar el enfoque, si ello fuera
necesario, utilizando exclusivamente el tornillo micromtrico.
11. Mover siempre suave y lentamente cualquier elemento del microscopio.
12. Una vez finalizada la observacin:

Poner el objetivo de 10X.


Quitar la preparacin.
Lavar el porta y el cubre con agua del grifo.
Desconectar el microscopio.
Poner la funda al microscopio.

- 11 -

Departamento de Gentica, Universidad de Granada

Recomendaciones
El microscopio no debe permanecer encendido si no se est uti1izando, aunque
tampoco encenderlo y apagar a intervalos cortos de tiempo.
El microscopio no debe deslizarse sobre la mesa, especialmente cuando est caliente,
para evitar vibraciones.
El contraste adecuado con cada objetivo se consigue subiendo y bajando
el condensador y abriendo y cerrando su diafragma.

- 12 -

Departamento de Gentica, Universidad de Granada

Coordenadas en el microscopio
Para un mejor estudio de un preparado microscpico se debe seguir un mtodo que
permita el anlisis de toda la preparacin en su conjunto, sin que queden zonas de
sta sin observar. Esto se puede hacer dando sucesivas pasadas horizontales
empezando por un lado del cubre y terminando por el opuesto.
En el transcurso de la observacin encontraremos una serie de clulas interesantes
bien para su estudio, para una posterior observacin, o para obtener fotografas de las
mismas. Por lo tanto, es necesario saber la posicin exacta donde podemos volver a
localizarla. Para ello, haremos uso de las escalas graduadas que aparecen sobre la
platina del microscopio.
Para tomar las coordenadas se procede del modo siguiente:
1. Se sita en el centro del campo visual la clula cuyas coordenadas queremos
anotar.
2. En el eje de abscisas (horizontal) existe una escala pequea fija, dividida del 0 al 10
(nonius); sobre ella se desliza una escala grande, cuya numeracin depende del
modelo de microscopio.
Consideraremos la medida compuesta de parte entera y parte decimal. La primera,
viene indicada por la divisin de la escala grande que queda situada inmediatamente
antes del 0 del nonius. Si dicho 0 llegara a coincidir exactamente con una divisin de la
escala grande, no habra en este caso parte decimal. La parte decimal vendra dada
por la divisin de la escala pequea que coincida exactamente con una divisin
cualquiera de la escala grande.
3. En el eje de ordenadas (vertical) existen tambin dos escalas. La escala grande se
desliza sobre una escala pequea fija, que va del 0 al 10. La lectura de las
coordenadas se realizara de igual manera que en el eje de abscisas. De este modo,
obtenemos las coordenadas que nos permitirn localizar las clulas que queramos
volver a observar.

- 13 -

Departamento de Gentica, Universidad de Granada

- 14 -

Departamento de Gentica, Universidad de Granada

MITOSIS y MEIOSIS

- 15 -

Departamento de Gentica, Universidad de Granada

- 16 -

Departamento de Gentica, Universidad de Granada

MITOSIS y MEIOSIS
1. OBJETIVO
La realizacin de esta prctica tiene como objetivo conocer las particularidades
citogenticas que determinan el significado biolgico de los procesos de divisin
celular de mitosis y meiosis y aprender las diferencias entre ellas. Al estudiarlos
comparativamente veremos como el resultado final de ambos procesos es distinto por
lo que los cromosomas tienen que comportarse de modo diferente. Mediante la
visualizacin al microscopio de las caractersticas de las distintas fases del proceso
mittico y meitico iremos comprendiendo la base fsica de la herencia de los
caracteres (los genes se transmiten con los cromosomas) y cmo se mantiene el
nmero cromosmico durante el desarrollo de un individuo, la regeneracin de los
tejidos o en los procesos reproductivos. Al observar el comportamiento cromosmico
durante la meiosis podremos relacionar el apareamiento y la segregacin de
cromosomas homlogos que ocurren durante la misma, con la constancia del nmero
cromosmico de una especie a lo largo de las generaciones, y la combinacin de
caracteres paternos y maternos que se da en cualquier individuo.

2. FUNDAMENTO TERICO
2.1. MITOSIS
La divisin celular consta de dos procesos fundamentales: la mitosis o divisin del
ncleo y la citocinesis o divisin del citoplasma. Ambos procesos son independientes
pero deben ocurrir de forma sincronizada. El resultado son dos clulas hijas con una
dotacin cromosmica idntica entre s y a la de la clula madre.
La mitosis es el mecanismo estable que tienen las clulas para distribuir de forma
exacta la informacin gentica entre las clulas hijas durante las divisiones celulares.
Durante la mitosis los cromosomas se reparten equitativamente, incluyndose una
dotacin cromosmica completa en cada clula hija. Para facilitar este reparto, los
cromosomas se condensan haciendo patente su morfologa. Esto hace que podamos
conocer en ese momento cuntos cromosomas tiene una especie, dnde se localiza el
centrmero (o constriccin primaria), el nmero de brazos cromosmicos que
presentan o la existencia de constricciones secundarias y satlites cromosmicos.
Cuando una clula no est dividindose se dice que est en interfase, lo que
corresponde al lapso de tiempo que transcurre entre dos mitosis sucesivas. Durante
este periodo la cromatina est descondensada y hay una gran actividad metablica
porque es cuando la mayor parte de los genes se expresan, aunque en cada tipo
celular lo harn solo los necesarios para que desarrolle su funcin especfica.
Un suceso importante de la interfase es la replicacin del ADN, que ocurre en el
periodo denominado S, tras la cual los cromosomas ya tienen dos rplicas idnticas
denominadas cromtidas hermanas. Esta fase S va precedida por el periodo G1 y
seguida del periodo G2 en los que hay crecimiento celular, actividad transcripcional y
la clula se prepara para dividirse. A continuacin se iniciara la mitosis.
Si despus de una mitosis la clula no va a dividirse de nuevo, se queda en lo que
llamamos fase G0.

- 17 -

Departamento de Gentica, Universidad de Granada

Si anotamos como M a la mitosis, el ciclo celular es una sucesin cclica de los


distintos periodos segn esta secuencia (Figura 1):

Figura 1: Ciclo celular

Una vez que se inicia, el proceso mittico transcurre de forma continua sin que haya
interrupciones, pero ocurren una serie de sucesos destacados que son clave para que
el reparto de la informacin gentica sea correcto y en los que nos basamos para
distinguir de forma arbitraria cuatro etapas:
1.
2.
3.
4.

Profase
Metafase
Anafase
Telofase

La cronologa y caractersticas de los sucesos clave mitticos que describiremos a


continuacin son comunes a la mayora de los organismos donde se ha estudiado. No
obstante, se han descrito excepciones en algunas especies afectando al momento en
que se inicia la condensacin cromosmica (hay especies en las que los cromosomas
no se condensan nunca), a la desaparicin de la membrana nuclear o, por ejemplo, al
establecimiento de la placa metafsica. La anafase parece ser la etapa ms
conservada en los diferentes organismos.
Profase
Durante este periodo la fibra de cromatina, que ha ido organizndose en plegamientos
cada vez ms complejos, aparece como cromosomas visibles que van
condensndose gradualmente. Hay 2n cromosomas en la clula y cada cromosoma
consta de dos cromtidas hermanas con igual informacin y morfologa. stas
aparecen unidas a nivel del centrmero y a lo largo de los brazos cromosmicos
gracias a complejos proteicos. Al final de la profase se desorganizan los nucleolos y
desparece la membrana nuclear cuyos componentes quedan dispersos en el ncleo.
Metafase
Los cromosomas se encuentran ahora libres en el citoplasma y los centrmeros de
cada cromosoma contactan con las fibras del huso, que se organizan en el centro
organizador de microtbulos (MTOC), formado por los centriolos, que actan como
centro de atraccin de los cromosomas hacia los polos, y la masa amorfa

- 18 -

Departamento de Gentica, Universidad de Granada

pericentriolar. La intervencin de las fibras del huso y de otras protenas de


movimiento cromosmico permite a los cromosomas organizarse en la llamada placa
metafsica. Cada cromtida hermana se orienta hacia un polo distinto lo que garantiza
el reparto de la informacin gentica de cada cromosoma a las dos clulas hijas.
Ahora los cromosomas alcanzan su mximo grado de condensacin y su morfologa
se hace patente (Figura 2). Por eso en esta fase es donde mejor se pueden estudiar
todas las caractersticas morfolgicas de los cromosomas, lo que ser de utilidad para,
por ejemplo, identificar homlogos y confeccionar un cariotipo o realizar estudios
comparativos entre especies y conocer la evolucin cariotpica ocurrida dentro de un
taxn.

Figura 2: Morfologa de los cromosomas

El centrmero es la constriccin primaria que aparece en todos los cromosomas y


donde se asocian los cinetocoros o estructura proteica a la que se unen las fibras de
huso mittico. Su posicin define el nmero de brazos de un cromosoma. Si est
situado en un extremo del cromosoma, ste tendr un solo brazo y si est en otra
posicin veremos cromosomas con dos brazos. El cinetocoro funciona a modo de un
interfaz entre el centrmero y las fibras del huso.
En algunos cromosomas aparecen constricciones secundarias, normalmente
asociadas a la regin organizadora nucleolar (NOR), donde se encuentran los genes
para ARN ribosmico. El fragmento de cromosoma que va desde la constriccin
secundaria al telmero se denomina satlite cromosmico. El telmero constituye el
extremo cromosmico, por lo que hay uno en cada brazo cromosmico y juega un
papel fundamental en el mantenimiento de la integridad del cromosoma.
Anafase
La anafase es, en general, la etapa ms corta de la mitosis Cada centrmero se
divide en dos y se desorganizan las protenas que mantenan unidas a las cromtidas
hermanas, lo que les permite segregar (migrar) a polos opuestos. En cada polo celular
veremos un grupo de cromosomas (2n) con una sola cromtida orientados hacia el
polo correspondiente.
Telofase
Los cromosomas agrupados en cada polo comienzan a descondensarse y los
nucleolos y la membrana nuclear vuelven a organizarse a partir de material
preexistente y de nueva sntesis.
La divisin celular se completa al final de esta etapa con la citocinesis, donde hay
tambin un reparto de los orgnulos y componentes citoplsmicos a las dos clulas
hijas, aunque no se realiza de forma tan precisa como durante la mitosis. El resultado
final del proceso mittico son dos clulas con 2n cromosomas.

- 19 -

Departamento de Gentica, Universidad de Granada

Con esta prctica vamos a poder observar con tcnicas citogenticas evidencias de
los siguientes fenmenos genticos:
- Replicacin del ADN y la cromatina: cromosomas con dos cromtidas.
- Conservacin del material hereditario y constancia del nmero cromosmico:
segregacin de las cromtidas hermanas de cada cromosoma durante la anafase.
2.2. MEIOSIS
La meiosis es un proceso que consta de dos divisiones celulares consecutivas sin que
haya replicacin del ADN entre ellas. Su funcin es diferente a la de la mitosis ya que
al final del proceso lo que se consigue es reducir el nmero cromosmico a la mitad,
obteniendo gametos haploides en los organismos con reproduccin sexual. La forma
para conseguir esa reduccin es que los cromosomas con el mismo tipo de
informacin gentica u homlogos se apareen primero para despus segregar a
distintos polos celulares. Durante el apareamiento cromosmico y la sinapsis ambos
homlogos pueden recombinar, es decir, intercambiar segmentos cromosmicos,
generando nuevas combinaciones allicas en los cromosomas resultantes. Las
diferentes combinaciones posibles de cromosomas paternos y maternos que puedan
quedar incluidas en un gameto, como consecuencia de la segregacin de homlogos,
es otra fuente adicional de variabilidad gentica.
Las dos divisiones celulares de la que consta la meiosis se denominan meiosis I
(reduccional) y meiosis II (ecuacional). Como decamos, la meiosis I separa
cromosomas homlogos y combina informacin gentica y la segunda divisin reparte
equitativamente las cromtidas que se haban replicado en la interfase premeitica.
En la meiosis tambin distinguimos cuatro etapas en cada una de las dos divisiones:
profase, metafase, anafase y telofase.
Las caractersticas de cada etapa son las siguientes:
MEIOSIS I
Profase I. Es una etapa larga y compleja donde suceden uno de los aspectos ms
destacados del proceso meitico: el sobrecruzamiento y la recombinacin. Se divide
en cinco subetapas: leptotene, cigotene, paquitene, diplotene y diacinesis.
Leptotene. Se caracteriza por el inicio de la condensacin de los cromosomas que
aparecen como una maraa dentro del ncleo. En este momento los cromosomas
tienen dos cromtidas pero an no son visibles al microscopio.
Cigotene. Esta es la etapa donde ocurre el fenmeno de sinapsis o apareamiento
cromosmico en el que los cromosomas homlogos se asocian a lo largo de toda su
longitud, lo que permite que ms tarde puedan intercambiar segmentos cromosmicos
(sobrecruzamiento) y recombinar. Cada pareja de homlogos apareados constituye lo
que se llama un bivalente, que consta de cuatro cromtidas.
Paquitene. El grado de condensacin cromosmica es mayor y los bivalentes
aparecen ms cortos y gruesos, permaneciendo los homlogos unidos a lo largo de
toda su longitud. En esta etapa ocurre el sobrecruzamiento y la recombinacin.

- 20 -

Departamento de Gentica, Universidad de Granada

Diplotene. Sigue aumentando la condensacin de los bivalentes. Los cromosomas


homlogos comienzan a separarse a nivel del centrmero, quedando unidos por unos
puntos de contacto denominados quiasmas que son la manifestacin citogentica del
sobrecruzamiento. Sin embargo, las cromtidas hermanas de cada homlogo an
permanecen unidas. El nmero de quiasmas que se establece vara entre especies,
poblaciones, individuos y tipo celular de que se trate. El tamao del bivalente tambin
determina el nmero de quiasmas que en l se organizan. En la meiosis femenina de
la especie humana, por ejemplo, se observan una media de dos a tres quiasmas por
bivalente siendo los cromosomas grandes los que muestran un mayor nmero de
quiasmas.
Diacinesis. Los bivalentes muestran ya un nivel muy alto de condensacin,
apareciendo como cuerpos gruesos. Los centrmeros de cada pareja de homlogos
inician la coorientacin hacia polos opuestos. Al final de la diacinesis, y por tanto, de
la profase I, se desorganizan los nucleolos y la membrana nuclear, al igual que ocurra
en la profase mittica.
Metafase I. Los bivalentes exhiben su mximo grado de condensacin. Los
centrmeros de cada homlogo se unen a las fibras del huso reorganizndose en la
placa metafsica. A diferencia de la metafase mittica, sobre la placa ecuatorial se
disponen parejas de cromosomas apareados o bivalentes (n bivalentes) en lugar de
cromosomas aislados (2n).
Anafase I. Se produce la migracin o segregacin de los cromosomas homlogos de
cada bivalente a polos opuestos. Este acontecimiento es de suma importancia ya que
tiene como consecuencia la reduccin del nmero cromosmico (n cromosomas en
cada polo). Las cromtidas hermanas de cada cromosoma permanecen todava
unidas pero solo a nivel del centrmero, a diferencia de la mitosis, donde los
centrmeros se dividen y ambas cromtidas se separan completamente y segregan en
la anafase mittica.
Telofase I. Cuando finaliza la segregacin anafsica de los homlogos, stos se
agrupan en ambos polos celulares. Los cromosomas se descondensan y reaparecen
los nucleolos y la membrana nuclear.
Finalmente se produce la citocinesis dando lugar a dos clulas hijas.
MEIOSIS II
La segunda divisin meitica es muy similar al proceso mittico pero hay una serie de
diferencias fundamentales. Cuando se inicia la meiosis II, los cromosomas ya estn
replicados y muestran dos cromtidas, por lo que en la interfase previa (o intercinesis)
no hay replicacin del ADN. Esta segunda divisin consta igualmente de cuatro
etapas: profase II, metafase II, anafase II y telofase II.
Profase II. Es una etapa de corta duracin donde aparecen n cromosomas con ambas
cromtidas divergentes, como si se repelieran y unidas nicamente por su centrmero,
lo que les da un aspecto de aspa.
Metafase II. Los n cromosomas se unen a las fibras del huso y se organizan en la
placa metafsica.
Anafase II. Cada centrmero se divide y las cromtidas hermanas segregan hacia
polos opuestos. En cada polo celular observaremos n cromosomas con una sola
cromtida.

- 21 -

Departamento de Gentica, Universidad de Granada

Telofase II. Finaliza la migracin de los n cromosomas con una sola cromtida y
empiezan a descondensarse. Aparecen de nuevo el nucleolo y la membrana nuclear.
Se lleva a cabo la citocinesis
Al final de todo el proceso meitico se obtienen cuatro clulas haploides,
cromosomas.

con n

La observacin de la meiosis que se realiza en esta prctica va a permitir observar


fenmenos genticos importantes:

Reduccin del nmero cromosmico durante la formacin de gametos


haploides: observacin de la segregacin de cromosomas homlogos en
anafase I y cromtidas hermanas en anafase II.

Generacin de variabilidad gentica durante la meiosis:


a) Combinacin al azar de cromosomas paternos y maternos: observacin de
la segregacin de cromosomas paternos y maternos para cada tipo
cromosmico durante la anafase I.
b) Recombinacin gentica entre cromosomas homlogos: observacin de
apareamiento y los quiasmas entre cromosomas homlogos.

Resumen de los nmeros de cromosomas y de la cantidad de ADN que hay en cada


etapa:
N de cromosomas
2n
2n
n
n
n

Tipo de clula
Espermatogonia (mitosis)
Espermatocito primario (1)
desde leptotene hasta telofase I
Espermatocitos secundarios (2)
desde intercinesis hasta telofase II
Espermtidas (4)
Espermatozoides (4)

- 22 -

Cantidad de ADN
4C
4C
2C
C
C

Departamento de Gentica, Universidad de Granada

3. METODOLOGA
3.1. OBSERVACIN DE LA MITOSIS
El material que necesitamos para poder estudiar la mitosis debe ser un tejido en
divisin celular activa. En animales se usa mdula sea de huesos largos, bazo,
ciegos gstricos y cultivos celulares como, por ejemplo, de linfocitos.
En plantas se utiliza muy frecuentemente el extremo apical de la raz (meristemo
apical), pero pueden utilizarse otros materiales como pices de hojas u ovarios de las
flores. En esta prctica vamos a utilizar races de la especie Scilla autumnalis.
Los bulbos de ambas especies se han mantenido en cultivo hidropnico con el fin de
que desarrollen races. Una vez obtenidas, se han cortado los extremos de las races y
han sido tratadas con colchicina al 0.005% durante 4h para impedir la formacin del
huso mittico y provocar as la acumulacin de clulas en metafase, donde veremos
mejor la morfologa cromosmica. La colchicina tiene el efecto aadido de condensar
algo ms los cromosomas y al no existir huso mittico es ms fcil visualizar clulas
con los cromosomas bien separados. Despus hay que fijar las races tratndolas con
un fijador compuesto por una mezcla de etanol y cido actico glacial en proporcin
3:1. Esto consigue coagular los contenidos celulares para que retengan la forma,
estructura y posicin. A las races de ajo se las somete tambin a una hidrlisis en ClH
1N a 60C durante 5 min, para relajar la estructura del ADN y facilitar la posterior
tincin de los cromosomas con los colorantes bsicos (orcena, por ejemplo) que
reaccionan con los grupos aldehdos de los nucletidos, tiiendo as los cromosomas.

Obtencin de las preparaciones


1. Colorear las races con orcena actica al 1% durante 30 min.
2. En un portaobjetos limpio, colocado sobre un papel de filtro, depositar una gota
de orcena del dimetro de un cigarrillo y sobre sta colocar una raiz.
3. Con la aguja enmangada y la lanceta se corta el extremo del pice, que se
reconoce por colorearse ms oscuro que el resto de la raiz y acabar en punta.
El meristemo se desprende fcilmente de la raiz, por lo que si hubiera dificultad
en realizar esta operacin, significara que no se trata del pice meristemtico.
4. Retirar el resto de la raiz, dejando nicamente el pice sobre la gota de
orcena. Con la base de la aguja enmangada, se macerar hasta conseguir que
se divida en varios trozos ms pequeos.
5. Colocar sobre la gota de orcena un cubreobjetos limpio y desengrasado y
proceder al aplastamiento del material. Para ello, sujetar por un borde con un
trozo de papel de filtro y golpear suavemente con la punta de la aguja
enmangada, haciendo que desaparezcan las burbujas de aire que hayan
quedado atrapadas y el exceso de colorante. Colocar un papel de filtro sobre el
cubreobjetos y con el dedo pulgar presionarlo, evitando que el cubreobjetos se
deslice respecto al portaobjetos.

Observacin cromosmica
Una vez que hemos obtenido la preparacin cromosmica la observamos al
microscopio para su estudio.
Las caractersticas propias de los tipos celulares que podris observar son las
siguientes (Figura 3):

- 23 -

Departamento de Gentica, Universidad de Granada

Interfase (no es una fase de la mitosis):


Cromatina descondensada.
Nmero y tamao de los nucleolos.

Profase:
Inicio de condensacin cromosmica.
Los nucleolos.

Metafase:
Disposicin de los cromosomas en la placa metafsica.
Nmero de cromosomas y todos los detalles que se puedan identificar de la
morfologa cromosmica: centrmero, brazos cromosmicos, nmero de
cromtidas, constricciones secundarias y satlites.
A partir de una microfotografa de esta fase se puede estudiar el cariotipo de
una especie (ver ms adelante).

Anafase:
Orientacin de los centrmeros y los cromosomas hacia los polos celulares.
Migracin y segregacin de cromtidas hermanas.
Estructura simple (una sola cromtida) de los cromosomas.

Telofase:
Agrupacin compacta de los cromosomas en ambos polos celulares.
Inicio de descondensacin de los cromosomas.
Aparicin del tabique entre los dos ncleos recin formados.

- 24 -

Departamento de Gentica, Universidad de Granada

Figura 3: Fases de la mitosis

- 25 -

Departamento de Gentica, Universidad de Granada

Realizacin de un cariotipo
El conjunto de rasgos de los cromosomas en metafase, referidos a su nmero,
tamao, posicin del centrmero, nmero y posicin de parejas con constriccin
secundaria es un dato constante para todas las clulas normales de un individuo y de
todos los individuos normales de una especie.
A partir de una microfotografa donde los cromosomas aparezcan bien separados, se
recortan stos, emparejndolos por el tamao (en milmetros), por la posicin de los
centrmeros y constricciones secundarias. Sobre una cartulina se pegan los
cromosomas de modo similar a la observada en la Figura 4b, teniendo en cuenta las
siguientes condiciones:
1. Los centrmeros irn colocados sobre una lnea horizontal.
2. Los brazos largos irn situados hacia la parte inferior de dicha lnea.
3. Las parejas cromosmicas sern ordenadas de mayor a menor tamao.

Figura 4: Microfotografa de los cromosomas humanos y su cariotipo

Con las medidas efectuadas en las parejas se construye la siguiente tabla:

Y se estiman los siguientes parmetros:


% contribucin al cariotipo: Sumando la longitud media de todas las parejas se
obtendra la longitud media total del cariotipo. Referido a este valor se hallara el
porcentaje relativo de cada pareja.
r = proporcin de brazos: Este dato nos indica la longitud relativa entre los brazos de
cada cromosoma, sirvindonos para poder clasificar, de acuerdo con su valor, a los
cromosomas de la siguiente forma (Figura 5):
1 < r < 1,7: cromosoma metacntrico. Los dos brazos son aproximadamente
iguales.

- 26 -

Departamento de Gentica, Universidad de Granada

1,7 < r < 3: cromosoma submetacntrico. Existe una diferencia de longitud


entre los brazos, pero no es excesiva.
3 < r < 7: cromosoma acrocntrico o subtelocntrico. Uno de los brazos
es mucho ms corto que el otro.
7 < r: cromosoma telocntrico. El centrmero est en un extremo del
cromosoma, de manera que ste tiene un solo brazo.

Figura 5: Tipos de cromosomas

Idiograma
Con los datos de la tabla se procede a realizar una representacin grfica haploide del
cariotipo, mediante un diagrama de barras (Figura 6). La longitud de las barras viene
determinada por la longitud media de los homlogos.

Figura 6: Idiograma del cariotipo humano

- 27 -

Departamento de Gentica, Universidad de Granada

3.2. OBSERVACIN DE LA MEIOSIS


Obtencin de las preparaciones meiticas
El material necesario para el estudio de la meiosis son los tejidos donde tiene lugar la
produccin de los gametos masculinos y femeninos, que en animales son los
testculos y los ovarios, respectivamente. La produccin de vulos se realiza mediante
el proceso de ovognesis y la de espermatozoides a travs de la espermatognesis.
En plantas superiores el rgano reproductor es la flor, que puede contener tanto
rganos reproductores femeninos (gineceo) como masculinos (androceo) o existir
flores exclusivamente femeninas o masculinas, en pies de plantas diferentes (dioicas)
o en el mismo pie de planta (monoica). Los gametos masculinos o granos de polen
(microsporas) se generan en las anteras y los gametos femeninos u vulos
(megasporas) en el ovario.
En esta prctica vamos a estudiar la espermatognesis en saltamontes ya que en
stos los ncleos muestran pocos cromosomas y de gran tamao, facilitando su
estudio.
Las preparaciones cromosmicas se van hacer con testculos foliculares fijados de
machos de saltamontes.
La obtencin del material necesario para las preparaciones requiere que previamente
hayamos anestesiado un macho con acetato de etilo y procedido a su diseccin para
la extraccin de la masa testicular donde se encuentran los folculos testiculares.
Posteriormente se fijan los testculos en etanol:cido actico en proporcin 3:1.
Despus de trascurrido un tiempo mnimo de una hora, el material esta listo para su
estudio.
La metodologa para la obtencin de preparaciones cromosmicas vara en funcin de
las caractersticas del material utilizado. Las preparaciones cromosmicas de folculos
testiculares se hacen por aplastamiento, siguiendo un procedimiento algo diferente al
que hemos utilizado para el estudio de la mitosis en plantas. En este caso el
procedimiento que debemos seguir es el siguiente:
1. Limpiar un portaobjetos desengrasado y colocar sobre papel de filtro.
2. Depositar en el centro del portaobjetos una gota pequea de orcena
lactopropinica y poner un folculo en ella.
3. Macerar el folculo golpendolo directamente con el extremo plano de un objeto
metlico o de plstico (un bolgrafo, una aguja enmangada, etc.).
4. Dejar caer un cubreobjetos sobre esa suspensin celular en orcena.
5. Eliminar las burbujas del aire que hayan podido quedar atrapadas sujetando el
cubreobjetos con papel de filtro, por uno de sus ngulos y ejerciendo una leve
presin con la punta de la aguja enmangada.
6. Realizar el aplastamiento del material colocando un papel de filtro sobre el
cubreobjetos y sujetando el portaobjetos con una mano y ejerciendo con el
dedo pulgar de la otra mano una fuerte presin sobre el cubreobjetos. Hay que
procurar que el cubreobjetos no se deslice.

Observacin cromosmica
El alumno deber localizar, estudiar y realizar un dibujo interpretativo de las principales
etapas de la meiosis.

- 28 -

Departamento de Gentica, Universidad de Granada

Los hechos ms significativos a observar en cada etapa son (Figuras 7 y 8):

Leptotene:
Aspecto enmaraado de los cromosomas
Los filamentos son simples.
Se observa un cuerpo intensamente teido: cromosoma X. Los machos son XO
y las hembras XX.

Cigotene:
Fibras ms cortas y menos enmaraadas.
Aspecto doble de los filamentos como consecuencia del apareamiento y la
sinapsis de cromosomas homlogos (bivalentes).
El cromosoma X (univalente) contina vindose ms teido y sin forma
definida.

Paquitene:
Se puede contar el nmero de bivalentes.
Los filamentos son bastante ms gruesos.
El cromosoma X sigue muy contrado y suele estar doblado sobre s mismo.

Diplotene:
Los bivalentes son an ms cortos y ms gruesos.
Se observan los quiasmas o puntos de contacto entre homlogos.
El cromosoma X se estira durante esta etapa, pero sigue estando ms
condensado que el resto.

Metafase I:
Los bivalentes estn condensados al mximo y por ello sus bordes o contorno
es ntido.
El cromosoma X suele aparecer algo ms descondensado en esta etapa y se
tie algo menos que el resto de bivalentes.

Anafase I:
Los cromosomas homlogos de cada bivalente se ven migrando orientados
hacia polos opuestos.
El cromosoma X, al ser un univalente ir a uno de los polos.

Telofase I:
Los cromosomas se agrupan en los polos.
Los cromosomas estn ms descondensados.

Intercinesis

Profase II:
Nmero haploide de cromosomas.
Cromtidas divergentes con aspecto de aspa.

- 29 -

Departamento de Gentica, Universidad de Granada

Metafase II:
Cromosomas ms condensados, ms cortos y mayor grosor. Cromtidas
hermanas separadas salvo en el centrmero.

Anafase II:
Separacin/migracin de cromtidas hermanas hacia cada polo.

Telofase II:
Se agrupan los cromosomas en los polos celulares y se empiezan a
descondensar.

Para poder observar las distintas etapas de la meiosis en saltamontes hay que
estudiar ms de una preparacin cromosmica ya que dentro de los folculos
testiculares existen unas subunidades funcionales que son los cistos o conjunto de
clulas que se encuentran en una misma etapa meitica. Por esta razn, en una sola
preparacin cromosmica podremos observar nicamente 3 4 etapas diferentes.

- 30 -

Departamento de Gentica, Universidad de Granada

Figura 7: Fases de la meiosis I

- 31 -

Departamento de Gentica, Universidad de Granada

Figura 8: Fases de la meiosis II

- 32 -

Departamento de Gentica, Universidad de Granada

4. CUESTIONES
Mitosis
1. Cuntas clulas has visto de cada tipo?
2. Cmo conseguimos acumular metafases en las preparaciones?
3. El fijador se utiliza para relajar la estructura del ADN. Verdadero o falso?
4. Indica el nmero cromosmico de la especie estudiada
5. Cuantos tipos cromosmicos hay en el cariotipo de A. sativum en funcin de la
posicin de su centrmero?
Meiosis
6. Describir las diferencias entre la meiosis I y la meiosis II
7. Tienen los dos polos de la anafase I observadas el mismo nmero cromosmico?
Y los polos de la anafase II observadas?
8. Indicar el nmero de bivalentes que se pueden contar en una clula
9. Indicar el nmero de quiasmas que se observan en diplotene
10. Cmo distinguimos el cromosoma X de los autosomas?

- 33 -

Departamento de Gentica, Universidad de Granada

- 34 -

Departamento de Gentica, Universidad de Granada

LABORATORIO VIRTUAL DE
GENTICA

- 35 -

Departamento de Gentica, Universidad de Granada

- 36 -

Departamento de Gentica, Universidad de Granada

LABORATORIO VIRTUAL DE GENTICA


1. OBJETIVO
GenWeb es un interfaz web a un laboratorio virtual de gentica que permite realizar
prcticas relacionadas con cualquier tema en el que intervengan cruzamientos,
poblaciones, caracteres cualitativos, cuantitativos, interacciones gnicas de todo tipo
etc... Este interfaz se encarga de la interaccin con el usuario y, a travs de l, se
definen los caracteres, genes, alelos e interacciones, se crean proyectos con los que
se realizan las simulaciones y se obtienen los resultados de poblaciones que pueden
descargarse para ser analizados con software de estadstica u hojas de clculo. Por
detrs de GenWeb, otra aplicacin llamada GenGine recibe los datos enviados a
travs del interfaz, aplica algoritmos que permiten generar nuevos individuos en
funcin de las reglas de herencia que se hayan definido a travs del interfaz, y genera
los resultados que son archivados en directorios especficos de cada proyecto. El
interfaz web accede a estos archivos as como a una base de datos postgresql con los
que generan las pginas que se muestran a cada usuario.
La aplicacin GenWeb+GenGine es capaz de generar individuos y poblaciones
siguiendo cualquier tipo de herencia que el usuario pueda definir, sin que a priori haya
ningn tipo de restriccin a los caracteres, genes, alelos y posibles interacciones entre
ellos. La herencia de un carcter depender de la manera en que el usuario defina los
caracteres con los que pretendan realizar las simulaciones. Se pueden realizar por
tanto multitud de prcticas de Gentica de la transmisin, Gentica cuatitativa,
Gentica de poblaciones, etc...
En este manual se detallan dos prcticas, a modo de ejemplo, que se pretenden
realizar durante este curso, pero que, gracias a la flexibilidad del diseo de la
aplicacin constituirn nicamente las dos primeras de una larga lista que ir
crendose con posterioridad y que podrn realizarse en la mayora de las asignaturas
de grado y posgrado que se imparten en el Departamento de Gentica.
El diseo de caracteres es un aspecto fundamental en el uso de la aplicacin, por lo
que en primer lugar se realizar una prctica en la que se aborden los puntos ms
importantes de este diseo.

2. DISEO DE CARACTERES CON GENWEB


En esta prctica los alumnos aprendern a disear un carcter con GenWeb, obtener
una poblacin de individuos y analizar estadsticamente las frecuencias fenotpicas de
esta poblacin.
Durante el transcurso de la prctica comprendern la forma en que se producen las
interacciones gnicas cuando varios genes actan sobre el mismo carcter, a travs
de las rutas biosintticas de productos que ellos mismos debern disear e
implementar. Vern cmo la combinacin aleatoria de los alelos de los genes que
intervengan en el carcter resulta en unas proporciones fenotpicas determinadas que
pueden ser tiles a la hora de identificar el modo de herencia de los caracteres, y
aprendern a analizar estadsticamente los datos tomados directamente de una
poblacin, aprendiendo a organizarlos, a identificar el modo de herencia y a calcular
una significacin estadstica de estos resultados.

- 37 -

Departamento de Gentica, Universidad de Granada

2.1. Acceso al interfaz


El acceso al GenWeb est controlado por una pgina de identificacin mediante
usuario y contrasea. Ms que restringir el acceso, este control pretende organizar los
datos identificando a cada usuario y mostrndole nicamente sus proyectos, sus
caracteres, o los caracteres que se hayan definidos como pblicos, de manera que los
datos generados por cada usuario no se mezclan con los de los dems.

La pgina de acceso incluye botones para enviar las credenciales, borrar los campos
de datos, crear un nuevo usuario o solicitar una nueva contrasea.
2.2. Men principal
Una vez identificado, un men con tres botones da acceso a las tres principales reas
de la aplicacin:

Creacin de caracteres.
Creacin de proyectos.
Creacin de generaciones, Cruces, y acceso a los datos generados.

2.3. Creacin de un carcter


Para crear nuestro primer carcter pulsamos sobre el botn Caracteres y se muestra
una tabla con los caracteres que se haya definido, que debera estar vaca, y un
formulario para crear un nuevo carcter:
Para poder practicar con los diferentes aspectos del interfaz se crear un carcter con
cierta complejidad, en el que intervengan dos genes que muestren una interaccin
gnica episttica recesiva.

- 38 -

Departamento de Gentica, Universidad de Granada

En primer lugar introducimos el nombre del carcter en el campo correspondiente.


Llamaremos al carcter color. La marca pblico har que otros usuarios puedan
acceder y utilizar este carcter para sus propios proyectos, y la marca visible har que
tengan acceso al diseo del carcter. Dejaremos ambas opciones sin marcar.

Una vez pulsado el botn Nuevo Caracter los datos aparecern en la tabla de
caracteres:

La columna Id muestra un nmero de identificacin del carcter que se ha generado


de forma automtica. En las siguientes columnas se muestra el nombre del carcter, y
botones para borrarlo o acceder a su diseo (Abrir). Estos botones muestran la Id del
carcter. Para evitar un borrado accidental, el botn de borrar no surtir efecto a
menos que cuando se pulse se encuentre marcada la casilla junto a l.
Si pulsamos el botn Abrir, se nos muestran a la derecha algunos datos referentes al
carcter recin creado:

La opcin Sexo se marca si el carcter que se define determinar el sexo del


individuo. La dejaremos sin marcar porque no es este el caso que nos ocupa. Las
opciones Visible y Pblico asociadas al carcter se muestran a continuacin y pueden
cambiarse en cualquier momento sin ms que alterar las marcas correspondientes y
pulsar sobre el botn Guardar cambios. El botn Cerrar cierra de nuevo el carcter,
y los otros dos botones sirven para acceder a los genes que intervienen en el carcter.
Si pulsamos el botn Ver Genes, aparece una tabla vaca, puesto que an no hemos

- 39 -

Departamento de Gentica, Universidad de Granada

definido ningn gen para este carcter. El botn tambin cambiar mostrando la
leyenda Ocultar Genes.
Obviamente para crear un nuevo gen deberamos pulsar el botn Nuevo gen, pero
antes haremos algunas consideraciones sobre la forma en que pensamos disear este
carcter.

2.3.1. Epistasis simple recesiva


Se produce una interaccin gnica episttica simple recesiva cuando dos genes
codifican dos enzimas que actan en dos pasos de una misma ruta metablica, y se
cuplen las condiciones representadas en el siguiente esquema:

Supongamos dos genes A y B que actan consecutivamente en la mima ruta


metablica de sntesis de un pigmento que colorea las flores de una planta. Existen
dos alelos del gen A, A1 y a2. El alelos a2 produce una enzima mutante no funcional. El
sustrato de esa enzima est representado en el esquema como S0. El nmero 1 dentro
del crculo verde que representa S0 corresponde a un valor arbitrario que se le asigna
a ese sustrato, por ejemplo, podra representar una concentracin, un nmero de
molculas, o una variedad concreta entre varios posibles sustratos. Un valor de 0
indicara la ausencia del sustrato y por tanto hara que no se diera esa ruta metablica.
Por eso en el esquema se le ha asignado el valor 1, de manera que existe el sustrato
S0 y la enzima fabricada por el gen A podra actuar sobre l. Los alelos de A,
representados dentro del cuadro rojo, actuaran sobre ese sustrato para convertirlo en
S1. La enzima codificada por A1 actuara sobre S0 dando como producto de la reaccin
S1. Esta accin se representa dndole a S1 un valor distinto de 0, por ejemplo 1, como
se representa en el esquema. Puesto que la enzima codificada por a2 no es funcional,
no podra actuar sobre S1 y por eso el resultado sera la asignacin de un valor 0 a S1,
indicando as la ausencia de producto. Los individuos que resulten homocigticos para
a2 tendrn un valor 0 en S1, por lo que la ruta metablica se interrumpir en este
punto, y no se fabricar ningn pigmento. La presencia del alelo A1, aunque sea en
heterocigosis, resultar en la asignacin de un valor S1 = 1. Por lo tanto, A1 se
comporta como dominante y a2 como recesivo.
El producto S1 es a la vez sustrato de la enzima codificada por el gen B. En este caso
supongamos una dominancia completa de B1 sobre b2 en donde ambos alelos
codifican una enzima funcional, pero que producen diferentes pigmentos. Podemos
identificar los distintos pigmentos asignndole valores diferentes al producto S2. As, la
enzima codificada por B1 le asignara un valor S2 = 2 que podra corresponder, por

- 40 -

Departamento de Gentica, Universidad de Granada

ejemplo, a un color verde, y la enzima codificada por b2 le asignara un valor S2 = 1,


que podra corresponder a un color rojo.
Teniendo en cuenta las propiedades del diseo de ste carcter, una planta
homocigtica a2a2 tendra las flores blancas, ya que la sntesis del pigmento se habra
interrumpido en S1 y, por lo tanto sera irrelevante qu alelos tuviese en el gen B. De
esta forma el alelo recesivo a2 ejerce una interaccin episttica sobre el gen B, es
decir, una epistasis simple recesiva. Si una planta posee el alelo A1, la sntesis del
pigmento final depender entonces del gen B, pudiendo producir flores verdes o rojas
dependiendo de la composicin allica de B.
Una vez decidido como ser el diseo del carcter veremos la forma de implementarlo
a travs de GenWeb.
2.3.2. Epistasis simple recesiva en GenWeb
Puesto que ya sabemos como vamos a disear el carcter, pulsamos el botn Nuevo
gen. Aparecer un formulario que nos permite asignarle un nombre, indicar el nmero
del cromosoma donde queremos que se localize, as como su posicin dentro de este
cromosoma. Para el caso que nos ocupa la posicn dentro del cromosoma es
irrelevante, aunque s tendremos que asegurarnos de situar cada gen en un
cromosoma distinto de forma que tengan segregacin independiente. Las marcas en X
e Y se utilizan para indicar en qu cromosoma sexual se encontrara el gen, en caso
en que fuese ligado al sexo, holndrico o pseudoautosmico. A y B se utilizan para
indicar en qu cromosoma de una pareja autosmica se encuentra. Por defecto se
encuentran marcados los dos cromosomas de una pareja autosmica. Marcar solo uno
de ellos permitira por ejemplo simular la presencia de una delecin que hubiese
ocasionado la prdida de uno de los alelos.
Para nuestro diseo rellenaremos el formulario con los datos que se muestran en la
figura a continuacin:

Cuando pulsamos el botn Guardar Datos el formulario desaparece. Para poder ver
el nuevo gen que hemos creado pulsamos el botn Ver Genes. Aparecer una tabla
en la que podremos ver los datos que hemos introducido:

- 41 -

Departamento de Gentica, Universidad de Granada

Ahora deberemos asignar alelos a este gen. Para ello debemos abrirlo pulsando sobre
el botn de la columna Abrir que muestra la Id del nuevo gen. Al abrirlo nos
aparecer una tabla de alelos vaca, y un formulario para introducir los datos de un
nuevo alelo, que rellenaremos como se muestra en la figura:

El valor del alelo es el que ste alelo en particular asignara al producto de la reaccin
en la ruta metablica, o sumara al valor de su sustrato en caso de tratarse de un gen
con efecto acumulativo. La dominancia se expresa en%. Un valor de 100 indicara una
dominancia completa, auque la relacin con otros alelos depender tambin de los
valores de dominancia de los dems alelos. Este valor puede ser superior al 100%, lo
que ocasionara casos de sobredominancia, en los que los heterocigotos pueden tener
valores fenotpicos superiores a los homcigotos para este alelo.
Tras pulsar el botn Nuevo Alelo, los datos aparecern en la tabla de alelos de este
gen.

Creamos ahora un nuevo alelo de nombre a2, con un valor de 0 de acuerdo con
nuestro diseo, que resultar en una variante no funcional de la enzima. Respecto al
valor de dominancia, para que este alelo fuese completamente recesivo respecto a A1
debera tener una dominancia 0.
Una vez creado este nuevo alelo, la tabla de alelos del gen A quedara as:

Pulsamos ahora sobre el botn Cerrar que hay sobre la tabla de alelos para cerrar el
gen A.
Ahora pasaremos a crear el gen B repitiendo los mimos pasos. Los datos a consignar
para el Gen B y sus dos alelos son los siguientes:

- 42 -

Departamento de Gentica, Universidad de Granada

Los valores que se observan en las tablas son los que deben introducirse en los
respectivos formularios.
Una vez que todo est correcto, podemos cerrar el gen B.
2.4. Conexiones entre los genes
Ya hemos creado los genes, pero no hemos establecido ninguna ruta metblica con
ellos. Si queremos que tengan determinado tipo de interaccin, deberemos establecer
las posiciones en las que actan en la ruta.
Para ello pulsamos el botn Ver conexiones. Puesto que an no hemos establecido
ningna conexin entre los genes, solo veremos un mensaje indicando esta situacin.
Debajo veremos un botn rotulado Cambiar Sustratos y un campo donde escribir el
nmero de sustratos, una tabla que muestra los dos genes junto con botones de
seleccin, y otro botn rotulado Guardar conexin. Al mismo tiempo, el botn para
ver conexiones habr cambiado por otro rotulado Ocultar Conexiones.

En primer lugar deberemos contar con los sustratos necesarios para nuestro diseo.
Se entiende aqu sustrato en sentido amplio, ya que el sustrato de una enzima puede
ser a su vez el producto de otra. Segn nuestro diseo, la enzima codificada por el gen
A actuara sobre un sustrato S0 proporcionando el producto S1 que, a su vez sera

- 43 -

Departamento de Gentica, Universidad de Granada

sustrato de B proporcionando el pigmento final S2. Necesitamos por tanto 3 sustratos


para poder definir la ruta metablica. Por tanto escribiremos un 3 en el campo No
sustratos y pulsamos sobre el botn Cambiar sustratos.
Aparecern tablas de sustratos similares a la de los genes, y estarn repetidas por
encima y por debajo de esta tabla de genes.
Para establecer una conexin, debemos elegir de la tabla de sustratos superior el
sustrato que deseemos, a continuacin elegimos el gen que codificar la enzima que
actuar sobre ese sustrato, y elegiremos el producto de la reaccin en la tabla inferior.
Por ejemplo, segn nuestro diseo debramos elegir S0 en la tabla superior, A en la
tabla de genes, y S1 en la tabla inferior:

Tras pulsar el botn Guardar Conexin, sta aparecer en la tabla de conexiones:

A continuacin crearemos la siguiente conexin entre S1, B y S2, quedando la tabla de


conexiones como sigue:

Ya podemos dar por terminado nuestro diseo de un carcter con una herencia
episttica recesiva en la que intervienen dos genes con dominancia completa.
Pulsamos entonces consecutivamente sobre los botones: Ocultar Conexiones,
Ocultar Genes, y Cerrar, para cerrar definitivmente el carcter en el que hemos
estado trabajando.
De ahora en adelante podremos utilizar este carcter en nuestros proyectos.
2.5. Creacin de un proyecto
Para crear nuestro primer proyecto pulsamos sobre el botn Proyectos del men
principal. Nos aparecer una tabla de proyectos vaca y un pequeo formulario para
crear un proyecto nuevo. Elegimos un nombre para ese proyecto, por ejemplo: ESD, y
pulsamos sobre el botn Nuevo Proyecto. Nuestro nuevo proyecto deber entonces
aparecer en la tabla:

- 44 -

Departamento de Gentica, Universidad de Granada

Con esto solo hemos creado un proyecto vaco, deberemos abrirlo para poder trabajar
en l. Al pulsar el botn Abrir veremos una tabla de caracteres asociados a este
proyecto, que ahora estar vaca. En la parte superior se muestra el nombre y la Id del
proyecto que se encuentra abierto.

Debemos ahora asociar el carcter color a este proyecto. Para ello pulsamos sobre el
botn Caracteres del men principal, y veremos que sobre la tabla de caracteres
aparece el nombre del proyecto activo.

Pulsamos una sola vez el botn de la columna Seleccionar que muestra la Id del
carcter color. Aparecer un mensaje indicando que se ha insertado el carcter en el
proyecto activo. De hecho, si volvemos al proyecto, veremos que en la tabla de
caracteres asociados aparece ahora el carcter seleccionado.

En esta tabla de caracteres asociados al proyecto el campo ambiente es un valor que


determina las variaciones que los cambios ambientales pueden llegar a producir en el
fenotipo de los individuos. En nuestro caso pretendemos que el carcter color
produzca flores de un color determinado de manera independiente a las condiciones
ambientales, por lo que asignaremos el valor 0 a este campo, tras lo cual pulsaremos
el botn de la columna Actualizar correspondiente a nuestro carcter. Este valor de
ambiente puede modificarse en cualquier momento pulsando de nuevo en este botn.

- 45 -

Departamento de Gentica, Universidad de Granada

2.6. Creacin de una poblacin


Vamos ahora a crear una poblacin aleatoria en nuestro proyecto. Para ello pulsamos
sobre el botn Generaciones del men principal. En esta parte existen diversos
formularios que nos permiten realizar diferentes tipos de operaciones. En nuestro caso
nos interesa el apartado Crear Generacin aleatoria

Tecleamos un tamao para la poblacin, en el ejemplo: 200 individuos, y pulsamos


sobre el botn Crear Generacin. No veremos ningn efecto salvo que el nmero de
generacin por defecto que aparece ahora en el formulario es el 2 en lugar de 1.
Si queremos ver las generaciones que hemos creado pulsaremos sobre el botn Ver
Generaciones. Aparecer una tabla que mostrar la generacin recin creada:

Si pulsamos sobre el botn Abrir de la generacin que nos interese ver nos
aparecer a la derecha una tabla con la lista de individuo de esa poblacin y sus
valores fenotpicos. Los botones de la columna Selec. sirven para seleccionar
individuos concretos como parentales de una nueva generacin, aunque no los
utilizaremos en esta ocasin.

Al final de la tabla veremos un enlace para descargar los datos. Dependiendo del
navegador que utilizemos podemos pulsar sobre l para descargar un archivo de texto
con los datos de esta generacin, o pulsar con el botn derecho del ratn y elegir
Guardar enlace como o alguna opcin similar.
Elegiremos donde queremos guardar ese archivo en nuestro ordenador y,
posteriormente lo analizaremos en una hoja de clculo. el nombre del archivo, por

- 46 -

Departamento de Gentica, Universidad de Granada

ejemplo 27_1_datos.csv indica la Id del proyecto (27) y la generacin (1) a los que
corresponde.
2.7. Anlisis estadstico
Para el anlisis estadstico de la poblacin utilizaremos el programa gnumeric que
podremos descargar e instalar manualmente de:
http://projects.gnome.org/gnumeric/downloads.shtml
si usamos Windows, o desde:
http://www.flyn.org/apple/index.html
si usamos Mac, o con:
sudo apt-get install gnumeric
en distibuciones basadas en Linux Debian, o con tu gestor de paquetes favorito en
cualquier otra distribucin basada en UNIX.
En primer lugar abrimos el archivo que hemos descargado con gnumeric eligiendo
desde el men prinicpal del programa Archivo Abrir. Se nos abrir un dalogo que
nos permitir navegar por nuestros directorios hasta el archivo que hemos descargado
desde GenWeb.
No podemos abrir directamente ese archivo ya que no se trata de un archivo de
gnumeric. En primer lugar debemos pulsar en el botn rotulado Avanzado:

Tras pulsarlo aparecer un desplegable que, en principio tiene seleccionada la opcin


Automticamente detectado:

Sin embargo no es esa la opcin que nos interesa, pulsamos sobre el desplegable y
elegimos la opcin Importar texto (configurable):

- 47 -

Departamento de Gentica, Universidad de Granada

Nos aparecern una serie de dilogos a travs de los cuales indicaremos a gnumeric
la forma en que los datos estn almacenados en el archivo. El primero de esos
dilogos es el siguiente:

Las opciones por defecto que se observan en la figura son las apropiadas. No obtante
comprobaremos que tenemos marcada la opcin Delimitados como tipo de dato
original. Pulsamos entonces sobre el botn rotulado Adelante para pasar al siguiente
dilogo:

Aqui debemos asegurarnos de marcar la opcin Espacio como carcter separador, y


de que NO est marcada la opcin Coma. Pulsamos en Adelante para pasar al
siguiente dilogo:

- 48 -

Departamento de Gentica, Universidad de Granada

Y, por ltimo, pulsamos en Terminar. Tendremos entonces dos columnas de datos


en la hoja de clculo, la primera es la Id de cada individuo y la segunda su valor
fenotpico:

Comenzaremos el anlisis estadistico de los datos confeccionando un histograma de


frecuencias fenotpicas. Para ello elegimos del men principal de gnumeric las
opciones:
Estadstica Estadstica descriptiva Tablas de frecuencia Histograma
Aparecer un dalogo con varias pestaas. En la primera escribiremos como Rango
de entrada: b2:b201, ya que los fenotipos se encuentran en este rango de casillas si
hemos generado una poblacin de 200 individuos.

Pasamos entonces a la pestaa Cutoffs. Aqu se especifican las clases en las que
sern divididos los datos. Aunque vemos que nicamente tenemos 3 clases

- 49 -

Departamento de Gentica, Universidad de Granada

fenotpicas, en otras ocasiones en las que las clases fenotpicas puedan no estar tan
claramente definidas puede ser conveniente dividir los datos en clases pequeas para
poder observar con mayor detalle la distribucin de fenotipos. En este caso lo haremos
tambin as ya que es aplicable de una forma ms general, y no supone ningn
problema a la hora de observar clases fenotpicas claramente definidas como stas.
Puesto que el nmero mayor es 2, y por defecto, en gnumeric, los rangos estn
abiertos por su extremo superior, abarcaremos un rango total entre 02,1 (ligeramente
superior a 2) y lo dividiremos en 21 clases fenotpicas. Para ello especificaremos los
datos como se muestra en la figura:

Debemos tener en cuenta que si gnumeric est en espaol, el carcter decimal es la


coma, pero si est en ingls, es el punto.
Pulsaremos entonces en la pestaa Grficas y opciones, y marcaremos la opcin
Grfico de histograma.

- 50 -

Departamento de Gentica, Universidad de Granada

A continuacin pulsamos en la pestaa Salida, elegimos la opcin Rango de salida


y escribimos d2 en el campo correspondiente, para que los resultados aparezcan en
la misma hoja y tengan su esquina superior izquierda en esta casilla.

Pulsamos entonces el botn Aceptar y aparecer el histograma de frecuencias, sobre


el que podemos pulsar y arrastrarlo hacia la derecha, ya que aparece sobre los datos
numricos con los que se ha hecho el histograma, quedando como se ve a
continuacin:

En el ejemplo, vemos que hay 119 individuos con un valor fenotpico de 2, 32 con un
valor de 1, y 49 con un valor de 0, que han cado dentro de tres de las clases en las
que se ha dividido el rango de valores fenotpicos. Segn el diseo del carcter,
habamos asignado el color blanco al valor 0, el rojo al valor 1, y el verde al valor 2.

- 51 -

Departamento de Gentica, Universidad de Granada

Construiremos una pequea tabla en la hoja de clculo que resuma estos resultados.
Para ello escribimos los colores correspondientes y, junto a ellos ponemos una frmula
que copie los resultados de las casillas correspondientes de la tabla de frecuencias.
En la hoja de clculo, las casillas cuyo contenido comienzan por el smbolo = se
consideran frmulas, por lo que en la casilla a la derecha de verde tecleamos = y, a
continuacin picamos sobre la casilla que tiene el total de individuos con valor
fenotpico 2, la casilla F24 en nuestro caso, o tambin podemos directamente teclear
=f24. Pulsamos Intro y deber aparecer el todal de individuos, copiados de esa
casilla. de la misma forma pondremos el total de individuos de color rojo y blanco:

Puesto que con dos genes y dos alelos cada uno se pueden formar 24 = 16 clases
genotpicas diferentes, calcularemos las proporciones de las tres clases fenotpicas en
dieciseisavos para tener una visin mas precisa de la forma en que estn distribudas.
Para ello deberemos dividir el nmero de individuos de cada clase fenotpica por el
total y multiplicarlo por 16:
P16 =

N
x16
200

Para ello hacemos otra columna, y tecleamos la frmula como se observa en la figura.
En lugar de escribir directamente el nmero de individuos, anotamos la casilla donde
ste se encuentra:

Al pulsar Intro deber aparecer la proporcin correspondiente. Seleccionamos la


casilla donde acabamos de escribir picando sobre ella. Si est seleccionada presenta
una lnea doble alrededor, con un pequeo cuadrado en la esquina inferior derecha.
Para copiar la frmula actualizando automticamente la casilla que hemos incluido en
ella como la que contiene la frecuencia observada de la clase fenotpica, tendremos
que picar sobre ese pequeo cuadrado de la esquina y estirar el marco doble hacia
abajo, abarcando las tres casillas de las tres clases fenotpicas. la frmula se copiar
en todas ellas, actualizando la casilla de donde toma el total de cada clase:

Como podemos ver se aproxima a las proporciones 9:3:4, que son las que se
esperara obtener en una F2, es decir en la descendencia de un cruce entre dihbridos.
Es interesante que el alumno pueda razonar por su cuenta por qu se han obtenido
estas proporciones en una poblacin generada de forma aleatoria, y no mediante el
cruce de dos dihbridos.

- 52 -

Departamento de Gentica, Universidad de Granada

Para comprobar si las desviaciones respecto a estas propociones son lo


suficientemente grandes como para rechazar que nuestros resultados las cumplan,
podemos realizar un anlisis de 2. Para esto, deberemos calcular cuantos individuos
de cada clase fenotpica se esperara obtener si el total de individuos se repartiese
segn las proporciones tericas. Por lo tanto deberemos dividir los 200 individuos del
total en 9/16, 3/16 y 4/16.
Podemos crear una columna con las proporciones esperadas, y otra con los valores
totales esperados, calculados segn la frmula que se observa en la figura, donde
G29 corresponde con la proporcin esperada (9):

Tras pulsar Intro y copiar la frmula hacia abajo tendremos la distribucin esperada:

Ahora calcularemos los componentes de la 2 segn la frmula:

(Obs Esp ) 2
Esp
Incluiremos esta frmula en la casilla correspondiente sustituyendo los valores
Observados y Esperados por los nmeros de las casillas correspondientes, de manera
que se actualizen al copiar la frmula hacia abajo:

Una vez copiada, aadiremos una casilla ms por debajo de las otras donde
pondremos la frmula con la suma de las tres casillas, como se puede ver en la
siguiente figura [sum(i29:i31)], que sumara el contenido de las casillas desde la I29
hasta la I31, y nos da el resultado mostrado de 1.20.

Deberemos comparar este valor con los de una tabla de 2 para calcular la
probabilidad de cometer un error de tipo II, es decir, de equivocarnos si rechazamos la
hiptesis que hemos supuesto de que el total de individuos estn distribudos segn
las proporciones 9:3:4. Nuestro estudio tiene tres clases fenotpicas y, por lo tanto, dos

- 53 -

Departamento de Gentica, Universidad de Granada

grados de libertad, por lo que compararemos el valor de 2 = 1.20 obtenido con los que
se observan en la segunda fila de la siguiente distribucin de 2:

Nuestro valor es: 0.71 < 1.20 < 1.39 que se corresponden con las columnas que
indican una probabilidad 0.70 > P > 0.50. Al ser la probabilidad de equivocarse al
rechazar la hiptesis muy superior al mximo permitido de 0.05, podemos concluir que
las desviaciones observadas no permiten rechazar la hiptesis de que las clases
fenotpicas se encuentran distribuidas segn las proporciones 9:3:4 esperadas en el
caso de una herencia con interaccin episttica doble recesiva entre dos genes con
dos alelos.
Por lo tanto, el diseo del carcter es correcto y se comporta como se esperbamos.

3. CARACTERES CUALITATIVOS vs. CUANTITATIVOS


Un carcter cuantitativo es aquel en el que sus posibles fenotipos no pueden dividirse
en diferentes clases por presentar una distribucin continua.
Un ejemplo tpico de carcter cuantitativo es la altura, por ejemplo la altura de una
planta, que puede presentar cualquier valor dentro de cierto rango. La distribucin
continua est provocada por la superposicin de las variaciones genticas entre
individuos y de variaciones inducidas por las condiciones ambientales. Las distintas
combinaciones genotpicas posibles daran individuos con diferentes alturas, que nos
permitiran dividir una poblacin en diferentes clases. Por ejemplo, suponiendo un gen
con dos alelos con efecto aditivo tendramos tres clases, dos de homocigotos y una de
heterocigotos, que presentaran diferentes alturas. Por el efecto de variaciones
ambientales durante el crecimiento de la planta, los individuos de cada clase podran
no tener todos la misma altura y podran llegar a confundirse las tres clases si la
distribucin de alturas de cada una de ellas llegaran a solaparse. En ese momento el
carcter sera cuantitativo. Esto significa por tanto que los carateres cualitativos y
cuantitativos no son diferentes. Lo que es diferente es nicamente la manera de
estudiarlos. Si se pueden distinguir las clases fenotpicas entonces podremos seguir la
segregacin de los alelos en sucesivos cruces, lo que nos podr dar informacin que
nos permita averiguar los genotipos que corresponden a cada clase, o el modo de
herencia del carcter, etc... Si las clases fenotpicas no pueden distinguirse porque se
solapan, entonces no podemos agrupar los individuos de una poblacin en clases
diferentes, y tenemos que recurrir a estudios estadsticos de la distribucin para poder
obtener de ellos algn tipo de informacin.
Si en un carcter intervienen muchos genes con pequeos efectos acumulativos, las
poblaciones se dividirn en muchas clases distintas con pequeas diferencias entre s,
por lo que variaciones ambientales relativamente pequeas pueden hacer que se
solapen. Por eso es comn pensar que los caracteres cuantitativos dependen de
muchos genes con efecto aditivo, y los cualitativos de pocos, pero, a la vista de lo que
aqu hemos comentado, no tiene por qu ser necesariamente as. Un carcter
cuantitativo puede depender tambin de pocos genes, y no todos esos genes tienen
por qu contribuir de la misma forma, ni tienen por qu tener efectos aditivos. Tambin

- 54 -

Departamento de Gentica, Universidad de Granada

puede haber dominancia entre sus alelos o interacciones gnicas de todo tipo, por o
que realmente no hay una diferencia gentica entre ambos tipos de caracteres, sino
nicamente distintas formas de estudiarlos.
Un mismo carcter puede por tanto ser a la vez cualitativo y cuantitativo si hay clases
fenotpicas que se puedan distinguir del resto, pero las demas clases estn solapadas
y no se pueden separar. Podemos estudiar las clases que se pueden distinguir por
mtodos adecuados para caracteres cualitativos, y las dems por mtodos para
cuantitativos.
Por ejemplo, volviendo a la altura de una planta, podemos tener una distribucin
continua de alturas, pero tambin puede haber un gen con algn alelo mutante que
cause enanismo. Las plantas enanas pueden ser claramente distinguibles del resto,
aunque no tengan todas exactamente la misma altura, y podemos considerar plantas
enanas:normales como un carcter cualitativo, mientras que en poblaciones donde no
haya plantas enanas o entre individuos de alturas normales debamos aplicar mtodos
adecuados para caracteres cuantitativos.
Para comprender cmo pueden darse estos casos vamos a disear en GenWeb un
carcter que cumpla con estas caractersticas y obtendremos una poblacin en la que
se puedan distinguir la clases fenotpica enanas:normales, manteniendo una
distribucin contnua que no nos permite individualizar las clases fenotpicas entre las
plantas normales.
3.1. Diseo del carcter altura de una planta
Planearemos en primer lugar la forma en que vamos a disear este carcter.
En primer lugar crearemos un gen que muestre una dominancia completa entre dos
alelos. el alelo recesivo ser responsable del enanismo, el alelo dominante producir
una altura normal que depender a su vez de varios otros genes con efecto
acumulativo, con un alelo menor que incremente la altura cierto valor y un alelo mayor
que lo incremente la altura en una mayor cantidad. Para que el alelo que causa el
enanismo no deje actuar a los genes que determinan la altura de la planta deber
ejercer sobre todos ellos una epistasis recesiva.
Recordaremos del ejercicio anterior que conseguamos esta interaccin gnica
anulando un sustrato intermedio que interrumpa as la ruta hasta el fenotipo final. Sin
embargo esto ocasionar que el valor fenotpico final sea 0. Necesitamos por tanto dar
una altura mnima a las plantas mediante un gen sobre que no tenga interacciones con
el que causa el enanismo. Si nos decidimos por implicar a tres genes con efecto
aditivo en la altura de la plata, un diseo que cumplira con las condiciones que
acabamos de considerar podra ser el siguiente:

- 55 -

Departamento de Gentica, Universidad de Granada

En esta ruta partimos del sustrato S0 con un valor 1, para que la ruta disponga de un
sustrato de partida. Sobre ste acta en gen X, con dos alelos codominantes que
contribuyen por igual a la altura de la planta y que devuelven su valor directamente a
S2, contribuyendo a una altura mnima de la planta de manera independiente al resto
de los genes. Sobre S0 acta tambin en gen E, cuyo alelo rececivo e2, con valor 0
produce la interrupcin de la ruta en S1 cuando est en homocigosis, haciendo que no
se sume el efecto de ninguno de los genes A, B o C y causando por tanto enanismo en
la planta. La presencia del alelo dominante E1 le da a S1 un valor 10 (que podran ser
una contribucin de 10 cm a la altura final) y sobre S1 actan con efecto acumulativo
los genes A, B y C, con dos alelos cada uno, uno con un efecto mayor que contribuye
con 100 cm, y otro con efecto menos que contribuye con 50 cm. Finalmente el efecto
conjunto de todos estos genes ocasionarn una altura determinada de la planta, que
podr presentar tambin variaciones debidas a condiciones ambientales que pudieran
afectar su crecimiento.
Puesto que ya sabemos crear nuevos caracteres en GenWeb, no ser necesario
repetir todos los pasos bsicos de nuevo. Simplemente creamos un nuevo carcter
llamado altura, lo abrimos, y aadimos los siguientes genes:

- 56 -

Departamento de Gentica, Universidad de Granada

En este paso lo nico relevante es dar a cada gen su nombre, segn nuestro diseo, y
colocarlos en cromosomas diferentes de modo que presenten segregacin
independiente.
Una vez creados los genes debemos aadir los alelos correspondientes a cada uno de
ellos. Abrimos el gen E y aadimos los dos alelos correspondientes:

Vemos que, de acuerdo con el diseo, hemos asignado una valor 10 a E1 y 0 a e2.
Para que haya una dominancia completa, el valor de dominancia es respectivamente,
100 y 0.
Para el caso de los genes A, B y C, aadiremos en los tres casos alelos similares,
como los del ejemplo del gen A:

Para conseguir que un gen tenga efecto aditivo en GenWeb, se asigna un valor de
dominancia de 1000 a todos los alelos que queremos que sean acumulativos.
Por ltimo nos falta aadir los alelos del gen X:

- 57 -

Departamento de Gentica, Universidad de Granada

Ambos alelos tienen el mismo valor y presentan efecto acumulativo.


para que estos genes interaccionen de la forma en que los hemos diseado,
deberemos conectarlos correctamente:

Vemos que se han creado tres sustratos, y la forma en que se han realizado las
conexiones. Las Id de cada gen pueden comprobarse en la tabla de genes.
3.3. Obtener una poblacin aleatoria
Una vez creado el carcter podemos utilizarlo en proyectos. Crearemos un nuevo
proyecto al que podremos llamar altura y, una vez creado lo abrimos:

Una vez abierto volvemos a la pgina de Caracteres y seleccionamos el carcter:

- 58 -

Departamento de Gentica, Universidad de Granada

Para generar variaciones fenotpicas debidas al ambiente debemos poner un valor


distinto de 0 en el campo Ambiente. El valor de ese campo se expresa en las mismas
unidades arbitrarias que se hayan elegido para el carcter. Con un poco de prctica se
aprende a elegir unos valores acordes con el tipo de carcter que se haya diseado.
En nuestro caso haremos algunas consideraciones: las plantas ms pequeas tendrn
un valor fenotpico en torno a 100, debido nicamente a la actuacin del gen X.
Aproximadamente un 1020% de este valor causar una dispersin de los valores
fenotpicos que no ser demasiado grande como para que lleguen a ocultar todas las
diferencias genotpicas, as que probaremos con un valor de 20 para el ambiente, y
pulsamos el botn Actualizar para que ese valor de variaciones ambientales se tenga
en cuenta en las poblaciones que creemos a partir de este momento.
Iremos entonces a la pgina de Generaciones, y en el apartado Crear Generacin
Aleatoria ponemos un tamao de poblacin de 500 individuos y pulsamos en Crear
Generacin.
Pulsamos entonces en Ver Generaciones y abrimos la generacin 1:

Bajamos entonces hasta el final de la tabla y descargamos el archivo con los datos
generados a nuestro ordenador para realizar algn anlisis estadstico.
3.4. Anlisis estadstico
Recordaremos que para abrir el archivo de datos en gnumeric debemos elegir la
opcin Importar texto (configurable), y que es importante que en el segundo dilogo
de importacin seleccionemos Espacio como separador y comprobemos que NO
tenemos seleccionado coma:

- 59 -

Departamento de Gentica, Universidad de Granada

Una vez que tenemos los datos en la hoja de clculo realizaremos el histograma de
frecuencias fenotpicas para observar la distribucin. Elegiremos las opciones:
Estadstica Estadstica descriptiva Tablas de frecuencia Histograma
Como rango de entrada en la primera pestaa pondremos b2:b501, ya que tenemos
500 individuos:

En la pestaa Cutoffs, puesto que los valore fenotpicos son mayores de 0 y menores
de 500, elegiremos este rango total y lo dividiremos en 50 clases:

En la pestaa Grficas y opciones elegimos Grfico de histograma:

Y en la pestaa Salida elegimos Rango de salida y ponemos d2 para que la


esquina superior izquierda de la salida parta desde esa celda.

Cuando pulsemos en el botn Aceptar podremos ver el histograma de frecuencias.


Necesitaremos desplazarlo hacia la derecha para hacer visible la lista numrica de
clases, y tambin puede ser conveniente estirarlo ligeramente en horizontal para
distinguir con ms facilidad las clases fenotpicas:

- 60 -

Departamento de Gentica, Universidad de Granada

Vemos que los datos presentan una distribucin bimodal, con dos grupos claramente
diferenciables, que presentan una distribucin gaussiana. Consideradas por separado,
cada una de las distribuciones tiene la apariencia tpica de un carcter cuantitativo, en
el que la superposicin de la variacin gentica y las variaciones ambientales
provocan una distribucin continua que hace imposible distinguir diferentes clases de
individuos.
La distribucin bimodal est causada por el gen que provoca enanismo. Las plantas
homocigticas e2e2 son enenas y presentan valores fenotpicos en torno a 100. Estas
plantas sern las que forman la distribucin de la izquierda. En la derecha deben
encontrarse tanto las plantas E1E1 como las E1e2 y, entre estas, las habr con las
diferntes combinaciones genotpicsas posibles de los genes A, B y C.
Si consideramos nicamente las plantas enanas:normales, esperamos que estn en
una proporcin 1:3. Vamos a considerar por tanto nicamente las dos clases que se
pueden distinguir y a sumar los individuos que pertenecen a cada una de ellas y a
comprobar mediante un anlisis de 2 si se puede o no rechazar que los datos se
encuentren en estas proporciones. En la siguiente figura vemos el rango de valores
que corresponden con la clase enanas seleccionadas con el rectngulo verde para
incluirlas en la frmula con la suma:

- 61 -

Departamento de Gentica, Universidad de Granada

De la misma manera seleccionamos y calculamos la suma del rango de plantas


normales:

Calculamos entonces las frecuencias observadas multiplicando los valores absolutos


de cada clase por 4 y dividindolos por el total de individuos. Podemos introducir la
frmula en una de las casillas y copiarla en la otra si en lugar de poner los valores
indicamos la celdilla de donde deban leerse:

Podemos crear otra columna con las proporciones esperadas 1:3, y otra ms donde
calcularemos la frecuencia absoluta esperada de cada clase de la siguiente forma:

Calcularemos ahora los componentes de la chi2 aplicando la frmula:

(Obs Esp ) 2
Esp

- 62 -

Departamento de Gentica, Universidad de Granada

Pulsando para cada dato en la celdilla donde debe leerse, o escribiendo la posicin de
las celdillas directamente en la frmula:

Despus calcularemos la suma de los componentes de la 2:

Compararemos el valor obtenido, en este caso 0.096:

con la distribucin de 2 considerando un grado de libertad, ya que tenemos


nicamente dos clases:

El valor de 2 obtenido se encuentra entre 0.06 < 0.096 < 0.15 que se corresponden
con unas probabilidades de 0.80 > P > 0.70. Por tanto la probabilidad de equivocarnos
si rechazamos la hiptesis planteada de que los datos siguen unas proporciones 1:3
es muy superior al mximo permitido de 0.05, por lo que no podemos rechazar esa
suposicin.
Como vemos, un carcter cuantitativo como la altura puede, en ciertas ocasiones ser
analizado como cuantitativo cuando se pueden distinguir clases fenotpicas concretas.
Si nuestro diseo del carcter es correcto la clase de plantas enanas debe
corresponder a plantas homocigticas e2e2, aunque tengan distintas combinaciones de
alelos en los dems genes, si las cruzamos entre s deberemos obtener una poblacin
que constara nicamente de plantas enanas.
Para comprobarlo, realizaremos un cruce eligiendo como parentales varias de las
plantas que tengas valores fenotpicos en torno a 100. En GenWeb, nos aseguraremos
que tenemos visibles las generaciones, si no es as pulsaremos el botn Ver
generaciones, y que tenamos abierta la generacin 1 que hemos creado inicialmente,
si no es as pulsaremos sobre el botn Abrir correspondiente a sta generacin.
Asimismo pulsaremos el botn Ver parentales dentro del recuadro crear un cruce
para poder ver la tabla de parentales que vayamos seleccionado. La pgina deber
tener entonces un aspecto como el siguiente:

- 63 -

Departamento de Gentica, Universidad de Granada

A continuacin iremos eligiendo individuos con valores fenotpicos alrededor de 100 de


la lista de individuos de la generacin 1, pulsando el botn correspondiente de la
columna Selec. para irlos seleccionando. Debern de ir apareciendo en la tabla de
parentales:

Una vez seleccionados unos cuantos individuos ponemos el tamao de la poblacin


que queremos generar (500 en el ejemplo) y pulsamos el botn Crear nueva
generacin. La nueva generacin deber entonces aparecer en la tabla de
generaciones:

Podremos entonces abrir la generacin 2, y observar los valores fenotpicos que tienen
los individuos. Vemos que todos tienen valores inferiores a 200, por lo que elegiremos
ste como valor mximo a la hora de representar el histograma de frecuencias.

- 64 -

Departamento de Gentica, Universidad de Granada

Bajaremos hasta la parte inferior de la lista de individuos, y descargaremos el archivo


con los datos generados.
Ya conocemos los pasos que hay que seguir para importar estos datos como texto
configurable en gnumeric, y generar un histograma de frecuencias en el que
elegiremos, en la pestaa Cutoffs, un total de 20 clases con un rango ente 0 y 200.
El gafico que obtenemos nos muestra que efectivamente tenemos una nica
distribucin continua de tipo gaussiano, con una media en torno a 100, como
corresponde a una poblacin formada nicamente por plantas enanas.

- 65 -

Departamento de Gentica, Universidad de Granada

- 66 -

Departamento de Gentica, Universidad de Granada

APLICACIN DE LA PCR AL
DIAGNSTICO GENTICO:
DETECCIN DE PARSITOS QUE
INFECTAN A MOLUSCOS

- 67 -

Departamento de Gentica, Universidad de Granada

- 68 -

Departamento de Gentica, Universidad de Granada

APLICACIN DE LA PCR AL DIAGNSTICO


GENTICO: DETECCIN DE PARSITOS QUE
INFECTAN A MOLUSCOS
1. OBJETIVO
En esta prctica se pretende comprobar la eficacia de la PCR en el diagnstico
gentico de enfermedades e infecciones parasitarias en moluscos bivalvos. Se utiliza
la especificidad de los primers para amplificar una regin concreta del genoma del
parsito cuando se encuentra presente en una muestra.

2. FUNDAMENTO TERICO
La PCR es una tcnica que permite la amplificacin (multiplicacin) especfica de ADN
in vitro. Para llevarla a cabo se necesita un ADN molde, un par de cebadores o primers
que marcan los puntos del inicio de sntesis de la cadena 3 y 5 del ADN a amplificar,
una cantidad suficiente de desoxiribonucletidos tri-fosfato (dATP, dTTP, dCTP y
dGTP), una ADN polimerasa, su tampn, y las condiciones para una eficiente
reaccin. La reaccin es cclica y, tras una etapa inicial de desnaturalizacin del ADN
molde (de 2 a 5 minutos), consta generalmente de unos 25 a 35 ciclos. Cada uno de
los ciclos est compuesto por una etapa de desnaturalizacin (unos 30-60
segundos), una de alineamiento de los cebadores al ADN molde (unos 30-60
segundos), y una de extensin (o polimerizacin, cuyo tiempo depende del tamao
del ADN a amplificar y de la polimerasa usada, y,por lo general, una aproximacin es
de un minuto por kilobase de ADN a amplificar). Tras los ciclos de desnaturalizacin,
alineamiento y extensin, la reaccin termina con una etapa de extensin final que
suele ser de cinco minutos.
Aunque la PCR puede detectar desde una nica molcula de ADN, para su buen
funcionamiento el ADN molde debe ser de buena calidad (no degradado) y libre de
inhibidores de actividad enzimtica. Por su parte, la regin de ADN a amplificar
(amplicn) debe tener un tamao no superior a las 3 4 kilobases y, preferiblemente,
sin estructuras secundarias (stas bloquean la progresin de la ADN polimerasa
durante la sntesis). Por su parte, los cebadores son la cadena inversa y
complementaria a la secuencia de inicio de sntesis de cada una de las dos hebras del
ADN a amplificar. Deben ser especficos, de forma que se alineen exclusivamente con
la regin complementaria en el fragmento de ADN que se desea amplificar y no se
unan a ninguna otra secuencia de ADN cercana. Suelen ser de un tamao entre 15 y
35 nucletidos (cuantos ms nucletidos, ms especificidad). Los cebadores deben
tener una composicin equilibrada de CGs (bases Citosina y Guanina) y ATs (bases
Adenina y Timina) y, sobre todo, no deben tener estructuras secundarias ni
complementariedad interna o con el otro cebador (de lo contrario se plegaran sobre s
o se alinearan entre s formando dmeros).
La desnaturalizacin del ADN se consigue mediante su incubacin a 94C.
Posteriormente, el alineamiento de los cebadores se consigue bajando la temperatura
hasta un nivel (Tm= Temperature of melting) que permite a stos unirse
especficamente a su secuencia inversa y complementaria. Dicha temperatura (Tm)
debe ser aproximadamente similar para los dos cebadores (no ms de 5C de

- 69 -

Departamento de Gentica, Universidad de Granada

diferencia) y depende tanto de la composicin como del tamao del cebador. Hay una
variedad de algoritmos que permiten calcular la Tm; una formula bsica para estimarla
es: 4 x GC + 2 x AT, donde GC es el numero de Gs y Cs en el cebador y AT el de As y
Ts. Dichos algoritmos tambin permiten chequear el potencial de formacin de
estructuras secundarias o de complementariedad tanto interna como entre cebadores.
En principio cualquier ADN polimerasa puede servir para sintetizar ADN in vitro. Sin
embargo, la PCR requiere altas temperaturas para la desnaturalizacin del ADN molde
(94C) y para el alineamiento de los cebadores (40-65C o ms dependiendo de los
cebadores). Por eso, la PCR requiere ADN polimerasas termoestables, las cuales se
consiguen a partir de microorganismos que viven en lugares con altas temperaturas y
cuyas polimerasas estn adaptadas a esta situacin. La ADN polimerasa comnmente
utilizada para PCR es la polimerasa Taq, obtenida a partir de la bacteria termfila
Thermus aquaticus, la cual tiene una temperatura ptima de polimerizacin del ADN
de 72C, temperatura similar a la de donde vive este microorganismo. La fase de
extensin con la Taq polimerasa se hace, por tanto, a 72C (otras ADN polimerasas
tendrn otras temperaturas optimas de sntesis de ADN).
Como cualquier reaccin bioqumica, la PCR necesita una solucin tampn que es una
mezcla de sales y reactivos (entre los cuales destaca el cloruro de magnesio). Las
repeticiones cclicas de diferentes temperaturas a lo largo de la reaccin de PCR se
consiguen mediante el uso de termocicladores. Estos son aparatos capaces de
conseguir temperaturas precisas, mantenerlas durante un tiempo determinado y
cambiar entre temperaturas de forma homognea y rpida.
As, la PCR consiste en la desnaturalizacin que abre la doble cadena del ADN molde,
el alineamiento que permite el anclaje de los cebadores a sus correspondientes
secuencias inversas y complementarias, y la extensin que permite la sntesis de ADN
partiendo desde el ltimo nucletido 3 del cebador anclado a su correspondiente
hebra de ADN molde. Un ciclo resulta en la duplicacin del nmero de molculas
correspondientes al ADN a amplificar, tras el segundo ciclo habr cuatro veces ese
nmero, tras el tercer ciclo habr ocho veces ese nmero de molculas, etcAl final
habr una cantidad terica de 2n x C molculas de ADN amplificado donde n es el
numero de ciclos de PCR y C la cantidad de molculas molde iniciales. Se recomienda
no superar los 35 ciclos de PCR ya que, por un lado, la ADN polimerasa tiene una tasa
de error de sntesis (cerca de uno por cada milln de nucletidos incorporados) y, por
otro lado, el agotamiento diferencial de productos en la reaccin puede resultar en ms
errores (por ejemplo si se agotan los dATPs, puede que la Taq inserte un dTTP en una
posicin correspondiente a un dATP).
Una vez finalizada la reaccin de PCR se visualizan los productos de la reaccin
mediante la tcnica de electroforesis en gel agarosa. Al cargar el producto de la PCR
en el gel agarosa y someter este ltimo en un campo elctrico directo, se aprovecha la
carga elctrica negativa del ADN para hacerlo migrar diferencialmente desde el polo
negativo al polo positivo del campo elctrico directo (de polos positivo y negativo
estables). La porosidad del gel de agarosa har que, a medida que migren desde el
polo negativo hacia el polo positivo, las molculas de ADN se separen en base a su
tamao de forma que las molculas ms cortas migren ms rpido (y por
consiguienteavancen ms en el gel). Para tener una referencia, se separan tambin
las molculas de ADN de una mezcla de fragmentos de tamaos conocidos y
cantidades relativas (marcadores de peso molecular). La separacin simultanea, pero
por separado (en diferentes pocillos), de los productos de la PCR y del marcador de
peso molecular en el mismo gel permite al investigador determinar los tamaos
moleculares de los productos de la PCR que deben coincidir con los esperados.

- 70 -

Departamento de Gentica, Universidad de Granada

La presencia de Perkinsus spp. es conocida prcticamente en todas las aguas clidas


del mundo y ha sido histricamente asociada a mortalidades masivas de moluscos
bivalvos. La presencia de Perkinsus olseni en las almejas del litoral europeo se conoce
desde 1987. Este parsito se ha detectado por ejemplo en la almeja fina (Ruditapes
decussatus), en la almeja japonesa (R. philippinarum), en la madrealmeja (Venerupis
pullastra), en el pirulo (V. aurea) y en la almeja rubia (V. rhomboides). Perkinsus olseni
puede considerarse en la actualidad el principal problema patolgico para el desarrollo
del cultivo de almejas en el litoral europeo. Hasta ahora, su diagnstico precisaba de
tcnicas que requeran de tres a cinco das, y cuyo desarrollo y eficacia oscilaba entre
el 60-90%. La puesta en marcha de nuevas tcnicas ms sensibles y rpidas
constituye un avance muy importante en el control, ordenacin y proteccin de las
poblaciones y cultivos de moluscos bivalvos. Desde su implantacin, la aplicacin de
la tcnica de amplificacin de ADN mediante la reaccin en cadena de la polimerasa
(PCR) ha revolucionado el diagnstico de enfermedades infecciosas en Acuicultura. La
sensibilidad y la rapidez son las cualidades ms notables de estas tcnicas.
En esta prctica se pretende determinar la presencia de parsitos en distintas
muestras de moluscos bivalvos mediante la amplificacin por PCR de un fragmento de
ADN cuya secuencia es especfica del parsito. Se trata de un fragmento del
espaciador intergnico de los genes ribosmicos (Figura 1). Los genes que codifican
para tres de los cuatro ARNs que forman parte del ribosoma (ARN ribosmicos 18S,
5.8S y 28S) se disponen formando una unidad de transcripcin compuesta por la
secuencia ETS (espaciador externo que se transcribe por delante del gen 18S), el gen
18S, ITS-1 (espaciador interno entre el gen 18S y el 5.8S), el gen 5.8S, ITS-2
(espaciador interno entre el gen 5.8S y el 28S), 28S y otro ETS (espaciador externo
que se transcribe por detrs del gen 28S). En un locus ribosmico, varios cientos de
estas unidades de transcripcin se repiten en tndem separados por una secuencia
NTS (espaciador no transcrito). Juntos, el NTS y los ETSs constituyen el llamado IGS
(espaciador intergnico). Los genes ribosmicos se caracterizan por su elevado grado
de conservacin. No es el caso de los espaciadores entre estos genes, que al no
codificar ningn producto gnico, no estn sujetos a presin selectiva, y por tanto, su
secuencia es muy variable entre especies. Esto hace que el fragmento de ADN que
nosotros vamos a amplificar (un fragmento de 554 pb del NTS de P. olseni) tenga una
secuencia especfica del parsito.

Figura 1. Organizacin de los genes ribosmicos en los genomas eucariticos. Las flechas indican el
lugar de anclaje de los cebadores especficos.

- 71 -

Departamento de Gentica, Universidad de Granada

3. METODOLOGA
Reaccin de Amplificacin (PCR)
En un microtubo de 200l aadir, siguiendo el orden indicado, los siguientes reactivos
para un volumen final de 25l:

Agua estril
10% Tampn de PCR 10x
2mM de cada dNTPs
Primer PkI (0.2 M)
Primer PkII (0.2 M)
ADN de almeja
Taq polimerasa (2U)

16 l
2.5 l
1 l
2 l
2 l
1 l
0,5 l

A continuacin se colocan los microtubos en el termociclador y se programa para 35


ciclos segn el programa:
Desnaturalizacin:
Alineamiento:
Extensin:

94C
58C
72C

30 seg.
30 seg.
30 seg.

Se analizarn muestras de ADN procedentes de distintas almejas para determinar si


estn infectadas o no por el parsito. Una vez terminada la PCR, se sometern las
muestras a una electroforesis en gel de agarosa y se proceder al diagnstico de los
individuos.

Preparacin del gel de agarosa


En un matraz de 250 ml de capacidad, aadir 40 ml de tampn TAE (0.04 M Trisacetato, 0.001 M EDTA) y 0,4 g de agarosa.
Calentar utilizando el microondas hasta que se funda la agarosa.
Dejar enfriar hasta aproximadamente 50C y aadir 4 l de solucin decolorante para
ADN SYBR Safe (10.000x).
Mientras se enfra la agarosa, sellar con cinta adhesiva el molde en el que se
preparar el gel. Colocar el molde en una superficie horizontal y situar el peine que
labrar los pocillos a unos centmetros del borde.
Una vez se ha enfriado la agarosa, se aade la solucin al molde con cuidado de
retirar las burbujas que se formen. Dejar gelificar la agarosa hasta que adquiera una
apariencia translcida.
Retirar el peine y la cinta adhesiva. Colocar el gel en la cubeta de electroforesis y
cubrirlo con tampn de electroforesis (TAE 1x o TBE 0.5x).

- 72 -

Departamento de Gentica, Universidad de Granada

Electroforesis
Con cuidado de no romper los pocillos, cargar en el gel las diferentes muestras
correspondientes a cada una de las reacciones de amplificacin. Para ello, aadir 5 l
de tampn de carga a los tubos en los que se desarroll la PCR y, una vez mezclado
con el ADN, con la ayuda de una micropipeta, cargar la mezcla en un pocillo del gel
(una muestra por pocillo). Cargar en otro pocillo 4 l de la mezcla ya preparada de
marcador de peso molecular, que nos servir de referencia para determinar el tamao
de los fragmentos que queremos caracterizar.
Conectar la fuente de alimentacin al gel durante 30 minutos a 50 volts/cm.
Analizar los resultados mediante la observacin en un transiluminador.

Diagnstico de los individuos


En aquellos individuos donde observemos una amplificacin correspondiente a 554 pb
estar presente el parsito, y por tanto, los podremos diagnosticar como positivos para
esta enfermedad.
Se espera un resultado como el de la figura:

Figura 2. Se muestra el resultado del test de diagnstico para Perkinsus. Se muestra un gel de
electroforesis en el que se cargaron diferentes muestras con el contenido de la reaccin de amplificacin:
A y J. Marcadores de ADN para determinacin del tamao del fragmento amplificado. B. Amplificacin de
producto a partir de una muestra utilizada como control positivo (ADN de Perkinsus). C. Amplificacin de
producto a partir de una muestra utilizada como control positivo (ADN clonado a partir del que se
disearon los oligonucletidos). D-E. Ausencia de amplificacin del producto en muestras de tejidos de
almejas procedentes de cultivos no infectados. F-H. Amplificacin del producto en muestras de tejidos de
almejas procedentes de cultivos infectados. I. Ausencia de amplificacin del producto en muestras
carentes de material biolgico (prueba de control negativo). En esta Figura, la flecha seala los
fragmentos amplificados de ADN (550 pb). Se demuestra la eficacia del mtodo de diagnstico para
Perkinsus olseni en cultivos de almejas dado que los oligonucletidos de que disponemos detectan la
presencia del parsito en almejas infectadas y no ocasiona problemas de falsos positivos puesto cultivos
no infectados no mostraron amplificacin. Adems, se demuestra la gran sensibilidad del mtodo, puesto
que detecta la presencia del parsito en cultivos aun cuando el nivel de infeccin es mnimo. As, en los
productos de amplificacin que se observan en las calles F a H del gel, se puede observar una gradacin
de menor a mayor en cuanto a la cantidad de producto amplificado, gradacin que se corresponde con los
niveles de infeccin de cada uno de los tres cultivos de donde procedan las tres muestras.

- 73 -

Departamento de Gentica, Universidad de Granada

4. CUESTIONES
1.- Qu criterios se debe seguir a la hora de disear cebadores para este tipo de
anlisis?
2.- Qu haras si observa amplificacin en muestras que claramente sabemos que no
estn infectadas?
3.- Qu es lo que hace de la PCR una tcnica idnea para diagnstico?
4.- Podramos descartar completamente una infeccin si para una muestra
observamos ausencia de amplificacin tras la PCR?

- 74 -

Departamento de Gentica, Universidad de Granada

CLONACIN DE UN
PRODUCTO DE PCR

- 75 -

Departamento de Gentica, Universidad de Granada

- 76 -

Departamento de Gentica, Universidad de Granada

CLONACIN DE UN PRODUCTO DE PCR


1. OBJETIVO
Esta prctica tiene como objetivo conocer el procedimiento para clonar un fragmento
de ADN. Para ello, construiremos una molcula de ADN recombinante que, en nuestro
caso, estar formada por un vector de clonacin y un fragmento de ADN del parsito
Perkinsus olseni. Utilizaremos como vector de clonacin un plsmido que presenta
una serie de caractersticas especialmente favorables: 1) se facilita la insercin de un
fragmento de ADN, 2) se replica de forma autnoma en clulas procariotas (E. coli) y
3) permite distinguir entre las colonias que han incorporado plsmidos recombinantes
y las que incorporaron plsmidos sin inserto. De esta forma, se pretende dar a conocer
una tcnica de gran utilidad y de uso rutinario en los laboratorios de Gentica
Molecular.

2. INTRODUCCIN
En Biologa Molecular, el trmino clonacin hace referencia a una tcnica mediante la
cual se logra introducir un fragmento de ADN de inters en un vector, siendo esta
"construccin gentica" introducida posteriormente en clulas bacterianas, de forma
que logre mantenerse y multiplicarse (replicarse) dentro de las mismas.
Por lo tanto, los componentes principales de un experimento de clonacin son: a) el
fragmento de ADN a clonar, que se denomina inserto una vez integrado en el vector,
b) el vector de clonacin, donde el inserto es introducido permitiendo as su
incorporacin dentro de la clula, y c) las bacterias donde es introducida la
construccin formada por inserto ms vector (plsmido recombinante), permitiendo
obtener muchas copias del mismo. Este tipo de experimentos se engloban dentro de lo
que se conoce hoy da como tecnologa del ADN recombinante, dado que se
construyen molculas de ADN compuestas por fragmentos de diferentes orgenes.
El inserto puede ser cualquier fragmento de ADN, sea cual fuere su origen. No
obstante, el tamao mximo a insertar est limitado por la capacidad del vector usado.
En el caso de los plsmidos ms comunes el tamao del inserto no suele superar las
10 kilobases (Kb), y un inserto de mayor tamao suele generar una construccin
recombinante cuyo tamao obstaculiza su eficiente penetracin en las clulas
bacterianas. Cuando necesitemos clonar fragmentos de ADN de mayor tamao se
puede recurrir a otros vectores, como el fago lambda, en el que podemos clonar
fragmentos de unos 15 Kb, los csmidos, que pueden aceptar hasta 40 Kb, los BACs
(Bacterial Artificial Chromosome), que pueden aceptar hasta 200 Kb, los YACs (Yeast
Artificial Chromosome), que pueden aceptar hasta 2 Mb y los MACs, que permiten
clonar fragmentos de varias Mb.
Para obtener el inserto de inters hay que recurrir a una fuente de ADN que lo incluya,
por ejemplo, el genoma de un animal o de una planta. Despus hay que seleccionar
una tcnica que nos permita aislar el fragmento de inters, como, por ejemplo,
mediante digestin del ADN genmico con enzimas de restriccin (vase el protocolo
ms abajo), o bien mediante amplificacin del inserto mediante PCR (vase el guin y
prctica correspondientes a esta tcnica). En ambos casos obtendremos un fragmento
de ADN de tamao conocido, por lo que realizaremos una electroforesis en gel de
agarosa, identificaremos el fragmento adecuado y el ADN ser recuperado mediante
una tcnica de purificacin de ADN a partir de geles de agarosa.

- 77 -

Departamento de Gentica, Universidad de Granada

En esta prctica usaremos un plsmido como vector de clonacin. Un plsmido es una


molcula de ADN bacteriano circular que, no siendo imprescindible para la
supervivencia y multiplicacin de la bacteria, puede coexistir y replicarse en el
protoplasma celular como molcula extra-cromosmica y transmitirse a las clulas
hijas. Por lo tanto, para que un plsmido pueda ser usado como vector de clonacin,
tiene que ser capaz de mantenerse y replicarse dentro de la clula. Esto es posible
porque el plsmido contiene una secuencia denominada origen de replicacin,
especfica de cada especie bacteriana, donde se une la ADN polimerasa y comienza la
replicacin del plsmido. En cuanto al nmero de copias existentes en el interior de
una bacteria, los plsmidos se pueden clasificar en dos categoras: 1) relajados, si
existen mltiples copias, y 2) restringidos, si hay una nica o muy pocas copias por
clula. Los plsmidos relajados suelen ser ms ventajosos ya que permite una
multiplicacin eficiente del plsmido y, por consiguiente, del inserto.
Para facilitar la integracin del inserto, los plsmidos poseen una regin que contiene
varias secuencias diana especficas de diversos enzimas de restriccin (sitio de
clonacin mltiple o polylinker). En esta regin se pueden insertar fragmentos de ADN
obtenidos por digestin con enzimas de restriccin cuyas dianas se encuentran en
este sitio de clonacin mltiple. Para clonar insertos amplificados mediante PCR, se
suelen usar vectores abiertos (no circulares) cuyos extremos 3 terminan con un
nucletido de timina protuberante (que no tiene nucletido complementario en la otra
hebra). Estos plsmidos aprovechan el hecho de que la Taq polimerasa (la enzima
que permite la amplificacin de ADN mediante PCR) aade un nucletido de adenina a
cada extremo 3 del ADN amplificado. Las adeninas en los extremos del fragmento
amplificado se pueden emparejar con las timinas de los extremos del plsmido, hecho
que facilita la insercin del amplicn (se denomina as al producto de la PCR) en el
plsmido.
Durante la introduccin de los plsmidos en el interior de las bacteria (proceso
conocido como transformacin) slo una proporcin de las mismas incorporarn el
plsmido (la eficiencia de transformacin nunca es del 100%). Los plsmidos
comnmente usados para este fin, contienen adems uno o varios genes de
resistencia a antibiticos, lo que permite seleccionar las clulas transformadas (que
han incorporado el plsmido). Para ello, tras el proceso de transformacin, se cultivan
todas la bacterias en un medio que contiene el antibitico ante el cual el plsmido
confiere resistencia y, como consecuencia, slo aquellas que hayan incorporado el
plsmido sobrevivirn. Adems, el plsmido puede contener algn sitsema que le
permita discriminar entre las clulas que llevan el vector con el inserto y las que llevan
el vector recircularizado (sin inserto). Un sistema muy usado es el que utiliza la
secuencia del gen de la -galactosidasa (gen lacZ, del opern lac de E. coli)
interrumpido por la regin de clonacin mltiple (polylinker). Para que tenga lugar la
expresin del gen de la -galactosidasa, es necesaria la presencia de IPTG, molcula
que acta como un inductor continuo del gen. La protena -galactosidasa, en
presencia de uno de sus sustratos, X-gal (5-Bromo-4-Cloro-3-Indol--D-galactsido),
produce un precipitado azul, ya que X-gal es hidrolizado por el enzima, dando lugar a
galactosa y 5-bromo-4-cloro-3-hidroxindol, que es oxidado originando 5,5'-dibromo4,4'-dicloro-ndigo, un compuesto azul insoluble. As, si cultivamos en medio slido
bacterias transformadas con un plsmido que contenga el sistema de la galactosidasa en presencia de IPTG y X-gal, las bacterias que hayan incorporado
plsmidos recombinantes (con inserto en el sitio de clonacin mltiple) tendrn inactivo
el gen de la -galactosidasa, y no se formar el precipitado azul (darn lugar a
colonias blancas), mientras aquellas que se hayan transformado con plsmidos sin
inserto podrn producir el enzima, por poseer intacto su gen, y originarn colonias de
color azul (Figura 1).

- 78 -

Departamento de Gentica, Universidad de Granada

Figura 1: Resultado de un experimento de clonacin

Existen otras estrategias similares que se pueden usar con el mismo propsito. Por
ejemplo, usando plsmidos que contienen la secuencia de un gen letal interrumpida
por el sitio de clonacin mltiple. En este caso, la inclusin del inserto en el sitio de
clonacin mltiple interrumpir al gen letal, siendo las bacterias transformadas con
plsmidos con inserto las nicas que sobrevivan. Hoy da, para usos convencionales,
el investigador no tiene la necesidad de construir sus propios vectores, ya que existe
una amplia variedad de vectores diseados y producidos por empresas de
Biotecnologa para todo tipo de usos en clonacin (uno de los ms destacado es el
vector TOPO).
La especie y cepa bacteriana usada durante el proceso de clonacin tambin debe
tener una serie de caractersticas especiales. No debe ser patgena (obviamente para
evitar riesgos al personal investigador y a la poblacin en general) y debe ser fcil de
cultivar (se utilizan cepas no patgenas de Escherichia coli). Es preferible que tenga
una reproduccin (multiplicacin) eficiente y que est modificada de forma que se evite
la recombinacin entre el plsmido (vector) y su propio cromosoma (de lo contrario, se
corre el riesgo de perder el inserto). De forma natural, una bacteria puede adquirir un
estado fisiolgico que la capacita (permeabiliza) para sufrir un proceso de
transformacin. En esta situacin se dice que la bacteria es competente. Sin
embargo, esta competencia natural ocurre con una frecuencia muy baja y no es til
con fines de clonacin. Por ello, en el laboratorio se recurre a inducir artificialmente
este estado con diversos mtodos, proceso que se denomina "competencia artificial".
Dicha permeabilizacin se puede inducir por mtodos qumicos. Para ello, las clulas
se enfran en presencia de cationes divalentes como Ca2+ (en forma de CaCl2), lo que
prepara las membranas celulares para ser permeables al ADN plasmdico. Despus,
las clulas son incubadas en hielo con el ADN y luego se someten brevemente un
choque trmico (por ejemplo, 42C por 30-120 segundos), lo que facilita que el ADN
entre en la clula. La permeabilizacin tambin puede conseguirse usando elementos
fsicos, como la corriente elctrica. En este caso, las clulas bacterianas se someten a
una corriente elctrica de alto voltaje (alrededor de 2000V para el caso de las
bacterias) y corta duracin (varios s). Como en el caso de los vectores, existe una
gran variedad de cepas de bacterias "competentes" proporcionadas por empresas
biotecnolgicas para todo tipo de usos en clonacin (entre estas destaca la cepa de E.
coli DH5).
Entre los mltiples usos de la clonacin, podemos citar la multiplicacin de las copias
de un fragmento, ya que, al replicarse el plsmido recombinante dentro de la clula y
al multiplicarse esta ltima, se consiguen muchas molculas de ADN. La clonacin
tambin permite la discriminacin entre diferentes secuencias o variantes de un ADN

- 79 -

Departamento de Gentica, Universidad de Granada

amplificado. Por lo general, cada bacteria transformada adquiere un slo plsmido


recombinante. Al ser cultivadas en medio slido, cada bacteria originar una colonia
de bacterias idnticas a la original y, por lo tanto, con el mismo inserto. La
secuenciacin de los insertos procedentes de diferentes colonias nos permitir tener
una idea sobre la variabilidad de las secuencias de ADN originales. Otra utilidad de la
clonacin es la generacin de una genoteca o librera genmica, que consiste en un
conjunto de clones bacterianos cada uno de los cuales porta un fragmento de ADN del
genoma de la especie objeto de estudio. Cada fragmento est incluido en un clon, y
entre todos los clones, componen el genoma entero. Las genotecas tambin pueden
contener fragmentos de ADNc (ADN complementario o copia), obtenidos por retrotranscripcin de ARNm. En este caso el nmero de clones es menor ya que slo
estarn representados los genes que se expresaban en el tejido que se us para
extraer el ARNm. Igualmente los insertos sern, en general, de menor tamao ya que
los genes clonados no contendrn intrones.
La clonacin tambin puede permitir que un gen se exprese dentro de una clula
bacteriana. Para ello es necesario clonar el fragmento en fase con la pauta de lectura
abierta del gen (normalmente el ADNc obtenido a partir del ARN mensajero) en un
vector de expresin. El vector de expresin tiene un promotor especial que permite la
induccin controlada de la transcripcin de la secuencia insertada. Como resultado, las
bacterias pueden sintetizar la protena codificada por el inserto, permitiendo la
produccin de enzimas y otras protenas de inters cientfico, farmacolgico o
comercial.
En esta prctica, vamos a clonar fragmentos de ADN que previamente hemos
amplificado por PCR. Dichos fragmentos contienen una regin del ADN espaciador
NTS del ADN ribosmico (ADNr) del parsito Perkinsus olseni. Como vector de
clonacin vamos a utilizar el plsmido TOPO-TA, un vector que presenta las
caractersticas descritas anteriormente.

3. METODOLOGA
Para llevar a cabo la clonacin, vamos a seguir los siguientes pasos:

Obtencin del fragmento a clonar y del vector de clonacin


El ADN a clonar ser el producto obtenido en la prctica de PCR (vase el guin y
prctica correspondientes a esta tcnica). El vector de clonacin corresponde al
plsmido comercial TOPO-TA (Invitrogene). En una reaccin de PCR, la Taqpolimerasa tiene una actividad transferasa-terminal, no dependiente del ADN molde,
que aade un nucletido de adenina en los extremos 3 de los productos amplificados.
El vector TOPO-TA se encuentra en forma lineal y presenta en sus extremos 3 un
nucletido de timina. Esto permite una eficiencia mucho mayor de la unin entre el
fragmento amplificado y el vector (Figura 2).
Ligado
Se trata, en este caso, de ligar los fragmentos de ADN obtenidos por PCR con el
vector TOPO-TA. En este proceso interviene una enzima llamada topoisomerasa I,
que se encuentra unida covalentemente (mediante su residuo Tyr-274) a los extremos
del vector. En presencia de un fragmento de ADN amplificado por PCR, el enlace
fosfo-tirosina existente entre el vector y la enzima se rompe por el grupo 5-hidroxilo del
inserto y por tanto, se produce la liberacin de la topoisomerasa I. Esto tiene como

- 80 -

Departamento de Gentica, Universidad de Granada

consecuencia que se produzca la unin entre las cadenas de ADN correspondientes al


vector y al inserto (Figura 2). Para llevar a cabo esta reaccin, se realizan los
siguientes pasos:
1. En un microtubo Eppendorf aadir:

4 l del producto de PCR (100-200 ng)


1 l del vector TOPO TA
1 l de tampn

2. Incubar durante 30 minutos a temperatura ambiente.

Figura 2: Ligado de un amplificado de PCR al vector de clonacin TOPO-TA

Transformacin
Como se indic en la introduccin, transformacin es el proceso mediante el cual los
plsmidos se introducen en clulas bacterianas. Para ello utilizaremos bacterias
competentes de la cepa DH5-. de E. coli. Se proceder de la siguiente forma:

Depositar en hielo un tubo Eppendorf durante unos minutos conteniendo 40


l de bacterias competentes.

Aadir 6 l de la solucin de ligacin.

Dejar 20 minutos en hielo.

Choque trmico introduciendo el tubo Eppendorf con la mezcla en un bao


a 42C durante 30 segundos.

Inmediatamente, pasar el microtubo a hielo, durante 2 minutos.

Aadir 250 l de medio de cultivo LB lquido.

Incubar durante 30-40 minutos a 37C con agitacin.

- 81 -

Departamento de Gentica, Universidad de Granada

Sembrar 50 l del cultivo lquido en placas de medio LB slido con


Ampicilina, X-gal e IPTG.

Incubar las placas en posicin invertida durante toda la noche en una estufa
a 37C.

Observacin de los resultados


Tras un periodo de incubacin de entre 16 y 24 horas, observaremos la placa
resultante en la cual podremos encontrar colonias de color blanco (con el plsmido
recombinante).

4. CUESTIONES
1.- Qu son clulas competentes? Qu caractersticas tienen?
2.- En el proceso de clonacin, en qu paso se introduce el plsmido recombinante
en la bacteria?
3.- Servira el vector TOPO-TA para clonar un fragmento de ADN cortado por
enzimas de restriccin? Y uno amplificado por una ADN polimerasa de alta fidelidad?
4.- Cules son las tres posibles causas para la ausencia de colonias blancas en la
placa?
5.- Cules son las cuatro posibles causas para la ausencia de colonias en la placa
tras una adecuada incubacin a 37C?
6.- Puede una colonia proveniente de una clula portadora del vector ms inserto ser
azul? Y una portadora del vector sin inserto podra ser blanca?
7.- Puede uno confiar nicamente en el color de las colonias para afirmar con certeza
la presencia del inserto?
8.- Una vez escogida una colonia blanca y extrado el vector mediante
minipreparacin plasmdica, qu es lo que hay que hacer primero? Se podra
conseguir el mismo objetivo sin la extraccin del plsmido? Cmo?

- 82 -

Departamento de Gentica, Universidad de Granada

BASES DE DATOS DE
SECUENCIAS DE ADN y
PROTENAS

- 83 -

Departamento de Gentica, Universidad de Granada

- 84 -

Departamento de Gentica, Universidad de Granada

BASES DE DATOS DE SECUENCIAS DE ADN y


PROTENAS
1. OBJETIVO
Con esta prctica se pretende introducir al alumno en el conocimiento y manejo de las
bases de datos de secuencias de ADN y protenas.

2. FUNDAMENTO TERICO
2.1. La informacin biolgica
Como todas las ciencias, la Biologa no cesa de generar cantidades cada vez ms
extensas de informacin. A diario, los bilogos estn constantemente haciendo
descubrimientos y produciendo datos (informacin) sobre aspectos relacionados con
los seres vivos. Esta informacin abarca desde caractersticas bsicas (por ejemplo, la
estructura molecular y configuracin tridimensional de una protena) hasta aspectos
ms complejos (por ejemplo, la taxonoma, relacin filogentica y ecologa de los
organismos).
Al mismo tiempo, para conocer el estado de un tema de investigacin, los bilogos
necesitan acceder continuamente a informacin y datos obtenidos previamente por
otros investigadores. Adems de la bibliografa, los genetistas, por ejemplo, necesitan
informacin sobre metodologas, tcnicas y reactivos utilizados habitualmente. Pero
tambin necesitan otro tipo de informacin sobre la especie objeto de su investigacin,
como pueden ser informacin sobre secuencias de genes (o ADN en general) o
protenas, sus variantes, su funcin, las interacciones de esos genes con otros, su
relacin con secuencias en otros organismos, lo que se sabe sobre su patrn de
expresin, efecto de silenciamiento (o mutacin), etc.
La informacin ya disponible sobre un tema en concreto es la base sobre la cual se
desarrollan nuevas ideas, y su conocimiento es lo que evita que se investigue
repetidamente sobre hechos sobradamente conocidos. Se podra decir que el avance
en el conocimiento cientfico tiene un primer paso, muy importante y necesario, que es
la revisin de los trabajos de investigacin que han sido desarrollados hasta el
momento sobre el tema en cuestin.
2.1. Almacenamiento de la informacin biolgica
Buena parte de la informacin que se adquiere se olvida con facilidad a no ser que sea
almacenada de una o varias formas. Antiguamente, e incluso en ciertas civilizaciones
actuales, la conservacin de la informacin se lleva a cabo a travs de la denominada
memoria colectiva, de transmisin oral de padres a hijos. Esta forma tradicional de
transmisin de la informacin tiene como desventajas la limitacin en la cantidad de
informacin que puede almacenarse y el riesgo (casi inevitable) de la deformacin de
la informacin. Almacenar la informacin de forma escrita ofrece una capacidad de
almacenaje de la informacin prcticamente ilimitada y una fiabilidad absoluta. Antes
de la existencia de ordenadores, en ciencias, al igual que en otras disciplinas, la nica

- 85 -

Departamento de Gentica, Universidad de Granada

forma de dar a conocer, almacenar u obtener informacin de los experimentos ya


realizados era mediante su publicacin en revistas cientficas. La informacin ms
relevante publicada acababa formando parte de libros cientficos y de texto. En esas
condiciones, obtener bibliografa, conocer mtodos o informacin previa poda llegar a
ser un obstculo ya que uno deba tener acceso fsico a la revista o revistas que
contenan la informacin buscada. Este hecho implicaba que, adems de tener que
adquirir todos los libros que se pudiera, haba que suscribirse a revistas cientficas y
guardar todos los ejemplares de un modo que permitiera saber dnde estaba la
informacin y poder recuperarla cuando fuera necesario consultarla.
El desarrollo de los ordenadores personales, limitados al principio por su poca
capacidad de almacenaje, supuso un avance significativo ya que permita poder
guardar la informacin en formato digital. Pero todava haba que depender de material
fsico (disquetes) para conseguir la informacin digitalizada o para trasladarla entre
ordenadores. Sin embargo, al igual que se hizo ciencia antes del descubrimiento de la
electricidad e incluso de la mquina de escribir, hasta los aos ochenta, los
investigadores no podan contar con la poderosa herramienta que es internet. Desde
su aparicin, internet supuso un salto tanto cuantitativo como cualitativo para la
publicacin, almacenaje, bsqueda y obtencin de datos. Teniendo acceso a internet,
desde cualquier punto en el mundo, un investigador puede conseguir desde
bibliografa hasta datos sobre el gen o protena que le interesa, incluidas las
secuencias, sus variantes, secuencias homlogas, datos de expresin, de efecto, de
mutacin, de funcin, etc. Adems, prcticamente todas las revistas cientficas estn
actualmente disponibles online (muchas requieren suscripcin pero otras son de
acceso libre). Incluso muchos artculos publicados en fechas anteriores a la existencia
del ordenador estn ahora digitalizados. Internet, junto con la cada vez ms potente
capacidad de almacenaje de los discos duros de los ordenadores, ofrecieron la
posibilidad de centralizar las formas de almacenaje y organizacin de la informacin
en forma de bases de datos.
En gentica las bases de datos son hoy por hoy una herramienta vital para la
investigacin. Para la gentica actual, es imprescindible tener acceso a las secuencias
de ADN (incluidos genomas), ARN (incluidos transcriptomas) y protenas (incluidos
proteomas) que ya estn identificadas. A menudo se requiere tambin informacin
sobre vas y redes gnicas que ofrecen informacin sobre las interacciones gnicas.
Esta, junto a informacin sobre la expresin, funcin y evolucin del gen de inters
estn disponibles en bases de datos que son cada vez ms completas. No se exagera
si se dice que un genetista actual no puede desarrollar su actividad investigadora sin
acceso a las bases de datos.
En lo que se refiere al anlisis de secuencias de ADN o protenas, los investigadores
disponen actualmente de bases de datos donde se almacenan estas secuencias
adems de sus variantes, secuencias homlogas, y una gran cantidad de informacin
sobre su localizacin cromosmica, propiedades, expresin, funcin, relaciones
filogenticas, etc. Obviamente, la procedencia de estas secuencias es la ciencia
misma, ya que cada vez que un grupo de investigacin identifica una secuencia, o
genoma, las sube a la base de datos y, subir secuencias a las bases de datos es un
requisito para la publicacin en revistas cientficas de los hallazgos relacionados con
dicha secuencia.
En ocasiones, la enorme logstica requerida para construir y mantener una base de
datos depende de proyectos cientficos individuales (cuando se trata de bases de
datos orientadas hacia un organismo especfico) o de un esfuerzo gubernamental o
incluso intergubernamental (como es el caso de las bases de datos generales con ms

- 86 -

Departamento de Gentica, Universidad de Granada

uso). Ejemplos del primer caso incluyen las bases de datos sobre los organismos
modelo (Figura 1):
La mosca de la fruta, Drosophila melanogaster (http://flybase.org/)
El nematodo Caenorhabditis elegans (http://www.wormbase.org/)
La planta Arabidopsis thaliana (http://www.arabidopsis.org/).
Entre las bases de datos generales, las ms relevantes son (Figura 2):

The ADN DataBank of Japan (DDBJ, http://www.ddbj.nig.ac.jp/index-e.html)

The European Molecular Biology Laboratory (EMBL, http://www.embl.de/) y su


hermana" The European Nucleotide Archive (http://www.ebi.ac.uk/ena/)

GenBank, una base de datos del estadounidense The National Center for
Biotechnology Information (http://www.ncbi.nlm.nih.gov/genbank/). De ellas
surge el proyecto internacional The International Nucleotide Sequence
Database collaboration (http://www.insdc.org/).

Adems del personal investigador, las bases de datos tambin dependen de


algoritmos (programas informticos) que permiten la automatizacin del proceso de
obtencin, almacenaje, organizacin y eficiente presentacin y accesibilidad de su
contenido. Otros algoritmos, integrados en las bases de datos, permiten el anlisis de
las secuencias de inters y su comparacin con otras (ejemplos de estos son los
famosos programas de alineamiento y comparacin de secuencias Clustal y Blast).

Figura 1: Ejemplos de bases de datos de organismos especficos

- 87 -

Departamento de Gentica, Universidad de Granada

Figura 2: Bases de datos generales ms relevantes

2.3. Identificacin y formato de las secuencias de nucletidos y aminocidos en


las bases de datos
Para conseguir una secuencia desde una base de datos se puede recurrir a 4 tipos de
bsquedas. La secuencia se puede encontrar utilizando el nombre del gen y
organismo correspondiente (o bien con el nombre del gen y luego seleccionando el
organismo que nos interesa); la Figura 3 muestra el resultado de la bsqueda en el
directorio de genes de la base de datos NCBI de la secuencia de los genes del
colgeno en humanos. Sin embargo, las secuencias en las bases de datos estn
catalogadas y etiquetadas con un nmero de acceso y un identificador nicos, y unas
etiquetas informativas sobre su origen y otras ms caractersticas (vase formatos de
secuencias). Esto ofrece la posibilidad de conseguir directamente la secuencia
buscando por su nmero de acceso o identificador. En el caso del gen de colgeno
humano de tipo 3 alpha 1, la secuencia puede obtenerse buscando en el directorio de
genes de GenBank (la base de datos ms completa) por el nmero de acceso X15332,
o por el identificador COL3A1.
Dos formas ms indirectas de conseguir las secuencias son mediante bsqueda Blast
(http://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&PAGE_TYPE=BlastHome)
con
secuencias homlogas (secuencias del gen pertenecientes a organismos
filogenticamente cercanos), o bien mediante navegacin en el cromosoma
correspondiente utilizando navegadores genmicos como Genome Browser
(http://genome.ucsc.edu/cgi-bin/hgGateway) o Ensembl (http://www.ensembl.org) en el

- 88 -

Departamento de Gentica, Universidad de Granada

caso de que se conozca el genoma del organismo y la localizacin de la secuencia de


inters. En el caso del gen del colgeno habra que navegar alrededor de los
nucletidos 189833342 y 189883227 en la banda 32 del brazo largo del cromosoma 2
(chromosome: 2; Location: 2q32.2).

Figura 3: Bsqueda de secuencias de genes del colgeno humanos en NCBI

Una vez conseguida, la secuencia puede estar presentada en un formato u otro


dependiendo de la base de datos de la que se obtengan; aqu introduciremos los tres
formatos ms utilizados. Se trata de los formatos europeo EMBL, el estadounidense
GenBank (ambos incluyen informacin y varias etiquetas identificadoras de la
secuencia y de su procedencia) y el sencillo y universal fasta que puede no incluir
ms que un encabezamiento con el nombre de la secuencia.
Como hemos mencionado antes, el formato fasta es el ms sencillo ya que incluye
solo una parte comentario, o ttulo; cuyo inicio est sealado por el smbolo >, y que
suele ser el nombre de la secuencia, su procedencia, numero de acceso a la base de
datos, seguido por un salto de lnea y la secuencia de nucletidos o aminocidos que
suele estar presentada en lneas de 80 o 120 residuos, aunque, aparte del primer salto
de lnea entre el titulo y la secuencia, el formato ignora espacios y acepta secuencias
en forma de residuos continuos sin espacio o salto de lnea. El fin de la secuencia es
simplemente el ltimo carcter (residuo) de la misma (vase el ejemplo que sigue). Al
ser tan sencillo, el formato fasta es el formato base requerido por la gran mayora de
programas y algoritmos de anlisis de secuencias y, por lo tanto, el ms usado por los
investigadores a la hora de manejar secuencias (alinearlas, hacer arboles
filogenticos, hacer bsquedas blast, etc.). El fichero fasta puede ser un fichero de
texto simple o tener una de las extensiones .fas o .fasta. Un fichero con secuencias
fasta puede tener una o varias secuencias cada una con su lnea identificativa (que
empieza por >).

- 89 -

Departamento de Gentica, Universidad de Granada

Ejemplo de formato fasta (los puntos en negrita dentro de la secuencia indican


que hemos quitado residuos para ahorrar espacio, ya que la secuencia completa
es de unos 5kb):
>embl|X15332|X15332 Human COL3A1 mRNA for pro alpha-1 (III) collagen
cagaactattctccccagtatgattcatatgatgtcaagtcgggcggagtagcagtaggaggactcgcaggct
atcctggaccagctggccccccaggcccccccggcccccctggtacatctggtcatcctggttcccctggatc
tccaggataccaaggaccccctggtgaacctgggcaagctggtccttcaggccctccaggacctcctggtgct
ataggtccatctggtcctgctggaaaagatggagaatcaggtagacccggacgacctggagaccgaggattgc
ctggacctccaggtatcaaaggtccagctgggatacctggattccctggtatgaaaggacacagaggcttcga
tggacgaaatggagaaaagggtgaaacaggtgctcctg...ccctggtccttgctgtggtggtgttggagccc
ctgccattgctgggattggagctgaaaaagctggcggttttgccccttattatggagatgaaccaatg

Por su parte, tanto el formato EMBL como GeneBank son ms elaborados e incluyen
ms identificadores e informacin sobre la secuencia. Ambos comparten la
caracterstica de tener, en su parte inicial, anotaciones que indican el numero de
acceso de la secuencia y, al igual que el fasta, pueden tener una o varias secuencias
cada una marcada por su identificador. La columna izquierda del fichero EMBL
contiene dos letras (abreviatura del trmino en ingls) que indican la naturaleza de la
anotacin del campo correspondiente (por ejemplo ID es el identificador, KW es la
palabra clave, etc.). El formato EMBL empieza con un identificador (ID) de la
secuencia seguido por anotaciones como pueden ser el numero de acceso (AC),
fechas de creacin y actualizacin (DT), descripcin (DE), palabras clave (KW),
organismo o especie de origen (OS), clasificacin de la especie (OC), datos sobre la
referencia bibliogrfica (pginas (RP), Autores (RA), ttulo del trabajo (RT), Revista,
volumen, ao y paginas de la publicacin (RL), o comentarios (CC). Las letras FT
marcan otras caractersticas de la secuencia como puede ser su traduccin,
identificador de la protena, etc. El comienzo de la secuencia est marcado con las
letras SQ y su fin con el smbolo //. Cada lnea de la secuencia contiene sesenta
residuos se parados de diez en diez por un espacio. La lnea termina con una
tabulacin y la posicin del ltimo residuo de la correspondiente lnea. El formato
GenBank tiene una estructura similar a la del formato EMBL con las siguientes
diferencias: la primera lnea del fichero empieza con la palabra LOCUS y contiene
informacin sobre la secuencia (numero de acceso, nombre, etc.), en lugar de utilizar
abreviaturas en la primera columna, como en EMBL, el formato GenBank utiliza una
palabra completa descriptiva de la anotacin del campo (de esta forma el formato
GenBank es ms intuitivo que el EMBL). El comienzo de la secuencia est marcado
con la palabra ORIGIN y, como en EMBL, su fin por el smbolo //. Igual que en el
formato EMBL, cada lnea de la secuencia GenBank contiene sesenta residuos
separados de diez en diez por un espacio. En el caso GenBank, sin embargo, la lnea
comienza con un nmero que marca la posicin del primer residuo de la
correspondiente lnea (en EMBL es el ultimo residuo que est marcado).

- 90 -

Departamento de Gentica, Universidad de Granada

Ejemplo de formato EMBL (los puntos en negrita indican lo explicado


anteriormente):
ID
XX
AC
XX
DT
DT
XX
DE
XX
KW
XX
OS
OC
OC
OC
XX
RN
RP
RA
RT
RL
RL

X15332; SV 1; linear; mRNA; STD; HUM; 3234 BP.


X15332;
06-JUL-1989 (Rel. 20, Created)
05-AUG-1995 (Rel. 44, Last updated, Version 2)
Human COL3A1 mRNA for pro alpha-1 (III) collagen
COL3A1 gene; collagen.
Homo sapiens (human)
Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
Mammalia;
Eutheria; Euarchontoglires; Primates; Haplorrhini; Catarrhini;
Hominidae;
Homo.
[1]
1-3234
Janeczko R., Ramirez F.;
;
Submitted (19-MAY-1989) to the EMBL/GenBank/DDBJ databases.
Janeczko R., Ramirez F., Suny Health Science Centre, 450 Clarkson
Avenue-RL Box 44, Brooklyn NY 11203, U S A.

XX
RN
[2]
RX
DOI; 10.1093/nar/17.16.6742
RX
PUBMED; 2780304.
RA
Janeczko R.A., Ramirez F.;
RT
"Nucleotide and amino acid sequences of the entire human alpha 1 (III)
RT
collagen";
RL
Nucleic Acids Res. 17(16):6742-6742(1989).
XX
DR
GDB; 174873.
DR
H-InvDB; HIT000321499.
XX
CC
The sequence overlaps with that reported by Chu et. al. in
CC
J. Biol. Chem. 260:4357-4363(1985), by Toman et. al. in
CC
Nucl. Acids Res. 16:7201-7201(1988) and by Mankoo et. al. in
CC
Nucl. Acids Res. 16:2337-2337(1988).
XX
FH
Key Location/Qualifiers
FH
FT
source 1..3234
FT
/organism="Homo sapiens"
FT
/map="2q31"
FT
/mol_type="mRNA"
FT
/db_xref="taxon:9606"
FT
CDS <1..>3234
FT
/codon_start=1
FT
/product="alpha-1 (III) collagen"
FT
/protein_id="CAA33387.1"
FT
/translation="QNYSPQYDSYDVKSGGVAVGGLAGYPGPAGPPGPPGPPGTSGHPG
FT
SPGSPGYQGPPGEPGQAGPSGPPGPPGAIGPSGPAGKDGESGRPGRPGDRGLPGPPGIK
FT
GPAGIPGFPGMKGHRGFDGRNGEKGETGAPGLKGENGLPGENGAPGPMGPRGAPGERGR
FT
PGLPGAAGARGNDGARGSDGQPGPPGPPGTAGFPGSPGAKGEVGPAGSPGSNGAPGQRG
FT
EPGPQGHAGAQGPPGPPGINGSPGGKGEMGPAGIPGAPGLMGARGPPGPAGANGAPGLR
FT
GGAGEPGKNGAKGEPGPRGERGEAGIPGVPGAKGEDGKDGSPGDPGANGLPGAAGERGA
FT
..........CCGGVGAPAIAGIGAEKAGGFAPYYGDEPM"
XX
SQ
Sequence 3234 BP; 664 A; 861 C; 1106 G; 603 T; 0 other;
cagaactatt ctccccagta tgattcatat gatgtcaagt cgggcggagt agcagtagga
60
ggactcgcag gctatcctgg accagctggc cccccaggcc cccccggccc ccctggtaca 120
tctggtcatc ctggttcccc tggatctcca ggataccaag gaccccctgg tgaacctggg 180
caagctggtc cttcaggccc tccaggacct cctggtgcta taggtccatc tggtcctgct 240
ggaaaagatg gagaatcagg tagacccgga cgacctggag accgaggatt gcctggacct 300
ccaggtatca aaggtccagc tgggatacct ggattccctg gtatgaaagg acacagaggc 360
ttcgatggac gaaatggaga aaagggtgaa acaggtgctc ctggattaaa gggtgaaaat 420
..... attg gagctgaaaa agctggcggt tttgcccctt attatggaga tgaaccaatg 3234
//

- 91 -

Departamento de Gentica, Universidad de Granada

Ejemplo de formato GenBank (los puntos en negrita indican lo explicado


anteriormente):
LOCUS
DEFINITION
ACCESSION
VERSION
KEYWORDS
SOURCE
ORGANISM

NM_000090
5490 bp
mRNA
linear
PRI 29-JAN-2011
Homo sapiens collagen, type III, alpha 1 (COL3A1), mRNA.
NM_000090
NM_000090.3 GI:110224482
.
Homo sapiens (human)
Homo sapiens
Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Euarchontoglires;
Primates; Haplorrhini; Catarrhini; Hominidae; Homo.
REFERENCE
1 (bases 1 to 5490)
AUTHORS
Kronenberg D, Bruns BC, Moali C, Vadon-Le Goff S, Sterchi EE, Traupe H, Bohm M, Hulmes DJ, Stocker W, Becker-Pauly C
TITLE
Processing of procollagen III by meprins: new players in extracellular matrix assembly?
JOURNAL
J. Invest. Dermatol. 130 (12), 2727-2735 (2010)
PUBMED
20631730
REMARK
GeneRIF: meprins could be important players in several remodeling processes involving collagen fiber deposition
COMMENT
REVIEWED REFSEQ: This record has been curated by NCBI staff. The reference sequence was derived from
BP374999.1, BC028178.1, X14420.1 and AC066694.7.
FEATURES
Location/Qualifiers
source
1..5490
/organism="Homo sapiens"
/mol_type="mRNA"
/db_xref="taxon:9606"
/chromosome="2"
/map="2q31"
gene
1..5490
/gene="COL3A1"
/gene_synonym="EDS4A; FLJ34534"
/note="collagen, type III, alpha 1"
/db_xref="GeneID:1281"
/db_xref="HGNC:2201"
/db_xref="HPRD:00365"
/db_xref="MIM:120180"
exon
1..196
/gene="COL3A1"
/gene_synonym="EDS4A; FLJ34534"
/inference="alignment:Splign"
/number=1
CDS
118..4518
/gene="COL3A1"
/gene_synonym="EDS4A; FLJ34534"
/note="Ehlers-Danlos syndrome type IV, autosomal dominant;
collagen, fetal; collagen alpha-1(III) chain; alpha1 (III)
collagen"
/codon_start=1
/product="collagen alpha-1(III) chain preproprotein"
/protein_id="NP_000081.1"
/db_xref="GI:4502951"
/db_xref="CCDS:CCDS2297.1"
/db_xref="GeneID:1281"
/db_xref="HGNC:2201"
/db_xref="HPRD:00365"
/db_xref="MIM:120180"
/translation= "MMSFVQKGSWLLLALLHPTIILAQQEAVEGGCSHLGQSYADRDVWKPEP
CQICVCDSGSVLCDDIICDDQELDCPNPEIPFGECCAVCPQPPTAPTRPPNGQKGDPGPPGIP
GRNGDPGIPGQPGSPGSPGPPGICESCPTGPQNYSPQYDSYDVKSGVAVGGLAGYPGPAGPPG
PPGPPGTSGHPGSPGSPGYQGPPGEPGQAGPSGPPGPPGAIGPSGPAGKDGESGRPGRPGERG
LPGPPGIKGPAGIPGFPGMKGHRGFDGRNGEKGETGAPGLKGENGLPGENGAPGPMGPRGAPG
ERGRPGLPGAAGARGNDGARGSDGQPGP....VRLPIVDIAPYDIGGPDQEFGVDVGPVCFL"
sig_peptide 118..186
/gene="COL3A1"
/gene_synonym="EDS4A; FLJ34534"
proprotein
187..4515
/gene="COL3A1"
/gene_synonym="EDS4A; FLJ34534"
/product="collagen alpha-1(III) chain proprotein"
mat_peptide 577..3780
/gene="COL3A1"
/gene_synonym="EDS4A; FLJ34534"
/product="collagen alpha-1(III) chain"
STS
2303..2528
/gene="COL3A1"
/gene_synonym="EDS4A; FLJ34534"
/standard_name="GDB:178411"
/db_xref="UniSTS:155007"
exon
2347..2400
/gene="COL3A1"
/gene_synonym="EDS4A; FLJ34534"
/inference="alignment:Splign"
/number=32
/gene_synonym="EDS4A; FLJ34534"
STS
5334..5460
/gene="COL3A1"
/gene_synonym="EDS4A; FLJ34534"
/standard_name="WI-16343"
/db_xref="UniSTS:68589"
STS
5359..5419
/gene="COL3A1"
/gene_synonym="EDS4A; FLJ34534"
/standard_name="COL3A1"
/db_xref="UniSTS:480020"
polyA_signal 5468..5473
/gene="COL3A1"
/gene_synonym="EDS4A; FLJ34534"
polyA_signal 5481..5486
/gene="COL3A1"
/gene_synonym="EDS4A; FLJ34534"
polyA_site
5490
/gene="COL3A1"
/gene_synonym="EDS4A; FLJ34534"
ORIGIN
1 ggctgagttt tatgacgggc ccggtgctga agggcaggga acaacttgat ggtgctactt
61 tgaactgctt ttcttttctc ctttttgcac aaagagtctc atgtctgata tttagacatg
121 atgagctttg tgcaaaaggg gagctggcta cttctcgctc tgcttcatcc cactattatt
181 ttggcacaac aggaagctgt tgaaggagga tgttcccatc ttggtcagtc ctatgcggat
241 agagatgtct ggaagccaga accatgccaa atatgtgtct gtgactcagg atccgttctc
5461 .......... cacccataat aaaatatcat attaaaattc
//

- 92 -

Departamento de Gentica, Universidad de Granada

Genome Browser
Entre los algoritmos y utilidades que una base de datos de secuencias puede ofrecer
est un visor que permite tener informacin sobre la secuencia que nos interesa
teniendo en cuenta su localizacin cromosmica. Por consiguiente solo es posible
utilizar en caso de secuencias procedentes de organismos cuyos genomas estn
parcialmente o completamente secuenciados ensamblados y anotados. Se trata de la
herramienta llamada Genome Browser. Como su nombre indica, se trata de una
herramienta que permite al investigador navegar en el genoma (cada cromosoma
aparte). Dicha navegacin no solo es posible en direccin horizontal (es decir ver qu
secuencias lindan con nuestra secuencia o locus de inters) sino que tambin lo es en
direccin vertical (zoom) permitiendo as el movimiento entre varios niveles de enfoque
desde el citogentico (por ejemplo para ver la informacin de bandeo cromosmico en
la regin) hasta la secuencia propiamente dicha y sus caractersticas (promotor, sitio
de unin de factores de transcripcin). Adems el Genome Browser permite incluir
todo tipo de informacin y anotaciones sobre cada secuencia del cromosoma. De esta
forma, si nos dirigimos al Genome Browser para el genoma humano y buscamos el
gen de colgeno que hemos utilizado de ejemplo antes (COL3A1) veremos que
efectivamente (Figura 4) se encuentra en locus comprendido entre los nucletidos
189833342 y 189883227 del ensamblaje del cromosoma 2 humano; zona que
corresponde a la banda citolgica (cromosmica) 32 del brazo largo de dicho
cromosoma. Veremos que adems de la informacin sobre en qu cromosoma, brazo,
y regin se encuentra nuestra secuencia, Genome Browser tambin nos ofrece
informacin sobre su naturaleza (gen, promotor, intrn, etc.), datos de expresin,
variantes (incluidos SNPs), datos sobre la funcin, interacciones gnicas, datos
estructurales de la protena, los ortlogos de la secuencia, sus relaciones filogenticas,
bibliografa, etc. Todo tipo de anotacin (informacin) disponible sobre esa secuencia.
Todo esto hace que Genome Browser sea la herramienta ms informativa en caso de
secuencias de organismos con genomas secuenciados y ensamblados (aunque
parcialmente).

Figura 4. Captura de pantalla mostrando una parte del resultado de la bsqueda de la secuencia del gen
humano Col3A1 en el Genome Browser

- 93 -

Departamento de Gentica, Universidad de Granada

3. METODOLOGA
3.1. Introduccin a la Bioinformtica
Las tcnicas de anlisis gentico han sufrido una evolucin muy rpida en los ltimos
aos, habiendo pasado de ser manuales, lentas, costosas y producir relativamente
poca informacin, a ser automticas, cada vez ms rpidas y baratas y producir
cantidades enormes de informacin. Con las tecnologas de secuenciacin masiva, por
ejemplo, se pueden obtener secuencias de genomas completos en poco tiempo. El
almacenamiento, tratamiento y anlisis de toda esa informacin, requieren la
utilizacin de herramientas computacionales rpidas y potentes. La bioinformtica es
la disciplina encargada de elaborar las herramientas necesarias para ello (perfil de
desarrollo o programacin), as como la utilizacin de esas herramientas para llevar a
cabo los anlisis que, al final, derivan en conocimiento biolgico.
Las herramientas bioinformticas pueden clasificarse como herramientas de
almacenamiento y recuperacin de la informacin (bases de datos) y programas de
manipulacin y anlisis de dicha informacin. Desde el punto de vista de la Gentica,
las primeras son fundamentalmente las bases de datos de secuencias de ADN y
protenas, mutaciones, expresin, regulacin, metilacin, etc., y van a ser el objeto de
trabajo de esta sesin prctica, mientras que algunas de las segundas (prediccin
computacional de genes, alineamiento mltiple y reconstrucciones filogenticas,
anlisis computacional de expresin gnica diferencial) se trabajarn en las prcticas
siguientes.
3.2. Bases de datos de secuencias de ADN y protenas
Las bases de datos son sistemas de almacenamiento estructurado de la informacin
que permiten la localizacin y recuperacin de los datos de inters de forma rpida,
sencilla y eficiente, entre cantidades enormes de datos, mediante un programa
llamado motor de la base de datos. En esta prctica vamos a ver algunas de las bases
de datos de secuencias de ADN y protenas de uso ms extendido.
3.2.1. GenBank
GenBankR (http://www.ncbi.nlm.nih.gov/genbank/) es la base de datos de secuencias
genticas de los National Institutes of Health (NIH) de Estados Unidos, una coleccin
anotada de todas las secuencias de ADN disponibles pblicamente (Nucleic Acids
Research, 2008 Jan; 36 (Database issue): D25-30). En agosto de 2009 haba
aproximadamente 106 533 156 756 bases en 108 431 692 registros de secuencias
almacenadas (Figura 5). La base de datos est alojada en los servidores del Centro
Nacional Para la Informacin Biotecnolgica (The National Center for Biotechnology
Information) en Estados Unidos.

- 94 -

Departamento de Gentica, Universidad de Granada

Figura 5: Pgina web de acceso a GenBank

Debajo del men principal horizontal, hay un men desplegable llamado Search, en el
que se puede escoger la base de datos a utilizar (Figura 6), junto con una caja de texto
seguida de un botn Go. Para realizar una bsqueda, seleccionamos primero la base
de datos a utilizar (Nucleotide para ADN, Protein para protenas, PubMed para
bibliografa, etc.) y despus introducimos una cadena de bsqueda en el cuadro de
texto; finalmente, picamos en el botn Go.

Figura 6: Realizando una bsqueda en GenBank

Como ejemplo, si quisiramos buscar la secuencia del gen que codifica para el factor
de coagulacin VIII humano, escogeramos la base de datos de nucletidos y
escribiramos Homo sapiens coagulation factor VIII gene en la caja de texto. El
resultado de esa bsqueda se muestra en la Figura 7.

Figura 7. Resultado de una bsqueda en GenBank

- 95 -

Departamento de Gentica, Universidad de Granada

Como se observa, se han obtenido coincidencias de la cadena de bsqueda con 191


registros de la base de datos. Para cada uno de los resultados, se muestra el nombre
de la secuencia enlazado (en azul y subrayado) al registro en la base de datos, el tipo
(ADN o ARN) de secuencia y su longitud, el nmero de acceso (Accession number)
del registro en la base de datos (que lo identifica de forma nica, y enlaces a la
secuencia en los formatos GenBank y FASTA, as como a un navegador grfico de
secuencias y un listado de secuencias relacionadas.
Picando en el enlace con el nombre de la secuencia accedemos a la informacin
almacenada en el registro correspondiente, que est estructurada en diferentes
campos de informacin (Figura 8).

Figura 8: Registro de una secuencia de ADN almacenada en formato GenBank

- 96 -

Departamento de Gentica, Universidad de Granada

Algunos campos relevantes del formato GenBank son los siguientes:


Locus Contiene un identificador (no necesariamente nico) de la secuencia, as como
su longitud (1319 pares de bases en el ejemplo), el tipo de secuencia (ADN lineal) y la
fecha de su publicacin en la base de datos.
Definition Contiene informacin ms detallada acerca de la secuencia almacenada en
ese registro.
Accession Es el nmero de acceso de la secuencia en la base de datos, que la
identifica de forma inequvoca.
Source Son campos que contienen informacin acerca del origen de la secuencia
almacenada, la especie a la que pertenece y su clasificacin taxonmica.
Reference Son campos que contienen referencias bibliogrficas sobre la secuencia,
su publicacin en revistas o bases de datos cientficas, etc.
Features Contienen la anotacin de la secuencia, que describe qu est contenido
concretamente en las distintas posiciones de la secuencia. En el caso del ejemplo en
la
figura 8, el gen que codifica para el factor VIII de coagulacin en humanos.
Origin Es el ltimo campo del registro, que almacena la secuencia de nucletidos. El
final de registro viene marcado por los caracteres // situados en una lnea nueva.
El formato FASTA (se puede ver picando en el enlace correspondiente en la parte de
arriba de la pgina, picando en Dispaly settings) es mucho ms sencillo. Consiste en
una nica lnea de anotacin, precedida por el smbolo >, seguida de la secuencia en
la lnea siguiente (Figura 9).

Figura 9: Secuencia del factor de coagulacin VIII en formato FASTA

- 97 -

Departamento de Gentica, Universidad de Granada

La bsqueda de una secuencia de aminocidos se realiza en GenBank de forma


anloga, escogiendo la base de datos de protenas en el men desplegable y
tecleando la cadena de bsqueda en la caja de texto. Se puede ver un ejemplo en la
Figura 10, que muestra el registro correspondiente a la protena codificada por el gen
del ejemplo anterior, es decir, el factor VIII de coagulacin en el hombre.

Figura 10: Registro de una secuencia de protena almacenada en formato GenBank

3.2.2. EMBL
La base de datos de secuencias EMBL pertenece al Laboratorio Europeo de Biologa
Molecular (European Molecular Biology Laboratory, EMBL), y se encuentra alojada en
los servidores del Instituto Europeo de Bioinformtica (European Bioinformatics
Institute, EBI, http://www.ebi.ac.uk/). Igual que GenBank, EMBL contiene bases de
datos de secuencias de ADN y protenas, de estructura, expresin, genomas
completos, literatura cientfica, etc. (Figura 11).

- 98 -

Departamento de Gentica, Universidad de Granada

Figura 11: Pgina de acceso a EMBL

La utilizacin de las bases de datos de EMBL y el formato de almacenamiento de sus


secuencias (Figura 12) son muy similares a los de GenBank.

Figura 12: Secuencia de ADN en formato EMBL

- 99 -

Departamento de Gentica, Universidad de Granada

3.2.3. UniProt
UniProt (http://www.uniprot.org/uniprot/) es una de las bases de datos de protenas
ms utilizadas (Figura 13). La consulta a la base de datos es similar a la de las bases
de datos anteriores.

Figura 13: Pgina de acceso a UniProt

3.2.4. Bases de datos de genomas completos


Ya existen tambin bases de datos que almacenan genomas completos, como la
Genomes Pages (http://www.ebi.ac.uk/genomes/) del EBI (Figura 14).

Figura 14: Pgina de acceso a Genomes Pages

3.2.5. Bases de datos de bibliografa cientfica


Tambin existen bases de datos de bibliografa cientfica, alojadas en los servidores
de los centros de investigacin mencionados anteriormente, como Entrez, EMBL,
PubMed, NCBI Bookshelf, etc.

- 100 -

Departamento de Gentica, Universidad de Granada

3.3. Rastreo de bases de datos


Adems de buscar secuencias de ADN o protenas por su nombre, especie, etc.,
podemos estar interesados en buscar secuencias que presenten similitud
(homologa?) con una secuencia problema dada (ejemplo en la Figura 15), es decir,
lo que se conoce como rastrear bases de datos.

MAVMAPRTLV
DSDAASQRME
RMYGCDVGSD
RAYLEGTCVE
WQRDGEDQTQ
SSQPTIPIVG
TACKV

LLLSGALALT
PRAPWIEQEG
GRFLRGYQQD
WLRRHLENGK
DTELVETRPA
IIAGLVLFGA

QTWAGSHSMR
PEYWDRNTRN
AYDGKDYIAL
ETLQRTDAPK
GDGTFQKWAA
VIAGAVVAAV

YFSTSVSRPG
VKAHSQTDRV
NEDLRSWTAA
THMTHHAVSD
VVVPSGQEQR
RWRRKSSDRK

RGEPRFIAVG
DLGTLRGYYN
DMAAEITKRK
HEAILRCWAL
YTCHVQHEGL
GGSYSQAASS

YVDDTQFVRF
QSEDGSHTIQ
WEAAHFAEQL
SFYPAEITLT
PEPLTLRWEP
DSAQGSDVSL

Figura 15: Secuencia de una protena annima

Los algoritmos de rastreo de bases de datos ms conocidos son FASTA y BLAST,


implementados por los programas FASTA, BLASTn (ADN) y BLASTp (protenas).
Vamos a rastrear las bases de datos de protenas con la secuencia de ejemplo de la
Figura 15 utilizando el programa BLASTp (Figura 16). En el interfaz grfico del
programa, encontramos una caja de texto donde podemos pegar la secuencia
problema, as como un botn Choose File que nos permite escoger un fichero que
contenga la secuencia problema en nuestro ordenador. Ms abajo encontramos el
botn Blast para la ejecucin del rastreo.

Figura 16: Pgina de acceso a BLASTp

El resultado de un rastreo con BLASTp tiene tres partes, un resumen grfico


interactivo (Figura 17), un resultado detallado en forma de tabla (Figura 18) y un
listado de los alineamientos de las secuencias encontradas (Figura 19). Como puede

- 101 -

Departamento de Gentica, Universidad de Granada

comprobarse en todos ellos, la protena


histocompatibilidad humano de clase I.

problema

era

el

antgeno

de

Figura 17: Resumen grfico del resultado de un rastreo con BLASTp

La tabla que recoge los resultados (Figura 18) presenta en la primera columna el
nmero de acceso de cada una de las secuencias de la base de datos que presentan
similitud (encontradas mediante un algoritmo de alineamiento de secuencias) con la
secuencia problema. El nmero de acceso es tambin un enlace al registro que
almacena la secuencia en cada caso. La segunda columna contiene la descripcin de
la secuencia. Las siguientes presentan la puntuacin del alineamiento, el porcentaje
de superposicin de las secuencias y, por ltimo, el valor E de probabilidad, que
representa la probabilidad de que la similitud entre la secuencia annima problema y la
encontrada en la base de datos sea al azar. Valores pequeos indican que el parecido
no se debe al azar y, por tanto, las secuencias estn relacionadas o, como en el caso
de la primera secuencia obtenida (E = 0), son la misma secuencia.

Figura 18: Resultado detallado de un rastreo con BLASTp

Finalmente, aparecen los alineamientos de la secuencia problema con cada una de las
secuencias obtenidas de la base de datos (Figura 19), en los que se pueden observar

- 102 -

Departamento de Gentica, Universidad de Granada

las secuencias completas y, entre ambas, la secuencia consenso. Es fcil observar las
coincidencias y diferencias entre las secuencias alineadas.

Figura 19: Alineamiento en un rastreo con BLASTp

3.4. Navegadores genmicos


Un navegador genmico (genome browser) es una representacin grfica de un
genoma, como puede deducirse de lo comentado anteriormente. Existen navegadores
genmicos diferentes, pero todos ellos permiten visualizar las anotaciones y otras
caractersticas genmicas. En general, los navegadores genmicos son aplicaciones
informticas que pueden ser independientes u operar a travs de internet, y que
permiten acceder a gran cantidad de informacin sobre los genomas, como por
ejemplo, identificar secuencias de ADN correspondientes a genes concretos dentro de
un genoma completo (al cual se accede a travs de una base de datos determinada),
identificar elementos funcionales, llevar a cabo comparacin entre especies, etc.
Algunos de los navegadores genmicos ms utilizados son:
Apollo Genome Annotation Curation Tool
(http://apollo.berkeleybop.org/current/index.html)
Este navegador genmico ofrece muchas posibilidades, incluyendo la capacidad de
realizar anotaciones. Esta basado en Java, por lo que puede utilizarse en Windows,
Mac OS X, o cualquier sistema operativo basado en Unix.
Generic Genome Browser (GBrowse) (http://www.gmod.org/wiki/GBrowse)
Desarrollado por GMOD (http://www.gmod.org/wiki/Main_Page), permite a los usuarios
configurar rpidamente un navegador segn sus necesidades.
UCSC Genome Browser (http://genome.ucsc.edu/cgi-bin/hgGateway)
Desarrollado por el Genome Bioinformatics Group of UC Santa Cruz (Universidad de
California), proporciona diferentes genomas para analizar.
Ensembl (http://www.ensembl.org/index.html)

- 103 -

Departamento de Gentica, Universidad de Granada

Ensembl es un proyecto conjunto entre el EMBL-EBI y el Wellcome Trust Sanger


Institute, y facilita el acceso a diferentes genomas eucariotas para analizar.

4. CUESTIONES
Trabajos de autoaprendizaje

Bsqueda de secuencias de ADN y protenas propuestas por el profesor.

Bsqueda de secuencias de ADN y protenas de inters para el estudiante.

Rastreo de bases de datos con protenas problema propuestas por el profesor


(enlazadas en la pgina web).

Trabajos de evaluacin

Dada una secuencia de ADN annima, determinar el tipo de secuencia de que


se trata mediante rastreo de una base de datos.

Dada una secuencia problema de aminocidos, buscar al menos tres protenas


diferentes que presenten similitud (homologa) con ella.

Localizar un gen concreto (problema) en el genoma utilizando un navegador


genmico y resumir la informacin que se extraiga del mismo.

- 104 -

Departamento de Gentica, Universidad de Granada

PREDICCIN COMPUTACIONAL DE
GENES

- 105 -

Departamento de Gentica, Universidad de Granada

- 106 -

Departamento de Gentica, Universidad de Granada

PREDICCIN COMPUTACIONAL DE GENES


1. OBJETIVO
En la actualidad la cantidad de informacin gentica est aumentando enormemente
debido principalmente a que muchos proyectos de secuenciacin de genomas
completos han finalizado o lo harn prximamente. Una vez que la secuencia de un
genoma est disponible es de capital importancia el reconocimiento de regiones
codificantes de protenas. Para ello, hoy da se han desarrollado diversos programas
informticos que, a partir de una secuencia no caracterizada, predicen el nmero y la
localizacin de genes, incluyendo la localizacin exacta de exones e intrones (en
eucariotas). El objetivo de esta prctica es la aproximacin al conocimiento y manejo
de este tipo de programas.

2. FUNDAMENTO TERICO
2.1. Recursos en la web
La mayora de los programas de ordenador utilizados en bioinformtica se ejecutan en
lnea de comandos en mquinas con entorno UNIX, sin embargo se han desarrollado
para ellos diversos tipos de interfaces que facilitan su uso. Algunos de estos interfaces
consisten en pginas web que recogen los datos suministrados por el ususario y
devuelven los resultados proporcionados por el programa a travs de la propia web o
mediante correo electrnico.
Puede consultarse una lista de software con enlaces a las pginas originales de cada
aplicacin en:
http://www.sanger.ac.uk/resources/software/
Otro software relacionado directamente con la prediccin computacional de genes se
puede usar y descargar de:
http://opal.biology.gatech.edu/GeneMark/
Contiene varias versiones de la aplicacin GeneMark para prediccin de genes en
procariotas, eucariotas o una versin autoentrenable y enlaces para la descarga
gratuita de los programas para un uso no comercial con licencia renovable para dos
aos.

3. METODOLOGA
3.1. Bsqueda y anlisis de una secuencia (A)
En primer lugar obtendremos una secuencia de ADN sobre la que podamos usar
programas de prediccin computacional de genes. La secuencia elegida es un
fragmento del cromosoma Y humano, comprendido entre los nucletidos 2.653.211 y
2.657.767. Obtendremos esta secuencia en la base de datos Ensembl:
http://www.ensembl.org

- 107 -

Departamento de Gentica, Universidad de Granada

Ensembl es una base de dados donde se recogen los genomas de multitud de


organismos que se anotan mediante una serie de programas que localizan en las
secuencias distintos tipos de caractersticas y, entre ellas, la localizacin de genes,
exones e intrones. La base de datos se puede consultar on line a travs de la web o
desde programas que pueden acceder a esta base en remoto utilizando libreras
escritas en lenguaje perl.
Para obtener nuestra secuencia iremos en primer lugar a la pgina principal de
Ensembl: http://www.ensembl.org
En el desplegable de la parte superior de la pgina elegimos Human y en el campo
de texto de bsqueda pondremos el cromosoma de inters y los nucletidos inicial y
final de la siguiente forma:
Y:2653211-2657767
Tal y como se ve en la siguiente figura:

Tras pulsar el botn Go nos aparecer una representacin de la zona del genoma
elegida. Puesto que lo que queremos es la secuencia de nucletidos de esa regin,
pulsaremos sobre el botn Export data situado a la izquierda.

Aparecer una nueva ventana en la que se podrn elegir diferentes opciones acerca
de los datos que pretendemos exportar. La opcin por defecto es exportar la
secuencia en formato FASTA, que precisamente es lo que pretendemos, as que
nicamente deberemos pulsar el botn Next. Se nos ofrece entonces la posibilidad
de descargar la secuencia en diferentes formatos. Elegiremos Text y obtenemos as
la secuencia que podremos archivar o copiar y pegar en un editor de texto o en la
interfaz web de algn otro programa.
3.2. Prediccin de ORFs
Las ORF, del ingls Open Reading Frame, o Marco de Lectura Abierta, consisten en
un fragmento de secuencia que comienza en un codon de inicio y termina en un codon
de stop. Si la distancia entre ambos codones es lo suficientemente grande estas ORF

- 108 -

Departamento de Gentica, Universidad de Granada

podran ser indicativas de la presencia de una regin codificante. Buscaremos ORF


con el programa ORFFinder en:
http://www.ncbi.nlm.nih.gov/gorf/gorf.html
pegando la secuencia en el recuadro de texto:

Tras pulsar sobre el botn ORFFind el programa buscar las ORF y mostrar el
resultado como se observa a continuacin:

- 109 -

Departamento de Gentica, Universidad de Granada

A la izquierda vemos una representacin grfica de las 6 pautas de lectura con las
ORF sealadas en color (tres por cada hebra del ADN). A la derecha se indica los
nucletidos donde comienzan y terminan y su longitud total. En la ltima pauta de
lectura se observa una ORF de mayor longitud que las dems, que podra ser
indicativa de la presencia de una regin codificante.
Picando sobre esa ORF veremos como cambia de color. En la lista de ORF de la
derecha tambin se sealan en color diferente los datos que corresponden a esa ORF
y aparece la secuencia de la posible traduccin de ese fragmento, indicando con
colores los codones de inicio y stop:

Deberamos ver a continuacin si ese marco de lectura corresponde con alguna


protena conocida. Desde sta misma pgina de resultados es posible realizar una
bsqueda mediante BLASTP frente a la base de datos nr (no redundante) que
contiene todas las secuencias conocidas habiendo eliminado los datos redundantes.
Para ello pulsamos sobre el botn Blast sealado en la figura. Al pulsar ste botn
los datos se envan al NCBI (National Center for Biotechnology Information)
mostrndonos una pgina con los datos enviados y las opciones elegidas para realizar
la bsqueda.

- 110 -

Departamento de Gentica, Universidad de Granada

Pulsamos entonces sobre el botn View report y es posible que tengamos que
esperar a que se actualice la pgina una vez obtenidos los resultados.
Parte de los resultados de BLAST se muestran a continuacin:

En la parte superior podemos ver que se ha localizado un domino conservado de tipo


HMG. Las lneas inferiores representan las secuencias encontradas con homologa
con la secuencia de bsqueda. Colocando el cursor sobre la primera lnea roja, en el
recuadro de texto sobre las lneas aparece informacin sobre la secuencia que esa
lnea representa. En este caso se trata de:
AAX93512 SRY (Sex-Determining Region Y) protein [Homo sapiens] S=402 E=1.6e-110
donde S es la puntuacin obtenida en el alineamiento y E es el valor Expect, es
decir, el nmero de veces que se esperara encontrar la secuencia buscada por azar
en la base de datos.
Pulsando sobre la caja HMG de la parte superior accedemos a una pgina con
informacin adicional sobre este tipo de dominio:

- 111 -

Departamento de Gentica, Universidad de Granada

3.3. Bsqueda y anlisis de una secuencia (B)


De la misma forma que recuperamos anteriormente una secuencia del cromosoma Y
humano, recuperaremos ahora la secuencia correspondiente a los nucletidos
70116646 a 70123266 del cromosoma 17.
Analizaremos entonces la secuencia en el ORFFinder. El resultado obtenido es un
poco confuso:

Se observan muchos marcos de lectura abierta dispersos pero no hay ninguna que
claramente se diferencie de los dems en tamao. Sabemos de antemano que esta
regin del cromosoma 17 contiene un gen luego cabra preguntarse acerca de la
eficiencia de este mtodo que se est utilizando para localizar genes. El problema
radica en que el gen contenido en esta porcin de ADN poseee varios intrones que
interrumpen el marco de lectura abierta. Teniendo en cuenta que la mayora de los
genes de eucariotas estn interrumpidos por intrones, esto supone realmente un
problema para estimar correctamente donde se localizan los genes basndose
nicamente en la presencia de marcos de lectura abierta.

- 112 -

Departamento de Gentica, Universidad de Granada

Por tanto se hace necesario estimar la posicin de los posibles principios y finales de
intrones presentes en la secuencia, que reciben respectivamente el nombre de sitios
donadores y de sitios aceptores. Para ello analizaremos la secuencia con el
programa NetGene2:
http://www.cbs.dtu.dk/services/NetGene2/
Una vez en la pgina de NetGene2 pegamos nuestra secuencia en el recuadro de
texto inferior y pulsamos en botn Send file:

Nos aparecer una pgina que se actualizar automticamente a intervalos regulares


hasta que el trabajo est completado, momento en el que aparecer la pgina con los
resultados. A continuacin se muestran parte de los resultados obtenidos con la
secuencia problema:

- 113 -

Departamento de Gentica, Universidad de Granada

En esta porcin de la salida se muestran los posibles sitios donadores (lmite


exn/intrn). En las columnas se muestra de izquierda a derecha: la posicin del punto
de corte exn/intrn, la pauta en que se encuentra, la hebra, el nivel de confianza y,
por ltimo, la secuencia del sitio. Los niveles de confianza prximos a 1 pueden indicar
lugares funcionales. De la misma forma se muestran en la pgina los posibles lugares
aceptores. Finalmente se muestra una representacin grfica de los resultados:

Los tres grficos corresponden, de arriba a abajo, al potencial codificante, a la


localizacin de sitios donadores y, por ltimo, a la de sitos aceptores. Las lneas
verticales corresponden a los posibles puntos donadores y aceptores a los que
referan los datos anteriores. La longitud de las lneas se corresponde con los niveles
de confianza.
Las curvas que se observan en la segunda y tercera grfica se derivan de los cambios
de pendiente de la curva de potencial codificante. Para identificar los sitios donadores
o aceptores con potencial biolgico real, deberan coincidir sus posiciones con los
lmites de las regiones potencialmente codificantes. De esta forma, los lmites entre
exones/intrones y entre intrones/exones deberan coincidir con lneas verticales de
longitud prxima a 1 y bajadas signiticativas en las curvas respectivas que, a su vez,
coinciden con cambios de pendiente en la curva de potencial codificante.
El primer potencial sitio donador (exn/intrn) corresponde a la posicin 1319, y la
siguiente posicin que podra actuar como aceptor (intrn/exn) es la 2214. Estos dos
puntos corresponderan a un primer intrn, por tanto la secuencia codificante del
posible gen debera comenzar antes de la posicin 1319 y terminar en los alrededores
de sta.
Observando los resultados de ORFFinder vemos que el segundo marco de lectura
abierta en la pauta 3 termina en el nucletido 1322. Si hacemos un BLAST desde
ORFFinder con la secuencia de aminocidos codificada por este marco obtenemos lo
siguiente:

- 114 -

Departamento de Gentica, Universidad de Granada

Vemos que efectivamente corresponde con dominios conservados y se trata de un


fragmento del gen SOX9 ya que las primeras coincidencias corresponden a este gen
en distintas especies. Una de ellas corresponde al gen SOX9 Humano.
El siguente exn debera comenzar despus de la posicin 2214, donde se encuentra
el primer sitio donador. La pauta de lectura 1 muestra una ORF entre los nucletidos
2086-2472, y la pauta 2 entre 2057-2695. Un BLAST con la primera de ellas no arroja
resultados significativos, pero en la segunda se observa el final de una caja
conservada HMG.
Podremos concluir por tanto que la ORF de la pauta 3 y la siguiente de la pauta 2
corresponden a dos exones de un mismo gen, interrumpido por un intrn situado en
medio de la regin que codifica un dominio conservado de tipo HMG. Siguiendo esta
estrategia podremos localizar el resto de las secuencias que corresponden a los
exones de SOX9
3.4. Localizacin de intrones mediante dot plot
Simularemos un experimento de laboratorio en el que se aislara el ARNm del gen de
inters una vez conocida parte o toda su secuencia. Posteriormente se obtendra la
secuencia de este ARNm y se comparara con la secuencia genmica del mismo gen,
poniendo de manifiesto las regiones que corresponden a exones e intrones. En lugar
de obtener la secuencia del mensajero en el laboratorio, la obtendremos en una base
de datos, ya que se trata en realidad de un gen conocido. Para ello iremos a la pgina:
http://www.ncbi.nlm.nih.gov/
En la parte superior seleccionaremos la base de datos de nucletidos, en la lnea de
texto escribiremos como palabras clave sox9 mrna homo sapiens y pulsaremos el
botn Search:

Entre los resultados obtenidos veremos:

pulsando sobre la descripcin del gen podremos recuperar la secuencia del


mensajero. Un anlisas de dot plot en:
http://www.vivo.colostate.edu/molkit/dnadot/
nos mostrar la posicin de los intrones y exones:

- 115 -

Departamento de Gentica, Universidad de Granada

La traduccin del ARNm revelar donde se encuentra el codon de stop, y proporciona


una explicacin de por qu el potencial codificante decae antes del final del tercer
exn, como puede apreciarse en la salida de NetGene2.

4. CUESTIONES
En relacin con la consulta realizada con el programa ORFFinder:

Que indican las 6 barras que aparecen en la pantalla?


Dentro de estas barras, que indican los fragmentos coloreados?
Que indican cada una de las columnas numricas que aparecen a la derecha
(frame, from to, y length)?
De todos los posibles marcos de lecturas abiertos, Cual es el que tiene ms
probabilidad de ser una regin codificante?
Por qu todos los marcos de lectura abierta comienzan con el triplete ATG?
Con que triplete/s terminan?
Qu podra ocurrir si un marco de lectura abierto se encuentra interrumpido
por un intrn?
Que condiciones deberan darse para que un intrn quedase englobado en un
marco abierto de lectura?
Como se puede comprobar que un marco de lectura abierta codifica una
protena conocida?
Que ocurre con el programa ORFFinder si en nuestra secuencia a analizar se
encuentra un gen compuesto por varios exones e intrones?

En relacin a la consulta realizada en el programa NetGene2:

Que indican las tablas numricas donor splice sites y aceptor splice sites?
Qu indica la ltima columna en dichas tablas?
En la columna confidence, que indican los valores altos?
Que se representa en la grfica superior?

- 116 -

Departamento de Gentica, Universidad de Granada

En las dos grficas inferiores, Que representan las lineas verticales?, Y la


lnea horizontal (roja o verde)?
Atendiendo a las grficas, Como identificaras lugares con una alta
probabilidad de ser donadores/aceptores funcionales?
Por qu en el caso de SOX9 los comienzos y finales de las ORF localizadas
con ORFFinder no coinciden exactamente con los puntos donadores y
aceptores predichos por NetGene2?
Por qu dos exones del mismo gen pueden aparecer en pautas de lectura
diferentes?
Por qu el potencial codificante decae antes de llegar al final del ltimo exn?

- 117 -

Departamento de Gentica, Universidad de Granada

- 118 -

Departamento de Gentica, Universidad de Granada

ALINEAMIENTO MLTIPLE DE
SECUENCIAS DE ADN y
PROTENAS

- 119 -

Departamento de Gentica, Universidad de Granada

- 120 -

Departamento de Gentica, Universidad de Granada

ALINEAMIENTO MLTIPLE DE SECUENCIAS


DE ADN y PROTENAS
1. OBJETIVO
Cuando se quieren comparar secuencias homlogas de nucletidos (ADN) o de
aminocidos (protenas) de especies diferentes con el fin de analizar las diferencias
existentes entre ellas y sus relaciones evolutivas, un paso previo imprescindible en
dicho anlisis es el de establecer un alineamiento mltiple de todas las secuencias. El
objetivo de esta prctica es adquirir las destrezas necesarias para llevar a cabo
alineamientos mltiples de secuencias y familiarizarse con el uso de los programas
informticos que nos permiten hacerlos.
El procedimiento a seguir tiene varios pasos, el primero de los cules consiste en
alinear todas las secuencias dos a dos. Por ello, en primer lugar, describiremos como
se procede a la hora de hacer un alineamiento entre dos secuencias homlogas.

2. FUNDAMENTO TERICO
Alineamiento de dos secuencias homlogas de nucletidos o de aminocidos
Mediante comparacin de dos secuencias homlogas de ADN o de protenas se
puede llegar a establecer un alineamiento por emparejamiento, base a base, de las
bases de cada una de las dos secuencias. Por ejemplo, para el caso de ADN:

5'-AATGTCATGCGCTGAATCCCCCC-3'
5'-AAGGTCTTGCCCT- AATGCCCCC-3'
Si las dos secuencias que se comparan tienen diferente longitud es porque alguna de
ellas o las dos han incorporado o perdido algn residuo (nucletido o aminocido,
dependiendo de las secuencias que se comparen). As, lo primero a identificar es la
localizacin de las inserciones y deleciones que han podido ocurrir en cada especie
desde que estn divergiendo de una especie ancestral comn.
En el emparejamiento base a base del alineamiento, nos podemos encontrar con una
de tres posibilidades de sitios o posiciones nucleotdicas/aminoacdicas:
- Coincidencias (matches): la misma base/aminocido en las dos secuencias.
- Ausencia de coincidencias (mismatches): una base/aminocido diferente en cada
secuencia.
- Inserciones/deleciones (gaps): los gaps se representan por guiones (-) y significan
que en una de las dos secuencias se produjo una insercin o una delecin en esa
posicin.
Cuando comparamos una secuencia parcial de un/a gen/protena obtenida a partir de
una especie con la secuencia completa de dicho/a gen/protena, el alineamiento se
realizar proponiendo un enorme gap terminal que representara a la informacin
desconocida (missing data). Estas posiciones del alineamiento se suelen representar
muchas veces con el signo de interrogacin (?) en la secuencia incompleta.

- 121 -

Departamento de Gentica, Universidad de Granada

La obtencin del alineamiento correcto es fundamental para que todos los anlisis
evolutivos y filogenticos posteriores no se vean afectados. Dicho alineamiento se
puede hacer manualmente si no hay muchos gaps y si las secuencias son cortas y no
muy divergentes. Sin embargo, se han desarrollado mtodos que facilitan el trabajo y
la fidelidad del resultado en cualquier tipo de comparaciones:
1. El mtodo de la matriz de puntos (dot matrix) sigue el siguiente procedimiento: una
de las secuencias se dispone en el eje vertical, y la otra secuencia en el eje horizontal,
de una matriz bidimensional. Cada vez que existe un nucletido/aminocido idntico
en ambas secuencias, se coloca un punto en el recuadro correspondiente a la posicin
x de la secuencia horizontal y a la posicin y de la vertical. El alineamiento se obtiene
mediante una lnea diagonal que une los puntos a travs de la matriz comenzando en
el recuadro superior izquierdo y tratando de acabar en el inferior derecho. El trazado
puede revelar diferentes situaciones tal como podemos ver en las siguientes matrices
de puntos para dos secuencias nucleotdicas hipotticas:
A. Las dos secuencias son idnticas:

A
A

G
C

B. Las dos secuencias son iguales en tamao pero difieren en secuencia:

A
A

T
G

- 122 -

Departamento de Gentica, Universidad de Granada

C. Las dos secuencias difieren en tamao (slo inserciones y/o deleciones explicaran
las diferencias entre ellas):

A
A

D. Las dos secuencias difieren en tamao (inserciones y/o deleciones explicaran


partes de las diferencias entre ellas) y en secuencia (cambios por substitucin de un
residuo por otro):

A
A

En una secuencia ms larga y con ms cambios de los reflejados aqu se hace mucho
ms difcil establecer el alineamiento pudiendo existir ms rutas alternativas que
explicaran las diferencias entre dos secuencias.
De hecho, lo normal es que exista un nmero muy abundante de puntos en la matriz
que, junto con la ausencia de una diagonal perfecta, dificulta el trazado del
alineamiento. Se ha ideado un mtodo que permite mejorar la definicin del
alineamiento. Consiste en comparar las dos secuencias usando "ventanas deslizantes"
que van haciendo las comparaciones de n en n residuos, en lugar de nucletido a
nucletido. Una coincidencia (match) en este caso se determina a partir de un umbral
determinado. As, dos parmetros son fundamentales en este tipo de comparaciones:
el tamao de la ventana (windows size) y la astringencia (stringency). Una vez
establecido un tamao de ventana, ste se mantiene constante en todo el anlisis.
Consiste en determinar cada cuantos residuos se hace una comparacin. As, si el

- 123 -

Departamento de Gentica, Universidad de Granada

tamao de la ventana es de cinco residuos, quiere decir que comparamos las dos
secuencias progresivamente de 5 en 5 residuos. La astringencia determina el umbral:
nmero de residuos que deben ser coincidentes dentro de esa ventana. Con esto se
eliminan muchos de los puntos de identidad falsos de la matriz.
2. Un segundo mtodo consiste en definir un alineamiento como aquel en el que el
nmero de disimilitudes (mismatches) y gaps estn minimizados de acuerdo a unos
criterios determinados. El problema radica en que para aumentar el nmero de
coincidencias suele ser necesario aumentar el nmero de gaps. Por tanto, segn este
criterio, son posibles varias opciones de alineamiento por lo que se ha diseado un
procedimiento consistente en calcular un ndice de divergencia o disimilitud entre
las dos secuencias que se comparan. Este ndice tendr diferentes valores para cada
uno de los alineamientos alternativos obtenidos. Aquel alineamiento con menor ndice
de divergencia ser el escogido como mejor de todos.
El clculo del ndice de divergencia depende del coste o penalizacin por gaps (gap
penalty) que suele tener dos componentes: penalizacin por cada gap introducido en
el alineamiento (gap-opening penalty) y penalizacin por la extensin de cada gap
(gap-extension penalty). Las penalizaciones por gaps son factores por los que se
multiplican los valores de los gaps (el nmero y la longitud de los gaps) con el fin de
establecer una equivalencia entre esos valores y el valor de los des-emparejamientos
o mismatches (nmero de substituciones). As, la penalizacin se basa en nuestra
propia experiencia a travs de la comparacin entre el clculo de la frecuencia de
inserciones y deleciones que han ocurrido en la evolucin desde la separacin de las
dos especies cuyas secuencias estn siendo alineadas y la frecuencia con la que han
ocurrido substituciones nucleotdicas (o aminoacdicas).
En el caso de secuencias de protenas, las disimilitudes en las diferentes posiciones
aminoacdicas pueden ser valoradas con diferente peso segn que el cambio
producido sea a un aminocido ms o menos similar en sus propiedades bioqumicas.
As, se han establecido ciertos grupos de aminocidos por afinidad bioqumica cuyos
emparejamientos en un alineamiento reciben mayor o menor puntuacin de acuerdo a
diferentes criterios, en lugar de una puntuacin de cero que es lo que reciben los sitios
en los que hay una disimilitud y los aminocidos emparejados no guardan ninguna
afinidad bioqumica.
Alineamientos mltiples
Los alineamientos mltiples siguen un procedimiento similar al descrito, pero la
complejidad de los clculos se hace mayor al incrementarse el nmero de secuencias
a alinear. Existen diferentes programas informticos que pueden hacer este tipo de
alineamientos. Nosotros utilizaremos el programa Clustal X que implementa el
algoritmo Clustal (Higgins y Sharp, 1988). En este caso, los alineamientos se realizan
en un proceso de tres etapas. Primero, se comparan todas las secuencias dos a dos
(alineamientos pairwise). A continuacin se construye un dendrograma (similar a un
rbol filogentico) que agrupa las secuencias por similitud. En tercer lugar, el
alineamiento mltiple se hace usando el dendrograma como gua y alineando
secuencias de manera progresiva de acuerdo al orden de ramificacin del rbol. Es
decir, primero se alinean las dos secuencias con mayor similitud y se van aadiendo
secuencias al alineamiento de manera progresiva por orden de similaridad
decreciente.

- 124 -

Departamento de Gentica, Universidad de Granada

3. METODOLOGA
El programa ClustalX tiene una interfaz grfica disponible para diversos sistemas
operativos, como Windows o Linux, del programa de alineamiento mltiple de
secuencias Clustal W (ver referencias al final de este guin). El diseo del programa
permite tambin la construccin de rboles filogenticos a partir de las secuencias
alineadas.
Este programa reconoce siete formatos diferentes de ficheros de entrada (input) con
secuencias tanto de ADN como de protenas: NBRF/PIR, EMBL/SWISSPROT,
Pearson (Fasta), Clustal (*.aln), GCG/MSF (Pileup), GCG9/RSF y GDE. Todos los
caracteres (espacios, dgitos, signos de puntuacin) se ignoran a excepcin de los
guiones (-) que indican gaps (en MSF/RSF los gaps, no obstante, son reconocidos
como .). Nosotros usaremos el formato FASTA, para el que se dan dos ejemplos en
el primer Apndice.
Para obtener el alineamiento procederemos de la siguiente manera:
Paso 1. Al abrir el programa aparecer una ventana como esta:

El programa Clustal X tiene dos modos de actuacin diferentes que se pueden


seleccionar alternativamente en la ventana MODE que est bajo la lista de mens:
MULTIPLE ALIGNMENT MODE y PROFILE ALIGNMENT MODE. El primer modo es
el que vamos a usar siempre en esta prctica. Nos permite hacer un alineamiento a
partir de un conjunto de secuencias. El segundo modo permite trabajar
simultneamente con dos conjuntos de secuencias (cada conjunto se denomina, en
este caso, perfil) en dos ventanas diferenciadas e intercambiar secuencias de un perfil
a otro as como alinear las secuencias de un perfil con las del otro.
Paso 2. A continuacin, seleccionamos el fichero que contiene nuestras secuencias en
formato Fasta. Para ello desplegamos el men FILE, seleccionamos LOAD
SEQUENCES y navegando por los directorios, descargamos el fichero de entrada
cuyas secuencias aparecern en la ventana del programa de esta manera:

- 125 -

Departamento de Gentica, Universidad de Granada

Se pueden aadir nuevas secuencias usando la opcin APPEND SEQUENCES.


De la misma manera, desplegando el men EDIT, se pueden eliminar secuencias de
manera temporal (CLEAR SEQUENCE SELECTION), as como cambiarlas de orden
mediante las opciones CUT SEQUENCES y PASTE SEQUENCES.
Otras posibilidades de edicin (Men EDIT) son 'SEARCH FOR STRING (buscar en
las secuencias una sucesin determinada de residuos, nucletidos o aminocidos),
REMOVE ALL GAPS (elimina todos los gaps existentes en las secuencias, tanto los
existentes en el fichero original como los introducidos por Clustal X en el alineamiento)
y 'REMOVE GAP-ONLY COLUMNS (elimina las posiciones en las que en todas las
secuencias ya alineadas existe un gap, consecuencia de haber eliminado alguna
secuencia divergente o tras un re-alineamiento).
Paso 3. Procederemos a continuacin a realizar el alineamiento mltiple. Los
alineamientos se realizan en un proceso de tres etapas. Primero, se comparan todas
las secuencias dos a dos (alineamientos pairwise). A continuacin se construye un
dendrograma (similar a un rbol filogentico) que agrupa las secuencias por similitud.
En tercer lugar, el alineamiento mltiple se hace usando el dendrograma como gua
alineando secuencias de manera progresiva de acuerdo al orden de ramificacin del
rbol.
Las tres etapas se suceden de manera automtica si seleccionamos la opcin DO
COMPLETE ALIGNMENT. Se puede saltar alguno de los pasos seleccionando DO
ALIGNMENT FROM GUIDE TREE (si se dispone de un dendrograma previo que
acta como gua para el alineamiento mltiple) o PRODUCE GUIDE TREE ONLY (si
slo se quiere obtener el rbol de referencia obviando la construccin del alineamiento
mltiple).
En cualquiera de los tres casos, siempre nos aparecer una ventana emergente sobre
la ventana principal en la que debemos indicar el directorio donde queremos guardar
los ficheros de salida (output) y el nombre que le daremos a dichos ficheros. Las
extensiones son *.dnd (para el fichero del dendrograma) y *.aln (para el del
alineamiento):

- 126 -

Departamento de Gentica, Universidad de Granada

En el Apndice 2 se muestran dos ficheros de salida tpicos: uno con el alineamiento


mltiple de un conjunto de secuencias de ADN y otro en el que se describe el
dendrograma obtenido en el proceso.
Adems, el alineamiento se puede visualizar en la ventana principal del Programa:

Los nucletidos (o los aminocidos, segn la secuencia utilizada) aparecen coloreados


para facilitar el anlisis visual del alineamiento. El histograma que aparece debajo de
dicho alineamiento indica el grado de similitud entre las secuencias alineadas en cada
posicin. Los picos altos indican la mayor similitud mientras que los valles indican baja
similitud.
En el apndice 3 se dispone de una descripcin de diferentes opciones y parmetros a
tener en cuenta a la hora de hacer un alineamiento. En nuestro caso, adems de tener
en cuenta el resto de opciones, con respecto a las siguientes dos, procederemos as:

- 127 -

Departamento de Gentica, Universidad de Granada

- PAIRWISE ALIGNMENT PARAMETERS: Utilizaremos siempre la opcin SlowAccurate. Los parmetros que aparecen por defecto se utilizarn en primera opcin y
probaremos despus varias posibilidades de acuerdo al tipo de secuencias que
tengamos.
- MULTIPLE ALIGNMENT PARAMETERS: Utilizaremos los parmetros establecidos
por defecto y probaremos despus varias posibilidades de acuerdo al tipo de
secuencias que tengamos.
Paso 4. A continuacin, obtendremos un rbol filogentico de las secuencias
utilizando en el men TREES la opcin DRAW TREE (extensin de los ficheros de
salida: *.ph).
El programa Clustal X slo permite la construccin de rboles filogenticos de
secuencias mediante mtodos basados en distancias genticas. Incluye dos
algoritmos: UPGMA y Neighbor-Joining (N-J). La opcin por defecto es N-J pero se
puede cambiar en la opcin CLUSTERING ALGORITHM del men TREES.
El mtodo N-J genera un rbol sin raz. La raz del rbol slo podr inferirse si se usa
una secuencia de referencia externa (outgroup: una secuencia que estamos seguros
que est en la base del rbol de acuerdo a conocimientos que tengamos de su
procedencia biolgica). Alternativamente, en el caso de que se carezca de outgroup, si
asumimos constancia en las tasas de cambio en todas las ramas del rbol (reloj
molecular), podemos situar la raz del rbol en el centro del rbol (aproximadamente
equidistante a todos los extremos de las ramas). El algoritmo UPGMA genera rboles
con raz.
Podemos evaluar la significacin estadstica de la topologa del rbol obtenido si, para
construir el rbol filogentico, utilizamos la opcin BOOTSTRAP N-J TREE que nos
dar los valores de bootstrap para cada nodo del rbol (extensin de los ficheros de
salida: *.php).
En el apndice 4 se indican algunas directrices a seguir en cuanto a parmetros tener
en cuenta a la hora de reconstruir los rboles filogenticos.

4. CUESTIONES
1. Utilizar los ficheros de secuencias de ADN dispuestas en formato FASTA
disponibles en la plataforma virtual de enseanza de las asignatura para obtener los
correspondientes alineamientos mltiples y un rbol filogentico a partir de dichos
alineamientos con el programa ClustalX.
2. Realizar bsquedas de 10 secuencias homlogas en bases de datos y realizar un
alineamiento mltiple.

- 128 -

Departamento de Gentica, Universidad de Granada

REFERENCIAS
Version 2 de ClustalW y ClustalX:
Larkin,M.A., Blackshields, G., Brown, N.P., Chenna, R., McGettigan, P.A., McWilliam,
H., Valentin, F., Wallace, I.M., Wilm, A., Lopez, R., Thompson, J.D., Gibson, T.J.,
Higgins, D.G. (2007) Clustal W and Clustal X version 2.0. Bioinformatics, 23:29472948.
ClustalX:
Thompson,J.D., Gibson,T.J., Plewniak,F., Jeanmougin,F. and Higgins,D.G. (1997) The
ClustalX windows interface: flexible strategies for multiple sequence alignment aided
by quality analysis tools. Nucleic Acids Research, 25:4876-4882.
ClustalW:
Thompson, J.D., Higgins, D.G. and Gibson, T.J. (1994) CLUSTAL W: improving the
sensitivity of progressive multiple sequence alignment through sequence weighting,
positions-specific gap penalties and weight matrix choice. Nucleic Acids Research,
22:4673-4680.
Versiones anteriores:
Clustal V:
Higgins,D.G., Bleasby,A.J. and Fuchs,R. (1992) CLUSTAL V: improved software for
multiple sequence alignment. CABIOS 8,189-191.
Clustal original:
Higgins,D.G. and Sharp,P.M. (1989) Fast and sensitive multiple sequence alignments
on a microcomputer. CABIOS 5,151-153.
Higgins,D.G. and Sharp,P.M. (1988) CLUSTAL: a package for performing multiple
sequence alignment on a microcomputer. Gene 73,237-244.
Programa NJPlot:
Perrire, G. and Gouy, M. (1996) WWW-Query: An on-line retrieval system for
biological sequence banks. Biochimie, 78, 364-369.
La ltima versin de ClustalX se puede conseguir en las siguientes direcciones
web:
http://www.clustal.org
http://www.ebi.ac.uk/Tools/clustalw2/
Tutorial on-line:
http://www.ebi.ac.uk/2can/tutorials/nucleotide/clustalw.html

- 129 -

Departamento de Gentica, Universidad de Granada

APNDICE 1: FORMATO FASTA


Ejemplo para secuencias de ADN:
>Nombre de la secuencia 1
GTTATCGTAAATTAAATCCAATGGTATTCTGTGGTTTATATCCGATTGATTCTAGAAAAATTAGAATTAAACGATTCTGCACTTGAGTTTGAACCAGAAACATTGGATTCTTAGGACTTCTTCATATGGAAATCCTTC
AAGAACGTATTGAACGT
>Nombre de la secuencia 2
GTTATCCTAACTTAAATCCAATGGTTTTCTCTGGTTTATATCCGATTGATTCTTAGAAAAATTAGAATTAAACGTTTCTGCAATTGAGTTTGAACCAGAAACATTGGATTCTTAGGACTTCTTCATATGGAAATTCTTC
GGGTACGTATTGAACGT
>Nombre de la secuencia 3
CTTTTCCTATCTTATATCCAATCCTTATGGCTCGTATATATCCGATTGATTCTTAGAAAAATTAGAATTA
AAAGGTTTCTGCATTTGAGTTTGAACCAGAAACATTGGATTCTTTGGGCTTCTTCATATGGTTTTTCTTG
GGGTACGTATTGAACGT

Ejemplo para secuencias de protenas:


>Nombre de la secuencia 1
KHPIILEKLEFPDPVISMAIEPKTKKDQEKLSQVLNKFMK-EDPTFRATTDPETGQILIHGMGELHLEIM
VDRMKREYGIEVNVGKPQVAYKETIRKKAIGEGKFIKQTGGRGQYGHAIIEIEPLPRGAGFEFIDDIHGG
VIPKEFIPSV
>Nombre de la secuencia 2
KHPLILEKLFFPDPVMSMAIEPKKKKDQEKLSQVLNKFMKEEDPTFAATTDPETGQILIHGMGELHLEIM
VDRMKREYGIEVNVGKPQVAYKETIRKKAIGEGKFIKQTGGRGQYGHAIIEEEPLPRGAGFEFIDDIHGG
VIPFEFIPSV
>Nombre de la secuencia 3
PHPLILEKLEFPDPVMAMAIEPTKKKDQEKLQQVLNKFMKEEPPTFA-TTDPETGQILIHGMGELHLEIM
DDRMKREYGIEVNVGKPQVAYKETIRKKAIGEGKFIKQTGGRGQYGHAIIEEEPLPRGAGFEFIDDIHGG
VIPFEFPP-V

- 130 -

Departamento de Gentica, Universidad de Granada

APNDICE 2: FICHEROS DE SALIDA TRAS APLICAR LA OPCIN


DO COMPLETE ALIGNMENT
Alineamiento mltiple (fichero *.aln): ADN.

[Los asteriscos indican posiciones del alineamiento en las que en todas las secuencias
existe el mismo nucletido]
Alineamiento mltiple (fichero *.aln): Protenas.

[Los asteriscos indican posiciones del alineamiento en las que en todas las secuencias
existe el mismo aminocido; ":" indica que uno de los siguientes grupos fuertes de
aminocidos con propiedades qumicas similares est muy conservado: STA, NEQK,
NHQK, NDEQ, QHRK, MILV, MILF, HY, FYW; "." indica que uno de los siguientes
grupos dbiles est muy conservado: CSA, ATV, SAG, STNK, STPA, SGND,
SNDEQK, NDEQHK, NEQHRK, FVLIM, HFY] [Estos son todos los grupos puntuados
positivamente de acuerdo a la matriz Gonnet Pam25. Los grupos definidos como
fuertes tienen una puntuacin > 0.5 mientras que los definidos como dbiles tienen
una puntuacin 0.5]

- 131 -

Departamento de Gentica, Universidad de Granada

Dendrograma (fichero *.dnd):

Dendrograma visualizado a partir del fichero anterior con el Programa NJPlot:


0.02
Cruvulg_13
Cruvulg_7
Cruvulg_5
Cruvulg_16
Cruvulg_15
Cruvulg_6
Cruvulg_2
Cruvulg_11
Cruvulg_8
Cruvulg_19
Cruvulg_12
Cruvulg_9
Cruvulg_10

- 132 -

Departamento de Gentica, Universidad de Granada

APNDICE 3: INSTRUCCIONES BSICAS SOBRE PARMETROS A TENER EN


CUENTA PARA OBTENER EL ALINEAMIENTO MLTIPLE DE LAS SECUENCIAS
A ANALIZAR
Dentro del men ALIGNMENT hay una serie de opciones a tener en cuenta:
1. REALIGN SELECTED SEQUENCES: se usa para re-alinear secuencias que, por
sus caractersticas, se observa que se han alineado de manera incorrecta en el
alineamiento global. Se seleccionan las secuencias a re-alinear con el ratn. Las
secuencias no seleccionadas quedan fijadas y se crea un perfil para ellas siendo realineadas cada una de las secuencias seleccionadas al perfil fijado.
2. REALIGN SELECTED SEQUENCE RANGE: se usa para re-alinear una pequea
regin del alineamiento. Se marcan con el ratn las columnas a re-alinear.
3. ALIGNMENT PARAMETERS: aqu se pueden determinar los parmetros que
deseamos aplicar a la hora de hacer el alineamiento si queremos hacer cambios sobre
los parmetros utilizados por defecto. Dispone de un submen:
3.1. RESET NEW GAPS BEFORE ALIGNMENT y RESET ALL GAPS BEFORE
ALIGNMENT: para eliminar los gaps generados en un alineamiento o todos los gaps
(los generados en el alineamiento ms los que existan en las secuencias del fichero
de entrada) en el caso de que se quiera hacer un nuevo alineamiento cambiando los
parmetros.
3.2. PAIRWISE ALIGNMENT PARAMETERS: controla la velocidad y la sensibilidad
del proceso de construccin de alineamientos dos a dos (pairwise) iniciales.
Entre cada par de secuencias se calcula una distancia (basada en las diferencias entre
ellas) y esta distancia se utiliza para construir el rbol filogentico (dendrograma) que
guiar en la construccin posterior del alineamiento mltiple. Los valores de dichas
distancias se calculan por separado en cada alineamiento por pares y se puede hacer
de dos maneras: siguiendo el mtodo de programacin dinmica (proceso lento pero
preciso) o el mtodo de Wilbur y Lipman (proceso muy rpido pero con un resultado
menos preciso). El mtodo lento emplea poco tiempo en el alineamiento de pocas
secuencias cortas pero es extremadamente lento para muchas secuencias (por
ejemplo, ms de 100) y largas (por ejemplo, ms de 1000 nucletidos/aminocidos).
Se puede escoger entre ambos mtodos en esta opcin, aunque nosotros, en esta
prctica, utilizaremos el mtodo preciso:
A. SLOW-ACCURATE alignment parameters (proceso lento y preciso):
Estos parmetros no tienen efecto en la velocidad del proceso. Se usan para obtener
alineamientos de secuencias dos a dos iniciales que luego son re-valorados para dar
puntuaciones de similitud. Estas puntuaciones se convierten luego en distancias entre
las secuencias para construir el rbol que servir de gua para el alineamiento mltiple
final. Los parmetros son:
- Gap Open Penalty: la penalizacin por incluir un gap en el alineamiento.
- Gap Extension Penalty: la penalizacin por la longitud de un gap.
- Protein Weight Matrix: la tabla de puntuaciones que describe la similitud de un
aminocido con otro (ver ms abajo).
- DNA Weight Matrix: la tabla de puntuaciones que se asignan a coincidencias y
ausencia de coincidencias (matches y mismatches) entre dos secuencias (incluidos los
smbolos del IUB ambiguity codes). Ver ms abajo.

- 133 -

Departamento de Gentica, Universidad de Granada

B. FAST-APPROXIMATE alignment parameters (proceso rpido y menos exacto): Las


puntuaciones de similitud se calculan a partir de alineamientos rpidos, aproximados y
globales de secuencias dos a dos y que son controlados por 4 parmetros.
3.3. MULTIPLE ALIGNMENT PARAMETERS: controla la localizacin y longitud de
los gaps en el alineamiento mltiple final.
Cada paso hasta llegar al alineamiento final consiste en alinear secuencias dos a dos.
Esto se hace de manera progresiva, siguiendo el orden de similitud establecido por el
rbol gua. Los parmetros bsicos que controlan este procedimiento son dos: la
penalizacin por gaps y la puntuacin que se da a cada posicin nucleotdica de
acuerdo a que exista identidad o no entre las dos secuencias que se comparan. As,
tenemos las opciones:
A. GAP OPENING y EXTENSION PENALTIES: controlan el coste de la expansin
cada nuevo gap y el coste de cada posicin en un gap. Incrementando la penalizacin
por cada gap (GAP OPENING), los gaps aparecern con menor frecuencia en el
alineamiento final. Incrementando la penalizacin por la extensin de los gaps
(EXTENSION PENALTIES), los gaps sern ms cortos. Los gaps terminales no se
penalizan.
B. DELAY DIVERGENT SEQUENCES: esta opcin retrasa el alineamiento de las
secuencias ms divergentes (porcentaje de divergencia que se establece en esta
opcin) hasta que las ms parecidas se han alineado primero.
C. TRANSITION WEIGHT: esta opcin da a las transiciones (cambios AG o CT)
un peso entre 0 y 1. Un valor de 0 significa que las transiciones entre las dos
secuencias en la posicin nucleotdica evaluada se puntan como posiciones
nucleotdicas no coincidentes (mismatch), mientras que un peso de 1 da a las
transiciones una puntuacin igual a la de una coincidencia entre las dos secuencias en
la posicin nucleotdica evaluada (match). Para secuencias muy divergentes, este
valor debe ponerse prximo a 0, mientras que es til asignar un peso prximo a 1
cuando las secuencias son muy parecidas. Por defecto, el valor que aparece es 0.5.
D. PROTEIN WEIGHT MATRIX: Indica las puntuaciones asignadas a cada posicin
aminoacdica dependiendo de que exista coincidencia (match) o no coincidencia
(mismatch). Esta opcin permite escoger una serie de matrices de peso para
determinar la similitud de aminocidos no idnticos. Por ejemplo, el aminocido
tirosina (Tyr) alineado con Fenilalanina (Phe) se valora mejor que el alineamiento de
Tyr con prolina (Pro).
El programa ofrece tres series de matrices. Cada serie consiste en varias matrices que
trabajan de forma diferenciada a diferentes distancias evolutivas. En resumen, el
programa almacena varias matrices en su memoria que en conjunto representan todo
el abanico de posibilidades de distancias aminoacdicas (desde secuencias casi
idnticas a secuencias altamente divergentes). Para secuencias muy similares, es
mejor usar matrices estrictas que slo den puntuaciones altas a posiciones idnticas
en todas las secuencias y a las sustituciones (cambios purina-purina o pirimidinapirimidina) ms comunes. Para la comparacin de secuencias muy divergentes es
mejor usar matrices ms laxas en sus requerimientos que den puntuaciones altas
tambin a sustituciones menos frecuentes. Clustal X ofrece la posibilidad de utilizar
diferentes series de matrices desarrolladas por diversos autores pero recomienda por
defecto el uso de la serie de matrices Gonnet Pam25.

- 134 -

Departamento de Gentica, Universidad de Granada

E. DNA WEIGHT MATRIX: Indica las puntuaciones asignadas a cada posicin


nucletidica dependiendo de que exista coincidencia (match) o no coincidencia
(mismatch) (incluyendo los cdigos de ambigedad IUB). Esta opcin permite escoger
una matriz simple (no una serie de matrices) para determinar la similitud de
nucletidos no idnticos. Hay disponibles dos matrices:
- IUB. Esta es la matriz que se usa por defecto. Cada coincidencia (match) tiene una
puntuacin de 1.9, mientras que la ausencia de coincidencia (mismatch) recibe una
valoracin de 0. Cualquier X o N en la secuencia es tratada como una coincidencia
(match) con cualquier smbolo de ambigedad (de acuerdo al cdigo de ambigedad
IUB). La falta de coincidencia entre secuencias para smbolos IUB se valora como 0.
- CLUSTALW. Cada coincidencia (match) tiene una puntuacin de 1, mientras que la
ausencia de coincidencia (mismatch) recibe una valoracin de 0. En este caso, las
posiciones con X o N, reciben una puntuacin de 0.
3.4. PROTEIN GAP PARAMETERS: despliega una ventana temporal que permite
controlar diferentes parmetros que solo se usan en el alineamiento de secuencias de
protenas.
3.5. La opcin SECONDARY STRUCTURE PARAMETERS slo se puede utilizar en
el Modo Profile Alignment Mode y permite controlar parmetros relacionados con la
estructura secundaria de las protenas.
4. ITERATION: El proceso de construccin del alineamiento mltiple final puede ser
iterado (repetir toda la serie de pasos un cierto nmero de veces) con el fin de mejorar
el resultado final. La iteracin se puede hacer en cada uno de los pasos que se vayan
dando ('Iterate each alignment step') o tras la obtencin final de un primer alineamiento
mltiple ('Iterate final alignment'). En cualquiera de los dos casos, el nmero de
iteraciones por defecto es de 3.
5. OUTPUT FORMAT OPTIONS: Permite elegir el formato del alineamiento en el
fichero de salida (CLUSTAL, GCG, NBRF/PIR, PHYLIP, GDE, NEXUS, FASTA) de
acuerdo al programa con el que se vaya a trabajar a continuacin con este
alineamiento. Se puede escoger ms de un formato (incluso los 7 disponibles).

- 135 -

Departamento de Gentica, Universidad de Granada

APNDICE 4: OPCIONES DEL MEN TREES


1. EXCLUDE POSITIONS WITH GAPS: Con esta opcin, se ignora cualquier
posicin en la que aparece un gap.
2. CORRECT FOR MULTIPLE SUBSTITUTIONS: Cuando las diferencias entre las
secuencias comparadas es pequea (< 10%) el uso de est opcin no ofrece
diferencias con respecto a no usarla. Pero ante grandes divergencias esta opcin
corrige el hecho de que las distancias observadas sean una subestimacin de la
distancia evolutiva real. Esto es porque, a mayor divergencia, ms probable es que se
haya producido ms de una sustitucin en ms de una posicin de la secuencia a lo
largo de la evolucin. Sin embargo, nosotros slo detectamos una diferencia en dichas
posiciones cuando comparamos las secuencias actuales.
3. OUTPUT FORMAT OPTIONS: Permite que el fichero de salida tenga diversos
formatos que pueden ser ledos por diversos programas de inferencia filogentica:
ClustalX, Phylip y Nexus.
En cualquier caso, ninguno de los ficheros generados permite la visualizacin del
rbol. Para visualizarlo hay que abrir el fichero generado con alguno de los programas
con los que es compatible.
Para visualizarlo nosotros, si generamos un fichero de salida con formato Clustal o
Phylip, podremos utilizar el Programa NJPLOT (ver apndice 2) que se distribuye
junto con Clustal X y est diseado por los Drs. Perrirey y Gouy de la Universidad de
Lyon (Perrire, G. and Gouy, M. (1996) WWW-Query: An on-line retrieval system for
biological sequence banks. Biochimie, 78, 364-369).

- 136 -

Departamento de Gentica, Universidad de Granada

ANLISIS FILOGENTICO

- 137 -

Departamento de Gentica, Universidad de Granada

- 138 -

Departamento de Gentica, Universidad de Granada

ANLISIS FILOGENTICO
1. OBJETIVO
La filogenia molecular consiste en el estudio de las relaciones evolutivas entre
organismos a partir de datos moleculares ordenados en un alineamiento mltiple de
secuencias de ADN o de protenas. El objetivo de esta prctica es introducirnos en la
teora y la metodologa utilizadas en el anlisis filogentico as como familiarizarnos
con el uso de programas informticos de anlisis filogentico.

2. FUNDAMENTO TERICO
Para simplificar la redaccin de este texto, nos referiremos a partir de ahora siempre a
secuencias de ADN, siendo aplicable todo lo que se dice tambin al anlisis de las
secuencias de protenas.
En el anlisis filogentico, el objetivo es la construccin de un rbol filogentico que
ilustre la historia evolutiva de un grupo de especies. Un rbol filogentico es un grfico
compuesto de nodos y ramas en el que una rama conecta dos nodos adyacentes.
Los nodos representan a las especies y las ramas definen las relaciones entre esas
especies en trminos de descendencia y ascendencia. El patrn de ramificacin se
denomina topologa del rbol. Hay que distinguir entre nodos terminales y nodos
internos. Estos ltimos representan a especies ancestrales hipotticas mientras que
los nodos terminales representan a especies existentes en la actualidad. Las especies
que estn conectadas por ramas a un mismo nodo interno, comparte ese nodo
ancestral. Las ramas que conectan nodos externos con nodos internos se denominan
ramas externas o terminales mientras que las que conectan nodos internos son
ramas internas. Un nodo puede ser bifurcado si tiene slo dos descendientes o
multifurcado si tiene ms de dos. Por lo general, la representacin ms comn de las
filogenias emplea rboles bifurcados dado que se asume que el proceso de
especiacin es binario: dos especies descendientes a partir de una especie ancestral
comn. Una multifurcacin o politoma en un rbol puede interpretarse de dos
maneras: a) representa una realidad, es decir, un ancestral ha dado lugar a ms de
dos especies descendientes; b) existe una ambigedad a la hora de determinar el
correcto patrn de bifurcacin porque los datos disponibles no son resolutivos.
Un clado natural o grupo monofiltico consiste en un grupo de txones (especies, o
grupo de especies como un gnero, una familia, un orden o una clase) que derivan de
un ancestral comn que no es compartido con ningn otro txon fuera del grupo. Se
espera que un grupo taxonmico (gnero, familia, orden o clase) sea monofiltico. Sin
embargo, algunos grupos taxonmicos establecidos actualmente pueden ser no
monofilticos: la filogenia molecular ha demostrado, en algunos casos, que un grupo
taxonmico tiene un ancestral comn compartido con otros txones (grupo
parafiltico); un grupo polifiltico est formado por dos linajes que han adquirido un
mismo carcter por convergencia evolutiva (los organismos clasificados en un mismo
grupo polifiltico comparten homoplasias fenotpicas).
Un rbol puede ser un rbol con raz cuando existe un nodo, la raz, que de forma
inequvoca es el ancestral comn ms reciente de todas las especies comparadas.
Desde la raz, una nica ruta evolutiva da lugar a cada uno de los nodos. Un rbol sin
raz es un rbol que slo especifica las relaciones de parentesco entre las especies

- 139 -

Departamento de Gentica, Universidad de Granada

comparadas sin describir los pasos evolutivos que han conducido desde un ancestral
comn a dichas especies.
Un rbol escalado es aquel en el que sus ramas estn escaladas, es decir, la longitud
de cada rama es proporcional al nmero de cambios producidos entre las secuencias
que se comparan. En un rbol no escalado las longitudes de las ramas no son
proporcionales a ese nmero de cambios con lo que los nodos terminales aparecern
alineados.
Para un grupo determinado de especies existen diferentes rboles posibles y el
nmero de estos se incrementa en relacin al nmero de especies comparadas. Sin
embargo, slo uno de esos rboles es el rbol correcto que, dependiendo de la
precisin de nuestros datos y de nuestros anlisis, puede coincidir o no con el rbol
inferido en nuestra reconstruccin filogentica.
En cualquier caso, siempre tenemos que tener presente que en nuestro anlisis lo que
comparamos son secuencias homlogas de ADN obtenidas de cada una de las
especies que estamos estudiando. Por tanto, en principio, lo que obtenemos es un
rbol gnico. Sin embargo, cada gen puede tener diferentes historias evolutivas y los
ritmos y los modos de stas pueden no reflejar coherentemente la historia evolutiva de
las especies. Por tanto, para obtener un rbol de especies lo ms preciso posible, es
ms correcto analizar la historia de diferentes genes y secuencias no gnicas.
La tasa de cambio de las secuencias comparadas es algo que debemos tener muy en
cuenta a la hora de elegir qu tipo de secuencias vamos a utilizar en nuestro anlisis
filogentico. As, si el grupo a comparar est formado por especies muy prximas
filogenticamente, se requiere una secuencia que evolucione ms rpidamente y haya
acumulado suficientes cambios en el proceso de diversificacin del grupo comparado.
En este caso, es interesante recurrir a secuencias no gnicas que cambian ms
rpidamente. El uso de secuencias de genes conservados con una funcin importante
en el organismo estara desaconsejado en este caso, dado que es muy probable que
se hayan producido muy pocos cambios en las secuencias comparadas y, por tanto,
exista poca seal filogentica con capacidad resolutiva para la reconstruccin
filogentica. No obstante, suele ser til el uso de secuencias gnicas de ADN
mitocondrial que tienen una tasa de evolucin ms rpida que las secuencias de ADN
nuclear. Cuando la comparacin es entre especies de grupos taxonmicos alejados,
por el contrario, las secuencias no gnicas pueden ser muy dispares y ser poco
aconsejables para el anlisis filogentico. En este caso, es ms conveniente el uso de
secuencias ms conservadas.

Mtodos de reconstruccin filogentica


La mayora de los diferentes mtodos de inferencia filogentica propuestos por
diversos autores definen un criterio de optimizacin determinado que persigue
elegir el mejor rbol de entre todos los posibles que podran explicar los datos de
partida. Este criterio da diferentes valores a cada rbol posible. Este valor es el que se
usa para comparar los diferentes rboles. Existen diferentes algoritmos que permiten
computar dichos valores e identificar el mejor rbol de acuerdo al criterio de
optimizacin.
En la actualidad disponemos de los siguientes mtodos de inferencia filogentica: a)
mtodos basados en matrices de distancias genticas; b) mtodo de mxima
parsimonia; c) mtodo de mxima verosimilitud; d) mtodo bayesiano.

- 140 -

Departamento de Gentica, Universidad de Granada

Mtodos basados en matrices de distancias


Existen varios mtodos de reconstruccin de rboles filogenticos basados en
matrices de distancias genticas. En todos ellos, lo primero que se debe hacer es
construir dicha matriz de distancias. Para ello se estiman las diferencias entre cada par
de secuencias del alineamiento. La forma ms simple de calcular la distancia gentica
es calculando el nmero de diferencias (p) entre las secuencias. Sin embargo, si p
tiene un valor alto (las secuencias han divergido considerablemente) puede ocurrir
que, en cada sitio del alineamiento se hayan producido substituciones mltiples y
reversiones de tal forma que p nos estar dando un valor subestimado del nmero de
substituciones nucleotdicas ocurridas realmente. Por lo tanto, se han desarrollo un
nmero amplio de mtodos de clculo de distancias corregidas basados en modelos
probabilsticos. Los clculos de dichas distancias son valores corregidos de p segn
dichos modelos. Cada modelo asume un patrn evolutivo diferente con respecto a
composicin nucleotdica y tasas de cambio para cada tipo de substitucin
nucleotdica, para cada posicin nucleotdica y para cada linaje. Ms adelante, cuando
estudiemos los mtodos de mxima verosimilitud, volveremos a hablar de estos
modelos.
Una matriz de distancias tpica tiene esta apariencia:
Especie 1

Especie 1

Especie 2

Especie 2

Especie 3

Especie 4

Especie 5

0,012

0,018

0,022

0,035

0,013

0,020

0,032

0,021

0,033

Especie 3

Especie 4

0,020

Los valores de distancias de esta matriz son los que se utilizan para reconstruir el
rbol, siendo la longitud de las ramas proporcional a dichos valores. Como se deca al
principio, existen diferentes mtodos de inferencia basados en distancias, pero el ms
popular es el mtodo del vecino ms prximo, conocido normalmente con su
denominacin en ingls (Neighbor-joining o mtodo N-J). Este mtodo se basa en un
algoritmo que trata de buscar el rbol ms corto, es decir, aquel que minimiza la
longitud total del rbol, entendida sta como la suma de las longitudes de todas sus
ramas. Primero se identifican las dos secuencias que ms se parecen (menor
distancia gentica hay entre ellas). Es decir, de entre todos los pares de secuencias
comparados, se identifican aquellas dos secuencias cuya suma de las longitudes de
sus ramas es la menor. Ese par de secuencias constituyen el primer par de "vecinos",
conectados a travs de un nodo interno. El siguiente paso es considerar a este par
como una sola secuencia computndose la distancia media aritmtica entre ellas y el
resto de secuencias y construyendo una nueva matriz de distancias. A continuacin se
elige de nuevo el par de secuencias cuya suma de las longitudes de sus ramas es la
menor, procedimiento que se contina hasta que se identifican todos los nodos
internos del rbol.

- 141 -

Departamento de Gentica, Universidad de Granada

Como ejercicio, se podra tratar de construir manualmente un rbol por este mtodo a
partir de la matriz de distancias mostrada ms arriba.

Mtodo de mxima parsimonia


El mtodo de mxima parsimonia persigue construir una filogenia con la topologa
que requiera el menor nmero de cambios evolutivos para explicar las diferencias
observadas entre las secuencias alineadas. A veces, este criterio lo cumplen dos o
ms rboles que sern igualmente parsimoniosos. Para aplicar este criterio, cada uno
de los sitios nucleotdicos de la secuencia se clasifica de la siguiente manera:
-Invariable: todas las secuencias presentan el mismo nucletido en dicha posicin.
-Informativo: un sitio es filogenticamente informativo desde el punto de vista de la
mxima parsimonia cuando hay al menos dos clases diferentes de nucletidos, cada
uno representado al menos dos veces en el alineamiento.
-No informativo: un sitio que, siendo variable, no cumple el anterior requisito.
Una vez clasificados los sitios del alineamiento e identificados los sitios informativos,
para cada rbol posible se calcula el nmero mnimo de sustituciones necesarias para
explicar cada sitio informativo. Sumando el nmero de cambios para el conjunto de
todos los sitios informativos para cada rbol posible, se elegir aquel rbol que se
explique con el menor nmero de cambios.
Si hay ms de un rbol con ese nmero, se puede obtener un rbol consenso, del
que podemos distinguir: a) consenso estricto (strict consensus), en el que todas las
ramas conflictivas se resuelven colapsndolas a un nico nodo multifurcado; b)
consenso por la regla de la mayora (majority-rule consensus) en el que las ramas en
conflicto se resuelven mediante la seleccin del patrn de ramificacin observado en
ms del 50% de los rboles obtenidos.

Mtodo de mxima verosimilitud


La verosimilitud, L, de un rbol filogentico es la probabilidad de que los datos
observados en un alineamiento se puedan explicar a partir de esa filogenia construida
segn un modelo evolutivo de substitucin nucleotdica determinado, es decir, L =
P(datos|rbol+modelo). El objetivo del mtodo de mxima verosimilitud es encontrar
el rbol con el mayor valor de L, de entre todos los rboles posibles que explicaran los
datos observados.
La pregunta que hay que plantearse es: Cul es la probabilidad de que una filogenia
determinada haya generado los datos observados en un alineamiento asumiendo un
determinado modelo evolutivo de substitucin nucleotdica?
Para responder a la pregunta, asumiendo que cada sitio del alineamiento evoluciona
independientemente, hay que calcular L para cada sitio separadamente (Ln) y en
conjunto (L = L1 x L2 x L3 x...x Ln). Para calcular cada Ln se deben considerar todos los
posibles escenarios a travs de los cules se ha llegado al nucletido actual en cada
secuencia a partir de un nucletido ancestral. Algunos escenarios sern ms
plausibles que otros pero todos tendrn al menos alguna probabilidad de ser los que
han generado la situacin actual. Por tanto, cada Ln tiene una probabilidad que es
igual a la suma de las probabilidades de cada posible reconstruccin filogentica que
explique los datos actuales desde la situacin ancestral. Estas probabilidades
dependen del modelo evolutivo que asumamos y de la longitud de las ramas la cul, a

- 142 -

Departamento de Gentica, Universidad de Granada

su vez, depende de la tasa de sustitucin y del tiempo evolutivo. Por conveniencia, la


verosimilitud se calcula mediante transformacin logartmica (lnL) con lo que
tendremos que lnL = lnL1 + lnL2 + lnL3 +...+ lnLn.
Un rbol filogentico inferido por este mtodo solo es vlido para el modelo evolutivo
asumido pero puede no ser vlido para otro modelo evolutivo. Por ello, es fundamental
una correcta eleccin del modelo evolutivo aplicable a las secuencias analizadas.
Existen diferentes modelos evolutivos que tratan de explicar el patrn de sustitucin
nucleotdica que siguen las secuencias analizadas. Desde un modelo general en el
que se asume que cada tipo de sustitucin nucleotdica tiene una tasa diferente y que
cada nucletido aparece en la secuencia en una proporcin diferente hasta un modelo
ms simple en el que asumimos que todos los nucletidos aparecen con la misma
frecuencia (25% para cada uno de los cuatro nucletidos) y existe una misma tasa de
cambio para todos los tipos de sustitucin nucleotdica. Pasando por diferentes
modelos en los que se tienen en cuenta las diferencias en la proporcin de nucletidos
o no y se consideran de manera diferenciada los diferentes tipos de substituciones
nucleotdicas (diferentes tipos de transiciones y de transversiones). Adems cada
modelo puede asumir que las tasas de cambio difieren entre sitios nucleotdicos del
alineamiento diferentes o entre linajes de la filogenia diferentes. Se hace, por tanto,
necesario testar qu modelo evolutivo se ajusta mejor a las secuencias analizadas.

Mtodo de inferencia bayesiana


La inferencia bayesiana de una filogenia est basada en una cantidad llamada
probabilidad posterior de rboles de distribucin, que es la probabilidad de un rbol
condicionado por las observaciones [P(rbol+modelo|datos)]. El condicionamiento se
logra a travs del teorema de Bayes. No es posible calcular analticamente la
probabilidad posterior de rboles de distribucin. A cambio, se utiliza una tcnica de
simulacin llamada Monte Carlo de cadena de Markov (MCMC) para aproximar esta
probabilidad.
Fiabilidad de la reconstruccin filogentica
Para responder a la pregunta que nos podamos hacer con respecto al rbol obtenido
por cualquiera de los mtodos existentes sobre la fiabilidad del mismo existen mtodos
que nos permiten estimar el soporte estadstico de la topologa obtenida. Uno de los
ms populares es el mtodo de re-muestreo con re-emplazamiento o bootstrap. Una
vez obtenido un rbol filogentico a partir de un alineamiento de secuencias y con un
mtodo determinado, esta filogenia se convierte en la hiptesis nula a comprobar
mediante bootstrap. Para ello, se construyen nuevos alineamientos diferentes (un
nmero apropiado podra ser entre 500 y 1000) mediante re-muestreo con reemplazamiento. Es decir, se construyen diferentes alineamientos al azar reemplazando un nmero determinado de posiciones nucleotdicas con otras posiciones
del alineamiento, cada una de las cuales tiene la misma probabilidad de re-emplazar a
las dems. Por tanto en el nuevo alineamiento, un sitio puede estar repetido ms de
una vez a costa de otros sitios. As, si el alineamiento tiene esta secuencia de
posiciones nucleotdicas:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

- 143 -

Departamento de Gentica, Universidad de Granada

Los diferentes re-muestreos pueden dar lugar a alineamientos como stos:


1 1 1 4 4 6 6 6 6 10 11 12 12 12 12 12 17 18 19 20 20 20 20 24 24
1 1 3 3 3 6 7 8 8 8 8 8 13 14 15 15 15 15 19 19 19 25 25 25 25
2 2 2 4 5 5 5 8 9 10 10 12 12 12 16 16 17 19 20 21 21 24 24 24 25
A partir de cada uno de los nuevos alineamientos se infiere un nuevo rbol filogentico
utilizando el mismo mtodo utilizado con el alineamiento inicial. El porcentaje de veces
que cada rama interior del rbol inicial se confirma en el conjunto de los rboles
obtenidos por bootstrap, constituye el valor de bootstrap de cada rama. Como regla
general, si el valor de bootstrap de una rama interior determinada es superior al 95%,
se acepta que la topologa de esa rama es correcta.

3. METODOLOGA
En esta prctica utilizaremos el programa MEGA (Molecular Evolutionary Genetic
Analysis) desarrollado por el grupo de los Drs. Sudhir Kumar and Koichiro Tamura (ver
referencias al final del texto). Concretamente, utilizaremos la versin 5 recientemente
actualizada.
El objetivo de este programa ha sido siempre, desde su primera versin, la de proveer
de diferentes herramientas para explorar y analizar secuencias de ADN y protenas
desde una perspectiva evolutiva. Ofrece una amplia gama de posibilidades en cuanto
a anlisis evolutivos. Nosotros, no obstante, nos centraremos slo en el uso del
programa para construir rboles filogenticos de secuencias de ADN a partir de
alineamientos mltiples obtenidos previamente con el Programa Clustal X.
Los ficheros de entrada (input) deben ser ficheros bsicos del tipo ASCII-tex y pueden
contener tanto secuencias de ADN o secuencias de protenas como una matriz de
distancias genticas o informacin sobre un rbol filogentico. En esta prctica nos
vamos a centrar en filogenias basadas en secuencias de ADN y las explicaciones que
se darn en este guin correspondern, por tanto, al anlisis de este tipo de datos. La
mayor parte de programas procesadores de textos permiten editar y guardar ficheros
ASCII. Estos, normalmente, tienen una extensin del tipo *.txt. Una vez creado un
fichero de este tipo, es conveniente cambiar la extensin al tipo *.meg de tal manera
que se pueda distinguir entre ficheros para usar con MEGA y otros ficheros de texto.
En el Apndice 1 se muestra un alineamiento de secuencias en formato MEGA.
Los ficheros deben contener varias secuencias de igual longitud y, sobre todo, deben
estar previamente alineadas. El programa MEGA permite alinear de novo las
secuencias que le sean suministradas en un fichero en formato fasta (entre otros
formatos). Tambin puede usarse un fichero que contenga secuencias alineadas con
otros programas. Nosotros utilizaremos los ficheros obtenidos con el programa Clustal
X en la prctica realizada anteriormente. Para ello, habr de convertirse primero los
ficheros *.aln obtenidos con dicho programa a ficheros *.meg. Existe un convertidor en
el propio programa MEGA que genera ficheros con el formato requerido por este
programa: una vez abierto el programa MEGA, desplegando el Men File,
utilizaremos la opcin Convert file format to MEGA. Aparecer una ventana
emergente que nos pedir que indiquemos el nombre del fichero a convertir y su
extensin (*.aln en este caso). Una vez obtenida la conversin a formato MEGA,

- 144 -

Departamento de Gentica, Universidad de Granada

guardaremos el fichero resultante con extensin .meg y lo utilizaremos despus para


nuestro anlisis filogentico.

Tanto las secuencias de nucletidos como las de aminocidos han de seguir las reglas
de cdigo IUPAC. Adems, se pueden utilizar los siguientes smbolos especiales:
- Espacios en blanco ( ): son ignorados por MEGA.
- Punto (.): representa identidad en esa posicin de la secuencia con el
nucletido/aminocido de la primera secuencia.
- Interrogacin (?): dato desconocido (missing data)
- Guin (-): gap.
El programa MEGA dispone de un editor de texto (Text File Editor invocado con la
opcin Edit aText File dentro del men File) que es muy til para crear y editar ficheros
ASCII. Se invoca su aparicin tanto a requerimiento nuestro como de manera
automtica por parte del programa en cuanto en el fichero de entrada (input) se
detectan errores de formato. Una vez hechos los cambios estos se pueden guardar
permanentemente.

- 145 -

Departamento de Gentica, Universidad de Granada

Una vez abierto con el programa MEGA un fichero con secuencias de ADN alineadas
en formato MEGA, lo primero que aparecer en la pantalla ser el alineamiento
dispuesto en una cuadrcula (Sequence Data Explorer):

Este explorador ofrece diversas funciones como por ejemplo: a) la posibilidad de


seleccionar diferentes subconjuntos de datos o de secuencias (Setup/Select Genes
and Domains y Setup/Select Taxa and Groups); b) diferentes tipos de anlisis
estadsticos como la composicin nucleotdica; c) identificacin de posiciones
nucleotdicas segn que estn conservadas, sean variables o sean filogenticamente
informativas. En esta prctica no utilizaremos las opciones que permiten definir
regiones en las secuencias o seleccionar grupos de secuencias. Sin embargo, s que
podremos visionar las secuencias y determinar algunos datos interesantes como el
nmero de posiciones nucleotdicas variables o la composicin nucleotdica de dichas
secuencias.
Una vez analizadas visualmente las secuencias, procederemos a hacer los anlisis
filogenticos. A continuacin, se detallan los pasos a seguir para hacer una
reconstruccin filogentica de las secuencias alineadas mediante diferentes mtodos
de inferencia:
Paso 1. Desplegar el men Models y seleccionar la opcin Find Best DNA/Protein
Models. Este anlisis inicial es muy til para conocer el modelo evolutivo al que se
ajustan los cambios producidos en las secuencias a analizar. El resultado del anlisis
es un listado con los diferentes valores obtenidos mediante diferentes criterios (BIC o
criterio de inferencia bayesiano, AICc o Criterio de Akaike, lnL o criterio de mxima
verosimilitud). Por lo general, utilizaremos el criterio bayesiano. El modelo que
presente la puntuacin ms baja segn este criterio se considera que describe mejor
el patrn de sustitucin de las secuencias analizadas.

- 146 -

Departamento de Gentica, Universidad de Granada

Paso 2. A continuacin desplegaremos el Men Phylogeny con el fin de realizar el


anlisis filogentico. La reconstruccin filogentica se va a realizar con tres de los
mtodos propuestos por el programa: Mxima parsimonia, Mxima verosimilitud y
Neighbor-joining (uno de los tres mtodos de los que se dispone en el programa para
calcular rboles basados en distancias genticas).
A cualquiera de los mtodos se accede desde el men Phylogeny:

Realizada la eleccin correspondiente, aparecer una ventana emergente en la que


incluir los parmetros adecuados:

- 147 -

Departamento de Gentica, Universidad de Granada

En la opcin Test of phylogeny escogeremos la opcin 'Bootstrap method' que nos


permite evaluar la fiabilidad de las topologas obtenidas mediante el mtodo bootstrap
de remuestreo para lo que hay que indicar en la ventana emergente que aparece el
nmero de rplicas a realizar en el anlisis (1000 puede ser suficiente).
Seguidamente, en la misma ventana, seleccionaremos los parmetros a tener en
cuenta segn que mtodo estemos utilizando para construir el rbol filogentico:
2. A. Mtodos basados en distancias genticas. De los tres disponibles,
utilizaremos el mtodo Neighbor-joining (N-J). Esta opcin requiere el clculo previo de
las distancias genticas entre las secuencias alineadas, clculo que est basado en el
nmero de diferencias entre cada par de secuencias. Para ello, en la misma ventana
emergente en la que hemos seleccionado el test estadstico a utilizar, seleccionaremos
el modelo de substitucin (Substitution model) para calcular las distancias genticas,
para lo que tendremos en cuenta el resultado obtenido en el paso 1.
Si el anlisis del paso 1 determin que los patrones de sustitucin no son homogneos
entre diferentes posiciones nucleotdicas de nuestro alineamiento, se seleccionara en
el desplegable 'Rates among Sites' la opcin Gamma distributed y se indicar un
valor para el parmetro gamma que se pude obtener en el men Rates. Si el anlisis
del paso 1 determin que los patrones de sustitucin no son homogneos entre linajes
diferentes de la filogenia, en el desplegable 'Pattern among lineages' se indicar que el
patrn es heterogneo.
La opcin Data subset to use permite manejar los gaps y datos desconocidos
(missing data), incluir o excluir codones, y restringir el anlisis a posiciones
nucleotdicas marcadas:
Gaps and Missing Data
Se puede escoger eliminar todas las posiciones nucleotdicas en las que
en alguna secuencia existe un gap o datos desconocidos (missing data) antes
de iniciar los clculos utilizando la opcin 'Complete-deletion'. Alternativamente,
se puede optar por retener todas esas posiciones inicialmente y excluirlas slo
en las comparaciones entre secuencias dos a dos durante el proceso de
clculo de distancias (opcin 'Pairwise-deletion').

- 148 -

Departamento de Gentica, Universidad de Granada

Include Sites: Codon Positions


Se puede seleccionar cualquier combinacin de codones y de posiciones
nucleotdicas no codificadoras con el fin de tratarlas diferencialmente en el
anlisis.
Include Sites: Labeled Sites
Esta opcin est disponible slo si hay marcas asociadas con algunas de las
posiciones nucleotdicas del alineamiento. Se puede optar por incluir en el
anlisis slo esas posiciones nucleotdicas marcadas.
Si queremos conocer los valores de distancias genticas calculados entre cada par de
secuencias podemos visualizar una tabla de distancias mediante la opcin Compute
pairwise distance del men Distance:

Habr que introducir el mtodo requerido para el clculo de distancias y las diferentes
opciones referidas anteriormente con respecto al tratamiento de las posiciones
nucleotdicas.
Como se puede ver, este men ofrece muchas otras posibilidades, que no
exploraremos, como el clculo del valor medio de distancia entre todas las secuencias
o las distancias medias dentro de grupos particulares de secuencias del alineamiento
as como entre grupos de secuencias.
2. B. Mtodo de mxima parsimonia (MP). Para construir un rbol MP, slo se usan
las posiciones de las secuencias en las que hay al menos dos clases diferentes de
nucletidos, cada uno representado al menos dos veces (sitios informativos). El resto
de sitios variables no se usan en MP aunque s se usan en mtodos de distancias o de
ML.
Para la bsqueda del mejor rbol, MEGA ofrece tres tipos diferentes de bsquedas:
max-mini branch-and-bound search, min-mini heuristic search, y close-neighbor-

- 149 -

Departamento de Gentica, Universidad de Granada

interchange heuristic search. Slo el primero de ellos garantiza la posibilidad de


encontrar todos los rboles MP posibles pero el tiempo que se requiere para ello es
enorme, sobre todo si en el alineamiento hay ms de 15 secuencias. As que
utilizaremos alguno de los mtodos heursticos.
El mtodo MP puede generar diferentes rboles igualmente parsimoniosos.
Seleccionando la opcin 'Consensus tree' obtendremos un rbol consenso entre
todos los rboles posibles. Contamos con dos tipos de rboles consenso: a) consenso
estricto (strict consensus), en el que todas las ramas conflictivas se resuelven
colapsndolas a un nico nodo multifurcado; b) consenso por la regla de la mayora
(majority-rule consensus) en el que las ramas en conflicto se resuelven mediante la
seleccin del patrn de ramificacin observado en ms del 50% de los rboles
obtenidos.
La opcin Tree Inference Options nos permite definir que mtodo de MP se usar
para obtener los rboles ms parsimoniosos. Nosotros probaremos el mtodo
heurstico (Close-neighbor interchange).
La opcin Data subset to use nos ofrece las mismas posibilidades que en el caso
anterior.
2. C. Mtodo de mxima verosimilitud (ML). Se dispone de las mismas opciones
vistas hasta ahora: Test estadstico a aplicar, Modelo de substitucin o Tratamiento
que se le dar a los sitios desconocidos y a los gaps. A la hora de elegir el modelo
evolutivo aplicable a la evolucin de las secuencias analizadas tendremos en cuenta el
resultado obtenido en el paso 1.
Finalmente se nos da a elegir entre dos mtodos heursticos de inferencia (Tree
Inference Options): Close-Neighbor-Interchange (CNI) y Nearest-NeighborInterchange (NNI). Usaremos este segundo mtodo.
Paso 3. Cuando varios nodos internos de un rbol filogentico tienen significacin
estadstica baja, es til a menudo producir un rbol multifurcado asumiendo que todas
las ramas que parten de dichos nodos tienen una longitud igual a 0. Este tipo de rbol
se denomina rbol condensado (Condensed tree). En MEGA, este tipo de rboles se
pueden obtener para cualquier valor de bootstrap. Debemos incluir un porcentaje de
bootstrap para el cual todas las ramas de nodos con soporte menor que dicho
porcentaje tendrn reducida su longitud a 0. Dado que las ramas poco significativas
son eliminadas, este tipo de rboles enfatizan el resto de ramificaciones. En este tipo
de rboles, no obstante, debemos considerar slo la topologa y no prestar excesiva
atencin a la longitud de las ramas ya que todas quedan modificadas al reducir a 0 la
longitud de las poco significativas.
Este tipo de rboles pueden parecer similares a los rboles consenso obtenidos por
MP, pero son diferentes. Un rbol consenso es el resultado de escoger un rbol
representativo del total de todos los rboles parsimoniosos obtenidos, mientras que un
rbol condensado es simplemente una versin simplificada de un rbol.
La opcin de producir rboles condensados est disponible para cualquiera de los
mtodos de inferencia filogentica que vamos a utilizar.
Paso 4. Tras la aplicacin de cada uno de los tres mtodos probados, guardaremos
los rboles obtenidos mediante la opcin Save current session del men File que

- 150 -

Departamento de Gentica, Universidad de Granada

aparece sobre la reconstruccin filogentica. Este men tambin nos permite imprimir
el rbol. A partir del men Image se puede seleccionar guardar el rbol como fichero
*.tiff o como fichero *.pdf.

4. CUESTIONES
1. Utilizando los alineamientos de secuencias de ADN obtenidos en la prctica anterior
con el programa ClustalX obtener rboles filogenticos mediante N-J, MP y ML.

REFERENCIAS
Tamura K, Dudley J, Nei M & Kumar S (2007) MEGA4: Molecular Evolutionary
Genetics Analysis (MEGA) software version 4.0. Molecular Biology and Evolution 24:
1596-1599.
Kumar S, Dudley J, Nei M & Tamura K (2008) MEGA: A biologist-centric software for
evolutionary analysis of DNA and protein sequences. Briefings in Bioinformatics 9: 299306.
Las diferentes versiones de MEGA, as como un completo manual tanto en
formato pdf como on-line se pueden conseguir en la siguiente direccin web:
http://www.megasoftware.net/

- 151 -

Departamento de Gentica, Universidad de Granada

APNDICE 1: FORMATO MEGA


Ejemplo para secuencias de ADN:
#MEGA
Title: denominacin del fichero (tipo de secuencias, grupo biolgico, etc)
#Cruvulg_9
#Cruvulg_12
#Cruvulg_8
#Cruvulg_11
#Cruvulg_19
#Cruvulg_10
#Cruvulg_2
#Cruvulg_6
#Cruvulg_15
#Cruvulg_16
#Cruvulg_5
#Cruvulg_7
#Cruvulg_13

TTACTTTTGCTACGGGAGTCCGTTCTTCGCCCACGAACTATCAAAACGAAGCTACGGACC
T-ACTTTTGCTACGGGAGTCCGTTCCAGGCCCACGAACTATCAAAACGAAGCTACGGACC
TAACTTTTGCTACGGGAGTCCGTTCCAGGCCCACGAACTATCAAAACGAAGCTACGGACC
TAACTTTTGCTACGGGAGTCCGTTCCAGGCCCACGAACTATCAAAACGAAGCTACGGACC
TAACTTTTGCTACGGGAGTCCGTTCCAGGCCCACGAACTATCAAAACGAAGCTACGGACC
T-ACTTTTGCTACGGGAGTCCGTTCCAGGCCCACGAACTATCAAAACGAAGCTACGGACC
TAACTTTTGCTACGGGAGTCCGTTTCAGTCCCACGAACTATCAAAACGAAGCTATAGACG
TAACTTTTGCTACGGGAGTCCGTTTCAGGCCCACGAACTATCAAAACGAAGCTATAGACG
T-ACTTTTGCTACGGGAGTCCGTTTCAGGCCCACGAACTATCAAAACGAAGCTATAGACG
T-ACTTTTGCTACGGGAGTCCGTTTCAGGCCCACGAACTATCAAAACGAAGCTATAGACG
T-ACTTTTGCTACGGGAGTCCGTTTCAGGCCCACGAACTATCAAAACGAAGCAGTCGACG
T-ACTTTTGCTACGGGAGTCCGTTTTAGGCCCACGAACTATCAAAACGAAGCTATCGACG
TAACTTTTGCTACGGGAGTCCGTTTTAGGCCCACGAACTATCAAAACGAAGCTATCGACG

#Cruvulg_9
#Cruvulg_12
#Cruvulg_8
#Cruvulg_11
#Cruvulg_19
#Cruvulg_10
#Cruvulg_2
#Cruvulg_6
#Cruvulg_15
#Cruvulg_16
#Cruvulg_5
#Cruvulg_7
#Cruvulg_13

ATAAGCACATTCCCAATGTTTTAGATTTTG--------TCAACACAACTCTATCCAGCCA
ATAAGCACATTCCCAATGTTTTAGATTTTG--------TCAACACAACTCTATCCAGCCA
ATAAGCACATTCCCAATGTTTTAGATTTTG--------TCAACACAACTCTATCCAGCCA
ATAAGCACATTCCCAATGTTTTAGATTTTG--------TCAACACAACTCTATCCAGCCA
ATAAGCACATTCCCAATGTTTTAGATTTTG--------TCAACACAACTCTATCCAGCCA
ATAAGCACATTCCCAATGTTTTAGATTTTG--------TCAACACAACTCTATCCAGCCA
AGGAGTACATTTAAAACGTTTCAGATTTTG--------GAAATGAAACATTATTCGGTCA
AGGAGTACATTTAAAACGTTTCAGATTTTG--------GAAATGAAACATTATTCGGTCA
AGGAGTACATTTAAAACGTTTCAGATTTTG--------GAAATGAAACATTATTCGGTCA
AGGAGTACATTTAAAACGTTTCAGATTTTG--------GAAATGAAACATTATTCGGTCA
ATGACTACATTTCCAGCATTTCGGATTTTGCATCCAACAATATGAAACATTATCCGGCCA
ATGACTACATTTCCAGCATTTCGGATTTTGCATCCAACAATATGAAACATTATCCGGCCA
ATGACTACATTTCCAGCATTTCGGATTTTGCATCCAACAATATGAAACATTATCCGGCCA

#Cruvulg_9
#Cruvulg_12
#Cruvulg_8
#Cruvulg_11
#Cruvulg_19
#Cruvulg_10
#Cruvulg_2
#Cruvulg_6
#Cruvulg_15
#Cruvulg_16
#Cruvulg_5
#Cruvulg_7
#Cruvulg_13

TGTTTCGATACATGACACGACATATGTTCGTTCGGCTCGGGGAATGGGTGGTTTCGGCTG
TGTTTCGATACATGACACGACATATGTTCGTTCGGCTCGGGGAATGGGTGGTTTCGGCTG
TGTTTCGATACATGACACGACATATGTTCGTTCGGCTCGGGGAATGGGTGGTTTCGGCTG
TGTTTCGATACATGACACGACATATGTTCGTTCGGCTCGGGGAATGGGTGGTTTCGGCTG
TGTTTCGATACATGACACGACATATGTTCGTTCGGCTCGGGGAATGGGTGGTTTCGGCTG
TGTTTCGATACATGACACGACATATGTTCGTTCGGCTCGGGGAATGGGTGGTTTCGGCTG
CAATCCGGTAAATTGCACGACGTGCCTTC-TTCGTCTTTTCGAATGGATGGCTGCAGTAG
CAATCCGGTAAATTGCACGACGTGCCTTC-TTCGTCTTTTCGAATGGATGGCTGCAGTAG
CAATCCGGTAAATTGCACGACGTGCCTTC-TTCGTCTTTTCGAATGGATGGCTGCAGTAG
CAATCCGGTAAATTGCACGACGTGCCTTC-TTCGTCTTTTCGAATGGATGGCTGCAGTAG
CAACCCGGTAAATTGCTCGACGCGC--------GCGCGTTTGAATGGATGGATGCAGTCG
CAACCCGGTAAATTGCTCGACGCGC--------GCGCGTTTGAATGGATGGATGCAGTCG
CAACCCGGTAAATTGCTCGATGCGC--------GCGCGTTTGAATGGATGGATGCAGTCG

- 152 -

Departamento de Gentica, Universidad de Granada

ANLISIS COMPUTACIONAL DE
DATOS DE EXPRESIN GNICA
DIFERENCIAL OBTENIDOS
MEDIANTE CHIPS DE ADN

- 153 -

Departamento de Gentica, Universidad de Granada

- 154 -

Departamento de Gentica, Universidad de Granada

ANLISIS COMPUTACIONAL DE DATOS DE


EXPRESIN GNICA DIFERENCIAL
OBTENIDOS MEDIANTE CHIPS DE ADN
1. OBJETIVOS
La prctica se centra en el anlisis de datos de expresin gnica obtenidos mediante
la tcnica de chip de ADN. La prctica se llevar a cabo mediante el programa
GEPAS/BABELOMICS. Este programa funciona como servidor-web y se ubica en el
Centro de Investigacin Prncipe Felipe de Valencia. Para su uso nicamente se
necesita un navegador. Este servidor-web implementa todos los mtodos necesarios
para el anlisis permitiendo adems el almacenamiento de los datos de los usuarios.
Mediante el desarrollo de esta prctica se pretenden alcanzar los siguientes objetivos:

Entender los principios bsicos en los que se basa la tecnologa de chip de


ADN

Conocer las fuentes de artefactos tcnicos y obtener nociones bsicas del


preprocesamiento de datos (filtrar muestras que no tienen una calidad
suficiente, normalizacin, sustraccin del ruido)

Conocer los formatos de ficheros con los que trabajamos en esta prctica
(datos crudos en CEL & matriz de expresin)

Saber lo que es un log2-ratio y un valor-P y usar estas medidas para obtener


una lista de genes expresados diferencialmente

Obtener nociones bsicas de los mtodos estadsticos que se emplean


incluyendo la correccin para controlar la acumulacin de errores de tipo II

Saber interpretar un heat map

2. FUNDAMENTO TERICO
2.1. Introduccin
Los chips de ADN permiten medir simultneamente miles de propiedades genmicas
como la expresin gnica o la existencia de polimorfismos (tanto SNPs como CNV
variaciones en el nmero de copias). La exactitud y reproducibilidad de esta tecnologa
han sido altamente probadas durante la ltima dcada. Existen artefactos que pueden
enmascarar la seal biolgica o generar una seal falsa. Estos artefactos incluyen la
preparacin de la muestra, el proceso de hibridacin, sesgo de fluorocromos,
hibridacin no-especfica o diferencias entre los escneres. Antes de analizar los
datos, estos artefactos tienen que ser analizados y corregidos (si es posible). Este
paso se llama preproceso e incluye la inspeccin de los datos crudos, la filtracin de
muestras con calidad insuficiente, la sustraccin del ruido de fondo y la normalizacin.
El resultado de un experimento para detectar expresin diferencial es siempre una lista
de genes que caracteriza el experimento.

- 155 -

Departamento de Gentica, Universidad de Granada

2.2. Expresin diferencial


La expresin diferencial es el cambio de los niveles de expresin de uno o ms genes
entre dos o varias condiciones. Algunos anlisis tpicos donde se emplean estas
tcnicas son:

Detectar posibles causas de una enfermedad (muestras sanas frente a


muestras patolgicos o muestras que corresponden a distintas fases de la
enfermedad) Caracterizar las diferencias de expresin entre tipos celulares
(hgado frente a cerebro, etc.)

Determinar los genes implicados en el desarrollo (no-diferenciado frente a


diferenciado o las diferentes fases de diferenciacin)

Medir los efectos de estmulos externos: medicamentos, luz, alimentacin,


sueo, etc.

Comparar clulas u organismos mutantes frente al tipo comn.

Por lo tanto, muchas veces se comparan dos condiciones entre s. Es comn referirse
a una de estas condiciones como casos" (enfermos, con tratamiento, mutantes, etc.) y
a la otra como controles".
2.3. Chip de ADN
El principio en que se basa la tcnica de chip de ADN es la hibridacin entre dos
hebras complementarias (Figura 1). Para hacer uso de la hibridacin se fijan miles de
oligonucletidos (sondas) en una superficie slida. Las sondas pueden tener
longitudes muy diferentes de un fabricante a otro (60 nt en Agilent y 25 nt en
Affymetrix). De estos oligonucletidos se conoce tanto la posicin en la superficie del
chip como el gen al que representan. Las muestras analizadas suelen ser ADNc y
ARNc etiquetados con fluorocromos. Despus de la hibridacin entre la muestra y las
sondas se eliminan (mediante lavado) las hibridaciones no-especficas (hibridacin
cruzada). Como ltimo paso se excitan los fluorocromos con un lser leyendo despus
con un escner la fluorescencia de cada sonda, siendo la intensidad proporcional al
nivel de expresin del gen. La Figura 2 muestra los pasos que engloba un experimento
de chip de ADN, desde la extraccin del ARN hasta el anlisis bioinformtico.

Figura 1: El principio bsico de la hibridacin entre las sondas y las muestras marcadas con fluorocromos.

- 156 -

Departamento de Gentica, Universidad de Granada

Figura 2: Los diferentes pasos en un anlisis de chip de ADN.

2.4. Formatos
Cada fabricante maneja formatos diferentes para analizar los resultados crudos del
experimento. En el caso de Affymetrix, los ficheros que contienen los datos crudos
tienen extensin CEL. Se pueden obtener ms datos acerca del formato en la
siguiente direccin:
http://www.affymetrix.com/support/developer/powertools/changelog/gcos-agcc/cel.html
Entre otros valores, este fichero contiene las intensidades y las desviaciones tpicas de
todas las sondas del chip. Por lo tanto, el formato CEL ser el punto de partida de
nuestro anlisis.
Otro fichero importante es el de la matriz de expresin (Figura 3). Este fichero rene
los valores de expresin de las distintas muestras para cada sonda y se genera como
resultado de la normalizacin.

Figura 3: Se muestra la matriz de expresin. El fichero contiene 11 columnas. La primera indica la sonda y
las 10 siguientes los valores de expresin para cada una de las 10 muestras.

2.5. Preprocesamiento de los datos


El preprocesamiento es necesario para detectar artefactos tcnicos y corregirlos en la
manera de lo posible. Estos artefactos incluyen diferencias en la preparacin de las
muestras, diferencias en el proceso de hibridacin, hibridacin no-especifica, sesgo de
fluorocromos (ms importante en los chips de dos canales) y diferencias entre los
escneres. Para los datos del tipo de chip con que trabajamos aqu (chips de un canal)
podemos distinguir 2 pasos importantes en el preprocesamiento:
Sustraccin del ruido de fondo: Una fuente de ruido de fondo proviene de la
hibridacin no-especifica, es decir de dos secuencias no completamente

- 157 -

Departamento de Gentica, Universidad de Granada

complementarias que sin embargo pueden formar un hbrido (Figura 1). Para estimar
el impacto de este efecto, Affymetrix incluye para cada sonda (PM - perfect match) otra
con una base, la decimotercera, cambiada (MM - mismatch). La intensidad de la seal
en las sondas MM permitir estimar el impacto de la hibridacin no especfica.
Normalizacin entre muestras: Cada muestra esta caracterizada por la distribucin
de las intensidades de las sondas. Frecuentemente se observa que las medias de
estas distribuciones difieren entre las diferentes muestras. Es obvio que este efecto
puede llevar a una expresin diferencial artificial ya que las diferencias son debidas a
artefactos tcnicos y no de origen biolgico. El objetivo de este paso es por lo tanto
ajustar tanto las medias como la forma de la distribucin entre todas las muestras en el
anlisis (Figuras 9 y 11 que muestran las distribuciones antes y despus de la
normalizacin).
Como se ha mencionado antes, Babelomics
preprocesamiento en una matriz de expresin:

guarda

los

resultados

del

http://bioinfo.cipf.es/babelomicstutorial/babelomics_expression_data
Esta matriz es el fichero con el que se lleva a cabo la deteccin de genes que se
expresan diferencialmente empleando mtodos estadsticos.
2.6. Estadstica bsica
Para poder interpretar el resultado de un anlisis de expresin diferencial, necesitamos
tener algunos conocimientos bsicos de las medidas que se emplean para detectarla.
2.6.1. log2 - ratio
Nos permite cuantificar cuando ms se expresa un gen en una condicin comparada
con otra". Se calcula simplemente como:

Es decir como relacin de la intensidad de la seal de la sonda i entre el grupo 1 y el


grupo 2.
El resultado es fcil de interpretar:

ratio = 0 : el gen se expresa igual en las dos condiciones


ratio > 0 : el gen se expresa ms en el grupo1
ratio < 0 : el gen se expresa ms en el grupo2
ratio = 1 : el gen se expresa el doble en el grupo1 que en el grupo2
ratio = -1: el gen se expresa el doble en el grupo2 que en el grupo1

3.6.2. Significacin estadstica


La ratio definida en la seccin anterior define la diferencia de expresin gnica entre
dos condiciones. Es decir, podemos interpretar sta medida como la fuerza de la
seal. En el prximo paso tenemos que buscar aquellas ratio o diferencias que son

- 158 -

Departamento de Gentica, Universidad de Granada

estadsticamente significativos. Es decir, aquellas que no se deben al azar. Para ello


se pueden emplear muchos tests estadsticos diferentes, algunos de ellos
desarrollados especficamente para los chips de ADN. Aqu queremos mencionar solo
uno de los mas usados en todos los campos de la biolgica, la prueba t de Student (ttest). En estos test, el estadstico utilizado tiene una distribucin t de Student si la
hiptesis nula es cierta. Por lo general se asume que las distribuciones son gausianas
y que las varianzas son del mismo orden. Se calcula en primer lugar el estadstico t
como la diferencia entre las medias dividida por la desviacin standard del conjunto de
datos. El estadstico t se puede convertir directamente en una significacin estadstica
mediante una tabla.

3.6.3. Correccin por acumulacin de errores de tipo II


Se produce un error de tipo II cuando se rechaza errneamente una hiptesis nula
correcta. En el caso de la expresin gnica, la hiptesis nula es que no hay expresin
diferencial, es decir que las medias son iguales en controles y casos. Se suele fijar una
significacin estadstica de antemano (por ejemplo 0.05 0.01). Si el valor P de un test
es menor se rechaza la hiptesis nula. Si fijamos el nivel en 0.05, eso significa que
tenemos una probabilidad de hasta 0.05 de rechazarla errneamente. Si
comprobamos no solo una hiptesis nula sino varias simultneamente, como es
nuestro caso (suele haber decenas de miles de sondas en un chip), se acumulan los
errores de tipo II. Para evitarlo y mantener la significacin global para el experimento
tenemos que corregir los valores P. Existen muchas maneras para lograrlo. La ms
simple y ms conservadora (eleva el nmero de errores de tipo II) es la correccin de
Bonferoni. El valor P corregido se calcula simplemente como el valor P original
multiplicado por el nmero de tests. Otros tests ms sofisticados y mejor adaptados al
problema de expresin diferencial son el de Benjamini y Hochberg, que se van a
emplear en esta prctica. Este test es especialmente indicado cuando se rechazan
pocas hiptesis como es el caso en los experimentos de expresin diferencial (suele
haber pocos genes que se expresan diferencialmente comparado con el nmero total
de genes en el anlisis).

3. METODOLOGA
La prctica se va a llevar a cabo mediante las herramientas que pone a disposicin
Babelomics. El servidor web se encuentra en la siguiente direccin:
http://babelomics.bioinfo.cipf.es/
El anlisis que vamos a llevar a cabo embarca los siguientes pasos:
(i) subir los datos al servidor, (ii) visualizar los datos crudos, (iii) normalizar los datos
(eliminar posibles artefactos) y (iv) llevar a cabo la comparacin de la expresin gnica
entre dos condiciones. En un principio no es necesario registrarse. Trabajar como
usuario registrado tiene la principal ventaja de que los datos se almacenan en el
servidor con lo que se puede reanudar los anlisis. Trabajando como usuario annimo,
los datos se pierden en cuando se cierra el navegador. Para estas prcticas no nos
vamos a registrar sino que vamos a trabajar como usuario annimo. Para ello,
pinchamos en el enlace or start as anonymous user que se encuentra en la parte
derecha de la pagina principal (Figura 4).

- 159 -

Departamento de Gentica, Universidad de Granada

Figura 4: La pgina principal de Babelomics. A la derecha podemos acceder como usuario, dar de alta a
un usuario nuevo o acceder como usuario annimo.

3.1. Estructura general de Babelomics


Despus de acceder al servidor como usuario annimo, podemos observar la
estructura de la aplicacin (Figura 5).

Figura 5: La interfaz para subir los datos al servidor

En el panel superior tenemos 6 opciones:

[Upload data]: subir datos al servidor


[Processing]: editar los datos y/o preprocesarlos incluyendo la normalizacin
[Expression]: analizar los cambios de expresin para diferentes tipos de
experimentos
[Genomic]: anlisis relacionados con polimorfismos de una base (SNPs)
[Functional analysis]: anlisis funcional de una lista de genes (no lo vamos a
usar)
[Utilities]: algunas herramientas para el anlisis de datos incluyendo el visor de
los datos crudos que vamos a usar en esta prctica.

- 160 -

Departamento de Gentica, Universidad de Granada

A la derecha vemos un men plegable que nos muestra los datos que hemos subido y
los procesos que hemos lanzado indicando tambin su estado actual (pendiente,
ejecutndose o terminado)
3.2. Subir los datos al servidor
Para poder analizar datos, primero tenemos que subirlos al servidor. Para ello
descargamos
primero
el
correspondiente
fichero
del
servidor
(http://mendel.ugr.es/genetica) y lo guardamos en el disco local. Este fichero
comprimido en formato 'zip' contiene los datos de las 10 muestras (10 ficheros en
formato 'CEL') que vamos a analizar. Luego pinchamos en Upload data" en la pagina
de Babelomics (En el men, arriba). Hay cuatro campos obligatorios que tenemos que
rellenar (Figura 5).

[Data file]: pinchamos en 'Examinar' y navegamos hasta el fichero que


queremos analizar
[Select your data type]: tenemos que especificar el tipo de fichero: Microarray
Expression One-channel Affymetrix
[Some additional data]: aqu podemos anotar los datos
[Label your data]: aqu podemos asignar un nombre a nuestros datos

Una vez que hemos rellenado los cuatro campos obligatorios, pinchamos en Upload"
y se abre una nueva pgina donde podemos observar el progreso de la subida de
datos. Una vez terminado (Figura 7), tenemos los datos disponibles Data list" a la
derecha.

Figura 6: Las distintas herramientas de Babelomics trabajan con un nmero alto de ficheros diferentes. En
funcin del tipo de datos, la aplicacin solo nos permite hacer los anlisis correspondientes. Por eso
tenemos que especificar el tipo de datos que estamos subiendo al servidor.

- 161 -

Departamento de Gentica, Universidad de Granada

Figura 7: La pagina despus de subir con xito los datos al servidor.

3.3. Analizar los datos crudos


Primero vamos a inspeccionar los datos. Para ello, pinchamos en Utilities"
Microarray raw-data plots". Se abre otra interfaz donde tenemos que especificar los
datos que queremos analizar (Figura 8). Ah, marcamos los datos que hemos subido
antes (Leukemia en el ejemplo).
Despus de elegir los datos pinchamos en Accept". Ahora podemos asignar un
nombre a este proceso (por ejemplo: Leukemia raw) y lanzar el proceso.
El anlisis tardar algn tiempo dependiendo de la carga de servidor. En la Figura 9 se
puede observar la salida. Mientras se esta ejecutando este procesos, vamos a seguir
preprocesando. Cuando tengamos los resultados de este paso, volveremos para
comparar los dos RMA-box-plots.

Figura 8: Seleccionar los datos crudos que queremos visualizar.

- 162 -

Departamento de Gentica, Universidad de Granada

Figura 9: La distribucin de las intensidades antes de normalizar los datos

3.4. Preprocesar los datos


Este paso elimina posibles artefactos y calcula la matriz de expresin que contiene los
valores de expresin de todas las muestras. Para normalizar los datos, elegimos del
men el punto Processing". En la pagina que se abre tenemos varios opciones:
elegimos Normalize Expression One-channel Affymetrix. Se abre otro
formulario (Figura 10) que tenemos que rellenar primero para lanzar el proceso de
normalizacin. Primero en Select data" pinchamos en browse server" para elegir los
datos que queremos normalizar. Mantenemos el mtodo por defecto (RMA) y
asignamos un nombre al proceso (Leukemia norm en el ejemplo).
En cuando haya terminado el proceso, podemos comparar los dos RMA-box-plots,
antes (Figura 9) y despus (Figura 11) de la normalizacin. Se estima claramente el
efecto de la normalizacin. Tanto las medias como las distribuciones se asemejan
mucho ms despus de la normalizacin.

Figura 10: La pgina para lanzar el proceso de normalizacin.

- 163 -

Departamento de Gentica, Universidad de Granada

Figura 11: Las distribuciones de intensidad despus de la normalizacin.

3.5. Detectar los genes que se expresan diferencialmente


Los datos con los que estamos trabajando se componen de 10 muestras, 5 provienen
de la lnea celular K562 sin manipular (controles) y 5 con el gen CREB inactivado
(knocked-out) (casos). Para poder determinar los genes que se expresan
diferencialmente, el programa tiene que asignar todas las muestras a una de las dos
condiciones, comparando despus la varianza dentro del grupo con la varianza entre
los dos grupos. Hasta ahora, el programa no tiene conocimiento de qu muestras
pertenecen a cada grupo (condicin). As que el primer paso debe ser asignar una
etiqueta a cada muestra que indique su pertenencia a uno de los dos grupos
(condiciones). Para ello, pinchamos otra vez en la opcin Processing" y despus en el
enlace Edit". Primero tenemos que elegir el conjunto de datos que queremos editar.
En Select your data" pinchamos en Browse data" y se abre una ventana que nos
muestra todos los datos que tenemos a disposicin, tanto los que hemos subido (datos
crudos) como los que hemos generado mediante la normalizacin. As que, en el
men Your own data" elegimos Job generated". Pinchamos sobre el nombre que
hemos dado a los datos de normalizacin (leukemia norm en el caso del ejemplo) y
aparece el fichero que tenemos que editar, rma.summary". Lo marcamos y damos a
Aceptar" abajo en la ventana (Figura 12).

Figura 12: Seleccionar los datos para asignar las muestras a las condiciones/grupos.

- 164 -

Departamento de Gentica, Universidad de Granada

El siguiente paso consiste en generar una variable con dos valores. Los valores son
los nombres de los dos grupos o condiciones. La eleccin de los nombres no incluye
en los resultados pero deberan ser mnemotcnicos, por ejemplo caso/control o
K562/CREB Knock podran ser nombres posibles.
La tabla muestra los nombres de las muestras que tenemos en el anlisis y una breve
descripcin de la que podemos deducir a qu grupo pertenece cada muestra.

Para asignar la variable y sus valores, pinchamos en Create new variable". Le damos
un nombre (por ejemplo CREBknockout) y elegimos categorical" como tipo de
variable. Despus podemos pinchar en la varita" que hay debajo del campo Values".
Se abre una ventana donde podemos especificar el nombre de la etiqueta. Esto
tenemos que hacer dos veces, para cada condicin una vez. En el ejemplo se ha
escogido los nombres K562" y CREBKnockout" para caracterizar las dos
condiciones. Una vez definidos los nombres de los grupos, podemos asignar las
muestras a uno de los grupos. Para ellos pinchamos en click to edit samples" (Figura
13). Se abre una tabla con los nombres de las muestras y un campo vaco donde
tenemos que poner el grupo al que pertenece. Lo podemos rellenar mediante la
informacin que hay en la tabla arriba. Una vez terminado pinchamos en Submit" y as
se guarda la asignacin en el servidor. Ahora tenemos los datos preparados para
comparar los niveles de expresin entre nuestros dos grupos. Para ello nos vamos al
men Expression" y all elegimos Class comparison". En esta pgina tenemos que
facilitar una serie de datos y parmetros (Figura 14):

Select your data: mediante esta opcin podemos seleccionar los datos que
queremos analizar. Para ello pinchamos en browse server" y se abre la misma
ventana que antes y elegimos otra vez los datos de rma.summary".

Select the class to analyse: podemos ahora elegir la variable que hemos
definido antes y las clases que queremos analizar.

Select test: segn, el nmero de clases que haya, el programa nos pone a
disposicin los tests de estadstica adecuados. En nuestro caso[ que tenemos
dos clases/condiciones podemos elegir entre 3 tests:] T-test, Limma y Foldchange.

Select multiple-test correction: tenemos 5 modelos diferentes a disposicin


para corregir por multiple testing (controlar la acumulacin de errores de tipo I)

- 165 -

Departamento de Gentica, Universidad de Granada

Select adjusted p-value: tenemos que poner el umbral para el valor P (0.05 por
defecto)

Job: podemos asignar un nombre al proceso

Despus de haber rellenado todos los campos, pinchamos en run y vemos como el
nuevo proceso aparece a la derecha en Job list".

Figura 13: La pantalla donde tenemos que asignar la etiqueta que indica a que condicin pertenece cada
una de las 10 muestras.

Figura 14: La interfaz para lanzar el proceso que detecta los genes que se expresan diferencialmente.

- 166 -

Departamento de Gentica, Universidad de Granada

Figura 15: Resumen de los parmetros y los resultados en formato texto para descargar.

3.6. Analizar e interpretar los resultados


La pgina de resultados consta de varios apartados.
La primera parte contiene: (i) resumen de los parmetros, (ii) la salida completa del
test estadstico, (iii) la matriz de expresin de los genes que se expresan
diferencialmente de forma estadsticamente significativa t_significative_dataset.txt y
(iv) un fichero que solo contiene los genes significativos t_significative_table.txt
La segunda parte muestra los resultados significativos de forma navegable (Figura 16).
Podemos observar que en la columna statistic" (el estadstico) hay tanto valores
positivos como negativos. El signo nos permite distinguir entre sobre y infra-expresin.
Si el signo es positivo, el gen se expresa ms en la primera condicin segn el orden
que hemos puesto en la matriz de expresin (en nuestro caso son los controles:
CATEGORICAL {k562,CREB})
La tercera parte de los resultados consiste de una representacin grfica de los
resultados en forma de un heat map (Figura 17). Los genes estn ordenados por el
estadstico. Arriba se muestran los genes sobre-expresados en el primer grupo
(controles=K562 en nuestro caso) y abajo los genes reprimidos en los controles o
sobre-expresados en los casos (que es equivalente).

Figura 16: Las sondas/genes que se expresan de forma diferencial

- 167 -

Departamento de Gentica, Universidad de Granada

Figura 17: Una representacin grfica de los resultados. El color rojo indica sobre-expresin mientras azul
indica represin.

- 168 -

Departamento de Gentica, Universidad de Granada

Figura 18: Enlaces directos para llevar a cabo anlisis funcionales con la lista genes que se expresan
diferencialmente.

Finalmente, la ltima parte de la pgina nos permite descargar todos los datos, o llevar
a cabo anlisis funcionales (Figura 18).

4. CUESTIONES
El alumno puede descargarse ms conjuntos de datos para practicar desde la web del
Departamento de Gentica (http://mendel.ugr.es). Tambin se facilitarn los resultados
para la comprobacin. Preguntas a las que el alumno deber poder responder
despus de la prctica:

Cmo se puede distinguir entre genes que se sobre-expresan y los que se


reprimen mediante el estadstico elegido.

Cul es el principio bsico de un chip de ADN. Qu artefactos tcnicos existen


y como se pueden eliminar.

Cules son los pasos del anlisis bioinformtico en un experimento de chip de


ADN para detectar expresin diferencial: de los datos crudos en formato CEL"
hasta obtener una lista de genes que se expresan diferencialmente.

Qu es la expresin diferencial.

En qu experimentos es de inters y por qu.

- 169 -

Departamento de Gentica, Universidad de Granada

- 170 -

Departamento de Gentica, Universidad de Granada

EXPRESIN DE GENES
IMPLICADOS EN EL DESARROLLO
TESTICULAR DE MAMFEROS

- 171 -

Departamento de Gentica, Universidad de Granada

- 172 -

Departamento de Gentica, Universidad de Granada

EXPRESIN DE GENES IMPLICADOS EN EL


DESARROLLO TESTICULAR DE MAMFEROS
1. OBJETIVO
Que el alumno aprenda un mtodo, basado en el diagnstico molecular, que es usado
habitualmente para el sexado de embriones de mamferos as como a identificar
rganos embrionarios en los que se expresa el gen SOX9.

2. FUNDAMENTO TERICO
Determinacin gentica del sexo en mamferos
En mamferos, la presencia de un cromosoma Y determina el sexo masculino,
mientras que su ausencia implica un desarrollo femenino. Al inicio del desarrollo
embrionario, la gnada es indiferenciada y bipotencial, lo que significa que puede
seguir dos rutas de desarrollo alternativas y, en condiciones normales, mutuamente
excluyentes: testculo u ovario. En la gnada embrionaria XY, el gen SRY (localizado
en el cromosoma Y; * ver nota sobre la tipografa correcta de los genes de mamferos
al final de este guin) inicia una cascada de activacin gnica que induce a una subpoblacin de clulas somticas a diferenciarse como clulas de Sertoli, encargadas de
orquestar el desarrollo testicular. Estas clulas de Sertoli se organizan formando
cordones sexuales (precursores de los tbulos seminferos del testculo adulto) en el
interior de los cuales se localizan las clulas germinales que dejan de proliferar
(arresto mittico). Las clulas de Sertoli controlan tambin la diferenciacin de clulas
de Leydig, clulas secretoras de testosterona y dihidrotestosterona que masculinizarn
el soma del individuo. En la ruta masculina de desarrollo gonadal de ratn, la protena
SRY se une, junto con el factor esteroidognico SF1, a una secuencia intensificador
del gen Sox9 y lo activa. Las mutaciones en que el gen Sox9 se activa en una
gnada XX, hacen que sta siga la ruta testicular, mientras que si este gen permanece
inactivo en una gnada XY, sta seguir la ruta ovrica. Por tanto, Sox9, al igual que
Sry, son necesarios y suficientes para activar la organognesis testicular. SOX9 activa
el gen Fgf9 que a su vez estabiliza la expresin de Sox9, establecindose un bucle de
automantenimiento de la expresin de ste ltimo en la gnada masculina. SOX9
activa tambin la expresin de otros genes como Amh (hormona antimlleriana), Vnn1
(Vanin-1), y Pgds (prostaglandina sintetasa) que se sabe estn implicados en la
diferenciacin testicular. Sobre la base de lo expuesto, se puede decir que SOX9 es el
gen alrededor del cual pivota el desarrollo testicular, y lo hace no slo en mamferos
sino en todos los vertebrados.
En la gnada XX la ausencia de cromosoma Y, y por tanto del gen SRY, implica la
inactividad de SOX9 y la activacin de RSPO1 y WNT4, que inician la cascada de
activacin gnica que conduce al desarrollo ovrico. Al no expresarse el gen Sox9, las
clulas somticas bipotenciales de la gnada embrionaria se diferencian como clulas
pre-foliculares (no como clulas pre-Sertoli), mientras que las clulas de la lnea
esteroidognica se diferenciarn como clulas de la teca (en vez de cmo clulas de
Leydig) y las clulas germinales inician la meiosis, que se detiene poco despus en la
profase I (arresto meitico). En resumen, en ausencia de Sry, la organognesis
gonadal sigue la ruta ovrica y el fenotipo somtico del individuo ser femenino.

- 173 -

Departamento de Gentica, Universidad de Granada

La visin clsica acuada por Jost (1953) de que la ruta ovrica es la ruta constitutiva,
cambi sobre la base de nuevos datos en los que se describi la reversin sexual
parcial o total de individuos XX de ratn, que presentaron mutaciones de prdida de
funcin en genes como Wnt4 y Rspo1. Los individuos XX Wnt4-/- (homocigotos para el
alelo mutado) mostraron gnadas parcialmente masculinizadas y expresin de los
genes Sox9 y Fgf9, diferenciacin de clulas de Leydig, migracin celular desde el
mesonefros adyacente hacia el interior de la gnada (evento morfolgico especfico de
la gnada XY) y desarrollo de un patrn vascular especfico de testculo. La mutacin
de prdida de funcin en el gen RSPO1 provoca una reversin sexual completa de
hembra a macho, es decir machos XX. Este fue el primer caso descrito de una nica
mutacin en un gen que provoca reversin sexual completa de hembra a macho y esta
mutacin sita a RSPO1 como el probable determinante ovrico en mamferos.
RSPO1 activara los genes implicados en el desarrollo ovrico e inhibira directa o
indirectamente los genes implicados en la ruta testicular de desarrollo gonadal. Otro
gen que interviene en la ruta ovrica es FOXL2, necesario para el desarrollo y
mantenimiento de la estructura ovrica. La ausencia de clulas de la granulosa
funcionales conlleva la iniciacin prematura de la foliculognesis y un fallo ovrico
prematuro. Sin embargo, la ausencia de reversin sexual de hembra a macho de
ratones mutantes Foxl2-/- indica que no es un determinante ovrico. En esta prctica
vamos a amplificar un fragmento del gen Sry, y comprobaremos que est presente en
clulas masculinas (XY), mientras que las clulas femeninas (XX) carecen de dicho
gen.

SOX9: Un gen pleiotrpico


El gen SOX9 fue inicialmente identificado como el gen responsable del sndrome
displasia campomlica (DSCM), una malformacin del esqueleto asociado con
reversin sexual XY. SOX9 es un factor de transcripcin perteneciente a la familia de
protenas SOX (Sry-like HMG box). En humanos se encuentra localizado en la regin
cromosmica 17q24.3-q25.1 y est compuesto por tres exones y dos intrones. SOX9
se expresa en un gran nmero de tejidos embrionarios entre los que se incluye
condrocitos, clulas de Sertoli, celulas de la placoda tica, clulas pancreticas,
clulas del epitelio intestinal, clulas de la cresta neural, clulas del epitelio pulmonar,
clulas de la notocorda y varios tejidos ms. Esto sugiere que SOX9 tiene mltiples
funciones durante el desarrollo embrionario de mamferos, y para poner de manifiesto
el papel que Sox9 tiene en el desarrollo de los diferentes rganos en que se expresa
se han generado ratones mutantes para este gen. En el ratn, este gen est localizado
en el cromosoma 11. El primer ratn mutante para Sox9 fue descrito en 2001. Estos
ratones mutantes heterocigticos para Sox9 reproducan la mayor parte de las
malformaciones del esqueleto mostradas por los pacientes con DSCM, aunque otras
anomalas, como la reversin sexual no se ponan de manifiesto. Los ratones
mutantes heterocigticos para Sox9 moran alrededor del nacimiento, por lo que no
era posible generar ratones mutantes homocigticos. Debido a esto ltimo, se
generaron ratones mutantes condicionales para los diversos tejidos donde Sox9 se
expresa, es decir, animales que slo carecen de la funcin del gen en tejidos u
rganos concretos. As, Sox9 ha sido inactivado condicionalmente en homocigosis en
condrocitos, lo que provoc la ausencia completa de cartlago y huesos. Los
embriones con Sox9 inactivado en condrocitos exhiban una condrodisplasia
generalizada. Sox9 tambin ha sido inactivado condicionalmente durante el desarrollo
testicular de ratn. En estos ratones se observ que los individuos XY se
desarrollaban fenotpicamente como hembras que tenan ovarios en lugar de
testculos. A pesar de ello, el gen determinante de testculo, Sry, continuaba
expresndose indicando que Sox9 acta posteriormente en la cascada gnica que
regula el desarrollo testicular. La inactivacin condicional homocigtica de Sox9 en

- 174 -

Departamento de Gentica, Universidad de Granada

ratn ha mostrado que tambin es necesario para la diferenciacin de las clulas


gliales de la espina dorsal, la formacin de la vlvulas y el tabique cardiaco, el
desarrollo de la notocorda, el mantenimiento de la clulas madre pancreticas, la
invaginacin de la placoda tica, el desarrollo de la prstata, la supervivencia de las
clulas de la cresta neural y el mantenimiento de la espermatognesis. La segunda
parte de esta prctica va a consistir en la observacin de cortes histolgicos a los que
se ha realizado una inmunohistoqumica con un anticuerpo anti-SOX9.

3. METODOLOGA
3.1. Deteccin del gen Sry mediante PCR
Para la deteccin del gen Sry haremos uso de la tcnica PCR (Polimerase Chain
Reaction). Para ello, hemos diseado cebadores especficos, por un lado del gen Sry,
que se encuentra en el cromosoma Y, por lo que es especfico de machos, y por otro
lado del gen de la Miogenina, gen autosmico que nos va a servir como control
positivo. Haremos una PCR duplex, es decir, una PCR en la que en una nica
reaccin los cebadores de ambos genes estn presentes, y por lo tanto podemos
amplificar simultneamente los fragmentos correspondientes a los dos genes. Las
secuencias de los cebadores son las siguientes:
-Oligonucletidos para la amplificacin del gen Sry de ratn:
Sry-F 5'- GCA AAC AGC TTT GTG GTC AA 3'
Sry-R 5'- GGA AAA GGG GAT GAA ATG GT 3'
-Oligonucletidos para la amplificacin del gen de la Miogenina de ratn:
Mio-F 5'- TTA CGT CCA TCG TGG ACA GCA T 3'
Mio-R 5' TGG GCT GGG TGT TAG CCT TAT G 3'
-Componentes de la reaccin:

10X Solucin tampn Taq polimerasa 2.5 l


25 mM MgCl2 1.5 l
25 mM dNTP 0.2 l
DMSO 1.25 l
Sry-F (500 ng/l) 0.5 l
Sry-R (500 ng/l) 0.5 l
Mio-F (500 ng/l) 0.5 l
Mio-R (500 ng/l) 0.5 l
H20 16.45 l
ADN 100 ng
Taq polimerasa 0.1 l
Volumen total 25 l

- 175 -

Departamento de Gentica, Universidad de Granada

-Pasos de la PCR en el termociclador:

94C, 3 minutos
35 ciclos:
91C, 45 segundos
60C, 60 segundos
72C, 45 segundos
72C, 5 minutos
4C, indefinidamente

Tras la reaccin de PCR, se amplificar, en el caso del gen Sry, un fragmento de 179
pb, y en el caso del gen de la Miogenina un fragmento de 246 pb. Ambos amplicones
se pueden separar perfectamente mediante una electroforesis en gel de agarosa, que
se realizar a continuacin. En el caso de un macho se distinguirn ambas bandas,
mientras que en el caso de una hembra slo se apreciar la banda de 246 pb. Si no se
observara ninguna banda indicara que la PCR no ha funcionado (Figura 1).

Figura 1: Electroforesis de los productos de una PCR realizada para el sexado de embriones de ratn. La
presencia en el gel de una banda correspondiente al gen Sry denota la presencia de un macho, mientras
que su ausencia indica que ese embrin es hembra. La banda de la miogenina sirve como control de
calidad (control positivo) de la reaccin de PCR. (-) es el control negativo (reaccin sin molde), que indica
la ausencia de contaminacin de ADN en la mezcla de reaccin de la PCR.

3.2. Observacin de preparaciones de inmunohistoqumica para SOX9


Actualmente existen varias tcnicas para detectar la expresin de genes en tejidos.
Una de estas tcnicas es la inmunohistoqumica, que nos permite identificar el tipo
celular donde se localiza una protena de inters, situacin que en la mayora de los
casos implica que el gen que codifica para dicha protena se est expresando en ese
tipo celular. En una tcnica immunohistoqumica, la localizacin de la protena de
inters se pone de manifiesto mediante una reaccin enzimtica, siendo la catalizada
por la peroxidasa de rbano una de las ms usadas en la actualidad. Una de las
formas de realizar una inmunohistoqumica mediante el mtodo de la peroxidasa
consiste en fijar el tejido de inters, deshidratarlo, incluirlo en parafina, y realizar cortes
histolgicos. Tras desparafinar e hidratar los cortes histolgicos, se incuban con una
solucin que contiene el anticuerpo primario, especfico de nuestra protena de inters.
En esta situacin, en aquellas clulas donde la protena de inters est presente, se
producir la unin entre la protena de inters y el anticuerpo primario. Dado que la
protena de inters est fijada en el interior de la clula, el complejo tambin

- 176 -

Departamento de Gentica, Universidad de Granada

permanecer en el interior celular. Posteriormente se lavan intensamente las


preparaciones para eliminar el anticuerpo primario que no se ha unido a la protena de
inters, y se vuelve a incubar con una solucin que contiene un anticuerpo secundario,
que es un anticuerpo especfico contra la inmunoglobulina G de la especie donde se
gener el anticuerpo primario. El anticuerpo secundario est conjugado con la
peroxidasa de rbano (anti-Ig-Peroxidasa). Esto hace que se forme un complejo entre
la protena de inters, el anticuerpo-primario y el anticuerpo secundario conjugado,
que permanece en el interior de las clulas donde est presente la protena de inters.
Despus, se vuelven a lavar las preparaciones para eliminar el anticuerpo secundario
libre y se incuba con una solucin que contiene H2O2 y di-amino bencidina (DAB). La
peroxidasa cataliza la reaccin 2H202 ---> 2H20 + O2. Esto hace que se libere O2 en el
interior de aquellas clulas donde est retenido el complejo que oxida a la DAB, dando
lugar a un precipitado marrn (Figura 2).

Figura 2: Fundamento de la tcnica de inmunohistoqumica. La presencia en la muestra de la protena de


inters (esquema de la izquierda) permite el anclaje a la preparacin del complejo compuesto por el
anticuerpo primario, el anticuerpo secundario y la peroxidasa, permitiendo la reaccin coloreada con DAB.
Su ausencia (esquema de la derecha) permite el lavado de todos los componentes, no habiendo reaccin
alguna.

Finalmente se hace una contra-tincin de las preparaciones con hematoxilina, se


deshidratan y se montan con DePeX para su observacin al microscopio ptico. Tras
este proceso, observaremos las clulas positivas para la protena de inters de color
marrn, mientras que el ncleo de las clulas negativas se ve de color azul
(hematoxilina; Figura 3)

Figura 3: Marcaje inmunohistoqumico de tejido testicular de ratn, usando un anticuerpo primario antiSox9. Slo las clulas de Sertoli aparecen marcadas con el color marrn. El resto de las clulas se
muestran azul claro por la contra-tincin realizada con hematoxilina.

- 177 -

Departamento de Gentica, Universidad de Granada

En esta prctica se suministrarn a los alumnos preparaciones inmunohistoqumicas,


realizadas mediante el mtodo de la peroxidasa, para la protena SOX9 en embriones
en el estadio embrionario 12.5 de ratn (E12.5). Dado que Sox9 es un gen
pleiotrpico, su expresin se detectar en diferentes tejidos y rganos embrionarios. El
objetivo de esta prctica consistir en identificar la presencia o ausencia de expresin
de este gen en los diferentes rganos y tejidos observados en los cortes de embriones
examinados.

4. CUESTIONES
1. Que otras tcnicas inmunolgicas existen en la actualidad para detectar la
presencia de una protena de inters en un tejido?
2. Que ocurre en mamferos cuando el gen SRY est mutado? Y si est translocado
al cromosoma X?
3. Un gen pleiotrpico tiene la misma funcin en todos los tejidos donde se expresa?
Pon un ejemplo que incluya a SOX9.
*NOTA: La nomenclatura correcta de los genes de mamferos es la siguiente:
Los nombre de los genes se escriben en cursiva con letras maysculas (p. ej. SOX9),
para todas las especies, excepto para el ratn y la rata, en cuyo caso se escriben en
cursiva con la primera letra en mayscula y las dems en minscula (p. ej. Sox9). Los
nombres de las correspondientes protenas siempre se escriben sin cursiva y con
maysculas (p. ej. SOX9).

- 178 -

Departamento de Gentica, Universidad de Granada

ESTUDIO DE EXPRESIN GNICA


MEDIANTE RT-PCR

- 179 -

Departamento de Gentica, Universidad de Granada

- 180 -

Departamento de Gentica, Universidad de Granada

ESTUDIO DE EXPRESIN GNICA MEDIANTE


RT-PCR
1. OBJETIVO
El objetivo de esta prctica es que el alumno aprenda un mtodo de purificacin de
ARN y su uso para un estudio de expresin gnica mediante la aplicacin de la tcnica
de RT-PCR.

2. FUNDAMENTO TERICO
Identificacin de la Hormona Anti-Mlleriana
Los conductos de Mller (o conductos paramesonfricos) y los conductos de Wolff (o
conductos mesonfricos) son dos estructuras tubulares embrionarias que aparecen
lateralmente en el primordio urogenital durante el desarrollo embrionario de
mamferos. En hembras, los conductos de Mller se diferencian en varias estructuras
del tracto urogenital femenino: los oviductos (en mujeres se denominan trompas de
Falopio), el tero, el cuello del tero y parte superior de la vagina, mientras que los
conductos de Wolff degeneran. Por el contrario, en machos, los conductos de Wolff
dan lugar a los conductos eferentes, epiddimos y vesculas seminales, degenerando
los conductos de Mller.
Las primeras evidencias sobre el mecanismo molecular responsable de la
degeneracin de los conductos de Mller se obtuvieron en la dcada de 1940-1950, a
partir del trabajo de Alfred Jos que transplant tejido testicular en fetos de conejo que
previamente haban sido castrados y observ que los conductos de Wolff se
diferenciaban en los conductos eferentes, epiddimos y vesculas seminales, mientras
que los conductos de Mller degeneraban. Posteriormente, observ que un cristal de
propionato de testosterona era capaz de inducir la diferenciacin de los conductos de
Wolff en los fetos de ratones castrados, pero no afectaban el desarrollo de los
conductos de Mller, que formaban los oviductos, el tero, el cuello del tero y parte
superior de la vagina. De estos experimentos se dedujo que un factor difusible,
producido por el testculo, diferente de la testosterona, era responsable de la regresin
de los conductos de Mller en el feto masculino. A este factor lo llam inicialmente
sustancia inhibidora de los conductos de Mller. Sin embargo, la identificacin de esta
sustancia no result ser fcil, y no fue hasta 1984 cuando se pudo purificar y
caracterizar. A esta sustancia se la conoce actualmente como Hormona Anti-Mlleriana
(AMH), o sustancia inhibidora del conducto de Mller (MIS). Experimentos posteriores
confirmaron que la AMH era la responsable de la degeneracin de los conductos de
Mller. Uno de estos experimentos fue la identificacin de esta sustancia como el
agente causal del freemartinismo, un fenmeno descrito en mamferos desde
principios del Siglo XX. Un freemartin es un individuo XX con ovarios no funcionales y
con una anatoma reproductiva anormal caracterizada por genitales externos
femeninos y genitales internos con un nmero variable de estructuras fenotpicas
masculinas. Los casos de freemartinismo siempre se producen cuando un individuo
XX tiene un gemelo fraterno XY. Debido a esto se hipotetiz que ciertos factores

- 181 -

Departamento de Gentica, Universidad de Granada

masculinizantes viajaran desde el feto masculino hasta el feto femenino. De acuerdo


con esto ltimo, varios investigadores descubrieron que en los casos de
freemartinismo el feto femenino en el tero tiene fusionado su corion con el corion de
un feto masculino, lo que permite que los vasos sanguneos estn interconectados. En
1984 se confirm que la sustancia difusible que viajaba a travs de los vasos
sanguneos entre los fetos masculino y femenino en los casos de freemartinismo era la
AMH.

AMH y desarrollo testicular


En mamferos, la expresin del gen determinante de testculo, SRY, en las clulas preSertoli del primordio gonadal XY, hace que la gnada bipotencial comience a
diferenciarse como testculo. Poco despus de la expresin del SRY, varios genes
involucrados en el control de la ruta masculina, como SOX9 y SF1 son activados en
las clulas pre-Sertoli, y stas se diferencian en las clulas de Sertoli. Las clulas de
Sertoli sufren una transicin mesnquima-epitelio y forman los cordones testiculares.
Poco despus, en el mesnquima que rodea a los cordones testiculares, se
diferencian las clulas de Leydig. Las clulas de Sertoli son las encargadas de
producir la AMH, desde donde es secretada y transportada al mesnquima que rodea
al conducto de Mller. En estas clulas se produce la unin con su receptor, el
receptor de tipo II de la hormona Anti-Mlleriana (AMHR2). La unin ligando-receptor
(AMH-AMHR2) desencadena una cascada gnica conducente a la degeneracin del
conducto de Mller mediante apoptosis. A su vez, las clulas de Leydig producen
testosterona, que es necesaria para que se produzca el desarrollo de los conductos de
Wolff. En la hembra no ocurre la diferenciacin de las clulas de Sertoli, por lo que no
se produce AMH y el conducto de Mller no degenera. Tampoco se diferencian las
clulas de Leydig, por lo que no se produce testosterona y la falta de desarrollo del
conducto de Wolff impide que se formen los rganos sexuales masculinos (Figura 1).

Figura 1: Esquema del desarrollo testicular. La produccin hormonal de los testculos incluye
testosterona y AMH

- 182 -

Departamento de Gentica, Universidad de Granada

Una vez que estos eventos han tenido lugar y transcurre algn tiempo, la funcin de
las clulas de Sertoli cambia durante la pubertad, cuando sufren una transformacin,
tanto morfolgica como funcional que las prepara para respaldar el ciclo
espermatognico. En este proceso, conocido como maduracin de las clulas de
Sertoli, stas cambian su morfologa, pasando a un estado maduro no proliferativo.
Sufren una transformacin que las prepara para ejercer sus nuevas funciones. Si este
proceso de maduracin no tiene lugar, la entrada de las clulas germinales en meiosis
y su posterior transformacin en espermatozoides no ocurre. La expresin de AMH
contina en el testculo hasta la pubertad, coincidiendo con la maduracin de las
clulas de Sertoli, por lo que su inactivacin parece estar asociada con el comienzo de
la maduracin, aunque no se conoce el mecanismo molecular que controla este
proceso.
La AMH tambin se expresa en las clulas de la granulosa del ovario, comenzando en
el periodo post-natal y terminado al comienzo de la menopausia, donde tiene un papel
en la regulacin de la maduracin los folculos ovricos.

El gen de la AMH
La AMH est formada por un homodmero de gluco-protena de unos 140 KD muy
conservada entre diferentes especies. La regin carboxi-terminal comparte una gran
homologa con los miembros de la superfamilia de factores transformantes del
crecimiento TGF. La AMH humana est codificada por un gen de 2.75 Kbp divididos
en 5 exones caracterizados por un alto contenido en GC. La regin 5' no traducida es
de aproximadamente 10 nucletidos, mientras que la seal de poliadenilacin est a
90 nucletidos corriente abajo del codn de terminacin TGA. En rata, se han descrito
dos tipos de ARNm que se diferencian en la longitud de la cola de poli-A. Durante el
periodo de diferenciacin testicular se ha observado la presencia en el testculo de un
ARNm de unos 2.0 Kb, cuya abundancia va disminuyendo en los estadios posteriores
de gestacin, y en los estadios post-natales prcticamente slo se detecta un trascrito
de unos 1.8 Kb. El promotor de la AMH bovina, de ratn y de rata contiene una caja
TATA y un nico sitio de iniciacin de la transcripcin, localizado 10 pb corriente arriba
del codn de iniciacin ATG. Contrariamente, la AMH humana no contiene una caja
TATA o CCAAT, sino que posee un elemento iniciador funcional (Inr), que es
especficamente reconocido por el factor de transcripcin TFII-I. En la regin
promotora de humano se han encontrado sitios de unin funcionales para los factores
de transcripcin SOX9, SF1 y GATA (Figura 2)

Figura 2: Estructura del gen de la AMH humana.

- 183 -

Departamento de Gentica, Universidad de Granada

Mutaciones en la AMH
El sndrome de persistencia del conducto de Mller (PMDS, persistent Mllerian duct
syndrom) es una enfermedad rara de origen gentico caracterizada por anomalas del
tracto reproductor. Los pacientes desarrollan testculos, y en el momento del
nacimiento son identificados como varones sin ambigedad aparente. No obstante,
una observacin ms detallada revela que los pacientes desarrollan anormalidades
genitales, entre las que se incluye criptorquidismo, que es un defecto del desarrollo en
el que uno (criptorquidismo unilateral) o ambos testculos (criptorquidismo bilateral) no
consiguen descender desde el abdomen al escroto. Este descenso testicular al escroto
es esencial para la fertilidad masculina, ya que en el escroto los testculos se
encuentran a una temperatura menor que la corporal, condicin necesaria para el
desarrollo normal de la espermatognesis. Adems estos pacientes mantienen
estructuras derivadas de los conductos de Mller, como un tero y trompas de Falopio.
Dado que estas estructuras son internas, a no ser que un hermano mayor sea
identificado con esta condicin, para el correcto diagnstico del sndrome es necesario
el uso de la ciruga. Los testculos se diferencian normalmente, y en el caso que no
haya tenido lugar un criptorquidismo prolongado suelen contener clulas germinales.
Sin embargo, los conductos excretores no suelen estar conectados correctamente, ya
que frecuentemente desarrollan una aplasia del epiddimo y de la parte superior de los
conductos eferentes.
Los anlisis genticos realizados en ms de 100 familias con PMDS han mostrado que
las mutaciones en el gen de la AMH son la causa de la enfermedad en el 45% de los
casos. En el 40% de los casos se debe a mutaciones en el gen que codifica el receptor
de la AMH, AMHR2. En ambos casos la condicin se transmite siguiendo un patrn
autosmico recesivo, y son sintomticas slo en los varones. En un 5% de los casos
de PMDS, las causas son desconocidas.

3. METODOLOGA
En esta prctica se comprobar que el gen de la AMH se expresa en tejido testicular.
Para ello vamos a extraer ARN total de testculos y de ovarios (como control negativo)
de ratones en estadio neonatal. Con el ARN total realizaremos una reaccin de retrotranscripcin seguida de una reaccin en cadena de la polimerasa, RT-PCR, para
detectar la presencia de transcritos de AMH.

Extraccin de ARN
Para la extraccin de ARN se proveer al alumno de un tubo Eppendorf que contiene
una pequea muestra de tejido testicular u ovrico, que previamente ha sido extrado
de ratn en el estadio neonatal y congelado a -80C. Se utilizarn columnas extraccin
de ARN que contienen una membrana de slice. Las muestras biolgicas inicialmente
sern lisadas y homogeneizadas en presencia de un tampn altamente
desnaturalizante que adems contiene tiocianato de guanidina, que inactiva
inmediatamente las ARNasas, lo que evita la degradacin del ARN. Despus se aade
etanol, lo que proporciona a la solucin unas condiciones fsico-qumicas que

- 184 -

Departamento de Gentica, Universidad de Granada

favorecen la unin del ARN a la membrana de slice, mientras que el resto de los
componentes celulares permanecen en disolucin. Se hace pasar el lisado a travs de
una columna de extraccin mediante centrifugacin. Tras este proceso, el ARN
permanecer unido a la columna, y el resto de componentes celulares se eliminarn
con el sobrenadante. Despus de lavar la columna usando varias soluciones, se pone
agua en la columna. En presencia de agua, el ARN se desprende de la membrana de
slice y pasa a solucin acuosa, que ser recuperada en el sobrenadante tras una
centrifugacin.

Procedimiento
1. Aadir 350 l buffer de lisis (10 l -ME por 1 ml Buffer RLT).
2. Homogeneizar pasndolo unas 10 veces por una jeringa con una aguja de 0.8
mm de dimetro.
3. Centrifugar y pasar el sobrenadante a un Eppendorf limpio.
4. Aadir 350 l EtOH 70% y mezclar por inversin.
5. Transferir a una columna.
6. Centrifugar 1 minuto a mxima velocidad.
7. Digestin del ADN: Aadir 80 l de solucin de Dnasa I, 15 minutos,
temperatura ambiente. (preparar gel agarosa para comprobar calidad del ARN)
8. Aadir 700 l de buffer RW1, centrifugar 1 minuto a mxima velocidad,
desechar sobrenadante.
9. Aadir 500 l de buffer RPE, centrifugar 1 minuto a mxima velocidad,
desechar sobrenadante.
10. De nuevo, aadir 500 l buffer RPE, centrifugar 2 minuto a mxima velocidad,
desechar sobrenadante.
11. Colocar la columna en un Eppendorf limpio. Aadir 30 l de agua libre de
ARNasa, esperar 1 minuto, centrifugar 1 minuto a mxima velocidad.
12. En el sobrenadante se recupera el ARN total.

RT-PCR de un paso
Una reaccin de RT-PCR se puede hacer de dos formas diferentes. En la forma
conocida como RT-PCR de dos pasos (two-step RT-PCR), primero se hace la retrotranscripcin, con lo que se genera ADN complementario (ADNc) y despus, partiendo
de este material, en un tubo de reaccin diferente se lleva a cabo una PCR
convencional. En este tipo de RT-PCR, para la retro-transcripcin se usan cebadores
universales (Poli-T o cebadores degenerados), con lo que el ADNc generado es
representativo de todos los ARNm expresados en el tejido objeto de estudio. Otra
forma diferente de llevar una RT-PCR es la que se conoce como RT-PCR de un paso
(one-step PCR). En este caso, retro-transcripcin y PCR tienen lugar en el mismo tubo
de reaccin, usndose unos cebadores especficos del gen de inters. Esto implica
que en la retro-transcripcin inicial slo se generar ADNc especfico del gen de
inters, que inmediatamente despus servir de molde para la amplificacin de un

- 185 -

Departamento de Gentica, Universidad de Granada

fragmento mediante PCR.


Nosotros vamos a realizar una RT-PCR de un slo paso para la AMH. Para ello
usaremos los dos cebadores siguientes, localizados en dos exones diferentes del gen
de la AMH:
AMH-F: 5'-ACC CTT CAA CCA AGC AGA GA-3'
AMH-R: 5'-CCT CAG GCT CCA GGG ACA-3'
Tambin usaremos una mezcla de enzimas, One step RT-PCR mix, que contiene la
retro-transcriptasa y la ADN polimerasa.

Volumen final de la reaccin

25 l

ARN total
5 x Buffer
dNTPs (10 mM)
Cebador AMH-F (10 mM)
Cebador AMH-R (10 mM)
One step RT-PCR mix
Inhibidor de ARNasa
H20 libre de ARNasa

1l
2.5 l
1 l
1 l
1 l
1 l
1 l
17.5 l

Con el producto de la reaccin de RT-PCR se realizar una electroforesis en gel de


agarosa. En caso de que en el tejido de partida haya expresin de la AMH, se
observar un amplicn de aproximadamente 200 pb.

4. CUESTIONES
1. Cul es el factor clave en el procedimiento de extraccin de ARN usado en esta
prctica? Explicar brevemente por qu.
2. Qu enzimas contiene el One step RT-PCR mix? Cul es la funcin de cada una
de ellas?
3. Por qu utilizamos tejido testicular prepuberal en esta prctica, y no es apropiado
el tejido adulto?
4. Por qu es necesario hacer una retro-transcripcin previa a la PCR en un estudio
de expresin gnica como ste?

- 186 -

También podría gustarte