Documentos de Académico
Documentos de Profesional
Documentos de Cultura
SESIÓN Nº 4:
"MARCADORES MOLECULARES"
Introducción:
La aparición de técnicas para estudiar secuencias de proteínas y DNA abrió un nuevo campo para el
estudio de la evolución. Comenzando por los estudios de la primera secuenciación de aminoácidos a gran
escala hacia mediados de la década de los sesenta y continuando con la explosión actual de datos sobre
secuencias de genomas completos, los investigadores han dirigido su atención a una gran variedad de
cuestiones acerca de cómo las proteínas y los ácidos nucleicos cambian con el tiempo.
La secuencia es una propiedad clave de los ácidos nucleicos y las proteínas. La regla de oro en
biología es que la secuencia de las biomoléculas determina su estructura tridimensional y esta determina su
función. En la práctica, la secuencia de un fragmento de ADN se obtiene mediante la técnica de interrupción
controlada de la replicación, conocida como técnica de Sánger; en tanto que la secuencia de una cadena
polipeptídica se obtiene generalmente por el método de Edman.
Tanto para ácidos nucleicos, como para proteínas, se han desarrollado métodos automáticos de
secuenciación, basados en las técnicas antes mencionadas, que han jugado un papel crucial en el vertiginoso
desarrollo de los proyectos de secuenciación de genomas y la bioinformática.
Las bases de datos de secuencias son depositarios primarios de datos que aceptan secuencias de
ácidos nucleicos y proteínas procedentes de la comunidad científica internacional y los hacen disponibles en
forma pública. Estos datos son heterogéneos, pues varían con respecto a la fuente, la calidad de la secuencia
en términos del número de réplicas del proceso de secuenciación, el grado de anotación o descripción de la
secuencia o la cobertura de la misma en relación con la entidad biológica (secuencias parciales o totales de
genes o genomas). Hoy, luego de varios años de trabajo, toda la información disponible sobre secuencias se
intenta unificar y colectar en bancos de datos centrales. Así, los tres recursos fundamentales de información
sobre secuencias nucleotídicas (el banco de datos de secuencias nucleotídicas del EMBL en el Reino Unido,
Genbank en EEUU y el banco de datos de ADN de Japón) se actualizan diariamente de forma sincronizada.
En tanto que, la información sobre secuencias aminoacídicas se colecta en dos recursos globales: PIR
(Protein Information Resource, EEUU) y Swiss‐Prot. La búsqueda en estas bases de datos puede llevarse a
cabo a través de palabras claves (búsqueda basada en texto), utilizando elementos como el nombre del gen o
la proteína, o a través de secuencia (búsqueda basada en secuencia), que permite identificar las secuencias
más "parecidas" a la secuencia usada en la búsqueda. Los sistemas de integración de la información, como
SRS o Entrez, permiten realizar búsquedas basadas en texto en más de una base de datos, de forma
simultánea.
Los ácidos nucleicos y las proteínas pueden ser similares en cuanto a su función, su estructura o su
secuencia. El objetivo principal de la comparación entre las secuencias de dos o más biomoléculas es el
establecimiento de inferencias en cuanto a su estructura y función, a partir de la similitud en las secuencias.
Dr. Juan Carlos Marín Contreras – Prof. Carlos Alberto Venegas Canto
Universidad del Bío-Bío – Carrera de Ingeniería en RRNN – Curso de Genética y Evolución 2016
Esto es posible muchas veces, pero otras no, se conocen muchos casos de proteínas con una similitud en
secuencia muy baja que, sin embargo, adoptan estructuras tridimensionales similares y comparten la misma
función.
Las secuencias suelen compararse alineándolas. Un alineamiento de secuencias constituye una
representación cualitativa de la similitud entre dos o más secuencias. Existen dos variantes fundamentales de
alineamiento: (1) el alineamiento de una secuencia contra otra u otras (de tipo uno a uno o uno a muchos) y
(2) el alineamiento simultáneo de varias secuencias entre sí (de tipo muchos a muchos) conocido como
alineamiento múltiple. Ambas variantes se basan en los mismos principios generales establecidos para
comparar una secuencia con otra, introducidos por Smith y Waterman y luego modificados por Nedlman y
Wunch. Sin embargo, los algoritmos usados en uno y otro caso son diferentes, optimizados de acuerdo al
objetivo final.
Los alineamientos de tipo uno a muchos permiten comparar una secuencia cuya identidad se
desconoce con otras conocidas y son útiles, por tanto, para la búsqueda de secuencias en bases de datos.
Cuando se hace una búsqueda en una base de datos es necesario comparar la secuencia desconocida (consulta
o query) con todas las secuencias almacenadas en la base de datos, de manera que los algoritmos que se usan
en este tipo de alineamientos deben ser precisos pero también rápidos. Las herramientas más usadas
actualmente derivan de la desarrollada por Lipman y Pearson en 1985, conocida como FASTA e
implementada por el EBI en su servicio fasta y de la desarrollada por Altschul y colaboradores en 1990,
conocida como BLAST (del inglés Basic Local Alignment Search Tool) e implementada en el servicio NCBI
BLAST.
Por otra parte, el alineamiento múltiple es el caballo de batalla del análisis de secuencias, pues es el
que realmente permite establecer inferencias en cuanto a estructura y función. Por este motivo, los algoritmos
de alineamiento múltiple están enfocados a una mayor precisión.
Nuestro objetivo es conocer y comprender como los procesos evolutivos han actuado en la evolución
molecular mediante la comparación de secuencias de DNAmt y el análisis de datos microsatélites de
diferentes organismos observando las similitudes y diferencias entre ellas.
Objetivos Específicos:
1.- Conocer la base de datos de secuencias genéticas Genbank.
5.- Analizar datos microsatélites mediante el uso del Software de análisis genético GenAlex.
Dr. Juan Carlos Marín Contreras – Prof. Carlos Alberto Venegas Canto
Universidad del Bío-Bío – Carrera de Ingeniería en RRNN – Curso de Genética y Evolución 2016
Actividades
Figura 1: Estructura del DNAmt. Imagen obtenida de Concepts of genetics; William S. Klug et al. 10th ed.,
2012.
Una secuencia nucelótidica del DNAmt está caracterizada porque cada base nitrogenada es
representada por un Pick de electroferogramas con un color característico que identifica a cada una de ella
como se ve en la figura 2.
Figura 2.
Dr. Juan Carlos Marín Contreras – Prof. Carlos Alberto Venegas Canto
“[...] la identificación de correspondencias residuo-re
correspondencias que preserve el orden de los residuo
Universidad del Bío-Bío – Carrera de Ingeniería en RRNN – Curso de Genética y Evolución 2016
alineamiento.”
Lesk, AM., “Bioinformatics”, Primera edición, Oxford Un
2.- Alineación de secuencias nucleotídicas:
En términos coloquiales, alinear dos secuencias es poner una
En términos generales, el alineamiento de secuencias nucleotídicas consiste en colocar una junto a la
resalten las diferencias y similitudes, pero sin cambiar el orden
otra de forma que se resalten las diferencias y similitudes sin cambiar la estructura. Hay varias formas de
Haycuálvarias
realizar los alineamientos. Si queremos saber maneras
de las dos demáshacer
secuencias es esto, aunque
larga, podemos simplementeunas se presta
queremos
alinear el primer residuo de la primera cadena saber
con el primer residuocuál de lascadena
de la segunda dosy secuencias
así sucesivamentees más larga, p
primer residuo
para todos los residuos y las cadenas correspondientes. de sería
El resultado la primera
algo así: cadena con el primer residuo de
para todos los residuos. El resultado es algo más o menos así:
ESTOESUN
ALINEAMIENTO
Figura
De aquí se 3.concluye rápidamente que la primera secuencia es
Sin embargo,
De la figura 3 se concluye rápidamente usualmente
que la primera nos
secuencia es más cortainteresa másSinsaber
que la segunda. si dos se
iguales
embargo, otra forma de obtener información es saberen el secuencias
si las mismo enorden.
cuestiónPor ejemplo,
tienen las palabras incr
sub-secuencias
similares en este sentido:
iguales en el mismo orden. Por ejemplo, las palabras incrementado y cemento son muy similares en este
sentido:
I N C R E M E N T A D O
- - C – E M E N T - - O
De aquí concluímos
Figura 4. que ambas comparten la subsecuencia “EMENT” y
la palabra “cemento” (específicamente la “c” y la “o”) aparecen en
“incrementado”.
De la figura 4 podemos concluir que ambas secuencias comparten la sub-secuencia "EMENT" y las
otras letras de la palabra cementoOtra
(específicamente
forma de laalinear
"C" y laestas
"O") aparecen en el mismo orden
dos secuencias en la palabra
sería:
"incrementado". Sin embargo, este alineamiento nos permite ver la similitud que tienen ambas secuencias. Por
I de
lo tanto, nuestro análisis dependerá N laCcalidad
R EdelMalineamiento
E N T A(verDfigura
O -5).
- C – E - - - - M E N T O
Figura 6.
b) Una vez encontrada la base de datos se deberán buscar las secuencias de citocromo b (Cyt-b) de la familia
y las especies propuestas para el estudio. Para ello se deberá escribir en los espacios del buscador de la
página, en "All Databases" seleccionamos la opción "Nucleotide", luego en el rectángulo posterior colocamos
la familia de interes y hacemos Click en la opción "Search". (Figura 7).
Dr. Juan Carlos Marín Contreras – Prof. Carlos Alberto Venegas Canto
Universidad del Bío-Bío – Carrera de Ingeniería en RRNN – Curso de Genética y Evolución 2016
Figura 7.
c) Para la realización del estudio debemos asegurarnos de que al menos en la lista desplegada aparezcan 10
especies distintas y con la descripción del gen completo "Complete cds" como se aprecia en la figura 8.
Figura 8.
d) Al momento de acceder a cada especie debemos ir al link superior "FASTA" (Figura 9) y desde una nueva
página desplegada copiar la información de la especie y la secuencia en un documento "txt" (Word pad bock ó
Block de notas). Esto se debe realizar para cada una de las especies estudiadas (mínimo 10).
Figura 9.
Dr. Juan Carlos Marín Contreras – Prof. Carlos Alberto Venegas Canto
Universidad del Bío-Bío – Carrera de Ingeniería en RRNN – Curso de Genética y Evolución 2016
http://www.biology.ed.ac.uk/research/institutes/evolution/software/filatov/proseq.htm
b) El software Proseq se encuentra en versiones para trabajar en Pc y Mac. Una vez completado nuestro
archivo txt nos dirigimos al programa de alineamiento de secuencias Proseq y seleccionamos la opción File
para abrir nuestro archivo en formato Fasta (Figura 10).
Figura 10.
c) Ahora comenzamos con el pre-alineamiento de nuestras secuencias nucleotídicas. Con la tecla crtl+i se
agregan espacios en las secuencias, mientras que con la tecla crtl+v se eliminan espacios en las secuencias. De
esta forma sólo debemos incluir la parte del gen que nos entrega la información necesaria para nuestro
estudio, y esta corresponde a la que presenta los menos espacios posibles en la secuencia.
d) Una vez pre-alineadas las secuencias se deberán guardar los datos en formato fasta para abrirlos
posteriormente con el software Clustal X. [Debe tener en cuenta los codones de inicio (ATG) y los de término
(TAA, TAG y TGA) de un gen].
Dr. Juan Carlos Marín Contreras – Prof. Carlos Alberto Venegas Canto
Universidad del Bío-Bío – Carrera de Ingeniería en RRNN – Curso de Genética y Evolución 2016
http://workshop.molecularevolution.org/software/clustalx/
b) Una vez instalado el programa comenzaremos viendo cómo se utiliza la versión local puesto que ofrece una
serie de utilidades que no están accesibles en todas las demás opciones.
c) Para construir un alineamiento múltiple usando la versión local de Clustal X el primer paso es crear un
fichero que contenga todas las secuencias que deseamos usar en el análisis, para lo que podemos utilizar
cualquier editor de texto que tengamos en el ordenador. Las secuencias pueden estar en cualquiera de los
siguientes formatos (siempre que le fichero se grabe en formato ASCII, es decir, utilizando la opción guardar
sólo texto): (1) Fasta, (2) EMBL, (3) Swiss-Prot, (4) PIR, (5) GCG/MSF.
d) La forma más sencilla es utilizar la formato Multi-Fasta, en el que las secuencias se colocan una a
continuación de otra separadas por líneas de comentarios que comienzan con el símbolo ">", como se aprecia
en la figura 11.
Dr. Juan Carlos Marín Contreras – Prof. Carlos Alberto Venegas Canto
Universidad del Bío-Bío – Carrera de Ingeniería en RRNN – Curso de Genética y Evolución 2016
Figura 11.
e) Una vez que estén todas las secuencias nucleotídicas listas grabe el docuemnto cómo "sólo texto" en la
mima carpeta que tine el programa Clustal (esto facilita las posteriores operaciones).
f) Una vez guardados los datos abra Clustal X y le aparecerá el menú del programa como se muestra en la
figura 12. El primer paso consiste en cargar el archivo generado con las secuencias, una vez buscado en la
carptea que se había grabado (File; opción Load Sequences) aparecerán todas las secuencias en la pantalla,
pero sin alinear.
Figura 12.
g) Para realizar el alineamiento sin cambiar ningún parámetro, en el menú de Alignment usamos la opción Do
Complete Alignment. Al seleccionarlo pedirá una carpeta de destino y nombre de archivo en los que grabar
los resultados correspondientes al alineamiento en formato de texto, un dendograma (con extensión .dnd) y el
alineamiento en sí (con extensión .aln).
h) En el menú de Alignment tenemos accecibles una serie de opciones que van a determinar el resultado del
alineamiento múltiple: por ejemplo en la opción Multiple Alignment Parameters, podemos establecer el gap
Dr. Juan Carlos Marín Contreras – Prof. Carlos Alberto Venegas Canto
Universidad del Bío-Bío – Carrera de Ingeniería en RRNN – Curso de Genética y Evolución 2016
"gap opening penalty" y el "gap extension penalty", seleccionar la matriz de sustitución apropiada (BLOSUM
o PAM) y algún otro parámetro adicional. En la opción Pairwise Alignment Parameters podemos ajustar el
tamaño de la ventana que se utiliza en las comparaciones (Figura 13).
Figura 13.
i) Si no hay ninguna razón para cambiar los parámetros que se utilizan por defecto, procedemos a seleccionar
la opción Do Complete Alignment. Una vez seleccionada la opción anterior, vemos como el programa
comienza a comparar por pares todas las secuencias hasta generar el alineamiento. Un ejemplo de un
alineamiento es el que se muestra en la figura 14.
Dr. Juan Carlos Marín Contreras – Prof. Carlos Alberto Venegas Canto
Universidad del Bío-Bío – Carrera de Ingeniería en RRNN – Curso de Genética y Evolución 2016
Figura 14.
j) En el resultado de Clusta X mostrado en la figura 14 encontramos en todas las letras marcadas con asterisco
debajo de las secuencias aquellas posiciones que son idénticas en todas ellas, mientras que las sustituciones o
reemplazos conservativos están indicados con dos puntos.
k) Si observamos que el alineamiento resultante no es correcto [demasiados gaps (regiones conservadas que
conocemos mal alineadas)], podemos volver al menú anterior y cambiar alguno de los parámetros y correr
nuevamente el Clustal para ver cómo afectan los cambios el alineamiento final (para explicar de forma detalla
cómo afectan cada uno de los parámetros el resultado). En el menú podemos seleccionar la opción "Help" que
nos ayudará a verificar los problemas que se puedan presentar (Figura 15).
Dr. Juan Carlos Marín Contreras – Prof. Carlos Alberto Venegas Canto
Universidad del Bío-Bío – Carrera de Ingeniería en RRNN – Curso de Genética y Evolución 2016
Figura 15.
l) Un punto útil del menú es la opción Output format options, del menú que nos permite elegir el formato del
alineamiento. Esto nos permitirá generar un alineamiento que pueda ser reconocido por otros paquetes de
software (como PHYLIP) o editar el alineamiento utilizando algún programa específico. Las distintas
opciones se muestran en la figura 16.
Figura 16.
b) Materiales y métodos en los cuales se indique el origen de las secuencias y los prgramas utilizados en la
secuenciación y análisis.
c) Resultados en los cuales se describan las secuencias alineadas y los sitios polimórficos presentes.
d) Discusión en la cual se discutan los resultados obtenidos en base a las secuencias analizadas y las
características de las especies escogidas.
e) Conclusión en base a los datos discutidos teniendo en cuenta todos los aspectos del informe realizado.
f) Bibliografía.
Dr. Juan Carlos Marín Contreras – Prof. Carlos Alberto Venegas Canto
Universidad del Bío-Bío – Carrera de Ingeniería en RRNN – Curso de Genética y Evolución 2016
8.1.- ¿Por qué usted no logra visualizar individuos homocigotos y heterocigotos en las secuencias
nucleótidicas analizadas?
8.2.- Si las mutaciones ocurren al azar dentro del genoma de un individuo, ¿Por qué se aprecia el mayor
número de cambios en la tercera base nucleotídica en las especies analizadas para el gen del Cyt-b?
8.3.- ¿Qué tipo de cambio genético presentan las secuencias nucleotídicas de huemul y taruka para el gen D-
loop?
8.4.- ¿Qué tipo de análisis evolutivo nos permiten determinar las secuencias nucleotídicas del Cyt-b y D-loop?
Dr. Juan Carlos Marín Contreras – Prof. Carlos Alberto Venegas Canto
Universidad del Bío-Bío – Carrera de Ingeniería en RRNN – Curso de Genética y Evolución 2016
En la actualidad, muchos de los estudios sobre poblaciones naturales se basan en los análisis
genéticos, a través del uso de marcadores moleculares de DNA. Entre estos marcadores se cita el uso de los
microsatélites o "short-sequence repeat tándem" (SSRT) (Aranguren-Méndez y Jordana, 2001). Los
marcadores microsatélites son segmentos cortos de DNA de 1 a 6 pares de bases (pb), los cuales se repiten en
tándem y de forma aleatoria en el genoma de los seres vivos. Una de las ventajas de estos marcadores radica
en que están considerados, por la mayoría de autores como la más poderosa herramienta para los estudios de
genética de poblaciones (Cheng y Crittenden, 1994), ya que son polimórficos, presentan herencia mendeliana
simple, son codominantes, repetitivos y automatizables (Aranguren-Méndez y Jordana, 2001).
El desarrollo de la bioinformática se ha convertido en un gran avance permitiendo unir la informática
con otras ciencias como la biología y la genética. La secuenciación de genomas lleva la necesidad de obtener
conclusiones de la lectura de millones de pares de bases, saber que codifican, cómo se relacionan y regulan la
expresión de distintos productos génicos y generar modelos que permitan estudiar mutaciones puntuales. La
rapidez y eficacia de estas conclusiones se ha generado gracias al desarrollo de la Bioinformática.
a) Límite de datos: GenAlex está limitado por Excel a 256 columnas de datos. Esto equivale a 254 loci
binarios o haploide o 127 loci codominantes. El número máximo de muestras es aproximadamente 65.500.
b) Datos de Ingreso (Input): Los Input son los datos en bruto o matrices de distancia en el formato apropiado
para GenAlex (ver figura 17). Para hacer un análisis, la hoja de trabajo que contiene los datos debe ser
activada (visible). Algunos análisis y procedimientos se hacen usando como datos de ingreso varias hojas de
trabajo. A menos que se explique en otra parte, es necesario que estas hojas estén al lado izquierdo del
cuaderno de Excel, en orden de 1 a n.
Dr. Juan Carlos Marín Contreras – Prof. Carlos Alberto Venegas Canto
Ubicación de parámetros
Los parámetros esenciales son insertados en la fila 1. Estos son: No Loci (celda A1); No. de
Universidad
muestras del B1);
(celda Bío-Bío
No.– de
Carrera de Ingeniería
Poblaciones (celdaenC1);
RRNN – Curso
Tamaño de Genética
para y Evolución
cada población (celda2016
D1..a celda n1).
B1 : No. Muestras
D1 – F1 : Tamaño de cada población
A1 : No. Loci C1: No. Pops.
Fila 3: Marcas
opcionales,
incluyendo nombre
de locus
Col. B con marcas pop.
en bloques continuos Datos codominantes con 2
columnas por locus,
Col. A con las marcas de muestras iniciando at C4.
iniciando en A4. Cada muestra tiene
un único identificador numérico.
Dr. Juan Carlos Marín Contreras – Prof. Carlos Alberto Venegas Canto
Universidad del Bío-Bío – Carrera de Ingeniería en RRNN – Curso de Genética y Evolución 2016
Ejemplo
de datos codominantes, numéricamente codificados, con parámetros de región.
2.1.- Procedimiento:
a) Para la realización de la actividad se deberá descargar el Programa GenAlex de la siguiente página web:
http://biology.anu.edu.au/GenAlEx/Download.html
b) Una vez descargado el programa se deberá encontrar el ícono de entrada (Figura 19).
Dr. Juan Carlos Marín Contreras – Prof. Carlos Alberto Venegas Canto
Este menú de opciones proporciona un rango de resúmenes estadísticos para datos
codominantes, haplotipicos y dominantes.
Universidad del Bío-Bío – Carrera de Ingeniería en RRNN – Curso de Genética y Evolución 2016
Procedimiento
1. Escoja la opción Frequency desde el menú de GenAlEx.
2. Ingrese toda la información apropiada en el cuadro de diálogo Allele Frequency Data
Parameters. Figura 19.
3. Seleccione las opciones de frecuencia requeridas desde el cuadro de diálogo Frequency
Options (las opciónes disponibles depende del tipo de datos). Para información sobre
c) En el menú del Programa Genalex
estas opciónes señale la opción HWE. Luego ingrese en el cuadro
ver abajo. de diálogo de HWE
Data Parameters todos los datos requeridos tal cual se muestra en la figura 20.
Opciones de Frecuencias Codominantes
Una Guía para GenAlEx 6 28
Procedimiento
1. En el menú GenAlEx, señale la opción HWE.
2. Ingrese en el cuadro de diálogo de HWE Data Parameters todos los datos requeridos.
3. En la siguiente ventana, Hardy-Weinberg Options, escoja las opciones que desea, luego
pulse Ok. Ver opciones abajo para mas detalles
Figura 20. y los nombres de las hojas de repuestas.
d) En la siguiente ventana Hardy-Weinberg Option escoja las opciones que desee y luego pulse OK (Figura
21).
Figura 21.
a) Obs. V Exp. Values (HW): Presenta las frecuencias observadas y esperadas para cada genotipo y la prueba
de Chi-Cuadrado para cada locus en cada población.
b) Graph Obs. V Exp. (HW): Presenta un gráfico con los datos genotípicos antes mencionados.
c) Step by Step (HW): Presenta paso por paso los cálculos realizados para la prueba de Chi-Cuadrado.
3.1.- ¿Cuál (es) de los loci está (n) en equilibrio de Hardy-Weinberg? ¿Por qué?
3.2.- ¿Cuál (es) de los loci está (n) fuera del equilibrio de Hardy-Weinberg? ¿Por qué?
3.3.- Elabore una tabla incluyendo los valores de cada uno de los loci analizados con GenAlex.
Dr. Juan Carlos Marín Contreras – Prof. Carlos Alberto Venegas Canto
Universidad del Bío-Bío – Carrera de Ingeniería en RRNN – Curso de Genética y Evolución 2016
3.4.- Adjunte el formato Excel requerido y los gráficos entregados por GenAlex de cada uno de los loci
analizados.
3.5.- ¿Por qué los microsatélites nos permiten visualizar la información paterna y materna?
Bibliografía
1.- Aranguren-Méndez J.A. and Jordana, J. 2001. Utilización de marcadores de ADN (microsatélites) en
poblaciones de animales domésticos en peligro de extinción. 1-12.
2.- Cheng H. H. and Crittenden, L.B 1994. Microsatellite markers for genetic mapping in the chicken. Poultry
Sci. 73:539-546.
3.- Marín et al., 2007. Sistemática, taxonomía y domesticación de alpacas y llamas: nueva evidencia
cromosómica y molecular. Revista Chilena de Historia Natural. 80: 121-140.
4.- Slatkin, M. 1994. Gene flow and population structure. En Ecological Genetics, editado por L. Real.
Princeton.
Dr. Juan Carlos Marín Contreras – Prof. Carlos Alberto Venegas Canto