Está en la página 1de 19

Universidad del Bío-Bío – Carrera de Ingeniería en RRNN – Curso de Genética y Evolución 2016

 
 
SESIÓN Nº 4:
"MARCADORES MOLECULARES"

Introducción:
La aparición de técnicas para estudiar secuencias de proteínas y DNA abrió un nuevo campo para el
estudio de la evolución. Comenzando por los estudios de la primera secuenciación de aminoácidos a gran
escala hacia mediados de la década de los sesenta y continuando con la explosión actual de datos sobre
secuencias de genomas completos, los investigadores han dirigido su atención a una gran variedad de
cuestiones acerca de cómo las proteínas y los ácidos nucleicos cambian con el tiempo.
La secuencia es una propiedad clave de los ácidos nucleicos y las proteínas. La regla de oro en
biología es que la secuencia de las biomoléculas determina su estructura tridimensional y esta determina su
función. En la práctica, la secuencia de un fragmento de ADN se obtiene mediante la técnica de interrupción
controlada de la replicación, conocida como técnica de Sánger; en tanto que la secuencia de una cadena
polipeptídica se obtiene generalmente por el método de Edman.
Tanto para ácidos nucleicos, como para proteínas, se han desarrollado métodos automáticos de
secuenciación, basados en las técnicas antes mencionadas, que han jugado un papel crucial en el vertiginoso
desarrollo de los proyectos de secuenciación de genomas y la bioinformática.
Las bases de datos de secuencias son depositarios primarios de datos que aceptan secuencias de
ácidos nucleicos y proteínas procedentes de la comunidad científica internacional y los hacen disponibles en
forma pública. Estos datos son heterogéneos, pues varían con respecto a la fuente, la calidad de la secuencia
en términos del número de réplicas del proceso de secuenciación, el grado de anotación o descripción de la
secuencia o la cobertura de la misma en relación con la entidad biológica (secuencias parciales o totales de
genes o genomas). Hoy, luego de varios años de trabajo, toda la información disponible sobre secuencias se
intenta unificar y colectar en bancos de datos centrales. Así, los tres recursos fundamentales de información
sobre secuencias nucleotídicas (el banco de datos de secuencias nucleotídicas del EMBL en el Reino Unido,
Genbank en EEUU y el banco de datos de ADN de Japón) se actualizan diariamente de forma sincronizada.
En tanto que, la información sobre secuencias aminoacídicas se colecta en dos recursos globales: PIR
(Protein Information Resource, EEUU) y Swiss‐Prot. La búsqueda en estas bases de datos puede llevarse a

cabo a través de palabras claves (búsqueda basada en texto), utilizando elementos como el nombre del gen o
la proteína, o a través de secuencia (búsqueda basada en secuencia), que permite identificar las secuencias
más "parecidas" a la secuencia usada en la búsqueda. Los sistemas de integración de la información, como
SRS o Entrez, permiten realizar búsquedas basadas en texto en más de una base de datos, de forma
simultánea.
Los ácidos nucleicos y las proteínas pueden ser similares en cuanto a su función, su estructura o su
secuencia. El objetivo principal de la comparación entre las secuencias de dos o más biomoléculas es el
establecimiento de inferencias en cuanto a su estructura y función, a partir de la similitud en las secuencias.

Dr. Juan Carlos Marín Contreras – Prof. Carlos Alberto Venegas Canto
 
Universidad del Bío-Bío – Carrera de Ingeniería en RRNN – Curso de Genética y Evolución 2016
 
 
Esto es posible muchas veces, pero otras no, se conocen muchos casos de proteínas con una similitud en
secuencia muy baja que, sin embargo, adoptan estructuras tridimensionales similares y comparten la misma
función.
Las secuencias suelen compararse alineándolas. Un alineamiento de secuencias constituye una
representación cualitativa de la similitud entre dos o más secuencias. Existen dos variantes fundamentales de
alineamiento: (1) el alineamiento de una secuencia contra otra u otras (de tipo uno a uno o uno a muchos) y
(2) el alineamiento simultáneo de varias secuencias entre sí (de tipo muchos a muchos) conocido como
alineamiento múltiple. Ambas variantes se basan en los mismos principios generales establecidos para
comparar una secuencia con otra, introducidos por Smith y Waterman y luego modificados por Nedlman y
Wunch. Sin embargo, los algoritmos usados en uno y otro caso son diferentes, optimizados de acuerdo al
objetivo final.
Los alineamientos de tipo uno a muchos permiten comparar una secuencia cuya identidad se
desconoce con otras conocidas y son útiles, por tanto, para la búsqueda de secuencias en bases de datos.
Cuando se hace una búsqueda en una base de datos es necesario comparar la secuencia desconocida (consulta
o query) con todas las secuencias almacenadas en la base de datos, de manera que los algoritmos que se usan
en este tipo de alineamientos deben ser precisos pero también rápidos. Las herramientas más usadas
actualmente derivan de la desarrollada por Lipman y Pearson en 1985, conocida como FASTA e
implementada por el EBI en su servicio fasta y de la desarrollada por Altschul y colaboradores en 1990,
conocida como BLAST (del inglés Basic Local Alignment Search Tool) e implementada en el servicio NCBI
BLAST.
Por otra parte, el alineamiento múltiple es el caballo de batalla del análisis de secuencias, pues es el
que realmente permite establecer inferencias en cuanto a estructura y función. Por este motivo, los algoritmos
de alineamiento múltiple están enfocados a una mayor precisión.
Nuestro objetivo es conocer y comprender como los procesos evolutivos han actuado en la evolución
molecular mediante la comparación de secuencias de DNAmt y el análisis de datos microsatélites de
diferentes organismos observando las similitudes y diferencias entre ellas.

Objetivos Específicos:
1.- Conocer la base de datos de secuencias genéticas Genbank.

2.- Buscar y descargar secuencias de la base de datos Genbank.

3.- Alinear las secuencias obtenidas de la base de datos Genbank.

4.- Utilizar software de alineamiento de secuencias nucleotídicas.

5.- Analizar datos microsatélites mediante el uso del Software de análisis genético GenAlex.

Dr. Juan Carlos Marín Contreras – Prof. Carlos Alberto Venegas Canto
 
Universidad del Bío-Bío – Carrera de Ingeniería en RRNN – Curso de Genética y Evolución 2016
 
 

Actividades

Parte I: Análisis de Marcadores Mitocondriales.

1.- Conocer la estructura y composición de una secuencia nucleotídica del DNAmt:


Antes de empezar con la descarga y alineación de secuencias debemos conocer la identidad de una
secuencia nucelótidica en cuanto a su alfabeto y complejidad. El genoma mitocondrial consiste típicamente en
una estructura circular constituida por dos cadenas de DNA compuestas principalmente de cuatro bases
nitrogenadas: adenina (A); timina (T); guanina (G) y citosina (C), las cuales se encuentran apareadas
permitiendo la unión de ambas cadenas (Figura 1).

Figura 1: Estructura del DNAmt. Imagen obtenida de Concepts of genetics; William S. Klug et al. 10th ed.,
2012.  
Una secuencia nucelótidica del DNAmt está caracterizada porque cada base nitrogenada es
representada por un Pick de electroferogramas con un color característico que identifica a cada una de ella
como se ve en la figura 2.

Figura 2.

Dr. Juan Carlos Marín Contreras – Prof. Carlos Alberto Venegas Canto
 
“[...] la identificación de correspondencias residuo-re
correspondencias que preserve el orden de los residuo
Universidad del Bío-Bío – Carrera de Ingeniería en RRNN – Curso de Genética y Evolución 2016
alineamiento.”
 
 
Lesk, AM., “Bioinformatics”, Primera edición, Oxford Un
2.- Alineación de secuencias nucleotídicas:
En términos coloquiales, alinear dos secuencias es poner una
En términos generales, el alineamiento de secuencias nucleotídicas consiste en colocar una junto a la
resalten las diferencias y similitudes, pero sin cambiar el orden
otra de forma que se resalten las diferencias y similitudes sin cambiar la estructura. Hay varias formas de
Haycuálvarias
realizar los alineamientos. Si queremos saber maneras
de las dos demáshacer
secuencias es esto, aunque
larga, podemos simplementeunas se presta
queremos
alinear el primer residuo de la primera cadena saber
con el primer residuocuál de lascadena
de la segunda dosy secuencias
así sucesivamentees más larga, p
primer residuo
para todos los residuos y las cadenas correspondientes. de sería
El resultado la primera
algo así: cadena con el primer residuo de
para todos los residuos. El resultado es algo más o menos así:

ESTOESUN
ALINEAMIENTO
Figura
De aquí se 3.concluye rápidamente que la primera secuencia es

Sin embargo,
De la figura 3 se concluye rápidamente usualmente
que la primera nos
secuencia es más cortainteresa másSinsaber
que la segunda. si dos se
iguales
embargo, otra forma de obtener información es saberen el secuencias
si las mismo enorden.
cuestiónPor ejemplo,
tienen las palabras incr
sub-secuencias
similares en este sentido:
iguales en el mismo orden. Por ejemplo, las palabras incrementado y cemento son muy similares en este
sentido:

I N C R E M E N T A D O
- - C – E M E N T - - O

De aquí concluímos
Figura 4. que ambas comparten la subsecuencia “EMENT” y
la palabra “cemento” (específicamente la “c” y la “o”) aparecen en
“incrementado”.
De la figura 4 podemos concluir que ambas secuencias comparten la sub-secuencia "EMENT" y las
otras letras de la palabra cementoOtra
(específicamente
forma de laalinear
"C" y laestas
"O") aparecen en el mismo orden
dos secuencias en la palabra
sería:
"incrementado". Sin embargo, este alineamiento nos permite ver la similitud que tienen ambas secuencias. Por
I de
lo tanto, nuestro análisis dependerá N laCcalidad
R EdelMalineamiento
E N T A(verDfigura
O -5).
- C – E - - - - M E N T O

Sin embargo, este alineamiento no me permitiría ver la similitud que tien


Por tanto, nuestros análisis dependerán de la calidad del alineamiento.

Homología vs. Similitud

“Similitud es la observación o medición de parecido y diferen


origen de ese parecido. Homología significa, específicamente, qu
organismos en los que están presentes, descienden de un ances

Lesk, AM., “Bioinformatics”, Primera edición, Oxford University Pr


Figura 5.

En sentido estricto, la homología se refiere únicamente a un orig


caracteres. Por tanto, dos secuencias son homólogas o no homólog
Dr. Juan Carlos Marín Contreras – Prof. Carlos Alberto Venegas Canto
  gradación intermedia. Una situación similar del mundo real es el em
puede estar 50% embarazada: o está o no está, o no se sabe.

Similitud, en cambio, es una medida del parecido entre dos secuencias q


Universidad del Bío-Bío – Carrera de Ingeniería en RRNN – Curso de Genética y Evolución 2016
 
 

3.- Descarga de las secuencias nucleotídicas desde el NCBI:


3.1.- Procedimiento:
a) Las secuencias utilizadas en nuestro estudio serán descargadas de la base de datos de EEUU Genbank a
través de la página web: http://www.ncbi.nlm.nih.gov (figura 6). Además se les entregará una serie de
secuencias nucleotídicas sin alinear de diferentes especies de ciervos.

Figura 6.
b) Una vez encontrada la base de datos se deberán buscar las secuencias de citocromo b (Cyt-b) de la familia
y las especies propuestas para el estudio. Para ello se deberá escribir en los espacios del buscador de la
página, en "All Databases" seleccionamos la opción "Nucleotide", luego en el rectángulo posterior colocamos
la familia de interes y hacemos Click en la opción "Search". (Figura 7).

Dr. Juan Carlos Marín Contreras – Prof. Carlos Alberto Venegas Canto
 
Universidad del Bío-Bío – Carrera de Ingeniería en RRNN – Curso de Genética y Evolución 2016
 
 
Figura 7.
c) Para la realización del estudio debemos asegurarnos de que al menos en la lista desplegada aparezcan 10
especies distintas y con la descripción del gen completo "Complete cds" como se aprecia en la figura 8.

Figura 8.

d) Al momento de acceder a cada especie debemos ir al link superior "FASTA" (Figura 9) y desde una nueva
página desplegada copiar la información de la especie y la secuencia en un documento "txt" (Word pad bock ó
Block de notas). Esto se debe realizar para cada una de las especies estudiadas (mínimo 10).

Figura 9.

Dr. Juan Carlos Marín Contreras – Prof. Carlos Alberto Venegas Canto
 
Universidad del Bío-Bío – Carrera de Ingeniería en RRNN – Curso de Genética y Evolución 2016
 
 

4.- Pre-alineación de secuencias nucleotídicas: Software "Proseq".


4.1.- Procedimiento:

a) Descarge el programa por medio de la página web que se adjunta a continuación:

http://www.biology.ed.ac.uk/research/institutes/evolution/software/filatov/proseq.htm

b) El software Proseq se encuentra en versiones para trabajar en Pc y Mac. Una vez completado nuestro
archivo txt nos dirigimos al programa de alineamiento de secuencias Proseq y seleccionamos la opción File
para abrir nuestro archivo en formato Fasta (Figura 10).

Figura 10.

c) Ahora comenzamos con el pre-alineamiento de nuestras secuencias nucleotídicas. Con la tecla crtl+i se
agregan espacios en las secuencias, mientras que con la tecla crtl+v se eliminan espacios en las secuencias. De
esta forma sólo debemos incluir la parte del gen que nos entrega la información necesaria para nuestro
estudio, y esta corresponde a la que presenta los menos espacios posibles en la secuencia.

d) Una vez pre-alineadas las secuencias se deberán guardar los datos en formato fasta para abrirlos
posteriormente con el software Clustal X. [Debe tener en cuenta los codones de inicio (ATG) y los de término
(TAA, TAG y TGA) de un gen].

Dr. Juan Carlos Marín Contreras – Prof. Carlos Alberto Venegas Canto
 
Universidad del Bío-Bío – Carrera de Ingeniería en RRNN – Curso de Genética y Evolución 2016
 
 

5.- Alineación de secuencias nucleotídicas: Software "Clusta X".


Clusta X es uno de los programas más utilizados para el alineamiento de secuencias puesto que es un
programa gratis y disponible para todas las plataformas (Pc, Mac y Unix). También puede ser utilizado On
line en diversos servidores. Basándose en laidea de alienamientos progresivos, Clustal realiza en primer lugar
una serie de alineamientos por pares, comparando cada secuencia con todas las demás para construir una
matriz de distancias en la que se refleja la relación de cada secuencia con las demás. Esta matriz sirve (entre
otras opciones) para determinar las relaciones o diferencias entre las secuencias analizadas a medida que se
van añadiendo las secuencias más divergentes.
Como todos los programas, Clustal X se puede utilizar de varias formas: (1) instalandolo en el
ordenador, (2) utilizándolo como parte de paquetes Bio-informáticos integrados, (3) y a través de páginas
web. La forma en que la utilizaremos nosotros para nuestros análisis será instalandolo en los ordenadores de
cada estudiante.
5.1.- Procedimiento:
a) Para comenzar la actividad debe descargar el programam Clusta X de la página web que se detalla a
continuación:

http://workshop.molecularevolution.org/software/clustalx/

b) Una vez instalado el programa comenzaremos viendo cómo se utiliza la versión local puesto que ofrece una
serie de utilidades que no están accesibles en todas las demás opciones.

c) Para construir un alineamiento múltiple usando la versión local de Clustal X el primer paso es crear un
fichero que contenga todas las secuencias que deseamos usar en el análisis, para lo que podemos utilizar
cualquier editor de texto que tengamos en el ordenador. Las secuencias pueden estar en cualquiera de los
siguientes formatos (siempre que le fichero se grabe en formato ASCII, es decir, utilizando la opción guardar
sólo texto): (1) Fasta, (2) EMBL, (3) Swiss-Prot, (4) PIR, (5) GCG/MSF.

d) La forma más sencilla es utilizar la formato Multi-Fasta, en el que las secuencias se colocan una a
continuación de otra separadas por líneas de comentarios que comienzan con el símbolo ">", como se aprecia
en la figura 11.

Dr. Juan Carlos Marín Contreras – Prof. Carlos Alberto Venegas Canto
 
Universidad del Bío-Bío – Carrera de Ingeniería en RRNN – Curso de Genética y Evolución 2016
 
 

Figura 11.
e) Una vez que estén todas las secuencias nucleotídicas listas grabe el docuemnto cómo "sólo texto" en la
mima carpeta que tine el programa Clustal (esto facilita las posteriores operaciones).

f) Una vez guardados los datos abra Clustal X y le aparecerá el menú del programa como se muestra en la
figura 12. El primer paso consiste en cargar el archivo generado con las secuencias, una vez buscado en la
carptea que se había grabado (File; opción Load Sequences) aparecerán todas las secuencias en la pantalla,
pero sin alinear.

Figura 12.

g) Para realizar el alineamiento sin cambiar ningún parámetro, en el menú de Alignment usamos la opción Do
Complete Alignment. Al seleccionarlo pedirá una carpeta de destino y nombre de archivo en los que grabar
los resultados correspondientes al alineamiento en formato de texto, un dendograma (con extensión .dnd) y el
alineamiento en sí (con extensión .aln).

h) En el menú de Alignment tenemos accecibles una serie de opciones que van a determinar el resultado del
alineamiento múltiple: por ejemplo en la opción Multiple Alignment Parameters, podemos establecer el gap

Dr. Juan Carlos Marín Contreras – Prof. Carlos Alberto Venegas Canto
 
Universidad del Bío-Bío – Carrera de Ingeniería en RRNN – Curso de Genética y Evolución 2016
 
 
"gap opening penalty" y el "gap extension penalty", seleccionar la matriz de sustitución apropiada (BLOSUM
o PAM) y algún otro parámetro adicional. En la opción Pairwise Alignment Parameters podemos ajustar el
tamaño de la ventana que se utiliza en las comparaciones (Figura 13).

Figura 13.

i) Si no hay ninguna razón para cambiar los parámetros que se utilizan por defecto, procedemos a seleccionar
la opción Do Complete Alignment. Una vez seleccionada la opción anterior, vemos como el programa
comienza a comparar por pares todas las secuencias hasta generar el alineamiento. Un ejemplo de un
alineamiento es el que se muestra en la figura 14.

Dr. Juan Carlos Marín Contreras – Prof. Carlos Alberto Venegas Canto
 
Universidad del Bío-Bío – Carrera de Ingeniería en RRNN – Curso de Genética y Evolución 2016
 
 

Figura 14.

j) En el resultado de Clusta X mostrado en la figura 14 encontramos en todas las letras marcadas con asterisco
debajo de las secuencias aquellas posiciones que son idénticas en todas ellas, mientras que las sustituciones o
reemplazos conservativos están indicados con dos puntos.

k) Si observamos que el alineamiento resultante no es correcto [demasiados gaps (regiones conservadas que
conocemos mal alineadas)], podemos volver al menú anterior y cambiar alguno de los parámetros y correr
nuevamente el Clustal para ver cómo afectan los cambios el alineamiento final (para explicar de forma detalla
cómo afectan cada uno de los parámetros el resultado). En el menú podemos seleccionar la opción "Help" que
nos ayudará a verificar los problemas que se puedan presentar (Figura 15).

Dr. Juan Carlos Marín Contreras – Prof. Carlos Alberto Venegas Canto
 
Universidad del Bío-Bío – Carrera de Ingeniería en RRNN – Curso de Genética y Evolución 2016
 
 
Figura 15.

l) Un punto útil del menú es la opción Output format options, del menú que nos permite elegir el formato del
alineamiento. Esto nos permitirá generar un alineamiento que pueda ser reconocido por otros paquetes de
software (como PHYLIP) o editar el alineamiento utilizando algún programa específico. Las distintas
opciones se muestran en la figura 16.

Figura 16.

6.- Realización de un informe formato papers:

6.1.- Estructura del informe:

a) Introducción breve en la cual se mencionen las caracterísiticas de la especie, su clasificación taxonómica,


hipótesis y objetivos del estudio realizado.

b) Materiales y métodos en los cuales se indique el origen de las secuencias y los prgramas utilizados en la
secuenciación y análisis.

c) Resultados en los cuales se describan las secuencias alineadas y los sitios polimórficos presentes.

d) Discusión en la cual se discutan los resultados obtenidos en base a las secuencias analizadas y las
características de las especies escogidas.

e) Conclusión en base a los datos discutidos teniendo en cuenta todos los aspectos del informe realizado.

f) Bibliografía.

7.- Tema para realizar el informe:

Dr. Juan Carlos Marín Contreras – Prof. Carlos Alberto Venegas Canto
 
Universidad del Bío-Bío – Carrera de Ingeniería en RRNN – Curso de Genética y Evolución 2016
 
 

7.1.- Familia: Cervidae.

8.- Responda las siguientes preguntas al final de su informe:

8.1.- ¿Por qué usted no logra visualizar individuos homocigotos y heterocigotos en las secuencias
nucleótidicas analizadas?

8.2.- Si las mutaciones ocurren al azar dentro del genoma de un individuo, ¿Por qué se aprecia el mayor
número de cambios en la tercera base nucleotídica en las especies analizadas para el gen del Cyt-b?

8.3.- ¿Qué tipo de cambio genético presentan las secuencias nucleotídicas de huemul y taruka para el gen D-
loop?

8.4.- ¿Qué tipo de análisis evolutivo nos permiten determinar las secuencias nucleotídicas del Cyt-b y D-loop?

Parte II: Análisis de Marcadores Nucleares.


La evolución biológica consiste en el cambio en las características hereditarias de grupos de
organismos a través de las generaciones. Ocurre como consecuencia de varios procesos fundamentales, tanto
aleatorios como no aleatorios. La variación en las características de los organismos de una población se
origina a través de la mutación al azar de secuencias de ADN (los genes) que las determinan. Además, la
variación genética aumenta por recombinación durante la reproducción sexual, que produce nuevas
combinaciones de genes, y también por el flujo génico, es decir, la entrada de nuevos genes desde otras
poblaciones. El cambio evolutivo dentro de una población consiste en un cambio en las frecuencias génicas y
genotípicas. Los dos principales procesos impulsores del cambio evolutivo son la selección natural y la deriva
genética. La selección natural resulta de cualquier diferencia heredable en la tasa de supervivencia o
reproducción entre organismos portadores de diferentes alelos o genotipos (diferencias en eficacia biológica).
En la mayoría de los casos, las circunstancias ambientales determinan qué variante tiene la mayor eficacia
biológica, y una consecuencia común de la selección natural es la adaptación, una mejora en la habilidad
media de los miembros de la población para sobrevivir y reproducirse en su ambiente. La deriva genética
resulta de la variación al azar en la supervivencia y reproducción de los diferentes genotipos. En la deriva
genética, las frecuencias de los alelos fluctúan por puro azar. Ocasionalmente, un alelo reemplazará a los otros
(es decir, se fijará en la población). La deriva genética es la fuerza predominante cuando los alelos de un gen
son neutros, esto es, cuando no difieren substancialmente en sus efectos sobre la supervivencia o la
reproducción, y actúa más intensamente cuanto más pequeña es la población. La deriva genética resulta en
cambio evolutivo, pero no en adaptación, aunque en combinación con la selección puede favorecerla.

Dr. Juan Carlos Marín Contreras – Prof. Carlos Alberto Venegas Canto
 
Universidad del Bío-Bío – Carrera de Ingeniería en RRNN – Curso de Genética y Evolución 2016
 
 
En la actualidad, muchos de los estudios sobre poblaciones naturales se basan en los análisis
genéticos, a través del uso de marcadores moleculares de DNA. Entre estos marcadores se cita el uso de los
microsatélites o "short-sequence repeat tándem" (SSRT) (Aranguren-Méndez y Jordana, 2001). Los
marcadores microsatélites son segmentos cortos de DNA de 1 a 6 pares de bases (pb), los cuales se repiten en
tándem y de forma aleatoria en el genoma de los seres vivos. Una de las ventajas de estos marcadores radica
en que están considerados, por la mayoría de autores como la más poderosa herramienta para los estudios de
genética de poblaciones (Cheng y Crittenden, 1994), ya que son polimórficos, presentan herencia mendeliana
simple, son codominantes, repetitivos y automatizables (Aranguren-Méndez y Jordana, 2001).
El desarrollo de la bioinformática se ha convertido en un gran avance permitiendo unir la informática
con otras ciencias como la biología y la genética. La secuenciación de genomas lleva la necesidad de obtener
conclusiones de la lectura de millones de pares de bases, saber que codifican, cómo se relacionan y regulan la
expresión de distintos productos génicos y generar modelos que permitan estudiar mutaciones puntuales. La
rapidez y eficacia de estas conclusiones se ha generado gracias al desarrollo de la Bioinformática.

1.- Análisis de Datos Microsatélites: Software "GenAlex".


GenAlex es un programa de análisis genético que lee la información contenida en una hoja de trabajo
de Excel, que consta de parámetros esenciales, etiquetas opcionales y los propios datos. Hay disponibles
varias opciones para que los usuarios estructuren sus datos apropiadamente, desde datos en una hoja de
trabajo preexistente, hasta opciones para la importación automática, edición y estructuración de datos
resultantes de un sistema de genotipado o secuenciación.

1.1.- Características de GenAlex:

a) Límite de datos: GenAlex está limitado por Excel a 256 columnas de datos. Esto equivale a 254 loci
binarios o haploide o 127 loci codominantes. El número máximo de muestras es aproximadamente 65.500.

b) Datos de Ingreso (Input): Los Input son los datos en bruto o matrices de distancia en el formato apropiado
para GenAlex (ver figura 17). Para hacer un análisis, la hoja de trabajo que contiene los datos debe ser
activada (visible). Algunos análisis y procedimientos se hacen usando como datos de ingreso varias hojas de
trabajo. A menos que se explique en otra parte, es necesario que estas hojas estén al lado izquierdo del
cuaderno de Excel, en orden de 1 a n.

Dr. Juan Carlos Marín Contreras – Prof. Carlos Alberto Venegas Canto
 
Ubicación de parámetros
Los parámetros esenciales son insertados en la fila 1. Estos son: No Loci (celda A1); No. de
Universidad
muestras del B1);
(celda Bío-Bío
No.– de
Carrera de Ingeniería
Poblaciones (celdaenC1);
RRNN – Curso
Tamaño de Genética
para y Evolución
cada población (celda2016
  D1..a celda n1).
 
B1 : No. Muestras
D1 – F1 : Tamaño de cada población
A1 : No. Loci C1: No. Pops.

A2: titulo opcional.


D2 – F2: Marcas de Pop.

Fila 3: Marcas
opcionales,
incluyendo nombre
de locus
Col. B con marcas pop.
en bloques continuos Datos codominantes con 2
columnas por locus,
Col. A con las marcas de muestras iniciando at C4.
iniciando en A4. Cada muestra tiene
un único identificador numérico.

Si se requiere información regional (solo para AMOVA),


Figura 17. los parámetros para el No. de
regiones se inserta dentro de la celda inmediatamente después del último tamaño poblacional,
y el tamaño de cada región sigue entonces en las celdas subsecuentes (ver ejemplos sobre
c) Ubicación de los parámetros
datos codominantes abajo).y marca de datos en la hoja de trabajo (Excel): Los parámetros y marca de los
datos son importantes en GenAlex para leer y analizar los datos. GenAlex guarda todos los parámetros y
marcas en las filas 1, 2 y 3 de las hojas de trabajo. Las columnas A y B son usados para las marcas de las
muestras y poblaciones respectivamente. Los datos actuales empiezan en la celda C 4 de hoja de trabajo. Los
Formato
parámetros desonlos
esenciales datos
insertados en la fila 1. Estos son: Número de loci (celda A 1); Número de muestras
(celda B 1); Número de poblaciones (celda C 1); Tamaño para cada población (celda D 1 a celda n 1) (Figura
GenAlEx acepta 3 tipos de datos codificados numéricamente:
17).
1. Datos codominates con 2 columnas por locus.
2. Datos Dominantes, Haploides (incluyendo Haplotipos), o Secuencias codificados
d) Formato de los datos:
numéricamente con 1GenAlex
columnaacepta 3 tipos de datos codificados numéricamente: (1) Datos
por locus/base.
codominantes con
3. Datos 2 columnas
geográficos conpor locus, (2)para
2 columnas Datos dominantes,
coordenadas X yhaploides
Y. (incluyendo haplotipos), o
secuencias codificadasEjemplos
Recomendación: numéricamente conlos
de todos 1 columna
formatospordelocus/base y (3) Datospueden
datos de GenAlEx geográficos con 2 columnas
ser creados
parausando la opción
coordenadas Create.
X e Y. Esta esactividad
En nuestra una vía sólo
útil para explorar
utilizaremos la todo el 1,
opción rango deque
puesto opciones de matrices
se armarán
GenAlEx.
con datos microsatélites en poblaciones diploides. Los datos codominantes se presentan en dos columnas por
locus como en la figura 18. Los alelos se pueden codificar con códigos numéricos simples (1, 2 y 3 etc).
Alternativamente, y preferiblemente para datos de microsatélites, los alelos se pueden codificar como tamaño
total en pares de bases (pb) o como el número inferido de repeticiones de secuencias simples. Los alelos
codominantes no necesitan ser numerados consecutivamente.

Dr. Juan Carlos Marín Contreras – Prof. Carlos Alberto Venegas Canto
 
Universidad del Bío-Bío – Carrera de Ingeniería en RRNN – Curso de Genética y Evolución 2016
 
Ejemplo
  de datos codominantes, numéricamente codificados, con parámetros de región.

En este ejemplo las cuatros poblaciones están divididas


Figura 18. en dos regiones, con las poblaciones
1 y 2 en la región 1 y las poblaciones 3 y 4 en la región 2.

Ejemplo de datos codominantes de microsatélites, con alelos codificados como tamaño


de fragmento,

2.- Análisis de datos: Determinación del Equilibrio de Hardy-Weinberg (HWE).


Esta herramienta solo es aplicable cuando se tienen datos codominantes. La opción de HWE en
GenAlex está proporcionada principalmente para la enseñanza y exploración preliminar de datos.

2.1.- Procedimiento:

a) Para la realización de la actividad se deberá descargar el Programa GenAlex de la siguiente página web:

http://biology.anu.edu.au/GenAlEx/Download.html

b) Una vez descargado el programa se deberá encontrar el ícono de entrada (Figura 19).

Dr. Juan Carlos Marín Contreras – Prof. Carlos Alberto Venegas Canto
 
Este menú de opciones proporciona un rango de resúmenes estadísticos para datos
codominantes, haplotipicos y dominantes.

Universidad del Bío-Bío – Carrera de Ingeniería en RRNN – Curso de Genética y Evolución 2016
Procedimiento
 
1. Escoja la opción Frequency desde el menú de GenAlEx.
  2. Ingrese toda la información apropiada en el cuadro de diálogo Allele Frequency Data
Parameters. Figura 19.
3. Seleccione las opciones de frecuencia requeridas desde el cuadro de diálogo Frequency
Options (las opciónes disponibles depende del tipo de datos). Para información sobre
c) En el menú del Programa Genalex
estas opciónes señale la opción HWE. Luego ingrese en el cuadro
ver abajo. de diálogo de HWE
Data Parameters todos los datos requeridos tal cual se muestra en la figura 20.
Opciones de Frecuencias Codominantes
Una Guía para GenAlEx 6 28

HWE (Equilibrio Hardy-Weinberg)


Esta herramienta solo es aplicable cuando se tienen datos codominantes. La opción de HWE
en GenAlEx esta proporcionada principalmente para la enseñanza y exploración preliminar
de datos. El programa GenePop proporciona pruebas exactas de HWE, y es recomendado
para investigación. GenAlEx ofrece una opción para exportar datos en el formato de
GenePop.

Procedimiento
1. En el menú GenAlEx, señale la opción HWE.
2. Ingrese en el cuadro de diálogo de HWE Data Parameters todos los datos requeridos.
3. En la siguiente ventana, Hardy-Weinberg Options, escoja las opciones que desea, luego
pulse Ok. Ver opciones abajo para mas detalles
Figura 20. y los nombres de las hojas de repuestas.
d) En la siguiente ventana Hardy-Weinberg Option escoja las opciones que desee y luego pulse OK (Figura
21).

Figura 21.

Opciones para Hardy-Weinberg


Obs. V Exp. Values [HW]: Presenta las frecuencias observadas y esperadas para cada
genotipo y la prueba de Chi-Cuadrado para cada locus en cada población.
Graph Obs. V Exp. [HW]: Presenta un gráfico con los datos genotípicos antes
mencionados.
Step by Step [HW]: Presenta paso por paso los cálculos realizados para la prueba de Chi-
Cuadrado. Dr. Juan Carlos Marín Contreras – Prof. Carlos Alberto Venegas Canto
 
Summary [HWS]: Brinda un resumen de la estadística del Chi-Cuadrado, grados de libertad,
y probabilidades para cada locus en cada población.
Universidad del Bío-Bío – Carrera de Ingeniería en RRNN – Curso de Genética y Evolución 2016
 
 
2.2.- Opciones para el análisis del Equilibrio de Hardy-Weinberg:

a) Obs. V Exp. Values (HW): Presenta las frecuencias observadas y esperadas para cada genotipo y la prueba
de Chi-Cuadrado para cada locus en cada población.

b) Graph Obs. V Exp. (HW): Presenta un gráfico con los datos genotípicos antes mencionados.

c) Step by Step (HW): Presenta paso por paso los cálculos realizados para la prueba de Chi-Cuadrado.

d) Summary (HWS): Brinda un resumen de la estadística del Chi-Cuadrado, grados de libertad, y


probabilidades para cada locus en cada población.

3.- Preguntas propuestas:

3.1.- ¿Cuál (es) de los loci está (n) en equilibrio de Hardy-Weinberg? ¿Por qué?

3.2.- ¿Cuál (es) de los loci está (n) fuera del equilibrio de Hardy-Weinberg? ¿Por qué?

3.3.- Elabore una tabla incluyendo los valores de cada uno de los loci analizados con GenAlex.

Dr. Juan Carlos Marín Contreras – Prof. Carlos Alberto Venegas Canto
 
Universidad del Bío-Bío – Carrera de Ingeniería en RRNN – Curso de Genética y Evolución 2016
 
 
3.4.- Adjunte el formato Excel requerido y los gráficos entregados por GenAlex de cada uno de los loci
analizados.

3.5.- ¿Por qué los microsatélites nos permiten visualizar la información paterna y materna?

Bibliografía

1.- Aranguren-Méndez J.A. and Jordana, J. 2001. Utilización de marcadores de ADN (microsatélites) en
poblaciones de animales domésticos en peligro de extinción. 1-12.

2.- Cheng H. H. and Crittenden, L.B 1994. Microsatellite markers for genetic mapping in the chicken. Poultry
Sci. 73:539-546.

3.- Marín et al., 2007. Sistemática, taxonomía y domesticación de alpacas y llamas: nueva evidencia
cromosómica y molecular. Revista Chilena de Historia Natural. 80: 121-140.

4.- Slatkin, M. 1994. Gene flow and population structure. En Ecological Genetics, editado por L. Real.
Princeton.
 

Dr. Juan Carlos Marín Contreras – Prof. Carlos Alberto Venegas Canto
 

También podría gustarte