Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Caracterizacion Molecular - Evaluacion e Interpretación
Caracterizacion Molecular - Evaluacion e Interpretación
Evaluación e
interpretación de resultados en
caracterización molecular.
Lección 4 1
Posibles enfoques del trabajo
• Determinación de la diversidad genética y su distribución entre y dentro de
las poblaciones de una determinada especie.
• Cuantificación de las relaciones entre UBC y representación geométrica de
dichas UBC.
La cuantificación de las relaciones se puede hacer desde dos puntos
de vista:
- Basado en las distancias geométricas (las llamaremos distancias
fenotípicas, también llamadas fenéticas).
No considera los procesos evolutivos, por lo que la distancia
permanece constante con tiempo
Los dendrogramas obtenidos son fenogramas que no pueden
interpretarse como árboles filogenéticos
- Basado en las distancias genéticas.
Considera los procesos evolutivos
Lección 4 2
Posible interpretación de los resultados
• Interpretación genética
Lección 4 3
Posible interpretación de los resultados (2)
• Interpretación fenotípica
Presencia/Ausencia de bandas
por lo que se considera que
cada banda es un locus con 2
alelos
1:presente
0: ausente
Lección 4 4
Posible interpretación de los resultados (3)
• Interpretación molecular
En casos de secuenciación
Lección 4 5
Posible interpretación de los resultados (4)
Interpretación
Tipo de marcador
PRINCIPAL SECUNDARIA
Lección 4 6
Diversidad genética: Interpretación genética
• Frecuencias alélicas (pi)
• Número medio de alelos por locus (A)
• Número medio de alelos por locus polimórfico (Ap)
Es aquel en que la frecuencia del alelo más común es igual o inferior a
0.99 (0.95).
• Índice de polimorfismo
Relación entre el número de loci polimórficos frente a totales (%)
• Número de alelos únicos.
Se encuentran solo en esa población
• Número efectivo de alelos en un locus (Effective Number of Allele: ENA)
(Kimura and Crow, 1964).
Hace referencia a los alelos con capacidad de pasar a la siguiente
generación
1
ENA pi: frecuencia del alelo i
i
p 2
Lección 4 7
Div. genética: Interpretación genética (2)
• Heterocigosidad esperada (heterocigosisdad media o diversidad genética media)
(He) (Nei 1973)
• Hj: Heterocigosidad esperada en un locus j
n
nm
2
Hj 1 pij •
•
pij: frecuencia del alelo i del locus j
m: número de alelos en el locus j
j 1 j 1 i 1
He Hav • n: número de loci considerados
n n
Expresa la heterocigosidad esperada en el locus medio si el apareamiento fuese al
azar
Valor máximo (=diversidad máxima) Hj=0,5
Valor minimo (=diversidad mínima) Hj=0
Este índice puede estimar la diversidad genética:
• Promedio de la diversidad genética intrapoblacional (HS)
• Diversidad genética total (en la población total = de todas las poblaciones) (HT)
• Diversidad genética interpoblacional: DST = HT - HS
• Coeficiente de diferenciación genética entre poblaciones GST= (DST/HT)*100
Lección 4 8
Div. genética: Interpretación genética (3)
r
H e H o
1 H e
Si es negativa o muy baja puede considerarse que la presencia de una sola
banda de MM-ADN, corresponde con un homocigoto, y no con un heterocigoto
con un alelo nulo.
Lección 4 9
Div. genética: Interpretación genética (4)
• “Estadísticos F” (Wright)
Valor de F Diferenciación
•De 0 a 0.05 pequeña
•De 0.05 a 0.15 moderada
•De 0.15 a 0.25 grande
•>0.25 muy grande
Lección 4 11
Div. genética: Interpretación genética (6)
• Análisis de varianza molecular (AMOVA)
– Sirve para estudiar la variación molecular dentro de una especie
– Se basa en un modelo jerárquico y anidado
– Diferencias con el ANOVA:
• Puede contener diferentes suposiciones evolutivas sin modificar la estructura
básica del análisis:
• La hipóteis utiliza métodos de permutación que no requieren la suposición de
una distribución normal
Niveles jerárquicos de la diversidad genética estudiada por medio del AMOVA:
• Continentes que contengan niveles jerárquicos menores
• Regiones geográficas dentro de un continente
• Zonas dentro de una región, en un continente
• Poblaciones dentro de una zona de un región, en un continente.
• Individuos dentro de una población en una zona de una región en un
continente
Lección 4 12
Div. genética: Interpretación genética (7)
• Análisis de varianza molecular (AMOVA) (2)
– Se aplica a haplotipos, que pueden obtenerse de:
• Datos de RFLP
• Datos de RAPD
• Secuencias de ADN
– Ejemplo del modelo para un caso de medición de la diversidad génica entre
poblaciones en áreas de una región en un continente:
Yki(j)=Y+ak+bk(i)+wki(j)
PIC 1 pi2 2·pi2 ·p 2j
Medida de la informatividad de un marcador genético, que depende del número
de alelos para ese locus y de sus frecuencias relativas.
Informatividad: Para un marcador genético, la probabilidad de que un
descendiente de una pareja sea informativo, es decir, que se pueda
deducir el origen parental de cada uno de los alelos de ese locus.
PIC junto con ENA sirven para evaluar la utilidad de un determinado locus de un
marcador molecular para distinguir entre las UBC analizadas
Lección 4 14
Div. genética: Interpretación genética (9)
• Poder discriminante de un locus marcador (D) (Jones, 1972; Lamoby and
Alpha, 1998)
Es una estimación de la probabilidad de que dos accesiones
muestreadas al azar puedan ser distinguidas por sus perfiles STMS en un
determinado locus.
D 1 C
• C: Probabilidad de coincidencia o probabilidad de que dos accesiones
coincidan por azar en un locus.
DT 1 CT CT C
Lección 4 15
Diversidad genética: Interpretación fenotípica
• Índice de uniformidad de una población (Weising et al. 1995)
Lección 4 16
Div. genética: Interpretación fenotípica (2)
1 n m
Hpop Hj pij ln pij n: número de poblaciones
n j 1 i 1
m
Hsp pi ln pi pi: frecuencia del carácter i (banda i) en la
especie
i 1
Lección 4 17
Visualización de las relaciones entre UBC:
formación de grupos.
Lección 4 18
Visualización de las relaciones entre UBC:
formación de grupos (2)
Problemas de interpretación que pueden plantearse:
alta homología
Lección 4 19
Visualización de las relaciones entre UBC:
formación de grupos (3)
Formación de grupos
Lección 4 20
Visualización de las relaciones entre UBC:
formación de grupos (4)
• Casos:
– Interpretación genética: Determinación de frecuencias de todos
los alelos de cada locus
– Interpretación fenotípica: Determinación de presencia/ausencia de
bandas.
Lección 4 21
Relaciones entre UBC: Distancia genética
• Matriz de datos
– Tabla con los genotipos de cada UBC Software
calcula
– Matriz de 0/1/2 para las diferentes frecuencias
alternativas alélicas de cada locus alélicas
– Como alternativa, se pueden introducir directamente frecuencias alélicas.
Lección 4 22
Relaciones entre UBC: Distancia genética (2)
g
• Cálculo matriz de distancia o similitud genética entre
poblaciones.
– Distancia de Rogers. (Rogers 1972)
q
1 m
d ij x xkj
2
ki
2m x 1 k 1
m: número de loci
q: número de alelos para el locus x
xki: frecuencia del alelo k en la población i
xkj: frecuencia del alelo k en la población j
Lección 4 23
Relaciones entre UBC: Distancia genética (3)
Lección 4 25
Relaciones entre UBC: Distancia fenética
• Matriz de datos
– Matriz presencia - ausencia.
Lección 4 26
Relaciones entre UBC: Distancia fenética (2)
f
• Cálculo matriz de distancia o similitud fenética entre
individuos*.
– Coeficiente de Dice (SD) (Dice 1945) o de Nei-Li (1979).
f
• Cálculo matriz de distancia o similitud fenética entre individuos
(2).
– Simple Matching Coefficient (SSM) (Sokal & Michener 1958).
Lección 4 28
Relaciones entre UBC: Distancia fenética (4)
f
• Cálculo matriz de distancia o similitud fenética entre individuos
(3).
– Coeficiente de Jaccard (SJ) (Jaccard 1908; Sneath & Sokal 1973)
a
sJ
abc
Lección 4 29
Tratamiento de los resultados de secuenciación
Lección 4 30
PASO 1: Ensamblar las secuencias de ADN
obtenidas de la secuenciación
Lección 4 31
PASO 2: Comparar la secuencia problema con las
depositadas en las bases de datos (alineamiento).
EL CONCEPTO DE “GAP”
Son los huecos (“gaps” en inglés) que es necesario introducir en el alineamiento
para compensar las deleciones/ inserciones que ocurren a lo largo de la
evolución.
Si permitimos la inserción de numerosos huecos en el alineamiento, en
teoría podríamos alinear dos secuencias completamente divergentes,
… el resultado sería una sucesión improbable de huecos y letras.
• Para evitar que esto ocurra, los programas de alineamiento introducen:
– Una penalización en la puntuación del alineamiento por cada hueco
que se abre (G o "gap opening penalty")
– Otra adicional en función de la longitud del hueco (L o "gap
extension penalty").
Lección 4 33
Alineamiento de nuestra secuencia con las
depositadas en las bases de datos (2)
BASES DE DATOS UTILIZABLES CON SOFTWARE “ONLINE” PARA
HACER LA BÚSQUEDA
• GenBank (http://www.ncbi.nlm.nih.gov/genbank/) que depende del NCBI (National
Center for Biotechnology Information) (USA) y que utiliza el software BLAST (Basic
Local Alignment Search Tool) para el alineamiento
• ENA European Nucleotide Archive database (European Molecular Biology Laboratory)
(http://www.ebi.ac.uk/ena/) que depende del EBI (European Bioinformatics Institute)
(Reino Unido) y que utiliza el software FASTA para el alineamiento.
• DDBJ (DNA Data Bank of Japan)
• Específicas como EZTAXON (http://eztaxon-e.ezbiocloud.net/) muy usada para
procariotas que alberga la secuencia del gen 16S rDNA de más de 35.000 accesiones.
Lección 4 34
PASO 3. Alineamientos múltiples
Lección 4 35
Alineamientos múltiples de nuestra secuencia
con la de otras UBC
DEFINICIÓN DE ALINEAMIENTOS MÚLTIPLES: Es el resultado del alineamiento
de 3 o más secuencias unas respecto a otras para lograr alcanzar la máxima
similitud entre ellas.
PROPOSITO DE LOS ALINEAMIENTOS MÚLTIPLES: colocar los residuos
(aminoácidos o bases) que derivan de un ancestro común en columnas.
Esto se logra introduciendo “gaps” que representan inserciones o deleciones
ocurridas durante el proceso evolutivo.
Por tanto, el alineamiento resultante tras el proceso de alineamiento múltiple
de secuencias es un modelo hipotético para explicar las mutaciones
(sustituciones, inserciones o deleciones) ocurridas durante la evolución. Es
decir, un alineamiento se puede considerar una hipótesis de homología
posicional entre residuos. Seq. 1
Seq. 2
Seq. 3
Seq. 4
Seq. 5
Lección 4 36
Alineamientos múltiples de nuestra secuencia
con la de otras UBC (2)
Lección 4 37
Alineamientos múltiples de nuestra secuencia
con la de otras UBC (3)
PASOS A DAR PARA REALIZAR ALINEAMIENTOS MÚLTIPLES:
1. Buscar secuencias similares a la secuencia de interés.
– Realizar la búsqueda en las bases de datos e identificar las
potencialmente homólogas a ésta.
– Utilizar las secuencias de la UBC en estudio y de otros organismos que
a priori se sepa que están relacionados filogenéticamente.
2. Recopilar las secuencias de interés en único documento de texto.
El formato del documento dependerá del programa a utilizar
3. Realizar el alineamiento múltiple con el programa que queramos
4. Analizar y editar el alineamiento.
Lección 4 38
Alineamientos múltiples de nuestra secuencia con
la de otras UBC (4)
SOFTWARE PARA PRODUCIR ALINEAMIENTOS MÚLTIPLES:
• Hay varios programas para realizar alineamientos múltiples.
• Casi todos utilizan algoritmos heurísticos para realizan alineamientos
múltiples progresivos.
• Por el contrario, el programa PROBCONS se basa en un nuevo parámetro,
denominado consistencia probabilística, que permite al programa predecir la
probabilidad con la que el alineamiento realizado se ajusta a la realidad.
• Los programas mas utilizados son CLUSTAL OMEGA y MUSCLE.
Lección 4 39
Alineamientos múltiples de nuestra secuencia
con la de otras UBC (5)
CLUSTAL
• Basado en el método “Alineamiento Múltiple Global progresivo” por
métodos heurísticos.
• Lógica del programa: Realiza en primer lugar una serie de alineamientos
por pares, comparando cada secuencia con todas las demás para construir
una matriz de distancias.
• Tanto CLUSTAL OMEGA como MUSCLE funcionan en la nube
• Información que debe introducirse:
– Todas las secuencias que deseamos usar en el análisis utilizando
cualquier editor de textos grabando en formato ASCII.
– La forma de expresar las secuencias puede ser el formato de FASTA,
EMBL, Swiss-Prot, …
Lección 4 40
PASO 4. Construcción de árboles filogenéticos.
NTSYS puede elaborar este tipo de árboles (la opción está dentro del
subprograma “Cluster”)
Se suele utilizar MEGA
También se puede utiliza PHYLIP
Lección 4 41
Lección 4 42