Caracterizacion Molecular - Evaluacion e Interpretación

LECCIÓN 4.
Evaluación e
interpretación de resultados en
caracterización molecular.
Lección 4 1
Posibles enfoques del trabajo
• Determinación de la diversidad genética y su distribución entre y dentro de
las poblaciones de una determinada especie.
• Cuantificación de las relaciones entre UBC y representación geométrica de
dichas UBC.
La cuantificación de las relaciones se puede hacer desde dos puntos
de vista:
- Basado en las distancias geométricas (las llamaremos distancias
fenotípicas, también llamadas fenéticas).
No considera los procesos evolutivos, por lo que la distancia
permanece constante con tiempo
Los dendrogramas obtenidos son fenogramas que no pueden
interpretarse como árboles filogenéticos
- Basado en las distancias genéticas.
Considera los procesos evolutivos
Lección 4 2
Posible interpretación de los resultados
• Interpretación genética
Frecuencias de cada uno de

los alelos posibles en cada
locus
Lección 4 3
Posible interpretación de los resultados (2)
• Interpretación fenotípica
Presencia/Ausencia de bandas
por lo que se considera que
cada banda es un locus con 2
alelos
1:presente
0: ausente
Lección 4 4
• Interpretación molecular
En casos de secuenciación
Lección 4 5
Interpretación
Tipo de marcador
PRINCIPAL SECUNDARIA
Codominante Genética Fenotípica
Genética (con restricciones):

– En especies autógamas para locus que solo
presenten 2 alelos presencia/ausencia de una
Dominante Fenotípica
banda
 Es necesario examinar 2 generaciones de la
misma población para medir la segregación de
los loci
Lección 4 6
Diversidad genética: Interpretación genética
• Frecuencias alélicas (pi)
• Número medio de alelos por locus (A)
• Número medio de alelos por locus polimórfico (Ap)
Es aquel en que la frecuencia del alelo más común es igual o inferior a
0.99 (0.95).
• Índice de polimorfismo
Relación entre el número de loci polimórficos frente a totales (%)
• Número de alelos únicos.
Se encuentran solo en esa población
• Número efectivo de alelos en un locus (Effective Number of Allele: ENA)
(Kimura and Crow, 1964).
Hace referencia a los alelos con capacidad de pasar a la siguiente
generación
1
ENA  pi: frecuencia del alelo i
 i
p 2
Lección 4 7
Div. genética: Interpretación genética (2)
• Heterocigosidad esperada (heterocigosisdad media o diversidad genética media)
(He) (Nei 1973)
• Hj: Heterocigosidad esperada en un locus j
n
 nm
2
 Hj  1   pij  •
•
pij: frecuencia del alelo i del locus j
m: número de alelos en el locus j
  
j 1 j 1 i 1
He  Hav  • n: número de loci considerados
n n
Expresa la heterocigosidad esperada en el locus medio si el apareamiento fuese al
azar
Valor máximo (=diversidad máxima) Hj=0,5
Valor minimo (=diversidad mínima) Hj=0
Este índice puede estimar la diversidad genética:
• Promedio de la diversidad genética intrapoblacional (HS)
• Diversidad genética total (en la población total = de todas las poblaciones) (HT)
• Diversidad genética interpoblacional: DST = HT - HS
• Coeficiente de diferenciación genética entre poblaciones GST= (DST/HT)*100
Lección 4 8
• Heterocigosidad observada (Ho)

individuos heterocigo tos
Ho 
número total de individuos analizados
• Probabilidad de alelos nulos para un determinado locus
r
 H e H o 
1  H e 
 Si es negativa o muy baja puede considerarse que la presencia de una sola
banda de MM-ADN, corresponde con un homocigoto, y no con un heterocigoto
con un alelo nulo.
Lección 4 9
• “Estadísticos F” (Wright)
– FIS: Coeficiente de endogamia. Mide la reducción en la heterocigosidad

individual debido a las desviaciones de los cruzamientos al azar
• Hl Promedio de la heterocigosidad
H S  Hl observada en todas las poblaciones
FIS 
HS • HS Heterocigosidad esperada en cada
subpoblación
– FST: Índice de fijación. Reducción de la heterocigosidad en una
subpoblación debido a los cruzamientos NO al azar, con respecto a la
población total
HT  H S HT Heterocigosidad esperada en la
FST  población total (= de todas las
HT poblaciones)
– 1  FIS 1  FST   1  FIT 

Lección 4 10
• “Estadísticos F” (Wright) (2)
– Interpretación de valores FST.
El rango de FST es:
0 1
no existe diferenciación fijación para alelos alternos en
genética entre subpoblaciones diferentes subpoblaciones
Valor de F Diferenciación
•De 0 a 0.05 pequeña
•De 0.05 a 0.15 moderada
•De 0.15 a 0.25 grande
•>0.25 muy grande
Lección 4 11
• Análisis de varianza molecular (AMOVA)
– Sirve para estudiar la variación molecular dentro de una especie
– Se basa en un modelo jerárquico y anidado
– Diferencias con el ANOVA:
• Puede contener diferentes suposiciones evolutivas sin modificar la estructura
básica del análisis:
• La hipóteis utiliza métodos de permutación que no requieren la suposición de
una distribución normal
 Niveles jerárquicos de la diversidad genética estudiada por medio del AMOVA:
• Continentes que contengan niveles jerárquicos menores
• Regiones geográficas dentro de un continente
• Zonas dentro de una región, en un continente
• Poblaciones dentro de una zona de un región, en un continente.
• Individuos dentro de una población en una zona de una región en un
continente
Lección 4 12
• Análisis de varianza molecular (AMOVA) (2)
– Se aplica a haplotipos, que pueden obtenerse de:
• Datos de RFLP
• Datos de RAPD
• Secuencias de ADN
– Ejemplo del modelo para un caso de medición de la diversidad génica entre
poblaciones en áreas de una región en un continente:
Yki(j)=Y+ak+bk(i)+wki(j)
• ak: Efecto de la k-ésima población con

varianza 2a
• bk(i): Efecto del i-ésimo individuo dentro
de la k-ésima población, con varianza
2b
• wki(j) Efecto del j-ésimo locus del i-
ésimo individuo de la k-ésima
población, con varianza 2w
Lección 4 13
• Contenido de información de un polimorfismo (“Polymorphism Information Content”:
PIC) (Botstein et al. 1980)

PIC  1   pi2   2·pi2 ·p 2j 
 Medida de la informatividad de un marcador genético, que depende del número
de alelos para ese locus y de sus frecuencias relativas.
 Informatividad: Para un marcador genético, la probabilidad de que un
descendiente de una pareja sea informativo, es decir, que se pueda
deducir el origen parental de cada uno de los alelos de ese locus.
 PIC junto con ENA sirven para evaluar la utilidad de un determinado locus de un
marcador molecular para distinguir entre las UBC analizadas
Lección 4 14
• Poder discriminante de un locus marcador (D) (Jones, 1972; Lamoby and
Alpha, 1998)
 Es una estimación de la probabilidad de que dos accesiones
muestreadas al azar puedan ser distinguidas por sus perfiles STMS en un
determinado locus.
D  1 C
• C: Probabilidad de coincidencia o probabilidad de que dos accesiones
coincidan por azar en un locus.
C   Pi 2 Pi: Frecuencia de los diferentes

genotipos observados en el locus en
cuestión
Poder discriminante combinado para todos los loci
DT  1  CT CT  C
Lección 4 15
Diversidad genética: Interpretación fenotípica
• Índice de uniformidad de una población (Weising et al. 1995)
m • pij: frecuencia del carácter i (banda i) en la

1
Uj   pij
población j
• m: número de caracteres (bandas) analizado
m i 1 • uniformidad máxima U = 1 ó U = 0; mínima U =
0.5
• Índice de Shannon de diversidad de una población j (Hj) (Shannon & Weaver

1949)
m • m: número de caracteres (bandas)

Hj    pij ln pij considerado
• Su valor mínimo es cero y se hace mayor
i 1 al aumentar la diversidad
Lección 4 16
Div. genética: Interpretación fenotípica (2)
• Polimorfismo de la población media (Hpop)
1 n m
Hpop   Hj   pij ln pij n: número de poblaciones
n j 1 i 1
• Polimorfismo de la especie (Hsp)
m
Hsp    pi ln pi pi: frecuencia del carácter i (banda i) en la
especie
i 1
Lección 4 17
Visualización de las relaciones entre UBC:
formación de grupos.
• Condiciones ideales de los caracteres a utilizar:

– Ser independientes dentro de cada individuo examinado.
– Ser homólogos entre diferentes individuos.
– Ser suficientemente numerosos.
Lección 4 18
formación de grupos (2)
Problemas de interpretación que pueden plantearse:
alta homología
¿Misma banda, mismo fragmento?
¿Una banda, un fragmento?
Williams et al. (1993); Rieseberg (1996)
Lección 4 19
Construcción de la Matriz Básica de Datos
Estimación del parecido entre UBC: Similitud o distancia

Si interpretación genética “distancia genética”
Construcción de la matriz de similitud
Formación de grupos
Lección 4 20
• Casos:
– Interpretación genética: Determinación de frecuencias de todos
los alelos de cada locus
– Interpretación fenotípica: Determinación de presencia/ausencia de
bandas.
Lección 4 21
Relaciones entre UBC: Distancia genética
• Matriz de datos
– Tabla con los genotipos de cada UBC Software
calcula
– Matriz de 0/1/2 para las diferentes frecuencias
alternativas alélicas de cada locus alélicas
– Como alternativa, se pueden introducir directamente frecuencias alélicas.
Lección 4 22
Relaciones entre UBC: Distancia genética (2)
g
• Cálculo matriz de distancia o similitud genética entre
poblaciones.
– Distancia de Rogers. (Rogers 1972)
q
1 m
d ij    x  xkj 
2
ki
2m x 1 k 1
m: número de loci
q: número de alelos para el locus x
xki: frecuencia del alelo k en la población i
xkj: frecuencia del alelo k en la población j
Lección 4 23
• Cálculo matriz de distancia o similitud ggenética entre poblaciones

(2).
– Distancia de Nei o distancia genética estándar (Nei 1972)
Considera cambios en las frecuencias alélicas derivados tanto de
mutaciones como de efectos de deriva genética (adecuada para
estudios filogenéticos).
 q 
 xki xkj 
  
Dij   ln k 1

q  q 
 xki2 xkj2 
  
  xki xkj 

 k 1   ln k 1

q
 xki2 xkj2 
– Distancia de Nei (Nei UB o 1978)  
Dij   k 1 
q q
2ni  x  m 2n j  xkj2  m
2
ki
k 1 k 1
2ni  1 2n j  1
Lección 4 24
• Cálculo matriz de distancia o similitud ggenética entre individuos.

– Índice de Mannen (GS) (Mannen et al. 1993)
p: número de loci en los que ambos individuos

2p  q comparten genotipo
GS  q: número de loci en los que un individuo es
2m homocigota y el otro heterocigota
m: número total de loci analizados
Lección 4 25
Relaciones entre UBC: Distancia fenética
• Matriz de datos
– Matriz presencia - ausencia.
Lección 4 26
Relaciones entre UBC: Distancia fenética (2)
f
• Cálculo matriz de distancia o similitud fenética entre
individuos*.
– Coeficiente de Dice (SD) (Dice 1945) o de Nei-Li (1979).
Expresa probabilidad de que una banda en un individuo esté también en otro.

Es el índice que se ve menos afectado por las bandas erráticas cuando la
similitud entre muestras se debe más a dobles presencias que a dobles
ausencias
a: número de bandas presentes en ambos
a 2a individuos
S   b: número bandas presentes en el primer
D (a  b)  (a  c) 2a  b  c
individuo, pero no en el segundo
2
c: número de bandas presentes en el segundo
individuo pero no en el primero
*o conjunto de individuos de los que se haya obtenido un único patrón de bandas

Lección 4 27
f
• Cálculo matriz de distancia o similitud fenética entre individuos
(2).
– Simple Matching Coefficient (SSM) (Sokal & Michener 1958).
Este coeficiente presenta la particularidad de considerar como factor de

similitud las dobles ausencias.
Su utilización conduce a errores si detrás de las dobles ausencias no hay una
identidad (comparaciones interespecíficas mediante RAPDs).
No obstante, cuando se hacen comparaciones intraespecíficas, las dobles
ausencias se pueden considerar como identidades.
ad d: número de marcadores en los cuales la banda

S SM  está simultáneamente ausente en ambos
abcd individuos
Lección 4 28
f
• Cálculo matriz de distancia o similitud fenética entre individuos
(3).
– Coeficiente de Jaccard (SJ) (Jaccard 1908; Sneath & Sokal 1973)
a
sJ 
abc
Lección 4 29
Tratamiento de los resultados de secuenciación
• PASO 1: Ensamblar las secuencias de ADN obtenidas

de la secuenciación
• PASO 2: Comparar la secuencia problema con las
depositadas en las bases de datos (alineamiento).
• PASO 3. Alineamientos múltiples.
• PASO 4. Construcción de árboles filogenéticos.
Lección 4 30
PASO 1: Ensamblar las secuencias de ADN
obtenidas de la secuenciación
• Consiste en ensamblar fragmentos para obtener un “contig”

• Software para realizar el ensamblaje: DNASTAR o VectorNTI poseen módulos
específicos para realizar el ensamblaje
Ej: SeqMan es una aplicación del DNAStar que permite:

– Comparar secuencias de DNA entre sí.
– Hacer anillamientos de varias secuencias para obtener un consenso final
que sería la suma de todas las secuencias parciales.
– Comparación con bases de datos mediante “alineamiento” de nuestra
secuencia con todas las depositadas en las bases de datos.
Lección 4 31
PASO 2: Comparar la secuencia problema con las
depositadas en las bases de datos (alineamiento).
FINALIDAD: Se trata de comparar nuestra secuencia ("query sequence") con

cada una de las secuencias presentes en la base de datos ("subject sequence"),
determinando la puntuación de cada alineamiento generado.
DEFINICIÓN DE ALINEAMIENTO DE DOS SECUENCIAS: Alinear dos
secuencias es un método para determinar si un conjunto de caracteres se
encuentran en el mismo orden en dos secuencias
OBJETIVO DEL ALINEAMIENTO DE DOS SECUENCIAS: Determinar si poseen

suficiente similitud como para poder justificar la existencia de homología entre
ellas.
 La similitud es un concepto cuantificable, que puede medirse y expresarse
como un porcentaje de identidad entre dos secuencias.
 La homología se refiere a una conclusión obtenida de esos datos, e indica si
dos secuencias están relacionadas o comparten una historia evolutiva
común. Los genes son o no son homólogos, pero no existen grados de
homología.
Lección 4 32
Alineamiento de nuestra secuencia con las
depositadas en las bases de datos
EL CONCEPTO DE “GAP”
Son los huecos (“gaps” en inglés) que es necesario introducir en el alineamiento
para compensar las deleciones/ inserciones que ocurren a lo largo de la
evolución.
Si permitimos la inserción de numerosos huecos en el alineamiento, en
teoría podríamos alinear dos secuencias completamente divergentes,
… el resultado sería una sucesión improbable de huecos y letras.
• Para evitar que esto ocurra, los programas de alineamiento introducen:
– Una penalización en la puntuación del alineamiento por cada hueco
que se abre (G o "gap opening penalty")
– Otra adicional en función de la longitud del hueco (L o "gap
extension penalty").
Lección 4 33
Alineamiento de nuestra secuencia con las
depositadas en las bases de datos (2)
BASES DE DATOS UTILIZABLES CON SOFTWARE “ONLINE” PARA
HACER LA BÚSQUEDA
• GenBank (http://www.ncbi.nlm.nih.gov/genbank/) que depende del NCBI (National
Center for Biotechnology Information) (USA) y que utiliza el software BLAST (Basic
Local Alignment Search Tool) para el alineamiento
• ENA European Nucleotide Archive database (European Molecular Biology Laboratory)
(http://www.ebi.ac.uk/ena/) que depende del EBI (European Bioinformatics Institute)
(Reino Unido) y que utiliza el software FASTA para el alineamiento.
• DDBJ (DNA Data Bank of Japan)
• Específicas como EZTAXON (http://eztaxon-e.ezbiocloud.net/) muy usada para
procariotas que alberga la secuencia del gen 16S rDNA de más de 35.000 accesiones.
 Cuando comparamos una secuencia desconocida con las bases de datos,

normalmente se comienza utilizando BLAST al ser más rápido.
Posteriormente, puede repetirse el análisis usando FASTA para comprobar
si alguna homología significativa ha sido omitida por el primer programa.
Lección 4 34
PASO 3. Alineamientos múltiples
De nuestra secuencia con las más similares encontradas en las bases de

datos, o con las que constituyen el grupo de UBC que estamos
caracterizando, más otro material de referencia en su caso.
 Se usan programas como MEGA o CLUSTAL OMEGA
Lección 4 35
Alineamientos múltiples de nuestra secuencia
con la de otras UBC
DEFINICIÓN DE ALINEAMIENTOS MÚLTIPLES: Es el resultado del alineamiento
de 3 o más secuencias unas respecto a otras para lograr alcanzar la máxima
similitud entre ellas.
PROPOSITO DE LOS ALINEAMIENTOS MÚLTIPLES: colocar los residuos
(aminoácidos o bases) que derivan de un ancestro común en columnas.
Esto se logra introduciendo “gaps” que representan inserciones o deleciones
ocurridas durante el proceso evolutivo.
 Por tanto, el alineamiento resultante tras el proceso de alineamiento múltiple
de secuencias es un modelo hipotético para explicar las mutaciones
(sustituciones, inserciones o deleciones) ocurridas durante la evolución. Es
decir, un alineamiento se puede considerar una hipótesis de homología
posicional entre residuos. Seq. 1
Seq. 2
Seq. 3
Seq. 4
Seq. 5
Lección 4 36
con la de otras UBC (2)
APLICACIONES DE LOS ALINEAMIENTOS MÚLTIPLES:

• Si el alineamiento de varias secuencias se considera muy bueno, es muy
posible que las secuencias sean similares por razones filogenéticas, siendo en
ese caso útiles para:
― Construir árboles filogenéticos.
― Indagar sobre la historia biomolecular
― Especular sobre los factores que han impulsado la evolución (presión
selectiva).
• Como norma general:

― >50% identidad para interesarse por ellas
― >75% identidad para estudios filogenéticos
Lección 4 37
PASOS A DAR PARA REALIZAR ALINEAMIENTOS MÚLTIPLES:
1. Buscar secuencias similares a la secuencia de interés.
– Realizar la búsqueda en las bases de datos e identificar las
potencialmente homólogas a ésta.
– Utilizar las secuencias de la UBC en estudio y de otros organismos que
a priori se sepa que están relacionados filogenéticamente.
2. Recopilar las secuencias de interés en único documento de texto.
El formato del documento dependerá del programa a utilizar
3. Realizar el alineamiento múltiple con el programa que queramos
4. Analizar y editar el alineamiento.
Lección 4 38
Alineamientos múltiples de nuestra secuencia con
la de otras UBC (4)
SOFTWARE PARA PRODUCIR ALINEAMIENTOS MÚLTIPLES:
• Hay varios programas para realizar alineamientos múltiples.
• Casi todos utilizan algoritmos heurísticos para realizan alineamientos
múltiples progresivos.
• Por el contrario, el programa PROBCONS se basa en un nuevo parámetro,
denominado consistencia probabilística, que permite al programa predecir la
probabilidad con la que el alineamiento realizado se ajusta a la realidad.
• Los programas mas utilizados son CLUSTAL OMEGA y MUSCLE.
Lección 4 39
CLUSTAL
• Basado en el método “Alineamiento Múltiple Global progresivo” por
métodos heurísticos.
• Lógica del programa: Realiza en primer lugar una serie de alineamientos
por pares, comparando cada secuencia con todas las demás para construir
una matriz de distancias.
• Tanto CLUSTAL OMEGA como MUSCLE funcionan en la nube
• Información que debe introducirse:
– Todas las secuencias que deseamos usar en el análisis utilizando
cualquier editor de textos grabando en formato ASCII.
– La forma de expresar las secuencias puede ser el formato de FASTA,
EMBL, Swiss-Prot, …
Lección 4 40
PASO 4. Construcción de árboles filogenéticos.
Para la construcción de un árbol filogenético es frecuente utilizar el método de

agrupamiento denominado Neighbor Joining (NJ) (Saitou and Nei, 1987) con
remuestreo, aunque es necesario varios métodos (por ejemplo Maximum
Likelihood) y luego comparar los resultados e indicar los nodos que son estables.
NTSYS puede elaborar este tipo de árboles (la opción está dentro del
subprograma “Cluster”)
Se suele utilizar MEGA
También se puede utiliza PHYLIP
Lección 4 41
Lección 4 42

Caracterizacion Molecular - Evaluacion e Interpretación

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Caracterizacion Molecular - Evaluacion e Interpretación

Cargado por

Copyright:

Formatos disponibles

LECCIÓN 4.

Frecuencias de cada uno de

Codominante Genética Fenotípica

Genética (con restricciones):

• Heterocigosidad observada (Ho)

• Probabilidad de alelos nulos para un determinado locus

– FIS: Coeficiente de endogamia. Mide la reducción en la heterocigosidad

– 1  FIS 1  FST   1  FIT 

• ak: Efecto de la k-ésima población con

C   Pi 2 Pi: Frecuencia de los diferentes

Poder discriminante combinado para todos los loci

m • pij: frecuencia del carácter i (banda i) en la

• Índice de Shannon de diversidad de una población j (Hj) (Shannon & Weaver

m • m: número de caracteres (bandas)

• Polimorfismo de la población media (Hpop)

• Polimorfismo de la especie (Hsp)

• Condiciones ideales de los caracteres a utilizar:

¿Misma banda, mismo fragmento?

¿Una banda, un fragmento?

Williams et al. (1993); Rieseberg (1996)

Construcción de la Matriz Básica de Datos

Estimación del parecido entre UBC: Similitud o distancia

Construcción de la matriz de similitud

• Cálculo matriz de distancia o similitud ggenética entre poblaciones

• Cálculo matriz de distancia o similitud ggenética entre individuos.

p: número de loci en los que ambos individuos

Expresa probabilidad de que una banda en un individuo esté también en otro.

*o conjunto de individuos de los que se haya obtenido un único patrón de bandas

Este coeficiente presenta la particularidad de considerar como factor de

ad d: número de marcadores en los cuales la banda

• PASO 1: Ensamblar las secuencias de ADN obtenidas

• Consiste en ensamblar fragmentos para obtener un “contig”

Ej: SeqMan es una aplicación del DNAStar que permite:

FINALIDAD: Se trata de comparar nuestra secuencia ("query sequence") con

OBJETIVO DEL ALINEAMIENTO DE DOS SECUENCIAS: Determinar si poseen

 Cuando comparamos una secuencia desconocida con las bases de datos,

De nuestra secuencia con las más similares encontradas en las bases de

 Se usan programas como MEGA o CLUSTAL OMEGA

APLICACIONES DE LOS ALINEAMIENTOS MÚLTIPLES:

• Como norma general:

Para la construcción de un árbol filogenético es frecuente utilizar el método de

También podría gustarte