Documentos de Académico
Documentos de Profesional
Documentos de Cultura
En este tema identificaremos el gen concreto que provoca una determinada enfermedad. El
tema se divide en dos partes: las técnicas clásicas y las modernas.
1
5.1.1. Análisis de ligamiento: CONCEPTOS PREVIOS
Los organismos eucariotas complejos tienen sexo para aumentar la variabilidad genética
mediante la combinación de genes de ambos paténtales. Los organismos más sencillos como
las bacterias pueden sobrevivir a la evolución sin sexo y requerir de menor esfuerzo
energético. Esto es así porque en las poblaciones de bacterias hay millones de células que se
dividen rápidamente y se van adaptando mediante mutaciones. En humanos el proceso de
mutación y selección es muy lento.
El objetivo de la mitosis consiste en dividir a la célula replicando la cantidad de DNA que hay
para dar dos copias iguales y generar dos células idénticas (2n, dos copias de su genoma y 2c,
dos cromatidas por cromosoma).
La meiosis aparece como respuesta al sexo para introducir variabilidad genética en la especie y
transmitirla a los individuos fácilmente. Gracias a esta no se aumenta el doble en material
genético de la célula en cada generación en la que hubiera reproducción sexual. Es similar a la
mitosis pero con una segregación extra al final del proceso (el material genético se reduce a la
mitad) y en la primera segregación no se separan cromatidas, sino cromosomas enteros. Otra
diferencia se produce en el emparejamiento de los cromosomas homólogos: antes de
separarse por los polos ocurre la recombinacion homologa en el que hay intercambio genético
entre los dos cromosomas. Por lo tanto, en la meiosis hay dos mecanismos para generar
diversidad genética: reparto de cromosomas al azar y el fenómeno del entrecruzamiento.
En el ejemplo de abajo tenernos dos gametos parentales con dos genes, un gameto parental es
AB y el otro ab. Después de realizar la segregación de las cromatidas vemos que se forman
gametos iguales a los parentales (AB y ab) pero también tenemos combinaciones que no
existirán en los gametos parentales (Ab y aB) llamados gametos recombinantes, en una
proporción 50/50.
2
Cada gameto, al azar, puede contener, por cada pareja de cromosomas, uno del padre o de la
madre. Por tanto, las combinaciones posibles pueden ser, en total 2^23 combinaciones
distintas de gametos y 2^23 x 2^ 23 combinaciones distintas de cigotos.
Antes de la primera segregación (de separarse los cromosomas), estos forman quiasmas (unión
de cromatidas de cromosomas homólogos) en el que intercambian fragmentos entre sí.
ANÁLISIS DE LIGAMIENTO
En el análisis de ligamiento se usan estas frecuencias de ligación para hacer mapas relativos en
los que podemos localizar a un gen problema. Es un método de detección de genes en el que
se indaga la distribución de una enfermedad mediante cruzamientos controlados con modelos
de experimentación y mediante familias como enfermedades hereditarias en humanos. Con
este método se intenta identificar un gen causal encontrando su posición en un mapa relativo:
su posición se define respecto a los loci, y la distancia entre ellos se expresa en frecuencias de
recombinación. Existen tres casos:
• Genes independientes: no están ligados, cada gen se encuentra en un cromosoma
distinto. r se aproxima mucho a 0. La relación de gametos parentales y recombinantes
es 50/50.
• Genes poco ligados: se encuentran en el mismo cromosoma con una cierta distancia
entre ellos. Cuanto mayor sea esta distancia más probabilidad hay que caiga un
quiasma entre ellos y se produzca un evento de recombinación. r se encuentra entre 0
y 0,5 y es la probabilidad de formar gametos recombinantes.
• Genes estrechamente ligados: en el mismo cromosoma pero muy poca distancia entre
ellos. La probabilidad que se forme un quiasma es muy baja. r se aproxima a 0.
3
Debemos depreciar los valores de r mayores de 0,5 ya que los genes están muy separados. En
este caso, buscaremos otro gen que esté en el rango de 0 a 0,5.
r se expresa en tantos por uno, es decir, si se obtienen 1 recombinante de cada 100 individuos
r=0,01. También se suele expresar en porcentaje o centiMorgan:
Una unidad de mapa o centiMorgan se define como la distancia que separa dos marcadores
que recombinante con una preguntita del 1%.
Ejemplo de cómo hacer un mapa relativo:
El análisis de ligamiento es relativamente sencillo en plantas y animales de experimentación.
En este caso tenemos dos genes: uno que determina el color rojo de los ojos (pr+) y otro que
determina el desarrollo normal de las alas (vg+). Mutaciones recesivas en estos alelos dan
lugar a ojos amarillos (pr) y alas vestigiales (vg). Primero vamos a ver si estos genes están
ligados o no y en el caso de que si lo estén, calcularemos la frecuencia de recombinacion para
realizar un mapa relativo y estimar la distancia que hay entre ellos en un cromosoma.
4
1) ¿Los genes están ligados?
Se parte de dos individuos homocigoticos para los dos genes cuyo cruzamiento va a dar lugar a
un individuo heterocigotico (pr+ pr/ vg+ vg). Posteriormente se realiza un cruzamiento “de
prueba” con un homocigotico recesivo para los dos alelos para simplificar el análisis, ya que
este homocigotico recesivo va a dar un único tipo de gameto (pr vg). Las combinaciones de
gametos posibles se muestran en la tabla. Si los genes no estuvieran ligados, si fueran
independientes, la probabilidad de formación de cada gameto es de ¼, como mencionamos
anteriormente. Sin embargo, los fenotipos observados no se encuentran en la proporción de
¼. Esto quiere decir que los genes están ligados.
5
R es, por tanto, la distancia relativa entre estos dos genes en el mismo cromosoma,
separados por 11,5 centiMorgan. Nos sirve para saber como de separados están, es una
medida relativa. Lo que se hace es añadir más genes a los analisis. En este caso se
introduce un gen cuya mutación da lugar a defectos en el torso y da lugar a individuos con
4 alas. Se realiza el mismo análisis realizado anteriormente con los tres genes, dando tres
frecuencias de recombinacion. Ahora podemos situar a los tres genes y tener más
información para elaborar un mapa relativo ya que podemos establecer un orden según
los r (primero va a, seguido de c y después b).
MARCADORES MOLECULARES
Un marcador molecular es cualquier secuencia de DNA que presente las siguientes
características:
• Herencia mendeliana clara (sin repeticiones de tripletes, sin expansiones, etc.).
• Secuencias únicas (no repeticiones).
• Localización conocida de la secuencia.
• Fácilmente analizables: con una PCR se puede detectar el marcador y sus alelos (más
diferencia en el tamaño de los alelos más fácil de analizar).
• Polimorfica.
• La mayoría de los marcadores no tienen efecto en el fenotipo.
Son útiles para la identificación y clonación de genes responsables de enfermedades,
identificación de genes de susceptibilidad, diagnóstico molecular indirecto y consejo genético
(podemos detectar una enfermedad si presenta un marcador en ella), análisis forense y
análisis poblacional.
Hay diferentes tipos:
6
ü RFLP: restriction fragment lenght polymorphisms, el alelos mutado ya no tiene un sitio
de corte para una enzima de restricción y está ya no corta. Existen muy pocos alelos
así.
Lo que más se ha usado hasta ahora son los STR ya que tienen muchos más alelos que los
SNP y esto facilitaba mucho el estudio. Con la secuenciacion masiva se está empezando a
sustituir este tipo de análisis por los SNPs, ya que secuenciando todo el genoma de un
individuos se pueden obtener muchísimos SNPs diferentes.
HETEROCIGOSIDAD Y FASE
El análisis de ligamiento requiere que los individuos sean heterocigoticos para los dos loci que
se va a cartografiar, es decir, que el alelo causante de la enfermedad vaya junto al alelo
silvestre. Además, para detectar los individuos recombinantes tenemos que saber la fase
(combinación de alelos, que alelos están en cada cromosoma homólogo) de los individuos
parentales. Como vemos en la imagen de abajo, el parental 1 nos va a dar una meiosis no
informativa ya que es homocigotico para ambos loci, sin embargo, los dos progenitores con el
número 2 si van a dar una meiosis informática, pero con fases distintas (podemos ver que los
gametos parentales y recombinantes que forman cada uno son diferentes).
Una meiosis informativa es aquella en la que podemos establecer si los gametos producidos
son o no recombinantes. Si no podemos saber qué tipo de gametos hay, la meiosis es no
informativa.
7
Aquí tenemos un ejemplo de una enfermedad autosomica dominante donde hay marcadores
(A1, A2, A6, etc.) para diferentes alelos. En el primer caso, vemos que la madre es portadora
de la enfermedad y su hija también tiene la enfermedad. Podemos intuir que el alelo causante
de la enfermedad es el que tiene el marcador A1 (ya que la madre enferma y la hija enferma lo
tienen). Sin embargo, la hija tiene dos alelos A1, uno heredado de la madre y otro del padre, y
no sabemos cuál de los dos alelos es el que porta la enfermedad, por lo que meiosis es no
informativa.
En el segundo caso, vemos que la hija tiene la enfermedad por el alelo A1 que le ha
transmitido su madre, al igual que en el otro caso. Sin embargo, el otro alelo es el A2, que es el
alelo sano transmitido por el padre, por lo que en este caso sí sabemos que alelo aporta la
enfermedad y cuál no, es una meiosis informativa. En la descendencia de esta hija enferma
vemos que hay una chica enferma, pero no tiene el alelo A1, sino el alelo A2 y A3, por lo que
podemos intuir que los alelos de su madre han recombinado y el marcador A2 se ha ido con el
alelo de la enfermedad (hija recombinante).
8
A) Meiosis no informativa: no podemos distinguir los alelos para el marcador del padre
ya que es homocigotico , es decir, no sabemos qué alelo A1 es el que porta la
enfermedad.
C) Meiosis informativa: en este caso sí sabemos que la hija heredó el gameto A1 parental
del padre con la enfermedad y el gameto A1 parental de la madre.
9
Aquí tenemos más ejemplos:
No informativa: el hijo está sano, por lo que podría haber heredado del padre el alelo 1
parental sin la enfermedad o el alelo 1 recombianante.
Semi informativa: es semi informativa porque si el hijo está sano y es 1-1 o 2-2 la meiosis
es informativa con el alelo 1 recombinante del padre y el alelo 1 parental de la madre. Sin
embargo, si es 1-2 caben dos posibilidades: que tenga el alelo 1 recombinante del padre y
el 2 parental de la madre o que tenga alelo 2 parental del padre y el alelo 1 parental de la
madre, por lo que es una meiosis no informativa.
Informativa: el hijo está sano, por lo que tiene que tener el alelo 1 recombinante del padre
con el alelo 3 o 4 parental de la madre, o el alelo 2 parental del padre con el alelo 3 o 4
parental de la madre. Por tanto, todas las posibilidades que se pueden dar se corresponden
con una meiosis informativa
10
En este mapa podemos intuir que el gen A con el marcador 1 es el responsable de la
enfermedad ya que la mujer enferma de la segunda generación ha tenido que obtener a la
fuerza el 1 del padre y el 2 de la madre, por lo que el 1 va a ir con el gen de la enfermedad. En
la electroforesis vemos que el alelo 1, causante de la enfermedad, es de mayor tamaño que el
alelo 2, el sano. En la tercera generación podemos ver que de todos los hijos solo uno es
recombinante, el que tiene el gen A con el marcador 2. Todas las meiosis son informativas (los
8 hijos) por lo que el valor de r será el número de recombinantes (1) entre el total (8) y
multiplicado por 100. Podemos concluir que el gen de la enfermedad y el marcador están
ligados a una distancia de 12,5 cM.
Pero ¿este dato es fiable? ¿y si estuviesen ligados y esa “segregación” de la generación III se
hubiese obtenido por azar. Es decir, teóricamente es posible que no haya ligamiento y que una
descendencia más numerosa mostrase una fracción de recombinación más cercana al 50% de
individuos recombiantes. Debemos comparar la posibilidad de que estén ligados y de que no lo
estén y decidir qué hipótesis escogemos:
11
Logaritmo de las probabilidades (LOD score)
Para saber si están ligados necesitamos saber si la probabilidad de obtener esa combinación
concreta de descendientes, suponiendo que estén ligados con una determinada frecuencia de
recombinación (r<0,5), es significativamente mayor que la probabilidad de obtener esa misma
combinación para el caso de que los marcadores no estuviesen ligados (r=0,5).
“Valor del lod” es una estimación estadística de si dos genes, o un marcador y el gen de una
enfermedad, es probable que se encuentren uno cerca del otro en un cromosoma (ligados) y
por tanto es probable que sean heredados juntos . Se calcula dividiendo la probabilidad de
ligamiento entre la probabilidad de independencia y a esto se le hace el logaritmo en base 10.
Si el valor de los es mayor de 3 se acepta la hipótesis de ligamiento, mientras que si es menor
que -2, se rechaza el ligamiento. Si el valor está entre esos números decimos que el resultado
es no conclusivo, no podemos deducir nada (debemos buscar más familias para tener un dato
fiable).
Cuando hagamos la fórmula del lod score (Z) debemos realizar una tabla con valores de r del 0
al 0,5 y resolver Z con todos estos valores. Nos quedaremos con el valor máximo de Z.
En el ejemplo de la tabla, vemos que el valor de Z Máximo es 1,1, para una r de 0,125
(distancia de 12,5 cM) entre él locus de la enfermedad y el marcador. Por lo tanto, como el
valor de Z está entre -2 y 3, no se puede extraer ninguna información útil de esta familia.
También se pueden sumar los datos de varias familias para una enfermedad.
12
En el ejemplo, “E” es el alelo portador de la enfermedad y “B” son los distintos marcadores.
Como vemos, de las tres familias solo hay un único recombinante (en caso de ligamiento). La
fórmula de Z también se muestra abajo. Para escoger el valor de r se realiza la tabla para cada
una de las familias y se escoge el valor maximo de Z en conjunto de las tres familias. Por
último, una vez que hemos escogido la r se calcula Z para cada familia y se suma, o se emplea
la fórmula de Z con las probabilidades de ligamiento y de independencia en conjunto de las
tres familias.
Para que las meiosis sean informativas, un progenitor debe ser heterocigotico tanto para el
gen que determina el fenotipo como para el “marcador”. Debemos conocer la “fase” en la que
están los alelos ya que el cálculo del LOD score depende del conocimiento de esta. Se dan dos
casos:
• Fase conocida
Sabemos que la mujer II-1 heredó el gen de la enfermedad con el marcador A1. Por lo tanto,
en su descendencia tenemos 5 individuos no recombinantes (III 1-5) y una hija recombinante
(III-6). Por lo tanto, la probabilidad de ligamiento y la fórmula de Z serán las dadas en la
13
imagen de abajo. Calculamos las Z con diferentes r y vemos que con la máxima Z el valor es
0,2, por lo que el resultado es no conclusivo.
• Fase desconocida
En este caso tenemos uña meiosis de fase desconocida, ya que no sabemos si II-1 heredó el
alelos A1 o A2 con el gen de la enfermedad, y por lo tanto en este caso no sabemos si III-6 es
recombinante y parental. Lo que hacemos en este caso es plantear dos posibilidades:
1) Que el marcador A1 esté en fase con el gen de la enfermedad (50% de probabilidad).
En este caso tendríamos 5 no recombinantes y un recombinante, que multiplicamos
por ½:
½[(1-r/2)^5 x (r/2)]
2) Que el marcador A1 no esté en fase con el gen de la enfermedad (50% de
probabilidad). En este caso tendríamos 5 recombinantes y un no recombinante, que
multiplicamos por ½:
½[(1-r/2)x (r/2)^5]
14
Cuando calculamos el Lod score de cada familia individualmente, vemos que ningún loci
polimorfico está ligado al locus de la enfermedad para ningún valor de r entre 0 y 0,5. Todos
los resultados son no concluyentes. Sin embargo, si calculamos el lod para las dos familias
conjuntamente (familia 1 + familia 2) vemos que a r= 0,1 PS1 está ligado a D (Z=3) mientras
que PS2 no lo está (Z=-2). Vemos que cuando r se acerca mucho a 0 PS1 y D están
estrechamente ligados.
Cartografía de precisión
En genética de poblaciones se denomina “desequilibrio de ligamiento” a la asociación no
aleatoria de alelos de dos o más loci que se encuentras muy juntos, no recombinan igual que
otros loci y desciéndele de un único cromosoma ancestral. Este cromosoma ancestral ha ido
recombinando a lo largo de generaciones hasta una zona mínima donde no se ha producido
ninguna recombinación. Esta zona es la que tiene desequilibrio de ligamiento.
15
Tenemos distintos haplotipos con 6 marcadores cada uno. Podemos ver en II-7 que el
marcador S129 tiene hasta 9 alelos diferentes.
El hablotipo original asociado a la enfermedad es el que está en gris en los individuos II2 y II4 y
el que está en naranja en el II7. El individuo II6 vemos que tiene un haplotipo recombinante: a
partir del marcador S34 para abajo el haplotipo corresponde con el de la enfermedad, pero
vemos que el trozo del marcador S84 si ha podido recombinar. El alelo 5 está en verde porque
no estamos seguros de si es heredado del haplotipo de la enfermedad o ha recombinado.
Vemos que aunque hayan recombinado los dos primeros alelos este individuo sigue
padeciendo la enfermedad.
El individuo III1 también muestra un haplotipo recombiante, pero esta vez si muestra la
enfermedad. Esto quiere decir el gen responsable de la enfermedad está localizado entre los
marcadores S84 y S129.
Ahora todos los haplotipos que se están usando son SNPs. En una región pequeña pueden
haber muchos, por lo que nos da la posibilidad de tener muchos haplotipos con varios SNPs
(cada SNP solo tiene 2 posibilidades ya que solo hay dos alelos).
Después de realizar esta cartografía de precisión tenemos una región mínima donde se
encuentra el gen responsable de la enfermedad. Ahora debemos pasar al siguiente punto.
16
5.1.2. Identificación y confirmación del gen candidato
1. Secuenciación de la región candidata con una media de 15-20 genes cada 1Mb.
2. Priorizar genes para el análisis de mutaciones. Se pueden seleccionar de diferentes
formas:
Ø Patrón de expresión adecuado (por ejemplo, en el tejido afectado por la
enfermedad).
Ø Función proteica apropiada. Relaciona la función de la proteína con lo que
pasa en la célula cuando falta el gen de la enfermedad.
Ø Proteína homologa a otras proteínas humanas responsables de enfermedades
de similares síntomas.
Ø Homólogos con organismos modelo (nos da una evidencia más clara).
3. Confirmar con el análisis de mutaciones. Presencia de mutaciones específicas en
individuos afectados, o cuya naturaleza molecular indique una falta de función.
4. Validaciones funcionales. Se comprueba si la correlación es causal, es decir, si la
mutación es la causante de la enfermedad. Para ello se realizar una restauración de
función in vitro o la producción del modelo de enfermedad en ratón.
Es producida por un exceso de iones cloruro en las células, de manera que estas se deshidratan
y se acumula mucha mucosidad, afectando fundamentalmente a pulmones, intestino,
páncreas e hígado. Se taponan los principales conductos y se producen ciclos recurrentes de
infección, inflamación y destrucción de tejidos formándose una cicatriz. La supervivencia
media es entre 29-39 años.
Lo primero que se hizo para detectar al gen de la fibrosis quistica fue un análisis de ligamiento
entre este y cientos de marcadores de DNA en casi 50 familias. Se identificó ligamiento con
marcadores del brazo largo del cromosoma 7 (7q), se estrechó el cerco entre los marcadores
MET y D7S8 (aprox. 1500 kb) y con cartografía de precisión se centró finalmente la búsqueda
en unas 500 kb.
Posteriormente se realizó una secuenciación de la región candidata mediante clonación por
paseo y salgo cromosómico (ya que todavía no se disponía del genoma secuenciado). Lo que
que hizo fue hacer una genetica con el genoma clonado en vectores y se usó el gen con el
marcador como una sonda radiactiva para localizar el gen en la genoteca. Se encontraron 4
genes candidatos. Pasamos a la fase de priorización de genes pasa el análisis de mutaciones
mediante un análisis de expresión de estos genes en distintos tejidos. Se comprobó mediante
Northern que uno de los cuatro genes candidatos, el gen CFTR, se expresa en los tejidos que
están afectados en la fibrosis quística.
Mediante un análisis de mutaciones se detectaron mutaciones en el gen CFTR en distintos
enfermes no relacionamos familiarmente que no se encuentran en individuos sanos y que
afectan a la funcionalidad del gen. Por último, se realizaron validaciones funcionales para saber
si la causa de la enfermedad es este gen. Se introdujo el alelo silvestre del gen CFTR en líneas
celulares derivadas de pacientes con fibrosis y se restauró el fenotipo silvestre
(complementación funcional). El gen sin mutación es un regulador de la conductividad
transmembranal cuya función es controlar el flujo de iones de cloro por la membrana.
17
5.1.4. Alternativas a la clonación posicional: cromosomopatías
Ocurre cuando un cromosoma se rompe en un punto, por lo que es fácilmente localizarle en el
cariotipo. Es una alternativa a la clonación posicional, especialmente útil con enfermedades
esporádicas, como las dominantes graves. Un ejemplo es el Síndrome de Sotos, en el que se
produce una microdelección en el extremo terminal del brazo q del cromosoma 5. En la
imagen se detecta el gen en verde (gen NSD1) mediante sondas radioactivas. En un
cromosoma observamos que solo hay puntos rojos (brazo p) pero no verdes, que
corresponderían con el brazo q que se ha delecionado. Con esta alternativa no tenemos que
seleccionar genes candidatos ya que con el cariotipo se ve que gen se ha roto. Este síndrome
provoca retraso cognitivo y motor. Este cromosoma 5 tiende a romperse por el extremo
telomerico del brazo largo (q) y afecta al gen responsable del síndrome. Cuando esto sucede se
produce una translocación entre el cromosoma 5 y el 8.
A la izquierda de la gráfica se muestran las enfermedades monogenicas (las que hemos dado
hasta ahora) y a la derecha las multigenicas (muchos genes implicados en la misma
enfermedad). Las primeras que empezaron a estudiarse fueron las monogenicas con el análisis
de ligamiento. Cuando aparecieron las nuevas tecnologías basadas en la secuenciación masiva
no se empezaron a utilizar hasta 2009 debido a que eran muy caras. En este año se hizo el
primer secuenciado de exoma (secuenciar todos los exones de un enfermo (exoma del
enfermo) y compararlo con los exones de un control (exoma control). Se secuenciarln los
exomas porque en ese momento se creía que las enfermedades se encontrabas en los exones
de los genes, pero a partir del 2010 con el proyecto Encode se vió que muchas de las
18
enfermedades se encontraban fuera de genes y exones. En el 2017 empiezan a hacerse análisis
de genoma en lugar de exoma (10 años después del desarrollo de las NGS) ya que resultaba
más económico secuenciar el genoma completo que cuando se descubrieron estas tecnologías.
En estos últimos años se están analizando casi únicamente las enfermedades monogenicas que
se consideran raras, ya que las demás enfermedades monogenicas están ya casi todas
analizadas. Estas enfermedades raras son muy poco frecuentes (un individuo cada millón). En
estas enfermedades no hay familias, aparecen mutaciones espontáneamente. Primero se
secuenciaron los exones, después la secuencia completa y de paso a la técnica del estudio de
trios (con padres e hijo: se estudia la variabilidad de los padres y está variabilidad se le quita al
hijo con el fin de estudiar los cambios que únicamente afectan al hijo).
19