Orf

La rogién codificadora de protefnas de cada’ mRNA osté compuesta por una hilera de codones no superpucstos contiguos que se conoce como mareo de lectura abierto (ORF = open-reading frame). Cada ORF especifica una sola protefna, y comienza y termina en sitios in- ternos dentro del mRNA. O sea que los extremos de un ORF son distintos a los del mRNA. La traduccién comienza en el extremo 5° del marco de lectura abierto y progresa un codén a la vez hacia el extremo 3”. El primero y 1 ultimo codones de un ORF so conocen como codén de inicio y co- dén de terminacién. En las bacterias, el cod6n de inicio suele ser 5 AUG-3° pero también se usa 5-GUG-3" y a veces incluso 5-UUG-3. Las células de eucariontes siempre usan 5’-AUG-3° como codén de inicio. Este tiene dos funciones importantes. Primero, especifica el pri- me que incorporarse en la cadena polipeptidi- mor aminoacide que korea OE D6 ADS SRS ENS UG A EE EO RR “Er © @ © © O2T© © © OE . OOOODQDDO®OO Fig. 14-1. Tees marcos deleclura posibles de a secuenca ier de tp Je E, cot os cones de ici etn slestacaon en ‘verde civoy fs de teminacin se observan en maranja a seeuencia de amici a severe ceca ext ica “dren el cadigo de una sola lta que hay deajo de eda eden. ecimiento, Segundo, define el marco de lectura para todos los codones ulteriores. Dado que los codones ostin uno junto al otro y tie nen tres nuclestidos de longitud, cualquier segmento de mRNA podria traducirse en tres marcos de lectura diferentes (fig. 14-1). Sin embar g0, una voz que comienza la traduccion, cada codén subsiguiente siempre estd justo al lado del dé tres bases anterior (pero nunca se su~ perpone con éste). En consecuencia, al establecer la ubicacion del primer coddn, el de inicio determi ibicacidn de todos los siguiontes Los codones ce terminacién, de los cuales hay tres (5'-UAG. UGA-3” y 5-UAA-3"), definen el final del marco de lectiira abierto y dan Ia sefal para ta terminacidn de la sintesis del polipéptido. Aho- ra podemos comprender bien el origen de la designacién marco de lectura abierto, Es un segmento de codones contiguos “lefdos” en un mareo particular (segtin lo establece el primer codén) que esté “abier- to” para la traduccion porque carece de un codén de terminacién (es-to es, hasta el tiltimo codén en el ORF), Los RNA mensajeros contienen por lo menos un mareo de lectura jerto. La cantidad de ORF por mRNA es diferente entre los euca- riontos y los procariontos. Los mRNA de los primoros casi siompro poseen un solo ORF. En cambio, los de los procariontes con frecuencia tienen dos ORF o mas y, por lo tanto, pueden codificar varias ca- nas polipeptidicas. Los RNA mensajeros que contienen muchos ORF se conocen como mRNA policistrénicos y los que codifican un solo ORF se Haman monocistrénicos. Como se expuso en el capitulo 12, los MRNA primeros con frecuencia codifican protefnas qu plen funcionos relacionadas, como pasos diferentes en la biosintosis de un aminodcido o un nuclestido, En la figura 14-2 se observan las estructuras de un mRNA de procarionte y uno de eucarionte tipicos. Las regiones de codit de lectura abiertos Los genes que codifican proteinas comprenden marcos de Iectura abiertos (pen reading frames, ORF) que consisten en una serie de codones que especifican la’ secuencia de aminosicidos de la proteina codificada por el gen (figura 5.1). Los ORF comienzan con un codén de ini ~en general (aunque no siempre), ATG- y terminan con un codon de ter- minacién: TAA. TAG 0 TGA (seccién 1.3.2). Por lo tanto, investigar ORF que comienzan con ATG y finalizan con un tiplete de termina icacién de los genes son marcos porque cada secuenc tres en una direccién y tres en la direccién inversa, en la cadena comple mentaria (figura 5.2). pero los ordenadores son bastante capaces de barrer los seis marcos de lectura para detectar ORF. Qué tan eficar es esto como medio de localizar genes? La clave para el éxito del barrido de ORF soaring es la frecuencia de apa- ricién de codones de terminaci6n en la secuencia de DNA. Si el DNA tiene una secuencia aleatoria y un contenido de GC del 50%. cada uno de los tres codones de terminacién ~TAA, TAG y TGA apareceré, en promedio, una vez cada 43 = 64 pb. Si el contenido de GC supera el 30%. los codones de terminacién. ricos en AT, aparecern con menor frecuencia, pero aun asi sera esperable hallar uno cada 100-200 pb. Esto significa que el DNA aleatorio no mostrar muchos ORF de mas de 50 codones de longitud, sobre todo si se utiliza un triplete ATG inicial como parte de la definicion de un ORE. Por ‘otra parte, la mayoria de los genes tienen mais de 50 codones: las longitudespromedio son de 317 codones para Escherichia coli, 483 codones para Saccharomyces cenvisiae y alrededor de 450 codones para los seres humanos. Fl barrido de ORF. en su forma mas simple, toma una cifra de alrededor de 100 codones come longitud minima de un presunto gen y registra eventos positivos para todos los ORF que superan esta longitud, QUE eficacia tiene esta estrategia en la préctica? En los genomas bacteria- hos, los batridos de ORF simples son un modo eficaz de localizar la mayoria de los genes de una secuencia de DNA. Esto se ilustra en la figura 5.3, que muestra un segmento del genoma de £ cod y destaca todos los ORF que miden mas de 50 codones. No es posible confundir los genes reales de I secuencia, porque su longitud es mucho mayor de 30 codones. En las bac lisis se simplifica atin mas porque los genes son muy cereanos y, hay relativamente poco DNA intergénico en el genoma (s6i0 ise sevcion 8.2.1), Si presuponemos que les genes rea- se superponen, lo cual es cierto para la mayoria de los genes bacteria~ nos, s6lo hay posibilidad de confundir un ORF conto, espurio. con un gen real en las regiones intergénicas. Por ende, si el componente intergénico de un genoma es pequeito, hay menor probabilidad de cometer errores al interpre- tar los resultados de un barrido de ORF simple. Los barridos de ORF simples son menos eficaces en el DNA de los eucariontes superiores Si bien los barridos de ORF funcionan bien en los genomas bacterianos, menos eficaces para wr genes en las secuencias de DNA de los eu riontes superiores. Esto se debe, en parte, a que el espacio entre los genes les de un genoma eucarionte es mucho mayor (p. ¢}., alrededor del 62% de! genoma humano ¢s intergénico), lo que aumenta la probabilidad de hallat ORF espurios. Pero el principal problema con el genoma humano y los genomas de los cucariontes superiores en general es que sus genes sitelen estar divididos por intrones (secciGn 1.2.5) y, asf, no aparecen como ORF conti- ues en una secuencia de DNA. Muchos exones miden menos de 100 codones, algunos tienen menos de 50 codones, y continuar el marco de lectura hasta un intrén suele Hevar a una secuencia de terminacién que parece cerrar el ORF (figura 5.4). En otras palabras, los genes de un eucarionte superior ro aparecen en la secuencia del genoma pues no es posible localizarlos por barridos de ORF largos ni simples. Resolver el problema planteado por los intrones es el principal desafio de los especialistas en bioinformatica que crean nuevos programas de software para Ia localizacién de ORF. Se han incorporado tres modifica- ciones al procedimiento bisico de barrido de ORF: ‘+ Se tiene en cuenta el sesgo de codones. “Sesgo dle codones” hace referen- cia al hecho de que no todos los codones se utilizan con igual frecuencé en los genes de un determinado organismo. Por ejemplo, la leucina es‘especificada por seis codones del cédigo genético (TTA, TTG, CTT, CTC, CTAy CT: vémse figura 1.20), pero To mis frecuente es que, en los genes «anos. sea codificada por CTG y sdlo rara vez lo sea por TTA o CTA. Astmnismo, de os cust codons Para valina, los genes humanos usan GTG cuatro veces mas a menudo que GTA. No se conoce la razén biold- gica de este sesgo de codones, pero todos los organismos tienen un sesgo, que es diferente en distintas especies. Es experable que los exones reales presenten este sesgo de codones, mientras que series fortuitas de triple- tes, no. Por lo tanto, el sesgo de codones del organismo estudiado esta escrito en el software de barrido de ORF. ‘Se pueden investigar los limites ex6n-intrén, ya que tienen caracte- risticas distintivas de la secuencia, aunque lamentablemente éstas no son tan notorias como para que su localizacién sea una tarea tri Por lo general, la secuencia del limite exén-intron corriente arriba se describe como: son tan notorias como para que su locelizacién sea una tarea trivial. Por lo general, la secuencia del limite exén-intrén corriente arriba se describe como: 5'-AGLGTAAGT-3" donde la flecha indica el punto limite preciso. Sin embargo, sélo el “GT” inmediatamente después de la fecha es invariable: en otras partes de la secuencia, se encuentran bastante a menudo nuclestidos distintos de los mostrados. En otras palabras, la secuencia es un eonsenso, con lo que sig- nificamos que muestra el nuclestido mas frecuente en cada posicion de todos los limites ex6n-intron cortiente arriba que conocemos, pero que cualquier secuencia limite particular podria tener un nucleotide diferente en una o mas de estas posiciones (figura 5.5). El limite exén.intrén cortiente abajo esta aun menos definido: PyPyPyPyPyPyNCAGI-5 fica uno de los nucledtidos de pirimidina (T 0 C) y “N° es cualquier nucledtido, Si sdlo se buscan estas secuencias consenso, no se localizarin mas que unos pocos limites exGrintron, porque la mayoria

Orf

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Orf

Cargado por

Copyright:

Formatos disponibles

También podría gustarte