Está en la página 1de 4

TEORIA DE LENGUAJES 2010

IDENTIFICACIN Y COMPARACIN DE SECUENCIAS DE ADN UTILIZANDO EXPRESIONES REGULARES


Julieth Andrea Paola Rios Daza andreilla-11@hotmail.com Yeimy Jaidith Quevedo Pardo yeimy989@hotmail.com Abstract: In this Project we processed strings of DNA to find similarities with comparisons of themselves through regular expressions. In order to determine the degree of similarity and location o f a secuance in a given genome. Keywords: DNA, Levenshtein distance, regular expressions, genome. Resumen: En este proyecto se procesan varias cadenas de ADN para hallar similitudes haciendo comparaciones de las mismas a travs de expresiones regulares. Con el fin de determinar el grado de similitud y ubicacin de una secuencia en el genoma dado. Palabras Clave: ADN, distancia De Levenshtein, expresiones regulares, genoma.
I. INTRODUCCIN

Para la implementacin de este proyecto se utiliza el lenguaje de programacin JAVA, ya que JAVA pone a disposicin paquetes que facilitan el manejo de expresiones regulares. Algunas de estas ayudas son: Pattern, Matcher, StringTokenizer. Se determina la expresin regular a partir de la cadena que se quiere comparar, dependiendo de su tamao se establecen expresiones regulares que evalan todas las posibles similitudes entre la cadena dada y el genoma establecido. Se hace necesario el uso de la Distancia De Levenshtein que hace referencia a la distancia entre palabras, al nmero mnimo de operaciones requeridas para transformar una cadena de caracteres en otra. Lo que indica que entre mayor distancia exista el porcentaje de similitud es menor, y entre ms corta sea la distancia mayor porcentaje de similitud existe. La obtencin de cadenas de ADN se extrajo desde la pagina Web de NCBI (Nacional Center for Biotechnology Information). 1
II. INVESTIGACION DEL PROYECTO

STE documento presenta una aplicacin Software que tiene como fin el analizar una patrn en toda una secuencia de ADN de acuerdo a distintos grados de similitud y comparar el secuencionamiento de las cuatro bases Adenina (A), Guanina (G), Citosina (C) y Timina (T) las cuales forman parte de los nucletidos que constituyen las largas cadenas de cidos nucledos que se conectan en la cadena de ADN, mediante el uso de expresiones regulares.

Para la realizacin del proyecto se hizo necesaria una previa documentacin con los temas relacionados a la identificacin y comparacin de secuencias de ADN utilizando expresiones regulares.

http://es.wikipedia.org/wiki/cido_desoxirribonucleico

TEORIA DE LENGUAJES 2010

a. ADN El cido desoxirribonucleico, frecuentemente abreviado como ADN. 2 Contiene la informacin gentica usada en el desarrollo y el funcionamiento de los organismos vivos conocidos y de algunos virus, siendo el responsable de su transmisin hereditaria. En la fig. 1 se muestra la estructura del ADN formada por dos cadenas, llamadas nucletidos. Cada nucletido est formado por una molcula de azcar, un grupo fosfato y un compuesto nitrogenado llamado base. Esta base puede ser adenina(A), citosina(C), guanina (G) o timina(T). Las cadenas de genes vendrn representadas por una serie de letras A-C-G-T.

b. DISTANCIA DE LEVENSHTEIN

Se denomina Distancia Levenshtein al resultado de encontrar el camino ms eficiente para transformar una cadena a otra, a travs de mecanismos de insercin, borrado y sustitucin. 3 A menor distancia, mayor ser la correspondencia entre dos cadenas de texto comparados. Algoritmo: o El tamao de la hilera f es x, y el tamao de la hilera m es y. Si x= 0, retornar y; y si y= 0, retornar x. o Construir una matriz con y+ 1 filas y x + 1 columnas. Inicializar la primer fila de la matriz con la secuencia 0, 1, 2, , x; y la primer columna de la matriz con la secuencia 0, 1, 2, , y. o Colocar cada carcter de la hilera f en su correspondiente celda i (i va de 1 a x). o Colocar cada carcter de la hilera m en su correspondiente celda j (j va de 1 a y).
En la figura 2 se ve un ejemplo de la comparacin de dos cadenas de caracteres utilizando el algoritmo de la distancia de Levenshtein. Entonces: *Si f(i) es igual a m(j) el costo de la celda es 0. *Si f(i) es diferente de m(j) el costo de la celda es 1. *El valor de la celda d(i,j) es el mnimo de: Valor de la celda (i1, j) + 1. (Eliminacin) *Valor de la celda (i, j1) + 1. (Insercin) *Valor de la celda (i 1, j1) + costo de celda (i,j). (Sustitucin) *La distancia es la celda d(x,y). 4
3

Fig. 1. Estructura del ADN.

http://www.kramirez.net/RI/Material/Presentaciones/Algoritmos%2 0de%20Similaridad%20y%20Distancia.pdf
2

http://es.wikipedia.org/wiki/cido_desoxirribonucleico

http://www.kramirez.net/RI/Material/Presentaciones/Algoritmos%2 0de%20Similaridad%20y%20Distancia.pdf

TEORIA DE LENGUAJES 2010

compara posicin a posicin las dos cadenas de tal manera que encuentre un fragmento igual a la de la otra cadena, de no encontrar una cadena igual, debe buscar la cadena con ms similitud para esto se determina el grado de similitud de las dos cadenas.
1.
Fig. 2. Uso de la distancia de Levenshtein comparando 2 cadenas de caracteres.

Mediante el botn Buscar Archivo, busca la direccin donde est localizada el archivo de texto con la secuencia o genoma del ADN a analizar. (Ver Fig. 3)

c.

COMPARACIN CADENAS DE ADN

Para la implementacin de la aplicacin se determina la expresin regular (patrn) se define previamente una cadena lineal, finita y ordenada de smbolos pertenecientes a un alfabeto, que se quiere comparar, as mismo se establecer el tamao de las expresiones regulares, que evaluara las posibles combinaciones o similitudes dentro de la secuencia a evaluar. Luego de definir la cadena se ingresa una cadena con caracterstica similar a la ya definida, con el objetivo de comparar las dos secuencias para encontrar la posicin relativa de ambas en las que se produzca mayor nmero de coincidencias entre sus componentes, buscando todas las zonas de similitud Significativa entre las dos secuencia para localizar caractersticas de inters comunes.
III. DESARROLLO E IMPLEMENTACION DEL APLICATIVO

Fig. 3 Seleccin Archivo .txt que contiene el genoma

2.

En el cuadro de texto se ingresa la cadena de carcter que se desea comparar. Inicializacin del anlisis mediante el botn analizar (Ver Fig. 4)

3.

En la pagina del Nacional Center for Biotechnology Information se descarg varias secuencias de ADN en un archivo de texto, (pegadas unas a las otras, sin espacios), ATAGTCTGA, que representan las bases nitrogenadas. La aplicacin permite ingresar cadenas de smbolos al sistema para hacer la respectiva comparacin, leyendo fila por fila de izquierda a derecha, luego

Fig. 4 Insercin del patrn a comparar con la secuencia

TEORIA DE LENGUAJES 2010

4.

Se muestra as las cadenas similares y el porcentaje de acuerdo a la distancia de Levenshtein. (Ver Fig. 5)

reflejan cambios a nivel del genoma, que se pensaba que estaba menos sujeto a convergencia evolutiva y paralelismo de lo que lo estaban los caracteres morfolgicos. El desarrollo de Software y aplicativos, como este, que manejan comparacin de secuencias de ADN, contribuyen significativamente al desarrollo de la bioinformtica, biologa y medicina, facilitando la interpretacin de resultados a expertos del rea de la salud.

REFERENCIAS [1] Irizarry RA, Wu Z, Jaffee HA: Comparison of Affymetrix Gene-Chip expression measures. Bioinformatics 2006, 22:789-794. [2] Isabel Navarrete Sanchez, Mara Antonia Cardenas Viedma, Daniel [3] Sanchez Alvarez, Juan Antonio Bota Blaya, Roque Marn Morales, [4] CECS 694-02 Introduction to bionformatics. Lecture notes. Eric C. Rouchka. University of Louisville. 2003. http://kbrin.kwing.louisville.edu/~rouchka/CECS694/ [5]Conesa A, Gtz S, Garca-Gmez JM, Terol J, Taln M, Robles M: Blast2GO: A universal tool for annotation, visualization and analysis in functional genomics research. Bioinformatics 2005, 21:3674-3676.

Fig. 5 Presentacin de Resultados

IV.

CONCLUSIONES

Son mejores los mtodos comparativos basados en patrones en lugar de los que estn basados en similitudes cuando el problema es la bsqueda de dominios funcionales conservados no homlogos. El mtodo de la distancia de Levenshtein, permiti determinar adecuadamente, la diferencia entre cadenas de caracteres. Al poder comparar dos cadenas de ADN se puede visualizar los datos moleculares que

También podría gustarte