Bioinformatica para Novatos

XILOSA ISOMERASA DE Bacillus stearothermophilus (Gallay et al., 1997) A la izquierda: modelo de la molecula de DNA en LEGO. Tomado de www.ericharshbarger.org/lego/mini_dna.
html INTRODUCCIN El avance cientfico en el rea de las ciencias biolgicas ha alcanzado un nivel notable. Innumerables proyectos han redundado en la ampliacin del conocimiento, nuevas aplicaciones y grandes perspectivas hacia el futuro. Todo esto ha llevado a mejorar el nivel de vida del ser humano, y al desarrollo de nuevas formas de proteger el medioambiente, gracias a los adelantos especficos en medicina, biologa y biotecnologa. Grandes proyectos de secuenciacin han generado una inmensa cantidad de datos, entre estos se destaca el proyecto genoma humano. Toda esa informacin debe analizarse y correlacionarse, afn de estructurar los conceptos tericos del funcionamiento de los seres vivos desde el nivel molecular, con lo que se pueden desarrollar aplicaciones novedosas. Es en este punto se hace importante la Bioinformtica, una rama de la ciencia que propende por el uso y desarrollo de las tecnologas de la informacin, para el anlisis e interpretacin de los datos que arrojan las diferentes investigaciones biolgicas. Entre sus principales objetivos se encuentran: el almacenamiento de la informacin, principalmente secuencias de cidos nucleicos y aminocidos, de una manera accesible a los investigadores; herramientas para el estudio, comparacin y correlacin de datos hallados experimentalmente; prediccin de dominios, estructuras y relaciones filogenticas de las secuencias examinadas;
desarrollo de algoritmos y estadstica necesaria para la comprensin de la informacin biolgica. Todo esto lleva al desarrollo de nuevas teoras, conceptos y perspectivas que generan diferentes y revolucionarias formas de entender la vida. En la actualidad existe un adelanto desmesurado de las tecnologas de la informacin. Su difusin y aprovechamiento ha sido posible gracias a la globalizacin, donde un papel muy importante lo ha jugado la Internet. La Web ha permitido conocer y aprovechar muchos de los avances cientficos, donde la bioinformtica no ha sido la excepcin. Los nuevos avances han generado que varias disciplinas de la investigacin se interrelacionen, como la medicina, la gentica, la biologa, la bioqumica, la biotecnologa y la computacin entre otras. Los grandes laboratorios cuentan con grupos multidisciplinarios, que cooperan armnicamente y retroalimentndose constantemente. Es as como, hoy por hoy, no se puede estudiar y comprender un ente fisiolgico nicamente desde un solo punto de vista. Por ello, todo aquel que desee dedicarse al campo investigativo debe conocer el manejo de las herramientas bioinformticas, con la finalidad de que sea capaz de analizar y correlacionar la informacin que obtenga en el laboratorio. Cuando unos datos de laboratorio no son analizados a la luz de lo que otros han obtenido, se pierde la perspectiva de la situacin, con el riesgo de caer en errores o inconsistencias. Este documento busca un primer acercamiento del investigador, o de quien este interesado en el conocimiento y anlisis de datos biolgicos, hacia las herramientas bioinformticas que se encuentran en Internet. Estos recursos poseen las ventajas de una actualizacin constante en la mayora de los casos, frecuentemente salen nuevas y mejoradas herramientas para anlisis bioinformtica, trabajan por medio de potentes servidores que analizan rpida y eficientemente la informacin ingresada, los resultados son presentados de una manera sencilla y completa los cuales son almacenados por un tiempo variable. La informacin contenida en este texto fue tomada desde los sitios Web, de literatura especializada y de algunos cursos que he tenido la oportunidad de realizar (ver seccin bibliografa). Todo lo anterior, implica la necesidad de estar visitando y estudiando constantemente los sitios que administran estos recursos. Cabe la posibilidad de inexactitudes en este documento, ante lo que pido esa retroalimentacin que enriquece la ciencia, de parte de quienes visiten este sitio. Espero que estas pocas lneas sean de utilidad, y que sobre todo despierten el inters por conocer y aplicar esta disciplina. CONTENIDO INICIO INFORMTICA COMPUTADORA HARDWARE SOFTWARE REDES DE COMPUTADORA TRANSMISIN DE DATOS INTERNET BIOINFORMTICA BIOLOGA MOLECULAR TECNOLOGIAS DE LA INFORMACIN RECURSOS DE INFORMACIN BANCOS DE PUBLICACIONES. BASES DE DATOS HERRAMIENTAS I HERRAMIENTAS PARA BIOLOGA MOLECULAR DISEO DE OLIGONUCLETIDOS (PRIMERS) PCR VIRTUAL MAPAS DE RESTRICCIN ELECTROFEROGRAMAS (CHROMAS) COMPARACION DE SECUENCIAS DESCARGA DE PROGRAMAS DE BIOINFORMTICA HERRAMIENTAS II MODELAMIENTO DE PROTENAS APNDICE OTROS CONCEPTOS OTROS RECURSOS
PERSPECTIVAS BIBLIOGRAFA INFORMTICA COMPUTADORA Es una mquina capaz de procesar o tratar automticamente, a gran velocidad, clculos y complicados procesos que requieren una toma rpida de decisiones, mediante la aplicacin sistemtica de criterios preestablecidos, siguiendo las instrucciones de un programa, la informacin que se le suministra es procesada para as obtener un resultado deseado. La computadora es una maquina de propsitos o uso general. Los conceptos de estructura fsica y de programacin constituyen el soporte material y lgico de esa realidad. Es una dualidad solidaria, que tambin recibe los nombres de Hardware o soporte fsico y Software o soporte lgico. HARDWARE Hardware son todos aquellos componentes fsicos de una computadora. El Hardware realiza las 4 actividades fundamentales: entrada, procesamiento, salida y almacenamiento secundario. 1. Entrada: Para ingresar los datos a la computadora, se utilizan diferentes dispositivos: -Teclado: Dispositivo de entrada ms comnmente utilizado que encontramos en todos los equipos computacionales. El teclado se encuentra compuesto de 3 partes: teclas de funcin, teclas alfanumricas y teclas numricas. - Mouse: Es el segundo dispositivo de entrada ms utilizado. El mouse o ratn es arrastrado a lo largo de una superficie para maniobrar un apuntador en la pantalla del monitor. - Lpiz ptico: Este dispositivo es muy parecido a una pluma ordinaria, pero conectada a un cordn elctrico y requiere de un software especial. Haciendo que la pluma toque el monitor el usuario puede elegir los comandos de las programas. - Tableta digitalizadora: Es una superficie de dibujo con un medio de sealizacin que funciona como un lpiz. La tableta convierte los movimientos de este apuntador en datos digitalizados que pueden ser ledos por ciertos paquetes de cmputo. Los tamaos varan desde tamao carta hasta la cubierta de un escritorio. - Entrada de voz (reconocimiento de voz): Convierten la emisin vocal de una persona en seales digitales. La mayora de estos programas tienen que ser "entrenados para reconocer los comandos que el usuario da verbalmente. - Pantallas sensibles al tacto (Touch Screen): Permiten dar comandos a la computadora tocando ciertas partes de la pantalla. - Lectores de cdigo de barras: Son rastreadores que leen las barras verticales que conforman un cdigo. - Scanner: Convierten texto, fotografas a color en Blanco y Negro a una forma que puede leer una computadora. Tambin se puede ingresar informacin si se cuenta con un Software especial llamado OCR (Reconocimiento ptico de caracteres). 2. Procesamiento: El CPU (Central Proccesor Unit) es el responsable de controlar el flujo de datos (Actividades de Entrada y Salida) y de la ejecucin de las instrucciones de los programas sobre los datos. Realiza todos los clculos (suma, resta, multiplicacin, divisin y compara nmeros y caracteres). Es el "cerebro de la computadora. Se divide en 3 componentes:
Unidad de control: Es en esencia la que gobierna todas las actividades de la computadora, as como el CPU es el cerebro de la computadora, se puede decir que la UC es el ncleo del CPU. Supervisa la ejecucin de los programas Coordina y controla al sistema de cmputo, determina que instruccin se debe ejecutar y pone a disposicin los datos pedidos por la instruccin, donde se almacenan los datos y los transfiere desde las posiciones donde estn almacenados. Una vez ejecutada la instruccin la Unidad de Control debe determinar donde pondr el resultado para salida, para su uso posterior. Unidad Aritmtico/Lgica: Esta unidad realiza clculos (suma, resta, multiplicacin y divisin) y operaciones lgicas (comparaciones). Transfiere los datos entre las posiciones de almacenamiento. Tiene un registro muy
importante conocido como: Acumulador ACC. Al realizar operaciones aritmticas y lgicas, la UAL mueve datos entre ella y el almacenamiento. Los datos usados en el procesamiento se transfieren de su posicin en el almacenamiento a la UAL. Los datos se manipulan de acuerdo con las instrucciones del programa y regresan al almacenamiento. rea de almacenamiento Primario: La memoria da al procesador almacenamiento temporal para programas y datos. Todos los programas y datos deben transferirse a la memoria desde un dispositivo de entrada o desde el almacenamiento secundario (disquete), antes de que los programas puedan ejecutarse o procesarse los datos. Las computadoras usan 2 tipos de memoria primaria: - ROM (read only memory). Memoria de slo lectura, en la cual se almacena ciertos programas e informacin que necesita la computadora las cuales estn grabadas permanentemente y no pueden ser modificadas por el programador. - RAM (Random access memory). Memoria de acceso aleatorio, la utiliza el usuario mediante sus programas, y es voltil. La memoria del equipo permite almacenar datos de entrada, instrucciones de los programas que se estn ejecutando en ese momento, los datos resultados del procesamiento y los que se preparan para la salida. Los datos proporcionados a la computadora permanecen en el almacenamiento primario hasta que se utilizan en el procesamiento. La memoria est subdividida en celdas individuales cada una de las cuales tiene una capacidad similar para almacenar datos.
3. Almacenamiento Secundario: El almacenamiento secundario es un medio de almacenamiento definitivo (no voltil como el de la memoria RAM). El proceso de transferencia de datos a un equipo de cmputo se le llama procedimiento de lectura. El proceso de transferencia de datos desde la computadora hacia el almacenamiento se denomina procedimiento de escritura. En la actualidad se pueden usar el almacenamiento Magntico y el almacenamiento ptico.
Almacenamiento Magntico: Discos Flexibles, Discos Duros y Cintas Magnticas o Cartuchos. Almacenamiento ptico: CD ROM (CD Read Only Memory) y WORM (Write Once, Read Many) Medios Magntico-pticos: Estos medios combinan las tecnologas de grabacin magntica y ptica. Un disco MO tiene la capacidad de un disco ptico, pero puede ser regrabable con la facilidad de un disco magntico.
4. Salida: Los dispositivos de salida de una computadora es el hardware, que se encarga de mandar una respuesta hacia el exterior de la computadora, como pueden ser:
Monitores: El monitor es el dispositivo de salida ms comn. Pueden ser que desplieguen slo 2 colores, monitor a escala de grises y los monitores de color que pueden desplegar de 4 hasta 1 milln de colores diferentes. Impresoras: Dispositivo que convierte la salida de la computadora en imgenes impresas. Se pueden dividir en 2 tipos: las de impacto y las de no impacto.
SOFTWARE El Software es el conjunto de instrucciones que las computadoras emplean para manipular datos. Corresponde al conjunto de programas, documentos, procedimientos, y rutinas asociados con la operacin de un sistema de cmputo. El Software asegura que el programa o sistema cumpla por completo con sus objetivos, opera con eficiencia, esta adecuadamente documentado, y suficientemente sencillo de operar. El hardware por si solo no puede hacer nada, pues es necesario que exista el Software, que es el conjunto de instrucciones que hacen funcionar al hardware. Clasificaciones del Software 1. Sistemas Operativos: El sistema operativo (SO) es el gestor y organizador de todas las actividades que realiza la computadora. Marca las pautas segn las cuales se intercambia informacin entre la memoria central y la externa, y determina las operaciones elementales que puede realizar el procesador. El SO despierta a la computadora y hace que reconozca a la CPU, la memoria, el teclado, el sistema de vdeo y las unidades de disco. Adems, proporciona la facilidad para que los usuarios se comuniquen con la computadora y
sirve de plataforma a partir de la cual se corran programas de aplicacin. El componente ms importante del SO es el Kernel, que constituye en su ncleo permitiendo la interaccin entre el Hardware y el resto del sistema; el Kernel controla los recursos del hardware, los sistemas perifericos, permite ejecutar programas y proporciona un sistema de archivos. + Categoras de Sistemas Operativos. - Multitarea. El trmino multitarea se refiere a la capacidad del SO para correr mas de un programa al mismo tiempo. - Multiusuario. Un SO multiusuario permite a mas de un solo usuario acceder una computadora. - Multiproceso. Las computadoras que tienen ms de un CPU son llamadas multiproceso. Un sistema operativo multiproceso coordina las operaciones de las computadoras multiprocesadores. Ya que cada CPU en una computadora de multiproceso puede estar ejecutando una instruccin, el otro procesador queda liberado para procesar otras instrucciones simultneamente. + Sistemas Operativos ms Comunes. - MS-DOS. Es el ms comn y popular de todos los Sistemas Operativos para PC. La razn de su continua popularidad se debe al aplastante volumen de software disponible y a la base instalada de computadoras con procesador Intel. - OS/2. OS/2 es un sistema operativo de multitarea para un solo usuario que requiere un microprocesador Intel 286 o mejor. Adems de la multitarea, la gran ventaja de la plataforma OS/2 es que permite manejar directamente hasta 16 MB de la RAM (en comparacin con 1 MB en el caso del MS-DOS). - UNIX-GNU/LINUX. Unix es un SO multiusuario y multitarea, que corre en diferentes computadoras, desde supercomputadoras, Mainframes, Minicomputadoras, computadoras personales y estaciones de trabajo. Variantes de UNIX llevan en desarrollo o en produccin ms de tres dcadas, hacindolo uno de los sistemas operativos disponibles hoy ms estables, potentes, fiables y constantemente mejorado para servidores de gama alta y supercomputadoras, a la vez que sigue siendo la solucin preferida para estaciones de trabajo de alto rendimiento. UNIX fue desarrollado por Thompson y Ritchie en AT&T Laboratories. Debido a que Unix es un Sistema Abierto, cuyo diseo interno es de dominio Pblico y comercializable, existen varias versiones similares de un mismo Unix tales como Linux, Solaris, AIX, Sinix, SCO OpenServer, SCO Unixware, Sun/OS, HP-UX, DG-UX, A-UX, Ultrix, Xenix, Centix y otros. GNU/Linux inicio con Richard Stallman con la Free Software Foundation (1983) para desarrollar un SO de codigo de acceso libre; a este se unio el Kernel (Linux) desarrollado por Linus Torvalds. Richard Stallman defiende la creacin y desarrollo de software libre. Este es un SO muy importante en bioinformtica, sobre el cual se han diseado la mayora de los programas que se utilizan en esta area. - SISTEMA OPERATIVO DE MACINTOSH. La Macintosh es una mquina netamente grfica. De hecho, no existe una interfaz de lnea de comando equivalente para sta. Su estrecha integracin de SO, GUI y rea de trabajo la hacen la favorita de la gente que no quiere saber nada de interfaces de lnea de comando. - WINDOWS NT DE MICROSOFT. Con Windows NT, Microsoft ha expresado su dedicacin a escribir software no slo para PC de escritorio sino tambin para poderosas estaciones de trabajo y servidores de red y bases de datos. Microsoft Windows NT no es necesariamente un sustituto de DOS ni una nueva versin de ste; es, en conjunto, un nuevo SO diseado desde sus bases para las mquinas ms modernas y capaces disponibles. Windows NT de Microsoft ofrece caractersticas nterconstruidas que ningn otro SO para PC ofrece, con excepcin de Unix. Adems de las caractersticas tradicionales de estricta seguridad de sistema, red nterconstruida, servicios de comunicacin y correo electrnico, herramientas de administracin y desarrollo de sistema y una GUI, Windows NT puede correr directamente aplicaciones de Windows de Microsoft y de Unix. 2. Lenguajes de Programacin: Mediante los programas se indica a la computadora que tarea debe realizar y cmo efectuarla, pero para ello es preciso introducir estas rdenes en un lenguaje que el sistema pueda entender. En principio, el ordenador slo entiende las instrucciones en cdigo mquina, es decir, el especfico de la computadora. Sin embargo, a partir de stos se elaboran los llamados lenguajes de alto y bajo nivel. Los lenguajes de programacin cierran el abismo entre las computadoras, que slo trabajan con nmeros binarios, y los humanos, que preferimos utilizar palabras y otros sistemas de numeracin.
3. Software de Uso General: El software para uso general ofrece la estructura para un gran nmero de aplicaciones empresariales, cientficas y personales. El software de hoja de clculo, de diseo asistido por computadoras (CAD), de procesamiento de texto, de manejo de Bases de Datos, pertenece a esta categora. + Procesadores de Texto Son utilizados para escribir cartas, memorandos y otros documentos, Ejemplos de procesadores de texto: Word, AmiPro, Wordperfect. - Hojas de Clculo Es una herramienta para calcular y evaluar nmeros. Tambin ofrece capacidades para crear informes y presentaciones para comunicar lo que revelan los anlisis. Ejemplos de Hojas de Clculo: Excel, Lotus 123, Quatro. - Bases de Datos La DBMS (Data Base Management System) es la herramienta que las computadoras utilizan para realizar el procesamiento y almacenamiento ordenado de los datos. Por ejemplo, un a agenda puede ser una base de datos donde se almacenan los nombres, direcciones y nmeros telefnicos de amigos y contactos de negocios. Ejemplos de Bases de Datos: Access, FoxPro, Approach. - Paquetes de Presentacin Software que permite al usuario disear presentaciones para desplegarlas a travs de la misma computadora o imprimir diapositivas y acetatos. Ejemplos: Presentation, Power Point, Freelance Graphics. 4. Software de aplicaciones: El software de aplicacin esta diseado y escrito para realizar tareas especficas personales, empresariales o cientficas. REDES DE COMPUTADORA Una Red es una manera de conectar varias computadoras entre s, compartiendo sus recursos e informacin y estando conscientes una de otra. 1. Tipos de redes. Segn el lugar y el espacio que ocupen, las redes, se pueden clasificar en dos tipos: Redes LAN (Local Area Network) o Redes de rea local. Es un tipo de red que se expande en un rea relativamente pequea. Redes WAN (Wide Area Network) o Redes de rea amplia. Es una red comnmente compuesta por varias LANs interconectadas y se encuentran en una amplia rea geogrfica. Entre las WAN's mas grandes se encuentran: la ARPANET, que fue creada por la Secretara de Defensa de los Estados Unidos y se convirti en lo que es actualmente la WAN mundial: INTERNET, a la cual se conectan actualmente miles de redes universitarias, de gobierno, corporativas y de investigacin.
TRANSMISIN DE DATOS La transmisin de datos en las redes, puede ser por dos medios: 1. Terrestres: Son limitados y transmiten la seal por un conductor fsico. 2. Areos: Son "ilimitados" en cierta forma y transmiten y reciben las seales electromagnticas por microondas o rayo lser. INTERNET Existen varias teoras relacionadas con el nacimiento de Internet, aunque la mas aceptada es que nace en los aos sesenta con el nombre de ARPAnet, como un proyecto militar apoyado por el inters de las universidades que consista en interconectar computadoras que tuvieran la capacidad de alertar a sus ejrcitos en caso de un eventual ataque. En 1972 a las universidades de Standford, UCLA, UCSB y la de Utah se le unieron cuarenta ms, dando paso a su masificacin ya que se vio beneficiada por las minicomputadoras y el UNIX, en el noventa, ya no dependa del gobierno, lo que permiti que este sistema llegara a los Hogares de la mayora de la poblacin. Hoy en da Internet conecta y ofrece servicios, tan esenciales como la propia comunicacin, entre los principales encontramos el WWW o telaraa de informacin mundial, el E-mail, el FTP, el CHAT y hasta el propio comercio electrnico que componen las bases de las tecnologas actuales. Una de las cosas que caracteriza a Internet es la capacidad de
autosustentarse, de esta manera y orientados al desarrollo tecnolgico de las plataformas que lo componen se crean instancias de descarga de aplicaciones que favorecen por lo general al usuario casero, ya que entregan una alternativa econmica a alguna necesidad. BIOINFORMTICA Bioinformtica es una disciplina que utiliza las tecnologas de la informacin para captar, organizar, analizar y distribuir informacin biolgica con el propsito de responder preguntas complejas en biologa. La bioinformtica se ocupa del tratamiento de los datos en el campo de las biociencias moleculares: biologa molecular, bioqumica, medicina y biotecnologa. Segn la definicin del Centro Nacional para la Informacin Biotecnolgica National Center for Biotechnology Information (NCBI por sus siglas en ingls): la Bioinformtica es un campo de la ciencia en el que confluyen varias disciplinas: la biologa, la computacin y las tecnologas de la informacin. Su fin es facilitar el descubrimiento de nuevos conocimientos y el desarrollo de perspectivas globales a partir de las cuales puedan discernirse principios unificadores en el campo de la biologa. La bioinformtica, por tanto, se ocupa dela adquisicin, almacenamiento, procesamiento, distribucin, anlisis e interpretacin de informacin biolgica, mediante la aplicacin de tcnicas y herramientas procedentes de las matemticas, la biologa y la informtica, con el propsito de comprender el significado biolgico de una gran variedad de datos. Al comienzo de la "revolucin genmica", el concepto de bioinformtica se refera slo a la creacin y mantenimiento de base de datos donde se almacenaba informacin biolgica, como son las secuencias de nucletidos y aminocidos. El desarrollo de este tipo de base de datos no slo significaba su diseo, sino tambin el desarrollo de interfaces complejas donde los investigadores pudieran acceder los datos existentes y suministrar o revisar datos. Luego toda esa informacin deba combinarse para formar una idea lgica de las actividades celulares normales, de tal manera que los investigadores pudieran estudiar cmo estas actividades se vean alteradas. De ah surgi el campo de la bioinformtica que se encarga del anlisis e interpretacin de varios tipos de datos, incluidas las secuencias de nucletidos y aminocidos, los dominios de protenas y su estructura. BIOLOGA MOLECULAR Los organismos presentan una complejidad inherente que los hacen nicos, pero al mismo tiempo comparten la maquinaria bsica que les da esas caractersticas particulares. Para entender los organismos biolgicos es necesario conocer sus constituyentes, las interacciones entre ellos y el medio que los rodea. En las entidades biolgicas, los bloques ms bsicos son las molculas. La mayora de estas son molculas inorgnicas sencillas, como sales o elementos bsicos constitutivos. Otro grupo de molculas son ms complejas, como los cidos grasos o carbohidratos que proporcionan la energa necesaria para cumplir con las funciones vitales. Otras macromolculas, sin embargo, pueden diversificarse en diversas formas y funciones, desplegando una gran variedad de interacciones y determinan las caractersticas de un organismo. La Biologa molecular es la ciencia que busca entender la forma en que los organismos trabajan y estn constituidos, desde el nivel ms bsico: el nivel atmicomolecular. La idea subyacente es que, para entender un organismo, se necesita examinar sus propiedades desde el nivel ms bsico posible. Esta ciencia inicia con la publicacin del modelo estructural del cido desoxirribonucleico (DNA) por Francis Crick y James Watson en 1953. Este hecho permiti conocer el proceso en el que la informacin gentica se transmite. El genoma es el conjunto completo de secuencias en el material gentico de un organismo. Las molculas sobre las cuales se centra la Biologa molecular son los cidos nucleicos, que codifican la informacin gentica, y las protenas, que son las molculas que ejecutan dicha informacin. Un cido nucleico consiste de una larga cadena de nucletidos. La estructura bsica de los cidos nucleicos es el nucletido. Este tiene 3 componentes: una base nitrogenada, un azcar y un grupo fosfato. La base nitrogenada es una purina o una pirimidina. Estas bases se unen a la posicin 1, en un azcar pentosa, por un enlace glicosdico. Los cidos nucleicos se denominan de acuerdo al tipo de azcar, el DNA tiene 2-desoxirribosa, en tanto que el cido ribonucleico (RNA) contiene ribosa. El cido nucleico se construye por la unin de la posicin 5 de un anillo de pentosa, a la posicin 3 del prximo anillo de pentosa por un grupo fosfato. Cada cido nucleico contiene 4 tipos de bases: las purinas, adenina y guanina, estn presentes en el DNA y el RNA; las 2 pirimidinas en el DNA son citosina y timina. En el RNA se encuentra uracilo en lugar de timina. Las bases se representan por sus iniciales. DNA contiene adenina (A), citosina (C), guanina (G), timina (T), mientras el RNA posee A, G, C, uracilo (U). Las interacciones consisten en el establecimiento de puentes de hidrgeno, los cuales solo se pueden establecer entre T (o U) con A (2 puentes de hidrgeno), y C con G (3 puentes de
hidrgeno). Las protenas son cadenas de aminocidos (compuestos orgnicos que, en los entes biolgicos, contienen un grupo amino y un grupo carboxilo) (Tabla 1) que llevan a cabo las funciones vitales de todo organismo. Estas presentan varios tipos de estructura, la ms bsica es la estructura primaria, o cadena lineal de aminocidos, determinada por la secuencia de DNA y RNA. De acuerdo a la secuencia aminocidica ser la estructura secundaria, terciaria y cuaternaria de la protena. Fuerzas como puentes de hidrgeno y disulfuro, la atraccin entre cargas positivas y negativas, enlaces hidrfobicos e hidrfilicos, determinan el plegamiento que dar a lugar a hlices alfa o lminas beta, en la estructura secundaria, o intrincados modelos en la estructura terciaria y la formacin de complejos proteicos en la estructura cuaternaria.
Tabla 1. Aminocidos y su smbolo. Estn clasificados de acuerdo a su principal caracterstica qumica.
Neutral-No polar Letra Glicina G L-Alanina A L-Valina V L-Isoleucina I L-Leucina L L-Fenilalanina F L-Prolina P L-Metionina M Neutral-Polar L-Serina S L-Treonina T L-Tirosina Y L-Triptofano W L-Asparagina N L-Glutamina Q L-Cisteina C cidos L-Aspartico D L-Glutmico E Bsicos L-Lisina K L-Arginina R L-Histidina H La informacin gentica fluye por 3 procesos bsicos: replicacin, o copia de la informacin gentica contenida en el DNA; trascripcin, que consiste en el traspaso de la informacin, desde el DNA al RNA, para que esta pueda ser finalmente llevada a protenas, este ultimo paso denominado traduccin. El DNA es una doble hlice, compuesta por dos cadenas complementarias unidas entre s por puentes de hidrogeno entre las bases nitrogenadas. La A de una hebra se aparea siempre con la T de la hebra complementaria, y del mismo modo, la G con la C. Durante la replicacin, las dos hebras se separan y cada una de ellas forma una nueva hebra complementaria, incorporando bases, la A se unir a la T de la hebra molde, la G lo har con la C, obtenindose otra molcula de DNA idntica a la original con igual informacin gentica. La trascripcin es llevada a cabo por una enzima, la RNA polimerasa, que reconoce secuencias promotoras (guas moleculares) en el DNA y a partir de ellas copia una cadena de RNA (RNA mensajero o mRNA), la cual corresponde a la regin codificante (gen) para una protena. Este proceso se denomina trascripcin. Una vez que la informacin gentica se encuentra como RNA es necesario llevarla a la formacin de protenas, proceso denominado traduccin. Este implica el reconocimiento del mRNA por el ribosoma, y la formacin de la secuencia de aminocidos por RNA transportadores (tRNA) a partir de la secuencia contenida en el mRNA de acuerdo a los tripletes correspondientes en el cdigo gentico (Tabla 2).
Tabla 2. Cdigo gentico.
UUU UUC UUA UUG CUU CUC CUA CUG AUU AUC AUA AUG GUU GUC GUA GUG
F F L L L L L L I I I M V V V V*
UCU UCC UCA UCG CCU CCC CCA CCG ACU ACC ACA ACG GCU GCC GCA GCG
S S S S P P P P T T T T A A A A
UAU UAC UAA UAG CAU CAC CAA CAG AAU AAC AAA AAG GAU GAC GAA GAG
Y Y Parada Parada H H Q Q N N K K D D E E
UGU C UGC C UGA Parada UGG W CGU R CGC R CGA R CGG R AGU S AGC S AGA R AGG R GGU G GGC G GGA G GGG G
* GUG tambin puede codificar para M. Este triplete es "ambiguo". La Biologa molecular aplica una gran variedad de tcnicas moleculares, como la secuenciacin de cidos nucleicos y protenas, la difraccin de rayos X, Reaccin en cadena de la polimerasa (PCR) y clonacin entre otras, lo que ha llevado a la identificacin y caracterzacin de los componentes de la informacin gentica tales como regiones promotoras, genes, operones, intrones, reguladores o dominios de protenas. Por ello, al estudiar todos los procesos que implican los procesos biolgicos, se ha generado una gran cantidad de informacin biolgica que es necesario interpretar, correlacionar y difundir. TECNOLOGAS DE LA INFORMACIN Las molculas de la vida estn conformadas por una serie de componentes esenciales que, cuando se juntan, generan las propiedades especficas de las ms complejas estructuras biolgicas. Estos componentes esenciales (nucletidos o aminocidos), son letras de un alfabeto muy especial. Estas letras (residuos) producen patrones los cuales reflejan las propiedades de las molculas que ellos componen, como los tripletes que codifican para un aminocido por ejemplo. Resulta evidente la funcionalidad de un computador para el anlisis de datos. Es as como se deduce que las tecnologas de la informacin se pueden aplicar al anlisis de las secuencias biolgicas, como estn codificadas y como se transmite entre entidades. Las tecnologas de la informacin aplicadas a la biologa molecular ayudan a entender como los organismos manejan la informacin biolgica. Esto se puede lograr determinando los patrones existentes para determinados perfiles biolgicos, y la identificacin de sus similares en las diversas especies. Este proceso implica una gran atencin, detalle y eficiencia. As, automatizando este proceso se puede generar un gran caudal de conocimiento, y determinar la informacin ms relevante. El amplio crecimiento de la biologa molecular ha dado como resultado un auge de conocimiento, que sobrepasa la capacidad de cualquier ser humano. Pero, si se unen los mtodos computarizados al raciocinio humano, se lograr conseguir una manera eficiente y rpida de analizar los datos existentes para extraer los detalles ms significativos. Por ello, las tecnologas de la informacin, unidas a la biologa molecular, se convierten hoy por hoy en una de las principales herramientas para el trabajo del cientfico. Este el corazn de la bioinformtica. RECURSOS DE INFORMACIN BANCOS DE PUBLICACIONES. Los grandes avances en el campo de la genmica, la protemica y la biotecnologa han catapultado a la bioinformtica como una herramienta de anlisis de los grandes proyectos de secuencias, y de la innumerable cantidad de datos biolgicos que se estn generando. Por ello es necesario documentarse acerca de las diferentes investigaciones y avances por medio de las publicaciones cientficas que se encuentran en Internet. Las diferentes revistas cientficas se han agrupado en varios bancos que facilitan
encontrar la informacin que cada investigador necesite, y en ellos se encuentran clasificadas por temtica, tipo de revista, o autor entre otros, lo que unido a poderosos buscadores facilita enormemente su manejo. Algunos permiten acceder a sus publicaciones despus de 6 meses sin restriccin, pero otros solicitan un pago por artculo (en promedio 30 dlares), generalmente con cargo a tarjeta de crdito. Tambin hay la opcin de la afiliacin por un periodo de tiempo determinado en el cul se pueden acceder a todos las revistas del banco en particular. Asimismo, existen en Internet editoriales, por medio de las cuales se pueden adquirir textos especficos del tema de nuestro inters como Amazon. 1. PUBMED (www.pubmed.org): Este es el banco de publicaciones del NCBI. La pgina tiene, en la parte superior, una barra de bsqueda marcada por la palabra SEARCH, donde se coloca el tema a investigar, luego de lo cual se da clic en GO, con lo que se cargara una pagina presentando los artculos que poseen la informacin que se busca (Figura 1). Los artculos marcados con un logo, que consiste en varias paginas de colores, son de acceso libre; los que tienen un logo de una sola pagina con lneas indica que solo el resumen esta disponible (si se desea el articulo completo se debe ingresar a la pagina de la revista y hacer el pago correspondiente); los artculos marcados con el logo de una pagina en blanco no estn disponibles (ni siquiera el resumen) (Figura 1).
Figura 1. Pagina de resultados de publicaciones obtenidos en Pubmed. El logo de paginas de colores es para artculos completos de acceso libre, el logo de la pagina con lneas indica libre acceso al resumen, el logo de una pagina en blanco representa artculos no disponibles.
Cuando una publicacin es de acceso libre se accede dando clic en el nombre de los autores, o en el logo (paginas de colores), luego de lo cul se cargar una pagina con el resumen y un link para acceder a la revista, o a la base de datos de Pubmed (Figura 2). Al hacer clic en cualquiera de las 2 opciones saldr una ventana emergente, donde se encuentra el artculo en formato html (Figura 3), y un link con la opcin para acceder al artculo en formato pdf que se carga automticamente.
Figura 2. Pagina de Pubmed para un artculo de acceso libre. El icono verde con la leyenda FREE full text en la izquierda indica que la publicacin se encuentra disponible al public o libre de pago.
Figura 3. Pagina HTML de artculo completo. El link full text (PDF) se utiliza para acceder al mismo articulo en formato pdf (el segundo link en el men de la derecha, de color violeta).
2. ELSEVIER (www.elsevier.com): es un banco de publicaciones cientficas muy amplio, que abarca recursos de gran variedad de temas (Figura 4). Contiene links a tems como catlogos, libros, revistas, bibliografa especializada y noticias cientficas destacadas, entre otros. Un link importante se encuentra en la parte derecha, el cual enlaza al sitio Science Direct, que se puede acceder directamente en la direccin www.sciencedirect.com (Figura 4).
Figura 4. Pagina principal de Elsevier. Contiene links a varios recursos informativos. A la derecha se encuentra el icono de acceso a Science Direct.
Por medio del sitio de Science Direct se accede a revistas y artculos cientficos (Figura 5). La pgina tiene una barra para la bsqueda, por tema, revista o autor. Adems, presenta todas las revistas clasificadas alfabticamente. Es necesario pagar por los artculos o por la suscripcin, aunque hay algunas pocas revistas de acceso libre (marcados con un cuadro verde o amarillo).
Figura 5. Pagina de Science Direct. Contiene una barra de bsqueda (Quick Search), y variados links que dirige a las revistas (journals), libros (books), resmenes (abstracts), perfil personal (My profile) y alertas (alerts).
3. Sociedad Americana de Microbiologa (ASM) (www.asm.org): Este sitio Web presenta recursos como el calendario de eventos en microbiologa, noticias y acceso a revistas cientficas (Figura 6).
Figura 6. Pagina principal de la Sociedad Americana de Microbiologa. El sitio contiene enlaces a variados recursos. El motor de busqueda se inicia con el link Search en la parte superior a la derecha.
En link SEARCH (arriba a la derecha) abre una pgina con varios enlaces a revistas, junto con un formulario de bsqueda (con opciones como autor o palabras clave) (Figura 7). La opcin ASM JOURNALS busca el tema en todas las revistas del formulario. Para iniciar el motor de busqueda se hace clic en el cuadro SEARCH.
Figura 7. Formulario de busqueda de ASM. Contiene enlaces para revistas cientficas.
Si se desea acceder a mas opciones de revistas, se da clic en SEARCH MORE JOURNALS y en la ventana que se abre se escoge la revista de inters (Figura 8).
Figura 8. Formulario de busqueda de ASM. Abajo en azul esta el icono Search more journals para acceder a mas opciones de revistas.
Para guardar los textos en el computador es aconsejable hacerlo en formato pdf (Figura 9), que permite la visualizacin de la publicacin igual a como aparece en la revista impresa, para lo cul es necesario bajar el programa Adobe www.adobe.com).
Figura 9. Articulo cientfico en formato pdf. La publicacin se visualiza igual al impreso.
BASES DE DATOS El gran avance de las ciencias biologicas han generado una gran cantidad de datos, los cuales se necesita que estn disponibles para todos los investigadores, afn de que se pueda lograr enriquecer el conocimiento, analizar la nueva informacin y poder establecer correlaciones fidedignas. Por ello, desde la dcada de los 80 se inici la construccin de modernas bases de datos, donde los investigadores podan enviar sus descubrimientos y adems tener acceso a los logrados por otros. Inicialmente, estas solo se ocupaban del almacenamiento de la informacin, pero con el tiempo se han convertido en sitios que, aparte de lograr una eficiente organizacin de los datos biolgicos, tienen una gran cantidad de recursos que ayudan al estudio de la informacin obtenida experimentalmente. Las bases de datos son sitios de almacenamiento de informacin biolgica de acceso libre. Las bases de datos se han constituido en la base de las herramientas bioinformticas. Las bases de datos son estructuradas e indexadas lo que permite la fcil bsqueda en ellas; se actualizan periodicamente; poseen referencias cruzadas (hipervinculos) con otras bases de datos; el almacenamiento de los datos se hace por texto plano o tablas vinculadas (flat file and relational data base). Las bases de datos pueden ser primarias si contienen netamente datos experimentales, o secundarias si poseen datos obtenidos a partir de la base de datos primaria. 1. Centro Nacional para la Informacin Biotecnolgica-NCBI (http://www.ncbi.nlm.nih.gov/): Establecido en 1988 como un recurso para la informacin en biologa molecular, el sitio NCBI ha creado bases de datos pblicas, dirige investigacin en biologa computacional, desarrolla software para anlisis de datos de genomas, y disemina informacin biomdica. Todo esto para el mejor entendimiento de los procesos moleculares que afectan la salud humana y la enfermedad. La ventana principal posee un listado de links (izquierda) que dan acceso a sus diferentes subsecciones, las cuales poseen sus propias caractersticas, con la ventaja de una interrelacin entre ellas (Figura 10).
Figura 10. Pagina principal de NCBI. En la parte izquierda se ubica un men hacia sus principales sitios (azul), el men que esta desplegado da acceso a diferentes recursos del sitio, el men de la derecha dirige hacia herramientas recomendadas.
Entre otros recursos, NCBI tiene varias bases de datos como GenBank, OMIM (herencia mendeliana del hombre), MMDB (modelos por homologa de estructuras tridimensionales de protenas), UniGene (Coleccin de secuencias de genes humanos), el mapa del genoma humano, el navegador de taxonoma, y el CGAP (proyecto del genoma del cncer). Este sitio Web posee otros recursos entre los que se cuenta el sistema de acceso integrado a secuencias, mapas, taxonoma y datos estructurales, denominado Entrez. La literatura esta disponible a travs de Pubmed. Posee el programa BLAST, el cual busca similaridades entre secuencias y es capaz de identificar genes y sus caractersticas. Tambin estn disponibles software para la identificacin de marcos abiertos de lectura (ORF), PCR electrnica y envo de secuencias (Sequin y BankIt). Aqu se describe algunos recursos de NCBI. - NCBI tiene el banco de secuencias biolgicas ms grande del mundo denominado GenBank (Figura 11), al cual se accede haciendo clic en el icono GENBANK en el men izquierdo (azul) de la pagina principal. Este banco esta en colaboracin con el Proyecto Internacional de Colaboracin de Base de Datos de Secuencias de Nucletidos que se lleva a cabo en el Laboratorio Europeo de Biologa Molecular (EMBL), y con el Banco de Datos de DNA del Japn (DDBJ). Con el EMBL y el DDBJ intercambia informacin diariamente para conseguir que las 3 bases de datos tengan la misma informacin. El sitio tiene una barra de bsqueda en la parte superior, con un primer men ubicado al lado de SEARCH, donde escogemos el sitio de NCBI donde se desea que se realice el procedimiento, el cual nos da la opcin de ubicar secuencias de protenas, nucletidos, estructuras o en Entrez (busqueda combinada), entre otros; luego se procede a colocar el criterio de busqueda (por medio de palabras clave, o con numero de accesin si se conoce). Por medio de GenBank se puede enviar secuencias a la base de datos de NCBI a traves de Bankit (para presentar datos de secuencias de manera rpida) y Sequin (til para presentaciones complejas y extensas).
Figura 11. Pagina de GenBank. En el listado de la izquierda (azul) se encuentran enlaces que dan acceso sitios especializados para el envo de secuencias. - NCBI tiene la base de datos OMIM (herencia gentica mendeliana del hombre) que es un
catalogo de genes y desordenes genticos (Figura 12). Este recurso es editado frecuentemente por el Dr. Vctor A. McKusick y sus colaboradores en Johns Hopkins y otros. Esta base de datos contiene textos informativos sobre variados temas tales como genes relacionados con diversas enfermedades (hipertensin, cncer, fibrosis qustica, etc.), sus localizaciones o relaciones con otros genes, entre otros. Posee enlaces para referencias bibliograficas, mapas, secuencias y bases de datos relacionadas. Este sitio esta basado en el libro Mendelian Inheritance in Man. El link HELP y FAQ (en el listado de la izquierda) enva a sitios que tienen informacin adicional.
Figura 12. Pagina de la base de datos OMIM. Los links Help y FAQ (listado de la izquierda) proveen informacin detallada acerca de la manera de usar este recurso. - NCBI tiene la base de datos MMDB (base de datos de modelamiento molecular), que incluye
biomolculas a las cuales se les ha determinado su modelo tridimensional por medio de cristalografa de rayos X, o por espectroscopia de resonancia magntica nuclear (NMR) (Figura 13). Este tipo de modelos genera una gran cantidad de informacin acerca de la funcin biolgica de la molcula, mecanismos a travs de los cuales lleva a cabo su funcin, su historia evolutiva y la interrelacin con otras molculas. Estas estructuras provienen del Banco de Estructuras de Protenas (PDB). Se accede a esta base de datos por medio del link STRUCTURE, ubicado en el listado superior horizontal en el extremo derecho, con lo cual se abre una nueva pagina que contiene un men a la izquierda, cuyo primer link es MMDB, que da acceso a esta base de datos. En MMDB se excluyen modelos tericos. Esta pgina tiene el icono Cn3D, en el listado de la izquierda, que conduce al visor de estructuras de protenas Cn3D (Figura 14), un programa que permite visualizar estructuras de protenas.
Figura 13. Pagina de MMDB. En el men de la izquierda existen varios recursos relacionados entre los que se destaca el programa Cn3D (abajo) para visualizacin de estructuras.
Figura 14. Pagina del programa Cn3D. Aqu se encuentran descritas las bondades del software y los links para su descarga e instalacin. - Otro recurso interesante es UniGene (Coleccin de secuencias de genes humanos), que
consiste en un sistema que busca la identificacin de clusters tipo gen, en las secuencias de GenBank (Figura 15). Cada cluster contiene secuencias que representan un nico gen, y adems presenta informacin relacionada tal como tipo de tejido donde el gen se ha expresado, y mapas de localizacin. Aqu se encuentran genes bien caracterizados, y muchas secuencias que han sido expresadas recientemente. Se puede ingresar a la pagina por medio del link ALL DATABASES ubicado en la parte izquierda del men horizontal superior, despus de lo cual se abre la pagina de Entrez, donde se escoge el enlace UniGene (esta de cuarto en el listado derecho).
Figura 15. Pagina de UniGene. - Existe la seccin de Recursos del Genoma Humano (Human Genome Resources), donde se entrelazan todas las secciones que contienen informacin relacionada con el proyecto de secuenciacin del genoma humano. Aqu hay vnculos a otras bases de datos como OMIM, UniGene o dbSNP (base de datos de polimorfismos de un solo nucletido). Tambin existen links hacia mapas, citogentica y genmica comparativa. Se accede a travs del enlace HUMAN GENOME RESOURCES del listado de la derecha de la pgina principal de NCBI. En esta seccin se encuentra el manual de NCBI, una gua para el uso de sus recursos (men de la izquierda) (Figura 16).
Figura 16. Pagina principal de Recursos del Genoma Humano.
- El sitio Map Viewer comprende un conjunto de mapas, fsicos y genmicos, interactivos de todos los organismos cuyo genoma se encuentra secuenciado en su totalidad (Figura 17). Map
viewer despliega mapas cromosmicos, y tiene la capacidad de enfocarse en varios niveles con gran detalle, lo que permite acceder a los datos de una secuencia en particular para una regin y cromosoma de inters. Para iniciar se ubica el link MAP VIEWER en el listado derecho de la pagina y se da clic all, con esto se abrir otra pagina donde se encuentra el listado de los genomas de todos los grupos de organismos que ya estn terminados. Acto seguido, se escoge uno de los genomas (segn el inters particular), despus de lo cual se abrir una pgina que contiene un mapa cromosmico. Al escoger uno de los cromosomas se da paso a otra ventana que contiene un mapa detallado de este, y los links para los genes identificados en l, que al seleccionarse permiten ver la informacin relacionada con dichos genes (Figura 18).
Figura 17. Sitio de Map viewer. Aparecen los enlaces hacia los genomas clasificados de acuerdo al grupo de organismo al que pertenecen.
Figura 18. Cromosoma de Map viewer. Contiene enlaces hacia pginas con informacin de los genes contenidos en l.
- NCBI contiene una seccin sobre taxonoma, donde se encuentran los datos que proveen informacin acerca de las relaciones entre organismos (Figura 19). Este sitio se renueva constantemente segn aparezcan nuevos descubrimientos que cambien los esquemas en sistemtica. Contiene los nombres de los organismos reportados en las bases de datos con al menos una secuencia (nucletidos o protenas). Se puede ingresar al sitio seleccionando el enlace MOLECULAR DATABASES, y all eligiendo el link TAXONOMY que pertenece a Taxonomy Databases en la lista que se despliega en la pgina.
Figura 19. Ventana del sitio Taxonomy de NCBI. Aparecen los nombres de los organismos de la base de datos, que al seleccionarlos y elegir Display Common Tree, se generar un rbol que representa sus relaciones.
- El proyecto CGAP (Proyecto de la Anatoma del Genoma del Cncer) implica la generacin de informacin y herramientas que permitan entender la anatoma molecular de la clula cancerigena. Este es un proyecto cooperativo entre el Instituto Nacional de Cncer de los Estados Unidos (NCI) y NCBI (Figura 20).
Figura 20. Pagina del Proyecto de la Anatoma del Genoma del Cncer.
- NCBI tiene un sistema de acceso integrado a secuencias, mapas, taxonoma y datos
estructurales, denominado Entrez. Cuando se hace una bsqueda a travs de Entrez, este integra la literatura cientfica, bases de datos de secuencias de DNA y protenas, estructura 3D de protenas y datos de sus dominios, datos de estudios poblacionales, datos de expresin, montaje de genomas completos e informacin taxonmica. Todo en un sistema, donde uno y otro tem se ligan meticulosamente. Se ingresa por medio del enlace ENTREZ HOME ubicado en el listado derecho de la pgina principal de NCBI (Figura 21).
Figura 21. Sitio de Entrez. Se observa un listado que da acceso a los recursos de la base de datos de NCBI. - Entrez es muy sencillo de manipular, bsicamente es un tutor de busqueda. Por ejemplo si
escogemos el link NUCLEOTIDE tendremos acceso a una pagina donde, si se conoce el nmero de accesin de una secuencia en particular (ejemplo: DQ092482) y hacemos clic en GO, se abrir una ventana que presentar la informacin acerca de dicha secuencia y links relacionados (nmeros de acceso, autores, revistas donde se encuentra publicado el hallazgo, titulo del articulo, institucin responsable y la secuencia) (Figura 22).
Figura 22. Resultado emitido por Entrez. Se presenta los detalles de una secuencia. - NCBI tiene una versin muy completa del programa BLAST (herramienta para bsqueda de
alineamiento local bsico), el cual busca regiones de similaridad entre secuencias, ya sea de nucletidos o protenas. El programa es capaz de identificar genes y sus caractersticas gracias a su capacidad de identificar grupos relacionados. El proceso consiste en escoger el
programa segn la secuencia problema (blastn para nucletidos, blastp para protenas), y este comparara dicha secuencia con todas las que se encuentren en la base de datos, indicando cuales son las ms similares. El programa ayuda a identificar estructura, funcin, historia evolutiva y homologa de la secuencia en relacin a otras, basado en estimativos estadsticamente significativos. Se accede a travs de la pgina principal de NCBI, haciendo clic en BLAST (en la parte superior), luego de lo cual se abre una ventana, donde se elige el tem de acuerdo al objetivo que se persiga (bsqueda de similaridades, alineamiento, traduccin, genomas, recuperacin de datos o expresin gnica) y al tipo de secuencia que se desee analizar (Figura 23).
Figura 23. Ventana principal del programa BLAST. Existen varias opciones que van desde el tipo de secuencia hasta el tipo de anlisis que se desee.
La principal funcin del programa es la bsqueda de similaridades, con blastn o blastp. Al hacer clic en ellos se abre una ventana con un formulario donde se ingresa la secuencia problema en la casilla SEARCH y se hace clic en BLAST (Figura 24).
Figura 24. Formulario de ingreso de una secuencia al programa BLAST. Obsrvese que en la casilla junto a Search se encuentra una secuencia de aminocidos.
La pagina que se despliega a continuacin indica que la secuencia fue recibida en el servidor exitosamente, el nmero de caracteres de dicha secuencia y, en el caso de una secuencia de protena, indicar los dominios que se hayan detectado. Despus de esto se hace clic en el link azul FORMAT (Figura 25).
Figura 25. Pagina de resultado parcial de BLAST. Aqu se indica que la secuencia enviada fue recibida exitosamente en el servidor, y que se detectaron 3 dominios funcionales.
Luego del paso anterior, se abre una pagina de resultados donde se aprecia un grfico que representa todas las secuencias de la base de datos que coinciden con la que se envi, con el
puntaje obtenido, representado en colores (negro, azul, verde, prpura y rojo de menor a mayor similitud) (Figura 26).
Figura 26. Representacin grfica de los resultados arrojados por BLAST. El nivel de identidad se representa con colores.
Debajo del grfico se presenta un listado de las secuencias que coinciden, de mayor a menor porcentaje de similaridad, seguido de un resumen de la denominacin, nmero de accesin, y estimados de significanca estadstica (Figura 27).
Figura 27. Listado de las secuencias con algn nivel de homologa segn los resultados de BLAST. Las secuencias contienen un link de acceso, una breve denominacin y los estimativos estadsticos.
Por ultimo, en la pagina se encuentran todas las secuencias que coinciden, con detalles que incluyen su nombre y una corta definicin del organismo al cual pertenece una determinada secuencia, numero de acceso en NCBI, porcentaje de identidad, puntajes, estimados estadsticos, gaps (presentados con el smbolo -), y alineamiento entre la secuencia problema con las dems (las coincidencias se indican con el smbolo ) (Figura 28). BLAST ayuda, por medio de esta informacin, a identificar una determinada secuencia, clasificarla dentro de una familia, e inferir sus posibles relaciones evolutivas, entre otros tem.
Figura 28. Detalles y alineamientos entre la secuencia problema y las reportadas en NCBI segn el programa BLAST. Se observa la denominacin de la secuencia, el porcentaje de identidad, los gaps que se encontraron, el puntaje obtenido y el alineamiento.
- El software para PCR electrnica es usado para identificar STS (Sequence Tagged Site: Sitio
de Secuencia Etiquetada) dentro de secuencias de DNA, mediante la bsqueda de subsecuencias con las cuales primers para PCR se alineen correctamente (Figura 29).
Figura 29. Pagina del software PCR Electrnica.
- En el sitio de NCBI, existe un software para la identificacin de marcos abiertos de lectura (ORF) de un tamao mnimo en una secuencia del usuario, o de la base de datos por medio del uso de un cdigo gentico estndar o alternativo. La secuencia de aminocidos se puede guardar y compararse mediante BLAST (Figura 30).
Figura 30. Pagina del software para la identificacin de ORF. - NCBI tiene otros sitios de mucho inters como son: Gentica de la Malaria, Recursos del Genoma del Ratn, o Recursos de Retrovirus.
En resumen, NCBI es un sitio de referencia para todo investigador. Posee mltiples sitios, con informacin detallada de los ms importantes temas de las biociencias. Cuenta con herramientas de primer orden, que generan una gran cantidad de informacin, y son fundamentales cuando de sacar conclusiones se habla. Todo esto, unido a la interrelacin entre los diferentes vnculos y bases de datos, hace de NCBI el principal recurso Web para investigacin.
2. Laboratorio Europeo de Biologa Molecular-EMBL (http://www.embl.org/): El Laboratorio Europeo de Biologa Molecular (EMBL) fue establecido en 1974 y es financiado por 8 estados miembros, incluyendo casi toda Europa Oriental e Israel. Sus objetivos son dirigir investigacin bsica en biologa molecular, proveer servicios esenciales a cientficos en sus estados miembros, dar entrenamiento de alto nivel a su grupo investigativo, estudiantes y visitantes, adems del desarrollo de nuevas herramientas para la investigacin (Figura 31). Al acceder a la subseccin de biologa computacional, en la seccin de servicios, se abre una ventana con enlaces de recursos en Bioinformtica que el sitio posee. A travs del Instituto Europeo de Bioinformtica (EBI), EMBL abastece de servicios de datos biolgicos para la academia y la industria. Las bases de datos de EBI son: Banco EMBL. Fuente primaria de informacin de secuencias de DNA y RNA. UniProt. Base de datos de secuencias de protenas. Emsembl. Contiene genomas de vertebrados. EMSD. Base de datos de estructuras macromoleculares. ArrayExpress. Datos de expresin gentica basados en microarreglos. Si se hace click en el link EMBL-EBI Services en el menu a la izquierda de
esta pantalla se accede a una ventana con links a todos los recursos del sitio (Figura 32).
Figura 31. Pagina principal de EMBL. Aqu se presentan links que dirigen a todos los recursos del sitio.
Figura 32. Recursos bioinformticos de EMBL.
3. Banco de Datos de DNA del Japn-DDBJ (http://www.ddbj.nig.ac.jp): El Banco de Datos de DNA del Japn comenz sus actividades desde 1986, en el Instituto Nacional de Gentica (NIG). DDBJ es una de las bases de datos de secuencias biolgicas internacionales. Aqu se recolecta datos especialmente del Japn, aunque se aceptan los datos de investigadores de otras orbes, y se intercambia esta informacin con EMBL y NCBI. Tambin se procura el abastecimiento de herramientas para recuperacin y anlisis de datos (Figura 33).
Figura 33. Ventana principal de DDBJ.
Entre las principales herramientas del sitio estn: SRS (Sistema de Recuperacin de Secuencias). software para bsqueda integrada de secuencias. TXSearch. Es un sistema para la recuperacin de datos taxonmicos. GTOP. Contiene datos de anlisis de protenas identificadas por varios proyectos de genomas. BLAST. Este sitio posee una versin del programa BLAST similar al que provee NCBI. ClustalW. Esta es una herramienta de bioinformtica para la bsqueda de homologa entre un grupo dado de secuencias. LIBRA. Es una aplicacin para el anlisis de secuencias y estructuras de protenas.
4. Banco de Datos de Protenas-PDB (http://www.rcsb.org/pdb/): Este sitio se encarga del mantenimiento de una base de datos de estructuras tridimensionales de protenas, determinadas experimentalmente por espectroscopia NMR o cristalografa de rayos x. Tiene un formulario para el envio de estructuras por parte de los investigadores, un tutorial para aprender el manejo del sitio y acceso a los modelos por medio de cdigos, palabras clave o autor. Las estructuras contienen informacin completa que incluye autores, fuente, modelo de la estructura (en varios formatos), publicacin, descripcin de la estructura, mtodo experimental. 5. Recurso Universal de Protenas (UniProt)(http://www.pir.uniprot.org/): es un catalogo de informacin de protenas. Comprende informacin de secuencias de protenas y sus funciones, lo cual realiza uniendo la informacin contenida en Swiss-Prot, TrEMBL, y PIR. UniProt esta compuesta de 3 componentes, cada uno optimizado para diferentes usos: - UniProt Knowledgebase (UniProtKB) tiene extensa informacin curada de protenas que incluye funcin, clasificacin, y referencias cruzadas. - UniProt Reference Clusters (UniRef) database combina secuencias cercanamente relacionadas en un record nico para busquedas rpidas. - UniProt Archive (UniParc) es un deposito que refleja la historia de todas las secuencias de protenas. 6. Sistema de Recuperacin de Secuencias (Sequence Retrieval System) (http://srs.ebi.ac.uk/): Este es el sitio que contiene enlaces a todas las bases de datos. Es una base de datos que contiene bases de datos. Es el sstema idoneo para la busqueda y recuperacin de secuencias de todo tipo ya que contiene indices a todas las principales bases
de datos. La busqueda de una secuencia en particular se realiza iniciando en la seccin Library Page donde se escoge la base de datos de interes, y en Query Form se introducen las palabras claves que definen la busqueda de interes. Tiene muchos otros links de facil manejo, que con la prctica es de mucha utilidad. En 1988 se reunieron los staff de GenBank, EMBL y DDBJ e hicieron un acuerdo de intercambio de informacin (International Collaboration of DNA sequence databases or International Nucleotide Sequence Database Collaboration-INSDC). As estas bases de datos intercambian informacin diariamente para que las tres posean los mismos datos biolgicos. PARA TENER EN CUENTA... - Cul es la mejor base de datos para mi proposito? - Cul tiene la mejor calidad de datos? - Cul es la ms completa? - Cul es la ms actualizada? - Cul es la menos redundante? - Cul es la ms indexada? - Cul responde ms rpido? Y... - Las bases de datos pueden tener muchos errores (anotaciones automaticas) - No todas las bases de datos estn disponibles en todos los servidores - La frecuencia de actualizacin es diferente en los distintos servidores - La adicin de datos es automatica y depende del investigador y su veracidad
HERRAMIENTAS I
HERRAMIENTAS PARA PCR DISEO DE OLIGONUCLETIDOS (PRIMERS) El primer (oligonucletido o iniciador) acta como punto de anclaje para la DNA polimerasa, y como un iniciador de la reaccin de replicacin del DNA. En el laboratorio, se utilizan para dar inicio a reacciones de replicacin en puntos deseados de una muestra, generalmente para realizar reacciones de secuenciacin, o amplificar el nmero de copias de una muestra de DNA (PCR). 1. Caractersticas de un primer: un primer debe ser especfico para la regin que se desea replicar, mantener la suficiente energa necesaria para las condiciones experimentales, y evitar la formacin de estructuras que puedan impedir la reaccin. La eficiencia de la PCR depende en gran medida de los oligonucletidos que se diseen. Los oligonucletidos deben ser diseados cuidadosamente. Generalmente se ha utilizado el sentido comn para ello. Es importante que se sigan unas reglas mnimas de diseo que permitan su especificidad para una determinada regin de DNA. Las reglas bsicas de diseo son Longitud. Pueden ser muy cortos o muy largos. Como norma general se acepta que su tamao mximo sea de 30 bases. Pero los mejores oligonucletidos estn comprendidos entre 18 y 25 pares 0 de bases, que hacen que la temperatura de melting oscile entre 50 y 60 C (temperatura ptima para el alineamiento). Contenido de G-C. Para determinar este parmetro es necesario conocer el contenido de G-C de la secuencia a amplificar, pero como regla bsica se prefiere oligonucletidos con un contenido de GC de 40 a 60%, que les da estabilidad y una temperatura de melting apropiada. Se debe evitar que existan ms de 3 repeticiones consecutivas de una base en su diseo (ej. AAAAA). No deben tener purinas o pirimidinas repetidas consecutivamente ms de 3 veces en la medida de lo posible. La temperatura de melting debe ser lo mas parecida posible (mximo 5 grados de diferencia entre uno y otro primer). Es importante observar los extremos 5 y 3 de los oligonucletidos y revisar que estos extremos no sean complementarios, ejemplos: a) 5 NNNNNNNNNNNNNNTATA 3 5 NNNNNNNNNNNNNNTATA 3 5 NNNNNNNNTATA 3 3ATATNNNNN5
DIMERO DE PRIMERS. b) 5 TATANNNNNNNNNNNNN 3 5 TATANNNNNNNNNNTATA 3 5 TATANNNNN 3 3 NNNNNNNNNNATAT 5 NO HAY EXTENSION c) 5 NNNNNNNNNNGCATGC 3 5 NNNNNNNNGCA 3 3CGT se forma 1 horquilla PRODUCTOS DE PCR NO DESEADOS.
2. Diseo de primers para aislamiento de protenas (Primer3) (http://frodo.wi.mit.edu/primer3/primer3_code.html): Primer3 es un programa escrito para el diseo automatizado de primers para PCR. Primer3 compara una secuencia de DNA molde con una secuencia de DNA, o protena, para generar secuencias de primer directo, calculando todas los posibles oligonucletidos especficos para una determinada regin. Finalmente, Primer3 genera las correspondientes secuencias de primer reverso, adems de calcular otra informacin necesaria como la temperatura de melting, o el contenido de GC de cada primer. La pgina principal (Figura 34) contiene la presentacin del software. Para acceder al programa se elige TRY THE WEB INTERFASE (Figura 34).
Figura 34. Pagina principal del programa Primer3. Se encuentra aqu una presentacin del software, para ingresar al programa se hace clic en Try the Web interfase (violeta). La ventana principal del programa presenta varias caractersticas, que son muy tiles para un diseo adecuado del primer. Cada tem es un enlace, hacia una pagina de ayuda, donde se amplia la informacin para su utilizacin (Figura 35).El programa tiene, en la parte superior, una caja donde se coloca la secuencia para la cual se desean los primers. En este lugar, existe la opcin de escoger una de las libreras disponibles (ninguna, humano, roedor y simple, roedor o drosophila), que tienen la finalidad de evitar que el primer se disee sobre sitios repetitivos en la secuencia (especialmente microsatlites). Debajo se presentan 3 cuadros. El primero y el tercero se seleccionan para el primer directo (LEFT PRIMER) y reverso (RIGHT PRIMER). El segundo cuadro se escoge si se desea disear una sonda de hibridacin (HYBRIDIZATION PROBE) (Figura 35). Si se desea, con esta informacin bsica se puede ordenar al programa el diseo de los primers haciendo clic en PICK PRIMERS (Figura 35).
Figura 35. Programa Primer3. Se observa la parte superior del formulario. Una segunda parte del programa (Figura 36) provee herramientas que permiten acomodar el diseo final de los primers a unas caractersticas especficas, que dependern de los objetivos de la investigacin. Una primera opcin, en esta seccin, es la identificacin de la secuencia (SEQUENCE ID) que puede hacerse con nmeros o letras. Luego sigue una casilla (TARGETS) donde se coloca una regin en especial la cual se desea que los primers flanqueen. En tercer lugar esta el tem EXCLUDED REGIONS, donde se puede excluir del diseo alguna regin dentro de la secuencia. Con la casilla PRODUCT SIZE RANGES se pretende elegir el tamao del producto que los primers van a flanquear (se debe colocar un rango). Si lo que se busca es un tamao muy especifico de producto se elige CLICK HERE TO SPECIFY THE MIN, OPT, AND MAX PRODUCT SIZES ONLY IF YOU ABSOLUTELY MUST. USING THEM IS TOO SLOW (AND TOO COMPUTATIONALLY INTENSIVE FOR OUR SERVER) . NUMBER TO RETURN se utiliza para escoger la cantidad de opciones, en pares de primers, que se quiere que el programa arroje. MAX 3' STABILITY sirve para determinar la estabilidad de las bases del extremo 3 de los primers. En el caso de la opcin MAX MISPRIMING, esta se puede utilizar para determinar el mximo apareamiento con una regin de las libreras. La opcin PAIR MAX MISPRIMING indica el mximo permitido de suma de similaridades de un par de primers, con alguna secuencia en las libreras. Si solo se desea definir estas caractersticas se puede hacer clic en PICK PRIMERS (Figura 36).
Figura 36. Programa Primer3. Se observa la segunda seccin del formulario. Una tercera seccin en esta ventana se denomina GENERAL PRIMER PICKING CONDITIONS, que nos da otras opciones de diseo. La primera, PRIMER SIZE, permite elegir la longitud de los oligonucletidos. PRIMER TM define la temperatura de melting de los oligonucletidos. MAX TM DIFFERENCE se utiliza para escoger la diferencia de Temperatura de melting entre uno y otro primer (se aconseja que esta diferencia sea la ms pequea posible). PRODUCT TM ayuda a escoger la temperatura de melting del amplificado o producto. PRIMER GC% sirve para escoger el porcentaje de GC en los primers. El tem MAX SELF COMPLEMENTARY permite definir el nivel de autocomplementaridad entre cada par de primers, en tanto que MAX 3 SELF COMPLEMENTARY define el puntaje de autocomplementaridad en el extremo 3. En el apartado MAX #NS se puede elegir el nmero mximo de bases desconocidas (N) para un primer. En cuanto a MAX POLY-X, referencia la mxima cantidad en repeticiones de una base para un primer (Ej. AAAAA). INSIDE TARGET PENALTI permite al programa incluir posiciones sobrelapadas. La funcin del parmetro OUTSIDE TARGET PENALTI es la de incluir regiones cercanas a la secuencia blanco. El punto FIRST BASE INDEX es para incluir la primera base de la secuencia aportada. El objetivo del apartado GC CLAMP es definir el nmero de Gs y Cs consecutivas en el extremo 3 de la pareja de primers. SALT CONCENTRATION es usado para calcular la temperatura de melting, en base a la concentracin de sales (usualmente KCl). El argumento ANNEALING OLIGO CONCENTRATION ayuda a que se pueda determinar la temperatura de melting de los oligonucletidos, en correspondencia a un protocolo estndar de PCR. En cuanto al parmetro LIBERAL BASE ayuda a que Primer3 acepte cdigos IUPAC o IUB para bases ambiguas (N). Si se han definido estas condiciones para los primers, se puede proceder a hacer clic en PICK PRIMERS (Figura 36). Ms abajo, en la pagina del programa (Figura 37) existen otras opciones, como la de incluir una regin en especifico (INCLUDED REGION); determinar la primera base de un codn de inicio (START CODON POSITION), afn de definir marcos de lectura; la calidad de la secuencia (QUALITY SEQUENCE) y OBJECTIVE FUNCTION PENALTY WEIGHTS FOR PRIMERS que ayudan al usuario a variar algunos de los parmetros del programa predeterminados. Finalmente, se encuentra la seccin HYB OLIGOS (INTERNAL OLIGOS), que sirve para el diseo de oligonucletidos internos usados para deteccin basada en hibridacin, cuyas caractersticas son similares a las utilizadas para el diseo de primers.
Figura 37. Programa Primer3. Se observa la tercera parte del formulario. Cuando hemos definido todos los parmetros necesarios del programa y se le indica que disee los primers, el sitio procesa la informacin y arrojara una ventana con varias opciones de oligonucletidos. Generalmente, la primera es la mejor, pero ser la experiencia, conocimiento y el sentido comn del investigador lo que le llevara a escoger una de ellas. 3. Diseando primers para mutagnesis dirigida (PrimerX)(http://bioinformatics.org/primerx/): Primer X es un programa para automatizar el diseo de primers de PCR mutagnica, con el fin de realizar mutagnesis sitio-dirigida. PrimerX compara una secuencia molde de DNA con una secuencia de DNA, o protena, a las que se les incorpora la mutacin deseada. El programa genera secuencias de primers directos computando todas las posibilidades de oligonucletidos que posean la longitud apropiada, que codifiquen para la mutacin y genere el producto especfico para el cual fue diseado. Finalmente, PrimerX genera las secuencias de primers reversos correspondientes, y
calcula otra informacin necesaria, como temperatura de melting y contenido de GC para cada par de primers (Figura 38).
Figura 38. Pagina principal del programa PrimerX.
Diseo de primers basado en secuencia de DNA. PrimerX disea primers mutagnicos basado en 2 clases de secuencias de datos. Una opcin consiste en ingresar una mutacin en su secuencia de DNA molde, de esta forma las inserciones, delecciones o sustituciones de bases son incorporadas. Aqu, el programa contiene 2 maneras de ingresar la secuencia, la primera consiste en subirla desde el disco duro del computador utilizando el tem EXAMINAR (la secuencia debe estar en formato FASTA); la otra alternativa es pegar la secuencia en el cuadro ubicado debajo del tem anterior. Luego de haber realizado esta tarea, se procede a ingresar el cdigo de la mutacin que se desea segn el formato siguiente: Cdigo de Mutacin C15G CG15AT Descripcin Reemplazar a "C" en la posicin 15 con "G". Reemplazar "CG" en las posiciones 15-16 con "AT". Quitar a "C" en la posicin 15. CG15del Quitar "CG" en las posiciones 15-16. Insertar a "G" en la posicin 15, corriendo a "C" a la posicin 16 Insertar "AT" en las posiciones 15-16, corriendo "CG" a las posiciones 17-18
Mutacin Sustitucin
Deleccin
C15del
Insercin
C15insG CG15insAT
Despus que se ha completado estas acciones, se prosigue a escoger el protocolo de mutagnesis entre las opciones que da el programa (que van desde definido por el usuario hasta las variantes comerciales). Cuando se ha terminado se hace clic en NEXT (Figura 39), con lo cual se abre una ventana donde el programa solicita la especificacin de algunos parmetros como la temperatura de melting, el contenido de GC, la longitud de los primers entre otros. Una vez se ha realizado esta ultima parte se da clic en GENERATE PRIMERS (Figura 40). El programa mostrar una ventana con los resultados.
Figura 39. Pagina del programa PrimerX para el diseo de primers basado en secuencia de DNA. Una vez se ha completado este formulario se hace clic en Next (al final del formulario)
Figura 40. Segunda pgina del programa PrimerX para el diseo de primers basado en secuencia de DNA. En esta ventana se ingresa los parmetros necesarios y se hace clic en Generate primers (al final del formulario). Diseo de primers basado en secuencia de protena. Otra opcin consiste en ingresar una mutacin en la secuencia de la protena, codificada por su molde de DNA, en cuyo caso PrimerX genera primers mutagnicos basados en todas las posibles secuencias de DNA que codifican la mutacin deseada, teniendo en cuenta el cdigo gentico. Se recomienda esto para cambiar un aminocido especfico en otro. En primer lugar se procede a ingresar la secuencia de DNA de la manera ya descrita para, y se hace clic en TRASLATE, con lo que se abre una ventana donde se presenta la secuencia de aminocidos correspondiente a la secuencia de DNA que se ingreso, y se pide el cdigo de mutacin de acuerdo al formato siguiente:
Mutacin Descripcin Sustitucin Reemplazar "E" en
Cdigo E15P posicin 15 con "P". EF15PQ Reemplazar posiciones 15-16 con "PQ".
"EF" en
Deleccin "E" en la posicin EF15del las
E15del 15.
Quitar
Quitar "EF" en posiciones 15-16.
Insercin en la
E15insP posicin 15, corriendo la "E" a la posicin 16.
Insertar
"P"
EF15insPQ Insertar "PQ" en las posiciones 15-16, corriendo "EF" a las posiciones 17-18. Despus de lo anterior, se escoge el protocolo de mutagnesis, igual a como ya se describi y se hace clic en NEXT (Figura 41).
Figura 41. Pagina del programa PrimerX para el diseo de primers basado en secuencia de protena. Se usa en forma similar a la manera en que se utiliza con secuencia de DNA, al cabo de lo cual se hace clic en Next (al final del formulario). Una vez completado lo anterior se abre una ventana que nos pide algunas especificaciones (segn el protocolo de mutagnesis elegido) como por ejemplo el sistema de expresin a utilizar, la temperatura de melting, el contenido de GC, o la longitud de los primers entre otros. Una vez definido lo anterior se hace clic en GENERATE PRIMERS, con lo cual el programa arrojar los resultados (Figura 42).
Figura 42. Segunda pgina del programa PrimerX para el diseo de primers basado en secuencia de protena. En esta ventana se ingresa los parmetros necesarios y se hace clic en Generate primers (al final del formulario). Caracterizacin de secuencias de primers mutagnicos. Adems de lo anterior PrimerX puede caracterizar primers que usted ha diseado. Aqu, se necesita nicamente ingresar una secuencia de primer mutagnico, y el nmero de bases que no se corresponden (Figura 43), y PrimerX calcular y devolver su complemento reverso, contenido de GC, o temperatura de melting (Figura 44).
Figura 43. Caracterizacin de secuencias de primers mutagnicos .

secuencia del primer y las bases alteradas y se enva por medio de la opcin Submit
En esta ventana se ingresa la
Figura 44. Pagina de resultados del programa PrimerX en caracterizacin de secuencias de primers mutagnicos. En esta ventana se observa las condiciones calculadas para el primer caracterizado. PCR-VIRTUAL(http://www.ch.embnet.org/software/iPCR_form.html): La tcnica de PCR utiliza una enzima, llamada polimerasa, para multiplicar rpidamente un pequeo fragmento de DNA. Cada ciclo de PCR consta de tres fases. En la primera, llamada denaturacin, se calienta el DNA para separar las dos cadenas que lo forman. En la segunda, llamada alineamiento, la temperatura de la mezcla se baja para que los primers u oligonucletidos se enlacen con las cadenas separadas de esta molcula. En la tercera, o polimerizacin, se eleva de nuevo la temperatura para que la enzima polimerasa copie rpidamente el DNA. En cada ciclo de PCR se duplica todo el DNA presente en la reaccin, de manera que en unas pocas horas se obtienen ms de mil millones de copias de un solo fragmento. PCR virtual es un programa interactivo escrito para automatizar la PCR, muy til para evaluacin del diseo de primers. La pgina contiene un formulario con varios tems (Figura 45). La herramienta se maneja de la siguiente forma: - En la primera caja (SELECT FORMAT) se debe escoger EMBLID OR AC si tenemos el nmero de accesin de la secuencia en base a la cual diseamos el primer. Si no es as, es necesario pegar la secuencia, para lo cual se escoge el tem PLAIN TEXT. - En la siguiente caja, QUERY TITLE (OPTION), se le puede asignar un nombre. Luego, contina la caja PASTE YOUR SEQUENCE HERE, donde se pega la secuencia de DNA, o en su defecto se escribe el nmero de accesin de la base de datos. - Posteriormente, en la caja PASTE FORWARD PRIMER se escribe la secuencia del primer directo, y en la caja PASTE REVERSE PRIMER se copia la secuencia del primer reverso. En la seccin OPTIONS estn 2 cajas. En la primera, MINIMAL AMPLIFIED LENGTH, se coloca el mnimo tamao del fragmento que se desea amplificar, y en la siguiente MAXIMAL AMPLIFIED LENGTH, el mximo tamao del fragmento que se va amplificar. - Finalmente, se hace clic en la opcin RUN PCR. Los resultados que da el programa indican la secuencia que amplifica, el tamao del producto y los oligonucletidos empleados (Figura 46).
Figura 45. Pagina del programa de PCR virtual. Contiene un formulario donde se ingresa la secuencia problema y los primers diseados para ella, adems se define el tamao del amplificado.
Figura 46. Pagina de resultados del programa de PCR virtual . Contiene los primers, y la secuencia que resulta de la amplificacin virtual.
MAPAS DE RESTRICCIN (http://arbl.cvmbs.colostate.edu/molkit/mapper/): El mapeo se refiere a la construccin de un mapa de los fragmentos de una secuencia. La meta es predecir los fragmentos que se pueden generar cuando la secuencia ha sido cortada con un reactivo, o conjunto de ellos. Para estudiar mejor una macromolcula es muy til fragmentarla en pequeas piezas, y estudiarlas por separado. Esto simplifica el trabajo, y evita perder informacin de interacciones entre las partes de la macromolcula. Esto es muy usado para DNA y protenas. Estos mapas ayudan a dirigir la investigacin, permitiendo acciones como mutagnesis sitio-dirigida, o la deteccin de la presencia de una molcula o secuencia dada. La fragmentacin de una molcula de DNA se realiza normalmente por medio de enzimas de restriccin. Estas enzimas reconocen un patrn especfico de nucletidos en la secuencia, se une a este y corta en una posicin relacionada al sitio de reconocimiento. El reconocimiento sobre la secuencia se da en un conjunto de 4 a 6 nucletidos y frecuentemente son reconocidos por ms de una enzima. Las protenas son fragmentadas utilizando una variedad de mtodos, entre los que se cuentan enzimas especiales (proteasas), o el tratamiento con cidos fuertes y una variedad de reactivos qumicos. Aqu se describe un programa interactivo para la realizacin de mapas de restriccin de DNA (Figura 47). El sitio consta de una sola pgina dividida en 2 secciones. La primera (superior) describe el programa, e instruye en su utilizacin (Figura 47). Las enzimas a utilizar se pueden elegir de acuerdo a: Todas las enzimas de restriccin: enzimas en la base de datos. Enzimas ms frecuentes: enzimas comnmente utilizadas para mltiples sitios de clonacin, o las que el autor ha favorecido.
Cortes romos: enzimas que clivan para generar extremos romos. Cortes nicos: enzimas que cortan una sola vez en el DNA blanco. Enzimas que no cortan: muestra solo el listado de enzimas de la base de datos que no cortan dentro de la secuencia de DNA problema.
Como primera medida se procede a ingresar la secuencia de DNA de inters en la caja para tal fin, y acto seguido se hace clic en CREATE MAP (Figura 48). Se puede observar que, en el cuadro de abajo, se muestran todas las enzimas y los sitios donde cortaron la secuencia, si tienen sitios de restriccin que reconocer. Haciendo clic en la enzima indica la secuencia que reconoce (en la barra debajo de la leyenda ALL RESTRICTION ENZYMES (Figura 48). Al dar clic en el sitio de corte se mostrar el tamao del fragmento (Figura 48). Si no se desea ver como grfico esta informacin, se hace clic en TEXT DISPLAY (desplegar como texto) (Figura 48). Las enzimas estn codificadas de acuerdo a su funcin, como se indica en la pgina, en la seccin de informacin adicional.
Figura 47. Pagina del programa Mapas de Restriccin. El programa sirve para realizar mapas de restriccin de secuencias de DNA, aqu se presenta las caractersticas y forma de utilizacin.
Figura 48. Pagina del programa Mapas de Restriccin. Se observa la manera de ingresar la secuencia de DNA y en la caja negra se encuentran los resultados. ELECTROFEROGRAMAS-CHROMAS(http://www.technelysium.com.au/chromas.html): Cuando se realizan ensayos de secuenciacin en equipos automatizados, los archivos se pueden abrir con una gran variedad de programas, dependiendo del sistema operativo del computador. Uno de los ms utilizados para Windows es Chromas (Figura 49). Este software despliega los archivos de cromatgrama que arrojan secuenciadores automatizados de Applied Biosystems y Amersham MegaBace, y archivos en formato Staden SCF. El programa permite ver la secuencia en ambos sentidos, ampliar o comprimir el grfico, aplicar colores a cada base de acuerdo a las necesidades del investigador, observar la secuencia complementaria, traduce la secuencia en 3 ORF, y permite su impresin entre otras ventajas. El programa no es interactivo y requiere bajarlo desde la pgina, e instalarlo en el computador.
Figura 49. Pagina del programa Chromas.
COMPARACIN DE SECUENCIAS Los alineamientos mltiples de secuencias son una herramienta importante en el estudio de las mismas. La informacin bsica que provee es la identificacin de regiones conservadas, lo cual es muy til en el diseo de experimentos, tales como la evaluacin de la funcin de una protena, su modificacin o la identificacin de nuevos miembros de una familia de genes. Las secuencias pueden alinearse a travs de toda su longitud (alineamiento global), o solo en ciertas regiones. Los alineamientos globales necesitan usar gaps (que representan inserciones o delecciones), mientras que los alineamientos locales pueden evitarlos, alineando regiones entre gaps. Un filograma es un diagrama de ramas (rbol) donde se asume que es un estimado de una filogenia, las longitudes de las ramas son proporcionales a la cantidad de cambio evolutivo. Un cladograma es un diagrama con brazos (rbol) donde se asume que es un estimado de la filogenia, los brazos son de igual longitud; el cladograma muestra el ancestro comn, pero no indica la cantidad de tiempo evolutivo que separa las taxas. 1. Alineamiento mltiple de secuencia-ClustalW (http://www.ebi.ac.uk/clustalw/): ClustalW es un programa interactivo (tambin existe la versin para instalar en computador) para alineamiento mltiple de secuencias de DNA o protenas. Este genera alineamientos de mltiples secuencias divergentes biolgicamente significativas. ClustalW calcula el mejor apareamiento para las secuencias seleccionadas, y las alinea de tal manera que las identidades, similaridades y diferencias pueden ser vistas. El alineamiento es progresivo y considera la redundancia de secuencia. Este programa tiene algunos parmetros predeterminados y ajustables. Las relaciones evolutivas pueden observarse por medio de cladogramas o filogramas. Cuando se ingresa al sitio (Figura 50) se abre una ventana que presenta el formulario del programa. Los parmetros preestablecidos sirven para la mayora de alineamientos. Tiene una primera casilla ( YOUR E-MAIL) donde se coloca el correo electrnico si se desea que los resultados lleguen por esta va. La segunda casilla (ALIGNMENT TITLE) permite colocar un titulo al trabajo. La tercera casilla ( RESULTS) nos da la opcin de escoger la manera en que se enven los resultados (interactivo o por correo electrnico). El siguiente tem nos posibilita escoger si el alineamiento se hace completo (FULL) o rpido (FAST). En la opcin KTUP se puede escoger que longitud de palabra usar cuando se realizan alineamientos rpidos. En WINDOW se elige la longitud de la ventana (para alineamientos rpidos). SCORE ayuda a decidir el puntaje a tener en cuenta en alineamientos rpidos. La casilla TOPDIAG selecciona las diagonales a integrarse en un alineamiento rpido. En cuanto a PAIGAP se escoge el nivel de gap para alineamientos rpidos. La seccin MATRIX sirve para elegir la serie de matrix para el alineamiento (BLOSUM, PAM, GONNET). La casilla 12 (GAPOPEN) se define el nivel de un gap abierto, los niveles predeterminados son 15.0 para DNA y 10.0 para protena. ENDGAP ayuda a escoger el nivel para el cerramiento de un gap, el nivel predeterminado es 1. GAP EXTENSIN determina el nivel de extensin de un gap, el nivel predeterminado en este tem para DNA es de 6.66 y 0.2 para protena. En tanto que GAP DISTANCES permite elegir el nivel de separacin de un gap, el valor predeterminado para esta opcin es 4. OUTPUT decide el formato para el alineamiento ( ALN, GCG, PHYLIP, PIR y GDE). La barra para OUTORDER deja elegir el orden de las secuencias que sern impresas en el alineamiento. Estos 2 tems regulan tambin el clculo del rbol filogentico. Finalmente, abajo se encuentra la caja para pegar las secuencias a alinear. Tambin se pueden subir desde el computador con el botn EXAMINAR. Las secuencias deben estar en el siguiente formato: >sequence 1 ATGAAGGATGAGGAGAAGATGGAGATTCAGGAGATGCAGCTCAAAGAGGCCAAGCACATT >sequence 2 GCAGACGACGCANAGGATCGCGCGCAAGGCCTGCAGCGCGAACTGGATGGCGAGCTCTAG Una vez completado este proceso se hace clic en RUN (Figura 50).
Figura 50. Pagina del programa ClustalW. Se observa el formato para ingresar las secuencias de DNA. Luego de lo anterior se abrir una ventana que mostrar el progreso del anlisis, lo que dar paso a otra ventana con los resultados (Figura 51). El alineamiento puede elegirse con colores, y tiene unos smbolos que se interpretan as: "*" significa que los residuos o nucletidos en una columna son idnticos en todas las secuencias del alineamiento. ":" significa que existen sustituciones conservadas de acuerdo al color. "." significa que sustituciones semiconservadas se han observado.
Los colores se interpretan de la siguiente forma (para aminocidos): AVFPMILW DE RHK STYHCNGQ Otros ROJO AZUL MAGENTA VERDE GRIS Pequeo (pequeo hidrofobico (incl. aromtico -Y)) cido Bsico Hidroxil + Amino + Bsico - Q
El cladograma se presenta enseguida (Figura 52) y tiene la opcin para elegir el filograma.
Figura 51. Pagina de resultados del programa ClustalW . Se observa la presentacin en colores de las secuencias de DNA.
Figura 52. Pagina de resultados del programa ClustalW . Se observa la presentacin del cladograma para las 4 secuencias de DNA ingresadas.
2. Alineamiento mltiple de secuencia-T-Coffee (http://www.ebi.ac.uk/t-coffee/): Este software es otra opcin para alineamiento mltiple de secuencias. T-Coffee es un programa con el cul se logran resultados ms agudos que con ClustalW, pero tiene la desventaja de que solo maneja un nmero limitado de secuencias (menos de 30). Otra caracterstica es que este programa permite combinar resultados obtenidos con otros mtodos de alineamiento (ClustalW, Dialign, etc.), ya que es capaz de combinar esta informacin para producir un alineamiento acorde con todos los mtodos. El manejo del programa es similar al que de ClustalW. Bsicamente se ingresa las secuencias con el mismo formato ya descrito para ClustalW, las opciones en la barra superior ( E-MAIL, RESULTS, RUN NAME, MATRIZ) se modifican solo si es necesario de la forma ya descrita para el software ClustalW (Figura 53). Los resultados se presentan de igual manera que en el programa ClustalW (incluyendo colores, simbologa, cladogramas y filogramas).
Figura 53. Pagina principal del programa T-Coffee. DESCARGA DE PROGRAMAS DE BIOINFORMTICA Aunque existen mltiples programas interactivos, que son aconsejables debido a la actualizacin permanente de los servidores que los proveen, hay varios que es necesario descargar desde Internet e instalarlos en el computador. Muchos son de acceso libre, pero algunos tienen costo (por medio de cargo a tarjeta de crdito). Aqu se cita un ejemplo de la manera en que se descarga e instala en la computadora este tipo de programas, ya que la mayora de software tienen un procedimiento similar para este fin. Un programa muy til para aplicaciones como pruebas de oligonucletidos, cortes con enzimas de restriccin y traducir la informacin de una secuencia de DNA a una secuencia de aminocidos es FAST PCR. Para su descarga se prosigue as: - Digitar en la barra de direcciones del explorador http://www.biocenter.helsinki.fi/bi/Programs/fastpcr.htm con lo que se abrir la pagina principal del programa (Figura 54).
Figura 54. Pagina principal del programa Fast PCR
- Luego se da clic en DOWNLOAD (descargar) Despus, en la siguiente ventana, se da clic en SELF-EXTRACTED WINRAR ARCHIVE INSTALLATION FILE HERE: FASTPCR.EXE 2.5MB) (Figura 55). - A partir de all se siguen las directrices que da el computador. Se escoge la carpeta donde se va a guardar el programa (preferiblemente archivos de programa o Mis Documentos) (Figura 55). - Seguidamente, se iniciar la descarga del programa y al final se generar un vnculo en la barra de programas (Figura 56). Al dar clic all se abrir la ventana principal del programa listo para su utilizacin (Figura 57).
Figura 55. Ventana de instalacin del programa Fast PCR. Se puede observar el link de inicio de instalacin Selfextracted winrar archive installation file here: fastpcr.exe (2.5mb) (abajo en azul y rojo), y la ventana auxiliar donde se elige la carpeta donde se almacenara el programa.
Figura 56. Icono de acceso al programa Fast PCR . En la parte inferior del men Todos los programas de la seccin inicio del computador se puede observar el link de inicio del software FastPCR.
Figura 57. Ventana principal del programa Fast PCR. Se puede observar el men desplegado con las funciones que realiza el software. El software Fast PCR esta diseado para utilizar secuencias para aplicaciones de PCR: PCR estndar y PCR extendida, PCR inversa, PCR degenerada, PCR mltiple, PCR in silico, pruebas de primers y calculo de la temperatura de melting optima para productos de PCR desconocidos. Aqu se describe brevemente el programa (existe un manual en lnea al que se accede por medio del men HELP). - El programa trae una caja donde se pega la secuencia problema de DNA y una barra de herramientas en la parte superior con las funciones del programa, (Figura 57). - Si se desea disear un oligonucletido se da clic en la ventana PCR y luego en PCR PRIMERS DESIGN. Las caractersticas de los primers se especifican haciendo clic en el ltimo logo de la barra de iconos (Figura 57).
- Cuando el objetivo es trasladar una secuencia de DNA, a secuencia de aminocidos, se pega la secuencia problema en la caja y se da clic en el logo correspondiente de la barra de iconos (Figura 58). - Para realizar cortes virtuales con enzimas de restriccin se hace clic en RESTRICTION en la parte izquierda de la pantalla, despus de haber pegado la secuencia problema de DNA en la caja. Una vez hecho esto se procede a marcar todas las opciones de enzimas de restriccin en la parte baja de la pantalla (Figura 58).
Figura 58. Ventana del programa Fast PCR. Se puede observar el logo para traducir secuencias de DNA. Abajo estn las opciones para las enzimas de restriccin.
HERRAMIENTAS II
MODELAMIENTO DE PROTENAS El DNA contiene la informacin para la fabricacin de protenas, que son las molculas que llevan a cabo las actividades vitales en la clula. A diferencia del DNA, que tiene una nica estructura y sus funcionalidad depende en mayor medida de su secuencia, las protenas no son capaces de realizar su papel si no se pliegan adecuadamente, dando origen a la estructura secundaria y terciaria. La estructura terciaria representa la forma funcional de la protena, capaz de integrarse con otras protenas y de llevar a cabo mltiples tareas. La caracterizacin funcional de la secuencia de protenas es bsica para resolver muchos problemas de biologa. Esto se consigue gracias a un modelo tridimensional (3-D) agudo de la estructura de inters. Usualmente, la estructura de una protena se determina por medio de cristalografa de rayos X, o por espectroscopia NMR, que se almacenan en la base de datos Protein Data Bank (PDB). En la ausencia de una estructura determinada experimentalmente, el modelamiento comparativo, o por homologa, puede proveer un modelo 3-D til, relacionado al menos con una estructura conocida. El modelamiento por homologa predice la estructura 3-D de una secuencia protena dada (protena objetivo), basado en su alineamiento a una o ms protenas de estructura conocida (protena molde). El proceso consta de 4 pasos bsicos: identificacin de las posibles protenas-molde, alineamiento protena-problema y protena(s)-molde, construccin del modelo y evaluacin del mismo. La cantidad de secuencias de protena que pueden ser modeladas con gran exactitud se ha incrementado, gracias al aumento de estructuras determinadas experimentalmente. A pesar del progreso en la prediccin de estructuras protenicas por ab initio
(basado en intuir el plegamiento proteico mediante el calculo de las fuerzas de atraccin entre molculas de aminocidos, sin ninguna comparacin con estructuras conocidas), el modelamiento por homologa es ms confiable para el diseo de modelos 3-D, cuya agudeza puede compararse a la que se logra con experimentacin de baja resolucin. Incluso, modelos con errores son tiles ya que algunos aspectos de la funcionalidad de la protena pueden determinarse de acuerdo a ciertas caractersticas estructurales. 1. Modelamiento por homologa de protenas-Swiss-PdbViewer (http://www.expasy.org/spdbv/): Este software permite el anlisis de varias protenas al mismo tiempo, ya que estas se pueden superponer para deducir alineamientos estructurales, comparar sitios activos u otras caractersticas relevantes como mutaciones de aminocidos, puentes de hidrogeno, ngulos y distancias entre tomos. El programa esta ligado al servidor Swiss-Model, para modelos proteicos por homologa, del Swiss Institute of Bioinformatics-SIB, Glaxo SmithKline R&D y el Grupo de Bioinformtica Estructural del Biocentro en Basel (Figura 59).
Figura 59. Pagina principal del programa Swiss-Pdb Viewer.
Este programa es necesario descargarlo desde el sitio Web e instalarlo en el computador. Para ello se hace clic en la opcin DOWNLOAD del men de la izquierda de la pgina principal (Figura 59), con lo cual se abre una seccin donde se debe aceptar un contrato de licencia haciendo clic en el enlace I AGREE AND WANT TO DOWNLOAD SWISS PDB VIEWER NOW (en la parte inferior) (Figura 60). Luego, se abre una ventana donde tenemos la opcin de elegir el sistema operativo de nuestro computador (Figura 61), y al realizar esta accin se abre una pgina donde se procede a la descarga e instalacin del software (Figura 62) en forma similar a la descrita en el apartado descarga de programas de bioinformtica.
Figura 60. Pagina del acuerdo de licencia del programa Swiss-Pdb Viewer.
Figura 61. Ventana para la eleccin del sistema operativo del computador donde se va a instalar el programa Swiss-Pdb Viewer.
Figura 62. Pagina de descarga e instalacin del software Swiss-Pdb Viewer.
Una vez que se ha instalado el programa se procede a ejecutarlo. Cuando se abre, aparece una ventana con la presentacin del software (que se procede a cerrar), seguida de otra por medio de la cual se administra las funciones de Swiss Pdb Viewer (Figura 63).
Figura 63. Ventanas de presentacin y de funciones del programa Swiss Pdb Viewer. La ventana de la parte inferior tiene la presentacin del programa, la de la parte superior contiene la parte operativa del software.
Realizar un modelo 3-D de una protena es una tarea compleja, que incluso algunos lo han catalogado de arte, lo cual implica el conocimiento profundo de la secuencia y de los
objetivos que se persigan. Por ello, no se puede generalizar en reglas de diseo ya que cada caso debe abordarse de una manera diferente. En este apartado se expone algunos pasos bsicos para iniciar el modelo. - Se guarda en una carpeta la secuencia de la protena-problema, dentro de un archivo FASL.txt (Figura 64), lo cual se realiza con el block de notas en el sistema operativo Windows.
Figura 64. Secuencia de una protena-problema en formato FASL.txt.
- A continuacin, se ingresa al software la secuencia de la protena-problema por medio de la opcin LOAD RAW SEQUENCE TO MODEL del men SWISSMODEL, en la barra de tareas del programa. All se abrir una ventana que nos permitir acceder a la carpeta donde este guardada la secuencia de la protena-problema. Una vez se haya terminado esto aparecern 2 ventanas con la secuencia, en una como una alfa hlice, y en la otra como la estructura primaria (ventana de alineamiento) (Figura 65).
Figura 65. La secuencia de la protena-problema una vez ingresada al programa Swiss-
Pdb Viewer. La segunda ventana contiene la secuencia como una alfa-hlice, en la ventana inferior se encuentran la secuencia de aminocidos. - Luego, se elige el tem SWISS-MODEL del men PREFERENCES" y en la ventana emergente se escribe el nombre del investigador y correo electrnico y se hace clic en OK. - Ahora se procede a escoger la opcin FIND APPROPRIATE EXPDB TEMPLATES del men SWISSMODEL, lo cual abrir una ventana del navegador de Internet que mostrar la secuencia de la protena problema. Aqu se hace clic en SUBMIT. Esta accin enviar la secuencia al servidor que retornar las opciones de secuencia de protena-molde ms adecuadas en una nueva pgina del navegador (Figura 66).
Figura 66. Lista de las posibles secuencias de protena-molde para realizar el alineamiento con la secuencia de la protena-problema. - De la lista de posibles secuencias de protena-molde se escoge las opciones ms convenientes, principalmente de acuerdo al porcentaje de identidad, para realizar el modelamiento. Para este fin, se hace clic en el nombre de estas (Figura 66). Una vez hecho esto se abre una ventana del computador que le solicita indicar la carpeta (Mis documentos o carpeta personal) donde se debe guardar estas secuencias. - Acto seguido, se ingresa las secuencias de protena-molde elegidas al programa por medio del men FILE en la opcin OPEN PDB FILE, lo cual abrir una ventana del navegador que solicitara indicar la carpeta donde se guardo las secuencias de protena-molde. Una vez se haya hecho esto, aparecern las estructuras 3-D al lado de la alfa-hlice de la secuencia de protena-problema, y en la ventana de alineamiento se podr observar la secuencia de aminocidos de estas (Figura 67).
Figura 67. Secuencias de protena-problema (alfa-hlice) y protena-molde (3-D) una vez se han ingresado en el programa. En la ventana de alineamiento se encuentran las 3 secuencias de aminocidos antecedidas por sus nombres, en rojo el nombre de la secuencia de la protena-problema. - En la ventana de alineamiento se hace clic sobre el nombre de la secuencia de protena-problema, y luego se da un clic en el marco superior de la ventana, donde se encuentra la alfa-hlice acompaada de las estructuras 3-D de las secuencias de protenamolde. Una vez realizada esta accin se oprime ENTER en el teclado, con lo que la alfa-hlice desaparecer. - Despus se hace clic en la secuencia de protena-molde que se desea sea utilizada como base del alineamiento (en la ventana de las estructuras 3-D deber aparecer el nombre de esta secuencia). Acto seguido se elige el tem MAGIC FIT del men FIT, se abrir una caja de dialogo indicando que una secuencia de protena-molde funcionar como referencia y la otra como base, se da clic en OK. - Se contina con la opcin GENERATE STRUCTURAL ALIGNMENT del men FIT, con lo cual se realizar el alineamiento estructural (Figura 68). - A continuacin, se hace clic en el nombre de la secuencia de protena-problema en la ventana de alineamiento para luego elegir la opcin UPDATE THREADING NOW del men SWISS-MODEL (este tem no es accesible si la opcin UPDATE THREADING DISPLAY AUTOMATICALLY esta activa, en cuyo caso es necesario desactivarla). - Ahora se active la opcin UPDATE THREADING DISPLAY AUTOMATICALLY del men SWISS-MODEL, con lo cual la secuencia de protena-problema se alinear alrededor de la secuencia de protena-molde de referencia. - Las secuencias se pueden colorear por medio del men COLOR y el tem BY OTHER COLOR, previamente haciendo clic en el nombre de la secuencia que se desee colorear en la ventana de alineamiento.
Figura 68. Alineamiento estructural de la secuencia de protena-problema con las secuencias de protena-molde. La secuencia de protena-problema esta en verde, en rojo y azul se presentan las secuencias de protena-molde.
Ahora se procede a enviar el modelo para su validacin al servidor de Swiss Model por medio del tem SUBMIT MODELLING REQUEST del men SWISS-MODEL y siguiendo las instrucciones. Por medio del correo electrnico suministrado se recibir la respuesta (esto dura aproximadamente de 5 a 10 minutos). Todo el proceso de modelamiento implica estar conectado a Internet.
El programa tiene muchas opciones para modelar, analizar, reformar y evaluar los modelos realizados, que debern utilizarse de acuerdo a cada caso. La pgina de este software tiene una gua de usuario, un tutorial bsico y adems de un enlace hacia un tutorial preparado por el profesor Gale Rhodes del departamento de qumica de la Universidad de Southern Maine (http://www.usm.maine.edu/~rhodes/SPVTut/index.html), el cual aconsejo estudiar minuciosamente afin de conseguir un mayor provecho de las ventajas del programa.
2. Modelamiento por homologa de protenas-Servidor Robetta (http://www.robetta.bakerlab.org): Este servidor provee herramientas automatizadas para la prediccin de estructura de protenas y su anlisis. Para la prediccin de estructuras, las secuencias son enviadas al servidor donde se arreglan en dominios y modelos estructurales usando los metodos de modelamiento comparativo o prediccin de estructuras de novo. Si se da un apareamiento confiable de la secuencia problema a una protena de estructura conocida por medio de BLAST, PSI-BLAST, FFAS03 o 3D-JURY, esta se usa como molde para la construccin de un modelo por homologa. Si no se da un apareamiento con ninguna estructura proteca conocida, la prediccin del modelo se realiza usando el metodo de novo insercin del fragmento Rosetta. Asimismo, se pueden enviar datos experimentales obtenidos de Resonancia Magnetica Nuclear (NMR), con la secuencia problema para la determinacin de la estructura por RosettaNMRdenovo. El sitio incluye la prediccin de efectos de mutaciones en interacciones protecas. Para su utilizacin
adecuada es necesario registrarse para lo cual es necesario poseer un correo electrnico perteneciente a una institucin educativa (simbolizado por EDU en la direccin, ejemplo xxx@universidad.edu.co).
Una vez hecho el registro se procede a ingresar al sitio por medio del enlace LOGIN en la pagina principal (Figura 69). Luego, se puede enviar un trabajo por medio de la opcin SUBMIT del men STRUCTURE PREDICTION y se contina llenando el formulario. La secuencia de protena-problema debe estar en formato Fasta. El proceso de envo de la secuencia es bastante sencillo, pero los resultados demoran mucho (aproximadamente entre 1 y 2 meses). Robetta genera modelos 3-D confiables y los resultados contienen amplia informacin. Depende de cada caso su interpretacin.
Figura 69. Pagina principal del servidor Robetta.
3. El Sistema Experto en Anlisis de Protenas-Expasy (http://ca.expasy.org/): Aqu encontramos una gran variedad de herramientas para el trabajo en proteomica, principalmente al anlisis de secuencias y estructuras de protenas y electrofresis en gel de poliacrilamida bidimensional (2-D PAGE) (Figura 70). Este sitio hace parte del Instituto Suizo de Bioinformtica. Contiene varias secciones: Bases de datos: Swiss-Prot, TrEMBL, PROSITE, SWISS-2DPAGE, ENZYME. Herramientas y paquetes de software: herramientas para proteomica y anlisis de secuencias, ImageMaster/Melanie. Educacin y servicios. Documentacin. Enlaces a listas de recursos de biologa molecular. Enlaces a los grandes servidores de biologa molecular. Miscelneos.
Figura 70. Pagina principal de Expasy.

Bioinformatica para Novatos

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Bioinformatica para Novatos

Cargado por

Copyright:

Formatos disponibles

XILOSA ISOMERASA DE Bacillus stearothermophilus (Gallay et al., 1997) A la izquierda: modelo de la molecula de DNA en LEGO. Tomado de www.ericharshbarger.org/lego/mini_dna.

Tabla 2. Cdigo gentico.

Figura 7. Formulario de busqueda de ASM. Contiene enlaces para revistas cientficas.

Figura 9. Articulo cientfico en formato pdf. La publicacin se visualiza igual al impreso.

Figura 16. Pagina principal de Recursos del Genoma Humano.

- NCBI tiene un sistema de acceso integrado a secuencias, mapas, taxonoma y datos

Figura 29. Pagina del software PCR Electrnica.

Figura 32. Recursos bioinformticos de EMBL.

Figura 33. Ventana principal de DDBJ.

Figura 38. Pagina principal del programa PrimerX.

Mutacin Descripcin Sustitucin Reemplazar "E" en

Deleccin "E" en la posicin EF15del las

Quitar "EF" en posiciones 15-16.

E15insP posicin 15, corriendo la "E" a la posicin 16.

Figura 43. Caracterizacin de secuencias de primers mutagnicos .

En esta ventana se ingresa la

Figura 49. Pagina del programa Chromas.

Figura 54. Pagina principal del programa Fast PCR

Figura 59. Pagina principal del programa Swiss-Pdb Viewer.

Figura 62. Pagina de descarga e instalacin del software Swiss-Pdb Viewer.

Figura 64. Secuencia de una protena-problema en formato FASL.txt.

Figura 65. La secuencia de la protena-problema una vez ingresada al programa Swiss-

Figura 69. Pagina principal del servidor Robetta.

Figura 70. Pagina principal de Expasy.

También podría gustarte