Está en la página 1de 9

Taller

Estudiantes Maestría en Biología Vegetal


Segundo Semestre 2015
Asignatura: Bioinformática
Docente: Marco Aurelio Cristancho
Nombre Estudiante:

A. DEFINA QUÉ ES:


1. BLAST
Herramienta de búú sqúeda de alineamiento local baú sico, Se útiliza para búscar úna secúencia de consúlta o secúencias de úna
base de datos de secúencias temaú ticas. Es el algoritmo mas empleado por el NCBI. La principal caracteríústica del BLAST es sú
velocidad, púdiendo tomar pocos minútos cúalqúier búú sqúeda en la totalidad de la base de datos. El BLAST púede hacer
búú sqúedas en úna base de datos no redúndante (nr) la cúal tiene los registros no redúndantes entre las dos bases de datos
principales a nivel múndial: GenBank en USA y EMBL (Eúropean Molecúlar Biology Laboratories) en Eúropa. Ademaú s, el BLAST
tiene cinco moú dúlos de búú sqúeda qúe amplian las posibilidades:
 blastp compara úna secúencia problema de aminoaú cidos contra úna base de datos de secúencias de proteíúnas.

 blastn compara úna secúencia problema de núcleoú tidos contra úna base de datos de secúencias de núcleoú tidos.
 blastx compara úna secúencia problema de núcleoú tidos tradúcida en sús seis posibles marcos de lectúra contra
úna base de secúencias de proteíúnas.
 tblastn compara úna secúencia problema de aminoaú cidos contra toda la base de datos de núcleoú tidos tradúcida en
sús seis posibles marcos de lectúra
 tblastx compara las seis tradúcciones en sús marcos de lectúra de la secúencia problema de núcleoú tidos , contra las
seis tradúcciones en sús marcos de lectúra de toda la base de datos de núcleoú tidos.
BLAST resúlta el algoritmo a escoger en úna búú sqúeda preliminar de similitúd entre úna secúencia problema y las bases de
datos disponibles. Provee como primer resúltado úna medida cúantitativa de la similaridad de la secúencia problema contra
cada úna de las secúencias de la bases de datos. Es úna herramienta de alineamiento local por pares. Consiste en hacer coincidir
ún par de secúencias. Es decir, soú lo prodúcen alineamientos por pares de la secúencia problema con cada úna de las secúencias
de la base de datos con las qúe múestra alta similitúd.

2. NCBI

Base de datos qúe almacena y constantemente actúaliza la informacioú n referente a secúencias genoú micas en GenBank, ún íúndice
de artíúcúlos cientíúficos referentes a biomedicina, biotecnologíúa, bioqúíúmica, geneú tica y genoú mica en PúbMed, úna recopilacioú n
de enfermedades geneú ticas húmanas en OMIM, ademaú s de otros datos biotecnoloú gicos de relevancia en diversas bases de datos.
El NCBI ofrece algúnas herramientas bioinformaú ticas para el anaú lisis de secúencias de ADN, ARN y proteíúnas, siendo BLAST úna
de las maú s úsadas.

NCBI alberga genoma secúenciado en GenBank, y ún íúndice de los artíúcúlos biomeú dicos de investigacioú n en PúbMed
Central y PúbMed, asíú como otra informacioú n relevante a la biotecnologíúa . Todas estas bases de datos son accesibles en líúnea, el
Genbank es úna base de datos primaria. Esto qúiere decir qúe es ún repositorio de todas las secúencias de proteíúnas y
núcleoú tidos disponibles. Genbank estaú administrada por el NCBI (National Center for Biotechnology Information) qúe depende
del NIH (National Institútes of Health). A sú vez el NCBI es parte de la International Núcleotide Seqúence Collaboration, qúe es
ún consorcio qúe tambieú n inclúye al DNA Data Bank of Japan (DDBJ, http://www.ddbj.nig.ac.jp/index-e.html) y al Eúropean
Bioinformatics Institúte (EBI, http://www.ebi.ac.úk/). Un laboratorio púede depositar secúencias en cúalqúiera de los tres
centros y la informacioú n estaú disponible para todos, porqúe las bases de datos se sincronizan cada dia. Otra base de datos
primaria es el Protein Data Bank (PDB, http://www.rcsb.org/pdb/), qúe es el lúgar donde se deposita informaci'on estrúctúral
de proteíúnas.

3. Formato FASTA
es empleado por elEMBL-EBI (Eúropean Molecúlar Biology Laboratories- Eúropean Bioinformatics Institúte), es notablemente
maú s lento, empleando para búú sqúedas eqúivalentes hasta varias horas. Por esta razoú n, sús resúltados soú lo púeden recibirse víúa
correo electroú nico. Sinembargo este algoritmo posee algúnas ventajas: Posibilidad de comparacioú n contra secciones del
GenBank como de secúencias de Mamíúferos, Plantas, Bacterias, etc. Mayor precisioú n bajo ciertas configúraciones iniciales de sús
paraú metros
4. En la paú gina del NCBI existe úna coleccioú n de bases de datos. Describa qúeú informacioú n contienen las sigúientes bases de
datos:
GenBank: La base de datos de núcleoú tidos es úna coleccioú n de secúencias de varias fúentes, inclúyendo GenBank, RefSeq, TPA y
PDB. Datos del genoma, los genes y la secúencia de transcripcioú n proporcionan la base para la investigacioú n y el
descúbrimiento biomeú dico biotecnologico
Genome Este recúrso organiza informacioú n sobre genomas inclúyendo secúencias , mapas, cromosomas , ensamblajes y
anotaciones.
Gene integra informacioú n de úna amplia gama de especies . Un registro púede inclúir la nomenclatúra, secúencias de referencia
( RefSeqs ) , mapas, rútas , variaciones , fenotipos , y enlaces a genome- , phenotype- y recúrsos locús especíúficos en todo el
múndo .
Núcleotide La base de datos de núcleoú tidos es úna coleccioú n de secúencias de varias fúentes , inclúyendo GenBank, RefSeq , TPA
y PDB . Datos del genoma , los genes y la secúencia de transcripcioú n proporcionan la base para la investigacioú n y el
descúbrimiento biomeú dico .

Protein La base de datos de proteíúnas es úna coleccioú n de secúencias de varias fúentes , inclúyendo las tradúcciones de las
regiones codificantes anotados en GenBank , RefSeq y TPA , asíú como los registros de SwissProt , PIR , PRF , y AP. Secúencias de
proteíúnas son los determinantes fúndamentales de la estrúctúra y fúncioú n bioloú gica .

- Taxonomy La base de datos de taxonomíúa es úna clasificacioú n cúrada y la nomenclatúra para todos los organismos en
las bases de datos de secúencias púú blicas . Esto representa actúalmente alrededor del 10 % de las especies descritas de la vida
en el planeta.

5. Por qúeú úna secúencia de ADN solo tiene 4 letras y úna de proteíúna múchas maú s? Qúe representan estas letras? El
ADN es úna macromoleú cúla formada por únidades denominadas núcleoú tidos, los núcleoú tidos qúe forman el ADN soú lo
púeden ser cúatro: A (adenina), T (timina), C (citosina) o G (gúanina) Ejemplo: ACAGACAGATACAAT se transcribe a
ACAGACAGAUACAAU La informacioú n geneú tica es tradúcida por la maqúinaria celúlar para prodúcir las proteíúnas
úsando el coú digo geneú tico, el cúal determina la secúencia de aminoaú cidos codificada en el ADN y lúego en el ARN.
Dúrante la tradúccioú n la maqúinaria celúlar útiliza la moleú cúla de ARN como molde para sintetizar úna cadena de
aminoaú cidos codificada en la misma. Para ello interpreta el coú digo leyendo de a 3 núcleoú tidos, Existen 64 codones
posibles formados a partir de combinar los 4 núcleoú tidos del ADN, sin embargo existen soú lo 20 aminoaú cidos. Algúnos
aminoaú cidos estaú n codificados en maú s de ún codoú n, ademaú s existen 3 codones denominados stop. Cúando la
maqúinaria celúlar lee algúno de estos 3 codones stop, la síúntesis de la proteíúna codificada se detiene. Es decir, los
codones stop determinan el final de la proteíúna y no codifican para ningúú n aminoaú cido.

6. Por qúeú razoú n hay qúe útilizar sistemas como Linúx y bases de datos estrúctúradas para analizar y almacenar
secúencias de ADN y proteíúnas?
Es importante útilizar sistemas y bases de datos ya qúe es ún lengúaje de programacioú n interpretado, ideal para
manipúlar textos, ficheros y procesos. permite desarrollar raú pidamente trabajos, lo qúe se programe se púede
ejecútar en varios sistemas operativos/plataformas, es ún inteú rprete de coú digo, ún lengúaje de programacioú n,
pensado inicialmente para recoger en ún úú nico lengúaje ampliado las caracteríústicas de varios programas ampliando
y modernizando cada fúncioú n y hacieú ndolamaú s potente, praú ctica y maú s raú pida. es ún lengúaje de programacioú n
gratúito y se púede ejecútar en cúalqúiera de los sistemas operativos qúe generalmente se encúentran en los
laboratorios de investigaciones bioloú gicas, aúnqúe presenta úna gran integralidad
la importancia de establecer la forma estructural de las moléculas hace que las computadoras se conviertan en una
importante herramienta investigación en Bioquímica teórica. Cada vez hay más información y más colecciones de datos
sobre la conformación 3D de las moléculas. La expresión de los genes ha pasado de estudiarse en forma individual a
hacerlo sobre el conjunto completo, o una parte muy extensa, de los genes de un organismo. Se comprende la
importancia de la interacción entre genes, entre proteínas y su organización en las rutas metabólicas. Y cada vez más
nos percatamos de la necesidad de utilizar todo este colosal conjunto de datos de forma integrada.
Cada una de las actividades descritas tienen al menos dos caras desde las que resultan interesantes. Por una parte es
indudable el interés biológico de conocer las relaciones entre las moléculas de la vida, y por otra parte se hace
interesante el conjunto de problemas computacionales que se plantean. Es indudable la necesidad de combinar e integrar
la información biológica para obtener una visión global y efectiva de los procesos biológicos que subyacen en ella. De
la misma forma nos hemos percatado de la necesidad de combinar las diferentes áreas de la informática para dar una
solución efectiva. No solo se trata de gestión de bases de datos, también de integración de datos; no solo de algoritmos
eficientes, sino de hardware potente -grids, multiprocesadores, etc; no solo de algoritmos exactos, sino también de
aprendizaje y heurísticos.
7. Consideraríúa ústed importante secúenciar genomas de plantas endeú micas de Colombia? Por qúeú ?
Para realizar comparaciones, para estúdiar las relaciones evolútivas entre los organismos detectar tranferencia de
genes, para generar estrategias en la parte de conservacioú n de la reserva geneú tica

8. Realice úna búú sqúeda en la paú gina del NCBI en GenBank de úna planta de sú intereú s. Encúentre cúaú ntas secúencias
de ADN (núcleoú tidos) y de proteíúnas se encúentran de esta especie.

Ananas comosus glyceraldehyde-3-phosphate dehydrogenase


(GAPDH) mRNA, partial cds
>gi|306415492|gb|HM104185.1| Ananas comosus glyceraldehyde-3-phosphate dehydrogenase (GAPDH) mRNA,
partial cds
TACCGATTACATGACTTAYATGTTCAAGTATGATACYGTGCACGGACAGTGGAAGCACCATGATATTAAG
GTGAAGGATTCTAAGACCCTTCTCTTTGGCGAGAAGGCAGTCACTGTTTTTGGAATCAGGAACCCTGAGG
AGATCCCCTGGGGTGAGGCCGGTGCTGAGTATGTTGTGGAGTCAACTGGTGTCTTCACTGACAAGGACAA
GGCTGCTGCTCATCTGAAGGGTGGCGCGAAGAAGGTCATCATTTCTGCTCCTAGTAAGGATGCCCCGATG
TTTGTTGTTGGTGTGAATGAGAAGGAATACAAGCCTGACATTGACATTGTCTCCAATGCTAGCTGCACCA
CTAACTGTTTGGCACCTCTAGCTAAGGTCATCCATGATAGGTTTGGTATTATTGAGGGCTTAATGACCAC
AGTGCACTCTATTACAGCTACACAGAAGACTGTTGATGGTCCATCAAGCAAGGACTGGAGRGGTGGAAGA
glyceraldehyde-3-phosphate dehydrogenase, partial
[Ananas comosus]
>gi|306415493|gb|ADM86711.1| glyceraldehyde-3-phosphate dehydrogenase, partial [Ananas comosus]
TDYMTYMFKYDTVHGQWKHHDIKVKDSKTLLFGEKAVTVFGIRNPEEIPWGEAGAEYVVESTGVFTDKDK
AAAHLKGGAKKVIISAPSKDAPMFVVGVNEKEYKPDIDIVSNASCTTNCLAPLAKVIHDRFGIIEGLMTT
VHSITATQKTVDGPSSKDWRGGR

9. Realice úna búú sqúeda en Internet y trate de encontrar las plantas qúe han sido secúenciadas completamente. Anote
el núú mero de plantas, algúnos ejemplos de estas plantas, otra informacioú n qúe considere relevante y la fúente donde
encontroú la informacioú n.
1. Tomate (Solanum lycopersicum ) y su pariente silvestre (S. pimpinellifolium)
2. Melón (Cucumis melo)
3. Fresa o frutilla(Fragaria vesca)
4. Arroz (Oryza sativa)
5. Quinchoncho, Gandul
6. Maiz (Zea mays). Datos gratuitos del genoma de maíz pulsa aquí
7. Naranja dulce (Citrus sinensis)
8. Moha (Setaria italica)
9. Caraota, frijol comun o poroto (Phaseolus vulgaris)
10. Soya (Glyxine max)
11. Papa (Solanum tuberosum)
12. Café (Coffea arabica)
13. Diez variedades de cítricos
14. Durazno (Prunus persica)
15. Remolacha azucarera (Beta vulgaris L. subsp. vulgaris var. altissima Döll)
16. Eucalipto (Eucalyptus globulus)
17. Pino taeda (Pinus taeda) su genoma es 7 veces más grande que el genoma humano.
18. Aguacate criollo (Persea americana)
19. Plátano malayo (Musa acuminata)
20. Uva Sultanina (Vitis vinifera)
21. Pera (Pyrus communis)
22. Pera asiática ( Pyrus pyrifolia)
23. Manzana (Malus domestica)
24. Garbanzo (Cicer arietinum)
25. Lechosa o papaya (Carica papaya). La primera secuenciación del genoma de un cultivo genéticamente modificado.
26. Cacao (Theobroma cacao)
27. Cebada (Hordeum vulgare)
28. Maní o cacahuate ( Arachis hypogaea)
29. Colza (Brassica napus)
30. Trigo ( (Triticum aestivum)

10. Tomate (Solanum lycopersicum) es una planta de cultivo importante y un sistema modelo para el desarrollo del fruto.
Solanum es uno de los más grandes genera1 angiospermas e incluye plantas anuales y perennes de diversos hábitats.
Aquí presentamos una secuencia del genoma de alta calidad de tomate casero, un borrador de la secuencia de su
pariente silvestre más cercano, Solanum pimpinellifolium2, y los comparamos con los demás y con el genoma de la
papa (Solanum tuberosum). Los dos genomas de tomate muestran sólo el 0,6% de divergencia de nucleótidos y
signos de mezcla reciente, pero muestran que más de 8% de divergencia de la patata, con nueve grandes inversiones
y varios más pequeños. En contraste con Arabidopsis, pero similar a la soja, tomate y patata pequeños RNAs mapa
predominantemente a regiones cromosómicas de genes ricos, incluyendo promotores de genes. El linaje Solanum ha
experimentado dos triplicidades consecutivos genoma: una que es antigua y compartida con Rósidas, y otra más
reciente. Estos triplicaciones sentar las bases para la neofunctionalization de genes que controlan características de la
fruta, como el color y la carnosidad

Los científicos españoles del proyecto Melonomics han averiguado que el melón tiene 27.427 genes y 450
millones de pares de bases, al secuenciar el genoma de esta planta (Cucumis melo) y de siete de sus
variedades. Por primera vez una iniciativa pública-privada española consigue el genoma completo de una
especie de planta superior, con flor y productora de semillas.

La investigación, publicada en Proceedings of the National Academy of Sciences (PNAS), ha trabajado con
variedades de melón de piel de sapo y otras de origen coreano.

“Esperamos que ayude a identificar genes con valor agronómico para que las empresas puedan patentarlos”,
dice a SINC Jordi Garcia Mas, investigador del Centro de Investigación en Agrigenómica IRTA-CSIC-UAB, y
coordinador del estudio junto con Pere Puigdomènech.
Su genoma se ha obtenido con nuevas tecnologías de secuenciación masiva. Hasta ahora se seguían “procesos
más costos y laboriosos”, cuenta a SINC Roderic Guigó, investigador del Centro de Regulación Genómica
(CRG). “Por ejemplo, el genoma humano se secuenció en 10 años y costó 3.000 millones de dólares. Hoy en
día, el mismo proceso lleva solo un día y 3.000 dólares”, explica Guigó.

En la investigación se han identificado 411 genes en el melón que podrían estar relacionados con la resistencia
a enfermedades de la planta, como las plagas. Según Garcia Mas, “el repertorio genético es inferior al de otras
especies, como el pepino y la sandía, y todavía no sabemos el porqué biológico”.

“Esperamos que ayude a identificar genes con valor agronómico para que las empresas puedan patentarlos”
El análisis molecular también ha identificado 89 genes relacionados con la maduración de la fruta: 26 genes
están relacionados con la acumulación de carotenos que colorean la pulpa del melón, 63 más con la
acumulación de azúcar, y otros 21 no habían sido descritos anteriormente.

La Universidad Nacional de La Plata participó de un desarrollo científico a nivel internacional que promete revolucionar la producción
de uno de los alimentos de mayor consumo a nivel mundial. Tras más de cinco años de investigaciones, un consorcio formado por
varias instituciones académicas de 16 países –entre ellas la UNLP- logró descifrar el genoma de la papa.
El Consorcio Internacional de Secuenciacion

“en el caso de la genoma papa, está organizado en 12 cromosomas y se estima que posee 840 millones de pares de nucleótidos, lo que
equivale aproximadamente a una cuarta parte del genoma humano”. El aporte argentino se centró en obtener la secuencia de letras de
una parte del cromosoma 3.
Para el especialista del CREG el reciente descubrimiento es “el punto partida para muchas preguntas científicas acerca de la evolución
y funcionamiento de la papa; abre las puertas a nuevos desafíos biotecnológicos y así acelerar los programas de mejoramiento
genético”.

Bibliografia
1. «The tomato genome sequence provides insights into fleshy fruit evolution : Nature : Nature Publishing Group.» Accedido 26
de noviembre de 2015. http://www.nature.com/nature/journal/v485/n7400/full/nature11119.html.
2. Garcia‐Mas, j.; Benjak, A.; Sanseverino, W.; Bourgeois, M.; Mira, G.; González, V.M.; Hénaff, E.; Câmara, F.; Cozzuto, L.; Lowy, E.; Alioto, T.; Capella‐Gutiérrez, S.; Blanca, J.; Cañizares, J.; Ziarsolo, P.; Gonzalez‐
Ibeas, D.; Rodríguez‐Moreno, L.; Droege, M.; Du, L.; Alvarez‐Tejado, M.; Lorente‐Galdos, B.; Melé, M.; Yang, L.; Weng, Y.; Navarro, A.; Marques‐Bonet, T.; Arandaf, M.A.; Nuez, F.; Picó, B.; Gabaldón, T.; Roma, G.;
Guigó, R.; Casacuberta, J.M.; Arús, P.; Puigdomènech, P. “The genome of melon (Cucumis melo L.)” PNAS,2 de Julio de 2012. DOI:10.1073/pnas.1205415109
3. Olmos y Echenique. Proyecto internacional de Secuencia Genomica de Arroz: Su utilidad para el mapeo de alta densidad y el
clonado posicional de genes de trigo. Universidad Nacional del noreste comunicaciones cientificas y tecnologica 2004
4. «Con aporte de la UNLP, descifran el genoma de la papa - Universidad Nacional de La Plata (UNLP).» Accedido 26 de
noviembre de 2015. http://unlp.edu.ar/articulo/2011/7/11/genoma_papa_julio_2011.
5. Agrogiova, Escritores de. «30 plantas que ya tienen genoma secuenciado.» AgroGiova. Accedido 26 de noviembre de 2015.
https://agrogiova.wordpress.com/2014/08/08/cultivos-con-genomas-secuenciados/.

11 Haga ún resúmen del artíúcúlo adjúnto.

Por favor envíúe sús respúestas en ún docúmento con el formato de nombre:


SúNombre_TallerBioinformatica.docx

También podría gustarte