Está en la página 1de 9

EJERCICIOS NUCLEOTIDOS:

Nucleotide blast (blastn): Buscar los homlogos con menor E-value en la base de datos de
nucletidos (nr) y en el genoma humano de la siguiente secuencia:

1. Pasar a formato fasta.

2. Emplear el database Nucleotide blast (blastn).

3. Emplear los siguientes programas:

Highly similar sequences ( megablast)


More dissimilar sequences (discontiguous megablast)
Somewhat similar sequences (blastn).

4. Determinar que observamos en cada una de ella y por cul de los tres escogeras
trabajar?

5. Observar los valores Max score, Total score, Query cover, E value, Identidad, Accession.

6. Observar las primeras 5 lneas y observar que informacin nos proporciona.

SOLUCIN

Ejercicio 1

>ejemplo2
ACACGAGTGGCGAACGGGTGAGTAACACGTGGGTGATCTGCCCTGCACTCTGGGATAAGCCTGGGAAACT
GGGTCTAATACCGGATATGAGCTCCTGTCGCATGGCGGGGGTTGGAAAGGTTTACTGGTGCAGGATGGGC
CCGCGGCCTATCAGCTTGTTGGTGGGGTAATGGCCTACCAAGGCGACGACGGGTAGCCGGCCTGAGAGGG
CGACCGGCCACACTGGGACTGAGACACGGCCCAGACTCCTACGGGAGGCAGCAGTGGGGAATATTGCACA
ATGGGCGAAAGCCTGATGCAGCGACGCCGCGTGAGGGATGACGGCCTTCGGGTTGTAAACCTCTTTCAGC
AGGGACGAAGCGAGAGTGACGGTACCTGCAGAAGAAGCACCGGCCAACTACGTGCCAGCAGCCGCGGTA
A
TACGTAGGGTGCGAGCGTTGTCCGGAATTACTGGGCGTAAAGAGCTCGTAGGCGGTTTGTCGCGTCGTCC
GTGAAAACTTGGGGCTCAACCCCAAGCTTGCGGGCGATACGGGCAGACTTGAGTACTGCAGGGGAGACTG
GAATTCCTGGT

4. En los tres programas se observa que en el graphic summary, el query es mayor a 200,
adems no se observan gaps. En el caso del ejemplo 2 trabajara ms por Highly similar
sequences ya que tengo mayor secuencias similares y es ms concreta, adems de un max
core mayor a de las otros dos programas.

5. Al observar los valores de Max core de los 3 programas tiene mayor el primer programa,
adems de observa el mismo valor del Max core en el Total scre, el Query, E values y la
Identidad en su mayora en los 3 programas es del 100%, 0.0 y 100%. El Accession si es
diferente ya que cada query es nico en cada uno.

6. al observar la 5 primeras lneas en cada uno de los 3 programas se observa que tienen las
misma descripcin, en cada uno de los programas tiene los mimos valores Max score, Total
score, Query cover, E value, Identidad, Accession. Y entre los 3 programas se diferencian
en que el primer programa tiene mayor Max core a diferencia de los otros dos que poseen el
mismo max core haciendo ms preciso el primer programa.

>ejemplo3
CGCTGGCGGCGTGCCTAATACATGCAAGTCGAGCGAGCGGAACTAACAGATTTACTTCGGTAATGACGTT
AGGAAAGCGAGCGGCGGATGGGTGAGTAACACGTGGGGAACCTGCCCCATAGTCTGGGATACCACTTGG
AAACAGGTGCTAATACCGGATAAGAAAGCAGATCGCATGATCAGCTTTTAAAAGGCGGCGTAAGCTGTCGC
TATGGGATGGCCCCGCGGTGCATTAGCTAGTTGGTAAGGTAAAGGCTTACCAAGGCGATGATGCATAGCC
GAGTTGAGAGACTGATCGGCCACATTGGGACTGAGACACGGCCCAAACTCCTACGGGAGGCAGCAGTAGG
GAATCTTCCACAATGGACGCAAGTCTGATGGAGCAACGCCGCGTGAGTGAAGAAGGTTTTCGGATCGTAA
AGCTCTGTTGTTGGTGAAGAAGGATAGAGGTAGTAACTGGCCTTTATTTGACGGTAATCAACCAGAAAGT
CACGGCTAACTACGTGCCAGCAGCCGCGGTAATACGTAGGTGGCAAGCGTTGTCCGGATTTATTGGGCGT
AAAGCGAGCGCAGGCGGAAGAATAAGTCTGATGTGAAAGCCCTCGGCTTAACCGAGGAACTGCATCGGAA
ACTGTTTTTCTTGAGTGCAGAAGAGGAGAGTGGAACTCCATGTGTAGCGGTGGAATGCGTAGATATATGG
AAGAACACCAGTGGCGAAGGCGGCTCTCTGGTCTGCAACTGACGCTGAGGCTCGAAAGCATGGGTAGCGA
ACAGGATTAGATACCCTGGTAGTCCATGCCGTAAACGATGAGTGCTAAGTGTTGGGAGGTTTCCGCCTCT
CAGTGCTGCAGCTAACGCATTAAGCACTCCGCCTGGGGAGTACGACCGCAAGGTTGAAACTCAAAGGAAT
TGACGGGGGCCCGCACAAGCGGTGGAGCATGTGGTTTAATTCGAAGCAACGCGAAGAACCTTACCAGGTC
TTGACATCTAGTGCCATTTGTAGAGATACAAAGTTCCCTTCGGGGACGCTAAGACAGGTGGTGCATGGCT
GTCGTCAGCTCGTGTCGTGAGATGTTGGGTTAAGTCCCGCAACGAGCGCAACCCTTGTTATTAGTTGCCA
GCATTAAGTTGGGCACTCTAATGAGACTGCCGGTGACAAACCGGAGGAAGGTGGGGATGACGTCAAGTCA
TCATGCCCCTTATGACCTGGGCTACACACGTGCTACAATGGGCAGTACAACGAGAAGCGAGCCTGCGAAG
GCAAGCGAATCTCTGAAAGCTGTTCTCAGTTCGGACTGCAGTCTGCAACTCGACTGCACGAAGCTGGAAT
CGCTAGTAATCGCGGATCAGCACGCCGCGGTGAATACGTTCCCGGGCCTTGTACACACCGCCCGTCACAC
CATGGGAGTCTGCAATG

4. En los tres programas se observa que en el graphic summary el query es mayor a 200,
adems no se observan gaps. En el caso del ejemplo 3 trabajara ms por Highly similar
sequences ya que tengo mayor secuencias similares y es ms concreta, adems de un max
core mayor a de las otros dos programas.

5. Al observar los valores de Max core de los 3 programas tiene mayor el primer programa,
adems de observa el mismo valor del Max core en el Total scre, el Query, E values y la
Identidad en su mayora en los 3 programas es del 100%, 0.0 y 100%. El Accession si es
diferente ya que cada uno es nico.

6. al observar la 5 primeras lneas en cada uno de los 3 programas se observa que tienen las
misma descripcin, en cada uno de los programas tiene los mimos valores Max score, Total
score, Query cover, E value, Identidad, Accession. Y entre los 3 programas se diferencian
en que el primer programa tiene mayor Max core a diferencia de los otros dos que poseen el
mismo max core haciendo ms preciso el primer programa.

>ejemplo4
GCTGACGACCGGCGAACGGGTGCGTAACGCGTATAGAATTTGCCTTGTACAGGAGGATAGCCTTTAGAAA
TGAAGATTAATACTCCATAATGTTGATAGATGGCATCATTTATTAATTAAAGATTTATTGGTACAAGATG
ACTATGCGTCCTATTAGCTAGATGGTAAGGTAACGGCTTACCATGGCGACGATAGGTAGGGGGTCTGAGA
GGATTATCCCCCACACTGGTACTGAGACACGGACCAGACTCCTACGGGAGGCAGCAGTGAGGAATATTGG
TCAATGGAGGCAACTCTGAACCAGCCATGCCGCGTGCAGGAAGACTGCCCTATGGGTTGTAAACTGCTTT
TATACAGGAAGAAACTTAGTTACGTGTAACTAACTGACGGTACTGTAAGAATAAGCACCGGCTAACTCCG
TGCCAGCAGCCGCGGTAATACGGAGGGTGCAAGCGTTATCCGGAATCATTGGGTTTAAAGGGTCCGCAGG
CGGTCAATTAAGTCAGAGGTGAAATCCCATAGCTTAACTATGGAACTGCCTTTGATACTGGTTGACTTGA
GTTATACGGAAGTAGATAGAATAAGTAGTGTAGCGGTGAAATGCATAGATATTACTTAGAATACCGATTG
CGAAGGCAGTCTACTACGTATATACTGACGCTCATGGACGAAAGCGTGGGGAGCGAACAGGATTAGATAC
CCTGGTAGTCCACGCCGTAAACGATGGACACTAGTTGTTGGATTTAGATTCAGTGACTAAGCGAAAGTGA
TAAGTGTCCCACCTGGGGAGTACGATCGCAAGATTGAAACTCAAAGGAATTGACGGGGGCCCGCACAAGC
GGTGGGAGCATGTGGTTTAATTCGATGATACGCGAGGAAACTTACCAGGGCTTAAATGTAGAGTGACAGG
CTGAGAGATCGGTTTTCTTCCGAACACTTTACAAAGGTGCTGCATGGTTGTCGTCAGCTCCTGCCCTGAG
GTGTCAGGTTAGTCCT

4. En los tres programas se observa que en el graphic summary el query es mayor a 200,
pero se observan los mismos huecos o gaps en las 3 grficas. En el caso del ejemplo 4
trabajara ms por Highly similar sequences ya que tengo mayor secuencias similares es
ms concreta, adems de un max core mayor a las otros dos programas.

5. Al observar los valores de Max score de los 3 programas tiene mayor el primer
programa, se observa del Max core en el Total score, el Query, E values en los 3 programas
el primero es: 1840, 1840, 100%, 0.0, 100%; el segundo: 1797, 1797, 100%, 0,0, 100%; el
tercero: 1797, 1797, 100%, 0,0, 100%. El Accession si es diferente ya que cada uno es
nico.

6. al observar la 5 primeras lneas en cada uno de los 3 programas se observa que tiene solo
la primera descripcin igual, y de ah en adelante comienza a variar en los 3 programas el
Max core, Total core, y el ident.
>ejemplo5
GGTATGGATTTCATGGGTTTCAAGGTGATCGACGAAGAGTGCCTGTCCCGGCTGTCCCAGGACCTGATCG
ACTATGGCTGCCCGGTCGAGACCATTCCCGCCGGCGAACTCACGGGTTGCGGTCGGCGTGTGCGCTTCCA
AGCCCCCTCCGGGCATCACTTCGAGTTGTATGCTGACAAGGAATACACTGGCAAGTGGGGTGTGAGTGAG
GTCAATCCCGAGGCTTGGCCGCGCGATCTGAAAGGTATGGCGGCGGTGCGTTTCGATCATTGCCTGCTGT
ATGGCGACGAACTACAAGCCACCTATGAGCTGTTCACCAAGGTGCTCGGCTTCTATCTGGCCGAACAGGT
GCTGGATGAGGATGGCACGCGCGTCGCCCAGTTCCTCAGCCTGTCGACCAAGGCCCACGACGTGGCCTTC
ATTCATCACCCTGAGAAGGGTCGCTTCCATCACGCCTCCTTCTACCTCGAAACCTGGGAAGACGTA

4. En las tres categoras se observa diferente el graphic summary aunque en los tres el
query es mayor a 200, se observan huecos o gaps diferentes en las 3 grficas, donde ms se
observan huecos es en la grfica del primer programa, y en las grficas del segundo y tercer
programa se observan menos huecos pero los mismos gaps. En el caso del ejemplo 5
trabajara ms con More dissimilar sequences (discontiguous megablast) o con Somewhat
similar sequences (blastn), ya que poseen menor gaps.

5. Al observar los valores de Max score de los 3 programas tiene mayor el primer
programa, se observa del Max core en el Total score, el Query, E values en los 3 programas
el primero es: 898, 898, 100%, 0.0, 100%; el segundo: 877, 877, 100%, 0,0, 100%; el
tercero: 877, 877, 100%, 0,0, 100%. El Accession si es diferente ya que cada uno es nico.

6. al observar la 5 primeras lneas en cada uno de los 3 programas se observa:

Para el primer programa la primera lnea es igual, en la segunda comienza a variar Max
core, el Total score, el Query, y la ident, el E values no varia, a partir de la 3 lnea empieza
a variar del Max core en el Total score, el Query, E values, el ident.

Para el segundo programa: Para el segundo programa la primera lnea es igual, en la


segunda solo vara Max core , el Total score y el ident, en la tercera y cuarta lnea vara el
Max core y el Total Score, ya en la quinta lnea varia Max core, el Total score, el ident y el
E values.

Para el tercer programa: Para el tercer programa la primera lnea es igual, en la segunda
lnea vara Max core, el Total score y la ident, en la tercera lnea vara Max core, el Total
score, el Query, y la ident, el E values no varia, en la cuarta lnea solo varia Max core, el
Total score, y en la quinta lnea vara Max core, el Total score, la ident y el E values.

EJERCICIOS PROTEINAS

7.Pasar a formato fasta.


8. Emplear Protein blast (blastp)

9. Emplear los siguientes datebase:

Non-redundant protein sequences (nr).


Reference proteins (refseq_protein).
UniProtKB/Swiss-Prot (swissprot).
Patented protein sequences (pat).
Protein Data Bank proteins (pdb).

10. Determinar que observamos en cada una de ella y por cul escogeras trabajar?

11. Observar los valores Max score, Total score, Query cover, E value, Identidad,
Accession.

SOLUCION

>ejemplo2
MHSWKKKLVVSQLALACTLAITSQANATTYNTFGYHDDAVTLFNWGDNTKTDHDYLTYGGYVYDHAADGY
FDTVFSGDTVNGVISTYYLNHDYGTDTANTLNITNSNIHGMITSDQIGYGDYVWTNGSDYTGHDWVDGDI
FTLNIANSTIDDDFDAFYFNDTYLDADGKTSKTDYDRLVTAALGTAVTLDVESNINISNNSHVAGITLVQ
NDLGNATYNTEGHQWDNNIVVNNSTVTSGSLSEDEQSDRGHFGNSVEPSDYGNGASGADDVALAFIDDDT
SDYRMVNNVTFNNSQLLGDVVFDSTWNANFDATGHLIDNSTTAYTHGGWATDDQNVDHLNLTLNNTKWVG
SANIDYDVVVADEAFYDVAPNSLNPYASYSEDGWNRVDNANAFQSGVFDVVLNNGSDWETTKDSLIDTLA
INSGSQVNVSADSSLTSDTITLNGSSSMEVNGEVNTDHLIIDTFSTVNFGEDTASAWTSAPLYANTITVT
NGGVLDVNTNMNDISSVFATDTLELTSGNVKDNNGNVYAGVFDIHSNDYILNADLVNDRTNDTSKSNYGY
GVIAMNSDGHLTVNGNNDINNGDEVDNSSVDNVVAATGNYKVRIDNSTGAGAIADYAGKQLIYIDDTKTN
ATFSAANKADLGAYTYQAEQRGNTVVLQQMELTDYANMALSIPSANTNIWNLEQDTVGTRLTNSRHGLAD
NGGAWVSYFGGNFNGDNGTINYDQDVNGIMVGVDTKIDGNNAKWIVGAAAGFAKGDMNDRSGQVDQDS
QT AYIYSSAHFANNVFVDGSLSYSHFNNDLSATMSNGTYVDGSTNSDAWGFGLKAGYDFKLGDAGYVTPYGS
ISGLFQSGDDYQLSNDMKVDGQSYDSMRYELGVDAGYTFTYSEDQALTPYFKLAYVYDDSNNDNDVNGDS
IDNGTEGSAVRVGLGTQFSFTKNFSAYTDANYLGGGDVDQDWSANVGVKYTW

10. En Non-redundant protein sequences (nr) se observ, la graphic Summary con una
Distribution of 100 Blast Hits on the Query Sequence, donde son mayores a 200, aunque
se observan muchos gaps.

En Reference proteins (refseq_protein) se observ, la graphic Summary con una


Distribution of 100 Blast Hits on the Query Sequence, donde que son mayors a 200, aunque
se observan muchos gaps, aunque un poco menos que en Non-redundant protein sequences.
En UniProtKB/Swiss-Prot (swissprot) se observ, la graphic Summary con una Distribution
of 4 Blast Hits on the Query Sequence, donde de esas 4 las dos primera son mayores a 200,
la tercera entre 50-80 con gaps, y la cuarta entre 40-50 con gaps.

En Patented protein sequences (pat) se observ, la graphic Summary con una Distribution
of 101 Blast Hits on the Query Sequence, se observa que en su mayora de Query estn
mayor a 200 sin embargo se ve que hay entre 80-200,Ademas de muchos gaps

En Protein Data Bank proteins (pdb) se observ, la graphic Summary con una Distribution
of 1 Blast Hits on the Query Sequence, donde su nica query es menor a 40, es menos
especfica.

Teniendo en cuenta esto utilizara Reference proteins (refseq_protein) me una informacin


ms concreta, adems de estricta de la protena a buscar.

11. En Non-redundant protein sequences (nr) se observa que la primera lnea coincide con
toda la protena donde tiene un Max core de 1894, Total score 1894, Query 100%, Evalue
de 0.0%, ident de 100%, esta protena pertenece a Escherichia coli, luego de hay en
adelante comienza a variar, aunque el E value no varia.

Reference proteins (refseq_protein) se observa que la primera lnea coincide con toda la
protena donde tiene un Max core de 1894, Total score 1894, Query 100%, Evalue de 0.0%,
ident de 100%, esta protena pertenece a Escherichia coli, luego de hay en adelante
comienza a variar, aunque el E value no varia.

UniProtKB/Swiss-Prot (swissprot) se observa que la primera lnea un Max core de 1274,


Total score 1274, Query 100%, Evalue de 0.0%, ident de 71%, es un poco menos precisa en
este caso.

Patented protein sequences (pat) se observa que la primera lnea un Max core de 1842,
Total score 1842, Query 100%, Evalue de 0.0%, ident de 97%, en esta Accession no me
dice a qu microorganismo pertenece, luego de ah en adelante comienza a variar .

Protein Data Bank proteins (pdb). Se observa la nica lnea un Max core de 31,2, Total
score 1831,2, Query 7%, Evalue de 4,3%, ident de 28%, esta informacin que aporta es
poco adems que es solo un fragmento pequeo de la protena evaluada.

>ejemplo3

MNKSKGGLQLTVQTLSLVAGFMVWSIIAPLMPMISQDIKITSSQISIVLAIPVILGSVLRIPFGYLTNII
GAKWVFFSSFIILLFPIFLLSQAQSVNMLMLAGFFLGVGGAVFSVGVTSIPKYFPKDKVGLANGIYGMGN
LGTAVSSFLAPPIAGAIGWQSTVRLYLIVMAVFAIVMFFLGDAKEPKVKIPLVAQTKDLLKDLRTYYLSF
WYFITFGSFVAFGIFLPKYLVDHYELTTVDAGIRAGIFIAIATFLRPLGGIIGDKIDAVKALKVDFLFMI
IGAIILGIANDMILFTVGCLTVSVCAGIGNGLVFKLVPQYFQKEAGVANGIVSMMGGLGGFFPPLVITYV
TSITGTSHLAFIFLALFGVLALVTMWHLSKKNRSLAYK

10. En Non-redundant protein sequences (nr) se observ, la graphic Summary con una
Distribution of 100 Blast Hits on the Query Sequence, donde son mayores a 200, aunque
se observan pocos gaps.

En Reference proteins (refseq_protein) se observ, la graphic Summary con una


Distribution of 100 Blast Hits on the Query Sequence, donde que son mayores a 200,
aunque se observan pocos gaps, aunque un poco menos que en Non-redundant protein
sequences.

En UniProtKB/Swiss-Prot (swissprot) se observ, la graphic Summary con una Distribution


of 18 Blast Hits on the Query Sequence, donde ah en su mayoria Query mayor a 200,
ademas tambien hay querys de 80-200, 50-80, 40-50 y menores a 40.

En Patented protein sequences (pat) se observ, la graphic Summary con una Distribution
of 103 Blast Hits on the Query Sequence, se observa que en su mayora de Query estn
entre 80-200, aunque tambin hay mayores a 200,Ademas de tiene gaps

En Protein Data Bank proteins (pdb) no se encontr similitud.

Teniendo en cuenta esto utilizara Reference proteins (refseq_protein) me una informacin


ms concreta, adems de estricta de la protena a buscada, adems tiene menos gaps.

11. En Non-redundant protein sequences (nr) se observa que la primera lnea coincide con
toda la protena donde tiene un Max core de 760, Total score 760, Query 100%, Evalue de
0.0%, ident de 100%, esta protena pertenece a Staphylococcus carnosus, luego de ah en
adelante comienza a variar, aunque el E value no vara.

Reference proteins (refseq_protein) se observa que la primera lnea coincide con toda la
protena donde tiene un Max core de 760, Total score 760, Query 100%, Evalue de 0.0%,
ident de 100%, esta protena pertenece a Staphylococcus carnosus, luego de hay en
adelante comienza a variar, aunque el E value no vara.

UniProtKB/Swiss-Prot (swissprot) se observa que la primera lnea un Max core de 760,


Total score 760, Query 100%, Evalue de 0.0%, ident de 100%, esta protena pertenece a
Staphylococcus carnosus. luego de ah en adelante comienza a variar.

Patented protein sequences se observa que la primera lnea un Max core de 760, Total score
760, Query 100%, Evalue de 0.0%, ident de 100%, esta protena pertenece a
Staphylococcus carnosus, luego de ah en adelante comienza a variar.

Protein Data Bank proteins (pdb) ) no se encontr similitud.


>ejemplo4
MKYKKLLLTALMTACGATSYATAVDYKAGTTYQQGQEVNNAGSCYVCNIPGWCSSSAAWAYEPGKGTAWQ
EAWTEGCKDPGPSPQPVAEKTISVNLTGDSLPADAKIEFSSNGKVYTVNNNQITLPYSDTQAINYTISIS
GKDIGSISPDSFAMTKDTNSINLT

10. En Non-redundant protein sequences (nr) se observ, la graphic Summary con una
Distribution of 102 Blast Hits on the Query Sequence, donde hay Query entre 50-80 que
predominan, mayores de 200, adems de un poco de 80-200. Se observan muchos gaps.

En Reference proteins (refseq_protein) se observ, la graphic Summary con una


Distribution of 103 Blast Hits on the Query Sequence, donde hay Query entre 50-80 que
predominan, mayores de 200, adems de un poco de 80-200, aunque un poco menos que en
Non-redundant protein sequences.

En UniProtKB/Swiss-Prot (swissprot) se observ, la graphic Summary con una Distribution


of 12 Blast Hits on the Query Sequence, donde solo hay Querys menores de 40.

En Patented protein sequences (pat) se observ, la graphic Summary con una Distribution
of 12 Blast Hits on the Query Sequence, se observa que en su mayora de Query son menor
de 40-50,y de 50-80,Ademas de tiene gaps.

En Protein Data Bank proteins (pdb) no se encontr similitud.

Teniendo en cuenta esto utilizara Reference proteins (refseq_protein) me una informacin


ms concreta, adems de estricta de la protena a buscada, adems tiene menos gaps.

11. En Non-redundant protein sequences (nr) se observa que la primera lnea coincide con
toda la protena donde tiene un Max core de 335, Total score 335, Query 100%, Evalue de
9e-115%, ident de 100%, esta protena pertenece a Francisella tularensis, luego de ah en
adelante comienza a variar todos.

Reference proteins (refseq_protein) se observa que la primera lnea coincide con toda la
protena donde tiene un Max core de 335, Total score 335, Query 100%, Evalue de 9e-
115%, ident de 100%, %, esta protena pertenece a Francisella tularensis, luego de ah en
adelante comienza a variar todo.

UniProtKB/Swiss-Prot (swissprot) se observa que la primera lnea un Max core de 33,9,


Total score 33,9, Query 31%, Evalue de 0.45%, ident de 43%, este fragmento de la protena
pertenece a Pseudomonas aeruginosa. Se mantiene hasta la segunda lnea luego de ah en
adelante comienza a variar.

Patented protein sequences se observa que la primera lnea un Max core de 74,7, Total
score 74,7, Query 56%, Evalue de 4e-14%, ident de 51%, luego de la segunda lnea en
adelante comienza a variar.
Protein Data Bank proteins (pdb) ) no se encontr similitud.

También podría gustarte