Está en la página 1de 8

Apuntes Bioinformatica

Obtenidos del video del práctico 2

Enlaces Adicionales (recomendados por el profesor): Podrían ser útiles durante la prueba práctica.
Comandos BASH https://www.educative.io/blog/bash-shell-command-cheat-sheet
(Opinión personal: No es necesario revisar, en este PDF están todos comandos utilizados en práctico 2)
Atajos (teclado) VIM https://devhints.io/vim
(Opinión personal: Lo recomiendo solo para usuarios avanzados, no es requisito)
Sitio de Bedtools https://bedtools.readthedocs.io/en/latest/
(Opinión personal: No es necesario revisar, en este PDF están todos comandos utilizados en práctico 2)

NCBI: El Centro Nacional de Información Biotecnológica promueve la ciencia y la salud al brindar


acceso a información biomédica y genómica. https://www.ncbi.nlm.nih.gov/

NCBI → Genome: Este recurso organiza información sobre genomas, incluidas secuencias, mapas,
cromosomas, ensamblajes y anotaciones.

NCBI → Taxonomy: La base de datos de taxonomía es una clasificación y nomenclatura (reino, especie,
etc.) seleccionada para todos los organismos en las bases de datos de secuencias públicas. Esto representa
actualmente alrededor del 10% de las especies de vida descritas en el planeta.

GENECARD vs Ensembl
GENECARD se centra principalmente en proporcionar información detallada sobre genes humanos
individuales y sus asociaciones con enfermedades y funciones, mientras que Ensembl es una base de
datos genómica que cubre una amplia gama de especies con datos genómicos completos, anotaciones y
herramientas para la genómica comparada y la investigación. a través de diversos organismos.

Nota: Si el genoma no es humano, buscar en NCBI o Ensembl.

Caracterización de un Gen

Ejemplo: gen PPARGC1A PPARG coactivator 1 alpha [ Homo sapiens (human) ]

Identificador del gen (NCBI): 10891.

Ubicación dentro del cromosoma: 4p15.2. Esta notación se refiere a la ubicación de un gen en un
cromosoma humano. "4p15.2" indica que el gen se encuentra en el brazo corto (p) del cromosoma 4 y en
la región específica 15.2 de ese brazo.

Coordenadas del gen: NC_000004.12 (23792021..24472905, complement). "NC_000004.12" se refiere a


la versión 12 de la secuencia genómica del cromosoma 4 en la base de datos de NCBI. La ubicación
específica del gen se proporciona como "23792021..24472905", lo que indica que el gen se extiende
desde la posición 23,792,021 hasta la posición 24,472,905 en la secuencia del cromosoma 4. La palabra
"complement" significa que el gen se encuentra en la cadena opuesta o complementaria del ADN. (dentro
del genoma ensamblado GRCh38.p14 (GCF_000001405.40))
Número de Exones: 26.

Número de Transcriptomass: 41. (Si no aparece textual, se cuentan).

Largo del gen: Coord. Final - Inicio +1 = 24,472,905 - 23,792,021 + 1 = 680,884 bases.

Tipo de gen: Codificante a proteínas.

Código en PDB: 3CS8.

Archivos de Secuenciación

FASTA
.fasta son archivos de texto plano que puede contener secuencias de genomas, genes, transcriptomas o
proteínas. Un archivo Multifasta son varias secuencias en formato fasta.

FASTQ
Es lo mismo que un fasta solo que se le agrega un código ASCII al final que indican la calidad de la
secuenciación.

Archivos de Anotación

Archivos GFF o GFF3


Los archivos GFF (General Feature Format) son archivos utilizados en bioinformática y genómica para
representar y almacenar información sobre las características de secuencias genómicas, como genes,
exones, intrones, elementos reguladores y otras anotaciones relacionadas con la estructura y función de
los genomas.

Los campos deben separarse por tabulaciones. Además, todos los campos, excepto el último en cada línea
de característica, deben contener un valor; las columnas "vacías" deben indicarse con un punto '.'
seqid ($1 para awk): nombre del cromosoma o scaffold; los nombres de los cromosomas pueden
proporcionarse con o sin el prefijo 'chr'. Nota importante: el ID de secuencia debe ser uno utilizado dentro
de Ensembl, es decir, un nombre de cromosoma estándar o un identificador de Ensembl, como un ID de
scaffold, sin contenido adicional como especie o ensamblaje. Consulta el ejemplo de salida GFF a
continuación.

source ($2 para awk): nombre del programa que generó esta característica o la fuente de datos (nombre de
la base de datos o proyecto).

type ($3 para awk): tipo de característica. Debe ser un término o acceso de la ontología de secuencias
SOFA.

start ($4 para awk): posición de inicio de la característica, con numeración de secuencia a partir de 1.

end ($5 para awk): posición de fin de la característica, con numeración de secuencia a partir de 1.

score ($6 para awk): un valor decimal flotante.

strand ($7 para awk): definido como + (hacia adelante) o - (hacia atrás).

phase ($8 para awk): Uno de '0', '1' o '2'. '0' indica que el primer nucleótido de la característica es el
primer nucleótido de un codón, '1' que el segundo nucleótido es el primer nucleótido de un codón, y así
sucesivamente.

attributes ($9 para awk): una lista separada por punto y coma de pares de etiquetas y valores, que
proporcionan información adicional sobre cada característica. Algunas de estas etiquetas están
predefinidas, como ID, Name, Alias, Parent; consulta la documentación GFF para obtener más detalles.

Cómo identificar ID y fuente del .gff en NCBI:


Tanto el ID de un cromosoma o elemento, como los archivos respectivos se encuentran registrados, los ID
se encuentran en tablas, mientras que los GFF respectivos se encuentran identificados en el archivo de
metadatos “data_summary.tsv”. Sin embargo hay patrones para reconocer a qué fuente pertenecen:
Genbank: ID puede variar, ver nombre de columna en tabla. Archivo GFF empieza con “GCA_”
Res_Seq: El ID empieza con “NC_” y GFF empieza con “GCF_”.

Nota: Lo mejor es leer con atención para poder hallar los detalles solicitados.
Nota: Como son archivos con texto plano, basta con usar el Notepad (Bloc de Notas) para ser leídos
rápidamente (sin importar su extensión, .gff, .tsv, .fasta, .fna, etc).

Comandos BASH

“Sudo”. Super User Do! Otorga permisos de usuario root o superusuario para ejecutar un comando.

“sudo apt-get install nombre_app”, Instala una aplicación, se necesita permisos de superusuario (sudo).
“clear” limpia la consola.

“man” en Unix/Linux se utiliza para mostrar el manual de usuario de otros comandos. Proporciona
información detallada sobre cómo usar y comprender esos comandos específicos.

“cd ruta/” cambia de directorio a ruta/

“cd ../” subir (retroceder) un directorio.

“/mnt/c/” directorio windows C:/ si se usa wsl

“mkdir nombre_carpera” crea una nueva carpeta.

“touch nombre_archivo” crea nuevos archivos, pero también se puede usar para cambiar marcas de
tiempo en archivos y/o directorios.

“mv nombre_actual nombre_nuevo”, cambia el nombre de un archivo del actual al nuevo. También puede
trasladar archivos de un directorio a otro.

“Pwd” imprime el nombre del directorio actual.

“ls” enumerar archivos y directorios en el directorio actual.

“ls -l” descripción completa de los archivos.

“cat” imprime todo el contenido de un archivo en la terminal. También puede crear archivos o concatenar
2 archivos (juntar el contenido).

“grep” grep mostrará todas las líneas de un archivo que contienen la palabra a buscar.

“grep -v ”, busca las líneas que no tengan la keyword.

El comando “awk” es una herramienta de procesamiento de texto muy potente y versátil en sistemas Unix
y Linux. Se utiliza para procesar y manipular archivos de texto, realizando diversas operaciones como la
extracción, impresión, búsqueda y transformación de datos en columnas o campos de un archivo de texto.
Ejemplo: awk ‘{print $3}’. Imprime la 3ra columna.

“sort”, ordena los resultados obtenidos.

“uniq -c”, uniq solo deja un elemento por tipo, y -c los cuenta.

“> nombre.txt” escribe los resultados obtenidos en un archivo de texto en formato .txt
Ejemplo: grep -v "#" genoma_ncbi.gff | awk '{print $3}'| sort | uniq -c > elementos_genoma.txt

Ejemplo: awk ‘$3== "gene" {print $0}' genoma_ncbi.gff | head. Se activa la herramienta awk para buscar
en la columna 3 los elementos iguales a “gene” ($3 == “gene”), luego imprime todas las líneas ({print
$0}) con dicho elemento. “head” sirve para mostrar solo los 1ros 10 elementos (usar head -n para mostrar
un número arbitrario n de elementos).

| Se utiliza para hacer un túnel (pipeline) entre comandos para pasar el output de uno a otro, de izquierda a
derecha.

“history”, muestra el historial de comandos. Se puede usar con un pipe | para usarlo con otros comandos
(grep por ejemplo para buscar comandos previos con una palabra clave específica).

Ejemplo: history | grep awk | tail -3

“tail”, similar a “head” solo que en vez de mostrar los n primeros muestra los n últimos.

Bedtools

Bedtools es una suite de herramientas de línea de comandos diseñada para el análisis y procesamiento de
datos genómicos representados en formato BED (Browser Extensible Data). El formato BED es
comúnmente utilizado para representar regiones y anotaciones genómicas. Se utiliza para realizar
operaciones programáticas en archivos con data biológica (BED, GTF, GFF), para la intersección de
regiones, unión y diferencia entre los datos de los mismos. Por tanto, es una herramienta poderosa para el
análisis automatizado de datos genómicos.

Nota: Todo archivo para trabajar con bedtools debe tener al menos estas 3 columnas: seqid, start y end,
$1, $4 y $5 para awk respectivamente.

Nota: Al pasar contenido de un archivo no bed a uno .bed siempre se debe tabular con VIM el nuevo .bed.

Elementos del formato BED, ordenados como se encuentran en un archivo .bed.

Pasar de .gff a .bed: awk ‘{print $1, $4, $5}’ genomic.gff > genomic.bed.
“bedtools intersect -a nombre_a -b nombre_b” encuentra los elementos que se superponen entre -a y -b.
Por defecto, dará un resultado si al menos 1 nucleótido se superpone.

“bedtools … … -names nombre_1 nombre_2 …” se utiliza para asignar nombres a los registros de salida
según el archivo fuente del que se originaron

Ejemplo: bedtools intersect -a MGE.bed -b exon.bed gene.bed -names exones genes


Ejemplo: bedtools intersect -a MGE.bed -b exon.bed gene.bed -names exones genes -wa -wb, donde
MGE corresponde a mobile genetic elements. En este último se utilizan para saber como los -b se
superponen en relación con -a, dando así una tabla con más información:

Se pueden ver como los exones y genes ($4) se van superponiendo con el MGE.bed (primeras 3
columnas). El rango de coordenadas de MGE mostrado es mayor que el rango de los elementos que se
comparan gracias a -wa.

Del resultado anterior se pueden contar cuantos solapamientos se dan por genes y exones sobre MGE con
el comando: bedtools intersect -a MGE.bed -b exon.bed gene.bed -names exones genes -wa -wb | awk
'{print $4}' |sort |uniq -c, dando como resultado: 100 exones y 98 genes (notar como -names fue útil).

“bedtools … -f” se utiliza para dar un valor mínimo fraccional respecto a -a (por ejemplo 0.5 = 50%).

Ejemplo: bedtools intersect -a MGE.bed -b exon.bed gene.bed -names exones genes -wa -wb -f 0.5 | awk
'{print $4}' |sort |uniq -c. Resultado: 45 exones y 45 genes. Esto significa que 45 exones se solapan al
menos un 50% sobre sus respectivas regiones en -a. La misma lógica aplica para los genes.

“bedtools … -s” compara los sentidos de las hebras. -s para igual sentido (++, o -,- ). -S para sentidos
opuestos (+,- o -,+).

Nota: Para usar -s es necesario asegurar al menos 6 columnas en los archivos bed, por ejemplo se puede
usar awk '{print $1,$4,$5,$6,".", $7}' MGE.gff > MGE_strand.bed para tal proposito, con “.” como
columna auxiliar.

Ejemplo: bedtools intersect -a MGE_strand.bed -b exon_strand.bed gene_strand.bed -wa -wb -s -names


exones genes | awk '{print $7}' | sort | uniq -c. Se intersectan exon y gene contra MGE, manteniendo las
hebras de MGE (-wa) y obteniendo las respectivas regiones de -b que se solapan en -a (-wb), además se
extraen la cantidad de elementos (-c) que tienen igual strand ($7), dando como resultado: 95 exones y 93
genes.
Obtención de los Intrones

Para obtener los intrones es necesario trabajar con archivos .bed con strand ($7). La operación con
bedtools para la obtención de intrones (ADN no codificante) consiste en sustraer a los genes sus exones
(ADN codificante) de igual cadena nucleotídica. Script: bedtools subtract -a gene_strand.bed -b
exon_strand.bed -s -f 1. Donde -s es necesario ya que solo se pueden restar los de igual strand para que el
resultado sea coherente con nuestro propósito.

Usando Bedtools para manipular archivos .fasta.

Nota: Secuencia de cromosoma = fasta.

Para descargar un archivo fasta de un cromosoma se busca ya sea el genoma completo o el cromosoma
directamente.

Para extraer un gen específico de un cromosoma en particular se utiliza el sig. Script: bedtools getfasta -fi
secuencia_cromosoma.fasta -bed gen_especifico.bed -fo secuencia_gen.fasta. Donde -fi indica el input
fasta del cromosoma, -bed da las coordenadas para ubicar el gen dentro de la secuencia cromosómica y
-fo da a lugar un archivo fasta para el gen localizado.
VIM

: para ir a la línea de comandos.

wq para guardar y salir.


%s/ /\t/g para reemplazar “ ” con “\t” a nivel global (g).

También podría gustarte