Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Enlaces Adicionales (recomendados por el profesor): Podrían ser útiles durante la prueba práctica.
Comandos BASH https://www.educative.io/blog/bash-shell-command-cheat-sheet
(Opinión personal: No es necesario revisar, en este PDF están todos comandos utilizados en práctico 2)
Atajos (teclado) VIM https://devhints.io/vim
(Opinión personal: Lo recomiendo solo para usuarios avanzados, no es requisito)
Sitio de Bedtools https://bedtools.readthedocs.io/en/latest/
(Opinión personal: No es necesario revisar, en este PDF están todos comandos utilizados en práctico 2)
NCBI → Genome: Este recurso organiza información sobre genomas, incluidas secuencias, mapas,
cromosomas, ensamblajes y anotaciones.
NCBI → Taxonomy: La base de datos de taxonomía es una clasificación y nomenclatura (reino, especie,
etc.) seleccionada para todos los organismos en las bases de datos de secuencias públicas. Esto representa
actualmente alrededor del 10% de las especies de vida descritas en el planeta.
GENECARD vs Ensembl
GENECARD se centra principalmente en proporcionar información detallada sobre genes humanos
individuales y sus asociaciones con enfermedades y funciones, mientras que Ensembl es una base de
datos genómica que cubre una amplia gama de especies con datos genómicos completos, anotaciones y
herramientas para la genómica comparada y la investigación. a través de diversos organismos.
Caracterización de un Gen
Ubicación dentro del cromosoma: 4p15.2. Esta notación se refiere a la ubicación de un gen en un
cromosoma humano. "4p15.2" indica que el gen se encuentra en el brazo corto (p) del cromosoma 4 y en
la región específica 15.2 de ese brazo.
Largo del gen: Coord. Final - Inicio +1 = 24,472,905 - 23,792,021 + 1 = 680,884 bases.
Archivos de Secuenciación
FASTA
.fasta son archivos de texto plano que puede contener secuencias de genomas, genes, transcriptomas o
proteínas. Un archivo Multifasta son varias secuencias en formato fasta.
FASTQ
Es lo mismo que un fasta solo que se le agrega un código ASCII al final que indican la calidad de la
secuenciación.
Archivos de Anotación
Los campos deben separarse por tabulaciones. Además, todos los campos, excepto el último en cada línea
de característica, deben contener un valor; las columnas "vacías" deben indicarse con un punto '.'
seqid ($1 para awk): nombre del cromosoma o scaffold; los nombres de los cromosomas pueden
proporcionarse con o sin el prefijo 'chr'. Nota importante: el ID de secuencia debe ser uno utilizado dentro
de Ensembl, es decir, un nombre de cromosoma estándar o un identificador de Ensembl, como un ID de
scaffold, sin contenido adicional como especie o ensamblaje. Consulta el ejemplo de salida GFF a
continuación.
source ($2 para awk): nombre del programa que generó esta característica o la fuente de datos (nombre de
la base de datos o proyecto).
type ($3 para awk): tipo de característica. Debe ser un término o acceso de la ontología de secuencias
SOFA.
start ($4 para awk): posición de inicio de la característica, con numeración de secuencia a partir de 1.
end ($5 para awk): posición de fin de la característica, con numeración de secuencia a partir de 1.
strand ($7 para awk): definido como + (hacia adelante) o - (hacia atrás).
phase ($8 para awk): Uno de '0', '1' o '2'. '0' indica que el primer nucleótido de la característica es el
primer nucleótido de un codón, '1' que el segundo nucleótido es el primer nucleótido de un codón, y así
sucesivamente.
attributes ($9 para awk): una lista separada por punto y coma de pares de etiquetas y valores, que
proporcionan información adicional sobre cada característica. Algunas de estas etiquetas están
predefinidas, como ID, Name, Alias, Parent; consulta la documentación GFF para obtener más detalles.
Nota: Lo mejor es leer con atención para poder hallar los detalles solicitados.
Nota: Como son archivos con texto plano, basta con usar el Notepad (Bloc de Notas) para ser leídos
rápidamente (sin importar su extensión, .gff, .tsv, .fasta, .fna, etc).
Comandos BASH
“Sudo”. Super User Do! Otorga permisos de usuario root o superusuario para ejecutar un comando.
“sudo apt-get install nombre_app”, Instala una aplicación, se necesita permisos de superusuario (sudo).
“clear” limpia la consola.
“man” en Unix/Linux se utiliza para mostrar el manual de usuario de otros comandos. Proporciona
información detallada sobre cómo usar y comprender esos comandos específicos.
“touch nombre_archivo” crea nuevos archivos, pero también se puede usar para cambiar marcas de
tiempo en archivos y/o directorios.
“mv nombre_actual nombre_nuevo”, cambia el nombre de un archivo del actual al nuevo. También puede
trasladar archivos de un directorio a otro.
“cat” imprime todo el contenido de un archivo en la terminal. También puede crear archivos o concatenar
2 archivos (juntar el contenido).
“grep” grep mostrará todas las líneas de un archivo que contienen la palabra a buscar.
El comando “awk” es una herramienta de procesamiento de texto muy potente y versátil en sistemas Unix
y Linux. Se utiliza para procesar y manipular archivos de texto, realizando diversas operaciones como la
extracción, impresión, búsqueda y transformación de datos en columnas o campos de un archivo de texto.
Ejemplo: awk ‘{print $3}’. Imprime la 3ra columna.
“uniq -c”, uniq solo deja un elemento por tipo, y -c los cuenta.
“> nombre.txt” escribe los resultados obtenidos en un archivo de texto en formato .txt
Ejemplo: grep -v "#" genoma_ncbi.gff | awk '{print $3}'| sort | uniq -c > elementos_genoma.txt
Ejemplo: awk ‘$3== "gene" {print $0}' genoma_ncbi.gff | head. Se activa la herramienta awk para buscar
en la columna 3 los elementos iguales a “gene” ($3 == “gene”), luego imprime todas las líneas ({print
$0}) con dicho elemento. “head” sirve para mostrar solo los 1ros 10 elementos (usar head -n para mostrar
un número arbitrario n de elementos).
| Se utiliza para hacer un túnel (pipeline) entre comandos para pasar el output de uno a otro, de izquierda a
derecha.
“history”, muestra el historial de comandos. Se puede usar con un pipe | para usarlo con otros comandos
(grep por ejemplo para buscar comandos previos con una palabra clave específica).
“tail”, similar a “head” solo que en vez de mostrar los n primeros muestra los n últimos.
Bedtools
Bedtools es una suite de herramientas de línea de comandos diseñada para el análisis y procesamiento de
datos genómicos representados en formato BED (Browser Extensible Data). El formato BED es
comúnmente utilizado para representar regiones y anotaciones genómicas. Se utiliza para realizar
operaciones programáticas en archivos con data biológica (BED, GTF, GFF), para la intersección de
regiones, unión y diferencia entre los datos de los mismos. Por tanto, es una herramienta poderosa para el
análisis automatizado de datos genómicos.
Nota: Todo archivo para trabajar con bedtools debe tener al menos estas 3 columnas: seqid, start y end,
$1, $4 y $5 para awk respectivamente.
Nota: Al pasar contenido de un archivo no bed a uno .bed siempre se debe tabular con VIM el nuevo .bed.
Pasar de .gff a .bed: awk ‘{print $1, $4, $5}’ genomic.gff > genomic.bed.
“bedtools intersect -a nombre_a -b nombre_b” encuentra los elementos que se superponen entre -a y -b.
Por defecto, dará un resultado si al menos 1 nucleótido se superpone.
“bedtools … … -names nombre_1 nombre_2 …” se utiliza para asignar nombres a los registros de salida
según el archivo fuente del que se originaron
Se pueden ver como los exones y genes ($4) se van superponiendo con el MGE.bed (primeras 3
columnas). El rango de coordenadas de MGE mostrado es mayor que el rango de los elementos que se
comparan gracias a -wa.
Del resultado anterior se pueden contar cuantos solapamientos se dan por genes y exones sobre MGE con
el comando: bedtools intersect -a MGE.bed -b exon.bed gene.bed -names exones genes -wa -wb | awk
'{print $4}' |sort |uniq -c, dando como resultado: 100 exones y 98 genes (notar como -names fue útil).
“bedtools … -f” se utiliza para dar un valor mínimo fraccional respecto a -a (por ejemplo 0.5 = 50%).
Ejemplo: bedtools intersect -a MGE.bed -b exon.bed gene.bed -names exones genes -wa -wb -f 0.5 | awk
'{print $4}' |sort |uniq -c. Resultado: 45 exones y 45 genes. Esto significa que 45 exones se solapan al
menos un 50% sobre sus respectivas regiones en -a. La misma lógica aplica para los genes.
“bedtools … -s” compara los sentidos de las hebras. -s para igual sentido (++, o -,- ). -S para sentidos
opuestos (+,- o -,+).
Nota: Para usar -s es necesario asegurar al menos 6 columnas en los archivos bed, por ejemplo se puede
usar awk '{print $1,$4,$5,$6,".", $7}' MGE.gff > MGE_strand.bed para tal proposito, con “.” como
columna auxiliar.
Para obtener los intrones es necesario trabajar con archivos .bed con strand ($7). La operación con
bedtools para la obtención de intrones (ADN no codificante) consiste en sustraer a los genes sus exones
(ADN codificante) de igual cadena nucleotídica. Script: bedtools subtract -a gene_strand.bed -b
exon_strand.bed -s -f 1. Donde -s es necesario ya que solo se pueden restar los de igual strand para que el
resultado sea coherente con nuestro propósito.
Para descargar un archivo fasta de un cromosoma se busca ya sea el genoma completo o el cromosoma
directamente.
Para extraer un gen específico de un cromosoma en particular se utiliza el sig. Script: bedtools getfasta -fi
secuencia_cromosoma.fasta -bed gen_especifico.bed -fo secuencia_gen.fasta. Donde -fi indica el input
fasta del cromosoma, -bed da las coordenadas para ubicar el gen dentro de la secuencia cromosómica y
-fo da a lugar un archivo fasta para el gen localizado.
VIM