Documentos de Académico
Documentos de Profesional
Documentos de Cultura
PARA BIOINFORMÁTICA
Blgo. Daniel Fernandez
Lo que comúnmente se hace de manera grafica es
muchas veces mejor hacerlo por la terminal
El problema mas grande para los iniciados es
la terminal
INTRODUCCIÓN A UNIX
NACIMIENTO DE UNIX
NACIMIENTO DEL SOFTWARE LIBRE
Introducción a UNIX
• Finales de la decada de 1960 –
nacio MULTICS (Multiplexed
Information and Computing
Service)
• Rendimiento pobre
• Consumo excesivo de recursos
• 1969 nacio UNIX
• Interprete de comandos
• Versatilidad, multiusuario,
multitareas
Windows Linux
Carpeta Carpeta
- Archivos - Archivos
- Documentos - Documentos
- etc - etc
Pasos
• Crear las carpetas que se compartirán la información
• Crear una carpeta en Window
• Crear una carpeta en Linux (no salir de la carpeta principal)
• Instalar en Linux los requisitos
• sudo apt-get install virtualbox-guest-dkms
• Seleccionar la carpeta en Window que se compartira
• En la ventana del VirtualBox ir a Dispositivos => Carpetas compartidas => Preferencias de carpetas
compartidas y seleccionar la carpeta en Window
• Seleccionar Automontar y Hacer permanente
• Instalar Gues Additions
• En la ventana del VirtualBox ir a Dispositivos => Insertar imagen de CD de las Guest Additions
• Montar la carpeta de Window en Linux
• sudo mount -t vboxsf carpeta_en_window carpeta_en_Linux
• Cada vez que inicie Linux, hay que teclear el último comando
• sudo mount -t vboxsf carpeta_en_window carpeta_en_Linux
Aplicaciónes
Sistema Operativo
CPU
bash, fish, ksh, Memoria
tcsh, csh, zsh Dispositivos
comandos
Sistema de archivos
Shell
comandos
Comandos parametros ruta
• pwd mostrar ruta actual • cp copiar
• ls mostrar contenido de la • cp texto_original texto_copia
carpeta • cp -r carpeta_original carpeta_copia
• ls • mv mover o renombrar
• ls -l • mv archivo nuevo_nombre
• ls -l /usr/bin/ • mv archivo Carpeta/archivo
• cd entrar a una carpeta • rm remover/eliminar archivo
• cd /usr/bin/ • rm secuencias.fasta
• cd Documentos • rm -r carpeta
• mkdir crear carpeta • rm -rf carpeta solo hazlo, sin mensajes
• mkdir carpeta_de_programas • history muestra todos los comandos
• touch crear archivo escritos
• touch mi_archivo
• nano editar archivo
• nano mi_archivo
INSTALACIÓN DE PROGRAMAS
Programas
• Un paquete es un conjunto de ficheros relacionados con una
aplicación. Encontramos los binarios y los que son el código fuente.
• Gestor de paquetes (Instalación automática)
• Instalación Manual
• Paquetes Binarios
• Paquetes Código Fuente
Código Fuente & Código Maquina
(Lenguaje de Programación) (binario)
COMPILACIÓN
Precompilado
• Compilar partes del código fuente para que no sea necesario compilar
junto con todo el resto del código fuentes
• Reduce tiempo de compilación
• Mucho mas fácil para el usuario común
Gestor de paquetes
• Repositorios:
• Conjunto de programas binarios y precompilados (en su
mayoría). Cada distro tiene el suyo propio
• El Gestor instala el programa de los repositorios en tu
computadora con todas sus dependencias
• Ventajas: fácil, seguro, actualizable
Gestor de paquetes
REPOSITORIOS
Propios de cada distro
Repos de terceros
estor de
quetes Grafico
untu Software Center
nome Sofware)
COMPILACIÓN
Paquetes Código Fuente
• Suelen presentarse en formato .tar.gz, tar.bz2, gz o zip (comprimidos)
• Lo normal es que cada aplicación tenga la información en el fichero README o
INSTALL de como instalarlo.
• Para descomprimir (dependiendo de la extensión)
•
•
•
• Una vez descomprimido, lo compilamos y lo instalamos así (estos comandos
aparecen por lo general, mejor seguir los pasos en el README)
./configure
make
make install
Compilación o empaquetamiento
• De código fuente a binario (de un lenguaje de programación a
lenguaje de la maquina)
• Compilar el programa y generar el archivo Makefile
• ./configure
• Leer el archivo Makefile y generar los binarios
• make
• Copiar los binarios recién generados al sistema
• make install
Comandos & Tuberías
• Buscar archivos y programas
• Comandos variados
• Algoritmos y scripts
Buscar archivos y programas
ARCHIVOS PROGRAMAS
• find ./ -name nombre_exacto • sudo apt-cach search programa
• find ./ -iname "*archivo* • which programa
Los programas están en una carpeta donde se les puede ejecutar no importando el lugar donde
este el usuario.
Para saber que lugares son, ejecutar:
Por defecto son estos lugares, están separados por dos puntos
/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/usr/local/games:/snap/bin
ALGORITMOS
• conjunto de reglas lógicas y ordenadas
• Representados mediante letras, símbolos o texto
• Son independientes del lenguaje de programación
• Características
• Preciso, correcto sin pasos de más
• Congruente, al probar varias veces, el resultado debe ser el mismo
• Finito, debe completar un ciclo
Diagrama de Flujo
• Representación gráfica,
mediante la utilización de signos
convencionales
• Es el proceso que sigue la
información en un programa,
desde el Inicio hasta el Fin
Sequencing, Analysis, and Annotation of Expressed Sequence Tags for Camelus
dromedarius (2010) PlosOne Vol 5 Issue 5 e 10720
Scripts
• Es un programa, puede ser simple o complejo
• Archivo con una serie de ordenes
• Involucra un lenguaje de programación
Comandos
• wc muestra cantidad de parrafos, palabras, letras (bites)
• -l, -m, -c
• wc -c
• grep busca caracteres en las lineas
• grep '>' Multifasta.fa muestra solo las lineas con >
• grep -r '>' Multifasta.fa muestra solo las lineas con >
• grep -c '>' Multifasta.fa cuenta solo las lineas con >
• grep -v '>' Multifasta.fa muestra todas las lineas a excepción de las
que tengan >
Tuberias |
¿Cuantos pares de bases hay?
• Traducción
• Muestra las líneas que tengan el carácter >
• Separa el primer espacio por un tab
• Muéstrame solo la columna 2
Bases de Datos (BD)
TIPOS DE DB
• BD Primarias
• Datos biológicos originales. Son archivos de secuencia en bruto o datos estructurales
(ej GenBank).
• Crecen rápidamente, pero su contenido no es siempre perfecto
• DB Secundarias
• Procesada computacionalmente o manualmente curadas (ej Swiss-Prot, RefSeq)
• Las entradas son realizadas por expertos en la BD
• Crecen más lentamente, pero ofrecen información fiable
• BD Especializadas
• Dirigidas a un area especifica
• DB de VIH
• Ribosomal Data Base
• Pfam: Protein family database con miles de familias de proteínas homólogas
Principales
• National Center for Biotechnology Information (NCBI)
• GenBank
• European Bioinformatics Institute (EBI)
• EMBL Nucleotide Sequence Database
• National Institute of Genetics
• DNA Database of Japan (DDBJ)
• Problema en las investigaciones: la necesidad de cruzar y vincular o “linkear” las
BD de diferentes fuentes para complementar la información
• Casi todas las BD importantes tienen ambas versiones o especifican en cada
entrada el “grado de fiabilidad”
• El NCBI, EBI y DDBJ comparten sus datos diariamente
GenBank
• Las secuencias pueden ser de diversos tipos y alcances:
• Secuencia de ADN, ARN, aminoácidos
• Secuencia de transcrito, gen, cromosoma, genoma
• Secuencia de mutación (SNP)
• ... hasta 40 BD distintas
• PubMed: complementa a GenBank con una colección anotada de
artículos científicos
• Entrez es la herramienta del NCBI para facilitar las búsquedas
Base de Datos EBI
Bases de datos principales:
• Genoma: Ensembl
• Nucleótido: EMBL
• Proteína: UniProtKB
• TrEMBL annot automatica y no revisada
• Swiss-Prot annot manual y revisada
No tiene BD sobre publicaciones
BD CURADAS:
SwissProt (EBI) vs RefSeq (NCBI)
• La BD mejor anotada • Non-redundant
• La mas utilizada para proteínas • La mayoría son
• Nov-2003: 140 mil secuencias de automáticamente generados con
83 mil especies mínima intervención manual
• Es altamente integrada por otras • Dic-2003: 831 mil entradas con
BD aprox 44 mil manualmente
• Descripción sobre sus funciones revisadas
• Modificaciones post-traduccionales
• Dominios, estructura secundaria y cuaternaria
• Similaridad con otras proteinas
• Enfermedades asociadas
• Donde esta expresado, esta envuelta
• Variantes, mutaciones
GLOBAL LOCAL
• El alineamiento cubre las dos • Se alinean sólo las zonas más
secuencias completamente parecidas.
introduciendo los gaps • Sirve para alinear regiones de
(inserciones o deleciones) que secuencias con longitud diferente
sean necesarios. • Suele ser la mejor opción a no ser
• Sirve para alinear secuencias que se esté seguro de que las los
que tengan similar longitud, por secuencias deben de parecerse a lo
ej genes homólogos de especies largo de toda sus extensión
similares.
GLOBAL LOCAL
Needleman and Wunsch (1970) Smith and Waterman (1981)
• cubre las dos secuencias • sólo las zonas más parecidas
completamente • con longitud diferente
• que tengan similar longitud • Buscar homologías o hacer
• Arboles filogenéticos anotaciones