Está en la página 1de 71

Enfoque Reduccionista vs Integracionista

Enfoque Enfoque
reduccionista integracionista

Biología del Biología del


siglo XX siglo XXI
Palsson B (2000) Nature Biotechnology 18:1147-1150

*Revalorización conceptual de la célula anteriormente


considerada como una colección de componentes individuales.

*Entender las propiedades del sistema (célula)


Genomics is the study of the genomes of organisms. The field
includes intensive efforts to determine the entire DNA
sequence of organisms and fine-scale genetic mapping efforts.

Genomics. Which is defined here as the study


of the whole genome sequence and the information contained
therein
Datos genómicos

• Interpretación de la información
• Herramientas para el manejo e interpretación de la
información
• Diferenciar entre artefactos y señales biológica
• Estandarización de los datos para poder comparar
entre muestras (mismo lab y dif labs).
• Generación de modelos de interacción (búsqueda
de motivos y generación de redes).
Biología Computacional
Biología Computacional
Genome Sequencing Projects in
Different Phylogenetic groups
El número de Genomas completamente secuenciado se ha
incrementado number rápidamende desde el reporte del primer
organismo secuenciado hace diez años.

Apis mellifera
(~2x108 pb)

Mycoplasma genitalium
(only ~5x105 pb)
Microbial genomes Data analysis: the signs before the flood
published per year

Completely sequenced
14Miogrowth
and published Early linear
followed by exponential
microbial genomes increase

ORFs from
complete
genomes vs
metagenomics
ORFs

1.1Mio 1.5Mio
350k 500k 750k 1.5Mio

2 0 0 3 2 0 0 4 2 0 0 5 20 0 6

2003 2004
2004 2005 2006
2006
No of ORFs in all genomes (incl. ours)
Microbial genomes Data analysis: the signs before the flood
published per year

Animal genomes (>100Mb, published, >95% cov)

98 00 01 02 03 04 05 06 07

Metagenomics (>50Mb, published, deposited)


Mammoth bones (454)
Acid mine drainage Soudan mine (454) Global
Farm Soil Deep sea Ocean Survey
whale bones Human gut
Sargasso sea Mouse gut
Sludge
N-pacific
s-trop gyre

2004 2005 2006 2007


The
Theenvironmental
sequencing of genome
metagenomes
shotgun
opens
sequencing
a new era
offor
the
Sargasso
genomic
Sea sciences.
is an example
A total of 1.045 billon of base pairs of non-redundant sequence was generated, annotated and analyzed.
This data is estimated to derive from at least 1800 genomic species, including 148 novel bacterial phylotypes.

Craig Venter

Computational Genomic Group


Microbial genomes Data analysis: the signs before the flood
published per year

Animal genomes (>100Mb, published, >95% cov)

98 00 01 02 03 04 05 06 07

Metagenomics (>50Mb, published, deposited)


Mammoth bones (454)
Acid mine drainage Soudan mine (454) Global
Farm Soil Deep sea Ocean Survey
whale bones Human gut
Sargasso sea Mouse gut
Sludge
N-pacific
s-trop gyre

2004 2005 2006 2007


The
Theenvironmental
sequencing of genome
metagenomes
shotgun
opens
sequencing
a new era
offor
the
Sargasso
genomic
Sea sciences.
is an example
A total of 1.045 billon of base pairs of non-redundant sequence was generated, annotated and analyzed.
This data is estimated to derive from at least 1800 genomic species, including 148 novel bacterial phylotypes.

Craig Venter

Computational Genomic Group


The
Theenvironmental
sequencing of genome
metagenomes
shotgun
opens
sequencing
a new era
offor
the
Sargasso
genomic
Sea sciences.
is an example
A total of 1.045 billon of base pairs of non-redundant sequence was generated, annotated and analyzed.
This data is estimated to derive from at least 1800 genomic species, including 148 novel bacterial phylotypes.

Craig Venter

Computational Genomic Group


Predicción funcional basado en homología

human
5 chimp

40
mouse
75 rat
310MY dog
450MY chicken
fish
600-1200MY?
worm
?
bee
370MY
flies
Human draft: Nature Feb 2001 250MY
Mosquito: Science Oct 2002
Mouse: Nature Dec 2002 Chimp: Nature Sep 2005 mosquito
Rat: Nature Apr 2004 Chicken: Nature Dec 2004 Honey bee: Nature, Oct 2006
Chicken genome analysis
Hillier et al
Nature 04

15%

45%

Ca 310 MY divergence
The model organism as a system: integrating
‘omics’ data sets

Andrew R. Joyce* and Bernhard Ø. Palsson


Omics’ data are providing comprehensive descriptions of
nearly all components and interactions within the cell.
Establecer
conexiones

Identificación
de módulos

Generación de
modelos
Omics’ data-integration approaches for identifying,
decomposing and modelling cellular networks
Network-motif enrichment: an example of
network decomposition

a) A reconstructed Escherichia coli regulatory network. 104 regulators and 479 target-
enzyme genes
b) Network-motif-enrichment analysis.
Redes de interacción

Redes metabólicas Redes de regulación

Modelo del metabolismo


celular

Biología Computacional
La idea de elaborar modelos metabólicos, no es nueva...
Sistema investigado Referencia
Producción de serina alcalina proteasa por B. licheniformi Calik,P. et al.Biotechnol Bioeng 1999,64:151-167

Mutantes de E.coli sin la vía de producción de acetato ( ackA-pta) Yang YT et al. Biotechnol Bioeng 1999,65:291-297

Expresión del gene de acetolactato sinteasa de B. subtilis en E. coli Aristidou A. et al. Biotechnol Bioeng 1999, 63:737-749

Expresión del operón phb de R.eutropha en E.coli Shi,H. et al. J Biosci Bioeng 1999,87:666-667

Producción de piruvato mediante T. glabrata Hua Q. et al. J Biosci Bioeng 1999,87:206-213

Producción de lgG contra fibronectina humana en células de Follstand B. et al. Biotechnol Bioeng 1999, 63:675-683
hibridoma murino.

Fermentación de glucosa, fructosa y xilosa en cepas silvestres y DeGraaf AA. et al Arch Microbiol 1999, 171:371-385
recombinantes de Z. mobilis

Producción de PHB en cultivos mezclados de L. delbrueckii y A. Katoh T. et al. J biotechnol 1999,67:113-134


eutrophus

Co-metabolismo de citrato-glucosa en B. subtilis Goel A. et al. Biotechnol Bioeng 1999,64:129-134

Biodegradación del fósforo (EBPR) Pramanik j. et al.Wat Res 1999, 33:462-476

Análisis del metabolismo del carbono en E. coli silvestre y mutantes Edwards and Palsson Proc. Natl. Acad. Sci., 2000,
97:5529-5533
Tomado de Gombert and Nielsen (2000)Curr Opin Biotech. 11:180-186 Biología Computacional
Biología Computacional

Modelos in silico del metabolismo celular

Construcción de redes metabólicas

Metaboloma

Biología Computacional
Construcción de redes metabólicas

hxk
GLC G6P

pgi
BLAST G6P F6P

pfkA
F6P F1,6dP
Identificación de ORFs
Secuenciación y asignación de funciones Definición individual de Definición de
del genoma por homología funciones vías metabólicas
Gombert and Nielsen (2000) Current Opinion in Biotechnology 11:180–186

Covert et al., (2001) Trends in Biochem Sci 26:179-186

Biología Computacional
Construcción de redes metabólicas

Secuencias
genómicas
conocidas

Diversidad
funcional de
las proteínas

Biología Computacional
Bovine chymotrypsin (1chg)
E()<10-32 42% 233/245 S. griseus trypsin (1sgt)
E()10-19 34% 228/259

S. griseus protease A (1sgc) Endochitinase (2baa)


E()<66 23% 197/297 E()<4.2 26% 134/372
Duplicación
génica

Eones =mutación

Especiación

Eones =mutación

A B C D
Identificación de proteínas de al menos 3 organismos de clados diferentes que
comparten una relación de un “mejor hit bidireccional” cuando se realizan
comparaciones “todas-contra-todas” las proteínas de un par de genomas

No hay línea
porque son parálogos

Bacterias Gram-negativa: Escherichia coli y


Haemophilus influenzae

Bacterias Gram-positiva: Mycoplasma genitalium y


M. peneumonie

Cianobacteria: Synechocystis sp.

Aequeobacteria (Euryarchaeota): Methanocous


jannaschii

Eucariota (hongos):Saccharomyces cerevisiae


Automated curation of the metabolic model
may be based on comparative genomics
1. Phylogenetic relatedness of the organisms provides a
base measure for the plausibility of the annotations.

2. Order of the genes has an important role in the


regulation of bacterial genes and thus a conserved order
may be related to the function of the genes.

3. Common regulatory motifs in genes may indicate


relatedness to the same pathway.

4. Fusion of genes may give arise to hybrid proteins or


alterations in their regulations.
5. Essential genes are more likely to be
conserved.

6. Chemical properties (such as charge) of the


protein may be compared.
7. Expression patterns of co-expressed
proteins of the same pathway and protein
protein binding studies with results that are
compatible with the model.
Nutrientes
Acoplamiento de flujos metabolicos Pared celular Nucleósidos

Lípidos Aminoácidos

Moléculas Toxinas
Con el subconjunto de genes que codifican señal
las enzimas metabólicas se puede construir Pirimidinas
Purinas
una red de reacciones metabólicas. Hemo
Iones

GLC JM101
10.6 100
Zwf NADPH
G6P 6PG
Se puede escribir un balance de flujo para cada Pgi 76.6
22.3
Gnd
NADPH

metabolito, y con el tiempo, en el estado F6P R5P


Tkt Tkt, Tal

estacionario, los flujos se deben equilibrar para G3P E4P


1.5
ABP
evitar una acumulación significativa del PEP
Pck
PykA,F
metabolito en la red. PTS 100 40.7
PIR
7.7
Mez
NADPH
NADH + CO2
Acetato + CO2
ACoA
55.4 2 0
GltA
CIT OAA MAL

Metabolitos
R
e

1,6dP
GLC
a
La estequiometría de todas las reacciones de la

G6F
F6F
c
-1 1 0 0 0 … 0 hxk c
red se puede representar por una matriz 0 -1 1 0 0 … 0 pgi i
0 0 0 -1 1 … 0 pfkA o
estequiométrica : : : : : ::: : n
: : : : : ::: : e
: : : : : ::: : s
: : : : : ::: :
Cells are subject to a variety of constraints
Las restricciones de flujo pueden obtenerse a partir de los
resultados de transcriptoma, proteoma y estudios de MNR

GLC JM101
10.6 100
Zwf NADPH
G6P 6PG
22.3
Pgi 76.6 NADPH
Gnd
F6P R5P
Tkt Tkt, Tal
G3P E4P
1.5
ABP
PEP
Pck
PykA,F
PTS 100 7.7
40.7 Mez
PIR
NADPH
NADH + CO 2
Acetato + CO2
ACoA
55.4 2 0
GltA
CIT OAA MAL

Transcriptoma Proteoma Estudios de MNR


Biología Computacional
El sistema indeterminado origina un rango infinito de soluciones a
la ecuación, pero las reales residen en un subconjunto llamado el
set factible.
Interactoma
Construcción de redes de interacción

Método de dos híbridos

•Un factor de transcripción es separado


en dos fragmentos, uno que reconoce a
la región de regulacion y el otro que
promueve la activación de la
maquinaria de transcripción.

•Cada fragmento es introducido a las


proteínas cuya interacción se desea
analizar, usando técnicas de ingenieria
genética.

• Si las proteínas forman un complejo


entre sí, los dos fragmentos del factor
de transcripción se encontrarán y el gen
reportero será transcrito.
Pandey y Mann, (2000) Nature. 405:837-846

Biología Computacional
Construcción de redes de interacción
Método de perfiles filogenéticos
Construcción de redes de interacción
Método de la Roseta
Construcción de redes de interacción
Método de los vecinos correlacionados
Construcción de redes de interacción

La predicción de interacciones es más


precisa cuando más de un método coincide

von Mering C, et al. 2002. Nature. 417:399-403.

Biología Computacional
La red de interacciones se construirá a partir
de la integración de los anteriores metodolologías

Red neuronal

Red de interacciones

Biología Computacional
Construcción de redes de interacción
Construcción de redes de interacción
Construcción de redes de interacción
Genomics, gene expression and DNA arrays
¿Son realmente lo mismo?

Unfortunately, the billions of bases of DNA sequence do


not tell us what all the genes do, how cells work, how cells
form organisms, what goes wrong in disease, how we age
or how to develop a drug.

The purpose of genomics is to understand biology,


not simply to identify the component parts.

The goal is not simply to provide a catalogue of all the genes and
information about their functions, but to understand how the components
work together to comprise functioning cells and organisms.

Nucleic acid arrays work by hybridization of labelled RNA or DNA in


solution to DNA molecules attached at specific locations on a surface. The
hybridization of a sample to an array is, in effect, a highly parallel search
by each molecule for a matching partner on an ‘affinity matrix’
¿Qué es un transcriptoma?
• Todas las secuencias de genoma que se
transcriben a RNA
• Esto incluye a aquellos RNAs que se
traducen a proteína y los que tiene función
como RNAs
• mRNA – ribosomal, tRNAs, regulatory
RNAs
Problemas con datos de microarreglos
Hay dos grandes problemas:

• Los niveles de expresión tiene un alto nivel de variabilidad de


experimento a experimento. Este problema ocurre debido a que hay
un número grande de posibles fuentes de errores tantos aleatorios
como sistemáticos en el experimento con microarreglos. Para lidiar
con este problema se usan técnicas de normalización, de
preprocesamiento y de filtrado.

• Hay un pequeño número de muestras comparado con el número


grande de variables. Esto causa que las técnicas estadísticas
tradicionales fracasen. Para lidiar con este problema se usan técnicas
de reducción de dimensionalidad
*Deteccción de enfermedades en humanos

* Utilización de genes de función desconocida

*Identificación de Regulones

*La expresión de genes como indicativo de función (“guilty-by-association”)

*Utilización de perfiles de expresión como “fingerprints”

*Medición de niveles de expresión con pequeñas cantidades de RNA

*Arrays para identificar DNA (polimorfismos, inicios de replicación, etc.)

* Utilización de arreglos de DNA intergenico o DNA doble cadena


Making sense of genomic results

Although the difficulties of sample collection, data collection and


experimental design should not be underestimated, one of the most
challenging aspects of gene expression analysis is making sense of the
vast quantities of data and extracting conclusions and hypotheses that
are biologically meaningful.

También podría gustarte