Está en la página 1de 38

Aplicaciones del PDS en

genómica
Procesamiento Digital de Señales
Carrera de Bioinformática
Facultad de Ingeniería- UNER
Secuencia de ADN

• A, T, C, G : Nucleótidos o bases
• Cada nucleótido tiene dos terminaciones distintas: 5´y 3´
• La 5´terminación de un nucleótido se une a la 3´de otro nucleótido
• Por convención se representa la secuencia de nucleótidos para una
simple hebra de la 5´a la 3´ terminación de izquierda a derecha.
Dos hebras tienden a formar una
doble hélice
Doble hélice
• Los nucleotidos de ambas
hebras de unen quimicamente
según:
A-T
C-G
Representación de la molécula de
ADN
Hebras complementarias

5´ …A-G-A-C-T-G-A-A… 3´
5´ …T-T-C-A-G-T-C-T… 3´
Una molécula de ADN de doble hebra puede
representarse por cualquiera de las dos cadenas de
caracteres leídas en la dirección de 5´ a 3´
Genes, intrones y exones
PDS

Características Decisión:
unidimensionales / Codifica
multidimensionales No codifica
Secuencia Conversión Secuencia(s)
de ADN Numérica Extracción de
en valores Clasificación
características
numéricos
Representación numérica de la
secuencia de ADN
• Representación binaria (Voss)
• Z-curve
• Tetraedro
• Representación Compleja
• quaternion representation
• In the EIIP (electron-ion interaction potential) method
• Pares numéricos
• Frecuencia de ocurrencia de nucleótido
• Otras
Representación binaria (Voss)
• Mapea los nucleótidos en cuatro secuencias
binarias indicadoras

A-G-A-C-T-G-A-A
Tetraedro

Reduce el número de secuencias


indicadoras de 4 a 3

Ejes de coordenadas
r

b
Tetraedro

• Cada letra A,T,C y G son asignadas a los vértices


de un tetraedro regular en el espacio

Se puede elegir

A:

T:

C:
G:
Tetraedro

Cuatro secuencias Tres secuencias

Aplicación en espectrogramas de ADN


Z-curve
• Al igual que el tetraedro reduce la dimensión
de las representaciones
Representación Compleja
• Se asignan números complejos a cada una de
las bases
j

C A

G T

Se obtiene un única secuencia


Cuaternion
• Similar a la representación compleja
Potencial de interacción electrón-
ion (EIIP)
A=0.1260
C=0.1340
G=0.0806
T=0.1335

• Se utiliza el potencial de interacción electrón-


ion asociado con cada nucleótido
Pares Numéricos

• Explota dos
propiedades
1. Los intrones
Ángulo de fase promedio
Exón Intrón

Gen A Gen B Gen C

Prom φ
φ4x φ5x φ6x φ7x
φ2x φ3x
φ1x
Histograma x
x= A,C,T,G

φ
Pares Numéricos
Histograma del ángulo de fase de la TDF

Se observan que las medias de C y G son mas pequeñas que en A y T tanto


en regiones que codifican proteínas como en regiones que no codifican.
Pares Numéricos
• 'ATGCTATT....‘
• x[n] = {+1,+1,-1,-1, +1, +1, +1, +1,....}

• A-T = +1
• C-G= -1
- Se asignan +1 y -1 para indicar la presencia de A-T y C-G
respectivamente.
- Resulta una sola secuencias que reduce los costos del
procesamiento de la TDF en comparación a otros métodos que
utilizan más secuencias (Voss, Curva Z, Tetraedro).
Frecuencia de aparición de
nucleótidos

Frecuencia de Ocurrencia en exones

ATGCTATT…
x[n] = {0.23326, 0.20354, 0.28179, 0.28142,
0.20354, 0.23326, 0.20354, 0.20354,…}
Otras Representaciones

• 1)T=0, C=1, A=2, G=3.

• 2)A=0, G=1, C=2, T=3.

• 3)A=1.5, T=-1.5, C=0.5, G=-0.5 (similar al método complejo).


Transformada de Fourier

Transformadas de
Fourier
individuales
Medición del contenido espectral
(SC)

Es conocido que el espectro del la secuencia de ADN tiene un pico


en la frecuencia k=N/3 en las regiones de los exones
GeneScan(1997)
Secuencias
numéricas

Contenido espectral
(SC)

P=S[N/3] /mean(S)

V F
P>=4

Exón No exón
Medida de la rotación espectral
Exón Intrón (SR)
Gen A Gen B Gen C

Prom φ
φ4x φ5x φ6x φ7x
φ2x φ3x
φ1x
Histograma x

x= A,C,T,G

φ
Medida de la rotación espectral
(SR)
• Este método gira los cuatro “vectores”(
) en sentido horario cada uno en
un ángulo equivalente al promedio del ángulo
de fase en las regiones codificantes.
• Esto hace que todos los vectores “apunten” en
la misma dirección
Medida de la rotación espectral
(SR)
• A su vez divide cada término por su
correspondiente desviación del ángulo de fase
para darle más peso a las distribuciones
exónicas. Media del ángulo
de fase en regiones codificantes

Desvío estándar del ángulo


de fase en regiones codificantes
Filtros ANTINOTCH
H(z)
Filtros ANTINOTCH

Contenido espectral S[N/3] Filtro


Medida de la Rotacion espetral
pariada y ponderada (PWSR)
• Se convierte la secuencia de ADN a dos secuencias numéricas
de N muestras y se calculan las TDF
DFT

'ATGCTATT....´
DFT

• Luego usando secuencias de ADN de entrenamiento del


mismo organismo se calculan la media y desviación estándar
del promedio del ángulo de fase en distintos exones (se
extrae un angulo de fase por exon)
Medida de la Rotacion expetral
pariada y ponderada (PWSR)

Pesos basados en la frecuencia de aparición de nuclótidos

• Se calculan las PWSR en ambas direcciones de la secuencia de ADN y


luego se combinan.

• Como las secuencias indicadoras están pareadas, una TDF en sentido


inverso de una misma hebra de ADN es equivalente a la TDF de su
hebra complementaria.

Normalmente se evalúa la PWSR en k=N/3


Medida del contenido espectral
pareado (PSC)
• Pares numéricos
'ATGCTATT....‘
x[n] = {+1,+1,-1,-1, +1, +1, +1, +1,....}

• Luego combina las TDF de la secuencia en las


ambas direcciones

Es un método no dependiente del organismo analizado


Algoritmos en el dominio temporal
Pre Filtro

Voss
A-G-A-C-T-G-A-A

Remueve componentes espectrales en :

• AMDF
Algorimto en el dominio temporal
• TDP
• otros
Magnitud promedio de la función
diferencia (AMDF)
• Algorítmo muy eficiente
Time-Frequency Hybrid (TFH)
Measure
Espectrograma
Espectrograma de ADN
Magnitud

TDF

RGB
Espectrograma de ADN

Frecuencia k

Ubicación relativa del nucleótido


Nucleotidos=4000
Exón N=60

También podría gustarte