Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Examen
Bioinformatica
–
Junio
2013
Ingeniería
Biomédica-‐Universitat
de
Barcelona
Conéctate
al
campus
virtual
y
descarga
los
fichero
de
datos:
“data1.dat”
y
“data2.dat”.
Descarga
también
los
scripts
de
las
prácticas
del
curso
para
su
consulta
durante
la
realización
de
la
prueba.
Graba
los
ficheros
en
el
directorio
(carpeta)
“d:/temp”.
(Crea
el
directorio
en
caso
de
que
no
exista
previamente).
Tras
realizar
los
ejercicios
1
y
2
genera
un
documento
Word
que
incluya:
1. Justificación
y
optimización
del
procesado
realizado.
2. Las
gráficas
y/o
tablas
obtenidas
(Por
ej:
el
listado
final
con
la
localización
de
los
picos
y
sus
intensidades).
Ejercicio
1)
Lee
el
fichero
de
datos
“data1.dat”
que
encontrarás
en
el
directorio
“d:/temp”.
rawdat<-‐read.table("data1.dat",sep=",")
Los
datos
corresponden
a
un
fragmento
de
un
cromatograma.
El
fichero
contiene
dos
columnas,
la
primera
es
el
tiempo
de
retención
(en
segundos)
y
la
segunda
es
la
amplitud
del
cromatograma.
Desarrolla
un
“script”
R
que
realice
los
siguientes
pasos:
1. Representa
gráficamente
la
señal
antes
de
cualquier
procesado.
1) ¿Que
tipo
de
ruido
contiene
la
señal?
Cómo
se
elimina
este
ruido.
Ruido
de
base?,
y
picos
aleatorios?
Filtro
de
golay
-‐‑-‐‑>
polinomial
fit??
EJERCICIO
2
Lee
el
fichero
de
datos
“data2.dat”
que
encontrarás
en
el
directorio
“d:/temp”.
rwdat2<-‐read.table("data2.dat.txt",sep="")
library("ChemometricsWithR")
## [1] TRUE
table(rwdat2$class)
##
## control disease
## 10 10
biomark.c<-‐scale(rwdat2[,1:30],scale=FALSE)
head(biomark.c)
2.2
Genera
un
modelo
PCA
con
los
datos.
Proyecta
los
resultados
en
las
tres
primeras
dimensiones.
Gerera
los
gráficos
de
dispersión
(scoreplots)
en
las
tres
combinaciones
(PC1
vs
PC2,
PC1
vs
PC3,
PC2
vs
PC3).
Utiliza
un
color
para
los
sujetos
1-‐‑10
y
otro
color
diferente
para
los
sujetos
11-‐‑20.
¿En
que
caso
la
separación
es
más
clara?
Que
componente
principal
(loading)
es
el
más
discriminante?.
Representa
las
30
componentes
de
este
autovector
y
determina
que
componentes
pueden
ser
los
responsables
de
esta
separación.
Recuerda
que
el
modelo
PCA
no
es
supervisado,
por
lo
tanto
no
es
necesario
separar
en
entrenamiento
y
validación.
## SCOREPLOT PC1,PC2,PC3
biomark.PCA<-‐PCA(biomark.c)
summary(biomark.PCA)
##
## PCA model of a mean-‐centered matrix of 20 by 30
## Number of PCs to cover 90 percent of the variance: 7
##
## Var Cumul. var.
## PC 1 68.838102 68.83810
## PC 2 9.256202 78.09430
## PC 3 3.302788 81.39709
## PC 4 2.910604 84.30770
## PC 5 2.780546 87.08824
## PC 10 1.209134 95.70398
head(biomark.PCA$scores[,1:3])
pairs(biomark.PCA$scores[,1:3],col=c(rep(2,10),rep(3,10)),pch=c(rep(1,10)
,rep(2,10)))
## Analisis del PC1
matplot(biomark.PCA$loadings[,1],type='h',lty=1:3, lwd = 1, xlab = "VARIA
BLES:CHEMICALS", ylab="LOADINGS")
title(main="PC 1" )
matpoints(biomark.PCA$loadings[,1],col='red',type='p',lty=1, lwd = 2, pch
=c(1,2,3))
axis(side =1, at=seq(1,30) )
### ORDENAMOS DE MAYOR A MENOR POR DISCRIMINACION
vec<-‐sort(abs(biomark.PCA$loadings[,1]),decreasing = TRUE)
vec
barplot(vec,names.arg = names(vec),axisnames = )
## V12 es la componente que más aporta.