Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Escuela de Post-Grado
Universidad Nacional Agraria La Molina (UNALM)
Tarazona, E.G.
2013-II
1 / 25
Aspectos Generales I
El anlisis discriminante lineal (LDA) puede ser formulado de
tal forma que se minimice la probabilidad total de una mala clasicacin en el modelo de entrenamiento.
La consecuencia de la asuncin de que los predictores en cada
clase comparten una estructura de covarianzas comnes fue que las fronteras entre las clases son funciones lineales de los predictores.
En los modelos discriminantes cuadrticos, esta asuncin es
relajada de modo que estructura de covarianzas para una clase especca puede ser acomodada.
La primera consecuencia de este cambio es que las fronteras de
Tarazona, E.G.
2013-II
2 / 25
Aspectos Generales II
El incremento en la complejidad de la funcin discriminante
datos son categricos, el QDA slo ser capaz de modelarlas como funciones lineales, limitando la efectividad del modelo.
Tarazona, E.G. 2013-II Clasicacin No Lineal - Minera de Datos 3 / 25
probabilidad total de mala clasicacin asumiendo que los datos pueden ser separados por hiperplanos o por supercies cuadrticas.
La realidad puede ser, sin embargo, que los datos estn mejor
separados por estructuras intermedias entre los lmites de clase lineales y cuadrticos
Tarazona, E.G.
2013-II
4 / 25
Deniciones I
Tarazona, E.G.
2013-II
5 / 25
j ej ,
(x )T 1 (x ) 2 d
Entonces la distribucin Nd (, ) asigna una probabilidad de
(1 ) al elipsoide slido x : (x )T 1 (x ) 2 d () donde 2 d () Considerando (j , ej ), j = 1, . . . , d pares de autovalores y autovectores de denota el percentil (100%) de la distribucin 2 d
Tarazona, E.G.
2013-II
7 / 25
donde la funcin discriminante (score) fk est dada por 1 1 1 fk (x) = log |k | (x k )T k (x k )+log k , k = 1, . . . , K 2 2 Las frontera de decisin entre cada par de clases k y l ser {x : fk (x) = fl (x)} La regla de decisin es f (x) = argmaxk=1,...,K fk (x)
Tarazona, E.G. 2013-II Clasicacin No Lineal - Minera de Datos 8 / 25
La frontera de decisin entre la clase k y la clase l es tambin cuadrtica x : xT (Wk Wl ) x + (1k 1l )T x + (0k ol ) = 0
parmetros.
Para ajustar un QDA se necesita estimar
Tarazona, E.G.
2013-II
10 / 25
poblacional k Aqu, una funcin de distancia diferente, con una diferente orientacin y tamao de la constante de distancia de la elipsoide, se utiliza para cada clase.
Tarazona, E.G.
2013-II
11 / 25
clase k para k = 1, . . . , K .
k = Yi =k xi /nk para k = 1, . . . , K . La covarianza muestral dentro de una clase
k =
1 nk 1
(xi k ) (xi k )T
Yi =k
k para k = 1, . . . , K . Calcular
Tarazona, E.G. 2013-II Clasicacin No Lineal - Minera de Datos 12 / 25
object tiene una frmula, un data frame con columnas con los mismos nombres de las variables usadas. Salida:
una lista con componentes de clase (la clasicacin MAP, un
Ejemplo 1
library(MASS) Iris <- data.frame(rbind(iris3[,,1], iris3[,,2], iris3[,,3]), Sp = rep(c("s","c","v"), rep(50,3))) train <- sample(1:150, 75) table(Iris$Sp[train]) z <- qda(Sp ~ ., Iris, prior = c(1,1,1)/3, subset = train) ypred <- predict(z, Iris[-train, ])$class ytest <- Iris$Sp[-train] testerr <- mean(ypred!=ytest)
Tarazona, E.G.
2013-II
16 / 25
Ejemplo 2
tr <- sample(1:50, 25) train <- rbind(iris3[tr,,1], iris3[tr,,2], iris3[tr,,3]) test <- rbind(iris3[-tr,,1], iris3[-tr,,2], iris3[-tr,,3]) cl <- factor(c(rep("s",25), rep("c",25), rep("v",25))) z <- qda(train, cl) trainerr <- mean(predict(z,train)$class!=cl) testerr <- mean(predict(z,test)$class!=cl)
Tarazona, E.G.
2013-II
17 / 25
Aspectos Generales I
Friedman (1989) propuso una alternativa mixta entre LDA y QDA
Reducir las variancias separadas de QDA hacia una covarianza
comn en LDA. Las matrices de covarianzas regularizadas son k ( ) = k + (1 ) es la matriz de covarianzas muestrales conjunta a lo largo donde k la matriz de covarianzas para la clase k de todas las clases y
[0, 1], es un parmetro de anamiento que representa la
continuidad de modelos entre un LDA y QDA. Qu sucede si est cerca de 1? Y si est cerca de 0?
En la prctica, elegir con la data de validacin o usando CV.
Tarazona, E.G.
2013-II
18 / 25
Tarazona, E.G.
2013-II
19 / 25
k (, ) = k + (1 ) + (1 ) (1 ) 2I
Tarazona, E.G.
2013-II
20 / 25
como un problema de regresin lineal y luego utiliza expansiones base para hacer la discriminacin. Revisar Hastie et al. (1994) PDA: Anlisis Discriminante Penalizado Seleccin de variables: Penaliza los coecientes para ser suavizados o ser ms dispersos facilitando la interpretacin. MDA: Anlisis Discriminante Mixto Permite que cada clase sea una mixtura de dos o ms distribuciones normales con diferentes centroides, pero cada componente (dentro y entre las clases) comparten la misma matriz de covarianzas. Revisar Clemmensen et al. (2011).
Tarazona, E.G.
2013-II
21 / 25
RDA: Ejemplo
library(klaR) data(iris) x <- rda(Species ~ ., data = iris, gamma = 0.05, lambda = 0.2) predict(x, iris)
Tarazona, E.G.
2013-II
22 / 25
FDA: Ejemplo
data(iris) irisfit <- fda(Species ~ ., data = iris) irisfit confusion(irisfit, iris) plot(irisfit) coef(irisfit) #Usando MARS marsfit <- fda(Species ~ ., data = iris, method = mars) marsfit2 <- update(marsfit, degree = 2) marsfit3 <- update(marsfit, theta = marsfit$means[, 1:2]) library(earth) marsfit.earth <- fda(Species ~ ., data = iris, method = earth)
Tarazona, E.G.
2013-II
23 / 25
MDA: Ejemplo 1
Tarazona, E.G.
2013-II
24 / 25
MDA: Ejemplo 2
data(glass) # Muestra aleatoria de tamao 100 samp <- c(1, 3, 4, 11, 12, 13, 14, 16, 17, 18, 19, 20, 27, 28, 31, 38, 42, 46, 47, 48, 49, 52, 53, 54, 55, 57, 62, 63, 64, 65, 67, 68, 69, 70, 72, 73, 78, 79, 83, 84, 85, 87, 91, 92, 94, 99, 100, 106, 107, 108, 111, 112, 113, 115, 118, 121, 123, 124, 125, 126, 129, 131, 133, 136, 139, 142, 143, 145, 147, 152, 153, 156, 159, 160, 161, 164, 165, 166, 168, 169, 171, 172, 173, 174, 175, 177, 178, 181, 182, 185, 188, 189, 192, 195, 197, 203, 205, 211, 212, 214) glass.train <- glass[samp,] glass.test <- glass[-samp,] glass.mda <- mda(Type ~ ., data = glass.train) predict(glass.mda, glass.test, type="post") # se permiten abreviaturas confusion(glass.mda,glass.test)
Tarazona, E.G.
2013-II
25 / 25