Está en la página 1de 3

07/03/2015

MiriadaX:IntroduccinalBusinessIntelligence

Acompanhar Sejaoprimeirodos
seusamigosaseguir

espaol portugus

Follow@miriadax

Mi Pgina

Cursos

Cntia Silva Campos

Universidades e instituciones

(UTC )

Concenos

Salir

Soporte

Introduccin al Business Intelligence


Inicio

Syllabus

Foro

Documentacin

Mdulos
Mdulo 1. Introduccin al sistema de
BI
Mdulo 2. Arquitectura de sistemas de
BI
Mdulo 3. Business Analytics:
Clustering
Introduccin al business analytics
Clustering jerrquico

Alumnos

Mdulo 3. Business Analytics: Clustering

Test Anlisis de componentes Principales


Prueba realizada
Tu resultado en el test ha sido: 33%
No has superado el test. Debes obtener al menos un 50% en el test.
Tus respuestas

EnelalgoritmodeAnlisisdeComponentesPrincipales:

Test Clstering Jerrquico


Clustering no jerrquico: el algoritmo kmeans
Test k-means
Anlisis de componentes principales
Test Anlisis de componentes
Principales
Material complementario - Algoritmos
Business Analytics

Mdulo 4. Business Analytics:


Clasificacin
Mdulo 5. Tendencias en Business
Intelligence

a) Calculamos los vectores propios de la matriz que contiene la media de todos


los ejemplos.
b) Calculamos los vectores propios de la matriz de covarianza de los datos
centrados.
c) Calculamos la matriz de proyeccin lineal a partir de minimizar el error de
clasificacin de los ejemplos de entrenamiento.
d) No requiere en ningn caso el clculo de los vectores propios de una matriz.

EnelalgoritmodeAnlisisdeComponentesPrincipales:
a) Los ejes con menor varianza son elegidos como aquellos que minimizan el
error cuadrtico.
b) Se eligen los ejes de proyeccin que minimizan el error cuadrtico de
reconstruccin.
c) Los ejes de proyeccin se corresponden con los primeros vectores propios
de mayor valor propio asociado.
d) Las respuestas b) y c) son correctas.
La respuesta correcta es la d), los vectores propios de mayor valor propio asociado son los elegidos
para implementar la proyeccin (respuesta c) ), y esta proyeccin minimiza el error cuadrtico de
reconstruccin. La primera respuesta slo sera correcta si dijera: ejes con mayor varianza), en lugar
de menor varianza.

ElalgoritmoPCA:
a) Sirve para proyectar los datos a una dimensin superior, donde son
linealmente separables
b) Sirve para proyectar los datos a una dimensin inferior, donde los datos son
linealmente separables.
c) Sirve para proyectar los datos a una dimensin inferior, minimizando el error
de reconstruccin en los datos.
d) Se aplica a problemas que no siguen una distribucin Gaussiana.

EjercicioprcticoenR:AnlisisdeComponentesPrincipales.Enesteejercicioimplementaremos
un ejemplo prctico de Anlisis de Componentes Principales en lenguaje R. Para ello es
imprescindiblehabervisualizadoyentendidolosvideosdeteora,consusejemplosasociados.
Para instalar el lenguage R, podes bajar la ltima versin para vuestro sistema operativo en:
http://www.rproject.org/. Los videos de teora se han realizado mediante un entorno de
programacin llamado RStudio, que es completamente gratuito y podis obtener en:
http://www.rstudio.com/products/rstudio/download/.
Despus de bajar el entorno, podis ejecutar las instrucciones R que os detallamos a

https://www.miriadax.net/web/introduccionalbusinessintelligence/reto?p_p_id=execactivity_WAR_liferaylmsportlet&p_p_lifecycle=1&p_p_state=normal

1/3

07/03/2015

MiriadaX:IntroduccinalBusinessIntelligence
continuacin.Lasprimeraslneasdecdigoson:

#Lecturadelosdatosautilizar
#Base de datos de ejemplo, con atributos numricos sobre clientes de un banco. Se intenta
predecirsiselevaaconcederelcrditoalclienteonocliente

dataBank<read.table("http://archive.ics.uci.edu/ml/machinelearning
databases/statlog/australian/australian.dat",sep="")
#Visualizarunresumendelosdatos
summary(dataBank)
En ellas leemos un conjunto de datos de la UCI Machine Learning Repository. Estos datos
pertenecenalsetStatlogAustralianCreditApproval,ycontieneunconjuntodeatributosdelos
clientesdeunbanco.Lavariableobjetivoconsisteenintentarpredecirsiselevaaconcederun
determinadocrditoaunclienteapartirdelosdatospersonalesydesuscuentas.
Losdatoshansidopreprocesados,convertidosconvenientementeaformatonumricoysehan
eliminadolosvaloresausentes.
Elprimerejercicioconsistirenaveriguarcuntosatributostienennuestrosdatos(enlavariable
dataBank).
Idea:ParaellopodismirarenlaventanaEnvironmentdelentornoRStudio,ousarlafuncin
ncol().
Cuantosatributostienenlosdatosbancariosdelejercicio?
a) 15
b) 20
c) 5
d) 690
La respuesta correcta es la a). La ejecucin: ncol(dataBank) nos devuelve el valor 15.

El segundo ejercicio consiste en averiguar cuantas observaciones o muestras tienen nuestros


datos.
Idea:ParaellopodismirarenlaventanaEnvironmentdelentornoRStudio,ousarlafuncin
nrow().
a) 15
b) 20
c) 5
d) 690

Ahora aadiremos las siguientes lineas de cdigo:

#Separar los datos en: etiquetas y datos


labels <- dataBank[,15]
data <- dataBank[,1:14]

#Calcular el anlisis de componentes principales


pca <- princomp(data)

Dibuja el porcentaje de varianza que se preserva con el PCA obtenido. Qu instruccin es la


msapropiada?
a) plot(cumsum(pcascores)/sum(pcasdev))
b) plot(cumsum(pcasdev)/sum(pca sdev))
c) plot(cumsum(pcaloadings)/sum(pcascores))
d) plot(cumsum(pcasdev)/sum(pca scores))
En los videos de teora se puede observar que la varianza acumulada al aadir componentes se
puede dibujar mediante la instruccin: plot(cumsum(pcasdev)/sum(pcasdev))

Aadiremosahoralainstruccin:
print(cumsum(pcasdev)/sum(pcasdev))
Apartirdecuantascomponentesyapreservamosel99%delainformacinpresenteenlosdatos
(varianza)?
a) 10
b) 4
c) 2
d) 5

https://www.miriadax.net/web/introduccionalbusinessintelligence/reto?p_p_id=execactivity_WAR_liferaylmsportlet&p_p_lifecycle=1&p_p_state=normal

2/3

07/03/2015

MiriadaX:IntroduccinalBusinessIntelligence

Las siguientes instrucciones dibujan, en dos dimensiones, los datos proyectados en las dos
primerascomponentes.
#Ejercicio10:Dibujarlasdoscomponentesprincipalesdelosdatos
scores<pca$scores
plot(scores[,1],scores[,2])
#Dibujarlosdatosmedianteunplot2Dymedianteuncolordistintoparacadacomponente
plot(scores[labels==1,1],scores[labels==1,2],col="red")
points(scores[labels==0,1],scores[labels==0,2],col="green")
Apartirdelplotresultante:
a) Se observa que los datos son linealmente separables.
b) Los datos resultantes presentan solapamiento entre las dos clases.
c) No se puede proyectar los datos en un espacio 2D.
d) El grfico resultante explica una mnima parte de la varianza de los datos.
La respuesta correcta es la d). Mirando el grfico se puede ver como los datos estan muy solapados
entre las dos clases, siendo imposible de separar linealmente. El grfico es posible, puesto que
usamos dos valores (invalidando la respuesta c) y adems son las dos componentes que explican el
99% de la varianza (invalidando la respuesta d).

ElalgoritmodeAnlisisdeComponentesPrincipales,es:
a) Un algoritmo de extraccin de caractersticas que minimiza el error
quadrtico de reconstruccin.
b) Un algoritmo de extraccin de caractersticas que minimiza el error de
clasificacin de los datos de test.
c) Un algoritmo de extraccin de caractersticas no lineal que minimiza el error
quadrtico de reconstruccin.
d) Un algoritmo de extraccin de caractersticas no lineal que minimiza el error
de clasificacin de los datos de test.
Realizar de nuevo
anterior

2012-2014 Mirada X

Aviso legal

Siguiente

Poltica de cookies

Poltica de privacidad

https://www.miriadax.net/web/introduccionalbusinessintelligence/reto?p_p_id=execactivity_WAR_liferaylmsportlet&p_p_lifecycle=1&p_p_state=normal

3/3