Está en la página 1de 5

Taller de inteligencia de negocios

Taller 2

Profesor: Mauricio Herrera

Ayudante: Daniel Roco

Alumno: Nicole Ulloa

Fecha: 02/04/2020
Actividades

1. Utilice los nombres de los países como “rownames” y después elimine la


columna “país”, ejecutando los siguientes comandos en R (Nota: Puede que en
lugar de "país" el nombre de la variables sea "X")

setwd('C:/nicole/universidad/TIN nico/taller2')

datos=read.csv2('geo_pol.csv')

head(datos)

rownames(datos)=datos$pais

datos$pais=NULL

head(datos)

2. Renombre las variables de la siguiente manera:

popu giph ripo rupo rlpo rspo eltp rnnr nunh nunth

x1 x2 x3 x4 x5 x6 x7 x8 x9 x10

 names(datos)=c('x1','x2','x3','x4','x5','x6', 'x7', 'x8', 'x9', 'x10')


head(datos)

3. Calcule los componentes principales (sin incluir la variable x1) para estos
datos usando el comando “prcomp” y guarde el resultado en una variable
denominada “pcgeopol”. Para saber como se usa, utilice help(‘prcomp’)

help('prcomp')

pcgeopol=prcomp(~x2+x3+x4+x5+x6+x7+x8+x9+x10,scale=TRUE,data=datos)

head(pcgeopol)
4. Use print(pcgeopol) para ver los componentes principales calculados

5. El resultado de aplicar este comando queda guardado en el variable


“pcgeopol”, cuyo contenido, es decir el resultado de aplicar el comando, pude
verse escribiendo names(pcgeopol). Investigue (escriba una pequeña explicación)
lo que significan estos nombres mediante el uso de:

6. Utilice pcgeopol$sdev para calcular el porcentaje de varianza explicada por


los componentes principales. Se sugiere construir una tabla con la proporción
explicada por cada componente principal y el acumulado en orden descendente.

pcgeopol.var = pcgeopol$sdev^2

pg = pcgeopol.var/sum(pcgeopol.var)

pg

tabla <- pg

View(tabla)
7. Haga un diagrama de dispersión para los componentes principales (PC1, PC) ,
(PC3,PC2) y (PC1,PC3) use para ello use los siguientes comandos:
par(mfrow=c(2,2))

plot(pcgeopol$x[,c(1,2)],type="n",main="Primero vs. Segundo PC")

text(pcgeopol$x[,c(1,2)],row.names(datos),cex=0.7)

plot(pcgeopol$x[,c(3,2)],type="n",main="Tercero vs. Segundo PC")

text(pcgeopol$x[,c(3,2)],row.names(datos),cex=0.7)

plot(pcgeopol$x[,c(1,3)],type="n",main="Primero vs. Tercer PC")

text(pcgeopol$x[,c(1,3)],row.names(datos),cex=0.7)

plot(pcgeopol,main="Primer componente principal")

¿Qué indica este cuarto gráfico?

Muestra que tan importante es el primer componente principal. Lo que podemos


notar es que el PC1 cubre muchísimo más que el PC2 y que el resto de los PC. Estos
PC van de mas importante a menos importante.
8. Haga un diagrama “biplot”. Explique el resultado obtenido de acuerdo al
significado de la variables. (Puede ser confuso para estos datos). Sugerencia:
Verifique si existe alguna relación de acuedo al desarrollo socio-económico de
los países y las variables, además vean si los países tienden a agruparse de
acuerdo a estos criterios.

par(mfrow=c(1,1))

biplot(pcgeopol,scale=0)

Según diagrama se puede decir que en PC1 los más influyentes indican los países que
tienen más alfabetismo, tiempo de vida y televisores; y estos serían x5, x7 y x10.
Además, se puede decir que en PC2 indican los que tienen mayor aumento de
población, incremento en PIB y necesidades nutriciones, que serían x2, x3 y x8.

También podría gustarte