Está en la página 1de 9

Curso: R Avanzad

Prof. Jean
Taipe

Examen Final

Alumna: Charito Medina Aldana

27 enero 2024
Informe Examen Final
R Avanzado
2024-01-27

1. Parte Teórica

Pregunta 1: Cuáles son los tipos de Aprendizaje Supervisado.

a) Clasificación y Clustering
b) Clasificación y Partición
c) Regresión y Clasificación
d) Regresión y K-Means

Pregunta 2: El análisis de Clúster es una técnica que se usa para agrupar casos en
grupos relativamente homogéneos llamados clúster

a) Verdadero
b) Falso

Pregunta 3: El método K-Means es un método Jerárquico.

a) Verdadero
b) Falso

2. Parte Práctica

Se tiene una data datadistritos.sav de 34 distritos donde se tiene información de % de


la población así como sus necesidades básicas, contiene 7 variables que son
características de cada distrito de Lima Metropolitana.

1. Importar la data y hacer un análisis descriptivo para las 7 variables en forma


general para todos los distritos.

Solución:

Ruta de trabajo

setwd("C:/Users/Charito/Desktop/CURSOS/IDDEA - ESPECIALIZACIÓN EN R/R AVANZADO")

Instalación de paquetes

install.packages("foreign")

install.packages("haven")
Carga de paquetes

library(foreign)

library(haven)

Análisis Descriptivo

install.packages("psych")

library(psych)
2. Desarrollar un análisis de correlaciones así como mostrar gráficos que
acompañen sus análisis.

Solución:

Visualización de Correlaciones

Seleccionando las 7 variables de interés:

ocu_vivi: hogares en cada vivienda

pobjov: % Población en pueblos jóvenes

sinelect: % Población sin electricidad

sinagua: % Población sin agua

pocprin: % Población de 6-19 con primaria incompleta

peam15: PEA menos de 15 años

pea1619: PEA entre 16 y 19 años

Gráfico de correlaciones de par en par de variables con sus respectivos


histograma y densidad

install.packages("PerformanceAnalytics")

library(PerformanceAnalytics)
INTERPRETACIÓN:

Del grafico se puede observar que existe una alta correlación entre las variables
ocu_vivi(hogares en cada vivienda) y pobjov(% Población en pueblos jóvenes) con
0.92 de correlación y entre las variables sinelect(% Población sin electricidad) y
sinagua (% Población sin agua) con una correlación de 0.92 y peam15(PEA menos de
15 años y pea1619(PEA entre 16 y 19 años) con 0.84 de correlación entre las variables.

Gráfico de correlaciones con todas las variables numéricas

install.packages("corrplot")

library(corrplot)
3. Testear los test de Bartlett y el Indicador KMO para verificar si las variables
están correlacionadas, interpretar los resultados.

Solución:
Test de Esferecidad de Barlett:

Ho: R = I (No hay relación entre las variables)

H1: R ! = I (Si hay relación entre las variables)

install.packages("psych")

library(psych)

INTERPRETACION

Según el test de esfericidad de Barlett se tiene un pvalor pequeño, por debajo de


1%,5%,10%, entonces se rechaza la hipótesis nula (H0), por lo tanto si existe
correlación entre las variables.

Indicador de KMO:

INTERPRETACION:

Como el KMO = 0.80 está entre 0.7 y 0.8, es aceptable aceptación muestral, sí habría
relación entre las variables.
4. En el caso de que haya correlaciones significativas en las variables determinar
el número de factores según análisis factorial.

Solución:

Determinación del número de factores

INTERPRETACION

Según el gráfico se elige 2 factores debido que los eigenvalue(autovalor) son mayores
que 1.

5. Desarrollar una rotación Varimax y verificar si la cantidad de factores es


suficiente para capturar la dimensionalidad de los datos.

Solución:

Rotación de la Matriz de cargas:

install.packages("GPArotation")

library(GPArotation)
Rotación VARIMAX:

Análisis:

Para el Factor 1, las variables que tienen mayor peso son sinelect(0.953) y
sinagua(0.950), mientras que para el Factor 2 se tiene que las variables con mayor peso
de carga tiene ocu_vivi(0.957) y pobpjov(0.940).

Test de Suficiencia de Factores:

Ho: La cantidad de factores SI es suficiente para capturar la dimensionalidad de los


datos

H1: La cantidad de factores NO es suficiente para capturar la dimensionalidad de los


datos

INTERPRETACION:

Según el test de suficiencia de factores se muestra que con un factor estamos


explicando el 46.1 % de la varianza, mientras que con dos factores estamos
explicando el 83.4% de la varianza acumulada. Se tiene un p-valor de 0.182 mucho
mayor al 5% de significancia, es decir, la cantidad de factores (2) es suficiente para
capturar la dimensionalidad de los datos.

También podría gustarte