Informe Final R Avanzado Charitomedina

Curso: R Avanzad
Prof. Jean
Taipe
Examen Final
Alumna: Charito Medina Aldana
27 enero 2024
Informe Examen Final
R Avanzado
2024-01-27
1. Parte Teórica
Pregunta 1: Cuáles son los tipos de Aprendizaje Supervisado.
a) Clasificación y Clustering
b) Clasificación y Partición
c) Regresión y Clasificación
d) Regresión y K-Means
Pregunta 2: El análisis de Clúster es una técnica que se usa para agrupar casos en
grupos relativamente homogéneos llamados clúster
a) Verdadero
b) Falso
Pregunta 3: El método K-Means es un método Jerárquico.
a) Verdadero
b) Falso
2. Parte Práctica
Se tiene una data datadistritos.sav de 34 distritos donde se tiene información de % de

la población así como sus necesidades básicas, contiene 7 variables que son
características de cada distrito de Lima Metropolitana.
1. Importar la data y hacer un análisis descriptivo para las 7 variables en forma

general para todos los distritos.
Solución:
Ruta de trabajo
setwd("C:/Users/Charito/Desktop/CURSOS/IDDEA - ESPECIALIZACIÓN EN R/R AVANZADO")
Instalación de paquetes
install.packages("foreign")
install.packages("haven")
Carga de paquetes
library(foreign)
library(haven)
Análisis Descriptivo
install.packages("psych")
library(psych)
2. Desarrollar un análisis de correlaciones así como mostrar gráficos que
acompañen sus análisis.
Solución:
Visualización de Correlaciones
Seleccionando las 7 variables de interés:
ocu_vivi: hogares en cada vivienda
pobjov: % Población en pueblos jóvenes
sinelect: % Población sin electricidad
sinagua: % Población sin agua
pocprin: % Población de 6-19 con primaria incompleta
peam15: PEA menos de 15 años
pea1619: PEA entre 16 y 19 años
Gráfico de correlaciones de par en par de variables con sus respectivos

histograma y densidad
install.packages("PerformanceAnalytics")
library(PerformanceAnalytics)
INTERPRETACIÓN:
Del grafico se puede observar que existe una alta correlación entre las variables
ocu_vivi(hogares en cada vivienda) y pobjov(% Población en pueblos jóvenes) con
0.92 de correlación y entre las variables sinelect(% Población sin electricidad) y
sinagua (% Población sin agua) con una correlación de 0.92 y peam15(PEA menos de
15 años y pea1619(PEA entre 16 y 19 años) con 0.84 de correlación entre las variables.
Gráfico de correlaciones con todas las variables numéricas
install.packages("corrplot")
library(corrplot)
3. Testear los test de Bartlett y el Indicador KMO para verificar si las variables
están correlacionadas, interpretar los resultados.
Solución:
Test de Esferecidad de Barlett:
Ho: R = I (No hay relación entre las variables)
H1: R ! = I (Si hay relación entre las variables)
install.packages("psych")
library(psych)
INTERPRETACION
Según el test de esfericidad de Barlett se tiene un pvalor pequeño, por debajo de

1%,5%,10%, entonces se rechaza la hipótesis nula (H0), por lo tanto si existe
correlación entre las variables.
Indicador de KMO:
INTERPRETACION:
Como el KMO = 0.80 está entre 0.7 y 0.8, es aceptable aceptación muestral, sí habría
relación entre las variables.
4. En el caso de que haya correlaciones significativas en las variables determinar
el número de factores según análisis factorial.
Solución:
Determinación del número de factores
INTERPRETACION
Según el gráfico se elige 2 factores debido que los eigenvalue(autovalor) son mayores
que 1.
5. Desarrollar una rotación Varimax y verificar si la cantidad de factores es

suficiente para capturar la dimensionalidad de los datos.
Solución:
Rotación de la Matriz de cargas:
install.packages("GPArotation")
library(GPArotation)
Rotación VARIMAX:
Análisis:
Para el Factor 1, las variables que tienen mayor peso son sinelect(0.953) y
sinagua(0.950), mientras que para el Factor 2 se tiene que las variables con mayor peso
de carga tiene ocu_vivi(0.957) y pobpjov(0.940).
Test de Suficiencia de Factores:
Ho: La cantidad de factores SI es suficiente para capturar la dimensionalidad de los

datos
H1: La cantidad de factores NO es suficiente para capturar la dimensionalidad de los

datos
INTERPRETACION:
Según el test de suficiencia de factores se muestra que con un factor estamos

explicando el 46.1 % de la varianza, mientras que con dos factores estamos
explicando el 83.4% de la varianza acumulada. Se tiene un p-valor de 0.182 mucho
mayor al 5% de significancia, es decir, la cantidad de factores (2) es suficiente para
capturar la dimensionalidad de los datos.

Informe Final R Avanzado Charitomedina

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Informe Final R Avanzado Charitomedina

Cargado por

Copyright:

Formatos disponibles

Curso: R Avanzad

Alumna: Charito Medina Aldana

Pregunta 1: Cuáles son los tipos de Aprendizaje Supervisado.

Pregunta 3: El método K-Means es un método Jerárquico.

Se tiene una data datadistritos.sav de 34 distritos donde se tiene información de % de

1. Importar la data y hacer un análisis descriptivo para las 7 variables en forma

setwd("C:/Users/Charito/Desktop/CURSOS/IDDEA - ESPECIALIZACIÓN EN R/R AVANZADO")

Seleccionando las 7 variables de interés:

ocu_vivi: hogares en cada vivienda

pobjov: % Población en pueblos jóvenes

sinelect: % Población sin electricidad

sinagua: % Población sin agua

pocprin: % Población de 6-19 con primaria incompleta

peam15: PEA menos de 15 años

pea1619: PEA entre 16 y 19 años

Gráfico de correlaciones de par en par de variables con sus respectivos

Gráfico de correlaciones con todas las variables numéricas

Ho: R = I (No hay relación entre las variables)

H1: R ! = I (Si hay relación entre las variables)

Según el test de esfericidad de Barlett se tiene un pvalor pequeño, por debajo de

Determinación del número de factores

5. Desarrollar una rotación Varimax y verificar si la cantidad de factores es

Rotación de la Matriz de cargas:

Test de Suficiencia de Factores:

Ho: La cantidad de factores SI es suficiente para capturar la dimensionalidad de los

H1: La cantidad de factores NO es suficiente para capturar la dimensionalidad de los

Según el test de suficiencia de factores se muestra que con un factor estamos

También podría gustarte