Está en la página 1de 9

UNIVERSIDAD NACIONAL DE COLOMBIA SEDE MEDELLÍN

ESCUELA DE ESTADÍSTICA - Sem 01 - 2023

PRIMER TRABAJO Análisis Descriptivo de Datos (10%) Cédula 1017258573

Nombre Completo DANIEL LONDOÑO SERNA D. I. 1017258573


Nombre Completo D. I.

La base de datos con la que le corresponde trabajar, se obtiene como una muestra
aleatoria de una gran base de datos. La base original corresponde a la información de
5200 colegios de los departamentos de Antioquia, Cundinamarca (sin Bogotá), Valle y
Bogotá DC, cuyos estudiantes presentaron las pruebas Saber 11 en el segundo semestre
del 2019. Las variables contenidas en dicha base son: DEPARTAMENTO, (donde se
presentó la prueba), NATULAREZA (del colegio del cual se gradúa el estudiante: Oficial o
no Oficial), JORNADA (de estudio asociada al colegio), N-EVALUADOS (total estudiantes
por colegio que presentaron la prueba), PROMLECTURACRITICA (promedio de los
estudiantes en la componente de Lectura Crítica), PROMMATEMATICA (promedio de los
estudiantes en la componente de Matemáticas), PROMSOCIALESYCIUDADANAS
(promedio de los estudiantes en la componente de Sociales y otras áreas Ciudadanas),
PROMCIENCIASNATURALES (promedio de los estudiantes en la componente de
Ciencias Naturales), PROMINGLES (promedio de los estudiantes en la componente de
Inglés).

Cada pareja debe generar una base de datos, que corresponderá a una muestra de
tamaño 200 de la base original. Los datos originales están en el archivo: “base.txt”, el
cual está disponible en Moodle, pestaña Trabajos – Trabajo 1. Para hacerlo debe seguir
los siguientes pasos:

# Para leer el archivo de datos, darle click al archivo “base.txt”, aparecerá una nueva
pestaña. Copie el contenido y guárdelo en un block de notas, con el mismo nombre:
“base.txt”. En R ejecute el siguiente código:

uno <- read.table(file.choose(), header=T, sep=",")

Se habilitará un explorador y se escoge el archivo “base.txt”

Copiar el siguiente código en R, sin modificar ninguna de sus líneas

genera <- function(cedula){


set.seed(cedula)
data <- uno[sample(1:5200,200),]
data
}
# Para crear la base de datos con la cual trabajara, debe ejecutar la siguiente línea:

datos <- genera(cedula)

# cedula representa el número de cedula de uno de los dos integrantes. En el trabajo


debe indicar cuál número de cédula usó.

Ingresar a R Commander, y cargar el archivo “datos”.

Con la base ya creada debe resolver las siguientes preguntas.

1. OK (25 pts.) Para las variables PROMSOCIALESYCIUDADANAS y


PROMCIENCIASNATURALES calcule: Media, Mediana y desviación estándar e
interprete sus resultados en el contexto de la información. Para la variable
JORNADA, elabore una tabla de porcentajes y el respectivo diagrama de
barras. Comente los resultados obtenidos en el gráfico.

2. OK (25 pts.) Si se considera la variable PROMLECTURACRITICA, ¿Esta se


comporta igual en para en los colegios Oficiales y No oficiales? Justifique su
respuesta. Elabore los gráficos que considere pertinentes. Estos deben ser
interpretados, en el contexto de los datos analizados.

3. (25 pts.) ¿Se puede afirmar que el puntaje promedio obtenido en la


componente de MATEMÁTICAS es mayor en los colegios cuya jornada es en la
mañana que el de los colegios cuya jornada es Nocturna? Justifique su
respuesta. Debe anexar los resúmenes y/o gráficos que considere pertinentes.

4. (25 pts.) Elabore una tabla de doble entrada para las variables
NATURALEZ y JORNADA, que contenga porcentajes. Si se consideran solo los
colegios con jornada en la mañana, ¿Se puede afirmar que el porcentaje de
Colegios Oficiales supera a de los colegios No-oficiales? Justifique su
respuesta. Puede anexar los resúmenes y/o gráficos que considere pertinentes.

El trabajo debe hacerse usando R o R-Commander.

Debe entregar un documento con la solución a las preguntas, SOLO en


formato pdf. Este documento debe cargarse en el curso en Moodle, en la
pestaña Trabajos – Trabajo I – Soporte Trabajo 1, en la carpeta que le
corresponde según su profesor y horario, antes de las 6:00 pm del lunes 27
de febrero de 2023.
1. Punto 1

Analisis :

Si se observan los datos de la media para cada jornada y para cada materia
si asi se puede interpretar es notorio que en promedio la jordana
COMPLETA tiene un mejor rendiemiento general en estas materias.

También se puede ver que en terminos generales la mayoría de los datos


estan cerca a la media pues esto es visible con la desviación estandar
.
2. Punto 2
3. Punto 3

4. Punto 4

También podría gustarte