Está en la página 1de 9

Alejandra López-202021409

Camila Wiesner-202022384

Taller 1 practico

1.1 Abran la base de datos Saber 11 2022.dta y exploren los datos para responder:

1.1.1. ¿Cuál es la fuente de estos datos?


La fuente de los datos es el ICFES. En específico, es el conjunto de datos acerca de la
encuesta socioeconómica del icfes unidos con los resultados de la prueba, para el año 2022
en el periodo 4.

1.1.2. ¿Cuál es la unidad de observación? es decir, ¿qué representa una fila?


La unidad de observación es: un estudiante que tomó la prueba del ICFES en el 2022,
periodo 4.

1.1.3. ¿Qué información contienen las columnas?


Las columnas contienen información general de cada alumno. Desde género, edad, estrato
socioeconómico, estas también brindan información del desempeño de los estudiantes en
las pruebas estandarizadas de competencias básicas.
1.4 Compruebe que no haya valores extraños. En caso de que encuentren
valores extraños en los datos, haga las correcciones que considere pertinentes y
justifíquenlas.

A la hora de sacar las estadísticas descriptivas de la variable de edad, nos dimos cuenta de
que esta contaba con valores atípicos en el mínimo y máximo de la función. Ya que,
aparecía que el rango de edad de las personas que habían tomado el examen era de 0 a 70
años, lo cual resulta poco probable, puesto que una persona de 0 años no podría haber
tomado el examen.

De igual manera, después de realizar un histograma evidenciamos que los datos atípicos
son pocos y distantes al promedio, lo que resulta en una grafica con colas muy largas. Por
estos motivos, tomamos la decisión de tener en cuenta únicamente los datos más
representativos, considerando el promedio de edad de las personas que toman la prueba, y
eliminamos los datos de las personas menores a 15 años.

Ilustración 1. Histograma de edad


Alejandra López-202021409
Camila Wiesner-202022384

Parte 2: Análisis de Datos

Variables # observaciones media DE min máx. Var Mediana

Lectura critica 185 52.80 9.215 33 79 84.91 53


INSE 172 47.54 7.497 31.31 71.65 56.21 47.66
edad 185 18.13 3.162 16 39 10.00 17

2.1 Presente las principales estadísticas descriptivas de las variables de interés


(puntaje en lectura crítica, INSE, y edad). Presente una tabla con la
información del número de observaciones, promedio, desviación estándar,
valor mínimo, mediana y valor máximo de las variables solicitadas.

En primer lugar, se puede ver como el promedio de porcentaje de lectura critica de las
personas que tomaron el examen en el 2022-4 fue de 52.80 entre 100 posibles puntos.
Igualmente, la desviación estándar de esta variable es la más grande dentro de las 3, lo cual
permite afirmar que la variable tiene cambios y datos “atípicos”.

En segundo lugar, se denota que el promedio del INSE está en 47.55, siendo
extremadamente cercano a su mediana (47.66). Ahora bien, el INSE es de los tres
indicadores el segundo en tener una desviación estándar más alta, lo que quiere significar
que los datos están más dispersos con respecto a su media. Es decir, la media pierde un
poco de significancia, pues los datos sobre el indicador socioeconómico varían mucho y no
se concentran uniformemente alrededor de 47.55 (la media).

En tercer lugar, se ve como la edad promedio de las personas que tomaron el icfes en el
2022-4 en estos municipios fue de 18 años. La persona más joven que tomó el examen tenía
16 años, y la más vieja 39 años. No obstante, en esta variable, se puede ver como la
mediana es más pequeña que la media, lo que significa que estos datos tampoco se
distribuyen uniformemente alrededor de su promedio.

2.2 Ahora, presente un gráfico de la distribución de la variable del puntaje y


otro grafico para la distribución del INSE. . Que se puede concluir? . ¿Para el
caso del INSE, representa mejor la realidad la media o la mediana?
Alejandra López-202021409
Camila Wiesner-202022384

Ilustración 2.Distribución lectura critica

Ilustración 3.Distribución INSE


Alejandra López-202021409
Camila Wiesner-202022384

A primera vista las gráficas evidencian una distribución normal, pues en las dos figuras se
observa una función cóncava similar una campana de gauss y parece que ambas tienen el
valor medio de la función en su centro. No obstante, después de realizar una prueba Shapiro
Wilk para ver el desplazamiento de la variable, se rechaza la hipótesis de que la gráfica
INSE presente una distribución normal. Esto debido a que el valor p es menor que el 0.05
de significancia, por lo que no hay suficiente evidencia estadística para establecer que los
datos siguen una distribución normal.

Shapiro Wilk W prueba para datos normales


Variable Obs W V z Prob>z
INSE 172 0.982 2.308 1.910 0.028

lecturacritica 185 0.987 1.853 1.413 0.079

Para el caso de la grafica de distribución de la variable INSE, el uso de la mediana podría


resultar más informativo que el de la media. La mediana al depender del valor central y no
de la magnitud de todos los valores es menos sensible ante los valores atípicos y puede
llegar a proporcionar una tendencia más precisa en distribuciones asimétricas
(Orman,2022).

2.3 Realice un histograma del puntaje por cada cuartil del INSE. ¿qué se puede
concluir?

Ilustración 4.Distribución cuartil 1 del INSE


Alejandra López-202021409
Camila Wiesner-202022384

Ilustración 5.Distribución cuartil 2 del INSE

Ilustración 6.Distribución cuartil 3 del INSE


Alejandra López-202021409
Camila Wiesner-202022384

De acuerdo con los histogramas una gran parte de los datos pertenecen al cuartil 2 y
3, pues el ingreso del 42 al 52 presenta una alta frecuencia en comparación a otros
cuartiles. Esto indica que la población en general se encuentra dentro del promedio
pues el INSE tiene un rango de 0 a 100 y esta centrado en 50 con una dispersión de
10 unidades alrededor de la media ( ICFES, 2019)

2.5 Realice un gráfico de dispersión entre la variable del puntaje y el INSE.


¿Qué tipo de relación parece existir entre las dos variables?

Ilustración 8. Correlación:Extraido de https://www.probabilidadyestadistica.net/correlacion/


Alejandra López-202021409
Camila Wiesner-202022384

A simple vista el grafico de dispersión evidencia una correlación positiva débil,


pues los datos no siguen estrictamente una misma tendencia, pero estos no parecen
tener una correlación nula pues se observa un leve patrón de distribución. Después
de realizar una correlación se encuentra un valor de (0.269) lo que da evidencia
estadística para afirmar una leve correlación positiva.

2.6. Considera que la muestra puede ser representativa para concluir sobre la
relación entre el puntaje y la edad para los municipios analizados?

De acuerdo con los datos otorgados en la muestra no se podría realizar afirmaciones sobre
la relación entre el puntaje y la edad pues no hay suficiente evidencia estadística que apoye
esta relación. De igual manera, consideramos que para dar conclusiones sobre esta relación
se necesita una muestra más grande y tener en cuenta otros factores diferentes a la edad que
pueden llegar a influir en el resultado del puntaje. Para decretar conclusiones de la relación
se debería hacer un análisis estadístico más profundo con estas variables. Se necesita mas
información que respalde la hipótesis de esta relación, por lo que sería interesante acceder a
datos de múltiples años u otros municipios.

Referencias:

ICFES. (2019). SABER AL DETALLE. Edición 4. ISSN: 2590-4663.


https://www2.icfes.gov.co/documents/39286/2231027/Edicion+4+
+boletin+saber+al+detalle+.pdf/f9a33ad6-7559-99a5-5f7f-16d2f9b16f76?
version=1.4&t=1678150151066

Orman, E. (2022). La media vs. la mediana. Ayuda de Zendesk.

https://support.zendesk.com/hc/es/articles/4408839402906-La-media-vs-la-mediana
Alejandra López-202021409
Camila Wiesner-202022384


Alejandra López-202021409
Camila Wiesner-202022384

También podría gustarte