Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Camila Wiesner-202022384
Taller 1 practico
1.1 Abran la base de datos Saber 11 2022.dta y exploren los datos para responder:
A la hora de sacar las estadísticas descriptivas de la variable de edad, nos dimos cuenta de
que esta contaba con valores atípicos en el mínimo y máximo de la función. Ya que,
aparecía que el rango de edad de las personas que habían tomado el examen era de 0 a 70
años, lo cual resulta poco probable, puesto que una persona de 0 años no podría haber
tomado el examen.
De igual manera, después de realizar un histograma evidenciamos que los datos atípicos
son pocos y distantes al promedio, lo que resulta en una grafica con colas muy largas. Por
estos motivos, tomamos la decisión de tener en cuenta únicamente los datos más
representativos, considerando el promedio de edad de las personas que toman la prueba, y
eliminamos los datos de las personas menores a 15 años.
En primer lugar, se puede ver como el promedio de porcentaje de lectura critica de las
personas que tomaron el examen en el 2022-4 fue de 52.80 entre 100 posibles puntos.
Igualmente, la desviación estándar de esta variable es la más grande dentro de las 3, lo cual
permite afirmar que la variable tiene cambios y datos “atípicos”.
En segundo lugar, se denota que el promedio del INSE está en 47.55, siendo
extremadamente cercano a su mediana (47.66). Ahora bien, el INSE es de los tres
indicadores el segundo en tener una desviación estándar más alta, lo que quiere significar
que los datos están más dispersos con respecto a su media. Es decir, la media pierde un
poco de significancia, pues los datos sobre el indicador socioeconómico varían mucho y no
se concentran uniformemente alrededor de 47.55 (la media).
En tercer lugar, se ve como la edad promedio de las personas que tomaron el icfes en el
2022-4 en estos municipios fue de 18 años. La persona más joven que tomó el examen tenía
16 años, y la más vieja 39 años. No obstante, en esta variable, se puede ver como la
mediana es más pequeña que la media, lo que significa que estos datos tampoco se
distribuyen uniformemente alrededor de su promedio.
A primera vista las gráficas evidencian una distribución normal, pues en las dos figuras se
observa una función cóncava similar una campana de gauss y parece que ambas tienen el
valor medio de la función en su centro. No obstante, después de realizar una prueba Shapiro
Wilk para ver el desplazamiento de la variable, se rechaza la hipótesis de que la gráfica
INSE presente una distribución normal. Esto debido a que el valor p es menor que el 0.05
de significancia, por lo que no hay suficiente evidencia estadística para establecer que los
datos siguen una distribución normal.
2.3 Realice un histograma del puntaje por cada cuartil del INSE. ¿qué se puede
concluir?
De acuerdo con los histogramas una gran parte de los datos pertenecen al cuartil 2 y
3, pues el ingreso del 42 al 52 presenta una alta frecuencia en comparación a otros
cuartiles. Esto indica que la población en general se encuentra dentro del promedio
pues el INSE tiene un rango de 0 a 100 y esta centrado en 50 con una dispersión de
10 unidades alrededor de la media ( ICFES, 2019)
2.6. Considera que la muestra puede ser representativa para concluir sobre la
relación entre el puntaje y la edad para los municipios analizados?
De acuerdo con los datos otorgados en la muestra no se podría realizar afirmaciones sobre
la relación entre el puntaje y la edad pues no hay suficiente evidencia estadística que apoye
esta relación. De igual manera, consideramos que para dar conclusiones sobre esta relación
se necesita una muestra más grande y tener en cuenta otros factores diferentes a la edad que
pueden llegar a influir en el resultado del puntaje. Para decretar conclusiones de la relación
se debería hacer un análisis estadístico más profundo con estas variables. Se necesita mas
información que respalde la hipótesis de esta relación, por lo que sería interesante acceder a
datos de múltiples años u otros municipios.
Referencias:
https://support.zendesk.com/hc/es/articles/4408839402906-La-media-vs-la-mediana
Alejandra López-202021409
Camila Wiesner-202022384
Alejandra López-202021409
Camila Wiesner-202022384