Introducción al Manejo de datos estadísticos

Primer informe de la base de datos a analizar en el curso

Hecho por:
Juan Sebastián Pinilla Sánchez
C.C. 1110529960

Universidad Nacional
Medellín, 11 de abril de 2014

. en la medida en que este ya estaba orientado hacia la evaluación de competencias. Está conformado por cuatro pruebas de profundización y dos interdisciplinares. para evaluar la calidad de la educación impartida por los colegios. y todas las preguntas son cerradas: se presentan cuatro opciones de respuesta de las cuales una (y solo una) es correcta. Composición y finalidad u objetivos de las pruebas SABER 11 El “examen del ICFES”. Consta de aquellas pruebas que deben ser presentadas por todos los evaluados: •Lenguaje •Matemáticas •Biología •Física •Química •Ciencias Sociales •Filosofía •Inglés • Componente flexible.Base de datos Ranking de colegios por resultados en pruebas SABER 11 año 2012 La base fue compilada por la revista Dinero en un intento por estudiar la calidad de la educación media en Colombia y encontrar relación entre las diferentes variables identificadas. en cada colegio tales como el calendario. La reforma principal que se le ha hecho al examen del ICFES tuvo lugar en el año 2000. departamento. hoy llamado “SABER 11°”. •Núcleo común. El examen SABER 11° vigente cuenta con nueve pruebas listadas a continuación. Aunque no fuera su propósito inicial. Esta estructura se ha mantenido hasta la actualidad. de acuerdo con sus intereses: • Profundización en Lenguaje • Profundización en Matemáticas • Profundización en Sociales • Profundización en Biología •Interdisciplinares: • Medio ambiente • Violencia y sociedad Este examen se diligencia en su totalidad con papel y lápiz. No era un requisito para el ingreso a la educación superior en el país. ciudad y materia evaluada. La reforma de 2000 dio lugar a un examen con una estructura que sigue las áreas curriculares de educación media establecidas en los Lineamientos. Sólo se hicieron ajustes menores —y se han seguido haciendo— para adecuarse de la mejor manera posible a los Estándares. ocho en un núcleo común y una electiva. el mismo que volvió obligatoria la presentación del examen para ingresar a cualquier programa de educación superior. para el desempeño en la prueba. Cada evaluado escoge una de las siguientes. La aparición de los Estándares no exigió una reorientación del objeto de evaluación del examen SABER 11°. los resultados del examen del ICFES se empezaron a utilizar. fue creado en 1968 con el objeto exclusivo de apoyar los procesos de admisión de las universidades. se volvió obligatorio para ese propósito a partir de 1980. Esto quedó reglamentado en el Decreto 2343 de 1980. cada vez más. jornada.

la categorización de los colegios y estudios para la prevención de deserción en IES. Clasificación de los datos Se consideran como datos Cuasi-Experimentales pues la obtención de los mismos ha tenido cierto grado de control en la elección de preguntas a realizar en las pruebas SABER. Se selecciona el programa de hojas de cálculo como programa secundario o de apoyo para posibles modificaciones que se consideren realizar a la Base Maestra. por su variedad de opciones gráficas. que cumplen diferentes propósitos tales como la premiación y distinciones para estudiantes e instituciones. principalmente al programa estadístico R y como programa secundario al programa para el manejo de hojas de cálculo del paquete de software libre llamado LibreOffice. . el uso de la prueba para la admisión a programas de educación superior. Además. por su gran cantidad de documentación y por ser un programa libre de costo económico (gratuito). Se decide elegir el programa R porque es un software ligero. jornada y calendario. Análisis de datos. sólo se tomarán en cuenta las materias pertenecientes al núcleo común pues son las únicas que se detallan en la base de datos.El examen arroja resultados a nivel individual e institucional. por su capacidad para almacenar y manejar gran cantidad de datos y para realizar trabajos estadísticos de alto nivel. selección de programa para el manejo de datos Se selecciona como programas para el manejo de la base de datos. Un análisis inicial (para el presente informe) se hará haciendo uso de promedios de resultados tanto generales como de materias por variables tales como ciudad o departamento.

Promedio general Promedio general de la prueba para Medida numérica cada colegio.092 estudiantes. Calendario Tipo de calendario académico usado Medida cualitativa por la institución educativa para la distribución del tiempo destinado a ejecución y evaluación de actividades académicas. B. y el último con el más bajo De 1 a 12.617 colegios distintos. Esta cantidad aparece en color rojo si el número de evaluados representa menos de un 90% de los estudiantes del colegio.Diccionario de la base de datos Ranking de colegios por resultados en las pruebas SABER 11 del año 2012 Tabla de variables presentes en la base de datos Nombre variable Definición Escala de medición Puesto Nacional Ordena de forma descendente cada Cantidad entera colegio según su valor del promedio general. Solo se tiene uno de los siguientes valores por colegio: A. En naranja aparecen los datos por verificar. El calendario académico debe determinar las fechas precisas de iniciación y finalización de las siguientes actividades. Medida cualitativa se repite cuando éste posee más de una jornada Sin restricción de nombre. menos de 12. siendo el numero uno el colegio con más alto promedio Gral. alfanumérico. Entre 0 y 100 Química Promedio de los resultados en la Entre 0 y 100 Medida numérica Rango . Entre 30 y 72 Matemáticas Promedio de los resultados en la Medida numérica materia Matemáticas obtenidos por decimal el colegio. Alumnos evaluados Cantidad de alumnos evaluados por Cantidad entera la institución. que puede ir de cero a decimal cien (aunque ningún colegio se ubica en algún extremo). F(1) y F(2). Este promedio se puede considerar como la variable principal de la base de datos.617 Colegio Nombre respectivo de cada colegio. sobre la cual se estudiará la relación que pueden guardar el resto de variables con ésta. Entre 1 y 1.

Medida numérica decimal Entre 0 y 100 Biología Promedio de los resultados en la materia Biología obtenidos por el colegio.E. por lo cual existen 8 decimal columnas con el mismo nombre. a su vez. Existen cinco jornadas: -Completa u ordinaria -Mañana -Noche -Sabatina-Dominical -Tarde Nota: para la materia Inglés. Medida numérica decimal Entre 0 y 100 D. Medida numérica decimal Entre 0 y 100 Filosofía Promedio de los resultados en la materia Filosofía obtenidos por el colegio. Entre 0 y 36 Ciudad Hace referencia a la ciudad a la cual Dato cualitativo pertenece el colegio evaluado. Cualquiera de los 32 departamentos. decimal Física Promedio de los resultados en la materia Física obtenidos por el colegio. se evalúa de forma aparte a cualquier otra jornada presente en el colegio. Medida numérica decimal Entre 0 y 100 Lenguaje Promedio de los resultados en la materia Lenguaje obtenidos por el colegio. No se conoce la procedencia exacta ni el modo de cálculo de estos datos. Cualquier ciudad de país que posea por lo menos una institución de educación media. Jornada Indica el tipo de jornada referente al Dato cualitativo colegio y que. cada una ubicada en la primera columna a la derecha después de cada materia. . Departamento Hace referencia a la ciudad a la cual Dato cualitativo pertenece el colegio evaluado. Medida numérica decimal Entre 0 y 100 Sociales Promedio de los resultados en la materia Sociales obtenidos por el colegio. la base registra datos faltantes y sin conocimiento de causa. Desviación estándar respectiva a Medida numérica cada materia. el programa R los identificará como NA's.materia Química obtenidos por el colegio. Medida numérica decimal Entre 0 y 100 Inglés Promedio de los resultados en la materia Inglés obtenidos por el colegio.

78  Ciudades con mayor número de colegios Ciudad Bogotá Cantidad de 1664 colegios  Cali Medellín Barranquilla Cartagena Cúcuta 598 467 392 249 174 Departamentos con mayor número de colegios Departamento Bogotá Valle Cundinamarca Antioquia Santander Atlántico Cantidad de colegios 1203 950 689 633  1664 1475 Cantidad de colegios por calendario académico Calendario A Calendario B Calendario F(1) Calendario F(2) 10034 Colegios 344 Colegios 660 Colegios 1579 Colegios  Cantidad de colegios por jornada académica Mañana Tarde Completa u ordinaria Noche Sabatina-Dominical 4783 colegios 1583 colegios 3890 colegios 1471 colegios 890 colegios  Resumen del número de estudiantes evaluados por colegio Mínimo Primer cuartil Mediana Tercer cuartil Media Máximo Total de estudiantes 1 17 32 61 1092 579712 45.7 39.35 45.00 Mediana 43.78 43.40 67.95 .93 45.50 29.6 65.88 43.00 30.40 68.40 45.30 43.00 20.10 43.40 44.00 29.ANÁLISIS DE LA BASE COMPLETA  Resumen por materia para el total de los colegios Promedio Matemáticas Química Física Biología Filosofía Inglés Lenguaje Sociales Gral.70 84.00 24.50 43.2 39.40 83.12 44.30 23.94 44.00 20.70 Promedio Aritmético 43.30 Máximo 71.30 65.00 67.50 41. Mínimo 33.02 44.10 91.0 21.90 44.

30 33.40 Media 44.60 71.90 Mediana 43.50 44.30 Máximo 67.30 37.43 .40 55.70 63.15 54.73 40.20 40.80 Mediana 43.66 40.40 56. Resumen comparativo de resultados por calendario académico A B F(1) F(2) Mínimo 33.70 58.32 41.50 71.04  Resumen comparativo de resultados por jornada académica Mañana Tarde Completa u ordinaria Noche SabatinaDominical Mínimo 34.60 40.71 45.12 42.50 53.75 41.00 Media 44.00 33.60 40.70 43.30 34.10 62.70 Máximo 67.50 33.26 43.00 33.10 33.

seguido del calendario A. encontramos que en general son mejores los resultados del calendario B. mediana y el máximo mas bajo de entre todas las materias. que presentan las medias y medianas mas altas. presentan la media y la mediana más alta. Calendario académico Tenemos que la mayor parte de los colegios (al rededor de 10 mil) estudian en calendario A. Además. Adicional a esto. caso contrario a los colegios del calendario B. Tarde.Materias Aunque la materia con el resultado mínimo más bajo es sociales. . En el otro extremo tenemos a Lenguaje y a Química (Las materias con mejor desempeño). luego tenemos a la jornada de la Tarde seguido de la Noche (con al rededor de 1500 colegios cada una). en orden le sigue la jornada Mañana. aunque los máximos se encuentran en Matemáticas e Inglés. encontramos que es la jornada Completa u ordinaria la que presenta el mejor desempeño promedio en la prueba. Ciudades y departamentos en la prueba Se hace comprensible y lógico que quienes tengan más cantidad de colegios sean las ciudades y departamentos más poblados. finalmente la jornada Sabatina-Dominical es la que cuenta con menor numero de colegios (menos de mil). por lo cual es la materia con peor desempeño en la prueba. El calendario con peores resultados es el calendario F(2). que son el menor número de colegios (344). Jornada académica Tenemos que la mayoría de los colegios (al rededor de 5 mil) estudian en la jornada Mañana. seguido de los colegios de la jornada Completa u ordinaria (4 mil aproximadamente). Noche y SabatinaDominical. filosofía es quien presenta media.

25 53.70 84.77 53.00 44.55 54.92 .05 55.50 46.00 57.10 91.50 70.00 44.40 67.60 65.40 68.65 53.04 53.40 83.50 48.30 45.ANÁLISIS PARA LOS PRIMEROS MIL COLEGIOS  Resumen por materia Promedio Matemáticas Química Física Biología Filosofía Inglés Lenguaje Sociales Gral.70 Promedio Aritmético 55.03 48.00 40.80 53. Mínimo 50.30 35.00 323 50918 50.50 48.00 61.00 51.10 46.35 54.15 Máximo 71.23 59.00 Mediana 54.30 65.40 53.74 64.00 67.66  Ciudades con mayor número de colegios Ciudad Bogotá Cantidad de 307 colegios  Cali Medellín Barranquilla Cartagena Bucaramanga 77 45 41 27 28 Departamentos con mayor número de colegios Departamento Bogotá Valle Cundinamarca Antioquia Santander Atlántico Cantidad de colegios 107 97 69 49  307 94 Cantidad de colegios por calendario académico Calendario A Calendario B Calendario F(1) Calendario F(2) 739 223 22 16  Cantidad de colegios por jornada académica Mañana Tarde Completa u ordinaria Noche Sabatina-Dominical 315 30 649 4 2  Resumen del número de estudiantes evaluados por colegio Mínimo Primer cuartil Mediana Tercer cuartil Media Máximo Total de estudiantes 1 20 38.

60 50.40 56.57 54.27% 0.60 50.20 Máximo 67.70 50.40 Media 54.59 55.25 58.50 50.89 54.01%  Resumen comparativo de resultados por jornada académica Mañana Tarde Completa u ordinaria Noche SabatinaDominical Mínimo 50. Resumen comparativo de resultados por calendario académico A B F(1) F(2) Mínimo 50.00 Media 54.45 1.50 71.68% 0.80 55.45 54.70 53.30 58.60 50.90 Mediana 53.45 Máximo 67.89% 16.80 54.70 63.82% 3.70 51.85 53.40 55.22% Porcentaje de colegios 6.70 Mediana 53.51 Porcentaje de colegios en los primeros mil 7.47 55.50 50.36% 64.60 71.05 53.59% en los primeros mil .10 52.10 62.14 52.33% 1.70 58.

también los máximos y mínimos. que presentan las medias y medianas más altas. en orden le sigue la jornada Noche. encontramos que en general los mejores resultados del grupo son los del calendario B. de sus colegios integrantes en el grupo de los mil.3% de cada jornada). Jornada académica Tenemos que la mayoría de los colegios (649) estudian en la jornada Completa siendo un 16. Mañana. Ciudades y departamentos en la prueba Se observa que las 6 ciudades que mayor colegios presentan en este grupo de mil. luego tenemos a los colegios del calendario B. luego tenemos a la jornada de la Tarde con 30 de sus colegios (un 2%) en el grupo de los mil mejores. Con una baja representación están los colegios del calendario F(1) y los del F(2) con 3% y 1%. presentan la media y la mediana más alta.Materias Se observa por su media y mediana que la materia con peor desempeño en la prueba dentro de este selecto grupo de los primeros mil es de nuevo filosofía.7% del total de esta jornada . que tienen a 223 de sus 344 colegios (un 65% de su clase) en el grupo de los mil. son las mismas que más colegios tienen en todo el país excepto por el caso de Cúcuta que ya no aparece en éste grupo de 6 para dar el último lugar a la ciudad de Bucaramanga. En penúltimo puesto Física. . encontramos que es la jornada Completa u ordinaria la que presenta el mejor desempeño promedio en la prueba.Sabatina-Dominical y Tarde. seguido del calendario F(1) y en el mismo orden el calendario F(2) y el calendario A. Además. Adicional a esto. finalmente tenemos a los grupos de la Noche y la jornada Sabatina-Dominical que cuentan con menor numero de colegios al tener sólo 4 y 2 respectivamente (un 0. En el otro extremo tenemos a Inglés seguido de Matemáticas. seguido de los colegios de la jornada Mañana (315) con un 6.6% de los colegios de la jornada. Calendario académico Tenemos que la mayor parte de los colegios (739) estudian en calendario A que representan a su vez un 7 por ciento de los colegios del mismo calendario. respectivamente.

70 84.70 Promedio Aritmético 64.30 57.80 53.90 52.75 63.93 64.60 65.50 Mediana 63.27 58.61  Ciudades con mayor número de colegios Ciudad Bogotá Cantidad de 43 colegios  Cali Medellín Barranquilla Barrancabermeja Floridablanca 13 2 6 3 3 Departamentos con mayor número de colegios Departamento Bogotá Valle Cundinamarca Antioquia Santander Atlántico Cantidad de colegios 15 7 8 6  43 7 Cantidad de colegios por calendario académico Calendario A Calendario B Calendario F(1) Calendario F(2) 26 72 1 1  Cantidad de colegios por jornada académica Mañana Tarde Completa u ordinaria Noche Sabatina-Dominical 12 0 88 0 0  Resumen del número de estudiantes evaluados por colegio Mínimo Primer cuartil Mediana Tercer cuartil Media Máximo Total de estudiantes 6 21 47 62.90 56.30 48.38 56.25 187 5031 50.80 54. Mínimo 62.20 59.70 58.95 61.71 82.20 70.30 65.95 61.75 56.ANÁLISIS PARA LOS PRIMEROS CIEN COLEGIOS  Resumen por materia Promedio Matemáticas Química Física Biología Filosofía Inglés Lenguaje Sociales Gral.40 83.40 67.54 59.29 70.40 67.50 83.65 70.10 91.80 Máximo 71.31 .40 67.05 58.00 62.99 59.

70 63.60 71.70 NA NA Media 63.40 NA 71.50 63.27 64.10 62.10 62.85 63.25% en los primeros cien .00 63.10 62.40 Porcentaje de colegios en los primeros cien 0.26% 20.10 NA 62.50 NA 63.10 62.65 NA NA Máximo 67.40 Máximo 67.35 NA NA 0% 2. Resumen comparativo de resultados por calendario académico A B F(1) F(2) Mínimo 62.40 Mediana 63.85 NA 64.06%  Resumen comparativo de resultados por jornada académica Mañana Tarde Completa u ordinaria Noche SabatinaDominical Mínimo 62.26% 0% 0% Porcentaje de colegios 0.93% 0.40 Media 64.34 63.10 62.00 NA NA Mediana 63.15% 0.

también los máximos y mínimos. que tienen a 26 colegios (un 0.Materias Se observa por su media y mediana que la materia con peor desempeño en la prueba dentro de este selecto grupo de los primeros cien es de nuevo filosofía. Ciudades y departamentos en la prueba Se observa que las se mantienen las primeras 4 ciudades del total y del grupo de los mil. de sus colegios integrantes en el grupo de los cien (sólo hay de a 1 colegio de estas jornadas en los cien). Además. el resto de jornadas no tienen colegios que hagan parte de los cien mejores.06%.25% de los colegios de la jornada. seguido de los colegios de la jornada Mañana (12) con un 0. Jornada académica Tenemos que la mayoría de los colegios (88) estudian en la jornada Completa siendo un 2. Adicional a esto. encontramos que es la jornada Completa u ordinaria la que presenta el mejor desempeño promedio en la prueba. que presentan las medias y medianas más altas. . seguido del calendario A y en el mismo orden el calendario F(1) y el calendario F(2). Con una baja representación están los colegios del calendario F(1) y los del F(2) con 0. Esta vez no aparece Cartagena ni Cúcuta para dar lugar a las ciudades nororientales de Floridablanca y Barrancabermeja.3% de su clase) en el grupo de los cien. respectivamente. En el otro extremo tenemos de nuevo a Inglés seguido de Matemáticas. luego tenemos a los colegios del calendario B.3% del total de esta jornada .15% y 0. En penúltimo puesto Sociales. encontramos que en promedio los mejores resultados del grupo son los del calendario B. Calendario académico Tenemos que la mayor parte de los colegios (72) estudian en calendario B que representan a su vez un 21 por ciento de los colegios del mismo calendario.

Los otros calendarios parecen no ser los más adecuados para un óptimo desempeño.  El calendario más sobresaliente en la prueba es el calendario B. Por otro lado. Una alternativa un poco más justa. en el que se encuentran los colegios que se desempeñan mejor en el examen. las ciudades que mejor desempeño muestran son. Seguido está el calendario A con una moderada representación entre los mejores colegios.  En cuanto a la jornada académica son mejores los colegios de jornadas Completas u ordinarias. el segundo puesto se lo lleva la jornada de la Mañana. las más pobladas y con mayor número de colegios. sin duda alguna. Barrancabermeja y Floridablanca. Filosofía que fue la que en los tres grupos estudiados presentó peor desempeño. Una explicación para este último fenómeno es el hecho de que la materia de Filosofía queda en último lugar en el pliego de preguntas. por lo que además del posible cansancio mental experimentado por los estudiantes que pueden llevar a un desempeño distinto en la materia que si estuviera al principio. a su vez. también da posibilidad a que sea una materia en la cual no se lean todas las preguntas o se le dedique mucho tiempo porque ya esté muy próximo el tiempo de finalización del examen. las que menos y que precisan de más atención son Sociales. Cabe notar que Santander es un departamento que sobresale en gran medida en los mejores desempeños del examen por 3 ciudades: Bucaramanga.  Las materias que en general hacen a un colegio sobresalir en las pruebas son Matemáticas e Inglés.Conclusiones  En general. Física y. podría ser poner las preguntas en orden aleatorio y sin agrupar. .

slideshare.co/examenes/component/docman/doc_view/775-alineacion-del-examen-saber11?Itemid= http://www.icfes.dropbox.pdf .net/DrWalterLopezMoreno/presentation-r https://www.gov.com/s/5peouk33iaceb4r/manual_rb.Bibliografía – Cibergrafía    www.

csv".ICFES2012PCIEN$DEPARTAMENTO.EVALUADOS) sum(ICFES2012PMIL$ALUMNOS.ICFES2012PCIEN$JORNADA. summary) by(ICFES2012PMIL$PROMEDIO.EVALUADOS) by(ICFES2012PCIEN$PROMEDIO.". sep=".EVALUADOS) by(ICFES2012$PROMEDIO.csv("20121126_Documento_165135_20121123. summary) by(ICFES2012PCIEN$PROMEDIO.] summary(ICFES2012PMIL) summary(ICFES2012PMIL$ALUMNOS. summary) by(ICFES2012$PROMEDIO.EVALUADOS) sum(ICFES2012$ALUMNOS.GENERAL. dec=". summary) #Los mejores 1000 colegios ICFES2012PMIL=ICFES2012[-(1001:12617).ICFES2012PMIL$CALENDARIO.GENERAL.EVALUADOS) sum(ICFES2012PCIEN$ALUMNOS.ICFES2012PMIL$DEPARTAMENTO. summary) by(ICFES2012$PROMEDIO.GENERAL.GENERAL.EVALUADOS) by(ICFES2012PMIL$PROMEDIO.GENERAL.ICFES2012PMIL$CIUDAD.ICFES2012PCIEN$CALENDARIO. summary) by(ICFES2012PMIL$PROMEDIO. summary) by(ICFES2012$PROMEDIO.ICFES2012$CALENDARIO.ICFES2012$CIUDAD. summary) by(ICFES2012PCIEN$PROMEDIO.] summary(ICFES2012PCIEN) summary(ICFES2012PCIEN$CIUDAD) summary(ICFES2012PCIEN$ALUMNOS.Anexo: Script para primer análisis de la base: “Ranking de colegios por resultados en las pruebas SABER 11 del año 2012” #Análisis de la base completa ICFES2012=read. summary) by(ICFES2012PCIEN$PROMEDIO. summary) .GENERAL.ICFES2012PMIL$JORNADA.GENERAL.GENERAL.") summary(ICFES2012) summary(ICFES2012$ALUMNOS.ICFES2012$DEPARTAMENTO.ICFES2012$JORNADA.GENERAL.GENERAL. summary) by(ICFES2012PMIL$PROMEDIO.GENERAL.GENERAL. summary) #Los mejores 100 colegios ICFES2012PCIEN=ICFES2012[-(101:12617). header=T.ICFES2012PCIEN$CIUDAD.

Sign up to vote on this title
UsefulNot useful