Trabajo-Final-Topicos Patricia

ANALISIS DESCRIPTIVO, MODELO DE REGRESIÓN SIMPLE Y MULTIPLE DE LAS
PRUEBAS SABER 11 DEL SEGUNDO SEMTRE DEL 2011 EN LAS PRINCIPALES

CIUDADES DE COLOMBIA
Estudiantes:
HAWAR YUPANKY ESPINOSA VEGA
FREDDY NEIRA ROA
Profesora:
TULIA ESTHER RIVERA FLÓREZ
UNIVERSIDAD INDUSTRIAL DE SANTANDER
2014
OBJETIVO GENERAL
Analizar de manera descriptiva y estadísticos multivariables la base de datos de las

pruebas SABER11 del segundo período del año 2011 efectuado a los bachilleres y
graduados de las ciudades de Bucaramanga y las principales capitales de Colombia
(Bogotá, Medellín, Cali y Barranquilla).
MODELO DE REGRESIÓN LINEAL SIMPLE
Para realizar esta regresión, realizamos una nueva base de datos en la cual
eliminamos los datos de Bucaramanga para así poder realiza un modelo de regresión
lineal simple de las demás ciudades.
Tomamos las variables, puntaje en lenguaje, ciencias sociales, biología, filosofía,

química, física e ingles y hallamos las correlaciones para ver cuáles de estas tiene
mejor correlación con la variable puntaje en matemáticas (ver Tabla 5)
Tabla 5. Tabla de correlaciones entre los diferentes puntajes
De acuerdo a la tabla la variable que mejor se correlaciona con el puntaje en

matemáticas es el puntaje en ciencias sociales con una correlación de 0.563, le siguen
las variables puntaje en lenguaje con 0.545, puntaje en física con 0.544, puntaje en
biología con 0.539, la que menos correlación presenta con el puntaje en matemáticas
es la variable puntaje en ingles con 0.443, a pesar de esto no hay gran diferencia entre
las diferentes correlaciones (ver Tabla 6)
Tabla 6. Tabla de correlación entre la variable puntaje en matemáticas y las demás

variables
De acuerdo a lo anterior el primer modelo que escogimos fue escoger como variable
independiente el puntaje en ciencias sociales ya que fue la variable con la cual se
encontró mayor correlación que fue de 0.563 para lo cual obtuvimos lo siguiente:
Resumen del modelo
Modelo R R cuadrado R cuadrado Error típ. de la

corregida estimación
a
1 ,563 ,317 ,317 9,77859
a. Variables predictoras: (Constante), CIENCIAS_SOCIALES_PUNT

Tabla 7. Modelo de regresión lineal simple tomando como variable independiente el
puntaje en ciencias sociales.
El segundo modelo escogido fue expresar el puntaje en matemáticas tomando como

variable independiente el puntaje en lenguaje ya que fue la segunda variable con la
cual se encontró mayor correlación
Resumen del modelo

a
1 ,545 ,297 ,297 9,92318
a. Variables predictoras: (Constante), LENGUAJE_PUNT

puntaje en lenguaje.
El tercero modelo escogido fue expresar el puntaje en matemáticas tomando como

variable independiente el puntaje en física ya que tenía una correlación muy similar a la
variable independiente anterior.
Resumen del modelo

a
1 ,544 ,296 ,296 9,92612
a. Variables predictoras: (Constante), FISICA_PUNT
puntaje en física.
Se puede observar que el mayor R cuadrado encontrado fue de 0,317 entre las
variables puntaje en matemáticas y puntaje en ciencias sociales, aunque no sea
cercana a 1 fue la mejor que encontramos, por lo cual continuaremos con nuestro
análisis con este modelo. (Ver tablas 7, 8 y 9)
Prueba de significancia de la pendiente
puntaje en ciencias sociales.
PRUEBA T: realizaremos la prueba de hipótesis para el parámetro β 1:

H 0 : β 1=0
H a : β1≠ 0
Desviación estándar estimada de b 1, sb 1=0,002 (en la tabla: error típico de la variable

puntaje en ciencias sociales)
Estadístico de prueba:
b1
t=
sb 1
0,641
t=
0,002
t=269,552
El valor bilateral de t que corresponde a α =0.05 y con 156497 grados de libertad es
t 0.025=1 , 96
Como 269,552 > 1,96 se rechaza H 0 y podemos concluir que a un nivel de significancia
de 0.05; β 1 ≠ 0. La evidencia obtenida es suficiente para decir que existe una relación
entre las variables puntaje en matemáticos y puntaje en ciencias sociales.
PRUEBA F: realizaremos la prueba de hipótesis para el parámetro β 1,
H 0 : β 1=0
H a : β1≠ 0
ANOVAa
Modelo Suma de gl Media F Sig.

cuadrados cuadrática
Regresión 6947632,189 1 6947632,189 72658,103 ,000b
1 Residual 14964381,722 156497 95,621
Total 21912013,912 156498
a. Variable dependiente: MATEMATICAS_PUNT

b. Variables predictoras: (Constante), CIENCIAS_SOCIALES_PUNT
Tabla 11. Tabla ANOVA para el modelo de regresión lineal simple tomando como
variable independiente el puntaje en ciencias sociales.
 F=72658,103; un grado de libertad en el numerador y 156497 en el

denominador F 0.05=3 , 84
 Como 72658,103>3 , 84 rechazamos H 0 y concluimos que a un nivel de
significancia de 0.05, β 1 ≠ 0
Figura 9. Diagrama de dispersión para el modelo lineal simple escogido
Como podemos observar en la gráfica anterior la nube de puntos no describe para

nada una tendencia lineal, a pesar de esto debido al análisis realizado del R cuadrado y
a las dos pruebas de hipótesis que rechazaban H 0, concluimos que este es el mejor
modelo que se ajusta a una regresión lineal tomando como variable dependiente el
puntaje en matemáticas.
Ecuación estimada:
^y =18,325+ 0,641 x
El intercepto en esta ecuación representa el valor pronosticado para la variable del

puntaje en matemáticas, mientras que la pendiente de la ecuación es positiva lo que
implica que al aumentar una unidad el puntaje en ciencias sociales aumenta 0,641 el
puntaje en matemáticas.
MODELO DE REGRESIÓN LINEAL MÚLTIPLE
En el modelo de regresión lineal simple obtuvimos la ecuación ^y =18,325+ 0,641 x ,

donde x representa el puntaje en ciencias sociales y ^y el puntaje en matemáticas,
ahora para este punto vamos a tener en cuenta dos modelos a los cuales les
agregaremos las variables puntaje en lenguaje y puntaje en física respectivamente ya
que estas fueron las variables que mas correlación presentaron con el puntaje en
matemáticas a parte del puntaje en ciencias sociales, luego lo comparamos y
decidiremos cual es mejor.
Modelo 1: puntaje en matemáticas tomando como variables predictoras el puntaje en

ciencias sociales y lenguaje
ANOVAa

Regresión 8427753,012 2 4213876,506 48905,522 ,000b
1 Residual 13484260,900 156496 86,164
Total 21912013,912 156498

b. Variables predictoras: (Constante), CIENCIAS_SOCIALES_PUNT, LENGUAJE_PUNT
Tabla 12. Tabla ANOVA para el primer modelo de regresión lineal
múltiple
Modelo 2: puntaje en matemáticas tomando como variables predictoras el puntaje en

ciencias sociales y física.
ANOVAa

Regresión 9324107,563 2 4662053,782 57959,819 ,000b
2 Residual 12587906,349 156496 80,436
Total 21912013,912 156498

b. Variables predictoras: (Constante), FISICA_PUNT, CIENCIAS_SOCIALES_PUNT
Tabla 13. Tabla ANOVA para el segundo modelo de regresión lineal múltiple
De acuerdo a las tablas ANOVA obtenidas en los modelos anteriores, para el primer
modelo la suma de cuadrados residual es de 13484260,900 mientras que para el
segundo modelo esta es de 12587906,349 y la suma de cuadrados total es igual para
los dos modelos, por lo cual procedemos a escoger el modelo 2 ya que la suma de
cuadrados residual es menor en este (ver Tablas 12 y 13)
Resumen del modelo

2 ,652a ,426 ,426 8,96861
a. Variables predictoras: (Constante), FISICA_PUNT,

CIENCIAS_SOCIALES_PUNT
Tabla 14. Modelo de regresión lineal múltiple escogido
Obteniendo como modelo estimado ^y =6,588+0,456 X 1 +0,448 X 2, donde X 1representa el

puntaje en ciencias sociales X 2 el puntaje en física y ^y el puntaje en matemáticas (ver
Tabla 14)
Comparando los dos modelos (modelo lineal simple y modelo lineal múltiple) podemos
ver que la suma de cuadrados total es igual para los dos pero la suma de cuadrados
residual es menor para el modelo de regresión lineal múltiple, con un coeficiente de
determinación ajustado de 0,426 esto significa que este modelo de regresión tiene un
mejor ajuste para los datos obtenidos y nos va a ayudar a predecir mejor el puntaje en
matemáticas. (ver Tablas 11 y 13)
PRUEBA F: prueba de hipótesis para los parámetros β 1 , β 2:

H 0 : β 1=β 2=0
H a : β1≠ 0 o β2≠ 0
 F=72658,103; un grado de libertad en el numerador y 156497 en el

denominador F 0.05=3 , 84
 F a=57959,819
 72658,103 > 57959,819
 rechazamos H 0 : β 1=β 2=0
 concluimos que existe una relación significativa entre el puntaje de matemáticas
y las dos variables independientes: puntaje en ciencias sociales y puntaje en
física
 El valor p= ,000 obtenido en la tabla 14, también nos indica que podemos
rechazar H 0 : β 1=β 2=0. Porque el valor de p <α .
CONCLUSIONES
1. Los estudiantes de Bucaramanga ocuparon mejores posiciones que los

estudiantes de otras ciudades y obtuvieron mejores puntajes en la prueba de
matemáticas. (Figuras 5 y 6)
2. No hay ninguna variable numérica que tenga una fuerte correlación con el
puntaje en matemáticas (Figura 5)
3. Los datos nos muestran que el puntaje de ciencias sociales nos proporcionan el
mejor modelo de regresión lineal simple al tomar como variable dependiente el
puntaje en matemáticas y como independiente el puntaje en ciencias sociales ya
que al realizar las pruebas de significancia F y T y el análisis de R cuadrado se
obtuvieron favorables para el modelo. (Tablas 7, 10 y 11)
4. Según el modelo de regresión lineal múltiple el puntaje en matemáticas no solo
se relaciona con el puntaje de ciencias sociales si no que al compararlo con el
puntaje obtenido en física se observa un mejor modelo ya que matemáticas y
física son materias que están ligadas debido a que en ambas de manejan ciertos
contenidos similares, por cual se procedió a hacer el análisis de R cuadrado y de
la prueba de significancia F obteniendo como resultado que estos datos son los
que mejor se ajustan a este modelo. (Tablas 13 y 14)
5. El modelo de regresión con variables categóricas que utilizamos no ofrece un
ajuste adecuado a los datos, según la prueba T realizada se podría relacionar el
puntaje en matemáticas con el estrato pero no con si el colegio al que pertenece
un estudiante es bilingüe o no. (Tabla 15)

Trabajo-Final-Topicos Patricia

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Trabajo-Final-Topicos Patricia

Cargado por

Copyright:

Formatos disponibles

ANALISIS DESCRIPTIVO, MODELO DE REGRESIÓN SIMPLE Y MULTIPLE DE LAS

PRUEBAS SABER 11 DEL SEGUNDO SEMTRE DEL 2011 EN LAS PRINCIPALES

HAWAR YUPANKY ESPINOSA VEGA

FREDDY NEIRA ROA

TULIA ESTHER RIVERA FLÓREZ

UNIVERSIDAD INDUSTRIAL DE SANTANDER

Analizar de manera descriptiva y estadísticos multivariables la base de datos de las

MODELO DE REGRESIÓN LINEAL SIMPLE

Tomamos las variables, puntaje en lenguaje, ciencias sociales, biología, filosofía,

De acuerdo a la tabla la variable que mejor se correlaciona con el puntaje en

Tabla 6. Tabla de correlación entre la variable puntaje en matemáticas y las demás

Resumen del modelo

Modelo R R cuadrado R cuadrado Error típ. de la

a. Variables predictoras: (Constante), CIENCIAS_SOCIALES_PUNT

El segundo modelo escogido fue expresar el puntaje en matemáticas tomando como

Resumen del modelo

Modelo R R cuadrado R cuadrado Error típ. de la

a. Variables predictoras: (Constante), LENGUAJE_PUNT

El tercero modelo escogido fue expresar el puntaje en matemáticas tomando como

Resumen del modelo

Modelo R R cuadrado R cuadrado Error típ. de la

Prueba de significancia de la pendiente

PRUEBA T: realizaremos la prueba de hipótesis para el parámetro β 1:

Desviación estándar estimada de b 1, sb 1=0,002 (en la tabla: error típico de la variable

PRUEBA F: realizaremos la prueba de hipótesis para el parámetro β 1,

Modelo Suma de gl Media F Sig.

Regresión 6947632,189 1 6947632,189 72658,103 ,000b

1 Residual 14964381,722 156497 95,621

Total 21912013,912 156498

a. Variable dependiente: MATEMATICAS_PUNT

 F=72658,103; un grado de libertad en el numerador y 156497 en el

Como podemos observar en la gráfica anterior la nube de puntos no describe para

El intercepto en esta ecuación representa el valor pronosticado para la variable del

MODELO DE REGRESIÓN LINEAL MÚLTIPLE

En el modelo de regresión lineal simple obtuvimos la ecuación ^y =18,325+ 0,641 x ,

Modelo 1: puntaje en matemáticas tomando como variables predictoras el puntaje en

Modelo Suma de gl Media F Sig.

Regresión 8427753,012 2 4213876,506 48905,522 ,000b

1 Residual 13484260,900 156496 86,164

Total 21912013,912 156498

a. Variable dependiente: MATEMATICAS_PUNT

Modelo 2: puntaje en matemáticas tomando como variables predictoras el puntaje en

Modelo Suma de gl Media F Sig.

Regresión 9324107,563 2 4662053,782 57959,819 ,000b

2 Residual 12587906,349 156496 80,436

Total 21912013,912 156498

a. Variable dependiente: MATEMATICAS_PUNT

Modelo R R cuadrado R cuadrado Error típ. de la

2 ,652a ,426 ,426 8,96861

a. Variables predictoras: (Constante), FISICA_PUNT,

Tabla 14. Modelo de regresión lineal múltiple escogido

Obteniendo como modelo estimado ^y =6,588+0,456 X 1 +0,448 X 2, donde X 1representa el

PRUEBA F: prueba de hipótesis para los parámetros β 1 , β 2:

 F=72658,103; un grado de libertad en el numerador y 156497 en el

1. Los estudiantes de Bucaramanga ocuparon mejores posiciones que los

También podría gustarte