Está en la página 1de 11

ANALISIS DESCRIPTIVO, MODELO DE REGRESIÓN SIMPLE Y MULTIPLE DE LAS

PRUEBAS SABER 11 DEL SEGUNDO SEMTRE DEL 2011 EN LAS PRINCIPALES


CIUDADES DE COLOMBIA

Estudiantes:

HAWAR YUPANKY ESPINOSA VEGA

FREDDY NEIRA ROA

Profesora:

TULIA ESTHER RIVERA FLÓREZ

UNIVERSIDAD INDUSTRIAL DE SANTANDER

2014
OBJETIVO GENERAL

Analizar de manera descriptiva y estadísticos multivariables la base de datos de las


pruebas SABER11 del segundo período del año 2011 efectuado a los bachilleres y
graduados de las ciudades de Bucaramanga y las principales capitales de Colombia
(Bogotá, Medellín, Cali y Barranquilla).

MODELO DE REGRESIÓN LINEAL SIMPLE

Para realizar esta regresión, realizamos una nueva base de datos en la cual
eliminamos los datos de Bucaramanga para así poder realiza un modelo de regresión
lineal simple de las demás ciudades.

Tomamos las variables, puntaje en lenguaje, ciencias sociales, biología, filosofía,


química, física e ingles y hallamos las correlaciones para ver cuáles de estas tiene
mejor correlación con la variable puntaje en matemáticas (ver Tabla 5)
Tabla 5. Tabla de correlaciones entre los diferentes puntajes

De acuerdo a la tabla la variable que mejor se correlaciona con el puntaje en


matemáticas es el puntaje en ciencias sociales con una correlación de 0.563, le siguen
las variables puntaje en lenguaje con 0.545, puntaje en física con 0.544, puntaje en
biología con 0.539, la que menos correlación presenta con el puntaje en matemáticas
es la variable puntaje en ingles con 0.443, a pesar de esto no hay gran diferencia entre
las diferentes correlaciones (ver Tabla 6)

Tabla 6. Tabla de correlación entre la variable puntaje en matemáticas y las demás


variables
De acuerdo a lo anterior el primer modelo que escogimos fue escoger como variable
independiente el puntaje en ciencias sociales ya que fue la variable con la cual se
encontró mayor correlación que fue de 0.563 para lo cual obtuvimos lo siguiente:

Resumen del modelo

Modelo R R cuadrado R cuadrado Error típ. de la


corregida estimación
a
1 ,563 ,317 ,317 9,77859

a. Variables predictoras: (Constante), CIENCIAS_SOCIALES_PUNT


Tabla 7. Modelo de regresión lineal simple tomando como variable independiente el
puntaje en ciencias sociales.

El segundo modelo escogido fue expresar el puntaje en matemáticas tomando como


variable independiente el puntaje en lenguaje ya que fue la segunda variable con la
cual se encontró mayor correlación

Resumen del modelo

Modelo R R cuadrado R cuadrado Error típ. de la


corregida estimación
a
1 ,545 ,297 ,297 9,92318

a. Variables predictoras: (Constante), LENGUAJE_PUNT


Tabla 8. Modelo de regresión lineal simple tomando como variable independiente el
puntaje en lenguaje.

El tercero modelo escogido fue expresar el puntaje en matemáticas tomando como


variable independiente el puntaje en física ya que tenía una correlación muy similar a la
variable independiente anterior.

Resumen del modelo

Modelo R R cuadrado R cuadrado Error típ. de la


corregida estimación
a
1 ,544 ,296 ,296 9,92612
a. Variables predictoras: (Constante), FISICA_PUNT
Tabla 9. Modelo de regresión lineal simple tomando como variable independiente el
puntaje en física.

Se puede observar que el mayor R cuadrado encontrado fue de 0,317 entre las
variables puntaje en matemáticas y puntaje en ciencias sociales, aunque no sea
cercana a 1 fue la mejor que encontramos, por lo cual continuaremos con nuestro
análisis con este modelo. (Ver tablas 7, 8 y 9)

Prueba de significancia de la pendiente

Tabla 10. Modelo de regresión lineal simple tomando como variable independiente el
puntaje en ciencias sociales.

PRUEBA T: realizaremos la prueba de hipótesis para el parámetro β 1:


H 0 : β 1=0
H a : β1≠ 0

Desviación estándar estimada de b 1, sb 1=0,002 (en la tabla: error típico de la variable


puntaje en ciencias sociales)

Estadístico de prueba:

b1
t=
sb 1

0,641
t=
0,002

t=269,552
El valor bilateral de t que corresponde a α =0.05 y con 156497 grados de libertad es
t 0.025=1 , 96

Como 269,552 > 1,96 se rechaza H 0 y podemos concluir que a un nivel de significancia
de 0.05; β 1 ≠ 0. La evidencia obtenida es suficiente para decir que existe una relación
entre las variables puntaje en matemáticos y puntaje en ciencias sociales.

PRUEBA F: realizaremos la prueba de hipótesis para el parámetro β 1,

H 0 : β 1=0
H a : β1≠ 0

ANOVAa

Modelo Suma de gl Media F Sig.


cuadrados cuadrática

Regresión 6947632,189 1 6947632,189 72658,103 ,000b

1 Residual 14964381,722 156497 95,621

Total 21912013,912 156498

a. Variable dependiente: MATEMATICAS_PUNT


b. Variables predictoras: (Constante), CIENCIAS_SOCIALES_PUNT

Tabla 11. Tabla ANOVA para el modelo de regresión lineal simple tomando como
variable independiente el puntaje en ciencias sociales.

 F=72658,103; un grado de libertad en el numerador y 156497 en el


denominador F 0.05=3 , 84
 Como 72658,103>3 , 84 rechazamos H 0 y concluimos que a un nivel de

significancia de 0.05, β 1 ≠ 0
Figura 9. Diagrama de dispersión para el modelo lineal simple escogido

Como podemos observar en la gráfica anterior la nube de puntos no describe para


nada una tendencia lineal, a pesar de esto debido al análisis realizado del R cuadrado y
a las dos pruebas de hipótesis que rechazaban H 0, concluimos que este es el mejor
modelo que se ajusta a una regresión lineal tomando como variable dependiente el
puntaje en matemáticas.

Ecuación estimada:
^y =18,325+ 0,641 x

El intercepto en esta ecuación representa el valor pronosticado para la variable del


puntaje en matemáticas, mientras que la pendiente de la ecuación es positiva lo que
implica que al aumentar una unidad el puntaje en ciencias sociales aumenta 0,641 el
puntaje en matemáticas.

MODELO DE REGRESIÓN LINEAL MÚLTIPLE

En el modelo de regresión lineal simple obtuvimos la ecuación ^y =18,325+ 0,641 x ,


donde x representa el puntaje en ciencias sociales y ^y el puntaje en matemáticas,
ahora para este punto vamos a tener en cuenta dos modelos a los cuales les
agregaremos las variables puntaje en lenguaje y puntaje en física respectivamente ya
que estas fueron las variables que mas correlación presentaron con el puntaje en
matemáticas a parte del puntaje en ciencias sociales, luego lo comparamos y
decidiremos cual es mejor.

Modelo 1: puntaje en matemáticas tomando como variables predictoras el puntaje en


ciencias sociales y lenguaje

ANOVAa

Modelo Suma de gl Media F Sig.


cuadrados cuadrática

Regresión 8427753,012 2 4213876,506 48905,522 ,000b

1 Residual 13484260,900 156496 86,164

Total 21912013,912 156498

a. Variable dependiente: MATEMATICAS_PUNT


b. Variables predictoras: (Constante), CIENCIAS_SOCIALES_PUNT, LENGUAJE_PUNT
Tabla 12. Tabla ANOVA para el primer modelo de regresión lineal
múltiple

Modelo 2: puntaje en matemáticas tomando como variables predictoras el puntaje en


ciencias sociales y física.

ANOVAa

Modelo Suma de gl Media F Sig.


cuadrados cuadrática

Regresión 9324107,563 2 4662053,782 57959,819 ,000b

2 Residual 12587906,349 156496 80,436

Total 21912013,912 156498

a. Variable dependiente: MATEMATICAS_PUNT


b. Variables predictoras: (Constante), FISICA_PUNT, CIENCIAS_SOCIALES_PUNT
Tabla 13. Tabla ANOVA para el segundo modelo de regresión lineal múltiple

De acuerdo a las tablas ANOVA obtenidas en los modelos anteriores, para el primer
modelo la suma de cuadrados residual es de 13484260,900 mientras que para el
segundo modelo esta es de 12587906,349 y la suma de cuadrados total es igual para
los dos modelos, por lo cual procedemos a escoger el modelo 2 ya que la suma de
cuadrados residual es menor en este (ver Tablas 12 y 13)
Resumen del modelo

Modelo R R cuadrado R cuadrado Error típ. de la


corregida estimación

2 ,652a ,426 ,426 8,96861

a. Variables predictoras: (Constante), FISICA_PUNT,


CIENCIAS_SOCIALES_PUNT

Tabla 14. Modelo de regresión lineal múltiple escogido

Obteniendo como modelo estimado ^y =6,588+0,456 X 1 +0,448 X 2, donde X 1representa el


puntaje en ciencias sociales X 2 el puntaje en física y ^y el puntaje en matemáticas (ver
Tabla 14)

Comparando los dos modelos (modelo lineal simple y modelo lineal múltiple) podemos
ver que la suma de cuadrados total es igual para los dos pero la suma de cuadrados
residual es menor para el modelo de regresión lineal múltiple, con un coeficiente de
determinación ajustado de 0,426 esto significa que este modelo de regresión tiene un
mejor ajuste para los datos obtenidos y nos va a ayudar a predecir mejor el puntaje en
matemáticas. (ver Tablas 11 y 13)

PRUEBA F: prueba de hipótesis para los parámetros β 1 , β 2:


H 0 : β 1=β 2=0
H a : β1≠ 0 o β2≠ 0

 F=72658,103; un grado de libertad en el numerador y 156497 en el


denominador F 0.05=3 , 84
 F a=57959,819
 72658,103 > 57959,819
 rechazamos H 0 : β 1=β 2=0
 concluimos que existe una relación significativa entre el puntaje de matemáticas
y las dos variables independientes: puntaje en ciencias sociales y puntaje en
física
 El valor p= ,000 obtenido en la tabla 14, también nos indica que podemos
rechazar H 0 : β 1=β 2=0. Porque el valor de p <α .

CONCLUSIONES

1. Los estudiantes de Bucaramanga ocuparon mejores posiciones que los


estudiantes de otras ciudades y obtuvieron mejores puntajes en la prueba de
matemáticas. (Figuras 5 y 6)
2. No hay ninguna variable numérica que tenga una fuerte correlación con el
puntaje en matemáticas (Figura 5)
3. Los datos nos muestran que el puntaje de ciencias sociales nos proporcionan el
mejor modelo de regresión lineal simple al tomar como variable dependiente el
puntaje en matemáticas y como independiente el puntaje en ciencias sociales ya
que al realizar las pruebas de significancia F y T y el análisis de R cuadrado se
obtuvieron favorables para el modelo. (Tablas 7, 10 y 11)
4. Según el modelo de regresión lineal múltiple el puntaje en matemáticas no solo
se relaciona con el puntaje de ciencias sociales si no que al compararlo con el
puntaje obtenido en física se observa un mejor modelo ya que matemáticas y
física son materias que están ligadas debido a que en ambas de manejan ciertos
contenidos similares, por cual se procedió a hacer el análisis de R cuadrado y de
la prueba de significancia F obteniendo como resultado que estos datos son los
que mejor se ajustan a este modelo. (Tablas 13 y 14)
5. El modelo de regresión con variables categóricas que utilizamos no ofrece un
ajuste adecuado a los datos, según la prueba T realizada se podría relacionar el
puntaje en matemáticas con el estrato pero no con si el colegio al que pertenece
un estudiante es bilingüe o no. (Tabla 15)

También podría gustarte