Está en la página 1de 14

Modelo Econométrico

Segunda Entrega

El tiempo empleado en la realización


de trabajos Universitarios

Integrantes:

Felipe Flores.

Carlos Puchi.

Alex Vega.
Tema
Realizaremos este trabajo, para saber si conociendo como empleamos nuestro tiempo,
podemos olvidarnos de estresados días en que se juntan Pruebas, trabajos y otras
actividades evaluadas. Por ello, a través de las variables seleccionadas, podremos
conocer para nuestro futuro universitario como llevar a cabo de la mejor manera nuestro
trabajo de estudiar.
Nuestra base de datos a coincidió con la solicitud de este trabajo, hemos tomado una
encuesta realizada a estudiantes universitarios, en donde se han considerado notas
promedio de los años de estudios, el nivel de vagancia, la importancia que se le dan a
este tipo de trabajos y la realización de estos teniendo que luchar con distintas otras
actividades como la dedicación a la pareja.
Esta base de datos resultó de obtención de información referente al tema, de estudios en
estereotipos sociales o también en la simple cotidianidad de nuestras vidas, tomando
distintas encuestas realizadas a estudiantes a trabe de plataforma Google.
La idea es saber ¿Influirán en el modo en el que utilizaremos el tiempo para realizar un
trabajo, antes de su fecha de entrega?
Hipótesis de Partida
- Plazo (en días): cuanto más tiempo se tenga hasta la entrega del trabajo, más
tiempo tenemos para el comienzo de este (Signo positivo del parámetro).

- Pareja: los estudiantes con pareja tardarán más en empezar el trabajo que el
estudiante que esté soltero. (Signo positivo del parámetro).

- Sexo: percepción de que las mujeres son más organizadas que los hombres, nos
hace pensar que administraran mejor el tiempo que los hombres, aunque esto no
es una regla fija. Por ello pensamos que el tiempo que tarda una mujer en
empezar un trabajo será menor que el de un hombre. (Signo positivo del
parámetro).

- Estructura: al ser un trabajo hecho en grupo, hay más personas para ponerse de
acuerdo para repartirse las tareas, empezar el trabajo, quedar para trabajar.
(Signo positivo del parámetro).

- Actividades: cuando un alumno tiene actividades extraescolares, tiene menos


tiempo para realizar trabajos, ya que tiene bastante tiempo ocupado con otras
obligaciones, aún así, los realiza, pero el tiempo hasta que comienza la realización
aumentará. (Signo positivo del parámetro).

- Nivel de vago: cuanto más flojo sea el estudiante, más tiempo pasará hasta que
este empiece el trabajo. (Signo positivo del parámetro).

- Nota media: cuanto mayor sea la nota media que ha obtenido a lo largo de su
carrera estudiantil, menor será el tiempo que transcurrirá hasta el comienzo del
trabajo. (Signo positivo del parámetro).

- Grado de importancia: cuanto mayor sea la importancia del trabajo sobre la nota
final de la asignatura, menor será el tiempo que transcurrirá desde que se manda
hasta su comienzo. (Signo positivo del parámetro).
Datos
Metodología Empleada
Hemos utilizado una muestra de 115 personas para llevar a cabo este estudio. Estas
personas respondieron a una encuesta enviada a alumnos universitarios a través de
Google Docs. Además, para recoger y realizar el estudio, utilizaremos los programas
Excel y R studio.

Definición de las Variables


Tiempoi = β1 + β2Plazoi + β3Parejai + β4Sexoi + β5Estructurai +β6Actividadesi +

β7Vaganciai + β8Notamediai + β9Importanciai + ui

Nombre de la Variable Tipo de Variable Descripción


Tiempo Endógena / Cuantitativa Tiempo entre el día que
mandan el trabajo y en el
que decides empezarlo
Plazo Explicativa / Cuantitativa Tiempo desde que se envía
a hacer, hasta el día de
entrega
Pareja Explicativa / Dicotómica Referida a si el individuo
tiene o no pareja,
codificándose 1 como “si” y
0 como “no”
Sexo Explicativa / Dicotómica Referida al sexo del
estudiante estableciendo 1
para “hombre” y 0 para
“mujer”
Estructura Explicativa / Dicotómica Hace referencia al número
de personas que participan
en el trabajo codificándola
como 1 para “grupo” y 0
para “individual”
Vagancia Explicativa / Cuantitativa Nivel de holgazanería
presentada por el
estudiante, a partir de una
autoevaluación en una
escala de 1 a 10 estudios
(clases de inglés, gimnasio,
prácticas,…)

Actividades Explicativa/Cuantitativa Horas dedicadas, desde


media hora a un día, a
realizar actividades no
relacionadas con los
estudios (clases de inglés,
gimnasio, prácticas,…).
Nota Media Explicativa / Cuantitativa Nota media actual de la
carrera medida de 0 a 10

Grado de Importancia Explicativa / Cuantitativa Importancia del trabajo


para la nota final en un
rango de 1 a 5
Análisis del Modelo Econométrico
Resumen de estadísticos descriptivos

Se observa como las variables Nota Media, Grado de Importancia, Sexo y Pareja
presentan una asimetría negativa y el resto de variables presentan asimetría positiva.

Con esta tabla podemos ver como hay más estudiantes con pareja que realizan nuestro
estudio, que los que se encuentran solteros, ya que el valor de la media de esta variable
es superior a 0,61, por lo que en la tabulación se aproxima a 1 = Pareja.
También se puede observar como el tiempo medio para comenzar un trabajo es de 4,73
días, y que el máximo en el que los estudiantes lo comienzan es de 15 días.
Un dato curioso que podemos observar es que la variable vagancia se sitúa en un valor
de 3,32, por lo que podemos deducir que hay bastantes estudiantes que le cuesta iniciar
en la elaboración de un trabajo, en nuestro estudio.
Gráficos de dispersión X-Y

Tiempo
Tiempo
concon
respecto
respecto
a Nota
al Plazo
Media
16 Tiempo con respecto a la Importancia
Vagancia
14
16 16
12
f(x)= =− 0.59
f(x) 2.18 xx −+ 2.48
20.83 14 14
10
12 12
Tiempo

8 10 10 f(x) = 1.33 x + 0.3

Tiempo
Tiempo
6 8 8
4 6 6
2 4 4
0
30 45 5 10 6 15 7 20 8 25
9 30 2
10 2
0 0
NotaPlazo
Media 0 1.5 1 2 2 2.5 3 34 3.55 46 4.57 58 9
5.5
Vagancia
Importancia
Gráficos de cajas

Matriz de Correlaciones

Esta matriz muestra las relaciones existentes entre las variables del modelo, es decir,
cuanto dependen unas de otras. Los datos superiores al 0,8 denota una dependencia alta.
Debemos de tener en cuenta que los valores altos también pueden significar la presencia
de multicolinealidad, en nuestro caso, las variables Nota Media y Actividades presentan
valores superiores a 0,8, por lo que en principio nuestro modelo sufriría de
multicolinealidad.
Planteamiento del Modelo Econométrico

Los datos anteriormente mostrados en la tabla respeto a las variables muestran que:
La variable Nota Media: por cada punto que aumenta la nota media, el tiempo hasta
comenzar el trabajo disminuirá en 2,067831064 días.
El Grado de Importancia: nos muestra un curioso comportamiento, ya que, cuando
aumenta la importancia en un punto, el tiempo de inicio aumenta en 0,206803508 días.
La variable Vagancia: si la vagancia de los estudiantes aumenta en un punto, el tiempo
que tardará el estudiante en comenzar el trabajo aumentará en 0,032676284 días.
La variable Sexo: si el estudiante es hombre, aumentará 0,072829437 días más en
empezar un trabajo que si el estudiante es mujer.
La variable relación (Pareja): es curioso, que si los estudiantes tienen una relación,
disminuirá en 0,081549555 días en relación con otro estudiante que no tenga pareja.
La variable estructura: si el trabajo debe realizarse en grupo, se empleará
0,048945907 días más para empezar que si fuera de forma individual. (El parámetro
tiene signo positivo)
La variable actividad: si aumenta en una unidad las hora al día dedicadas a actividades, el
tiempo hasta que se empieza el trabajo disminuirá en 0,270977254 días.
La variable plazo (medido en días): si el plazo aumenta en un día, el tiempo hasta que se
comienza a realizar aumentará en 0,118137702 días.
2 2
El R de este modelo es de 0,934465858 y respecto al R ajustado podemos indicar que
su valor es 0,929519885, lo que es un llamado de atención de colinealidad entre las
variables.
Las variables Nota Media y Plazo se puede indicar que son significativas ya que
presentan valores menores a 0,05 y la variable Actividades está levemente sobre 0,05,
por lo que puede presentar algo de significancia. Todas las restantes variables no son
significativas ya que presentan valores > a 0,05
Luego se puede indicar que de acuerdo al valor crítico de F que es de 4,25559 e -59, el
modelo es en su conjunto significativo.

Multicolinealidad

Detección Multicolinealidad

Regla
R^2 original R^2 ij Comparación Vif 1/(1-R^2) Resultado
Decisión
0,934 0,567 R^2ij <R^2 original 2,311 <5 No hay multicolinealidad
0,934 0,695 R^2ij <R^2 original 3,280 <5 No hay multicolinealidad
0,934 0,894 R^2ij <R^2 original 9,436 >5 Hay multicolinealidad
0,934 0,227 R^2ij <R^2 original 1,294 <5 No hay multicolinealidad
0,934 0,813 R^2ij <R^2 original 5,347 >5 Hay
multicolinealidad
0,934 0,414 R^2ij <R^2 original 1,707 <5 No hay multicolinealidad
0,934 0,043 R^2ij <R^2 original 1,045 <5 No hay multicolinealidad
0,934 0,753 R^2ij <R^2 original 4,049 <5 No hay multicolinealidad

Cálculo en R Studio: vif(modelo)

X1 X2 X3 X4 X5 D6 D7 D8

2.342418 3.358311 8.262180 1.609483 5.354147 1.322390 1.762027 1.136587

Tras realizar un test de colinealidad, podemos observar que hay dos de nuestras variables
dan un valor superior a 5, ello da muestra de la existencia de colinealidad en el modelo.

Supuesta Normalidad del Error y Jarque Bera

Jarque Bera Test

data: resid X-squared = 30.574, df = 2, p-value = 2.295e-07

Se observa que no hay una normalidad en el error, hay valores que son atípicos y hay que
evaluar su influencia. Al realizar la búsqueda de datos atípicos con R Studio, hemos
encontrado 4 datos atípicos.

> sum(abs(rstandard(modelo))>2)
[1] 4

Luego, realizamos un análisis de influyentes en R Studio, y nos arrojó 5 elementos


influyentes.

> sum(hat>(2*((ncol(BDT_Eco)-1)+1)/nrow(BDT_Eco)))
[1] 5

También realizamos por medio de R Studio una comparación de los modelos para el
modelo de todas las regresiones posibles, considerando los R^2 ajustados, CP Mallow y
suma de cuadrados de los residuales, obteniéndose lo siguiente:

> summary.out$adjr2 #r2 ajustado


[1] 0.9246784 0.9291425 0.9310947 0.9328861 0.9339726 0.9336727 0.9332537 0.9326289
> which.max(summary.out$adjr2)
[1] 5
> summary.out$cp #cp mallow
[1] 15.335267 8.796031 6.527742 4.580090 3.826024 5.326728 7.007642 9.000000
> which.min(summary.out$cp)
[1] 5
> summary.out$rss #suma cuadrados de los residuales
[1] 73.21573 68.26694 65.79332 63.50551 61.90944 61.62008 61.43515 61.43073
> which.min(summary.out$rss)
[1] 8

Evaluación de cambio de Modelo:

Realizando la operación con R Studio para crear modelos auxiliares y evaluar de forma
ascendente y descendente, considerando también en ambas direcciones hemos obtenido
el siguiente modelo:

En ascendente:
Step: AIC=-59.21
Y ~ X3 + X5 + D8 + X4 + X1
Df Sum of Sq RSS AIC
<none> 61.909 -59.215
+ D7 1 0.289360 61.620 -57.754
+ D6 1 0.058358 61.851 -57.323
+ X2 1 0.006382 61.903 -57.227

Call:
lm(formula = Y ~ X3 + X5 + D8 + X4 + X1)

Coefficients:
(Intercept) X3 X5 D8 X4 X1
17.2963 -1.9877 0.1284 0.2893 -0.1466 0.2316

En descendente:
Step: AIC=-59.21
Y ~ X1 + X3 + X4 + X5 + D8

Df Sum of Sq RSS AIC


<none> 61.909 -59.215
- X1 1 1.596 63.506 -58.288
- D8 1 2.262 64.171 -57.088
- X4 1 2.407 64.317 -56.828
- X5 1 7.165 69.074 -48.621
- X3 1 126.831 188.740 66.976

Call:
lm(formula = Y ~ X1 + X3 + X4 + X5 + D8, data = BDT_Eco)

Coefficients:
(Intercept) X1 X3 X4 X5 D8
17.2963 0.2316 -1.9877 -0.1466 0.1284 0.2893

Step: AIC=-59.21
Y ~ X1 + X3 + X4 + X5 + D8

Df Sum of Sq RSS AIC


<none> 61.909 -59.215
- X1 1 1.596 63.506 -58.288
+ D7 1 0.289 61.620 -57.754
+ D6 1 0.058 61.851 -57.323
+ X2 1 0.006 61.903 -57.227
- D8 1 2.262 64.171 -57.088
- X4 1 2.407 64.317 -56.828
- X5 1 7.165 69.074 -48.621
- X3 1 126.831 188.740 66.976

Call:
lm(formula = Y ~ X1 + X3 + X4 + X5 + D8, data = BDT_Eco)

Coefficients:
(Intercept) X1 X3 X4 X5 D8
17.2963 0.2316 -1.9877 -0.1466 0.1284 0.2893

Nuevo Modelo:

Y = 17,2963 + 0,2316 X1 – 1,9877 X3 - 0,1466 X4 + 0,1284 X5 + 0,2893 D8

Se puede apreciar que de las tres maneras el menor AIC nos entrega el mismo modelo.
Se realizaron pruebas con modelos Lin-log, log – log, cuadrados, divisiones, multiplicar entre
variables cuantitativas y todas mostraron multicolinealidad considerando todas las variables.

Conclusión
Podemos apreciar que existe multicolinealidad en nuestro modelo de análisis. Lo que se
aprecia en la matriz de correlación, en los datos de la regresión. La problemática se nos
presenta porque al realizar muchos modelos nuevos, del tipo Lin – Log, Log – Log,
variables cuantitativas al cuadrado, dividiendo por otra variable, multiplicando por otra
variable, o eliminando variables, se nos sigue presentando multicolinealidad y
heterocedasticidad.
Por medio de R Studio determinamos un mejor modelo para todas las regresiones
posibles considerando el menor valor de AIC (Akaike) y esto nos ha entregado el mejor
modelo en las tres eventualidades, ascendente, descendente y ambas direcciones. Pero
si vemos los datos de la regresión lineal de este modelo podemos seguir viendo que hay
presencia de datos colineales. Es un tanto extraño, ya que las variables no debieran
presentar un alto grado de correlación en los análisis, debido a su naturaleza, ya que un
promedio de notas no debiera correlacionarse con hacer un trabajo individual o grupal.

También podría gustarte