Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Segunda Entrega
Integrantes:
Felipe Flores.
Carlos Puchi.
Alex Vega.
Tema
Realizaremos este trabajo, para saber si conociendo como empleamos nuestro tiempo,
podemos olvidarnos de estresados días en que se juntan Pruebas, trabajos y otras
actividades evaluadas. Por ello, a través de las variables seleccionadas, podremos
conocer para nuestro futuro universitario como llevar a cabo de la mejor manera nuestro
trabajo de estudiar.
Nuestra base de datos a coincidió con la solicitud de este trabajo, hemos tomado una
encuesta realizada a estudiantes universitarios, en donde se han considerado notas
promedio de los años de estudios, el nivel de vagancia, la importancia que se le dan a
este tipo de trabajos y la realización de estos teniendo que luchar con distintas otras
actividades como la dedicación a la pareja.
Esta base de datos resultó de obtención de información referente al tema, de estudios en
estereotipos sociales o también en la simple cotidianidad de nuestras vidas, tomando
distintas encuestas realizadas a estudiantes a trabe de plataforma Google.
La idea es saber ¿Influirán en el modo en el que utilizaremos el tiempo para realizar un
trabajo, antes de su fecha de entrega?
Hipótesis de Partida
- Plazo (en días): cuanto más tiempo se tenga hasta la entrega del trabajo, más
tiempo tenemos para el comienzo de este (Signo positivo del parámetro).
- Pareja: los estudiantes con pareja tardarán más en empezar el trabajo que el
estudiante que esté soltero. (Signo positivo del parámetro).
- Sexo: percepción de que las mujeres son más organizadas que los hombres, nos
hace pensar que administraran mejor el tiempo que los hombres, aunque esto no
es una regla fija. Por ello pensamos que el tiempo que tarda una mujer en
empezar un trabajo será menor que el de un hombre. (Signo positivo del
parámetro).
- Estructura: al ser un trabajo hecho en grupo, hay más personas para ponerse de
acuerdo para repartirse las tareas, empezar el trabajo, quedar para trabajar.
(Signo positivo del parámetro).
- Nivel de vago: cuanto más flojo sea el estudiante, más tiempo pasará hasta que
este empiece el trabajo. (Signo positivo del parámetro).
- Nota media: cuanto mayor sea la nota media que ha obtenido a lo largo de su
carrera estudiantil, menor será el tiempo que transcurrirá hasta el comienzo del
trabajo. (Signo positivo del parámetro).
- Grado de importancia: cuanto mayor sea la importancia del trabajo sobre la nota
final de la asignatura, menor será el tiempo que transcurrirá desde que se manda
hasta su comienzo. (Signo positivo del parámetro).
Datos
Metodología Empleada
Hemos utilizado una muestra de 115 personas para llevar a cabo este estudio. Estas
personas respondieron a una encuesta enviada a alumnos universitarios a través de
Google Docs. Además, para recoger y realizar el estudio, utilizaremos los programas
Excel y R studio.
Se observa como las variables Nota Media, Grado de Importancia, Sexo y Pareja
presentan una asimetría negativa y el resto de variables presentan asimetría positiva.
Con esta tabla podemos ver como hay más estudiantes con pareja que realizan nuestro
estudio, que los que se encuentran solteros, ya que el valor de la media de esta variable
es superior a 0,61, por lo que en la tabulación se aproxima a 1 = Pareja.
También se puede observar como el tiempo medio para comenzar un trabajo es de 4,73
días, y que el máximo en el que los estudiantes lo comienzan es de 15 días.
Un dato curioso que podemos observar es que la variable vagancia se sitúa en un valor
de 3,32, por lo que podemos deducir que hay bastantes estudiantes que le cuesta iniciar
en la elaboración de un trabajo, en nuestro estudio.
Gráficos de dispersión X-Y
Tiempo
Tiempo
concon
respecto
respecto
a Nota
al Plazo
Media
16 Tiempo con respecto a la Importancia
Vagancia
14
16 16
12
f(x)= =− 0.59
f(x) 2.18 xx −+ 2.48
20.83 14 14
10
12 12
Tiempo
Tiempo
Tiempo
6 8 8
4 6 6
2 4 4
0
30 45 5 10 6 15 7 20 8 25
9 30 2
10 2
0 0
NotaPlazo
Media 0 1.5 1 2 2 2.5 3 34 3.55 46 4.57 58 9
5.5
Vagancia
Importancia
Gráficos de cajas
Matriz de Correlaciones
Esta matriz muestra las relaciones existentes entre las variables del modelo, es decir,
cuanto dependen unas de otras. Los datos superiores al 0,8 denota una dependencia alta.
Debemos de tener en cuenta que los valores altos también pueden significar la presencia
de multicolinealidad, en nuestro caso, las variables Nota Media y Actividades presentan
valores superiores a 0,8, por lo que en principio nuestro modelo sufriría de
multicolinealidad.
Planteamiento del Modelo Econométrico
Los datos anteriormente mostrados en la tabla respeto a las variables muestran que:
La variable Nota Media: por cada punto que aumenta la nota media, el tiempo hasta
comenzar el trabajo disminuirá en 2,067831064 días.
El Grado de Importancia: nos muestra un curioso comportamiento, ya que, cuando
aumenta la importancia en un punto, el tiempo de inicio aumenta en 0,206803508 días.
La variable Vagancia: si la vagancia de los estudiantes aumenta en un punto, el tiempo
que tardará el estudiante en comenzar el trabajo aumentará en 0,032676284 días.
La variable Sexo: si el estudiante es hombre, aumentará 0,072829437 días más en
empezar un trabajo que si el estudiante es mujer.
La variable relación (Pareja): es curioso, que si los estudiantes tienen una relación,
disminuirá en 0,081549555 días en relación con otro estudiante que no tenga pareja.
La variable estructura: si el trabajo debe realizarse en grupo, se empleará
0,048945907 días más para empezar que si fuera de forma individual. (El parámetro
tiene signo positivo)
La variable actividad: si aumenta en una unidad las hora al día dedicadas a actividades, el
tiempo hasta que se empieza el trabajo disminuirá en 0,270977254 días.
La variable plazo (medido en días): si el plazo aumenta en un día, el tiempo hasta que se
comienza a realizar aumentará en 0,118137702 días.
2 2
El R de este modelo es de 0,934465858 y respecto al R ajustado podemos indicar que
su valor es 0,929519885, lo que es un llamado de atención de colinealidad entre las
variables.
Las variables Nota Media y Plazo se puede indicar que son significativas ya que
presentan valores menores a 0,05 y la variable Actividades está levemente sobre 0,05,
por lo que puede presentar algo de significancia. Todas las restantes variables no son
significativas ya que presentan valores > a 0,05
Luego se puede indicar que de acuerdo al valor crítico de F que es de 4,25559 e -59, el
modelo es en su conjunto significativo.
Multicolinealidad
Detección Multicolinealidad
Regla
R^2 original R^2 ij Comparación Vif 1/(1-R^2) Resultado
Decisión
0,934 0,567 R^2ij <R^2 original 2,311 <5 No hay multicolinealidad
0,934 0,695 R^2ij <R^2 original 3,280 <5 No hay multicolinealidad
0,934 0,894 R^2ij <R^2 original 9,436 >5 Hay multicolinealidad
0,934 0,227 R^2ij <R^2 original 1,294 <5 No hay multicolinealidad
0,934 0,813 R^2ij <R^2 original 5,347 >5 Hay
multicolinealidad
0,934 0,414 R^2ij <R^2 original 1,707 <5 No hay multicolinealidad
0,934 0,043 R^2ij <R^2 original 1,045 <5 No hay multicolinealidad
0,934 0,753 R^2ij <R^2 original 4,049 <5 No hay multicolinealidad
X1 X2 X3 X4 X5 D6 D7 D8
Tras realizar un test de colinealidad, podemos observar que hay dos de nuestras variables
dan un valor superior a 5, ello da muestra de la existencia de colinealidad en el modelo.
Se observa que no hay una normalidad en el error, hay valores que son atípicos y hay que
evaluar su influencia. Al realizar la búsqueda de datos atípicos con R Studio, hemos
encontrado 4 datos atípicos.
> sum(abs(rstandard(modelo))>2)
[1] 4
> sum(hat>(2*((ncol(BDT_Eco)-1)+1)/nrow(BDT_Eco)))
[1] 5
También realizamos por medio de R Studio una comparación de los modelos para el
modelo de todas las regresiones posibles, considerando los R^2 ajustados, CP Mallow y
suma de cuadrados de los residuales, obteniéndose lo siguiente:
Realizando la operación con R Studio para crear modelos auxiliares y evaluar de forma
ascendente y descendente, considerando también en ambas direcciones hemos obtenido
el siguiente modelo:
En ascendente:
Step: AIC=-59.21
Y ~ X3 + X5 + D8 + X4 + X1
Df Sum of Sq RSS AIC
<none> 61.909 -59.215
+ D7 1 0.289360 61.620 -57.754
+ D6 1 0.058358 61.851 -57.323
+ X2 1 0.006382 61.903 -57.227
Call:
lm(formula = Y ~ X3 + X5 + D8 + X4 + X1)
Coefficients:
(Intercept) X3 X5 D8 X4 X1
17.2963 -1.9877 0.1284 0.2893 -0.1466 0.2316
En descendente:
Step: AIC=-59.21
Y ~ X1 + X3 + X4 + X5 + D8
Call:
lm(formula = Y ~ X1 + X3 + X4 + X5 + D8, data = BDT_Eco)
Coefficients:
(Intercept) X1 X3 X4 X5 D8
17.2963 0.2316 -1.9877 -0.1466 0.1284 0.2893
Step: AIC=-59.21
Y ~ X1 + X3 + X4 + X5 + D8
Call:
lm(formula = Y ~ X1 + X3 + X4 + X5 + D8, data = BDT_Eco)
Coefficients:
(Intercept) X1 X3 X4 X5 D8
17.2963 0.2316 -1.9877 -0.1466 0.1284 0.2893
Nuevo Modelo:
Se puede apreciar que de las tres maneras el menor AIC nos entrega el mismo modelo.
Se realizaron pruebas con modelos Lin-log, log – log, cuadrados, divisiones, multiplicar entre
variables cuantitativas y todas mostraron multicolinealidad considerando todas las variables.
Conclusión
Podemos apreciar que existe multicolinealidad en nuestro modelo de análisis. Lo que se
aprecia en la matriz de correlación, en los datos de la regresión. La problemática se nos
presenta porque al realizar muchos modelos nuevos, del tipo Lin – Log, Log – Log,
variables cuantitativas al cuadrado, dividiendo por otra variable, multiplicando por otra
variable, o eliminando variables, se nos sigue presentando multicolinealidad y
heterocedasticidad.
Por medio de R Studio determinamos un mejor modelo para todas las regresiones
posibles considerando el menor valor de AIC (Akaike) y esto nos ha entregado el mejor
modelo en las tres eventualidades, ascendente, descendente y ambas direcciones. Pero
si vemos los datos de la regresión lineal de este modelo podemos seguir viendo que hay
presencia de datos colineales. Es un tanto extraño, ya que las variables no debieran
presentar un alto grado de correlación en los análisis, debido a su naturaleza, ya que un
promedio de notas no debiera correlacionarse con hacer un trabajo individual o grupal.