Está en la página 1de 14

UNIVERSIDAD CENTROCCIDENTAL LISANDRO ALVARADO DECANATO DE CIENCIAS Y TECNOLOG IA LICENCIATURA EN CIENCIAS MATEMATICAS BARQUISIMETO.

ESTADO LARA

Ejercicios de Regresiones lineales

Profesor: Abelardo Monsalve Realizado por: Rafael Gonzlez a

Problema 1. CRIME1.xls
La tabla muestra un conjunto de datos de 2725 elementos, que corresponden a 2725 hombres nacidos en California en 1960 o 1961 y que son relativos a arrestos en el ao 1986. Cada hombre de la muestra fue arrestado al menos n una vez antes de 1986. La variable (narr86) equivale al nmero de veces que u fue arrestado en 1986. La variable (pcnv) es la proporcin de arrestos anterio ores a 1986 que terminaron en condena, (avgsen) es la duracin media de la o condena por delitos anteriores, (ptime86) son los meses pasados en prisin en o 1986, y (qemp86) equivale al nmero de trimestres en los que el hombre tuvo u un empleo en 1986. Ajuste un modelo de regresin que explique los arrestos en o funcin del resto de variables. o

Solucin o
Estamos interesados en estimar un modelo que explique los arrestos (Narr86) en funcin de: o La proporcin de arrestos anteriores a 1986 que terminaron en condena o (pcnv) La duracin media de la condena por delitos anteriores (avgsen) o Los meses pasados en prisin en 1986 (ptime86) o El numero de trimestres que el hombre tuvo un empleo en 1986 (qemp86) Antes de ajustar el modelo requerido, veamos en un grco como se relacioa nan las variables seleccionadas,

Figura 1: Estudio de correlacin o

En el cuadro vemos que no puede decirse en primera instancia que hay una marcada tendencia lineal entre las variables, sin embargo al realizar los clculos para el modelo con el sistema estad a stico computarizado R obtenemos la siguiente salida:

Podemos apreciar que el p-valor para la variable avgsen es bastante alto, mayor a 0.10, y el coeciente de determinacin es casi despreciable, menor a o 0.05; estos datos nos indican que este modelo no es una representacin clara de o la realidad. Procedamos a buscar un modelo que se ajuste mejor. Al estudiar la correlacin entre las variables, observamos que el nmero de o u arrestos est fuertemente relacionado con el nmero de delitos(felony arrest a u nfarr86), y los arrestos por cr menes a la propiedad privada (property crime arrest nparr86), as que estas sern nuestras principales variables a tomar en a cuenta. Por otro lado, estudios realizados en Colombia por el profesor Jairo Nnez u (2001) (ver archivo adjunto), muestran que una razn por la que se cometen o cr menes es por falta de ingresos, as que la variable inc86, referente al ingreso en 1986, ser incluida en el modelo. a

Los resultados son

Como se puede ver, tanto los valores del estad stico t para los parametros estimados, como el coeciente de correlacin cambiaron satisfactoriamente, el o valor de R2 ajustado es casi de 0.7, esto ndica que el modelo explica bien la realidad, procedamos a estudiar los residuos. Analicemos las siguientes grcas a

Figura 2: Anlisis de residuos a Como podemos apreciar la distribucin de los residuos sigue en buena meo

dida una distribucin normal, a pesar de que en los extremos parece salirse de o la linea, esto puede explicarse por la cantidad de datos estudiados, y no representa un indicio importante de que nuestro modelo no funcione correctamente. Conclusiones y recomendaciones Segn los estudios realizados, podemos decir que el numero de arrestos en u 1986 esta fuertemente relacionado, con los arrestos anteriores, ya sea por delitos a la propiedad privada o no, adems la falta de ingreso afecta los niveles de a arrestos para dicho ao. n Recomendar amos estudiar como variable, los lugares de procedencia los reos, adems hacer un estudio sociolgico acerca de los niveles de empleo en la ciudad, a o as posiblemente atacar el problema y reducir el numero de arrestos y delitos cometidos para futuros aos. n

Problema 2 (Determinates de la nota media en la universidad) (GPA1.xls)


Estime un modelo que explique la nota media en la universidad colGPA, con el nmero medio de clases perdidas por semana skipped, la nota media en u el instituto hsGPA, el promedio de d por semana en los que ingiere bebidas as alcohlicas alcohol y la nota en la prueba de acceso ACT, como variables o explicativas.

Solucin o
Estimemos un modelo que explique la nota media de la universidad(ColGPA), en relacin a: o El nmero medio de clases perdidas (skipped) u La nota media en el instituto de educacin secundaria (HsGPA) o El promedio de d por semana en los que ingiere bebidas alcohlicas as o (alcohol) y la nota de la prueba de acceso (ACT) Veamos un grco que muestre como estn relacionadas las variables en a a cuestin, o

Figura 3: Anlisis de correlacin a o A primera vista es dif intuir una dependencia lineal de alguna de las varicil ables, sin embargo un anlisis de correlacin muestra que ColGPA y HsGPA a o tiene aproximadamente 40 % de relacin, mientras que ColGPA y Act, 20 %, y o la relacin entre ColGPA y el resto de las variables es menor a 10 %. o

Estudiemos ahora el modelo propuesto, en R obtenemos la salida

El coeciente de determinacin mltiple es bastante bajo, a pesar de que el o u modelo en su conjunto parece estar bien explicado por la prueba F , por otra parte, la prueba t para cada parmetro estimado parece apuntar que las varia ables alcohol y Act, pudiesen no ser utiles, ya que su p-valor esta por encima de 0,1. Veamos que resultados arroja un nuevo modelo donde solo se tomen en consideracin las variables skipped y HsGPA, obtenemos los resultados: o

Observamos que no son signicativamente distintos del obtenido anteriormente, por lo tanto, podemos decir que las variables extra das (alcohol y Act), no aportaban mayor informacin al modelo. o En vista de que las dems variables son variables categricas, o variables a o dummies, prescindiremos de ellas, adems de que su correlacin con ColGPA es a o muy pequea, y no aportara grandes cambios al modelo. n Por ultimo, hagamos un anlisis de residuos para vericar que estos tengan a una tendencia normal, veamos las siguientes imgenes. a

Figura 4: Anlisis de residuos a En ellas podemos apreciar que aunque su distribucin esta muy cercana a o una normal, presenta pequeos espacios que dejan lugar a dudas acerca de los n residuos, esto apoya la idea de que nuestro modelo no es certero. Conclusiones El modelo no es una representacin conable de la realidad, sin embargo o podemos extraer informacin importante, como lo es: o El rendimiento en la universidad depende mayormente de el promedio de notas de la secundaria, y de las veces que se falte a clase. Variables que se pensarian pudiesen afectar el rendimiento como lo son, la ingesta de alcohol y la prueba de ingreso, no son tan vitales como se pudiese sospechar. Recomendaciones:

En vista de que el estudio arroj resultados poco precisos se recomienda o hacer un estudio psicolgico de la situacin, meditar que variables pudiesen o o afectar el rendimiento, como las horas de sueo, el ingreso monetario mensual, n o la presencia de problemas en su hogar o lugar de residencia.

Problema 3. (Precio de la vivienda y contaminacin del aire) HPRICE2.xls o


Para una muestra de 506 comunidades en el rea de Boston, estime un moda elo que relacione el precio medio de la vivienda price en la comunidad con var as caracter sticas de la misma: nox cantidad de xido de nitrgeno en el aire, en o o partes por milln; dist distancia ponderada que separa la comunidad de cinco o centros de empleo, en millas; crime nmero de crimes per-capita; y stratio es u el promedio del cociente estudiante-profesor en las escuelas de la comunidad.

Solucin o
Estamos interesados en crear un modelo, que estime el precio medio de la vivienda en la comunidad (price), en relacin a: o La cantidad de xido de nitrgeno en el aire, en partes por milln (nox) o o o La distancia media ponderada que separa la comunidad de cinco centros de empleo, en millas (dist) El nmero de cr u menes per-capita (crime) El promedio del cociente profesor-estudiante en las escuelas de la comunidad (stratio) Antes de obtener los resultados del modelo, detengmonos a observar como a se relacionan las variables entre si, esto lo observamos en la siguiente grca. a

Figura 5: Anlisis de correlacin a o Observamos que a primera vista, no hay relacin lineal aparente entre la o variable price, con las otras. Mas an pareciese haber relacin lineal entre las u o

variables nox y dist. Esto signicar que la cantidad de oxido de nitrgeno esta a o relacionada con la distancia ponderada que separa a la comunidad de los centros de empleo. Estudiemos ahora el modelo mediante el sistema estad stico computarizado R, obtenemos la salida:

Como vemos los valores de las pruebas t y F, estan bastante bien, ya que el p-valor es pequeo. n Por otra parte el coeciente de determinacin es bajo, esto implica una o correlacin dbil entre las variables, lo cual indica que el modelo no explica coro e rectamente el precio medio de la vivienda. Intentemos explicar el precio medio mediante un nuevo modelo, en primer lugar, la intuicin dice que mientras mas grande sea la vivienda, es decir mientras o mayor numero de habitaciones, el precio deber aumentar, as que incluiremos a la variable rooms en el nuevo anlisis. a Por otro lado, en el cuadro anterior, vimos que la variable stratio parece no tener relacin con el precio ya que los puntos se encuentran demasiado dispero sos, por ende las descartaremos. Vimos adems que las variables dist y nox parec estar relacionadas, as que a an tomaremos el cociente nox/dist, que puede verse como la relacin entre la cano tidad de xido de nitrgeno y la distancia media a los centros de empleo, luego o o nuestro nuevo modelo para explicar el precio de la vivienda tiene las variables:

crime rooms (nox/dist)

Figura 6: Anlisis de correlacin a o Que como se puede ver, tiene una mayor tendencia lineal que el modelo anterior.

Calculando el nuevo modelo obtenemos.

Podemos apreciar que para este modelo es valor de R2 es mayor y es casi 0.6, as puede considerarse como regular la forma como este modelo explica el comportamiento del precio medio de la vivienda en una comunidad de Boston. Si analizamos los residuos podemos ver que siguen una distribucin aproxio madamente normal, como lo muestra el siguiente histograma, y grca de resida uos.

Figura 7: Anlisis de residuos a

Conclusiones y recomendaciones En base a los estudios realizados previamente, podemos decir que el precio medio de la vivienda para la comunidad estudiada, se ve incrementado claramente por el nmero de habitaciones, a razn de 7825.88 $ por habitacin, u o o mientras que la contaminacin y el crimen tienden a bajar los precios, aunque o sin mayor importancia, ya que sus razones de cambio son de aproximadamente 200$. As el valor de una vivienda esta en mayor medida explicado por el numero de habitaciones que posee. Como recomendaciones, invitar amos a los interesados a realizar un estudio de mercado, ya que al provenir los datos, de partes distintas y aleatorias de la ciudad, pudiesen estar sesgados, y afectar los valores del estudio.

También podría gustarte