Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Correlación y Regresión Lineal Ejemplo PDF
Correlación y Regresión Lineal Ejemplo PDF
investigadores
Solución Tareas P2P
Purificación Galindo
Purificación Vicente
Departamento de Estadística
Universidad de Salamanca
OBJETIVO: Hacer el estudio descriptivo de los datos y encontrar un modelo que nos
permita estimar la cantidad de MONOXIDO de CARBONO, a partir de las variables
Alquitrán, Nicotina y Peso del cigarrillo.
Tarea 1.- Comience por hacer un estudio descriptivo de los datos ayudado de las
siguientes salidas de ordenador
a. Genere un breve informe estadístico (tómese el espacio que necesite pero sea breve), en el
que señale
1) el tamaño muestral
2) cuál es la variable con mayor variabilidad
3) cuál de las medias es más representativa de los datos
4) cuál de las medias es más estable.
b. Analice los percentiles. Escriba un breve informe con los resultados más relevantes entre
los que al menos debe estar la Mediana y el Recorrido Intercuartílico (debe calcularlo a partir de la
tabla) para todas y cada una de las variables. En el informe compare, además, los resultados
obtenidos con la Media y su dispersión y la Mediana y su dispersión.
c. Analice los Box Plot (diagramas de caja) que se adjuntan y saque las conclusiones más
relevantes. Debe escribir, al menos, sobre la posible asimetría y la existencia, o no, de outliers.
• CVAlquitrán= 49.67%
• CVNicotina= 40.43%
• CVPeso= 9.04%
• CVMonoxido= 37.83%
Para saber cuál es la más representativa debo evaluar de nuevo la dispersión. Aquella con
menor dispersión es la más representativa. Por tanto, la variable cuya media es más
representativa es la variable Peso.
La media más estable es la que tenga un error estándar(ES) (o error típico) más pequeño
ya que el ES sirve para evaluar la variabilidad de la media en el muestreo.
Por tanto, sin más que mirar la tabla de Estadísticos descriptivos, podemos afirmar que la
variable más estable es el Peso del cigarrillo (ES=0.017).
Parte B
PARTE C
Para todas las variables se detectan outliers, es decir valores discordantes con el patrón
general, ya que todas las cajas tienen puntos fuera de sus bigotes.
Una visión rápida del gráfico podría llevar a la interpretación de que el RI de la Nicotina es
menor, pero fijándonos en la escala del gráfico que es diferente en Peso y Nicotina, vemos
que la afirmación anterior se verifica.
Tarea. La realización de esta tarea irá en un documento aparte que tendrás que subir en
el apartado "Fichero opcional" que se encuentra al final de la actividad p2p. Este
documento tendrá 3 partes:
PARTE 1. Comience con una inspección gráfica de las nubes de puntos. Genere un breve
informe (tómese el espacio que necesite, pero sea breve) sobre a) la relación entre el
Monóxido de Carbono y cada una de las variables explicativas, a partir de las
correspondientes nubes de puntos que se adjuntan. b) díganos, a partir de la inspección
visual de las nubes, cuál de las variables parece más relacionada con el Monóxido y c) si
la relación parece similar para los dos tipos de tabaco, Rubio y Negro.
Ilustración 1. Nota: En el original de esta tarea había una errata en los valores de los
coeficientes R2. Aquí ya aparecen corregidos. En cualquier caso esa errata no afectaba los
resultados.
Si en vez de tres modelos simples ajustásemos un solo modelo con las tres variables, fíjese
lo que pasa.
En el primer y segundo diagrama de dispersión observamos que hay una clara tendencia
lineal, por lo tanto puede pensarse que las dos variables implicadas (Monóxido y Alquitrán
en el primer caso y Monóxido y Nicotina en el segundo), están relacionadas. Además de
las gráficas se deduce que la relación, en ambos casos es directa; es decir, cuando el
Alquitrán aumenta, el Monóxido aumenta y cuando la Nicotina aumenta, el Monóxido
aumenta.
En el tercer gráfico (nube de puntos) observamos que no hay una relación tan clara entre
las variables Monóxido-Peso. No obstante la decisión de si Monóxido y Peso tiene una
relación significativa estadísticamente, la tomaremos después de estudiar el modelo, su
correspondiente coeficiente de determinación R2 y el p-valor, cosa que haremos en los
apartados siguientes
Alquitrán y Nicotina parecen tener, desde el análisis de los gráficos, una relación muy
similar con Monóxido; no obstante se espera un valor ligeramente más alto entre Monóxido
y Nicotina dado que en el Alquitrán aparece un dato discordante que va a modificar la
pendiente y hará bajar el ajuste (como puede comprobarse en el apartado 2). Sin duda, la
menos relacionada con el Monóxido es el Peso.
c) ¿La relación parece similar para los dos tipos de tabaco, Rubio y Negro?
La tendencia es similar para tabaco rubio y para tabaco negro, aunque en el tabaco
negro, los valores son más altos, tanto para el Monóxido como para el Alquitrán, la
Nicotina y el Peso.
La relación es directa en todos los casos ya que los coeficientes de regresión de los tres
modelos son positivos: 0.73 para el Alquitrán, 12.40 para la Nicotina y 25.06 para el Peso.
Teniendo en cuenta que el coeficiente de regresión indica lo que cabe esperar que cambie
la variable respuesta (en media) por incremento unitario en la variable independiente,
podemos afirmar que: El incremento medio esperado, más alto, en el Monóxido (por
incremento unitario en las respectivas variables) es debido al Peso (coeficiente de
regresión= 25.06), el siguiente incremento es debido la Nicotina (coeficiente de regresión=
12.40) y el más pequeño es el debido al Alquitrán (coeficiente de regresión= 0.73)
El coeficiente de determinación evalúa la bondad de ajuste del modelo, ese valor está
acotado entre 0 y 1. Cuanto más se aproxime a 1 mayor bondad de ajuste del modelo y
mayor poder explicativo.
De entre todos los modelos, el de mejor ajuste es el que relaciona Monóxido y Nicotina ya
que es el que tiene un coeficiente de determinación más alto (R2= 0.86). El siguiente
modelo con mejor ajuste es el que relaciona Monóxido y Alquitrán ya que es el que tiene
el siguiente coeficiente de determinación más alto (R2= 0.82).
El modelo con peor ajuste es el que relaciona Monóxido y Peso (R2= 0.22).
INFORME PARTE 3.
Los resultados aparentemente son contradictorios con los del apartado anterior, ya que en
los modelos bivariantes, en los que se relacionaba el Monóxido con cada una de las
variables explicativas, se probó que existía relación significativa (p<0.05) en todos los
casos, incluso con el Peso que, de la inspección visual de la nube de puntos, parecía que
no.
En este análisis, sólo aparece como significativa la relación entre Monóxido y Nicotina y las
demás parecen como no significativas. En realidad lo que traducen estos resultados es que
una vez considerado el aporte de la variable Alquitrán, los aportes de las otras dos, no
son significativos.
Este fenómeno es muy frecuente que ocurra cuando las variables explicativas están
fuertemente relacionadas. Se conoce con el nombre de colinealidad. La discrepancia entre
los resultados se debe a que Alquitrán, Nicotina y Peso están muy relacionadas.