Está en la página 1de 14

Estadística para

investigadores
Solución Tareas P2P

Purificación Galindo
Purificación Vicente
Departamento de Estadística
Universidad de Salamanca

Solución tarea p2p Módulo 2 y 4 1


Solución tarea p2p Módulo 2
Tomamos datos de la siguiente publicación:

Estudios realizados con anterioridad ponen de manifiesto que incrementos en el contenido


de alquitrán y nicotina de los cigarrillos vienen acompañados por incrementos en el
monóxido de carbono emitido al fumar.

Partimos de estos datos y nos planteamos el siguiente objetivo:

OBJETIVO: Hacer el estudio descriptivo de los datos y encontrar un modelo que nos
permita estimar la cantidad de MONOXIDO de CARBONO, a partir de las variables
Alquitrán, Nicotina y Peso del cigarrillo.

Solución tarea p2p Módulo 2 y 4 2


TAREAS

La primera tarea consistirá en cubrir el primer objetivo. Hacer un estudio descriptivo de


las variables que intervienen en el estudio.

Tarea 1.- Comience por hacer un estudio descriptivo de los datos ayudado de las
siguientes salidas de ordenador

a. Genere un breve informe estadístico (tómese el espacio que necesite pero sea breve), en el
que señale

1) el tamaño muestral
2) cuál es la variable con mayor variabilidad
3) cuál de las medias es más representativa de los datos
4) cuál de las medias es más estable.

b. Analice los percentiles. Escriba un breve informe con los resultados más relevantes entre
los que al menos debe estar la Mediana y el Recorrido Intercuartílico (debe calcularlo a partir de la
tabla) para todas y cada una de las variables. En el informe compare, además, los resultados
obtenidos con la Media y su dispersión y la Mediana y su dispersión.

c. Analice los Box Plot (diagramas de caja) que se adjuntan y saque las conclusiones más
relevantes. Debe escribir, al menos, sobre la posible asimetría y la existencia, o no, de outliers.

Solución tarea p2p Módulo 2 y 4 3


SOLUCIÓN
Parte A)

1) Tamaño Muestral: 25 (Se analizan 25 cigarrillos)

2) ¿Cuál es la Variable con mayor variabilidad?

De la tabla de Estadísticos descriptivos que nos proporcionan, podemos afirmar lo


siguiente:

Si se analiza la desviación típica: Alquitrán (5.88)

Solución tarea p2p Módulo 2 y 4 4


Teniendo en cuenta que las variables están expresadas en distintas unidades, sería más
apropiado trabajar con los Coeficientes de Variación (CV)

• CVAlquitrán= 49.67%
• CVNicotina= 40.43%
• CVPeso= 9.04%
• CVMonoxido= 37.83%

El resultado es análogo, por tanto: Variable con mayor variabilidad: ALQUITRÁN

3) ¿Cuál de las medias es la más representativa de los datos?

Para saber cuál es la más representativa debo evaluar de nuevo la dispersión. Aquella con
menor dispersión es la más representativa. Por tanto, la variable cuya media es más
representativa es la variable Peso.

4) ¿Cuál de las medias es la más estable?

La media más estable es la que tenga un error estándar(ES) (o error típico) más pequeño
ya que el ES sirve para evaluar la variabilidad de la media en el muestreo.

Por tanto, sin más que mirar la tabla de Estadísticos descriptivos, podemos afirmar que la
variable más estable es el Peso del cigarrillo (ES=0.017).

Parte B

Mediana y el Recorrido Intercuartílico (RI) para cada una de las variables

Mediana Monóxido: P50= 13.00

RI Monoxido: = P75-P25 = 15.65-9.75=5.90

Mediana Alquitrán: P50= 12.40

RI Alquitrán: = P75-P25 = 15.15-7.90=7.25

Mediana Nicotina: P50= 0.90

RI Nicotina: = P75-P25 = 1.03-0.68=0.35

Mediana Peso: P50= 0.96

RI Peso: = P75-P25 = 1.02-0.92=0.10

Solución tarea p2p Módulo 2 y 4 5


Los valores se han aproximado a dos cifras decimales

Si comparamos los resultados obtenidos con la Media y el Coeficiente de Variación (CV) y


la Mediana y el Recorrido Intercuartílico (RI), vemos que la Media más representativa de
los datos es la Media del Peso ya que su CV es el más bajo 9.04

Si comparamos las medianas y sus RI, la mediana más representativa es también la


mediana del Peso ya que su RI es el menor (0.10)

PARTE C

Para todas las variables se detectan outliers, es decir valores discordantes con el patrón
general, ya que todas las cajas tienen puntos fuera de sus bigotes.

Todas las variables presentan distribución ligeramente asimétrica, constatada porque la


línea que representa el P50 (Mediana) no está exactamente en el centro de la caja y
además los bigotes no tienen la misma longitud. Los bigotes más similares son los de la
variable Nicotina.

La altura de las respectivas cajas pone de manifiesto, gráficamente, lo que ya habíamos


visto analíticamente y es que el Recorrido Intercuartílico más pequeño es el
correspondiente al peso.

Una visión rápida del gráfico podría llevar a la interpretación de que el RI de la Nicotina es
menor, pero fijándonos en la escala del gráfico que es diferente en Peso y Nicotina, vemos
que la afirmación anterior se verifica.

Solución tarea p2p Módulo 2 y 4 6


Solución Tarea p2p Módulo 4

Solución tarea p2p Módulo 2 y 4 7


Solución tarea p2p Módulo 4

Tomamos datos de la siguiente publicación:

Estudios realizados con anterioridad ponen de manifiesto que incrementos en el contenido


de alquitrán y nicotina de los cigarrillos vienen acompañados por incrementos en el
monóxido de carbono emitido al fumar.

Partimos de estos datos y nos planteamos el siguiente objetivo:

Solución tarea p2p Módulo 2 y 4 8


OBJETIVO: Encontrar un modelo que nos permita estimar la cantidad de MONOXIDO de
CARBONO, a partir de las variables Alquitrán, Nicotina y Peso del cigarrillo.

Tarea. La realización de esta tarea irá en un documento aparte que tendrás que subir en
el apartado "Fichero opcional" que se encuentra al final de la actividad p2p. Este
documento tendrá 3 partes:

PARTE 1. Comience con una inspección gráfica de las nubes de puntos. Genere un breve
informe (tómese el espacio que necesite, pero sea breve) sobre a) la relación entre el
Monóxido de Carbono y cada una de las variables explicativas, a partir de las
correspondientes nubes de puntos que se adjuntan. b) díganos, a partir de la inspección
visual de las nubes, cuál de las variables parece más relacionada con el Monóxido y c) si
la relación parece similar para los dos tipos de tabaco, Rubio y Negro.

Solución tarea p2p Módulo 2 y 4 9


Parte 2. Búsqueda de modelos que nos permitan estimar la cantidad de MONÓXIDO de
CARBONO, a partir de las variables Alquitrán, Nicotina y Peso del cigarrillo.

a. Realice un breve informe sobre los modelos y su representatividad, a la vista de


los resultados que se adjuntan: Interprete el coeficiente de determinación R2 y el
coeficiente de regresión, en cada modelo y díganos cuál le parece más adecuado y
porqué.

Ilustración 1. Nota: En el original de esta tarea había una errata en los valores de los
coeficientes R2. Aquí ya aparecen corregidos. En cualquier caso esa errata no afectaba los
resultados.

Si en vez de tres modelos simples ajustásemos un solo modelo con las tres variables, fíjese
lo que pasa.

b. Díganos brevemente qué ha cambiado con respecto a la situación del apartado


anterior, a la vista de las nuevas significaciones, y a qué cree que se debe.

Solución tarea p2p Módulo 2 y 4 10


SOLUCIÓN
INFORME PARTE 1. Inspección gráfica de las nubes de puntos.

a) Estudio de la relación entre el Monóxido de Carbono y cada una de las variables


explicativas, a partir de las correspondientes nubes de puntos que se adjuntan.

En el primer y segundo diagrama de dispersión observamos que hay una clara tendencia
lineal, por lo tanto puede pensarse que las dos variables implicadas (Monóxido y Alquitrán
en el primer caso y Monóxido y Nicotina en el segundo), están relacionadas. Además de
las gráficas se deduce que la relación, en ambos casos es directa; es decir, cuando el
Alquitrán aumenta, el Monóxido aumenta y cuando la Nicotina aumenta, el Monóxido
aumenta.

En el caso de Alquitrán y el Monóxido, la nube de puntos (diagrama de dispersión) pone


de manifiesto que hay un dato (de tabaco rubio) que no sigue la tendencia general y que
puede modificar la pendiente de la recta. Obsérvese que el punto verde que aparece
claramente alejado del resto de los puntos de la nube, pero en la dirección de la recta, no
afecta a la pendiente.

En el tercer gráfico (nube de puntos) observamos que no hay una relación tan clara entre
las variables Monóxido-Peso. No obstante la decisión de si Monóxido y Peso tiene una
relación significativa estadísticamente, la tomaremos después de estudiar el modelo, su
correspondiente coeficiente de determinación R2 y el p-valor, cosa que haremos en los
apartados siguientes

b) ¿Cuál de las variables parece más relacionada con el monóxido?

Alquitrán y Nicotina parecen tener, desde el análisis de los gráficos, una relación muy
similar con Monóxido; no obstante se espera un valor ligeramente más alto entre Monóxido
y Nicotina dado que en el Alquitrán aparece un dato discordante que va a modificar la
pendiente y hará bajar el ajuste (como puede comprobarse en el apartado 2). Sin duda, la
menos relacionada con el Monóxido es el Peso.

c) ¿La relación parece similar para los dos tipos de tabaco, Rubio y Negro?

La tendencia es similar para tabaco rubio y para tabaco negro, aunque en el tabaco
negro, los valores son más altos, tanto para el Monóxido como para el Alquitrán, la
Nicotina y el Peso.

Solución tarea p2p Módulo 2 y 4 11


INFORME PARTE 2.

a) Breve informe sobre los modelos y su representatividad.

La relación entre el Monóxido y las tres variables (Alquitrán, Nicotina y Peso) es


estadísticamente significativa ya que el p-valor es <0.05 en todos los casos.

a.1 Breve informe sobre los modelos

La relación es directa en todos los casos ya que los coeficientes de regresión de los tres
modelos son positivos: 0.73 para el Alquitrán, 12.40 para la Nicotina y 25.06 para el Peso.

Teniendo en cuenta que el coeficiente de regresión indica lo que cabe esperar que cambie
la variable respuesta (en media) por incremento unitario en la variable independiente,
podemos afirmar que: El incremento medio esperado, más alto, en el Monóxido (por
incremento unitario en las respectivas variables) es debido al Peso (coeficiente de
regresión= 25.06), el siguiente incremento es debido la Nicotina (coeficiente de regresión=
12.40) y el más pequeño es el debido al Alquitrán (coeficiente de regresión= 0.73)

a.2 Bondad de ajuste

El coeficiente de determinación evalúa la bondad de ajuste del modelo, ese valor está
acotado entre 0 y 1. Cuanto más se aproxime a 1 mayor bondad de ajuste del modelo y
mayor poder explicativo.

De entre todos los modelos, el de mejor ajuste es el que relaciona Monóxido y Nicotina ya
que es el que tiene un coeficiente de determinación más alto (R2= 0.86). El siguiente
modelo con mejor ajuste es el que relaciona Monóxido y Alquitrán ya que es el que tiene
el siguiente coeficiente de determinación más alto (R2= 0.82).

El modelo con peor ajuste es el que relaciona Monóxido y Peso (R2= 0.22).

INFORME PARTE 3.

a) Díganos brevemente qué ha cambiado con respecto a la situación del apartado


anterior, a la vista de las nuevas significaciones

Los resultados aparentemente son contradictorios con los del apartado anterior, ya que en
los modelos bivariantes, en los que se relacionaba el Monóxido con cada una de las
variables explicativas, se probó que existía relación significativa (p<0.05) en todos los
casos, incluso con el Peso que, de la inspección visual de la nube de puntos, parecía que
no.

En este análisis, sólo aparece como significativa la relación entre Monóxido y Nicotina y las
demás parecen como no significativas. En realidad lo que traducen estos resultados es que
una vez considerado el aporte de la variable Alquitrán, los aportes de las otras dos, no
son significativos.

Solución tarea p2p Módulo 2 y 4 12


b) A qué cree que se debe.

Este fenómeno es muy frecuente que ocurra cuando las variables explicativas están
fuertemente relacionadas. Se conoce con el nombre de colinealidad. La discrepancia entre
los resultados se debe a que Alquitrán, Nicotina y Peso están muy relacionadas.

El diagnóstico de la colinealidad y sus implicaciones en el Análisis de Datos, se tratarán en


el curso siguiente, de nivel intermedio.

Solución tarea p2p Módulo 2 y 4 13


Solución tarea p2p Módulo 2 y 4 14

También podría gustarte