Está en la página 1de 5

Asignatura Código Fecha Inicio Fecha Finalización

Análisis Multivariante 22.508 26/11/2021 05/12/2021

PEC 3
Análisis de relaciones de dependencia
En esta PEC aplicarás los conocimientos teóricos que has adquirido a partir de la lectura propuesta para
esta actividad (capítulos 3, 7 y 11 de Keenan, A, & Stevens, J. (2015) Applied multivariate statistics for
the social sciences : analyses with SAS and IBM's SPSS. Routledge: NY.) y de las lecturas complementarias,
para realizar análisis de dependencia en entornos de análisis multivariante. Recordaros que disponéis
de una guía de lectura de estos dos capítulos.

Por lo tanto, en esta PAC 3 tendrás que:

(1) Usar R Studio para hacer e interpretar análisis de dependencia;

(2) Demostrar que has interiorizado los principales conceptos teóricos de los materiales.

Formato

(1) Debes enviar un único documento al Registro de Evaluación Continua: un documento pdf. Éste
contendrá el texto abierto de las respuestas del PEC, sin los enunciados de las preguntas, y los
objetos estadísticos que necesites insertar, junto a las instrucciones de R que has usado para
generarlos.

(2) Es especialmente importante que incidáis en la interpretación, es decir, no hay suficiente en


cuantificar una relación sino que la debéis valorar e interpretar en su contexto.

(3) Sed muy concretos y precisos en las respuestas y ceñiros al número de palabras o páginas
máximas permitidas.

Página 1 de 5
Asignatura Código Fecha Inicio Fecha Finalización
Análisis Multivariante 22.508 26/11/2021 05/12/2021

Enunciado

1. A partir del fichero (Blood Pressure, Weight, and Smoking Status (descripción, datos) y usando un
análisis de la varianza, estima un modelo que permita analizar el efecto de fumar y el peso -y su
interacción- en la presión arterial sistólica. Comenta el efecto de ambas VI y de la interacción.
Para hacer esto, deberás a) calcular los modelos de estimación, b) programar los contrastes que te
permitan contestar a las preguntas anteriores y, en su caso, y c) valorar las condiciones de aplicación.
Longitud máxima sugerida: dos páginas.

Gráfico de perfiles y ANOVA:

Solución: El gráfico de perfil ya nos hace sospechar que no habrá interacción, puesto que las
líneas son paralelas y esto implica que el efecto de Smoke es constante por las categorías de
sobrepeso. El Anova lo confima. Por tanto, esta interacción puede ser eliminada y reestimado el
modelo.

Es necesario programar contrastes, bien vía pairs o bien TukeyHSD. Previamente examinamos
las condiciones de aplicación. La normalidad no es imprescindible comprobarla, dado que se
trata de una muestra grande. Como la p>0.05, nada se opone a aceptar la homogeneidad. En
cuanto a los contrastes, todos los grupos difieren entre sí. Como las diferencias son pequeñas
entre el grupo 0 y el 1, en algunos casos ha encontrado p>0.05 en este contraste. No es un
error.

La interpretación del modelo es clara: ambos factores afectan a la hipertensión, el sobrepeso lo


hace más que fumar, y la relación entre sobrepeso y tensión arterial es lineal.

Página 2 de 5
Asignatura Código Fecha Inicio Fecha Finalización
Análisis Multivariante 22.508 26/11/2021 05/12/2021

2. A partir de los datos del fichero Fair's Extramarital Affairs Data (descripción, datos), y empleando
una regresión logística, crea un modelo utilizando el resto de variables como predictores -
cuantitativos- de si el participante ha sido o no infiel a su parella durante el último año.
No utilices interacciones y ajusta el modelo eliminando (paso a paso) las variables no significativas.
¿Cuáles son las variables estadísticas significativas y cuál es su orden por importancia? Comenta los
parámetros que más te sorprendan justificando el porqué.
Para hacer esto, deberás a) calcular el modelo, siguiendo un procedimiento (automático, o no) de
estimación b) valorar el ajuste del modelo, c) interpretar los parámetros, y d) valorar las condiciones
de aplicación -idealmente, con la prueba de Hosmer y Lemeshow. No emplees interacciones. Longitud
máxima sugerida: dos páginas.

glm:
modelo <-glm(infiel~rating+ yearsmarried+religiousness+children+gender+age,data=dades,
family="binomial")

Solución: el modelo original contiene variables no significativas que pueden eliminarse. Las
variables deben ser introducidas como cuantitativas, dado que sus valores son cantidades.

La condición de aplicación principal es que los datos ajustan a una sigmoide, a una función
logística. Obtenemos H0 en la prueba de Hosmer y Lemeshow, lo que significa que el modelo
logístico es válido.

hoslem.test(df1$infiel, fitted(modelo),g=10)
## ## Hosmer and Lemeshow goodness of fit (GOF) test
## ## data: df1$infiel, fitted(demolo)
## X-squared = 3.0797, df = 8, p-value = 0.9293

Interpretación: a partir de los parámetros podemos interpretar el sentido del efecto de VI pero
no la magnitud. Para ello, es necesario calcular el exponencial de los parámetros. El orden de
importancia de las variables puede ser deducido por la p de los parámetros: cuanto menor es la
p, más importante es el efecto de la variable independiente sobre la dependiente.

Página 3 de 5
Asignatura Código Fecha Inicio Fecha Finalización
Análisis Multivariante 22.508 26/11/2021 05/12/2021

La OR de infidelidad es un 47% superior en hombres que mujeres. Por cada año casados, la OR de
infidelidad aumenta un 11%, etc.

Otros: muchos han realizado en este ejercicio una validación cruzada, dividiendo los datos en dos
muestras (train y validate). Esto es una técnica frecuente en procesos de aprendizaje no
supervisado (redes, árboles, reglas, etc.) pero es más discutible en estadística tradicional. ¿Por
qué? Porque aquí tenemos una hipótesis inicial de cuál será el efecto de las variables y es difícil
encontrar una relación anecdótica, que pretende prevenir la validación cruzada. ¿Es un error
utilizar una validación cruzada en este caso? No, pero debe justificarse el porqué. Y emplearla en
este ejercicio, sin más, es muy discutible.
Perfectamente defendible haber calculado la curva ROC como medida de ajuste –o el pseudoR2–
a pesar del modelo no tiene un objetivo explícitamente predictivo.

Página 4 de 5
Asignatura Código Fecha Inicio Fecha Finalización
Análisis Multivariante 22.508 26/11/2021 05/12/2021

3. A partir de los datos del fichero Professor evaluations and beauty (descripción, datos), crea un
modelo que explique la evaluación de los docentes que hacen los alumnos scores resultados a partir
de las variables age bty_avg cls_perc_eval ethnicity gender language pic_outfit pic_color , utilizando una
regresión lineal múltiple. ¿Cuál es el modelo que contiene únicamente las variables estadísticas
significativas y cuál es su orden por importancia? ¿Qué aplicación real podría tener este modelo?
Para hacer esto, deberás a) calcular el modelo, siguiendo un procedimiento (automático, o no) de
estimación b) valorar el ajuste del modelo, c) interpretar los parámetros, y d) valorar las condiciones
de aplicación. No emplees interacciones. Longitud máxima sugerida: dos páginas.

El modelo contiene variables no significativas, así que ajustamos el modelo paso a paso
(eliminando siempre la peor de las variables), hasta llegar al modelo final. De agradecer una
descriptiva de los datos.

Solución: ¿Cuál es el orden de importancia de las variables? Es evidente que no podemos


contestar a esta pregunta a partir del parámetro b, puesto que éste está afectado por las unidades
de medida. No es comparable un parámetro medido con años, como la edad, con un medido en
binario, como el género. Así pues, tenemos tres soluciones: o bien calculamos el parámetro beta,
que no es más que la b estandarizada, las R2 parciales o empleamos la t, que al ser un estadístico
de contraste, no tiene unidades de medida (o la p que se 'n deriva de la t). La variable más
importante es el género seguida por el % de estudiantes que han aprobado.

¿Qué uso podría tener ese modelo? Compensar las evaluaciones entre docentes hombres vs
mujeres, que tienen diferente % de aprobados, por ejemplo, o que carecen del inglés como lengua
de educación. Es más difícil compensarlo por la belleza del docente, medida difícil de evaluar.
Pocos han contestado a esta pregunta.

Interpretación: comentar algunos parámetros. Los hombres tienen, en términos medios, 0.26
puntos más que las mujeres (no por ciento: puntos de valoración del docente). Por cada punto de
belleza del docente, su evaluación aumenta en 0.04 puntos.

Condiciones de aplicación: regresión lineal donde se valora, como mínimo y posterior,


homocestaticidad (Breusch-Pagan) y linealidad. ( bptest(fit)# Breusch-Pagan Test)
Se podían añadir test de colinealidad (VIF) y normalidad (Shapiro-Wilk). El test de linealidad era
significativo y el de homocedasticidad no.

Página 5 de 5

También podría gustarte