Está en la página 1de 6

Asignatura Código Fecha Inicio Fecha Finalización

Análisis Multivariante 22.508 27/05/2022 12/06/2022

Práctica
Construcción de modelos multivariantes
En esta Práctica aplicarás los conocimientos teóricos que has adquirido del del material de la UOC y de
las lecturas complementarias para realizar análisis tanto en casos de dependencia como de
interdependencia en entornos de análisis multivariante.

Por lo tanto, en esta Práctica tendrás que:

(1) Usar RStudio (o similar) y para hacer e interpretar análisis de dependencia y de


interdependencia.

(2) Demostrar que has interiorizado los principales conceptos teóricos de los materiales.
(3) Realizar análisis estadísticos con datos de dos encuestas del CIS (Centro de Investigaciones
Sociológicas). Tenéis los datos (en formato SPSS (.sav)), los cuestionarios y los códigos de cada variable
adjuntos a este documento. Dado que muchas variables de las encuestas tienen la posibilidad de
respuesta NS/NC, tendréis que asignar a missing estos valores antes de calcular los modelos.

Formato

(1) Debéis entregar en el Registro de Evaluación Continuada un único documento en formato pdf.
Este contendrá el texto de las respuestas de la Práctica, las instrucciones de R que habéis
utilizado y los objetos resultado de las ejecuciones, objetos que deberéis elegir vosotros.

(2) Es especialmente importante que incidáis en la interpretación, es decir, no hay suficiente en


cuantificar una relación sino que la debéis valorar e interpretar en su contexto.

(3) Sed muy concretos y precisos en las respuestas y mirad de ajustaros al número (orientativo) de
palabras o páginas que propuesto, que será, para cada ejercicio, de dos páginas.

Página 1 de 6
Asignatura Código Fecha Inicio Fecha Finalización
Análisis Multivariante 22.508 27/05/2022 12/06/2022

Enunciado

Para las próximas dos preguntas, utilizarás la encuesta Relaciones sociales y afectivas en pandemia
COVID-19 II (3339).

1. Obtén perfiles de participantes en la encuesta a partir de su sexo, edad (cuantitativa), el hábitat


(capital de CCAA, de provincia u otras, introducidas vía variables dummy), y la frecuencia en que
ha usado internet -en los últimos 6 meses- para conocer a gente nueva o para hablar con
amigos/as (p16_1 y p16_2, tratadas como cuantitativas y eliminando los valores NP, NS y NC).

Requisitos: normalizar las variables o emplear un procedimiento de R que ajuste clústeres


normalizando automáticamente los datos. Siempre que hablemos de perfiles, debemos pensar en
agrupar casos en función de sus características, es decir, clústeres. Había que eliminar los missing
(9, 8, 99 y otros códigos).

Solución: en función del


procedimiento que habéis
empleado (k-means estándar o
alguno de los insertados en la
multitud de librerías de R u otros
procedimientos no jerárquicos), he
podido llegar a soluciones de 2, 3 o
4 clústeres. La más defendible es la
de 2, creo. Perfectamente correcto
utilizar el método de Elbow u otros
equivalentes. Dudoso usar un
dendrograma y un análisis
jerárquico, ya que la n es
demasiado grande como para que el dendrograma sea informativo.

Un error demasiado común ha sido no estandarizar las variables originales o no hacerlo


correctamente. Muchos las han igualado en rango pero no es lo mismo que estandarizar.
Estandarizar (convertirlas en variables z) hace que todas las variables tengan la misma media (0) y
varianza (1), no el mismo rango. Si hacemos que todas las variables fluctúen entre 0 y 1 no
tendrán la misma varianza y lo que hace ganar peso a una variable en el análisis es justamente la
varianza. Lo más fácil: usar scale con opción "True". Muchos que han llegado a soluciones de dos
factores ha sido por un error en el proceso de estandarización.
Fíjense que, después de hacer el modelo, calculo las medias de las variable por cada clúster y hago
la interpretación a partir de esta mesa.

Página 2 de 6
Asignatura Código Fecha Inicio Fecha Finalización
Análisis Multivariante 22.508 27/05/2022 12/06/2022

Los clústeres no se diferencian por su género ni por edad. Lo hacen, sobre todo, por hábitat y,
ligeramente, por el uso que han hecho de internet últimamente en cuanto a su vida social. El
clúster 1, formado por personas que viven exclusivamente en una ciudad o pueblo no, parece que
ha usado internet un poco menos -escala es inversa: valores bajos indican más frecuencia- que los
miembros del clúster 2. Éste, que viven en capitales de provincia o de CCAA, han usado internet -
socialmente- un poco más. Los resultados, pero no son espectaculares, pero eso pasa a la realidad
y es necesario también saber cómo explicar modelos poco jugosos.

Pàgina 3 de 6
Asignatura Código Fecha Inicio Fecha Finalización
Análisis Multivariante 22.508 27/05/2022 12/06/2022

2. Crea un modelo para explicar la pregunta de si el uso de internet provoca una disminución de la
comunicación con la familia con la que se convive a partir de las variables edad (cuantitativa), el
sexo, el hábitat (capital de CCAA como categoría de referencia), la autoubicación tanto en el eje
izquierda-derecha como en la escala de felicidad (p18). Establece un orden de importancia de los
predictores.

Requisitos: ya que se trata de un modelo de dependencia y que la variable dependiente es binaria,


se pedía hacer una regresión logística estándar o glm con función link lógito y distribución de
probabilidad binomial (procedimiento equivalente a la regresión logística).
Como siempre, se valoraba una descriptiva de los datos, atendiendo a la métrica de cada una, y
detectar missing. Había que tener muy claro si se modela el haberse vacunado o no, ya que esto
cambia totalmente el sentido de la interpretación de los parámetros del modelo.
Condiciones de aplicación: prueba de Bondad de ajuste de Hosmer y Lemeshow. Es una prueba
donde se comprueba que los datos ajustan a la función logística, por lo tanto, se busca la NO
significación, ya que esto quiere decir que los datos ajustan a la función (teórica) logística. El
incumplimiento de este requisito no invalida el análisis de regresión logística pero hay que ser
cautelosos. En este caso, no tenemos significación (hoslem.test; 28, =3.98, df = 8, p-value =
0.859), así que los resultados son confiables.
ORs
Debemos ir especialmente en cuenta con el ajuste
del modelo por falta de significación. La edad
"podría" ser eliminada al ser NS pero es
perfectamente legítimo que continúe en el modelo,
al estar tan cerca de la significación. Lo que NO
podemos hacer es eliminar una de las dos variables
dummies al ser NS y dejar la otra. Las variables
dummies sólo tienen sentido en paquete. Si no, si
dejamos sólo CAPITAL3, estaremos comparando los
que viven en "Otros municipios" vs "Capitales de
provincia + Capitales CCAA". ¿Es erróneo hacerlo? En
este caso, no, ya que sigue siendo interpretable, pero ya no es exactamente la misma variable
que era al inicio del análisis.

Y ahora a interpretar. Modelamos el desacuerdo con la afirmación. Por lo tanto, a más edad,
menos desacuerdo, es decir, más acuerdo. Por cada año de edad, la OR de acuerdo con la
afirmación sube un 5 por mil (1-0.995). Ser hombre, hace subir el OR de acuerdo con la afirmación
un 30%. Y están especialmente en desacuerdo (la OR sube un 25%) los que viven en otras
localidades.
Otros: se trataba de un modelo explicativo, así que no tiene mucho sentido interpretar el % de
clasificaciones correctas. Algunos errores al interpretar el sentido de los parámetros.

Pàgina 4 de 6
Asignatura Código Fecha Inicio Fecha Finalización
Análisis Multivariante 22.508 27/05/2022 12/06/2022

Para las próximas dos preguntas, utilizarás la encuesta Percepciones sociales del dolor 2016 (3137).

3. Analiza los factor(s) subyacentes a la descripción de la forma de ser de los participantes (P27)1.

1Elimina los casos con valores NS/NC

Pàgina 5 de 6
Asignatura Código Fecha Inicio Fecha Finalización
Análisis Multivariante 22.508 27/05/2022 12/06/2022

4. Realiza un modelo que permita explicar los días de duración del -principal- dolor [p12] a partir de
las variables peso, edad (cuantitativa), sexo y estado de salud general. Elimina a los participantes
que no han tenido ningún dolor, así como los valor NS/NC. ¿Qué orden de importancia tienen
estas variables en el modelo? ¿Cómo se interpretan algunos de los parámetros obtenidos? ¿Qué
utilidad podría tener este modelo?

Requisitos: de nuevo, era necesaria una descriptiva de los datos. Dado que todas las variables
son cuantitativas o binarias, podemos tratarlas todas como cuantitativas y nos ahorramos la
creación de a k-1 variables ficticias (dummy).

Condiciones de aplicación: regresión lineal (o ANOVA) donde se puede valorar


homocedasticidad y linealidad. Óptimo si añadimos valores influyentes, outliers/Cook y
normalidad. Ídem por un glm con función link identidad, que es un procedimiento totalmente
equivalente a la regresión lineal.

Solución: la variable peso no era estadísticamente significativa, así que puede ser eliminada. El
modelo final es que podemos ver aquí sobre y contiene parámetros cuantitativos (edad),
binarios (sexo) y estado de salud. Por cada año de edad de quien responde, los días de dolor
aumentan -en términos medios y manteniendo constantes el resto de parámetros- 51 días. Las
mujeres, en términos medios, han experimentado 411 días más dolor que los hombres.

Os posible de este modelo: valorar si un paciente con unas características concretas tiene el
dolor que le corresponde por sus características o no. Y si lo tiene en exceso, quizás dedicarle a
esta sintomatología alguna atención. Cualquier respuesta razonada es admisible pero no lo es
no responder a la pregunta que planteaba el enunciado.

Pàgina 6 de 6

También podría gustarte