Está en la página 1de 4

Asignatura Código Inicio Finalización

Análisis Multivariante 22.508 04/03/2022 13/03/2022

PEC 1
Aspectos básicos del análisis multivariante
En esta PEC aplicarás los conocimientos teóricos que has adquirido tanto a partir del Material de la UOC
como de los vídeos propuestos, y realizarás análisis descriptivos previos al análisis multivariante.

Por lo tanto, en esta PEC 1 tendrás que:

(1) Usar R Studio para crear estadísticas descriptivas de una serie de variables;

(2) Demostrar que has interiorizado los principales conceptos teóricos de los materiales.

Formato

(1) Debes enviar un único documento al Registro de Evaluación Continua: un documento pdf. Éste
contendrá el texto abierto de las respuestas del PEC, sin los enunciados de las preguntas, y los objetos
estadísticos que necesites insertar, junto a las instrucciones de R que has usado para generarlos.

(2) Debes ser muy específico y preciso en tus respuestas y ceñirse a la longitud máxima permitida.

(3) En las preguntas en las que se te pida una descripción estadística, debes adjuntar un objeto de
resultados, así como una breve explicación donde debe aparecer tu propia valoración. En otras palabras,
no basta con cuantificar simplemente una relación, sino también debes interpretarla.

Enunciado

Página 1 de 4
Asignatura Código Inicio Finalización
Análisis Multivariante 22.508 04/03/2022 13/03/2022

1. Preguntas teóricas (extensión máxima de cada apartado: 125 palabras)


a) Comenta críticamente las siguientes afirmaciones:
1. Existen ámbitos de la ciencia de datos donde el análisis multivariante no es necesario.
Cierto. En el caso de modelos de dependencia, el uso del análisis multivariante se justifica por la
presencia de confusión. Si no hay confusión, no hace falta lo multivariante. No tiene sentido
utilizar un modelo multivariante si hemos aleatorizado (la asignación), haciendo los grupos
comparables. El análisis multivariante de dependencia no se utiliza en experimentos puros ya
que la aleatorización de los participantes en cada uno de los grupos (asignación) garantiza la
comparabilidad en las variables que no son la de estudio, que será vacuna/placebo, por ejemplo.
El AM de dependencia es una solución (no óptima) de análisis cuando el diseño no es óptimo por
que no hemos podido aleatorizar. Utilizamos AM para controlar la confusión que evitaría la
aleatorización. ¿Y cómo se controlan variables importantes no aleatorizables (edad, género, p.
ej.)? Siempre a priori, en el diseño y no en el análisis.
Algunos otros ejemplos: previsión con series temporales, regresión no paramétrica con splines o
similares, modelos que usan cadenas de Markov, o, sin ir demasiado más lejos, casi todos los
análisis de encuestas, que son descriptivos y no inferenciales.
Otras justificaciones son correctas siempre y cuando no sean obvias. “No hace falta un
multivariante si debemos hacer un univariante” no es una respuesta aceptable.

2. Existe una relación conocida y negativa entre el número (por millón de habitantes) de helados
vendidos y el número de muertes por hipotermia.
Se trata de un caso de confusión, puesto que es una asociación que no tiene ningún sentido
causal. Probablemente, el frío explique esta relación. Era necesario mencionar el término
teórico, "confusión" e -idealmente- relación espuria. No basta con explicar la idea: es necesario
identificar el término que ha aprendido en la teoría. Esta relación es inventada por mí, pero está
inspirada en https://paularowinska.wordpress.com/2018/08/18/deadly-ice-cream/

3. Ante un problema de interdependencia, la elección del tipo de modelo a realizar depende del
número de variables independientes.
No: un modelo de interdependencia carece de variables independientes y dependientes. Esta
terminología es propia de los modelos de dependencia. En un modelo de interdependencia,
todas las variables juegan un rol simétrico.

4. Ante un problema de dependencia, la elección del tipo de modelo a realizar depende del
número de variables independientes.
No: depende en gran medida de la métrica de la variable dependiente. Esto aparece claramente en la
tabla 7, página 31.

b) Describe, paso a paso, el hipotético proceso de construcción de un modelo multivariante aplicable a


tu trabajo o entorno más inmediato. El ejemplo puede ser ficticio pero debe ser verosímil. Es
importante que la explicación esté bien estructurada, sea (científicamente) rigurosa y muy breve
(extensión máxima de este apartado: 250 palabras).
Punto 7 del texto “Introducción al análisis multivariante” aplicado a un ejemplo.
Errores comunes: 1) no explicitar suficientemente el objetivo del estudio; 2) no explicitar cuál es la
métrica de la variable dependiente; 3) valorar la “representatividad” de los casos respecto a la
población general, cuando, al análisis no univariante, la representatividad no aporta mucho, 4) no

Página 2 de 4
Asignatura Código Inicio Finalización
Análisis Multivariante 22.508 04/03/2022 13/03/2022

explicar la técnica que se utilizará para contestar al objetivo. Justamente, esta asignatura trata este
último punto, 5) utilizar un caso particular que, después de estudiarlo, no será generalizable.

c) Busca en los medios una noticia sobre COVID en la que creas que se mezclan -o se emplean
erróneamente- los conceptos de asociación, confusión y/o causalidad. Enlaza la noticia, transcribe
alguna parte errónea y justifica el porqué crees que confunde alguno(s) de este(s) concepto(s).
Algunos ejemplos aportados por ustedes mismos:
https://www.miciudadreal.es/2020/04/21/covid-y-5g-estudio-de-correlacion/
La incidencia de COVID correlaciona con la cobertura 5G. Es obvio que ambas variables lo hacen
también con la densidad de población.

https://www.lasexta.com/noticias/internacional/evita-el-tabaco-que-te-contagies-por-coronavirus-asi-
es-el-polemico-estudio-frances-que-afirma-que-la- nicotina-mata-al-covid-
19_202004235ea1aade64242d00016bca5c.html
Un estudio de estadístico francés afirma que el tabaco ayuda a frenar el virus.

2. Identificación de técnicas (longitud máxima de cada sección: 125 palabras):


a) Un grupo hotelero quiere analizar los cuestionarios de satisfacción de sus clientes, agrupando sus
valoraciones (cuantitativas) en grandes conceptos. Por ejemplo, creen que la limpieza del suelo, del
baño y de las mesas, podrían agruparse en un concepto general llamado “limpieza” pero no están
seguros. ¿Cuál es, probablemente, la técnica estadística multivariante que utilizarán?
El Análisis de componentes principales (y también el análisis factorial) calculan factores a partir de
variables cuantitativas. Estos factores son un resumen de las variables cuantitativas originales y
pueden interpretarse como -factores, constructos, elementos- subyacentes a los datos. Imaginemos
una matriz de casos (clientes) por variables (valoraciones). Si los clientes puntúan de forma similar
algunos aspectos, éstos se agruparán (son variables) en factores que recogerán este concepto. Sería
esperable un factor de limpieza.
Son aceptables otras respuestas siempre y cuando estén correctamente razonadas y sean coherentes

b) Una conocida empresa logística se plantea estudiar qué efectos afectan a que el reparto de sus
paquetes lleguen a la hora. Tienen los datos del número de paquetes a repartir, la distancia entre ellos
y las horas trabajadas por el repartidor/a. ¿Cuál es, probablemente, la técnica estadística multivariante
que utilizarán?
Tot sembla indicar que es tracta d’una regressió logística, on la variable dependent seria que el paquet
arribi (o no) a l’hora i les variables independents serien el nombre de paquets, la distància entre els
destins i les hores treballades per repartidor. Correctament argumentat, es podia justificar o una
anàlisi discriminant, malgrat és conegut que aquesta tècnica té més supòsits que la regressió.

Página 3 de 4
Asignatura Código Inicio Finalización
Análisis Multivariante 22.508 04/03/2022 13/03/2022

3. A partir del archivo Fertility and Women's Labor Supply data (descripción, datos) describe con el
estadístico(s) adecuado(s) (extensión máxima de cada apartado: 125 palabras):
a) la relación entre el número de semanas trabajadas en el año 1979 y la edad de la madre
Correlación = 0. 11114. “Sorprenden” tantos boxplots, cuando no es un gráfico adecuado para
representar dos variables cuantitativas: la variable x debería ser categórica. Si se quiere dibujar la
relación entre dos cuantitativas, el gráfico a realizar es un scatterplot.

b) la descripción de las dos variables anteriores


Summary de cada una y una mesa por cada una. O un gráfico (boxplot) por cada una. Son dos
cuantitativas.

c) ¿qué técnica multivariante deberías utilizar para elaborar un modelo que explique el número
semanas trabajadas a partir de la edad y la etnia de la madre?
Todo parece indicar que se trataría de una regresión múltiple lineal, en la que la variable dependiente
sería el número de horas trabajadas y las independientes la edad y la etnia. Se podría argumentar
también un ANOVA, siempre y cuando se destacase que la edad debe ser introducida como covariable
o categorizada. La pregunta no pide realizar la técnica: sólo mencionarla. Hacer un modelo sin ningún
tipo de hipótesis previa es un error conceptual importante.

d) del modelo anterior, ¿cuál es/son las variables independientes del estudio y cuál/cuáles las
dependientes?
Semanas trabajadas, VD y edad y etnia, VIs

4. A partir del archivo House Prices in the City of Windsor, Canada (descripción, datos) describe con
el estadístico(s) adecuado(s) (extensión máxima de cada apartado: 125 palabras):

a) la relación entre el precio de venta de la casa y si está o no en el barrio mejor considerado


(preferred) de la ciudad barrio de la ciudad
Lo ideal es calcular las media/media (y desviación estándar) del precio de venta por barrio preferido y
por no serlo. Óptimo añadir mediana y cuartiles, y así tener medidas calculadas de momentos y de
posición. Se podía añadir un diagrama de cajas (box plot) de precio by preferred.

b) ¿qué técnica multivariante deberías utilizar para agrupar casas en función de sus características?
Análisis de clusters, ya que se agrupan entidades (casas) en función de la similitud entre sus atributos -
o variables- que serían sus características. Es una técnica de interdependencia. No era necesario
hacerla, sino mencionarla. La pregunta no pide realizar la técnica: sólo mencionarla.

c) del hipotético modelo anterior, ¿cuál es/son las variables independientes del estudio y cuál/cuáles
las dependientes?
No tiene sentido plantearse la VD (ni las VI) de un análisis de interdependencia.

Página 4 de 4

También podría gustarte