Documentos de Académico
Documentos de Profesional
Documentos de Cultura
PEC 1
Aspectos básicos del análisis multivariante
En esta PEC aplicarás los conocimientos teóricos que has adquirido tanto a partir del Material de la UOC
como de los vídeos propuestos, y realizarás análisis descriptivos previos al análisis multivariante.
(1) Usar R Studio para crear estadísticas descriptivas de una serie de variables;
(2) Demostrar que has interiorizado los principales conceptos teóricos de los materiales.
Formato
(1) Debes enviar un único documento al Registro de Evaluación Continua: un documento pdf. Éste
contendrá el texto abierto de las respuestas del PEC, sin los enunciados de las preguntas, y los objetos
estadísticos que necesites insertar, junto a las instrucciones de R que has usado para generarlos.
(2) Debes ser muy específico y preciso en tus respuestas y ceñirse a la longitud máxima permitida.
(3) En las preguntas en las que se te pida una descripción estadística, debes adjuntar un objeto de
resultados, así como una breve explicación donde debe aparecer tu propia valoración. En otras palabras,
no basta con cuantificar simplemente una relación, sino también debes interpretarla.
Enunciado
Página 1 de 4
Asignatura Código Inicio Finalización
Análisis Multivariante 22.508 04/03/2022 13/03/2022
2. Existe una relación conocida y negativa entre el número (por millón de habitantes) de helados
vendidos y el número de muertes por hipotermia.
Se trata de un caso de confusión, puesto que es una asociación que no tiene ningún sentido
causal. Probablemente, el frío explique esta relación. Era necesario mencionar el término
teórico, "confusión" e -idealmente- relación espuria. No basta con explicar la idea: es necesario
identificar el término que ha aprendido en la teoría. Esta relación es inventada por mí, pero está
inspirada en https://paularowinska.wordpress.com/2018/08/18/deadly-ice-cream/
3. Ante un problema de interdependencia, la elección del tipo de modelo a realizar depende del
número de variables independientes.
No: un modelo de interdependencia carece de variables independientes y dependientes. Esta
terminología es propia de los modelos de dependencia. En un modelo de interdependencia,
todas las variables juegan un rol simétrico.
4. Ante un problema de dependencia, la elección del tipo de modelo a realizar depende del
número de variables independientes.
No: depende en gran medida de la métrica de la variable dependiente. Esto aparece claramente en la
tabla 7, página 31.
Página 2 de 4
Asignatura Código Inicio Finalización
Análisis Multivariante 22.508 04/03/2022 13/03/2022
explicar la técnica que se utilizará para contestar al objetivo. Justamente, esta asignatura trata este
último punto, 5) utilizar un caso particular que, después de estudiarlo, no será generalizable.
c) Busca en los medios una noticia sobre COVID en la que creas que se mezclan -o se emplean
erróneamente- los conceptos de asociación, confusión y/o causalidad. Enlaza la noticia, transcribe
alguna parte errónea y justifica el porqué crees que confunde alguno(s) de este(s) concepto(s).
Algunos ejemplos aportados por ustedes mismos:
https://www.miciudadreal.es/2020/04/21/covid-y-5g-estudio-de-correlacion/
La incidencia de COVID correlaciona con la cobertura 5G. Es obvio que ambas variables lo hacen
también con la densidad de población.
https://www.lasexta.com/noticias/internacional/evita-el-tabaco-que-te-contagies-por-coronavirus-asi-
es-el-polemico-estudio-frances-que-afirma-que-la- nicotina-mata-al-covid-
19_202004235ea1aade64242d00016bca5c.html
Un estudio de estadístico francés afirma que el tabaco ayuda a frenar el virus.
b) Una conocida empresa logística se plantea estudiar qué efectos afectan a que el reparto de sus
paquetes lleguen a la hora. Tienen los datos del número de paquetes a repartir, la distancia entre ellos
y las horas trabajadas por el repartidor/a. ¿Cuál es, probablemente, la técnica estadística multivariante
que utilizarán?
Tot sembla indicar que es tracta d’una regressió logística, on la variable dependent seria que el paquet
arribi (o no) a l’hora i les variables independents serien el nombre de paquets, la distància entre els
destins i les hores treballades per repartidor. Correctament argumentat, es podia justificar o una
anàlisi discriminant, malgrat és conegut que aquesta tècnica té més supòsits que la regressió.
Página 3 de 4
Asignatura Código Inicio Finalización
Análisis Multivariante 22.508 04/03/2022 13/03/2022
3. A partir del archivo Fertility and Women's Labor Supply data (descripción, datos) describe con el
estadístico(s) adecuado(s) (extensión máxima de cada apartado: 125 palabras):
a) la relación entre el número de semanas trabajadas en el año 1979 y la edad de la madre
Correlación = 0. 11114. “Sorprenden” tantos boxplots, cuando no es un gráfico adecuado para
representar dos variables cuantitativas: la variable x debería ser categórica. Si se quiere dibujar la
relación entre dos cuantitativas, el gráfico a realizar es un scatterplot.
c) ¿qué técnica multivariante deberías utilizar para elaborar un modelo que explique el número
semanas trabajadas a partir de la edad y la etnia de la madre?
Todo parece indicar que se trataría de una regresión múltiple lineal, en la que la variable dependiente
sería el número de horas trabajadas y las independientes la edad y la etnia. Se podría argumentar
también un ANOVA, siempre y cuando se destacase que la edad debe ser introducida como covariable
o categorizada. La pregunta no pide realizar la técnica: sólo mencionarla. Hacer un modelo sin ningún
tipo de hipótesis previa es un error conceptual importante.
d) del modelo anterior, ¿cuál es/son las variables independientes del estudio y cuál/cuáles las
dependientes?
Semanas trabajadas, VD y edad y etnia, VIs
4. A partir del archivo House Prices in the City of Windsor, Canada (descripción, datos) describe con
el estadístico(s) adecuado(s) (extensión máxima de cada apartado: 125 palabras):
b) ¿qué técnica multivariante deberías utilizar para agrupar casas en función de sus características?
Análisis de clusters, ya que se agrupan entidades (casas) en función de la similitud entre sus atributos -
o variables- que serían sus características. Es una técnica de interdependencia. No era necesario
hacerla, sino mencionarla. La pregunta no pide realizar la técnica: sólo mencionarla.
c) del hipotético modelo anterior, ¿cuál es/son las variables independientes del estudio y cuál/cuáles
las dependientes?
No tiene sentido plantearse la VD (ni las VI) de un análisis de interdependencia.
Página 4 de 4