Está en la página 1de 4

Modelos Descriptivos y Predictivos I - Grado en Ciencia de Datos

Examen Final (20-junio-2022)

TEORÍA (60%)

Nombre y apellidos: ______________________________________________________________________

Ejercicio 1.2 [0.7 puntos]

a) En una matriz en la que existen individuos separados por clases, ¿qué diferencia hay entre discriminar
y clasificar? [0.25 puntos]

Discriminamos clando entender el comportamiento de las variables


queremos
Isi etc.)
influyen la separación de clases o no,
en

individuo,
Si salar una predicción para un nuevo
simplemente queremos
clase más cercare
lo desificaremos en
la

b) Enuncia 3 ventajas del PLS frente a la Regresión Lineal Múltiple [0.25 puntos]
Model espacio, y aceras de relacinde XaY
-Modele el espacio X, y
ademas la relacion Xe Y

No afruten variables correlacionadas


les variables correlacionadas
-No le afectan variables
-uneroch individuos mayor are
niwroce
el variables
no exige mayor que
de

-No el número de individuos se


exige que
regresoras.

c) ¿Cómo calcularías la Q2(a) asociada a la componente a-ésima de un modelo PLS? ¿Puede ser negativa?
Justifica la respuesta. [0.2 puntos]
PRESS
1-
como:Q "(a)
-

la calculeriamos
=

La bondad de
prediccion sct

que
rendimiento
puede ser negativa si el modelo PLS fiere peor
Si

Otro modelo.
no ven
observaciones que
PRESS:los residuos de predecir
el modelo
side observerdes por

4
Modelos Descriptivos y Predictivos I - Grado en Ciencia de Datos

Examen Final (20-junio-2022)

TEORÍA (60%)

Nombre y apellidos: ______________________________________________________________________

Ejercicio 2 [1.5 puntos]

Tenemos una base de datos de 1000 hoteles y 41 variables. Las primeras 40 variables (S1, …, S50) hacen
referencia a los distintos servicios y comodidades que ofrecen los hoteles y son todas binarias (0-1), donde 1
indica que el hotel ofrece dicho servicio o dispone de dicha comodidad. La última variable (EST) indica el
número de estrellas del hotel (de 1 a 5).

a) Discute si el análisis discriminante de Fisher es un método apropiado para identificar qué servicios
ofrecidos por el hotel (variables S1, …, S50) son más o menos determinantes a la hora de otorgar el
número de estrellas a los hoteles (variable EST). [0.5 puntos]
Divia el las variables siguen una
que no es adecuado
porque
no

distribución normal, tal


como asume DA.

b) Supongamos que hemos elegido un método supervisado apropiado para predecir la variable EST en
función del resto de variables. Indica si crees que debería ser de clasificación o regresión, qué medidas
del error te parecerían apropiadas para evaluar la bondad de predicción del modelo y qué
procedimiento aplicarías para entrenar el modelo y estimar dichas medidas del error de forma
adecuada. [0.5 puntos]
(EST
clasificación le variable respueste
Deberia ser de
puesto que
desifizer mero hotel, en una de les
quieres
un
Ademes
es categórica.

categorias.
la bondad del modelo aplicaria
Para evaluar
datos 2 (trainy
test). Ajustamos
Dividimos los en
a

la bonded aplicandolo
el modelo a los train
y evaluamos
de las
La medida
variable respuesta
los test (predecimos a

emores
de desificación

1
Modelos Descriptivos y Predictivos I - Grado en Ciencia de Datos

Examen Final (20-junio-2022)

TEORÍA (60%)

Nombre y apellidos: ______________________________________________________________________

c) ¿Qué método no supervisado de reducción de la dimensión te parece más adecuado para analizar las
variables S1, …, S50 con tal de averiguar las relaciones entre ellas y con los distintos hoteles? ¿Por qué?
[0.5 puntos]
el tipo de dato (0-1)
El AFC multiple por

Ejercicio 3 [2 puntos]

a) Para estudiar la relación entre dos variables categóricas (V1 con valores X, Y y Z, y V2 con valores A, B,
C y D) se crea una tabla de contingencia. A partir de la misma, se han obtenido las matrices F
(frecuencias relativas) y C (frecuencias condicionadas a columnas).

us
F A B C D Totales C A B C D
X 0.08 0.04 0.09 0.12 0.33 X 0.30 0.24 0.39 0.35
Y 0.09 0.06 0.12 0.09 0.36 Y 0.35 0.35 0.52 0.27
Z 0.09 0.07 0.02 0.13 0.31 Z 0.35 0.41 0.09 0.38
Totales 0.26 0.17 0.23 0.34

Completa la matriz C y demuestra que la distancia Chi2 entre las columnas A y B es igual a la distancia
euclídea entre las columnas A y B de la matriz transformada Y, siendo

Indica claramente todos los cálculos realizados. Utiliza las matrices proporcionadas sin transponerlas o
recalcular nada. [0.75 puntos]

2
Modelos Descriptivos y Predictivos I - Grado en Ciencia de Datos

Examen Final (20-junio-2022)

TEORÍA (60%)

Nombre y apellidos: ______________________________________________________________________

c) Se ha realizado una encuesta a 5000 personas y se les ha preguntado acerca de los hobbies que
-

practican. Con esta información se han generado reglas de asociación y se han filtrado aquellas que
tienen “TV” (ven la televisión) como consecuente.

lhs rhs support confidence lift


[6] {Sport} => {TV} 0.322 0.875 0.994

-
[10] {Cinema} => {TV} 0.366 0.911 1.035
[11] {Travelling} => {TV} 0.371 0.913 1.037
[13] {Cooking} => {TV} 0.406 0.912 1.036
[16] {Walking} => {TV} 0.460 0.901 1.023
[17] {Reading} => {TV} 0.607 0.903 1.027
[18] {Listening music} => {TV} 0.648 0.909 1.033
[26] {Cinema, Sport} -
=> {TV} 0.206 ⑳0.909 1.032
[27] {Sport, Walking} => {TV} 0.204 0.895 1.016
[28] {Reading, Sport} => {TV} 0.256 0.905 1.029
[29] {Listening music, Sport} => {TV} 0.274 0.899 1.022
↑ [47]
>
{Cinema, Travelling} => {TV} 0.216 !0.926 1.052
~ [49] {Cinema, Walking}
-
=> {TV} 0.221 E0.922 1.048
[50] {Reading, Cinema} => {TV} 0.296 en
0.923 1.048
En
-

[51] {Listening music, Cinema} - => {TV} 0.321 0.923 1.048


[52] {Travelling, Cooking} => {TV} 0.200 0.932 1.059
[54] {Walking, Travelling} => {TV} 0.245 0.924 1.050
[55] {Reading, Travelling} => {TV} 0.301 0.926 1.052

Dada la regla [10], discute qué otras reglas son redundantes y no redundantes respecto a ella para la confianza.
A partir de estas reglas, calcula el número de personas encuestadas que practican deporte (“Sport”) y el
número de personas encuestadas que ven la televisión (“TV”). [0.5 puntos]
la 10 la [10] es
Le redundante respecto a es [76] puesto que
de elle y fiere
mas confianta. Las demas no.
un subconjunto

B.
s[S > N)
-322:0.875
=

-
CIS 3ir =
=

p(S) p(S)

SPORT
0.368.5000=1848
P(s):
8-
3 0.368
=

LIS) in) ":es:0994


=

PCTV):
= 0.88.5000=Unol N

También podría gustarte