AnalisisMultivariado Tarea 2 2021 1

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO
Facultad de Ciencias
Análisis Multivariado / 2021-I
Act. Harim Garcı́a Lamont, Mat. Erick Eduardo Aguilar Hernández
Tarea 2
1. Sea Σp×p 0 con descomposición espectral Σ = ΓΛΓ0 . Demuestre que Σ y su inversa se pueden escribir
como una suma de productos externos en términos de sus vectores propios como sigue, donde λk es el k-ésimo
valor propio en la diagonal de Λ y γ (k) es la k-esima columna de Γ:
p p
X
(k) (k)0 −1
X 1 (k) (k)0
Σ= λk γ γ y Σ = γ γ
λk
k=1 k=1
2. Del siguiente listado de matrices identificar cuales son semi positivas definidas y cuales no. Para aquellas que
lo sean encontrar la descomposición espectral y comprobarla usando el paquete numpy.linalg de python dentro
del notebook.

1 0
a) A =
0 2

1 1
b) B =
1 1

1 2
c) C =
−2 −1

1 2
d) D =
−2 1

1 3
e) E =
3 1
3. El archivo lagartijas.csv contiene mediciones de 25 lagartijas de la especie Cophasaurus texanus. Donde:

• Mass: Es el peso en gramos.
• SVL: Es la longitud de la cola a la nariz.
• HLS: Es la longitud de la pata posterior.
El cientı́fico supone que las medidas que el ha obtenido son suficientes para saber si hay diferencias significa-
tivas entre los especı́menes del sexo masculino y femenino. Se pide realizar un análisis descriptivo utilizando
las estadı́sticas y gráficos multivariados para determinar si es posible identificar diferencias significativas entre
machos y hembras partiendo de las mediciones realizadas por el biologo.
4. El archivo prestamos.csv contiene un registro histórico de prestamos que se ha otorgado una institución fi-
nanciera durante el ultimo año, en la columna estado del préstamo hay una etiqueta que indica si el crédito se
pago completo o si se ha impagado. Se pide limpiar el archivo, imputar valores perdidos si es que es necesario
y realizar un análisis descriptivo utilizando las estadı́sticas y gráficos multivariados para determinar si es po-
sible identificar diferencias significativas entre los impagadores y los no impagadores partiendo de los datos
de aplicación del crédito. Genere nuevas variables a partir de las anteriores si cree que estas pudieran ayudar
a explicar mejor la diferencia entre una clase y otra.
1
5. El archivo intencionesCompra.csv contiene una serie de leads generados por el motor de google adds y los
datos de interacciones asociados a estos cada vez que un usuario es expuesto a la publicidad en su navegador,
el dataset contiene una columna llamada compra que contiene valores True y False cuando el lead termina por
convertirse en una venta (True) y cuando no (False). Se pide limpiar el archivo, imputar valores perdidos si
es que es necesario y realizar un análisis descriptivo utilizando las estadı́sticas y gráficos multivariados para
identificar si es posible determinar diferencias significativas entre los leads que terminan en ventas y los que
no partiendo de los datos de interacción con el usuario. Genere nuevas variables a partir de las anteriores si
cree que estas pudieran ayudar a explicar mejor la diferencia entre una clase y otra.
6. Sea Σ ∈ M (R)p×p una matriz semi positiva defina y x, z, µ ∈ Rp se define la función de densidad normal
multivariada en p dimensiones con parámetros Σ y µ como:
−1
|Σ| 2 1 0
fX1 ,...,Xp (x1 , ..., xp ) = √ p exp − [x − µ] Σ−1 [x − µ]
2π 2
Muestre que:
a) 0 < fX1 ,...,Xp (x1 , ..., xp ) ∀x ∈ Rp
√ p
2π
Z
1 0 −1
b) exp − [x − µ] Σ [x − µ] dz = −1
Rp 2 |Σ| 2
Finalmente concluya que:
Z
fX1 ,...,Xp (x1 , ..., xp ) = 1
Rp
7. Sea x ∈ Rp vector aleatorio tal que x ∼ Np (µ, Σp×p ) y sean A ∈ M (R)q×p la matriz asociada a una trans-
formación lineal invertible sobre el espacio de caracterı́sticas de x y b ∈ Rq , demuestre que y = Ax + b ∼
Nq (Aµ + b, AΣA0 ).

µ1 σ11 σ12
8. Sea el vector aleatorio x = (X1 , X2 ) ∈ R2 tal que: x ∼ N µ = ,Σ = demuestre
µ2 σ21 σ22
que la función de densidad esta dada por:
" 2 2 #!
1 −1 x1 − µ1 x2 − µ2 (x1 − µ1 )(x2 − µ2 )
f (x1 , x2 ) = exp + − 2ρ
2(1 − ρ2 )
p
2σ1 σ2 π 1 − ρ2 σ1 σ2 σ1 σ2
Donde ρ es el coeficiente de correlación de X1 con X2 , σ1 y σ2 son las desviaciones estándar de X1 y X2

correspondientemente.
9. Los datasets time series 1.csv y time series 2.csv contienen dos trayectorias de dos series de tiempo, para cada
una de ellas:
a) Hacer un plot de los datasets e identificar el tipo serie utilizando los autocorrelogramas simples y parcia-
les. Observará que existen anomalı́as dentro de las series. Luego ajuste un modelo estacionario adecuado
para cada una de las trayectorias, y obtenga la tabla con el resumen del ajuste y los parámetros.
b) A partir del orden de la serie de tiempo, usar el número de retrasos adecuado para generar matriz de datos
X(n−p)×p . A partir de esta matriz descomponerla para graficar las elipses o elipsoides de confianza.
c) Utilizar el método de la envolvente elı́ptica para identificar las anomalı́as dentro de la series, use una
confianza del 0.99. utilizar el paquete de python sklearn.covariance.EllipticEnvelope para realizar dicha
tarea.
d) Hacer de nuevo un plot de la series de tiempo, destacado el gráfico con un marcador especial los puntos
en la series detectados como anómalos.
Hint para los elipsoides en 3D: http://kylebarbary.com/nestle/index.html

AnalisisMultivariado Tarea 2 2021 1

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

AnalisisMultivariado Tarea 2 2021 1

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO

3. El archivo lagartijas.csv contiene mediciones de 25 lagartijas de la especie Cophasaurus texanus. Donde:

Donde ρ es el coeficiente de correlación de X1 con X2 , σ1 y σ2 son las desviaciones estándar de X1 y X2

También podría gustarte