Está en la página 1de 6

Taller 1: An´alisis Multivariado Especializaci´on en Estad´ıstica Aplicada Metodolog´ıa Virtual Fundaci´on Universitaria Los

Libertadores

Instrucciones El siguiente taller busca afianzar sus conocimientos sobre visualizaci´on de un conjunto de datos
multivariados.

Este taller estar´a disponible desde el mi´ercoles 08 de mayo de 2019 en la secci´on actividades del curso en la
plataforma virtual Blackboard y deber´an subir un documento PDF con sus soluciones mediante el enlace del taller en la
plataforma virtual hasta el d´ıa domingo 12 de mayo de 2019 a las 11:59 pm.

Fecha l´ımite de entrega: Domingo 12 de mayo de 2019

Problema Busque un conjunto de datos multivariados relacionados con un ´area de conocimiento de su dominio que
tenga al menos 50 observaciones, 5 variables num´ericas y 3 categ´oricas.

Usando esta base de datos:

1. Encuentre el vector de medias ¯x, la matriz de covarianzas S y la matriz de correlaciones R de las variables num
´ericas.
2. 2. Encuentre la varianza muestral generalizada |S| y la varianza muestral total tr(S).
3. 3. Construya las siguientes gr´aficas para los datos:
4. (a) una matriz de diagramas de dispersi´on.
5. (b) diagrama de estrellas
6. (c) caras de Chernof
7. (d) curvas de Andrews
8. ¿Qu´e le dicen estos gr´aficos sobre los datos y su estructura?
4. La distancia de Mahalanobis D2

se obtiene f´acilmente en R usando la funci´on mahalanobis. Usando esta funci´on, obtenga la distancia de las
observaciones del conjunto de datos e investigue la presencia de valores at´ıpicos.
DESARROLLO
He tomado una base de datos con 43 observaciones, es una base de datos donde se puede visualizar el ingreso
de flor desde la semana 201901 hasta l semana 201918, teniendo 4 variables numéricas y 3 variables
categóricas, se desea ver los distintos análisis que surgen aplicando las diferentes herramientas que nos da la
estadística y en este caso el programa R.

1)Encuentre el vector de medias ¯x, la matriz de covarianzas S y la matriz de correlaciones R de las variables
numéricas.
flor variedad color real presupuesto estimado
siembras
9. <chr> <chr> <chr> <dbl> <dbl> <dbl>
<dbl>
1 BUPLEURUM GUIFFITHI GREEN GOLD Green 521320 535875 516801
508953
2 DIANTHUS (GB) GREEN BALL Green 1480925 1370008 1479214
486741
3 GYPSOPHILA MIRABELLA White 5159691 3506856 3887420
135880
4 SCABIOSA COTTON CANDY SCOOP Pink 17372 220239 17344 4518
5 SCABIOSA LAVENDER SCOOP Lavender 137206 235525 88132
9826
6 SCABIOSA MARSHMALLOW SCOOP Pink 19735 4585 4834
180

vector de medias ¯x,


real presupuesto estimado siembras
<dbl> <dbl> <dbl> <dbl>
1 521320 535875 516801 508953
2 1480925 1370008 1479214 486741
3 5159691 3506856 3887420 135880
4 17372 220239 17344 4518
5 137206 235525 88132 9826
6 19735 4585 4834 180

real presupuesto estimado siembras


487719.5 440414.5 454259.6 209927.0

En este caso el promedio de las variables de real, presupuesto, estimado tienen una similitud, lo cual no ocurre con el
promedio de siembras, podría estar relacionado con un mayor aprovechamiento de algunos tipos de flor.

Matriz de covarianzas S
real presupuesto estimado siembras
real 703950844837 487640771433 550268353281 21418940955
presupuesto 487640771433 380462524680 414754731987 72210184676
estimado 550268353281 414754731987 461853383499 67014322868
siembras 21418940955 72210184676 67014322868 117603472152
En este caso la matriz de covarianza S nos muestra que tan fuerte es la dependencia lineal entre las variables, en este
caso hay una relación lineal de las variables .

matriz de correlaciones R
> cor(datos)
real presupuesto estimado siembras
real 1.00000000 0.9422647 0.9650533 0.07444178
presupuesto 0.94226465 1.0000000 0.9894261 0.34137557
estimado 0.96505331 0.9894261 1.0000000 0.28754479
siembras 0.07444178 0.3413756 0.2875448 1.00000000

En este caso la matriz de correlación R nos muestra que tan fuerte es la correlación entre las variables, en este caso hay
una correlación alta.

Grafico de correlaciones

2)Encuentre la varianza muestra generalizada |S|


> matrix(datos)
[,1]
[1,] Numeric,43
[2,] Numeric,43
[3,] Numeric,43
[4,] Numeric,43

> det(matrix)
[1] 5.543592e+42

varianza muestral total tr(S)

[1] 5.543592e+42
> vartol<-diag(cov(datos))
> sum(vartol)
[1] 1.66387e+12

3)Construya las siguientes gr´aficas para los datos:


A) una matriz de diagramas de dispersión

.
Este grafico nos permite ver las asociaciones que hay entre las variables, Ejemplo presupuesto y estimado
muestran una asociación lineal fuerte.
Lo que son las siembras no muestran una asociación lineal con las demás variables.
b) diagrama de estrellas
Este diagrama de estrellas nos muestra la similitud entre os datos de presupuesto estimado y real que serían los datos
que mantienen el mayor valor numérico, por otra parte, la variable siembras muestra una similitud en los datos
generales y algunos puntos un mayor aporte, esto se debería a que en ciertas épocas del año el presupuesto el estimado
y el real bajan para dar paso a un mayor número de siembras.

c) caras de Chernof

este grafico me permite ver los datos con una mayor diferencia, en este caso particular mi base de datos
tiene muchos datos similares que puedo agrupar y entre 1 y 5 datos con características diferentes que
puntualmente puedo analizar con más detalle.
d) curvas de Andrews

4. La distancia de Mahalanobis D2

También podría gustarte