Está en la página 1de 8

Universidad Nacional de Colombia

. Departamento de Estadı́stica
. Álgebra Matricial
. Trabajo 1 (II-2020)

. Organización de los datos y Estadı́stica Descriptiva Multivariada

Aura Marı́a Alaguna. aalaguna@unal.edu.co. Estadı́stica


Lucas Fajardo. lfajardop@unal.edu.co. Estadı́stica
Sergio David Velasquez. svelasquez@unal.edu.co. Estadı́stica
..........................................................................................

1. Introduzca en MATLAB (R o Python) la tabla adjunta relacionada con la polución del


aire (Ver Tabla 1.5 AIR-POLLUTION DATA, del libro Johnson & Wichern (2007))

Figura 1: Tabla en R

1
2. Elabore un informe en PDF donde:

Calcule e interprete las estadı́sticas descriptivas multivariadas

Figura 2: Vector medias

Con respecto a las medias obtenidas en el vector de medias, vemos que la variable
que tiene la media más alta es la radiación solar, pues tiene sentido que los valores
de esta sean medidos en rangos altos por como se propaga la radición solar en
la tierra. El óxido de nitrógeno (N 02 ) es un gas que aumenta con temperaturas
altas por ello

Figura 3: Matriz de covarianza

Cuando vemos la matriz de covarianza, es claro que la diagonal principal nos


muestra la varianza de cada variable, y la variable que tiene mayor varianza es
radición solar por lo tanto nos hace entender que sus datos están muy dispersos
con respecto a la media. Cuando hablamos de la variable que tiene los datos menos
dispersos pues su varianza es baja estamos hablando de la variable HC. En cuanto
a la covarianza que es una asociación lineal podemos ver en que dirección o hacia

2
donde va su relación de dos varibles por lo tanto podemos ver una alta relación
positiva entre Radiación solar y el Ozono, que tiene una covarianza de 30.7909408

Figura 4: Matriz de correlación

Analizando la matriz de correlación, el cual mide que tan fuerte es la asociación


lineal entre las variable. Podemos observar que la variable con mayor correlación
es CO con N O2 y tiene una relación directa pues es mayor a 0 y es de 0,5565838,
por lo tanto como hay una relación directa entre CO Y N O2 al aumentar CO
también aumentará N O2 ; también se tendrá que al disminuir CO entonces N O2
disminuirá también. Por ello se puede hablar de una relación directa.

También se puede observar en la matriz que el menor valor lo tiene la variable


NO(monóxido de nitrógeno) con respecto a Wind(viento), entonces estas tienen
una relación inversa, con lo que podemos deducir que entre mayor cantidad de
viento se tendrá una menor de NO

Podemos observar en la matriz de correlación que la asociación lineal entre HC


y radiación solar es de 0.05201044, esto nos indica un vı́nculo positivo débil entre
variables, con esto se deducimos que a mayor cantidad de cualquier variable el
aumento de la otra será mı́nimo.

3
Realice e interprete las gráficas multivariadas presentadas en el curso

Figura 5: Boxplot de las variables de la tabla

La primera gráfica corresponde a un boxplot ,medido sin la distancia estadı́stica,


sobre cada variable donde se observa el comportamiento de estas. Según lo obser-
vado en esta gráfica las variables que no tienen outliers son Wind (viento) y NO,
por lo tanto no se observa un comportamiento variado entre sus datos. Es posible
observar que la variable que tiene mas outliers es Radiación solar y se ve que sus
datos atı́picos son los mas altos y distantes al 75 % de la población por lo tanto
tiene datos que son mas bajos a comparación de todos, aparte ese grafico tiene
una caja mas grande por lo tanto el 75 % de los datos están concentrados de una
forma dispersa dentro el gráfico de cajas y bigotes

4
Figura 6: Gráfica multivareada de puntos marginales de cada variable con respecto a cada
una de las variables

El segundo gráfico corresponde a las descripciones de los datos multivardiados de


la tabla 1.5 (Air-Pollution), mostrando como se ven los datos con relación a otras
variable, se ve la dispersión de estos en un grafico de puntos marginales.

5
Figura 7: Gráfica multivareada de puntos marginales de cada variable con respecto a cada
una de las variables

El tercer gráfico es sobre la matriz de covarianzas, por lo tanto nos muestra


graficamente como se comoportan los datos al relacionarlos con los otros datos
de la matriz. Hay covarianzas positivas como la de HC con N O donde se ve un
grafico con tendencia positiva, como también es clara la relación negatica que
tiene las variables CO y N O2 o también se observa este comportamiento con las
varibales CO y viento.

6
Figura 8: Gráfica multivareada de puntos marginales de cada variable con respecto a cada
una de las variables

El cuarto gráfico corresponde a la matriz de correlación, por lo tanto su escala


esta entre -1 y 1. Por un lado, podemos observar en este gráfico es como la variable
N O y N O2 están correlacionado de una manera positiva de una forma fuerte, por
lo tanto hay una relación directa de estas, donde si NO sube también sube N O2 .
Por otro lado, hay variables que muestra muy poca correlación entre ellas , tales
como HC y O3 Las cuales muestran sus datos un poco disperso, por lo tanto no
se puede leer bien su comportamiento.
Verifique si hay observaciones outliers
Para revisar si hay outliers (datos atı́picos) sacamos la distancia mahalanobis o
la distancia estadı́stica la cual no da un vector de tamaño 42x1

7
Figura 9: Vector de distancia de Mahalanobis o distancia estadı́stica

Por lo tanto decidimos hacer un boxplot de los datos para verificar si hay datos atı́picos.

Figura 10: Vector de distancia de Mahalanobis o distancia estadı́stica

También podría gustarte