Está en la página 1de 4

Álgebra Matricial

Universidad Nacional de Colombia


Departamento de Estadística
1 de Agosto 2020

Organización de Datos y Estadística Descriptiva


Multivariada
Laura Cadavid Velasco, Sebastián Mejía Sepúlveda, Andrés Sánchez Forero

El siguiente informe utiliza una tabla de datos obtenida de Johnson & Wichern (2007),
la cual tiene 42 mediciones sobre variables de la polución del aire tomadas a las 12 del
mediodía en la ciudad de Los Ángeles en diferentes días.

1. Calcule e interprete las estadísticas descriptivas multivariadas

> polucion<-read.table("Polucion.txt", sep="")


> names(polucion)<-c("viento", "rad.solar", "CO", "NO", "NO2", "O3", "HC")

Los resultados obtenidos fueron los siguientes:

Vector de Medias

> colMeans(polucion)
viento rad.solar CO NO NO2 O3 HC
7.500000 73.857143 4.547619 2.190476 10.047619 9.404762 3.095238

De acuerdo con el vector de medias, se concluye que durante unos días determinados,
el aire de la ciudad de Los Ángeles tuvo:

• Un viento promedio de 7.50


• Una radiación solar promedio de 73.86
• Una cantidad promedio de monóxido de carbono (CO) de 4.55
• Una cantidad promedio de monóxido de nitrógeno (N O) de 2.19
• Una cantidad promedio de dióxido de nitrógeno (N O2 ) de 10.05
• Una cantidad promedio de ozono (O3 ) de 9.40
• Una cantidad promedio de (HC) de 3.10

Matriz de varianzas y covarianzas


> cov(polucion)
viento rad.solar CO NO NO2 O3 HC
viento 2.5000000 -2.7804878 -0.3780488 -0.4634146 -0.5853659 -2.2317073 0.1707317
rad.solar -2.7804878 300.5156794 3.9094077 -1.3867596 6.7630662 30.7909408 0.6236934
CO -0.3780488 3.9094077 1.5220674 0.6736353 2.3147503 2.8217189 0.1416957
NO -0.4634146 -1.3867596 0.6736353 1.1823461 1.0882695 -0.8106852 0.1765389
NO2 -0.5853659 6.7630662 2.3147503 1.0882695 11.3635308 3.1265970 1.0441347
O3 -2.2317073 30.7909408 2.8217189 -0.8106852 3.1265970 30.9785134 0.5946574
HC 0.1707317 0.6236934 0.1416957 0.1765389 1.0441347 0.5946574 0.4785134
AM: Taller 1 Cadavid, Mejía & Sánchez

De acuerdo con la matriz anterior, se puede observar que:

• El viento presenta una covarianza negativa con las variables de la 2 a la 6. Es


decir que en esa asociación se están observando valores altos para una variable,
mientras que para la otra se están observando valores bajos. Por otro lado,
para la séptima variable (HC) hay una covarianza positiva, es decir que en esa
asociación se están observando valores con el mismo comportamiento (ambos
altos o ambos bajos).
• La radiación solar es la variable con la mayor varianza muestral, es decir que
sus datos están muy dispersos con respecto a su media.
• Por otra parte, la covarianzas entre el monóxido de nitrógeno N O y la ra-
diación solar, y la covarianza entre el monóxido de nitrógeno N O y el ozono
son negativas, es decir que al asociarse, se están observando valores altos para
una variable mientras que para la otra se observan valores bajos.
• HC es la variable con la menor varianza muestral, es decir que es la variable
que tiene menos dispersos sus datos con respecto a su media.
• La covarianza entre la variable radiación solar, y las variables CO, N O2 , O3 y
HC respectivamente es positiva, lo que indica que las los valores de las variables
tienen a aumentar o a disminuir a la vez.
• Existe una covarianza positiva entre la variable CO, y las variables N O, N O2 ,
O3 y HC respectivamente, y esto quiere decir que los valores de estas ultimas
tienden a moverse en la misma dirección que los valores de CO.
• Las variables O3 y HC presentan una covarianza positiva, lo que quiere decir
si una de ellas aumenta o disminuye la otra tiende a hacer lo mismo.

Matriz de Coeficientes de Correlación

> cor(polucion)
viento rad.solar CO NO NO2 O3 HC
viento 1.0000000 -0.10144191 -0.1938032 -0.26954261 -0.1098249 -0.2535928 0.15609793
rad.solar -0.1014419 1.00000000 0.1827934 -0.07356907 0.1157320 0.3191237 0.05201044
CO -0.1938032 0.18279338 1.0000000 0.50215246 0.5565838 0.4109288 0.16603235
NO -0.2695426 -0.07356907 0.5021525 1.00000000 0.2968981 -0.1339521 0.23470432
NO2 -0.1098249 0.11573199 0.5565838 0.29689814 1.0000000 0.1666422 0.44776780
O3 -0.2535928 0.31912373 0.4109288 -0.13395214 0.1666422 1.0000000 0.15445056
HC 0.1560979 0.05201044 0.1660323 0.23470432 0.4477678 0.1544506 1.00000000

De acuerdo con la matriz anterior, se puede observar que:

• Las variables que presentan la asociación lineal más baja son HC y radiación
solar, pues su coeficiente de correlación (0.052) está cercano a cero.
• Las variables que presentan la asociación lineal más alta son el monóxido de
carbono (CO) y el dióxido de nitrógeno (N O2 ) con un oeficiente de 0.557.
Al ser este positivo, signfica que las parejas de valores observados tienen el
mismo comportamiento con respecto a su media (ambos son mayores o ambos
menores) y su gráfica tendrá una pendiente positiva.

2
AM: Taller 1 Cadavid, Mejía & Sánchez

• A mayor cantidad de viento, menor cantidad de radiación solar, de monóxido


de carbono (CO), de monóxido de nitrógeno (N O), de dióxido de nitrógeno
(N O2 ) y de ozono (O3 ). Puesto que el viento presenta un coeficiente correlación
negativo al asociarlo con cualquiera de estas variables. Sin embargo, todos estos
coeficientes presentan valores cercanos a cero, por lo cual no se puede asegurar
una buena asociación lineal.
• En general no existen asociacion es lineales fuertes entre las variables medidas,
dado que todas las correlacies se encuentran entre −0.2695426 y 0.5565838.

2. Realice e interprete las gráficas multivariadas presentadas en el curso

> pairs(polucion, panel=panel.smooth, upper.panel=NULL, col=’Blue’)

Figure 1: Diagramas de Dispersión

A partir de las gráficas se observa que:

• En la gráficas de viento vs CO , viento vs N O, y viente vs O3 se puede ver


una tendencia a disminuir suavemente, es decir, se puede ver que los valores de
monóxido de carbono, monóxido de nitrogeno y ozono disminuyen un poco, a
medida que los valores del viento aumentan.
• En las gráficas de CO vs N O, de CO vs N O2 y de CO vs CO3 se puede
apreciar cierto crecimento, lo que indica una tendencia a que los valores del
monoxido de nitrogeno, del dioxido de nitrogeno y del ozono aumenten cuando
los del monoxido de carbono aumentan.
• En las gráficas de N O2 vs O3 y de N O2 vs HC se ve una curva que va creciendo,
por lo se puede interpretar cierta tendecia a que los valores del ozono y del HC
aumenten cuando los valores del dioxido de nitrogeno aumentan.

3
AM: Taller 1 Cadavid, Mejía & Sánchez

• En las gráficas de viento vs HC y en N O vs HC, podemos identificar que no


hay una tendencia, es decir que el hecho de que una de las variables aumente o
disminuya no afecta de ninguna manera el comportamiento de la otra variable.
• En las gráficas donde se relaciona la variable viento, los puntos presentan una
mayor dispersión en comparación a las gráficas que relacionan la variable ra-
diación solar.

3. Verifique si hay observaciones outliers


Para determinar si hay observaciones outliers, se aplicó el concepto de Distancia
de Mahalanobis y a partir de los resultados, se realizó un boxplot con el fin de
observar si alguno de los datos observados presenta una distancia estadística atípica
con respecto al vector de medias.

> dmahalanobis=sqrt(mahalanobis(polucion, colMeans(polucion), cov(polucion)))


> boxplot(dmahalanobis, col="purple")

Figure 2: Boxplot Distancias de Mahalanobis

Como se observa en la Figura 2, no hay distancias estadísticas atípicas de algún


dato observado con respecto al vector de medias, por lo cual no se presentan datos
outliers.

Referencias

• Johnson, R. A., & Wichern, D. W. (2007). Applied multivariate statistical analysis.


7th Edition. Prentice hall.

También podría gustarte