Está en la página 1de 23

UNIVERSIDAD ABIERTA DE CATALUA

UNIVERSIDAD ROVIRA I VIRGILI


ANALSIS DE DATOS MULTIVARIADOS
Diego Heras B
PEC1

DESARROLLO:
1. Descripcin del conjunto de Datos:
a) MEDIDAS CENTRALIZACIN Y SU ANLISIS:
Para describir los datos multivalentes estudiaremos cada variable con sus observaciones aisladamente y las
relaciones entre ellas.
Para el anlisis multivariable del conjunto de datos CASCrefmicrodata.xls se ha realizado el anlisis
descriptivo en este punto de la PEC.

Para el anlisis de utiliz el lenguaje de programacin R, del cual se describe a continuacin la construccin
del dataframe con estos vectores mencionados:
Cdigo
#-------------------------------------------------------------# UNIVERSIDAD ABIERTA DE CATALUA
# UNIVERSIDAD ROVIRA I VIRGILI
#-------------------------------------------------------------install.packages("XLConnect")
library("XLConnect")
library(MASS)
excel.file < -file.path("C:\\Users\\Diego\\Desktop\\CASCrefmicrodata.xls")

mt<-summary(elements)
attach(elements)
print(mt)
#--------------------------------------------------------------Donde:

Se instalan los paquetes necesarios para leer el archivo con extensin (*.xls) con XLConnect
Luego se carga la librera (MASS) que nos servir luego para encontrar los vectores de medias
Se abre el archivo desde la ubicacin desde donde se va a trabajar
La funcin summary(elements) es un resumen de algunos valores descriptivos del conjunto de datos
que ponemos a continuacin
La funcin attach(elements) sirve para aadir el nombre de la variable cada grupo de observaciones
respectivamente.
Se imprimen los resultados:

Pero este sumario de resultados no nos detalla todos los datos que nos interesan, por esta razn calcularemos
vectores de: medias, medianas, meda, desviaciones tpicas, coeficiente robusto meda/mediana, coeficiente de
variacin, coeficiente de asimetra, kurtosis.
Todos estos vectores se formaron con funciones creadas y otras instaladas con paquetes de R, los cdigos de las
funciones creadas de muestran a continuacin:
Cdigo:
#-----------------------------------------------------------------------#Calculando el vector de medias y de matriz de covarianzas
#-----------------------------------------------------------------------vecmed = colMeans(elements) #vector de medias
sigmaest = cov(elements)
#Matriz de covarianzas
#-----------------------------------------------------------------------#funcion para calcular el coeficiente de asimetria de un vector de datos
#-----------------------------------------------------------------------asim<- function(x){
n<-length(x)
asimetria<-(sum((x-mean(x))^3)/n) / ((sqrt(var(x))^3))
cbind(asimetria) }
#-----------------------------------------------------------------------# funcion para calcular el coeficiente de variacion de un vector
#-----------------------------------------------------------------------coefvar <- function(x){

cv<-sqrt((sd(x))^2/(mean(x)^2))
cbind(cv)}
#-----------------------------------------------------------------------# funcion para calcular las desviaciones tipicas de un vector
#-----------------------------------------------------------------------dt<-function(x){
n <-length(x)
dt<-sqrt(sum(x-mean(x))^2/n)
cbind(dt)}
#-----------------------------------------------------------------------# funcion para calcular el coe?ciente de curtosis de un vector de datos
#-----------------------------------------------------------------------kurto=function(x) {
m4=mean((x-mean(x))^4)
kurt=m4/(sd(x)^4)-3
kurt}
#------------------------------------------------------------------------

Ahora creamos los vectores de parmetros a analizar:


Cdigo:
#-----------------------------------------------------------------------# Creando los vectores de parametros a analizar
#-----------------------------------------------------------------------vec_medias <- colMeans(elements)
vec_d_tip<c(sd(AFNLWGT),sd(AGI),sd(EMCONTRB),sd(FEDTAX),sd(PTOTVAL),sd(STATETAX),sd(TAXINC),sd(POTHVAL)
,sd(INTVAL),sd(PEARNVAL),sd(FICA),sd(WSALVAL),sd(ERNVAL))
vec_coef_asim <c(asim(AFNLWGT),asim(AGI),asim(EMCONTRB),asim(FEDTAX),asim(PTOTVAL),asim(STATETAX),asim(TAXIN
C),asim(POTHVAL),asim(INTVAL),asim(PEARNVAL),asim(FICA),asim(WSALVAL),asim(ERNVAL))
vec_Kurt <c(kurto(AFNLWGT),kurto(AGI),kurto(EMCONTRB),kurto(FEDTAX),kurto(PTOTVAL),kurto(STATETAX),kurt
o(TAXINC),kurto(POTHVAL),kurto(INTVAL),kurto(PEARNVAL),kurto(FICA),kurto(WSALVAL),kurto(ERNVA
L))

coef_var <c(coefvar(AFNLWGT),coefvar(AGI),coefvar(EMCONTRB),coefvar(FEDTAX),coefvar(PTOTVAL),coefvar(ST
ATETAX),coefvar(TAXINC),coefvar(POTHVAL),coefvar(INTVAL),coefvar(PEARNVAL),coefvar(FICA),
coefvar(WSALVAL),coefvar(ERNVAL))
vec_median<c(median(AFNLWGT),median(AGI),median(EMCONTRB),median(FEDTAX),median(PTOTVAL),median(STATETAX
),median(TAXINC),median(POTHVAL),median(INTVAL),median(PEARNVAL),median(FICA),median(WSALVAL)
,median(ERNVAL))
vec_meda<c(mad(AFNLWGT),mad(AGI),mad(EMCONTRB),mad(FEDTAX),mad(PTOTVAL),mad(STATETAX),mad(TAXINC),mad(
POTHVAL),mad(INTVAL),mad(PEARNVAL),mad(FICA),mad(WSALVAL),mad(ERNVAL))
meda_mediana=vec_meda/vec_median
#-------------------------------------------------------------------------------

Luego se cre el dataframe con los resultados mediante el siguiente cdigo:

Cdigo:
#--------------------------------------------------------------------------------------#Creando un dataframe de resultados
#--------------------------------------------------------------------------------------df<-data.frame(vec_medias,vec_median,vec_meda,vec_d_tip,meda_mediana,coef_var,vec_coef_asim,vec_Kurt)
dft<-t(df)
# transponemos el dataframe para su visualizacin
print(dft)
#---------------------------------------------------------------------------------------

Se pueden apreciar las trece variables en dos renglones por cuestion de espacio en la pantalla y los ocho
parmetros determinados para el anlisis.
Se ir exponiendo cada parametro o parmetros relacionados con el anlisis univariado y generalizado a
todas las variables para darles una interpretacin en el anlisis descriptivo del grupo de datos, luego se
expondran criterios del anlisis multivariado:
Para poder comparar la variablilidad de las distintas variables se contruy el vector de coeficientes de
variacin (coef_var).

Si observamos todos los valores las variaciones no son elevadas, y si sacamos un promedio pues tendramos
un valor de variabilidad total o global de:

Observemos los coeficientes de asimetra que miden la simetra de los datos respecto a su centro:

Se pueden apreciar cada uno de los valores de variacin en cada variable y en promedio la variacin de los datos
con cada una de sus simetras est en un valor de:

Apreciemos que tan homogneas es cada variable y luego como ya se viene realizando saquemos una media de
todas las variables para tener una idea de que tan homogneas son:

Para los valores en los que el coeficiente de Kurtosis es elevado (heterogeneidad), significar que tenemos una
variabilidad de desviaciones grande y unos pocos datos atpicos alejados del resto.
Para valores muy pequeos de Kurtosis, podemos decir que los datos pueden ser una muestra homognea de
una poblacin o que corresponden a una mezcla de poblaciones y deberan ser estudiadas por separado.
En todo el conjunto de variables podemos decir que tenemos pocos datos atpicos:

En las variables con datos atpicos, es conveniente calcular las medidas robustas de centralizacin y dispersin
como: para centralizacin la mediana que nos indica la posicin central al ordenar las observaciones, en la
dispersin, la meda que es la mediana de las desviaciones absolutas.
Por otra parte en cada variable se calcul la media y la mediana para verificar si ambas son similares, si lo son es
un buen indicador del centro de los datos. En los casos de las variables en que difieran significa: distribucin
asimtrica, presencia de valores atpicos, heterogeneidad en los datos.

Los valores difieren en cierto grado pero no exageradamente, esto quiere decir que las variable en general tienen
distribucin asimtrica, tienen algunos valores atpicos, y tiene cierto grado de heterogeneidad, este resultado es
ms grande en las variables: POTHVAL, INTVAL.
A continuacin se analiza multivariable de las observaciones, analizaremos las medidas conjuntas de
centralizacin y dispersin para el conjunto de variables y medidas de dependencia lineal entre pares de
variables y entre todas.

Analicemos los coeficientes de variacin:

El hbito del coeficiente de variacin de las variables es de:

Es decir aproximadamente una variabilidad relativa del 7 por 100 en general. Las variables: AGI, EMCONTRB,
PTOTVAL, poseen alguna relacin con respecto a su variabilidad, as como las variables: AFNLWGT y TAXINC,
tienen su relacin y las variables: FEDTAX, STATETAX, PEARNVAL, WSALVAL y ERNVAL estn relacionadas por us
nivel de variabilidad. Definitivamente las variables: AFNLWGT y TAXINC permanecen ms constantes con una
variabilidad relativa aproximada del 0.5 por 100.
Las distribuciones son aproximadamente simtricas en las variables con valores bajos de coeficientes de
asimetra a excepcin de las variables: AFNLWGT, STATETAX, POTHVAL e INTVAL.

Los coeficientes de Kurtosis menores son en las variables: AGI, EMCONTRB, FEDTAX, PTOTVAL, STATETAX, TAXINC,
PEARNVAL, FICA, WSALVAL, ERNVAL. Esto puede indicar la presencia de poblaciones mezcladas. Las variables con
alta Kurtosis son: POTHVAL e INTVAL, lo que indica alta presencia de datos atpicos en las mismas.

A continuacin presentamos las medidas robustas, la mediana y la meda, que confirman los comentarios
anteriores:

Las medianas son similares a las medias a excepcin de las variables: POTHVAL y INTVAL. Las medas son diferentes
considerablemente a las desviaciones tpicas en las variables a excepcin de: PEARNVAL, FICA, WSALVAL y ERNVAL.
Esto os dice que hay la existencia de valores extremos que afectan a estos valores.
El ratio entre la meda y la media (meda_mediana) en comparacin con los coeficientes de variacin son muy
parecidos o cercanos a excepcin de las variables evidenciadas en el grfico.
b) MEDIDAS DE VARIABILIDAD:

A continuacin se determina la matriz de covarianzas del dataframe anterior, luego se normalizan los datos de
esta matriz y se saca la variabilidad sumando los valores de la traza de esta matriz y dividiendo para el nmero de
variables, ya que esta matriz de covarianzas es una matriz cuadrada que contiene en la diagonal las varianzas y
fuera de la diagonal las covarianzas entre las variables:

Cdigo:
#----------------------------------------------------------------------------------------#MEDIDAS DE VARIABILIDAD
#-----------------------------------------------------------------------------------------

m_cov = cov(dft)
#Matriz de covarianzas
m_cov_scale<-scale(m_cov)
#Mariz de covarianzas escalada
traza_m_cov_scale<-diag(m_cov_scale)
#obtenemos un vector de la traza
traza_m_cov_scale<-t(data.frame(traza_m_cov_scale))
varr<-sum(diag(m_cov_scale))/length(m_cov_scale)
m_cov_scale<-data.frame(m_cov_scale)
#-----------------------------------------------------------------------------------------

Matriz de covarianzas obtenida:

Se normaliz la matriz de covarianzas:

El resultado promedio del vector diagonal o de varianza es:

Se determin los valores mximos y mnimos del vector de varianzas para saber que variable tiene menor o
mayor variabilidad:

La variable con menor variacin es STATETAX y con mayor variacin es AFNLWGT.


De igual forma la varianza total que es la traza de la matriz varianzas y covarianzas es:

Y la varianza total promedio de igual forma:

La varianza efectiva tiene un valor de:

La varianza efectiva comparada con el resultado de la varianza total promedio es mucho menor y por tanto hay
un grado de no dependencia de las variables.
Ahora alternativamente realizaremos el procedimiento de las distancias entre puntos para estudiar la variabilidad
de las observaciones. Se determinar la distancia elucida:

b) DEPENDENCIA LINEAL ENTRE VARIABLES:


Donde se obtuvo un valor de:

Donde podemos concluir que, globalmente la dependencia lineal explica el 28 por 100 aproximadamente de la
variabilidad de este conjunto de datos.

2. Representacin grfica de los datos


Se grafican histogramas de cada una de las trece variables con el comando hist() y otro grafico tipo scaterplot con
la funcin plot():

3. Estudio de la existencia de valores atpicos


a) Identificacin y aplicacin de tcnicas

La identificacin de datos atpicos se la puede realizar grficamente, La matriz a realizar las tcnicas de traficacin
es la matriz de correlaciones, puesto que la matriz de covarianzas no es un buen resumen de la dependencia
entre las variables.
Aplicaremos dos tcnicas, la primera consiste en la matriz de grficos de dispersin del grupo de datos y luego
representaremos la tcnica de asignacin de radios a estrellas.

La representacin mediante estrellas de las variables se puede apreciar en cada grupo y variable:

La siguiente tcnica detalla un scatterplot:

Una tcnica alternativa, las caras de Chernoff:

b) Comparacin de los resultados de las tcnicas estudiadas


El cdigo que se utiliz en la generacin de las tcnicas es el siguiente:
Cdigo:
#---------------------------------------------------------------------------------# DETECCIN DE VALORES ATPICOS
#---------------------------------------------------------------------------------x2=round(cor(elements),3)
#matriz de corelacion y redondeo a dos cifras
pairs(x2,
#Grafico scaterplot con la linea de tendencia
panel=function(x,y, ...){
points(x,y, ...)
abline(lm(y~x),col="red")
}, pch="o",cex=0.7)
#---------------------------------------------------------------------------------stars(x2,cex=0.8)
#Grfico de estrellas
#---------------------------------------------------------------------------------install.packages("aplpack")
#Grafico alternativo de las caras de Chernoff
x2=round(cor(elements),3)
library("aplpack")
faces(x2)
#----------------------------------------------------------------------------------

Como puede apreciarse en los dos primeros grficos en las variables de AFNLWGT, POTHVAL, INTVAL, los datos
estn agrupados de manera que estn dispersos con valores atpicos y no a una tendencia lineal. Este
comportamiento se puede observar en las tres tcnicas representadas.

El diagrama de dispersin nos muestra que en su mayora todas las variables poseen datos atpicos a excepcin de
las relaciones entre las variables WSALVAL y ERNVAL en (12,13), donde los valores son de carcter lineal. De igual
forma las variables FICA y WSALVAL en (12,11) y de manera similar el unas pocas ms que se encuentran entre
estas variables. La variable AFNLWGT, posee una dependencia fuerte con el resto de variables. Por ejemplo en las
grficas de estrella se puede apreciar la relacin grfica entre WSALVAL y ERNVAL, donde podemos evidenciar su
similitud en los radios de la estrella que la describen geomtricamente. Algunos acercamientos a continuacin:

c) Anlisis crtico de resultados


En general el grupo de datos es muy disperso y posee muchos valores atpicos, de los cuales deberan descartar
todo el grupo de observacin que los contiene. Existe una variable que depende fuertemente del resto que es
AFNLWGT, las dems variables no estn en relacin. Es un grupo de datos heterogneo con relaciones
heterocedsticas. Una posible solucin sera normalizar los datos mediante logaritmos para disminuir los datos
tpicos o mediante el procedimiento | |/ .

Estimado Profesor,
El tema es muy interesante, pero el tiempo es corto y realmente falt un poco de tiempo para detallar ms algunos
procedimientos y principalmente para experimentar con R, poco a poco sigo aprendiendo este lenguaje y sobre la
materia con su gua, que al igual que Python me agrada mucho por su utilidad en las labores investigativas. Espero
la calificacin me permita seguir adelante en el curso hasta el final, puesto que con el tiempo dominar el tema
terico aplicado con el lenguaje de programacin. Me gustara mucho plantear de Tesis, alguna investigacin
multivalente con variables de estudios ambientales.

Saludos cordiales.