Está en la página 1de 22

Universidad de Santiago de Chile

Facultad de Ciencia

Departamento de Matematica y Ciencias de la Computacion

Metodos Multivariantes

estudiantes

Yerko Carreno
Sebastian Fuentes
Matas Gutierrez
Felipe Lopez
Profesor

Luis Figueroa
Ayudantes

Maximiliano Zavala
Boris Leiva

Santiago de Chile 7 de Noviembre del 2017


Indice
1. Resumen 1

2. Introduccion 2

3. Descripcion de las variables 2

4. Desarrollo 3
4.1. Distribucion multivariante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
4.2. Coeficientes de correlacion y Correlacion parcial simple . . . . . . . . . . . . . . . . . . . . 5
4.2.1. Correlacion multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
4.2.2. Docima para el vector de medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
4.2.3. Manova . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
4.2.4. Manova 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
4.2.5. Intervalos de confianza para coeficientes de correlacion . . . . . . . . . . . . . . . . 9
4.2.6. Ejes principales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

5. Conclusion 12

6. Referencias 13

7. Anexo 13
1 RESUMEN 1

1. Resumen
En el siguiente informe realizaremos una serie de analisis estadsticos a nuestra base de datos del
servicio de impuestos internos y tipos de actividades economicas. En esta oportunidad, el analisis a ejecutar
sera mediante el uso de la Distribucion Normal Multivariantes, Test de Normalidad Multivariante, ejes
principales, Coeficientes de Correlacion, Estimacion de Parametros, Distribuciones de Formas Cuadraticas,
Intervalos de Confianza para Coeficientes de Correlacion, docimas y regiones confidenciales bajo el supuesto
de normalidad multivariante. Obteniendo resultados a traves del software estadstico R-Studio.
2 INTRODUCCION 2

2. Introduccion
En el siguiente informe se analizara una base de datos compuesta por 254 observaciones correspondientes
a rubros identificados en 18 tipos de actividades economicas de los anos 2013 y 2014. Se requieren estudiar
estos datos con test de analisis multivariado ya que la mayora de sus tecnicas se basan en que los datos se
comportan segun una distribucion normal, a pesar de que esto casi nunca ocurre, la densidad normal muchas
veces nos proporciona un acercamiento adecuado, el cual nos sirve para analizar variables aleatorias en
diversos casos. Para observar la normalidad de nuestras observaciones, en ejes principales obtendremos una
identificacion primaria de la orientacion e interpretacion geometrica del comportamiento aleatorio de los
datos, con coeficientes de correlacion el grado de asociacion de una variable respecto de otra. Estimacion de
Parametros, Intervalos de Confianza y Region Crtica, Docimas y Regiones Confidenciales en poblaciones
que responderan a distintos tipos de preguntas de interes para nuestro analisis estadstico, esto seguira
ampliandose entre mas enfoques y profundidad le demos nuestros datos podremos conocer la informacion
presente en ellos.

3. Descripcion de las variables


4 DESARROLLO 3

4. Desarrollo

4.1. Distribucion multivariante

Lo Primero que se hara con los datos, sera ver si estos tienen una distribucion normal multivariante.
Donde sus hipotesis queda de a siguiente manera.
H0 : LosdatosdistribuyenN ormalmultivariante. vs H1 : LosdatosnodistribuyenN ormalmultivariante.
Se prosigue con 3 tests diferentes los cuales son Mardia, Henze-Zirkler y Roystons. Como regla tenemos
que si en uno de estos test tenemos evidencia para rechazar H0 , se rechazara la hipotesis nula.
De los test se obtuvo lo siguiente:
4 DESARROLLO 4

Podemos ver que en ninguno de los 3 test hay evidencia suficiente para rechazar H0 con un 95 % de
confianza, por lo que dado esto podemos decir que los datos tienen una distribucion normal multivariada.
4 DESARROLLO 5

4.2. Coeficientes de correlacion y Correlacion parcial simple

Se calcula la correlacion parcial entre las siguientes variables

Cuadro 1: Correlaciones
Variable 1 Variable 2 Coeficiente de correlacion

Total de ventas Renta de los trabajadores 0.5244574


Total de ventas Numero de trabajadores 0.4248946
Total de venta Numero de empresas 0.3965502

De esto se concluye que el total de ventas esta relacionado positivamente con las otras 3 variables y
que ninguna correlacion es considerablemente alta.
Correlacion con una variable fija:

Aca se observa que dejando la venta como variable fija, el numero de trabajadores es proporcional
a la renta total de los trabajadores, lo cual tiene sentido porque mientras mas trabajadores mas renta
habra. Respecto de las demas, sus valores no son significativos por lo que se concluye que no entregan
gran informacion, ambos tienen coeficientes positivos lo que implica que su aumento es directamente
proporcional.
4 DESARROLLO 6

4.2.1. Correlacion multiple

Se procedera a ver la correlacion de las ventas, con el numero de empresas, la renta de los trabajadores
y el numero de trabajadores, para esto se vera como modelo lineal donde la variable de respuesta sera las
ventas. De lo anterior se obtuvo lo siguiente:

Donde podemos observar que R-squared es de 0.323, de esto se obtiene una correlacion de 0.56833, con
lo que podemos decir que las ventas estan medianamente relacionadas con el numero de empresas, la renta
de los trabajadores y el numero de trabajadores.
Vector de media para 2013

Vector de media para 2014


4 DESARROLLO 7

4.2.2. Docima para el vector de medias

Se compara si el promedio de ventas y promedio de renta del ano 2013, fueron iguales a las del ano
2014, lo cual queda dado por el siguiente test:
H0 : promventa2013 , promrenta2013 = promventa2014 , promrenta2014 vs H1 : promventa2013 , promrenta2013 6=
promventa2014 , promrenta2014

Como tenemos que p-valor es mayor a 0.05, no hay evidencia para rechazar H0 , con una significancia
del 5 %. Por lo que podemos decir que no hubo diferencia entre las ventas y la renta, en los anos 2013 y
2014.

4.2.3. Manova

Interesa conocer si el promedio de ventas se mantiene constante para las distintas actividades economicas
durante los anos estudiados, para eso se realiza una tabla MANOVA y se plantea la siguiente hipotesis.
H0 : las ventas son iguales en 2013 y 2014 para todas las actividades economicas vs H1 : las ventas son
diferentes para las actividades economicas.
Se obtuvo lo siguiente:

Como el p-valor es inferior a 0.05 se deduce que hay evidencia para rechazar H0 , con una significancia
del 5 %, Este resultado era esperable por el hecho de que son 17 grupos de diferentes actividades economicas
que se estan comparando.
4 DESARROLLO 8

4.2.4. Manova 2

Como el MANOVA anterior tena demasiados grupos no se pudo apreciar correctamente las diferencias
entre los grupos, por lo que ahora se realizara una comparacion entre 3 actividades que son explotacion de
minas y canteras, industria manufacturera metalica e industria manufacturera no metalica. Los resultados
obtenidos fueron los siguientes:

Como el p-valor es superior a 0.05 se deduce que no existe evidencia suficiente para rechazar Ho al 5 %
de significancia, lo cual significa que se acepta la hipotesis nula y se asume que las ventas son iguales en
2013 y 2014 para las actividades de explotacion de minas y canteras, industria manufacturera metalica e
industria manufacturera no metalica.
4 DESARROLLO 9

4.2.5. Intervalos de confianza para coeficientes de correlacion

Intervalos de confianza para coeficientes de correlacion.


Caso = 0
Se plantea la siguiente hipotesis
H0 : = 0 vs H1 : 6= 0
Para los siguientes casos se obtiene: -Entre el numero de empresas y las ventas:

Existe evidencia significativa para rechazar la hipotesis nula al 5 % de significancia, esto quiere decir
que se asume que la correlacion entre el numero de empresas y las ventas no es igual a cero, lo cual hace
sentido ya que a mayor numero de empresas mayor es el capital de venta. -Entre el numero de trabajadores
y las ventas

Nuevamente existe evidencia para rechazar la hipotesis nula con una significancia del 5 %, esto quiere
decir que la correlacion entre el numero de trabajadores y las ventas no es igual a cero.
Caso arbitrario.
Como se vio anteriormente, las correlaciones son distintas de cero, para tener una idea se plantea una
nueva hipotesis tomando el valor 0,8 como una opcion a verificar. La docima planteada queda: H0 : = 0,8
vs H1 : 6= 0,8
Para los casos se observo: -Entre el numero de empresas y las ventas:
4 DESARROLLO 10

Existe evidencia para rechazar la hipotesis nula al 5 % de significancia, esto quiere decir que la corre-
lacion no es tan alta como se esperaba ya que esta en un intervalo de [0.072,0.644] -Entre el numero de
trabajadores y las ventas

En este caso tambien se rechaza la hipotesis nula al 5 % de significancia, por lo que la correlacion entre
el numero de trabajadores y las ventas es distinta de 0.8

4.2.6. Ejes principales

Se quiere identificar la orientacion e interpretacion del comportamiento aleatorios de los datos que
refleja en la forma de la matriz de varianza covarianzas. Para esto nuestras variables de interes seran las
ventas efectuadas por las empresas, en los anos 2012,2013 y 2014, con las cuales se construiran sus ejes
principales.
Vector de medias
4 DESARROLLO 11

Matriz de covarianzas

Valores propios

Vectores propios

Cuadro 2: ejes
Semi eje principal Longitud

Primero 1.626976e+17
Segundo 4.063476e+16
Tercero 2.6662334e+09

Dado esto la representacion grafica donde se encuentran los datos con centro en la media esta dada por
la siguiente ecuacion de la elipse:
(x158731184)2 (y152523313)2 (z164939054)2
1,626976e+172
+ 4,063476e+162
+ 2,666234e+092
=1
5 CONCLUSION 12

5. Conclusion
Al seguir desmembrando nuestra base de datos, correspondiente a los anos 2013 y 2014 de rubros, por fin
se han encontrado caractersticas que hacen diferenciar las actividades economicas de otras; esto fue gracias
a los visto en la Unidad 3 de Metodos Multivariantes, que nos permitio conocer la distribucion grafica de
las variables de nuestras observaciones y nos permitio trabajar nuestra base mas como una unidad que
en los otros trabajos , esto seguira ampliandose que entre mas enfoques y profundidad le demos nuestros
datos mas podremos conocer la informacion presente en ellos. De entre las conclusiones mas destacadas
se tomaron las siguientes: Observando los ejemplos de ejes principales usados en este trabajo, podemos
observar la presencia de valores destacables, pero tambien de una gran concentracion de datos en el ano
2014 Con nuestros datos, observando la correlacion multiple, las ventas estan medianamente relacionadas
con el numero de empresas, la renta de los trabajadores y el numero de trabajadores. Dado la docima para
vector de medias, no hubo diferencia entre las ventas y la renta, en los anos 2013 y 2014. MANOVA, el
promedio de ventas no es igual en 2013 y 2014 para todas las actividades economicas.
6 REFERENCIAS 13

6. Referencias
1. Libro Metodos multivariantes, Luis Felipe Figueroa

2. Apuntes de regresion lineal, Rosa Montano

3. http : //www.ub.edu/stat/personal/cuadras/metodos.pdf

7. Anexo

Anexo
attach(base)
library(coda)
library(MASS)
library(MCMCpack)
library(mvnormtest)
library(rockchalk)
library(sROC)
library(rrcov)
library(MVN)
library(reshape2)
library(foreign)
library(graphics)
library(rgl)
library(corpcor)
library(cluster)
caballo<-base[-1:-2]
n=nrow(caballo)
med=apply(caballo,2,mean)
sc=cov(caballo)
datos<-mvrnorm(n,med,sc)
mardiaTest(datos,qqplot=TRUE)
hzTest(datos,qqplot=TRUE)
roystonTest(datos,qqplot=TRUE)
7 ANEXO 14

juan<-cov(caballo)
juan
attach(X2013)
gato<-X2013[-1:-2]
vecmedias<-colMeans(gato)
mm13<-vecmedias
mm13
attach(x2014)
gato2<-x2014[-1:-2]
vecmedias14<-colMeans(gato2)
m14<-vecmedias14
m14
library(ICSNP)
HotellingsT2(gato,gato2,test="f")
attach(base4)
#Luego, tenemos un problema de MANOVA. Observamos primero las medias de los gastos por tr
bd<-rubro_subr_acteco_1_2
attach(bd)
summary(bd)
names(bd)
A=subset(bd, Actividad=="A - AGRICULTURA, GANADERIA, CAZA Y SILVICULTURA");A=A[-1]
B=subset(bd, Actividad=="B - PESCA");B=B[-1]
C=subset(bd, Actividad=="C - EXPLOTACION DE MINAS Y CANTERAS");C=C[-1]
D=subset(bd, Actividad=="D - INDUSTRIAS MANUFACTURERAS NO METALICAS");D=D[-1]
E=subset(bd, Actividad=="E - INDUSTRIAS MANUFACTURERAS METALICAS");E=E[-1]
F1=subset(bd, Actividad=="F - SUMINISTRO DE ELECTRICIDAD, GAS Y AGUA");F1=F1[-1]
G=subset(bd, Actividad=="G - CONSTRUCCION");G=G[-1]
H=subset(bd, Actividad=="H - COMERCIO AL POR MAYOR Y MENOR, REP. VEH.AUTOMOTORES/ENSERES
I=subset(bd, Actividad=="I - HOTELES Y RESTAURANTES");I=I[-1]
J=subset(bd, Actividad=="J - TRANSPORTE, ALMACENAMIENTO Y COMUNICACIONES");J=J[-1]
K=subset(bd, Actividad=="K - INTERMEDIACION FINANCIERA");K=K[-1]
L=subset(bd, Actividad=="L - ACTIVIDADES INMOBILIARIAS, EMPRESARIALES Y DE ALQUILER");L=L
7 ANEXO 15

M=subset(bd, Actividad=="M - ADM. PUBLICA Y DEFENSA, PLANES DE SEG. SOCIAL AFILIACION OBL
N=subset(bd, Actividad=="N - ENSE~
NANZA");N=N[-1]
O=subset(bd, Actividad=="O - SERVICIOS SOCIALES Y DE SALUD");O=O[-1]
P=subset(bd, Actividad=="P - OTRAS ACTIVIDADES DE SERVICIOS COMUNITARIAS, SOCIALES Y PERS
Q=subset(bd, Actividad=="Q - CONSEJO DE ADMINISTRACION DE EDIFICIOS Y CONDOMINIOS");Q=Q[-
R=subset(bd, Actividad=="R - ORGANIZACIONES Y ORGANOS EXTRATERRITORIALES");R=R[-1]

aa=colMeans(A)
bb=colMeans(B)
cc=colMeans(C)
dd=colMeans(D)
ee=colMeans(E)
ff=colMeans(F1)
gg=colMeans(G)
hh=colMeans(H)
ii=colMeans(I)
jj=colMeans(J)
kk=colMeans(K)
ll=colMeans(L)
mm=colMeans(M)
nn=colMeans(N)
oo=colMeans(O)
pp=colMeans(P)
qq=colMeans(Q)
rr=colMeans(R)
cbind(aa,bb,cc,dd,ee,ff,gg,hh,ii,jj,kk,ll,mm,nn,oo,pp,qq,rr)

Actividad
facc<-factor(Actividad)
facc
y=cbind(bd$Ventas13,bd$Ventas14)
y
7 ANEXO 16

manova1<-manova(y~as.factor(Actividad))
manova1
summary(manova1)
summary(manova1, test="Wilks") #aqui va el p valor#

attach(hoja2)
corsimple <- function(a,b){
p<- cov(a,b)
q<- var(a)*var(b)
return(p/sqrt(q))
}
corsimple(hoja2$Ventas,hoja2$nempresas)
corparf1 <- function(a,b,c){ #CORRELACION ENTRE V1(a) Y V2(b) CON V3(c) FIJA
p= (corsimple(a,b)-(corsimple(a,c)*corsimple(b,c)))
q= (1-(corsimple(a,c))^2)*(1-(corsimple(b,c))^2)
coef2=p/sqrt(q)
return(coef2)
}
corparf1(hoja2$Ventas,hoja2$nempresas,hoja2$Ntrabajadores)
pcero<-function(n,alpha,a,b){
p=1-alpha/2
p
r=cor(a, b)
r
b=qt(p,n-2) #valor critico#
b
to=abs(r*sqrt((n-2)/(1-r^2))) #t observado#
to
tovalue <- 2*(1-pt(to,n-2))
tovalue
print(c("Correlacion: ", round(r,4)))
print(c("T crtico: ",round(b,4)))
7 ANEXO 17

print(c("T observado: ", round(to,4)))


print(c("p-valor: ", round(tovalue,4)))
if (tovalue<0.05)
{ print("Se rechaza Ho")}
else
{ print("No existe evidencia para rechazar Ho") }
}

pcero(254,0.05,hoja2$Ntrabajadores,hoja2$Ventas)
parbitrario<-function(alpha,p,a,b)
{
z<-(1/2)*log((1+cor(a,b))/(1-cor(a,b)))
E<-(1/2)*log((1+p)/(1-p))
N<-qnorm(1-alpha/2,0,1)
T0<-sqrt(99)*(z-E)
a1<-z-N*sqrt(1/32) ##aqui es 1/n-3##
LI<-tanh(a1)
a2<-z+N*sqrt(1/32)
LS<-tanh(a2)
print("Correlacion: ")
print(c(cor(a,b)))
if(abs(T0)<N) {
print("No existe evidencia para rechazar Ho")
} else { print("Se rechaza Ho")}
print("Intervalo de confianza")
print(c(LI,LS))
}
parbitrario(0.05,0.8,hoja2$Ntrabajadores,hoja2$Ventas)
library(stats)
modelreg <- lm(Ventas~nempresas+Rentatrab+Ntrabajadores,data=hoja2)
modelreg
summary(modelreg)
7 ANEXO 18

######### Ejes principales ##########


m2<-rubro_subr_acteco_1_2[-1]
m2
mu <- colMeans(m2) #VECTOR DE MEDIAS
mu
s <- cov(m2) #MATRIZ VAR COV
s
valp <- eigen(s)$values #VALORES PROPIOS
valp
vectp <- eigen(s)$vectors #VECTORES PROPIOS
vectp

#Puntos por donde pasan los ejes principales

#Puntos del eje z


eje1.1<- mu + valp[1]*vectp[,1]
eje1.2<- mu - valp[1]*vectp[,1]

a<- c(eje1.1[1],eje1.2[1])
b<- c(eje1.1[2],eje1.2[2])
c<- c(eje1.1[3],eje1.2[3])
a
b
c
j1.1<-c(-9.35696e+16,-8.345314e+16,-1.036861e+17)
j1.2<-c(9.35696e+16, 8.345314e+16,1.036861e+17)
jres=(j1.2-j1.1)^2
jres
sum=3.502108e+34 + 2.785771e+34 + 4.300323e+34
sqrt(sum)/2 #Longitud del semi eje z=1.626976+17
sqrt(sum) #Longitud del eje z = 3.253952e+17
7 ANEXO 19

#puntos del eje y


eje2.1<- mu + valp[2]*vectp[,2]
eje2.2<- mu - valp[2]*vectp[,2]
d<- c(eje2.1[1],eje2.2[1])
e<- c(eje2.1[2],eje2.2[2])
f<- c(eje2.1[3],eje2.2[3])
d
e
f

j11<-c(-2.063001e+15 ,-3.068481e+16,2.655881e+16)
j22<-c(2.063001e+15,3.068481e+16 ,-2.655881e+16)
jres1=(j22-j11)^2
jres1
sum1=1.702389e+31 + 3.766230e+33 + 2.821482e+33
sqrt(sum1)/2 #Longitud del semi eje y = 4.063476e+16
sqrt(sum1) #longitud del eje ppal en y = 8.126953e+16

#Puntos del eje x


eje3.1<- mu + valp[3]*vectp[,3]
eje3.2<- mu - valp[3]*vectp[,3]
g<- c(eje3.1[1],eje3.2[1])
h<- c(eje3.1[2],eje3.2[2])
i<- c(eje3.1[3],eje3.2[3])
g
h
i

j111<-c(158731179,152523315,164939057)
rest<-c(158731179,152523315,164939057)
7 ANEXO 20

j111-rest
j222<-c(158731179,152523315,164939057)
jres11=(j222-j111)^2; jres11
sum11=2.666234e+09
sqrt(sum11)/2 #Longitud del semi eje x = 0
sqrt(sum11) #longitud del eje ppal en x=0

### graficos en 3d
library(scatterplot3d)
s3d<-scatterplot3d(m2[1:3],pch=16,highlight.3d=TRUE,type="h",main="Ventas 2012,2013 y 201
#cubo3D
plot3D(m2$Ventas12, m2$Ventas13, m2$Ventas14)

####origen de coordenadas en el punto mu####


mu
mu=c(158731184, 152523313, 164939054)
mu
library(plot3D)
a1<-c(0,0,0)
col<-c("aquamarine3","mediumorchid3","deeppink")
v1<-vectp[,1]
v2<-vectp[,2]
v3<-vectp[,3]
v1
v2
v3
arrows3D(a1,a1,a1,v1,v2,v3,colvar=1:3,lwd=5,xlim=c(0,1),ylim=c(0,1),main="ejes principale
arrows3D(a1,a1,a1,v1,v2,v3,colvar=1:3,lwd=5,main="ejes principales con direcciones de vec
arrows3D(a1,a1,a1,v1,v2,v3,colvar=1:3,lwd=2,d=2,clab="z-value",col=col,length=0.1,phi=0,t

También podría gustarte