Está en la página 1de 23

UNIVERSIDAD CENTRAL DEL

ECUADOR
FACULTAD DE CIENCIAS
ADMINISTRATIVAS
ESCUELA DE ADMINISTRACIN DE
EMPRESAS
ESTADISTICA APLICADA
TRABAJO DE ANLISIS MULTIVARIADO
DR. ROBERTO PEZ
INTEGRNATES:
DARWIN PINTO
JHOANNA RECALDE
VERNICA GUERRERO

AE 6-1
1. QU ES EL ANLISIS MULTIVARIANTE?

Es el conjunto de mtodos estadsticos cuya finalidad es analizar


simultneamente conjuntos de datos multivariantes en el sentido de que hay
varias variables medidas para cada individuo objeto estudiado.
Su razn de ser radica en un mejor entendimiento del fenmeno objeto de
estudio obteniendo informacin que los mtodos estadsticos univariantes y
bivariantes son incapaces de conseguir.

OBJETIVOS DEL ANLISIS MULTIVARIANTE


Pueden sintetizarse en dos:
1) Proporcionar mtodos cuya finalidad es el estudio conjunto de datos
multivariantes que el anlisis estadstico uni y bidimensional es incapaz de
conseguir
2) Ayudar al analista o investigador a tomar decisiones ptimas en el
contexto en el que se encuentre teniendo en cuenta la informacin
disponible por el conjunto de datos analizado .

2.- TIPOS DE TCNICAS MULTIVARIANTES


Se pueden clasificar en tres grandes grupos (ver esquema adjunto):

1) Mtodos de dependencia
Suponen que las variables analizadas estn divididas en dos grupos: las
variables dependientes y las variables independientes. El objetivo de los
mtodos de dependencia consiste en determinar si el conjunto de variables
independientes afecta al conjunto de variables dependientes y de qu forma.

2) Mtodos de interdependencia
Estos mtodos no distinguen entre variables dependientes e independientes y
su objetivo consiste en identificar qu variables estn relacionadas, cmo lo
estn y por qu.

3) Mtodos estructurales
Suponen que las variables estn divididas en dos grupos: el de las variables
dependientes y el de las independientes. El objetivo de estos mtodos es
analizar, no slo como las variables independientes afectan a las variables
dependientes, sino tambin cmo estn relacionadas las variables de los dos
grupos entre s.

2.1 Mtodos de dependencia


Se pueden clasificar en dos grandes subgrupos segn que la variable (s)
dependiente (s) sea (n) cuantitativas o cualitativas.
Si la variable dependiente es cuantitativa algunas de las tcnicas que se
pueden aplicar son las siguientes:

1) Anlisis de Regresin
Es la tcnica adecuada si en el anlisis hay una o varias variables
dependientes mtricas cuyo valor depende de una o varias variables
independientes mtricas.
Por ejemplo, intentar predecir el gasto anual en cine de una persona a
partir de su nivel de ingresos, nivel educativo, sexo y edad.

2) Anlisis de Supervivencia
Es similar al anlisis de regresin pero con la diferencia de que la
variable independiente es el tiempo de supervivencia de un individuo u objeto.
Por ejemplo, intentar predecir el tiempo de permanencia en el
desempleo de un individuo a partir de su nivel de estudios y de su edad.

3) Anlisis de la varianza
Se utilizan en situaciones en las que la muestra total est dividida en
varios grupos basados en una o varias variables independientes no mtricas y
las variables dependientes analizadas son mtricas. Su objetivo es averiguar si
hay diferencias significativas entre dichos grupos en cuanto a las variables
dependientes se refiere.
Por ejemplo, hay diferencias en el nivel de colesterol por sexos?
afecta, tambin, el tipo de ocupacin?.

4) Correlacin Cannica
Su objetivo es relacionar simultneamente varias variables mtricas
dependientes e independientes calculando combinaciones lineales de cada
conjunto de variables que maximicen la correlacin existente entre los dos
conjuntos de variables.
Por ejemplo, analizar cmo estn relacionadas el tiempo dedicado al
trabajo y al ocio de una persona con su nivel de ingresos, su edad y su nivel de
educacin
Si la variable dependiente es cualitativa algunas de las tcnicas que se
pueden aplicar son las siguientes:

1) Anlisis Discriminante
Esta tcnica proporciona reglas de clasificacin ptimas de nuevas
observaciones de las que se desconoce su grupo de procedencia basndose
en la informacin proporcionada los valores que en ella toman las variables
independientes.
Por ejemplo, determinar los ratios financieros que mejor permiten
discriminar entre empresas rentables y poco rentables.

2) Modelos de regresin logstica


Son modelos de regresin en los que la variable dependiente es no mtrica. Se
utilizan como una alternativa al anlisis discriminante cuando no hay
normalidad

3) Anlisis Conjoint
Es una tcnica que analiza el efecto de variables independientes no
mtricas sobre variables mtricas o no mtricas. La diferencia con el Anlisis
de la Varianza radica en dos hechos: las variables dependientes pueden ser no
mtricas y los valores de las variables independientes no mtricas son fijadas
por el analista. En otras disciplinas se conoce con el nombre de Diseo de
Experimentos.
Por ejemplo, una empresa quiere disear un nuevo producto y para ello
necesita especificar la forma del envase, su precio , el contenido por envase y
su composicin qumica. Presenta diversas composiciones de estos cuatro
factores. 100 clientes proporcionan un ranking de las combinaciones que se le
presentan. Se quiere determinar los valores ptimos de estos 4 factores.

2.2 Mtodos de Interdependencia


Se pueden clasificar en dos grandes grupos segn que el tipo de datos
que analicen sean mtricos o no mtricos.
Si los datos son mtricos se pueden utilizar, entre otras, las siguientes
tcnicas:

1) Anlisis Factorial y Anlisis de Componentes Principales


Se utiliza para analizar interrelaciones entre un nmero elevado de
variables mtricas explicando dichas interrelaciones en trminos de un nmero
menor de variables denominadas factores (si son inobservables) o
componentes principales (si son observables).
As, por ejemplo, si un analista financiero quiere determinar la cual es el
estado de salud financiero de una empresa a partir del conocimiento de un
nmero de ratios financieros, construyendo varios ndices numricos que

definan su situacin, el problema se resolvera mediante un Anlisis de


Componentes Principales.
Si un psiclogo quiere determinar los factores que caracterizan la
inteligencia de un individuo a partir de sus respuestas a un test de inteligencia,
utilizara para resolver este problema un Anlisis Factorial.

2) Escalas Multidimensionales
Su objetivo es transformar juicios de semejanza o preferencia en
distancias representadas en un espacio multidimensional. Como consecuencia
se construye un mapa en el que se dibujan las posiciones de los objetos
comparados de forma que aqullos percibidos como similares estn cercanos
unos de otros y alejados de objetos percibidos como distintos.
Por ejemplo, analizar, en el mercado de refrescos, las percepciones que un
grupo de consumidores tiene acerca de una lista de refrescos y marcas con el
fin de estudiar qu factores subjetivos utiliza un consumidor a la hora de
clasificar dichos productos.

3) Anlisis Cluster
Su objetivo es clasificar una muestra de entidades (individuos o
variables) en un nmero pequeo de grupos de forma que las observaciones
pertenecientes a un grupo sean muy similares entre s y muy disimilares del
resto. A diferencia del Anlisis Discriminante se desconoce el nmero y la
composicin de dichos grupos.
Por ejemplo, clasificar grupos de alimentos (pescados, carnes, vegetales
y leche) en funcin de sus valores nutritivos.
Si los datos son no mtricos se pueden utilizar, adems de las Escalas
Multidimensionales y el Anlisis Cluster, las siguientes tcnicas:

1) Anlisis de Correspondencias
Se aplica a tablas de contingencia multidimensionales y persigue un
objetivo similar al de las escalas multidimensionales pero representando
simultneamente las filas y columnas de las tablas de contingencia.
Por ejemplo, analizar el paro en Aragn teniendo en cuenta la provincia,
sexo, edad y nivel de estudios del parado

2) Modelos log-lineales
Se aplican a tablas de contingencia multidimensionales y modelizan
relaciones de dependencia multidimensional de las variables observadas que
buscan explicar las frecuencias observadas.

2.3 Mtodos estructurales

Analizan las relaciones existentes entre un grupo de variables


representadas por sistemas de ecuaciones simultneas en las que se suponen
que algunas de ellas (denominadas constructos) se miden con error a partir de
otras variables observables denominadas indicadores.
Los modelos utilizados constan, por lo tanto, de dos partes: un modelo
estructural que especifica las relaciones de dependencia existente entre las
constructos latentes y un modelo de medida que especifica como los
indicadores se relacionan con sus correspondientes constructos.
Por ejemplo, analizar cmo se relacionan los niveles de utilizacin de los
servicios de una empresa con las percepciones que sus clientes tienen de ella.

ETAPAS DE UN ANALISIS MULTIVARIANTE


1) Objetivos del anlisis
Se define el problema especificando los objetivos y las tcnicas
multivariantes que se van a utilizar
El investigador debe establecer el problema en trminos conceptuales
definiendo los conceptos y las relaciones fundamentales que se van a
investigar. Se deben establecer si dichas relaciones van a ser relaciones de
dependencia o de interdependencia. Con todo esto se determinan las
variables a observar.

2) Diseo del anlisis.


Se determina el tamao muestral, las ecuaciones a estimar (si
procede), las distancias a calcular (si procede) y las tcnicas de
estimacin a emplear. Una vez determinado todo esto se proceden a
observar los datos

3) Hiptesis del anlisis


Se evalan las hiptesis subyacentes a la tcnica multivariante.
Dichas
hiptesis
pueden
ser
de
normalidad,
linealidad,
independencia, homocedasticidad, etc. Tambin se debe decidir qu
hacer con los datos missing.

4) Realizacin del anlisis


Se estima el modelo y se evala el ajuste a los datos. En este paso
pueden aparecer observaciones atpicas (outliers) o influyentes cuya
influencia sobre las estimaciones y la bondad de ajuste se debe
analizar.

5) Interpretacin de los resultados


Dichas interpretaciones
pueden llevar a reespecificaciones
adicionales de las variables o del modelo con lo cual se puede volver
de nuevo a los pasos 3) y 4).

6) Validacin del anlisis


Consiste en establecer la validez
de los resultados obtenidos
analizando s los resultados obtenidos con la muestra se generalizar
a la poblacin de la que procede. Para ello se puede dividir la muestra
en varias partes en las que el model se vuelve a estimar y se

compararn los resultados. Otras tcnicas que se pueden utilizar aqu


son las tcnicas de remuestreo (jacknife y bootstrap).

EJERCICIOS:
1. Conocer la calidad de los pollos de criadero basada en el peso,
longitud de alas, rea del ala y longitud de la cola mediante el anlisis
multivariado.

Component Plot in Rotated Space

300

peso

1.0

peso

250
.8

150

PESO
100
L. PICO
L. ALA
50
AREA ALA
L. COLA
0

Rotated Component Matrixa,b

.5
l. pico

Raw
Component
1
6.800
4.249
-.332
-6.664
.326

2
11.880
1.438
-.096
.611
-8.931

Rescaled
Component
1

.497
.916
-.406
-.994
.036

.868
.310
-.118
.091
-.999

Extraction
Method: Principal
Component
Analysis.
1
2
3
4
Rotation Method: Varimax with Kaiser Normalization.
Number
a. Rotation converged Component
in 3 iterations.

Component 2

Eigenvalue

200

.3
area ala

l. cola

0.0l. ala

l. ala
area ala

-.3
-.5
-.8
l. cola

-1.0
5

-1.0

-.8

-.5

-.3

0.0

Component 1

.3

.5

.8

1.0

Casewise Statistics
Highest Group

Original

Case Number
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

Actual Group
1
1
1
1
1
2
2
2
2
2
3
3
3
3
3

Predicted
Group
1
1
1
1
1
2
2
2
2
2
2**
3
3
3
3

P(D>d | G=g)
p
df
.300
.687
.939
.454
.324
.394
.962
.715
1.000
.943
.480
.555
.131
.183
.409

2
2
2
2
2
2
2
2
2
2
2
2
2
2
2

Discriminant Scores

P(G=g | D=d)
.996
.997
1.000
1.000
1.000
.836
.931
.977
.939
.928
.753
.987
.874
.680
.946

Squared
Mahalanobis
Distance to
Centroid
2.405
.752
.126
1.578
2.255
1.862
.077
.670
.001
.118
1.468
1.178
4.072
3.397
1.786

Function 1
-2.742
-2.525
-2.876
-3.119
-2.768
.543
2.138
2.705
1.916
2.187
.698
-.015
-.970
2.751
2.077

**. Misclassified case

Canonical Discriminant Functions


2

3
1

LOCALIDAD
Group Centroids

Function 2

2
-1

3
2

-2

1
-4

-3

Function 1

-2

-1

Function 2
1.304
.576
.103
-1.462
-1.746
-1.084
-.780
-1.055
-.944
-.735
-.753
1.736
1.903
1.124
1.813

Classification Resultsa

Original

Count

LOCALIDAD
1.00
2.00
3.00
1.00
2.00
3.00

Predicted Group Membership


1.00
2.00
3.00
5
0
0
0
5
0
0
1
4
100.0
.0
.0
.0
100.0
.0
.0
20.0
80.0

Total
5
5
5
100.0
100.0
100.0

a. 93.3% of original grouped cases correctly classified.

2. Se realiza un estudio de la calidad del agua del ro Jcar en el


perodo 1990-2013, haciendo uso de tcnicas de anlisis
multivariante. Este estudio es tanto longitudinal como transversal, es
decir, la calidad del agua se evala tanto a lo largo del ro,
observando aslas variaciones en sus caractersticas durante su
trayectoria, desde el nacimiento del Jcar hasta su desembocadura,
como a travs del tiempo, detectando de esta forma el cambio en sus
propiedades y calidad durante el perodo considerado. Se propone
adems el uso de las herramientas de anlisis multivariante como
forma de detectar anomalas en las propiedades del agua no visibles
mediante tcnicas univariantes, as como para poder discernir cundo
el agua cumple los criterios de calidad exigidos.

METODOLOGA

Para alcanzar los objetivos propuestos se hace uso de dos


herramientas de anlisis
multivariante, antes mencionadas, el PCA y el PLS-DA, de manera que
con la finalidad de facilitar el seguimiento del trabajo se realiza una
breve exposicin ambos mtodos.
El PCA tiene por objetivo principal reducir la informacin contenida
en una matriz de datos, partiendo de un nmero inicial N de
variables, entre las cuales existen correlaciones, y obteniendo un
conjunto de N (N<N0) variables incorrelacionadas (componentes
principales o factores), siendo cada una de ellas una combinacin
lineal de las variables originalesEsta reduccin de la informacin se
refleja en dos aspectos fundamentales, ya que permite:
Observar las posibles relaciones existentes entre las diferentes
observaciones o individuos de la matriz de datos.
Observar las posibles relaciones entre las variables contenidas en la
matriz de datos.
Dada una matriz de datos X, que contiene las variables explicativas,
es decir los parmetros de control de calidad en este estudio, y una
matriz de datos Y, que contiene las variables respuesta, es decir
la clasificacin del agua segn su aptitud para uso agrcola, el PCA es
una herramienta que se puede utilizar para explicar la variabilidad en
X en Y, maximizando la varianza en X en Y, segn cul de las dos
matrices de datos se est analizando. Por tanto, no es la herramienta
de anlisis multivariante ms adecuada para la elaboracin de un
modelo que relacione las variables X e Y.
Por su parte, el PLS requiere la distincin de dos matrices de datos X
e Y. En este caso, se pretende encontrar las relaciones entre conjuntos
de datos multivariantes X e Y, para lo cual se extraen diferentes
componentes principales para ambos grupos de datos, de modo que
se maximice la correlacin entre X e Y. Usando el PLS, las
componentes principales de X son ortogonales entre s, pero no
necesariamente es as para las componentes principales de Y. En el
caso del PLS-DA, las variables Y son de tipo cualitativo, y el modelo
obtenido permitir estimar la probabilidad de que un individuo X
pertenezca a cada uno de los posibles grupos definidos por las
distintas variables Yj.
Tanto al hacer uso del PCA como del PLS deben dividirse las
observaciones en dos grupos distintos: un grupo de entrenamiento, y
un grupo de validacin. El grupo de entrenamiento suele estar
constituido por entre un 60% y un 70% de todas las observaciones
disponibles, y sirve para obtener el modelo que se validar con las
restantes, mediante comparacin entre los valores predichos por el
modelo para los individuos del grupo de validacin (no incluidos

durante la construccin del modelo), con las observaciones reales


para dichos individuos.
Adems de los grupos de entrenamiento y de validacin, se hace uso
tambin de dos parmetros para estimar la capacidad explicativa y
predictiva de los modelos obtenidos mediante PCA y PLS. Estos
parmetros son R 2 y Q2. El primero de ellos se obtiene del mismo
modo que al construir modelos mediante mtodos de regresin
clsicos, es decir, a partir de las diferencias entre los valores de la
variable respuesta predichos por el modelo para los individuos
observados, y los valores reales para los mismos, construyndose el
modelo a partir de los mismos individuos. Para el clculo de Q 2 se
emplea en el presente trabajo el mtodo leave-one-out, de modo que
si se dispone de n individuos, se construyen n modelos con (n-1)
observaciones, excluyendo cada vez uno de los individuos, para el
cual se predice el valor esperado utilizando el modelo para cuya
construccin no ha sido utilizada dicho individuo. El valor de Q 2 se
estima de forma similar a R2, pero comparando los valores reales
observados para los n individuos con las n predicciones obtenidas por
el mtodo leave-one-out.

Concretamente el anlisis se centra en la elaboracin de un modelo


capaz de predecir, a partir de los parmetros de cuya informacin se
dispone, si el agua puede considerarse o no de buena calidad para
uso agrcola. De las observaciones disponibles, 106 corresponden con
casos en los que la calidad del agua es buena y 479 en las que la
calidad es no buena.

Para el set de entrenamiento se toman al azar 81 observaciones


para las cuales la calidad del agua sea buena (se le asigna el valor
1) y 383 observaciones para las que el agua haya sido no buena
(con valor asignado 0) y el resto de observaciones se utilizan para el
set de validacin. Este es un proceso iterativo, de modo que el
modelo obtenido finalmente presente buena capacidad predictiva, lo
cual se comprueba haciendo uso del test de validacin. De esta forma
se obtiene finalmente un modelo que se considera adecuado, con 5
componentes, una capacidad explicativa (R2) del 80% y una
capacidad predictiva (Q) de casi el 75% para el set de entrenamiento.
Con el fin de detectar cules son las variables que ms importancia
tienen en el modelo, se obtiene el grfico de importancias que se
muestra en la Figura 3. El grfico de importancias muestra el peso
medio de cada parmetro en las componentes principales del modelo,
ponderado por la variabilidad explicada por cada una de las
componentes. Por tanto, ofrece una estimacin de cun importante es
cada una de las variables originales para el modelo global construido.

De cuya observacin de deduce que las nicas variables que, segn


este modelo, se puede decir que no tienen una clara influencia a la
hora de determinar si la calidad del agua es buena o no buena para
uso agrcola son coliformes fecales (A113) y totales a 37C (A114),
mercurio (A252), cromo (A121), cadmio (A080), hidrocarburos visibles
(A222) y caudal instantneo (A091). Por el contrario, el resto de
parmetros influyen, en mayor o menor medida, en esta clasificacin.

Debe mencionarse tambin que los parmetros que la normativa


vigente utiliza para clasificar el agua segn su calidad para uso
agrcola son la salinidad (mediante la permeabilidad, que depende a
su vez de la conductividad, el sodio, el magnesio y el calcio, y los
cloruros), la toxicidad (boro) y otros parmetros como son el pH, los
slidos en suspensin y la DBO.

Puesto que el modelo presentado proporciona la probabilidad de que


la masa de agua analizada posea calidad buena para riego, debe
escogerse a partir de qu valor de probabilidad predicho se aceptar
que el agua sea apta para riego. As, escogiendo una probabilidad del
50% como punto de corte:

En el set de entrenamiento, sealara como aguas de calidad no


buena 7 casos en que es buena, y como buena en 1 ocasin en
que es no buena.

En el set de prediccin, sealara como agua de calidad buena en


1 caso en que es no buena.

De modo que se comete en total un 1,7% de errores, equivocndose


en un 1,67% de los casos en que debera haber identificado el agua
como buena, y en un 1,88% de los casos en que debera haber
identificado el agua como no buena.
As, el PLS-DA se presenta como una herramienta capaz de ofrecer
una buena capacidad de discriminacin entre masas de agua buenas
y no buenas para el consumo agrcola, que adems detecta como

parmetros ms importantes para dicha discriminacin a aquellos que


en la prctica se utilizan realmente para llevar a cabo la clasificacin.
Adicionalmente, al llevarse a cabo el anlisis multivariante de los
datos permite tener en cuenta la estructura de relaciones entre los
parmetros de calidad de las aguas, lo que facilita la deteccin de
determinadas observaciones anmalas que no seran detectadas
como tales al hacer uso de tcnicas de anlisis univariantes.

También podría gustarte