Está en la página 1de 18

Tema 8: Anlisis Multivariante

Conjunto de tcnicas aplicables cuando se registran los valores


de muchas variables (esencialmente numricas, pero tambin
cualitativas) a la vez.

Esencialmente, vamos a ver tres problemas:


1.- Reducir el nmero de variables (Anlisis en componentes
principales).
2.- Dada una variable clasificadora (cualitativa), predecir el
valor de la variable, para un individuo dado, a partir de un
conjunto de variables numricas (Anlisis Discriminante).
3.- Distinguir grupos (clusters) entre los individuos de la poblacin.
(Anlisis Cluster)

EJEMPLO:
Hemos recogido datos sobre la incidencia de incendios y conatos en
distintas provincias espaolas

provincias

vege_pr
ed

zona

conatos

incendio
s

Safectad
a

Sarbolada_
afect

precipitacion
media julio
agosto

Alicante

centro

121

57

1341,78

690,2

3,6

vila

centro

109

118

1874,67

1311,95

7,05

Baleares

centro

112

38

1587,91

1237,01

6,6

Castelln

centro

130

32

869,53

613,69

9,2

Cuenca

centro

143

46

467,14

133,71

9,1

centro

96

48

553,05

314,93

23,45

centro

167

94

1102,05

660,49

11

centro

61

115

3595,32

2687,08

6,2

Segovia

centro

51

18

369,07

179,23

12,7

Teruel

centro

89

16

172,74

72,58

23,15

Valencia

centro

157

72

4145,19

653,47

8,3

Valladolid

centro

56

28

106,37

20,01

41,4

Zamora

centro

155

374

8787

7524,14

12,3

Soria

norte

66

37

155,81

107,71

34,4

lava

norte

36

19

85,06

68,31

66,8

Asturias

norte

411

1101

11679

8725,38

26,55

Barcelona

norte

310

61

219,63

84,05

7,25

Burgos

norte

78

136

1478,91

655,17

42,25

Cantabria

norte

40

338

3961,68

3340,48

17,05

Gerona

norte

174

22

260,22

198,38

24,5

Guadalajara
Madrid
Salamanca

PREGUNTA1: Se puede resumir la informacin proporcionada


por los datos utilizando una cantidad menor de variables? Podemos
conformar ndices, a partir de ciertas variables?
(Anlisis en componentes principales)
PREGUNTA2: Qu grupos homogneos podemos distinguir entre
las provincias?
(Anlisis cluster)
PREGUNTA3: Suponiendo que hemos clasificado a las provincias
en tres grupos (A, B y C), cmo identificar las variables ms influyentes a la hora de asignar un grupo u otro a una cierta provincia?
Dada una zona de otro pas, cmo decidir a cul de los grupos
A, B, C se parece ms?
(Anlisis Discriminante)

1. Anlisis en Componentes Principales.

X1, X2, , Xn
Variables iniciales
(son cuantitativas)
1.- Nmero elevado de
variables.
2.- Existen correlaciones entre
ellas (info. redundante)
3.- Tienen significacin clara

Y1, Y2, , Yn
Componentes principales
1.- Mismo nmero de variables,
pero ordenadas segn % de
informacin retenido.
2.- Independientes.
3.- En principio, son artificiales, pero
con frecuencia algunas de ellas
pueden ser interpretadas a partir
de los pesos.
4.- La relacin entre las Ys y las Xs
es del tipo:
Yj=a1,jX1+ a2,jX2+ + an,jXn

pesos

-En la prctica, uno se queda con el nmero de componentes principales


Y1,,Ym necesario para retener un porcentaje suficiente de informacin
original. Se entiende de ese modo que se est perdiendo parte de
informacin, pero a cambio de mayor claridad/concisin (menor
nmero de variables). En suma, el proceso permite reducir el nmero
de variables.
-Una aplicacin til es la elaboracin de ndices a partir de un conjunto
de variables.

Statgraphics

2. Anlisis Discriminante.
X1, X2,,Xn, Y
Factor de clasificacin
(var. Cualitativa o cuant. Discreta)
Variables
cuantitativas
(Y puede ser el grado de satisfaccin de un usuario de una
biblioteca, el hbito de lectura, el tema de un artculo o un libro,
el periodo histrico, la gravedad de una enfermedad, etc.)
PREGUNTA1: Cules son las variables Xi que permiten discriminar
(predecir) mejor el valor de Y (es decir, las ms influyentes: obsrvese
que si Y es cuantitativa, esta pregunta se puede responder tambin
utilizando regresin mltiple).

2. Anlisis Discriminante.
X1, X2,,Xn, Y
Factor de clasificacin
(var. Cualitativa o cuant. Discreta)
Variables
cuantitativas
PREGUNTA1: Cules son las variables Xi que permiten discriminar
(predecir) mejor el valor de Y (es decir, las ms influyentes: obsrvese
que si Y es cuantitativa, esta pregunta se puede responder tambin
utilizando regresin mltiple).
PREGUNTA2: Dado un nuevo individuo que presenta ciertos valores
Para las variables X1,,Xn, predecir el valor de Y para dicho individuo.

EJEMPLO: Hemos seleccionado


cinco trminos clave que aparecen
tpicamente, con distintas frecuencias, en textos histricos, filosficos
y filolgicos. Despus, hemos registrado la frecuencia de aparicin de
dichos trminos clave en 30 artculos
de dichas materias, y hemos anotado
el tema (FILOSOFIA, HISTORIA,
FILOLOGIA) de cada uno de esos
artculos. Nos preguntamos:
1.- Cules son los trminos clave
que permiten clasificar mejor un
artculo dentro de cada rea (Filosofa,
Historia o Filologa)? Es realmente
efectivo?

Clave_1

Clave_2

Clave_3

Clave_4

Clave_5

TEMA

15

16

13

13

23

10

14

10

13

HISTORIA

16

HISTORIA

13

12

20

14

17

21

18

12

15

15

16

20

23

41

12

12

25

21

28

11

19

HISTORIA

14

HISTORIA

19

23

17

17

14

15

20

18

16

19

16

18

HISTORIA

14

12

HISTORIA

FILOSOFIA
HISTORIA
FILOLOGIA

FILOLOGIA
FILOSOFIA
FILOLOGIA
FILOSOFIA
FILOSOFIA
HISTORIA
FILOLOGIA
FILOSOFIA

FILOLOGIA
FILOLOGIA

2.- Dnde encuadrar (de manera


automtica) un artculo, conocidas
las frecuencias de dichos trminos
clave en dicho artculo?

HISTORIA
FILOLOGIA
FILOSOFIA

PREGUNTA1: Cules son las variables Xi que permiten discriminar


(predecir) mejor el valor de Y (es decir, las ms influyentes: obsrvese
que si Y es cuantitativa, esta pregunta se puede responder tambin
utilizando regresin mltiple).
Funciones discriminantes:
F1=a1,1X1++a1,nXn
F2=a2,1X1++a2,nXn

pesos
- La tcnica puede funcionar o no.
- Puede haber una o varias funciones discriminantes.
- Estn ordenadas por su poder discriminante (su efectividad
para clasificar a un individuo en un grupo determinado).
- Dentro de una funcin discriminante, las variables ms influyentes
son las que tienen mayor peso.

PREGUNTA2: Dado un nuevo individuo que presenta ciertos valores


Para las variables X1,,Xn, predecir el valor de Y para dicho individuo.

Funciones de clasificacin:
Si la variable clasificadora Y tiene j valores distintos (niveles), tendremos
j funciones de clasificacin:
S1= c1,0+ c1,1X1+ + c1,nXn
....
Sj = cj,0+ cj,1X1+ + cj,nXn
Dado un nuevo individuo que presenta unos ciertos valores para
X1,,Xn, sustituimos dichos valores en las frmulas de arriba, y vemos
cul de esas expresiones es la mayor; el nivel de Y al que corresponda
dicha expresin, ser el valor predicho para Y.

Statgraphics

3. Anlisis Cluster.
A partir de los valores de X1,, Xn registrados sobre una muestra
de una poblacin, queremos establecer grupos homogneos
dentro de la poblacin. Dichos grupos homogneos reciben el
nombre de clusters.
Ejemplo: Determinacin de perfiles de usuarios (en general, de
clientes).
X2

X1

3. Anlisis Cluster.
A partir de los valores de X1,, Xn registrados sobre una muestra
de una poblacin, queremos establecer grupos homogneos
dentro de la poblacin. Dichos grupos homogneos reciben el
nombre de clusters.
Ejemplo: Determinacin de perfiles de usuarios (en general, de
clientes).
X2
Si buscamos tres
clusters

X1

3. Anlisis Cluster.
A partir de los valores de X1,, Xn registrados sobre una muestra
de una poblacin, queremos establecer grupos homogneos
dentro de la poblacin. Dichos grupos homogneos reciben el
nombre de clusters.
Ejemplo: Determinacin de perfiles de usuarios (en general, de
clientes).
X2
Si buscamos cuatro
clusters

X1

El anlisis cluster se basa en la deteccin de afinidades entre individuos;


para nosotros, cada individuo viene representado por (x1,,xn), y la nocin
intuitiva de afinidad se materializa en el concepto matemtico de
DISTANCIA. En este sentido, antes de realizar un anlisis cluster, debemos
fijar (elegir):
- Distancia entre individuos
- Distancia entre grupos.
- Nmero de clusters.

Diferentes elecciones conducen en general a distintos


resultados, que han de interpretarse.
Buscamos los resultados ms significativos posibles.

Fin del Temario

Statgraphics

También podría gustarte