Está en la página 1de 69

ANLISIS DISCRIMINANTE

Y
CORRELACIONES
CANNICAS
Prof. ESPERANZA AYUGA TLLEZ

ANLISIS DISCRIMINANTE
Propuesto por primera
vez por Fisher, fsico que
trabaj en una estacin
experimental agrcola y
clebre por sus estudios
genticos.

ANLISIS DISCRIMINANTE

ANLISIS MULTIVARIANTE

Tiene
Tiene por
por objeto
objeto clasificar
clasificar un
un nuevo
nuevo elemento
elemento
observado,
observado, usando
usando valores
valores de
de las
las variables
variables
conocidas,
conocidas, en
en alguna
alguna de
de las
las poblaciones
poblaciones que
que
originan
originan stas.
stas. Conocido
Conocido como
como reconocimiento
reconocimiento de
de
patrones
patrones oo clasificacin
clasificacin supervisada.
supervisada.
p.e. Clasificar los restos de un crneo descubierto en una
excavacin como humano, partiendo de medidas fsicas de
crneos humanos y de antropoides.

ANLISIS DISCRIMINANTE

ANLISIS MULTIVARIANTE

Clasificacin entre dos poblaciones:


Tenemos dos poblaciones, P1 y P2, con un vector
aleatorio X continuo, p-dimensional, definido en ambas
y con funciones de densidad multivariantes conocidas
(f1(X) y f2(X)).
Queremos clasificar x0 en una de las dos poblaciones.
Si conocemos i, probabilidad a priori de que el
elemento proceda de Pi, con 1+2=1, entonces (por
Bayes)

x 0 P2 2f 2 ( x 0 ) > 1f1 ( x 0 )

ANLISIS DISCRIMINANTE

ANLISIS MULTIVARIANTE

Consecuencias de la clasificacin errnea:


Las decisiones son dos:
Clasificamos
Clasificamos en
en PP22 si:
si:

Si x0A1 D1 (clasificar en P1)

P(1/X)

(a
priori)
es
ms
alta
(a
igualdad
del
resto)
a)

D1
(a
priori)
es
ms
alta
(a
igualdad
del
resto)
a)

2
2 2 D2 (clasificar en P2)
Si x0A
P(2/X)

C(1/2)
b)
f
(verosimilitud)
es
ms
alta
(a
igualdad
del
Las
consecuencias
de
los
errores
b) f22 (verosimilitud) es msxalta
(a igualdad del
0
C(i/j)
se miden con el coste de
C(2/1)
P(1/X)
resto)
resto)
clasificar en P un elemento de P
i

D2

c)
El
equivocarnos
es
(a
El
buscade
maximizar
la
c)decisor
El coste
coste
de
equivocarnos
es ms
ms bajo
bajo
(a 0
P(2/X)
utilidad
de la decisin.
igualdad
del
igualdad
del resto)
resto)
2f 2 ( x 0 ) 1f1 ( x 0 )
Asignamos el elemento a P2 si
>
C( 2 / 1)
C(1 / 2)

ANLISIS DISCRIMINANTE

ANLISIS MULTIVARIANTE

Caso de dos poblaciones normales:


Tenemos dos poblaciones de f1(X) y f2(X) normales
con V1=V2=V entonces la regla general anterior se
reduce a clasificar en P2 si D12>D22,
con Di2 = (X-i)V-1(X-i)= distancia de Mahalanobis
O bien, construir la variable indicador z= wx con
w= V-1 (2 -1) y clasificar z en P2 si z-m1> z-m2
con mi= wi.
Esto equivale a buscar la direccin ptima de
proyeccin para discriminar.

ANLISIS DISCRIMINANTE

ANLISIS MULTIVARIANTE

Probabilidad de error:
P(2/1) = P(1/2) = (-D/2)
con funcin de distribucin de la Normal estandar y
D2 = (2 -1)V-1(2 -1)= distancia de Mahalanobis.

Probabilidad de acertar:
1
P(1 / x ) =
1
1 2
2
1 + exp (D 2 D1 )
2

2
que nos indica la confianza en la clasificacin.

ANLISIS DISCRIMINANTE

ANLISIS MULTIVARIANTE

Generalizacin a varias poblaciones:


Si tenemos G poblaciones, se divide el espacio en G
regiones Ag tales que si x Ag se clasifica el punto en
la poblacin Pg.

La regla de decisin de mxima verosimilitud es:


Ag={x Ag /gfg(x)> ifi(x); ig}
Esto equivale a calcular las D2 de x al centro de cada
poblacin y clasificarla en la Pg que haga esta distancia
mnima (si todas las i son iguales y fi(x) normales con
la misma matriz de varianzas).
Para G poblaciones se necesitan r=min(G-1,p)

ANLISIS DISCRIMINANTE

ANLISIS MULTIVARIANTE

Poblaciones desconocidas:
Si slo disponemos de la muestra:
1 ( x x )

min
(
x

x
)
S
clasificamos x0 en la poblacin Pg si g 0 g w 0 g

o construimos z g ,g+1 = w 'g,g+1x 0 , con w g,g+1 = w g w g+1


y clasificamos en g frente a g+1 si
g < z g ,g +1 m
g +1
z g ,g +1 m

El error de clasificacin es
= total mal clasificados/total bien clasificados
Tambin podemos construir n funciones discriminantes
con n-1 observaciones y clasificamos el dato con la
regla construida sin l (validacin cruzada)

ANLISIS DISCRIMINANTE

ANLISIS MULTIVARIANTE

V. CANNICAS
DISCRIMINANTES
Se construyen las variables cannicas que
tengan
mximo
poder
discriminante
(proyecciones en las direcciones de mxima
distancia) mediante los autovalores y que son
incorreladas.
Cuando p y G son grandes es frecuente que la
mayor discriminacin se consiga con pocas
variables cannicas.

ANLISIS DISCRIMINANTE

ANLISIS MULTIVARIANTE

OTRAS FORMAS DE
DISCRIMINACIN
Cuadrtica: Si las V son distintas se clasifica la
observacin en el grupo con ms probabilidad
a posteriori f. Discrim. Cuadrtica (con
regiones no disjuntas y n de parmetros a
estimar mayor).
Bayesiana: Para v.a. con cualquier distribucin.
Con la probabilidad a posteriori f. Discrim.
Cuadrtica.

ANLISIS DISCRIMINANTE

ANLISIS MULTIVARIANTE

USO DEL A. DISCRIMINANTE


En muchos casos en que se necesita
clasificar elementos con informaciones
incompletas

ANLISIS DISCRIMINANTE

Fases de su aplicacin

A. MULTIVARIANTE

PREPARACIN DE LOS DATOS PARA EL ANLISIS


Comprobacin de los supuestos bsicos
Eleccin de las variables predictoras
Seleccin de los casos a analizar
Anlisis de las distribuciones univariantes de los grupos

LAS FUNCIONES DISCRIMINANTES


Estimacin de las funciones discriminantes

Anlisis discriminante
simultneo

Anlisis discriminante
no simultneo

Derivacin de los coeficientes de las funciones discriminantes


Significatividad de las funciones
Obtencin de las puntuaciones discriminantes

ANLISIS DISCRIMINANTE

Fases
de su aplicacin
ESTADSTICOS:

A. MULTIVARIANTE

Determinar la importancia relativa de cada v. indep. En la


diferenciacin
los grupos:
ESTIMACIN
DEdeLAS
FUNC. DISCRIMINANTES
opesos discriminantes estandarizados
oCorrelaciones de estructuras discriminantes
EVALUACIN
DE SU ADECUACIN PREDICTIVA
F parciales de corte ptima
DeterminacinoValores
de la puntuacin
Obtencin
de lasde
matrices
de grupales
clasificacin
Examen
las medias
en relacin con cada funcin
Aplicacin
de varios criterios para valorar la clasificacin
discriminante

R
E
P
Clculo de los ndices de potencialidad
L
INTERPRETACIN DEL MODELO
A
N
Rotacin de las funciones discriminantes
T
GRFICOS:
E grupales
Centroides
A
ESTADSTICOS
GRFICOS
Correlaciones discriminantes
R

2
3
4

Mapas territoriales

Histogramas de puntuaciones discriminantes

VALIDACIN
Diagramas de dispersin para todas las funciones
NEGATIVA
Introduccin de modificaciones

DEL MODELO

POSITIVA

Conclusin del anlisis

Asignacin de nuevos objetos a los grupos

ANLISIS DISCRIMINANTE

ANLISIS MULTIVARIANTE

DECISIONES INICIALES
1. Eleccin de variables predictoras:
Se basa en tcnicas previas de clasificacin grupal.
2. Seleccin de casos a analizar:
La eliminacin de dichos casos se basar en el estudio
detallado de stos. Si son demasiadas, si son relevantes, etc.
Si se emplea la validacin cruzada para contrastar las
funciones discriminantes hay determinar qu parte de la
muestra se elimina de la estimacin y se emplea en la
validacin.

ANLISIS DISCRIMINANTE

ANLISIS MULTIVARIANTE

DECISIONES INICIALES
3. Modalidad de anlisis:
Dependiendo de si slo se quiere discriminar o tambin se
quiere emplear un nmero reducido de variables predictoras:
Anlisis discriminante simultneo: se emplean todas.
Anlisis discriminante secuencial: serie reducida en
consonancia con su poder discriminatorio. La incorporacin es
secuencial, se introduce una nueva variable en consonancia con
su poder discriminante y se analiza la colinealidad.
4. Descriptiva univariante:
Se analizan las diferencias entre grupos de los estadsticos de
cada variable.

ANLISIS DISCRIMINANTE

ANLISIS MULTIVARIANTE

ESTIMACIN DE LAS FUNCIONES


Funcin discriminante cannica: combinacin lineal de p
variables predictoras que ms discriminan entre los grupos
definidos a priori
fkm= u0+u1X1km+...+upXpkm
fkm = puntuacin para el caso m en el grupo k
Xikm = valor de la v. Xi para el caso m en el grupo k
La puntuacin discriminante representa la proyeccin de ese caso a lo
largo del eje discriminante definido por la funcin.
Los coeficientes se calculan para maximizar diferencias entre centroides
y los valores ui incorrelados entre las diferentes funciones.

ANLISIS DISCRIMINANTE

ANLISIS MULTIVARIANTE

ESTIMACIN DE LAS FUNCIONES


N de funciones y significatividad:
N max = min (p, g-1)

p =n de variables usadas
g =n de grupos

Relevancia de las funciones: se comprueba con la conjuncin


Autovalores: i= SCEG/SCIG, cuanto mayor es i ms discriminacin
Porcentaje de varianza: % de V relativo que representa cada funcin.
Correlacin cannica: ri = [i/(1+ i)]1/2, mide el grado de asociacin
entre el grupo y la funcin, cuanto ms prximo a 1 mejor asociacin.

ANLISIS DISCRIMINANTE

ANLISIS MULTIVARIANTE

ESTIMACIN DE LAS FUNCIONES


N de funciones y significatividad:
Se comprueba con los estadsticos:
Lambda de Wilks: se tienen valores pequeos cuando hay mucha
variabilidad entre grupos y poca dentro de ellos, valores cercanos a 1
indican que la funcin no logra diferenciar entre grupos.

Chi-cuadrado: mide la discriminacin residual. Si p>0,05 no procede


seguir estimando funciones discriminantes.

Estandarizacin de coeficientes:
Las puntuaciones se obtienen con los coef. sin estandarizar.
Los coef. estandarizados se emplean como referentes de la contribucin
de la variable a la funcin discriminante

ANLISIS DISCRIMINANTE

ANLISIS MULTIVARIANTE

ESTIMACIN DE LAS FUNCIONES


Procedimiento secuencial para elegir v. predictoras:
Hacia delante (forward): se van incluyendo variables por su
poder discriminante.
Hacia atrs (backward): se van eliminando variables.
Criterios de seleccin:
Lambda de Wilks: se selecciona la variable con lambda menor
La razn F parcial: razn de variabilidad entre y var. intra.
Interesan valores elevados. Hay que elegir los valores:
F mnimo (F-to enter) para entrar >2, entre 2,5 y 5
F mximo (F-to remove) para salir >2, entre 2,5 y 5

Fmin >Fmax

Para incorporar, F debe ser elevado y =0,05


Ordena las v. por su poder discriminatorio, cuanto mayor F ms contribuye, =0,1

ANLISIS DISCRIMINANTE

ANLISIS MULTIVARIANTE

CAPACIDAD PREDICTIVA
Procedimiento para VALORAR la capacidad predictiva:
Tabla de clasificacin: Se incluyen los casos bien y mal
clasificados y en qu grupo.
Se determinar una probabilidad a priori de asignacin a cada uno de
los grupos:
Para todos igual
Proporcional al nmero de casos en cada grupo.
Otra asignacin
El caso se clasifica en el grupo con mayor probabilidad a posteriori

El xito se mide con el porcentaje de casos correctamente


clasificados.

ANLISIS DISCRIMINANTE

ANLISIS MULTIVARIANTE

INTERPRETACIN
1. DESCRIPCIN de las funciones : destacando el poder
discriminatorio de las variables que la forman.
Los coeficientes estandarizados
Las correlaciones
Los valores de F parciales
2. EXAMEN de los centroides : su finalidad es obtener una
visin global de las diferencias grupales respecto a las
funciones obtenidas.

ANLISIS DISCRIMINANTE

ANLISIS MULTIVARIANTE

ULTIMAS APLICACIONES
Patrones de comportamiento (2005):
Estudio sobre
diferencias entre los
patrones de asimilacin
de CO2, eficiencia
fotosinttica y
crecimiento del Schinus
frente a cinco especies
nativas de Florida en
diferentes condiciones
de salinidad: neutra,
baja y alta.

ANLISIS DISCRIMINANTE

ANLISIS MULTIVARIANTE

ULTIMAS APLICACIONES

ANLISIS DISCRIMINANTE

ANLISIS MULTIVARIANTE

ULTIMAS APLICACIONES
Patrones de comportamiento (2005):
Estudio sobre modelos de gestin de
organizaciones culturales mediante medidas
de los valores del individuo sobre tres ejes:
economa-prctica; creatividad-emocional y
creatividad
tica-social.

tica

economa

Control de procesos (2005):


Programa informtico para el
comprobar si el proceso est o no bajo
control, entrando mltiples variables
fsicas y tratamiento estadstico de
stas, incluido el AD.

ANLISIS DISCRIMINANTE

ANLISIS MULTIVARIANTE

ULTIMAS APLICACIONES
Tipologa estructural (2005):
Asignacin de parcelas
forestales a diferentes
tipologas estructurales de
los hayedos burgaleses,
atendiendo a variables
dasomtricas y medidas de
la biodiversidad de las
parcelas, con un 95% de
eficiencia en la clasificacin.

ANLISIS DISCRIMINANTE

Ejemplo 1:
Una mquina que admite monedas
realiza 3 mediciones de cada moneda
para determinar su valor: peso(X1),
espesor(X2) y densidad de estras en su
canto(X3). Los instrumentos de
medicin de estas variables no son muy
precisos y se ha comprobado en una
amplia experimentacin con 3 tipos de
monedas M1, M2 y M3, que las
medidas son N(, V)

ANLISIS MULTIVARIANTE

ANLISIS DISCRIMINANTE

ANLISIS MULTIVARIANTE

Ejemplo 1:
20
8

8
1

19,5
7,8

10
2
4 0,8 5
V = 0,8 0,25 0,9
5 0,9 9

V-1 =

20,5
8,3

5
3

Clasificar la
moneda de medidas
(22; 8,5;7)
Aparentemente est
ms prxima a M3
Pero podra ser M1

ANLISIS DISCRIMINANTE

ANLISIS MULTIVARIANTE

Ejemplo 1:

Funciones discriminantes:
Z1 = (1 3 ) V 1X = 1,77x1 3,31x 2 + 0,98x3
Z2 = ( ) V 1X = 0,93x + 1,74x 0,56x
1

Z3 = (2 3 ) V 1X = Z1 Z2

Z1(1) = 1,77 20 3,318 + 0,988 = 16,71 La media o punto

Z1(2 ) = 1,77 20,5 3,318,3 + 0,985 = 13,65 de corte es 15,17

Z1=1,77x22-3,31x8,5+0,98x7=17,61 > 15,17M1

ANLISIS DISCRIMINANTE

ANLISIS MULTIVARIANTE

Ejemplo 1:

Equivale a calcular D2:

D12 = (x 1 )V 1 (x 1 ) = 1,84
D 22 = (x 2 )V 1 (x 2 ) = 2,01
D32 = (x 3 )V 1 (x 3 ) = 6,69

D12 es la menor clasificamos en M1

La moneda que
queremos clasificar
tiene mucho peso y
espesor (M3)
entonces la
densidad de las
estras deba ser
bajo

ANLISIS DISCRIMINANTE

ANLISIS MULTIVARIANTE

Ejemplo 1:

Hemos clasificado la moneda en M1 y no


en M3 como pensamos al principio. Para
explicarlo estudiamos la matriz de
correlaciones entre coeficientes
estandarizados.

0,8 0,83
1
R = 0,8
1
0,6
0,83 0,6
1

La moneda que queremos clasificar tiene mucho peso y espesor


(M3) entonces la densidad de estras deba ser bajo
(correlacin negativa). Sin embargo es alto, valor compatible
con una moneda M1 sucia (la suciedad aumenta peso y espesor)

ANLISIS DISCRIMINANTE

Ejemplo 2:
Se tienen 360 observaciones de
distintas zonas de la costa, que se
han clasificado, atendiendo al
grado de salinidad y
contaminantes, en aguas no
degradadas (1), algo degradadas
(2) y muy degradadas (3).
Vamos determinar si la presencia
de determinados organismos nos
permite asignar el ecosistema
marino a alguno de estos grados.

ANLISIS MULTIVARIANTE

ANLISIS DISCRIMINANTE

ANLISIS MULTIVARIANTE

Ejemplo 2:
Las variables que se consideran en la obtencin de las
funciones discriminantes son:

bivalvos

poliquetos

N de sp distintas

ispodos

anfpodos

ANLISIS DISCRIMINANTE

ANLISIS MULTIVARIANTE

Ejemplo 2:
Las variables
ispodos/bivalvos y
poliquetos/bivalvos
estn correlacionadas
linealmente.

% poliquetos

% anfipodos

% bivalvos

% ispodos

n de especies

Resumen estadstico
% poliq

% anfip

% bivs

% isp

n de sp

--------------------------------------------------------------------------------------------------N

360

360

360

360

360

5,95833

2,9525

4,37028

1,24028

52,5889

1,00765

1,20146

1,1505

0,53954

25,8341

16,9116%

40,6929%

26,3256%

43,5015%

CV

49,1247%

----------------------------------------------------------------------------------------------------

El % de ispodos y
n de especies
distintas son los ms
diferentes en cuanto
a medias y
desviaciones tpicas.

ANLISIS DISCRIMINANTE

ANLISIS MULTIVARIANTE

Ejemplo 2:
Number of complete cases: 360
Number of groups: 3
Valor
%
Correlacin
Funcin
propio Relativo Canonica
-----------------------------------------------------------------1
9,36485
83,00
0,95054
2
1,91833
17,00
0,81076
Funciones
Wilks
Chi
g.d.l. P-Valor
Derivadas
Lambda
-----------------------------------------------------------------------1
0,0330599 1213,7581 6 0,0000
2
0,342661
381,2804 2 0,0000
-------------------------------------------------------------------------

Las dos
funciones son
discriminantes
(f1> f2)
Las dos funciones
obtienen grupos
con medias
diferentes

ANLISIS DISCRIMINANTE

ANLISIS MULTIVARIANTE

Ejemplo 2:
Stepwise regression: Method: forward selection
F-to-enter: 4,0 / F-to-remove: 4,0
Step 0:

0 variables in the model.

Step 1: Adding variable % ispodos with F-to-enter = 940,328


-------------------------------------------------------------------------------------------------------1 variables in the model.
Wilk's lambda = 0,159542 Approximate F = 940,328 with P-value = 0,0000
Step 2: Adding variable n de especies with F-to-enter = 430,292
--------------------------------------------------------------------------------------------------------2 variables in the model.
Wilk's lambda = 0,0466856 Approximate F = 645,813 with P-value = 0,0000
Step 3: Adding variable % bivalvos with F-to-enter = 73,1565
---------------------------------------------------------------------------------------------------------3 variables in the model.
Wilk's lambda = 0,0330599 Approximate F = 532,479 with P-value = 0,0000

ANLISIS DISCRIMINANTE

ANLISIS MULTIVARIANTE
degradaci
1
2
3

140

n de especies

n de especies

Ejemplo 2:

110

80
50
20

degradacin
1
2
3

140
110
80
50
20
-10

-10
0

0,5

1,5

2,5

Si disminuimos la F de
entrada a 2,5 incluimos la
6,6variable % de poliquetos con
5,6=0,0323432 que discrimina
4,6un poco menos
7,6

% ispodos

% poliquetos

degradacin
1
2
3

8,6

% bivalvos

% ispodos
9,6

2,5

degradacin
1
2
3

2
1,5
1
0,5
0

3,6
0

0,5

1,5

% ispodos

2,5

% bivalvos

ANLISIS DISCRIMINANTE

ANLISIS MULTIVARIANTE

Ejemplo 2:
Grupo tamao
Degradacin asignada
actual grupo
1
2
3
-----------------------------------------------------------------------1
120
119
0
1
( 99,17%)
( 0,00%)
( 0,83%)
2
120
0
117
3
( 0,00%)
( 97,50%)
( 2,50%)
3
120
0
2
118
( 0,00%)
( 1,67%)
( 98,33%)
-----------------------------------------------------------------------% de casos correctamente clasificados: 98,33%
G Prob. a priori
-----------------------1
0,3333
2
0,3333
3
0,3333
-------------------------

La probabilidad a
priori es igual para
todos los grupos y
proporcional al
tamao del grupo

La clasificacin
ms acertada es la
de los ecosistemas
no degradados

ANLISIS DISCRIMINANTE

ANLISIS MULTIVARIANTE

Ejemplo 2:

Z1= 16,081%biv+36,2747%isop+0,553299nsp-102,461

Classification Function Coefficients for degradacin


--------------------------------------------------------------------1
2
3
% bivalvos
16,018
9,24273
12,244
% ispodos
36,2747
11,8938
23,6155
n de especies 0,553299
0,350885
0,173621
CONSTANT -102,461
-28,5171
-43,9113
------------------------------------------------------------------------

Z2= 9,24273%biv+11,8938%isop+0,50885nsp-28,5171
Z3= 12,244%biv+23,6155%isop+0,173621nsp-43,9113

Clasificamos en el grupo 2 si
Z2>Z1 y Z2>Z3

En la f1 todas las variables


contribuyen por igual y en f2
la variable de mayor
importancia es la diversidad

Coeficientes de la Funcin Discriminante para degradacin


Standardized Coefficients
------------------------------------------------------1
2
% bivalvos
0,524842
-0,258276
% ispodos
0,681804
-0,405098
n de especies 0,456872
0,892658

Unstandardized Coefficients
--------------------------------------------------------1
2
% bivalvos
0,887861
-0,436919
% ispodos
3,1549
-1,8745
n de especies 0,0381303
0,0745006
CONSTANT
-9,79838
0,316459

ANLISIS DISCRIMINANTE

ANLISIS MULTIVARIANTE

Ejemplo 2:

Function 2

Si f2<0 y f1<1 G3
Si6 f2>0 y f1<1 G2

degradacin
1
2
3
Centroids

4
2
0

coordenadas de
centoides por grupo

-2

-4
-5

-2

Function 1

4,18751

0,461195

-2,97623

1,41074

-1,21128

-1,87194

10

Si f1>1 G1

ANLISIS DISCRIMINANTE

ANLISIS MULTIVARIANTE

Ejemplo 2:

n de especies

degradacin
1
2
3
TOTAL
COUNTS
120
120
120
360
------------------------------------------------------------------------------MEANS
% bivalvos 5,5975
3,18167
4,33167
4,37028
% ispodos 1,86917
0,6625
1,18917
1,24028
n de sp
81,8
50,0167
25,95
52,5889
------------------------------------------------------------------------------STD. DEVIATIONS
% bivalvos
2,3659
1,78372
2,08127 2,09052
% ispodos
1,36717 0,813941 1,09049 1,11368
n de sp
9,04434 7,07225
5,09411 7,25182
-------------------------------------------------------------------------------

140
110
80
50
20
-10
0

Within-Group Covariance Matrix


% bivalvos
% ispodos
n de especies
% bivalvos
0,349436
0,0043401
-0,284127
% ispodos
0,0043401
0,0467033
0,190672
n de especies -0,284127
0,190672
143,565
------------------------------------------------------------------------------------------Within-Group Correlation Matrix
% bivalvos
% ispodos
n de especies
% bivalvos
1,0
0,0339737
-0,0401147
% ispodos
0,0339737
1,0
0,0736357
n de especies -0,0401147
0,0736357
1,0
-------------------------------------------------------------------------------------------

grupo
1
2
3

% bivalvos

1,52 2,5
1
0,5
0

% ispodos

ANLISIS DISCRIMINANTE

ANLISIS MULTIVARIANTE

Ejemplo 2:
La degradacin de las
costas se puede determinar
por la biodiversidad de los
ecosistemas marinos.
El A. discriminante es una
tcnica estadstica muy
eficaz (menos del 20% de
error) para predecir la
degradacin de las costas por
medio de los organismos
encontrados en ellas.

DEPENDENCIA ENTRE
CONJUNTOS DE
VARIABLES
Hotelling propone en 1936 las
CORRELACIONES CANNICAS
como una extensin de las
componentes principales

DEPENDENCIA ENTRE CONJUNTOS DE VARIABLES

ANLISIS MULTIVARIANTE

Tiene
Tiene por
por objeto
objeto relacionar
relacionar las
las variables
variables en
en dos
dos
grupos.
grupos.

p.e. Para relacionar un conjunto de variables que midan el


rendimiento escolar y otro grupo que mida el uso de los
tiempos de ocio, o cuando tratamos de relacionar las variables
que miden el rendimiento en Secundaria con las notas de la
Universidad.

DEPENDENCIA ENTRE CONJUNTOS DE VARIABLES

ANLISIS MULTIVARIANTE

La relacin se puede buscar con dos enfoques:


1Simtrico: cuando no existe un conjunto que sea la
causa del otro (p.e. las variables que miden
caractersticas fisiolgicas y morfolgicas de las
plantas, estn relacionadas sin causalidad).
1Asimtrico: cuando unas variables explican las
otras pero no al revs (p.e. el tipo de suelo y el
crecimiento de las plantas)

DEPENDENCIA ENTRE CONJUNTOS DE VARIABLES

ANLISIS MULTIVARIANTE

VARIABLES CANNICAS
El problema es encontrar 2 v. resumen, una de cada
conjunto, que tengan correlacin mxima:
p

i =1

j=1

x * = X = i x i y y* = Y = jy j

Si las variables son normales de media 0, la solucin


consiste en construir las 2 matrices:

A pxp = V111V12 V221V21 y Bqxq = V221V21V111V12


Y calcular el vector asociado a su mximo valor
propio, vector que proporciona las v. cannicas.

DEPENDENCIA ENTRE CONJUNTOS DE VARIABLES

ANLISIS MULTIVARIANTE

VARIABLES CANNICAS
El objetivo es relacionar de forma global un grupo de
variables x1, x2,...,xm con otro grupo de variables, y1,
y2,...,yn todas ellas medidas en la misma poblacin a
travs de nuevas variables no medibles, U=(u1,...um)
y V=(v1,...,vn):
U1=u11 x1+...+u1m xm
V1=v11 y1+...+v1n yn
Con la propiedad de que la correlacin entre U y V es
mxima.

Anlisis de Correlacin Cannica

DEPENDENCIA ENTRE CONJUNTOS DE VARIABLES

ANLISIS MULTIVARIANTE

VARIABLES CANNICAS

Metodologa

Para relacionar (x1, x2,...,xm ) con,( y1, y2,...,yn ) habr que


encontrar 2 vectores (u1, ...um ) y (v1 ,...,vn ) con las
propiedades:
1. u1, ...um son mutuamente incorreladas.
2. v1 ,...,vn son mutuamente incorreladas.
3. Las correlaciones cuadrticas o correlaciones cannicas
entre (u1,v1), (u2, v2), ...., (un, vn) son mximas: 12>=
22>=...>= n2
4. Las variables cannicas se obtienen a partir de:

DEPENDENCIA ENTRE CONJUNTOS DE VARIABLES

ANLISIS MULTIVARIANTE

VARIABLES CANNICAS
Det(C12 C22-1 C21-i2 C11)=0
Matriz de
Covarianzas
de y con x

Matriz de Covarianzas
de y1,...,ym

Matriz de Covarianzas de x1,...,xm

Correlaciones cannicas-autovalores

C12 C22-1 C21 ui=i2 C11ui


Donde (u1i, ...umi ) es el vector cannico.
C12 C11-1 C21 vi=i2 C22vi
Donde (v1i, ...vni ) es el vector cannico.

DEPENDENCIA ENTRE CONJUNTOS DE VARIABLES

ANLISIS MULTIVARIANTE

CONSTRUCCIN DE V. C.
Una vez obtenidas las dos variables, es posible que
esta primera relacin entre las 2 v. indicadores
explique completamente los dos conjuntos y no
exista ms relacin entre ambas.
Si no es as, se puede buscar una 2 v. Indicadora del
primer conjunto incorrelada con la 1 y que tenga
correlacin mxima con otra v. Indicadora del
segundo conjunto.

DEPENDENCIA ENTRE CONJUNTOS DE VARIABLES

ANLISIS MULTIVARIANTE

CORRELACIN CANNICA
Las correlaciones cannicas representan relaciones
de dependencia entre los subespacios generados por
los dos conjuntos de variables.
Los vectores x* e y*
estn lo ms cerca
posible (es decir, x*
es colineal con la
proyeccin de y*
sobre P1 y viceversa.

DEPENDENCIA ENTRE CONJUNTOS DE VARIABLES

ANLISIS MULTIVARIANTE

PROPIEDADES DE LAS V. C.
=Son indicadores de los dos conjuntos de variables
que tienen mxima correlacin.

= Los coeficientes de la v. c. son los vectores


propios ligados al mismo valor propio de A y B.

=Si ix es una v.c. tambin - ix lo es.


=Las correlaciones cannicas son el cuadrado del
coeficiente de correlacin entre las dos v. c.

DEPENDENCIA ENTRE CONJUNTOS DE VARIABLES

ANLISIS MULTIVARIANTE

PROPIEDADES DE LAS V. C.
=Las correlaciones cannicas i2 son invariantes
ante transformaciones lineales de las variables.

=La primera correlacin cannica 12 nunca es


menor que el mayor coeficiente de correlacin
simple al cuadrado, entre una variable de cada
conjunto.

DEPENDENCIA ENTRE CONJUNTOS DE VARIABLES

ANLISIS MULTIVARIANTE

PROPIEDADES DE LAS V. C.
=La correlacin cannica i2 es el coeficiente de

determinacin en una regresin mltiple con


respecto a la variable y* y variables explicativas las
x (idem para la regresin de x* con las y).

=Las v. c. son los predictores ptimos en el sentido


de minimizar E(||x*-y*||2)

DEPENDENCIA ENTRE CONJUNTOS DE VARIABLES

ANLISIS MULTIVARIANTE

CONTRASTES
} Contrastamos que los dos conjuntos de variables
estn incorrelados que equivale a decir que todas las
correlaciones cannicas son nulas .
Bajo las hiptesis de que X e Y siguen distribuciones
normales de media 0:
r

H0: V12=0
H1: V120

= mlog(1 2j ) 2pq ,
j=1

1
m= ny r = min (p,q)
2(p + q + 3)

DEPENDENCIA ENTRE CONJUNTOS DE VARIABLES

ANLISIS MULTIVARIANTE

CONTRASTES
} Podemos contrastar por otra parte que los s 1os
coeficientes de la correlacin cannica son 0 y los
restantes nulos.
H0: i>0 i=1,...,s; y s+1=...= r =0
H1: i>0 i=1,...,s; y al menos un j>0 con j=s+1,...,r
r

= m log(1 )
j= s +1

2
j

2
(p -s)(q -s)

1
, con m = n 2(p + q + 3)

CORRELACIONES CANNICAS

ANLISIS MULTIVARIANTE

Ejemplo:
Se han medido en 50 poblaciones espaolas variables climticas
que se agrupan en variables relacionadas con la pluviometra
(conjunto 1) y las relacionadas con las temperaturas (conjunto 2):
Conjunto 1: Precipitaciones anuales y nmero de das de niebla.
Conjunto 2: Temperatura media anual y nmero de das
despejados al ao.
Se comprob que las variables de cada conjunto estaban
incorreladas y se transformaron para obtener normalidad.

CORRELACIONES CANNICAS

ANLISIS MULTIVARIANTE

Ejemplo:

lnR
raiz DH
T
DD

CORRELACIONES CANNICAS

ANLISIS MULTIVARIANTE

Ejemplo:
Correlaciones Cannicas
--------------------------------------------------------------------------------------------N
Valor
Correlacin
Lambda
Chi
g.d.l.
propio
Cannica
Wilks
P-Valor
--------------------------------------------------------------------------------------------1

0,863625

0,929315

0,119216

98,8971

0,0000

0,12582

0,354711

0,87418

6,25279

0,0124

--------------------------------------------------------------------------------------------Correlacin alta
Correlaciones significativas

CORRELACIONES CANNICAS

ANLISIS MULTIVARIANTE

Ejemplo:
Coeficientes de las variables del primer grupo para las dos vvcc
-------------------------------------------------------------------------------------lnR

-0,365702

0,93433

raiz DH

-0,961068

-0,288198

Coeficientes de las variables del segundo grupo para las vvcc


-------------------------------------------------------------------------------------T

1,06964

0,333641

DD

-0,184722

-1,10514

CORRELACIONES CANNICAS

ANLISIS MULTIVARIANTE

Ejemplo:

Variable cannica 2

3,2

2,5

2,2

1,5

Grupo 2

Grupo 2

Variable cannica 1

1,2
0,2

0,5
-0,5

-0,8

-1,5

-1,8

-2,5
-1,6

-0,6

0,4

Grupo 1

1,4

2,4

-1,5

-0,5

0,5

1,5

Grupo 1

2,5

3,5

CORRELACIONES CANNICAS

ANLISIS MULTIVARIANTE

Ejemplo:
Las nuevas variables que representan temperatura y pluviometra
estn muy correlacionadas linealmente segn la VC1:
-0,365702*lnR - 0,961068*raiz DH=1,06964*T - 0,184722*DD
u1

v1

Otra combinacin de estas variables correlacionadas ms


ligeramente es la VC2:
0,93433*lnR - 0,288198*raiz DH=0,333641*T - 1,10514*DD
u2

v2

DEPENDENCIA ENTRE CONJUNTOS DE VARIABLES

ANLISIS MULTIVARIANTE

RELACIN CON OTRAS


TCNICAS
La regresin es un caso particular de las
correlaciones cannicas: si cada uno de los conjuntos
tiene una sola variable (r2=2)
La correlacin cannica entre X (v. explicativas) y
las G variables yi conduce a los mismos resultados
que el anlisis discriminante si:
si i grupo i
1
yi =
0 en el resto de casos

DEPENDENCIA ENTRE CONJUNTOS DE VARIABLES

ANLISIS MULTIVARIANTE

ANLISIS CANNICO
ASIMTRICO
El objetivo del estudio es prever cada uno de los
componentes de Y mediante las variables X.
La correlacin cannica no resuelve el problema ya
que puede existir alta correlacin entre x* e y* y baja
entre cada y con las x*.
Construyendo q ecuaciones distintas de regresin.
Buscando una nica X que tenga buenas
propiedades para predecir las YA. C. Asimtrico.

DEPENDENCIA ENTRE CONJUNTOS DE VARIABLES

ANLISIS MULTIVARIANTE

ANLISIS CANNICO
ASIMTRICO
Si las variables originales estn estandarizadas
el coeficiente de redundancia se define como:
1
CR ( y / x ) = R yx R xy
q

La medida de la correlacin del conjunto de las r


combinaciones lineales x1,..., xr es la
r
redundancia total: R ( y / x ) = CR ( y / x i ) R ( x / y)
i =1

DEPENDENCIA ENTRE CONJUNTOS DE VARIABLES

ANLISIS MULTIVARIANTE

A. C. ASIMTRICO
Para encontrar la combinacin lineal x con
mxima correlacin con cada variable yi
individualmente de manera que la suma de
correlaciones al cuadrado entre x y las y hay que
maximizar RxyRyx con la restriccin: Rxx=1
Por tanto, es el vector propio de la matriz:
1
xx

H = R R xy R yx

DEPENDENCIA ENTRE CONJUNTOS DE VARIABLES

ANLISIS MULTIVARIANTE

A. C. ASIMTRICO
Como en A. C. Simtrico podemos buscar una 2
variable cannica asimtrica, ortogonal a la primera y
con mxima correlacin con la v. endgena.

Este mismo anlisis puede hacerse para explicar las


X con las Y, pero el problema no es simtrico.

R(y/x) no tiene en cuenta las correlaciones entre las


variables y no es una medida multivariante de la
dependencia entre los conjuntos.

ANLISIS DISCRIMINANTE

ANLISIS MULTIVARIANTE

ULTIMAS APLICACIONES
Ictiologa (2004):
Estudio sobre asociaciones entre
variables de tipo morfolgico de las
sp. de rayas de Baha Almejas y la
composicin de sus dietas.

Ecosistemas (2004):
Estudio de relaciones entre el
nmero de Zebrasoma flavescens
y las caractersticas de los
arrecifes de coral de Hawai.

ANLISIS DISCRIMINANTE

ANLISIS MULTIVARIANTE

ULTIMAS APLICACIONES
Edafologa (2005):
Estudio sobre asociaciones entre
caractersticas fsicas del suelo de
Gana y el uso de ste: agrcola,
cultivo forestal, vegetacin natural...

Teledeteccin (2005):
Estudio de relaciones entre v.
espectrales y nodos y entre v.
temporales y la longitudes de
onda fijas.

También podría gustarte