Está en la página 1de 48

Introduccin a las tcnicas de Anlisis Multivariante

Fco. Javier Burguillo Universidad de Salamanca

VI curso de Anlisis de Datos (30 Marzo de 2009)

Anlisis multivariante

Anlisis multivariante
Objetivo: estudio de varias variables simultneamente:
X1
Objeto 1 12 Objeto 2 24 Objeto 3 100 ...... ....

X2
34 36 5 ...

X3
126 32 240 ...

X4
0.1 0.5 0.4 ...

X5
0.7 0.3 0.2 ...

Mtodos con variable dependiente Hay una variable que depende de otras que se miden como independientes o predictoras.Tienen un inters predictivo. Mtodos con slo variables independientes No se distingue entre variables dependientes e independientes. Tienen un inters descriptivo en el sentido de clasificar objetos en funcin de las variables.
VI curso de Anlisis de Datos (30 Marzo de 2009) Anlisis multivariante

Mtodos con variable dependiente


y
Objeto 1 Objeto 2 Objeto 3 ...... 12 24 100 ....

X1
34 36 5 ...

X2
126 32 240 ...

X2
0.1 0.5 0.4 ...

X4
0.7 0.3 0.2 ...

Regresin lineal mltiple Regresin lineal generalizada Regresin logstica binaria Regresin logit

VI curso de Anlisis de Datos (30 Marzo de 2009)

Anlisis multivariante

Mtodos con slo variables independientes


a) No se conocen los grupos de los objetos
X1
Objeto 1 Objeto 2 Objeto 3 ...... 12 24 100 ....

X2
34 36 5 ...

X3
126 32 240 ...

X4
0.1 0.5 0.4 ...

X5
0.7 0.3 0.2 ...

Anlisis de clusters

Jerrquicos K-medias

Anlisis de componentes principales

Mtodos biplot

b) S que se conocen los grupos de los objetos


Grupo
Objeto 1 Objeto 2 Objeto 3 Objeto 4 1 1 2 2

X2
34 36 5 23

X3

X4

X5
0.7 0.3 0.2 0.3

MANOVA Anlisis en variables cannicas Anlisis discriminante

126 0.1 32 0.5 240 0.4 45 37

VI curso de Anlisis de Datos (30 Marzo de 2009)

Anlisis multivariante

Regresin lineal mltiple por mnimos cuadrados


La regresin lineal simple
Slo una variable independiente : por ejemplo lnea recta y = C + Bx

Ahora: la regresin lineal mltiple


Ms de una variable independiente : y = C + B1x1 + B2 x 2 + B3 x 3
Tratamiento matemtico anlogo a regresin lineal simple. Se puede explicitar cada parmetro, solucin nica, mtodo exacto

SSQ = (y i ( a + bx i )) 2 (SSQ) = .......... ..... = 0 a = ......... a (SSQ) = .......... ..... = 0 b = .......... b


Se puede explicitar cada parmetro, solucin nica, mtodo exacto

VI curso de Anlisis de Datos (30 Marzo de 2009)

Anlisis multivariante

Ejemplo de regresin lineal mltiple

La aplicacin importante es estimar Masa tumoral para un caso nuevo


VI curso de Anlisis de Datos (30 Marzo de 2009) Anlisis multivariante

Regresin logstica binaria


y(i) 1=vivo 0=muerto variables: X1 , X2 , X3 ,...... p(1) = probabilidad de que y = 1

p(1) log = L = a 0 + a1 X 1 + a 2 X 2 + a1 X 3..... 1 p(1)


La aplicacin importante es estimar p(1) para un caso nuevo:

1 p(1) = 1 + eL
VI curso de Anlisis de Datos (30 Marzo de 2009)

(ej: p(1) = 0.73 de sobrevivir)

Anlisis multivariante

Anlisis de clusters
X1
Objeto 1 12 Objeto 2 24 Objeto 3 100 ...... .... Objeto n 27 Dada una serie de n objetos y m variables X1, X2,, Xm, el propsito es clasificar los objetos en grupos (clusters) segn la similitud (menor distancias) entre ellos:

X2
34 36 5 ... 77

X3
126 32 240 ... 54 ... ... ... ... ...

Xm
0.7 0.3 0.2 ... 0.8

Aglomerativos o divisivos
Procedimientos:

Jerrquicos Supervisados (k-medias)

VI curso de Anlisis de Datos (30 Marzo de 2009)

Anlisis multivariante

Anlisis jerrquico de clusters (Ejemplo)


Anlisis de 20 pacientes
Los 20 pacientes se agrupan (dendrograma) X1
Paciente 1 Objeto 2 Objeto 3 ...... 12 24 10 ....

X2
34 36 5 ...

X3
126 32 240 ...

.
0.7 0.3 0.2 ... 4 grupos

Transformar variables?
Sin transformar Mtrica distancia entre objetos

d
d

ij

= xik x jk
k =1

CML

ALL

AML

RCML

Algoritmo de unin de clusters


i , jk

= min d ij , d ik

VI curso de Anlisis de Datos (30 Marzo de 2009)

Anlisis multivariante

Etapas de un anlisis jerrquico de clusters


(variables cuantitativas)

1) Estandarizar las variables si fuera necesario. 2) Elegir una medida de distancia entre objetos. 3) Elegir un algoritmo para unir (fusionar) grupos. 4) Decidir el nmero final de clusters e interpretarlos.

VI curso de Anlisis de Datos (30 Marzo de 2009)

Anlisis multivariante

1) Transformacin de variables para uniformar sus escalas


(slo variables cuantitativas)

1) No transformar si las variables estn medidas en las mismas unidades. 2) Normalizar variables a media = 0 y desviacin estndar = 1: xx

x=

1) Aplicar raz cuadrada a las variables. 2) Hacer el logaritmo de las variables.

VI curso de Anlisis de Datos (30 Marzo de 2009)

Anlisis multivariante

2a) Elegir una medida de distancia entre objetos


Distancia ciudad (city block):
Dij = xik x jk
k =1 m

xi 2
x j2

2 variables (plano)

xi1

x j1
2 variables (plano)

Distancia Euclidia :
Dij = (xik x jk )
m k =1

1/ 2

Distancia Euclidia al cuadrado. Disimilaridad de Bray-Curtis (en %).


Anlisis multivariante

VI curso de Anlisis de Datos (30 Marzo de 2009)

2b) Calcular la matriz de distancias


X1
Objeto 1 12 Objeto 2 24 Objeto 3 100 ...... .... Objeto 5 27

X2
34 36 5 ... 77

X3
126 32 240 ... 54

X4
... ... ... ... ...

X5
0.7 0.3 0.2 ... 0.8

Objeto

1 2 6 9

2 3 4 5

0 d12 d 21 0 d d 32 31 d 41 d 42 d 51 d 52

d13

d14

d 23 d 24 0 d 34 d 43 0 d 53 d 54

d15 d 25 d 35 d 45 0

1 2 3 4 5 5 8 5 3

10 9 4

Matriz de distancias
VI curso de Anlisis de Datos (30 Marzo de 2009)

Matriz de distancias
Anlisis multivariante

3) Algoritmos de unin (fusin) de clusters


El primer cluster consiste en n clusters de 1 objeto cada uno, el algoritmo los va fusionando por pasos hasta llegar a un ltimo cluster que contiene los n objetos. Qu criterio se sigue para ir fusionando los clusters?

Por centroides
Cluster 1

Vecino ms prximo (single link)


Cluster 2

Cluster 3

Vecino ms lejano (complete link)


VI curso de Anlisis de Datos (30 Marzo de 2009) Anlisis multivariante

Ejemplo del algoritmo vecino ms prximo


Matriz distancias Objeto 1 2 3 4 5 2 6 9 5 4 5 3 8 10 9 1 2 3 4 5 Dendrograma (rbol)

Distancia 0 2 3 4 5

Cluster 1,2,3,4,5 (1, 2), 3, 4, 5 (1, 2), 3, (4, 5) (1, 2), (3, 4, 5) (1, 2, 3, 4, 5)
Anlisis multivariante

Distancia entre 4 y 5 (rama)

VI curso de Anlisis de Datos (30 Marzo de 2009)

Algoritmos de unin (fusin) de clusters (cont.)


Mtodo del promedio del grupo
Cluster A Cluster B

1 2 6 7 8

3 4 5

DAB =

D13 + D14 + D15 + D23 + D24 + D25 6

Y anlogamente:

DAC =
Cluster C

D16 + D17 + D18 + D26 + D27 + D28 6

etc

VI curso de Anlisis de Datos (30 Marzo de 2009)

Anlisis multivariante

Ejemplo del algoritmo promedio de grupo


Objeto 1 2 3 4 5 2 6 5 10 9 4 9 8 5 3 Distance matrix 1 2 3 4 5 Dendrograma (rbol)

Distancia Cluster 0 2 3 4.5 7.8 1,2,3,4,5 (1, 2), 3, 4, 5 (1, 2), 3, (4, 5) (1, 2), (3, 4, 5) (1, 2, 3, 4, 5)
Anlisis multivariante

VI curso de Anlisis de Datos (30 Marzo de 2009)

Por donde cortar el dendrograma? o el problema del nmero de grupos


Anlisis de 20 pacientes
X1
Paciente 1 Paciente 2 Paciente 3 ...... 12 24 10 ....

Los 20 pacientes se agrupan (dendrograma)

X2
34 36 5 ...

X3
126 32 240 ...

.
0.7 0.3 0.2 ... 3 grupos 4 grupos 2 grupos

Transformar variables?
Sin transformar
Mtrica distancia entre objetos

dis tan cia ciudad


Algoritmo de unin de clusters

CML

ALL

AML

RCML

vecino ms prximo
VI curso de Anlisis de Datos (30 Marzo de 2009) Anlisis multivariante

Ojo: el dendrograma depende de la transformacin de los datos, tipo de distancia y algoritmo elegidos
Sin transformar, distancia euclidia, vecino ms prximo Estandarizados, distancia euclidia, vecino ms prximo

Estandarizados, distancia ciudad, promedio de grupo

VI curso de Anlisis de Datos (30 Marzo de 2009)

Anlisis multivariante

Anlisis de clusters por K medias (ejemplo)


Es un anlisis de clusters de tipo supervisado (no jerrquico). El nmero de clusters que se desea tiene que decidirse a priori.

Anlisis de 20 pacientes
Caso
1 2 3 ......

Anlisis con 3 clusters


X5
0.7 0.3 0.2 ... AML CML ALL

X1
12 24 100 ....

X2
34 36 5 ...

X3
126 32 240 ...

X4
0.1 0.5 0.4 ...

Se deciden k centroides (3 por ej.)


centroide X1
1 2 3 12 24 100

X2 X3
34 36 5 32

X4
0.5

X5
0.7 0.3 0.2
Anlisis multivariante

126 0.1

240 0.4

VI curso de Anlisis de Datos (30 Marzo de 2009)

Fundamento de Clusters por K-medias


1) Imaginemos n objetos a clasificar en base a m variables

2) Elegimos un procedimiento para decidir las estimas iniciales de los k centroides (semillas): El investigador elige los k centroides.
Seleccionar k objetos al azar k primeros objetos

Semilla 1

Semilla 2 Semilla 3

3) Elegir un algoritmo para reasignar los objetos a los clusters hasta alcanzar un criterio de convergencia.

VI curso de Anlisis de Datos (30 Marzo de 2009)

Anlisis multivariante

Anlisis por Componentes Principales (Ejemplo)


15 variables autoperimetra laser (campo visual)
3-4 componentes principales

162 pacientes

Caso
1 2 3 4 ...... 162

X1
12

X2 X3
34 34

X4
34

X5
34

X5
34

X3 .... X15
126 ...

Caso
1 2 3 4 ..... 162

CP1 CP2 CP3


12 34 34

Reducir las 15 variables


24 36 36 36 36 36 32 ...

24

36

36

.. .. .. .. .. .. ....
CP1 = a 11 X 1 + a 12 X 2 + ... + a 1 m X m CP2 = a 21 X 1 + a 22 X 2 + ... + a 2 m X m
.......... .......... .......... .......... .......... .......... .......... .......... .......... .......... .......... .......... ...

..

..

..

CPm = a m 1 X 1 + a m 2 X 2 + ... + a mm X m
- Estas CPi explicarn la mayor variabilidad de las variables originales - Las CPi presentan incorrelacin entre ellas
VI curso de Anlisis de Datos (30 Marzo de 2009) Anlisis multivariante

Extraccin de las componentes principales


Transformacin = Untransformed Tipo de matriz = Correlation matrix Tipo de puntuacin = Standardised scores

CP1
Eigenvalores Proporcin Acumulativa CP1 6.833E+00 0.4555 0.4555 CP2 3.724E+00 0.2483 0.7038 CP3 2.321E+00 0.1548 0.8586 CP4 1.055E+00 0.0703 0.9289 CP5 5.849E-01 0.0390 0.9679 CP6 2.691E-01 0.0179 0.9858 CP7 1.968E-01 0.0131 0.9989 CP8 7.668E-03 0.0005 0.9995 CP9 4.829E-03 0.0003 0.9998 CP10 3.070E-03 0.0002 1.0000 CP11 2.153E-04 0.0000 1.0000 CP12 6.593E-05 0.0000 1.0000 CP13 3.677E-06 0.0000 1.0000 CP14 1.308E-06 0.0000 1.0000 CP15 2.115E-07 0.0000 1.0000

CP2 CP3 CP4

Se extraen 4 componentes: CP1, CP2, CP3 y CP4

VI curso de Anlisis de Datos (30 Marzo de 2009)

Anlisis multivariante

Contribucin de las variables originales a CP1 y CP2

Las 15 variables originales

VI curso de Anlisis de Datos (30 Marzo de 2009)

Anlisis multivariante

Representacin de los casos bajo CP1 y CP2 (puntuaciones o scores en CP1 y CP2)
Los 162 pacientes

VI curso de Anlisis de Datos (30 Marzo de 2009)

Anlisis multivariante

Representacin Biplot: Cmo surge?


Imaginemos 2 variables medidas sobre n sujetos, se pueden representar a la vez variables y sujetos? :

X1
Sujeto 1 Sujeto 2 Sujeto 3 ...... 12 24 10 ....

X2
34 36 5 ...

X2 (Peso)
25

21 12 2 22 16

38 29 33

27

Si
5 9

7 5

X1 (Talla)

VI curso de Anlisis de Datos (30 Marzo de 2009)

Anlisis multivariante

Cmo generalizarlo?: La representacin Biplot


Cmo representar simultneamente m variables y n sujetos?
X1 X2
Sujeto 1 12 Sujeto 2 24 Sujeto 3 10 ...... .... 34 36 5 ... ...

X3
126 32 240 ... ...

Xm

1) No es posible representar, tal cual estn, ms de 3 variables (3D). 2) Se recurre a extraer la informacin mediante 2 o 3 componentes o ejes ficticios (Biplot 2D o 3D), obtenidos por descomposicin de la matriz original en valores singulares (SVD).
Var 1 Sujeto 4 Sujeto 6 Var 5 Sujeto 2 Var 4 Var 3 Sujeto 1 Var 2 Sujeto 5

0.7 0.3 0.2 ... ...

Sujeto n ....

Sujeto 3

VI curso de Anlisis de Datos (30 Marzo de 2009)

Anlisis multivariante

Representacin Biplot (Interpretacin)


A partir del grfico Biplot se puede reconocer:
La variabilidad en las variables (desviacin
Var 1 Sujeto 4 Sujeto 6 Var 5 Sujeto 2 Var 4 Sujeto 5 Sujeto 1 Var 2

estndar), ya que a mayor longitud del vector mayor error en la variable.

La correlacin entre variables, ya que 2


vectores formando ngulo pequeo se interpretan como variables bien correlacionadas. Vectores perpendiculares se refieren a variables con correlacin nula y vectores contrarios a variables correlacionadas negativamente.

Sujeto 3

Var 3

Agrupaciones de casos: casos prximos


tiene valores parecidos de las variables.

VI curso de Anlisis de Datos (30 Marzo de 2009)

Anlisis multivariante

Ejemplo: Biplot para variedades de lirios


Fisher estudi 150 muestras de lirios del campo y a todos les medi la longitud y la anchura del spalo y la longitud y anchura del ptalo.

VI curso de Anlisis de Datos (30 Marzo de 2009)

Anlisis multivariante

Biplot para los datos de lirios de Fisher

VI curso de Anlisis de Datos (30 Marzo de 2009)

Anlisis multivariante

Biplot (fundamento matemtico)


1) Se tiene una matriz X de n filas por m columnas:
... ... ... ... X = ... ... ... ... ... ... ... ...

2) Se hace una descomposicin en valores singulares (SVD): T

X = UV

3) Nos quedamos con la aproximacin dada por los 2 primeros valores singulares:

4) Esta aproximacin se puede escribir de 3 formas:


Biplot simtrico

Biplot con nfasis en filas

Biplot con nfasis en columnas

VI curso de Anlisis de Datos (30 Marzo de 2009)

Anlisis multivariante

Mtodos con slo variables independientes


( b. Cuando se conocen los grupos de los objetos)
Objetivo: Estudiar las diferencias entre grupos y predecir el grupo de nuevas muestras.

Grupo
Objeto 1 Objeto 2 Objeto 3 Objeto 4 1 1 2 2

X2
34 36 5 23

X3

X4

X5
0.7 0.3 0.2 0.3

MANOVA Anlisis en variables cannicas Anlisis discriminante

126 0.1 32 0.5 240 0.4 45 37

VI curso de Anlisis de Datos (30 Marzo de 2009)

Anlisis multivariante

MANOVA (ANOVA de varias variables)


Imaginemos que se miden 4 variables en 3 grupos:
H0 : No hay diferencia entre los vectores de medias de las 4 variables en los 3 grupos:

Grupo
Objeto 1 Objeto 2 Objeto 3 Objeto 4 Objeto 5 Objeto 6 Objeto 7 Objeto 8 Objeto 9 Grupo 1 Grupo 1 Grupo 1 Grupo 2 Grupo 2 Grupo 2 Grupo 3 Grupo 3 Grupo 3

X1 X2
34 36 52 21 16 15 23 23 22

X3

X4
0.7 0.3 0.2 39 18 33 13 26 32

126 0.1 32 0.5 24 25 12 25 25 21 67 0.4 34 15 29 29 25 24

x11 x21 x 31

x12 x22 x32

x13 x23 x33

x14 x24 x34

H1 : al menos hay 2 vectores de medias que difieren significativamente de un grupo a otro.

VI curso de Anlisis de Datos (30 Marzo de 2009)

Anlisis multivariante

MANOVA (Ejemplo: datos de lirios de Fisher )

GROUP 1 GROUP 2 GROUP 3 POOLED MEAN

VARIABLE 1 5.00600E+00 5.93600E+00 6.58800E+00 5.84333E+00

VARIABLE 2 3.42800E+00 2.77000E+00 2.97400E+00 3.05733E+00

VARIABLE 3 1.46200E+00 4.26000E+00 5.55200E+00 3.75800E+00

VARIABLE 4 2.46000E-01 1.32600E+00 2.02600E+00 1.19933E+00

Hay diferencias entre estos vectores de medias?

VI curso de Anlisis de Datos (30 Marzo de 2009)

Anlisis multivariante

MANOVA (datos de lirios de Fisher (cont.) )


GROUP 1 GROUP 2 GROUP 3 POOLED MEAN VARIABLE 1 5.00600E+00 5.93600E+00 6.58800E+00 5.84333E+00 VARIABLE 2 3.42800E+00 2.77000E+00 2.97400E+00 3.05733E+00 VARIABLE 3 1.46200E+00 4.26000E+00 5.55200E+00 3.75800E+00 VARIABLE 4 2.46000E-01 1.32600E+00 2.02600E+00 1.19933E+00

Hay diferencias entre estos vectores de medias?

Para decidirlo se hacen diferentes tests estadsticos:


Statistic Wilks lambda Roys largest root Lawley-Hotelling T Pillais trace Value 2.344E-02 3.219E+01 3.248E+01 1.192E+00 Transform deg.free. 4.149E+00 8 288 5.846E+02 8 144 p 0.0001 0.0000 Reject H0 Reject H0

Como p < 0.01 se concluye que al menos 2 vectores de medias si difieren

VI curso de Anlisis de Datos (30 Marzo de 2009)

Anlisis multivariante

MANOVA: Hay igualdad de perfiles?

MANOVA H0: selected Hotelling T^2 = Test statistic S = Numerator DOF = Denominator DOF = P(F >= S) =

group profiles are equal 2.031E+03 6.632E+02 3 96 0.0000 Reject H0 at 1% sig.level


Anlisis multivariante

VI curso de Anlisis de Datos (30 Marzo de 2009)

Anlisis por variables cannicas


Grupo Imaginemos:
Se han medido varias variables en diferentes objetos de 2 grupos. Objeto 1 Objeto 2 . Objeto 3 Objeto 4 . 1 1 . 2 2 .

X1
34 36 . 5 23 .

X2
126 32 . 240 45 .

X3
0.1 0.5 . 0.4 37 .

X4
0.7 0.3 . 0.2 0.3 .

Objetivos: Para discriminar entre los grupos todo


lo posible se busca una combinacin lineal de las variables que maximice la la relacin de la variabilidad entre grupos respecto a la variabilidad intra grupos.

Esquema para 2 variables:

x1
x12 x22
Direccin de mxima separacin

Y1 = a11 X 1 + a12 X 2
x11 x21

x2

VI curso de Anlisis de Datos (30 Marzo de 2009)

Anlisis multivariante

Anlisis por variables cannicas (Ejemplo: Lirios de Fisher)


Grupo variables 1 5.1 3.5 1.4 0.2 1 4.9 3.0 1.4 0.2 1 4.7 3.2 1.3 0.2 ..................... 2 7.0 3.2 4.7 1.4 2 6.4 3.2 4.5 1.5 2 6.9 3.1 4.9 1.5 ..................... 3 6.3 3.3 6.0 2.5 3 5.8 2.7 5.1 1.9 3 7.1 3.0 5.9 2.1 Muestras a asignar ? 4.6 3.6 1.0 0.2 ? 5.9 3.2 4.8 1.8 ? 6.2 3.4 5.4 2.3

VI curso de Anlisis de Datos (30 Marzo de 2009)

Anlisis multivariante

Anlisis por variables cannicas (Fundamento matemtico)


CV1 = a11 X 1 + a12 X 2 + a13 X 3 + a14 X 4 CV2 = a21 X 1 + a22 X 2 + a23 X 3 + a24 X 4
Correlations Eigenvalues 0.9848 32.1919 0.4712 0.2854 Canonical variate means -7.608E+00 2.151E-01 1.825E+00 -7.279E-01 5.783E+00 5.128E-01 Canonical coefficients -8.294E-01 2.410E-02 -1.534E+00 2.165E+00 2.201E+00 -9.319E-01 2.810E+00 2.839E+00 Proportions 0.9912 0.0088 Chi-sq. 546.1153 36.5297 NDOF p 8 0.0000 3 0.0000

CV1

CV2
Anlisis multivariante

VI curso de Anlisis de Datos (30 Marzo de 2009)

Asignacin de objetos a grupos por Anlisis Discriminante


Grupo variables 1 5.1 3.5 1.4 0.2 1 4.9 3.0 1.4 0.2 1 4.7 3.2 1.3 0.2 ..................... 2 7.0 3.2 4.7 1.4 2 6.4 3.2 4.5 1.5 2 6.9 3.1 4.9 1.5 ..................... 3 6.3 3.3 6.0 2.5 3 5.8 2.7 5.1 1.9 3 7.1 3.0 5.9 2.1 Muestras a asignar y ? 4.6 3.6 1.0 0.21 = a11x1 ? 5.9 3.2 4.8 1.8 ? 6.2 3.4 5.4 2.3

+ + a1p x p + a10

y m = a m1x1 + + a mp x p + a m0
VI curso de Anlisis de Datos (30 Marzo de 2009) Anlisis multivariante

Asignacin de objetos a grupos por Anlisis Discriminante (ej: Lirios de Fisher) Serie de entrenamiento
Grupo LongSep AnchSep LongPet AnchPet 1 5.1 3.5 1.4 0.2 1 4.9 3.0 1.4 0.2 1 4.7 3.2 1.3 0.2 --------------------------------------------------------------2 7.0 3.2 4.7 1.4 2 6.4 3.2 4.5 1.5 2 6.9 3.1 4.9 1.5 -------------------------------------------------------------3 6.3 3.3 6.0 2.5 3 5.8 2.7 5.1 1.9 3 7.1 3.0 5.9 2.1 Distancias de Mahalanobis entre grupos

Distancias de Mahalanobis muestras- grupos

Muestras a asignar a grupos


Muestra 1 Muestra 2 Muestra 3

4.6 5.9 6.2

3.6 3.2 3.4

1.0 4.8 5.4

0.2 1.8 2.3 Anlisis multivariante

VI curso de Anlisis de Datos (30 Marzo de 2009)

Aplicacin del Anlisis multivariante en las investigaciones con Chips de ADN

VI curso de Anlisis de Datos (30 Marzo de 2009)

Anlisis multivariante

VI curso de Anlisis de Datos (30 Marzo de 2009)

Anlisis multivariante

Los 10 Genes principales asociados a la respuesta a Imatinib


Usando la prueba t de student

#genename
R06581 H13205 AA088678 AA126760 R08434 A101777 AI023731 AA456314 T95268 AA775957

t-statistic
-3.789523125 -3.342012644 -3.105088949 2.934455395 -2.872010231 -2.790141583 -2.698203802 2.660455942 -2.629109144 2.592031002

pvalue
0.00067859 0.002239682 0.004130574 0.006351529 0.007416606 0.009068974 0.011333359 0.012407669 0.013371006 0.014599937

VI curso de Anlisis de Datos (30 Marzo de 2009)

Anlisis multivariante

Exploracin de datos en la serie de entrenamiento (32 pacientes y 10 genes predictores)

VI curso de Anlisis de Datos (30 Marzo de 2009)

Anlisis multivariante

Cluster jerrquico de los 32 pacientes

VI curso de Anlisis de Datos (30 Marzo de 2009)

Anlisis multivariante

Componentes principales

VI curso de Anlisis de Datos (30 Marzo de 2009)

Anlisis multivariante

ANALISIS DISCRIMINANTE
Distancia de Mahalanobis al cuadrado

VI curso de Anlisis de Datos (30 Marzo de 2009)

Anlisis multivariante