Está en la página 1de 61

Aplicación de técnicas

multivariadas en la investigación

Prof. (Dr.) Mónica Cadenazzi


UPAGU - UDELAR 2019 Prof. (Dr.) Monica Cadenazzi Universidad de la Republica, Uruguay
Esquema de la presentación

1. Porque análisis multivariado?


2. Resúmenes multivariados: Medidas de similaridad y
distancia
3. Conglomerados o “Cluster”: que ganamos con ellos?
4. ACP y ACoP
5. Otros métodos

UPAGU- UDELAR 2019 Prof. (Dr.) Monica Cadenazzi


1. Porque análisis multivariado?

 Generalmente en todas las investigaciones se miden mas de una


variable en la misma unidad experimental o unidad de muestreo.

 Muchas veces, el análisis univariado solo muestra algunas


asociaciones por ejemplo entre una variable y los tratamientos,
incluso pudiendo llevar a resultados contradictorios o difíciles de
interpretar.

 Estas condiciones pueden ser mejor abordadas usando técnicas


multivariadas.
UPAGU- UDELAR 2019 Prof. (Dr.) Monica Cadenazzi
Matriz básica de datos

 En la primer columna están los Individuos medidos en un muestreo o las Unidades


Experimentales presentes en un Diseño Experimental.

 En las columnas siguientes están las variables medidas. UPAGU- UDELAR 2019 Prof. (Dr.) Monica Cadenazzi
Matriz básica de datos
 En un enfoque univariado, realizaríamos una ANAVA y si
fuera necesario CONTRASTES para cada variable,
considerando los tratamientos o los grupos de individuos si
los hay (por edad, profesión, etc) para cada variable.

 Es imprescindible tener una variable de clasificación


(tratamientos o grupos)

 Luego, reuniriamos la informacion y se discutiria el resultado


en general. UPAGU- UDELAR 2019 Prof. (Dr.) Monica Cadenazzi
Gráficos varios

UPAGU- UDELAR 2019 Prof. (Dr.) Monica Cadenazzi


Matriz básica de datos
 Pero que hacemos si no tenemos tratamientos o grupos, sino
que salimos a buscar patrones de relación entre variables?

 Esto es muy común en áreas como psicología, medicina,


ecología, análisis sensoriales, estudios de mercados,
estudios basados en encuestas…

 Queremos encontrar relaciones entre variables aleatorias


observadas en cada individuo o unidad. (Ejemplos psicología)
UPAGU- UDELAR 2019 Prof. (Dr.) Monica Cadenazzi
Matriz básica de datos
 En esos casos, la pregunta que se quiere contestar es si
existen patrones de asociación detectables o no entre los
individuos o unidades experimentales.

UPAGU- UDELAR 2019 Prof. (Dr.) Monica Cadenazzi


1. Porque análisis multivariado?
 El análisis multivariado mas sencillo es el bivariado, donde se
puede representar el comportamiento de ambas variables en
un plano.

UPAGU- UDELAR 2019 Prof. (Dr.) Monica Cadenazzi


1. Porque análisis multivariado?
 Y si se miden 3 variables simultáneamente?

UPAGU- UDELAR 2019 Prof. (Dr.) Monica Cadenazzi


1. Porque análisis multivariado?
 Y si medimos 4 o mas variables simultáneamente en cada
unidad?

 Aquí la representación grafica conjunta es compleja, ya que


estamos en una 4ta dimensión…por lo menos…

UPAGU- UDELAR 2019 Prof. (Dr.) Monica Cadenazzi


1. Porque análisis multivariado?
 El análisis multivariado considera varias variables aleatorias medidas
sobre una misma unidad experimental o unidad de muestreo u
observación de forma simultanea.
 No se determina una variable de respuesta, sino que se estudian las
relaciones entre todas las variables conjuntamente.
 Estas variables medidas pueden estar correlacionadas o no entre si.
 Al inicio del análisis se consideran todas estas variables igualmente
importantes, determinándose luego cuales son las que aportan mas al
estudio especifico que estamos realizando.
UPAGU- UDELAR 2019 Prof. (Dr.) Monica Cadenazzi
1. Porque análisis multivariado?
El objetivo del análisis multivariado es reducir
la dimensionalidad en el análisis,
considerando las variables que mas aportan a
la descripción del fenómeno a estudiar,
encontrando grupos de unidades semejantes.
UPAGU- UDELAR 2019 Prof. (Dr.) Monica Cadenazzi
1. Porque análisis multivariado?
Estas técnicas son usadas para :

 Trabajar en estados iniciales de las investigaciones donde hay


muchas variables y resumir información disminuyendo la
dimensionalidad.

 Detectar las variables correlacionadas y elegir aquellas que siendo


independientes representen mas en la investigación.

 También son usadas para elegir los “inputs” de modelos generadores


de nuevas hipótesis de trabajo. UPAGU- UDELAR 2019 Prof. (Dr.) Monica Cadenazzi
1. Porque análisis multivariado?
 En muestreos de vegetación, se realizan relevamientos de
unidades de muestreo (u.m.).
 Estas pueden ser superficies o transectas.

 En cada u.m. se registran las especies presentes y sus


características.
 También pueden ser registradas las características del
“ambiente” de dicha u.m.
 Se registran las condiciones de “ tratamientos” a las que
pudieron ser sometidas.
UPAGU- UDELAR 2019 Prof. (Dr.) Monica Cadenazzi
1. Porque AM? Ejemplo 1
 Porque hacemos este tipo de muestreo?
 Porque queremos describir y comparar las “vegetaciones” o
“condiciones”.
 Para describir el grupo de especies mas importantes.

 Para comprobar la relación entre “ambiente” y “vegetación”.

 Para comprobar la existencia o no de un “gradiente


vegetacional”.
 Para comprobar si la aplicación de un tratamiento modifica
una vegetación … entre otros objetivos.
UPAGU - UDELAR 2019 Pof. (Dr) Monica Cadenazzi
1. Porque AM? Ejemplo 1

UPAGU - UDELAR 2019 Pof. (Dr) Monica Cadenazzi


Resumen de los pasos de decisión
Matriz de datos de 6 Matriz de distancia Dendrograma con
sitios con 3 especies Euclidiana WARD y con corte al
50% de la distancia
Ward
Euclidea Distancia: (Euclidea)

s1 s2 s3 s4 s5 s6 s6

s3
s1 0
s5

s2 37,42 0 s2

s3 61,64 50,99 0 s4

s1
s4 24,49 28,28 37,42 0

0,00 26,45 52,90 79,34 105,79


s5 64,81 28,28 50,99 48,99 0

s6 70,71 73,48 28,28 50,99 78,74 0

UPAGU - UDELAR 2019 Pof. (Dr) Monica Cadenazzi


1. Porque AM? Ejemplo 1

 Las variables pueden tener UNIDADES iguales o diferentes y VARIACIONES


parecidas o no (variancias homogéneas o no)

 Por ej. en composición botánica, pueden ser diferentes “porcentajes de


cobertura”, o “numero de plantas germinadas”

 En ambientes pueden ser: temp (ºC); pp (mm); N (ppm)

 1er Problema a resolver: unificar unidades y estandarizar variables

UPAGU - UDELAR 2019 Pof. (Dr) Monica Cadenazzi


1. Porque AM? Ejemplo 1
Generalmente la estandarización
se hace para cada variable
restándole a cada observación
la media o la mediana y
dividiéndola entre el desvió estándar
o el rango

UPAGU - UDELAR 2019 Pof. (Dr) Monica Cadenazzi


UPAGU - UDELAR 2019 Pof. (Dr) Monica Cadenazzi
1. Porque AM? Ejemplo 1
 Basados en los datos estandarizados de las variables, tenemos
que encontrar aquellas unidades o individuos que son mas
parecidos entre si a través de todas las variables medidas.

 Para eso, utilizamos medidas que las comparan y resumen el


parecido.

 Son las medidas de similitud o distancia entre unidades.

UPAGU - UDELAR 2019 Pof. (Dr) Monica Cadenazzi


2. Medidas de similaridad y distancia

 Para reducir la dimensionalidad, utilizamos índices o medidas


de similaridad o distancia.

 Las medidas a usar dependerán del tipo de variable relevada


y de la distribución de las mismas.

 Las medidas de similariad miden cuan parecidas son las


unidades en todas las variables y las de distancia, cuan
diferentes son en todas las variables.
UPAGU - UDELAR 2019 Pof. (Dr) Monica Cadenazzi
2. Medidas de distancia

Ejemplo de composiciones botánicas


en 6 unidades de muestreo

6 u.m. (Filas: A1 a A6)

3 sp (Columnas: Sp1 a Sp3)

Variable: % de cobertura

UPAGU - UDELAR 2019 Pof. (Dr) Monica Cadenazzi


2. Medidas de distancia
 Medidas de distancia
 Miden la diferencia (o distancia) entre todos los individuos o
unidades de muestreo (u.a) tomados de a 2, en todas las
variables observadas
 Generan una matriz de distancias, de la magnitud de las
unidades observadas, simétricas y con diagonal cero.
 Dependen del tipo de variables observadas

UPAGU - UDELAR 2019 Pof. (Dr) Monica Cadenazzi


2. Medidas de distancia

UPAGU - UDELAR 2019 Pof. (Dr) Monica Cadenazzi


2. Medidas de distancia: distancia Euclidiana

UPAGU - UDELAR 2019 Pof. (Dr) Monica Cadenazzi


2. Medidas de distancia: distancia Euclidiana

UPAGU - UDELAR 2019 Pof. (Dr) Monica Cadenazzi


2. Medidas de distancia: Euclidiana

UPAGU - UDELAR 2019 Pof. (Dr) Monica Cadenazzi


2. Medidas de distancia: Minkowski

UPAGU - UDELAR 2019 Pof. (Dr) Monica Cadenazzi


2. Distancias para variables binarias (0-1)

UPAGU - UDELAR 2019 Pof. (Dr) Monica Cadenazzi


2. Distancias para variables binarias (0-1)

UPAGU - UDELAR 2019 Pof. (Dr) Monica Cadenazzi


2. Distancias para mezclas de variables

UPAGU - UDELAR 2019 Pof. (Dr) Monica Cadenazzi


Conglomerados o “Cluster”: que
ganamos con ellos?

UPAGU - UDELAR 2019 Pof. (Dr) Monica Cadenazzi


3. Conglomerados

 Es la técnica mas simple de análisis multivariado.

 La usaremos para ilustrar los principios básicos de


este tipo de análisis.

 Une “elementos similares” si existen y forma grupos


con ellos

UPAGU - UDELAR 2019 Pof. (Dr) Monica Cadenazzi


3. Conglomerados

UPAGU - UDELAR 2019 Pof. (Dr) Monica Cadenazzi


Conglomerados

UPAGU - UDELAR 2019 Pof. (Dr) Monica Cadenazzi


Conglomerados

UPAGU - UDELAR 2019 Pof. (Dr) Monica Cadenazzi


Conglomerados

UPAGU - UDELAR 2019 Pof. (Dr) Monica Cadenazzi


Conglomerados

UPAGU - UDELAR 2019 Pof. (Dr) Monica Cadenazzi


Conglomerados

UPAGU - UDELAR 2019 Pof. (Dr) Monica Cadenazzi


Conglomerados

UPAGU - UDELAR 2019 Pof. (Dr) Monica Cadenazzi


Conglomerados

UPAGU - UDELAR 2019 Pof. (Dr) Monica Cadenazzi


Métodos de aglomeracion

UPAGU - UDELAR 2019 Pof. (Dr) Monica Cadenazzi


Ejemplo 2
 Un ejemplo clásico de Conglomerados es el que desarrollo
R. Fisher en 1936.
 Consistió en medir 4 variables un total de 150 plantas de
Iris, para realizar la taxonomía numérica de dichas plantas.
 Para ello, colecto 50 plantas de cada variedad de Iris, (I.
versicolor, I. virginica e Iris setosa).
 Luego, basándose solamente en los valores de las
variables medidas, realizo un análisis multivariado de
conglomerados.
UPAGU - UDELAR 2019 Pof. (Dr) Monica Cadenazzi
Iris versicolor Iris virginica Iris setosa

UPAGU - UDELAR 2019 Pof. (Dr) Monica Cadenazzi


UPAGU - UDELAR 2019 Pof. (Dr) Monica Cadenazzi
Verificación de grupos formados
Analizamos los datos en Infostat
Ward
Distancia: (Euclidea)

Virginica

Versicolor

Setosa

0,00 1,03 2,05 3,08 4,11

Es muy rápido pero debemos verificar de alguna forma los


grupos formados UPAGU - UDELAR 2019 Pof. (Dr) Monica Cadenazzi
Verificación de grupos formados

La bibliografía sugiere tres métodos:

1.Pseudo F
2.Validación
3.Uso de diferentes medidas y estudio de la
consistencia de los grupos

UPAGU - UDELAR 2019 Pof. (Dr) Monica Cadenazzi


Como resumen:
Puntos a tener en cuenta en la técnica de conglomerados

1. Tener una muy buena base de datos


2. Calcular la medida de distancia que conteste mejor las
preguntas de la investigación
3. Elegir una medida de aglomeración
4. Construir el dendrograma y detectar los posibles grupos de
unidades
5. Validar los grupos obtenidos
6. Recordar que no es una técnica inferencial si no validamos
los grupos

UPAGU - UDELAR 2019 Pof. (Dr) Monica Cadenazzi


Resumen de los pasos de decisión
Matriz de datos de 6 Matriz de distancia Dendrograma con
sitios con 3 especies Euclidiana WARD y con corte al
50% de la distancia
Ward
Euclidea Distancia: (Euclidea)

s1 s2 s3 s4 s5 s6 s6

s3
s1 0
s5

s2 37,42 0 s2

s3 61,64 50,99 0 s4

s1
s4 24,49 28,28 37,42 0

0,00 26,45 52,90 79,34 105,79


s5 64,81 28,28 50,99 48,99 0

s6 70,71 73,48 28,28 50,99 78,74 0

UPAGU - UDELAR 2019 Pof. (Dr) Monica Cadenazzi


4. ACP y ACoP
 ACP permite analizar la interdependencia de variables
métricas y encontrar una representación gráfica óptima de la
variabilidad de los datos de una tabla de n observaciones y p
columnas o variables.

 El análisis de componentes principales (ACP) trata de


encontrar, con pérdida mínima de información, un nuevo
conjunto de variables (componentes principales) no
correlacionadas que expliquen la estructura de variación en las
filas de la tabla de datos. UPAGU - UDELAR 2019 Pof. (Dr) Monica Cadenazzi
4. ACP y ACoP
 Veremos un ejemplo del Infostat: Proteinas

 En un estudio que tuvo como objetivo estudiar los alimentos


que se utilizan como fuentes proteicas, en las dietas de los
habitantes de países europeos, se registraron los alimentos
consumidos. Los datos se encuentran en el archivo
Proteínas.

UPAGU - UDELAR 2019 Pof. (Dr) Monica Cadenazzi


4. ACP ejemplo
 Pais C.VACUNA C.CERDO HUEVOS LECHE PESCADO CEREAL EMBUTIDOS FRUTOS SECOS FRUTAS Y VEGETALES
 Albania 10,10 1,40 0,50 8,90 0,20 42,30 0,60 5,50 1,70
 Austria 8,90 14,00 4,30 19,90 2,10 28,00 3,60 1,30 4,30
 Bélgica 13,50 9,30 4,10 17,50 4,50 26,60 5,70 2,10 4,00
 Bulgaria 7,80 6,00 1,60 8,30 1,20 56,70 1,10 3,70 4,20
 Rep Checa 9,70 11,40 2,80 12,50 2,00 34,30 5,00 1,10 4,00
 Dinamarca 10,60 10,80 3,70 25,00 9,90 21,90 4,80 0,70 2,40
 Finlandia 9,50 4,90 2,70 33,70 5,80 26,30 5,10 1,00 1,40
 Francia 18,00 9,90 3,30 19,50 5,70 28,10 4,80 2,40 6,50
 Grecia 10,20 3,00 2,80 17,60 5,90 41,70 2,20 7,80 6,50
 Hungría 5,30 12,40 2,90 9,70 0,30 40,10 4,00 5,40 4,20
 Irlanda 13,90 10,00 4,70 25,80 2,20 24,00 6,20 1,60 2,90
 Italia 9,00 5,10 2,90 13,70 3,40 36,80 2,10 4,30 6,70
 P.Bajos 9,50 13,60 3,60 23,40 2,50 22,40 4,20 1,80 3,70
 Noruega 9,40 4,70 2,70 23,30 9,70 23,00 4,60 1,60 2,70
 Polonia 6,90 10,20 2,70 19,30 3,00 36,10 5,90 2,00 6,60
 Portugal 6,20 3,70 1,10 4,90 14,20 27,00 5,90 4,70 7,90
 Rumania 6,20 6,30 1,50 11,10 1,00 49,60 3,10 5,30 2,80
 España 7,10 3,40 3,10 8,60 7,00 29,20 5,70 5,90 7,20
 Suecia 9,90 7,80 3,50 24,70 7,50 19,50 3,70 1,40 2,00
 Suiza 13,10 10,10 3,10 23,80 2,30 25,60 2,80 2,40 4,90
 Inglaterra 17,40 5,70 4,70 20,60 4,30 24,30 4,70 3,40 3,30
 Rusia 9,30 4,60 2,10 16,60 3,00 43,60 6,40 3,40 2,90
 Alemania 11,40 12,50 4,10 18,80 3,40 18,60 5,20 1,50 3,80
 Croacia 4,40 5,00 1,20 9,50 0,60 55,90 3,00 5,70 3,20

 24x10

UPAGU - UDELAR 2019 Pof. (Dr) Monica Cadenazzi


5,0
Portugal

Pescado
Frutas yVegetales
2,5
España
Embutidos
Noruega Grecia
Francia
CP 2 (18,4%)

Dinamarca Polonia Italia FrutosSecos


Bélgica
0,0 Inglaterra Huevos
CarneVacuna Rusia
Irlanda Rumania
Leche Suiza Rep Checa Croacia
Hungría
P.Bajos CarneCerdo Cereal Bulgaria

-2,5

-5,0
-5,0 -2,5 0,0 2,5 5,0
CP 1 (45,1%)
Biplot(1,2) Biplot(1,2) - Variables

UPAGU - UDELAR 2019 Pof. (Dr) Monica Cadenazzi


Análisis de componentes principales
Datos estandarizados
Casos leidos 24
Casos omitidos 0

Variables de clasificación
País

Correlación cofenética= 0,910


Autovalores

Lamb Propo
da Valor rción Prop Acum Autovectores Correlaciones con las variables originales
1 4,06 0,45 0,45 Variables e1 e2 Variables CP 1 CP 2
2 1,66 0,18 0,64 CarneVacuna -0,31 -0,03 CarneVacuna -0,63 -0,04
3 1,1 0,12 0,76 CarneCerdo -0,3 -0,26 CarneCerdo -0,61 -0,34
4 0,9 0,1 0,86 Huevos -0,42 -0,03 Huevos -0,85 -0,04
5 0,48 0,05 0,91 Leche -0,4 -0,16 Leche -0,81 -0,2
6 0,32 0,04 0,95 Pescado -0,13 0,65 Pescado -0,26 0,84
7 0,25 0,03 0,98 Cereal 0,43 -0,24 Cereal 0,87 -0,31
8 0,12 0,01 0,99 Embutidos -0,29 0,36 Embutidos -0,58 0,46
9 0,1 0,01 1 FrutosSecos 0,42 0,16 FrutosSecos 0,84 0,2
Frutas yVegetales 0,11 0,53 Frutas yVegetales 0,22 0,68

UPAGU - UDELAR 2019 Pof. (Dr) Monica Cadenazzi


4. ACoP
 El Analisis de Coordenadas Principales (ACoP) o
Multidimentional Scaling, tiene el mismo principio que el ACP.

 La ventaja es que puede trabajar con diferentes tipos de


variables: cuantitativas, cualitativas, ordinales… mientras que
el Acp solo trabaja con variables numéricas con distribución
aproximadamente normal.

 EL Indice de distancia que utiliza es el de GOWER.


UPAGU - UDELAR 2019 Pof. (Dr) Monica Cadenazzi
5. Otros métodos de análisis multivariados
 Análisis discriminante
 Test de Mantel

 Análisis de varianza multivariado

 Análisis de correlaciones canónicas

 Arboles de regresión y clasificación

 Random forest

 PLS

UPAGU - UDELAR 2019 Pof. (Dr) Monica Cadenazzi


GRACIAS!!!!!

UPAGU - UDELAR 2019 Pof. (Dr) Monica Cadenazzi


 Ejemplo 39: El AC simple se llevó a cabo sobre un estudio
que aborda la caracterización de mujeres con problemas
relacionados con el alcohol desde características
sociodemográficas y psicológicas. Si bien se relevaron un
conjunto de variables categorizadas tales como edad,
ocupación, estado civil, motivo de consulta y diagnóstico del
paciente al entrar al centro de rehabilitación. Se usó AC
simple para estudiar la asociación entre motivo de consulta y
edad. Los datos (gentileza de Yolanda Prados y Graciela
Diosque, Facultad de Psicología, U.N.C), se encuentran en el
UPAGU - UDELAR 2019 Pof. (Dr) Monica Cadenazzi

archivo Alcoholismo. Se
UPAGU - UDELAR 2019 Pof. (Dr) Monica Cadenazzi

También podría gustarte