Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Analisis Multivariante PDF
Analisis Multivariante PDF
1. Introducción
2. Clasificación de las técnicas
3. Etapas de análisis
4. Supuestos básicos
5. Valores perdidos y anómalos
introducción
Definición.
- Conjunto de métodos estadísticos cuya finalidad es analizar
simultáneamente conjuntos de datos multivariantes: hay
varias variables medidas para cada caso.
- Permiten un mejor entendimiento del fenómeno objeto de
estudio, obteniendo información que los métodos univariantes
y bivariantes son incapaces de conseguir.
Objetivos.
- Proporcionar métodos para estudiar datos multivariantes
que el análisis estadístico uni y bidimensional es incapaz de
conseguir.
- Ayudar al investigador a tomar decisiones óptimas en el
contexto en el que se encuentre teniendo en cuenta la
información disponible por el conjunto de datos analizado.
clasificación
3 grupos:
- Métodos de dependencia
- Métodos de interdependencia
- Métodos estructurales
Métodos de dependencia:
- Suponen que las variables analizadas están divididas en dos
grupos: las variables dependientes y las variables
independientes.
- El objetivo consiste en determinar si el conjunto de variables
independientes afecta al conjunto de variables
dependientes y de qué forma.
clasificación
Métodos de interdependencia:
- No distinguen entre variables dependientes e independientes
y su objetivo consiste en identificar qué variables están
relacionadas, cómo lo están y por qué.
Métodos estructurales:
- Suponen que las variables están divididas en dos grupos: el
de las variables dependientes y el de las independientes.
- El objetivo es analizar como las variables independientes
afectan a las variables dependientes y las relaciones de
las variables de los dos grupos entre sí.
Regresión clasificación
Supervivencia
Métrica
MANOVA
Correlación canónica
Dependencia
Discriminante
No métrica Regresión logística
Conjoint
Componentes principales
Factorial
Métrica Cluster
Escalas multidimensionales
Interdependencia
Correspondencias
Modelos log-lineales
No métrica
Cluster
Escalas multidimensionales
Modelos estructurales
clasificación
Si es un problema de dependencias,
¿cuántas variables dependientes existen?
clasificación
Análisis de dependencias
varias una
relaciones relación
independencia independencia
no métrica métrica
Análisis de dependencias
varias una
relaciones relación
independencia independencia
no métrica métrica
Análisis de dependencias
varias una
relaciones relación
independencia independencia
no métrica métrica
Análisis de dependencias
varias una
relaciones relación
independencia independencia
no métrica métrica
(Y1, Y2, Y3, .... Ym) Å (X1, X2, X3, .... Xm) correlación canónica
- Por ejemplo:
- Determinar si existe o no relación entre el resultado neto y la
producción de contaminantes de una explotación con la
superficie, dimensión e inversión inicial. Corr. canónica
- Determinar la misma relación pero con el género del ganadero
y el tipo de explotación (intensivo, extensivo) MANOVA
clasificación
Análisis de dependencias
varias una
relaciones relación
independencia independencia
no métrica métrica
Análisis de dependencias
varias una
relaciones relación
independencia independencia
no métrica métrica
Ecuaciones estructurales:
- Varias relaciones: estructuras de la covarianza y análisis
factorial confirmatorio
Análisis de dependencias
varias una
relaciones relación
independencia independencia
no métrica métrica
Análisis de interdependencia.
- Las variables no se pueden separar en dependientes e
independientes.
Análisis de interdependencias
Relación Relación Relación
entre entre entre
variables casos objetos
Métricas No métricas
Análisis de interdependencias
Relación Relación Relación
entre entre entre
variables casos objetos
Métricas No métricas
Análisis de interdependencias
Relación Relación Relación
entre entre entre
variables casos objetos
Métricas No métricas
Análisis de interdependencias
Relación Relación Relación
entre entre entre
variables casos objetos
Métricas No métricas
Análisis de correspondencias.
- Permite visualizar gráficamente tablas de contingencia.
- Por ejemplo: Si existe relación entre la formación del
ganadero y el tipo de gestión
- Formación: sin formación, primaria, bachillerato,
universidad, formación profesional, módulos, escuela
de capataces o sus combinaciones
- Tipo de gestión: ninguna, asesor fiscal, veterinario
clínico, agrónomo, veterinario asesor o sus
combinaciones
clasificación
Análisis de interdependencias
Relación Relación Relación
entre entre entre
variables casos objetos
Métricas No métricas
Análisis de interdependencias
Relación Relación Relación
entre entre entre
variables casos objetos
Métricas No métricas
Por ejemplo:
Analizar la gestión de los sectores ecológicos
- Variables y sectores
- Relaciones entre las variables y los casos:
- Comparar unos sectores con otros: AF/ACP + ANOVA
- Nos da igual el sector: AF/ACP + CLUSTER
- Correlación canónica
etapas del análisis
Supuestos básicos.
- Normalidad
- Homocedasticidad
- Linealidad
- Independencia
supuestos básicos
Normalidad univariante.
- La normalidad univariante de todas las variables no implica
normalidad multivariante, aunque es difícil que no lo sea.
- Si no se detecta normalidad multivariante habría que estudiar
cada variable y detectar cuál es la problemática.
- Contrastes de normalidad
0
supuestos básicos
Contrastes de normalidad:
- Todos tienen como hipótesis nula la normalidad de la
distribución
- Cada uno tiene su utilidad
- Shapiro –Wilk funciona bien con muestras pequeñas
- El más habitual es Kolmogorov-Smirnov
- En muestras pequeñas es mejor ser conservador con el
nivel de significación
supuestos básicos
Con Statgraphics:
Quantile-Quantile Plot
150
120
90
NHT
60
30
0
0 30 60 90 120 150
Normal distribution
supuestos básicos
Quantile-Quantile Plot
(X 100000)
1
0,6
0,2
RN
-0,2
-0,6
-1
-1 -0,6 -0,2 0,2 0,6 1
(X 100000)
Normal distribution
supuestos básicos
Homoscedasticidad (multivariante):
- Se contrasta si la matriz varianzas-covarianzas es la
misma
supuestos básicos
Homoscedasticidad (univariante):
- Contraste de Levene (hipótesis nula: la varianza de la
variable X es igual en todos los niveles que forma la variable
Z)
Homoscedasticidad (multivariante):
- Contraste M de Box
- Es muy sensible (se recomienda que p<0,001)
- Es necesaria normalidad multivariante para el contraste
supuestos básicos
Por ejemplo:
- Estudiar si los ganaderos son conscientes de que la
producción intensiva perjudica el medio ambiente
- O por el contrario, los ganaderos intensivos lo son
porque no son conscientes de esto
- Si esto es así, los ganaderos intensivos estarían
significativamente más en desacuerdo con la afirmación
que los extensivos
supuestos básicos
Por ejemplo:
- Esto es un problema de análisis discriminante:
- Una variable dependiente no métrica (intensivo o
extensivo)
- Varias variables independientes métricas:
- Y1: Opinión (1 a 5): la g.intensiva perjudica el m.
ambiente
- Y2: Opinión (1 a 5): no permitir g.intensiva en
espacios protegidos y naturales
- Y3: Opinión (1 a 5): reducir ayudas a g.intensiva U.E.
- Y4: Opinión (1 a 5): debe informarse más sobre los
efectos de la g. Intensiva a la opinión pública
supuestos básicos
Por ejemplo:
- Debe comprobarse la hipótesis nula, que la matriz de
varianzas-covarianzas de las variables Y es a misma para los
niveles de X (intensivo-extensivo).
- Contraste M de Box.
supuestos básicos
Linealidad:
- Fundamental en todas las técnicas que se centren en el
análisis de las matrices de correlaciones o de covarianzas
- Porque el coeficiente de correlación de Pearson sólo puede
captar relaciones lineales
- Para la regresión lineal múltiple se analizan los residuos
- Para el resto de los casos: gráficos de dispersión
bivariante
- Por ejemplo:
consumo inc. Peso inc. Diám. Digest
Consumo MS (kg/animal) 1 0,87 0,91 -0,66
Incremento de Peso 0,87 1 0,79 0,81
Incremento de Diámetro 0,91 0,79 1 0,92
Digestibilidad MS (%) -0,66 0,81 0,92 1
supuestos básicos
Consumo
40
10 10
20
0 0 0
0 20 40 60 0 20 40 60 0 20 40 60
40
40 40
30
Inc Peso
30 30
20
20 20
10
10 10
0
0 0
0 20 40 60
0 20 40 60 0 20 40 60
100 40
40
80 30
30
Inc Diam
60 20
40 20
10
20 10
0
0 0
0 20 40 60
0 20 40 60 0 20 40 60
100 40 40
Diges 80
60
30
20
30
20
40
10 10
20
0 0 0
0 20 40 60 0 20 40 60 0 20 40 60
supuestos básicos
Independencia:
- Los valores que toman las variables en un caso no están
influidos por los valores que toman en otro caso
- Si no se está seguro de esto, habría que incrementar el
nivel de significación de los contrastes 10 veces (de
p<0,05 a p<0,005)
- La independencia se asegura en el diseño experimental
valores perdidos y outliers
Valores perdidos:
Por ejemplo:
V4(COD) V4*(COD)
1 0 t 1 0 t
V2(media) 3,96 3,83 0,23 4,30 2,71 -3,95*
En el ejemplo:
- Test de Grubbs
valores perdidos y outliers
3,5
3
2,5
2
1,5
1
0,5
0
-0,5
-1
-1,5
-2
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
valores perdidos y outliers
6 6
RN
RN
4 4
2 2
0 0
0 2 4 6 8 10 0 1 2 3 4 5 6
(X 1000)
Produccion leche UTH
6
RN
0
0 10 20 30 40 50 60
Antiguedad
valores perdidos y outliers