Tema 1 - 1 (Versión 1)

Tema 1:
Introducción al Análisis Multivariante

20582 - Análisis de Datos 📊
Curso 2022-23
♾️Grado de Matemáticas - UIB

Prof. Irene García
¿Qué es el Análisis Multivariante?
Los datos multivariantes surgen cuando los investigadores registran los
valores de varias variables aleatorias en un número de sujetos u objetos en los
que están interesados.
Lo anterior da lugar a una observación vectorial o multidimensional para cada

sujeto u objeto (unidad muestral). = (x_11,x_12,...,x_1n) datos de un individuo
Análisis Multivariante (AMV): Todos los métodos estadísticos que analizan

simultáneamente múltiples mediciones en cada individuo u objeto
investigado
Muchas técnicas multivariantes son extensiones de procedimientos

univariantes: Regresión simple ⟶ Regresión múltiple; ANOVA ⟶ MANOVA.
Muchas otras técnicas son exclusivamente multivariantes:

Análisis factorial,
clustering, etc.
Notación de un conjunto de datos
multivariante
Tenemos n unidades (individuos) y q variables con q > 1 .
Las observaciones pueden representarse en forma de matriz:
x11 x12 ⋯ x1q

⎛ ⎞
⎜
⎟
⎜ ⋮ ⋮ ⋱ ⋮ ⎟
⎝ ⎠
xn1 xn2 ⋯ xnq
Cada fila es un individuo y cada columna un dato

Escalas de medición
Las variables de un conjunto de datos multivariantes pueden medirse en
diferentes niveles. Son posibles cuatro niveles de medición:
bien, muy bien,...

No métrico
Nominal: Variables categóricas sin orden significativo. el tamaño del
número no está relacionado con la cantidad de la característica que se
mide (Ejemplos: Sexo, color de pelo) NO HACER LA MEDIA!!
Ordinal: Variables categóricas en las que existe un orden significativo.

(Ejemplos: Grado de satisfacción, categorías de un profesor)
Métrico
Intervalo: Variables numéricas donde hay diferencias iguales entre los
puntos de la escala, pero no hay no hay una posición fija del cero.
(Ejemplo: Temperatura medida en ºC y ºF)
Razón: Variables numéricas en las que tomar cocientes tiene sentido ya

que hay un cero fijo (Ejemplos: Edad, Altura, Peso).
Debemos tener cuidado de utilizar análisis estadísticos que sean apropiados

para las mediciones que tenemos
Error de medición
Todas las variables tienen algún error.
El error de medición distorsiona las relaciones observadas y hace que las

técnicas multivariantes sean menos potentes.
Por ejemplo, algunas veces se utilizan escalas "agregadas", en las que se

suman o promedian varias variables para formar una representación
compuesta de un concepto.
Para evaluar el error de medición, se toman en cuenta dos características

importantes de la medición:
Validez: El grado en que una medida representa con exactitud lo que se

supone que debe representar.
Fiabilidad: El grado en que la variable observada mide el valor "verdadero"

y, por tanto, está libre de errores. Depende del instrumento de medición
Datos perdidos (NAs)
Datos perdidos = Datos no observados (NA) = Se introduce mal el dato
Como se registran muchas variables, podemos tener observaciones con

valores perdidos. ¿Cómo los tratamos?
Una opción es realizar el análisis de casos completos, es decir, eliminar

cualquier observación que tenga algún valores perdidos.
Problema: Esto puede llevar a que se eliminen muchas observaciones

observaciones y terminar con un tamaño de muestra muy reducido.
Otro problema: Puede dar lugar a estimaciones sesgadas a menos que los
datos que falten sean completamente al azar.
Una posible solución: La imputación múltiple, que "rellena" los valores que
faltan de forma sólida
(tiene en cuenta la incertidumbre adicional que esto
induce) Se buscan individuos semejantes y se rellena con la media de ellos
Directrices para los análisis
multivariantes y la interpretación
Conoce los datos (Análisis descriptivo).
¿Qué tipo de relación se está examinando:
Dependencia: se identifica una variable o conjunto de variables como

la variable dependiente que debe ser predicha o explicada por otras
variables conocidas como variables independientes.
Interdependencia: implica el análisis simultáneo de todas las

variables del conjunto, sin distinción entre variables dependientes y
variables independientes.
Parsimonia = si dos modelos producen la misma inferencia,
Esfuérzate por la parsimonia del modelo. nos quedamos con el más sencillo
Analiza los errores.

La esperanza ha de ser cero, no tienen que estar correlacionados y la varianza tiene que ser
constante (una franja de cero)
Valida tus resultados.

Algunos métodos de dependencia
multivariante
Regresión Múltiple:
Regresión logística o logit (glm):
ANOVA = SABER SI SE HACE UNA MEDIA GENERAL O POR GRUPO

Análisis de la varianza multivariante (MANOVA):
Modelos de ecuaciones estructurales (SEM): NO LO VEMOS

Algunos métodos de
interdependencia multivariante
Análisis de Componentes principales (PCA): técnica utilizada para
describir un conjunto de datos en términos de nuevas variables
(«componentes») no correlacionadas. Los componentes se ordenan por la
cantidad de varianza original que describen, por lo que la técnica es útil
para reducir la dimensionalidad de un conjunto de datos.
Hacer proyecciones para reducir la dimensión
Análisis exploratorio de factores: analiza la estructura de las
interrelaciones entre un gran número de variables para determinar un
conjunto de dimensiones comunes subyacentes (factores).
Atención
Claridad
Reciprocidad
Clustering: agrupa los objetos para que cada uno sea similar a los demás
objetos del grupo y diferente de los objetos de los otros grupos.
Medidas de resumen para datos
multivariantes: El vector de medias
Para un conjunto de datos multivariantes con q variables X1 , … , Xq y n
unidades muestrales, el vector de medias poblacional, μ, es:
t
μ = (μ1 , … , μq ) ,
donde μj = E(Xj ) para j = 1, … , q .
Una estimación de μ es el vector de las medias muestrales, x̄:

t
x̄ = (x̄1 , … , x̄q ) ,
donde x̄j , la media muestral de la j-ésima variable.

−1 n
= n ∑ xij
i=1
En R se puede calcular con la función colMeans.

Medidas de resumen para datos
multivariantes: La matriz de
covarianzas
Para un conjunto de datos multivariantes con q variables X1 , … , Xq y n
unidades muestrales, la matriz de covarianza, Σ, es:
σ11 σ12 ⋯ σ1q

⎛ ⎞
⎜
σ21 σ22 ⋯ σ2q ⎟
⎜
⎟
⎜
⎟
⎜
⎟
⎜ ⋮ ⋮ ⋱ ⋮ ⎟
⎝ ⎠
σq1 σq2 ⋯ σqq
Los elementos diagonales de Σ son las varianzas de las q variables:

σjj = σ = E [(Xj − μj ) ].
2 2
j
Los elementos no diagonales de Σ son las covarianzas entre dos de las

variables: σij = cov(Xi , Xj ) = E [(Xi − μi )(Xj − μi )].
Medidas de resumen: La matriz de
covarianzas muestrales
La matriz de covarianza poblacional Σ se estima mediante la matriz de
covarianza muestral S:
n
1
t
S = ∑(xi − x̄)(xi − x̄) .
n − 1
i=1
Los elementos diagonales de S son las varianzas muestrales de las variables q.
Los elementos no diagonales de S son las covarianzas muestrales entre dos de

las variables.
La matriz de covarianza de la muestra se puede calcular en R utilizando la

función var o la función cov.
correlación
Las covarianzas pueden ser difíciles de interpretar, por lo que a menudo es útil
trabajar con la correlación, que siempre está entre -1 y +1.
Cualquier covarianza σij puede estandarizarse en una correlación ρij

mediante:
σij
ρij =
√σii σjj
La matriz de correlación, ρ, para un conjunto de datos multivariante es

aquella cuyos elementos diagonales
son 1's y cuyos elementos fuera de la
diagonal son los respectivos valores de correlación σij .
correlación
La matriz de correlación muestral, R, sustituye σij por el coeficiente de
correlación muestral rij .
La forma matricial para calcular R es:
−1/2 −1/2
R = D SD ,
donde D es la matriz diagonal con

elementos diagonales 1/sj ,
−1/2
j = 1, … , q .
Nota que s2j es el j-ésimo elemento diagonal de S.
La matriz de correlación de la muestra se puede encontrar en R utilizando la

función cor.
Una matriz de covarianza puede convertirse en una matriz de correlación

utilizando la función cov2cor.

Tema 1 - 1 (Versión 1)

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema 1 - 1 (Versión 1)

Cargado por

Copyright:

Formatos disponibles

Tema 1:

Introducción al Análisis Multivariante

♾️Grado de Matemáticas - UIB

Lo anterior da lugar a una observación vectorial o multidimensional para cada

Análisis Multivariante (AMV): Todos los métodos estadísticos que analizan

Muchas técnicas multivariantes son extensiones de procedimientos

Muchas otras técnicas son exclusivamente multivariantes:

Las observaciones pueden representarse en forma de matriz:

x11 x12 ⋯ x1q

Cada fila es un individuo y cada columna un dato

bien, muy bien,...

Ordinal: Variables categóricas en las que existe un orden significativo.

Razón: Variables numéricas en las que tomar cocientes tiene sentido ya

Debemos tener cuidado de utilizar análisis estadísticos que sean apropiados

El error de medición distorsiona las relaciones observadas y hace que las

Por ejemplo, algunas veces se utilizan escalas "agregadas", en las que se

Para evaluar el error de medición, se toman en cuenta dos características

Validez: El grado en que una medida representa con exactitud lo que se

Fiabilidad: El grado en que la variable observada mide el valor "verdadero"

Como se registran muchas variables, podemos tener observaciones con

Una opción es realizar el análisis de casos completos, es decir, eliminar

Problema: Esto puede llevar a que se eliminen muchas observaciones

¿Qué tipo de relación se está examinando:

Dependencia: se identifica una variable o conjunto de variables como

Interdependencia: implica el análisis simultáneo de todas las

Analiza los errores.

Valida tus resultados.

Regresión logística o logit (glm):

ANOVA = SABER SI SE HACE UNA MEDIA GENERAL O POR GRUPO

Modelos de ecuaciones estructurales (SEM): NO LO VEMOS

donde μj = E(Xj ) para j = 1, … , q .

Una estimación de μ es el vector de las medias muestrales, x̄:

donde x̄j , la media muestral de la j-ésima variable.

En R se puede calcular con la función colMeans.

σ11 σ12 ⋯ σ1q

Los elementos diagonales de Σ son las varianzas de las q variables:

Los elementos no diagonales de Σ son las covarianzas entre dos de las

Los elementos diagonales de S son las varianzas muestrales de las variables q.

Los elementos no diagonales de S son las covarianzas muestrales entre dos de

La matriz de covarianza de la muestra se puede calcular en R utilizando la

Cualquier covarianza σij puede estandarizarse en una correlación ρij

La matriz de correlación, ρ, para un conjunto de datos multivariante es

La forma matricial para calcular R es:

donde D es la matriz diagonal con

Nota que s2j es el j-ésimo elemento diagonal de S.

La matriz de correlación de la muestra se puede encontrar en R utilizando la

Una matriz de covarianza puede convertirse en una matriz de correlación

También podría gustarte