Está en la página 1de 18

Tema 1:

Introducción al Análisis Multivariante


20582 - Análisis de Datos 📊

Curso 2022-23

♾️Grado de Matemáticas - UIB


Prof. Irene García
¿Qué es el Análisis Multivariante?
Los datos multivariantes surgen cuando los investigadores registran los
valores de varias variables aleatorias en un número de sujetos u objetos en los
que están interesados.

Lo anterior da lugar a una observación vectorial o multidimensional para cada


sujeto u objeto (unidad muestral). = (x_11,x_12,...,x_1n) datos de un individuo

Análisis Multivariante (AMV): Todos los métodos estadísticos que analizan


simultáneamente múltiples mediciones en cada individuo u objeto
investigado

Muchas técnicas multivariantes son extensiones de procedimientos


univariantes: Regresión simple ⟶ Regresión múltiple; ANOVA ⟶ MANOVA.

Muchas otras técnicas son exclusivamente multivariantes:


Análisis factorial,
clustering, etc.
Notación de un conjunto de datos
multivariante
Tenemos n unidades (individuos) y q variables con q > 1 .

Las observaciones pueden representarse en forma de matriz:

x11 x12 ⋯ x1q


⎛ ⎞


⎜ ⋮ ⋮ ⋱ ⋮ ⎟

⎝ ⎠
xn1 xn2 ⋯ xnq

Cada fila es un individuo y cada columna un dato


Escalas de medición
Las variables de un conjunto de datos multivariantes pueden medirse en
diferentes niveles. Son posibles cuatro niveles de medición:

bien, muy bien,...


No métrico
Nominal: Variables categóricas sin orden significativo. el tamaño del
número no está relacionado con la cantidad de la característica que se
mide (Ejemplos: Sexo, color de pelo) NO HACER LA MEDIA!!

Ordinal: Variables categóricas en las que existe un orden significativo.


(Ejemplos: Grado de satisfacción, categorías de un profesor)

Métrico
Intervalo: Variables numéricas donde hay diferencias iguales entre los
puntos de la escala, pero no hay no hay una posición fija del cero.
(Ejemplo: Temperatura medida en ºC y ºF)

Razón: Variables numéricas en las que tomar cocientes tiene sentido ya


que hay un cero fijo (Ejemplos: Edad, Altura, Peso).

Debemos tener cuidado de utilizar análisis estadísticos que sean apropiados


para las mediciones que tenemos
Error de medición
Todas las variables tienen algún error.

El error de medición distorsiona las relaciones observadas y hace que las


técnicas multivariantes sean menos potentes.

Por ejemplo, algunas veces se utilizan escalas "agregadas", en las que se


suman o promedian varias variables para formar una representación
compuesta de un concepto.

Para evaluar el error de medición, se toman en cuenta dos características


importantes de la medición:

Validez: El grado en que una medida representa con exactitud lo que se


supone que debe representar.

Fiabilidad: El grado en que la variable observada mide el valor "verdadero"


y, por tanto, está libre de errores. Depende del instrumento de medición
Datos perdidos (NAs)
Datos perdidos = Datos no observados (NA) = Se introduce mal el dato

Como se registran muchas variables, podemos tener observaciones con


valores perdidos. ¿Cómo los tratamos?

Una opción es realizar el análisis de casos completos, es decir, eliminar


cualquier observación que tenga algún valores perdidos.

Problema: Esto puede llevar a que se eliminen muchas observaciones


observaciones y terminar con un tamaño de muestra muy reducido.

Otro problema: Puede dar lugar a estimaciones sesgadas a menos que los
datos que falten sean completamente al azar.

Una posible solución: La imputación múltiple, que "rellena" los valores que
faltan de forma sólida
(tiene en cuenta la incertidumbre adicional que esto
induce) Se buscan individuos semejantes y se rellena con la media de ellos
Directrices para los análisis
multivariantes y la interpretación
Conoce los datos (Análisis descriptivo).

¿Qué tipo de relación se está examinando:

Dependencia: se identifica una variable o conjunto de variables como


la variable dependiente que debe ser predicha o explicada por otras
variables conocidas como variables independientes.

Interdependencia: implica el análisis simultáneo de todas las


variables del conjunto, sin distinción entre variables dependientes y
variables independientes.
Parsimonia = si dos modelos producen la misma inferencia,
Esfuérzate por la parsimonia del modelo. nos quedamos con el más sencillo

Analiza los errores.


La esperanza ha de ser cero, no tienen que estar correlacionados y la varianza tiene que ser
constante (una franja de cero)

Valida tus resultados.


Algunos métodos de dependencia
multivariante
Regresión Múltiple:

Regresión logística o logit (glm):

ANOVA = SABER SI SE HACE UNA MEDIA GENERAL O POR GRUPO


Análisis de la varianza multivariante (MANOVA):

Modelos de ecuaciones estructurales (SEM): NO LO VEMOS


Algunos métodos de
interdependencia multivariante
Análisis de Componentes principales (PCA): técnica utilizada para
describir un conjunto de datos en términos de nuevas variables
(«componentes») no correlacionadas. Los componentes se ordenan por la
cantidad de varianza original que describen, por lo que la técnica es útil
para reducir la dimensionalidad de un conjunto de datos.
Hacer proyecciones para reducir la dimensión
Análisis exploratorio de factores: analiza la estructura de las
interrelaciones entre un gran número de variables para determinar un
conjunto de dimensiones comunes subyacentes (factores).

Atención

Claridad

Reciprocidad
Clustering: agrupa los objetos para que cada uno sea similar a los demás
objetos del grupo y diferente de los objetos de los otros grupos.
Medidas de resumen para datos
multivariantes: El vector de medias
Para un conjunto de datos multivariantes con q variables X1 , … , Xq y n
unidades muestrales, el vector de medias poblacional, μ, es:
t
μ = (μ1 , … , μq ) ,

donde μj = E(Xj ) para j = 1, … , q .

Una estimación de μ es el vector de las medias muestrales, x̄:


t
x̄ = (x̄1 , … , x̄q ) ,

donde x̄j , la media muestral de la j-ésima variable.


−1 n
= n ∑ xij
i=1

En R se puede calcular con la función colMeans.


Medidas de resumen para datos
multivariantes: La matriz de
covarianzas
Para un conjunto de datos multivariantes con q variables X1 , … , Xq y n
unidades muestrales, la matriz de covarianza, Σ, es:

σ11 σ12 ⋯ σ1q


⎛ ⎞


σ21 σ22 ⋯ σ2q ⎟




⎜ ⋮ ⋮ ⋱ ⋮ ⎟

⎝ ⎠
σq1 σq2 ⋯ σqq

Los elementos diagonales de Σ son las varianzas de las q variables:


σjj = σ = E [(Xj − μj ) ].
2 2
j

Los elementos no diagonales de Σ son las covarianzas entre dos de las


variables: σij = cov(Xi , Xj ) = E [(Xi − μi )(Xj − μi )].
Medidas de resumen: La matriz de
covarianzas muestrales
La matriz de covarianza poblacional Σ se estima mediante la matriz de
covarianza muestral S:
n
1
t
S = ∑(xi − x̄)(xi − x̄) .
n − 1
i=1

Los elementos diagonales de S son las varianzas muestrales de las variables q.

Los elementos no diagonales de S son las covarianzas muestrales entre dos de


las variables.

La matriz de covarianza de la muestra se puede calcular en R utilizando la


función var o la función cov.
Medidas de resumen: La matriz de
correlación
Las covarianzas pueden ser difíciles de interpretar, por lo que a menudo es útil
trabajar con la correlación, que siempre está entre -1 y +1.

Cualquier covarianza σij puede estandarizarse en una correlación ρij


mediante:
σij
ρij =
√σii σjj

La matriz de correlación, ρ, para un conjunto de datos multivariante es


aquella cuyos elementos diagonales
son 1's y cuyos elementos fuera de la
diagonal son los respectivos valores de correlación σij .
Medidas de resumen: La matriz de
correlación
La matriz de correlación muestral, R, sustituye σij por el coeficiente de
correlación muestral rij .

La forma matricial para calcular R es:

−1/2 −1/2
R = D SD ,

donde D es la matriz diagonal con


elementos diagonales 1/sj ,
−1/2

j = 1, … , q .

Nota que s2j es el j-ésimo elemento diagonal de S.

La matriz de correlación de la muestra se puede encontrar en R utilizando la


función cor.

Una matriz de covarianza puede convertirse en una matriz de correlación


utilizando la función cov2cor.

También podría gustarte