Está en la página 1de 3

Álgebra Matricial

Universidad Nacional de Colombia


Departamento de Estadística
3 de Septiembre 2020

Distancia de Mahalanobis
Laura Cadavid Velasco, Sebastián Mejía Sepúlveda, Andrés Sánchez Forero

El siguiente informe utiliza una tabla de datos obtenida de Johnson & Wichern (2007),
la cual tiene 42 mediciones sobre variables de la polución del aire tomadas a las 12 del
mediodía en la ciudad de Los Ángeles en diferentes días. Usando MATLAB se encontró
la distancia de Mahalanobis para las primeras tres observaciones con relación al vector
media muestral.

1. Presente el vector de medias muestrales, la matriz de covarianza muestral y su


inversa.

X=importdata("T1-5.DAT");
disp(X)

Los resultados obtenidos fueron los siguientes:

Vector de Medias Muestrales

mu=mean(X);
disp(mu)

Figure 1: Vector de medias muestrales

Matriz de varianzas y covarianzas

S=cov(X);
disp(S)
AM: Taller 2 Cadavid, Mejía & Sánchez

Figure 2: Matriz de varianzas y covarianzas

Matriz inversa de varianzas y covarianzas

Sinv=inv(S);
disp(Sinv)

Figure 3: Matriz inversa de varianzas y covarianzas

2. Describa cómo encuentra esta distancia

En primer lugar, se parte de la fórmula de distancia de Mahalanobis:

(SD)2 = (Xi − X̄)t S−1 (Xi − X̄)

Donde Xi es la i-ésima observación y X̄ es el vector de medias muestrales, mientras


que S−1 es la matriz inversa de varianzas y covarianzas muestrales. Como solo se
piden las tres primeras distancias, i = 1, 2, 3.

Aplicando este concepto en MATLAB se usa el siguiente comando

d=sqrt(mahal(X,X))

2
AM: Taller 2 Cadavid, Mejía & Sánchez

Donde sus dos parámetros son la matriz de datos observados X. Hay que tener en
cuenta que se tiene el comando sqrt ya que, como se muestra en la fórmula general,
esta calcula el cuadrado de la distancia.

Este comando da como resultado un vector de 42 componentes, donde cada uno de


estos es la distancia de la i-ésima observación al vector de medias muestrales.

Como solo se solicitan las primeras tres distancias, se toman las primeras compo-
nentes de dicho vector.

3. Presente e interprete las tres distancias solicitadas

Figure 4: Distancias de Mahalanobis

A partir de estos resultados, se puede osbervar que

• La primera observación tiene la distancia estadística más grande con respecto


al vector de medias muestrales. Es decir, Es decir, teniendo en cuanta la
variabilidad de las observaciones de cada una de las variables, esta observacion
se encuentra bastante alejada de las medias muestrales en comparación a las
otras dos.
• Teniendo en cuenta la variabilidad de los datos de las tres observaciones para las
dos variables, la tercera observación tiene la distancia estadística más pequeña
con respecto al vector de medias muestrales de las tres.

Referencias

• Johnson, R. A., & Wichern, D. W. (2007). Applied multivariate statistical analysis.


7th Edition. Prentice hall.

También podría gustarte