Está en la página 1de 13

1

Aplicación de Análisis de Componentes

principales y Métodos Biplots.

Echeverry Agudelo Sara Lucia

lucia.echeverry@udea.edu.co

Resumen

El objetivo del trabajo es la aplicación de métodos multivariantes, en este caso análisis de

componentes principales y métodos biplots. Estos métodos serán aplicados a una base de datos

compuesta por 309 personas, cada uno de ellos representado por seis atributos biomecánicos

derivados de la forma y la orientación de la pelvis y la espina lumbar, este análisis nos permite

obtener dos grupos de individuos y describir los datos en dos componentes.

1. INTRODUCCIÓN

El conjunto de datos biomédicos fue construido por el Dr. Henrique da Mota durante un

periodo de residencia medica en el grupo de Investigación Aplicada en ortopedia del centro

métrico-quirúrgico de Revolution des massues Lyton, Francia.

El principal objetivo al usar el ACP y Biplot es poder reducir el número de variables con las

que están representados nuestros datos y hallar unas nuevas variables con las cuales podamos

representar nuestros datos de una manera más practica y objetiva.


2

2. MATERIALES Y MÉTODOS

Los datos usados para la aplicación del ACP y Biplot consisten en la medida de seis atributos

biomecánicos derivados de la forma y la orientación de la pelvis y la espina lumbar de 310

personas, estos atributos son:

- Incidencia pélvica.

- Inclinación pélvica.

- Ángulo de lordosis lumbar.

- Pendiente sacra.

- Radio pélvico.

- Grado de espondilolistesis.

Debido a la cantidad de individuos (309) realizaremos un muestreo aleatorio simple con un

coordinado negativo ascendente para escoger una muestra de cien (100), esto consiste en asignar

un numero aleatorio entre 0 y 1 a los individuos, ordenarlos de menor a mayor y tomar los primeros

100 de ellos.

Componentes principales: El objetivo en el análisis multivariante es la reducción de

dimensionalidad, es decir pasar de p variables que se observan en nuestros datos a r variables que

pueden representar las variables observacionales todo esto con la menor perdida de información,

de forma tal que r<p.

La idea de este método es buscar unas pocas combinaciones lineales de las variables

observacionales, que puedan utilizarse para resumir los datos, perdiendo la menor cantidad de
3

información posible. Estas combinaciones lineales son llamadas componentes principales. Uno de

los requisitos para la aplicación de este método es que las variables observacionales estén

correlacionadas, esto lo podemos empezar a evidenciar en nuestra matriz de correlaciones de lo

contrario significa que las variables originales son las componentes principales y no se puede hacer

una reducción de dimensionalidad, estas nuevas r variables o combinaciones lineales explican la

mayor información y deben ser no correlacionadas para no reiterar información.

Respecto a la cantidad de componentes principales que se deben tomar existen varios

criterios tales como:

- La media aritmética: consiste en tomar aquellas componentes cuya raíz característica

excedan la media de las raíces características, cuando las variables están tipificadas se

toman las mayores a 1.

- Gráfico de sedimentación: se construye a partir del grafico de las raíces características en

orden decreciente, al unir todos los puntos se obtiene una figura poligonal descendente y se

toman las componentes hasta encontrar un codo en el gráfico.

- Seleccionar las componentes hasta obtener una proporción determinada de varianza.

- Elegir tantas componentes como el usuario lo desee.

Método Biplot: es una representación en un mismo plano de los n individuos y las p

variables, es importante porque su representación se basa en conceptos geométricos sencillos, el

objetivo de este método es representar la información contenida en una matriz de datos en un

espacio de menor dimensión, con la menor perdida de información.


4

El Biplot se basa en la descomposición de valores singulares (DVS), lo que permite escribir

una matriz como el producto de tres matrices

Donde P y Q son ortogonales, para asegurar una descomposición única.

Es una matriz doagonal con lo valores singulares de X, los cuales corresponden a

la raiz cuadra de los valores propios de XX’ Y X’X.

- P es la matriz de vectores propios de XX’.

- Q es la matriz de vectores propios de X’X.

A la matriz P se le conoce como marcadores filas y a la matriz Q marcadores columna .

Para obtener los marcadores de

Con A y B matrices de rango q.

Considerando

En Gabriel (1971-1981) se proponen tres representaciones clásicas para gamma: 0;1;1/2.

GH-Biplot: Es denominado tambien CMP (Colum Metric Preserving), en este tipo de

Biplot se preserva la metrica para las columnas y se obtiene eligiendo los marcadores de acuerdo

a las expreciones
5

JK-Biplot: Es denominado tambien RMP ( Row Metric Preserving), en este tipo de

Biplot se preserva la metrica para las filas y se obtiene eligiendo los marcadores de acuerdo a las

expresiones

SQRT-Bipolt o Biplot-Simetrico: Este Biplot asigna papeles simetricos tanto a las

filas como a las coumnas de X, la elección de los marcadores es:

En este caso dicha factorización no es única ya que se verifica que

Razon por la cual este tipo de Biplot solo se usa cuando el objetivo del análisis consiste

fundamentalmene en la aproximación de los elementos de la matriz X.

Aparte de estos Biplot clasicos, el siguente Biplot es una combinación de GH y JK


6

HJ-Biplot o RCMP-Biplot: La elección de los marcadores filas y columnas es la

siguiente:

La calidad de representaci´n tanto para la filas y las columnas es la misma, obteniendose

una calidad de representación más alta que en los Biplot introducidos por Gabriel

3. ANALISIS Y RESULTADOS

A continuación, se presenta el desarrollo del análisis estadístico, tanto del análisis de

componentes principales como Biplot.

3.1 ANÁLISIS EXPLORATORIO.

En nuestro caso tenemos 6 variables correspondientes a la medida de atributos

biomecánicos derivados de la forma y la orientación de la pelvis y la espina lumbar, las cuales

son numéricas; a continuación, podemos observar: mínimo, máximo, media, primero, segundo y

tercer cuartil, también la desviación estándar de cada una de las variables.


7

Podemos observar que las variables incli.pel (Inclinación pélvica) y grado (Grado de

espondilolistesis) toman valores negativos como positivos, mientras que las otras variables solo

toman valores positivos, la variable que en promedio toma valores más pequeños es incli.pel

(Inclinación pélvica) y la que toma valores más grandes en promedio es rad.pel (Radio pélvico) a

pesar de que grado (Grado de espondilolistesis) toma valores más altos en los individuos, para la

muestra de datos ordenados podemos ver hasta que valor se encuentra el 25%, 50%, y 75% de los

individuos con el primero, segundo y cuarto cuartil respectivamente. Respecto a la desviación

estándar de las variables vemos valores muy semejantes en rad.pel (Radio pélvico) y m.sacra

(Pendiente sacra), un valor más alto en grado (Grado de espondilolistesis) y más pequeño en

incli.pel (Inclinación pélvica).

La siguiente es la matriz de dispersión de nuestras variables.

Matriz De Dispersión
8

En esta matriz se puede observar una correlación entre las variables, la presencia de ésta

permite iniciar la búsqueda de componentes que van a contener variables inter relacionadas en el

caso del ACP.

La figura siguiente corresponde a la matriz de correlaciones con la que podemos verificar

que existe correlación entre las variables.

Matriz de correlaciones

También podemos ver que esta matriz no es parecida a la matriz identidad, lo cual se verifica

con la aplicación del test de esfericidad de Bartlett.

3.2 ACP Y BIPLOT

En la siguiente figura se aplica el test de esfericidad de Bartlett, podemos ver que el valor-p

es cercano a cero lo que ratifica la correlación entre las variables.

En la aplicación del ACP obtenemos las siguientes componentes


9

Ahora usando el grafico de sedimentación tomamos las variables que son mayores que uno,

las dos primeras componentes serán las componentes principales.

Observemos la correlación de cada variable con las componentes principales.

Finalmente tenemos que en este método la primera componente principal explica 56.26% de

variabilidad y la segunda componente principal explica el 21.15% de variabilidad restante, también

que las variables están bien representadas, y vemos que la variable rad.pel (Radio pélvico) está

sobre la segunda componente y casi ocurre lo mismo con inc.pel (Incidencia pélvica) y la primera

componente, si a la primera componente se le asigna el nombre de incidencia pélvica podemos

concluir que a mayor inc.pel (Incidencia pélvica) se tiene una mayor incli.pel (Inclinación pélvica),
10

si a la segunda componente se le asigna el nombre de Radio pélvico podemos concluir que a

mayor Radio pélvico menor incli.pel (Inclinación pélvica) se tiene.

En la aplicación del Biplot, para lo cual se eliminaron algunos individuos que no están bien

representados, se puede observar en la siguiente grafica que la variable inclinación pélvica separa

el conjunto de datos en dos grupos, uno de ellos más disperso que el otro.
11

En la siguiente grafica podemos observar que si tenemos ordenadas nuestras variables de la

siguiente forma: Radio pélvico, Inclinación pélvica, Grado de espondilolistesis, Incidencia

pélvica, Ángulo de lordosis lumbar y pendiente sacra los individuos 92, 34,32,83,14 van bajando

sus medidas en las variables, mientras que los individuos 58, 56, 11, 18, 79, van aumentando sus

valores, los individuos 50, 91, 42, 61, 94 siempre tiene valores pequeños en las variables.
12

CONCLUSIONES

El presente trabajo nos permitió la aplicación del Análisis de Componentes Principales y

Biplot.

1. En el análisis exploratorio se pudo observar la existencia de correlación entre las variables

y esto se puede corroborar con la aplicación del test de esfericidad de Bartlett.

2. En el análisis de componentes principales se puede dar un nombre a la componente 2 ya

que la variable rad.pel (Radio pélvico) se encuentra sobre ella.

3. En la aplicación del Biplot la variable inclinación pélvica separa el conjunto de datos en

dos grupos.
13

REFERENCIAS

1. YENGLE RUIZ CARLOS, Aplicación del análisis de componentes principales como

técnica para obtener índices sintéticos de calidad ambiental. 2012.

2. Sánchez Luz Estela, Análisis de componentes principales. Instituto de matemáticas.

Universidad de Antioquia.

3. Daniel Peña, análisis de datos multivariantes. 2002.

4. Sánchez Luz Estela, Métodos Biplot. Instituto de matemáticas. Universidad de Antioquia.

También podría gustarte