Está en la página 1de 13

Facultad de Ingeniera Ciencias Fsicas y Matemtica - Escuela de Ciencias Anlisis de Datos

INTRODUCCIN............................................................................................................................. 2 OBJETIVOS ..................................................................................................................................... 2 ANLISISDELOSDATOS................................................................................................................ 3 TCNICAUTILIZADA....................................................................................................................... 6 CONCLUSIONESYRECOMENDACIONES...................................................................................... 12 ANEXOS ....................................................................................................................................... 13 FUENTEDECONSULTA ................................................................................................................ 13

Anlisis de componentes principales (ACP)

Facultad de Ingeniera Ciencias Fsicas y Matemtica - Escuela de Ciencias Anlisis de Datos


INTRODUCCIN
Cuando se requiere estudiar un fenmeno social o fsico de forma estadstica es necesario no slo enfocar cada una de las variables a investigar de forma individual, ya que debido a las diferentes complejidades que puede presentar este fenmeno es necesario que el investigador realice un anlisis que considere grupos de variables para interpretar su comportamiento de forma conjunta, esta metodologa se denomina Anlisis Multivariado. Una de las tcnicas es el Anlisis de Componentes Principales (ACP), donde se asume las relaciones lineales entre las variables numricas. Una matriz de datos es un arreglo rectangular de nmeros dispuestos en n filas y p columnas que representan n observaciones de las p variables aleatorias observadas. Cuando el tamao de la poblacin investigada y el nmero de variables es muy grande se obtiene como resultado una matriz de datos de gran dimensin, lo que constituye un inconveniente que puede ser resuelto utilizando la Tcnica Multivariada Componentes Principales, cuyo objetivo es la reduccin e interpretacin de los datos. Una Componente Principal es una combinacin lineal de p variables aleatorias observadas que cumple con ciertas restricciones. Geomtricamente esta combinacin lineal constituye la eleccin de un nuevo sistema de coordenadas obtenido al rotar el sistema original, tal que los nuevos ejes representen la direccin de mxima variabilidad. El mtodo permite interpretar la estructura de varianzas-covarianzas de un conjunto de p variables, a travs de unas pocas q componentes principales formadas a partir de esas p variables, y de esta manera se logra la reduccin de datos, pasando de una matriz original de n observaciones de p variables aleatorias a otra de n observaciones de q componentes principales.

OBJETIVOS
Objetivo principal Transformar un conjunto de n observaciones y p variables en un nuevo conjunto, con un nmero menor de variables dado por las componentes principales. Objetivos secundarios Conocer el porcentaje que representa las componentes principales ms representativas. Conseguir una representacin simplificada de los datos.

Anlisis de componentes principales (ACP)

Facultad de Ingeniera Ciencias Fsicas y Matemtica - Escuela de Ciencias Anlisis de Datos


ANLISISDELOSDATOS
Planteamiento del problema Disponemos de una poblacin de 100 individuos con la siguiente informacin (slo variables cuantitativas): Se requiere conocer la relacin existente entre la talla, peso, presin diastlica inicial, presin diastlica final, presin sistlica inicial, presin sistlica final, ndice de masa corporal, edad de cada uno de los individuos con la hipertensin, es decir, un estudio de los factores de riesgo en hipertensin arterial. El diseo es de tipo caso-control. Anlisis Descriptivo Se dispone de una base de datos, de la cual hemos sacado 8 variables cuantitativas y 3 variables cualitativas, de esta informacin se tomo 100 registros con las siguientes variables:
Variable clave nombre f_nacim f_inclus genero Altura(X1) Peso(X2) Descripcin Clave de aleatorizacin Iniciales Fecha de nacimiento Fecha de inclusin Gnero Altura (cm) Peso en Kg. 0=Varn; 1=Mujer Codificacin

pad_ini(X3) Presin diastlica inicial pad_fin(X4) Presin diastlica final pas_ini(X5) Presin sistlica inicial pas_fin(X6) Presin sistlica final Imc(X7) Edad(X8) clasedad obesidad pam_ini pam_fin farmaco ndice de masa corporal Edad en aos Intervalos de edad Grado de obesidad Presin media inicial Presin media final Tratamiento aplicado 0=Placebo; 1=IECA; 2=Ca Antagonista + Diurtico 1=Muy bajo; 2=Normal; 3=Sobre peso; 4=Obeso

Anlisis de componentes principales (ACP)

Facultad de Ingeniera Ciencias Fsicas y Matemtica - Escuela de Ciencias Anlisis de Datos


Representacin Grfica Mediante histogramas representamos las variables individualmente.

Talla

Promedio Varianza Coeficiente de asimetra Coeficiente de curtosis Coeficiente de variabilidad Desviacin estndar

167,78 107,83 0,23 -0,60 0,06 10,38

Peso

Promedio Varianza Coeficiente de asimetra Coeficiente de curtosis Coeficiente de variabilidad Desviacin estndar

73,33 277,33 0,47 0,06 0,23 16,65

Presin diastlica inicial

Promedio Varianza Coeficiente de asimetra Coeficiente de curtosis Coeficiente de variabilidad Desviacin estndar

88,42 64,35 0,00 -0,40 0,09 8,02

Anlisis de componentes principales (ACP)

Facultad de Ingeniera Ciencias Fsicas y Matemtica - Escuela de Ciencias Anlisis de Datos


Presin diastlica final


Promedio Varianza Coeficiente de asimetra Coeficiente de curtosis Coeficiente de variabilidad Desviacin estndar 86,66 324,25 -0,16 -0,10 0,21 18,01

Presin sistlica inicial

Promedio Varianza Coeficiente de asimetra Coeficiente de curtosis Coeficiente de variabilidad Desviacin estndar

152,52 228,90 0,12 0,45 0,10 15,13

Presin sistlica final

Promedio Varianza Coeficiente de asimetra Coeficiente de curtosis Coeficiente de variabilidad Desviacin estndar

149,86 276,71 -0,06 -0,08 0,11 16,63

Edad

Promedio Varianza Coeficiente de asimetra Coeficiente de curtosis Coeficiente de variabilidad Desviacin estndar

43,63 93,57 0,03 -1,22 0,22 9,67

Anlisis de componentes principales (ACP)

Facultad de Ingeniera Ciencias Fsicas y Matemtica - Escuela de Ciencias Anlisis de Datos


Anlisis Estadstico Buscaremos un sub-espacio menor que p que contenga la mayor cantidad posible de informacin de la nube primitiva, y que se ajuste a la nube de puntos y la deforme lo menos posible. Mediante el siguiente proceso obtenemos Matriz de datos centrados (Archivo AdjuntoHoja BBDDCuantif) con la que se desarrollarn el resto de clculos. A continuacin se detalla los siguientes estadsticos para las 8 variables cuantitativas:
altura Media Error tpico Mediana Moda Desviacin estndar Varianza de la muestra Curtosis Coeficiente de asimetra Rango Mnimo Mximo Suma Cuenta 167,78 1,04 167,00 156,00 10,38 107,83 -0,60 0,23 48,00 146,00 194,00 100,00 peso 73,33 1,67 73,00 77,00 16,65 277,33 0,06 0,47 77,00 39,00 116,00 100,00 pad_ini 88,42 0,80 89,00 94,00 8,02 64,35 -0,40 0,00 38,00 70,00 108,00 100,00 pad_fin 86,66 1,80 87,00 102,00 18,01 324,25 -0,16 -0,10 93,00 42,00 135,00 100,00 pas_ini 152,52 1,51 152,00 162,00 15,13 228,90 0,45 0,12 84,00 108,00 192,00 100,00 pas_fin 149,86 1,66 151,50 157,00 16,63 276,71 -0,08 -0,06 79,00 114,00 193,00 100,00 imc 25,97 0,49 25,79 22,23 4,92 24,23 -0,83 -0,04 21,34 15,24 36,58 100,00 edad 43,63 0,97 43,50 57,00 9,67 93,57 -1,22 0,03 34,00 27,00 61,00 100,00

16778,00 7333,00 8842,00 8666,00 15252,00 14986,00 2596,85 4363,00

TCNICAUTILIZADA
El ACP consiste en la obtencin de los componentes o ejes principales, no correlacionados entre s. El clculo del primer componente, como una combinacin lineal de las p variables iniciales, se hace en base a la consecucin de la mxima varianza de los datos; as, el primer eje representa una proporcin de la varianza explicada de los individuos. Luego, el clculo del segundo eje, no correlacionado con el primero, es tambin una combinacin lineal de las variables y representa otra parte de la variacin explicada de los individuos. El proceso se desarrolla hasta conseguir el p-simo componente o eje. Cada uno de los componentes recoge una parte de la variacin de la nube original de los individuos. La mxima informacin posible contenida en una tabla de datos (variables medidas en escala de intervalo o de razn), usualmente, se presentan en forma grfica, en planos, formados con la combinacin de los primeros componentes principales. En estos planos se proyectan las nubes de puntos-variables o nubes de puntos-individuos con el fin de

Anlisis de componentes principales (ACP)

Facultad de Ingeniera Ciencias Fsicas y Matemtica - Escuela de Ciencias Anlisis de Datos


describir las interrelaciones existentes entre esas variables o entre los individuos y las variables. El primer plano del ACP est formado por los componentes, o ejes, 1 y 2. Cada componente debe ser interpretado de acuerdo a la importancia de las variables en cada uno de ellos. Proceso Obtenemos la matriz de Varianza-Covarianza:

Varianza-Covarianza(S) 3,29 16,60 10,49 -1,76 7,58 106,75 92,12 -1,88 92,12 274,56 -12,90 7,63 1,61 2,94 66,40 2,92 -1,88 -12,90 63,70 10,13 7,40 6,69 -4,37 0,09 3,29 7,63 10,13 321,00 191,25 264,57 2,41 -5,37 16,60 1,61 7,40 191,25 226,61 209,97 -4,26 9,84 10,49 2,94 6,69 264,57 209,97 273,94 -2,38 -0,66 -1,76 66,40 -4,37 2,41 -4,26 -2,38 23,99 -1,45 7,58 2,92 0,09 -5,37 9,84 -0,66 -1,45 92,63

Representando las varianzas su diagonal principal para cada variable y los dems valores son las covarianzas. La varianza total obtenida es: 1383,20 Calculamos los valores y vectores propios asociados a la matriz de Varianza-Covarianza

Valores Propios % de proporcionalidad 725,13 52,42 327,70 23,69 103,68 7,50 79,41 5,74 66,01 4,77 60,73 4,39 20,29 1,47 0,24 0,02

Seleccin de los valores propios principales

Anlisis de componentes principales (ACP)

Facultad de Ingeniera Ciencias Fsicas y Matemtica - Escuela de Ciencias Anlisis de Datos



Vectores propios 0,58 0,41 -0,17 -0,10 0,10 0,59 -0,27 0,41 0,29 -0,50 0,03 -0,05 -0,24 -0,17 -0,64 0,15

0,03 0,02 0,02 0,63 0,49 0,60 0,00 0,00

0,37 0,90 -0,05 -0,02 -0,01 -0,02 0,20 0,02

0,37 -0,13 0,04 -0,32 0,39 0,00 -0,17 0,75

0,37 -0,16 -0,79 0,24 -0,34 0,04 -0,17 0,07

0,03 -0,02 -0,05 0,45 0,39 -0,80 0,01 -0,03

0,29 -0,31 0,01 -0,01 -0,01 0,02 0,90 0,00

Cada uno de los vectores propios est normalizado. Adems existen 2 valores con mayor porcentaje respecto de la varianza total, anteriormente mencionada. Luego de analizar los valores propios hallamos dos componentes principales Z1 y Z2

La primera componente principal est mayormente representada por las variables X4 (Presin diastlica final), X5(Presin sistlica inicial) y X6(Presin sistlica final), por lo tanto los pacientes con mayor valor en estas variables su hipertensin arterial no est siguiendo el control necesario para que pueda evitarse su deceso. La segunda componente principal est mayormente relacionada con X2(Peso de los pacientes)

Estudio de los Individuos


Anlisis de componentes principales (ACP) 8

Facultad de Ingeniera Ciencias Fsicas y Matemtica - Escuela de Ciencias Anlisis de Datos


Las proyecciones de los individuos en la nueva base con su respectiva posicin.

El grfico nos indica que el porcentaje del peso influye en muchos de los pacientes al igual que el alto valor de cada una de las presiones tomadas, a priopi podemos ver quienes estn mejor agrupados con relacin a cada componente.

Anlisis de componentes principales (ACP)

Facultad de Ingeniera Ciencias Fsicas y Matemtica - Escuela de Ciencias Anlisis de Datos


Contribucin de cada individuo Primera Componente

La contribucin ms alta la tienen los individuos 88(7.2%) y 44(7.1%)

Anlisis de componentes principales (ACP)

10

Facultad de Ingeniera Ciencias Fsicas y Matemtica - Escuela de Ciencias Anlisis de Datos


Segunda Componente

La contribucin ms alta la tienen los individuos 19(6.1%), 39(6.6%), 70(6.1%)

Anlisis de componentes principales (ACP)

11

Facultad de Ingeniera Ciencias Fsicas y Matemtica - Escuela de Ciencias Anlisis de Datos


Estudio de las variables

El grfico muestra una estrecha relacin entre las variables peso, ndice de masa corporal, edad, estatura, con la segunda componente principal, mientras que las presiones (diastlica, sistlica) estn estrechamente relacionadas con la primera componente.

CONCLUSIONESYRECOMENDACIONES
Conclusiones Las componentes principales son combinaciones lineales de las variables originales. Los coeficientes de las combinaciones lineales son los elementos de los vectores caractersticos asociados a la matriz de covarianzas de las variables originales. Por tanto, la obtencin de componentes principales es un caso tpico de clculo de races y vectores caractersticos de una matriz simtrica. La primera componente se asocia al mayor valor propio asociada a la matriz de Varianza-Covarianza.

La segunda componente se asocia al siguiente valor propio mayor (descendente) asociado a la matriz de Varianza-Covarianza.

Anlisis de componentes principales (ACP)

12

Facultad de Ingeniera Ciencias Fsicas y Matemtica - Escuela de Ciencias Anlisis de Datos


Si se representan las variables originales, su proporcin de variabilidad total captada por una componente es igual a su valor propio dividido para el nmero de variables originales. Recomendaciones Se recomienda hacer una previa clasificacin del tipo de variable a usar (cuantitavas, cualitativas). Es necesario saber manejar software complementario para el anlisis de datos y comparacin de resultados, en este caso Complementos como: XLSTAT, Matrix

ANEXOS
CD-ROM: Clculos, Tablas y grficas estn anexados en el que se adjunta al informe, desarrollados con la ayuda de Excel 2003, Matrix(componente para Excel) y XLSTAT

FUENTEDECONSULTA
Pea D, (2002). Anlisis de datos multivariantes, Espaa. http://jjgibaja.wordpress.com/ http://cs.uns.edu.ar/~cic/dm2009/downloads/transparencias/01_dm.pdf

RESPONSABLE

Firma Quituisaca Samaniego Lilia

Anlisis de componentes principales (ACP)

13