Está en la página 1de 13

Facultad de Ingeniería Ciencias Físicas y Matemática - Escuela de Ciencias Análisis de Datos

Facultad de Ingeniería Ciencias Físicas y Matemática - Escuela de Ciencias Análisis de Datos

INTRODUCCIÓN

2

OBJETIVOS

2

ANÁLISIS DE LOS DATOS

3

TÉCNICA UTILIZADA

. 6

CONCLUSIONES Y RECOMENDAC IONES

12

ANEXOS

13

FUENTE DE CONSULTA

13

Facultad de Ingeniería Ciencias Físicas y Matemática - Escuela de Ciencias Análisis de Datos

Facultad de Ingeniería Ciencias Físicas y Matemática - Escuela de Ciencias Análisis de Datos

INTRODUCCIÓN

Cuando se requiere estudiar un fenómeno social o físico de forma estadística es necesario no sólo enfocar cada una de las variables a investigar de forma individual, ya que debido a las diferentes complejidades que puede presentar este fenómeno es necesario que el investigador realice un análisis que considere grupos de variables para interpretar su comportamiento de forma conjunta, esta metodología se denomina Análisis Multivariado.

Una de las técnicas es el Análisis de Componentes Principales (ACP), donde se asume las relaciones lineales entre las variables numéricas.

Una matriz de datos es un arreglo rectangular de números dispuestos en n filas y p columnas que representan n observaciones de las p variables aleatorias observadas. Cuando el tamaño de la población investigada y el número de variables es muy grande se obtiene como resultado una matriz de datos de gran dimensión, lo que constituye un inconveniente que puede ser resuelto utilizando la Técnica Multivariada Componentes Principales, cuyo objetivo es la reducción e interpretación de los datos.

Una Componente Principal es una combinación lineal de p variables aleatorias observadas que cumple con ciertas restricciones. Geométricamente esta combinación lineal constituye la elección de un nuevo sistema de coordenadas obtenido al rotar el sistema original, tal que los nuevos ejes representen la dirección de máxima variabilidad.

El método permite interpretar la estructura de varianzas-covarianzas de un conjunto de p variables, a través de unas pocas q componentes principales formadas a partir de esas p variables, y de esta manera se logra la reducción de datos, pasando de una matriz original de n observaciones de p variables aleatorias a otra de n observaciones de q componentes principales.

OBJETIVOS

Objetivo principal

Transformar un conjunto de n observaciones y p variables en un nuevo conjunto, con un número menor de variables dado por las componentes principales.

Objetivos secundarios

Conocer

representativas.

el

porcentaje

que

representa

las

componentes

principales

más

Conseguir una representación simplificada de los datos.

Facultad de Ingeniería Ciencias Físicas y Matemática - Escuela de Ciencias Análisis de Datos

Facultad de Ingeniería Ciencias Físicas y Matemática - Escuela de Ciencias Análisis de Datos

ANÁLISIS DE LOS DATOS

Planteamiento del problema

Disponemos de una población de 100 individuos con la siguiente información (sólo variables cuantitativas):

Se requiere conocer la relación existente entre la talla, peso, presión diastólica inicial, presión diastólica final, presión sistólica inicial, presión sistólica final, índice de masa corporal, edad de cada uno de los individuos con la hipertensión, es decir, un estudio de los factores de riesgo en hipertensión arterial.

El diseño es de tipo caso-control.

Análisis Descriptivo

Se dispone de una base de datos, de la cual hemos sacado 8 variables cuantitativas y 3 variables cualitativas, de esta información se tomo 100 registros con las siguientes variables:

Variable

Descripción

Codificación

clave

Clave de aleatorización

 

nombre

Iniciales

 

f_nacim

Fecha de nacimiento

 

f_inclus

Fecha de inclusión

 

genero

Género

0=Varón; 1=Mujer

Altura(X1)

Altura (cm)

 

Peso(X2)

Peso en Kg.

 

pad_ini(X3)

Presión diastólica inicial

 

pad_fin(X4)

Presión diastólica final

 

pas_ini(X5)

Presión sistólica inicial

 

pas_fin(X6)

Presión sistólica final

 

Imc(X7)

Índice de masa corporal

 

Edad(X8)

Edad en años

 

clasedad

Intervalos de edad

 

obesidad

Grado de obesidad

1=Muy bajo; 2=Normal; 3=Sobre peso; 4=Obeso

pam_ini

Presión media inicial

 

pam_fin

Presión media final

 

farmaco

Tratamiento aplicado

0=Placebo; 1=IECA; 2=Ca Antagonista + Diurético

Facultad de Ingeniería Ciencias Físicas y Matemática - Escuela de Ciencias Análisis de Datos

Facultad de Ingeniería Ciencias Físicas y Matemática - Escuela de Ciencias Análisis de Datos

Representación Gráfica

Mediante histogramas representamos las variables individualmente.

Talla

representamo s las variables individualmente. Talla Peso   Promedio 167,78 Varianza 107,83

Peso

representamo s las variables individualmente. Talla Peso   Promedio 167,78 Varianza 107,83
 

Promedio

167,78

Varianza

107,83

Coeficiente de asimetría

0,23

Coeficiente de curtosis

-0,60

Coeficiente de variabilidad

0,06

Desviación estándar

10,38

Promedio

73,33

Varianza

277,33

Coeficiente de asimetría

0,47

Coeficiente de curtosis

0,06

Coeficiente de variabilidad

0,23

Desviación estándar

16,65

Presión diastólica inicial

Desviación estándar 16,65 Presión diastólica inicial Promedio 88,42 Varianza 64,35 Coeficiente de

Promedio

88,42

Varianza

64,35

Coeficiente de asimetría

0,00

Coeficiente de curtosis

-0,40

Coeficiente de variabilidad

0,09

Desviación estándar

8,02

Facultad de Ingeniería Ciencias Físicas y Matemática - Escuela de Ciencias Análisis de Datos

Facultad de Ingeniería Ciencias Físicas y Matemática - Escuela de Ciencias Análisis de Datos

Presión diastólica final

de Ciencias Análisis de Datos Presión diastólica final Presión sistólica inicial Presión sistólica final Edad

Presión sistólica inicial

Datos Presión diastólica final Presión sistólica inicial Presión sistólica final Edad Promedio 86,66

Presión sistólica final

final Presión sistólica inicial Presión sistólica final Edad Promedio 86,66 Varianza 324,25

Edad

Presión sistólica inicial Presión sistólica final Edad Promedio 86,66 Varianza 324,25 Coeficiente de

Promedio

86,66

Varianza

324,25

Coeficiente de asimetría

-0,16

Coeficiente de curtosis

-0,10

Coeficiente de variabilidad

0,21

Desviación estándar

18,01

Promedio

152,52

Varianza

228,90

Coeficiente de asimetría

0,12

Coeficiente de curtosis

0,45

Coeficiente de variabilidad

0,10

Desviación estándar

15,13

Promedio

149,86

Varianza

276,71

Coeficiente de asimetría

-0,06

Coeficiente de curtosis

-0,08

Coeficiente de variabilidad

0,11

Desviación estándar

16,63

Promedio

43,63

Varianza

93,57

Coeficiente de asimetría

0,03

Coeficiente de curtosis

-1,22

Coeficiente de variabilidad

0,22

Desviación estándar

9,67

Facultad de Ingeniería Ciencias Físicas y Matemática - Escuela de Ciencias Análisis de Datos

Facultad de Ingeniería Ciencias Físicas y Matemática - Escuela de Ciencias Análisis de Datos

Análisis Estadístico

Buscaremos un sub-espacio menor que p que contenga la mayor cantidad posible de información de la nube primitiva, y que se ajuste a la nube de puntos y la deforme lo menos posible.

Mediante el siguiente proceso obtenemos Matriz de datos centrados (Archivo Adjunto- Hoja BBDDCuantif) con la que se desarrollarán el resto de cálculos.

A continuación se detalla los siguientes estadísticos para las 8 variables cuantitativas:

 

altura

peso

pad_ini

pad_fin

pas_ini

pas_fin

imc

edad

Media

167,78

73,33

88,42

86,66

152,52

149,86

25,97

43,63

Error típico

1,04

1,67

0,80

1,80

1,51

1,66

0,49

0,97

Mediana

167,00

73,00

89,00

87,00

152,00

151,50

25,79

43,50

Moda

156,00

77,00

94,00

102,00

162,00

157,00

22,23

57,00

Desviación estándar

10,38

16,65

8,02

18,01

15,13

16,63

4,92

9,67

Varianza de la muestra

107,83

277,33

64,35

324,25

228,90

276,71

24,23

93,57

Curtosis

-0,60

0,06

-0,40

-0,16

0,45

-0,08

-0,83

-1,22

Coeficiente de asimetría

0,23

0,47

0,00

-0,10

0,12

-0,06

-0,04

0,03

Rango

48,00

77,00

38,00

93,00

84,00

79,00

21,34

34,00

Mínimo

146,00

39,00

70,00

42,00

108,00

114,00

15,24

27,00

Máximo

194,00

116,00

108,00

135,00

192,00

193,00

36,58

61,00

Suma

16778,00

7333,00

8842,00

8666,00

15252,00

14986,00

2596,85

4363,00

Cuenta

100,00

100,00

100,00

100,00

100,00

100,00

100,00

100,00

TÉCNICA UTILIZADA

El ACP consiste en la obtención de los componentes o ejes principales, no correlacionados entre sí. El cálculo del primer componente, como una combinación lineal de las p variables iniciales, se hace en base a la consecución de la máxima varianza de los datos; así, el primer eje representa una proporción de la varianza explicada de los individuos.

Luego, el cálculo del segundo eje, no correlacionado con el primero, es también una combinación lineal de las variables y representa otra parte de la variación explicada de los individuos. El proceso se desarrolla hasta conseguir el p-ésimo componente o eje.

Cada uno de los componentes recoge una parte de la variación de la nube original de los individuos.

La máxima información posible contenida en una tabla de datos (variables medidas en escala de intervalo o de razón), usualmente, se presentan en forma gráfica, en planos, formados con la combinación de los primeros componentes principales. En estos planos se proyectan las nubes de puntos-variables o nubes de puntos-individuos con el fin de

Facultad de Ingeniería Ciencias Físicas y Matemática - Escuela de Ciencias Análisis de Datos

Facultad de Ingeniería Ciencias Físicas y Matemática - Escuela de Ciencias Análisis de Datos

describir las interrelaciones existentes entre esas variables o entre los individuos y las variables.

El primer plano del ACP está formado por los componentes, o ejes, 1 y 2. Cada componente debe ser interpretado de acuerdo a la importancia de las variables en cada uno de ellos.

Proceso

Obtenemos la matriz de Varianza-Covarianza:

ellos. Proceso Obtenemos la matriz de Varianza-Covarianza:   Varianza-Covarianza(S)   106,75 92,12
 

Varianza-Covarianza(S)

 

106,75

92,12

-1,88

3,29

16,60

10,49

-1,76

7,58

92,12

274,56

-12,90

7,63

1,61

2,94

66,40

2,92

-1,88

-12,90

63,70

10,13

7,40

6,69

-4,37

0,09

3,29

7,63

10,13

321,00

191,25

264,57

2,41

-5,37

16,60

1,61

7,40

191,25

226,61

209,97

-4,26

9,84

10,49

2,94

6,69

264,57

209,97

273,94

-2,38

-0,66

-1,76

66,40

-4,37

2,41

-4,26

-2,38

23,99

-1,45

7,58

2,92

0,09

-5,37

9,84

-0,66

-1,45

92,63

Representando las varianzas su diagonal principal para cada variable y los demás valores son las covarianzas.

La varianza total obtenida es: 1383,20

Calculamos los valores y vectores propios asociados a la matriz de Varianza-Covarianza

propios as ociados a la matriz de Varianza-Covarianza Valores Propios % de proporcionalidad 725,13 52,42
Valores Propios % de proporcionalidad 725,13 52,42 327,70 23,69 103,68 7,50 79,41 5,74 66,01 4,77
Valores Propios
% de proporcionalidad
725,13
52,42
327,70
23,69
103,68
7,50
79,41
5,74
66,01
4,77
60,73
4,39
20,29
1,47
0,24
0,02
Selección de los valores propios
principales

Facultad de Ingeniería Ciencias Físicas y Matemática - Escuela de Ciencias Análisis de Datos

Facultad de Ingeniería Ciencias Físicas y Matemática - Escuela de Ciencias Análisis de Datos
 

Vectores propios

 

0,03

0,37

0,37

0,58

0,41

0,37

0,03

0,29

0,02

0,90

-0,13

-0,17

-0,10

-0,16

-0,02

-0,31

0,02

-0,05

0,04

0,10

0,59

-0,79

-0,05

0,01

0,63

-0,02

-0,32

-0,27

0,41

0,24

0,45

-0,01

0,49

-0,01

0,39

0,29

-0,50

-0,34

0,39

-0,01

0,60

-0,02

0,00

0,03

-0,05

0,04

-0,80

0,02

0,00

0,20

-0,17

-0,24

-0,17

-0,17

0,01

0,90

0,00

0,02

0,75

-0,64

0,15

0,07

-0,03

0,00

Cada uno de los vectores propios está normalizado.

existen

anteriormente mencionada.

Además

2

valores

con

mayor

porcentaje

respecto

de

la

varianza

total,

Luego de analizar los valores propios hallamos dos componentes principales Z1 y Z2

propios halla mos dos componentes principales Z1 y Z2 La primera componente principal está mayor mente
propios halla mos dos componentes principales Z1 y Z2 La primera componente principal está mayor mente
propios halla mos dos componentes principales Z1 y Z2 La primera componente principal está mayor mente

La primera componente principal está mayormente representada por las variables X4 (Presión diastólica final), X5(Presión sistólica inicial) y X6(Presión sistólica final), por lo tanto los pacientes con mayor valor en estas variables su hipertensión arterial no está siguiendo el control necesario para que pueda evitarse su deceso.

La segunda componente principal está mayormente relacionada con X2(Peso de los pacientes)

Estudio de los Individuos

Facultad de Ingeniería Ciencias Físicas y Matemática - Escuela de Ciencias Análisis de Datos

Facultad de Ingeniería Ciencias Físicas y Matemática - Escuela de Ciencias Análisis de Datos

Las proyecciones de los individuos en la nueva base con su respectiva posición.

individuos en la nueva base con su respectiva posición. El gráfico nos indica que el porcentaje

El gráfico nos indica que el porcentaje del peso influye en muchos de los pacientes al igual que el alto valor de cada una de las presiones tomadas, a priopi podemos ver quienes están mejor agrupados con relación a cada componente.

Facultad de Ingeniería Ciencias Físicas y Matemática - Escuela de Ciencias Análisis de Datos

y Matemática - Escuela de Ciencias Análisis de Datos Contribución de cada individuo Primera Componente La

Contribución de cada individuo

Primera Componente

de Datos Contribución de cada individuo Primera Componente La contribución más alta la tienen los individuos
de Datos Contribución de cada individuo Primera Componente La contribución más alta la tienen los individuos

La contribución más alta la tienen los individuos 88(7.2%) y 44(7.1%)

Facultad de Ingeniería Ciencias Físicas y Matemática - Escuela de Ciencias Análisis de Datos

y Matemática - Escuela de Ciencias Análisis de Datos Segunda Componente La contribución más alta la

Segunda Componente

- Escuela de Ciencias Análisis de Datos Segunda Componente La contribución más alta la tienen los
- Escuela de Ciencias Análisis de Datos Segunda Componente La contribución más alta la tienen los

La contribución más alta la tienen los individuos 19(6.1%), 39(6.6%), 70(6.1%)

Facultad de Ingeniería Ciencias Físicas y Matemática - Escuela de Ciencias Análisis de Datos

Facultad de Ingeniería Ciencias Física s y Matemática - Escuela de Ciencias Análisis de Datos

Estudio de las variables

de Ciencias Análisis de Datos Estudio de las variables El gráfico muestra una estrecha relación entre

El gráfico muestra una estrecha relación entre las variables peso, índice de masa corporal, edad, estatura, con la segunda componente principal, mientras que las presiones (diastólica, sistólica) están estrechamente relacionadas con la primera componente.

CONCLUSIONES Y RECOMENDACIONES

Conclusiones

Las componentes principales son combinaciones lineales de las variables originales.

Los coeficientes de las combinaciones lineales son los elementos de los vectores característicos asociados a la matriz de covarianzas de las variables originales. Por tanto, la obtención de componentes principales es un caso típico de cálculo de raíces y vectores característicos de una matriz simétrica.

La primera componente se asocia al mayor valor propio asociada a la matriz de Varianza-Covarianza.

valor propio asociada a la matriz de Varianza-Covarianza. • La segunda componente se asocia al sigu

La segunda componente se asocia al siguiente valor propio mayor (descendente) asociado a la matriz de Varianza-Covarianza.

propio mayor (descendente) asociado a la matriz de Varianza-Covarianza. Análisis de componentes principales (ACP) 12

Facultad de Ingeniería Ciencias Físicas y Matemática - Escuela de Ciencias Análisis de Datos

Facultad de Ingeniería Ciencias Física s y Matemática - Escuela de Ciencias Análisis de Datos

Si se representan las variables originales, su proporción de variabilidad total captada por una componente es igual a su valor propio dividido para el número de variables originales.

Recomendaciones

Se recomienda hacer una previa clasificación del tipo de variable a usar (cuantitavas, cualitativas).

Es necesario saber manejar software complementario para el análisis de datos y comparación de resultados, en este caso Complementos como: XLSTAT, Matrix

ANEXOS

CD-ROM:

Cálculos, Tablas y gráficas están anexados en el que se adjunta al informe, desarrollados con la ayuda de Excel 2003, Matrix(componente para Excel) y XLSTAT

FUENTE DE CONSULTA

Peña D, (2002). Análisis de datos multivariantes, España.

http://jjgibaja.wordpress.com/

http://cs.uns.edu.ar/~cic/dm2009/downloads/transparencias/01_dm.pdf

RESPONSABLE

Firma Quituisaca Samaniego Lilia