Está en la página 1de 44

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/343862177

El Análisis multivariado: La técnica del análisis de componentes


principales con Infostat

Presentation · August 2020


DOI: 10.13140/RG.2.2.12324.50568

CITATIONS READS

0 828

2 authors:

Jacob E. Pitti Edilberto Montenegro


Universidad de Panamá Universidad de Panamá, Bocas del Toro
15 PUBLICATIONS 104 CITATIONS 13 PUBLICATIONS 128 CITATIONS

SEE PROFILE SEE PROFILE

All content following this page was uploaded by Jacob E. Pitti on 25 August 2020.

The user has requested enhancement of the downloaded file.


UNIVERSIDAD DE CÓRDOBA
Programa de doctorado
Ingeniería agrícola, alimentaria, forestal y del
desarrollo rural sostenible

El Análisis multivariado:
La técnica del análisis de
componentes principales con Infostat

Barlin Orlando Olivares

UCO-España
Espacio de dos dimensiones
Multiespacio con muchas dimensiones
Relación entre 2 variables
Correlación

▪ Examina el grado en que 2 variables varían a


la par.
▪ Por ejemplo:
▪ ¿existe una variación a la par entre el largo
de la nariz (x) y el largo de la oreja izquierda
(y)?
▪ La hipótesis nula sería:

▪ H0: x no se correlaciona con y


Correlación
Correlación

▪r = coeficiente de
correlación; provee una
medida de la dispersión
de los valores desde la
línea de mejor correlación
▪ y = a + bx; define la línea
de mejor correlación
▪ a = intercepto en y
▪ b = pendiente de la línea
de correlación
Cuando tratamos con más de 2
variables
▪ Son un conjunto de técnicas estadísticas que analizan
simultáneamente más de dos variables en una muestra
de observaciones (Kendall, 1975).

▪ estudia, interpreta y elabora el material estadístico


sobre la base de un conjunto de n>1 variables, que
pueden ser de tipo cuantitativo, cualitativo o una
mezcla de ambos (Cuadras, 1981).

▪ es el cuerpo metodológico para estudiar medidas


simultáneas de varias variables (Johnson & Wichern,
1994)
Métodos descriptivos:
Aproximación a la realidad sin ninguna hipótesis previa, se observan
los datos en busca de nuevos conocimientos.
Ordenamientos, análisis de cluster o conglomerados, escalamiento
multidimensional, análisis de correspondencia, análisis de componentes
principales, análisis factorial exploratorio.
Métodos confirmatorios:
Basados en un marco teórico que justifica y fundamenta hipótesis que
se intentan validar empíricamente.
Análisis multivariado de la varianza (MANOVA), regresión multivariada-
PLS, análisis discriminante, análisis factorial confirmatorio.
Reducción de Dimensión

ANÁLISIS DE COMPONENTES
PRINCIPALES
Análisis de componentes principales (ACP)

“mirar a los datos para ver que pretenden decir” (John Tukey ,1977)

Podemos ver en 3D pero no más allá!!!!

Para entender que está pasando en dimensiones mayores

Técnicas de reducción de dimensión

Una proyección de los datos a un espacio en el


que podemos visualizarlos
Fuente: Balzarini et al. 2015
INFOSTAT

https://www.infostat.com.ar/
Componentes Principales

El ACP se utiliza para explicar la estructura de varianza-


covarianza de un conjunto de variables mediante unas pocas
combinaciones lineales de estas variables

Objetivos:
• Reducir dimensión mediante obtención de un numero
pequeño de variables no correlacionadas que explican casi toda
la información (variabilidad) presente en las variables originales.
• Interpretar variables no correlacionadas.

Fuente: Balzarini et al. 2015


Componentes Principales

✓Explica la variabilidad entre observaciones e identifica las variables


de mayor peso en esa diferenciación. El ACP trabaja con S o R.
✓En general X es una matrix n×p de rango p y S es simétrica y
definida positiva →tiene p autovalores reales y positivos.
✓La simetría de S implica que cada par de autovectores asociado a
distintos autovalores son ortogonales entre sí.
✓Usando estas propiedades, el ACP transforma un conjunto de
variables correlacionadas (variables originales) en otro conjunto de
variables no correlacionadas, denominadas componentes principales.
✓Las componentes principales son variables sintéticas que colapsan la
información contenida en el conjunto de variables.

Fuente: Balzarini et al. 2015


Componentes Principales

Los ejes artificiales (CP) permiten obtener gráficos de


dispersión de observaciones y/o variables con propiedades
óptimas para la interpretación de la variabilidad y co-
variabilidad subyacente

Visualizar observaciones Analizar variabilidad.


multivariadas en espacios Identificar asociaciones entre
de dos dimensiones observaciones, entre variables,
(facilitar interpretación) entre variables y obs.

Fuente: Balzarini et al. 2015


Algunas aplicaciones
Algunas aplicaciones
Algunas aplicaciones
Algunas aplicaciones
Algunas aplicaciones
Algunas aplicaciones
Algunas aplicaciones
Algunas aplicaciones
Algunas aplicaciones
Algunas aplicaciones
Ejercicio
Ejercicio 1
Base de datos: El archivo EMPLEOS.IDB (datos prueba de infostat)

Descripción de los datos: datos de porcentaje de empleo en distintos sectores


laborales para un conjunto de países Europeos. Las columnas del archivo
correspondientes a los sectores laborales son:

AGR: agricultura
MIN: mineria
MAN: manufactura
PS: previsión social
SER: servicios
FIN:finanzas
SPS:Seguros
TC: transporte y comunicación.

Realizar un análisis de componentes principales y gráfico Biplot. Interpretar los


resultados, ejercitar la forma de redacción para reporte de resultados que es
típica de este tipo de análisis.

Fuente: Balzarini et al. 2015


Ejercicio 2
Base de datos: El archivo Proteinas.ibd (se puede encontrar en datos de
prueba de Infostat) contiene los porcentajes en que fuentes de proteína
participan de la dieta promedio de los habitantes de 25 países europeos.

3.1 Discuta si corresponde utilizar la matriz de covarianzas o


correlación para el análisis de componentes principales de estos datos.

3.2 ¿Es posible reducir la dimensionalidad del espacio original?

3.3 Observando el Biplot discuta como los países se agrupan y en


función de que hábitos alimentarios.

Fuente: Balzarini et al. 2015


Ejercicio 3
ANÁLISIS DE CORRESPONDENCIA SIMPLE

Base de datos: Alcoholismo.IDB2 (se encuentra en Datos de prueba de Infostat)

Descripción de los datos: La base contiene de datos contiene los resultados de un


estudio que aborda la caracterización de personas con problemas relacionados con
el alcohol desde características sociodemográficas y psicológicas. Se relevaron un
conjunto de variables categorizadas tales como sexo, edad, ocupación, estado civil,
motivo de consulta y diagnóstico del paciente al entrar al centro de rehabilitación.
Los datos son gentileza de Yolanda Prados y Graciela Diosque, Facultad de
Psicología, U.N.C.

Fuente: Balzarini et al. 2015


Ejercicio 3
ANÁLISIS DE CORRESPONDENCIA SIMPLE
Variables:

genero= masculino (Masc.), femenino (Fem)

edad = joven (Jov) menores de 30 años,


mediana (Med) entre 30 y 50 años,
mayor (May) mayores de 50 años.

Estado civil= casado/a (EC-Cas),


soltero/a (EC-Sol),
separado/a (EC-Sep) ,
viudo/a (EC-Viu),
unido/a de hecho (EC-UnH)

Ocupación= empleado/a (O-Emp), desocupado/a (O-Des), jubilado/a (O-Jub),


profesional (O-Pro), subempleado/a(O-Sub), ama de casa (O-Ama), indepediente (O-
Ind).
motivo= motivo de consulta; C-Far (uso de fármacos), C-Sus (uso de sustancias que
generan adición), C-Der (derivados de otros consultorios), C-Des (deseos de dejar de
beber), C-Alc (consumo de alcohol), C-EsA(estado de ánimo), C-Vio (violencia familiar),
C-Fis (síntomas físicos). Fuente: Balzarini et al. 2015
Ejercicio 3
ANÁLISIS DE CORRESPONDENCIA SIMPLE

Realice un AC simple para estudiar la asociación entre motivo de consulta y edad de las
personas relevadas.

2.1) Observando las tablas de frecuencias obtenidas:

2.1.1) ¿cuantas personas menores de 30 años (Jov) consultaron por Consumo de


Fármacos?
2.1.2) ¿cuántas personas en total consultaron por consumo de alcohol?
2.1.3) Del total de personas que consultaron por consumo de alcohol, ¿qué porcentaje
corresponde a mayores de 50 años?
2.1.4) Cuántos pacientes de entre 30 y 50 años (Med) participaron en el estudio?
2.1.5) ¿Qué porcentaje de los pacientes mayores a 50 años fueron derivados de otros
consultorios?

2.2) ¿Qué porcentaje de inercia tiene el primer eje obtenido?

2.3) Realice un gráfico donde se visualicen las dos dimensiones del AC simple de la tabla
decontingencia correspondiente al cruce de las variables “edad” y “motivo de consulta”

Fuente: Balzarini et al. 2015


Literatura consultada
Balzarini M., Bruno C., Córdoba M., & Teich I. (2015). Herramientas en el Análisis
Estadístico Multivariado. Escuela Virtual Internacional (CAVILA). Córdoba, Argentina:
Facultad de Ciencias Agropecuarias, Universidad Nacional de Córdoba.

Chong, J., & Xia, J. (2018). MetaboAnalystR: an R package for flexible and reproducible
analysis of metabolomics data. Bioinformatics, 34(24): 4313–4314. doi
https://doi.org/10.1093/bioinformatics/bty528

Chong, J., Wishart, D. S., & Xia, J. (2019). Using metaboanalyst 4.0 for comprehensive and
integrative metabolomics data analysis. Current Protocols in Bioinformatics, 68, e86. doi:
10.1002/cpbi.86

Demey, J., Adams, M., & Freites, H. (1994). Uso del método de análisis de componentes
principales para la caracterización de fincas agropecuarias. Agronomía Tropical, 44, 475-
497. Recuperado de
http://sian.inia.gob.ve/revistas_ci/Agronomia%20Tropical/at4403/Arti/demey_j.htm

Olivares, B. & Franco, E. (2015). Diagnostico agrosocial de la comunidad indígena de


Kashaama: Un estudio empírico en el estado Anzoátegui, Venezuela. Revista Científica
Guillermo de Ockham, 13(1), 87-95. Recuperado de
https://dialnet.unirioja.es/servlet/articulo?codigo=6456421
Literatura consultada
Olivares, B. (2014). Aplicación del Análisis de Componentes Principales (ACP) en el
diagnóstico socio ambiental. Caso: sector Campo Alegre, municipio Simón Rodríguez de
Anzoátegui. Revista Multiciencias, 14(4), 364-374. Recuperado de
http://www.redalyc.org/articulo.oa?id=904/90433839011

Olivares, B. (2016). Descripción del manejo de suelos en sistemas de producción agrícola


del sector Hamaca de Anzoátegui, Venezuela. La Granja: Revista de Ciencias de la Vida,
23(1), 14-24. doi https://doi.org/10.17163/lgr.n23.2016.02

Olivares, B. Parra, R & Cortez, A. (2017). Characterization of precipitation patterns in


Anzoátegui state, Venezuela. Ería. 3 (3): 353-365. Disponible en
https://www.unioviedo.es/reunido/index.php/RCG/article/download/10840/11547

Olivares, B., Guevara, E., & Demey, J. (2012). Utilización de bioindicadores climáticos en
sistemas de producción agrícola del estado Anzoátegui, Venezuela. Revista Multiciencias,
12(2), 136-145. Recuperado de http://www.redalyc.org/articulo.oa?id=90424216003

Olivares, B., Lobo, D., Cortez, A., Rodríguez, M. F. & Rey, J. C. (2017). Socio-economic
characteristics and methods of agricultural production of indigenous community
Kashaama, Anzoátegui, Venezuela. Revista de la Facultad de Agronomía (LUZ), 34(2),
187-215.
Literatura consultada
Olivares, B., Parra, R., Cortez, A., & Rodríguez, M. F. (2012). Patrones de homogeneidad
pluviométrica en estaciones climáticas del estado Anzoátegui, Venezuela. Revista Multiciencias,
12(Extraordinario), 11-17

Olivares, B., Zingaretti, M. L., Demey Zambrano, J. A., & Demey, J. R. (2016). Tipificación de los
sistemas de producción agrícola y la percepción de la variabilidad climática en Anzoátegui,
Venezuela. Revista FAVE - Ciencias Agrarias, 15(2), 39-50. doi:
https://doi.org/10.14409/fa.v15i2.6587

Pitti, J. E., Cabrigot, M., & Quintero, E. (2019). Ecoemprendimiento turístico: Una estrategia de
economía aplicada hacia el desarrollo sostenible en territorios indígenas de Panamá. Port Louis,
Mauritius: Editorial Académica Española.

Pla, L. E. (1986). Análisis multivariado: método de componentes principales. Washington, USA:


Organización de Estados Americanos (OEA).

R CORE TEAM. (2015). R: A Language and Environment for Statistical Computing. R Foundation
for Statistical Computing, Vienna, Austria.

Rodríguez, M. F., Cortez, A., Olivares, B., Rey, J. C, Parra, R., & Lobo, D. (2013). Análisis espacio
temporal de la precipitación del estado Anzoátegui y sus alrededores. Agronomía Tropical, 63(1-2),
57-65. Recuperado de
http://sian.inia.gob.ve/revistas_ci/Agronomia%20Tropical/at63_12/pdf/at63_12_rodriguez.pdf
Literatura consultada
Olivares, B. 2015. Implementación de la red social Facebook como recurso didáctico en el
aprendizaje colaborativo de estudiantes universitarios. Revista de Estudios y Experiencias en
Educación. 14 (27): 121-136.

Olivares, B. 2014. Sistematización del conocimiento ancestral y tradicional de la etnia Kariña


en el estado Anzoátegui, Venezuela. Revista de Investigación. 82 (38): 89-102.

Olivares, B. 2012. Valorización del conocimiento ancestral y local mediante la percepción del
clima en comunidades agrícolas indígenas del Sur de Anzoátegui, Venezuela. Revista UDO
Agrícola. 12 (2):407-417.

Olivares, B., Guevara, E. y Demey, J. 2012. Uso y demanda de información agrometeorológica


en los sistemas de producción agrícola en Anzoátegui, Venezuela. Revista Multiciencias. 12
(4): 372-381.
Oportunidades de Beca
Oportunidades de Beca
Organización Internacional Ítalo-Latino Americana
Italia
Oportunidades de Beca

Organización de Estados Americanos (OEA)


Brasil
Oportunidades de Beca

Asociación Universitaria Iberoamericana de Postgrado (AUIP)


España
Oportunidades de Beca

Fundación Carolina
España
Oportunidades de Beca

Banco Santander
Iberoamérica
Oportunidades de Beca

Universidad Internacional de Andalucía


España

View publication stats

También podría gustarte