Está en la página 1de 5

Universidad Técnica Federico Santa María

Probabilidad y Estadística

Lectura Laboratorio N°6

Análisis de Componentes Principales


Definición
El Análisis de Componentes Principales (ACP) es una técnica estadística de síntesis de la
información, o reducción de la dimensión (número de variables). El ACP se puede realizar solo a
variables continuas ya que si se introducen variables categóricas, los resultados pierden validez
estadística. Ante una base de datos con muchas variables, el objetivo será reducirlas a un menor
número perdiendo la menor cantidad de información posible. Los nuevos componentes principales
o factores serán una combinación lineal de las variables continuas originales, y además serán
independientes entre sí. Un aspecto clave en ACP es la interpretación de los factores, ya que ésta
no viene dada a priori, sino que será deducida tras observar la relación de los factores con las
variables iniciales (habrá, pues, que estudiar tanto el signo como la magnitud de las correlaciones).

Fases de un análisis de componentes principales


1. Análisis de la matriz de correlaciones

Un análisis de componentes principales tiene sentido si existen altas correlaciones entre las
variables, ya que esto es indicativo de que existe información redundante y, por tanto, pocos
factores explicarán gran parte de la variabilidad total.

2. Selección de los factores

La elección de los factores se realiza de tal forma que el primero recoja la mayor proporción
posible de la variabilidad original; el segundo factor debe recoger la máxima variabilidad
posible no recogida por el primero, y así sucesivamente. Del total de factores se elegirán
aquéllos que recojan el porcentaje de variabilidad que se considere suficiente. A éstos se les
denominará componentes principales.

3. Análisis de la matriz factorial

Una vez seleccionados los componentes principales, se representan en forma de matriz. Cada
elemento de ésta representa los coeficientes factoriales de las variables (las correlaciones
entre las variables y los componentes principales). La matriz tendrá tantas columnas como
componentes principales y tantas filas como variables.
Universidad Técnica Federico Santa María
Probabilidad y Estadística

4. Interpretación de los factores


Para que un factor sea fácilmente interpretable debe tener las siguientes características, que
son difíciles de conseguir:
 Los coeficientes factoriales deben ser próximos a 1.
 Una variable debe tener coeficientes elevados sólo con un factor.
 No deben existir factores con coeficientes similares.

5. Cálculo de las puntuaciones factoriales


Son las puntuaciones que tienen los componentes principales para cada caso, que permitirá su
representación gráfica.

Los datos de varianza explicada son muy importantes para saber cuántos componentes principales
se va a utilizar en el análisis. No hay una regla definida sobre el número que se debe utilizar, es por
eso que se deberá decidir en función del número de variables iniciales (hay que recordar que se
trata de reducirlas en la medida de lo posible) y de la proporción de varianza explicada acumulada.
Es por eso que se escogen aquellos componentes que explican la mayor cantidad de variabilidad
de los datos.

Análisis Factorial
Definición
El Análisis Factorial es una técnica que consiste en resumir la información contenida en una matriz
de datos con V variables. Para ello se identifican un reducido número de factores F, siendo el
número de factores menor que el número de variables. Los factores representan a las variables
originales, con una pérdida mínima de información.

El Análisis Factorial (método factor principal) supone que existe un factor común subyacente a las
variables. Este método busca factores que expliquen la mayor parte de la varianza común. La
varianza común es la parte de la variación de la variable que es compartida con las otras variables.
La varianza única es la parte de la variación de la variable que es propia de esa variable.
Universidad Técnica Federico Santa María
Probabilidad y Estadística

Para que el Análisis Factorial tenga sentido deberían cumplirse dos condiciones básicas:
Parsimonia e Interpretabilidad. Según el principio de parsimonia el número de factores debe ser
lo más reducido posible y estos deben ser susceptibles de interpretación sustantiva. Una buena
solución factorial es aquella que es sencilla e interpretable.

Se asume que los factores únicos no están correlacionados entre sí ni con los factores comunes. Se
puede distinguir entre Análisis Factorial Exploratorio, donde no se conocen los factores "a priori“
sino que se identifican por el análisis factorial y, por otro lado estaría el Análisis Confirmatorio
donde se propone "a priori" un modelo, según el cual hay unos factores que representan mejor a
las variables originales.

Análisis de Correspondencias
Definición
El Análisis de Correspondencias es una técnica estadística descriptiva cuyo objetivo es poder
realizar un análisis, desde un punto de vista gráfico, de las relaciones de independencia y
dependencia de un conjunto de variables categoricas u ordinales. Este análisis se obtiene a partir
de los datos obtenidos en una Tabla de contingencia. Por medio de un análisis gráfico
bidimensional, se puede ver la asociación entre dos o más variables. Cuando el grado de
asociación es alto, en el gráfico estas variables aparecen relativamente juntas.
Existen dos tipos análisis de correspondencia que varía de acuerdo al número de dimensiones con
las que se trabaje:

- Simple: Cuando se trabaja con dos dimensiones.


- Múltiple: Cuando se trabaja con mas de dos dimensiones.

Para la realización de este Laboratorio, solo se trabajará con los análisis de correspondencia simple
de dos variables. Esta es una técnica para representar las categorías de las dos variables en un
espacio de pequeña dimensión que permita interpretar, por un lado, las similitudes entre las
categorías respecto a las categorías de la otra, y por otro lado, las relaciones entre las categorías
de ambas variables.
Universidad Técnica Federico Santa María
Probabilidad y Estadística

Objetivo
El análisis de correspondencia tiene como objetivo dar respuesta a dos interrogantes basadas en la
idea geométrica de ’’proximidad’’ entre las dos variables. Por ejemplo, cuando se tiene una tabla
donde las variables son comuna de residencia y marcas de auto, se podra observar en las tablas de
contingencia que va a existir una mayor frecuencia de auto de mayor valor en ciertas comunas y
marcas de menor valor en otras comunas. Al llevar esta información a un gráfico, se podrá
observar las relaciones existentes entre ciertas marcas y ciertas comunas y como estas se
relacionan entre una y otra.

La ventaja del análisis de correspondencia es que a diferencia de la tabla de contingencia, la


representación gráfica es capaz de identificar que patrón de comportamiento y relación tienen las
variables.

Medidas de asociación
Como medida de asociación, el análisis de correspondencia utiliza el chi-cuadrado. Esta es una
medida estandarizada de las frecuencias observadas con la frecuencia esperada de cada celda.

Pasos
1) Como primer paso para realizar el análisis, se debe determinar cuáles son los objetivos de
éste, es decir, definir cuáles son las variables categóricas que se quiere medir y cuáles son
las categorías. Para realizar esto, se debe tener la misma cantidad de categorías para
ambas variables y definir si se quiere medir:

a. Asociación entre categorías de columnas y filas.

b. Asociación entre categorías de columnas o filas.

El más utilizado, es el segundo objetivo.

2) El segundo paso, es diseñar el análisis de correspondencia, donde para esto vamos a


necesitar realizar una tabla de contingencia donde obtengamos las frecuencias para las
distintas variables asociadas. Necesariamente, estas variables no puede ser con valores
negativos. De cierta forma las columnas y filas no tienen un significado predefinido, pero si
contienen las respuestas de una o más variables categóricas.
Universidad Técnica Federico Santa María
Probabilidad y Estadística

3) Aquí se realiza la medición por parte del software de las frecuencias y como estas están
relacionadas entre sí por medio de las frecuencias marginales. Este procedimiento, genera
un valor expectativo condicionado a ciertas categorías el cual es un Chi-cuadrado. Por
medio del software estadístico, utilizando los valores del chi-cuadrado, estos valores se
estandarizan y se convierten en una distancia métrica, generando así una muestra de la
proximidad y lejanía entre ciertas categorías y variables estudiadas. Así se obtiene el
gráfico de dos dimensiones donde se pueden observar las relaciones entre las variables.

4) Interpretación de los resultados es la última parte del análisis, donde se puede obtener las
conclusiones de las relaciones, mostrando así cuales están más relacionadas entre sí, y
cuales tienen mayor relación con la otra variable. El método gráfico es muy cómodo y
rápido para realizar el análisis y para obtener una visión global de las variables y categorías
que se está analizando.

También podría gustarte