Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Probabilidad y Estadística
Un análisis de componentes principales tiene sentido si existen altas correlaciones entre las
variables, ya que esto es indicativo de que existe información redundante y, por tanto, pocos
factores explicarán gran parte de la variabilidad total.
La elección de los factores se realiza de tal forma que el primero recoja la mayor proporción
posible de la variabilidad original; el segundo factor debe recoger la máxima variabilidad
posible no recogida por el primero, y así sucesivamente. Del total de factores se elegirán
aquéllos que recojan el porcentaje de variabilidad que se considere suficiente. A éstos se les
denominará componentes principales.
Una vez seleccionados los componentes principales, se representan en forma de matriz. Cada
elemento de ésta representa los coeficientes factoriales de las variables (las correlaciones
entre las variables y los componentes principales). La matriz tendrá tantas columnas como
componentes principales y tantas filas como variables.
Universidad Técnica Federico Santa María
Probabilidad y Estadística
Los datos de varianza explicada son muy importantes para saber cuántos componentes principales
se va a utilizar en el análisis. No hay una regla definida sobre el número que se debe utilizar, es por
eso que se deberá decidir en función del número de variables iniciales (hay que recordar que se
trata de reducirlas en la medida de lo posible) y de la proporción de varianza explicada acumulada.
Es por eso que se escogen aquellos componentes que explican la mayor cantidad de variabilidad
de los datos.
Análisis Factorial
Definición
El Análisis Factorial es una técnica que consiste en resumir la información contenida en una matriz
de datos con V variables. Para ello se identifican un reducido número de factores F, siendo el
número de factores menor que el número de variables. Los factores representan a las variables
originales, con una pérdida mínima de información.
El Análisis Factorial (método factor principal) supone que existe un factor común subyacente a las
variables. Este método busca factores que expliquen la mayor parte de la varianza común. La
varianza común es la parte de la variación de la variable que es compartida con las otras variables.
La varianza única es la parte de la variación de la variable que es propia de esa variable.
Universidad Técnica Federico Santa María
Probabilidad y Estadística
Para que el Análisis Factorial tenga sentido deberían cumplirse dos condiciones básicas:
Parsimonia e Interpretabilidad. Según el principio de parsimonia el número de factores debe ser
lo más reducido posible y estos deben ser susceptibles de interpretación sustantiva. Una buena
solución factorial es aquella que es sencilla e interpretable.
Se asume que los factores únicos no están correlacionados entre sí ni con los factores comunes. Se
puede distinguir entre Análisis Factorial Exploratorio, donde no se conocen los factores "a priori“
sino que se identifican por el análisis factorial y, por otro lado estaría el Análisis Confirmatorio
donde se propone "a priori" un modelo, según el cual hay unos factores que representan mejor a
las variables originales.
Análisis de Correspondencias
Definición
El Análisis de Correspondencias es una técnica estadística descriptiva cuyo objetivo es poder
realizar un análisis, desde un punto de vista gráfico, de las relaciones de independencia y
dependencia de un conjunto de variables categoricas u ordinales. Este análisis se obtiene a partir
de los datos obtenidos en una Tabla de contingencia. Por medio de un análisis gráfico
bidimensional, se puede ver la asociación entre dos o más variables. Cuando el grado de
asociación es alto, en el gráfico estas variables aparecen relativamente juntas.
Existen dos tipos análisis de correspondencia que varía de acuerdo al número de dimensiones con
las que se trabaje:
Para la realización de este Laboratorio, solo se trabajará con los análisis de correspondencia simple
de dos variables. Esta es una técnica para representar las categorías de las dos variables en un
espacio de pequeña dimensión que permita interpretar, por un lado, las similitudes entre las
categorías respecto a las categorías de la otra, y por otro lado, las relaciones entre las categorías
de ambas variables.
Universidad Técnica Federico Santa María
Probabilidad y Estadística
Objetivo
El análisis de correspondencia tiene como objetivo dar respuesta a dos interrogantes basadas en la
idea geométrica de ’’proximidad’’ entre las dos variables. Por ejemplo, cuando se tiene una tabla
donde las variables son comuna de residencia y marcas de auto, se podra observar en las tablas de
contingencia que va a existir una mayor frecuencia de auto de mayor valor en ciertas comunas y
marcas de menor valor en otras comunas. Al llevar esta información a un gráfico, se podrá
observar las relaciones existentes entre ciertas marcas y ciertas comunas y como estas se
relacionan entre una y otra.
Medidas de asociación
Como medida de asociación, el análisis de correspondencia utiliza el chi-cuadrado. Esta es una
medida estandarizada de las frecuencias observadas con la frecuencia esperada de cada celda.
Pasos
1) Como primer paso para realizar el análisis, se debe determinar cuáles son los objetivos de
éste, es decir, definir cuáles son las variables categóricas que se quiere medir y cuáles son
las categorías. Para realizar esto, se debe tener la misma cantidad de categorías para
ambas variables y definir si se quiere medir:
3) Aquí se realiza la medición por parte del software de las frecuencias y como estas están
relacionadas entre sí por medio de las frecuencias marginales. Este procedimiento, genera
un valor expectativo condicionado a ciertas categorías el cual es un Chi-cuadrado. Por
medio del software estadístico, utilizando los valores del chi-cuadrado, estos valores se
estandarizan y se convierten en una distancia métrica, generando así una muestra de la
proximidad y lejanía entre ciertas categorías y variables estudiadas. Así se obtiene el
gráfico de dos dimensiones donde se pueden observar las relaciones entre las variables.
4) Interpretación de los resultados es la última parte del análisis, donde se puede obtener las
conclusiones de las relaciones, mostrando así cuales están más relacionadas entre sí, y
cuales tienen mayor relación con la otra variable. El método gráfico es muy cómodo y
rápido para realizar el análisis y para obtener una visión global de las variables y categorías
que se está analizando.