Está en la página 1de 9

Pasos de cada análisis

Regresión
- Objetivos: ofrecer una explicación del problema a estudiar para la predicción y
relación estadística de un conjunto de variables definidas y maximizar la
potencia predictiva conjunta de las variables independientes.
1. Valorar la naturaleza y la dirección en la relación entre una variable
(dependiente) y un conjunto de variables (independientes).
2. Predecir los valores de una variable (criterio) a partir del conocimiento
de los valores de otras variables (pronosticadoras).
- Diseño: tamaño de la muestra; definición de las variables: definir cuál será la
variable criterio y cuales las pronosticadoras.
1. Asegurar la potencia estadística y la generabilidad del análisis de
regresión mediante el adecuado tamaño de la muestra.
2. Determinar cuál será la variable criterio y cuáles las variables
pronosticadoras que se utilizarán.
3. Realizar las transformaciones oportunas en las variables en el caso de
que éstas no cumplan las condiciones del análisis de regresión.
- Supuestos: el análisis de regresión múltiple presenta un conjunto de
supuestos previos sin los cuales la interpretación de los resultados puede ser
altamente errónea.
1. Linealidad: la relación entre las variables se ajusta a una línea recta.
2. Normalidad: los residuos se distribuyen de una forma que se ajusta a la
curva normal.
3. Homoscedasticidad: la distribución de residuos es similar para
diferentes valores pronosticados.
4. Independencia de los residuos: los residuos no se encuentran
correlacionados entre sí.
- Extracción: en la etapa de extracción, deben realizarse tres tareas
1. Seleccionar un método para especificar el modelo de regresión a
estimar;
2. valorar la significación estadística del modelo general para predecir la
variable criterio;
3. estimar la capacidad de las variables pronosticadoras para predecir la
variable criterio; y
4. determinar si cualquiera de las observaciones ejerce una influencia
indebida en los resultados.
- Interpretación: en la fase de interpretación, hay que llevar a cabo dos tareas
importantes:
1. Interpretar la ecuación de regresión: valorar en qué medida varían los
valores de la variable criterio por cada variación unitaria de las
variables pronosticadoras (coeficientes de regresión).
2. Determinar la importancia relativa de cada una de las variables
pronosticadoras en la explicación de la variable criterio mediante un

1
análisis de la presencia de efectos de multicolinealidad entre las
variables pronosticadoras.
- Validación: además del submuestreo, se podría replantear el análisis de
regresión mediante otros procedimientos:
1. Probar con otras variables alternativas que puedan representar a la
variables originales.
2. Realizar el análisis excluyendo aquellos casos que se puedan considerar
como observaciones influyentes o casos extremos.
3. Utilizar diversos procedimientos de selección y comparar los resultados
de esos métodos.
4. Obtener muestras adicionales para validar los resultados mediante el
estadístico Press.

2
Factorial
- Objetivos: encontrar la manera de condensar la información de una serie de
variables originales en una serie de dimensiones con la menor pérdida de
información posible.
1. Determinar el tipo de AF que se va a utilizar de acuerdo con el
conocimiento previo o no del campo de estudio: exploratorio o
confirmatorio.
a. AF exploratorio: no se conoce en profundidad el campo de
estudio y no se formulan hipótesis sobre la solución factorial.
b. AF confirmatorio: se tiene información previa sobre las variables
y sus interrelaciones lo que permite formular hipótesis sobre el
número de factores comunes a contrastar empíricamente.
2. Después, se trata de decidir si se van a agrupar las variables o los casos.
3. Establecer con claridad los objetivos concretos que se persiguen tipo Q
o tipo R (condiciones).
a. Tipo Q: consiste en buscar los factores comunes a partir de las
correlaciones entre las puntuaciones de un conjunto de
individuos en una serie de variables.
b. Tipo R: consiste en buscar un número reducido de factores como
combinación lineal de las variables iniciales.
- Diseño: Definición de las variables a utilizar. Tamaño de la muestra
(reducción de datos a través de la matriz de correlaciones, KMO): debe
minimizarse el número de variables incluidas. Debería haber al menos 50
casos. La ratio entre casos y variables debería ser al menos de 5 a 1.
Condiciones previas:
1. La calidad del análisis depende de la calidad de los datos.
2. Las variables del AF normalmente son métricas.
- Supuestos: el principal supuesto previo que debe valorarse en el AF es que
existan suficientes correlaciones significativas entre las entidades a
factorializar. Las variables que se usen deben estar suficientemente
correlacionadas para justificar la aplicación del AF:
1. Matriz de correlaciones: para que esta matriz sea adecuada, deben ser
superiores a 0,30. → Det. matriz (-) = correl (+)
Para ello, se deben valorar algunas matrices de correlaciones, el test de
esfericidad de Bartlett o la prueba KMO (Kaiser-Meyer-Olkin):
1. Prueba de KMO: determina si la medida de la muestra es adecuada
para llevar a cabo un análisis factorial. → KMO (-)= AF (-) siguiendo el
baremo de >0.90 excelente y <0.50 inaceptable.
2. Test de esfericidad de Bartlett: Se usa para comprobar la hipótesis de
que la matriz de correlaciones es una matriz identidad (aquella en la
que no hay relación entre una variable y todas las demás). Se basa en el
cálculo de un valor chi-cuadrado.
3. Correlación anti-imagen: Es la inversa de la suma de las correlaciones
de cada variable con todas las demás → cor. anti (+)= malo

3
- Extracción de los factores: en la aplicación de un análisis de componentes
principales a cuantos factores se deben extraer/retener como resultado del AF.
Criterios:
1. Varianza común explicada: el conjunto de factores extraídos no debería
suponer una gran pérdida de información
2. Criterios de raíz latente:Se debería mantener sólo aquellos factores que
tengan un autovalor superior a 1.
3. Criterio de contraste de caída: Examina el gráfico de sedimentos que
representa el autovalor de cada uno de los factores unidos por una
línea. El paso del autovalor de un factor al del siguiente es alto en los
primeros factores y bajo en los últimos. Se trata de encontrar el punto
de inflexión, allí donde la línea empieza a sedimentarse. Se forman
tantos factores como haya antes de ese punto
4. Heterogeneidad de la muestra
5. Criterio establecido a priori.
6. Criterio del porcentaje de varianza explicada (principio de parsimonia).
7. Gráfico de sedimentación (elementos a extraer).
- Interpretación: En esta fase se trata de determinar el contenido específico de
cada uno de los factores extraídos Para ello, se trata de valorar qué variables
presentan cargas factoriales significativas en cada uno de los factores (o
componentes) extraídos para llegar a una interpretación adecuada hay que:
1. Saturaciones o cargas factoriales: correlación entre cada una de las
variables originales y cada uno de los factores extraídos.
2. Rotación de factores: varía la posición de los ejes (factores), pero no la
de los puntos (variables).
3. Valoración de las comunalidades: las variables con baja comunalidad
presentan correlaciones con el conjunto de las demás variables
(comunalidad sirve para determinar en qué medida cada variable
aporta información a la solución factorial).
4. Puntuaciones factoriales: Valor que adquiere cada uno de los casos en
cada uno de los factores finalmente extraídos. Se expresa en
puntuaciones Z.
- Validación: La repetición del análisis en otra muestra o mediante un
submuestreo y con los siguientes propósitos
1. Generalización: se trata de valorar en qué medida los resultados
obtenidos son aplicables a muestras diferentes.
2. Influencia de los casos: determinar en qué medida los resultados se ven
influidos por casos concretos
Replicación: los resultados deberían ser replicables, es decir, deberían
ser similares a los que se obtendrían en otras investigaciones.
3. Estabilidad: la estructura factorial debería ser estable de unos análisis a
otros.
4. Impacto de los outliers: establecer el impacto que tienen los casos
extremos, mediante su inclusión y su exclusión en el análisis.

4
CORRESPONDENCIA
- Objetivos: se trata de definir las dimensiones que estructuran las
características socioeconómicas de la población española. Examina y
representa la asociación entre categorías de columna o fila.
- Diseño: se trata de delimitar las condiciones relativas a las variables y al
tamaño de la muestra. Las variables deben ser categóricas u ordinales, pero
también se pueden emplear variables métricas que tengan pocos valores o se
discreticen.
Como el punto de partida es una tabla de contingencia, es muy necesario que
exista un suficiente número de casos. Además, es necesario que en la tabla de
contingencia no exista ninguna celdilla con pocos casos (nunca menos de 5).
Tampoco debería haber una gran diferencia en el número de casos de unas
celdillas y de otras.
De ocurrir alguna de esas dos situaciones, las categorías afectadas se situarían
muy alejadas del resto de las categorías.
- Supuestos: carece de supuestos previos. No obstante, es conveniente que las
categorías de las variables sean exhaustivas y excluyentes. Asimismo, es muy
importante que las categorías que se analicen sean directamente comparables.
- Extracción: deben definirse las condiciones del análisis de correspondencias.
En el análisis de correspondencias simples hay que determinar: el número de
dimensiones en la solución; la medida de la distancia (Χ2 o la distancia
euclídea); el método de estandarización; y el método de normalización.
En la fase de extracción debe:
1. Discretizar aquellas variables que no contengan valores discretos.
2. Definir un tratamiento para las categorías sin ningún valor conocido
(pérdidas).
3. Definir el método de normalización.
4. Determinar si se emplearán variables y/o categorías suplementarias.
5. Decidir el número de dimensiones que se van a extraer.
6. La principal tarea de esta fase tiene que ver con la decisión de cuántas
dimensiones es adecuado retener, conservando los principios de
interpretabilidad y parsimonia.
- Interpretación: se trata de realizar diversas tareas:
1. Analizar la asociación entre las categorías.
2. Determinar el contenido sustantivo de cada una de las dimensiones,
hasta llegar a denominarlas.
3. Determinar grupos de categorías.
4. Establecer la puntuación de cada caso en las dimensiones extraídas.
- Validación: se trata de replicar la dispersión de las categorías en el espacio
perceptual.
Una forma de validar es aplicar el mismo análisis de correspondencias a una
submuestra. Otra forma de validar es modificar alguna de las condiciones del
diseño y la extracción de las dimensiones.

5
CONGLOMERADOS
- Objetivos: desarrollo de una tipología o clasificación. Se pueden trazar los
perfiles o clasificar a las entidades en grupos de entidades semejantes. El
objetivo es clasificar una muestra de entidades en un número más pequeño de
grupos mutuamente excluyentes a partir de las similitudes entre ellas.
1. Investigación de esquemas conceptuales útiles para agrupar entidades.
Los esquemas de clasificación pueden generalizarse y aplicarse a una
amplia variedad de estudios.
2. Generar hipótesis mediante la exploración de datos. Si se generan
agrupaciones inesperadas, esto sugeriría relaciones a investigar.
3. Probar hipótesis, o intentar determinar si los grupos definidos
mediante otros procedimientos están de hecho presentes en los datos.
4. Reducir datos. Se puede obtener una descripción más concisa y
comprensible de las entidades con una mínima pérdida de información.
- Diseño: hay que realizar cuatro tareas:
1. Selección de variables: se trata de seleccionar las variables con cuidado
para evitar incluir variables altamente correlacionadas.
2. Estandarización de variables: para calcular las distancias entre casos es
necesario convertir las variables a una misma unidad de medida.
3. Detección de “outliers”: detectar los casos con rasgos claramente
diferentes a los demás.
4. Determinación de la medida: Establecer qué tipo de medida se utilizará
para calcular la distancia.
- Supuestos: al igual que en análisis factorial, el conglomerados carece de
supuestos previos rígidos es conveniente que se cumplan dos condiciones:
1. Representatividad: los casos seleccionados representan a grupos
“reales” en la población.
2. Multicolinealidad: se han eliminado variables que sólo aportan
información redundante.
- Extracción: La etapa de extracción implica cuatro tareas:
1. Método de conglomeración: hay que seleccionar un método de
conglomeración.
2. Determinación de las distancias: valorar las distancias que existen
entre las entidades.
3. Determinación del número de conglomerados: establecer el número de
conglomerados que van a formar parte de la solución final.
4. Replanteamiento de la solución: examinar la estructura de cada
conglomerado y decidir si hay o no que replantear la solución.
- Interpretación: una vez decidido cuántos conglomerados distinguir, la fase de
interpretación implica dos tareas:
1. Asignación a conglomerados. Se trata de asignar las entidades a cada
uno de los conglomerados de la solución final.

6
2. Denominación de los conglomerados. Hay que determinar cuál es el
contenido sustantivo de cada uno de los conglomerados y, a partir de
ahí, asignarles un nombre.
- Validación: se puede valorar en qué medida la presencia o no de una variable
puede modificar la agrupación de entidades en conglomerados.
Para determinar en qué medida cada una de las variables contribuye a explicar
la agrupación en conglomerados se utiliza el análisis discriminante.
Así, el análisis discriminante puede utilizarse para valorar la consistencia de
los resultados de un análisis de conglomerados.
Se trata de valorar en qué medida los resultados obtenidos son generalizables
a la población y si los grupos formados son representativos.
Métodos disponibles:
1. Utilizar una muestra diferente y compararla con la original.
2. Dividir la muestra en dos mitades y analizar cada una por separado.
3. Determinar los centroides de los grupos y utilizarlos para redefinirlos.

7
DISCRIMINANTE
- Objetivos: los objetivos del análisis discriminante tienen que ver, por una
parte, con la discriminación y, por otra, con la clasificación:
1. Discriminación: encontrar las variables que mejor diferencien entre la
pertenencia a un grupo y a los demás.
2. Clasificación: derivar una regla que pueda usarse de manera óptima
para asignar nuevos casos a los grupos predefinidos.
El objetivo fundamental es predecir el valor que adquirirá un caso en una
variable criterio a partir del conocimiento de las puntuaciones que adquiere
en un conjunto de variables predictivas.
1. Determinar si existen diferencias significativas entre los perfiles
multivariantes de dos o más grupos (descriptivo).
2. El análisis discriminante trata de establecer el conjunto de variables
que expliquen las diferencias en los perfiles entre los grupos (d).
3. Usar el conjunto de variables para desarrollar una función que
represente la máxima separación o discriminación entre los grupos (d).
4. Establecer reglas de clasificación de nuevos casos a los grupos a partir
de sus puntuaciones (predictivo). Los objetivos tienen que ver con la
discriminacion y la clasificación.
- Diseño: existen tres tareas de especial relevancia:
1. Seleccionar variables: establecer si las variables que van a tomarse en
cuenta cumplen una serie de condiciones previas (v. dep.: categórica;
v. indep.: métrica)
2. Tamaño de la muestra: determinar si la muestra tiene un tamaño
adecuado para que los resultados sean estables y extrapolables.
3. División de la muestra: elaborar muestras de análisis y de validación
para llevar a cabo una validación cruzada.
- Supuestos: el análisis discriminante parte de un conjunto de supuestos para
que los resultados no estén sesgados desde el principio:
1. Normalidad: la distribución de las frecuencias para las variables
independientes debe ajustarse a una curva normal.
2. Matriz de varianzas-covarianzas: los diferentes grupos deben exhibir
varianzas iguales.
3. Multicolinealidad: las variables independientes no deberían estar
altamente correlacionadas entre sí para evitar efectos de
multicolinealidad.
- Extracción: se trata de estimar las funciones discriminantes y evaluar la
exactitud predictiva mediante la matriz de clasificación.
Diversas tareas son específicas de esta fase:
1. Método de cálculo: introducir todas las variables o elegir un método de
selección “paso a paso”.
2. Significación: valorar en qué medida cada una de las variables presenta
medias iguales en grupo.

8
3. Funciones: determinar el número de funciones discriminantes que es
adecuado retener. Para esto se usa autovalor, varianza explicada y
correlación canónica.
- Interrelación: se trata de abordar las siguientes tareas:
1. Evaluación de las funciones: establecer la contribución específica de
cada variable (ponderaciones discriminantes) a cada función y el
contenido sustantivo de éstas (ponderaciones de estructura).
2. Capacidad predictiva: determinar la capacidad de las variables para
prever la clasificación de los casos mediante la matriz de clasificación.
3. Discriminación entre grupos: deducir los rasgos específicos de cada
grupo a partir de sus puntuaciones discriminantes en las funciones.
- Validación: puede llevarse a cabo este proceso repetidas veces, dividiendo
aleatoriamente la muestra total en muestras de análisis y muestras de
validación. Otro método consiste en obtener una nueva muestra que se utilice
para validar con los nuevos datos las funciones derivadas de la muestra
anterior. Un método distinto supone analizar los perfiles de los grupos en cada
una de las variables, para garantizar que se corresponden con la definición de
los grupos

También podría gustarte