Pasos de Cada Análisis

Pasos de cada análisis
Regresión
- Objetivos: ofrecer una explicación del problema a estudiar para la predicción y
relación estadística de un conjunto de variables definidas y maximizar la
potencia predictiva conjunta de las variables independientes.
1. Valorar la naturaleza y la dirección en la relación entre una variable
(dependiente) y un conjunto de variables (independientes).
2. Predecir los valores de una variable (criterio) a partir del conocimiento
de los valores de otras variables (pronosticadoras).
- Diseño: tamaño de la muestra; definición de las variables: definir cuál será la
variable criterio y cuales las pronosticadoras.
1. Asegurar la potencia estadística y la generabilidad del análisis de
regresión mediante el adecuado tamaño de la muestra.
2. Determinar cuál será la variable criterio y cuáles las variables
pronosticadoras que se utilizarán.
3. Realizar las transformaciones oportunas en las variables en el caso de
que éstas no cumplan las condiciones del análisis de regresión.
- Supuestos: el análisis de regresión múltiple presenta un conjunto de
supuestos previos sin los cuales la interpretación de los resultados puede ser
altamente errónea.
1. Linealidad: la relación entre las variables se ajusta a una línea recta.
2. Normalidad: los residuos se distribuyen de una forma que se ajusta a la
curva normal.
3. Homoscedasticidad: la distribución de residuos es similar para
diferentes valores pronosticados.
4. Independencia de los residuos: los residuos no se encuentran
correlacionados entre sí.
- Extracción: en la etapa de extracción, deben realizarse tres tareas
1. Seleccionar un método para especificar el modelo de regresión a
estimar;
2. valorar la significación estadística del modelo general para predecir la
variable criterio;
3. estimar la capacidad de las variables pronosticadoras para predecir la
variable criterio; y
4. determinar si cualquiera de las observaciones ejerce una influencia
indebida en los resultados.
- Interpretación: en la fase de interpretación, hay que llevar a cabo dos tareas
importantes:
1. Interpretar la ecuación de regresión: valorar en qué medida varían los
valores de la variable criterio por cada variación unitaria de las
variables pronosticadoras (coeficientes de regresión).
2. Determinar la importancia relativa de cada una de las variables
pronosticadoras en la explicación de la variable criterio mediante un
1
análisis de la presencia de efectos de multicolinealidad entre las
variables pronosticadoras.
- Validación: además del submuestreo, se podría replantear el análisis de
regresión mediante otros procedimientos:
1. Probar con otras variables alternativas que puedan representar a la
variables originales.
2. Realizar el análisis excluyendo aquellos casos que se puedan considerar
como observaciones influyentes o casos extremos.
3. Utilizar diversos procedimientos de selección y comparar los resultados
de esos métodos.
4. Obtener muestras adicionales para validar los resultados mediante el
estadístico Press.
2
Factorial
- Objetivos: encontrar la manera de condensar la información de una serie de
variables originales en una serie de dimensiones con la menor pérdida de
información posible.
1. Determinar el tipo de AF que se va a utilizar de acuerdo con el
conocimiento previo o no del campo de estudio: exploratorio o
confirmatorio.
a. AF exploratorio: no se conoce en profundidad el campo de
estudio y no se formulan hipótesis sobre la solución factorial.
b. AF confirmatorio: se tiene información previa sobre las variables
y sus interrelaciones lo que permite formular hipótesis sobre el
número de factores comunes a contrastar empíricamente.
2. Después, se trata de decidir si se van a agrupar las variables o los casos.
3. Establecer con claridad los objetivos concretos que se persiguen tipo Q
o tipo R (condiciones).
a. Tipo Q: consiste en buscar los factores comunes a partir de las
correlaciones entre las puntuaciones de un conjunto de
individuos en una serie de variables.
b. Tipo R: consiste en buscar un número reducido de factores como
combinación lineal de las variables iniciales.
- Diseño: Definición de las variables a utilizar. Tamaño de la muestra
(reducción de datos a través de la matriz de correlaciones, KMO): debe
minimizarse el número de variables incluidas. Debería haber al menos 50
casos. La ratio entre casos y variables debería ser al menos de 5 a 1.
Condiciones previas:
1. La calidad del análisis depende de la calidad de los datos.
2. Las variables del AF normalmente son métricas.
- Supuestos: el principal supuesto previo que debe valorarse en el AF es que
existan suficientes correlaciones significativas entre las entidades a
factorializar. Las variables que se usen deben estar suficientemente
correlacionadas para justificar la aplicación del AF:
1. Matriz de correlaciones: para que esta matriz sea adecuada, deben ser
superiores a 0,30. → Det. matriz (-) = correl (+)
Para ello, se deben valorar algunas matrices de correlaciones, el test de
esfericidad de Bartlett o la prueba KMO (Kaiser-Meyer-Olkin):
1. Prueba de KMO: determina si la medida de la muestra es adecuada
para llevar a cabo un análisis factorial. → KMO (-)= AF (-) siguiendo el
baremo de >0.90 excelente y <0.50 inaceptable.
2. Test de esfericidad de Bartlett: Se usa para comprobar la hipótesis de
que la matriz de correlaciones es una matriz identidad (aquella en la
que no hay relación entre una variable y todas las demás). Se basa en el
cálculo de un valor chi-cuadrado.
3. Correlación anti-imagen: Es la inversa de la suma de las correlaciones
de cada variable con todas las demás → cor. anti (+)= malo
3
- Extracción de los factores: en la aplicación de un análisis de componentes
principales a cuantos factores se deben extraer/retener como resultado del AF.
Criterios:
1. Varianza común explicada: el conjunto de factores extraídos no debería
suponer una gran pérdida de información
2. Criterios de raíz latente:Se debería mantener sólo aquellos factores que
tengan un autovalor superior a 1.
3. Criterio de contraste de caída: Examina el gráfico de sedimentos que
representa el autovalor de cada uno de los factores unidos por una
línea. El paso del autovalor de un factor al del siguiente es alto en los
primeros factores y bajo en los últimos. Se trata de encontrar el punto
de inflexión, allí donde la línea empieza a sedimentarse. Se forman
tantos factores como haya antes de ese punto
4. Heterogeneidad de la muestra
5. Criterio establecido a priori.
6. Criterio del porcentaje de varianza explicada (principio de parsimonia).
7. Gráfico de sedimentación (elementos a extraer).
- Interpretación: En esta fase se trata de determinar el contenido específico de
cada uno de los factores extraídos Para ello, se trata de valorar qué variables
presentan cargas factoriales significativas en cada uno de los factores (o
componentes) extraídos para llegar a una interpretación adecuada hay que:
1. Saturaciones o cargas factoriales: correlación entre cada una de las
variables originales y cada uno de los factores extraídos.
2. Rotación de factores: varía la posición de los ejes (factores), pero no la
de los puntos (variables).
3. Valoración de las comunalidades: las variables con baja comunalidad
presentan correlaciones con el conjunto de las demás variables
(comunalidad sirve para determinar en qué medida cada variable
aporta información a la solución factorial).
4. Puntuaciones factoriales: Valor que adquiere cada uno de los casos en
cada uno de los factores finalmente extraídos. Se expresa en
puntuaciones Z.
- Validación: La repetición del análisis en otra muestra o mediante un
submuestreo y con los siguientes propósitos
1. Generalización: se trata de valorar en qué medida los resultados
obtenidos son aplicables a muestras diferentes.
2. Influencia de los casos: determinar en qué medida los resultados se ven
influidos por casos concretos
Replicación: los resultados deberían ser replicables, es decir, deberían
ser similares a los que se obtendrían en otras investigaciones.
3. Estabilidad: la estructura factorial debería ser estable de unos análisis a
otros.
4. Impacto de los outliers: establecer el impacto que tienen los casos
extremos, mediante su inclusión y su exclusión en el análisis.
4
CORRESPONDENCIA
- Objetivos: se trata de definir las dimensiones que estructuran las
características socioeconómicas de la población española. Examina y
representa la asociación entre categorías de columna o fila.
- Diseño: se trata de delimitar las condiciones relativas a las variables y al
tamaño de la muestra. Las variables deben ser categóricas u ordinales, pero
también se pueden emplear variables métricas que tengan pocos valores o se
discreticen.
Como el punto de partida es una tabla de contingencia, es muy necesario que
exista un suficiente número de casos. Además, es necesario que en la tabla de
contingencia no exista ninguna celdilla con pocos casos (nunca menos de 5).
Tampoco debería haber una gran diferencia en el número de casos de unas
celdillas y de otras.
De ocurrir alguna de esas dos situaciones, las categorías afectadas se situarían
muy alejadas del resto de las categorías.
- Supuestos: carece de supuestos previos. No obstante, es conveniente que las
categorías de las variables sean exhaustivas y excluyentes. Asimismo, es muy
importante que las categorías que se analicen sean directamente comparables.
- Extracción: deben definirse las condiciones del análisis de correspondencias.
En el análisis de correspondencias simples hay que determinar: el número de
dimensiones en la solución; la medida de la distancia (Χ2 o la distancia
euclídea); el método de estandarización; y el método de normalización.
En la fase de extracción debe:
1. Discretizar aquellas variables que no contengan valores discretos.
2. Definir un tratamiento para las categorías sin ningún valor conocido
(pérdidas).
3. Definir el método de normalización.
4. Determinar si se emplearán variables y/o categorías suplementarias.
5. Decidir el número de dimensiones que se van a extraer.
6. La principal tarea de esta fase tiene que ver con la decisión de cuántas
dimensiones es adecuado retener, conservando los principios de
interpretabilidad y parsimonia.
- Interpretación: se trata de realizar diversas tareas:
1. Analizar la asociación entre las categorías.
2. Determinar el contenido sustantivo de cada una de las dimensiones,
hasta llegar a denominarlas.
3. Determinar grupos de categorías.
4. Establecer la puntuación de cada caso en las dimensiones extraídas.
- Validación: se trata de replicar la dispersión de las categorías en el espacio
perceptual.
Una forma de validar es aplicar el mismo análisis de correspondencias a una
submuestra. Otra forma de validar es modificar alguna de las condiciones del
diseño y la extracción de las dimensiones.
5
CONGLOMERADOS
- Objetivos: desarrollo de una tipología o clasificación. Se pueden trazar los
perfiles o clasificar a las entidades en grupos de entidades semejantes. El
objetivo es clasificar una muestra de entidades en un número más pequeño de
grupos mutuamente excluyentes a partir de las similitudes entre ellas.
1. Investigación de esquemas conceptuales útiles para agrupar entidades.
Los esquemas de clasificación pueden generalizarse y aplicarse a una
amplia variedad de estudios.
2. Generar hipótesis mediante la exploración de datos. Si se generan
agrupaciones inesperadas, esto sugeriría relaciones a investigar.
3. Probar hipótesis, o intentar determinar si los grupos definidos
mediante otros procedimientos están de hecho presentes en los datos.
4. Reducir datos. Se puede obtener una descripción más concisa y
comprensible de las entidades con una mínima pérdida de información.
- Diseño: hay que realizar cuatro tareas:
1. Selección de variables: se trata de seleccionar las variables con cuidado
para evitar incluir variables altamente correlacionadas.
2. Estandarización de variables: para calcular las distancias entre casos es
necesario convertir las variables a una misma unidad de medida.
3. Detección de “outliers”: detectar los casos con rasgos claramente
diferentes a los demás.
4. Determinación de la medida: Establecer qué tipo de medida se utilizará
para calcular la distancia.
- Supuestos: al igual que en análisis factorial, el conglomerados carece de
supuestos previos rígidos es conveniente que se cumplan dos condiciones:
1. Representatividad: los casos seleccionados representan a grupos
“reales” en la población.
2. Multicolinealidad: se han eliminado variables que sólo aportan
información redundante.
- Extracción: La etapa de extracción implica cuatro tareas:
1. Método de conglomeración: hay que seleccionar un método de
conglomeración.
2. Determinación de las distancias: valorar las distancias que existen
entre las entidades.
3. Determinación del número de conglomerados: establecer el número de
conglomerados que van a formar parte de la solución final.
4. Replanteamiento de la solución: examinar la estructura de cada
conglomerado y decidir si hay o no que replantear la solución.
- Interpretación: una vez decidido cuántos conglomerados distinguir, la fase de
interpretación implica dos tareas:
1. Asignación a conglomerados. Se trata de asignar las entidades a cada
uno de los conglomerados de la solución final.
6
2. Denominación de los conglomerados. Hay que determinar cuál es el
contenido sustantivo de cada uno de los conglomerados y, a partir de
ahí, asignarles un nombre.
- Validación: se puede valorar en qué medida la presencia o no de una variable
puede modificar la agrupación de entidades en conglomerados.
Para determinar en qué medida cada una de las variables contribuye a explicar
la agrupación en conglomerados se utiliza el análisis discriminante.
Así, el análisis discriminante puede utilizarse para valorar la consistencia de
los resultados de un análisis de conglomerados.
Se trata de valorar en qué medida los resultados obtenidos son generalizables
a la población y si los grupos formados son representativos.
Métodos disponibles:
1. Utilizar una muestra diferente y compararla con la original.
2. Dividir la muestra en dos mitades y analizar cada una por separado.
3. Determinar los centroides de los grupos y utilizarlos para redefinirlos.
7
DISCRIMINANTE
- Objetivos: los objetivos del análisis discriminante tienen que ver, por una
parte, con la discriminación y, por otra, con la clasificación:
1. Discriminación: encontrar las variables que mejor diferencien entre la
pertenencia a un grupo y a los demás.
2. Clasificación: derivar una regla que pueda usarse de manera óptima
para asignar nuevos casos a los grupos predefinidos.
El objetivo fundamental es predecir el valor que adquirirá un caso en una
variable criterio a partir del conocimiento de las puntuaciones que adquiere
en un conjunto de variables predictivas.
1. Determinar si existen diferencias significativas entre los perfiles
multivariantes de dos o más grupos (descriptivo).
2. El análisis discriminante trata de establecer el conjunto de variables
que expliquen las diferencias en los perfiles entre los grupos (d).
3. Usar el conjunto de variables para desarrollar una función que
represente la máxima separación o discriminación entre los grupos (d).
4. Establecer reglas de clasificación de nuevos casos a los grupos a partir
de sus puntuaciones (predictivo). Los objetivos tienen que ver con la
discriminacion y la clasificación.
- Diseño: existen tres tareas de especial relevancia:
1. Seleccionar variables: establecer si las variables que van a tomarse en
cuenta cumplen una serie de condiciones previas (v. dep.: categórica;
v. indep.: métrica)
2. Tamaño de la muestra: determinar si la muestra tiene un tamaño
adecuado para que los resultados sean estables y extrapolables.
3. División de la muestra: elaborar muestras de análisis y de validación
para llevar a cabo una validación cruzada.
- Supuestos: el análisis discriminante parte de un conjunto de supuestos para
que los resultados no estén sesgados desde el principio:
1. Normalidad: la distribución de las frecuencias para las variables
independientes debe ajustarse a una curva normal.
2. Matriz de varianzas-covarianzas: los diferentes grupos deben exhibir
varianzas iguales.
3. Multicolinealidad: las variables independientes no deberían estar
altamente correlacionadas entre sí para evitar efectos de
multicolinealidad.
- Extracción: se trata de estimar las funciones discriminantes y evaluar la
exactitud predictiva mediante la matriz de clasificación.
Diversas tareas son específicas de esta fase:
1. Método de cálculo: introducir todas las variables o elegir un método de
selección “paso a paso”.
2. Significación: valorar en qué medida cada una de las variables presenta
medias iguales en grupo.
8
3. Funciones: determinar el número de funciones discriminantes que es
adecuado retener. Para esto se usa autovalor, varianza explicada y
correlación canónica.
- Interrelación: se trata de abordar las siguientes tareas:
1. Evaluación de las funciones: establecer la contribución específica de
cada variable (ponderaciones discriminantes) a cada función y el
contenido sustantivo de éstas (ponderaciones de estructura).
2. Capacidad predictiva: determinar la capacidad de las variables para
prever la clasificación de los casos mediante la matriz de clasificación.
3. Discriminación entre grupos: deducir los rasgos específicos de cada
grupo a partir de sus puntuaciones discriminantes en las funciones.
- Validación: puede llevarse a cabo este proceso repetidas veces, dividiendo
aleatoriamente la muestra total en muestras de análisis y muestras de
validación. Otro método consiste en obtener una nueva muestra que se utilice
para validar con los nuevos datos las funciones derivadas de la muestra
anterior. Un método distinto supone analizar los perfiles de los grupos en cada
una de las variables, para garantizar que se corresponden con la definición de
los grupos

Pasos de Cada Análisis

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Pasos de Cada Análisis

Cargado por

Copyright:

Formatos disponibles

Pasos de cada análisis

También podría gustarte