Está en la página 1de 8

ANALISIS REGRESION MULTIPLE

1er Paso: Objetivos de la regresión múltiple

 Problemas de investigación adecuados para la regresión múltiple


Esto significa que se busca encontrar problemas donde exista una
relación entre varias variables independientes y una variable
dependiente. Suelen implicar la predicción o explicación de una variable
dependiente a partir de varias variables independientes. Por ejemplo, se
puede usar la regresión múltiple para predecir el precio de una casa a
partir de su tamaño, ubicación y edad.

 Especificación de la relación estadística


Esto implica determinar si la relación es lineal o no lineal, y si hay alguna
interacción entre las variables independientes. Esto puede incluir
modelos lineales, no lineales o interacciones entre variables.

 Selección de variables dependientes e independientes


Es importante elegir las variables adecuadas para garantizar que el
modelo sea preciso y útil para predecir valores futuros de la variable
dependiente. Para esto, es importante considerar la relevancia teórica y
empírica de cada variable, así como también evitar la multicolinealidad
(alta correlación entre variables independientes).
2do Paso: Diseño en la investigación del análisis de la regresión múltiple

 Tamaño muestral
Es importante tener en cuenta el tamaño de la muestra para
asegurarnos de que sea lo suficientemente grande para obtener
resultados significativos y representativos.

 Predictores de efectos fijos frente a predictores de efectos


aleatorios
Los predictores de efectos fijos son aquellos que se mantienen
constantes y no varían entre las unidades de análisis, mientras que los
predictores de efectos aleatorios varían entre las unidades de análisis.
Es importante determinar qué tipo de predictor es adecuado para
nuestra investigación.

 Creación de las variables adicionales


Se pueden crear variables adicionales para mejorar la precisión del
modelo y explicar mejor la variabilidad en los datos.
3er Paso: Supuestos en el análisis de regresión múltiple

 Valoración de las variables individuales frente al valor teórico


Implica examinar si las variables independientes están relacionadas de
la forma esperada con la variable dependiente. Por ejemplo, si se espera
que el precio de una casa aumente con su tamaño, se debe verificar que
haya una relación positiva entre estas variables.

 Linealidad del fenómeno


Implica que la relación entre las variables independientes y la variable
dependiente debe ser lineal. Si no es así, puede ser necesario
transformar alguna de las variables para que la relación sea lineal.

 Varianza constante del termino de error


Implica que la varianza del error debe ser aproximadamente constante a
medida que aumenta el valor de la variable independiente. Si no es así,
se puede usar una transformación para estabilizar la varianza.

 Independencia de los términos de error


Implica que los errores deben ser independientes entre sí. Esto significa
que el error en una observación no debe estar correlacionado con el
error en otra observación.

 Normalidad de la distribución del termino de error


Implica que los errores deben estar distribuidos normalmente. Si no es
así, puede afectar la precisión de las estimaciones y los intervalos de
confianza.

4to Paso: Estimado del modelo de regresión y valoración

 Aproximaciones generales a la selección de variables


En cuanto a la selección de variables, hay varias técnicas que se
pueden utilizar, como el método paso a paso hacia adelante o hacia
atrás, el criterio de Akaike o el criterio de información bayesiana. Estas
técnicas buscan seleccionar las variables más relevantes para el modelo
y evitar el sobreajuste.

 Contrastracción del cumplimiento de los supuestos de regresión


Para contrastar los supuestos de regresión, se suelen utilizar gráficos
como el diagrama de dispersión y el histograma de los residuos, así
como pruebas estadísticas como la prueba de normalidad de los
residuos y la prueba de homocedasticidad.

 Examen de la significación estadística de nuestro modelo


Para examinar la significación estadística del modelo, se suele utilizar el
valor p de la prueba F del modelo en su conjunto y los valores p de las
pruebas t para cada coeficiente.

 Identificación de observaciones influyentes


Las observaciones influyentes son aquellas que tienen un gran impacto
en los resultados del modelo. Se pueden identificar utilizando gráficos
como el diagrama de influencia o mediante pruebas estadísticas.
5to Paso: Interpretación del valor teórico de la regresión
 Utilización de los coeficientes de regresión
Se utilizan para interpretar cómo cada variable independiente afecta a la
variable dependiente. Por ejemplo, si el coeficiente de regresión de una
variable independiente es positivo, eso significa que un aumento en esa
variable se asocia con un aumento en la variable dependiente. Si el
coeficiente es negativo, significa que un aumento en esa variable se
asocia con una disminución en la variable dependiente.

 Estandarización de los coeficientes de regresión (los coeficientes


betas)
Permite comparar la importancia relativa de cada variable independiente.
Los coeficientes betas se expresan en unidades de desviación estándar,
lo que significa que un cambio de una unidad en una variable
independiente se traduce en un cambio de "x" unidades de desviación
estándar en la variable dependiente.

 Evaluación de la multicolinealidad
Ocurre cuando dos o más variables independientes están altamente
correlacionadas entre sí. Esto puede dificultar la interpretación de los
coeficientes de regresión y hacer que sean menos precisos. Para
evaluar la multicolinealidad, se pueden utilizar varias técnicas, como el
análisis de correlación y el factor de inflación de la varianza.

6to Paso: Validación de los resultados

 Muestras adicionales o muestras divididas


Se puede hacer a través de la utilización de muestras adicionales o
muestras divididas. En el primer caso, se utilizan datos adicionales para
comprobar si el modelo es capaz de predecir correctamente la variable
dependiente. En el segundo caso, se divide la muestra original en dos
grupos: uno para construir el modelo y otro para validarlo.

 Calculo del estadístico de PRESS


(Predicted Residual Sum of Squares) es una medida de la precisión del
modelo. Se calcula eliminando un dato a la vez y ajustando el modelo
con los datos restantes. Luego se compara la predicción del modelo con
el dato eliminado.

 Comparación de los modelos de regresión


Se utiliza para determinar cuál es el mejor modelo para predecir la
variable dependiente. Se pueden utilizar varias técnicas, como el criterio
de información de Akaike (AIC) o el criterio de información bayesiano
(BIC), que tienen en cuenta tanto la precisión del modelo como su
complejidad.
 Predicción con el modelo
Se utiliza para predecir los valores futuros de la variable dependiente a
partir de los valores conocidos de las variables independientes. Para
ello, se utilizan las ecuaciones del modelo y se introducen los valores
correspondientes para cada variable independiente.

ANALISIS FACTORIAL

1er Paso: Objetivos del análisis factorial


El propósito general de las técnicas analíticas de factores es encontrar
una manera de condensar (resumir) la información contenida en una
serie de variables originales en una serie más pequeña de dimensiones
compuestas o valores teóricos (factores) nuevos con una mínima
pérdida de información, es decir, buscar y definir las construcciones
fundamentales o dimensiones que se supone sirven de base para las
variables originales.
2do Paso: Diseño de un análisis factorial
El diseño de un análisis factorial implica tres decisiones básicas: el
cálculo de los datos de entrada (una matriz de correlación) para alcanzar
los objetivos específicos de la agrupación de variables o encuestados; el
diseño del estudio en términos de número de variables, las propiedades
de medición de las variables y los tipos de las variables permisibles; y el
tamaño de muestra necesario, tanto en términos absolutos como para la
función del número de variables en el análisis.
3er Paso: Supuestos en el análisis factorial
Los supuestos básicos subyacentes del análisis factorial son más de tipo
conceptual que estadístico. Desde un punto de vista estadístico, se
pueden obviar los supuestos de normalidad, homocedasticidad y
linealidad siendo conscientes de que su incumplimiento produce una
disminución en las correlaciones observadas. En realidad, sólo es
necesaria la normalidad cuando se aplica una prueba estadística a la
significación de los factores; sin embargo, raramente se utilizan estas
pruebas. De hecho, es deseable que haya cierto grado de
multicolinealidad, dado que el objetivo es identificar series de variables
interrelacionadas.
4to Paso: Estimación de los factores y la valoración del ajuste general
Una vez que se especifican las variables y se prepara la matriz de
correlación, el investigador está preparado para aplicar el análisis
factorial que identifique la estructura subyacente de las relaciones. Para
realizar esta operación, es necesario tomar decisiones con relación al
método de extracción de los factores (análisis factorial común frente al
análisis de componentes principales) y el número de factores
seleccionados para representar la estructura subyacente en los datos.
La selección del método de extracción depende del objetivo del
investigador. Se utiliza el análisis de componentes principales cuando el
objetivo es resumir la mayoría de la información original (varianza) en
una cantidad mínima de factores con propósitos de predicción. Por el
contrario, se utiliza el análisis factorial común para identificar los factores
subyacentes o las dimensiones que reflejan qué es lo que las variables
comparten en común. Para cualquiera de estos métodos, el investigador
tiene que determinar también el número de factores que representan la
serie de variables originales. Tanto las cuestiones conceptuales como
empíricas afectan a esta decisión.
5to Paso: Interpretación de los factores
La interpretación de los factores implica identificar las variables que
están más estrechamente relacionadas con cada factor y nombrar cada
factor en función de su contenido temático.
6to Paso: Validación del análisis factorial
Comprende la evaluación del grado de generabilidad de los resultados para la
población y la influencia potencial de causas o individuos sobre los resultados
globales. El aspecto de la generabilidad es esencial en cada uno de los
métodos multivariantes, pero es especialmente relevante en los métodos de
interdependencia por describir una estructura de datos que debería ser
representativa también de la población. El método más directo de validación de
los resultados consiste en adoptar una perspectiva de confirmación, valorando
la replicabilidad de los resultados, bien dividiendo la muestra con los datos
originales o con una muestra adicional.
7mo Paso: Usos adicionales de los resultados del análisis factorial
Dependiendo de los objetivos de partida al aplicar el análisis factorial, el
investigador puede detenerse en la interpretación de los factores o
proseguir con uno de los métodos de reducción de datos. Si el objetivo
simplemente consiste en identificar combinaciones lógicas de variables y
una mejor comprensión de las relaciones entre variables, entonces basta
con la interpretación de los factores. Ésta facilita una base empírica para
enjuiciar la estructura de las variables y la influencia de esta estructura
cuando se interpretan los resultados a partir de otras técnicas
multivariantes. Si el objetivo, sin embargo, es identificar variables
apropiadas para aplicaciones subsiguientes de otras técnicas
estadísticas, se empleará alguna forma de reducción de datos. Las
alternativas consisten en examinar la matriz de factores y seleccionar la
variable con mayor carga factorial como un representante de una
dimensión factorial particular, o reemplazar el conjunto original de
variables por uno totalmente nuevo con menos variables creado a partir
de escalas aditivas o de la puntuación de factores. Cada alternativa
suministrará nuevas variables para ser usadas, por ejemplo, como
variables independientes en una regresión o en el análisis discriminante,
o como variables dependientes en el análisis multivariante de la
varianza, o incluso como las variables agrupadas en el análisis clúster.
Confiabilidad: la confiabilidad de una prueba indica el grado en que las
diferencias individuales en las calificaciones de una prueba son atribuibles al
error aleatorio de medición y en la medida en que son atribuibles a diferencias
reales en la característica o variable que se está midiendo.

 Alfa Cronbach:
Es un coeficiente que toma valores entre 0 y 1. Cuanto más se aproxime
al número 1, mayor será la fiabilidad del instrumento subyacente.

 Kuder Richardson: índice para medir la consistencia interna de una


escala que sirve para evaluar la extensión en que los ítems de un
instrumento son correlacionados.
Relación entre Nro. de preguntas y Nro. de datos
El número de datos recolectados o número de encuestados debe ser entre
10 y 30 veces mayor al número de preguntas de una encuesta.
Valor teórico
Es combinación lineal de variables compuesta a partir de ponderaciones
empíricas aplicadas a un conjunto de variables determinadas por el
investigador.
En regresiones múltiples, el valor teórico se determina de tal forma que
guarde la mejor correlación con la variable que se está prediciendo. En el
análisis factorial, los valores teóricos se forman para representar mejor las
estructuras subyacentes o la dimensionalidad de las variables tal y como se
representan en sus intercorrelaciones.
Variables ficticias
Método de especificación de la categoría de referencia para un conjunto de
variables ficticias donde la categoría de referencia recibe un valor de menos
uno (-1) a lo largo del conjunto de variables ficticias. Con este tipo de
codificación, los coeficientes de las variables ficticias se convierten en
desviaciones de grupo respecto a la media de todos los grupos. Se
diferencia del coeficiente de indicador, donde a la referencia de categoría se
le da el valor cero a lo largo de todas las variables ficticias y los coeficientes
representan desviaciones de grupo respecto al grupo de referencia.
Caso atípico
En un sentido estricto, una observación que tiene una diferencia sustancial
entre el valor real de la variable criterio y el valor previsto. Casos que son
sustancialmente, ‘‘diferentes ’’, tanto con relación a la variable criterio o
independiente, se denominan habitualmente atípicos. El objetivo de detectar
los casos atípicos es identificar las observaciones que no son
representaciones apropiadas de la población de la cual se extrae la
muestra, de forma que puedan ser descontados o incluso eliminados del
análisis por no ser representativos.
Coeficiente de correlación (r)
Indica la fuerza de la asociación entre las variables independientes y la
variable criterio. El signo (+ o -) indica la dirección de la relación. Puede
tomar valores entre -1 y + l. con +1 indicando una relación positiva perfecta,
0 indicando la ausencia de relación y -1 indicando una relación inversa o
negativa perfecta (a medida que una crece, otra disminuye).
Colinealidad
Expresión de la relación entre dos o más variables independientes. Se dice
que dos variables predictor exhiben una completa colinealidad si su
coeficiente de correlación es 1 y una completa falta de colinealidad si su
coeficiente de correlación es 0.
Multicolinealidad
Aparece cuando una única variable predictor está altamente correlacionada
con un conjunto de otras variables independientes. Un caso extremo de la
colinealidad / multicolinealidad es la singularidad, en la que se puede
predecir una variable independiente perfectamente (es decir, correlación de
1,0) por otra variable independiente (de más de uno).
Curtosis
Medida del apuntamiento o llanura de una distribución cuando se compara
con una distribución normal. Un valor positivo indica una distribución
relativamente puntiaguda y un valor negativo indica una distribución
relativamente plana.
Datos agregados
Datos creados a través de un proceso de combinación o sumatorio.
Datos ausentes
Información no disponible para un sujeto o caso sobre el cual existe otra
información. Los datos ausentes a menudo tienen lugar cuando un
encuestado falla en responder una o más cuestiones en una encuesta.
Fiabilidad
Grado en que una variable o conjunto de ellas es coherente con lo que
pretende medirse. Si se toman múltiples medidas, las medidas fiables serán
muy coherentes en sus valores. Se diferencia de la validez en que no se
relaciona con lo que debería medirse, sino con cómo se mide.
Homocedasticidad
Descripción de datos en los que la varianza del término de error (Є) aparece
constante sobre un rango de variables independiente. El supuesto de igual
varianza del error de la población E (donde E se estima de Є) es decisivo
para la apropiada aplicación de la regresión lineal.
Linealidad
Utilizada para expresar el concepto de que el modelo posee las
propiedades de aditividad y homogeneidad. En un sentido simple, los
modelos lineales predicen valores que caen en una línea recta que tiene un
cambio unitario constante de la variable dependiente (pendiente) a partir de
un cambio unitario constante de la variable independiente. En el modelo de
población Y = b0 + b1x1 + e, el efecto de un cambio de 1 en X1 es añadir b
(una constante) unidades de Y.
Normalidad
Grado en el cual la distribución de los datos de la muestra corresponde a
una distribución normal.
Escalas en estadística

 Escala nominal La escala nominal se utiliza para etiquetar variables sin


ningún valor cuantitativo, son mutuamente excluyentes (no se
superponen) y ninguna de ellas tiene significado numérico.
 Escala ordinal En la escala ordinal, lo importante y significativo es el
orden de los valores, pero no se conocen realmente las diferencias entre
cada uno de ellos.
 Escala de Intervalo La escala de intervalo es una escala numérica en la
que conocemos tanto el orden como las diferencias exactas entre los
valores.
 Escalas de razón La escala de razón arroja el valor exacto entre las
unidades y también tienen un cero absoluto, lo que permite aplicar una
amplia gama de estadísticas tanto descriptivas como inferenciales.
 Escala gráfica de medición de datos En cada extremo de esta escala
gráfica se colocan valores opuestos y se le pide a los encuestados que
marquen mediante deslizamiento el punto que más se acerque a su
opinión.
 Escala Likert La escala de Likert contiene un número impar de
opciones, popularmente se usan cinco o siete y se etiqueta un extremo
como muy negativo y el otro como muy positivo, incluyendo una etiqueta
de “Neutral” en medio de la escala.
 Escala de diferencial semántico (Max Diff) Una escala diferencial es
una combinación de diferentes conceptos, normalmente contiene un
número impar de características a calificar y se etiquetan ambos
extremos con valores opuestos.
 Matriz de lado a lado de análisis de datos Otro de los tipos de escalas
de medición que se utiliza popularmente en las encuestas es la matriz
de lado a lado y la forma más común de hacerlo es evaluando
importancia / satisfacción.
 Matriz de lado a lado de análisis de datos Otro de los tipos de escalas
de medición que se utiliza popularmente en las encuestas es la matriz
de lado a lado y la forma más común de hacerlo es evaluando
importancia / satisfacción.

También podría gustarte