REGRESIONMULTIPLE

Universidad Nacional de San Cristóbal de Huamanga
Facultad de Ciencias Económicas y Administrativas

Escuela Profesional de Administración de Empresas
Curso:
ESTADÍSTICA APLICADA A GERENCIA
Semana 07
Docente:
Lic. Elvis Raúl Huaihua Flores
Análisis de regresión lineal múltiple
Definición:
▪ “Es el estudio de la relación lineal existente entre una variable Y , llamada “variable
dependiente” y un conjunto de variables explicativas o independientes X1, X2, X3, …
, XP−1, " (Toma & Rubio, 2019, p 231).
▪ “Es una técnica estadística utilizada para analizar la relación entre una variable
dependiente (endógena o criterio) métrica y varias variables independientes
(exógenas o predictoras) también métricas. El objetivo esencial del análisis de la
regresión múltiple es utilizar las variables independientes, cuyos valores son
conocidos, para predecir la única variable criterio (dependiente) seleccionada por el
investigador” (Pérez Lopez, 2004, p. 5) .
▪ “La regresión múltiple admite la posibilidad de trabajar con variables

independientes no métricas si se emplean variables ficticias para su transformación
en métricas” (Pérez Lopez, 2004, p. 5) .
2
Sistema de Ecuaciones lineales
3
Presentación matricial del modelo estadístico
• Y es un vector aleatorio y X es una
matriz de valores fijos
• β mide la fortaleza con que cada
variable predictiva influencia la variable
criterio. Mientras el valor de β sea mas
grande, más importante es el impacto
del predictor
4
Criterios para realizar el análisis
• Naturaleza lineal : Los predictores y las variables criterio siguen una línea
recta.
• La variable criterio que será predicha debe ser medida con una escala de
intervalo o de razón. Del mismo modo para las variables predictoras, sin
embargo también puede considerarse variables dicotómicas.
• Multicolinealidad: Deberemos complementariamente verificar que las
variables predictoras correlacionen entre sí, no obstante no debe ser
excesivamente “fuerte”. No deberíamos esperar que las variables
independientes correlacionen de manera muy importante.
• Se debe tener 15 a 20 casos por cada variable ( Stevens, 1996), sin embargo
no siempre existe el consenso.
5
Métodos
Simultaneo /Enter (Intro) Jerárquico

Por pasos (Stepewise)
Nos brinda un solo modelo Nos brinda un solo modelo con todas las
Nos brinda diferentes
con todas las variables, aún si variables, las cuales se introducen por
modelos descartando las
estas explican o no. pasos y en orden de importancia, definida
variables que no explican. 6
por quien investiga
Cálculo de la regresión múltiple usando SPSS
Ejemplo:
Se realiza un estudio sobre la relación entre los beneficios anuales, los gastos en
publicidad y las horas extras al año de los empleados. Se obtienen datos de 7
empresas del sector y área geográfica de interés. Se le pide determinar el modelo de
regresión múltiple.
7
Pasos a seguir:
● Estimación de parámetros: comprobamos la contribución de las diferentes variables en

un posible modelo de regresión (multilineal porque hay más de 1 variable independiente).
o De especial importancia son los valores p_valor (<.05).
o El resultado del modelo nos da la ecuación.
o R es la medida de correlación entre los valores observados y los valores predichos de
la variable dependiente o de criterio.
o El 𝐑𝟐 es el cuadrado de esta medida de correlación. Indica el grado en el que se
cumple la relación lineal del modelo. También indica la proporción de la varianza en
la variable dependiente o de criterio que es explicada por el modelo. Se trata de que
tan buena predicción de la variable dependiente podemos hacer si conocemos la
variable predictora.
o 𝐑𝟐 ajustado toma en cuenta el número de variables en el modelo y el número de
participantes del estudio. Este valor constituye una apreciación más real de la
varianza total explicada por el modelo 8
Pasos a seguir:
o Beta o coeficiente estándar de regresión es la medida de la fuerza de la influencia de

cada variable independiente sobre la variable dependiente. Por ejemplo un valor beta
2.2 indicaría que un cambio en una desviación estándar en la variable independiente
resulta una alteración de 2.2 desviaciones estándar en la variable dependiente (a mayor
valor beta, mayor es el impacto del predictor sobre la variable dependiente.
o Beta o coeficiente no estandarizados, miden los mismo que los coeficientes
estandarizados, sin embargo estos valores están condicionados por las escalas en que
vienen medidas las variables del modelo.
o Valores t y los de significancia (p) ofrecen también el impacto de cada variable
independiente. Un valor alto de t y una significancia muy baja nos indican que la
variable respectiva tiene un impacto apreciable sobre la variable dependiente
o ANOVA, nos permite verificar y evaluar el grado de significación general del modelo.
Mediante el valor F nos indica si el modelo es adecuado o no.
o Los intervalos nos indican el nivel de precisión de las estimaciones. 9
o Los coeficientes de correlación miden cómo interactúan las VI con la VD y entre sí.
Pasos a seguir:
● Supuestos básicos del modelo de regresión:

o Multicolinealidad: Se debe evitar la multicolinealidad, es decir si encontramos una
correlación alta (mayor a 0.8) entre las variables independientes , existe una alta
probabilidad de que las variables altamente correlacionadas expliquen simultáneamente la
misma varianza de la variable dependiente (Razón suficiente para suspender el análisis)
o Estadístico de colinealidad: La Tolerancia y el Factor de Inflación de la Varianza (VIF). La
Tolerancia es la medida de correlación entre las variables independientes y puede variar de
0 a 1, mientras más próximo a 0 es el valor de Tolerancia de una variable, más fuerte es la
relación que se establece entre esta y otro predictor. El factor VIF , por el contrario señala
multicolinealidad cuando sus valores asociados a cada variable son mas bien altos (mayores
que 9). “Ello indica que una fuerte relación las variables predictoras incrementan (inflan) el
error estándar de sus coeficientes , lo que aconseja su eliminación del modelo” (Roth
Unzueta, 2012, p. 59).
10
Pasos a seguir:
● Supuestos básicos del modelo de regresión:

o Análisis de residuos (error de la regresión múltiple):
o Independencia: Durbin-Watson (comportamiento de una VI no afecta a otra
VI)
o Homocedasticidad: diagrama de dispersión (igualdad de varianzas).
o Normalidad: histograma y gráfico de residuos tipificados
o Linealidad: diagrama de dispersión (con los residuos apreciamos si no es
lineal)
11
● Coeficientes no estandarizados: se encuentran los coeficientes 𝛽𝑖 que forman parte de la ecuación en

puntuaciones directas. Beneficios=0,59 + 0,936 Publicidad+ 0,187 HE
● Estos coeficientes no son independientes entre sí.
● Suelen denominarse Coeficientes en regresión parcial porque el valor concreto estimado para coeficiente se
ajusta teniendo en cuenta la presencia del resto de las variables independientes.
● Los Coeficientes Beta están basados en las puntuaciones típicas, por lo que son directamente comparables entre sí.
Indican la cantidad de cambio, en puntuaciones típicas, que se producirá en la VD por cada cambio de una unidad en
la correspondiente VI (manteniendo constante el resto de VI).
● En el caso práctico observamos que el coeficiente Beta más importante es el de la variable Publicidad.
● Las pruebas t y sus niveles críticos sirven para contrastar la Ho de que un coeficiente de regresión vale 0 en 12
la población. Niveles inferiores a 0.05 en Sig indican que debemos rechazar la Ho.
Ajuste del modelo

● Nos indica, a nivel conjunto, si todas las VVII permiten establecer una relación lineal significativa con la
VD y en qué grado o nivel de afectación lo hacen. Viene a indicar la bondad del ajuste (lo bueno de la
explicación).
● Se suele citar tanto 𝑅2 (respuesta de la VD ante cambios en las VVII) como 𝑅2 ajustado (considera el nº de
variables). Vemos en el caso práctico que lo hace en un 85,7%.
● 𝑅 2 ajustado puede ser negativo ya que estima la relación con la población teniendo en cuenta el nº de
prescriptores. Sin embargo 𝑅 2 tomará un valor comprendido entre 0 y 1
13
● El cuadro ANOVA (analysis of variance) nos ofrece el estadístico F que contrasta la

hipótesis nula de que el valor poblacional de 𝑹𝒀𝑿𝟏 𝑿𝟐 es cero.
● Consecuentemente, al tener un Sig<.05 indica, además de rechazar la hipótesis
nula, la existencia de relación lineal significativa. Es decir, el modelo es adecuado.
En otras palabras, el factor/es estudiados tienen efecto-s significativo-s en el
experimento.
14
Intervalos de confianza
● Informan sobre los límites en que se encuentra el valor poblacional de cada

coeficiente.
● Cuanto mayor sea el intervalo menor precisión en las estimaciones realizadas y,
posiblemente, inestables (podría ocurrir por problemas de colinealidad).
15
Matriz de correlaciones y covarianzas (relación no estandarizada)

● Esta matriz nos muestra las covarianzas y correlaciones existentes entre los coeficientes de
regresión parcial.
● Apreciamos una correlación alta y negativa entre HE y Publicidad. Sus direcciones son
opuestas.
● La diferencia de signos en las covarianzas evidencian que varían en direcciones opuestas.
Sus valores no establecen el potencial entre ambas variables. Esto se aprecia en la
correlación. 16
● El nº de elementos, su valor medio y su desviación nos ayuda a comprender a la

composición de los datos en estudio.
● La matriz de correlaciones entre el conjunto de variables utilizadas en el estudio nos
permite decidir sobre la hipótesis de que el coeficiente de correlación vale 0 en la población,
así como el nº de casos sobre el que se ha calculado cada coeficiente (efectiva si sig es
inferior o igual a cero). 17
Correlación parcial y semiparcial

● Un coeficiente de correlación parcial expresa el grado de relación existente entre dos variables tras eliminar de ambas el efecto
debido a terceras variables.
● Un coeficiente de correlación semiparcial expresa el grado de relación existente entre dos variables tras eliminar de una de ellas el
efecto debido a terceras variables.
● Con los coeficientes de correlación parcial y semiparcial, aparecen las correlaciones de orden cero, es decir, los coeficientes de
correlación calculados sin tener en cuenta la presencia de terceras variables (se trata de los mismos coeficientes que aparecen en la
tabla de correlaciones)
● Todo ello nos lleva a poder hacer algunas observaciones:
○ La relación entre la VD beneficios y la VI Publicidad vale 0,921.
○ Al eliminar de las variables (Beneficios y Publicidad) el efecto atribuible a las HE, la relación baja a 0,833 (parcial).
○ Cuando el efecto atribuible a HE se elimina sólo de la variable Beneficios, la relación baja a 0,464 (semiparcial). 18
● En suma, este análisis indica que la relación entre las variables “Beneficios-HE” tiene mucho menor peso en la relación.
Colinealidad
• Los estadísticos de colinealidad de Tolerancia y VIF (FIV: factor de inflación de la varianza) nos ayuda diagnosticar
la presencia de colinealidad. Altos niveles de FIV indican mayor colinealidad.
• Valores de tolerancia muy pequeños indican que esa variable puede ser explicada por una combinación lineal del
resto de variables, lo que significa que existe colinealidad.
• El modelo nos muestra una Tolerancia de 0.478, valor no muy cercano a 0, significando que no existe colinealidad,
además se obtien un un valor VIF= 2.090, concluyendo también baja colinealidad
19
Independencia:
El valor de Durbin-Watson proporciona información sobre el grado de independencia (no existe inter-
correlación de residuos) , y se asume esta cuando oscila entre 1,5 y 2,5.
20
Homocedasticidad y linealidad:
• En la figura se aprecian diversas variables

(las creadas por SPSS comienzan con un *).
• Nos interesan *ZRESID(residuos tipificados) y
*ZPRED (valores predichos) porque nos
permiten detectar la homocedasticidad.
• El diagrama de dispersión, para mostrar
igualdad de varianzas, no deberá mostrar
ninguna pauta de asociación entre los
residuos y los pronósticos.
• Veamos el resultado para este caso.
21
Homocedasticidad Heterocedasticidad
Homocedasticidad y linealidad:
• Lo deseado o lo esperado es que la nube de
puntos obtenida se distribuya en una banda
horizontal con respecto a los ejes del plano
cartesiano , significando la ausencia de cualquier
tendencia.
• Para nuestro caso, la figura obtenida sigue una
tendencia esperada con valores que van
aproximadamente entre -2 y +1.
• En el diagrama de dispersión se observa que
aunque los residuos y los pronósticos parecen
ser independientes (la nube de puntos no sigue
ninguna pauta de asociación clara, ni lineal ni de
ningún otro tipo), no está claro que las varianzas
sean homogéneas.
22
Normalidad
• Con figuras podemos ver histograma y de probabilidad
normal.
• HISTOGRAMA: nos presenta una figura con los residuos
tipificados con una curva normal superpuesta.
• La curva se construye tomando una media de cero y un
desviación típica de uno. Es decir, la misma media y la
misma desviación típica que los residuos típicos
tipificados.
• Para verificar el supuesto de la normalidad, se deberá
obtener el histograma de residuos tipificados y la figura
de probabilidad normal P-P de residuos tipificados.
• Se sigue un patrón de normalidad esperado si la figura
de probabilidad muestra coincidencia entre los valores
de probabilidad acumulada esperada con los de
probabilidad acumulada observada, conformándose en 23
consecuencia una sola línea de tendencia diagonal
Normalidad
• Observamos en el eje de abscisas la
probabilidad acumulada que corresponde a
cada residuo tipificado. El de las ordenadas
representa la probabilidad cumulada teórica
que corresponde a cada desviación típica en
una curva normal (0,1).
• Apreciamos que los puntos no se encuentran
alineados sobre la diagonal de la figura,
indicando el posible incumplimiento del
supuesto de normalidad.
24

REGRESIONMULTIPLE

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

REGRESIONMULTIPLE

Cargado por

Copyright:

Formatos disponibles

Universidad Nacional de San Cristóbal de Huamanga

Facultad de Ciencias Económicas y Administrativas

▪ “La regresión múltiple admite la posibilidad de trabajar con variables

Simultaneo /Enter (Intro) Jerárquico

● Estimación de parámetros: comprobamos la contribución de las diferentes variables en

o Beta o coeficiente estándar de regresión es la medida de la fuerza de la influencia de

● Supuestos básicos del modelo de regresión:

● Supuestos básicos del modelo de regresión:

● Coeficientes no estandarizados: se encuentran los coeficientes 𝛽𝑖 que forman parte de la ecuación en

Ajuste del modelo

● El cuadro ANOVA (analysis of variance) nos ofrece el estadístico F que contrasta la

● Informan sobre los límites en que se encuentra el valor poblacional de cada

Matriz de correlaciones y covarianzas (relación no estandarizada)

● El nº de elementos, su valor medio y su desviación nos ayuda a comprender a la

Correlación parcial y semiparcial

• En la figura se aprecian diversas variables

También podría gustarte