Está en la página 1de 57

Estadística

para
Ingeniería

INGE – 1421
2022-A

Paola T. Mendoza Bello


Ingeniero Estadístico.
M.Sc. Didáctica de la Matemática.
Diplm. Enseñanza de la Educación Superior.
UNIDAD III:
REGRESIÓN LINEAL
INTRODUCCIÓN

ANÁLISIS DE
CORRELACIÓN
CORRELACIÓN

Coeficiente de Correlación Lineal de Pearson (R):


Nace de la necesidad de “averiguar” si dos variables de tipo
cuantitativo están relacionadas linealmente.
El Coeficiente de Correlación Lineal de Pearson puede tomar valores:

1  R  1

Y sus interpretación se fundamenta:


• En el sentido de la asociación lineal.
• La intensidad (fuerza) de la asociación lineal.
CORRELACIÓN
• Para valores negativos (R<0), existe una relación
inversa entre el par de variables. Caso R=-1, indica
relación lineal perfecta.
Coeficiente de Correlación Lineal de Pearson (R):
• Para valores positivos (R>0), existe una relación
Nace de la directade
necesidad “averiguar”
entre el par de variables.
si dos Caso R=1, indica
variables de tipo
relación lineal perfecta.
cuantitativo están relacionadas linealmente.
• Para un valor igual a cero (R=0), no existe relación
El Coeficiente de Correlación
lineal entreLineal devariables
el par de Pearson enpuede
estudio.tomar valores:

1  R  1

Y sus interpretación se fundamenta:


• En el sentido de la asociación lineal.
• La intensidad (fuerza) de la asociación lineal.
CORRELACIÓN

• En el extremo 1 (R=1), la relación lineal es muy fuerte o fuerte.


Coeficiente de Correlación Lineal de Pearson (R):
• Entre 0,90 y 0,50, la relación lineal es fuerte.
Nace de la necesidad de “averiguar” si dos variables de tipo
• Entre 0,49 y 0,30, la relación lineal es moderada.
cuantitativo están relacionadas linealmente. Solo que la
• Entre 0,29 y 0,10, la relación lineal es débil.
El Coeficiente de Correlación Lineal de Pearson puede tomarrelación
valores:
lineal es
• Entre 0,09 y 0, la relación lineal es inexistente. directa.
1  R  1

Y sus interpretación se fundamenta:


• En el sentido de la asociación lineal.
• La intensidad (fuerza) de la asociación lineal.
CORRELACIÓN

• En el extremo -1 (R=-1), la relación lineal es muy fuerte o fuerte.


Coeficiente de Correlación Lineal de Pearson (R):
• Entre -0,90 y -0,50, la relación lineal es fuerte.
Nace de la necesidad de “averiguar” si dos variables de tipo
• Entre -0,49 y -0,30, la relación lineal es moderada.
cuantitativo están relacionadas linealmente. Solo que la
• Entre -0,29 y -0,10, la relación lineal es débil.
El Coeficiente de Correlación Lineal de Pearson puede tomarrelación
valores:
lineal es
• Entre -0,09 y 0, la relación lineal es inexistente. inversa.
1  R  1

Y sus interpretación se fundamenta:


• En el sentido de la asociación lineal.
• La intensidad (fuerza) de la asociación lineal.
CORRELACIÓN

Análisis gráfico del Coeficiente de Correlación Lineal de


Pearson (R):
CORRELACIÓN

Análisis gráfico del Coeficiente de Correlación Lineal de


Pearson (R):
CORRELACIÓN

Análisis gráfico del Coeficiente de Correlación Lineal de


Pearson (R):
REGRESIÓN LINEAL
REGRESIÓN LINEAL

Modelo de Regresión Lineal (MRL):


En estadística la regresión lineal o ajuste lineal es un modelo
matemático usado para aproximar la relación de dependencia
entre una variable dependiente Y, la(s) variable(s)
independiente(s) X y un término aleatorio (azaroso).

Y   0  1 X  
REGRESIÓN LINEAL

Modelo de Regresión Lineal (MRL):


En estadística la regresión lineal o ajuste lineal es un modelo
matemático usado para aproximar la relación de dependencia
entre una variable dependiente Y, la(s) variable(s)
independiente(s) X y un término aleatorio (azaroso).
Variable(s)
Variable
Dependiente
Y   0  1 X   Independiente(s)
REGRESIÓN LINEAL

Modelo de Regresión Lineal (MRL):


En estadística la regresión lineal o ajuste lineal es un modelo
matemático usado para aproximar la relación de dependencia
entre una variable dependiente Y, la(s) variable(s)
Intercepto
independiente(s) X y un término aleatorio (azaroso).
Pendiente

Y   0  1 X   Error o residuo entre


la observación y el
modelo
REGRESIÓN LINEAL

Modelo de Regresión Lineal (MRL) Múltiple:

Y   0  1 X 1   2 X 2   3 X 3  ...   l X l  ...  

Modelo de Regresión Lineal (MRL) Simple:

Y   0  1 X 1  
REGRESIÓN LINEAL

Modelo de Regresión Lineal Simple (MRLS) Estimado:

Yˆi  ˆ0  ˆ1 X i

Yˆi = Estimador de Yi (MRLS)


̂ 0 = Estimador de 0 Yi   0  1 X i   i
̂1 = Estimador de 1 Donde  i  Yi  Yˆi
REGRESIÓN LINEAL
Recta de ajuste

Modelo de Regresión Lineal Simple (MRLS) Estimado:

Yˆi  ˆ0  ˆ1 X i

Yˆi = Estimador de Yi (MRLS)


̂ 0 = Estimador de 0 Yi   0  1 X i   i
̂1 = Estimador de 1
REGRESIÓN LINEAL

Modelo de Regresión Lineal Simple (MRLS) Estimado:

Yˆi  ˆ0  ˆ1 X i

Yˆi = Estimador de Yi (MRLS)


̂ 0 = Estimador de 0 Yi   0  1 X i   i
̂1 = Estimador de 1
Comportamiento de la Nube
de puntos
REGRESIÓN LINEAL

7
1
6 8 Yˆi  ˆ0  ˆ1 X i
4
Recta
2
5 (MRLS)
3
REGRESIÓN LINEAL

Supuestos teóricos del MRL:

• Linealidad: yi   0  1 X i   i para i  1,..., n


• Independencia:  i y  j son independientes para i  j
• Homocedasticidad: Var( i )   para i  1,..., n
2


• Normalidad: i  N 0,  2

• No colinealidad: Que las variables independientes (X) no estén
correlacionadas entre ellas.
REGRESIÓN LINEAL
Que la relación entre
las variables sea
Supuestos teóricos del MRL: lineal.

• Linealidad: yi   0  1 X i   i para i  1,..., n


• Independencia:  i y  j son independientes para i  j
• Homocedasticidad: Var( i )   para i  1,..., n
2

• Normalidad:  i  N 0, 2 
• No colinealidad: Que las variables independientes (X) no estén
correlacionadas entre ellas.
REGRESIÓN LINEAL

Supuestos teóricos del MRL:


Que los errores

• Linealidad: yi   0  1 X i   i tengan varianza


para i  1,..., n
constante.

• Independencia:  i y  j son independientes para i  j


• Homocedasticidad: Var( i )   para i  1,..., n
2

• Normalidad:  i  N 0, 2 
• No colinealidad: Que las variables independientes (X) no estén
correlacionadas entre ellas.
REGRESIÓN LINEAL

Supuestos teóricos del MRL:

• Linealidad: yi   0  1 X i   i para i  1,..., n


• Independencia:  i y  j son independientes para i  j
Normalidad de los
errores o residuos
• Homocedasticidad: Var( i )   para i  1,..., n
2


• Normalidad: i  N 0,  2

• No colinealidad: Que las variables independientes (X) no estén
correlacionadas entre ellas.
REGRESIÓN LINEAL

Verificación de Supuestos:

• Independencia: i y j son independientes para i  j

La independencia entre los residuos, verifica si los datos han sido


recogidos siguiendo una secuencia temporal.

El estadístico adecuado es Durbin-Watson entrega información


sobre el grado de independencia entre ellos.
REGRESIÓN LINEAL

Verificación de Supuestos:

• Independencia: i y j son independientes para


• Sí DW < 2 
n
autocorrelación positiva.

 i i1
e  e 2

• Sí DW > 2 
DW  i 2
n
0  DW  4
autocorrelación negativa.
e
i 1
2
i

• Sí DW = 2  los residuos
son independientes.

Podemos asumir independencia entre los residuos para un DW con valores


entre 1,5 y 2,5.
REGRESIÓN LINEAL

Verificación de Supuestos:

• Homocedasticidad: Var( i )   2 para i  1,..., n

El supuesto de homocedasticidad o igualdad de varianzas implica


que la variación de los residuos (ZRESID: Residuos tipificados)
debe ser uniforme en todo el rango de valores pronosticados
(ZPRED: Pronósticos o predichos tipificados).

Así el gráfico o diagrama de dispersión no debe mostrar ninguna


pauta de asociación entre los pronósticos y los residuos (también
llamados “ Yˆ ” y “r”, respectivamente).
REGRESIÓN LINEAL

Verificación de Supuestos:

• Homocedasticidad: Var( i )   2 para i  1,..., n

Ejemplos gráficos:

(a): Nube de datos sin


estructura.

(b): Varianza que crece


con X (forma de
megáfono abierto a la (c): Varianza que decrece con X (forma de
derecha. megáfono abierto a la izquierda.
REGRESIÓN LINEAL
Como no existe
estructura, se establece
la homocedasticidad o
Verificación de Supuestos: igualdad de varianzas

• Homocedasticidad: Var( i )   2 para i  1,..., n

Ejemplos gráficos:

(a): Nube de datos sin


estructura.

(b): Varianza que crece


con X (forma de
megáfono abierto a la (c): Varianza que decrece con X (forma de
derecha. megáfono abierto a la izquierda.
REGRESIÓN LINEAL

Verificación de Supuestos:

• Homocedasticidad: Var( i )   2 para i  1,..., n

Ejemplos gráficos:

(d): Varianza que


depende de la
covariable.

(e) y (f): No linealidad de las variables en estudio.


REGRESIÓN LINEAL

Verificación de Supuestos:

• Homocedasticidad: Var( i )   2 para i  1,..., n

Ejemplos gráficos:

(g) y (h): Combinación


de no linealidad,
además, se determina
varianza no constante.
REGRESIÓN LINEAL

Verificación de Supuestos:

 
• Normalidad:  i  N 0, ,además, la normalidad de las variables
2

en estudio.
Ejemplos gráficos

 Histograma: No se detecta
normalidad, pues en la parte
central hay muchos más datos
que para el caso de distribución
normal se escapan de la curva.
Además, hay presencia de datos
atípicos.
REGRESIÓN LINEAL

Verificación de Supuestos:

 
• Normalidad:  i  N 0, ,además, la normalidad de las variables
2

en estudio.

Ejemplos gráficos

 Probabilidad normal: Mientras


más alineados se encuentren los
datos sobre la diagonal del gráfico,
se estará más próximo al
cumplimiento de la normalidad (Lo
que no ocurre para este ejemplo).
REGRESIÓN LINEAL

Verificación de Supuestos:
Corresponde a cada


• Normalidad:  i  N 0,  ,además, la normalidad de las variables
residuo
2 tipificado.

en estudio.

Ejemplos gráficos

 Probabilidad normal: Mientras


más alineados se encuentren los
datos sobre la diagonal del gráfico,
se estará más próximo al
cumplimiento de la normalidad (Lo
que no ocurre para este ejemplo).
REGRESIÓN LINEAL

Verificación de Supuestos:

 
• Normalidad:  i  N 0, ,además, la normalidad de las variables
2

en estudio.

Ejemplos gráficos

 Probabilidad normal: Mientras Probabilidad observada,


más alineados se encuentren corresponde
los a los residuos
datos sobre la diagonal del gráfico, tipificados.
se estará más próximo al
cumplimiento de la normalidad (Lo
que no ocurre para este ejemplo).
REGRESIÓN LINEAL

Verificación de Supuestos:

• No colinealidad: Que las variables independientes (X) no estén


correlacionadas entre ellas.

Que exista colinealidad perfecta cuando una de las variables


independientes se relaciona de forma perfectamente lineal con una o
más del resto de variables independientes.

Se ha establecido que cuantas más variables tenga el modelo, más


fácil es que exista colinealidad.
REGRESIÓN LINEAL

Verificación de Supuestos:

• No colinealidad: Que las variables independientes (X) no estén


correlacionadas entre ellas.

 Diagnóstico de Colinealidad:

Los Autovalores informan sobre cuántas dimensiones o factores


(variables reagrupadas por comportamientos similares) se
reacomodan el conjunto de variables independientes utilizadas en el
modelo. La presencia de autovalores cercanos a cero indica que las
variables independientes están muy relacionadas entre si, lo cual
implica que existe colinealidad.
REGRESIÓN LINEAL

Verificación de Supuestos:

• No colinealidad: Que las variables independientes (X) no estén


correlacionadas entre ellas.

 Diagnóstico de Colinealidad:

Índices de Condición, son la raíz cuadrada del cociente entre el


autovalor más grande y cada uno del resto de los autovalores. En
condiciones de no colinealidad estos índices no deben superar el
valor 15, para índices mayores a 15 indican un posible problema, e
índices mayores a 30 implican un serio problema de colinealidad.
REGRESIÓN LINEAL

Verificación de Supuestos:

• No colinealidad: Que las variables independientes (X) no estén


correlacionadas entre ellas.

 Diagnóstico de Colinealidad:
REGRESIÓN LINEAL

Verificación de Supuestos:

• No colinealidad: Que las variables independientes (X) no estén


3correlacionadas
de 4 autovaloresentre
son cercanos
ellas. a 0, hay una
alta tendencia a la colinealidad, ie, variables
 independientes
Diagnósticomuy derelacionadas
Colinealidad: entre sí.
REGRESIÓN LINEAL

Verificación de Supuestos:

• No colinealidad: Que lasExiste un índiceindependientes


variables mayor que 15, lo(X)
que podría
no estén
correlacionadas entre ellas. establecer posible colinealidad.

 Diagnóstico de Colinealidad:
REGRESIÓN LINEAL

MÉTODO DE MÍNIMOS
CUADRADOS ORDINARIOS
CORRELACIÓN

Método de los Mínimos Cuadrados Ordinarios (MCO)

La estimación de los parámetros de un modelo de regresión


lineal, se realiza habitualmente (aunque no es el único) por
medio el método de los mínimos cuadrados ordinarios
(MCO).

n n

y i x i
ˆo  i 1
 ˆ1 i 1
 y  ˆ1 x
n n
CORRELACIÓN

Método de los Mínimos Cuadrados Ordinarios (MCO)

La estimación de los parámetros de un modelo de regresión


lineal, se realiza habitualmente (aunque no es el único) por
medio el método de los mínimos cuadrados ordinarios
(MCO).
 n  n 
  xi   yi 
xi yi   i 1  i 1   x  x y 
n n

S S  n
i i y
Cov ( X , Y )
ˆ1  XY  XY2  i 1
 i 1

 x  x 
2 n
S XX SX  n  2 Var ( X )
  xi  i

xi2   i 1 
n i 1

i 1 n
CORRELACIÓN

Método de los Mínimos Cuadrados Ordinarios (MCO)

La estimación de los parámetros de un modelo de regresión


lineal, se realiza habitualmente (aunque no es el único) por
medio el método de los mínimos cuadrados ordinarios
(MCO).
n
S XY   xi y i  nX  Y
i 1
n
S XX   xi2  nX 2
i 1
CORRELACIÓN

Covarianza: Indica el sentido de la relación en las


variables
• Si S XY  0 las dos variables crecen o decrecen a la vez
(nube de puntos creciente).

• Si S XY  0 cuando la variable crece, la otra tiende a


decrecer (nube de puntos decreciente).

• Si S XY  0 no hay relación lineal.


CORRELACIÓN

Método de los Mínimos Cuadrados Ordinarios (MCO)

El procedimiento consiste en minimizar la suma de los


cuadrados de las distancias verticales entre los valores de los
datos y los de la regresión estimada
CORRELACIÓN

Método de los Mínimos Cuadrados Ordinarios (MCO)

El procedimiento consiste en minimizar la suma de los


cuadrados de las distancias verticales entre los valores de los
datos y los de la regresión estimada

Valores de
los datos
CORRELACIÓN

Método de los Mínimos Cuadrados Ordinarios (MCO)

El procedimiento consiste en minimizar la suma de los


cuadrados de las distancias verticales entre los valores de los
datos y los de la regresión estimada.

Valores de
la regresión
estimada
CORRELACIÓN

Método de los Mínimos Cuadrados Ordinarios (MCO)

El procedimiento consiste en minimizar la suma de los


cuadrados de las distancias verticales entre los valores de los
datos y los de la regresión estimada.

Los residuos son la


diferencia entre los datos
observados y los valores
del modelo (línea).
CORRELACIÓN

Método de los Mínimos Cuadrados Ordinarios (MCO)

Al obtener la recta se observa que hay datos que se acercan


mucho más a la recta que otros. Al hacer los pronósticos se
pueden identificar tres componentes principales referentes a
la recta, la media de los valores y los datos originales.
CORRELACIÓN

Método de los Mínimos Cuadrados Ordinarios (MCO)

Al obtener la recta se observa que hay datos que se acercan


mucho más a la recta que otros. Al hacer los pronósticos se
pueden identificar tres componentes principales referentes a
la recta, la media de los valores y los datos originales.
CORRELACIÓN

Tabla Análisis de Varianza (ANDEVA o ANOVA)


CORRELACIÓN

Tabla Análisis de Varianza (ANDEVA o ANOVA)


CORRELACIÓN

Tabla Análisis de Varianza (ANDEVA o ANOVA)


CORRELACIÓN

Tabla Análisis de Varianza (ANDEVA o ANOVA)


¡Vamos que se
puede!

También podría gustarte