Está en la página 1de 62

Inferencia

Estadística

Regresión lineal

Universidad Javeriana
Objetivo
Determinar niveles de asociación entre variables dependientes e independientes

Variable Independiente
Categórica Escalar
Análisis
Prueba de
Categórica discriminante.
independencia
Regresión logística

Variable Diferencia de
Dependiente medias.
ANOVA. Regresiones
Escalar
Experimentos lineales
unifactoriales y
multifactoriales
Regresión Lineal
 
Objetivo: Estudiar el comportamiento de una variable aleatoria a través de una variable aleatoria . La
metodología supone que entre las variables y existe una relación lineal.

¿De dónde se parte?


De una muestra aleatoria (n observaciones seleccionadas al azar)

Motivación
Los modelos de Regresión Lineal tienen, entre otros, dos importantes propósitos:

• Exploratorio: identificar a partir de un conjunto de variables cuáles son las que mejor explican linealmente a
una VA de interés .
• Predictivo: a partir de un modelo lineal, predecir el comportamiento de una VA con base en el
comportamiento de un conjunto de variables
Regresión Lineal
Representación del modelo

30

25

20

15

10

0
0 2 4 6 8 10
Regresión Lineal
 La ecuación del modelo está dada por:

;
o, en términos de las observaciones:i, para .

Supuestos:

1. es una variable controlada.


2.
3. para
4. Supuesto fuerte:

Consecuencia de los supuestos:

y son parámetros del modelo con valor desconocido que deben ser estimados con base en los datos.
Coeficiente de correlación lineal

  𝑆 𝑥𝑦
∑ [( 𝑥 𝑖 − 𝑥
´ ) ( 𝑦𝑖 − ´
𝑦)]
𝑖=1
𝑟= =
𝑆𝑥 𝑆 𝑛 𝑛
𝑦

√ ∑ ( 𝑥𝑖 −
𝑖= 1
´
2
𝑥) ∗∑ ( 𝑦𝑖 − ´
𝑖= 1
𝑦)
2

Si r (+): pendiente (+)


Si r (-): pendiente (-)

Si el valor de |r| >= 0,8 la relación lineal entre x y y es “fuerte”.


Si 0,5 <= |r| < 0,8 la relación líneal entre x y y es “débil”.
Si |r| < 0,5 se dice que no hay relación lineal entre x y y.

𝑟  2=𝐶𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑑𝑒𝑡𝑒𝑟𝑚𝑖𝑛𝑎𝑐𝑖 ó 𝑛
Coeficiente de correlación lineal. Ejemplo
Para la relación entre peso y altura de los siguientes datos tomados de cuatro personas, halle el
coeficiente de correlación y el coeficiente de determinación. Determine si hay relación lineal entre las
variables

X: Altura (cm) 178 169 157 173


Y: Peso (kg) 69,8 70,2 59,4 68,4

  𝑆 𝑥𝑦 122,05 122,05
𝑟= = = =0,892
𝑆 𝑥 𝑆 𝑦 √ 2 40,75 ∗ 77,79 136,85

𝑟  2= 0,8922=0,795
Estimación por mínimos cuadrados
 Se trata de estimar los parámetros y , con base en los valores de la muestra.

Supongamos que tenemos los estimadores y , entonces:

(modelo estimado)

Se define el error de la estimación para la observación i por:

La suma de los cuadrados de los errores está dada por


Regresión Lineal
30

 𝑦 𝑖
25

êi
20

^𝑦 𝑖
15
 

10

0
0 2 4 6 8 10
Mínimos cuadrados
Partiendo de la suma de los cuadrados del error

Y derivando con respecto a cada uno de los parámetros a estimar Bo y B1, se llega a dos ecuaciones:

Igualando a 0 y reordenando términos, se tiene:

Ecuaciones Normales
Mínimos cuadrados
 Primera ecuación:

Dividiendo en n y despejando:

Despejando en la segunda ecuación:


Mínimos cuadrados - Estimadores

ˆ0  y  x ˆ1

ˆ1 
SXY

 (x  x) ( y  y)
i i

SXX  (x  x)
i
2
Mínimos cuadrados – Estimadores. Ejemplo
Para los datos del ejemplo anterior, encuentre la recta de regresión estimada.

X: Altura (cm) 178 169 157 173


Y: Peso (kg) 69,8 70,2 59,4 68,4

  = 𝑆 𝑥𝑦 = 122,05 =0,507
^
𝛽 1
𝑆 𝑥𝑥 240,75

^
  0= ´𝑦 − ´𝑥 ^𝛽1 =66,95 −169,25 ( 0,507 ) =− 18,853
𝛽

^ 𝒚 =− 𝟏𝟖 ,𝟖𝟓𝟑+ 𝟎 ,𝟓𝟎𝟕 𝒙


Mínimos cuadrados – Estimadores. Ejemplo
A partir de la recta de regresión anterior, evalúe cuanto pesará una persona que mida 170 cm y cuanto
una que mida 185 cm.

^ 𝒚 =− 𝟏𝟖 ,𝟖𝟓𝟑+ 𝟎 ,𝟓𝟎𝟕 𝒙

 
Varianza residual
La
  diferencia entre el valor observado y el estimado (de la recta generada por el modelo estimado) se conoce
como residual.

Dado lo anterior, se puede calcular la estimación de la varianza (varianza residual o cuadrado medio del error –
CME-)

Ej: a partir de los datos anteriores, calcule los residuales y el CME


• X: Altura (cm) 178 169 157 173
• Y: Peso (kg) 69,8 70,2 59,4 68,4
• Peso (estimado) 71,4 66,8 60,7 68,9
• Residuales -1,6 3,4 -1,3 -0,5   8,03
ANOVA de la regresión
Ecuación de ANOVA para el MRLS
n n n

 ( yi  y )   ( yˆ i  y ) 
i 1
2

i 1
2
 i i
( y
i 1
 ˆ
y ) 2

SCT  SCR  SCE


 n  1 1  n  2
ANOVA de la regresión
Ecuación
  de ANOVA para el MRLS
n n n

 ( yi  y )   ( yˆ i  y ) 
i 1
2

i 1
2
 i i
( y
i 1
 ˆ
y ) 2

SCT  SCR  SCE


 n  1 1  n  2

Hipótesis de interés:

Equivalente a:

Prueba asociada:
SCR
 F (1, n  2)
SCE / n  2
Tabla ANOVA de la regresión

 Coeficiente de determinación

Se interpretará el coeficiente de determinación como la cantidad de la variable dependiente que es explicada


por la(s) variable(s) independientes.
Tabla ANOVA de la regresión
Para el ejemplo de la altura vs los pesos de las 4 personas analizadas, se tiene:

Como el p-value > significancia (0,05) entonces se concluye que el modelo NO es globalmente significativo
Intervalos de confianza e hipótesis estadísticas

Error estándar (típico)


de cada coeficiente
Intervalos de confianza e hipótesis estadísticas
 
Intervalo de confianza para

El intervalo de confianza, IC, de confiabilidad para el parámetro , está dado por:

donde corresponde al valor de una VA con distribución con grados de libertad, que acumula una probabilidad
de , correspondiente al nivel de confianza del intervalo.
Intervalos de confianza e hipótesis estadísticas
 Prueba de hipótesis sobre la pendiente

EP:
Intervalos de confianza e hipótesis estadísticas
Para el ejemplo de trabajo (altura vs peso)

Para el coeficiente B1: p-value > significancia (0,05) entonces se concluye que el coeficiente NO es significativo
Salidas de datos
Salidas de datos - Ejemplo
Salidas de datos - Ejemplo

SCR =
SCE =
SCT =

=n-1
SCR
F
SCE  n  2

ˆi  t 20, 0.975  


* desv ˆi
 
desv ̂ i ˆi
∗  ̂i 
t

R 2  SCR
SCT
  0.747  
desv ˆi  ^
𝛽 𝑖 ± 𝑡 𝑛− 2 ,1 −𝛼 /2desv
Salidas de datos - Ejemplo

Los siguientes datos se refieren a la demanda de un producto tipo commodity (en miles de unid.) y su precio
(en centavos de dólar) en cinco mercados diferentes:

A partir de lo anterior, de solución a la tabla de datos propuesta a continuación


Salidas de datos - Ejemplo
Salidas de datos – Ejemplo (solución)

P-value < significancia

Modelo globalmente significativo

Para ambos casos: p-value < significancia


Coeficientes significativos
Salidas de datos - Ejemplo

El administrador de un concesionario desea evaluar si existe algún tipo de relación lineal entre la experiencia
(en años) de sus vendedores y la cantidad de automóviles que venden en un intervalo de tiempo
determinado. Los datos para 5 vendedores se presenta a continuación:

Experiencia (años) 3 6 8 12 15
Carros vendidos 9 16 23 27 34

A partir de lo anterior, de solución a la tabla de datos propuesta a continuación


Salidas de datos - Ejemplo
Salidas de datos – Ejemplo (solución)
Interpretación de parámetros y verificación de
supuestos
Gráfica de la variable ŷi contra los residuos ê

3 ŷ
2

0
4 6 8 10 12 14 16 18 20 22
-1

-2

-3

-4

Se distribuyen de manera uniforme alrededor de 0, sin tendencias. No se observa no linealidad o varianza


desigual.

33
Durbin-Watson
Prueba
  de autocorrelación entre los residuos de la regresión, es decir, si tienen dependencia en el orden (tiempo) en el que fueron
obtenidos.
Si hay autocorrelación los errores son de la forma:

Prueba de hipótesis:

EP:

Comparable con tablas Durbin Watson que contienen límites inferiores ( y superiores ( para diferentes valores de significancia, de tamaño
de muestra (n) y de variables de predicción de modelo (k).
Criterio de rechazo:
Si
Si
Si 34
Durbin-Watson

35
Ejemplo
Se desea saber si existe asociación entre los valores de los índices Semana Valor S&P Valor Dow Jones
Dow Jones (respuesta) y S&P 500 (predicción) para los resultados al 1 91,62 276,61
final de 15 semanas consecutivas. 2 89,69 271,26
3 89,89 272,47
4 88,58 268,35
5 89,62 271,44
6 90,08 272,35
7 87,96 263,86
8 88,49 265,07
9 87,45 262,15
Resultados de la regresión 10 88,1 263,5
11 88,88 265,38
12 90,2 269,41
13 90,05 268,82
14 89,36 267,01
15 89,21 266,94

36
Ejemplo
Semana Valor S&P Valor Dow Predicción Dow
1 91,62 276,61 276,4234
2 89,69 271,26 269,7337
3 89,89 272,47 270,4270
4 88,58 268,35 265,8863
5 89,62 271,44 269,4911
… … … …
15 89,21 266,94 268,0700

37
Ejemplo
Semana Valor S&P Valor Dow Predicción Dow
1
1 91,62
91,62 276,61
276,61 276,4234
276,4234 0,1866
0,1866
2 89,69 271,26 269,7337 1,5263
2 89,69 271,26 269,7337 1,5263
3 89,89 272,47 270,4270 2,0430
3
4 89,89
88,58 272,47
268,35 270,4270
265,8863 2,0430
2,4637
5
4 89,62
88,58 271,44
268,35 269,4911
265,8863 1,9489
2,4637
… … … … …
5 89,62 271,44 269,4911 1,9489
15 89,21 266,94 268,0700 -1,1300
… … … … …
15 89,21 266,94 268,0700 -1,1300

38
Ejemplo
Semana Valor S&P Valor Dow Predicción Dow
1
1 91,62
91,62 276,61
276,61 276,4234
276,4234 0,1866
0,1866
2 89,69 271,26 269,7337 1,5263 1,3396
2 89,69 271,26 269,7337 1,5263 1,3396
3 89,89 272,47 270,4270 2,0430 0,5168
3
4 89,89
88,58 272,47
268,35 270,4270
265,8863 2,0430
2,4637 0,5168
0,4206
5
4 89,62
88,58 271,44
268,35 269,4911
265,8863 1,9489
2,4637 -0,5148
0,4206
… … … … … …
5 89,62 271,44 269,4911 1,9489 -0,5148
15 89,21 266,94 268,0700 -1,1300 0,4499
… … … … … …
15 89,21 266,94 268,0700 -1,1300 0,4499

39
Ejemplo
Semana Valor S&P Valor Dow Predicción Dow (
1
1 91,62
91,62 276,61
276,61 276,4234
276,4234 0,1866
0,1866 0,0348
0,0348
2 89,69 271,26 269,7337 1,5263 1,3396 2,3295 1,7946
2 89,69 271,26 269,7337 1,5263 1,3396 2,3295 1,7946
3 89,89 272,47 270,4270 2,0430 0,5168 4,1740 0,2671
3
4 89,89
88,58 272,47
268,35 270,4270
265,8863 2,0430
2,4637 0,5168
0,4206 4,1740
6,06097 0,2671
0,1769
5
4 89,62
88,58 271,44
268,35 269,4911
265,8863 1,9489
2,4637 -0,5148
0,4206 3,7982
6,06097 0,2650
0,1769
… … … … … … … …
5 89,62 271,44 269,4911 1,9489 -0,5148 3,7982 0,2650
15 89,21 266,94 268,0700 -1,1300 0,4499 1,2769 0,2024
… … … … … … … …
15 89,21 266,94 268,0700 -1,1300 0,4499 1,2769 0,2024

40
Ejemplo
Semana Valor S&P Valor Dow Predicción Dow (
1
1 91,62
91,62 276,61
276,61 276,4234
276,4234 0,1866
0,1866 0,0348
0,0348
2 89,69 271,26 269,7337 1,5263 1,3396 2,3295 1,7946
2 89,69 271,26 269,7337 1,5263 1,3396 2,3295 1,7946
3 89,89 272,47 270,4270 2,0430 0,5168 4,1740 0,2671
3
4 89,89
88,58 272,47
268,35 270,4270
265,8863 2,0430
2,4637 0,5168
0,4206 4,1740
6,06097 0,2671
0,1769
5
4 89,62
88,58 271,44
268,35 269,4911
265,8863 1,9489
2,4637 -0,5148
0,4206 3,7982
6,06097 0,2650
0,1769
… … … … … … … …
5 89,62 271,44 269,4911 1,9489 -0,5148 3,7982 0,2650
15 89,21 266,94 268,0700 -1,1300 0,4499 1,2769 0,2024
… … … … … … … …
15 89,21 266,94 268,0700 -1,1300 0,4499 1,2769 0,2024

7,4745
𝑑  = =0,21981
34,00449

41
Ejemplo
Semana Valor S&P Valor Dow Predicción Dow (
1
1 91,62
91,62 276,61
276,61 276,4234
276,4234 0,1866
0,1866 0,0348
0,0348
2 89,69 271,26 269,7337 1,5263 1,3396 2,3295 1,7946
2 89,69 271,26 269,7337 1,5263 1,3396 2,3295 1,7946
3 89,89 272,47 270,4270 2,0430 0,5168 4,1740 0,2671
3
4 89,89
88,58 272,47
268,35 270,4270
265,8863 2,0430
2,4637 0,5168
0,4206 4,1740
6,06097 0,2671
0,1769
5
4 89,62
88,58 271,44
268,35 269,4911
265,8863 1,9489
2,4637 -0,5148
0,4206 3,7982
6,06097 0,2650
0,1769
… … … … … … … …
5 89,62 271,44 269,4911 1,9489 -0,5148 3,7982 0,2650
15 89,21 266,94 268,0700 -1,1300 0,4499 1,2769 0,2024
… … … … … … … …
15 89,21 266,94 268,0700 -1,1300 0,4499 1,2769 0,2024

7,4745
𝑑  = =0,21981
34,00449

En la tabla (para α= 1 %): 𝑑


  𝐿(0,99 ;15 ; 1) =0,81

  y existe evidencia de correlación

42
Modelo de regresión lineal múltiple
 Objetivo: estudiar el comportamiento de una variable aleatoria a través de un conjunto de variables
aleatorias . El modelo supone que entre cada una de las variables y la variable existe una relación de
tipo lineal.
¿De dónde se parte?
De una muestra aleatoria (n observaciones seleccionadas al azar)

Aplicación
Los modelos de Regresión Lineal Múltiple tienen, entre otros, dos importantes propósitos:
• Exploratorio: identificar a partir de un conjunto de variables cuáles son las que mejor explican
linealmente a una VA de interés .
• Predictivo: a partir de un modelo lineal, predecir el comportamiento de una VA con base en el
43
comportamiento de un conjunto de variables
Modelo de regresión lineal múltiple
 Caso 1
salario de los ejecutivos de determinada compañía.
promedio general acumulado obtenido en los estudios de pregrado.
número de años de experiencia que el ejecutivo tiene en la compañía.

Caso 2
utilidades obtenidas en las sucursales de una cadena de restaurantes.
área total de la tienda.
número de empleados.
población total en un radio de 3 km.
ingreso promedio en el vecindario.
número de restaurantes, en un radio de 1 km, que compiten directamente

44
Modelo de regresión lineal múltiple

Representación
  matricial de los datos.

es un vector de n elementos y es una matriz de dimensión . La matriz contiene en cada una de sus columnas
los datos asociados a cada una de las variables; de manera particular, la primera columna está compuesta por
unos, y está asociada al intercepto de la regresión.

𝑌=¿ 𝑋 =¿
   

nx1 nxk

45
Modelo de regresión lineal múltiple

 La ecuación del modelo está dada por:


; o en términos de las observaciones,
, para .

La ecuación en su forma matricial está dada por:


Vector de parámetros
del modelo
Vector de errores
 

nx1
¿ nxk kx1 nx1

, , y son parámetros del modelo con valor desconocido que deben ser estimados con
base en los datos.
46
Modelo de regresión lineal múltiple
Supuestos:
 
1. son variables controladas.

E¿
 

nx1

3. para

Cov [ e ]=¿
 

nxn
4. Supuesto fuerte:

47
Modelo de regresión lineal múltiple

Consecuencia
  de los supuestos:

y son parámetros del modelo con valor desconocido que deben ser estimados con
base en los datos.

48
Modelo de regresión lineal múltiple

 Se trata de estimar los parámetros con base en los valores de la muestra.
Supongamos que tenemos los estimadores entonces:
(modelo estimado)

yˆ i  ˆ0  ˆ1 xi1  ˆ2 xi 2  ...  ˆq xiq

Se define el error de la estimación para la observación i por:

eˆi  yi  yˆ i  yi  ( ˆ0  ˆ1 xi1  ˆ2 xi 2  ...  ˆq xiq )

La suma de los cuadrados de los errores está dada por:


n
SCE   eˆi2
i 1

49
Modelo de regresión lineal múltiple

 Los parámetros estimados 0, 1, …, q son aquellos que minimizan la suma de cuadrados de los errores, SCE.

La solución del vector de parámetros

=
Está dado por:

k x 1 (k x k) (k x n) (n x 1)

50
Modelo de regresión lineal múltiple

Como
  resultado de las propiedades del modelo, se obtiene que los estimadores
j son centrados y son combinaciones lineales de los :
E ( ˆ j )   j , i.e., los estimadores ˆ0 , ˆ1 , ..., ˆq son centrados

• La varianza de cada ̂ jes mínima, entre los estimadores centrados.

• Estimación de S
SCE
S 
2
2
unestimador
es n k  1 centrado del parámetro

Además, si se asumen lo supuestos fuertes del modelo de RLM, entonces:

SCE
  2
(n  k  1)
 2

51
Modelo de regresión lineal múltiple
Ecuación
  de ANOVA para el MRLM
n n n

(y
i 1
i  y )   ( yˆ i  y ) 
2

i 1
2
(y
i 1
i  yˆ i ) 2

SCT  SCR  SCE


 n  1 k ( n  k  1)

Hipótesis de interés del modelo:

Prueba asociada:
Bajo el supuesto de que es verdadera

SCR / k
 F (k , n  k  1)
SCE / n  k  1
52
Modelo de regresión lineal múltiple

Hipótesis
  de interés para cada :

Prueba asociada:
Bajo el supuesto de que Ho es verdadera
0.4

ˆ j
0.35
0.3
 t( n  k 1) 0.25

 j
ˆ ˆ 0.2
0.15
0.1
0.05
0
-4.0-3.6-3.3-2.9-2.5-2.1-1.8-1.4-1.0-0.6-0.3 0.1 0.5 0.9 1.2 1.6 2.0 2.4 2.7 3.1 3.5 3.9

53
Modelo de regresión lineal múltiple

 Coeficiente de determinación

Intervalo de confianza para


El intervalo de confianza, IC, de confiabilidad 100 (1-α)% para el parámetro , está
dado por:

donde corresponde al valor de una VA con distribución t con n-k-1 grados de


libertad, que acumula una probabilidad de , correspondiente al nivel de
confianza del intervalo.

54
Salidas de datos - Ejemplo
Los siguientes datos corresponden a la ganancia (en millones de dólares) de una compañía para los últimos seis
años, en función del número de vendedores activos y del precio del producto para ese año:

Año Ganancias (mill. USD) Vendedores Precio del producto (USD)


1 1,2 24 0,95
2 1,5 25 0,93
3 2,0 25 0,92
4 3,5 28 0,90
5 4,1 27 0,87
6 5,6 29 0,86

A partir de lo anterior se presentan los resultados de la regresión:


Salidas de datos – Ejemplo (solución)

A partir de dicha información:


* Interprete el R^2
* Explique con palabras el significado de los coeficientes
* Prediga la ganancia de la empresa para un año en el que cuente con 26 vendedores y el producto tenga un costo de 0,89
* Establezca la significancia del modelo de manera global y de los coeficientes de manera individual.
* Explique el significado de los intervalos de confianza presentados en la tabla
Salidas de datos - Ejemplo
Los datos mostrados a continuación representan la nota obtenida un examen de final de semestre para siete
estudiantes. También se reporta el número de horas estudiadas en las últimas dos semanas y el promedio general de
la materia
Nota Horas estudiadas Promedio general
2 10 4,25
2,5 20 4,90
4 35 4,75
3,5 30 4,00
5 45 4,80
3 25 4,50

A partir de lo anterior se presentan los resultados de la regresión tomando la nota como la variable dependiente y el
número de horas estudiadas y promedio general como variables independendientes:
Salidas de datos – Ejemplo (solución)

A partir de dicha información:


* Interprete el R^2
* Explique con palabras el significado de los coeficientes
* Prediga la nota obtenida por un estudiante que estudie 18 horas y cuyo promedio general sea de 4,3
* Establezca la significancia del modelo de manera global y de los coeficientes de manera individual.
* Explique el significado de los intervalos de confianza presentados en la tabla
Interacciones y multicolinealidad
Aportes de las variables del modelo:
- Aporte individual si no existiera ninguna otra variables
- Aporte de cada variable en presencia de las demás (interacción).

Multicolinealidad: correlación entre variables predictoras (independientes). El hecho de que dos o más variables
presenten correlación implica que el modelo puede tornarse redundante.

Para analizar la interacción entre variables se construye una matriz de correlación entre todas las variables
(incluida la dependiente) para determinar cuales tienen un alto nivel de correlación (multicolinealidad).

*en caso de haber multicolinealidad entre variables, se recomienda eliminar la que menos tiene
correlación con la variable de respuesta

59
Ejemplo
Para los ejemplos anteriores (ganancia en función de número de vendedores y precio de producto y nota
obtenida en el examen final de una asignatura en función del número de horas estudiadas y el promedio
general del estudiante), las matrices de correlación son las siguientes:

Con base en la anterior información haga un análisis de multicolinealidad de las variables y establezca si es
pertinente eliminar alguna de las variables independientes de cada uno de los modelos
Ejemplo
La producción de un producto químico en función de la temperatura y la presión del reactor, arrojó los
siguientes resultados para un lote muestreado:
Producción Presión Temperatura
21 50 100
23 50 200
26 50 300
22 80 100
23 80 200
28 80 250

Al ejecutar la regresión y elaborar la matriz de correlación, la salida de datos arrojó lo siguiente


(siguiente).

Complete las tablas de coeficientes y ANOVA del modelo y haga un análisis de multicolinealidad entre las
variables.
61
Ejemplo

62

También podría gustarte