Está en la página 1de 9

Navarro Estadística (complementos) 1

REGRESION Y CORRELACION
Fórmulas básicas en la regresión lineal simple

Como ejemplo de análisis de regresión, describiremos el caso de Pizzería Armand,


cadena de restaurantes de comida italiana. Los lugares donde sus establecimientos
han tenido más éxito están cercanos a establecimientos de educación superior. Se
cree que las ventas trimestrales (representadas por y) en esos restaurantes, se
relacionan en forma positiva con la población estudiantil (representada por x). Es
decir, que los restaurantes cercanos a centros escolares con gran población
tienden a generar más ventas que los que están cerca de centros con población
pequeña. Aplicando el análisis de regresión podremos plantear una ecuación que
muestre cómo se relaciona la variable dependiente “y” con la variable
independiente “x”.

El modelo de regresión y la ecuación de regresión


En el ejemplo, cada restaurante está asociado con un valor de x (población
estudiantil en miles de estudiantes) y un valor correspondiente de y (ventas
trimestrales en miles de $). La ecuación que describe cómo se relaciona y con x y
con un término de error se llama modelo de regresión. Éste usado en la regresión
lineal simple es el siguiente:

Modelo de regresión lineal simple: y = β0 + β1 x +ε

β0 y β1 son los parámetros del modelo. ε es una variable aleatoria, llamada error,
que explica la variabilidad en y que no se puede explicar con la relación lineal
entre x y y.
Los errores, ε, se consideran variables aleatorias independientes distribuidas
normalmente con media cero y desviación estándar σ. Esto implica que el valor
medio o valor esperado de y para cada x, denotado por E(Y/x), es igual a β0 +
β1 x.

Ecuación de regresión lineal simple: E(y/x) = β0 + β1 x ( µY/x=E(Y/x) )

1 <0
1 >0
1 =0
Navarro Estadística (complementos) 2

La ecuación estimada de regresión (lineal simple)

Los parámetros, β0 y β1, del modelo se estiman por los estadísticos muestrales b0 y
b1, los cuales se calculan usando el método de mínimos cuadrados.

Ecuación Estimada de regresión lineal simple: ŷ = b0 + b1 x

En la regresión lineal simple, la gráfica de la ecuación de regresión se llama línea


de regresión estimada. ŷ es el valor estimado de y para un valor específico de x.

Datos de población estudiantil y ventas trimestrales para una muestra de 10


restaurantes:

restaurante Poblac. estudiantil Ventas trimestrales


(en miles) (miles de $)
xi yi
1 2 58
2 6 105
3 8 88
4 8 118
5 12 117
6 16 137
7 20 157
8 20 169
9 22 149
10 26 202

Diagrama de dispersión
220
El diagrama de dispersión es la
200
nube de puntos (xi , yi)
180 ubicados en el plano
160
cartesiano. Visualmente el
diagrama muestra la
tendencia de los puntos
140

120 muestrales. En este caso


100 tendencia lineal creciente.
80

60

40
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30

población estud. (miles)


Navarro Estadística (complementos) 3

Diagrama de dispersión
(y línea de regresión estimada)
220

200

180

160 ŷ = b0 + b 1 x
140

120

100

80

60
40
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30

población estud. (miles)

El método de mínimos cuadrados consiste en hallar los valores b0 y b1 que hacen


mínima la suma de los cuadrados de las desviaciones entre los valores observados
de la variable dependiente, yi, y los valores estimados de la misma, ŷi. Es decir se
minimiza la suma Σ(yi – ŷi)2. Esta suma es llamada Suma de Cuadrados del Error
(SCE)

min Σ(yi – ŷi)2 = min Σ[yi – ( b0 + b1 xi )]2 con b0 y b1 números reales.

Para hallar los valores de b0 y b1 recurrimos al cálculo diferencial

𝜕{Σ(𝑦𝑖 – ( 𝑏0 + 𝑏1 𝑥𝑖 ))2 }
=0
𝜕𝑏0
𝜕{Σ(𝑦𝑖 – ( 𝑏0 + 𝑏1 𝑥𝑖 ))2 }
=0
{ 𝜕𝑏1

y obtenemos el siguiente sistema de ecuaciones simultáneas (llamadas ecuaciones


normales de la recta de regresión de y en x), cuya solución da los valores de b0 y b1:

 yi = nb0 + (  x i )b1

  xi yi = (  xi )b0 + (  xi )b1
2

Las soluciones son las siguientes:

𝑛 ∑ 𝑋𝑖 𝑌𝑖 −∑ 𝑋𝑖 ∑ 𝑌𝑖 ∑ 𝑌𝑖 ∑ 𝑋𝑖
𝑏1 = y 𝑏0 = ( ) − 𝑏1 ( )
𝑛 ∑ 𝑋𝑖2 − (∑ 𝑋𝑖 )2 𝑛 𝑛

Determine la ecuación de regresión con los datos dados.

b 1= b0= ŷ=
Navarro Estadística (complementos) 4
restaurante
xi yi xiyi x i2
1 2 58
2 6 105
3 8 88
4 8 118
5 12 117
6 16 137
7 20 157
8 20 169
9 22 149
10 26 202
140 1300 21040 2528

Coeficiente de determinación (r2) en la regresión lineal simple


El coeficiente de determinación en la regresión lineal simple es una medida de la bondad
de ajuste de la recta estimada a los datos reales. Para definirlo necesitamos definir las
siguientes sumas de cuadrados:
Suma de cuadrados debida al error: SCE = Σ (yi – ŷi )2 ;  = n -2

Suma de cuadrados total: SCT = Σ (yi – y )2 ;  = n -1

Suma de cuadrados debida a la regresión: SCR = Σ (ŷi - y )2 ;  = 1

Relación entre SCT, SCR y SCE : SCT = SCR + SCE  . SCR = SCT – SCE.

SCR SCT − SCE


Coeficiente de determinación : r2 = SCT = =1 −
SCE
SCT SCT
El Coeficiente de determinación toma valores entre 0 y 1. 0 ≤ r2 ≤ 1
Expresado r2 en porcentaje, se puede interpretar como el porcentaje de la variabilidad
total de “Y” que se puede explicar aplicando la ecuación de regresión.
220

200

180
ŷ = b0 + b1 x
160
ŷ =60 + 5x
140

120

100

80 y = 130

60

40
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30

población estud. (miles)


Navarro Estadística (complementos) 5

cálculo de SCE y SCT

Restaurante X Y 𝑌̂ = 60 + 5𝑋
1 2 58 70.00 -12.00 144.00
2 6 105 90.00 15.00 225.00
3 8 88 100.00 -12.00 144.00
4 8 118 100.00 18.00 324.00
5 12 117 120.00 -3.00 9.00
6 16 137 140.00 -3.00 9.00
7 20 157 160.00 -3.00 9.00
8 20 169 160.00 9.00 81.00
9 22 149 170.00 -21.00 441.00
10 26 202 190.00 12.00 144.00
TOTALES 140 1,300 1530.00 14200.00 15730.00

SCE=1,530.00 SCR=14,200.00 SCT=15,730.00

La suma de cuadrados debida a la regresión se puede calcular por diferencia:


SCR = SCT – SCE = 15,730 – 1,530 = 14,200
El coeficiente de determinación es entonces:
r2 = 𝐒𝐂𝐓= 14,200/15,730 = 0.9027
𝐒𝐂𝐑

El 90.27% de la variación en las ventas se puede explicar con la relación lineal entre la
población estudiantil y las ventas.

El coeficiente de correlación lineal (r)


Es una medida descriptiva que mide la intensidad de asociación lineal entre las dos
variables, x y y. Los valores del coeficiente de correlación lineal siempre están entre –1 y +1.
–1 significa una relación lineal negativa perfecta, +1 significa una relación lineal positiva
perfecta. Los valores cercanos a cero indican que las variables x y y no tiene relación lineal.
El coeficiente de correlación lineal se relaciona con el coeficiente de determinación así:
2
r = (signo de b1) r (1)

b1 es la pendiente la recta de regresión de y en x.


El coeficiente de determinación es más general que el coeficiente de correlación lineal.

S XY
(1) El coeficiente de correlación se define como r = ; SXY es la covarianza muestral y el
Sx SY
denominador es el producto de las desviaciones típicas muestrales.
Navarro Estadística (complementos) 6

Cuadrados medios del error CME ( es una estimación de 2)

S2 = CME = SCE/(n-2)

n-2 son los grados de libertad asociados a SCE. 2 son los parámetros que se estiman
en la regresión lineal ( β0 y β1 ) y n es el número de pares de datos.

Error estándar de estimación (s)


Es la raíz cuadrada de s2, s = CME = SCE
n−2 y es el estimador de la desviación
estándar .

Uso de la ecuación de regresión lineal para evaluar y predecir.


El modelo de regresión lineal simple es un supuesto acerca de la relación entre x y
y. Si los resultados tienen una relación estadísticamente significativa entre x y y, y si
el ajuste que proporciona la ecuación de regresión parece bueno, ésta podría
utilizarse para estimaciones y predicciones.

Intervalo de confianza para estimar la media de y para un valor dado xp de x.

1 + ( xp − x ) ; para leer t /2 usar  =n-2


2

µY /X p =E(y/xp): ŷp ± t /2 s
n ( x − x )2
i

Intervalo de predicción para estimar un valor individual de Y para un valor dado xp


de x:

( xp − x )2
Yp: ŷp ± t/2 s 1+ n +
1 ; para leer t /2 usar  =n-2
( x − x )2 i

220

200

180

160

140

120

100

80
VENTAS

60

40
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30

POBLAC
Navarro Estadística (complementos) 7

Ejercicio:
a) Se desea estimar, mediante un intervalo del 95% de confianza, el promedio
de venta trimestral para todos los restaurantes cercanos a centros escolares
con 10,000 estudiantes:

( x − x )2
µY: ŷp ± t/2 s 1 + p ; para leer t /2 usar  = n-2
n ( x − x )2
i

xp= 10 ; ŷp=60+5(10)=110 ; x =140/10 = 14 ; (x i − x)2 = 568 ; n=10 ;

(x p − x)2 =(10 – 14)2 =16 ; s = CME = SCE


n−2 = 1530
8 = 13.8293 ; t /2= 2.306

µY/x=10 : 110 ± 11.415 miles de dólares.

b) Se desea predecir, mediante un intervalo del 95% de confianza, las ventas


trimestrales para un restaurante que se construirá cercano a un centro
estudiantil de 10,000 estudiantes :
( xp − x )2
Yp: ŷp ± t /2 S 1 + 1 + ; para leer t /2 usar  = n-2
n ( x − x )2
i

Yp: 110 ± 33.875 miles de dólares

EJERCICIOS (Reg. Lineal simple)

1. La autoridad regional de transporte desea determinar si hay alguna relación entre la edad
de un autobús y su costo anual de mantenimiento. Con una muestra de 10 autobuses se
obtuvieron los siguientes datos:

Edad (años) : 1 2 2 2 2 3 4 4 5 5

Costo de mantenimiento ($): 350 370 480 520 590 550 750 800 790 950

a) Obtenga la ecuación de la recta mínimo cuadrática


b) Determina un intervalo de predicción del 90% de confianza para el costo de
mantenimiento de un autobús que tiene 4 años de antigüedad.
c) Determina un intervalo del 90% de confianza para el costo medio de mantenimiento
de todos los autobús que tiene 4 años de antigüedad.
Navarro Estadística (complementos) 8

2. la empresa COMPUT desea decidir si firma o no un contrato de mantenimiento para su


nuevo sistema de procesamiento de la palabra. Los directivos creen que el gasto de
mantenimiento debe estar relacionado con el uso, y han reunido la información que
vemos en la tabla siguiente sobre el uso semanal, en horas, y el gasto anual de
mantenimiento (en miles de $).

Uso Gastos anuales


semanal de
(horas) mantenimiento
x y
13 1.75
12 2.25
22 3.10
28 3.65
32 4.67
18 3.15
25 3.25
32 3.92
40 5.15
37 4.12

a) Determina la ecuación de regresión que relaciona el gasto anual de mantenimiento


con el uso semanal.
ŷ = b 0 + b1 x ; ŷ =

b) La empresa COMPUT espera operar 30 horas semanales el procesador de palabras.


Determine un intervalo de predicción del 95% de confianza para el gasto de la
empresa en mantenimiento anual.

c) Si el contrato de mantenimiento cuesta 2,940 dólares anuales, ¿recomendarías


firmarlo? ¿por qué?.

3. Se obtuvo la siguiente muestra de volúmenes de producción (en cientos) y costo total


(en miles de $) para una operación de manufactura:

Costo
Volumen
total
X
Y
5.2 5.30
5.7 6.20
6.2 6.50
7.3 6.70
8.1 7.60
8.7 8.30
6.0 6.51
Navarro Estadística (complementos) 9

a) Encontrar la recta de regresión estimada con la que se pueda predecir el


costo total en función del volumen de producción ( ŷ = b0 + b1 x ).

b) ¿Qué porcentaje de la variación del costo total se puede explicar


conociendo el volumen de producción?

c) Si se va a producir un volumen de 6.7 cientos, determina un intervalo del 90%


de confianza para estimar el costo total medio.

También podría gustarte