Regresion+y+Correlacion 1a

Navarro Estadística (complementos) 1
REGRESION Y CORRELACION
Fórmulas básicas en la regresión lineal simple
Como ejemplo de análisis de regresión, describiremos el caso de Pizzería Armand,

cadena de restaurantes de comida italiana. Los lugares donde sus establecimientos
han tenido más éxito están cercanos a establecimientos de educación superior. Se
cree que las ventas trimestrales (representadas por y) en esos restaurantes, se
relacionan en forma positiva con la población estudiantil (representada por x). Es
decir, que los restaurantes cercanos a centros escolares con gran población
tienden a generar más ventas que los que están cerca de centros con población
pequeña. Aplicando el análisis de regresión podremos plantear una ecuación que
muestre cómo se relaciona la variable dependiente “y” con la variable
independiente “x”.
El modelo de regresión y la ecuación de regresión

En el ejemplo, cada restaurante está asociado con un valor de x (población
estudiantil en miles de estudiantes) y un valor correspondiente de y (ventas
trimestrales en miles de $). La ecuación que describe cómo se relaciona y con x y
con un término de error se llama modelo de regresión. Éste usado en la regresión
lineal simple es el siguiente:
Modelo de regresión lineal simple: y = β0 + β1 x +ε
β0 y β1 son los parámetros del modelo. ε es una variable aleatoria, llamada error,
que explica la variabilidad en y que no se puede explicar con la relación lineal
entre x y y.
Los errores, ε, se consideran variables aleatorias independientes distribuidas
normalmente con media cero y desviación estándar σ. Esto implica que el valor
medio o valor esperado de y para cada x, denotado por E(Y/x), es igual a β0 +
β1 x.
Ecuación de regresión lineal simple: E(y/x) = β0 + β1 x ( µY/x=E(Y/x) )
1 <0
1 >0
1 =0
La ecuación estimada de regresión (lineal simple)
Los parámetros, β0 y β1, del modelo se estiman por los estadísticos muestrales b0 y
b1, los cuales se calculan usando el método de mínimos cuadrados.
Ecuación Estimada de regresión lineal simple: ŷ = b0 + b1 x
En la regresión lineal simple, la gráfica de la ecuación de regresión se llama línea

de regresión estimada. ŷ es el valor estimado de y para un valor específico de x.
Datos de población estudiantil y ventas trimestrales para una muestra de 10

restaurantes:
restaurante Poblac. estudiantil Ventas trimestrales

(en miles) (miles de $)
xi yi
1 2 58
2 6 105
3 8 88
4 8 118
5 12 117
6 16 137
7 20 157
8 20 169
9 22 149
10 26 202
Diagrama de dispersión
220
El diagrama de dispersión es la
200
nube de puntos (xi , yi)
180 ubicados en el plano
160
cartesiano. Visualmente el
diagrama muestra la
tendencia de los puntos
140
120 muestrales. En este caso

100 tendencia lineal creciente.
80
60
40
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30
población estud. (miles)

Diagrama de dispersión
(y línea de regresión estimada)
220
200
180
160 ŷ = b0 + b 1 x
140
120
100
80
60
40
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30
El método de mínimos cuadrados consiste en hallar los valores b0 y b1 que hacen

mínima la suma de los cuadrados de las desviaciones entre los valores observados
de la variable dependiente, yi, y los valores estimados de la misma, ŷi. Es decir se
minimiza la suma Σ(yi – ŷi)2. Esta suma es llamada Suma de Cuadrados del Error
(SCE)
min Σ(yi – ŷi)2 = min Σ[yi – ( b0 + b1 xi )]2 con b0 y b1 números reales.
Para hallar los valores de b0 y b1 recurrimos al cálculo diferencial
𝜕{Σ(𝑦𝑖 – ( 𝑏0 + 𝑏1 𝑥𝑖 ))2 }
=0
𝜕𝑏0
𝜕{Σ(𝑦𝑖 – ( 𝑏0 + 𝑏1 𝑥𝑖 ))2 }
=0
{ 𝜕𝑏1
y obtenemos el siguiente sistema de ecuaciones simultáneas (llamadas ecuaciones

normales de la recta de regresión de y en x), cuya solución da los valores de b0 y b1:
 yi = nb0 + (  x i )b1

  xi yi = (  xi )b0 + (  xi )b1
2
Las soluciones son las siguientes:
𝑛 ∑ 𝑋𝑖 𝑌𝑖 −∑ 𝑋𝑖 ∑ 𝑌𝑖 ∑ 𝑌𝑖 ∑ 𝑋𝑖
𝑏1 = y 𝑏0 = ( ) − 𝑏1 ( )
𝑛 ∑ 𝑋𝑖2 − (∑ 𝑋𝑖 )2 𝑛 𝑛
Determine la ecuación de regresión con los datos dados.
b 1= b0= ŷ=
restaurante
xi yi xiyi x i2
1 2 58
2 6 105
3 8 88
4 8 118
5 12 117
6 16 137
7 20 157
8 20 169
9 22 149
10 26 202
140 1300 21040 2528
Coeficiente de determinación (r2) en la regresión lineal simple

El coeficiente de determinación en la regresión lineal simple es una medida de la bondad
de ajuste de la recta estimada a los datos reales. Para definirlo necesitamos definir las
siguientes sumas de cuadrados:
Suma de cuadrados debida al error: SCE = Σ (yi – ŷi )2 ;  = n -2
Suma de cuadrados total: SCT = Σ (yi – y )2 ;  = n -1
Suma de cuadrados debida a la regresión: SCR = Σ (ŷi - y )2 ;  = 1
Relación entre SCT, SCR y SCE : SCT = SCR + SCE  . SCR = SCT – SCE.
SCR SCT − SCE

Coeficiente de determinación : r2 = SCT = =1 −
SCE
SCT SCT
El Coeficiente de determinación toma valores entre 0 y 1. 0 ≤ r2 ≤ 1
Expresado r2 en porcentaje, se puede interpretar como el porcentaje de la variabilidad
total de “Y” que se puede explicar aplicando la ecuación de regresión.
220
200
180
ŷ = b0 + b1 x
160
ŷ =60 + 5x
140
120
100
80 y = 130
60
40
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30

cálculo de SCE y SCT
Restaurante X Y 𝑌̂ = 60 + 5𝑋
1 2 58 70.00 -12.00 144.00
2 6 105 90.00 15.00 225.00
3 8 88 100.00 -12.00 144.00
4 8 118 100.00 18.00 324.00
5 12 117 120.00 -3.00 9.00
6 16 137 140.00 -3.00 9.00
7 20 157 160.00 -3.00 9.00
8 20 169 160.00 9.00 81.00
9 22 149 170.00 -21.00 441.00
10 26 202 190.00 12.00 144.00
TOTALES 140 1,300 1530.00 14200.00 15730.00
SCE=1,530.00 SCR=14,200.00 SCT=15,730.00
La suma de cuadrados debida a la regresión se puede calcular por diferencia:

SCR = SCT – SCE = 15,730 – 1,530 = 14,200
El coeficiente de determinación es entonces:
r2 = 𝐒𝐂𝐓= 14,200/15,730 = 0.9027
𝐒𝐂𝐑
El 90.27% de la variación en las ventas se puede explicar con la relación lineal entre la
población estudiantil y las ventas.
El coeficiente de correlación lineal (r)

Es una medida descriptiva que mide la intensidad de asociación lineal entre las dos
variables, x y y. Los valores del coeficiente de correlación lineal siempre están entre –1 y +1.
–1 significa una relación lineal negativa perfecta, +1 significa una relación lineal positiva
perfecta. Los valores cercanos a cero indican que las variables x y y no tiene relación lineal.
El coeficiente de correlación lineal se relaciona con el coeficiente de determinación así:
2
r = (signo de b1) r (1)
b1 es la pendiente la recta de regresión de y en x.

El coeficiente de determinación es más general que el coeficiente de correlación lineal.
S XY
(1) El coeficiente de correlación se define como r = ; SXY es la covarianza muestral y el
Sx SY
denominador es el producto de las desviaciones típicas muestrales.
Cuadrados medios del error CME ( es una estimación de 2)
S2 = CME = SCE/(n-2)
n-2 son los grados de libertad asociados a SCE. 2 son los parámetros que se estiman
en la regresión lineal ( β0 y β1 ) y n es el número de pares de datos.
Error estándar de estimación (s)

Es la raíz cuadrada de s2, s = CME = SCE
n−2 y es el estimador de la desviación
estándar .
Uso de la ecuación de regresión lineal para evaluar y predecir.

El modelo de regresión lineal simple es un supuesto acerca de la relación entre x y
y. Si los resultados tienen una relación estadísticamente significativa entre x y y, y si
el ajuste que proporciona la ecuación de regresión parece bueno, ésta podría
utilizarse para estimaciones y predicciones.
Intervalo de confianza para estimar la media de y para un valor dado xp de x.
1 + ( xp − x ) ; para leer t /2 usar  =n-2

2
µY /X p =E(y/xp): ŷp ± t /2 s
n ( x − x )2
i
Intervalo de predicción para estimar un valor individual de Y para un valor dado xp

de x:
( xp − x )2
Yp: ŷp ± t/2 s 1+ n +
1 ; para leer t /2 usar  =n-2
( x − x )2 i
220
200
180
160
140
120
100
80
VENTAS
60
40
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30
POBLAC
Ejercicio:
a) Se desea estimar, mediante un intervalo del 95% de confianza, el promedio
de venta trimestral para todos los restaurantes cercanos a centros escolares
con 10,000 estudiantes:
( x − x )2
µY: ŷp ± t/2 s 1 + p ; para leer t /2 usar  = n-2
n ( x − x )2
i
xp= 10 ; ŷp=60+5(10)=110 ; x =140/10 = 14 ; (x i − x)2 = 568 ; n=10 ;
(x p − x)2 =(10 – 14)2 =16 ; s = CME = SCE

n−2 = 1530
8 = 13.8293 ; t /2= 2.306
µY/x=10 : 110 ± 11.415 miles de dólares.
b) Se desea predecir, mediante un intervalo del 95% de confianza, las ventas

trimestrales para un restaurante que se construirá cercano a un centro
estudiantil de 10,000 estudiantes :
( xp − x )2
Yp: ŷp ± t /2 S 1 + 1 + ; para leer t /2 usar  = n-2
n ( x − x )2
i
Yp: 110 ± 33.875 miles de dólares
EJERCICIOS (Reg. Lineal simple)
1. La autoridad regional de transporte desea determinar si hay alguna relación entre la edad
de un autobús y su costo anual de mantenimiento. Con una muestra de 10 autobuses se
obtuvieron los siguientes datos:
Edad (años) : 1 2 2 2 2 3 4 4 5 5
Costo de mantenimiento ($): 350 370 480 520 590 550 750 800 790 950
a) Obtenga la ecuación de la recta mínimo cuadrática

b) Determina un intervalo de predicción del 90% de confianza para el costo de
mantenimiento de un autobús que tiene 4 años de antigüedad.
c) Determina un intervalo del 90% de confianza para el costo medio de mantenimiento
de todos los autobús que tiene 4 años de antigüedad.
2. la empresa COMPUT desea decidir si firma o no un contrato de mantenimiento para su

nuevo sistema de procesamiento de la palabra. Los directivos creen que el gasto de
mantenimiento debe estar relacionado con el uso, y han reunido la información que
vemos en la tabla siguiente sobre el uso semanal, en horas, y el gasto anual de
mantenimiento (en miles de $).
Uso Gastos anuales

semanal de
(horas) mantenimiento
x y
13 1.75
12 2.25
22 3.10
28 3.65
32 4.67
18 3.15
25 3.25
32 3.92
40 5.15
37 4.12
a) Determina la ecuación de regresión que relaciona el gasto anual de mantenimiento

con el uso semanal.
ŷ = b 0 + b1 x ; ŷ =
b) La empresa COMPUT espera operar 30 horas semanales el procesador de palabras.

Determine un intervalo de predicción del 95% de confianza para el gasto de la
empresa en mantenimiento anual.
c) Si el contrato de mantenimiento cuesta 2,940 dólares anuales, ¿recomendarías

firmarlo? ¿por qué?.
3. Se obtuvo la siguiente muestra de volúmenes de producción (en cientos) y costo total

(en miles de $) para una operación de manufactura:
Costo
Volumen
total
X
Y
5.2 5.30
5.7 6.20
6.2 6.50
7.3 6.70
8.1 7.60
8.7 8.30
6.0 6.51
a) Encontrar la recta de regresión estimada con la que se pueda predecir el

costo total en función del volumen de producción ( ŷ = b0 + b1 x ).
b) ¿Qué porcentaje de la variación del costo total se puede explicar

conociendo el volumen de producción?
c) Si se va a producir un volumen de 6.7 cientos, determina un intervalo del 90%

de confianza para estimar el costo total medio.

Regresion+y+Correlacion 1a

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Regresion+y+Correlacion 1a

Cargado por

Copyright:

Formatos disponibles

Navarro Estadística (complementos) 1

Como ejemplo de análisis de regresión, describiremos el caso de Pizzería Armand,

El modelo de regresión y la ecuación de regresión

Modelo de regresión lineal simple: y = β0 + β1 x +ε

Ecuación de regresión lineal simple: E(y/x) = β0 + β1 x ( µY/x=E(Y/x) )

La ecuación estimada de regresión (lineal simple)

Ecuación Estimada de regresión lineal simple: ŷ = b0 + b1 x

En la regresión lineal simple, la gráfica de la ecuación de regresión se llama línea

Datos de población estudiantil y ventas trimestrales para una muestra de 10

restaurante Poblac. estudiantil Ventas trimestrales

120 muestrales. En este caso

población estud. (miles)

población estud. (miles)

El método de mínimos cuadrados consiste en hallar los valores b0 y b1 que hacen

min Σ(yi – ŷi)2 = min Σ[yi – ( b0 + b1 xi )]2 con b0 y b1 números reales.

Para hallar los valores de b0 y b1 recurrimos al cálculo diferencial

y obtenemos el siguiente sistema de ecuaciones simultáneas (llamadas ecuaciones

Las soluciones son las siguientes:

Determine la ecuación de regresión con los datos dados.

Coeficiente de determinación (r2) en la regresión lineal simple

Suma de cuadrados total: SCT = Σ (yi – y )2 ;  = n -1

Suma de cuadrados debida a la regresión: SCR = Σ (ŷi - y )2 ;  = 1

SCR SCT − SCE

población estud. (miles)

cálculo de SCE y SCT

SCE=1,530.00 SCR=14,200.00 SCT=15,730.00

La suma de cuadrados debida a la regresión se puede calcular por diferencia:

El coeficiente de correlación lineal (r)

b1 es la pendiente la recta de regresión de y en x.

Cuadrados medios del error CME ( es una estimación de 2)

Error estándar de estimación (s)

Uso de la ecuación de regresión lineal para evaluar y predecir.

Intervalo de confianza para estimar la media de y para un valor dado xp de x.

1 + ( xp − x ) ; para leer t /2 usar  =n-2

Intervalo de predicción para estimar un valor individual de Y para un valor dado xp

xp= 10 ; ŷp=60+5(10)=110 ; x =140/10 = 14 ; (x i − x)2 = 568 ; n=10 ;

(x p − x)2 =(10 – 14)2 =16 ; s = CME = SCE

µY/x=10 : 110 ± 11.415 miles de dólares.

b) Se desea predecir, mediante un intervalo del 95% de confianza, las ventas

Yp: 110 ± 33.875 miles de dólares

EJERCICIOS (Reg. Lineal simple)

a) Obtenga la ecuación de la recta mínimo cuadrática

2. la empresa COMPUT desea decidir si firma o no un contrato de mantenimiento para su

Uso Gastos anuales

a) Determina la ecuación de regresión que relaciona el gasto anual de mantenimiento

b) La empresa COMPUT espera operar 30 horas semanales el procesador de palabras.

c) Si el contrato de mantenimiento cuesta 2,940 dólares anuales, ¿recomendarías

3. Se obtuvo la siguiente muestra de volúmenes de producción (en cientos) y costo total

a) Encontrar la recta de regresión estimada con la que se pueda predecir el

b) ¿Qué porcentaje de la variación del costo total se puede explicar

c) Si se va a producir un volumen de 6.7 cientos, determina un intervalo del 90%

También podría gustarte