Está en la página 1de 26

Clase 2

Regresión Lineal Simple


Diagrama de Dispersión
En muchos problemas de ciencia e ingeniería, se explora la relación de dos o más
variables.
El Análisis de Regresión es una técnica estadística muy útil en este tipo de problemas.

 (xi  x)( yi  y) = 0.937


ˆ --------------------
n n
1  ˆ  1
 (x i  x) 2   ( yi  y) 2
i1 i1 8
Prueba de Hipótesis sobre la
Significancia de la Correlación
Para nuestro caso, tenemos: 𝐻 0 : 𝑁𝑜𝑒𝑥𝑖𝑠𝑡𝑒 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖 ó 𝑛𝑒𝑠𝑡𝑎𝑑 í 𝑠𝑡𝑖𝑐𝑎

~ 𝐻 1 : 𝐸𝑥𝑖𝑠𝑡𝑒𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖 ó 𝑛𝑒𝑠𝑡𝑎𝑑í 𝑠𝑡𝑖𝑐𝑎

0.937 √ 20 −2
𝑇 =¿ =11.38
√1 −0.937 2

𝐷𝑎𝑑𝑜 𝑞𝑢𝑒 𝑇 ˃𝑡 18,0.975=2.101 , 𝑒𝑛𝑡𝑜𝑐𝑒𝑠 𝑑𝑒𝑐𝑖𝑚𝑜𝑠𝑞𝑢𝑒 𝑒𝑥𝑖𝑠𝑡𝑒𝑢𝑛𝑎 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖 ó 𝑛 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑎

𝑝 ¿=5.898482813293526 𝑒 −10 ¿

Por lo tanto, decimos que la correlación entre las variables es estadísticamente significativa al nivel del 5%.
En la Regresión:
• Observamos una variable dependiente o de respuesta (Y).

• Para cada valor de (Y), tenemos regresores o predictores


{X1, …, Xn}

• Meta: Determinar la relación estadística entre la


variable respuesta y los regresores.

• Y = f(X1, …, Xn)

4
Diferentes tipos de regresión
• Regresión lineal simple
.
Y = 0 + 1X + μ . . .. .

• Regresión lineal Múltiple

Y = 0 + 1X1 + 2X2+ μ

• Regresión Polinomial
. .
Y = 0 + 1X + 2X + μ
.
.
2
..

5
Reconocer en la Regresión
La variable RESPUESTA y el PREDICTOR

La variable dependiente varía con diferentes valores


del regresor/predictor.

Los valores del predictor son fijados y nosotros


observamos la respuesta para esos valores
fijados.

El interés está en explicar la variable respuesta con


uno o más predictores.
6
Regresión Lineal Simple
Nuestra meta es hallar la mejor línea que ajuste una relación lineal:
12

Hallar (0 ,1) d o n d e


11

10

Y = 0 + 1X +  7

Parámetros: 4

4 1 5 2 6 3 7 8

1. 0 Intercepto (donde la línea cruza la abcisa y)


2. 1 Pendiente de la línea (recta)

Ideas Básicas
a. Graficar las observaciones (X,Y)
b. Hallar la mejor línea que ajusta los puntos graficados.
7
Actividad de Clase
1. En el ejemplo anterior, la variable respuesta es:
A. Hidrocarbon level B. Purity.

2. En el ejemplo anterior, el predictor es:


A. Hidrocarbon level B. Purity.

3. Para conocer acerca de la asociación entre el Hidrocarbon level y Purity,


tenemos que usar regresión lineal simple:
A. verdadero . Falso

4. Si la asociación entre respuesta y predictor es positiva luego la


pendiente es:
A. Positiva . Negativa C. No podemos indentificar el
signo

8
Simple linear regression: model
Con los datos {(X1,Y1),….,(Xn,Yn)}, nosotros modelamos la
relación lineal:

Yi = 0 + 1Xi + i, i =1,…,n

E(i) = 0
Var (
{1,…, n} are independent random variables
(Asumiremos también que i ~ Normal)

Posteriormente, probaremos estos supuestos al ver la “ adecuación del


modelo”

9
Resumen: Regresión Lineal Simple
Basados en el diagrama de dispersión, es razonable asumir que la media de la variable
aleatoria Y está relacionada a X por el siguiente modelo de regresión lineal simple:

Respuesta Regresor o Predictor

Yi   0   1 X i   i i  1,2,!,
i n
i

Error aleatorio
Intercepto Pendiente

La pendiente y el intercepto de la línea, son llamados coeficientes de la regresión.

•El caso de regresión lineal simple, considera un único regresor or predictor x y una única
variable dependiente (o respuesta) Y.

10
Método de Mínimos Cuadrados Ordinarios

Para estimar (0,1), nosotros hallamos


valores
que minimicen la suma de los errores al
cuadrado:

Los estimadores MCO de 0 y 1, digamos: Ecuaciones normales de la recta.


Derivadas de la aplicación de los MCO
Ejemplo Ilustrativo
Dada la siguiente información, ajustar una recta de regresión y
comprobar los resultados de las primeras derivadas de minimización

𝒏 𝒏

∑ ^𝜺𝒊=𝟎 ∑ ^𝜺𝒊 𝑿 𝒊=𝟎


𝒊=𝟏 𝒊=𝟏
Estimadores Mínimo Cuadráticos Ordinarios

Los estimadores MCO de el intercepto y la pendiente en el modelo de regresión


lineal simple, son:

Pendiente
Intercepto

𝑛 𝑛 𝑛

^
β 1=
𝑛∑ 𝑋 𝑖 𝑌 𝑖 − ∑ 𝑋𝑖 ∑ 𝑌 𝑖
𝑖 =1 𝑖 =1 𝑖 =1 ^β =𝑌 − ^β 𝑋
0 1
(∑ )
𝑛 𝑛 2

𝑛∑ 𝑋𝑖 −
2
𝑋𝑖
𝑖=1 𝑖 =1

^ =β
𝑌 ^ +β
^ 𝑋 Recta de Regresión Ajustada.
𝑖 0 1 𝑖

14
Ejemplo: Purity y hydrocarbon level
Table 11-1 Oxygen and Hydrocarbon Levels
Observació Hydrocarbon Level Purity
n x (%) y (%)
1 0.99 90.01
Ajustar un modelo de regresión lineal simple
2 1.02 89.05
3 1.15 91.43 relacionando purity (y) con hydrocarbon level
4 1.29 93.74 (x)
5 1.46 96.73
6 1.36 94.45
7 0.87 87.59
8 1.23 91.77
9 1.55 99.42 100
10 1.40 93.65
98
11 1.19 93.54
96
12 1.15 92.52
13 0.98 90.56
Purity ( y)
94

14 1.01 89.54 92
15 1.11 89.85
90
16 1.20 90.39
88
17 1.26 93.25
18 1.32 93.41 86
0
19 1.43 94.98 .
8
20 0.95 87.33 5

0
.
9 15
5

1
El Modelo de Regresión Estimado, es:
2,214.6566
𝑛 𝑛 𝑛
𝑛∑ 𝑋 𝑖 𝑌 𝑖 − ∑ 𝑋𝑖 ∑ 𝑌 𝑖
^
β 1=
𝑖 =1 𝑖 =1 𝑖 =1 29.2892
(∑ )
𝑛 𝑛 2

𝑛∑ 𝑋𝑖 −
2
𝑋𝑖
𝑖=1 𝑖 =1

3.92 1,843.21

Por lo tanto, tenemos:


=

= 92.1605 - 14.947 * 1.196 = 74.28

El Modelo Estimado, es:


Propiedades de los Estimadores MCO
𝐶𝑜𝑛𝑜𝑐𝑒𝑚𝑜𝑠 𝑞𝑢𝑒 :
𝑛 𝑛 𝑛 𝑛 𝑛
𝑛∑ 𝑋 𝑖 𝑌 𝑖 − ∑ 𝑋𝑖 ∑ 𝑌 𝑖 ∑ ( 𝑋 𝑖− 𝑋) ( 𝑌𝑖 − 𝑌 ) ∑ 𝑥𝑖 𝑦𝑖
^
β 1= 𝑖 =1 𝑖 =1 𝑖 =1
= 𝑖 =1
= 𝑖 =1

(∑ )
𝑛 𝑛 2 𝑛 𝑛

𝑛∑ 𝑋 2
𝑖 − 𝑋𝑖 ∑ ( 𝑋𝑖 − 𝑋 )
2
∑ 2
𝑥𝑖
𝑖= 1 𝑖 =1 𝑖 =1 𝑖 =1

𝐷𝑜𝑛𝑑𝑒 : 𝑥𝑖 = 𝑋 𝑖 − 𝑋 𝑦 𝑦 𝑖 =𝑌 𝑖 − 𝑌

= Donde:

𝐷𝑒𝑒𝑠𝑡𝑜 , 𝑠𝑖𝑔𝑢𝑒𝑞𝑢𝑒 :
𝑛 𝑛 𝑛
1
∑ 𝑤 𝑖= 0 ∑ 𝑤 𝑖 𝑋 𝑖= 1 ∑ 𝑤 𝑖 =¿
2
𝑛
¿
𝑖=1 𝑖=1 𝑖 =1
∑ 𝑥
2
𝑖
𝑖=1
Continúa…
= 1

Tomando valor esperado en (1), tenemos: 𝐸 (^


β 1 )= β 1

Por lo tanto, es un estimador lineal insesgado de

V({

𝑛
σ 2ε
𝑉 (β
^ )= σ
1
2
ε ∑𝑤 2
𝑖 = 𝑛

∑ 𝑥 2𝑖
𝑖 =1

𝑖=1

Entonces
También conocemos que:
= ++

Puesto que: y E 𝐸 (^
β 0 )= β 0

Por lo tanto, es un estimador lineal insesgado de


V({E{}

Entonces

Como
Estimación de la varianza
=

Nosotros tenemos que: =+

Nosotros podemos derivar que:

Nosotros podemos derivar que: 2

Elevando (2) al cuadrado y aplicando sumatoria, tenemos:

+ 3

Tomando valor esperado a la ecuación /3), se tiene:

(∑ )
𝑛
2 2 σ 2ε
𝐸 ε 𝑖 =1 =𝑛 σ ε 𝐸 ( ε )=𝑉 ( ε ) =
2

𝑖 =1 𝑛
20
Continúa …
2 σ2
𝐸 (^
β 1 − β 1 ) =𝑉 (^
β 1 )=
ε
𝑛

∑ 𝑥 2𝑖
𝑖 =1

{ ( )} {( )( )}
𝑛 𝑛 𝑛 𝑛
𝐸 ( ^β 1 − β1 ) ∑ ε 𝑖 𝑥 𝑖 =𝐸 ∑ 𝑤 𝑖 ε𝑖 ∑ ε𝑖 𝑥 𝑖 =σ
2
ε ∑ 𝑤 𝑖 𝑥 𝑖 =σ 2ε
𝑖=1 𝑖=1 𝑖=1 𝑖 =1

Por lo tanto:

Como: =

21
Ejemplo 2: Profundidad (X) y costos de
perforación (Y) de pozos petroleros (En Miles de
dólares)
Estimar los costos de Depth Cost Depth Cost
perforación de pozos 5000 2596.8 8210 4813.1
de petróleo es una 8600 5618.7
5200 3328.0
cuestión importante
9026 7736.0
para la industria del 6000 3181.1
petróleo. 6538 3198.4 9197 6788.3

7109 4779.9 9926 7840.8


Datos: Costos totales 7556 5905.6 10813 8882.5
y sus profundidades 13800 10489.5
8005 5769.2
de 16 pozos
14311 12506.6
localizados en 8207 8089.5
Filipinas.
22
• Paso 1: Gráfica de los datos

23
Actividad de Clase
1. En este ejemplo, la variable respuesta es:
A. El costo perforación B. La profundidad

2. En este ejemplo, la variable independiente es:


A. El costo de perforación B. La profundidad

3. ¿Hay alguna relación lineal positiva o negativa entre costo de perforación


y la profundidad del pozo?
A. positive . Negative

4. Hallar la recta de regresión estimada e interpretar la


pendiente.

24
• Paso 2: Hallar los coeficientes de la recta de regresión
entre profundidad de pozo y costo

25
Resultados y Usos del Modelo de Regresión Lineal
1. Al ajustar una regresión lineal, los coeficientes estimados, son:
Valores Estimados (0,1) son (-2,277.1, 1.0033)

2. Para un incremento de la profundidad en 1,000 ft el modelo predice


que el costo se incremenará en promedio en?
Si incrementamos X en 1,000, incrementamos Y en promedio por
1,000(1.0033) = $1,003.3

3. Qué costo prediciría el modelo para un pozo de 10,000 ft?


X = 10,000 ft is in the range of the data, and
Estimación en x=10,000 ft es: ˆ0  (10,000)ˆ1 = -2,277.1 + 10,033
$7,755.9 =

4. La estimación de la varianza del error, es: Estimate 2 ≈ 774,211

5. Qué diriá usted del costo de perforación de un pozo de 20,000 ft?


X=20,000 ft es un valor mucho más grande que los valores
30
observados de X. No deberíamos extrapolar la regresión para tales
valores. Está fuera del rango.

También podría gustarte