Está en la página 1de 27

Curso: Estadística Multivariable

Clase 1: Regresión Lineal Simple


Estructura del curso
Clase 1: Estimación de la regresión

Clase 2: Validación de la regresión


Unidad 1: Regresión Lineal
Clase 3: Estimación de parámetros matricialmente

Clase 4: Validación de la regresión lineal múltiple

Clase 5: Anovaa experimentos de 1 factor

Clase 6: Solemne

Curso Unidad 2: Análisis de Varianza Clase 7: Validación de supuestos del análisis de varianza

Clase 8: Anova de experimentos de 2 factores

Clase 9: Anova de 2𝑘 factores

Clase 10: Validación de supuestos de la Anova

Clase 11: Nombre clase

Clase 12: Nombre clase.

Unidad 3: Análisis Factorial Clase 13: Solemne


Resultado de Aprendizaje de la Clase

Identifica los parámetros


de una regresión lineal
simple a un conjunto de
datos.
¿Por qué es importante este tema?
Para tomar decisiones con mayor y mejor información.
Introducción
• En los procesos industriales al igual que en la naturaleza, 2 o más variables
tienen una relación inherente, y es necesario explorarla.

• Supongamos que en un proceso químico el rendimiento puede estar


relacionado con la temperatura con que se lleve a cabo éste.

• Puede usarse un análisis de regresión para construir un modelo que me


permita predecir el rendimiento y/o encontrar en qué nivel de
temperatura se produce el óptimo.

• Así, podemos encontrar el nivel de temperatura que maximice el


rendimiento, para fines de control de proceso.
Preguntas de contexto y comprensión.
• ¿En que consiste el método de los mínimos cuadrados?

• ¿Qué representa 𝛽መ0 ?

• ¿Qué diferencia existe entre 𝛽መ1 y 𝛽1 ?

• ¿Para que sirve la prueba T?


Regresión Lineal Simple
• Podemos considerarlos datos de la siguiente tabla, la cual representa la
pureza del oxígeno producido en un proceso de destilación química.

Nivel de Nivel de
hidrocarburos Pureza hidrocarburos Pureza
0,99 90,01 1,19 93,54
1,02 89,05 1,15 92,52
1,15 91,43 0,98 90,56
1,29 93,74 1,01 89,54
1,46 96,73 1,11 89,85
1,36 94,45 1,2 90,39
0,87 87,59 1,26 93,25
1,23 91,77 1,32 93,41
1,55 99,42 1,43 94,98
1,4 93,65 0,95 87,33
Regresión lineal simple
• Los datos se pueden representar en un diagrama de dispersión
Modelo de Regresión
• En un análisis de regresión de dos variables que llamaremos variable
independiente 𝑋 y la variable dependiente 𝑌.
• Supongamos que cierto experimento aleatorio lo trataremos de manera
simultanea dos variables.
• Seleccionamos 𝑛 valores 𝑥1 , 𝑥2 , … , 𝑥𝑛 y para cada valor 𝑥𝑗 obtenemos una
observación 𝑦𝑗 .
• Al inspeccionar el diagrama de dispersión, se observa que ninguna curva
simple pasa por los puntos, pero se puede suponer que la media de 𝑌 se
relaciona con 𝑋 por una relación lineal.

𝐸 𝑌 𝑥 = 𝜇𝑌ȁ𝑥 = 𝛽0 + 𝛽1 𝑥

Dónde 𝛽0 y 𝛽1 se les conoce como coeficientes de la regresión


Modelo de Regresión
• En este caso se supone que el valor esperado de 𝑌 es una función lineal de
𝑥, pero el valor real de 𝑌 es

𝑌ȁ𝑥 = 𝛽0 + 𝛽1 𝑥 + 𝜀
• Dónde 𝜀 es el término que representa al valor aleatorio
• Este modelo se le llama modelo de regresión lineal simple porque sólo
tiene una variable regresora.
• El modelo 𝜇𝑌ȁ𝑥 corresponde a una recta de valores medios.
• Además se toma el supuesto de que la media y varianza de 𝜀 son 0 y 𝜎 2
Así
𝐸 𝑌 𝑥 = 𝐸 𝛽0 + 𝛽1 𝑥 + 𝜀 = 𝛽0 + 𝛽1 𝑥 + 𝐸 𝜀 = 𝛽0 + 𝛽1 𝑥

𝑉 𝑌 𝑥 = 𝑉 𝛽0 + 𝛽1 𝑥 + 𝜀 = 𝑉 𝛽0 + 𝛽1 𝑥 + 𝑉 𝜀 = 𝜎 2
Regresión Lineal Simple
Regresión lineal simple: Estimación
Para estimar los coeficientes se usa el método conocido como método de los
mínimos cuadrados
• Supongamos que tenemos 𝑛 pares de observaciones, 𝑥1 , 𝑦1 , 𝑥2 , 𝑦2 ,
… , 𝑥𝑛 , 𝑦𝑛
• Las observaciones se pueden expresar como

𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖

Así, la suma de los cuadrados de las desviaciones entre la recta y las


verdaderas observaciones queda:

𝑛 𝑛
2 2
𝐿 = ෍ 𝜀𝑖 = ෍ 𝑦𝑖 − 𝛽0 − 𝛽1 𝑥𝑖
𝑖=1 𝑖=1
Regresión lineal simple: Estimación
Lo que se busca es encontrar una recta que minimice 𝐿, así los estimadores de
𝛽0 𝑦 𝛽1 , como por ejemplo 𝛽መ0 𝑦 𝛽መ1 deben satisfacer:

𝑛
𝜕𝐿
ቤ = −2 ෍ 𝑦𝑖 − 𝛽መ0 − 𝛽መ1 𝑥𝑖 = 0
𝜕𝛽0 𝛽෡ ෡1
,𝛽
0 𝑖=1
𝑛
𝜕𝐿
ቤ = −2 ෍ 𝑦𝑖 − 𝛽መ0 − 𝛽መ1 𝑥𝑖 𝑥𝑖 = 0
𝜕𝛽1 𝛽෡ ෡1
,𝛽
0 𝑖=1
Así
𝑛 𝑛

𝑛𝛽መ0 + 𝛽መ1 ෍ 𝑥𝑖 = ෍ 𝑦𝑖
𝑖=1 𝑖=1
𝑛 𝑛 𝑛

𝛽መ0 ෍ 𝑥𝑖 + 𝛽መ0 ෍ 𝑥𝑖2 = ෍ 𝑦𝑖 𝑥𝑖


𝑖=1 𝑖=1 𝑖=1
Regresión lineal simple
Las estimaciones de mínimos cuadrados de la intercepción y la pendiente del
modelo de regresión lineal simple son:
𝑛 𝑛

𝛽መ0 = ෍ 𝑦𝑖 − 𝛽መ1 ෍ 𝑥𝑖
𝑖=1 𝑖=1
𝑛 𝑛

𝛽መ0 = 𝑦ത − 𝛽መ1 𝑥ҧ
𝑛 𝑛
𝑛

෍ 𝑦𝑖 𝑥𝑖 − ෍ 𝑥𝑖 ෍ 𝑦𝑖
𝑖=1 𝑖=1
𝑖=1
𝑛
𝛽መ1 = 𝑛 2
𝑛

෍ 𝑥𝑖2 − ෍ 𝑥𝑖
𝑖=1
𝑖=1
𝑛
Regresión lineal simple: Ejemplo
Considerando el problema de la pureza del oxígeno, ajustar el modelo de
regresión

Nivel de Nivel de
hidrocarburos Pureza hidrocarburos Pureza
0,99 90,01 1,19 93,54
1,02 89,05 1,15 92,52
1,15 91,43 0,98 90,56
1,29 93,74 1,01 89,54
1,46 96,73 1,11 89,85
1,36 94,45 1,2 90,39
0,87 87,59 1,26 93,25
1,23 91,77 1,32 93,41
1,55 99,42 1,43 94,98
1,4 93,65 0,95 87,33
Regresión lineal simple: ejemplo
Salida R

Modelo

ෝ = 𝟕𝟒, 𝟐𝟖𝟑 + 𝟏𝟒, 𝟗𝟒𝟕𝒙


𝒚
Regresión lineal simple: Ejemplo
Propiedades de los estimadores
• Nuestros valores 𝛽መ0 y 𝛽መ1 basados en una muestra de 𝑛 datos son sólo estimadores
de los parámetros 𝛽0 y 𝛽1 .
• Si el experimento se repitiera muchas veces, usando en cada ocasión los mismos
valores para 𝑥, los estimadores resultantes diferirán entre un experimento a otro.
• Podemos asumir que 𝛽መ0 y 𝛽መ1 son una variable aleatoria, en la cual
𝑛

෍ 𝑥𝑖 2
𝑖=1
𝐸 𝛽መ0 = 𝛽0 𝑉 𝛽መ0 = 𝑛 𝜎2
𝑛 ෍ 𝑥𝑖 − 𝑥ҧ 2

𝑖=1
𝜎2
𝑛
𝐸 𝛽መ1 = 𝛽1 𝑉 𝛽መ1 = 2
෍ 𝑥𝑖 − 𝑥ҧ
𝑖=1
2
Estimación de 𝜎
• 𝜎 2 se describe como la desviación cuadrada entre la observación y la media
estimada 𝑦ො𝑖 , un estimador insesgado sería
𝑛
2
2 ෍ 𝑦𝑖 − 𝑦ො
𝑠 =
𝑖=1
𝑛−2

Se le denomina error cuadrático medio, se puede usar

𝑆𝐶𝐸
𝑠2 =
𝑛−2
Dónde 𝑆𝐶𝐸 representa la suma cuadrado del error
𝑛
2
𝑆𝐶𝐸 = ෍ 𝑦𝑖 − 𝑦ො
𝑖=1
Inferencias sobre los coeficientes
• Para la construcción de los intervalos de confianza para los estimadores,
debemos suponer que los errores se distribuyen normales, 𝜀𝑖 son 𝑁𝐼𝐷 0, 𝜎 2 .
Así 𝑦𝑖 son 𝑁𝐼𝐷 𝛽0 + 𝛽1 𝑥𝑖 , 𝜎 2 .
• Para probar 𝐻0 que 𝛽1 = 𝛽10 , es decir que es igual a una constante, en
comparación a una hipótesis alternativa, utilizamos la distribución 𝑡 con 𝑛 −
2 g.l , el estadístico queda:
𝛽መ1 −𝛽10
𝑇=
𝑠/ 𝑆𝑥𝑥

Dónde
𝑛
2
𝑆𝑥𝑥 = ෍ 𝑥𝑖 − 𝑥ҧ
𝑖=1
Intervalo de confianza para los estimadores
• Considernado el estadístico de 𝑡, podríamos fijar un intervalo de confianza
100 1 − 𝛼 % para el parámetro 𝛽1 .

𝑠 𝑠
𝛽መ1 −𝑡𝛼,𝑛−2 < 𝛽1 < 𝛽መ1 + 𝑡𝛼,𝑛−2
2 𝑆𝑥𝑥 2 𝑆𝑥𝑥

Ejemplo: Considerar el problema ejemplo de la pureza del oxígeno y estimar


un intervalo de confianza para 𝛽1
Solución

12,18 < 𝛽1 < 17,71


Intervalo de confianza para los estimadores
De la misma manera que el intervalo de confianza para 𝛽1 podemos
determinar para la intercepción 𝛽0

𝑛 𝑛
𝑠 𝑠
𝛽መ0 −𝑡𝛼,𝑛−2 ෍ 𝑥𝑖2 < 𝛽0 < 𝛽መ0 −𝑡𝛼,𝑛−2 ෍ 𝑥𝑖2
2 𝑛𝑆𝑥𝑥 𝑖=1
2 𝑛𝑆𝑥𝑥 𝑖=1

Para el ejemplo, el IC de 𝛽0 queda

70,93 < 𝛽0 < 77,63


Inferencia sobre los estimadores
• De manera particular se podría probar que 𝛽1 difiere de cero, esto quiere
decir, que la recta tiene pendiente diferente de cero.
𝐻0 : 𝛽1 = 0
𝐻0 : 𝛽1 ≠ 0
Así
𝛽መ1
𝑡=
𝑠/ 𝑆𝑥𝑥

• El no rechazo de 𝐻0 implica que no hay una relación lineal entre 𝑌 y 𝑥.


• Esta hipótesis es están relacionadas con la significación de la regresión.
• Rechazar 𝐻0 implica que el modelo es adecuado y existe una relación
lineal entre las variables.
Prueba de hipótesis: Ejemplo
Ejemplo
Probar la significación de la regresión utilizando los datos de la pureza del
oxígeno con una significancia de 𝛼 = 0,01.
Solución
La hipótesis queda:
𝐻0 : 𝛽1 = 0
𝐻0 : 𝛽1 ≠ 0
De los datos 𝛽መ1 = 14,947; 𝑛 = 20; 𝑆𝑥𝑥 = 0,67; 𝑆 2 = 1,18

14,947
𝑡= = 11,35
1,18/0,68
Intervalos de confianza de la media y
observación
Para la media

1 𝑥0 − 𝑥ҧ 2 1 𝑥0 − 𝑥ҧ 2
𝑦ො0 −𝑡𝛼,𝑛−2 𝑠 2 + ≤ 𝜇𝑌ȁ𝑥 ≤ 𝑦ො0 +𝑡𝛼,𝑛−2 𝑠 2 +
2 𝑛 𝑆𝑥𝑥 2 𝑛 𝑆𝑥𝑥

Para una observación futura

1 𝑥0 − 𝑥ҧ 2
𝑦ො0 −𝑡𝛼,𝑛−2 𝑠 2 1+ + ≤ 𝑦0
2 𝑛 𝑆𝑥𝑥

1 𝑥0 − 𝑥ҧ 2
≤ 𝑦ො0 +𝑡𝛼,𝑛−2 𝑠 2 1+ +
2 𝑛 𝑆𝑥𝑥
Resumen de la clase
• Se revisaron los conceptos de :

 la regresión lineal simple y


 el método de estimación de los coeficientes de un modelo de regresión.

 Se determinó la significancia de los coeficientes


Bibliografía
Montgomery, D. y Runger, D. (2007). Probabilidad y estadística
aplicadas a la ingeniería. (2da ed.). México: Limusa

Walpole, R., Myers, S. y Myers R. (2007) Probabilidad y


estadística para Ingeniería. (8va ed.). México: Pearson Education.

También podría gustarte