Está en la página 1de 97

UNIDAD 8.

REGRESIÓN LINEAL

Ph. D. Luis Carlos Rios

Calor-1
REGRESIÓN LINEAL
Son herramientas para investigar la dependencia de una
variable dependiente Y en función de una variable
independiente X.
El análisis de regresión tiene como objetivo modelar en forma
matemática el comportamiento de una variable de respuesta en
función de una o más variables independientes (factores).

Si mediante un modelo matemático es posible describir tal


relación, entonces este modelo puede ser usado para propósitos
de predicción, optimización o control.

Para estimar los parámetros de un modelo de regresión son


necesarios los datos, los cuales pueden obtenerse de
experimentos planeados, de observaciones de fenómenos no
controlados o de registros históricos.
Calor-2
REGRESIÓN LINEAL

Regresión lineal simple


Sean dos variables X y Y, suponga que se quiere explicar el
comporta miento de Y con base en los valores que toma X. Para
esto, se mide el valor de Y sobre un conjunto de n valores de X,
con lo que se obtienen n parejas de puntos (x1, y1), (x2, y2),
…, (xn, yn). A Y se le llama la variable dependiente o la
variable de respuesta y a X se le conoce como variable
independiente o variable regresora.
Una manera de estudiar el comportamiento de Y con respecto a
X es mediante un modelo de regresión que consiste en ajustar
un modelo matemático de la forma:
Y = f (X)
a las n parejas de puntos.
Calor-3
REGRESIÓN LINEAL

Suponga que las variables X y Y están relacionadas


linealmente. Es decir, que cada observación de Y puede ser
descrita por el modelo:
Y = β0 + β1 X + ε
donde ε es un error aleatorio con media cero y varianza σ2.
La ecuación anterior es conocida como el modelo de regresión
lineal simple.
Como el valor esperado del error es cero, E(ε)=0, se puede ver
que el valor esperado de la variable Y, para cada valor de X,
está dado por línea recta
E(Y|X) = β0 + β1X
en donde β0 y β1 son los parámetros del modelo y son
constantes desconocidas.
Calor-4
REGRESIÓN LINEAL

β0 es el punto en el cual la línea recta intercepta o cruza el eje


y, y β1 es la pendiente de la línea.

Ejemplo 1
En un laboratorio se quiere
investigar la forma en que se
relaciona la cantidad de fibra
(madera) en la pulpa con la
resistencia del producto (papel).

Calor-5
REGRESIÓN LINEAL

β0 es el punto en el cual la línea recta intercepta o cruza el eje


y, y β1 es la pendiente de la línea.

Ejemplo 1
En un laboratorio se quiere
investigar la forma en que se
relaciona la cantidad de fibra
(madera) en la pulpa con la
resistencia del producto (papel).

Calor-6
REGRESIÓN LINEAL

Se observa en la gráfica que entre X y Y existe una correlación


lineal positiva, ya que conforme aumenta X también se
incrementa Y.

Calor-7
REGRESIÓN LINEAL

Así, cada observación de Y, la podemos expresar como:


yi = β0 + β1Xi + εi ; con i = 1, 2, …, n (n = 14).
Calor-8
REGRESIÓN LINEAL
Un procedimiento para ajustar la mejor recta es mediante el
método de mínimos cuadrados.
De la ecuación anterior despejamos los errores, los elevamos al
cuadrado y los sumamos:

Para minimizar los errores de la ecuación y así encontrar los


estimadores de mínimos cuadrados de β0 y β1, consiste en
derivar a S con respecto a β0 y derivar también a S respecto a
β1 .

Calor-9
REGRESIÓN LINEAL
Al igualar a cero las dos ecuaciones y resolverlas en forma
simultánea con respecto a las dos incógnitas, se obtiene la
solución única:

Donde,

Calor-10
REGRESIÓN LINEAL
Las medias muestrales de las dos variables son:

Para el ejemplo propuesto de la resistencia, obtengamos los


coeficientes β0 y β1 (en Excel).

Calor-11
REGRESIÓN LINEAL
Procedimiento para realizar los cálculos para la regresión
simple.

Calor-12
REGRESIÓN LINEAL
Procedimiento para realizar los cálculos para la regresión
simple.

Calor-13
REGRESIÓN LINEAL
Procedimiento para realizar los cálculos para la regresión
simple.

Calor-14
REGRESIÓN LINEAL
Procedimiento para realizar los cálculos para la regresión
simple.

Calor-15
REGRESIÓN LINEAL
Ahora obtengamos los coeficientes de regresión.

Calor-16
REGRESIÓN LINEAL
Ahora obtengamos los coeficientes de regresión.

Calor-17
REGRESIÓN LINEAL
Ahora obtengamos los coeficientes de regresión.

La línea recta que mejor explica la relación entre porcentaje de


fibra y resistencia del papel, está dada por

Calor-18
REGRESIÓN LINEAL
La ecuación anterior sirve para estimar la resistencia promedio
esperada para cualquier porcentaje de fibra utilizada. La
diferencia entre lo observado y lo estimado o predicho es una
estimación del error εi. Tal estimación recibe el nombre de
residuo, ei.

Calor-19
REGRESIÓN LINEAL
La ecuación anterior sirve para estimar la resistencia promedio
esperada para cualquier porcentaje de fibra utilizada. La
diferencia entre lo observado y lo estimado o predicho es una
estimación del error εi. Tal estimación recibe el nombre de
residuo, ei.

Calor-20
REGRESIÓN LINEAL
Pruebas de hipótesis en la regresión lineal simple

La hipótesis de mayor interés plantea que la pendiente (β1) es


significativamente diferente de cero.
Ho: pendiente igual a cero, HA:Pendiente diferente de cero.

No rechazar Ho, en el caso del modelo de regresión lineal


simple, implica que no existe una relación lineal significativa
entre X y Y; por lo tanto, no existe relación lineal entre estas
variables o ésta es de otro tipo.

Calor-21
REGRESIÓN LINEAL
Pruebas de hipótesis en la regresión lineal simple

La otra hipótesis plantea que el cruce de la línea recta (β0) es


significativamente diferente del origen (o de un punto
específico).
Ho: cruce por el origen, HA: cruce diferente del origen.

No rechazar Ho, en el caso del modelo de regresión lineal


simple, significa que el punto de corte de la línea recta pasa por
el origen, es decir, pasa por (0, 0).

Calor-22
REGRESIÓN LINEAL
Suma de cuadrados del error

Cuadrado medio del error

Calor-23
REGRESIÓN LINEAL
Tabla de ANOVA

Calor-24
REGRESIÓN LINEAL
Otro enfoque para analizar la significancia del modelo:

Los grados de libertad para Syy son n–1, SCR tiene un grado de
libertad y SCE tiene n–2.

Calor-25
REGRESIÓN LINEAL
Obtener la ANOVA en excel

Calor-26
REGRESIÓN LINEAL
Obtener la ANOVA en excel

Calor-27
REGRESIÓN LINEAL
Calidad del ajuste en regresión lineal simple

Un primer criterio para evaluar la calidad del ajuste es observar


la forma en que el modelo se ajustó a los datos. Otro criterio
más cuantitativo es el que proporciona el coeficiente de
determinación R2.

Es claro que 0<R2<1. En general R2 se interpreta como la


proporción de la variabilidad en los datos (Y) que es explicada
por el modelo.

Calor-28
REGRESIÓN LINEAL
Coeficiente de determinación ajustado, R2aj.

En general, para fines de predicción se recomienda un


coeficiente de determinación ajustado de al menos 0.7.

Para el ejemplo 1, tenemos:

Calor-29
REGRESIÓN LINEAL
Coeficiente de correlación r (R).

Se puede ver que –1 r 1; si r es próximo a –1, entonces


tendremos una relación lineal negativa fuerte, y si r es próximo
a cero, entonces diremos que no hay correlación lineal, y
finalmente si r es próximo a 1, entonces tendremos una
relación lineal positiva fuerte.

Para el ejemplo 1, tenemos:

Calor-30
REGRESIÓN LINEAL
Otro método de análisis de la calidad de ajuste es observando
las gráficas de residuos y la probabilidad normal.

Para el ejemplo 1

Calor-31
REGRESIÓN LINEAL
Estimación y predicción por intervalo en regresión
simple

Una de las aplicaciones más importantes en un análisis de


regresión es hacer estimaciones de la respuesta media para un
valor dado x0.

en ocasiones es de interés obtener una estimación por intervalo


para E(y|x0).

Calor-32
REGRESIÓN LINEAL

Consideremos el modelo ajustado a los datos del ejemplo 1, y


obtengamos el intervalo de confianza para la respuesta media
en x0=12 (porcentaje de fibra).

Calor-33
REGRESIÓN LINEAL

Calor-34
REGRESIÓN LINEAL
Predicción de observaciones futuras

La segunda banda en torno a la recta de regresión de la figura


indica el cálculo del intervalo de predicción dado para
observaciones futuras.
Se aprecia que el intervalo para la predicción siempre es más
amplio que el intervalo de confianza en x0. Esto se debe a que
el intervalo de predicción depende tanto del error del modelo
ajustado como del error asociado a las observaciones futuras.

Calor-35
REGRESIÓN LINEAL
Ejemplo 2.

En una etapa inicial del procesamiento mecánico de piezas de acero, se sabe


que una herramienta sufre un deterioro gradual que se refleja en cierto
diámetro de las piezas manufacturadas. Para predecir el tiempo de vida útil
de la herramienta se tomaron datos de horas de uso y el diámetro promedio
de cinco piezas producidas al final de la jornada. Los datos obtenidos para
una herramienta se muestran a continuación:

Calor-36
REGRESIÓN LINEAL

Calor-37
REGRESIÓN LINEAL
a) ¿En este problema cuál variable se considera independiente
y cuál dependiente?
b) Haga un análisis de regresión (ajuste una línea recta a estos
datos, aplique pruebas de hipótesis y verifique residuos).
c) Señale el valor de la pendiente de la recta e interprételo en
términos prácticos.
d ) ¿La calidad del ajuste es satisfactoria? Argumente.
e) Si el diámetro máximo tolerado es de 45, ¿cuántas horas de
uso estima que tiene esa herramienta?

Calor-38
REGRESIÓN LINEAL
Regresión lineal múltiple

En muchas situaciones prácticas existen varias variables


independientes que se cree que influyen o están relacionadas
con una variable de respuesta Y, y por lo tanto será necesario
tomar en cuenta si se quiere predecir o entender mejor el
comportamiento de Y.

donde los βj son los parámetros del modelo que se conocen


como coeficientes de regresión y ε es el error aleatorio, con
media cero, E(ε) = 0 y V(ε) = σ2.

Calor-39
REGRESIÓN LINEAL
Si en la ecuación anterior k =1, estamos en el caso de regresión
lineal simple y el modelo es una línea recta; si k =2, tal
ecuación representa un plano. En general, la ecuación
representa un hiperplano en el espacio de k dimensiones
generado por las variables {Xj}.

Calor-40
REGRESIÓN LINEAL

β0 es la ordenada al origen, y βj mide el cambio esperado en Y


por cambio unitario en Xj cuando el resto de las variables
regresoras se mantienen fijas o constantes.

Es frecuente que en la práctica se requieran modelos de mayor


orden para explicar el comportamiento de Y en función de las
variables regresoras.
Por ejemplo, supongamos que se tienen dos variables
independientes y que se sospecha que la relación entre Y y
algunas de las variables independientes es cuadrática, por ello
quizá se requiera un polinomio de segundo orden como
modelo de regresión:

Calor-41
REGRESIÓN LINEAL

Éste también es un modelo de regresión lineal múltiple, ya que


la ecuación es una función lineal de los parámetros
desconocidos β0, β1, ..., β22. Pero además si se define X3=X1 X2,
β3=β12, X4=X12, β4=β11, X5=X22, β5=β22 ; entonces, la ecuación
puede escribirse así:

la cual tiene la misma forma que el modelo general de


regresión lineal múltiple, que será aplicable a una amplia gama
de modelos que pueden reducirse a la forma general de tal
expresión.

Calor-42
REGRESIÓN LINEAL

Para estimar los parámetros de la regresión lineal múltiple se


necesita contar con n datos (n>k), que tienen la estructura
descrita en la tabla

En términos de los datos, el modelo de regresión lineal


múltiple puede escribirse de la siguiente manera:

Calor-43
REGRESIÓN LINEAL

Al despejar los errores, elevarlos al cuadrado y sumarlos


obtenemos la siguiente función:

La estimación por mínimos cuadrados es más sencillo si se


utiliza notación matricial

Calor-44
REGRESIÓN LINEAL
El estimador de mínimos cuadrados de β es:

Para hacer inferencias sobre β o, en general sobre el modelo, es


necesario encontrar una forma de estimar σ2. La suma de
cuadrados será:

Calor-45
REGRESIÓN LINEAL
La suma de cuadrados del error tiene n-k-1 grados de libertad,
donde k + 1 es igual al número de parámetros estimados en el
modelo. Entonces, el cuadrado medio del error es:

Donde se puede demostrar que:

Calor-46
REGRESIÓN LINEAL
Ejemplo 3.

Se propone un experimento secuencial para optimizar la


producción de un colorante natural. En la etapa final se
delimitó una zona de experimentación donde se sospecha que
se encuentran las condiciones óptimas para la producción de
este colorante en función de la concentración de carbono (X1) y
temperatura (X2).

Calor-47
REGRESIÓN LINEAL

Hallar los coeficientes de regresión para ajustar la ecuación de


segundo orden.

Calor-48
REGRESIÓN LINEAL
Ordenando los datos de la tabla en forma matricial, tenemos:

Calor-49
REGRESIÓN LINEAL
Análisis de varianza

Para la regresión
Esto se logra probando la siguiente hipótesis: Por lo menos
algún término o variable en el modelo tiene una contribución
significativa al explicar la variable de respuesta, Y.

Calor-50
REGRESIÓN LINEAL
Análisis de varianza

Para los coeficientes individuales del modelo.


Hipótesis nula: El coeficiente evaluado no contribuye para la
obtención de la respuesta Y.

Calor-51
REGRESIÓN LINEAL
Coeficiente de determinación.

Ambos coeficientes se interpretan de forma similar al caso de


regresión lineal simple, es decir, como el porcentaje de
variabilidad de los datos que son explicados por el modelo.
Para hablar de un modelo que tiene un ajuste satisfactorio es
necesario que ambos coeficientes tengan valores superiores a
0.7.
Calor-52
REGRESIÓN LINEAL
Obtener la regresión del ejemplo 3 con Excel.

Calor-53
REGRESIÓN LINEAL
Selección de variables para optimización de la ecuación.

En una tabla en la que se muestre la prueba t para todos los


términos se elige el que tuvo menor contribución (esto se
aprecia en el valor más pequeño en términos absolutos de su
correspondiente estadístico de prueba, t0). Este término se quita
del modelo, se ajusta un nuevo modelo y se comparan los
cambios.
Este proceso se continua hasta que se obtenga el modelo con
los coeficientes más significativos.

Calor-54
REGRESIÓN LINEAL
Selección de variables para optimización de la ecuación.

Pero, si se tiene un modelo con muchos términos es necesario


recurrir a un procedimiento más robusto que proporcione
mayor garantía para construir modelos que sólo tengan
términos significativos (minitab: semiautomático, automático).

Calor-55
ANÁLISIS DE LA REGRESIÓN LINEAL MÚLTIPLE
CON MINITAB

1. Graficar todas las variables en dispersión


Grafica
Grafica de matriz
Simple
Se toman todas las variables

2. Factor de correlación
Estadística
Estadística básica
correlación
Se toman todas las variables.
El primer número es el factor de correlación y el segundo
es el P-valor.

Calor-56
3. Antes de hacer la regresión es bueno ver la dispersión de
los datos en la variable respuesta
Gráfica
Gráfica de valores individuales
Simple
Modo destacado de puntos (está en la fila más baja del
menú, parece una brocha o pluma). Para observar algunos
puntos de la dispersión, muestra las filas y los datos de la
tabla.

4. Crear un subconjunto de la hoja de datos original


Datos
Crear subconjunto de datos (se necesita una
condición)

Calor-57
5. Hacer la regresión y eliminar las variables que tiene poco
impacto en la ecuación.
Estadística
Regresión
Regresión

6. Análisis de las variables de calidad de la regresión


- Desviación estándar del error (S)
- Coeficiente de determinación (R2)
- Coeficiente de determinación ajustado(R2aj)

Calor-58
7. Validación del modelo
- Residuos normales (centrados en cero y que sigan la
línea de ajuste)
- Residuos con varianza constante (igual varianza para
datos bajos y altos)
- Residuos sin presencia de datos anómalos
- Residuos independientes (datos ordenados en forma
aleatoria, no tiene relación en el orden que fueron
tomados)

8. Transformación del modelo (si no pasa el análisis de


residuos)
Se aplica algún logaritmo a la variables que se desee
transformar (se transforma una por una, normalmente
sólo se requiere transformar una, especialmente la
respuesta).
Calor-59
9. Herramientas semiautomáticas de mejoramiento de la
calidad en la regresión
- Mejores subconjuntos

10. Herramientas automáticas de mejoramiento de la calidad


en la regresión
- Paso a paso

Calor-60
REGRESIÓN LINEAL

Ejemplo 5.

La concesionaria multimarca Compracoches de los hermanos Oregón en


Barcelona, tiene posicionada su imagen a través de una página web
Compracoches.org. En la reunión anual de planificación de objetivos para el año
siguiente, los hermanos Obregón llegaron al consenso de dirigir su actividad
empresarial hacia la diferenciación con respecto a la competencia. Después de un
brainstorming han pensado en introducir una nueva funcionalidad en su página
web, que permite conocer el precio promedio de un auto; conocidas sus
características técnicas. Han decidido diseñar un aplicativo web en el que sus
usuarios introducen las características técnicas del carro que tienen en mente y se
les proporciona el valor aproximado de venta del vehículo. Compracoches ha
registrado en la base de datos, durante los últimos años, el precio de venta y los
datos técnicos de los autos vendidos.
Con este nuevo aplicativo, la empresa quiere incentivar a la clientela, incrementar
significativamente el número de visitas de su página web y, por consiguiente,
aumentar los beneficios económicos. Les ayudamos a crear el modelo?

Calor-61
REGRESIÓN LINEAL
Ejemplo 5. Base de datos

Calor-62
REGRESIÓN LINEAL
Ejemplo 5. Base de datos

Calor-63
REGRESIÓN LINEAL

Variable categóricas
Variable numérica discontinua (discreta)

Variable numérica continua

Calor-64
REGRESIÓN LINEAL

Calor-65
REGRESIÓN LINEAL
Ejemplo 5. Análisis de correlación

Calor-66
REGRESIÓN LINEAL
Ejemplo 5. Análisis de correlación

Calor-67
REGRESIÓN LINEAL
Ejemplo 5. Correlación de Pearson (r - R), P-valor

Calor-68
REGRESIÓN LINEAL
Ejemplo 5. Gráfica de valores individuales de la respuesta

Calor-69
REGRESIÓN LINEAL

Calor-70
REGRESIÓN LINEAL

Calor-71
REGRESIÓN LINEAL
Ejemplo 5.

Calor-72
REGRESIÓN LINEAL

Calor-73
REGRESIÓN LINEAL
Ejemplo 5. Subconjuntos

Calor-74
REGRESIÓN LINEAL
Ejemplo 5. Subconjuntos

Calor-75
REGRESIÓN LINEAL
Ejemplo 5. Subconjuntos

Calor-76
REGRESIÓN LINEAL
Ejemplo 5. Regresión

Calor-77
REGRESIÓN LINEAL
Ejemplo 5. Análisis de la regresión

P-valor muy alto > 0,05

Calor-78
REGRESIÓN LINEAL
Ejemplo 5. Optimización manual (elimina una variable por vez)

Calor-79
REGRESIÓN LINEAL
Ejemplo 5. Optimización manual (elimina una variable por vez)

Se quita o no?

Calor-80
REGRESIÓN LINEAL
Ejemplo 5. Validez del modelo
Es o no es válido el modelo?

Variabilidad explicada
por el modelo

Calor-81
REGRESIÓN LINEAL
Ejemplo 5. Validez del modelo
Análisis de residuos

Calor-82
REGRESIÓN LINEAL
Ejemplo 5. Análisis de residuos

Calor-83
REGRESIÓN LINEAL
Ejemplo 5. Transformación del modelo (mejorar la validez)

Calor-84
REGRESIÓN LINEAL
Ejemplo 5. Nueva regresión

P-valor > 0,05

Calor-85
REGRESIÓN LINEAL
Ejemplo 5. Se elimina la variable aceleración y se obtiene una
nueva regresión

Calor-86
REGRESIÓN LINEAL
Ejemplo 5.

Calor-87
REGRESIÓN LINEAL
Ejemplo 5. Predicciones a futuro del modelo obtenido

En versiones más nuevas cambia este cuadro

Calor-88
REGRESIÓN LINEAL
Ejemplo 5. Predicciones a futuro del modelo obtenido

Calor-89
REGRESIÓN LINEAL
Ejemplo 5. Validación semiautomática

Calor-90
REGRESIÓN LINEAL
Ejemplo 5. Validación semiautomática – Mejores subconjuntos

Calor-91
REGRESIÓN LINEAL
Ejemplo 5. Validación semiautomática – Mejores subconjuntos

Calor-92
REGRESIÓN LINEAL
Ejemplo 5. Validación semiautomática – Paso a paso

Calor-93
REGRESIÓN LINEAL
Ejemplo 5. Validación semiautomática – Paso a paso
(minitab 17, es automático)

Calor-94
REGRESIÓN LINEAL
Ejemplo 4. (con correlación)

Se sometió a pruebas un
grupo de camiones ligeros
con motores diésel para saber
si la humedad, la temperatura
del aire y la presión
barométrica influyen en la
cantidad e oxido nitroso que
emiten (en ppm). Las
emisiones se tomaron en
diversos momentos y con
diferentes condiciones
experimentales.
Calor-95
REGRESIÓN LINEAL
 Para este ejemplo seguir los diez pasos de análisis de
regresión vistos en clase.
 Hacer observaciones para cada uno de los pasos dados.
Comparar entre los modelos obtenidos manualmente,
semiautomáticamente y automáticamente. Obtener
conclusiones de las comparaciones.
 Pronosticar la cantidad de oxido nitroso, con los diferentes
modelos obtenidos, si las condiciones experimentales son:
Humedad 80
Temperatura 75
Presión 29.70
 Cuál de los factores afecta en mayor grado la emisión de
Nox y por lo tanto se recomienda tener mayor control?.

Calor-96
REGRESIÓN LINEAL

Calor-97

También podría gustarte