Está en la página 1de 29

FACULTAD DE INGENIERÍA DE PROCESOS

ESCUELA PROFESIONAL DE INGENIERÍA DE


MATERIALES
OPTIMIZACION DE PROCESOS

PRACTICA 5
REGRESION LINEAL EN R

ALUMNO:
Aquipucho Mamani Rodrigo Julian
2021
PRACTICA 5
REGRESION LINEAL EN R

CONTENIDO

1. OBJETIVO:

• Ajustar modelos de regresión lineal simple y múltiple estimando los valores de


susparámetros
• Contrastar las hipótesis del modelo de regresión lineal
• Ajustar un modelo de regresión cuadrático
• Estudiar la correlación entre variables.

2. CONTENIDO: MARCO TEORICO

a) Introducción

3. EQUIPOS Y MATERIALES

4. PROCEDIMIENTO A REALIZAR

5. CASO AESTUDIAR

6. BIBLIOGRAFIA
PRACTICA 5
REGRESION LINEAL EN R

1. OBJETIVO:

• Ajustar modelos de regresión lineal simple y múltiple estimando los valores de sus
parámetros
• Contrastar las hipótesis del modelo de regresión lineal
• Ajustar un modelo de regresión cuadrático
• Estudiar la correlación entre variables.

2. MARCO TEORICO

2.1. REGRESIÓN Y CORRELACIÓN


2.1.1 Regresión
El objetivo del Análisis de regresión es determinar una función matemática sencilla que describa
el comportamiento de una variable dados los valores de otra u otras variables. En el Análisis de
regresión simple, se pretende estudiar y explicar el comportamiento de una variable que notamos
y, y que llamaremos variable explicada, variable dependiente o variable de interés, a partir de otra
variable, que notamos x, y que llamamos variable explicativa, variable independiente o variable
de predicción. El principal objetivo de la regresión es encontrar la función que mejor explique la
relación entre la variable dependiente y las independientes.

Para cumplir dicho objetivo, el primer paso que debe realizar el investigador, es representar las
observaciones de ambas variables en un gráfico llamado diagrama de dispersión o nube de puntos.
A partir de esta representación el investigador puede especificar la forma funcional de la función
de regresión.

A menudo se supone que la relación que guardan la variable dependiente y las independientes es
lineal. En estos casos, se utlizan los modelos de regresión lineal. Aunque las relaciones lineales
aparecen de forma frecuente, también es posible considerar otro tipo de relación entre las
variables, que se modelizan mediante otros modelos de regresión, como pueden ser el modelo de
regresión cuadrático o parabólico o el modelo de regresión hiperbólico.

Teoría de la Regresión: Consiste en la búsqueda de una “función” que exprese lo mejor posible
el tipo de relación entre dos o más variables.

2.1.2 Correlación
La correlación está íntimamente ligada con la regresión en el sentido de que se centra en el estudio
del grado de asociación entre variables. Por lo tanto, una variable independiente que presente un
alto grado de correlación con una variable dependiente será muy útil para predecir los valores de
ésta última. Cuando la relación entre las variables es lineal, se habla de correlación lineal. Una de
las medidas más utilizadas para medir la correlación lineal entre variables es el coeficiente de
correlación lineal de Pearson.

Teoría de la Correlación: Estudia el grado de dependencia entre las variables, es decir su objetivo
es medir el grado de ajuste existente entre la función teórica (función ajustada) y la nube de
puntos.

En esta práctica se mostrará cómo ajustar un modelo de regresión con RStudio, prestando especial
atención a los modelos de regresión lineal. Además, enseñaremos como calcular e interpretar
algunas medidas de correlación.

La regresión lineal simple supone que los valores de la variable dependiente, a los que llamaremos
yi, pueden escribirse en función de los valores de una única variable independiente, los cuales
notaremos por xi, según el siguiente modelo lineal:

son los parámetros desconocidos que vamos a estimar.

3. PROCEDIMIENTO

3.1. Procedimiento de cómo aplicar regresión lineal en rstudio

Habitualmente, al iniciar un estudio de regresión lineal simple se suelen representar los valores
de la variable dependiente y de la variable independiente de forma conjunta mediante un diagrama
de dispersión para determinar si realmente existe una relación lineal entre ambas. Para realizar un
diagrama de dispersión en R y RStudio utilizaremos la orden plot

> plot(x,y)

donde x e y son los valores de las variables independiente y dependiente, respectivamente. En


caso de que en el diagrama de dispersión se aprecie un patrón lineal entre las dos variables, se
podrá asumir una cierta relación lineal entre ambas variables y se procederá a ajustar el modelo
de regresión lineal simple.

Después de comprobar gráficamente la relación lineal entre las variables, el siguiente paso es la
estimación de los valores de los parámetroshttp://wpd.ugr.es/~bioestad/wp-
content/uploads/boregre1.docxy http://wpd.ugr.es/~bioestad/wp-content/uploads/b1regre1.docx
que aparecen en la fórmula (1) a partir de un conjunto de datos. Para ello, podemos utilizar la
función lm de R, cuya sintaxis es la siguiente

> lm(formula, data)


donde formula indica la relación que guardan la variable dependiente y la variable independiente.

Por ejemplo:

> lm(formula = y ~ x, data=midataset)

Algunas peculiaridades sobre este argumento:

Las partes izquierda (variable dependiente) y derecha (variable independiente) de la fórmula


vienen separadas por el símbolo ~ , que puede escribirse con la secuencia de comandos Alt + 126.
Por defecto, la función devuelve un valor para4. En determinadas ocasiones, interesa que dicho
valor sea igual a 0, lo cual se indica en la fórmula del siguiente modo:
> lm(formula = y ~0 + x, data=midataset)

data es el conjunto de datos en el que se encuentran las variables que se utilizan en la fórmula.
Este argumento es optativo, aunque es muy recomendable usarlo para una mayor claridad en la
fórmula. Para ver la diferencia, observemos las siguientes llamadas a la función lm:
> lm(formula = y ~ x, data=midataset)

> lm(formula =midataset$y ~ midataset$x)

Ambas llamadas son equivalentes, pero en la primera de ellas se aprecia mucho mejor cuál es la
expresión que indica la relación entre las variables.

Ejemplo 1
La siguiente tabla muestra información sobre la edad y la presión sanguínea de 10 mujeres:

En primer lugar, vamos a almacenar los datos de las dos variables en dos vectores. Para ello, en
primer lugar abrimos un nuevo Script en el Editor de datos de RStudio, seleccionando File/New
File/R Script (o las teclas Ctrl + Shift + N) y escribimos

edad <- c(56, 42, 72, 36, 63, 47, 55, 47, 38, 42)
presion <- c(148, 126, 159, 118, 149, 130, 151, 142, 114, 141)
edad
presion

Seleccionanos las sentencias y ulsamos la tecla Run o bien Ctrl + Enter y se muestran las
siguientes órdenes en la Consola de RStudio

> edad <- c(56, 42, 72, 36, 63, 47, 55, 47, 38, 42)
> presion <- c(148, 126, 159, 118, 149, 130, 151, 142, 114, 141)
> edad
[1] 56 42 72 36 63 47 55 47 38 42
> presion
[1] 148 126 159 118 149 130 151 142 114 141

Habitualmente, al iniciar un estudio de regresión lineal simple se suelen representar los valores
de la variable dependiente y de la variable independiente de forma conjunta mediante un diagrama
de dispersión para determinar si realmente existe una relación lineal entre ambas. Para realizar un
diagrama de dispersión en R y RStudio utilizaremos la orden plot

> plot(x,y)

donde x e y son los valores de las variables independiente y dependiente, respectivamente. En


caso de que en el diagrama de dispersión se aprecie un patrón lineal entre las dos variables, se
podrá asumir una cierta relación lineal entre ambas variables y se procederá a ajustar el modelo
de regresión lineal simple.

Después de comprobar gráficamente la relación lineal entre las variables, el siguiente paso es la
estimación de los valores de los parámetroshttp://wpd.ugr.es/~bioestad/wp-
content/uploads/boregre1.docxy http://wpd.ugr.es/~bioestad/wp-content/uploads/b1regre1.docx
que aparecen en la fórmula (1) a partir de un conjunto de datos. Para ello, podemos utilizar la
función lm de R, cuya sintaxis es la siguiente

> lm(formula, data)

donde formula indica la relación que guardan la variable dependiente y la variable independiente.

Por ejemplo:
> lm(formula = y ~ x, data=midataset)

Algunas peculiaridades sobre este argumento:

Las partes izquierda (variable dependiente) y derecha (variable independiente) de la fórmula


vienen separadas por el símbolo ~ , que puede escribirse con la secuencia de comandos Alt + 126.
Por defecto, la función devuelve un valor para4. En determinadas ocasiones, interesa que dicho
valor sea igual a 0, lo cual se indica en la fórmula del siguiente modo:
> lm(formula = y ~0 + x, data=midataset)

data es el conjunto de datos en el que se encuentran las variables que se utilizan en la fórmula.
Este argumento es optativo, aunque es muy recomendable usarlo para una mayor claridad en la
fórmula. Para ver la diferencia, observemos las siguientes llamadas a la función lm:
> lm(formula = y ~ x, data=midataset)

> lm(formula =midataset$y ~ midataset$x)

Ambas llamadas son equivalentes, pero en la primera de ellas se aprecia mucho mejor cuál es la
expresión que indica la relación entre las variables.

Ejemplo 1
La siguiente tabla muestra información sobre la edad y la presión sanguínea de 10 mujeres:

En primer lugar, vamos a almacenar los datos de las dos variables en dos vectores. Para ello, en
primer lugar abrimos un nuevo Script en el Editor de datos de RStudio, seleccionando File/New
File/R Script (o las teclas Ctrl + Shift + N) y escribimos

edad <- c(56, 42, 72, 36, 63, 47, 55, 47, 38, 42)
presion <- c(148, 126, 159, 118, 149, 130, 151, 142, 114, 141)
edad
presion

Seleccionanos las sentencias y pulsamos la tecla Run o bien Ctrl + Enter y se muestran las
siguientes órdenes en la Consola de RStudio
> edad <- c(56, 42, 72, 36, 63, 47, 55, 47, 38, 42)
> presion <- c(148, 126, 159, 118, 149, 130, 151, 142, 114, 141)
> edad
[1] 56 42 72 36 63 47 55 47 38 42
> presion
[1] 148 126 159 118 149 130 151 142 114 141

Supongamos que nuestro objetivo es determinar la edad de una mujer a partir de su presión
sanguínea o, lo que es lo mismo, supongamos que la variable dependiente es edad y que la variable
independiente es presión. Vamos a representar el diagrama de dispersión de las dos variables para
determinar si la relación existente entre ambas puede considerarse lineal, y por tanto, tiene sentido
plantear un modelo de regresión lineal simple.

> plot(presion, edad)

A la vista del gráfico de dispersión, se puede asumir un cierto grado de relación lineal entre ambas
variables, por lo que procedemos al ajuste del modelo lineal.
> reg_lin <- lm(edad ~ presion)
> reg_lin

Call:

lm(formula = edad ~ presion)

Coefficients:
(Intercept) presion
-43.5440 0.6774

Por defecto, la salida que muestra la función lm incluye únicamente las estimaciones para los
parámetros, en nuestro caso. Por tanto, el modelo lineal puede escribirse del siguiente modo:

edadi = -43.5440 + 0.6774 presioni

Podemos obtener más información sobre el modelo de regresión que hemos calculado aplicando
la función summary al objeto que contiene los datos de la regresión, al cual hemos llamado reg_lin
en este ejemplo.

> summary(reg_lin)

R y RStudio nos permiten dibujar la recta de regresión lineal sobre el diagrama de dispersión
mediante la orden abline. De este modo podemos visualizar la distancia existente entre los valores
observados y los valores que el modelo pronostica (esto es, los residuos).

> plot(presion, edad)

> abline(reg_lin)

Al aplicar la función plot sobre el objeto que contiene la información del modelo obtenemos 4
gráficos que nos ayudan para la validación del modelo. Estos gráficos son:

Valores predichos frente a residuos


Gráfico Q-Q de normalidad
Valores predichos frente a raíz cuadrada de los residuos estandarizados (en valor absoluto)
Residuos estandarizados frente a leverages
> plot(reg_lin)
Hit <Return> to see next plot:

Nota: Para pasar de un gráfico al siguiente basta con hacer Clik con el ratón o presionar Enter
sobre el gráfico en cuestión
Los gráficos 4 y 6 se utilizan para contrastar gráficamente la independencia, la homocedasticidad
y la linealidad de los residuos. Idealmente, los residuos deben estar aleatoriamente distribuidos a
lo largo del gráfico, sin formar ningún tipo de patrón. El gráfico Q- Q, por su parte, se utiliza para
contrastar la normalidad de los residuos. Lo deseable es que los residuos estandarizados estén lo
más cerca posible a la línea punteada que aparece en el gráfico.
El gráfico de residuos estandarizados frente a leverages se utiliza para detectar puntos con una
influencia importante en el cálculo de las estimaciones de los parámetros.

En caso de detectarse algún punto fuera de los límites que establecen las líneas discontinuas debe
estudiarse este punto de forma aislada para detectar, por ejemplo, si la
elevada importancia de esa observación se debe a un error.
Los gráficos parecen indicar que los residuos son aleatorios, independientes y homocedásticos.
Sin embargo, no parece que los residuos sigan una distribución Normal.
TRABAJO PROPUESTO
1. RESOLVER 3 PROBLEMAS DE REGRESION LINEAL CON SU RESPECTIVO
ANALISIS.EN EL PROGRAMA r

EJERCICIO 1.

Un centro comercial sabe en función de la distancia, en kilómetros, a la que se


sitúe de un núcleo de población, acuden los clientes, en cientos, que figuran en la
tabla

Nº de Clientes Distancia

Plot(clientes,distancia)

Es una gráfica lineal pero pendiente negativa.


Se ajusta bien a la recta solo que dos datos está muy alejados que es el 1 y el 4

El rango es bastante bajo de -6 a 4 los residuos están pegados a la gráfica y el r


cuadrado sale alto.
Hay algunos puntos que se alejan de la gráfica, por ejemplo, el primero y el sesgo

los residuos hay 5 valores que no están pegando en la grafica


Hay un valor que se sale del intervalo de confianza

EJERCICIO 2

A partir de los siguientes datos referentes a horas trabajadas en un taller {(x)} y las
unidades producidas {(y)}, determinar la recta de regresión de {(y)} sobre {(x)}, el
coeficiente de correlación lineal e interpretarlo.
Horas {(x)} Producción {(y)}

80 300

79 302

83 315

84 330

78 300

60 250

82 300

85 340

79 315

84 330

80 310
62 240

Es una gráfica lineal.


Se ajusta bien a la recta solo que varios datos están muy alejados que es el 78 y el 85

El rango es bastante bajo de -20 a 15 los residuos están alejados a la gráfica y el r


cuadrado sale bajo.
Hay algunos puntos que se alejan de la gráfica, por ejemplo, el primero y el sesgo

los residuos hay 5 valores que no están pegando en la grafica


Hay un valor que se sale del intervalo de confianza

EJERCICIO 3

La tabla siguiente nos da las notas del test de aptitud {(x)} dadas a seis
dependientes a prueba y ventas del primer mes de prueba {(y)} en cientos de
euros.
{x} 25 42 33 54 29 36
{y} 42 72 50 90 45 48

Es una gráfica lineal, no tiene tanta dispersión en sus puntos


Se ajusta bien a la recta solo que dos datos está muy alejados que es el 36 y el 43

El rango es bastante bajo de -10 a 5 los residuos están cerca a la gráfica y el r cuadrado
sale alto.

Hay algunos puntos que se alejan de la gráfica, por ejemplo, el primero y el sesgo

los residuos hay 2 valores que no están pegando en la grafica


Hay un valor que se sale del intervalo de confianza que está en 0.2

También podría gustarte