Está en la página 1de 19

Regresión Lineal Simple Ing.

Luis Pedro Rico Hernández

Análisis de regresión lineal y correlación lineal

El objetivo primordial del análisis de regresión lineal es estimar el valor de una


variable aleatoria (la variable dependiente) dado que el valor de una variable
asociada (la variable independiente) es conocido. La variable dependiente también
se llama variable de respuesta, mientras que la variable independiente también se
llama variable de predicción. La ecuación de regresión es la formula algebraica por
la cual se determina el valor estimado de la variable dependiente, o de respuesta.

El termino análisis de regresión simple indica que el valor de una variable


dependiente se estima con base a una variable independiente, o de predicción. El
análisis de regresión múltiple, se ocupa de la estimación del valor de una variable
dependiente con base en dos o más variables independientes.

Diagrama de dispersión

Un diagrama de dispersión es una gráfica en la que cada punto trazado respeta un


par de valores observados de las variables independiente y dependiente. El valor
de la variable independiente X se identifica respecto al eje horizontal, mientras que
el valor de la variable dependiente Y se identifica respecto al eje vertical.

La forma de la relación representada por el diagrama de dispersión puede ser


curvilínea más que lineal. En el caso de las relaciones no lineales, un enfoque
consiste en determinar un método de transformación de valores de una o ambas
variables a fin de que la relación de los valores transformados sea lineal.

Si el diagrama de dispersión indica en general una relación lineal, se ajusta una


línea recta a los datos. La ubicación precisa de esta línea es determinada por el
método de mínimos cuadrados.

Tal como se indica en el siguiente esquema, una linea de regresión con pendiente
positiva indica una relación directa entre las variables, una pendiente negativa
indica una relación inversa entre las variables y una pendiente de cero indica que
las variables no tienen relación entre sí. Además, el grado de dispersión vertical de
los puntos trazados respecto de la línea de regresión indica el grado de relación
entre las dos variables.

1
Regresión Lineal Simple Ing. Luis Pedro Rico Hernández

La figura incluye varios diagramas de dispersión y sus líneas de regresión


asociadas en demostración de varios tipos de relaciones entre las variables.

Método de mínimos cuadrados para el ajuste de un alinea de regresión

La ecuación lineal que representa el modelo de regresión lineal simple es:

Yi= α + βxi + ε
Donde:

Yi = Valor de la variable dependiente en el iésimo ensayo, u observación.

α = Primer parámetro de la ecuación de regresión, el cual indica el valor de Y


cuando X=0.

β = Segundo parámetro de la ecuación de regresión, el cual indica la pendiente de


la línea de regresión.

xi = El valor especifico de la variable independiente, en el iésimo ensayo u


observación.

ε = Error del muestro aleatorio en ele iésimo ensayo u observación.

Donde el error del modelo debe necesariamente tener una medida de cero. Cada
observación (xi, yi) en la muestra satisface la ecuación.

Yi= α + βxi + ε

2
Regresión Lineal Simple Ing. Luis Pedro Rico Hernández

La ecuación anterior puede considerarse como el modelo para una sola


observación yi. De manera similar al utilizar la línea de regresión estimada o
ajustada:

ŷ = a + b(x)

Dependiendo del criterio matemático utilizado, para un diagrama de dispersión


dado pueden desarrollarse varias ecuaciones lineales diferentes. De acuerdo con
el criterio de mínimos cuadrados, la línea de regresión del mejor ajuste (y la mejor
ecuación) es aquella para el cual se reduce al mínimo la sima de las desviaciones
cuadradas entre los valores estimado y real de la variable dependiente parra los
datos muéstrales. La formulas de cálculos por las cuales pueden determinarse los
valores de a y b en la ecuación de regresión para la ecuación que satisface el
criterio de mínimos cuadrados son:

Estimación de los coeficientes de regresión. Dada la muestra {(xi,yi), i=


1,2,3…n}, las estimaciones de mínimos cuadrados a y b de los coeficientes de
regresión se calculan por medio de las fórmulas:

3
Regresión Lineal Simple Ing. Luis Pedro Rico Hernández

Ejemplo: uno de los problemas más desafiantes para el control de la


contaminación del agua lo presenta la industria del curtido de pieles. Los desechos
de esta industria son químicamente complejos. Se caracterizan por valores
elevados de en la demanda de oxigeno bioquímico, los sólidos volátiles y otras
mediciones de contaminación. Considera los datos experimentales de la tabla, los
cuales se obtuvieron de 33 muestras de desperdicios que se tratan químicamente
en el estudio “chemical Treatment on Spent Vegatable Tan Liquor”. Determine la
ecuación que establece la recta de regresión lineal, realice el diagrama de
dispersión.

Al usar la recta de regresión se podría pronosticar una reducción del 31% de la


demanda química de oxigeno cuando la reducción total de sólidos es del 30%.
Esta reducción del 31% puede interpretarse como una estimación de una nueva
estimación cuando la reducción total de sólidos es de 30%.

Tales estimaciones, sin embargo están sujetas a un error. Aun cuando el


experimento este controlado de tal forma que la reducción total de sólidos sea de
30%, es probable que no se mida una reducción de la demanda química de
oxigeno exactamente igual a 31%. De hecho los datos registrados originalmente
muestran que las mediciones de 25% y 35% se obtuvieron para la reducción de la
demanda química de oxigeno cuando la reducción total de los sólidos totales se
mantuvieron al 30%

4
Regresión Lineal Simple Ing. Luis Pedro Rico Hernández

(xi) (Yi) (Xi)(Yi) (Xi)^2 N= 33


3 5 15 9
7 11 77 49
11 21 231 121
15 16 240 225 b= 0.90364321
18 16 288 324
27 28 756 729 a= 3.8296332
29 27 783 841
30 25 750 900 Y= 6.54056283
30 35 1050 900
31 30 930 961
31 40 1240 961
32 32 1024 1024
33 34 1122 1089
33 32 1056 1089
34 34 1156 1156
36 37 1332 1296
36 38 1368 1296
36 34 1224 1296
37 36 1332 1369
38 38 1444 1444
39 37 1443 1521
39 36 1404 1521
39 45 1755 1521
40 39 1560 1600
41 41 1681 1681
42 40 1680 1764
42 44 1848 1764
43 37 1591 1849
44 44 1936 1936
45 46 2070 2025
46 46 2116 2116
47 49 2303 2209
50 51 2550 2500

1104 1124 41355 41086

5
Regresión Lineal Simple Ing. Luis Pedro Rico Hernández
Herná

Línea de Regresión Ajustada


60
Demanda de Oxigeno Quimico %

50 y = 0.9036x + 3.8296
R² = 0.9129
40

30

20

Series1
10

0
0 10 20 30 40 50 60
Reducción de solidos %

Ejercicio 2

Las calificaciones de un grupo de estudiantes en su reporte de medio año (x) y en


los exámenes finales (y) fueron los siguientes.

x 77 50 71 72 81 94 96 99 67
y 82 66 78 34 47 85 99 99 68

a) Estime la línea de regresión lineal


b) Estime la calificación de examen final de un estudiante que obtuvo una
calificación de 85 en el reporte de medio año.

6
Regresión Lineal Simple Ing. Luis Pedro Rico Hernández
Herná

Solución:

(xi) (Yi) (Xi)(Yi) (Xi)^2


77 82 6314 5929
50 66 3300 2500
71 78 5538 5041
72 34 2448 5184
81 47 3807 6561
94 85 7990 8836
96 99 9504 9216
99 99 9801 9801
67 68 4556 4489
∑=707 ∑= 658 ∑= 53258 ∑= 57557

N= 9

b= 0.7771416

a= 12.0623211

Y= 78.119357 Calificación final alumno con 85 en el parcial

Línea de Regresión Ajustada


120 y = 0.777x + 12.06
100 R² = 0.314
Examen Final

80
60
40 Series1
20 Lineal (Series1)
0
0 20 40 60 80 100 120
Examen Parcial

7
Regresión Lineal Simple Ing. Luis Pedro Rico Hernández

Ejercicio3

Se llevó a cabo un estudio acerca de la cantidad de azúcar refinada mediante un


cierto proceso a varias temperaturas diferentes. Los datos se codificaron y se
registraron en el cuadro siguiente.

Temperatura, X Azúcar transformada, Y


1 8.1
1.1 7.8
1.2 8.5
1.3 9.8
1.4 9.5
1.5 8.9
1.6 8.6
1.7 10.2
1.8 9.3
1.9 9.2
2 10.5

a) Determine la ecuación de regresión lineal.


b) Calcule la cantidad promedio de azúcar refinada que se produce cuando la
temperatura codificada es 1.75.

(xi) (Yi) (Xi)(Yi) (Xi)^2


1 8.1 8.1 1
1.1 7.8 8.58 1.21 N= 11
1.2 8.5 10.2 1.44 b= 1.80909091
1.3 9.8 12.74 1.69 a= 6.41363636
1.4 9.5 13.3 1.96 Y= 9.57954545
1.5 8.9 13.35 2.25
1.6 8.6 13.76 2.56
1.7 10.2 17.34 2.89
1.8 9.3 16.74 3.24
1.9 9.2 17.48 3.61
2 10.5 21 4
∑=16.5 ∑= 100.4 ∑= 152.59 ∑= 25.85

Azúcar convertida a una temperatura de 1.75

8
Regresión Lineal Simple Ing. Luis Pedro Rico Hernández
Herná

Línea de Regresión Ajustada


12
y = 1.809x + 6.413
10 R² = 0.499
Azucar Convertida

8
6
Series1
4
Lineal (Series1)
2
0
0 0.5 1 1.5 2 2.5
Temperatura del Proceso

Ejercicio 4

Un comerciante a menudeo llevó a cabo un estudio para determinar la relación


entre los gastos de publicidad semanal y las ventas, se obtuvieron los siguientes
datos.

Costos de
publicidad ($) Ventas ($)
40 385
20 400
25 395
20 365
30 475
50 440
40 490
20 420
50 560
40 525
25 480
50 510

9
Regresión Lineal Simple Ing. Luis Pedro Rico Hernández

a) Dibuje el diagrama de dispersión.


b) Encuentre la ecuación de la línea de regresión para pronosticar las ventas
semanales resultantes de los gastos de publicidad.
c) Estime las ventas semanales cuando los gastos de publicidad ascienden a
$35.

600
500
400
300
200 Series1
100
0
0 20 40 60

(xi) (Yi) (Xi)(Yi) (Xi)^2


40 385 15400 1600
20 400 8000 400
25 395 9875 625
20 365 7300 400
30 475 14250 900
50 440 22000 2500
40 490 19600 1600
20 420 8400 400
50 560 28000 2500
40 525 21000 1600
25 480 12000 625
50 510 25500 2500
∑= 410 ∑= 5445 ∑= 191325 ∑= 15650

N= 12

b= 3.22081218

a= 343.705584

Y= 456.43401 Donde los costos de publicidad sean $35 dólares

10
Regresión Lineal Simple Ing. Luis Pedro Rico Hernández
Herná

Línea de Regresión Ajustada


600 y = 3.220x + 343.7
R² = 0.403
500
400
Ventas ($)

300
Series1
200
100 Lineal (Series1)

0
0 10 20 30 40 50 60

Costos de Publicidad ($)

Ejercicio 5

En un estudio acerca de la cantidad de precipitación pluvial y la cantidad de


contaminación de aire eliminada, se obtuvieron los siguientes datos.

Lluvia diaria, x Partículas eliminadas, y


(0.01 cm) (migramos por metro cubico)
4.3 126
4.5 121
5.9 116
5.6 118
6.1 114
5.2 118
3.8 132
2.1 141
7.5 108

a) Determine la ecuación de línea de regresión para pronosticar las partículas


removidas, a partir de la cantidad de precipitación pluvial diaria.
b) Estime la cantidad de partículas removidas cuando la precipitación pluvial
diaria es x = 4.8 unidades.

11
Regresión Lineal Simple Ing. Luis Pedro Rico Hernández
Herná

(xi) (Yi) (Xi)(Yi) (Xi)^2


4.3 126 541.8 18.49
4.5 121 544.5 20.25
5.9 116 684.4 34.81
5.6 118 660.8 31.36
6.1 114 695.4 37.21
5.2 118 613.6 27.04
3.8 132 501.6 14.44
2.1 141 296.1 4.41
7.5 108 810 56.25
∑= 45 ∑= 1094 ∑= 5348.2 ∑= 244.26

N= 9

-
b= 6.32398754

a= 153.175493

Y= 122.820353 Cantidad de partículas removidas a 4.8

Línea de Regresión Ajustada


160
Cantidad de Particulas Removidas

140 y = -6.324x
6.324x + 153.1
120 R² = 0.957
100
80
Series1
mg/m3

60
40
Lineal (Series1)
20
0
0 2 4 6 8
Cantidad de lluvia diaria 0.01 cm

12
Regresión Lineal Simple Ing. Luis Pedro Rico Hernández

Ejercicio 6

Se presentan datos muéstrales relativos al número de horas de estudio fuera de


clases durante un periodo de tres semanas de alumnos de un curso de estadística
aplicada a la administración y a sus calificaciones en el examen final de ese
periodo. Elabore un diagrama de dispersión para estos datos y determine la
ecuación de regresión que establece su linealidad.

Resp. ŷ = a + b(x) = ŷ = 40 + 1.5(x)

Análisis de correlación
Así como el análisis de regresión permite obtener una fórmula que expresa la
relación entre dos o más variables, el análisis de correlación obtiene un índice que
muestra el grado de relación entre dos o más variables.

El coeficiente de correlación lineal, desarrollado por el matemático ingles Karl


Pearson (1857-1936) y conocido con la letra r, puede tomar valores desde -1
hasta +1. Son estos extremos que manifiestan una relación lineal perfecta
(negativa o positiva). Según se ejemplifican en los diagramas de dispersión
mostrados en el siguiente esquema:

13
Regresión Lineal Simple Ing. Luis Pedro Rico Hernández

Procedimiento de análisis de varianza


Con frecuencia el problema de analizar la calidad de una línea de regresión
estimada se maneja a través de un enfoque de análisis de varianza. Esto es
meramente un procedimiento por medio del cual la variación total de la variable
dependiente se subdivide en componentes significativas que se observan y se
tratan en forma sistemática. El análisis de varianza es un poderosa herramienta en
muchas aplicaciones.

Supóngase que se tiene n puntos de datos experimentales en la forma usual (xi


,yi), y que se estima la línea de regresión . De tal forma que se ha logrado una
participación de la suma total corregida de los cuadrados de y, y en dos
componentes que deben reflejar el significado particular para el experimentador.
Esta participación se indicara simbólicamente:

SST=SSR+SSE

El primer componente de la derecha recibe el nombre de la suma de cuadrados


de regresión y refleja la cantidad de variación de los valores de y explicados por
el modelo, en este caso la línea recta postulada. El segundo componente es solo
la suma de cuadrados del error ya familiar, que refleja la variación alrededor de la
línea de regresión.

14
Regresión Lineal Simple Ing. Luis Pedro Rico Hernández

Correlación
Por ejemplo, si X y Y representa la longitud y la circunferencia de una clase
particular de hueso en el cuerpo de un adulto, se podría llevar a cabo un estudio
antropológico para determinar si valores grandes de X se asocian con valores
grandes de Y. Si X representa la antigüedad de un automóvil usado y Y su valor
en libros, se esperaría que los valores grandes de X correspondieran a valores
pequeños de Y, y que valores pequeños de X correspondieran a valores grandes
de Y.

El análisis de correlación intenta mediar la fuerza de tales relaciones entre dos


variables por medio de un simple número que recibe el nombre de coeficiente de
correlación.

Coeficiente de correlación
La constate (rho) ó r2 recibe el nombre de coeficiente de correlación. Es
importante la interpretación física del coeficiente de correlación y la distinción entre
correlación y regresión. El valor de r es cero cuando no hay regresión lineal, esto
es, la línea de regresión es horizontal y cualquier conocimiento de X no es de
utilidad para predecir Y. -1 ≤ r ≤ 1. Los valores de r = 1sólo ocurren cuando s2=0,
en cuyo caso se tiene una relación lineal perfecta entre las dos variables.

Entonces un valor de r = 1 implica una relación lineal perfecta con una pendiente
positiva. Mientras que un valor de r = -1 indica una relación lineal perfecta con
pendiente negativa. Se podría decir que estimaciones muéstrales de r (rho)
cercanas a la unidad en magnitud implican buena correlación entre X y Y, mientras
que valores cercanos a cero indican poco o ninguna correlación. Es común
referirse a r como momento de pearson.

15
Regresión Lineal Simple Ing. Luis Pedro Rico Hernández

Coeficiente de Determinación
Para valores de r entre – 1 y + 1 se debe ser cuidadoso en su interpretación. Por
ejemplo, valores de r iguales que 0.3 y 0.6 significan únicamente que se tienen
dos correlaciones positivas, un algo mayor que la otra. Es un error concluir que r =
0.6 indica una relación lineal de dos veces mayor que la indicada por el valor r =
0.3.

Nota: SSR = SST

Entonces r2, a la que comúnmente se le llama coeficiente de determinación,


representa la proporción de la variación de Syy explicada por la regresión de Y en
x, es decir, SRR. Esto es r2 expresa la proporción de la variación total de los
valores de la variable Y que se pueden contabilizar o explicar por una relación
lineal con los valores de la variable aleatoria X.

Entonces una correlación de 0.6 significa que 0.36 o 36% de la variación total
de los valores de Y en la muestra se deben a una relación lineal con los
valores de X.

16
Regresión Lineal Simple Ing. Luis Pedro Rico Hernández

En el ejemplo siguiente se muestra cómo calcular el coeficiente o índice de


correlación lineal para un conjunto de datos. Tomando de base el ejemplo sobre la
demanda bioquímica de oxigeno.

17
Regresión Lineal Simple Ing. Luis Pedro Rico Hernández

SSE SST MEDIA Y VARIANZA DE LOS ESTIMADORES


ŷi=a+b(x) ℓi=yi-ŷi (ℓi)^2 (Y Media) yi-y media (yi-y media)^2 (X Media) (Xi-XMedia) (Xi-XMedia)^2
6.540562829 -1.540562829 2.373333831 34.06060606 -29.06060606 844.5188246 33.45454545 -30.45454545 927.4793388
10.15513567 0.844864328 0.713795733 34.06060606 -23.06060606 531.7915519 33.45454545 -26.45454545 699.8429752
13.76970851 7.230291486 52.27711497 34.06060606 -13.06060606 170.5794307 33.45454545 -22.45454545 504.2066116
17.38428136 -1.384281356 1.916234873 34.06060606 -18.06060606 326.1854913 33.45454545 -18.45454545 340.5702479
20.09521099 -4.095210988 16.77075304 34.06060606 -18.06060606 326.1854913 33.45454545 -15.45454545 238.8429752
28.22799988 -0.227999883 0.051983947 34.06060606 -6.060606061 36.73094582 33.45454545 -6.454545455 41.66115702
30.0352863 -3.035286304 9.21296295 34.06060606 -7.060606061 49.85215794 33.45454545 -4.454545455 19.84297521
30.93892951 -5.938929515 35.27088378 34.06060606 -9.060606061 82.09458219 33.45454545 -3.454545455 11.9338843
30.93892951 4.061070485 16.49229348 34.06060606 0.939393939 0.882460973 33.45454545 -3.454545455 11.9338843
31.84257273 -1.842572726 3.395074249 34.06060606 -4.060606061 16.48852158 33.45454545 -2.454545455 6.024793388
31.84257273 8.157427274 66.54361974 34.06060606 5.939393939 35.27640037 33.45454545 -2.454545455 6.024793388
32.74621594 -0.746215936 0.556838223 34.06060606 -2.060606061 4.246097337 33.45454545 -1.454545455 2.115702479
33.64985915 0.350140853 0.122598617 34.06060606 -0.060606061 0.003673095 33.45454545 -0.454545455 0.20661157
33.64985915 -1.649859147 2.722035204 34.06060606 -2.060606061 4.246097337 33.45454545 -0.454545455 0.20661157
34.55350236 -0.553502357 0.30636486 34.06060606 -0.060606061 0.003673095 33.45454545 0.545454545 0.297520661
36.36078878 0.639211222 0.408590986 34.06060606 2.939393939 8.640036731 33.45454545 2.545454545 6.479338843
36.36078878 1.639211222 2.687013429 34.06060606 3.939393939 15.51882461 33.45454545 2.545454545 6.479338843
36.36078878 -2.360788778 5.573323656 34.06060606 -0.060606061 0.003673095 33.45454545 2.545454545 6.479338843
37.26443199 -1.264431989 1.598788255 34.06060606 1.939393939 3.761248852 33.45454545 3.545454545 12.57024793
38.1680752 -0.1680752 0.028249273 34.06060606 3.939393939 15.51882461 33.45454545 4.545454545 20.66115702
39.07171841 -2.07171841 4.292017171 34.06060606 2.939393939 8.640036731 33.45454545 5.545454545 30.75206612
39.07171841 -3.07171841 9.435453991 34.06060606 1.939393939 3.761248852 33.45454545 5.545454545 30.75206612
39.07171841 5.92828159 35.14452261 34.06060606 10.93939394 119.6703398 33.45454545 5.545454545 30.75206612
39.97536162 -0.975361621 0.951330291 34.06060606 4.939393939 24.39761249 33.45454545 6.545454545 42.84297521
40.87900483 0.120995169 0.014639831 34.06060606 6.939393939 48.15518825 33.45454545 7.545454545 56.9338843
41.78264804 -1.782648042 3.177834041 34.06060606 5.939393939 35.27640037 33.45454545 8.545454545 73.02479339
41.78264804 2.217351958 4.916649706 34.06060606 9.939393939 98.79155188 33.45454545 8.545454545 73.02479339
42.68629125 -5.686291252 32.33390821 34.06060606 2.939393939 8.640036731 33.45454545 9.545454545 91.11570248
43.58993446 0.410065537 0.168153745 34.06060606 9.939393939 98.79155188 33.45454545 10.54545455 111.2066116
44.49357767 1.506422326 2.269308225 34.06060606 11.93939394 142.5491276 33.45454545 11.54545455 133.2975207
45.39722088 0.602779116 0.363342662 34.06060606 11.93939394 142.5491276 33.45454545 12.54545455 157.3884298
46.30086409 2.699135905 7.285334635 34.06060606 14.93939394 223.1854913 33.45454545 13.54545455 183.4793388
49.01179373 1.988206273 3.952964186 34.06060606 16.93939394 286.943067 33.45454545 16.54545455 273.7520661
Syy= SST= Σ(yi Sxx=Σ(Xi-
Σ( ŷi ) SSE= Σ(yi - ŷi) VARIACION TOTAL -YMedia)^2 XMedia)^2
1124 323.3273124 3713.878788 4152.181818

18
Regresión Lineal Simple Ing. Luis Pedro Rico Hernández

1. Variación no explicada (SSE)


Sxy= Σ(Xi-XMedia)(Yi- 2. Variación total (Syy)
YMedia)
3. Variación explicada (Syy= SST-SSE)
885.0275482
4. Coeficiente de determinación (R2)
610.0578512
5. Coeficiente de correlación (r)
293.2699725
333.3002755
6. sxx
279.1184573
7. sxy
39.1184573
31.45179063
31.30027548
-3.245179063
9.966942149
-14.5785124
2.997245179
0.027548209
0.936639118
-0.033057851
7.482093664
10.02754821
-0.154269972
6.876033058
17.90633609
El 91.29% existe de relación entre las variables
16.30027548
10.75482094
60.66391185
32.33057851
52.36088154
50.75482094
84.93663912
28.05785124
104.815427
137.84573
149.785124
202.3608815
280.2699725
3752.090909

19

También podría gustarte