Está en la página 1de 14

ESTADÍSTICA APLICADA A

LAS RELACIONES
INDUSTRIALES

REGRESIÓN LINEAL SIMPLE

Mag. Rosendo Mario Torres Villegas


REGRESION LINEAL SIMPLE
En este capítulo, trataremos con muestras bivariantes cuantitativas, es decir con
muestras donde en cada unidad estadística se observan dos características
cuantitativas medibles X e Y ; por ejemplo, ingresos y gastos mensuales. El objetivo es
estudiar la asociación entre dos variables conocida también como asociación
simple.
La primera forma del estudio de la asociación entre las variables X e Y es la regresión,
que consiste en determinar una relación funcional (recta de regresión) entre ellas,
con el fin de que se pueda predecir el valor de una variable en base a la otra. La
variable que se va predecir se denomina variable dependiente y la variable que es la
base de la predicción se denomina variable independiente. La segunda forma del
estudio de la asociación entre las variables X e Y, es denominada correlación, que
consiste en determinar la variación conjunta de las dos variables, su grado de
relación, y su sentido (positivo o negativo). La medida del grado de relación se
denomina coeficiente o índice de correlación. El cuadrado del índice de correlación
se denomina coeficiente de determinación.
DIAGRAMA DE DISPERSIÓN
Sean ( 𝑥1 , 𝑦1 ) , (𝑥2 , 𝑦2 ) … (𝑥𝑛 , 𝑦𝑛 ) n valores de la variable bidimensional ( X ,Y ) ,
observados en una muestra, donde los 𝑥𝑖 son los valores de la variable X y los 𝑦𝑖
son los valores de la variable Y.
Los métodos estadísticos descriptivos son válidos en cada variable, es decir
cada variable tiene media, desviación estándar, etc. Lo nuevo aquí es que
con estos datos en pareja se puede medir la dispersión conjunta con respecto
a las medias (𝑥,ҧ 𝑦)
ത mediante la covarianza.
Definición. Se denomina diagrama de dispersión o nube de puntos, a la gráfica
de los valores (𝑥𝑖 , 𝑦𝑖 ) de las variables X e Y en el sistema cartesiano. Es
frecuentemente posible visualizar el tipo de relación existente entre dos
variables a partir del diagrama de dispersión.
Por ejemplo, en la figuras 4.1 a),b) los datos visualizan una relación lineal entre las
variables X e Y. En la figura 4.1 c) los datos visualizan una relación, pero, una
relación no lineal, y en la figura 4.1 d) los datos visualizan ninguna relación válida en
regresión entre las variables X e Y.
En este capítulo como ya se indicado en la introducción, haremos regresión lineal
descriptiva determinando la ecuación lineal de regresión
𝑌 = 𝑎 + 𝑏𝑋
Que mejor se ajusta a los n pares de datos (𝑥𝑖 , 𝑦𝑖 ) y analizando la validez de la
regresión a partir del coeficiente de determinación.
COVARIANZA
La covarianza es una estadística que mide el grado de dispersión o variabilidad conjunta de dos
variables X e Y con respecto a sus medias respectivas (𝑥,ҧ 𝑦)
ത .
Definición. La covarianza de n valores ( 𝑥1 , 𝑦1 ) , (𝑥2 , 𝑦2 ) … (𝑥𝑛 , 𝑦𝑛 ) de una variable
bidimensional ( X , Y ) es el número Cov (X, Y ) o 𝑠𝑥𝑦 que se define igual a la media aritmética
de los productos de las desviaciones de los datos con respecto a sus correspondientes medias
(𝑥,ҧ 𝑦)
ത . Esto es,
σ𝑛𝑖=1(𝑥𝑖 − 𝑥)(𝑦ҧ 𝑖 − 𝑦)ത
𝑠𝑥𝑦 =
𝑛
Es el numero de 𝑠𝑥𝑦 se verifica la relación:
𝑛 𝑛

෍(𝑥𝑖 − 𝑥)(𝑦
ҧ 𝑖 − 𝑦)
ത = ෍ 𝑥𝑖 𝑦𝑖 − 𝑛𝑥𝑦
𝑖=1 𝑖=1
σ𝑛
𝑖=1 𝑥𝑖 𝑦𝑖
Luego 𝑠𝑥𝑦 = − 𝑥𝑦.
𝑛
La covarianza a diferencia de la varianza, puede ser negativa.
COEFICIENTE O ÍNDICE DE CORRELACIÓN
Definición. El coeficiente de correlación lineal de Pearson de n pares de valores ( 𝑥1 , 𝑦1 ) , (𝑥2 , 𝑦2 ) …
(𝑥𝑛 , 𝑦𝑛 ) de una variable bidimensional ( X, Y ). es el número abstracto r que se calcula por
𝑠𝑥𝑦
𝑟=
𝑠𝑥 𝑠𝑦
Donde
𝑠𝑥𝑦 es la covarianza de X e Y
𝑠𝑥 es la desviación estándar de X
𝑠𝑦 es la deviación estándar de Y

REGRESION LINEAL SIMPLE


Dados ti pares de valores ( 𝑥1 , 𝑦1 ) , (𝑥2 , 𝑦2 ) … (𝑥𝑛 , 𝑦𝑛 ) de una variable bidimensional
( X , Y ) . La regresión lineal simple de Y con respecto a X , consiste en determinar la ecuación de la
recta:
𝑌 = 𝑎 + 𝑏𝑋

que mejor se ajuste a los valores de la muestra, con el fin de poder predecir o estimar Y (variable
dependiente) a partir de X (variable independiente).
RECTA DE REGRESIÓN DE MÍNIMOS CUADRADOS
𝑛 σ 𝑥𝑖 𝑦𝑖 − σ 𝑥𝑖 σ 𝑦𝑖 𝑠𝑥𝑦
𝑏= 2 ,𝑜 𝑏 =
𝑛 σ 𝑥𝑖2 − (σ 𝑥𝑖 ) 𝑠𝑥2

𝑎 = 𝑦ത − 𝑏𝑥ҧ
Nota: Sustituyendo 𝑎 = 𝑦ത − 𝑏𝑥ҧ 𝑒𝑛 𝑌 = 𝑎 + 𝑏𝑋, 𝑟𝑒𝑠𝑢𝑙𝑡𝑎,
𝑌 − 𝑦ത = 𝑏(𝑋 − 𝑥)ҧ
Que es otra forma de expresar la recta de regresión.
INTERPRETACION DEL COEFICIENTE DE REGRESION b
El coeficiente b es la pendiente o el coeficiente de la regresión lineal. La constante a es la ordenada en el origen.
Si b > 0 , entonces, la tendencia lineal es creciente, es decir, a mayores valores de X corresponden mayores
valores de Y. También, a menores valores de X corresponden menores valores de Y.
Si b < 0 , entonces, la tendencia lineal es decreciente, es decir, a mayores valores de X corresponden menores
valores de Y. También, a menores valores de X corresponden mayores valores de Y.
Si b = 0 , entonces, Y = a . Luego, Y permanece estacionario para cualquier valor de X. En este caso se dice que,
no hay regresión.
Ejemplo 4.1
En un estudio de la relación entre la publicidad por radio y las ventas de un producto,
durante 10 semanas se han recopilado los tiempos de duración en minutos de la publicidad
por semana (X), y el número de artículos vendidos (K), resultando:
Semana 1 2 3 4 5 6 7 8 9 10
Publicidad X 20 30 30 40 50 60 60 60 70 80
Ventas Y 50 73 69 87 108 128 135 132 148 170

a) Trazar el diagrama de dispersión, e indicar la tendencia.


b) Calcular la recta de regresión de mínimos cuadrados con el fin de predecir las ventas.
c) Estimar la venta si en una semana se hacen 100 minutos de propaganda.
d) Calcular el coeficiente de correlación.
e) Si en la novena semana se incrementara la publicidad en 5 minutos, ¿en cuanto se
estima se incrementen las ventas?.
SOLUCIÓN
a) Al trazar el diagrama de dispersión (fig. 4.3) vemos que hay una relación
lineal positiva entre el número de artículos vendidos y el tiempo de
publicidad semanal por radio.
180
160
140
120
Ventas

100
80
60
40
20
Publicidad
0
0 20 40 60 80 100

Fig. 4.3 Diagrama de dispersion


b) Para determinar la recta de regresión de mínimos cuadrados a partir de los datos,
es decir para calcular a y b se dispone del cuadro 4.1.
De donde se obtiene:

𝑛 = 10, ෍ 𝑥 = 500, ෍ 𝑌 = 1100, ෍ 𝑋𝑌 = 61800

෍ 𝑋 2 = 28400, ෍ 𝑌 2 = 134660

500 1100
𝑥ҧ = = 50, 𝑦ത = = 110
10 10
Cuadro 4.1. Computo de los coeficientes de regresión

X Y XY 𝑿𝟐 𝒀𝟐
20 50 1000 400 2500
30 73 2190 900 5329
30 69 2070 900 4761
40 87 3480 1600 7569
50 108 5400 2500 11664
60 128 7680 3600 16384
60 135 8100 3600 18225
60 132 7920 3600 17424
70 148 10360 4900 21904
80 170 13600 6400 28900
500 1100 61800 28400 134660
Una forma de calcular b es :
𝑛 σ 𝑋𝑌 − σ 𝑋 σ 𝑌 10𝑋61800 − 500𝑋1100 68000
𝑏= 2 2
= 2
= =2
σ σ
𝑛 𝑋 − ( 𝑋) 10𝑋28400 − (500) 34000
La otra forma del calculo de b es:
σ 𝑋𝑌 61800
𝑠𝑋𝑌 = − 𝑥𝑦 = − 50𝑥110 = 680
𝑛 10
σ 2
2
𝑋 2
28400
𝑠𝑥 = − 𝑥ҧ = − 502 = 340,
𝑛 10
𝑠𝑋𝑌 680
𝑏= 2 = = 2.
𝑠𝑥 340
Además, 𝑎 = 𝑦ത − 𝑏𝑥ҧ = 110 − 2 50 = 10.
La recta de regresión es: 𝑌 = 𝑎 + 𝑏𝑋
NOTA. Utilizando 𝑌 − 𝑦ത = 𝑏 𝑋 − 𝑥ҧ , 𝑠𝑒 𝑡𝑖𝑒𝑛𝑒:
𝑌 − 110 = 2 𝑋 − 50 𝑜 𝑌 = 10 + 2𝑋
c) Si 𝑥𝑖 = 100, 𝑦ො = 10 + 2 100 = 210. No tenemos por el momento un criterio para
concluir que este pronostico es confiable.
d) El coeficiente de correlación
𝑠𝑋𝑌 𝑛 σ 𝑋𝑌 − σ 𝑋 σ 𝑌 680
𝑟= = = = 0.998
𝑠𝑋 𝑠𝑌 2 2 2
𝑛 σ 𝑋 − (σ 𝑋) 𝑛 σ 𝑌 − (σ 𝑌) 2 18.44𝑥36.96

Es altamente positivo. Es un primer criterio para analizar la validez de la predicción.


e) Si en la novena semana se incrementara el tiempo de propaganda en 5
minutos, entonces, la venta se incrementa en promedio 5(2)=10 unidades.
COEFICIENTE DE DETERMINACIÓN
Consecuencias.
1) De la identidad (*) se concluye que 0 ≤ 𝑟 2 ≤ 1. Entonces, −1 ≤ 𝑟 ≤ 1.
Si r > 0 , se dice que existe una correlación directa positiva, ambas variables aumentan (o disminuyen) simultáneamente.
Si r < 0 , se dice que existe una correlación inverso negativa, mientras los valores de una variable aumenta, los de la otra
disminuyen y viceversa.
Si r = 0 , se dice que no hay correlación entre X e Y . Por lo tanto no hay regresión de Y en X.
2) 𝑟 2 = 1, sólo si, SCE = 0 , o sólo si, 𝑦𝑖 = 𝑦ො𝑖 , para los n datos de la muestra.
Esto significa que todos los 𝑦𝑖 , están en la recta de regresión. En este caso se dice que hay una correlación perfecta entre
X e Y.
Si r = 1, se dice que hay una correlación perfecta positiva.
Si r = -1, se dice que hay una correlación perfecta negativa.
3) 𝑟 2 = 0, sólo si, SCR = 0 , o sólo si, 𝑦ො𝑖 = 𝑦ത para los n datos de la muestra. Es decir 𝑦𝑖 no cambia cuando cambia 𝑥𝑖 , o
todas las predicciones son iguales a una misma constante. En este caso no hay correlación ni regresión.
4) El coeficiente de determinación 𝑟 2 , es pues una medida de la proximidad del ajuste de la recta de regresión.
Cuanto mayor sea el valor de 𝑟 2 , mejor será el ajuste' y más útil la recta de regresión como instrumento de
predicción. ( 𝑟 2 = 0.90 indica que de 100 pares de puntos 90 están en la recta de regresión y 10 fuera de la recta de
regresión)
NOTA. (Una advertencia)
El haber supuesto una función lineal entre dos variables y haber encontrado un alto coeficiente de correlación, no
necesariamente significa que una variable dependa de la otra, pues, esta correlación puede no ser causal si no casual.
Para que exista correlación debe haber causa y efecto.

También podría gustarte