Está en la página 1de 7

FACULTAD DE CIENCIAS EMPRESARIALES

E.A.P. Administración y Negocios Internacionales


UAD – CHEPÉN

REGRESIÓN Y CORRELACIÓN

En la investigación estadística es muy frecuente encontrar variables que están relacionadas entre
si, algunas con mayor grado y otras casi nula. Por ello es posible que una variable dependiente de
una o más variables independientes se puedan expresar matemáticamente en función de dichas
variables. Por ejemplo, el peso de las personas se relaciona con sus alturas; la venta de refrescos
se relaciona con la temperatura, el precio, la marca y otros factores o variables.
Estadísticamente interesa analizar la relación entre dos o más variables, siempre que exista un
indicio de asociación o dependencia entre ellas. Lo importante es medir y expresar funcionalmente
esa relación mediante una función o modelo matemático.

El análisis de regresión consiste en emplear métodos que permitan determinar la mejor relación o
ajuste funcional entre dos o más variables relacionadas. El análisis de correlación estudia el
grado de asociación de dos o más variables.
La regresión y correlación se llama simple cuando se trata de relacionar o asociar dos variables
(una dependiente y otra independiente) y se llama múltiple cuando se trata de modelar más de
dos variables.

Diagrama de dispersión (nube de puntos)


Es la representación de los datos observados de dos variables X e Y cuantitativas para el ajuste
sobre un sistema de coordenadas cartesianas.
Por ejemplo: Sean los puntos ( x1 , y1 ) , ( x 2 , y 2 ) , ( x3 , y 3 ) ,… , ( x n , y n ) es posible que se

presenten algunos de los siguientes casos:

CORRELACIÓN LINEAL POSITIVA CORRELACIÓN LINEAL NEGATIVA

Lic. Juan Luna Romero Estadística para Negocios II


FACULTAD DE CIENCIAS EMPRESARIALES
E.A.P. Administración y Negocios Internacionales
UAD – CHEPÉN

CORRELACIÓN NO LINEAL NO EXISTE CORRELACIÓN

Una vez decidido el tipo de función matemática que mejor se ajusta (o representa nuestro
concepto de la relación exacta que existe entre las variables) se presenta el problema de elegir
una expresión particular de esta familia de funciones; es decir, se ha postulado una cierta función
como termino del verdadero estado en la población y ahora es necesario estimar los parámetros
de esta función (ajuste de curvas).
Como los valores de los parámetros no se pueden determinar sin errores por que los valores
observados de la variable dependiente no concuerdan con los valores esperados, entonces la

ecuación general replanteada, estadísticamente, seria: Y  f ( x1 , x 2 , , x n , 1 ,  2 ,,  m )  


donde ε representa el error cometido en el intento de observar la característica en estudio, en la
cual muchos factores contribuyen al valor que asume .

Covarianza
Mide la forma en que varía conjuntamente dos variables X e Y. En el estudio conjunto de dos
variables, lo que nos interesa principalmente es saber si existe algún tipo de relación entre ellas.
Veremos ahora una medida descriptiva que sirve para medir o cuantificar esta relación:

x  x y j  y 
S xy  
i

Si Sxy >0 hay dependencia directa (positiva), es decir las variaciones de las variables tienen el
mismo sentido.
Si Sxy = 0 las variables están incorreladas, es decir no hay relación lineal, pero podría existir otro
tipo de relación.
Si Sxy < 0 hay dependencia inversa o negativa, es decir las variaciones de las variables tienen
sentido opuesto.
Regresión Lineal Simple
Cuando la relación funcional entre las variables dependiente (Y) e independiente (X) es una línea
recta, se tiene una regresión lineal simple, dada por la ecuación: Y = A + BX + ε

Estimación de parámetros
Consiste en determinar los parámetros A y B a partir de los datos muestrales observados; es decir,
deben hallarse valores como a y b de la muestra, que represente a A y B, respectivamente.
La función de regresión lineal simple es expresado como: Y = a + bX + ε

Lic. Juan Luna Romero Estadística para Negocios II


FACULTAD DE CIENCIAS EMPRESARIALES
E.A.P. Administración y Negocios Internacionales
UAD – CHEPÉN

Empleando el método de los mínimos cuadrados, es decir minimizando la suma de cuadrados de


los errores, se determinan los valores de a y b, así:

e    y i  a  bxi 
2 2
i

Donde:
S xy
b Coeficiente de regresión (pendiente de la recta, mide el cambio de la variable Y por
S x2
unidad de cambio de X)
n  xy   x  y
De manera práctica: b 
n x 2    x 
2

a  y  bx Intersecto de la recta con el eje Y.

Coeficiente de correlación lineal simple ( r )


Para ver si existe relación lineal entre dos variables X e Y, emplearemos un parámetro que nos
mida la fuerza o grado de asociación lineal entre ambas variables. La medida de asociación lineal
más frecuentemente utilizada entre dos variables es “r” o coeficiente de correlación lineal de
Pearson; este parámetro se mide en términos de covarianza de X e Y.
S xy
r donde:  1  r  1
SxS y
• Si r = 1, existe una correlación positiva perfecta entre X e Y
• Si r = -1, existe una correlación negativa perfecta entre X e Y
• Si r = 0, no existe correlación lineal, pudiendo existir otro tipo de relación.
• Si  1  r  0 , existe correlación negativa y dependencia inversa, mayor cuanto más se aproxime
a - 1.
• Si 0  r  1 , existe correlación positiva, y dependencia directa, mayor cuanto más se aproxime a
1.
n xy   x  y
De manera práctica: r 
n x 2    x  n y 2    y 
2 2

Coeficiente de determinación (r2)


Si tenemos dos variables X e Y relacionadas linealmente, parte de la variabilidad de la variable Y,
vendrá explicada por variaciones de X (variabilidad explicada por el modelo), mientras que el resto
Lic. Juan Luna Romero Estadística para Negocios II
FACULTAD DE CIENCIAS EMPRESARIALES
E.A.P. Administración y Negocios Internacionales
UAD – CHEPÉN

responderá a variaciones de fenómenos relacionados con la variable Y o con el azar (variabilidad


no explicada por el modelo).
Por tanto nos conviene disponer de una medida que indique el porcentaje de la variabilidad de la
variable explicada que se debe a la variabilidad de la variable explicativa. Esta medida es el
coeficiente de determinación lineal (r2), y si su valor es alto nos indicará que el ajuste lineal
efectuado es bueno. Es decir el coeficiente de determinación es el cuadrado del coeficiente de
correlación lineal de Pearson y se puede expresar en porcentajes (%).
Ejemplo 1
El responsable de mantenimiento del Departamento de transito de la empresa XYZ, debe determinar
si existe relación entre el costo anual de mantenimiento de los autobuses urbanos y los años que
llevan en operación. La siguiente tabla presenta la información referida al caso.
Costo de Tiempo en
Autobús mantenimiento operación
($) (años)
1 870 8
2 670 5
3 300 3
4 1000 9
5 1400 11
6 150 2
7 100 1

a) Identifique la variable independiente y dependiente.


b) Determinar el modelo de mejor ajuste.
c) Estime el costo de mantenimiento de un autobús con 6 años de operación.
d) Estime los años de operación de un autobús que tiene un costo de mantenimiento de
$930.
DESARROLLO
a) Se sabe que el costo de mantenimiento de un autobús depende de la antigüedad y del uso
del móvil por el desgaste de las piezas. Por ello:
Variable independiente X: Tiempo en operación
Variable dependiente Y: Costo de mantenimiento
b) Construyendo su diagrama de dispersión sobre un plano cartesiano, para determinar el
tipo de correlación y su modelo.

Lic. Juan Luna Romero Estadística para Negocios II


FACULTAD DE CIENCIAS EMPRESARIALES
E.A.P. Administración y Negocios Internacionales
UAD – CHEPÉN

El tipo de correlación es lineal positiva


Para encontrar la recta de regresión, construimos la siguiente tabla, con los cálculos
respectivos.
CÁLCULOS PARA DETERMINAR EL MODELO DE REGRESIÓN

i X Y XY X2 Y2

1 8 870 6960 64 756900


2 5 670 3350 25 448900
3 3 300 900 9 90000
4 9 1000 9000 81 1000000
5 11 1400 15400 121 1960000
6 2 150 300 4 22500
7 1 100 100 1 10000
Total (∑) 39 4490 36010 305 4288300
Aplicando las formulas y reemplazando los valores de la tabla:

n xy   x  y 7(36010)  39(4490)
b   125,342
n x    x  7(305)  39 2
2 2

4490  39 
a  y  bx   125,342   56,905
7  7 

Luego la recta de regresión es: Y = 125,34X – 56,91

Coeficiente de correlación de Pearson:


n xy   x  y 7(36010)  39(4490)
r   0,9892
n x 2    x  n y 2    y  7(305)  39 2 7( 4288300 )  4490 2
2 2

Coeficiente de determinación = r2 = 0,98922 = 97,8%


El modelo de ajuste es confiable.

c) La estimación del costo de mantenimiento de un autobús, donde x = 6 años (tiempo de


operación)

y  125,34(6)  56,91  695.13


Luego el costo de mantenimiento es de $695 aproximadamente.

d) Para estimar los años de operación de un autobús que tiene un costo de mantenimiento de
$930.
Es decir: Y = 930

930  125,34 x  56,91


930  56.91
x 125.34
 7,87

Lic. Juan Luna Romero Estadística para Negocios II


FACULTAD DE CIENCIAS EMPRESARIALES
E.A.P. Administración y Negocios Internacionales
UAD – CHEPÉN

Luego aproximadamente el autobús tiene 8 años de operación.

Problema 1
En un proceso de extracción se estudió la relación entre el tiempo de extracción (min) y los años
de experiencias en la empresa. A continuación se presentan los datos recopilados de 8
trabajadores de la empresa.

a) Identificar la variable independiente y dependiente

Tiempo extracción
6 8 12 11 6 11 14 7
(min)
Años de
5 4 1 3 4 2 1 4
experiencias
b) Construir el diagrama de dispersión y determinar el tipo de correlación.
c) Determinar la ecuación de la recta de regresión y que confiabilidad tiene el modelo.
d) Estimar el tiempo de extracción para un trabajador con 6 años de experiencia.

Problema 2
La demanda de un tipo de impresora ha cambiado debido a una rápida variación en el precio. Se
ha observado la demanda Y (en unidades) y el precio unitario (S/.). Los resultados se presentan
en la tabla adjunta:

a) Construir el diagrama de dispersión y determinar el tipo de correlación.

Precio (S/.) 300 450 500 700 400 600 800 550
Demanda (unid) 5000 4000 3000 2000 3800 2500 1500 2800
b) Determinar la ecuación de la recta de regresión y su coeficiente de determinación.
c) Estimar el precio de la impresora cuando la demanda es de 4500 unidades

Problema 3
En un estudio experimental sobre el crecimiento de una planta, se ha registrado la altura (cm) y el
número de días transcurridos desde su germinación.

a) Construir el
Tiempo (días) 1 3 4 7 10 diagrama de
Altura (cm) 1 2 3 12 16
dispersión y
determinar el tipo de correlación.
b) Determinar la ecuación de la recta de regresión y su coeficiente de determinación.
c) Investigar y determinar un mejor ajuste no lineal.

Problema 4
La empresa ABC tiene un grupo de 8 vendedores, cuyas ventas (Y)

corresponden a sus años de experiencia relacionado con el

Lic. Juan Luna Romero Estadística para Negocios II


FACULTAD DE CIENCIAS EMPRESARIALES
E.A.P. Administración y Negocios Internacionales
UAD – CHEPÉN

conocimiento del mercado (X), estos datos se presentan en el

cuadro siguiente:

años de
Vendedor ventas $
experiencia

1 6 800
2 5 600
3 1 200
4 5 500
5 2 300
6 1 250
7 3 450
8 1 150

a) Construir el diagrama de dispersión.


b) Determinar dos modelos de regresión.

Lic. Juan Luna Romero Estadística para Negocios II

También podría gustarte