Documentos de Académico
Documentos de Profesional
Documentos de Cultura
REGRECION Y CORRELACION
RECTILINEA
Curvas de ajusta
Muy a menudo en la práctica se encuentra que existe una relación entre dos(o más)
variables y se dejan expresar esta relación en forma matemática determinada una
ecuación que conecta las variables, luego se dibujan los puntos
( x1 , y1 ) ( x2 , y2 ) ( x3 , y3 ) ... ( xn , yn ) en el sistema de coordenadas.
Del diagrama de dispersión es posible frecuentemente visualizar una curva que se
aproxime a los datos. Dicha curva se llama curva de aproximación
Regresión lineal.
Uno de los propósitos principales de la curva de ajuste. Una de las variables (la variable
dependiente) de la otra (variable independiente). El proceso de la estimación se conoce
como regresión si “y” se va a estimar a partir de “x” por medio de alguna ecuación la
llamamos ecuación de regresión de “y” sobre “x” y a la curva correspondiente curva de
regresión de “y” sobre “x”
Que constituyen las dos ecuaciones normales con dos incógnitas “a” y “b” que son dos
parámetros o coeficientes de la línea de regresión
y = a + bx
1
UNIVERSIDAD ANDINA DEL CUSCO
Mgt. Alfredo Marcavillaca Luna Estadística General (Derecho)
Estas ecuaciones normales son dos ecuaciones simultaneas con dos incógnitas (a y b)
donde las sumatorias ( ) se obtiene de los n valores ( x, y ) . Una vez calculada a y b
se reemplaza en la ecuación y = a + bx , resultando finalmente la línea recta de regresión
“y” sobre “x”
a=
x 2 y − x xy
b=
n xy − x y
n x − ( x ) n x − ( x )
2 2 2 2
n xy − ( x )( y )
r= donde : − 1 r +1
n x 2 − ( x )2 n y 2 − ( y )2
De donde se deduce que:
a) Si r 0 , entonces existe “correlación directa positiva”
b) Si r 0 , se trata de una “correlación inversa negativa”
c) Si r 2 = 1 , los datos forman una línea recta, en el caso de correlación rectilínea
d) Sí r = +1 ,hay una correlación perfecta positiva
e) Sí r = −1 , hay una correlación perfecta negativa
f) Si r = 0 , los datos son incorrelacionados
En la interpretación clásica del coeficiente de correlación, se sostiene que si:
a) 0,00 r 0,20 existe una correlación no significativa
b) 0,20 r 0,40 existe una correlación baja
c) 0,40 r 0,70 existe una significativa correlación
d) 0,70 r 1,00 existe alto grado de asociación
Sin embargo, estos valores resultan arbitrarios, puesto que dependerá de la naturaleza
del problema que se investiga, así como el término de la muestra
Ejemplo 1
Supongamos que se quiere estimar la relación entre ingreso y consumo. Para el efecto se
eligió una muestra de 6 familias. se define la variable dependiente (Y= consumo) y la
variable independiente (X = ingreso), hallar la ecuación de la recta de regresión lineal y
el coeficiente de correlación.
Ingreso x 35 40 38 55 42 60
Consumo y 30 35 30 50 35 50
SOLUCION
1.-Resolver las ecuaciones normales como un sistema de ecuaciones simultaneas, por el
método de sumas y restas.
2
UNIVERSIDAD ANDINA DEL CUSCO
Mgt. Alfredo Marcavillaca Luna Estadística General (Derecho)
Y = an + b X
XY = a X + b X 2
Cuadro N° 1
INGRESO Y CONSUMO DE UNA MUESTRA DE 6 FAMILIAS
INGRESO CONSUMO XY X2 Y2
X Y
2.- También la aplicación directa de fórmulas para a y b deducidas de las ecuaciones normales.
a=
X . Y − X . XY
2
b=
n XY − X . Y
n X − ( X ) n X 2 − ( X )
2 2 2
3
UNIVERSIDAD ANDINA DEL CUSCO
Mgt. Alfredo Marcavillaca Luna Estadística General (Derecho)
n XY − ( X )( Y )
r= =
X − ( X ) n Y − ( Y )
n 2 2
2 2
Como r = +0,98 es muy cercano a 1, entonces existe una buena afinidad o relación
entre variables X e Y, es decir que la recta de regresión Y = −2, 4142 + 0,9055 estima
o explica bastante bien el comportamiento del consumo (Y ) conocido los valores de
ingreso ( X )
SOLUCIÓN
4
UNIVERSIDAD ANDINA DEL CUSCO
Mgt. Alfredo Marcavillaca Luna Estadística General (Derecho)
Cuadro Nº 1
EDAD Y TIEMPO DE SERVICIOS DE 15 TRABADORES DETERMINACION DE
LA LINEA DE REGRESION
EDAD TIEMPO METODO MINIMOS CUADRADOS
X SERVICIOS XY X2 Y2
Y
1.- La recta y = a + by tiene una posición determinada dada por los valores de los
parámetros " a " y " b " que se obtiene resolviendo las ecuaciones normales.
Y = na + b X
XY = a X + b X 2
Luego:
5
UNIVERSIDAD ANDINA DEL CUSCO
Mgt. Alfredo Marcavillaca Luna Estadística General (Derecho)
2.- También se puede aplicar las fórmulas que permiten obtener directamente de los
valores los parámetros “a” y “b”, donde se reemplaza las sumatorias con valores del
cuadro Nº 1
a=
X Y − X XY =
2
n X − ( X )
2 2
n XY − X Y
b= =
n X 2 − ( X )
2
Valores similares a los obtenidos anteriormente, por tanto, la recta de regresión Y sobre
X es: y = a + bx
La recta obtenida expresa la regresión lineal entre las variables tiempo de servicios (Y)
y edad (X), deducida de una muestra de 15 trabajadores, es un modelo lineal que
permite obtener valores estimados o teóricos de Y (variable dependiente) a partir de
valores reales X (variable independiente).
3. Hallemos el coeficiente de correlación
6
UNIVERSIDAD ANDINA DEL CUSCO
Mgt. Alfredo Marcavillaca Luna Estadística General (Derecho)
n XY − ( X )( Y )
r= =
X − ( X ) n Y − ( Y )
n 2
2 2 2
3. Supongamos que se quiere estimar la relación entre ingreso y consumo. Para el efecto se
eligió una muestra de 8 familias. se define la variable dependiente (Y= consumo) y la
variable independiente (X = ingreso), hallar la ecuación de la recta de regresión lineal y
el coeficiente de correlación.
Ingreso x 42 35 60 53 39 48 52 59
Consumo y 35 28 54 47 33 42 49 55
SOLUCION
Resolver las ecuaciones normales como un sistema de ecuaciones simultaneas, por el
método de sumas y restas.
Y = an + b X
XY = a X + b X 2
Cuadro N° 1
INGRESO Y CONSUMO DE UNA MUESTRA DE 8 FAMILIAS
INGRESO CONSUMO XY X2 Y2
X Y
7
UNIVERSIDAD ANDINA DEL CUSCO
Mgt. Alfredo Marcavillaca Luna Estadística General (Derecho)
2.- También la aplicación directa de fórmulas para a y b deducidas de las ecuaciones normales.
a=
X . Y − X . XY
2
b=
n XY − X . Y
n X − ( X ) n X 2 − ( X )
2 2 2
8
UNIVERSIDAD ANDINA DEL CUSCO
Mgt. Alfredo Marcavillaca Luna Estadística General (Derecho)
b=
n XY − ( X )( Y )
r= =
n
( ) n Y 2 − ( Y )2
2 2
X − X
Como r = +0,9933 es muy cercano a 1, entonces existe una buena afinidad o relación
entre variables X e Y, es decir que la recta de regresión Y = −9.85905 + 1.0873x
estima o explica bastante bien el comportamiento del consumo (Y ) conocido los
valores de ingreso ( X )
N° de clientes (X) 8 7 6 4 2 1
Distancia (Y) 15 19 25 23 34 40
SOLUCIÓN:
Xi Yi Xi2 Yi2 Xi Yi
9
UNIVERSIDAD ANDINA DEL CUSCO
Mgt. Alfredo Marcavillaca Luna Estadística General (Derecho)
1.- La recta y = a + by tiene una posición determinada dada por los valores de los
parámetros " a " y " b " que se obtiene resolviendo las ecuaciones normales.
Y = na + b X
XY = a X + b X 2
Luego:
De la ecuación (1) se deduce que:
10
UNIVERSIDAD ANDINA DEL CUSCO
Mgt. Alfredo Marcavillaca Luna Estadística General (Derecho)
2.- También se puede aplicar las fórmulas que permiten obtener directamente de los
valores los parámetros “a” y “b”, donde se reemplaza las sumatorias con valores del
cuadro Nº 1
a=
X Y − X XY =
2
n X − ( X )
2 2
n XY − X Y
b= =
n X 2 − ( X )
2
Valores similares a los obtenidos anteriormente, por tanto, la recta de regresión Y sobre
X es: y = a + bx
La recta obtenida expresa la regresión lineal entre las variables tiempo de servicios (Y)
y edad (X), deducida de una muestra de 15 trabajadores, es un modelo lineal que
permite obtener valores estimados o teóricos de Y (variable dependiente) a partir de
valores reales X (variable independiente).
3. Hallemos el coeficiente de correlación
n XY − ( X )( Y )
r= =
X − ( X ) n Y − ( Y )
n 2
2 2 2
11
UNIVERSIDAD ANDINA DEL CUSCO