Está en la página 1de 21

ESTADISTICA

Sesin N 12

REGRESIN Y CORRELACIN LINEAL

ESTADISTICA

QUE ES LA CORRELACIN?

1. ANALISIS DE CORRELACION
DEFINICIN. La correlacin es el mtodo empleado para
determinar el grado de asociacin o relacionamiento entre las
variables que se estudian, para as determinar en qu medida una
relacin funcional describe o explica en una forma adecuada la
relacin entre estas variables.
TIPOS DE CORRELACIN. Atendiendo al relacionamiento entre
las variables X e Y podemos tener:
a) Correlacin Directa o Positiva. Cuando las variables X e Y presentan variaciones
en un mismo sentido, esto es, para mayores valores de X corresponde mayores
valores de Y.
b) Correlacin Inversa o Negativa. Cuando las variaciones de X e Y son en
sentidos contrarios, esto es, para mayores valores de X corresponden menores
valores de Y.
c) Sin correlacin. Cuando no existe ningn tipo de relacionamiento entre las

variables.

INTRODUCCIN
El anlisis de este relacionamiento entre dos variables (X,Y)
presenta dos aspectos diferentes:
Unas veces nuestro inters est en conocer si las dos
variables estn asociadas y medir hasta qu punto los
cambios en una pueden explicarse por los cambios que
ocurren en la otra. En tal caso tenemos un problema de
Correlacin.

Otras veces, cuando estamos seguros que existe un alto


grado de asociacin entre las dos variables, el anlisis se
encamina a cuantificar la relacin existente con el fin de
predecir cules sern los valores de la variable respuesta, en
este caso tenemos un problema de Regresin.

DIAGRAMA DE DISPERSIN
Sea Y una variable de inters o variable
dependiente, y X una variable independiente.
( x1 , y1 )
( x , y )
2
2

...

( x n , y n )

La grfica de estos valores se denomina


DIAGRAMA DE DISPERSIN (scatterplot)

POSIBLES RELACIONES
50

14

12

40

10
30

8
20

4
10

10

20

30

2
0

20

40

60

80

100

CORRELACIN DIRECTA
O POSITIVA

CORRELACIN INVERSA
O NEGATIVA

50

110
100

40

90
30

80

70
20

60
50

10

10

20

30

40

40
0

30
-8

-6

-4

-2

NO EXISTE CORRELACIN LINEAL

COEFICIENTE DE CORRELACION
Es un nmero que indica el grado de asociacin entre las variables
y se define del siguiente modo:
n

xi yi nxy

i 1
n

i 1

i 1

xi2 nx 2 yi2 ny 2

S xy
Sx S y

Caractersticas:
i)

El coeficiente r es un nmero comprendido entre -1 y +1

1 r 1
ii) Si

r0

Existe una correlacin directa o positiva

iii) Si

r0

Existe una correlacin Inversa o negativa

iv) Si

r 1 Existe una perfecta asociacin positiva entre las dos variables

v) Si

r 1 Existe una perfecta asociacin negativa entre las dos variables

vi) Si

r 0

No Existe asociacin entre las dos variables, no existe asociacin lineal.

ANALISIS DE REGRESION
REGRESIN. Es un mtodo que se emplea para encontrar una
funcin que se ajusta a una nube de puntos o diagrama de
dispersin, con la finalidad de obtener una prediccin aproximada
de una de las variables a partir de la otra.
Diagrama de Dispersin
160

Y f ( X )

Ventas en Millones

140
120
100
80

60
40
20
0

Gastos en Publicidad (Millones)

10

OBJETIVOS
Mostrar la forma como la variable independiente
(X) se relaciona con la variable dependiente (Y).
Hacer pronsticos sobre los valores de la variable
dependiente, con base en el conocimiento de los
valores de la variable independiente.

2. REGRESION LINEAL SIMPLE


Este tipo de regresin se utiliza cuando existe solo una variable
independiente X para una variable dependiente Y. Est definida por
la siguiente ecuacin lineal en su forma general:

Y b0 b1 X e
Donde:

Es la variable respuesta o la prediccin de la variable Y dado un valor X .

b0

Es el valor de Y cuando X = 0, es decir, es el valor de Y cuando la lnea de


regresin cruza el eje de las Y.

b1

Es la pendiente de la lnea, o la variacin promedio en Y por cada variacin de


una unidad en X.

X Es cualquier valor seleccionado de la variable independiente X.

Es el error de prediccin

METODO DE MINIMOS CUADRADOS PARA ESTIMAR


LOS COEFICIENTES DE REGRESIN.
Es un mtodo para obtener la recta que se ajuste mejor a los
datos, al graficar los datos sabemos que podemos trazar infinidad
de rectas pero este mtodo nos proporciona la de mejor ajuste.

ei se le llama desviacin o error que puede ser negativo o positivo, si elevamos las

desviaciones al cuadrado, para obtener la recta ms representativa la suma de los errores


al cuadrado

e12 e22 e32 ..... en2 debe ser lo ms pequea posible.

ESTIMACION DE LOS COEFICIENTES


RECTA DE MINIMOS CUADRADOS. Para poder obtener la recta de regresin Y en X
utilizaremos la siguiente ecuacin de estimacin:

Y b0 b1 X
Donde los valores de

b0 y b1 en la ecuacin de regresin son conocidos como coeficientes

de regresin y las frmulas para calcularlos son:

xi yi nxy

i 1
n

2
i

b yb x
0

nx 2

i 1

Nota: Para hallar las formulas anteriores se deriva la sumatoria de errores al cuadrado con
respecto a b0 y b1 . (Investigacin del alumno)

Resultados de los datos

Eficiencia (%)

EFICIENCIA en funcin del TIEMPO DE VIDA


100
90
80
70
60
50
40
30
20
10
0

y = -7,1217x + 103,67
2

R = 0,9307

Tiempo de Vida (aos)

10

12

14

1.2 EJEMPLO DE CORRELACION


Ejemplo1: Consideramos que las ventas se relacionan con los gastos en
publicidad y si tenemos los datos que se presentan en la siguiente tabla
entonces podremos observar la siguiente grfica:

1998
1999
2000
2001
2002
2003
2004
2005

3
5
5
6
6
7
4
8

20
40
80
120
90
125
35
135

160
140

Ventas en Millones

Ao

Diagrama de Dispersin

Gastos en
Ventas en
publicidad en
millones (Y)
millones (X)

120
100
80
60
40
20
0
0

2
4
6
8
Gastos en Publicidad (Millones)

10

Observando el grfico podemos decir que las ventas y el gasto en publicidad


tienen una correlacin Directa o Positiva.

1.4 EJEMPLO DE CORRELACION (r)


Ejemplo2: Del ejemplo1 hallar el coeficiente de correlacin
N
1998
1999
2000
2001
2002
2003
2004
2005
Total

Publicidad
Ventas (Y)
(X)
3
20
5
40
5
80
6
120
6
90
7
125
4
35
8
135
44
645
X
Y

n 8,

x 5.5,

XY

X2

Y2

60
200
400
720
540
875
140
1080
4015
XY

9
25
25
36
36
49
16
64
260
X2

400
1600
6400
14400
8100
15625
1225
18225
65975
Y2

y 80.625

xi yi nxy

i 1
n

i 1

i 1

xi2 nx 2 yi2 ny 2

4015 8 5.5 80.63

260 8 5.5 65975 8 80.63


2

0.932

Interpretacin: Como r=0.932, existe una alta correlacin positiva entre


los gastos en publicidad y las ventas.

3.3 EJEMPLO APLICATIVO


Ejemplo3: Una empresa tiene 7 vendedores, y se quiere analizar las
ventas mensuales (en miles de soles) frente a los aos de experiencia.
Los datos estn en la siguiente tabla.
a) Se trata de una relacin lineal?. Realizar el diagrama de dispersin
b) Calcular e interpretar el coeficiente de correlacin y el determinacin
b) Si es una ecuacin lineal hallar la ecuacin de regresin determinando
los coeficientes de regresin.
c) Predecir la venta de un empleado con 40 aos de experiencia (Estimar
Y para un valor X=40)
N

Experiencia (X)

Ventas(miles)

13
16
30
2
8
6
31

26
33
36
16
26
19
38

2
3
4
5
6
7

Solucin:

a) Diagrama de dispersin
45
40

Ventas (Miles)

35
30

25
20
15
10
5

0
0

10

15

20

25

30

35

Experiencia

Segn el diagrama de dispersin existe una relacin aproximadamente


lineal.

b) Hallando los coeficientes de regresin


N

Experiencia
(X)

Ventas(miles)
(Y)

XY

X2

Y2

13
16
30
2
8
6
31

26
33
36
16
26
19
38

338
528
1080
32
208
114
1178

169
256
900
4
64
36
961

676
1089
1296
256
676
361
1444

X= 106

Y=194

XY=3478

X2=2390

Y2=5798

2
3
4

5
6
7

n 7

x 106

15.14 ;
n

194
27.71
7

b
1

xi yi nxy

i 1
n

2
i

nx 2

3478 7(15.14)(27.71)
2390 7(15.14) 2

i 1

b0 y b1 x 27.71 ( 0.688 )15.14 17.29

0.688

b.1 Ecuacin e interpretacin


Entonces la ecuacin de regresin estimada ser:

Y 17.29 0.688X
Interpretacin:

b0 17.29 , Son las ventas de un empleado cuando X es cero o


cuando no tienen aos de experiencia. En otras palabras un
vendedor tendr en promedio ventas de S/. 17290 si no tiene aos de
experiencia.

b1 0.688 , Es el incremento en 0.688 cuando X aumenta en una


unidad. En otras palabras es el aumento en S/. 688 por cada ao de
experiencia que adquiera un empleado.

C) Prediccin para X=40

Y 17.29 0.688( 40 ) 44.826


Un empleado con 40 aos de experiencia en ventas, vender
aproximadamente S/.44826

4. COEFICIENTE DE DETERMINACION
Mide el porcentaje de variabilidad en Y que puede explicarse a travs del
conocimiento de la variable independiente X. Se calcula con la siguiente frmula:

( x x )( y y )
2
2
R

r
xi2 nx 2 yi2 ny 2
2

Caractersticas:
i) Es un valor no negativo ya que se encuentra entre 0 y 1

0 R2 1

ii) Es un valor muy importante en cualquier anlisis de regresin, ya que muestra el grado
hasta el cual estn relacionadas la variabilidad de X e Y

Ejemplo: Del ejemplo sobre la regresin entre los aos de experiencia y las ventas
tenemos:
2
r 0.939 , por lo cual R 0.939 0.883
2

Interpretacin: El 88.3% de las variaciones de las ventas (Y) son explicados por los
aos de experiencia. Existe adems un (100-88.3)% = 11.7% que no es explicado por
los aos de experiencia.

5. ERROR ESTNDAR DE ESTIMACIN


En el anterior diagrama de dispersin no todos los puntos coinciden con la lnea
de regresin. Si todos los puntos estuvieran sobre la lnea no habra error al
predecir la variable dependiente Y basndose en la variable independiente X.
La prediccin perfecta es prcticamente imposible, por lo tanto es necesaria una
medida que indique que tan precisa es una prediccin de Y basada en X. Esta
medida es llamada el error estndar de estimacin. El error estndar de
estimacin, simbolizado Sy.x, es el mismo concepto de la desviacin estndar. La
desviacin estndar mide la dispersin alrededor de la media, el error estndar de
estimacin mide la dispersin alrededor de la lnea de dispersin.
El error estndar de estimacin es calculado con la siguiente frmula.

s y. x

Y Y
n2

y
i 1

2
i

i 1

i 1

a yi b x i y i
n2

También podría gustarte