Está en la página 1de 7

Estadstica

Correlacin y regresin lineal

ANALISIS DE CORRELACION
(Simple)
ANLISIS DE CORRELACION: Es el grupo de tcnicas estadsticas empleado para medir
la intensidad de la relacin (correlacin) entre dos variables.
El principal objetivo del anlisis de correlacin es determinar que tan intensa es la relacin
entre dos variables. Una medida de esta relacin es el coeficiente de correlacin ( r ) el cual puede
tomar valores en una escala desde 1 hasta +1 inclusive como se indica enseguida.
INTENS MODERA
-1.00

DEBIL

DEBIL MODERADA INTENSA

-0.50
0
+0.50
+1.00
correlacin negativa (C.N.)

correlacin positiva (C.P.)

COEFICIENTE DE CORRELACION ( r ): Originado por el investigador Karl Pearson


aproximadamente en el ao 1900, el coeficiente de correlacin describe la intensidad de la relacin
entre dos conjuntos de variables, por lo cual tambin se le conoce como r de Pearson.
Si r toma los valores de 1 o de +1 indica correlacin perfecta como se indica en los
siguientes diagramas de dispersin.
(Grfica que indica la relacin entre las dos variables).
y

r = -1

r = +1

x
Correlacin Negativa Prefecta

x
Correlacin Positiva Perfecta

Si r = 0 indica que no existe ninguna correlacin entre las dos variables.


El coeficiente de correlacin se calcula mediante la siguiente frmula:

n( xy) ( x)( y )

[n( x ) ( x)][n( y ) ( y )]

Donde:
n es el nmero de pares de observaciones (x, y)
x valores de la variable independiente x.
y valores de la variable dependiente y.

Estadstica

Correlacin y regresin lineal

EJEMPLO:
El director de personal de una empresa debe entrevistar y seleccionar nuevo personal para
el rea de ventas. Ha diseado una prueba que ayude a seleccionar los mejores
aspirantes. Con la finalidad de verificar la validez de su prueba, como instrumento de
prediccin de las ventas semanales, eligi al azar cinco vendedores experimentados y
aplic la prueba a cada uno (esta muestra es pequea para fines didcticos, en la prctica
debe tomarse una muestra mucho mayor).
Los resultados obtenidos se muestran en la tabla siguiente:
VENDEDOR
SR. MARTN
SR. JOSE
SRA. MARIA
SR. JUAN
SRA. SILVIA

PUNTUACIN DE PRUEBA
4
7
3
6
10

VENTAS SEMANALES
$ 5,000
12,000
4,000
8,000
11,000

Se piensan entonces que las ventas semanales dependen de la puntuacin de prueba por
lo cual se toman las ventas como variable dependiente ( y ) y la puntuacin de prueba como
variable independiente ( x ).
El diagrama de dispersin de los datos anteriores se muestra a continuacin:
Y
Ventas
Semanales

14
12
10
8
6
4
2
1 2 3 4 5 6 7 8 9 10 11 x
puntuacin de prueba

Utilizando los datos originales se construye lo siguiente:


Puntuacin de
Prueba ( X )
4
7
3
6
10
X = 30

Ventas
Semanales ( Y )
5
12
4
8
11
Y = 40

X
16
49
9
36
100
X = 210

XY
20
84
12
48
110
XY = 274

Y
25
144
16
64
121
Y = 370

El coeficiente de correlacin es 0.88 calculado por:


.r

n( xy) ( x)( y )

[n( x ) ( x)][n( y ) ( y )]

5( 274 ) ( 30 )( 40 )
= [ 5 ( 210 ) ( 30 ) ] [ 5 ( 370 ) ( 40 ) ]

170
.
= (150)(250) = 0.88

Lo cual indica una relacin muy intensa.

Estadstica

Correlacin y regresin lineal

Coeficiente de determinacin: Es la proporcin de la variacin total en la variable


dependiente (y) que se explica por, o se debe a, la variacin total en la variable dependiente (x).
COEFICIENTE DE DETERMINACIN = (COEFICIENTE DE CORRELACIN) = r
Para el ejemplo anterior el coeficiente de correlacin es = ( 0.88 ) = 0.77 e indica que el
77% de la variacin total en las ventas semanales se explica por, o se debe a, la variacin en las
puntuaciones de prueba.
Coeficiente de no-determinacin: Es el complemento del coeficiente de determinacin.
Para el ejemplo el coeficiente de no-determinacin = 1 - r = 1 - 0.77 = 0.23. Esto significa que
23% de la variacin total en las ventas semanales no se debe a la variacin en las puntuaciones de
prueba.
Un coeficiente de correlacin de 0.80 da un coeficiente de determinacin de 0.64. Algunos
estadgrafos preferiran utilizar la medida ms conservadora (0.64), considerando que el coeficiente
de correlacin de 0.80 puede exagerar la relacin entre los dos conjuntos de variables.

Ejercicios Propuestos
Texto

Pginas

Ejercicios

Manson y Lind

500...502

1....4

Estadstica

Correlacin y regresin lineal

ANALISIS DE REGRERSION LINEAL


(SIMPLE)
Se define a la regresin lineal como una relacin fundamental entre dos o ms variables
correlacionadas y se usa para pronosticar una variable con base en la otra. Por lo general la
relacin se obtiene de dos datos observados. En la regresin lineal la relacin entre variables
forma una lnea directa.
La lnea de regresin lineal es de la forma y = a + bx, donde y es la variable dependiente
que queremos resolver; a es la interseccin de y; b es la dependiente y x es la variable
independiente (en el anlisis de series de tiempo, x representa unidades de tiempo).
La regresin lineal es til para pronsticos a largo plazo de sucesos importantes y para la
planificacin agregada. Por ejemplo, sera muy til para pronosticar la demanda de familias de
productos. Aunque es probable que durante un periodo vari bastante la demanda para un
producto especfico de la familia, la demanda para toda la familia es sorpresivamente regular.
La restriccin principal para usar los pronsticos de regresin lineal es que,
supuestamente, los datos pasados y las proyecciones caen sobre una lnea recta. Aunque esto
limita su aplicacin, algunas veces, si usamos un periodo ms breve puede usarse el anlisis de
regresin lineal. Por ejemplo, si existe una tendencia de crecimiento y usamos un perodo de diez
o veinte aos la tendencia se pierde entre todos los datos y ser baja la proyeccin para el ao
siguiente. Sin embargo, si slo usamos los ltimos aos, el pronstico ser ms preciso. Es una
parte del procedimiento de regresin lineal se estima lo adecuado del ajuste en la lnea con los
datos.
La regresin lineal se usa tanto para pronsticos de series de tiempo como para
pronsticos de relaciones causales cuando la variable dependiente (por lo general el eje vertical de
un grfico) cambia como resultado del tiempo (el eje horizontal en el grfico), se trata de un anlisis
de series de tiempo. Si una variable cambia debido al cambio de otra variable, estamos ante una
relacin causal (como el incremento en el nmero de muertes por cncer en el pulmn con
respecto a las personas que fuman).

METODO DE MINIMOS CUADRADOS


El mtodo de mnimos cuadrados trata de ajustar a la lnea a los datos que minimicen la
suma de los cuadrados de la distancia vertical entre cada punto de datos y su punto
correspondiente a la lnea.
La ecuacin de mnimos cuadrados para la regresin lineal es la que se indica a
continuacin:

y = a + bx
Donde:
y variable dependiente calculada por la ecuacin, indica el pronstico para el perodo x.
x periodo de tiempo.
a es el valor de y cuando x es = 0.
b es la pendiente de la lnea.

Estadstica

Correlacin y regresin lineal

y b x

n xy x y
n x x

y Representa el valor de la variable correspondiente del periodo x.

EJEMPLO 1.
Pronostique las ventas para los periodos 13, 14 y 15 si las ventas de los 12 periodos
anteriores son los que se indican a continuacin.

Periodo (x)

Ventas (y)

(xy)

(x)

1
2
3
4
5
6
7
8
9
10
11
12
x = 78

600
1550
1500
1500
2400
3100
2600
2900
3800
4500
4000
4900
y = 33,350

600
3100
4500
6000
12000
18600
18200
23200
34200
45000
44000
58800
= 268,200

1
4
9
16
25
36
49
64
81
100
121
144
= 650

801.3
1160.9
1520.5
18880.1
2239.7
2599.4
2959.0
3318.6
3678.2
4037.8
4397.4
4757.1

Calculando la pendiente:

12(268,200) 78(33,350) 3218,400 2601300 617,100

359.6153
12(650) (78)
7800 6084
1716

Por lo tanto el valor de a ser:

33,350 359.6153(78)
441.66
12

El pronstico para el periodo 13 ser:


y13 = a +bx = 441.66 + 359.6153 (13) = 5,116
y para el periodo 14 y 15:
y14 = 441.66 + 359.6153 (14) = 5,476
y15 = 441.66 + 359.6153 (15) = 5,836

Estadstica

$5000

4000

3000

2000

1000

500

Correlacin y regresin lineal

Pronsticos de Venta

Lnea de Regresin
a

10

11

12

13

14

15

PERIODO ( X )

El error estndar de estimacin, o sea, la calidad de ajuste de la lnea a los datos


anteriores es:
n

Sy '

y
i 1

y 'i

n2

363.9

Una ecuacin ms fcil de calcular para el error estndar es:

Sy '

y a y b xy
n2

Estadstica

Correlacin y regresin lineal

EJEMPLO 2.
Volviendo a las puntuaciones de prueba y las ventas semanales de los cinco vendedores,
las sumas y otros datos bsicos para despejar o evaluar a y b aparecen en la tabla siguiente:

Puntuacin
de prueba.
Vendedor
Sr. Amber
Sr. Archer
Sra. Smith
Sr. Malcolm
Sra. Goodwin
Total

X
4
7
3
6
10
30

Ventas
semanales
(niveles de
dlares)
Y
5
12
4
8
11
40

X
16
49
9
36
100
210

XY
20
84
12
48
110
274

Y
25
144
16
64
121
370

Cul es la ecuacin de regresin?

SOLUCION:
Las sumas de la tabla anterior se utilizan para ilustrar los clculos para a y b en la ecuacin
de regresin:

n xy x y
n x x

5274 (30)(40)
= 1.133
5(210) (30)

a = Y bx = (40/5) 1.133(30/5) = 8 6.798 = 1.202


Y = 1.202 + 1.133 (EN MILES DE DLARES).
Por tanto, la ecuacin de regresin es y = 1.202 + 1.133x (en miles de dlares). Las
ventas pronosticas para un candidato a un puesto en ventas, que calific 6 en la puerta del director
de personal es $8000, que se obtiene por y = a + bx = 1.202 + 1.133(6) = 1.202 + 6.798 = 8.000
(en miles de dlares).

EJERCICIO:
Datos: Calcular el pronstico para los meses de enero, febrero y marzo del ao siguiente.
E F M A M J J A S O N D E F M A M J J A S O N D
E F M
68 55 63 82 87 63 77 78 62 78 74 62 74 80 96 74 71 71 66 86 85 89 91 103