Está en la página 1de 10

Regresin y correlacin simple

Capitulo X ANALISIS DE REGRESION Y CORRELACION

113

El anlisis de regresin consiste en emplear mtodos que permitan determinar la mejor relacin funcional entre dos o ms variables concomitantes (o relacionadas), y el anlisis de correlacin, el grado de asociacin de las mismas. Es decir; no slo se busca una funcin matemtica que exprese de que manera se realcionan, sino tambin con que presicin se puede predecir el valor de una de ellas si se conoce los valores de las variables asociadas. ANALISIS DE REGRESION Una relacion funcional matemticamente hablando, est dada por: Y = f(x1,...,xn; 1,...,m) (1) donde: Y : Variable respuesta (o dependiente) xi : La i-sima variable independiente (i=1,...,n) j : El j-simo parmetro en la funcin (j=1,...m) f : La funcin Para elegir una relacin funcional particular como la representativa de la poblacin bajo investigacin, usualmente se procede: 1) Una consideracin analtica del fenmeno que nos ocupa, y 2) Un examen de diagramas de dispersin. Una vez decidido el tipo de funcin matemtica que mejor se ajusta (o representa nuestro concepto de la relacin exacta que existe entre las variables) se presenta el problema de elegir un expresin particular de esta familia de funciones; es decir, se ha postulado una cierta funcin como trmino del verdadero estado en la poblacin y ahora es necesario estimar los parmetros de esta funcin (ajuste de curvas). Como los valores de los parmetros no se pueden determinar sin errores por que los valores observados de la variable dependiente no concuerdan con los valores esperados, entonces la ecuacin (1) replanteada, estadsticamente, sera: Y = f(x1,...xn;1,...,m) + (2) donde respresenta el error cometido en el intento de observar la caracterstica en estudio, en la cual muchos factores contribuyen al valor que asume . REGRESION LINEAL SIMPLE Cuando la relacin funcional entre las variables dependiente (Y) e independiente (X) es una lnea recta, se tiene una regresin lineal simple, dada por la ecuacin Y = o + 1X + donde: o : El valor de la ordenada donde la lnea de regresin F. de Mendiburu / Apuntes de clase - uso interno. Grupo G / Martes 2-4, Miercoles 2-3 pm

Regresin y correlacin simple


se intersecta al eje Y.

114

1 : El coeficiente de regresin poblacional (pendiente de la lnea recta)


: El error. Supocisiones de la regresin lineal 1. 2. 3. 4. 5. 6. Los valores de la variable independiente X son "fijos". La variable X se mide sin error (se desprecia el error de medicin en X) Existen subpoblaciones de valores Y para cada X que estn normalmente distribuidos. Las variancias de las subpoblaciones de Y son todas iguales. Todas las medias de las subpoblaciones de Y estn sobre la misma recta. Los valores de Y estn nomalmente distribuidos y son estadsticamente independientes.

Las suposiciones del 3 al 6 equivalen a decir que los errores son aleatorios, que se distribuyen normalmente con media cero y variancia . Estimacin de parmetros La funcin de regresin lineal simple es expresado como: Y = o + 1X + (3) la estimacin de parmetros consiste en determinar los parmetros o y 1 a partir de los datos muestrales observados; es decir, deben hallarse valores como bo y b1 de la muestra, que represente a o y 1, respectivamente. De la ecuacin (3), para un xi determinado, se tiene el correspondiente Yi, y el valor del error i sera (Yi-o-1Xi) Empleando el mtodo de los mnimos cuadrados, es decir minimizando la suma de cuadrados de los errores, se determinan los valores de bo y b1, as:

Q =

i
= 2

(y i 0 1 x i )
0 1 i

Q
(4)
0

(y x )(1) = 0
i

Q = 2
1

(y x )( x ) = 0
i 0 1 i i

(5) Al sistema formado por las ecuaciones (4) y (5) se les denomina ecuaciones normales. Resolviendo las ecuaciones normales, se tiene:

b0 = y b1 x

F. de Mendiburu / Apuntes de clase - uso interno. Grupo G / Martes 2-4, Miercoles 2-3 pm

Regresin y correlacin simple

115

b1 =

(xi x )(yi y ) = 2 (xi x )

xi yi
2

( xi)( yi)

xi

( xi)
n

SPXY SCX

donde: b0 : es el valor que representa (estimador) a 0 b1 : es el valor que representa (estimador) a 1 SPXY : denota a la suma de productos de X con Y, SCX : denota a la suma de cuadrados de X. Luego, la ecuacin de regresin es:

= b0 + b1 X y
El coeficiente de regressin (b1) Est expresado en las mismas unidades de medida de la variable X. e indica el nmero de unidades que vara Y cuando se produce cambio en una unidad en X (pendiente de la recta de regresin). Si b1=0, se dice que no existe relacin lineal entre las dos variables y que estas son independientes.

EJEMPLO: A continuacin se desarrollara un ejemplo prctico que se ir explicando a travs de los tpicos de regresin y correlacin a tratarse.
Los datos de la siguiente tabla representan las alturas (X) y los pesos (Y) de varios hombres. Se escogieron las alturas de antemano y se observaron los pesos de un grupo de hombres al azar que tenian las alturas escogidas, resultando: X(cm) Y(kg) 152 50 155 61.5 152 54.5 155 57.5 157 63.5 152 59 157 61 165 72 162 66 178 72 183 84 178 82

Se asume que existe una relacin funcional entre X e Y, obtener la ecuacin de regresin. Solucin: En primer lugar se observa que Y=f(x), por tanto se asume que la variable altura (X) es independiente y la variable peso (Y) es la dependiente, luego se afirma que Y = bo + b1X. Para ello se efectan los sgtes clculos: n = 12, SCX = SPXY = X = 1946,

x = 162.167,

Y = 783,

y = 65.25

X-( X)/12 = 316986- (1946)/12 = 1409.667 XY-( X)( Y)/12 = 128199.5-(1946x783)/12=1223

Luego, se calcula bo y b1: bo = 65.25-(0.8676)(162.167) = -75.446 = 0.8676 b1 = 1223/1409.667 Por tanto, la ecuacin buscada es:

F. de Mendiburu / Apuntes de clase - uso interno. Grupo G / Martes 2-4, Miercoles 2-3 pm

Regresin y correlacin simple

116

= 75.446 + 0.8676 X y
El valor de b1 = 0.8676 indica que por cada centmetro de aumento en la altura de los hombres, habr un incremento ,en promedio, de 0.8676 kg en el peso de los mismos. Fuentes de variacin en la regresin lineal Los clculos de regresin pueden ser vistos como un proceso de particin de la suma total de cuadrados; as, grficamente se tiene: Grafico FIG 1

Se observa que la desviacin total para un Yi en particular es igual a la suma de las desviaciones explicada e inexplicada, simbolicamente.

i y ) + ( yi y i) ( yi y ) = ( y
Luego,

i y ) + ( yi y i) ( yi y ) = ( y
SCT = SCR + SCE

SCT: Suma de cuadrados del total SCR: Suma de cuadrados de la regresion SCE: Suma de cuadrados residual Suma de Cuadrados del Total (SCT), mide la dispersin (variacin total) en los valores observados de Y. Este trmino se utiliza para el clculo de la variancia de la muestra. Suma de Cuadrados explicada (Suma de Cuadrados debido a la Regresin, SCR) mide la variabilidad total en los valores observados de Y en consideracin a la relacin lineal entre X e Y. Suma de Cuadrados inexplicada (Suma de Cuadrados del Error, SCE) mide la dispersin de los valores Y observados respecto a la recta de regresin Y (es la cantidad que se minimiza cuando se obtiene la recta de regresin). Anlisis de Variancia para la regresin lineal simple Cuando cada particin se asocia a una porcin correspondiente del total de grados de libertad, la tcnica es conocida cono ANALISIS DE VARIANCIA (ANVA), que generalmente se presenta en un cuadro de la siguiente forma:

F. de V. Regresin Error Total

G.L. 1 n-2 n-1

Cuadro ANVA SC. b1SPXY (Yi-Yi) SCT

CM. b1SPXY SCE/(n-2)

Fc CMR/CME

F. de Mendiburu / Apuntes de clase - uso interno. Grupo G / Martes 2-4, Miercoles 2-3 pm

Regresin y correlacin simple

117

La prueba estadstica es F y evalua las hiptesis: Hp : No existe una regresin lineal entre X e Y Ha : Existe regresion lineal de Y en funcin de X Para el ejemplo planteado efectuar el ANVA. Clculo de las sumas de cuadrados: SCTotal = SCT = Y-(Y)/n = 52297 - (783)/12 = 1206.25 SCRegresin = SCR = b1SPXY = (0.8676)(1223) = 1061.0748 SCError = SCE = SCT - SCR = 1206.25 -1061.0748 = 145.1752 Clculo de la variancia residual o del error: S = (SCT - SCR)/(N-2) = 145.1752/10 = 14.5175. esto nos indica que la variabilidad de los pesos de los hombres es 14.5175 kg sin tener en cuenta el efecto de las alturas (X) sobre los pesos (Y); es decir, mide la variabiliad de Y una vez descontado el efecto de X, siendo menor que la variancia de Y. Cuadro ANVA SC. 1061.0748 145.1752 1206.2500

F. de V. Regresin Error Total

G.L. 1 10 11

CM. 1061.0748 14.5175

Fc 73.089 **

El valor F0.01(1,10) = 10. ; como Fc > F , la regresin es altamente siginifactiva. INTERVALOS DE CONFIANZA En muchos casos es de inters conocer entre que valores se encuentra el coeficiente de regresin de la poblacin 1 para un cierto grado de confianza fijada, este procedimiento permite hallar los valores llamados lmites de confianza, as: b1 - t0 Sb1 1 b1 + to Sb1 donde: t0 es el valor "t" tabular al nivel de significacin y n-2 grados de libertad ( t0 = t
,n-2).

Sb1 = SE/SCX = CME/SCX (obtenido del cuadro ANVA) es la variancia estimada del coeficiente de regresin. Tambin es de inters determinar el intervalo de confianza de y/x, para un valor asumido de Xi, que se calcula con la expresin:

t0 Sy y / x y + t0 Sy y
donde to=t
,n-2 gl.

y SY=CME(1/n + (Xi- X)/SCX).

F. de Mendiburu / Apuntes de clase - uso interno. Grupo G / Martes 2-4, Miercoles 2-3 pm

Regresin y correlacin simple


Nota: Puede observarse que la variancia de la lnea de regresin conforme Xi se aleja de X. EJEMPLO.

118 S2 ir incrementndose y

Calcular los lmites de confianza para el coeficiente de regresin 1 y de y/x para X= 185 , al 95% de confianza. a) Para 1: clculos previos:

Sb1 = CME/SCX = 14.5175/1409.667 =0.010298. as, Sb1=0.1015 y to=2.228. Luego, 0.8676-(2.228)(0.101479) 1 0.8676+(2.228)(0.101479) 0.6415 1 1.0937 b) Para y/x , donde X=185:

= 75.446 + 0.8676(185) = 85.06, y y


Sy= 14.5175(1/12 -(185 -162.167)/1409.667) = 6.57889
^

as, Sy= 2.5649. Luego, aplicando la frmula dada


^

anteriormente se tiene: 79.3454 y/x 90.7746. Este intervalo de confianza nos indica que si las tallas fuesen de 185 cm, existe el 95% de probabilidad que los valores del intervalo encierren el verdadero promedio. PRUEBAS DE HIPOTESIS Se plantea los siguientes casos: a) Cuando =0 (Prueba de Independencia); es decir, si la variable Y es independiente de la variable X. Esto equivale a plantear la hiptesis Hp: 1=0, y mediante la prueba F comparar la F calculada (Fc) con la F tabular (Fo), donde Fc=CMR/CME y Fo=F (1,n-2 gl). Si Fc>Fo, se rechaza la hipteis planteada y se concluye que Y depende de X. b) Cuando 1 tiene un valor especfico, digamos 10; es decir; Hp: 1=10. En este caso se usa el estadstico t para probar esta hiptesis, se calcula el valor de t:

tc =

b1 10 Sb1

b1 10 CMe SCx

Si tc > t0 se rechaza la hiptesis planteada, donde t0 es el valor de la tabla al nivel y n-2 gl.

F. de Mendiburu / Apuntes de clase - uso interno. Grupo G / Martes 2-4, Miercoles 2-3 pm

Regresin y correlacin simple


EJEMPLO:

119

Probar si el peso de los hombres es independiente de sus alturas, Tambin probar si por cada cm. de altura en cada hombre el peso aumenta en 1.2 kg. caso (a): Son X y Y independientes?. Las hiptesis son: Hp: 1 = 0 Ha: 1 0 Aplicando las frmulas dadas se tiene: Fc= 1061.0748/14.5175 = 73.089. Las F tabulares a 0.05 y 0.01 son: Fo = 4.96 y Fo = 10.04, respectivamente. Luego, comparando para ambos valores se tiene que Fc > Fo. Por lo tanto se concluye en que la influencia de X sobre Y es directa y no se debe al azar ( es decir, Y depende de X). caso (b): Se tiene Hp: 1 = 1.2 Ha: 1 1.2 tc = (0.8676-1.2)/0.101479 = -3.27. Como t tabular es to= -2.228 ( =0.05 y gl. = 10) el valor de tc cae en la zona de rechazo de la Hp (tc < to =-2.228), por lo tanto se concluye que por cada cm adicional el la altura no hay aumento de 1.2 kg. PREDICCION Hallada la ecuacin de regresin puede darse uso en los siguientes casos: a) Predecir el valor probable de Y dado un valor particular de X. b) Estimar el valor desconocido de X asociado a un valor observado de Y. c) Construir un intervalo de prediccin para un valor predicho de Y. Para los casos (a) y (b), se identifican los valores de las variables y se rremplazan en la ecuacin Y=bo+b1X.
^

As por ejemplo: Suponga que esta interesado en conocer


^

p (estimado de la media poblacional Y para un valor y

predicho Xp no considerado en la muestra). Este valor se obtiene de Y=bo+b1X; as, si Xp=160 entonces

p = 63.37Kg. , este valor debe interpretarse como el estimado del peso promedio si y

se tuviesen varias alturas de 160 cm. Para el caso (c), el intervalo de confianza para la prediccin es

p t0 Syp y / x y p + t0 Syp y
F. de Mendiburu / Apuntes de clase - uso interno. Grupo G / Martes 2-4, Miercoles 2-3 pm

Regresin y correlacin simple

120

donde t0 es t tabular a nivel y grados de libertad de n-2.

1 x x 2 p Sy = CMe1 + + p SCx n
Luego, el intervalo de confianza para la prediccin hallada al 95 % de confianza es:

54.5207 y / x 72.2193
Significa, si se tuviesen muchos hombres de 160 cm, existe el 95% de probabilidad de que el intervalo de confianza [54.5207 , 72.2193], encierre el verdadero promedio de los pesos. ANALISIS DE CORRELACION El anlisis de correlacin consiste en emplear mtodos que permitan medir el grado o intensidad de asociacin entre dos o ms variables. El concepto de correlacin est estrechamente vinculado al concepto de regresin, pues, para que una ecuacin de regresin sea razonable los puntos muestrales deben estar ceidos a la ecuacin de regresin; adems el coeficiente de correlacin debe ser: grande cuando el grado de asociacin es alto, y pequeo cuando es bajo independiente de las unidades en que se miden las variables.

CORRELACION LINEAL SIMPLE. El coeficiente de correlacin (r) es un nmero que indica el grado o intensidad de asociacin entre las variables X e Y. Su valor vara entre -1 y +1; esto es: -1 r 1.

Si r=-1, la asociacin es perfecta pero inversa; es decir, a valores altos de una variable le corresponde valores bajos a la otra variable, y viceversa. Si r=+1, tambin la asociacin es perfecta pero directa. Si r=0, no existe asociacin entre las dos variables. Luego puede verse que a medida que r se aproxime a -1 +1 la asociacin es mayor, y cuando se aproxima a cero la asociacin disminuye o desaparece. El coeficiente de correlacin est dada por:

r=

SPxy (SCx )(SCy )

As, para el ejemplo planteado:

F. de Mendiburu / Apuntes de clase - uso interno. Grupo G / Martes 2-4, Miercoles 2-3 pm

Regresin y correlacin simple


1223 = 0.9381 (1409.667 )(1206.25)

121

r=

Este valor nos indica que hay un alto grado de asociacin entre las variables altura y peso, y la relacin es directa (signo positivo de r). COEFICIENTE DE DETERMINACION De la descomposicin de la suma de cuadrados total, se obtuvo: SCT = SCR + SCE dividiendo ambos miembros por la SCT, se tiene: 1 = SCR/SCT + SCE/SCT de este resultado, se define el COEFICIENTE DE DETERMINACION de la muestra, denotada por r, como: r = 1 - SCE/SCT = SCR/SCT r = SC explicada/SC total r = error explicado/error total Como SCR SCT, se deduce que 0 r 1. Interpretacin de r: Puede interpretarse desde 3 aspectos: a) Como una medida de mejora debido a la lnea de regresin. Aqu, r proporciona la reduccin relativa de la SCT (error total). Si r= 0 decimos que no hay reduccin en la SCT; es decir no hay mejora debido al ajuste de la lnea de regresin, lo que significa que:

i y 2 = 0 Error _ Explicado = y
Grficamente, se observa que la lnea de regresin es horizontal y coincidente con Y. Si r=1, decimos que ha habido una reduccin del 100% en el error total, o sea:

=0 Error _ total = y i y i
Grficamente, todos los puntos del diagrama de dispersin caen sobre la lnea de regresin no horizontal. b) Como medida de grado de ajuste. Si r=1, los puntos Yi caen todos sobre la lnea de regresin. Si r=0, los puntos son esparcidos y la lnea de regresin resulta horizontal.

)2

F. de Mendiburu / Apuntes de clase - uso interno. Grupo G / Martes 2-4, Miercoles 2-3 pm

Regresin y correlacin simple

122

En conclusin, cuando mayor es el grado de ajuste de la lnea de regresin a los puntos, el valor de r se acerca a 1. c) Como el grado de linealidad de dispersin de los puntos. Si r se aproxima al volor uno, la dispersin de puntos se parece a una lnea recta. Si r se acerca al valor cero, la dispersin no se parece a una lnea recta. EJEMPLO. Del caso planteado. Hallar e interpretar r. Segn los calculos,

r=

1223 (1409.667)(1206.25)

= 0.9381

entonces r=0.88004; (1-r)=0.12996 Indica que el 88.004% de los cambios en los pesos se asocia a los cambios en las alturas (tallas), resultando, 12.996% de variabilidad que no es explicada por la regresin.

F. de Mendiburu / Apuntes de clase - uso interno. Grupo G / Martes 2-4, Miercoles 2-3 pm