Está en la página 1de 21

1

"Regresin Y CORRELACIN"

6.1.1 Introduccin
Regresin es una palabra un tanto rara. La utilizan los bilogos, los mdicos, los psiclogos... y suena como "ir hacia atrs", "volver al pasado", y realmente este es verdadero significado del vocablo. Fue un bilogo y estadstico ingls, SIR FRANCIS GALTON*, quien introdujo en 1889 el trmino regresin en Estadstica. Emple este concepto para indicar la relacin que exista entre la estatura de los nios de una muestra y la estatura de su padre. Observ, que si los padres son altos, los hijos generalmente tambin lo son, y si los padres son bajos los hijos son tambin de menor estatura. Pero ocurra un hecho curioso: cuando el padre es muy alto o muy bajo, aparece una perceptible "regresin" hacia la estatura media de la poblacin, de modo que sus hijos retroceden hacia la media de la que sus padres, por cierto, estn muy alejados. Hoy da, el trmino no se utiliza en ese sentido. En muchas ocasiones, se desea conocer algo acerca de la relacin o dependencia entre dos caractersticas cuantitativas, o msde una, consideradas sobre la misma poblacin objeto de estudio (por ejemplo la talla y el peso). Hay muchos casos en los que ya de antemano se "sospecha" que puede existir algn tipo de relacin, y por consiguiente, se pretende saber por ejemplo, en el caso de que tengamos nicamente dos variables: 1.- Si ambas variables estn realmente relacionadas entre s o si, por el contrario, pueden considerarse independientes. 2.- Si existe dependencia, es necesario conocer el "grado de relacin", as como el "tipo" de relacin entre ambas. 3.- Si puede predecirse la variable que es considerada como dependiente a partir de los valores de la otra, que es considerada independiente, y si es as, con qu precisin.

GALTON, F. (1889). Natural Inheritance. London. Mcmillan & Co.

6.1.2 Cundo existe regresin?


De una forma general, lo primero que suele hacerse para ver si dos variables aleatorias estn relacionadas o no (de ahora en adelante las llamaremos X e Y, denotando con Y a la variable dependiente, y X a la variable independiente o regresora), consiste en tomar una muestra aleatoria. Sobre cada individuo de la muestra se analizan las dos caractersticas en estudio, de modo que para cada individuo tenemos un para de valores (xi, yi) (i=1,...,n). Seguidamente, representamos dichos valores en unos ejes cartesianos, dando lugar al diagrama conocido como diagrama de dispersin o nube de puntos. As, cada individuo vendr representado por un punto en el grfico, de coordenadas, xi, yi. De esa forma, podremos obtener una primera idea acerca de la forma y de la dispersin de la nube de puntos. Al dibujar la nube de puntos, podemos encontrarnos, entre otros, los casos a los que hace referencia la figura 6.1. En primer lugar deberemos distinguir entre dependencia funcional y dependencia estocstica. En el primer caso la relacin es perfecta: Y=f(X) (ver figura 6.1d y e); es decir, los puntos del diagrama de dispersin correspondiente, aparecen sobre la funcin Y=f(X). Por ejemplo, el caso de la figura 6.1d sera Y=a+bX. Sin embargo, lo que suele ocurrir es que no existe una dependencia funcional perfecta, sino otra dependencia o relacin menos rigurosa que se denomina dependencia estocstica (figura 6.1b y c); entonces, la relacin entre X e Y, podramos escribirla (en el caso de la figura 6.1.b) de la forma Y=a+bX+e, donde e es un error o un residual, debido por ejemplo, a no incluir variables en el modelo que sean importantes a la hora de explicar el comportamiento de Y, y cuyos efectos sean diferentes a los de X; errores aleatorios o de medida, o simplemente a que estamos especificando mal el modelo (por ejemplo, que en lugar de ser una recta, sea una parbola).

Figura 6.1: Tipos de relacin entre dos variables X e Y

El caso de la figura 6.1a se corresponde con el de ausencia de relacin, o independencia. En la dependencia estocstica, se distinguen dos tipos de tcnicas: 1.- Anlisis de Regresin 2.- Anlisis de Correlacin* El Anlisis de correlacin, tiene como fin dar respuesta a las preguntas: a.- Existe dependencia estocstica entre las variables? b.- Cul es el grado de dicha dependencia?
*

El orden de exposicin de los dos Anlisis es arbitrario. El orden para su estudio puede invertirse.

El Anlisis de regresin, : a.- Cul es el tipo de dependencia entre las dos variables? b.- Pueden estimarse los valores de Y a partir de los de X?. Con qu precisin?. De modo general, diremos que existe regresin de los valores de una variable con respecto a los de otra, cuando hay alguna lnea, llamada lnea de regresin que se ajusta ms o menos claramente a la nube de puntos. Si existe regresin, a la ecuacin que nos describe la relacin entre las dos variables la denominamos ecuacin de regresin. Por ejemplo: Y=a+bX Y=a+bX+cX2

En general, la variable X se conoce como variable independiente, y la Y como variable dependiente. Evidentemente puede ser arbitrario el determinar la existencia de regresin as como el tipo de la misma, ya que depende del autor o del estado de nimo de la persona en un momento determinado. Por lo tanto, se hacen necesarios mtodos estadsticos objetivos, independientes del investigador, para determinar la existencia o no de relacin y el tipo de la misma.

6.1.3 Tipos de regresin


Si las dos variables X e Y se relacionan segn un modelo de lnea recta, hablaremos de Regresin Lineal Simple: Y=a+bx. Cuando las variables X e Y se relacionan segn una lnea curva, hablaremos de Regresin no lineal o curvilnea. Aqu podemos distinguir entre Regresin parablica, Exponencial, Potencial, etc. Cuando tenemos ms de una variable independiente (X1, X2,..., Xp), y una sola variable dependiente Y, hablaremos de Regresin mltiple, que se estudiar en detalle

en el apartado 6.2. A las variables Xi, se las denomina, regresoras, predictoras o independientes.

6.1.3.1 Consideraciones previas


En el Primera Unidad Didctica, hemos analizado cmo vara cada una de las variables por separado. Sera interesante tambin tener idea de cmo varan dichas variables conjuntamente, es decir, cmo "covaran". Se dice que dos variables estn variando conjuntamente, y en el mismo sentido, cuando al crecer los valores de una de las variables tambin aumentan los de la otra. En cambio, estn variando conjuntamente, pero en sentido contrario, cuando al aumentar los valores de una, los de la otra disminuyen. Definiremos como covarianza de dos variables X e Y, y denotaremos por SXY, el estadstico que nos permite analizar la variacin conjunta de dos variables. Viene dado por la siguiente expresin:

SXY = i =1

" (x i ! x)( yi ! y ) n

Si cada pareja de observaciones (xi,yi) se repitiese un nmero de veces, deberamos introducir en la expresin anterior la correspondiente frecuencia, anlogamente a como se hace en la expresin de la varianza. La covarianza, puede ser utilizada como una medida inicial de la asociacin lineal entre las dos variables. Para ello, observaremos detenidamente el grfico de la figura 6.2.

Figura 6.2: Grfico que pone de manifiesto la importancia de la covarianza como medida de la asociacin lineal

En ella aparece la nube de puntos para un par de variables X e Y. Se pone de manifiesto cmo aquellos pares de valores que ocupan el cuadrante superior derecho (tomando como origen el punto de medias) nos dan como resultado sumandos positivos en la expresin de la covarianza. Lo mismo ocurre con aquellos que se encuentran en el cuadrante inferior izquierdo. Sin embargo, los del cuadrante superior izquierdo e inferior derecho, nos dan sumandos negativos. Ello tiene como consecuencia, que dependiendo del nmero de observaciones situado en cada uno de dichos cuadrantes, obtendremos un signo diferente en la covarianza, de modo que si predominan las diferencias positivas, esta ser positiva, y si predominan las negativas, la covarianza tambin lo ser. Esto nos lleva a utilizar la covarianza como una medida de la asociacin lineal entre las variables, de modo que si sta es positiva, nos indica una relacin directa entre ellas y si es negativa, nos indica una relacin inversa. Si las variables son independientes, entonces la covarianza es aproximadamente 0. Un ejemplo, de este ltimo caso se correspondera con la figura 6.3a.

Figura 6.3: Diferentes casos para la covarianza

6.1.3.2 Regresin Lineal Simple


Nos centraremos en primer lugar, en el caso de que la funcin que relaciona las dos variables X e Y sea la ms simple posible, es decir, una lnea recta. Por ello pasaremos a interpretar los coeficientes que determinan una lnea recta. Toda funcin de la forma Y=a+bX determina, al representarla en el plano una lnea recta, donde X e Y son variables y a y b son constantes. Por ejemplo: Y=3+2X.

SIGNIFICADO DE a y b a es la ordenada en el origen, es decir, es la altura a la que la recta corta al eje Y. Se denomina tambin trmino independiente. b, tambin denominada pendiente es la inclinacin de la recta, es decir, es el incremento que se produce en la variable Y cuando la variable X aumenta una unidad. Por ejemplo, en el caso anterior Y=3+2X, por cada unidad que incrementa la X, la Y presenta un incremento medio de 2 unidades.

En la recta de regresin -como ya veremos- b recibe el nombre de Coeficiente de regresin. Si b>0, entonces cuando X aumenta Y tambin lo hace (relacin directa). Si b<0, entonces, cuando X aumenta Y disminuye (relacin inversa). Ver figura 6.4a y b respectivamente.

Figura 6.4: Signo de la pendiente en una recta de regresin

ESTIMACIN DE LA RECTA DE REGRESIN POR EL MTODO DE LOS MNIMOS CUADRADOS Sean X e Y dos variables aleatorias medidas sobre los mismos individuos, y sean (xi,yi) los pares de observaciones sobre dichos individuos. En primer lugar procederemos a representar el diagrama de dispersin, o nube de puntos. Supongamos que es la obtenida en la figura 6.5. Aunque la nube revele una gran dispersin, podemos observar una cierta tendencia lineal al aumentar X e Y (tendencia que no es del todo exacta; por ejemplo si suponemos que X es la edad e Y es la talla, obviamente, la talla no slo depende de la edad, adems tambin puede haber errores de medida). Por esa nube de puntos podemos hacer pasar infinitas rectas. De todas ellas debemos elegir una cual?... Obviamente elegiremos la mejor de todas en algn sentido. La recta de regresin debe tener carcter de lnea media, debe ajustarse bien a la mayora de los datos, es decir, pasar lo ms cerca posible de todos y cada uno de los puntos.

10

Llamaremos a la mejor de todas Y*=a+bX (Y* para distinguir los valores de la tabla de los que se habran producido con la recta si la relacin fuese funcional).

Figura 6.5: Nube de puntos y posibles rectas que pueden pasar por ella.

Que pase lo ms cerca posible de todos los puntos, es decir que diste poco de todos y cada uno de ellos significa que hemos de adoptar un criterio particular que en general se conoce como MNIMOS CUADRADOS. Este criterio significa que la suma de los cuadrados de las distancias verticales de los puntos a la recta debe ser lo ms pequea posible (ver figura 6.6). (Obviamente, este es uno de los posibles criterios a adoptar, pero es el ms utilizado).

Y yi

(xi, yi) * Y* = a+bX * * * * (xi, yi ) * * * * * * * * * * * * * * * ei * *

xi

Figura 6.6: Recta de regresin mostrando los residuos o errores que se minimizan en el procedimiento de ajuste de los Mnimos cuadrados.

11

Estas distancias verticales se denominan errores o residuos. Entonces el criterio puede expresarse:

D = ! ei
i=1

mnima

Dado que la recta de regresin deber tener carcter de lnea media, esa suma de distancias deber anularse (lo mismo que suceda, como veamos en la primera unidad didctica al tratar de hallar la suma de las diferencias con respecto a la media aritmtica). Por las mismas razones que entonces, para evaluar la dispersin, trabajaremos con esas distancias, pero al cuadrado, de modo que la funcin que deberemos minimizar ser:
# D = ! e2 i = ! yi " y i i=1 n

( i=1
n

= ! (y i " a " bxi )


i= 1

donde y! i son los valores estimados segn el modelo Y=a+bX En la anterior expresin lo conocemos todo, excepto a y b. Para encontrar dichos valores, con la condicin de que D sea mnima, deberemos hallar las derivadas parciales de D con respecto a a y a b, y resolver el sistema resultante, al igualar las ecuaciones obtenidas a 0. Es decir, el problema se reduce a un problema de mnimos. As, obtendremos:
n !D = 2 # (y i " a " bxi )("1) = 0 !a i= 1 n !D = 2 # (y i " a " bxi )(" xi ) = 0 !b i= 1

Adecuando convenientemente las ecuaciones anteriores, obtenemos:

i =1 n i =1

" ( yi ! a ! bxi ) = 0 " ( yi ! a ! bxi )(xi ) = 0

12

Operando y reorganizando trminos, obtenemos las denominadas Ecuaciones Normales de Gauss:


na + b ! x i = ! yi
i =1 i=1 n n

a ! x i + b ! x2 i = ! x iy i
i =1 i= 1 i =1

Resolviendo el sistema, obtenemos las expresiones para a y b:

a = y ! bx S b = XY s2 X
La interpretacin de a y b, es anloga a la que comentbamos en el apartado 6.1.3.2, slo que como ya dijimos entonces, b recibe el nombre de Coeficiente de Regresin. Como podemos observar, en el numerador de b, aparece la covarianza, y en el denominador la varianza de la variable independiente. Esto hace que el signo de b sea el mismo signo que el de la covarianza, por lo que si b>0, entonces, existe una relacin directa entre las variables, y si b<0 entonces la relacin es inversa. En nuestro ejemplo de talla y edad, b sera el incremento medio que se produce en la talla, por cada incremento unitario de edad; si la edad est en aos, por cada ao aumente la edad. Si queremos predecir un valor yi a partir de un valor concreto de xi, utilizaremos la expresin de la ecuacin donde ahora ya, a y b son conocidos. No olvidemos que ese era uno de los objetivos del anlisis, tratar de conocer valores de Y a partir de los de X: y*i = a+bxi

REPRESENTATIVIDAD DE LA RECTA DE REGRESIN. Poder explicativo del modelo

13

La recta de regresin, tiene carcter de lnea media, como ya se ha sealado con anterioridad, tratando por lo tanto de resumir o sintetizar la informacin suministrada por los datos. Si tiene carcter de linea media (de promedio, en definitiva), deber ir acompaada siempre de una medida que nos hable de su representatividad, es decir, de lo buena que es la recta, ya que el haber obtenido la mejor de todas no da garantas de que sea buena. Necesitamos, por tanto, una medida de dispersin, que tenga en cuenta la dispersin de cada observacin con respecto a la recta, es decir, lo alejado que se encuentra cada punto de la recta. Es decir, deberemos evaluar esas distancias verticales a la recta, es decir, los errores o residuales. Si las dispersiones son pequeas, la recta ser un buen representante de la nube de puntos, o lo que es lo mismo, la bondad de ajuste del modelo ser alta. Si la dispersin es grande, la bondad de ajuste ser baja. Una forma de medir dicha bondad de ajuste es precisamente evaluando la suma de los cuadrados de los errores. Por tanto, llamaremos Varianza residual a la expresin:

S2 e =

( i =1
n

# yi ! y" i n

Si la varianza residual es grande, el modelo ser malo, es decir, la recta no explicar el comportamiento general de la nube. La frmula prctica para el clculo de la varianza residual, si el procedimiento de ajuste es el de los mnimos cuadrados es la siguiente:

i =1 S2 e =

" y2 i ! a " y i ! b " x iy i


i= 1 i =1

La cota mxima de la varianza residual es la varianza que tratamos de explicar mediante el modelo de regresin, es decir, la varianza de la variable dependiente. Por tanto, sin ms que hacer relativa la varianza residual respecto de su mximo valor, y

14

multiplicando por 100, obtendremos el porcentaje de variaciones no explicado por el modelo:


S2 e 100 % de var iaciones sin exp licar = 2 sy

Ahora, ya es fcil obtener una media que nos indique el porcentaje de variaciones controladas o explicadas mediante el modelo, que se conoce como Coeficiente de Determinacin, que denotaremos con R2. Su expresin en tantos por 1, ser:
S2 e R2 = 1! 2 sy

Como puede observarse, a partir de la expresin anterior: 0< R2 <1. Por tanto: Si R2=1, entonces no hay residuos, habr una dependencia funcional. Cuanto ms se acerque dicho valor a la unidad, mayor poder explicativo tendr el modelo de regresin. Si R2=0, X no explica en absoluto ninguna de las variaciones de la variable Y, de modo que o bien el modelo es inadecuado, o bien las variables son independientes. Cuanto ms cercano a 0 est dicho valor, menor poder explicativo.

Poder explicativo vs poder predictivo Un modelo de regresin con un alto porcentaje de variaciones explicado, puede no ser bueno para predecir, ya que el que la mayora de los puntos se encuentren cercanos a la recta de regresin, no implica que todos lo estn, y puede ocurrir, que justamente para aquel rango de valores en el que el investigador est interesado, se alejen de la recta, y por tanto, el valor predecido puede alejarse mucho de la realidad. La nica forma de poder evaluar el poder predictivo del modelo es tras la observacin y el anlisis de los grficos de residuales, es decir, de diagramas de dispersin, en los que en el eje de ordenadas se colocan los residuales, y en el eje de abscisas se colocan o bien X, Y, o Y*.

15

Slo si la banda de residuales es homognea, y se encuentran todos los puntos no demasiado alejados del 0 (aunque depende de la escala de medida), diremos, que un modelo con un alto poder explicativo, tambin es bueno para predecir. Un anlisis detallado de los residuales se realizar en la seccin 6.2. CAUSALIDAD Es muy importante resaltar el hecho, de que un modelo sea capaz de explicar de manera adecuada las variaciones de la variable dependiente en funcin de la independiente, no implica que la primera sea causa de la segunda. Es un error muy comn confundir causalidad con casualidad. El hecho de que las variables estn relacionadas no implica que una sea causa de la otra, ya que puede ocurrir el hecho de que se est dando una variacin concomitante, por el simple hecho de que las dos son causa de una tercera. Por ejemplo, si realizamos un estudio en el que se analice el nmero de canas (X) y la presin arterial (Y), podramos encontrar una relacin lineal casi perfecta. Eso no significa que el tener canas aumente la presin arterial, lo que verdaderamente est ocurriendo es que es la edad, la causante, de que se tengan ms canas y una tendencia a tener ms alta la presin arterial.

EXTRAPOLACIN Es importante, resaltar el hecho de que a la hora de hacer predicciones, no deben extrapolarse los resultados ms all del rango de la variable X utilizado para ajustar el modelo, ya que ms all de ese rango no sabemos qu puede estar ocurriendo. Por todos es conocido que las plantas necesitan abono para poder crecer. Desde pequeos hemos aprendido que hay que abonarlas, de modo que en principio, cuanto ms abono se les suministre ms crecern. Pero... qu ocurrira si abonsemos demasiado el suelo?. Obviamente la planta morira. Bien, esto se traduce, en que conforme aumenta la cantidad de abono, el crecimiento es ms notable, pero a partir de un punto, la planta deja de crecer, y es ms se muere. Esto queda reflejado en la figura 6.7. De ah el peligro de extrapolar los resultados.

16

Figura 6.7: Comparacin de una posible verdadera relacin entre cantidad de abono y crecimiento de una planta, con los resultados de una recta de regresin obtenida mediante el estudio de un rango limitado de valores de abono.

6.1.3.3 Regresin no lineal


Supongamos que al hacer la representacin grfica correspondiente la distribucin bidimensional, hemos obtenido la figura 6.1c. Se observa una clara relacin entre las dos variables, pero desde luego, esa relacin no es lineal. Por tanto, debemos buscar la funcin que ha de describir la dependencia entre las dos variables. Nos limitaremos al estudio de las ms utilizadas: la funcin parablica, la logartmica, la exponencial y la potencial.

PARBOLA DE REGRESIN En muchos casos, es una funcin de segundo grado la que se ajusta lo suficiente a la situacin real dada. La expresin general de un polinomio de 2 grado es:

17

Y=a+bX+cX2 donde a, b y c son los parmetros. El problema consiste, por tanto, en determinar dichos parmetros para una distribucin dada. Seguiremos para ello, un razonamiento similar al que hicimos en el caso del modelo de regresin lineal simple, utilizando el procedimiento de ajuste de los mnimos cuadrados, es decir, haciendo que la suma de los cuadrados de las desviaciones con respecto a la curva de regresin sea mnima:
2 D = # (y i ! y" i) i=1 n

donde, siguiendo la notacin habitual, yi son los valores observados de la variable dependiente, e y! i los valores estimados segn el modelo; por tanto, podemos escribir D de la forma:
2 2 2 D = # (y i ! y" i ) = # (yi ! a ! bxi ! cx i ) i=1 i =1 n n

Para encontrar los valores de a, b y c que hacen mnima la expresin anterior, deberemos igualar las derivadas parciales de D con respecto a dichos parmetros a cero y resolver el sistema resultante. Las ecuaciones que forman dicho sistema se conocen como ecuaciones normales de Gauss (igual que en el caso de la regresin lineal simple).

i =1 n

i =1 n 2 n ! xi yi = a ! xi + b ! xi + c ! x 3 i i =1 i=1 i=1 i= 1 n n 2 n 3 n 4 ! x2 i yi = a ! x i + b ! x i + c ! x i i =1 i=1 i= 1 i=1 n

! yi = na + b ! x i + c ! x 2 i
i= 1

18

FUNCIN EXPONENCIAL, POTENCIAL Y LOGARTMICA El problema de ajustar un modelo potencial, de la forma Y=AXb y uno exponencial Y=ABX se reduce al de la funcin lineal, con solo tomar logaritmos. Modelo potencial: Si tomamos logaritmos en la expresin de la funcin potencial, obtendremos: logY = logA +b logX Como vemos es la ecuacin de una recta: Y=a+bX, donde ahora a = logA. De modo que el problema es sencillo, basta con transformar Y en logY y X en logX y ajustar una recta a los valores transformados. El parmetro b del modelo potencial coincide con el coeficiente de regresin de la recta ajustada a los datos transformados, y A lo obtenemos mediante el antilog(a).

Modelo exponencial: Tomando logaritmos en la expresin de la funcin exponencial, obtendremos: logY = logA + logB X Tambin se trata de la ecuacin de una recta Y=a+bX, pero ahora ajustndola a logY y a X; de modo que, para obtener el parmetro A del modelo exponencial, basta con hacer antilog(a), y el parmetro B se obtiene tomando antilog(b).

Modelo logartmico: La curva logartmica Y = a + b logX es tambin una recta, pero en lugar de estar referida a las variables originales X e Y, est referida a logX y a Y.

Hemos visto, cmo, a pesar de ser inicialmente modelos mucho ms complejos que el de una recta, estos tres ltimos se reducen al modelo lineal sin ms que transformar adecuadamente los datos de partida.

19

6.1.4 Correlacin
Como hemos visto con anterioridad, al analizar las relaciones existentes entre dos variables aleatorias cuantitativas, deberemos responder a las preguntas, de si existe dependencia estocstica entre ellas y de qu grado. El anlisis de correlacin nos dar respuesta a dichas preguntas.

6.1.4.1 Prueba de independencia de dos caracteres cuantitativos


Dos variables X e Y son independientes, es decir, no estn relacionadas, cuando la variable Y tiene el mismo valor, en media, sea cual sea el valor de la variable X y viceversa. (Ver por ejemplo la figura 6.1a). Como vimos en la seccin 6.1.3.1, la covarianza poda ser un medida que nos habla de la dependencia entre las dos variables. Sin embargo, la covarianza presenta el inconveniente de que no se trata de una medida adimensional, y por lo tanto se hace necesario conocer la fuerza de la relacin -si existe- as como poder realizar comparaciones entre parejas de variables que vienen medidas en unidades diferentes. Por ello, y dado que viene medida en unidades de la variable X por unidades de la variable Y, la dividimos entre las correspondientes desviaciones tpicas, obteniendo as, el denominado Coeficiente de correlacin lineal de Pearson y que denotamos con una r minscula:

r=

Sxy sxsy

Es importante fijarnos en que hemos denominado a dicho coeficiente: coeficiente de correlacin lineal de Pearson. El "apellido lineal" es conveniente utilizarlo porque dicho coeficiente solo tiene potencia para analizar si la relacin entre las dos variables es o no de tipo lineal. Si las variables son independientes, es un hecho de que el coeficiente de correlacin lineal debe ser cero. Sin embargo, si el coeficiente de correlacin lineal es 0, no implica que las variables sean independientes, simplemente que la relacin no es lineal.

20

6.1.4.2 Relacin entre r y R2

Como vemos, el coeficiente de correlacin lleva asociado el mismo signo que la covarianza, por lo que si ste resulta ser positivo, indicar que se trata de una relacin lineal directa, mientras que si es negativo, la relacin ser inversa.

Una propiedad sumamente importante del coeficiente de correlacin r es que si el procedimiento de ajuste de la recta de regresin es el del criterio de los mnimos cuadrados, resulta:

r 2 = R2

En el apartado 6.1.3.2 vimos que el coeficiente de determinacin era un valor acotado entre 0 y 1. Teniendo en cuenta la relacin anterior, podemos asegurar que el coeficiente de correlacin es un valor acotado entre -1 y +1. Si r=+1, existe una correlacin positiva perfecta, y si r=-1, analogamente pero negativa (en ambos casos R2=1, por lo tanto no hay errores, sera una dependencia funcional). A nivel muestral, es difcil encontrarnos con un valor de r = 0 aun cuando las variables sean independientes, de modo que podramos pensar que cuanto ms se acerque r a 1, el grado de relacin entre X e Y ser ms fuerte. Sin embargo, a partir de qu valor muestral de r decidiremos que las variables son independientes, y a partir de cul diremos que estn relacionadas?

6.1.4.3 Distribucin del coeficiente de correlacin muestral


Para dar respuesta a la pregunta anterior, se ha estudiado la ley de probabilidad de los coeficientes de correlacin observados en muestras extradas al azar de una poblacin en la que se sabe que X e Y son independientes, es decir, que el coeficiente de correlacin poblacional () es 0. Al extraer muestras de dicha poblacin, los coeficientes de correlacin muestral obtenidos, fluctan alrededor de cero en forma simtrica, lo cual no ocurre si es distinto de cero. Por ello, se ha construido una tabla en la que aparece el valor de r, que slo era superado en el 5% (o el 1%) de las muestras extradas de la poblacin con =0; En la primera columna de la tabla aparece el tamao de muestra n -2.

21

grados de libertad (n-2) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

5% .997 .950 .878 .811 .754 .707 .666 .632 .602 .576 .553 .532 .514 .497 .482 .468 .456 .444 .433 .423 .413 .404 .396

1% 1.000 .990 .959 .917 .874 .834 .798 .765 .735 .708 .684 .661 .641 .623 .606 .590 .575 .561 .549 .537 .526 .515 .505

grados de libertad (n-2) 24 25 26 27 28 29 30 35 40 45 50 60 70 80 90 100 125 150 200 300 400 500 1000

5% .388 .381 .374 .367 .361 .355 .349 .325 .304 .288 .273 .250 .232 .217 .205 .195 .174 .159 .138 .113 .098 .088 .062

1% .496 .487 .478 .470 .463 .456 .449 .418 .393 .372 .354 .325 .302 .283 .267 .254 .228 .208 .181 .148 .128 .115 .081

Tabla del coeficiente de correlacin

Realmente no se trata ms que de un contraste de hiptesis. La hiptesis nula es: Ho: =0, de modo que la hiptesis se rechaza slo si el coeficiente de correlacin muestral es, en valor absoluto, mayor que el valor crtico de la tabla, al nivel de significacin elegido, y con los grados de libertad adecuados, ya que slo rechazaremos Ho si el valor muestral encontrado es poco probable que ocurra cuando =0.

También podría gustarte