Está en la página 1de 21

Bioestadstica

Correlacin y regresin lineales.


En una distribucin bidimensional puede ocurrir que las dos variables guarden algn tipo de relacin entre si. Por ejemplo, si se analiza la estatura y el peso de los alumnos o alumnas de una clase es muy posible que exista relacin entre ambas variables: mientras ms alto sea el estudiante, cabe pensar que mayor ser su peso. El coeficiente de correlacin lineal mide el grado de intensidad de esta posible relacin entre las variables. Este coeficiente se aplica cuando la relacin que puede existir entre las varables es lineal (es decir, si representaramos en un gfico los pares de valores de las dos variables la nube de puntos se aproximara a una recta).

No obstante, puede que exista una relacin que no sea lineal, sino exponencial, parablica, etc. En estos casos, el coeficiente de correlacin lineal medira mal la intensidad de la relacin las variables, por lo que convendra utilizar otro tipo de coeficiente ms apropiado. Para ver, por tanto, si se puede utilizar el coeficiente de correlacin lineal, lo mejor es representar los pares de valores en un grfico y ver que forma describen. El coeficiente de correlacin lineal se calcula aplicando la siguiente frmula:

Es decir:

Numerador: se denomina covarianza y se calcula de la siguiente manera: en cada par de valores (x,y) se multiplica la "x" menos su media, por la "y" menos su media. Se suma el resultado obtenido de todos los pares de valores y este resultado se divide por el tamao de la muestra. Denominador se calcula el produto de las varianzas de "x" y de "y", y a este produto se le calcula la raz cuadrada. Los valores que puede tomar el coeficiente de correlacin "r" son: -1 < r < 1 Si "r" > 0, la correlacin lineal es positiva (si sube el valor de una variable sube el de la otra). La correlacin es tanto ms fuerte cuanto ms se aproxime a 1. Por ejemplo: altura y peso: los alumnos ms altos suelen pesar ms. Si "r" < 0, la correlacin lineal es negativa (si sube el valor de una variable disminuye el de la otra). La correlacin negativa es tanto ms fuerte cuanto ms se aproxime a -1. Por ejemplo: peso y velocidad: los alumnos ms gordos suelen correr menos. Si "r" = 0, no existe correlacin lineal entre las variables. Aunque podra existir otro tipo de correlacin (parablica, exponencial, etc.) De todos modos, aunque el valor de "r" fuera prximo a 1 o -1, tampoco esto quiere decir obligatoriamente que existe una relacin de causa-efecto entre las dos variables, ya que este resultado podra haberse debido al puro azar. Ejemplo: vamos a calcular el coeficiente de correlacin de la siguiente serie de datos de altura y peso de los alumnos de una clase:

Alumno Estatura Peso Alumno Estatura Peso Alumno Estatura Peso x x x x x x x x x Alumno 1 1,25 32 Alumno 11 1,25 33 Alumno 21 1,25 33 Alumno 2 1,28 33 Alumno 12 1,28 35 Alumno 22 1,28 34 Alumno 3 1,27 34 Alumno 13 1,27 34 Alumno 23 1,27 34 Alumno 4 1,21 30 Alumno 14 1,21 30 Alumno 24 1,21 31 Alumno 5 1,22 32 Alumno 15 1,22 33 Alumno 25 1,22 32 Alumno 6 1,29 35 Alumno 16 1,29 34 Alumno 26 1,29 34 Alumno 7 1,30 34 Alumno 17 1,30 35 Alumno 27 1,30 34 Alumno 8 1,24 32 Alumno 18 1,24 32 Alumno 28 1,24 31 Alumno 9 1,27 32 Alumno 19 1,27 33 Alumno 29 1,27 35 Alumno 10 1,29 35 Alumno 20 1,29 33 Alumno 30 1,29 34

Aplicando la frmula:
(1/30) * (0,826) ------------------------------------------------------------=0,719 r= (((1/30)*(0,02568)) * ((1/30)*(51,366)) ^ (1/2)

Por lo tanto, la correlacin existente entre estas dos variables es elevada (0,7) y de signo postivo. Regresin lineal Si representamos en un grfico los pares de valores de una distribucin bidimensional: la variable "x" en el eje horizontal o eje de abcisa, y la variable "y" en el eje vertical, o eje de ordenada. Vemos que la nube de puntos sigue una tendencia lineal:

El coeficiente de correlacin lineal nos permite determinar si, efectivamente, existe relacin entre las dos variables. Una vez que se concluye que s existe relacin, la regresin nos permite definir la recta que mejor se ajusta a esta nube de puntos.

Una recta viene definida por la siguiente frmula:

y=a+bx Donde "y" sera la variable dependiente, es decir, aquella que viene definida a partir de la otra variable "x" (variable independiente). Para definir la recta hay que determinar los valores de los parmetros "a" y "b": El parmetro "a" es el valor que toma la variable dependiente "y", cuando la variable independiente "x" vale 0, y es el punto donde la recta cruza el eje vertical. El parmetro "b" determina la pendiente de la recta, su grado de inclinacin. La regresin lineal nos permite calcular el valor de estos dos parmetros, definiendo la recta que mejor se ajusta a esta nube de puntos.

El parmetro "b" viene determinado por la siguiente frmula:

Es la covarianza de las dos variables, dividida por la varianza de la variable "x". El parmetro "a" viene determinado por:

a = ym - ( b x m ) Es la media de la variable "y", menos la media de la variable "x" multiplicada por el parmetro "b" que hemos calculado. Ejemplo: vamos a calcular la recta de regresin de la siguiente serie de datos de altura y peso de los alumnos de una clase. Vamos a considerar que la altura es la variable independiente "x" y que el peso es la variable dependiente "y" (podamos hacerlo tambin al contrario):

Alumno Estatura Peso Alumno Estatura Peso Alumno Estatura Peso x x x x x x x x x Alumno 1 1,25 32 Alumno 11 1,25 33 Alumno 21 1,25 33 Alumno 2 1,28 33 Alumno 12 1,28 35 Alumno 22 1,28 34 Alumno 3 1,27 34 Alumno 13 1,27 34 Alumno 23 1,27 34 Alumno 4 1,21 30 Alumno 14 1,21 30 Alumno 24 1,21 31 Alumno 5 1,22 32 Alumno 15 1,22 33 Alumno 25 1,22 32 Alumno 6 1,29 35 Alumno 16 1,29 34 Alumno 26 1,29 34 Alumno 7 1,30 34 Alumno 17 1,30 35 Alumno 27 1,30 34 Alumno 8 1,24 32 Alumno 18 1,24 32 Alumno 28 1,24 31 Alumno 9 1,27 32 Alumno 19 1,27 33 Alumno 29 1,27 35 Alumno 10 1,29 35 Alumno 20 1,29 33 Alumno 30 1,29 34

El parmetro "b" viene determinado por:

b= Y el parmetro "a" por:

(1/30) * 1,034 ----------------------------------------- = 40,265 (1/30) * 0,00856

a = 33,1 - (40,265 * 1,262) = -17,714

Por lo tanto, la recta que mejor se ajusta a esta serie de datos es: y = -17,714 + 40,265 x Esta recta define un valor de la variable dependiente (peso), para cada valor de la variable independiente (estatura):

Estatura x 1,20 1,21 1,22 1,23 1,24 1,25 1,26 1,27 1,28 1,29 1,30

Peso x 30,6 31,0 31,4 31,8 32,2 32,6 33,0 33,4 33,8 34,2 34,6

Regresin lineal

Ejemplo de una regresin lineal con una variable dependiente y unavariable independiente.

En estadstica la regresin lineal o ajuste lineal es un mtodo matemtico que modeliza la relacin entre unavariable dependiente Y, las variables independientes Xi y un trmino aleatorio . Este modelo puede ser expresado como:

donde 0 es la interseccin o trmino "constante", las

son los parmetros respectivos a

cada variable independiente, y p es el nmero de parmetros independientes a tener en cuenta en la regresin. La regresin lineal puede ser contrastada con la regresin no lineal.

Contenido
[ocultar]

1 Historia 1.1 Etimologa

2 El modelo de regresin lineal 3 Supuestos del modelo de regresin lineal 4 Tipos de modelos de regresin lineal 4.1 Regresin lineal simple 4.1.1 Anlisis

4.2 Regresin lineal mltiple

5 Rectas de regresin 6 Aplicaciones de la regresin lineal 6.1 Lneas de tendencia 6.2 Medicina

7 Vase tambin 8 Referencias 9 Bibliografa 10 Enlaces externos

[editar]Historia

La primera forma de regresiones lineales documentada fue el mtodo de los mnimos cuadrados, el cual fue publicado por Legendre en 1805,1 y en dnde se inclua una versin delteorema de Gauss-Mrkov.

[editar]Etimologa
El trmino regresin se utiliz por primera vez en el estudio de variables antropomtricas: al comparar la estatura de padres e hijos, result que los hijos cuyos padres tenan una estatura muy superior al valor medio tendan a igualarse a ste, mientras que aquellos cuyos padres eran muy bajos tendan a reducir su diferencia respecto a la estatura media; es decir, "regresaban" al promedio.2 La constatacin emprica de esta propiedad se vio reforzada ms tarde con la justificacin terica de ese fenmeno. El trmino lineal se emplea para distinguirlo del resto de tcnicas de regresin, que emplean modelos basados en cualquier clase de funcin matemtica. Los modelos lineales son una explicacin simplificada de la realidad, mucho ms gil y con un soporte terico por parte de la matemtica y la estadstica mucho ms extenso. Pero bien, como se ha dicho, podemos usar el trmino lineal para distinguir modelos basados en cualquier clase de aplicacin.

[editar]El

modelo de regresin lineal

El modelo lineal relaciona la variable dependiente Y con K variables explicativas Xk (k = 1,...K), o cualquier transformacin de stas, que generan un hiperplano de parmetros kdesconocidos:

(2) donde es la perturbacin aleatoria que recoge todos aquellos factores de la realidad no controlables u

observables y que por tanto se asocian con el azar, y es la que confiere al modelo su carcter estocstico. En el caso ms sencillo, con una sola variable explicativa, el hiperplano es una recta: (3)Y = 1 + 2X2 + El problema de la regresin consiste en elegir unos valores determinados para los parmetros desconocidos k, de modo que la ecuacin quede completamente especificada. Para ello se necesita un conjunto de observaciones. En una observacin cualquiera i-sima (i= 1,... I) se registra el comportamiento simultneo de la variable dependiente y las variables explicativas (las perturbaciones aleatorias se suponen no observables).

(4)

Los valores escogidos como estimadores de los parmetros,

, son los coeficientes de regresin, sin

que se pueda garantizar que coinciden con parmetros reales del proceso generador. Por tanto, en

(5) Los valores son por su parte estimaciones de la perturbacin aleatoria o errores.

[editar]Supuestos

del modelo de regresin lineal

Para poder crear un modelo de regresin lineal, es necesario que se cumpla con los siguientes supuestos:3 1. 2. La relacin entre las variables es lineal. Los errores en la medicin de las variables explicativas son independientes entre s.

3. Los errores tienen varianza constante. (Homocedasticidad)


4. Los errores tienen una esperanza matemtica igual a cero (los errores de una misma magnitud y distinto signo son equiprobables). 5. El error total es la suma de todos los errores.

[editar]Tipos

de modelos de regresin lineal


lineal simple

Existen diferentes tipos de regresin lineal que se clasifican de acuerdo a sus parmetros:

[editar]Regresin

Slo se maneja una variable independiente, por lo que slo cuenta con dos parmetros. Son de la forma:4 (6)Yi = 0 + 1Xi + i donde i es el error asociado a la medicin del valor Xi y siguen los supuestos de modo que iN(0,2) (media cero, varianza constante e igual a un y con ).

[editar]Anlisis
Dado el modelo de regresin simple, si se calcula la esperanza (valor esperado) del valor Y, se obtiene:5 (7)

Derivando respecto a

e igualando a cero, se obtiene:5

(9)

(10) Obteniendo dos ecuaciones denominadas ecuaciones normales que generan la siguiente solucin para ambos parmetros:4

(11)

(12) La interpretacin del parmetro 1 es que un incremento en Xi de una unidad, Yi incrementar en 1

[editar]Regresin

lineal mltiple

La regresion lineal nos permite trabajar con una variable a nivel de intervalo o razn, as tambin se puede comprender la relacin de dos o ms variables y nos permitir relacionar mediante ecuaciones, una variable en relacin a otras variables llamndose Regresin mltiple. Constantemente en la prctica de la investigacin estadstica, se encuentran variables que de alguna manera estn relacionados entre si, por lo que es posible que una de las variables puedan relacionarse matemticamente en funcin de otra u otras variables. Maneja varias variables independientes. Cuenta con varios parmetros. Se expresan de la forma:6

(13) donde i es el error asociado a la medicin i del valor Xip y siguen los supuestos de modo que iN(0,2) (media cero, varianza constante e igual a un y con ).

[editar]Rectas

de regresin

Las rectas de regresin son las rectas que mejor se ajustan a la nube de puntos (o tambin llamado diagrama de dispersin) generada por una distribucin binomial. Matemticamente, son posibles dos rectas de mximo ajuste:7

La recta de regresin de Y sobre X:

(14)

La recta de regresin de X sobre Y:

(15) La correlacin ("r") de las rectas determinar la calidad del ajuste. Si r es cercano o igual a 1, el ajuste ser bueno y las predicciones realizadas a partir del modelo obtenido sern muy fiables (el modelo obtenido resulta verdaderamente representativo); si r es cercano o igual a 0, se tratar de un ajuste malo en el que las predicciones que se realicen a partir del modelo obtenido no sern fiables (el modelo obtenido no resulta representativo de la realidad). Ambas rectas de regresin se intersecan en un punto llamado centro de gravedad de ladistribucin.

[editar]Aplicaciones [editar]Lneas

de la regresin lineal

de tendencia

Vase tambin: Tendencia


Una lnea de tendencia representa una tendencia en una serie de datos obtenidos a travs de un largo perodo. Este tipo de lneas puede decirnos si un conjunto de datos en particular (como por ejemplo, el PBI, el precio del petrleo o el valor de las acciones) han aumentado o decrementado en un determinado perodo.8 Se puede dibujar una lnea de tendencia a simple vista fcilmente a partir de un grupo de puntos, pero su posicin y pendiente se calcula de manera ms precisa utilizando tcnicas estadsticas como las regresiones lineales. Las lneas de tendencia son generalmente lneas rectas, aunque algunas variaciones utilizan polinomios de mayor grado dependiendo de la curvatura deseada en la lnea.

Calculadora de Regresin Lineal Se conoce como regresin lineal, correlacin de Pearson o mtodo de mnimos cuadrados, al procedimiento de encontrar la ecuacin de la recta "que mejor se ajuste a un conjunto de puntos". El mtodo de mnimos cuadrados nos permite encontrar el grado de correlacin lineal entre un conjunto de pares de valores numricos.

Si no puedes visualizar la pantalla interactiva de abajo, necesitas instalar el Shockwave Player. Si ests en un caf Internet o en un laboratorio de la escuela (Del Cole ), pdele amablemente al responsable que instale el Shockwave Player pero tiene que hacerlo en el formato de Usuario como Administrador. Instalar Shockwave Player

Coeficiente de correlacin lineal


En una distribucin bidimensional puede ocurrir que las dos variables guarden algn tipo de relacin entre si. Por ejemplo, si se analiza la estatura y el peso de los alumnos de una clase es muy posible que exista relacin entre ambas variables: mientras ms alto sea el alumno, mayor ser su peso. El coeficiente de correlacin lineal mide el grado de intensidad de esta posible relacin entre las variables. Este coeficiente se aplica cuando la relacin que puede existir entre las varables es lineal (es decir, si representaramos en un gfico los pares de valores de las dos variables la nube de puntos se aproximara a una recta).

No obstante, puede que exista una relacin que no sea lineal, sino exponencial, parablica, etc. En estos casos, el coeficiente de correlacin lineal medira mal la intensidad de la relacin las variables, por lo que convendra utilizar otro tipo de coeficiente ms apropiado. Para ver, por tanto, si se puede utilizar el coeficiente de correlacin lineal, lo mejor es representar los pares de valores en un grfico y ver que forma describen. El coeficiente de correlacin lineal se calcula aplicando la siguiente frmula:

Es decir: Numerador: se denomina covarianza y se calcula de la siguiente manera: en cada par de valores (x,y) se multiplica la "x" menos su media, por la "y" menos su

media. Se suma el resultado obtenido de todos los pares de valores y este resultado se divide por el tamao de la muestra. Denominador se calcula el produto de las varianzas de "x" y de "y", y a este produto se le calcula la raz cuadrada. Los valores que puede tomar el coeficiente de correlacin "r" son: -1 < r < 1 Si "r" > 0, la correlacin lineal es positiva (si sube el valor de una variable sube el de la otra). La correlacin es tanto ms fuerte cuanto ms se aproxime a 1. Por ejemplo: altura y peso: los alumnos ms altos suelen pesar ms. Si "r" < 0, la correlacin lineal es negativa (si sube el valor de una variable disminuye el de la otra). La correlacin negativa es tanto ms fuerte cuanto ms se aproxime a -1. Por ejemplo: peso y velocidad: los alumnos ms gordos suelen correr menos. Si "r" = 0, no existe correlacin lineal entre las variables. Aunque podra existir otro tipo de correlacin (parablica, exponencial, etc.) De todos modos, aunque el valor de "r" fuera prximo a 1 o -1, tampoco esto quiere decir obligatoriamente que existe una relacin de causa-efecto entre las dos variables, ya que este resultado podra haberse debido al puro azar. Ejemplo: vamos a calcular el coeficiente de correlacin de la siguiente serie de datos de altura y peso de los alumnos de una clase:
Alumno Estatura Peso Alumno Estatura Peso Alumno Estatura Peso x x x x x x x x x Alumno 1 1,25 32 Alumno 11 1,25 33 Alumno 21 1,25 33 Alumno 2 1,28 33 Alumno 12 1,28 35 Alumno 22 1,28 34 Alumno 3 1,27 34 Alumno 13 1,27 34 Alumno 23 1,27 34 Alumno 4 1,21 30 Alumno 14 1,21 30 Alumno 24 1,21 31 Alumno 5 1,22 32 Alumno 15 1,22 33 Alumno 25 1,22 32 Alumno 6 1,29 35 Alumno 16 1,29 34 Alumno 26 1,29 34 Alumno 7 1,30 34 Alumno 17 1,30 35 Alumno 27 1,30 34 Alumno 8 1,24 32 Alumno 18 1,24 32 Alumno 28 1,24 31 Alumno 9 1,27 32 Alumno 19 1,27 33 Alumno 29 1,27 35 Alumno 10 1,29 35 Alumno 20 1,29 33 Alumno 30 1,29 34

Aplicamos la frmula:
(1/30) * (0,826) -------------------------------------r= -------------------(((1/30)*(0,02568)) * ((1/30)*( 51,366)))^(1/2)

Luego, r= x
0,719 x

Por lo tanto, la correlacin existente entre estas dos variables es elevada (0,7) y de signo postivo.

Regresin lineal
En esta pgina, se describe el procedimiento de ajuste de los datos experimentales a una lnea recta denominado regresin lineal, que se usa en el laboratorio en varias situaciones:

Para calcular la velocidad en una experiencia de movimiento rectilneo Para calcular la constante elstica de un muelle, colocando pesas en un platillo que cuelga de su extremo libre y midiendo la deformacin del muelle

etc. El programa interactivo al final de esta pgina, est diseado para que sea usado, en el Laboratorio de Fsica para cualquier experiencia que lo requiera. Nos proporciona los valores de:

La pendiente a de la recta de regresin y el error cometido a La ordenada en el origen b El ndice de correlacin r. Este ndice mide el grado de ajuste de los datos experimentales a la recta

Descripcin
Supongamos que estamos midiendo la posicin de un mvil en funcin del tiempo en un movimiento rectilneo. Si el mvil est libre de fuerzas, esperamos que la relacin entre la posicin del mvil y el tiempo sea lineal x=x0+vt. Donde x0 es la posicin del mvil en el instante t=0.

Si medimos las posiciones del mvil x1 y x2 en los instantes t1 y t2, obtenemos un sistema de dos ecuaciones con dos incgnitas de las que podemos determinar las cantidades desconocidas x0 y v. Ahora bien, esta afirmacin solamente es cierta en un experimento ideal libre de errores. Si efectuamos n medidas de la posicin del mvil, el aspecto de la representacin grfica de nuestras medidas puede ser parecido al de la figura ms abajo, los puntos de color azul representan los datos experimentales. La relacin entre las ordenadas y y las abscisas x de dichos puntos es solamente aproximada, debido a los errores de cada una de las medidas. Si tomamos nicamente dos puntos para definir la recta el resultado tendra un importante error. Para una mejor estimacin de la recta y por tanto, de las magnitudes buscadas, se debern utilizar las n medidas tomadas. Supongamos una magnitud fsica y, relacionada con otra x, mediante la funcin y=ax+b. Una recta de pendiente a cuya ordenada en el origen es b. Las desviaciones de los valores de y, vase la figura, sern

1=y1-(ax1+b) 2=y2-(ax2+b) i=yi-(axi+b) n=yn-(axn+b)

...................

...................

Sea E(a,b) la suma de los cuadrados de todas estas desviaciones

E(a,b)=(y1-ax1-b)2+(y2-ax2-b)2+...(yi-axi-b)2+...+(yn-axn-b)2 E(a,b)= 1 n ( y i a x i b) 2 Los valores que minimizan a E(a,b) son aquellos para los que E a =0 E b =0 Se obtiene as, un sistema de dos ecuaciones con dos incgnitas a y b cuya solucin es a= n 1 n x i y i ( 1 n x i )( 1 n y i ) n 1 n x i 2 ( 1 n x i ) 2 b= 1 n y i a 1 n x i n Expresiones ms elaboradas nos permiten determinar el error de a, a y el error de b, b a= n n 1 n x i 2 ( 1 n x i ) 2 = 1 n ( y i a x i b ) 2 n2 b=a 1 n x i 2 n La pendiente de la recta se escribir aa, y la ordenada en el origen bb. Vase las reglas para expresar una medida y su error de una magnitud. El coeficiente de correlacin es otro parmetro para el estudio de una distribucin bidimensional, que nos indica el grado de dependencia entre las variables X e Y. El coeficiente de correlacin r es un nmero que se obtiene mediante la frmula. r= 1 n ( x i <x>)( y i <y>) 1 n ( x i <x>) 2 1 n ( y i <y>) 2 El coeficiente de correlacin puede valer cualquier nmero comprendido entre -1 y +1.

Cuando r=1, la correlacin lineal es perfecta, directa. Cuando r=-1, la correlacin lineal es perfecta, inversa Cuando r=0, no existe correlacin alguna, independencia total de los valores X e Y

Ejemplo Un vehculo que se mueve supuestamente con velocidad constante. Los datos de las medidas del tiempo en cuatro posiciones separadas 900 m son las siguientes Tiempo t (s ) Posicin x (m )

17.6 40.4 67.7 90.1

0 900 1800 2700

Ajustar los datos a la lnea recta x=x0+vt y estimar el mejor valor de la velocidad v aplicando el procedimiento de mnimos cuadrados Introduciendo los datos en el programa interactivo, la pendiente es a=36.71 y el error de la pendiente a=1.001. La velocidad se escribe (vase la pgina Errores en las medidas) v=371 m/s

Regresin lineal
Abordaremos en esta pgina las distribuciones bidimensionales. Las observaciones se dispondrn en dos columnas, de modo que en cada fila figuren la abscisa x y su correspondiente ordenada y. La importancia de las distribuciones bidimensionales radica en investigar como influye una variable sobre la otra. Esta puede ser una dependencia causa efecto, por ejemplo, la cantidad de lluvia (causa), da lugar a un aumento de la produccin agrcola (efecto). O bien, el aumento del precio de un bien, da lugar a una disminucin de la cantidad demandada del mismo. Si utilizamos un sistema de coordenadas cartesianas para representar la distribucin bidimensional, obtendremos un conjunto de puntos conocido con el diagrama de dispersin, cuyo anlisis permite estudiar cualitativamente, la relacin entre ambas variables tal como se ve en la figura. El siguiente paso, es la determinacin de la dependencia funcional entre las dos variables x e y que mejor ajusta a la distribucin bidimensional. Se denomina regresin lineal cuando la funcin es lineal, es decir, requiere la determinacin de dos parmetros: la pendiente y la ordenada en el origen de la recta de regresin, y=ax+b. La regresin nos permite adems, determinar el grado de dependencia de las series de valores X e Y, prediciendo el valor y estimado que se obtendra para un valor x que no est en la distribucin.

Vamos a determinar la ecuacin de la recta que mejor ajusta a los datos representados en la figura. Se denomina error ei a la diferencia yi-y, entre el valor observado yi, y el valor ajustado y= axi+b, tal como se ve en la figura inferior. El criterio de ajuste se toma como aqul en el que la desviacin cuadrtica media sea mnima, es decir, debe de ser mnima la suma

El extremos de una funcin: mximo o mnimo se obtiene cuando las derivadas de s respecto de a y de b sean nulas. Lo que da lugar a un sistema de dos ecuaciones con dos incgnitas del que se despeja a yb.

El coeficiente de correlacin es otra tcnica de estudiar la distribucin bidimensional, que nos indica la intensidad o grado de dependencia entre las

variables X e Y. El coeficiente de correlacin r es un nmero que se obtiene mediante la frmula.

El numerador es el producto de las desviaciones de los valores X e Y respecto de sus valores medios. En el denominador tenemos las desviaciones cuadrticas medias de X y de Y. El coeficiente de correlacin puede valer cualquier nmero comprendido entre -1 y +1. Cuando r=1, la correlacin lineal es perfecta, directa. Cuando r=-1, la correlacin lineal es perfecta, inversa Cuando r=0, no existe correlacin alguna, independencia total de los valores X eY

Variantes de la regresin lineal


La funcin potencial y=cxa Se puede trasformar en

Si usamos las nuevas variables X=log x e Y=log y, obtenemos la relacin lineal Y=aX+b. Donde b=log c Ejemplo:
x y 10 1.06 20 1.33 30 1.52 40 1.68 50 1.81 60 1.91 70 2.01 80 2.11

Usar la calculadora para transformar esta tabla de datos en esta otra


X=log x Y=log y 1.0 1.30 1.477 1.60 1.699 1.778 1.845 1.903 0.025 0.124 0.182 0.225 0.258 0.281 0.303 0.324

Calcular mediante el programa regresin lineal los parmetros a y c. Funcin exponencial y=ceax

Tomando logaritmos neperianos en los dos miembros resulta ln y=ax+ln c Si ponemos ahora X=x, e Y=ln y, obtenemos la relacin lineal Y=aX+b Donde b=ln c. Ejemplo:
x y 12 930 41 815 93 632 147 487 204 370 264 265 373 147 509 76 773 17

Usar la calculadora para transformar esta tabla de datos en esta otra


X= x Y=ln y 12 6.835 41 6.703 93 6.449 147 6.188 204 5.913 264 5.580 373 4.990 509 4.330 773 2.833

Calcular mediante el programa regresin lineal los parmetros a y c.

La clase Regresion
La clase Regresion que describe la regresin lineal no difiere substancialmente de la clase Estadistica que se ha descrito en la seccin anterior. La diferencia estriba en que los miembros datos son dos arraysx e y que guardan las series de valores X e Y, cuya dependencia funcional deseamos determinar. En los miembros dato pblicos a y b se guarda la pendiente de la recta de regresin y la ordenda en el origen. La funcin miembro lineal, calcula la pendiente a, y ordenada en el origen b de la recta de regresin. Se hace uso de variables auxiliares para guardar resultados intermedios: sx guarda la suma de todas las abscisas, sy la suma de todas las ordenadas, sx2 la suma de los cuadrados de las abscisas, sy2 la suma de las cuadrados de las ordenadas, y pxy, la suma de los productos de cada abscisa por su ordenada. Los valores calculados a partir de las frmulas respectivas, se guardan en los miembros pblicos a y b de la clase Regresion. Para obtener el coeficiente de correlacin hemos de calcular primero el valor medio <x> de la serie de datos X, y el valor medio <y> de Y. No calculamos las desviaciones cuadrticas medias sino que empleamos una expresin equivalente a la dada anteriormente para el coeficiente de correlacin.
public class Regresion { private double[] x; private double[] y; private int n; //nmero de datos public double a, b; //pendiente y ordenada en el origen public Regresion(double[] x, double[] y) { this.x=x;

this.y=y; n=x.length; //nmero de datos } public void lineal(){ double pxy, sx, sy, sx2, sy2; pxy=sx=sy=sx2=sy2=0.0; for(int i=0; i<n; i++){ sx+=x[i]; sy+=y[i]; sx2+=x[i]*x[i]; sy2+=y[i]*y[i]; pxy+=x[i]*y[i]; } a=(n*pxy-sx*sy)/(n*sx2-sx*sx); b=(sy-b*sx)/n; } public double correlacion(){ //valores medios double suma=0.0; for(int i=0; i<n; i++){ suma+=x[i]; } double mediaX=suma/n; suma=0.0; for(int i=0; i<n; i++){ suma+=y[i]; } double mediaY=suma/n; //coeficiente de correlacin double pxy, sx2, sy2; pxy=sx2=sy2=0.0; for(int i=0; i<n; i++){ pxy+=(x[i]-mediaX)*(y[i]-mediaY); sx2+=(x[i]-mediaX)*(x[i]-mediaX); sy2+=(y[i]-mediaY)*(y[i]-mediaY); } return pxy/Math.sqrt(sx2*sy2); } }

Uso de la clase Regresion


Una fbrica de bebidas refrescantes observa que sus temperaturas (x) y las ventas (y) de la calle han sido.
x y 5 9 7 10 12 16 20 23 27 19 14 9 6 11 15 16 20 24 27 29 22 20 14 9

Los datos los guardamos en dos arrays denominados temperatura y ventas


double[] temperatura={5, 7, 10, 12, 16, 20, 23, 27, 19, 14, 9, 6}; double[] ventas={9, 11, 15, 16, 20, 24, 27, 29, 22, 20, 14, 9};

Creamos un objeto regresion de la clase Regresion, pasndole al constructor los dos arrays..
Regresion regresion=new Regresion(temperatura, ventas);

Se llama desde el objeto regresion a su funcin miembro lineal, para calcular los coeficentes a y b.
regresion.lineal(); System.out.println("Pendiente "+regresion.a); System.out.println("Ordenada en el origen "+regresion.b);

Se llama tambin, a la funcin miembro correlacion, la cual devuelve el coeficiente de correlacin


System.out.println("Indice de correlacin "+regresion.correlacion());

El cdigo fuente
Regresion.java, RegresionApp.java

El applet que traza la recta de regresin

También podría gustarte