Está en la página 1de 6

4.3 Regresin por mnimos cuadrados: Lineal y Cuadrtica.

4.3 Regresin por mnimos cuadrados: Lineal y Cuadrtica.

INTRODUCCIN...

En el marco del anlisis estadstico multidimensional interesa, en gran medida, descubrir la


interdependencia o la relacin existente entre dos o ms de las caractersticas analizadas.

La dependencia entre dos (o ms) variables puede ser tal que se base en una relacin funcional
(matemtica) exacta, como la existente entre la velocidad y la distancia recorrida por un mvil; o puede
ser estadstica. La dependencia estadstica es un tipo de relacin entre variables tal que conocidos los
valores de la (las) variable (variables) independiente(s) no puede determinarse con exactitud el valor de la
variable dependiente, aunque si se puede llegar a determinar un cierto comportamiento (global) de la
misma. (Ej. la relacin existente entre el peso y la estatura de los individuos de una poblacin es una
relacin estadstica) .

Pues bien, el anlisis de la dependencia estadstica admite dos planteamientos (aunque ntimamente
relacionados):

El estudio del grado de dependencia existente entre las variables que queda recogido en la teora de la
correlacin.

La determinacin de la estructura de dependencia que mejor exprese la relacin, lo que es analizado a


travs de la regresin.

Una vez determinada la estructura de esta dependencia la finalidad ltima de la regresin es llegar a poder
asignar el valor que toma la variable Y en un individuo del que conocemos que toma un determinado valor
para la variable X (para las variablesX1, X2,..., Xn ).

En el caso bidimensional, dadas dos variables X e Y con una distribucin conjunta de frecuencias ( xi, yj ,nij ),
llamaremos regresin de Y sobre X ( Y/X) a una funcin que explique la variable Y para cada valor de X, y
llamaremos regresin de X sobre Y (X/Y) a una funcin que nos explique la variable X para cada valor de
Y.(Hay que llamar la atencin, como se ver ms adelante, que estas dos funciones, en general, no tienen
por qu coincidir).

MTODO DE CUADRADOS MNIMOS REGRESIN LINEAL.

Hemos enfatizado sobre la importancia de las representaciones grficas y hemos visto la utilidad de las
versiones linealizadas de los grficos (X, Y) junto a las distintas maneras de llevar a cabo la linealizacin. A
menudo nos confrontamos con situaciones en las que existe o suponemos que existe una relacin lineal
entre las variables X e Y.

Surge de modo natural la pregunta: cul es la relacin analtica que mejor se ajusta a nuestros datos?
El mtodo de cuadrados mnimos es un procedimiento general que nos permite responder esta pregunta.
Cuando la relacin entre las variables X e Y es lineal, el mtodo de ajuste por cuadrados mnimos se
denomina tambin mtodo de regresin lineal.
Observamos o suponemos una tendencia lineal entre las variables y nos preguntamos sobre cul es lamejor
recta:

y(x) = a x + b

Que representa este caso de inters. Es til definir la funcin:

Que es una medida de la desviacin total de los valores


observados yi respecto de los predichos por el modelo lineal a x + b. Los mejores valores de la pendiente a y
la ordenada al origen b son aquellos que minimizan esta desviacin total, o sea, son los valores que
remplazados en la Ec.(1) minimizan la funcinc2. Ec.(2). Los parmetros a y b pueden obtenerse usando
tcnicas matemticas que hacen uso del clculo diferencial. Aplicando estas tcnicas, el problema de
minimizacin se reduce al de resolver el par de ecuaciones:

Actualmente, la mayora de los programas de anlisis de datos y planillas de clculo, realizan el proceso de
minimizacin en forma automtica y dan los resultados de los mejores valores de a y b, o sea los valores
indicados por las ecuaciones.
Grfico de datos asociados a un modelo lineal. La cantidad yi - y(xi)
representa la desviacin de cada observacin de yi respecto del valor predicho por
el modelo y(x).

El criterio de mnimos cuadrados reemplaza el juicio personal de quien mire los grficos y defina cul es la
mejor recta. En los programas como Excel, se realiza usando la herramienta regresin lineal o ajuste
lineal. Los resultados se aplican en el caso lineal cuando todos los datos de la variable dependiente tienen
la misma incertidumbre absoluta y la incertidumbre de la variable independiente se considera despreciable.

REGRESIN MNIMO-CUADRTICA

Consiste en explicar una de las variables en funcin de la otra a travs de un determinado tipo de funcin
(lineal, parablica, exponencial, etc.), de forma que la funcin de regresin se obtiene ajustando las
observaciones a la funcin elegida, mediante el mtodo de Mnimos-Cuadrados (M.C.O.).

Elegido el tipo de funcin ( ) la funcin de regresin concreta se obtendr minimizando la expresin:

(yj - (xi ) ) 2. nij en el caso de la regresin de Y/X

(xi - (yj ) ) 2. nij en el caso de la regresin de X/Y

Puede probarse que es equivalente ajustar por mnimos cuadrados la totalidad de las observaciones (toda
la nube de puntos) que realizar el ajuste de los puntos obtenidos por la regresin de la media; de forma que
la regresin mnimo-cuadrtica viene ser, en cierto modo, la consecucin de una expresin analtica
operativa para la regresin en sentido estricto.

Coeficientes de regresin.

Se llama coeficiente de regresin a la pendiente de la recta de regresin:

en la regresin Y/X : b = Sxy / Sx2

en la regresin X/Y b' = Sxy / Sy2

El signo de ambos coincidir con el de la covarianza, indicndonos la tendencia (directa o inversa a la


covariacin).Es interesante hacer notar que b.b'= r2

BONDAD DEL AJUSTE (Varianza residual, varianza de la regresin y coeficiente de determinacin)

Por bondad del ajuste hay que entender el grado de acoplamiento que existe entre los datos originales y los
valores tericos que se obtienen de la regresin. Obviamente cuanto mejor sea el ajuste, ms til ser la
regresin a la pretensin de obtener los valores de la variable regresando a partir de la informacin sobre
la variable regresora .

Obtener indicadores de esta bondad de ajuste es fundamental a la hora de optar por una regresin de un
determinado tipo u otro.

Puesto que la media de los residuos se anula, el primer indicador de la bondad del ajuste (no puede ser el
error medio) ser el error cuadrtico medio, o varianza del residuo, o varianza residual :

Considerando la regresin Y/X:

Que ser una cantidad mayor o igual que cero.De forma que cuanto ms baja sea mejor ser el grado de
ajuste.Si la varianza residual vale cero el ajuste ser perfecto (ya que no existir ningn error ).

Del hecho de que yi=y*i+ei ,y de que las variables y* e estn incorrelacionadas se tiene que:

Donde S2y* es la llamada varianza de la regresin y supone la varianza de la variable regresin:


Igualdad fundamental anterior de la que se deduce que la varianza total de la variable y puede
descomponerse en dos partes una parte explicada por la regresin( la varianza de la regresin) y otra parte
no explicada (la varianza residual).

Considerando que la varianza nos mide la dispersin de los datos este hecho hay que entenderlo como que
la dispersin total inicial queda, en parte explicada por la regresin y en parte no.Cuanto mayor sea la
proporcin de varianza explicada (y menor la no explicada) tanto mejor ser el ajuste y tanto ms til la
regresin.

A la proporcin de varianza explicada por la regresin se le llama coeficiente de determinacin ( en nuestro

caso lineal):

que evidentemente estar siempre comprendido entre 0 y 1 y, en consecuencia, da cuenta del tanto por
uno explicado por la regresin.

Una consecuencia importante en la prctica es que la varianza residual ser obviamente:

Es sencillo probar que en el caso lineal que nos ocupa el coeficiente de determinacin coincide con el
cuadrado del coeficiente de correlacin: R2 = r2

Con lo cual la varianza residual y la varianza debida a la regresin pueden calcularse a partir del coeficiente
de correlacin:

REGRESIN MNIMO CUADRTICA NO-LINEAL

La regresin mnimo-cuadrtica puede plantearse de forma que la funcin de ajuste se busca no sea una
funcin lineal. El planteamiento general sera similar, aunque obviamente habra que minimizar el cuadrado
de los residuos entre los datos originales y los valor tericos obtenibles a travs de la funcin no-lineal
considerada.

Regresin parablica .Desarrollaremos someramente la regresin Y/X y debe quedar claro que la regresin
X/Y resultara anloga.

Supongamos para simplificar que los datos no estn agrupados por frecuencias.

En tal caso, obtener la funcin parablica y* = a0+a1x+a2 x2 se llevar a cabo determinado los valores de los
tres parmetros a0,a1,a2 que minimicen :

y (a0,a1,a2)=S (yi- (a0+a1x+a2 x2)) 2


Igualando a cero las tres derivadas parciales se obtendr las ecuaciones normales, que convenientemente
manipuladas acaban siendo:

yj =N a0 + a1 x i + a2 xi2

yjxi = a0 x i + a1 xi2 + a2 xi3

yjxi2 = a0 xi2 + a1 xi3 + a2 xi4

Sistema de ecuaciones del que se pueden despejar los valores de los coeficientes de regresin.

También podría gustarte