Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Índice
Seguidamente, se representan dichos valores en unos ejes cartesianos, dando lugar a un diagrama de
dispersión o nube de puntos. Así, cada individuo vendrá representado por un punto en el gráfico, de
coordenadas ( x , y ) . De esa forma, se podrá obtener una primera idea acerca de la forma y de la
i i
dispersión de la nube de puntos. Al dibujar la nube de puntos, se encontrará, entre otros, casos como los
que hace referencia la figura 1.
En primer lugar deberá distinguirse entre dependencia funcional y dependencia estocástica. En el primer
caso la relación es perfecta: Y = f ( X ) (figura 1d y 1e); es decir, los puntos del diagrama de dispersión
correspondiente aparecen sobre la función Y = f ( X ) . Por ejemplo, en 1d sería Y = a + b X .
Sin embargo, suele ocurrir que no existe una dependencia funcional perfecta, sino otra dependencia o
relación menos rigurosa o dependencia estocástica (figura 1b y 1c). Entonces, la relación entre X e Y , se
escribiría (en el caso de la figura 1b) de la forma Y = a + b X + e , donde e es un error (o residual), debido
por ejemplo, a no incluir variables en el modelo que sean importantes a la hora de explicar el
1
comportamiento de Y , y cuyos efectos sean diferentes a los de X ; errores aleatorios o de medida, o
simplemente a que se ha especificando mal el modelo (por ejemplo, en lugar de ser una recta, sea una
parábola).
2. Tipos de regresión
Si las dos variables X e Y se relacionan según un modelo de línea recta, se habla de regresión lineal
simple:
Y =a+b X
2
Cuando las variables X e Y se relacionan según una línea curva, se habla de regresión no lineal o
curvilínea. Aquí se puede distinguir entre regresión parabólica, exponencial, potencial, etc.
Cuando hay más de una variable independiente (X 1 , X 2 ,… , X n ) , y una sola variable dependiente Y , se
habla de regresión múltiple. Las variables X i se denominan, regresoras, predictoras o independientes.
∑( y − y *i )
2
i
i =1
S e2 =
n
Si la varianza residual es grande, el modelo será malo, es decir, la curva no explicará el comportamiento
general de la nube.
La cota máxima de la varianza residual es la varianza que se trata de explicar mediante el modelo de
regresión, es decir, la varianza de la variable dependiente. Por tanto, sin más que hacer relativa la varianza
residual respecto de su máximo valor, y multiplicando por 100, se obtiene el porcentaje de variación no
explicado por el modelo:
S e2
% de variaciones sin explicar = 100
s y2
2
En el que es fácil obtener una medida R o coeficiente de determinación que indique el porcentaje de
variación controlada o explicada mediante el modelo. Expresado en tantos por 1, será:
S e2
R2 = 1 −
s y2
Como puede observarse, a partir de la expresión anterior: 0 < R < 1 . Por tanto:
2
Si R = 1 no hay residuos: habrá una dependencia funcional. Cuanto más se acerque dicho valor a la
2
•
unidad, mayor poder explicativo tendrá el modelo de regresión. Cuanto más cercano a 0 esté dicho
valor, menor poder explicativo;
Si R = 0 entonces X no explica en absoluto ninguna de las variaciones de la variable Y , de modo
2
•
que o bien el modelo es inadecuado, o bien las variables son independientes.
3
lo estén, y puede ocurrir, que justamente para aquel rango de valores en el que el investigador está
interesado, se alejen de la recta, y por tanto, el valor predictivo puede alejarse mucho de la realidad.
La única forma de poder evaluar el poder predictivo del modelo es tras la observación y el análisis de los
gráficos de residuales, es decir, de diagramas de dispersión, en los que en el eje de ordenadas se colocan
*
los residuales, y en el eje de abscisas se colocan o bien X , Y , o Y .
Sólo si la banda de residuales es homogénea, y se encuentran todos los puntos no demasiado alejados del
0 (aunque depende de la escala de medida), diremos, que un modelo con un alto poder explicativo, también
es bueno para predecir.
3.3. Causalidad
Es muy importante resaltar el hecho, de que un modelo sea capaz de explicar de manera adecuada las
variaciones de la variable dependiente en función de la independiente, no implica que la primera sea causa
de la segunda.
Es un error muy común confundir causalidad con casualidad. El hecho de que las variables estén
relacionadas no implica que una sea causa de la otra, ya que puede ocurrir el hecho de que se esté dando
una variación concomitante, por el simple hecho de que las dos son causa de una tercera. Por ejemplo, si
se realiza un estudio en el que se analiza el número de canas (X ) y la presión arterial (Y ) podría
encontrarse una relación lineal casi perfecta. Eso no significa que el tener canas aumente la presión arterial,
lo que verdaderamente está ocurriendo es que es la edad, la causante, de que se tengan más canas y una
tendencia a tener más alta la presión arterial.
3.4. Extrapolación
Es importante resaltar el hecho de que al hacer predicciones, no deben extrapolarse los resultados más allá
del rango de la variable X utilizado para ajustar el modelo, ya que más allá de ese rango se desconoce
qué puede estar ocurriendo.
De todos es conocido que las plantas necesitan abono para poder crecer y que hay que abonarlas, de modo
que en principio, cuanto más abono se les suministre más crecerán. Pero ¿qué ocurriría si se abonase
demasiado el suelo? Obviamente, moriría la planta. Esto se traduce en que conforme aumenta la cantidad
de abono, el crecimiento es más notable, pero a partir de un punto, la planta deja de crecer y muere, como
refleja la figura 2 que ilustra el peligro de extrapolar los resultados.
Figura 2: Comparación de una posible verdadera relación entre cantidad de abono y crecimiento de
una planta, con los resultados de una recta de regresión obtenida mediante el estudio de un rango
limitado de valores de abono.
4
basado en datos multidimensionales x , y , donde f es alguna función no lineal respecto a algunos
parámetros desconocidos θ . Como mínimo, se pretende obtener los valores de los parámetros asociados
con la mejor curva de ajuste (habitualmente, con el método de los mínimos cuadrados). Con el fin de
determinar si el modelo es adecuado, puede ser necesario utilizar conceptos de inferencia estadística tales
como intervalos de confianza para los parámetros así como pruebas de bondad de ajuste.
5. Linealización
Algunos problemas de regresión no lineal pueden linealizarse mediante una transformación en la
formulación del modelo. Por ejemplo, considérese el problema de regresión no lineal (ignorando el término
de error):
y = a exp ( b x )
Aplicando logaritmos a ambos lados de la ecuación, se obtiene:
ln ( y ) = ln ( a ) + b x
lo cual sugiere una estimación de los parámetros desconocidos a través de un modelo de regresión lineal de
ln ( y ) con respecto a x , un cálculo que no requiere procedimientos de optimización iterativa. De todas
formas, la linealización debe usarse con cuidado ya que la influencia de los datos en el modelo cambia, así
como la estructura del error del modelo y la interpretación e inferencia de los resultados, cosa que puede
ser un inconvenientes.
Hay que distinguir entre la "linealización" usada en los párrafos anteriores y la "linealización local" que se
adopta para algoritmos clásicos como el de Gauss-Newton.
8. Algoritmo de Gauss–Newton
En matemáticas, el algoritmo de Gauss–Newton se utiliza para resolver problemas no lineales de mínimos
cuadrados. Es una modificación debida a CF Gauss del método de optimización de Newton que no usa
segundas derivadas.
5
8.1. El problema
Dadas m funciones f 1 , f 2 ,… , f m de n parámetros p 1 , p 2 ,… , p n con m ≥ n , se desea minimizar la
suma:
n
∑ ( f ( p ))
2
S ( p) = i
i =1
8.2. El algoritmo
El algoritmo de Gauss–Newton es un procedimiento iterativo. Esto significa que se debe proporcionar una
0
estimación inicial del parámetro vector denominado p .
k
Estimaciones posteriores p para el vector parámetro son producidas por la relación recurrente:
−1
p k +1
= p − J f ( p k )′ J f ( p k ) J f ( p k )′ f ( p k )
k
donde f = ( f 1 , f 2 ,… , f m ) y J f ( p ) es el Jacobiano de f en p (nótese que no es necesario que
J f sea cuadrada).
En la práctica nunca se computa explícitamente la matriz inversa, en su lugar se utiliza:
p k +1 = p k + δ k
y se computa la actualización de δk resolviendo el sistema lineal:
J f ( p k )′ J f ( p k ) δ k = − J f ( p k )′ f ( p k )
Una buena implementación del algoritmo de Gauss-Newton utiliza también un algoritmo de búsqueda lineal:
k +1
en lugar de la fórmula anterior para p , se utiliza:
p k +1 = p k + α k δ k
donde αk es de algún modo un número óptimo.
(
p k +1 = p k − H ( S ) ( p k ) ) JS ( pk )
−1
∑ ( f ( p ))
2
S ( p) = i
i =1
6
Se puede concluir que el método de Gauss–Newton es el mismo que el método de Newton ignorando el
término ∑ f H ( f ).
Otros algoritmos utilizados para resolver el problema de los mínimos cuadrados incluyen el algoritmo de
Levenberg–Marquardt y el de descenso de gradiente
9. Regresión no lineal
Supóngase que al representar gráficamente la correspondiente la distribución bidimensional, se obtiene la
figura 1c. Se observa una clara relación entre las dos variables, pero claramente no lineal. Por tanto, deberá
buscar la función que ha de describir la dependencia entre las dos variables.
Estas notas se limitarán al estudio de las más utilizadas: las funciones parabólica, hiperbólica, logarítmica,
exponencial y potencial.
Figura 3.
En muchos casos, es una función de segundo grado la que se ajusta lo suficiente a la situación real dada.
La expresión general de un polinomio de segundo grado es:
Y = a + bX + cX 2
donde a , b y c son los parámetros.
El problema consiste, por tanto, en determinar dichos parámetros para una distribución dada. Se seguirá
para ello, un razonamiento similar al que se hace en el caso del modelo de regresión lineal simple,
utilizando el procedimiento de ajuste de los mínimos cuadrados, es decir, haciendo que la suma de los
cuadrados de las desviaciones con respecto a la curva de regresión sea mínima:
n
∑( y − y *i )
2
D = i
i =1
∑( y − y*i ) ∑( y − a − b x i − c x i2 )
2 2
D = i = i
i =1 i =1
Para encontrar los valores de a , b y c que hacen mínima la expresión anterior, se igualarán las derivadas
parciales de D con respecto a dichos parámetros a cero y se resolverá el sistema resultante. Las
ecuaciones que forman dicho sistema se conocen, igual que en el caso de la regresión lineal simple, como
ecuaciones normales de Gauss.
7
n n n
∑y
i =1
i = n a + b ∑ x i + c ∑ x i2
i =1 i =1
n n n n
∑x
i =1
i y i = a ∑ x i + b ∑ x i2 + c ∑ x i3
i =1 i =1 i =1
n n n n
∑ x i2 y i = a ∑ x i2 + b ∑ x i3 + c ∑ x i4
i =1 i =1 i =1 i =1
∑ d i2, j = ∑ ( yˆ − y )
2
M = j
i , j =1 i , j =1
b
donde yˆ i = a +
xi
por tanto,
2
bn
M = ∑ a + − yj
i , j =1 xi
Para minimizar la expresión, se calculan las derivadas parciales respecto a los parámetros a y b ,
igualando a cero:
∂M n
b
= 2 ∑ a + − yj = 0
∂a
i , j =1 xi
n 1
∂ M b
∂b = 2 ∑
i , j =1
a +
xi
− y j = 0
xi
En consecuencia, las ecuaciones normales serán:
n b n
1 n
∑ a + − yj = 0
a N + b ∑ = ∑ yj
i , j =1 xi i =1 x i
j =1
⇔ n
n 1 1 n
1 n yj
b
∑ a + x − y j x = 0
a ∑
i =1 x i
+ b ∑ 2
i =1 x i
= ∑
i , j =1 x i
i , j =1 i i
8
Figura 4.
Modelo potencial
Si en la expresión de la función potencial se toman logaritmos, se obtiene:
log Y = log A + b log X
que es la ecuación de una recta Y = a + b X , donde ahora a = log A . El problema se reduce a transformar
Y en log Y y X en log X y ajustar una recta a los valores transformados. El parámetro b del modelo
potencial coincide con el coeficiente de regresión de la recta ajustada a los datos transformados y A se
obtiene mediante antilog ( a ) .
Modelo exponencial
En determinados experimentos, en su mayoría biológicos, la dependencia entre las variables X e Y es de
forma exponencial, en cuyo caso interesa ajustar a la nube de puntos una función del tipo:
y = exp ( a + b x ) . Mediante una transformación lineal, tomando logaritmos neperianos, se convierte el
problema en una cuestión de regresión lineal. Es decir, tomando logaritmos neperianos:
ln y = a + b x
Y llamando Y = ln y se tiene Y = a + b x (regresión lineal).
Para simplificar, descartando multiplicidades y suponiendo que cada par se repite una sola vez, las
ecuaciones normales serán:
n n
a N + b ∑ xi = ∑ ln y i
i =1 i =1
n n n
a x + b x 2 =
∑
i =1 i ∑i =1
i ∑x
i =1
i ln y i
9
Modelo logarítmico
Figura 5.
La curva logarítmica Y = a + b log X es también una recta, pero en lugar de estar referida a las variables
originales X e Y , está referida a log X y a Y .
* 2
10.1. Ajuste de una función parabólica: Y = a + b X + c X
X Y X2 X3 X4 XY X2Y Y* e=Y-Y* e2
1 1,25 1 1 1 1,25 1,25 1,18 0,07 0,0049
2 5 4 8 16 10 20 5,11 -0,11 0,0121
3 11,25 9 27 81 33,75 101,5 11,32 -0,07 0,0049
4 20 16 64 256 80 320 19,81 0,19 0,0361
5 30,5 25 125 625 152,5 762,5 30,58 -0,08 0,0064
Σ 15 68 55 225 979 277,5 1205 68 0 0,0644
1/5 Σ 3 13,6 11 55,5 13,6 0 0,0128
10
Bondad del ajuste
Coeficiente de determinación:
S Y2* S e2 0, 01288
R 2
= 2
= 1− 2
= 1− = 0,9998
S Y S Y 111, 715
N
∑e
i =1
2
S e2 = ECM 2 = = 0, 01288
N
* b
10.2. Ajuste de una función potencial: Y = a X
Linealizando:
ln Y * = ln a + b ln X … ⇒ V * = A + bU
∑e ≠ 0
n
5∑
1 UV − UV
SUV i =1 2, 6856 − 0,9575 × 2,1332
b = = = = 1,9902
S 2 n
1, 2397 − 0,9575 2
5∑
U 1 U2 −U2
i =1
∑e
i =1
2
i
ECM 3 = = 0, 0397
N
Nótese que al haber transformado la variable dependiente ya no se minimiza ∑e 2
sino
∑ ( ln Y − ln Y ) ∑e ≠ 0 .
* 2
de ahí que
11
* X
10.3. Ajuste de una función exponencial: Y = a b
Linealizando:
ln Y * = ln a + X ln b … ⇒ V * = A + B X
X Y V=lnY X2 XV Y* e=Y-Y* e2
1 1,25 0,2231 1 0,2231 1,7794 -0,529 0,2798
2 5 1,6094 4 3,2188 3,86 1,138 1,2950
3 11,25 2,4203 9 7,2609 8,37 2,88 8,2944
4 20 2,9957 16 11,983 18,18 1,82 3,3124
5 30,5 3,4177 25 17,088 39,45 -8,95 80,102
Σ 15 68 10,666 55 39,774 71,64 -3,641 95,803
1/5 Σ 3 13,6 2,1332 11 7,9548 14,328 -0,728 19,16
∑e ≠ 0
n
5∑
1 XV − XV
S XV i =1 7,9548 − 2,1332 × 3
B = = = = 0, 7776
S 2 n
11 − 3 2
5∑
X 1 X2 − X2
i =1
∑e
i =1
2
i
ECM 4 = = 19,16
N
La comparación de la bondad de modelos de regresión mediante el coeficiente de determinación sólo es
correcta cuando la variable dependiente no ha sido sometida a transformaciones no lineales (por ejemplo,
2
una transformación logarítmica). En este ejercicio, mediante R sólo se puede comparar la regresión lineal
y la parabólica. Por eso, para comparar los cuatro ajustes efectuados se utiliza el error cuadrático medio
(ECM). El mejor ajuste resulta ser el parabólico puesto que presenta el menor valor para el ECM.
y i = α 1 exp ( )
α 2 x i + α 3 x i2 + ε i
12
la función de regresión m ( x , α ) = α 1 exp ( α2 x + α3 x2 ) no es lineal ni se puede transformar en
lineal, sería un modelo de regresión no lineal. La forma general de estos modelos es:
y i = m ( x i ,α ) + ε i
donde m es una función que depende de un vector de parámetros α que es necesario estimar;
εi son los errores que se supone que verifican las mismas hipótesis que el modelo lineal.
El estudio de los modelos de regresión no lineal es muy extenso y complejo sobre el que existe una amplia
literatura sobre el tema. Textos de referencia son los de Bates y Watts (1988) y Seber y Wild (1989).
La estimación del vector de parámetros α se realiza por el método de mínimos cuadrados. Esto es, se
calcula el α que minimiza la función de la suma de residuos al cuadrado:
∑( y )
n
− m ( x i ,α )
2
Ψ (α ) = i
i =1
El algoritmo para minimizar esta función es un procedimiento iterativo que se basa en el método de Gauss–
Newton o en algoritmos más complejos como el algoritmo de Levenberg–Marquard. Para aplicar estos
procedimientos se parte de unos valores iniciales α 0 que permiten iniciar el algoritmo iterativo y en cada
Ejemplo 1
Se ha diseñado un experimento para estudiar la resistencia de un material plástico que es sometido a un
proceso de calentamiento constante durante un período de tiempo. Para ello se han realizado pruebas en
las que se ha sometido al material a una temperatura T constante durante t períodos de tiempo
predeterminados. A continuación se somete el material a unas pruebas de resistencia que se miden según
la variable Y . Los resultados de estas pruebas son los de la tabla adjunta.
t Y t Y t Y
8 0'49 20 0'42 32 0'41
0'49 0'42 0'40
0'43
10 0'48 22 0'41 34 0'40
0'47 0'41
0'48 0'40
0'47
12 0'46 24 0'42 36 0'41
0'46 0'40 0'38
0'45 0'40
0'43
14 0'45 26 0'41 38 0'40
0'43 0'40 0'40
0'43 0'41
16 0'44 28 0'41 40 0'39
0'43 0'40
0'43
18 0'46 30 0'40 42 0'39
0'45 0'40
0'38
13
Se desea estudiar la relación de la variable resistencia Y en relación con la variable explicativa tiempo T .
A la vista del gráfico de las observaciones y por estudios realizados anteriormente se supone que la función
de regresión es de la forma:
m ( t ) = α 1 + ( 0, 49 − α 1 ) exp ( −α 2 ( t − 8 ) )
Para estimar este modelo de regresión se ha Utilizando el algoritmo iterativo indicado, obteniéndose el
modelo de regresión en catorce iteraciones. En la iteración inicial se utilizaron los valores α 1 = 0, 20 y
α 2 = 0,30 . Los resultados de las iteraciones se resumen en la tabla adjunta
iteración α1 α2 ∑e 2
iteración α1 α2 ∑e 2
14
12. Bibliografía
1. Dette H., Melas VB, Pepelyshev A. Optimal designs for a class of nonlinear regression models. Ann Stats
2004, 32: 2142–67.
2. Yong Xu, Jong-Yu Yang, Jian-Feng Lu. An efficient kernel-based nonlinear regression method for tuo-
class classification. Proceedings of the 4th International Conference on Machine Learning and Cybernetics,
Guangzhou, 2005.
3. Huet S, Bouvier A, Poursat MA, Jolivet E. Statistical tools for nonlinear regression A practical guide with S-
Plus and R. Examples. Springer Verlag, 2003.
4. Baran S. A consistent estimator for nonlinear regression models. Metrika 2005: 62: 1-15.
5. Mirta B. Confidence regions and intervals in nonlinear regresión. Math Comm 1997, 2: 71-6.
6. Matyska L, Kovai J. Comparison of several non-linear-regression methods for fitting the Michaelis-Menten
equation. Biochem J, 1985: 231; 171-7.
7. Motulsky H, Brown RE. Detecting outliers when fitting data with nonlinear regression – a new method
based on robust nonlinear regression and the false discovery rate. BMC Bioinformatics 2006, 7:123.
8. Bielecki A,. Podolak IT, Bielecka M. A Neuronal algorithm of nonlinear regression. Schedae Informaticae
2004; 13: 65-81.
9. Motulsky HJ, Christopoulos A. Fitting models to biological data using linear and nonlinear regression. A
practical guide to curve fitting. San Diego CA: GraphPad Software, 2003. www.graphpad.com.
10. Vidaurre G, Vasquez V R, Wallace B. Whiting robustness of nonlinear regression methods under
uncertainty: applications in chemical kinetics models Ind Eng Chem Res, 2004: 43;1395-404.
11. Peddada SD, Haseman JK. Analysis of nonlinear regression models: a cautionary note. Dose-Response
2005; 3: 342–52.
12. Seber GA, Wild CJ. Nonlinear regression. New York: Wiley, 1989.
13- Bethea RM, Duran BS, Boullion TL. Statistical methods for engineers and scientists. New York: Dekker,
1985.
14. Motulsky HJ, Ransnas LA. Fitting curves to data using nonlinear regression. FASEB J, 1987: 1;365-74.
15. McIntosh JEA, McIntosh RP. Mathematical modelling and computers in endocrinology. Berlin: Springer,
1980; 71.
16. eio.usc.es/eipc1/MATERIALES/311121873.pdf
17. www.monografias.com/trabajos26/estadistica-inferencial/estadistica inferencial.shtml
18. www.terra.es/personal/joseantm/Archiv%20pdf/96zoomc
19. www.eui.upm.es/~plpuche/estadistica/2007%20 %202008/Tema%201/regrealumnos
20. /www.unoweb-s.uji.es/A22/lista0/theList/TEMA%204.doc
21. www.uam.es/personal_pdi/economicas/arantxa/No_linealidad.pdf
22. www.ugr.es/~rruizb/cognosfera/sala_de_estudio/estadistica/regresion.ppt
23. 155.210.58.160/asignaturas/15909/ficheros/Tema6_notas4.pdf –
24. www.ugr.es/~ramongs/sociologia/regresionlogistica.pdf
25. webs.um.es/mhcifre/apuntes/practicas_minitab.pdf
26. www.uv.es/~yague/docencia/regresion.doc
27. personal.us.es/jgam/API2005/2005_5_5.doc
28. biplot.usal.es/ALUMNOS/BIOLOGIA/5BIOLOGIA/Regresionsimple.pdf
29. www.stat.ufl.edu/~winner/sta6934/lognlreg.ppt
30. hadm.sph.sc.edu/COURSES/J716/pdf/716-5%20Non linear%20regression.pdf
31. www.uv.es/ceaces/base/regresion/REGRESIN.HTM
15