Está en la página 1de 10

REGRESIÓN NO LINEAL

Regresión Polinomial.- Si el diagrama de dispersión muestra una curvatura, entonces


podríamos usar un polinomio en X, de cierto grado, para aproximar la verdadera curva
de regresión. En general el modelo matemático es:

Y   0  1 X   2 X 2   3 X 3 .  .......... .......... .......... .........   k X k   i

 1 Coeficient e lineal
Donde  2  Coeficient e cuadrático
 3  Coeficient e cúbico
Cabe destacar que lo que se busca y se prefiere en forma general es un polinomio de un
orden relativamente bajo; se deberá evitar el empleo de potencias muy grandes de la
variable de predicción.
Muchas veces un modelo completo de segundo orden que contiene términos lineales,
cuadráticos y de interacción, proporciona una aproximación funcional excelente.

Modelo de Regresión Polinomial de Segundo Grado

Y   0  1 X   2 X 2

Donde 1 es el coeficiente lineal y 2 es el coeficiente cuadrático.


El interés recae en probar la hipótesis:
H0 : 2  0
H1 :  2  0

Ejemplo.- La demanda de cierto producto cambió debido a una variación rápida de su


precio por unidad. Supóngase que la demanda Y del producto se observa en una región
geográfica sobre un intervalo bastante amplio de precios X.
Demanda Precio
(unidades) (dólares)
360 8.8
305 9.7
230 9.9
242 10.3
180 11.0
172 12.5
121 13.2
83 14.8
122 15.8
91 17.4
105 18.2
Determine el grado de un polinomio que mejor se ajuste estos datos.

Solución
El diagrama de dispersión revela una curvatura, lo cual indica que debe intentarse el
ajuste con un modelo cuadrático, cuya ecuación de regresión muestral es:
 Y = a n + b1  X + b2  X 2
 XY = a  X + b1  X2 + b2  X3
 X2Y = a  X2 + b1  X3 + b2  X4

Diagrama de dispersión

350

300
Demanada (unidades)

250

200

150

100

10 12 14 16 18
Precio (dólares)

Nota.- Si consideramos que el modelo es lineal, la ecuación de regresión sería:

Y = 497 - 24,4 X

Predictor Coef SE Coef T P

Constante 497,16 60,85 8,17 0,000


X -24,419 4,594 -5,32 0,000

S = 47,5282 R-cuad. = 75,8% R-cuad.(ajustado) = 73,2%

Por lo pronto estamos aceptando que el modelo es lineal, con un R 2 = 75.8% Enseguida
trataremos de ver si el modelo cuadrático es el que mejor relaciona a dichas variables.

Y X X*Y X*2 X*2 ( Y ) X*3 X*4


360 8,8 3168,0 77,44 27878,4 681,47 5997
305 9,7 2958,5 94,09 28697,5 912,67 8853
230 9,9 2277,0 98,01 22542,3 970,30 9606
242 10,3 2492,6 106,09 25673,8 1092,73 11255
180 11,0 1980,0 121,00 21780,0 1331,00 14641
172 12,5 2150,0 156,25 26875,0 1953,13 24414
121 13,2 1597,2 174,24 21083,0 2299,97 30360
83 14,8 1228,4 219,04 18180,3 3241,79 47979
122 15,8 1927,6 249,64 30456,1 3944,31 62320
91 17,4 1583,4 302,76 27551,2 5268,02 91664
105 18,2 1911,0 331,24 34780,2 6028,57 109720

En donde Y = 2011  X = 141.6  XY = 23273.7  X2 = 1929.8

 X2Y = 285497.73  X3 = 27723.96  X4 = 416807.7764

Luego reemplazando en el sistema de ecuaciones y resolviendo obtenemos la siguiente


ecuación de regresión:
2
Ŷ = 1330.4 - 155.47 X + 4.866 X

a  Y  b1  XY  b2  X 2  Y
Y 
2

Por otro lado r 


2 n
 Y  2

Y 2

n

Reemplazando los resultados obtenidos en dicha fórmula tenemos que r2 = 0.936


Lo cual nos indica que el 93.6 % de las variaciones que se observan en la demanda, se
explican por la variación de los precios y el 6.4 % restante se debería a la influencia de
alguna otra variable no tomada en cuenta en nuestro estudio.

Resultados obtenidos por computadora, en MINITAB

Predictor Coef SE Coef T P


Constant 1330,4 179,6 7,41 0,000
X -155,47 27,87 -5,58 0,001
X**2 4,866 1,031 4,72 0,001

S = 25,9058 R-Sq = 93,6% R-Sq(adj) = 92,0%

Análisis de Varianza
Fuente de Variación GL SC CM F P
Regresión 2 78777 39388 58,69 0,000
Error Residual 8 5369 671
Total 10 84146
Análisis de varianza adicional; nos muestra la Suma de Cuadrados explicada por cada
variable que entre en el orden dado:

Fuente de Variación GL SC Secuencial

X 1 63815
X**2 1 14962

Prueba de hipótesis para evaluar la significancia del coeficiente  2


Ho: B2 = 0 (El incluir el efecto curvilíneo no mejora significativamente el modelo)
H1: B2  0
Usando  = 0.05
Variable estadística: Fc = 14962 = 22.3
671

Regla de decisión: Rechazaremos Ho si Fc > F(1,8) 0.05 = 5.32

Por lo que rechazaremos Ho; por lo tanto incluiremos a B 2 (coeficiente cuadrático) en


nuestra ecuación de regresión.

Nota.- Similar conclusión es la que podemos obtener si observamos el valor de


P = 0.001 correspondiente a la variable X**2

Línea de regresión estimada


Y = 1330 - 155,5 X
+ 4,866 X**2
S 25,9058
350 R-Sq 93,6%
R-Sq(adj) 92,0%

300

250
Y

200

150

100

10 12 14 16 18
X

Regresión Exponencial o Semilogarítmica


Este modelo tiene la siguiente forma:

Yˆ  ab x o Log Yˆ  log a  x log b donde

log a 
 X  log Y   X  X log Y
2

n  X   X  2 2

n X log Y   X  log Y
log b 
n X 2   X 
2

log a  log Y  log b 


 logY 
X log Y  
2

Por otro lado: r2  n


  logY  2

  logY  2

n

Ejemplo.- Los siguientes datos se obtuvieron de observaciones periódicas hechas


durante el crecimiento de una población de células de levadura. Se efectuaron
recuentos cada dos horas:
X: Horas 2 4 6 8 10 12 14
Y: Nº de células 19 37 72 142 295 584 995

Solución
X Y Log Y X**2 X*log Y

2 19 1,278754 4 2,557508
4 37 1,568202 16 6,272808
6 72 1,857332 36 11,143992
8 142 2,152288 64 17,218304
10 295 2,469822 100 24,698220
12 584 2,766413 144 33,196956
14 995 2,997823 196 41,969522
56 15,09063 560 137,057310
Diagrama de dispersión

1000

800
Nº de células

600

400

200

0
2 4 6 8 10 12 14
Tiempo (horas)

La ecuación de regresión exponencial obtenida es:


Log Ŷ = 0.9892 + 0.1458 X
Por otro lado r2 = 0.999
Lo cual indica un alto grado de ajuste, es decir la ecuación obtenida es altamente
confiable para hacer nuestras estimaciones.
También podemos expresar la ecuación de regresión en función de sus antilogarítmos en
la forma:
Yˆ   9.7548 1.399 
X

En donde

b  1  t  t  (b  1)100%  t  (1.399  1)100%  39.9% tasa promedio de crecimient o


De acuerdo a esto, podemos decir que las células de levadura aumentan
aproximadamente en un 40 % por hora.

Análisis de regresión: Log Y vs. X

La ecuación de regresión es
Log Y = 0,989 + 0,146 X

Predictor Coef SE Coef T P


Constante 0,98922 0,01856 53,29 0,000
X 0,145824 0,002076 70,26 0,000

S = 0,0219652 R-cuad. = 99,9% R-cuad.(ajustado) = 99,9%

Análisis de varianza
Fuente GL SC CM F P
Regresión 1 2,3816 2,3816 4936,30 0,000
Error residual 5 0,0024 0,0005
Total 6 2,3840

Línea de regresión estimada


logten(Y) = 0,9892 + 0,1458 X
1200 S 0,0219652
R-Sq 99,9%
R-Sq(adj) 99,9%
1000
Número de células

800

600

400

200

0
2 4 6 8 10 12 14
Tiempo (horas)

Nota.- Usando logaritmos naturales

Yˆ  a e bx  Ln Y  Ln a  b X

En donde  Ln Y  34.74748

La ecuación de regresión es:

L n Yˆ  2.27775  0.335771 X

Tasa de crecimiento: t  (e b  1)100%


t  (e 0.33577  1)100%  (1.399  1)100%  39.9%

Regresión Potencial o Modelo Logarítmica

Yˆ  aX b o también Log Yˆ  log a  b log X

  log X   log Y   log X   log X log Y 


2

Donde: log a 
n   log X     log X 
2 2
b
n   log X log Y    log X   log Y 
n   log X     log X 
2 2

log a  log Y
 logY 
 b   log X log Y   
2

Por otro lado r2  n


 log Y     logY 
2


2
n

Ejemplo.- Las cantidades Y de una sustancia no transformada en seis reacciones


similares después de X minutos; están dadas en la siguiente tabla:
X (min): 1 2 2 3 5 6
Y (mg): 23.5 16.9 17.5 14 9.8 8.9

X Y Log X Log Y LogX*LogY Log X**2

1 23,5 0,000000 1,37107 0,000000 0,000000


2 16,9 0,301030 1,22789 0,369631 0,090619
2 17,5 0,301030 1,24304 0,374192 0,090619
3 14,0 0,477121 1,14613 0,546842 0,227645
5 9,8 0,698970 0,99123 0,692837 0,488559
6 8,9 0,778151 0,94939 0,738769 0,605519
2,556302 6,92874 2,722271 1,502961

La ecuación de regresión potencial obtenida es:

Log Ŷ = 1.39128 - 0.55508 log X

Por otro lado r2 = 0.989

También podemos expresar la ecuación de regresión en función del antilogaritmo de a,


en la forma siguiente:

Yˆ   24.619544  X 
0.55508

De acuerdo a esto, podemos decir que al incrementarse el tiempo en 1 %, entonces la


cantidad de sustancia no transformada, se espera que se reduzca en 0.555 %.

Resultados obtenidos en MINITAB


The regression equation is
Log Ŷ = 1,3913 - 0,5551 Log X

Predictor Coef SE Coef T P


Constant 1,39128 0,01461 95,25 0,000
Log X -0,55508 0,02919 -19,02 0,000

S = 0,0187756 R-Sq = 98,9% R-Sq(adj) = 98,6%

Línea de regresión estimada


logten(Y) = 1,391 - 0,5551 logten(X)
25,0 S 0,0187756
R-Sq 98,9%
R-Sq(adj) 98,6%
22,5

20,0

17,5
Y

15,0

12,5

10,0

1 2 3 4 5 6
X

El valor de predicción Ŷ cuando X = 4 minutos es:


Log Ŷ = 1.3913 - 0.5551 log 4 = 1.0570965
Entonces Ŷ = 11.4 mg

Nota.- Un modelo puede reportar un coeficiente de determinación más alto que otro
(eso es bueno) mientras que tiene un error estándar de estimación mayor (eso es malo).
La pregunta sería ¿Cuál modelo utilizar?
La respuesta depende, al menos en parte, del propósito para el cual está destinado el
modelo. Si se desea, utilizar el modelo para explicar los valores presentes de Y; y
comprender porqué se comportan como lo hacen, se utiliza el modelo con el coeficiente
de determinación más alto.
Si por otra parte, el propósito del modelo es predecir los valores futuros de Y, se utiliza
el modelo con el error estándar de estimación más bajo. Si se desea predecir, se gozará
de más éxito con el modelo que genera el menor error de predicción.

También podría gustarte