Está en la página 1de 14

donde a0 y a1 son coeficientes que representan la inter-

sección con el eje y y la pendiente, respectivamente, e es


el error, o diferencia, entre el modelo y las observaciones,
Regresión por mı́nimos cuadrados el cual se representa al reordenar la ecuación 1 como

e = y–a0 –a1 x
Ası́, el error o residuo es la discrepancia entre el valor
24 de octubre de 2019 verdadero de y y el valor aproximado, a0 +a1 x, que predijo
la ecuación lineal.

Cuando los datos tienen errores sustanciales, la inter-


1.1. Criterio para un ’mejor’ ajuste
polación polinomial es inapropiada y puede dar resultados
poco satisfactorios cuando se utiliza para predecir valores Una estrategia para ajustar una “mejor” lı́nea a través
intermedios. Con frecuencia los datos experimentales son de los datos será minimizar la suma de los errores residua-
de este tipo. Por ejemplo, en la figura ??a se muestran sie- les de todos los datos disponibles, como sigue:
te datos obtenidos experimentalmente que presentan una n n
variabilidad significativa. Una inspección visual de esos X X
ei = (yi − a0 − a1 xi ) (2)
datos sugiere una posible relación entre y y x. Es decir,
i=1 i=1
la tendencia general indica que valores altos de y están
donde n = número total de puntos. Sin embargo, éste
asociados con valores altos de x. Ahora, si un polinomio
es un criterio inadecuado, como lo muestra la figura ??a),
de interpolación de sexto grado se ajusta a estos datos
la cual presenta el ajuste de una lı́nea recta de dos puntos.
??b, pasará exactamente a través de todos los puntos.
Obviamente, el mejor ajuste es la lı́nea que une los pun-
Sin embargo, a causa de la variabilidad en los datos, la
tos. Sin embargo, cualquier lı́nea recta que pase a través
curva oscila mucho en el intervalo entre los puntos. En
del punto medio que une la lı́nea (excepto una lı́nea per-
particular, los valores interpolados para x = 1.5 y x = 6.5
fectamente vertical) da como resultado un valor mı́nimo
parecen estar bastante más allá del rango sugerido por los
de la ecuación 2 igual a cero, debido a que los errores se
datos.
cancelan.
Una estrategia más apropiada en tales casos consiste en
obtener una función de aproximación que se ajuste a la
Por lo tanto, otro criterio lógico podrı́a ser minimizar
forma o a la tendencia general de los datos, sin coincidir
la suma de los valores absolutos de las discrepancias,
necesariamente en todos los puntos. La figura ??c ilustra
cómo se utiliza una lı́nea recta para caracterizar de mane- n
X n
X
ra general la tendencia de los datos sin pasar a través de | ei |= | yi − a0 − a1 xi |
algún punto especı́fico. i=1 i=1
Una manera para determinar la lı́nea de la figura ??c La figura ??b) muestra por qué este criterio también es
es inspeccionar en forma visual los datos graficados y inadecuado. Para los cuatro puntos dados, cualquier lı́nea
después trazar una “mejor” lı́nea a través de los puntos. recta que esté dentro de las lı́neas punteadas minimizará
Aunque tales procedimientos “a ojo” apelan al sentido el valor absoluto de la suma. Ası́, este criterio tampoco
común y son válidos para cálculos “superficiales”, resul- dará un único mejor ajuste.
tan deficientes por ser arbitrarios. Es decir, a menos que Una tercera estrategia para ajustar una mejor lı́nea es el
los puntos definan una lı́nea recta perfecta (en cuyo caso criterio minimax. En esta técnica, la lı́nea se elige de ma-
la interpolación resultarı́a apropiada), diferentes analistas nera que minimice la máxima distancia a que un punto se
dibujarı́an lı́neas distintas. encuentra de la lı́nea. Como se ilustra en la figura ??c),
Para dejar a un lado dicha subjetividad se debe encontrar tal estrategia es inadecuada para la regresión, ya que da
algún criterio para establecer una base para el ajuste. excesiva influencia a puntos fuera del conjunto; es decir,
Una forma de hacerlo es obtener una curva que minimice a un solo punto con un gran error. Deberá observarse que
la discrepancia entre los puntos y la curva. Una técnica el principio minimax es, en algunas ocasiones, adecuado
para lograr tal objetivo, llamada regresión por mı́nimos para ajustar una función simple a una función complicada
cuadrados, se analizará en este capı́tulo. (Carnahan, Luther y Wilkes, 1969).
La estrategia que supera las deficiencias de los procedi-
mientos mencionados consiste en minimizar la suma de
los cuadrados de los residuos entre la y medida y la y cal-
1. Regresión Lineal culada con el modelo lineal
El ejemplo más simple de una aproximación por mı́ni- n n n
X X X
mos cuadrados es ajustar una lı́nea recta a un conjunto de Sr = e2i = (yi,medida −yi,modelo )2 = (yi −a0 −a1 xi )2
observaciones definidas por puntos: (x1, y1), (x2, y2),. . . , i=1 i=1 i=1
(xn, yn). La expresión matemática para la lı́nea recta es (3)
Este criterio tiene varias ventajas, entre ellas el hecho
y = a0 + a1 x + e (1) de que se obtiene una lı́nea única para cierto conjunto de
1
datos. Antes de analizar tales propiedades, presentaremos Mediante las ecuaciones 6 y 7
una técnica para determinar los valores de a0 y a1 que
7(119,5)−28(24)
minimizan la ecuación 3. a1 = 7(140)−(28)2 = 0,8392857

a0 = 3,428571 − 0,8392857(4) = 0,07142857


1.2. Ajuste de una lı́nea recta por mı́ni-
mos cuadrados
Para determinar los valores de a0 y a1 , la ecuación 3 Por lo tanto, el ajuste por mı́nimos cuadrados es
se deriva con respecto a cada uno de los coeficientes:
y = 0,07142857 + 0,8392857x
∂Sr X
= −2 (yi − a0 − a1 xi ) La lı́nea, junto con los datos, se muestran en la figura
∂a0
??c)
∂Sr X
= −2 [(yi − a0 − a1 xi )xi ]
∂a1 1.3. Cuantificación del error en la regre-
Observe que hemos simplificado los sı́mbolos de la su- sión lineal
matoria; a menos que se indique otra cosa, todas las suma-
torias van desde i = 1 hasta n. Al igualar estas derivadas Cualquier otra lı́nea diferente a la calculada en el ejem-
a cero, se dará como resultado un Sr mı́nimo. Si se hace plo 1 dará como resultado una suma mayor de los cuadra-
esto, las ecuaciones se expresan como dos de los residuos. Ası́, la lı́nea es única y, en términos de
nuestro criterio elegido, es la “mejor” lı́nea a través de los
X X X puntos. Varias propiedades de este ajuste se observan al
0= yi − a0 − a1 xi
examinar más de cerca la forma en que se calcularon los
X X X
2 residuos. Recuerde que la suma de los cuadrados se define
0= yi xi − a0 xi − a1 xi
como [ecuación (3)]
P
Ahora, si observamos que a0 = na0 , expresamos las n n
X X
ecuaciones como un conjunto de dos ecuaciones lineales sr = e2i = (yi − a0 − a1 xi )2 (8)
simultáneas, con dos incógnitas (a0 y a1 ): i=1 i=1
X
(yi − ȳ)2
X X
na0 + ( xi )ai = yi (4) st = (9)

X X X Observe la similitud entre las ecuaciones (9) (vista en


( xi )a0 + ( x2i )ai = xi yi (5) el capı́tulo anterior) y (8). En el primer caso, el cuadra-
do del residuo representa el cuadrado de la discrepancia
Éstas se llaman ecuaciones normales, y se resuelven en entre el dato y una estimación de la medida de tendencia
forma simultánea central: la media. En la ecuación (8), el cuadrado del re-
P P P siduo representa el cuadrado de la distancia vertical entre
n xi yi − xi yi el dato y otra medida de tendencia central: la lı́nea recta
a1 = P 2 P (6)
n xi − ( xi )2 (figura ??).
Este resultado se utiliza conjuntamente con la ecuación
4 para obtener
La analogı́a se puede extender aún más en casos donde
1. la dispersión de los puntos alrededor de la lı́nea es de
a0 = ȳ − a1 x̄ (7)
magnitud similar en todo el rango de los datos, y 2. la
donde ȳ y x̄ son las medias de y y x, respectivamente. distribución de estos puntos cerca de la lı́nea es normal.
Es posible demostrar que si estos criterios se cumplen, la
regresión por mı́nimos cuadrados proporcionará la mejor
EJEMPLO 1 Regresión lineal (es decir, la más adecuada) estimación de a0 ya1 (Draper y
Smith, 1981). Esto se conoce en estadı́stica como el princi-
Planteamiento del problema. Ajuste a una lı́nea pio de máxima verosimilitud. Además, si estos criterios se
recta los valores x y y en las dos primeras columnas de la satisfacen, una “desviación estándar” para la lı́nea de re-
tabla 17.1. gresión se determina como sigue [compare con la ecuación
(10) vista en el capı́tulo anterior]
Solución. Se calculan las siguientes cantidades: r
St
Sy = (10)
x2i = 140 n−1
P P
n=7 xi yi = 119,5
r
P
xi = 28 x̄ = 28
=4 Sr
7 Sy/x = (11)
n−2
24
P
yi = 24 ȳ = 7 = 3,428571 donde a Sy/x se le llama error estándar del estimado.
El subı́ndice “y/x” designa que el error es para un valor
2
predicho de y correspondiente a un valor particular de x. q
También, observe que ahora dividimos entre n − 2 debido Sy = 22,7143
7−1 = 1,9457
a que se usaron dos datos estimados (a0 ya1 ), para calcu-
lar Sr ; ası́, se han perdido dos grados de libertad. Como y el error estándar del estimado es [ecuación (11)]
lo hicimos en nuestro análisis para la desviación estándar
en PT5.2.1, otra justificación para dividir entren–2 es que
q
Sy/x = 2,9911
7−2 = 0,7735
no existe algo como “datos dispersos” alrededor de una
lı́nea recta que une dos puntos. De esta manera, en el caso
Como Sy/x < sy , el modelo de regresión lineal es ade-
donde n = 2, la ecuación (11) da un resultado sin sentido,
cuado. La mejora se puede cuantificar mediante [ecuación
infinito.
(12)]
Ası́ como en el caso de la desviación estándar, el error
estándar del estimado cuantifica la dispersión de los da-
tos. Aunque, Sy/x cuantifica la dispersión alrededor de la r2 = 22,7143−2,9911
22,7143 = 0,868
lı́nea de regresión, como se muestra en la figura ??b), a
diferencia de la desviación estándar original sy que cuan- o
tifica la dispersión alrededor de la media (figura ??a)). √
r = 0,868 = 0,932

Los conceptos anteriores se utilizan para cuantificar la Los resultados indican que el modelo lineal explicó el
“bondad” de nuestro ajuste. 86,8 % de la incertidumbre original.
Esto es en particular útil para comparar diferentes regre-
siones (figura ??). Para hacerlo, regresamos a los datos Antes de implementar el programa computacional pa-
originales y determinamos la suma total de los cuadrados ra la regresión lineal, debemos tomar en cuenta algunas
alrededor de la media para la variable dependiente (en consideraciones. Aunque el coeficiente de correlación ofre-
nuestro caso, y). Como en el caso de la ecuación (9), esta ce una manera fácil de medir la bondad del ajuste, se
cantidad se designa por St . Ésta es la magnitud del error deberá tener cuidado de no darle más significado del que
residual asociado con la variable dependiente antes de la ya tiene. El solo hecho de que r sea “cercana” a 1 no
regresión. Después de realizar la regresión, calculamos Sr , necesariamente significa que el ajuste sea “bueno”. Por
es decir, la suma de los cuadrados de los residuos alrededor ejemplo, es posible obtener un valor relativamente alto
de la lı́nea de regresión. Esto caracteriza el error residual de r cuando la relación entre y y x no es lineal. Draper
que queda después de la regresión. Es por lo que, algunas y Smith (1981) proporcionan guı́as y material adicional
veces, se le llama la suma inexplicable de los cuadrados. respecto a la evaluación de resultados en la regresión li-
La diferencia entre estas dos cantidades, St −Sr , cuantifica neal. Además, como mı́nimo, usted deberá inspeccionar
la mejora o reducción del error por describir los datos en siempre una gráfica de los datos junto con su curva de
términos de una lı́nea recta en vez de un valor promedio. regresión. Como se describe en la siguiente sección, los
Como la magnitud de esta cantidad depende de la escala, paquetes de software tienen estas capacidades.
la diferencia se normaliza a St para obtener
St − Sr EJEMPLO 3. Regresión lineal usando la
r2 = (12) computadora
St
Planteamiento del problema. Se utiliza el software
donde r2 se conoce como el coeficiente de√determina- basado el código expuesto para resolver un problema de
ción y r es el coeficiente de correlación (= r2 ). En un prueba de hipótesis relacionado con la caı́da del paracai-
ajuste perfecto, Sr = 0 y r = r2 = 1, significa que la dista que se analizó en el capı́tulo 1. Un modelo teórico
lı́nea explica el 100 % de la variabilidad de los datos. Si matemático para la velocidad del paracaidista se dio como
r = r2 = 0, Sr = St el ajuste no representa alguna mejora. sigue
Una representación alternativa para r que es más conve-
niente para implementarse en una computadora es c
v(t) = gm
c (1 − e
(− m )t
)
P P P
n xi yi − ( xi )( yi ) donde v = velocidad (m/s), g = constante gravitacio-
r= p P 2 (13)
nal (9,8m/s2 ), m = masa del paracaidista igual a 68,1kg y
P 2p P 2 P
n xi − ( xi ) n yi − ( yi )2
c = coeficiente de arrastre de 12,5kg/s. El modelo predice
la velocidad del paracaidista en función del tiempo.
EJEMPLO 2. Estimación de errores en el ajus- Un modelo empı́rico alternativo para la velocidad del pa-
te lineal por mı́nimos cuadrados racaidista está dado por

Planteamiento del problema. Calcule la desviación


estándar total, el error estándar del estimado y el coefi- gm t
v(t) = ( ) (14)
ciente de correlación para los datos del ejemplo 1. c 3,75 + t
Solución. Las sumatorias se realizan y se presentan
en la tabla 1. La desviación estándar es [ecuación (10)]
3
Suponga que usted quiere probar y comparar la vera- llevarı́a a la conclusión de que la pendiente y la intersec-
cidad de esos dos modelos matemáticos. Esto se podrı́a ción fueran 1 y 0 respectivamente. Por lo anterior, es claro
hacer al medir la velocidad real del paracaidista con va- que, más que apoyarse en un juicio subjetivo, es preferible
lores conocidos de tiempo y al comparar estos resultados basar tal conclusión sobre un criterio cuantitativo.
con las velocidades predichas de acuerdo con cada modelo. Esto se logra al calcular intervalos de confianza para los
parámetros del modelo.

Se implementó un programa para la recolección de


datos experimentales, y los resultados se enlistan en la
1.4. Linealización de relaciones no linea-
columna a) de la tabla ??. Las velocidades calculadas con
cada modelo se enlistan en las columnas b) y c). les
La regresión lineal ofrece una poderosa técnica para
Solución. La veracidad de los modelos se prueba al ajustar una mejor lı́nea a los datos. Sin embargo, se consi-
graficar la velocidad calculada por el modelo contra la dera el hecho de que la relación entre las variables depen-
velocidad medida. Se puede usar la regresión lineal para diente e independiente es lineal. Éste no es siempre el caso,
calcu- lar la pendiente y la intersección con el eje y de la y el primer paso en cualquier análi- sis de regresión deberá
gráfica. Esta lı́nea tendrá una pen- diente de 1, una inter- ser graficar e inspeccionar los datos en forma visual, pa-
sección de 0yr2 = 1 si el modelo concuerda perfectamente ra asegurarnos que sea posible usar un modelo lineal. Por
con los datos. Una desviación significativa de estos valores ejemplo, la figura ?? muestra algunos datos que obviamen-
sirve como una indicación de lo inadecuado del modelo. te son curvilı́neos. En algunos casos, las técnicas como la
Las figuras 17.7a y b muestran gráficas de la lı́nea y los regresión polinomial, que se describen en la siguiente sec-
datos para las regresiones de las columnas b) y c), respec- ción, son apropiadas. En otros, se pueden utilizar trans-
tivamente, contra la columna a). Para el primer modelo formaciones para expresar los datos en una forma que sea
[ecuación (15) como se ilustra en la figura 17.7a] compatible con la regresión lineal.
gm Un ejemplo es el modelo exponencial
v(t) = (1 − e−(c/m)t ) (15)
c
y = α1 eβ1 x (16)

vmodelo = –0,859 + 1,032vmedida donde a1 yb1 son constantes. Este modelo se emplea en
muchos campos de la ingenierı́a para caracterizar cantida-
y para el segundo modelo [ecuación (14) como se ilustra des que aumentan (β positivo) o disminuyen (β negati-
1 1
en la figura 17.7b], vo), a una velocidad que es directamente proporcional a
vmodelo = 5,776 + 0,752vmedida sus propias magnitudes. Por ejemplo, el crecimiento po-
blacional o el decaimiento radiactivo tienen este compor-
Esas gráficas indican que la regresión lineal entre los tamiento. Como se ilustra en la figura 17.9a, la ecuación
datos y cada uno de los modelos es altamente significativa. representa una relación no lineal (para β 6= 0) entre y y
1
Ambos modelos ajustan los datos con un coeficiente de x.
correlación mayor a 0.99. Otro ejemplo de modelo no lineal es la ecuación de poten-
No obstante, el modelo descrito por la ecuación (15) se cias
ajusta mejor a nuestro criterio de prueba de hipótesis que
el descrito por la ecuación (14), ya que la pendiente y la
y = α2 xβ2 (17)
intersección con el eje y son más cercanos a 1 y 0. Ası́,
aunque cada gráfica queda bien descrita por una lı́nea rec- donde α2 y β2 son coeficientes constantes. Este mo-
ta, la ecuación (15) parece ser un mejor modelo que la (14). delo tiene muchas aplicaciones en todos los campos de la
ingenierı́a. Como se ilustra en la figura 17.9b, la ecuación
(para β2 6= 0 o 1) es no lineal.
La prueba y la selección del modelo son actividades
comunes y muy importantes en todas las ramas de la inge- Un tercer ejemplo de un modelo no lineal es la ecuación
nierı́a. El material que se presentó antes en este capı́tulo, de razón del crecimiento [recuerde la ecuación (14)]
junto con su software, le ayudarán a resolver muchos pro-
x
blemas prácticos de este tipo. y = α3 (18)
β3 + x
El análisis en el ejemplo 3 tiene un defecto: el ejemplo donde α3 y β3 son coeficientes constantes. Este modelo
no fue ambiguo, ya que el modelo empı́rico [ecuación (14)] particularmente es adecuado para caracterizar la razón de
fue claramente inferior al de la ecuación (15). La pendien- crecimiento poblacional bajo condiciones limitantes, tam-
te y la intersección en el modelo empı́rico fueron mucho bién representa una relación no lineal entre y y x (figura
más cercanos a los resultados deseados 1 y 0, por lo que ??c) que se iguala o “satura”, conforme x aumenta.
resultó obvio cuál era el mejor modelo. Hay técnicas de regresión no lineal disponibles para ajus-
Sin embargo, suponga que la pendiente fuera de 0.85 y que tar estas ecuaciones de manera directa a datos experimen-
la intersección con el eje y fuera de 2. Obviamente esto tales. Sin embargo, una alternativa simple consiste en usar
4
manipulaciones matemáticas para transformar las ecua- 1.5. Comentarios generales sobre la regre-
ciones en una forma lineal. Después, se utiliza la regresión sión lineal
lineal simple para ajustar las ecuaciones a los datos.
Por ejemplo, la ecuación (16) se linealiza al aplicar el lo- Antes de plantear la regresión curvilı́nea y lineal múlti-
garitmo natural se obtiene ple, debemos enfatizar la naturaleza introductoria del ma-
terial anterior sobre regresión lineal. Nos hemos concen-
lny = lnα1 + β1 xlne trado en la obtención y el uso práctico de ecuaciones para
ajustarse a datos. Deberá estar consciente del hecho de que
Pero como lne = 1, hay aspectos teóricos de regresión que son de importancia
práctica, pero que van más allá del alcance de este libro.
lny = lnα1 + β1 x (19) Por ejemplo, algunas suposiciones estadı́sticas, inherentes
a los procedimientos lineales por mı́nimos cuadrados, son
Ası́, una gráfica de ln y contra x dará una lı́nea recta
con una pendiente β1 y una inter- sección con el eje de las 1. Cada x tiene un valor fijo; no es aleatorio y se conoce
ordenadas igual a ln α1 (figura ??d). sin error.
La ecuación (17) es linealizada al aplicar el logaritmo de
base 10 se obtiene 2. Los valores de y son variables aleatorias indepen-
dientes y todas tienen la misma varianza.
log y = β2 log x + log α2 (20) 3. Los valores de y para una x dada deben estar distri-
De este modo, una gráfica de log y contra log x dará buidos normalmente.
una lı́nea recta con pendiente β2 e intersección con el eje
Tales suposiciones son relevantes para la obtención
de las ordenadas logα2 (figura ??e).
adecuada y el uso de la regresión. Por ejemplo, la primera
La ecuación (18) es linealizada al invertirla para dar
suposición significa que 1. los valores x deben estar libres
1 β3 1 1 de errores, y 2. la regresión de y contra x no es la misma
= + (21) que la de x contra y. Usted debe consultar otras referen-
y α3 x α3
cias tales como Draper y Smith (1981) para apreciar los
De esta forma, una gráfica de 1/y contra 1/x será li-
aspectos y detalles de la regresión que están más allá del
neal, con pendiente β3 /α3 y una intersección con el eje de
alcance de este libro.
las ordenadas 1/α3 (figura ??f ).
En sus formas transformadas, estos modelos pueden usar
la regresión lineal para poder evaluar los coeficientes cons- 2. REGRESIÓN POLINOMIAL
tantes. Después, regresarse a su estado original y usarse
para fines predictivos. El ejemplo 4 ilustra este procedi- En la sección 1 se desarrolló un procedimiento pa-
miento con la ecuación (17). ra obtener la ecuación de una lı́nea recta por medio del
criterio de mı́nimos cuadrados. En la ingenierı́a, aunque
EJEMPLO 4 Linealización de una ecuación de algunos datos exhiben un patrón marcado, como el que
potencias se advierte en la figura ??, son pobremente representados
por una lı́nea recta, entonces, una curva podrá ser más
Planteamiento del problema. Ajuste la ecuación adecuada para ajustarse a los datos. Como se analizó en
(17) a los datos de la tabla 3 mediante una transformación la sección anterior, un método para lograr este objetivo
logarı́tmica de los datos. es utilizar transformaciones. Otra alternativa es ajustar
polinomios a los datos mediante regresión polinomial.
Solución. La figura ??a es una gráfica de los datos El procedimiento de mı́nimos cuadrados se puede exten-
originales en su estado no transformado. La figura ??b der fácilmente al ajuste de datos con un polinomio de
muestra la gráfica de los datos transformados. Una re- grado superior. Por ejemplo, suponga que ajustamos un
gresión lineal de esta transformación mediante logoritmos polinomio de segundo grado o cuadrático:
dan el siguiente resultado:
y = α0 + α1 x + α2 x2 + e
log y = 1,75 log x–0,300
En este caso, la suma de los cuadrados de los residuos
es [compare con la ecuación (3)]
Ası́, la intersección con el eje de las ordenadas es log α2
igual a –0.300 y, por lo tanto, al tomar el antilogaritmo, X n

α2 = 10–0,3 = 0,5. La pendiente es β2 = 1.75. En conse- Sr = (yi − α0 − α1 xi − α2 x2i )2 (22)


cuencia, la ecuación de potencias es i=1
Al seguir el procedimiento de la sección anterior, obte-
y = 0,5x1,75 nemos la derivada de la ecuación (22) con respecto a cada
uno de los coeficientes desconocidos del polinomio,
Esta curva, como se gráfica en la figura ??a, indica un
∂Sr
(yi − α0 − α1 xi − α2 x2i )
P
buen ajuste ∂α0 = −2

5
∂Sr
xi (yi − α0 − α1 xi − α2 x2i ) x3i = 225
P P
∂α1 = −2 ȳ = 25,433

∂Sr
x2i (yi − α0 − α1 xi − α2 x2i )
P
∂α2 = −2

Estas ecuaciones se igualan a cero y se reordenan para Entonces, las ecuaciones lineales simultáneas son
desarrollar el siguiente conjunto de ecuaciones normales:     
6 15 55 α0 152,6
15 55 225 α1  =  585,6 
X X X
(n)α0 + ( xi )α1 + ( x2i )α2 = yi 55 225 979 α2 2488,8
X X X X
2 3
( xi )α0 + ( xi )α1 + ( xi )α2 = xi yi (23)
X X X X
2 3 4
( xi )α0 + ( xi )α1 + ( xi )α2 = x2i yi Resolviendo estas ecuaciones con una técnica como la
eliminación de Gauss se tiene a0 = 2,47857, a1 = 2,35929
y a2 = 1,86071. Por lo tanto, la ecuación cuadrática por
donde todas las sumatorias van desde i = 1 hasta n.
mı́nimos cuadrados en este caso es
Observe que las tres ecuaciones anteriores son lineales y
tienen tres incógnitas:a0 , a1 y a2 . Los coeficientes de las
incógnitas se evalúan de manera directa, a partir de los y = 2,47857 + 2,35929x + 1,86071x2
datos observados.
En este caso, observamos que el problema de determinar El error estándar del estimado con base en la regresión
un polinomio de segundo grado por mı́nimos cuadrados es polinomial es [ecuación (24)]
equivalente a resolver un sistema de tres ecuaciones linea- q
les simultáneas. En la parte tres se estudiaron las técnicas S xy = 3,74657
6−3 = 1,12
para resolver tales ecuaciones.
El caso bidimensional se extiende con facilidad a un poli- El coeficiente de determinación es
nomio de m-ésimo grado como sigue
r2 = 2513,39−3,74657
2513,39 = 0,99851
y = α0+ + α1 x + α2 x2 + ... + αm xm + e
y el coeficiente de correlación es r = 0,99925.
El análisis anterior se puede extender fácilmente a este Estos resultados indican que con el modelo se explicó el
caso más general. Ası́, se reconoce que la determinación 99.851 % de la incertidumbre original. Este resultado apo-
de los coeficientes de un polinomio de m-ésimo grado es ya la conclusión de que la ecuación cuadrática represen-
equivalente a resolver un sistema de m+1 ecuaciones linea- ta un excelente ajuste, como también es evidente en la
les simultáneas. En este caso, el error estándar se formula figura ??
como sigue:
s
Sr
S xy =
n − (m + 1)
(24) 3. REGRESIÓN LINEAL MÚLTI-
PLE
Esta cantidad se divide entre n–(m+1), ya que (m+1)
coeficientes obtenidos de los datos, α0 , α1 , . . . , αm , se uti- Una extensión útil de la regresión lineal es el caso en
lizaron para calcular Sr ; hemos perdido m + 1 grados de el que y es una función lineal de dos o más variables in-
libertad. Además del error estándar, también se calcula un dependientes. Por ejemplo,y podrı́a ser una función lineal
coeficiente de determinación para la regresión polinomial de x1 y x2 , como en
con la ecuación (12).
y = α0 + α1 x1 + α2 x2 + e
EJEMPLO 5. Regresión polinomial
Planteamiento del problema. Ajustar a un polino- En particular tal ecuación es útil cuando se ajustan
mio de segundo grado los datos dados en las dos primeras datos experimentales donde la variable sujeta a estudio es
columnas de la tabla 4. una función de otras dos variables. En este caso bidimen-
sional, la “lı́nea” de regresión se convierte en un “plano”
Solución. A partir de los datos dados, (figura ??).

m=2
P
xi = 15
P
x4i = 979 Como en los casos anteriores, los “mejores” valores pa-
ra los coeficientes se determinan al realizar la suma de los
n=6
P
yi = 152,6
P
xi yi = 585,6 cuadrados de los residuos,

n
x2i = 55 x2i yi = 2488,8
P P
x̄ = 2,5
X
Sr = (yi − α0 − α1 x1i − α2 x2i )2 (25)
6 i=1
y derivando con respecto a cada uno de los coeficientes y = α0 xα1 α2 am
1 x2 ...xm
desconocidos,
Tales ecuaciones son extremadamente útiles cuando se
∂Sr P
∂α0 = −2 (yi − α0 − α1 x1i − α2 x2i ) ajustan datos experimentales. Para usar regresión lineal
múltiple, la ecuación se transforma al aplicar logaritmos:
∂Sr P
∂α1 = −2 x1i (yi − α0 − α1 x1i − α2 x2i )
log y = log α0 + α1 log x1 + α2 log x2 + ... + αm log xm
∂Sr P
∂α2 = −2 x2i (yi − α0 − α1 x1i − α2 x2i )
Esta transformación es similar a la que se usó en la
Los coeficientes que dan la suma mı́nima de los cuadra- sección 1.5 y en el ejemplo 4 para ajustar una ecuación de
dos de los residuos se obtienen al igualar a cero las deriva- potencias cuando y era una función de una sola variable x.
das parciales y expresando el resultado en forma matricial:

 P P    P 
Pn P x21i P x2i α0 P y1i 4. MÍNIMOS CUADRADOS LI-
 x1i
P x1i Px1i2x2i
 α1  =  x1i yi 
NEALES EN GENERAL
P P
x2i x1i x2i x2i α2 x2i yi
(26)
Hasta aquı́ nos hemos concentrado en la mecánica para
obtener ajustes por mı́nimos cuadrados de algunas fun-
EJEMPLO 6. Regresión lineal múltiple ciones sencillas para datos dados. Antes de ocuparnos de
Planteamiento del problema. Los siguientes datos la regresión no lineal, hay varios puntos que nos gustarı́a
se calcularon con la ecuación y = 5 + 4x1 –3x2 : analizar para enriquecer nuestra comprensión del material
precedente.
Utilice la regresión lineal múltiple para ajustar estos
datos.

Solución. Las sumatorias requeridas para la ecuación


4.1. Formulación general de una matriz
(26) se calculan en la tabla 5. El resultado es para mı́nimos cuadrados lineales
En las páginas anteriores presentamos tres tipos de re-
     gresión: lineal simple, polinomial y lineal múltiple. De he-
6 16,5 14 α0 54
16,5 cho, las tres pertenecen al siguiente modelo lineal general
76,25 48 α1  = 243,5
de mı́nimos cuadrados:
14 48 54 α2 100
y = α0 z0 + α1 z1 + α2 z2 + ... + am zm + e (27)
que se resuelve mediante un método como el de elimi-
nación de Gauss, obteniéndose donde z0 , z1 , ..., zm son m + 1 funciones diferentes. Se
observa con facilidad cómo la regresión lineal simple y
α0 = 5 α1 = 4 α2 = –3 múltiple se encuentran dentro de este modelo; es decir,
z0 = 1, z1 = x1 , z2 = x2 , ..., zm = xm . Además, la regre-
que es consistente con la ecuación original, de la cual sión polinomial se incluye también si las z son monomios
se obtienen los datos. simples como z0 = x0 = 1, z1 = x, z2 = x2 , ..., zm = xm .
Observe que la terminologı́a “lineal” se refiere sólo a la
dependencia del modelo sobre sus parámetros (es decir,
El caso bidimensional anterior fácilmente se extiende las α). Como en el caso de la regresión polinomial, las
a m dimensiones ası́ mismas funciones llegan a ser altamente no lineales. Por
ejemplo, las z pueden ser senoidales, como en
y = α0 + α1 x1 + α2 x2 + ... + αm xm + e
y = α0 + α1 cos(ωt) + α2 sin(ωt)
donde el error estándar se formula como
q Esta forma es la base del análisis de Fourier. Por otro
Sr lado, un modelo de apariencia simple como
Sy/x = n−(m+1)

y el coeficiente de determinación se calcula como en la f (x) = α0 (1–e−a1x )


ecuación (12).
es no lineal porque no es posible llevarlo a la forma de
Aunque puede haber ciertos casos donde una variable la ecuación (27). Regresaremos a tales modelos al final de
esté linealmente relacionada con dos o más variables, la este capı́tulo.
regresión lineal múltiple tiene además utilidad en la ob- Mientras tanto, la ecuación (27) se expresa en notación
tención de ecuaciones de potencias de la forma general matricial como
7
4.2. Técnicas de solución
{Y } = [Z]{A} + {E} (28)
En los análisis anteriores en este capı́tulo tratamos el
asunto de las técnicas numéricas especı́ficas para resolver
donde [Z] es una matriz de los valores calculados de las ecuaciones normales. Ahora que hemos establecido la
las funciones z en los valores medidos de las variables unidad de los diversos modelos, podemos explorar esta
independientes, cuestión con mayor detalle.
  Primero, deberá quedar claro que el método de Gauss-

 z01 z11 ... zm1 
 Seidel no puede utilizarse aquı́ debido a que las ecuaciones
z02 z12 ... zm2 
 
normales no son diagonalmente dominantes. De esta ma-

 
 
. . .
 
[Z] = nera, nos quedan solamente los métodos de eliminación.
 .
 . . 
 Para los propósitos actuales, podemos dividir esas técni-
 . . .
 
cas en tres categorı́as: 1. métodos de descomposición LU ,
 

 
z0n z1n ... zmn
 
incluyendo eliminación de Gauss, 2. método de Cholesky
donde m es el número de variables en el modelo y n es y 3. método de la matriz inversa. En efecto, hay interre-
el número de datos. Como n ≥ m + 1, usted reconocerá laciones en esta clasificación. Por ejemplo, el método de
que, la mayorı́a de las veces, [Z] no es una matriz cuadra- Cholesky es, de hecho, una descomposición LU , y todos
da. los procedimientos se pueden formular de tal manera que
El vector columna {Y } contiene los valores observados de generen la matriz inversa. Sin embargo, el mérito de esta
la variable dependiente clasificación es que cada categorı́a ofrece ventajas respecto
a la solución de ecuaciones normales.

{Y }T = y1 y2 ... yn
Descomposición LU . Si usted está interesado sólo
El vector columna {A} contiene los coeficientes desco- en aplicar un ajuste por mı́nimos cuadrados en un ca-
nocidos so donde el modelo adecuado se conoce de antemano,
cualquiera de los procedimientos de descomposición LU ,
 descritos en el capı́tulo 9, son perfectamente aceptables.
{A}T = α0 α1 ... αm
De hecho, también es posible emplear la formulación de
la descomposición LU de la eliminación de Gauss. Ésta
y el vector columna {E} contiene los residuos es una tarea de programación relativamente sencilla pa-
 ra incorporar cualquiera de estos procedimientos en un
{E}T = e1 e2 ... en algoritmo de mı́nimos cuadrados lineales. En realidad, si
se ha seguido un enfoque modular, esto resulta casi trivial.
Como se dio a lo largo de este capı́tulo, la suma de los
cuadrados de los residuos en este modelo se definen como Método de Cholesky. El algoritmo de descompo-
Pn Pm sición de Cholesky tiene varias ventajas para la solución
Sr = i=1 (yi − j=0 aj zji )2 del problema general de regresión lineal. Primero, está
expresamente diseñado para resolver matrices simétricas
Esta cantidad se minimiza tomando las derivadas par- como las ecuaciones normales. Ası́ que es rápido y se re-
ciales con respecto a cada uno de los coeficientes e igua- quiere de menos espacio de almacenamiento para resolver
lando a cero la ecuación resultante. El resultado de este tales sistemas. Segundo, es ideal en casos donde el grado
proceso son las ecuaciones normales, que se expresan en del modelo [es decir, el valor de m en la ecuación (27)]
forma matricial como no se conoce de antemano (véase Ralston y Rabinowitz,
1978). Uno de estos casos serı́a la regresión polinomial.
En ella, no podemos saber a priori si un polinomio li-
[[Z]T [Z]]{A} = {[Z]T {Y }} (29) neal, cuadrático, cúbico o de grado superior es el “mejor”
modelo para describir nuestros datos. Debido tanto a la
Es posible mostrar que la ecuación (29) es, de hecho, forma en la que se construyen las ecuaciones normales
equivalente a las ecuaciones normales desarrolladas antes como a la manera en la que se lleva a cabo el algoritmo de
para la regresión lineal simple, la polinomial y la múltiple. Cholesky, podemos desarrollar modelos sucesivos de grado
Nuestra principal motivación para lo anterior fue ilustrar superior de manera muy eficiente. En cada paso es factible
la unidad entre los tres procedimientos y mostrar cómo examinar la suma residual de los cuadrados del error (¡y
se pueden expresar de manera simple en la misma nota- una gráfica!), para examinar si la inclusión de términos de
ción matricial. También sienta las bases para el estudio grado superior mejora el ajuste de manera significativa.
de la siguiente sección, donde obtendremos un mejor co- En la regresión lineal múltiple la situación análoga se
nocimiento sobre las estrategias preferidas para resolver presenta cuando se agregan, una por una, variables inde-
la ecuación (29). La notación matricial también tendrá pendientes al modelo. Suponga que la variable dependiente
relevancia cuando volvamos a la regresión no lineal en la de interés es función de varias variables independientes;
última sección del presente capı́tulo. por ejemplo, temperatura, contenido de humedad, presión,
etc. Primero realizarı́amos una regresión lineal con la tem-
8
peratura y calcuları́amos un error residual. En seguida, p donde s(αj ) = el error estándar del coeficiente aj =
se podrı́a incluir el contenido de humedad para llevar a var(aj ). De manera similar, los lı́mites inferior y supe-
cabo una regresión múltiple de dos variables y observar si rior para la pendiente se calculan:
la variable adicional resulta en una mejora del ajuste. El
método de Cholesky vuelve eficiente el proceso, ya que la
descomposición del modelo lineal tan sólo se completará L = α1 − tα/2,n−2 S(α1 ) U = α1 + tα/2,n−2 S(α1 )
al incorporar una nueva variable. (35)
El ejemplo 7 ilustra cómo se emplean esos intervalos
Método de la matriz inversa. De la ecuación para realizar inferencias cuantitativas respecto a la regre-
sión lineal.
{X} = {A}−1 {B} (30)
EJEMPLO 7 Intervalos de confianza para la re-
recuerde que la matriz inversa se emplea para resolver gresión lineal
la ecuación (29), como se muestra a continuación: Planteamiento del problema. En el ejemplo 3 uti-
lizamos la regresión para desarrollar la siguiente relación
{A} = [[Z]T [Z]]−1 {[Z]T {Y }} (31) entre mediciones y predicciones del modelo:
Cada uno de los métodos de eliminación se puede uti-
lizar para determinar la inversa y, ası́, servir para imple- y = –0,859 + 1,032x
mentar la ecuación (31). Sin embargo, como aprendimos
en la parte tres, éste es un método ineficiente para resolver donde y = las predicciones del modelo y x = las me-
un conjunto de ecuaciones simultáneas. Ası́, si estuviéra- diciones. Concluimos que habı́a una buena concordancia
mos solamente interesados en determinar los coeficientes entre las dos, puesto que la intersección con el eje y era
de regresión, serı́a preferible utilizar el método de descom- aproximadamente igual a 0, y la pendiente aproximada-
posición LU sin inversión. No obstante, desde una pers- mente igual a 1. Vuelva a calcular la regresión, pero ahora
pectiva estadı́stica, existen varias razones por las cuales use el método matricial para estimar los errores estándar
estarı́amos interesados en obtener la inversa y examinar de los parámetros. Después emplee tales errores para desa-
sus coeficientes. Tales razones se analizarán más adelante. rrollar los intervalos de confianza y úselos para realizar
un planteamiento probabilı́stico respecto a la bondad del
ajuste.
4.3. Aspectos estadı́sticos de la teorı́a de
mı́nimos cuadrados Solución. Los datos se escriben en forma matricial
Recordemos los diversos estadı́sticos descriptivos que para una regresión lineal simple de la siguiente manera:
se utilizan para describir una muestra. Éstos son: la me-    
1 10  8,953 
dia aritmética, la desviación estándar y la varianza.

  
 
1 16,3 16,405

  
 
Además de dar una solución para los coeficientes de

 
 
 

1 23  22,607

  
 
regresión, la formulación matricial de la ecuación (31) pro-
 
[z] = . . {Y } = .
porciona estimaciones de sus estadı́sticos. Es posible de-
. .   . 

  
 
mostrar (Draper y Smith, 1981) que los términos en la  
  

. .   . 
   
−1
T
 
diagonal y fuera de la diagonal de la matriz [[Z] [Z]]  
  

1 50 49,988
   
dan, respectivamente, las varianzas y las covarianzas1 de
las α. Si los elementos de la diagonal de [[Z]T [Z]]−1 se Después se usan la transposición y la multiplicación
−1 matriciales para generar las ecuaciones normales:
designa por zi,i , entonces
−1 2
var(αi−1 ) = zi,i Sy/x (32) [[Z]T [Z]] {A} = {[Z]T {Y }
y 
15 548,3
  
α0 552,741

=
−1 2
548,3 22191,21 α1 22421,43
cov(αi−1 , αj−1 ) = zi,j Sy/x (33)
Se emplea la inversión matricial para obtener la pen-
Dichos estadı́sticos poseen varias aplicaciones impor- diente y la intersección con el eje y
tantes. Para nuestros actuales propósitos, ilustraremos
cómo se utilizan para desarrollar intervalos de confianza {A} = [[Z]T [Z]]−1 {[Z]T {Y }
para la intersección con el eje y y la pendiente.
  
Con un procedimiento similar al examinado en el capı́tulo 0,688414 −0,01701 552,741
anterior, se demuestra que los lı́mites inferior y superior = =
−0,01701 0,000465 22421,43
para la intersección con el eje y se pueden encontrar (véase
 
−0,85872
Milton y Arnold, 1995, para más detalles) de la siguiente 1,031592
manera:
De esta manera, la intersección con el eje y y la pen-
diente quedan como α0 = –0,85872 y α1 = 1,031592,
L = α0 − tα/2,n−2 S(α0 ) U = α0 + tα/2,n−2 S(α0 ) respectivamente. Estos valores, a su vez, sirven para cal-
(34) cular el error estándar del estimado, Sy/x = 0,863403. Este
9
valor puede utilizarse, junto con los elementos diagonales
de la matriz inversa, para calcular los errores estándar de f (x) = α0 (1–e–α1 x ) + e (36)
los coeficientes,
q Esta ecuación no puede ser manipulada para ser lleva-
−1 2
p
S(α0 ) = z11 Sy/x = 0,688414(0,863403)2 = da a la forma general de la ecuación (27).
0,716372 Como en el caso de los mı́nimos cuadrados lineales, la re-
q gresión no lineal se basa en la determinación de los valores
−1 2 de los parámetros que minimizan la suma de los cuadra-
p
S(α1 ) = z22 Sy/x = 0,000465(0,863403)2 =
dos de los residuos. Sin embargo, en el caso no lineal, la
0,018625
solución debe realizarse en una forma iterativa.
El método de Gauss-Newton es un algoritmo para mini-
El estadı́stico tα/2,n–1 necesario para un intervalo de
mizar la suma de los cuadrados de los residuos entre los
confianza del 95 %conn–2 = 15–2 = 13 grados de libertad
datos y las ecuaciones no lineales. El concepto clave detrás
se obtiene con una tabla estadı́stica o mediante software.
de esta técnica es que se utiliza una expansión en serie
Usemos una función de Excel, TINV, para obtener el valor
de Taylor para expresar la ecuación no lineal original en
adecuado de la siguiente manera:
una forma lineal aproximada. Entonces, es posible aplicar
la teorı́a de mı́nimos cuadrados para obtener nuevas esti-
= T IN V (0,05, 13) maciones de los parámetros que se mueven en la dirección
que minimiza el residuo.
que da un valor de 2.160368. Las ecuaciones (34) y (35) Para ilustrar cómo se logra esto, primero se expresa de
entonces se usan para calcular los intervalos de confianza: manera general la relación entre la ecuación no lineal y
los datos, de la manera siguiente:
α0 = –0,85872 ± 2,160368(0,716372) = –0,85872 ±
1,547627 = [–2,40634, 0,688912] y = f (x ; α , α , ..., α ) + e
i i 0 1 m i

α1 = 1,031592 ± 2,160368(0,018625) = 1,031592 ± donde yi = un valor medido de la variable dependiente,


0,040237 = [0,991355, 1,071828] f (xi ; α0 , α1 , ..., am ) = la ecuación que es una función de
la variable independiente xi y una función no lineal de los
Observe que los valores deseados (0 para la intersec- parámetros α0 , α1 , ..., αm , y ei = un error aleatorio. Por
ción, y 1 para la pendiente) caen dentro de los intervalos. conveniencia, este modelo se expresa en forma abreviada
Considerando este análisis podremos formular las siguien- al omitir los parámetros,
tes declaraciones sobre la pendiente: tenemos fundamentos
sólidos para creer que la pendiente de la lı́nea de regresión
yi = f (xi ) + ei (37)
real está dentro del intervalo de 0.991355 a 1.071828. Debi-
do a que 1 está dentro de este intervalo, también tenemos El modelo no lineal puede expandirse en una serie de
fundamentos sólidos para creer que el resultado apoya Taylor alrededor de los valores de los parámetros y cortar-
la concordancia entre las mediciones y el modelo. Como se después de las primeras derivadas. Por ejemplo, para
cero está dentro del intervalo de la intersección, se pue- un caso con dos parámetros,
de hacer una declaración similar respecto a la intersección.

Lo anterior constituye una breve introducción al am- ∂f (xi )j ∂f (xi )j


plio tema de la inferencia estadı́stica y de su relación con f (xi )j+1 = f (xi )j + ∆α0 + ∆α1 (38)
∂α0 ∂α1
la regresión. Hay muchos más temas de interés que están
fuera del alcance de este libro. Nuestra principal intención donde j = el valor inicial, j + 1 = la predicción,
es demostrar el poder del enfoque matricial para los mı́ni- ∆α0 = α0,j+1 –α0,j , y ∆α1 = α1,j+1 –α1,j . De esta for-
mos cuadrados lineales en general. Usted deberá consultar ma, hemos linealizado el modelo original con respecto a
algunos de los excelentes libros sobre el tema (por ejemplo, los parámetros. La ecuación (38) se sustituye en la ecua-
Draper y Smith, 1981) para obtener mayor información. ción (37) para dar
Además, habrá que observar que los paquetes y las biblio-
tecas de software pueden generar ajustes de regresión por
mı́nimos cuadrados, junto con información relevante para ∂f (xi )j ∂f (xi )j
yi − f (xi )j = ∆α0 + ∆α1 + ei
la estadı́stica inferencial. ∂α0 ∂α1

o en forma matricial [compárela con la ecuación (28)],


5. REGRESIÓN NO LINEAL
{D} = [Zj ]{∆A} + {E} (39)
Hay muchos casos en la ingenierı́a donde los modelos
no lineales deben ajustarse a datos. En el presente con- donde [Zj ] es la matriz de las derivadas parciales de la
texto, tales modelos se definen como aquellos que tienen función evaluadas en el valor inicial j,
dependencia no lineal de sus parámetros. Por ejemplo,
10
 

 ∂f1 /∂α0 ∂f1 /∂α1 
 inicial de los cuadrados de los residuos es 0.0248.
∂f2 /∂α0 ∂f2 /∂α1 

 

 

. .
 
[Zj ] = Solución. Las derivadas parciales de la función con

 . . 
 respecto a los parámetros son
. .

 


 

∂fn /∂α0 ∂fn /∂α1 ∂f
 
= 1 − e−α1 x (42)
donde n = el número de datos y partialfi /∂αk = la ∂α0
derivada parcial de la función con respecto al k-ésimo y
parámetro evaluado en el i-ésimo dato. El vector {D}
contiene las diferencias entre las mediciones y los valores ∂f
= α0 xe−α1 x (43)
de la función, ∂α0
Las ecuaciones (42) y (43) se utilizan para evaluar la
 
 y1 − f (x1 ) 
matriz
 
y2 − f (x2 ) 

 


 
.
   
{D} = 0,2212 0,1947
 .  
 
0,5276 0,3543
  
 
.

 
 
 


yn − f (xn )

 [Z 0 ] = 0,7135 0,3581
0,8262 0,3041

 
 
y el vector {∆A} contiene los cambios en los valores
 
0,8946 0,2371
 
de los parámetros,
Esta matriz multiplicada por su transpuesta nos da
 
 ∆α0   


∆α1 

 T 2,3193 0,9489

  [Z0 ] [Z0 ] =


.

 0,9489 0,4404
{∆A} =
 . 
  la cual, a su vez, se invierte con el siguiente resultado:
. 

 

 
  
∆αm 3,6397 −7,8421
 
[[Z0 ]T [Z0 ]]−1 =
Si se aplica la teorı́a de los mı́nimos cuadrados linea- −7,8421 19,1678
les a la ecuación (39) se obtienen las siguientes ecuaciones El vector {D} consiste en las diferencias entre las me-
normales [recuerde la ecuación (29)]: diciones y las predicciones del modelo,
   
[[Zj ]T [Zj ]]{∆A} = {[Zj ]T {D}∆} (40) 0,28 − 0,2212
    0,0588 
0,57 − 0,5276  0,0424 

   
  
Ası́, el procedimiento consiste en resolver de la ecua- {D} = 0,68 − 0,7135 = −0,0335
ción (40) para {∆A}, que se utiliza para calcular valores
0,74 − 0,8262


  
 −0,0862 
   

mejorados de los parámetros, como en 
0,79 − 0,8946
 
−0,1046

α0,j+1 = α0,j + ∆α0


Éste se multiplica por [Z0 ]T para dar
y 
−0,1533

T
[Z0 ] {D} =
−0,0365
α1,j+1 = α1,j + ∆α1
El vector ∆A, entonces, se calcula al resolver la ecua-
Este procedimiento se repite hasta que la solución con- ción (40):
verge, es decir, hasta que  
−0,2714
∆A =
αk,j+1 − αk,j 0,5019
|α |k = | |100 % (41)
αk,j+1 que se suma a los valores iniciales de los parámetros:
está por debajo de un criterio de terminación acepta-        
α0 1,0 −0,2714 0,7286
ble. = + =
α1 1,0 0,5019 1,5019
EJEMPLO 8. Método de Gauss-Newton
Ası́, los estimados mejorados de los parámetros son
Planteamiento del problema. Ajuste la función α0 = 0,7286 y α1 = 1,5019. Los nuevos parámetros dan
f (x; α0 , α1 ) = α0 (1–e–α1 x ) a los datos: una suma de los cuadrados de los residuos igual a 0.0242.
La ecuación (41) se utiliza para obtener que 0 y 1 son
iguales a 37 y 33 %, respectivamente. El cálculo se re-
Emplee α0 = 1,0yα1 = 1,0 como valores iniciales para petirı́a hasta que esos valores estén abajo del criterio de
los parámetros. Observe que para estos valores la suma terminación establecido. El resultado final es α0 = 0,79186
11
y α1 = 1,6751. Tales coeficientes dan una suma de los cua- problemas. La aproximación de Fourier representa un es-
drados de los residuos de 0.000662. quema sistemático para utilizar series trigonométricas con
este propósito.
Un problema potencial con el método de Gauss- Una de las caracterı́sticas distintivas del análisis de Fourier
Newton, como se ha desarrollado hasta ahora, es que es que trata con los dominios del tiempo y de la frecuen-
las derivadas parciales de la función pueden ser difı́ciles cia. Como algunos ingenieros requieren trabajar con el
de evaluar. En consecuencia, muchos programas compu- último, se ha dedicado gran parte del siguiente material a
tacionales usan diferentes ecuaciones para aproximar las ofrecer una visión general de la aproximación de Fourier.
derivadas parciales. Un método es Un aspecto clave de esta visión será familiarizarse con el
dominio de la frecuencia. Luego de dicha orientación se
presenta una introducción a los métodos numéricos para
calcular transformadas de Fourier discretas.
∂fi ∼ f (xi ; α0 , ..., αk + δαk , ..., αm ) − f (xi ; α0 , ..., αk , ..., αm )
=
∂αk δαk
(44)

6.1. AJUSTE DE CURVAS CON FUN-


donde δ = una perturbación fraccional pequeña. CIONES SINUSOIDALES
El método de Gauss-Newton tiene también algunas des-
Una función periódica f (t) es aquella para la cual
ventajas:

1. Puede converger con lentitud. f (t) = f (t + T ) (46)


donde T es una constante llamada el periodo, que es el
2. Puede oscilar ampliamente; es decir, cambia de di-
valor menor para el cual es válida la ecuación (46). Entre
rección continuamente.
los ejemplos comunes se encuentran diversas formas de on-
3. Puede no converger. da tales como, ondas cuadradas y dientes de sierra (figura
??). Las ondas fundamentales son las funciones sinusoida-
Se han desarrollado modificaciones del método (Booth les.
y Peterson, 1958; Hartley, 1961) para disminuir las des- En el presente análisis se usará el término sinusoide para
ventajas. representar cualquier forma de onda que se pueda descri-
Además, aunque hay varios procedimientos expresamente bir como un seno o un coseno. No existe una convención
diseñados para regresión, un método más general es usar muy clara para elegir entre estas funciones y, en cualquier
rutinas de optimización no lineal como las descritas en la caso, los resultados serán idénticos.
parte cuatro. Para hacer esto, se dan valores iniciales a los
parámetros y se calcula la suma de los cuadrados de los En este capı́tulo se usará el coseno, que generalmente
residuos. Por ejemplo, para la ecuación (36) esto se podrı́a se expresa como
calcular como
f (t) = A0 + C1 cos(ω0 t + θ) (47)
n
Ası́, cuatro parámetros sirven para caracterizar la si-
X
−α1 xi 2
Sr = (yi − α0 (1 − e )) (45)
i=1 nusoide (figura ??). El valor medio A0 , establece la altura
promedio sobre las abscisas. La amplitud C1 especifica la
Los parámetros, entonces, se ajustarı́an de mane-
altura de la oscilación. La frecuencia angular ω0 caracteri-
ra sistemática para minimizar Sr mediante técnicas de
za con qué frecuencia se presentan los ciclos. Finalmente,
búsqueda como las descritas previamente en el capı́tulo
el ángulo de fase, o corrimiento de fase θ, parametriza en
14. Ilustrare- mos el modo para hacer esto cuando descri-
qué extensión la sinusoide está corrida horizontalmente.
bamos las aplicaciones de software, al final del capı́tulo 19.
Esto puede medirse como la distancia en radianes desde
t = 0 hasta el punto donde la función coseno empieza un
nuevo ciclo. Como se ilustra en la figura 19.4a, un valor ne-
6. Aproximación de Fourier gativo se conoce como un ángulo de fase de atraso, ya que
la curva cos(ω0 t–θ) comienza un nuevo ciclo de θ radianes
Hasta aquı́, en nuestra presentación de la inter- después del cos(ω0 t). Ası́, se dice que cos(ω0 t–θ) tiene un
polación se han destacado los polinomios estándar, retraso cos(ω0 t). En forma opuesta, como se muestra en
es decir, las combinaciones lineales de los mono- la figura ??b, un valor positivo se refiere como un ángulo
mios 1, x, x2 , . . . , xm (figura ??a). Ahora veremos de fase de adelanto.
otra clase de funciones que son trascendentales en
la ingenierı́a. Éstas son las funciones trigonométri-
cas 1, cos x, cos 2x, ..., cos nx, sin x, sin 2x, ..., sin nx (figura Observe que la frecuencia angular (en radia-
??b). nes/tiempo) se relaciona con la frecuencia f (en ci-
Los ingenieros a menudo tratan con sistemas que oscilan o clos/tiempo) mediante
vibran. Como es de esperarse, las funciones trigonométri-
cas juegan un papel importante en el modelado de tales ω0 = 2πf (48)
12
y, a su vez, la frecuencia está relacionada con el periodo 6.1.1. Ajustes por minimos cuadrados de una si-
T (en unidades de tiempo) mediante nusoide

1 La ecuación (50) se entiende como un modelo lineal


f= por mı́nimos cuadrados
T
Aunque la ecuación (47) representa una caracterización y = A0 + A1 cos(ω0 t) + B1 sin(ω0 t) + e (55)
matemática adecuada de una sinusoide, es difı́cil trabajar
que es sólo otro ejemplo del modelo general [recuerde la
desde el punto de vista del ajuste de curvas, pues el corri-
ecuación (27)]
miento de fase está incluido en el argumento de la función
coseno. Esta deficiencia se resuelve empleando la identidad
y = a0 z0 + a1 z1 + a2 z2 + ... + am zm + e
trigonométrica
donde z0 = 1, z1 = cos(ω0 t), z2 = sin(ω0 t) y todas las
otras z = 0. Ası́, nuestro objetivo es determinar los valores
C1 cos(ω0 t + θ) = C1 [cos(ω0 t) cos(θ)– sin(ω0 t) sin(θ)] de los coeficientes que minimicen la función
(49)
Sustituyendo la ecuación (49) en la (47) y agrupando N
términos se obtiene (figura ??b)
X
S =
r {y − [A + A cos(ω t ) + B sin(ω t )]}2
i 0 1 0 i i 0 i
i=1
f (t) = A0 + A1 cos(ω0 t) + B1 sin(ω0 t) (50)
Las ecuaciones normales para lograr esta minimización
donde se expresan en forma de matricial como [recuerde la ecua-
ción (29)]
A1 = C1 cos(θ) B1 = –C1 sin(θ) (51)
 P P  
P N P cos(ω 0 t) sin(ω0 t)   A0 
Dividiendo las dos ecuaciones anteriores y despejando 2
P
cos(ω 0 t) cos (ω 0 t) cos(ω 0 t) sin(ω0 t) A1 =
se obtiene P P P 2
sin(ω0 t) cos(ω0 t) sin(ω0 t) sin (ω0 B1
 

−B1 (56)
θ = arctan( ) (52) Estas ecuaciones sirven para encontrar los coeficientes
A1
desconocidos. Aunque, en lugar de hacer esto, se exami-
donde, si A1 < 0, sume π a θ. Si se elevan al cuadrado na el caso especial donde hay N observaciones espaciadas
y se suman las ecuaciones (51) llegarı́amos a de manera uniforme a intervalos ∆t y con una longitud
total T = (N –1)∆t. En esta situación, se determinan los
q
siguientes valores promedio (véase el problema 48):
C1 = A21 + B12 (53)
P P
sin(ω0 t) cos(ω0 t)
Ası́, la ecuación (50) representa una fórmula alter- =0 =0
N N
nativa de la ecuación (47) que también requiere cuatro P 2
cos2 (ω0 t)
P
parámetros; pero que se encuentra en el formato de un sin (ω0 t) 1 1
= = (57)
modelo lineal general [recuerde la ecuación (27)]. Como se N 2 N 2
P
analizará en la próxima sección, es posible aplicarlo sim- cos(ω0 t) sin(ω0 t)
plemente como base para un ajuste por mı́nimos cuadra- =0
N
dos. Sin embargo, antes de iniciar con la próxima sección, Ası́, para los puntos igualmente espaciados, las ecua-
se deberá resaltar que se puede haber empleado la función ciones normales se convierten en
seno en lugar de coseno, como modelo fundamental de la     P 
ecuación (47). Por ejemplo, N 0 0   A0   P y 
0 N/2 0 A1 = P y cos(ω0 t)
0 0 N/2 B1 y sin(ω0 t)
    
f (t) = A0 + C1 sin(ω0 t + δ)

se pudo haber usado. Se aplican relaciones simples para La inversa de una matriz diagonal es simplemente otra
convertir una forma en otra: matriz diagonal, cuyos elementos son los recı́procos de la
matriz original. Ası́, los coeficientes se determinan como
π
sin(ω0 t + δ) = cos(ω0 t + δ − )
2     P 
A0  N 0 0  P y 
y A1 = 0 N/2 0 y cos(ω0 t)
π  P
B1 0 0 N/2 y sin(ω0 t)
   
cos(ω0 t + θ) = sin(ω0 t + θ + ) (54)
2
o P
En otras palabras, θ = δ–π/2. La única consideración y
importante es que se debe usar una u otra forma de mane- A 0 = (58)
N
ra consistente. Aquı́, usaremos la versión coseno en todo 2 X
el análisis. A1 = y cos(ω0 t) (59)
13 N
2 X
B1 =
y sin(ω0 t) (60) p
N C1 = (0,5)2 + (−0,866)2 = 1,00
EJEMPLO 9. Ajuste por mı́nimos cuadrados a
cuyo resultado es
una sinusoide
y = 1,7 + cos(ω0 t + 1,0472)
Planteamiento del problema. La curva de la figura
48 se describe por y = 1,7 + cos(4,189t + 1,0472). Genere o, en forma alternativa, con seno utilizando la ecuación
10 valores discretos para esta curva a intervalos ∆t = 0,15 (54)
en el intervalo de t = 0 a t = 1,35. Utilice esta información y = 1,7 + sin(ω0 t + 2,618)
para evaluar los coeficientes de la ecuación (55) mediante
El análisis anterior se puede extender al modelo general
un ajuste por mı́nimos cuadrados.

Solución. Los datos requeridos para evaluar los coefi-


f (t) = A0 +A1 cos(ω0t)+B1 sin(ω0 t)+A2 cos(2ω0 t)+B2 sin(2ω0 t)+...
cientes con w = 4,189 son.
donde, para datos igualmente espaciados, los coeficien-
Estos resultados se utilizan para determinar [ecuacio-
tes se evalúan con
nes (58) a (60)]
P
y
A0 =
17000 2 2 N
A0 = = 1,7 A1 = 2,502 = 0,500 B1 = (−4,330) = −0,866
2 X

10 10 10
A1 = y cos(jω0 t)
De esta manera, el ajuste por mı́nimos cuadrados es N j=1,2,...,m
2 X
B1 = y sin(jω0 t)

y = 1,7 + 0,500 cos(ω0 t) − 0,866 sin(ω0 t) N
Aunque estas relaciones se utilizan para ajustar datos
El modelo se expresa también en el formato de la ecua- en el sentido de la regresión (es decir, N > 2m + 1), una
ción (47) calculando [ecuación (52)] aplicación alternativa es emplearlos para la interpolación
−0,866 o colocación (es decir, usarlos en el caso donde el número
θ = arctan(− ) = 1,0472 de incógnitas, 2m+1, es igual al número de datos,N ). Éste
0,500
es el procedimiento usado en la serie de Fourier continua,
y [ecuación (53)] como se estudiará a continuación.

14

También podría gustarte