Chapra PDF

donde a0 y a1 son coeficientes que representan la inter-
sección con el eje y y la pendiente, respectivamente, e es

el error, o diferencia, entre el modelo y las observaciones,
Regresión por mı́nimos cuadrados el cual se representa al reordenar la ecuación 1 como
e = y–a0 –a1 x
Ası́, el error o residuo es la discrepancia entre el valor
24 de octubre de 2019 verdadero de y y el valor aproximado, a0 +a1 x, que predijo
la ecuación lineal.
Cuando los datos tienen errores sustanciales, la inter-

1.1. Criterio para un ’mejor’ ajuste
polación polinomial es inapropiada y puede dar resultados
poco satisfactorios cuando se utiliza para predecir valores Una estrategia para ajustar una “mejor” lı́nea a través
intermedios. Con frecuencia los datos experimentales son de los datos será minimizar la suma de los errores residua-
de este tipo. Por ejemplo, en la figura ??a se muestran sie- les de todos los datos disponibles, como sigue:
te datos obtenidos experimentalmente que presentan una n n
variabilidad significativa. Una inspección visual de esos X X
ei = (yi − a0 − a1 xi ) (2)
datos sugiere una posible relación entre y y x. Es decir,
i=1 i=1
la tendencia general indica que valores altos de y están
donde n = número total de puntos. Sin embargo, éste
asociados con valores altos de x. Ahora, si un polinomio
es un criterio inadecuado, como lo muestra la figura ??a),
de interpolación de sexto grado se ajusta a estos datos
la cual presenta el ajuste de una lı́nea recta de dos puntos.
??b, pasará exactamente a través de todos los puntos.
Obviamente, el mejor ajuste es la lı́nea que une los pun-
Sin embargo, a causa de la variabilidad en los datos, la
tos. Sin embargo, cualquier lı́nea recta que pase a través
curva oscila mucho en el intervalo entre los puntos. En
del punto medio que une la lı́nea (excepto una lı́nea per-
particular, los valores interpolados para x = 1.5 y x = 6.5
fectamente vertical) da como resultado un valor mı́nimo
parecen estar bastante más allá del rango sugerido por los
de la ecuación 2 igual a cero, debido a que los errores se
datos.
cancelan.
Una estrategia más apropiada en tales casos consiste en
obtener una función de aproximación que se ajuste a la
Por lo tanto, otro criterio lógico podrı́a ser minimizar
forma o a la tendencia general de los datos, sin coincidir
la suma de los valores absolutos de las discrepancias,
necesariamente en todos los puntos. La figura ??c ilustra
cómo se utiliza una lı́nea recta para caracterizar de mane- n
X n
X
ra general la tendencia de los datos sin pasar a través de | ei |= | yi − a0 − a1 xi |
algún punto especı́fico. i=1 i=1
Una manera para determinar la lı́nea de la figura ??c La figura ??b) muestra por qué este criterio también es
es inspeccionar en forma visual los datos graficados y inadecuado. Para los cuatro puntos dados, cualquier lı́nea
después trazar una “mejor” lı́nea a través de los puntos. recta que esté dentro de las lı́neas punteadas minimizará
Aunque tales procedimientos “a ojo” apelan al sentido el valor absoluto de la suma. Ası́, este criterio tampoco
común y son válidos para cálculos “superficiales”, resul- dará un único mejor ajuste.
tan deficientes por ser arbitrarios. Es decir, a menos que Una tercera estrategia para ajustar una mejor lı́nea es el
los puntos definan una lı́nea recta perfecta (en cuyo caso criterio minimax. En esta técnica, la lı́nea se elige de ma-
la interpolación resultarı́a apropiada), diferentes analistas nera que minimice la máxima distancia a que un punto se
dibujarı́an lı́neas distintas. encuentra de la lı́nea. Como se ilustra en la figura ??c),
Para dejar a un lado dicha subjetividad se debe encontrar tal estrategia es inadecuada para la regresión, ya que da
algún criterio para establecer una base para el ajuste. excesiva influencia a puntos fuera del conjunto; es decir,
Una forma de hacerlo es obtener una curva que minimice a un solo punto con un gran error. Deberá observarse que
la discrepancia entre los puntos y la curva. Una técnica el principio minimax es, en algunas ocasiones, adecuado
para lograr tal objetivo, llamada regresión por mı́nimos para ajustar una función simple a una función complicada
cuadrados, se analizará en este capı́tulo. (Carnahan, Luther y Wilkes, 1969).
La estrategia que supera las deficiencias de los procedi-
mientos mencionados consiste en minimizar la suma de
los cuadrados de los residuos entre la y medida y la y cal-
1. Regresión Lineal culada con el modelo lineal
El ejemplo más simple de una aproximación por mı́ni- n n n
X X X
mos cuadrados es ajustar una lı́nea recta a un conjunto de Sr = e2i = (yi,medida −yi,modelo )2 = (yi −a0 −a1 xi )2
observaciones definidas por puntos: (x1, y1), (x2, y2),. . . , i=1 i=1 i=1
(xn, yn). La expresión matemática para la lı́nea recta es (3)
Este criterio tiene varias ventajas, entre ellas el hecho
y = a0 + a1 x + e (1) de que se obtiene una lı́nea única para cierto conjunto de
1
datos. Antes de analizar tales propiedades, presentaremos Mediante las ecuaciones 6 y 7
una técnica para determinar los valores de a0 y a1 que
7(119,5)−28(24)
minimizan la ecuación 3. a1 = 7(140)−(28)2 = 0,8392857
a0 = 3,428571 − 0,8392857(4) = 0,07142857

1.2. Ajuste de una lı́nea recta por mı́ni-
mos cuadrados
Para determinar los valores de a0 y a1 , la ecuación 3 Por lo tanto, el ajuste por mı́nimos cuadrados es
se deriva con respecto a cada uno de los coeficientes:
y = 0,07142857 + 0,8392857x
∂Sr X
= −2 (yi − a0 − a1 xi ) La lı́nea, junto con los datos, se muestran en la figura
∂a0
??c)
∂Sr X
= −2 [(yi − a0 − a1 xi )xi ]
∂a1 1.3. Cuantificación del error en la regre-
Observe que hemos simplificado los sı́mbolos de la su- sión lineal
matoria; a menos que se indique otra cosa, todas las suma-
torias van desde i = 1 hasta n. Al igualar estas derivadas Cualquier otra lı́nea diferente a la calculada en el ejem-
a cero, se dará como resultado un Sr mı́nimo. Si se hace plo 1 dará como resultado una suma mayor de los cuadra-
esto, las ecuaciones se expresan como dos de los residuos. Ası́, la lı́nea es única y, en términos de
nuestro criterio elegido, es la “mejor” lı́nea a través de los
X X X puntos. Varias propiedades de este ajuste se observan al
0= yi − a0 − a1 xi
examinar más de cerca la forma en que se calcularon los
X X X
2 residuos. Recuerde que la suma de los cuadrados se define
0= yi xi − a0 xi − a1 xi
como [ecuación (3)]
P
Ahora, si observamos que a0 = na0 , expresamos las n n
X X
ecuaciones como un conjunto de dos ecuaciones lineales sr = e2i = (yi − a0 − a1 xi )2 (8)
simultáneas, con dos incógnitas (a0 y a1 ): i=1 i=1
X
(yi − ȳ)2
X X
na0 + ( xi )ai = yi (4) st = (9)
X X X Observe la similitud entre las ecuaciones (9) (vista en

( xi )a0 + ( x2i )ai = xi yi (5) el capı́tulo anterior) y (8). En el primer caso, el cuadra-
do del residuo representa el cuadrado de la discrepancia
Éstas se llaman ecuaciones normales, y se resuelven en entre el dato y una estimación de la medida de tendencia
forma simultánea central: la media. En la ecuación (8), el cuadrado del re-
P P P siduo representa el cuadrado de la distancia vertical entre
n xi yi − xi yi el dato y otra medida de tendencia central: la lı́nea recta
a1 = P 2 P (6)
n xi − ( xi )2 (figura ??).
Este resultado se utiliza conjuntamente con la ecuación
4 para obtener
La analogı́a se puede extender aún más en casos donde
1. la dispersión de los puntos alrededor de la lı́nea es de
a0 = ȳ − a1 x̄ (7)
magnitud similar en todo el rango de los datos, y 2. la
donde ȳ y x̄ son las medias de y y x, respectivamente. distribución de estos puntos cerca de la lı́nea es normal.
Es posible demostrar que si estos criterios se cumplen, la
regresión por mı́nimos cuadrados proporcionará la mejor
EJEMPLO 1 Regresión lineal (es decir, la más adecuada) estimación de a0 ya1 (Draper y
Smith, 1981). Esto se conoce en estadı́stica como el princi-
Planteamiento del problema. Ajuste a una lı́nea pio de máxima verosimilitud. Además, si estos criterios se
recta los valores x y y en las dos primeras columnas de la satisfacen, una “desviación estándar” para la lı́nea de re-
tabla 17.1. gresión se determina como sigue [compare con la ecuación
(10) vista en el capı́tulo anterior]
Solución. Se calculan las siguientes cantidades: r
St
Sy = (10)
x2i = 140 n−1
P P
n=7 xi yi = 119,5
r
P
xi = 28 x̄ = 28
=4 Sr
7 Sy/x = (11)
n−2
24
P
yi = 24 ȳ = 7 = 3,428571 donde a Sy/x se le llama error estándar del estimado.
El subı́ndice “y/x” designa que el error es para un valor
2
predicho de y correspondiente a un valor particular de x. q
También, observe que ahora dividimos entre n − 2 debido Sy = 22,7143
7−1 = 1,9457
a que se usaron dos datos estimados (a0 ya1 ), para calcu-
lar Sr ; ası́, se han perdido dos grados de libertad. Como y el error estándar del estimado es [ecuación (11)]
lo hicimos en nuestro análisis para la desviación estándar
en PT5.2.1, otra justificación para dividir entren–2 es que
q
Sy/x = 2,9911
7−2 = 0,7735
no existe algo como “datos dispersos” alrededor de una
lı́nea recta que une dos puntos. De esta manera, en el caso
Como Sy/x < sy , el modelo de regresión lineal es ade-
donde n = 2, la ecuación (11) da un resultado sin sentido,
cuado. La mejora se puede cuantificar mediante [ecuación
infinito.
(12)]
Ası́ como en el caso de la desviación estándar, el error
estándar del estimado cuantifica la dispersión de los da-
tos. Aunque, Sy/x cuantifica la dispersión alrededor de la r2 = 22,7143−2,9911
22,7143 = 0,868
lı́nea de regresión, como se muestra en la figura ??b), a
diferencia de la desviación estándar original sy que cuan- o
tifica la dispersión alrededor de la media (figura ??a)). √
r = 0,868 = 0,932
Los conceptos anteriores se utilizan para cuantificar la Los resultados indican que el modelo lineal explicó el
“bondad” de nuestro ajuste. 86,8 % de la incertidumbre original.
Esto es en particular útil para comparar diferentes regre-
siones (figura ??). Para hacerlo, regresamos a los datos Antes de implementar el programa computacional pa-
originales y determinamos la suma total de los cuadrados ra la regresión lineal, debemos tomar en cuenta algunas
alrededor de la media para la variable dependiente (en consideraciones. Aunque el coeficiente de correlación ofre-
nuestro caso, y). Como en el caso de la ecuación (9), esta ce una manera fácil de medir la bondad del ajuste, se
cantidad se designa por St . Ésta es la magnitud del error deberá tener cuidado de no darle más significado del que
residual asociado con la variable dependiente antes de la ya tiene. El solo hecho de que r sea “cercana” a 1 no
regresión. Después de realizar la regresión, calculamos Sr , necesariamente significa que el ajuste sea “bueno”. Por
es decir, la suma de los cuadrados de los residuos alrededor ejemplo, es posible obtener un valor relativamente alto
de la lı́nea de regresión. Esto caracteriza el error residual de r cuando la relación entre y y x no es lineal. Draper
que queda después de la regresión. Es por lo que, algunas y Smith (1981) proporcionan guı́as y material adicional
veces, se le llama la suma inexplicable de los cuadrados. respecto a la evaluación de resultados en la regresión li-
La diferencia entre estas dos cantidades, St −Sr , cuantifica neal. Además, como mı́nimo, usted deberá inspeccionar
la mejora o reducción del error por describir los datos en siempre una gráfica de los datos junto con su curva de
términos de una lı́nea recta en vez de un valor promedio. regresión. Como se describe en la siguiente sección, los
Como la magnitud de esta cantidad depende de la escala, paquetes de software tienen estas capacidades.
la diferencia se normaliza a St para obtener
St − Sr EJEMPLO 3. Regresión lineal usando la
r2 = (12) computadora
St
Planteamiento del problema. Se utiliza el software
donde r2 se conoce como el coeficiente de√determina- basado el código expuesto para resolver un problema de
ción y r es el coeficiente de correlación (= r2 ). En un prueba de hipótesis relacionado con la caı́da del paracai-
ajuste perfecto, Sr = 0 y r = r2 = 1, significa que la dista que se analizó en el capı́tulo 1. Un modelo teórico
lı́nea explica el 100 % de la variabilidad de los datos. Si matemático para la velocidad del paracaidista se dio como
r = r2 = 0, Sr = St el ajuste no representa alguna mejora. sigue
Una representación alternativa para r que es más conve-
niente para implementarse en una computadora es c
v(t) = gm
c (1 − e
(− m )t
)
P P P
n xi yi − ( xi )( yi ) donde v = velocidad (m/s), g = constante gravitacio-
r= p P 2 (13)
nal (9,8m/s2 ), m = masa del paracaidista igual a 68,1kg y
P 2p P 2 P
n xi − ( xi ) n yi − ( yi )2
c = coeficiente de arrastre de 12,5kg/s. El modelo predice
la velocidad del paracaidista en función del tiempo.
EJEMPLO 2. Estimación de errores en el ajus- Un modelo empı́rico alternativo para la velocidad del pa-
te lineal por mı́nimos cuadrados racaidista está dado por
Planteamiento del problema. Calcule la desviación

estándar total, el error estándar del estimado y el coefi- gm t
v(t) = ( ) (14)
ciente de correlación para los datos del ejemplo 1. c 3,75 + t
Solución. Las sumatorias se realizan y se presentan
en la tabla 1. La desviación estándar es [ecuación (10)]
3
Suponga que usted quiere probar y comparar la vera- llevarı́a a la conclusión de que la pendiente y la intersec-
cidad de esos dos modelos matemáticos. Esto se podrı́a ción fueran 1 y 0 respectivamente. Por lo anterior, es claro
hacer al medir la velocidad real del paracaidista con va- que, más que apoyarse en un juicio subjetivo, es preferible
lores conocidos de tiempo y al comparar estos resultados basar tal conclusión sobre un criterio cuantitativo.
con las velocidades predichas de acuerdo con cada modelo. Esto se logra al calcular intervalos de confianza para los
parámetros del modelo.
Se implementó un programa para la recolección de

datos experimentales, y los resultados se enlistan en la
1.4. Linealización de relaciones no linea-
columna a) de la tabla ??. Las velocidades calculadas con
cada modelo se enlistan en las columnas b) y c). les
La regresión lineal ofrece una poderosa técnica para
Solución. La veracidad de los modelos se prueba al ajustar una mejor lı́nea a los datos. Sin embargo, se consi-
graficar la velocidad calculada por el modelo contra la dera el hecho de que la relación entre las variables depen-
velocidad medida. Se puede usar la regresión lineal para diente e independiente es lineal. Éste no es siempre el caso,
calcular la pendiente y la intersección con el eje y de la y el primer paso en cualquier análi- sis de regresión deberá
gráfica. Esta lı́nea tendrá una pendiente de 1, una inter- ser graficar e inspeccionar los datos en forma visual, pa-
sección de 0yr2 = 1 si el modelo concuerda perfectamente ra asegurarnos que sea posible usar un modelo lineal. Por
con los datos. Una desviación significativa de estos valores ejemplo, la figura ?? muestra algunos datos que obviamen-
sirve como una indicación de lo inadecuado del modelo. te son curvilı́neos. En algunos casos, las técnicas como la
Las figuras 17.7a y b muestran gráficas de la lı́nea y los regresión polinomial, que se describen en la siguiente sec-
datos para las regresiones de las columnas b) y c), respec- ción, son apropiadas. En otros, se pueden utilizar trans-
tivamente, contra la columna a). Para el primer modelo formaciones para expresar los datos en una forma que sea
[ecuación (15) como se ilustra en la figura 17.7a] compatible con la regresión lineal.
gm Un ejemplo es el modelo exponencial
v(t) = (1 − e−(c/m)t ) (15)
c
y = α1 eβ1 x (16)
vmodelo = –0,859 + 1,032vmedida donde a1 yb1 son constantes. Este modelo se emplea en
muchos campos de la ingenierı́a para caracterizar cantida-
y para el segundo modelo [ecuación (14) como se ilustra des que aumentan (β positivo) o disminuyen (β negati-
1 1
en la figura 17.7b], vo), a una velocidad que es directamente proporcional a
vmodelo = 5,776 + 0,752vmedida sus propias magnitudes. Por ejemplo, el crecimiento po-
blacional o el decaimiento radiactivo tienen este compor-
Esas gráficas indican que la regresión lineal entre los tamiento. Como se ilustra en la figura 17.9a, la ecuación
datos y cada uno de los modelos es altamente significativa. representa una relación no lineal (para β 6= 0) entre y y
1
Ambos modelos ajustan los datos con un coeficiente de x.
correlación mayor a 0.99. Otro ejemplo de modelo no lineal es la ecuación de poten-
No obstante, el modelo descrito por la ecuación (15) se cias
ajusta mejor a nuestro criterio de prueba de hipótesis que
el descrito por la ecuación (14), ya que la pendiente y la
y = α2 xβ2 (17)
intersección con el eje y son más cercanos a 1 y 0. Ası́,
aunque cada gráfica queda bien descrita por una lı́nea rec- donde α2 y β2 son coeficientes constantes. Este mo-
ta, la ecuación (15) parece ser un mejor modelo que la (14). delo tiene muchas aplicaciones en todos los campos de la
ingenierı́a. Como se ilustra en la figura 17.9b, la ecuación
(para β2 6= 0 o 1) es no lineal.
La prueba y la selección del modelo son actividades
comunes y muy importantes en todas las ramas de la inge- Un tercer ejemplo de un modelo no lineal es la ecuación
nierı́a. El material que se presentó antes en este capı́tulo, de razón del crecimiento [recuerde la ecuación (14)]
junto con su software, le ayudarán a resolver muchos pro-
x
blemas prácticos de este tipo. y = α3 (18)
β3 + x
El análisis en el ejemplo 3 tiene un defecto: el ejemplo donde α3 y β3 son coeficientes constantes. Este modelo
no fue ambiguo, ya que el modelo empı́rico [ecuación (14)] particularmente es adecuado para caracterizar la razón de
fue claramente inferior al de la ecuación (15). La pendien- crecimiento poblacional bajo condiciones limitantes, tam-
te y la intersección en el modelo empı́rico fueron mucho bién representa una relación no lineal entre y y x (figura
más cercanos a los resultados deseados 1 y 0, por lo que ??c) que se iguala o “satura”, conforme x aumenta.
resultó obvio cuál era el mejor modelo. Hay técnicas de regresión no lineal disponibles para ajus-
Sin embargo, suponga que la pendiente fuera de 0.85 y que tar estas ecuaciones de manera directa a datos experimen-
la intersección con el eje y fuera de 2. Obviamente esto tales. Sin embargo, una alternativa simple consiste en usar
4
manipulaciones matemáticas para transformar las ecua- 1.5. Comentarios generales sobre la regre-
ciones en una forma lineal. Después, se utiliza la regresión sión lineal
lineal simple para ajustar las ecuaciones a los datos.
Por ejemplo, la ecuación (16) se linealiza al aplicar el lo- Antes de plantear la regresión curvilı́nea y lineal múlti-
garitmo natural se obtiene ple, debemos enfatizar la naturaleza introductoria del ma-
terial anterior sobre regresión lineal. Nos hemos concen-
lny = lnα1 + β1 xlne trado en la obtención y el uso práctico de ecuaciones para
ajustarse a datos. Deberá estar consciente del hecho de que
Pero como lne = 1, hay aspectos teóricos de regresión que son de importancia
práctica, pero que van más allá del alcance de este libro.
lny = lnα1 + β1 x (19) Por ejemplo, algunas suposiciones estadı́sticas, inherentes
a los procedimientos lineales por mı́nimos cuadrados, son
Ası́, una gráfica de ln y contra x dará una lı́nea recta
con una pendiente β1 y una inter- sección con el eje de las 1. Cada x tiene un valor fijo; no es aleatorio y se conoce
ordenadas igual a ln α1 (figura ??d). sin error.
La ecuación (17) es linealizada al aplicar el logaritmo de
base 10 se obtiene 2. Los valores de y son variables aleatorias indepen-
dientes y todas tienen la misma varianza.
log y = β2 log x + log α2 (20) 3. Los valores de y para una x dada deben estar distri-
De este modo, una gráfica de log y contra log x dará buidos normalmente.
una lı́nea recta con pendiente β2 e intersección con el eje
Tales suposiciones son relevantes para la obtención
de las ordenadas logα2 (figura ??e).
adecuada y el uso de la regresión. Por ejemplo, la primera
La ecuación (18) es linealizada al invertirla para dar
suposición significa que 1. los valores x deben estar libres
1 β3 1 1 de errores, y 2. la regresión de y contra x no es la misma
= + (21) que la de x contra y. Usted debe consultar otras referen-
y α3 x α3
cias tales como Draper y Smith (1981) para apreciar los
De esta forma, una gráfica de 1/y contra 1/x será li-
aspectos y detalles de la regresión que están más allá del
neal, con pendiente β3 /α3 y una intersección con el eje de
alcance de este libro.
las ordenadas 1/α3 (figura ??f ).
En sus formas transformadas, estos modelos pueden usar
la regresión lineal para poder evaluar los coeficientes cons- 2. REGRESIÓN POLINOMIAL
tantes. Después, regresarse a su estado original y usarse
para fines predictivos. El ejemplo 4 ilustra este procedi- En la sección 1 se desarrolló un procedimiento pa-
miento con la ecuación (17). ra obtener la ecuación de una lı́nea recta por medio del
criterio de mı́nimos cuadrados. En la ingenierı́a, aunque
EJEMPLO 4 Linealización de una ecuación de algunos datos exhiben un patrón marcado, como el que
potencias se advierte en la figura ??, son pobremente representados
por una lı́nea recta, entonces, una curva podrá ser más
Planteamiento del problema. Ajuste la ecuación adecuada para ajustarse a los datos. Como se analizó en
(17) a los datos de la tabla 3 mediante una transformación la sección anterior, un método para lograr este objetivo
logarı́tmica de los datos. es utilizar transformaciones. Otra alternativa es ajustar
polinomios a los datos mediante regresión polinomial.
Solución. La figura ??a es una gráfica de los datos El procedimiento de mı́nimos cuadrados se puede exten-
originales en su estado no transformado. La figura ??b der fácilmente al ajuste de datos con un polinomio de
muestra la gráfica de los datos transformados. Una re- grado superior. Por ejemplo, suponga que ajustamos un
gresión lineal de esta transformación mediante logoritmos polinomio de segundo grado o cuadrático:
dan el siguiente resultado:
y = α0 + α1 x + α2 x2 + e
log y = 1,75 log x–0,300
En este caso, la suma de los cuadrados de los residuos
es [compare con la ecuación (3)]
Ası́, la intersección con el eje de las ordenadas es log α2
igual a –0.300 y, por lo tanto, al tomar el antilogaritmo, X n
α2 = 10–0,3 = 0,5. La pendiente es β2 = 1.75. En conse- Sr = (yi − α0 − α1 xi − α2 x2i )2 (22)

cuencia, la ecuación de potencias es i=1
Al seguir el procedimiento de la sección anterior, obte-
y = 0,5x1,75 nemos la derivada de la ecuación (22) con respecto a cada
uno de los coeficientes desconocidos del polinomio,
Esta curva, como se gráfica en la figura ??a, indica un
∂Sr
(yi − α0 − α1 xi − α2 x2i )
P
buen ajuste ∂α0 = −2
5
∂Sr
xi (yi − α0 − α1 xi − α2 x2i ) x3i = 225
P P
∂α1 = −2 ȳ = 25,433
∂Sr
x2i (yi − α0 − α1 xi − α2 x2i )
P
∂α2 = −2
Estas ecuaciones se igualan a cero y se reordenan para Entonces, las ecuaciones lineales simultáneas son
desarrollar el siguiente conjunto de ecuaciones normales:     
6 15 55 α0 152,6
15 55 225 α1  =  585,6 
X X X
(n)α0 + ( xi )α1 + ( x2i )α2 = yi 55 225 979 α2 2488,8
X X X X
2 3
( xi )α0 + ( xi )α1 + ( xi )α2 = xi yi (23)
X X X X
2 3 4
( xi )α0 + ( xi )α1 + ( xi )α2 = x2i yi Resolviendo estas ecuaciones con una técnica como la
eliminación de Gauss se tiene a0 = 2,47857, a1 = 2,35929
y a2 = 1,86071. Por lo tanto, la ecuación cuadrática por
donde todas las sumatorias van desde i = 1 hasta n.
mı́nimos cuadrados en este caso es
Observe que las tres ecuaciones anteriores son lineales y
tienen tres incógnitas:a0 , a1 y a2 . Los coeficientes de las
incógnitas se evalúan de manera directa, a partir de los y = 2,47857 + 2,35929x + 1,86071x2
datos observados.
En este caso, observamos que el problema de determinar El error estándar del estimado con base en la regresión
un polinomio de segundo grado por mı́nimos cuadrados es polinomial es [ecuación (24)]
equivalente a resolver un sistema de tres ecuaciones linea- q
les simultáneas. En la parte tres se estudiaron las técnicas S xy = 3,74657
6−3 = 1,12
para resolver tales ecuaciones.
El caso bidimensional se extiende con facilidad a un poli- El coeficiente de determinación es
nomio de m-ésimo grado como sigue
r2 = 2513,39−3,74657
2513,39 = 0,99851
y = α0+ + α1 x + α2 x2 + ... + αm xm + e
y el coeficiente de correlación es r = 0,99925.
El análisis anterior se puede extender fácilmente a este Estos resultados indican que con el modelo se explicó el
caso más general. Ası́, se reconoce que la determinación 99.851 % de la incertidumbre original. Este resultado apo-
de los coeficientes de un polinomio de m-ésimo grado es ya la conclusión de que la ecuación cuadrática represen-
equivalente a resolver un sistema de m+1 ecuaciones linea- ta un excelente ajuste, como también es evidente en la
les simultáneas. En este caso, el error estándar se formula figura ??
como sigue:
s
Sr
S xy =
n − (m + 1)
(24) 3. REGRESIÓN LINEAL MÚLTI-
PLE
Esta cantidad se divide entre n–(m+1), ya que (m+1)
coeficientes obtenidos de los datos, α0 , α1 , . . . , αm , se uti- Una extensión útil de la regresión lineal es el caso en
lizaron para calcular Sr ; hemos perdido m + 1 grados de el que y es una función lineal de dos o más variables in-
libertad. Además del error estándar, también se calcula un dependientes. Por ejemplo,y podrı́a ser una función lineal
coeficiente de determinación para la regresión polinomial de x1 y x2 , como en
con la ecuación (12).
y = α0 + α1 x1 + α2 x2 + e
EJEMPLO 5. Regresión polinomial
Planteamiento del problema. Ajustar a un polino- En particular tal ecuación es útil cuando se ajustan
mio de segundo grado los datos dados en las dos primeras datos experimentales donde la variable sujeta a estudio es
columnas de la tabla 4. una función de otras dos variables. En este caso bidimen-
sional, la “lı́nea” de regresión se convierte en un “plano”
Solución. A partir de los datos dados, (figura ??).
m=2
P
xi = 15
P
x4i = 979 Como en los casos anteriores, los “mejores” valores pa-
ra los coeficientes se determinan al realizar la suma de los
n=6
P
yi = 152,6
P
xi yi = 585,6 cuadrados de los residuos,
n
x2i = 55 x2i yi = 2488,8
P P
x̄ = 2,5
X
Sr = (yi − α0 − α1 x1i − α2 x2i )2 (25)
6 i=1
y derivando con respecto a cada uno de los coeficientes y = α0 xα1 α2 am
1 x2 ...xm
desconocidos,
Tales ecuaciones son extremadamente útiles cuando se
∂Sr P
∂α0 = −2 (yi − α0 − α1 x1i − α2 x2i ) ajustan datos experimentales. Para usar regresión lineal
múltiple, la ecuación se transforma al aplicar logaritmos:
∂Sr P
∂α1 = −2 x1i (yi − α0 − α1 x1i − α2 x2i )
log y = log α0 + α1 log x1 + α2 log x2 + ... + αm log xm
∂Sr P
∂α2 = −2 x2i (yi − α0 − α1 x1i − α2 x2i )
Esta transformación es similar a la que se usó en la
Los coeficientes que dan la suma mı́nima de los cuadra- sección 1.5 y en el ejemplo 4 para ajustar una ecuación de
dos de los residuos se obtienen al igualar a cero las deriva- potencias cuando y era una función de una sola variable x.
das parciales y expresando el resultado en forma matricial:
 P P    P 
Pn P x21i P x2i α0 P y1i 4. MÍNIMOS CUADRADOS LI-
 x1i
P x1i Px1i2x2i
 α1  =  x1i yi 
NEALES EN GENERAL
P P
x2i x1i x2i x2i α2 x2i yi
(26)
Hasta aquı́ nos hemos concentrado en la mecánica para
obtener ajustes por mı́nimos cuadrados de algunas fun-
EJEMPLO 6. Regresión lineal múltiple ciones sencillas para datos dados. Antes de ocuparnos de
Planteamiento del problema. Los siguientes datos la regresión no lineal, hay varios puntos que nos gustarı́a
se calcularon con la ecuación y = 5 + 4x1 –3x2 : analizar para enriquecer nuestra comprensión del material
precedente.
Utilice la regresión lineal múltiple para ajustar estos
datos.
Solución. Las sumatorias requeridas para la ecuación

4.1. Formulación general de una matriz
(26) se calculan en la tabla 5. El resultado es para mı́nimos cuadrados lineales
En las páginas anteriores presentamos tres tipos de re-
     gresión: lineal simple, polinomial y lineal múltiple. De he-
6 16,5 14 α0 54
16,5 cho, las tres pertenecen al siguiente modelo lineal general
76,25 48 α1  = 243,5
de mı́nimos cuadrados:
14 48 54 α2 100
y = α0 z0 + α1 z1 + α2 z2 + ... + am zm + e (27)
que se resuelve mediante un método como el de elimi-
nación de Gauss, obteniéndose donde z0 , z1 , ..., zm son m + 1 funciones diferentes. Se
observa con facilidad cómo la regresión lineal simple y
α0 = 5 α1 = 4 α2 = –3 múltiple se encuentran dentro de este modelo; es decir,
z0 = 1, z1 = x1 , z2 = x2 , ..., zm = xm . Además, la regre-
que es consistente con la ecuación original, de la cual sión polinomial se incluye también si las z son monomios
se obtienen los datos. simples como z0 = x0 = 1, z1 = x, z2 = x2 , ..., zm = xm .
Observe que la terminologı́a “lineal” se refiere sólo a la
dependencia del modelo sobre sus parámetros (es decir,
El caso bidimensional anterior fácilmente se extiende las α). Como en el caso de la regresión polinomial, las
a m dimensiones ası́ mismas funciones llegan a ser altamente no lineales. Por
ejemplo, las z pueden ser senoidales, como en
y = α0 + α1 x1 + α2 x2 + ... + αm xm + e
y = α0 + α1 cos(ωt) + α2 sin(ωt)
donde el error estándar se formula como
q Esta forma es la base del análisis de Fourier. Por otro
Sr lado, un modelo de apariencia simple como
Sy/x = n−(m+1)
y el coeficiente de determinación se calcula como en la f (x) = α0 (1–e−a1x )

ecuación (12).
es no lineal porque no es posible llevarlo a la forma de
Aunque puede haber ciertos casos donde una variable la ecuación (27). Regresaremos a tales modelos al final de
esté linealmente relacionada con dos o más variables, la este capı́tulo.
regresión lineal múltiple tiene además utilidad en la ob- Mientras tanto, la ecuación (27) se expresa en notación
tención de ecuaciones de potencias de la forma general matricial como
7
4.2. Técnicas de solución
{Y } = [Z]{A} + {E} (28)
En los análisis anteriores en este capı́tulo tratamos el
asunto de las técnicas numéricas especı́ficas para resolver
donde [Z] es una matriz de los valores calculados de las ecuaciones normales. Ahora que hemos establecido la
las funciones z en los valores medidos de las variables unidad de los diversos modelos, podemos explorar esta
independientes, cuestión con mayor detalle.
  Primero, deberá quedar claro que el método de Gauss-

 z01 z11 ... zm1 
 Seidel no puede utilizarse aquı́ debido a que las ecuaciones
z02 z12 ... zm2 
 
normales no son diagonalmente dominantes. De esta ma-

 
 
. . .
 
[Z] = nera, nos quedan solamente los métodos de eliminación.
 .
 . . 
 Para los propósitos actuales, podemos dividir esas técni-
 . . .
 
cas en tres categorı́as: 1. métodos de descomposición LU ,
 

 
z0n z1n ... zmn
 
incluyendo eliminación de Gauss, 2. método de Cholesky
donde m es el número de variables en el modelo y n es y 3. método de la matriz inversa. En efecto, hay interre-
el número de datos. Como n ≥ m + 1, usted reconocerá laciones en esta clasificación. Por ejemplo, el método de
que, la mayorı́a de las veces, [Z] no es una matriz cuadra- Cholesky es, de hecho, una descomposición LU , y todos
da. los procedimientos se pueden formular de tal manera que
El vector columna {Y } contiene los valores observados de generen la matriz inversa. Sin embargo, el mérito de esta
la variable dependiente clasificación es que cada categorı́a ofrece ventajas respecto
a la solución de ecuaciones normales.

{Y }T = y1 y2 ... yn
Descomposición LU . Si usted está interesado sólo
El vector columna {A} contiene los coeficientes desco- en aplicar un ajuste por mı́nimos cuadrados en un ca-
nocidos so donde el modelo adecuado se conoce de antemano,
cualquiera de los procedimientos de descomposición LU ,
descritos en el capı́tulo 9, son perfectamente aceptables.
{A}T = α0 α1 ... αm
De hecho, también es posible emplear la formulación de
la descomposición LU de la eliminación de Gauss. Ésta
y el vector columna {E} contiene los residuos es una tarea de programación relativamente sencilla pa-
ra incorporar cualquiera de estos procedimientos en un
{E}T = e1 e2 ... en algoritmo de mı́nimos cuadrados lineales. En realidad, si
se ha seguido un enfoque modular, esto resulta casi trivial.
Como se dio a lo largo de este capı́tulo, la suma de los
cuadrados de los residuos en este modelo se definen como Método de Cholesky. El algoritmo de descompo-
Pn Pm sición de Cholesky tiene varias ventajas para la solución
Sr = i=1 (yi − j=0 aj zji )2 del problema general de regresión lineal. Primero, está
expresamente diseñado para resolver matrices simétricas
Esta cantidad se minimiza tomando las derivadas par- como las ecuaciones normales. Ası́ que es rápido y se re-
ciales con respecto a cada uno de los coeficientes e igua- quiere de menos espacio de almacenamiento para resolver
lando a cero la ecuación resultante. El resultado de este tales sistemas. Segundo, es ideal en casos donde el grado
proceso son las ecuaciones normales, que se expresan en del modelo [es decir, el valor de m en la ecuación (27)]
forma matricial como no se conoce de antemano (véase Ralston y Rabinowitz,
1978). Uno de estos casos serı́a la regresión polinomial.
En ella, no podemos saber a priori si un polinomio li-
[[Z]T [Z]]{A} = {[Z]T {Y }} (29) neal, cuadrático, cúbico o de grado superior es el “mejor”
modelo para describir nuestros datos. Debido tanto a la
Es posible mostrar que la ecuación (29) es, de hecho, forma en la que se construyen las ecuaciones normales
equivalente a las ecuaciones normales desarrolladas antes como a la manera en la que se lleva a cabo el algoritmo de
para la regresión lineal simple, la polinomial y la múltiple. Cholesky, podemos desarrollar modelos sucesivos de grado
Nuestra principal motivación para lo anterior fue ilustrar superior de manera muy eficiente. En cada paso es factible
la unidad entre los tres procedimientos y mostrar cómo examinar la suma residual de los cuadrados del error (¡y
se pueden expresar de manera simple en la misma nota- una gráfica!), para examinar si la inclusión de términos de
ción matricial. También sienta las bases para el estudio grado superior mejora el ajuste de manera significativa.
de la siguiente sección, donde obtendremos un mejor co- En la regresión lineal múltiple la situación análoga se
nocimiento sobre las estrategias preferidas para resolver presenta cuando se agregan, una por una, variables inde-
la ecuación (29). La notación matricial también tendrá pendientes al modelo. Suponga que la variable dependiente
relevancia cuando volvamos a la regresión no lineal en la de interés es función de varias variables independientes;
última sección del presente capı́tulo. por ejemplo, temperatura, contenido de humedad, presión,
etc. Primero realizarı́amos una regresión lineal con la tem-
8
peratura y calcuları́amos un error residual. En seguida, p donde s(αj ) = el error estándar del coeficiente aj =
se podrı́a incluir el contenido de humedad para llevar a var(aj ). De manera similar, los lı́mites inferior y supe-
cabo una regresión múltiple de dos variables y observar si rior para la pendiente se calculan:
la variable adicional resulta en una mejora del ajuste. El
método de Cholesky vuelve eficiente el proceso, ya que la
descomposición del modelo lineal tan sólo se completará L = α1 − tα/2,n−2 S(α1 ) U = α1 + tα/2,n−2 S(α1 )
al incorporar una nueva variable. (35)
El ejemplo 7 ilustra cómo se emplean esos intervalos
Método de la matriz inversa. De la ecuación para realizar inferencias cuantitativas respecto a la regre-
sión lineal.
{X} = {A}−1 {B} (30)
EJEMPLO 7 Intervalos de confianza para la re-
recuerde que la matriz inversa se emplea para resolver gresión lineal
la ecuación (29), como se muestra a continuación: Planteamiento del problema. En el ejemplo 3 uti-
lizamos la regresión para desarrollar la siguiente relación
{A} = [[Z]T [Z]]−1 {[Z]T {Y }} (31) entre mediciones y predicciones del modelo:
Cada uno de los métodos de eliminación se puede uti-
lizar para determinar la inversa y, ası́, servir para imple- y = –0,859 + 1,032x
mentar la ecuación (31). Sin embargo, como aprendimos
en la parte tres, éste es un método ineficiente para resolver donde y = las predicciones del modelo y x = las me-
un conjunto de ecuaciones simultáneas. Ası́, si estuviéra- diciones. Concluimos que habı́a una buena concordancia
mos solamente interesados en determinar los coeficientes entre las dos, puesto que la intersección con el eje y era
de regresión, serı́a preferible utilizar el método de descom- aproximadamente igual a 0, y la pendiente aproximada-
posición LU sin inversión. No obstante, desde una pers- mente igual a 1. Vuelva a calcular la regresión, pero ahora
pectiva estadı́stica, existen varias razones por las cuales use el método matricial para estimar los errores estándar
estarı́amos interesados en obtener la inversa y examinar de los parámetros. Después emplee tales errores para desa-
sus coeficientes. Tales razones se analizarán más adelante. rrollar los intervalos de confianza y úselos para realizar
un planteamiento probabilı́stico respecto a la bondad del
ajuste.
4.3. Aspectos estadı́sticos de la teorı́a de
mı́nimos cuadrados Solución. Los datos se escriben en forma matricial
Recordemos los diversos estadı́sticos descriptivos que para una regresión lineal simple de la siguiente manera:
se utilizan para describir una muestra. Éstos son: la me-    
1 10  8,953 
dia aritmética, la desviación estándar y la varianza.

  
 
1 16,3 16,405

  
 
Además de dar una solución para los coeficientes de

 
 
 

1 23  22,607

  
 
regresión, la formulación matricial de la ecuación (31) pro-
 
[z] = . . {Y } = .
porciona estimaciones de sus estadı́sticos. Es posible de-
. .   . 

  
 
mostrar (Draper y Smith, 1981) que los términos en la  
  

. .   . 
   
−1
T
 
diagonal y fuera de la diagonal de la matriz [[Z] [Z]]  
  

1 50 49,988
   
dan, respectivamente, las varianzas y las covarianzas1 de
las α. Si los elementos de la diagonal de [[Z]T [Z]]−1 se Después se usan la transposición y la multiplicación
−1 matriciales para generar las ecuaciones normales:
designa por zi,i , entonces
−1 2
var(αi−1 ) = zi,i Sy/x (32) [[Z]T [Z]] {A} = {[Z]T {Y }
y
15 548,3

α0 552,741

=
−1 2
548,3 22191,21 α1 22421,43
cov(αi−1 , αj−1 ) = zi,j Sy/x (33)
Se emplea la inversión matricial para obtener la pen-
Dichos estadı́sticos poseen varias aplicaciones impor- diente y la intersección con el eje y
tantes. Para nuestros actuales propósitos, ilustraremos
cómo se utilizan para desarrollar intervalos de confianza {A} = [[Z]T [Z]]−1 {[Z]T {Y }
para la intersección con el eje y y la pendiente.

Con un procedimiento similar al examinado en el capı́tulo 0,688414 −0,01701 552,741
anterior, se demuestra que los lı́mites inferior y superior = =
−0,01701 0,000465 22421,43
para la intersección con el eje y se pueden encontrar (véase

−0,85872
Milton y Arnold, 1995, para más detalles) de la siguiente 1,031592
manera:
De esta manera, la intersección con el eje y y la pen-
diente quedan como α0 = –0,85872 y α1 = 1,031592,
L = α0 − tα/2,n−2 S(α0 ) U = α0 + tα/2,n−2 S(α0 ) respectivamente. Estos valores, a su vez, sirven para cal-
(34) cular el error estándar del estimado, Sy/x = 0,863403. Este
9
valor puede utilizarse, junto con los elementos diagonales
de la matriz inversa, para calcular los errores estándar de f (x) = α0 (1–e–α1 x ) + e (36)
los coeficientes,
q Esta ecuación no puede ser manipulada para ser lleva-
−1 2
p
S(α0 ) = z11 Sy/x = 0,688414(0,863403)2 = da a la forma general de la ecuación (27).
0,716372 Como en el caso de los mı́nimos cuadrados lineales, la re-
q gresión no lineal se basa en la determinación de los valores
−1 2 de los parámetros que minimizan la suma de los cuadra-
p
S(α1 ) = z22 Sy/x = 0,000465(0,863403)2 =
dos de los residuos. Sin embargo, en el caso no lineal, la
0,018625
solución debe realizarse en una forma iterativa.
El método de Gauss-Newton es un algoritmo para mini-
El estadı́stico tα/2,n–1 necesario para un intervalo de
mizar la suma de los cuadrados de los residuos entre los
confianza del 95 %conn–2 = 15–2 = 13 grados de libertad
datos y las ecuaciones no lineales. El concepto clave detrás
se obtiene con una tabla estadı́stica o mediante software.
de esta técnica es que se utiliza una expansión en serie
Usemos una función de Excel, TINV, para obtener el valor
de Taylor para expresar la ecuación no lineal original en
adecuado de la siguiente manera:
una forma lineal aproximada. Entonces, es posible aplicar
la teorı́a de mı́nimos cuadrados para obtener nuevas esti-
= T IN V (0,05, 13) maciones de los parámetros que se mueven en la dirección
que minimiza el residuo.
que da un valor de 2.160368. Las ecuaciones (34) y (35) Para ilustrar cómo se logra esto, primero se expresa de
entonces se usan para calcular los intervalos de confianza: manera general la relación entre la ecuación no lineal y
los datos, de la manera siguiente:
α0 = –0,85872 ± 2,160368(0,716372) = –0,85872 ±
1,547627 = [–2,40634, 0,688912] y = f (x ; α , α , ..., α ) + e
i i 0 1 m i
α1 = 1,031592 ± 2,160368(0,018625) = 1,031592 ± donde yi = un valor medido de la variable dependiente,

0,040237 = [0,991355, 1,071828] f (xi ; α0 , α1 , ..., am ) = la ecuación que es una función de
la variable independiente xi y una función no lineal de los
Observe que los valores deseados (0 para la intersec- parámetros α0 , α1 , ..., αm , y ei = un error aleatorio. Por
ción, y 1 para la pendiente) caen dentro de los intervalos. conveniencia, este modelo se expresa en forma abreviada
Considerando este análisis podremos formular las siguien- al omitir los parámetros,
tes declaraciones sobre la pendiente: tenemos fundamentos
sólidos para creer que la pendiente de la lı́nea de regresión
yi = f (xi ) + ei (37)
real está dentro del intervalo de 0.991355 a 1.071828. Debi-
do a que 1 está dentro de este intervalo, también tenemos El modelo no lineal puede expandirse en una serie de
fundamentos sólidos para creer que el resultado apoya Taylor alrededor de los valores de los parámetros y cortar-
la concordancia entre las mediciones y el modelo. Como se después de las primeras derivadas. Por ejemplo, para
cero está dentro del intervalo de la intersección, se pue- un caso con dos parámetros,
de hacer una declaración similar respecto a la intersección.
Lo anterior constituye una breve introducción al am- ∂f (xi )j ∂f (xi )j

plio tema de la inferencia estadı́stica y de su relación con f (xi )j+1 = f (xi )j + ∆α0 + ∆α1 (38)
∂α0 ∂α1
la regresión. Hay muchos más temas de interés que están
fuera del alcance de este libro. Nuestra principal intención donde j = el valor inicial, j + 1 = la predicción,
es demostrar el poder del enfoque matricial para los mı́ni- ∆α0 = α0,j+1 –α0,j , y ∆α1 = α1,j+1 –α1,j . De esta for-
mos cuadrados lineales en general. Usted deberá consultar ma, hemos linealizado el modelo original con respecto a
algunos de los excelentes libros sobre el tema (por ejemplo, los parámetros. La ecuación (38) se sustituye en la ecua-
Draper y Smith, 1981) para obtener mayor información. ción (37) para dar
Además, habrá que observar que los paquetes y las biblio-
tecas de software pueden generar ajustes de regresión por
mı́nimos cuadrados, junto con información relevante para ∂f (xi )j ∂f (xi )j
yi − f (xi )j = ∆α0 + ∆α1 + ei
la estadı́stica inferencial. ∂α0 ∂α1
o en forma matricial [compárela con la ecuación (28)],

5. REGRESIÓN NO LINEAL
{D} = [Zj ]{∆A} + {E} (39)
Hay muchos casos en la ingenierı́a donde los modelos
no lineales deben ajustarse a datos. En el presente con- donde [Zj ] es la matriz de las derivadas parciales de la
texto, tales modelos se definen como aquellos que tienen función evaluadas en el valor inicial j,
dependencia no lineal de sus parámetros. Por ejemplo,
10
 

 ∂f1 /∂α0 ∂f1 /∂α1 
 inicial de los cuadrados de los residuos es 0.0248.
∂f2 /∂α0 ∂f2 /∂α1 

 

 

. .
 
[Zj ] = Solución. Las derivadas parciales de la función con

 . . 
 respecto a los parámetros son
. .

 


 

∂fn /∂α0 ∂fn /∂α1 ∂f
 
= 1 − e−α1 x (42)
donde n = el número de datos y partialfi /∂αk = la ∂α0
derivada parcial de la función con respecto al k-ésimo y
parámetro evaluado en el i-ésimo dato. El vector {D}
contiene las diferencias entre las mediciones y los valores ∂f
= α0 xe−α1 x (43)
de la función, ∂α0
Las ecuaciones (42) y (43) se utilizan para evaluar la
 
 y1 − f (x1 ) 
matriz
 
y2 − f (x2 ) 

 


 
.
   
{D} = 0,2212 0,1947
 .  
 
0,5276 0,3543
  
 
.

 
 
 


yn − f (xn )

 [Z 0 ] = 0,7135 0,3581
0,8262 0,3041

 
 
y el vector {∆A} contiene los cambios en los valores
 
0,8946 0,2371
 
de los parámetros,
Esta matriz multiplicada por su transpuesta nos da
 
 ∆α0 


∆α1 

 T 2,3193 0,9489

  [Z0 ] [Z0 ] =


.

 0,9489 0,4404
{∆A} =
 . 
  la cual, a su vez, se invierte con el siguiente resultado:
. 

 

 

∆αm 3,6397 −7,8421
 
[[Z0 ]T [Z0 ]]−1 =
Si se aplica la teorı́a de los mı́nimos cuadrados linea- −7,8421 19,1678
les a la ecuación (39) se obtienen las siguientes ecuaciones El vector {D} consiste en las diferencias entre las me-
normales [recuerde la ecuación (29)]: diciones y las predicciones del modelo,
   
[[Zj ]T [Zj ]]{∆A} = {[Zj ]T {D}∆} (40) 0,28 − 0,2212
    0,0588 
0,57 − 0,5276  0,0424 

   
  
Ası́, el procedimiento consiste en resolver de la ecua- {D} = 0,68 − 0,7135 = −0,0335
ción (40) para {∆A}, que se utiliza para calcular valores
0,74 − 0,8262


  
 −0,0862 
   

mejorados de los parámetros, como en 
0,79 − 0,8946
 
−0,1046

α0,j+1 = α0,j + ∆α0

Éste se multiplica por [Z0 ]T para dar
y
−0,1533

T
[Z0 ] {D} =
−0,0365
α1,j+1 = α1,j + ∆α1
El vector ∆A, entonces, se calcula al resolver la ecua-
Este procedimiento se repite hasta que la solución con- ción (40):
verge, es decir, hasta que
−0,2714
∆A =
αk,j+1 − αk,j 0,5019
|α |k = | |100 % (41)
αk,j+1 que se suma a los valores iniciales de los parámetros:
está por debajo de un criterio de terminación acepta-
α0 1,0 −0,2714 0,7286
ble. = + =
α1 1,0 0,5019 1,5019
EJEMPLO 8. Método de Gauss-Newton
Ası́, los estimados mejorados de los parámetros son
Planteamiento del problema. Ajuste la función α0 = 0,7286 y α1 = 1,5019. Los nuevos parámetros dan
f (x; α0 , α1 ) = α0 (1–e–α1 x ) a los datos: una suma de los cuadrados de los residuos igual a 0.0242.
La ecuación (41) se utiliza para obtener que 0 y 1 son
iguales a 37 y 33 %, respectivamente. El cálculo se re-
Emplee α0 = 1,0yα1 = 1,0 como valores iniciales para petirı́a hasta que esos valores estén abajo del criterio de
los parámetros. Observe que para estos valores la suma terminación establecido. El resultado final es α0 = 0,79186
11
y α1 = 1,6751. Tales coeficientes dan una suma de los cua- problemas. La aproximación de Fourier representa un es-
drados de los residuos de 0.000662. quema sistemático para utilizar series trigonométricas con
este propósito.
Un problema potencial con el método de Gauss- Una de las caracterı́sticas distintivas del análisis de Fourier
Newton, como se ha desarrollado hasta ahora, es que es que trata con los dominios del tiempo y de la frecuen-
las derivadas parciales de la función pueden ser difı́ciles cia. Como algunos ingenieros requieren trabajar con el
de evaluar. En consecuencia, muchos programas compu- último, se ha dedicado gran parte del siguiente material a
tacionales usan diferentes ecuaciones para aproximar las ofrecer una visión general de la aproximación de Fourier.
derivadas parciales. Un método es Un aspecto clave de esta visión será familiarizarse con el
dominio de la frecuencia. Luego de dicha orientación se
presenta una introducción a los métodos numéricos para
calcular transformadas de Fourier discretas.
∂fi ∼ f (xi ; α0 , ..., αk + δαk , ..., αm ) − f (xi ; α0 , ..., αk , ..., αm )
=
∂αk δαk
(44)
6.1. AJUSTE DE CURVAS CON FUN-

donde δ = una perturbación fraccional pequeña. CIONES SINUSOIDALES
El método de Gauss-Newton tiene también algunas des-
Una función periódica f (t) es aquella para la cual
ventajas:
1. Puede converger con lentitud. f (t) = f (t + T ) (46)

donde T es una constante llamada el periodo, que es el
2. Puede oscilar ampliamente; es decir, cambia de di-
valor menor para el cual es válida la ecuación (46). Entre
rección continuamente.
los ejemplos comunes se encuentran diversas formas de on-
3. Puede no converger. da tales como, ondas cuadradas y dientes de sierra (figura
??). Las ondas fundamentales son las funciones sinusoida-
Se han desarrollado modificaciones del método (Booth les.
y Peterson, 1958; Hartley, 1961) para disminuir las des- En el presente análisis se usará el término sinusoide para
ventajas. representar cualquier forma de onda que se pueda descri-
Además, aunque hay varios procedimientos expresamente bir como un seno o un coseno. No existe una convención
diseñados para regresión, un método más general es usar muy clara para elegir entre estas funciones y, en cualquier
rutinas de optimización no lineal como las descritas en la caso, los resultados serán idénticos.
parte cuatro. Para hacer esto, se dan valores iniciales a los
parámetros y se calcula la suma de los cuadrados de los En este capı́tulo se usará el coseno, que generalmente
residuos. Por ejemplo, para la ecuación (36) esto se podrı́a se expresa como
calcular como
f (t) = A0 + C1 cos(ω0 t + θ) (47)
n
Ası́, cuatro parámetros sirven para caracterizar la si-
X
−α1 xi 2
Sr = (yi − α0 (1 − e )) (45)
i=1 nusoide (figura ??). El valor medio A0 , establece la altura
promedio sobre las abscisas. La amplitud C1 especifica la
Los parámetros, entonces, se ajustarı́an de mane-
altura de la oscilación. La frecuencia angular ω0 caracteri-
ra sistemática para minimizar Sr mediante técnicas de
za con qué frecuencia se presentan los ciclos. Finalmente,
búsqueda como las descritas previamente en el capı́tulo
el ángulo de fase, o corrimiento de fase θ, parametriza en
14. Ilustrare- mos el modo para hacer esto cuando descri-
qué extensión la sinusoide está corrida horizontalmente.
bamos las aplicaciones de software, al final del capı́tulo 19.
Esto puede medirse como la distancia en radianes desde
t = 0 hasta el punto donde la función coseno empieza un
nuevo ciclo. Como se ilustra en la figura 19.4a, un valor ne-
6. Aproximación de Fourier gativo se conoce como un ángulo de fase de atraso, ya que
la curva cos(ω0 t–θ) comienza un nuevo ciclo de θ radianes
Hasta aquı́, en nuestra presentación de la inter- después del cos(ω0 t). Ası́, se dice que cos(ω0 t–θ) tiene un
polación se han destacado los polinomios estándar, retraso cos(ω0 t). En forma opuesta, como se muestra en
es decir, las combinaciones lineales de los mono- la figura ??b, un valor positivo se refiere como un ángulo
mios 1, x, x2 , . . . , xm (figura ??a). Ahora veremos de fase de adelanto.
otra clase de funciones que son trascendentales en
la ingenierı́a. Éstas son las funciones trigonométri-
cas 1, cos x, cos 2x, ..., cos nx, sin x, sin 2x, ..., sin nx (figura Observe que la frecuencia angular (en radia-
??b). nes/tiempo) se relaciona con la frecuencia f (en ci-
Los ingenieros a menudo tratan con sistemas que oscilan o clos/tiempo) mediante
vibran. Como es de esperarse, las funciones trigonométri-
cas juegan un papel importante en el modelado de tales ω0 = 2πf (48)
12
y, a su vez, la frecuencia está relacionada con el periodo 6.1.1. Ajustes por minimos cuadrados de una si-
T (en unidades de tiempo) mediante nusoide
1 La ecuación (50) se entiende como un modelo lineal

f= por mı́nimos cuadrados
T
Aunque la ecuación (47) representa una caracterización y = A0 + A1 cos(ω0 t) + B1 sin(ω0 t) + e (55)
matemática adecuada de una sinusoide, es difı́cil trabajar
que es sólo otro ejemplo del modelo general [recuerde la
desde el punto de vista del ajuste de curvas, pues el corri-
ecuación (27)]
miento de fase está incluido en el argumento de la función
coseno. Esta deficiencia se resuelve empleando la identidad
y = a0 z0 + a1 z1 + a2 z2 + ... + am zm + e
trigonométrica
donde z0 = 1, z1 = cos(ω0 t), z2 = sin(ω0 t) y todas las
otras z = 0. Ası́, nuestro objetivo es determinar los valores
C1 cos(ω0 t + θ) = C1 [cos(ω0 t) cos(θ)– sin(ω0 t) sin(θ)] de los coeficientes que minimicen la función
(49)
Sustituyendo la ecuación (49) en la (47) y agrupando N
términos se obtiene (figura ??b)
X
S =
r {y − [A + A cos(ω t ) + B sin(ω t )]}2
i 0 1 0 i i 0 i
i=1
f (t) = A0 + A1 cos(ω0 t) + B1 sin(ω0 t) (50)
Las ecuaciones normales para lograr esta minimización
donde se expresan en forma de matricial como [recuerde la ecua-
ción (29)]
A1 = C1 cos(θ) B1 = –C1 sin(θ) (51)
 P P  
P N P cos(ω 0 t) sin(ω0 t)   A0 
Dividiendo las dos ecuaciones anteriores y despejando 2
P
cos(ω 0 t) cos (ω 0 t) cos(ω 0 t) sin(ω0 t) A1 =
se obtiene P P P 2
sin(ω0 t) cos(ω0 t) sin(ω0 t) sin (ω0 B1
 
−B1 (56)
θ = arctan( ) (52) Estas ecuaciones sirven para encontrar los coeficientes
A1
desconocidos. Aunque, en lugar de hacer esto, se exami-
donde, si A1 < 0, sume π a θ. Si se elevan al cuadrado na el caso especial donde hay N observaciones espaciadas
y se suman las ecuaciones (51) llegarı́amos a de manera uniforme a intervalos ∆t y con una longitud
total T = (N –1)∆t. En esta situación, se determinan los
q
siguientes valores promedio (véase el problema 48):
C1 = A21 + B12 (53)
P P
sin(ω0 t) cos(ω0 t)
Ası́, la ecuación (50) representa una fórmula alter- =0 =0
N N
nativa de la ecuación (47) que también requiere cuatro P 2
cos2 (ω0 t)
P
parámetros; pero que se encuentra en el formato de un sin (ω0 t) 1 1
= = (57)
modelo lineal general [recuerde la ecuación (27)]. Como se N 2 N 2
P
analizará en la próxima sección, es posible aplicarlo sim- cos(ω0 t) sin(ω0 t)
plemente como base para un ajuste por mı́nimos cuadra- =0
N
dos. Sin embargo, antes de iniciar con la próxima sección, Ası́, para los puntos igualmente espaciados, las ecua-
se deberá resaltar que se puede haber empleado la función ciones normales se convierten en
seno en lugar de coseno, como modelo fundamental de la     P 
ecuación (47). Por ejemplo, N 0 0   A0   P y 
0 N/2 0 A1 = P y cos(ω0 t)
0 0 N/2 B1 y sin(ω0 t)
    
f (t) = A0 + C1 sin(ω0 t + δ)
se pudo haber usado. Se aplican relaciones simples para La inversa de una matriz diagonal es simplemente otra
convertir una forma en otra: matriz diagonal, cuyos elementos son los recı́procos de la
matriz original. Ası́, los coeficientes se determinan como
π
sin(ω0 t + δ) = cos(ω0 t + δ − )
2     P 
A0  N 0 0  P y 
y A1 = 0 N/2 0 y cos(ω0 t)
π  P
B1 0 0 N/2 y sin(ω0 t)
   
cos(ω0 t + θ) = sin(ω0 t + θ + ) (54)
2
o P
En otras palabras, θ = δ–π/2. La única consideración y
importante es que se debe usar una u otra forma de mane- A 0 = (58)
N
ra consistente. Aquı́, usaremos la versión coseno en todo 2 X
el análisis. A1 = y cos(ω0 t) (59)
13 N
2 X
B1 =
y sin(ω0 t) (60) p
N C1 = (0,5)2 + (−0,866)2 = 1,00
EJEMPLO 9. Ajuste por mı́nimos cuadrados a
cuyo resultado es
una sinusoide
y = 1,7 + cos(ω0 t + 1,0472)
Planteamiento del problema. La curva de la figura
48 se describe por y = 1,7 + cos(4,189t + 1,0472). Genere o, en forma alternativa, con seno utilizando la ecuación
10 valores discretos para esta curva a intervalos ∆t = 0,15 (54)
en el intervalo de t = 0 a t = 1,35. Utilice esta información y = 1,7 + sin(ω0 t + 2,618)
para evaluar los coeficientes de la ecuación (55) mediante
El análisis anterior se puede extender al modelo general
un ajuste por mı́nimos cuadrados.
Solución. Los datos requeridos para evaluar los coefi-

f (t) = A0 +A1 cos(ω0t)+B1 sin(ω0 t)+A2 cos(2ω0 t)+B2 sin(2ω0 t)+...
cientes con w = 4,189 son.
donde, para datos igualmente espaciados, los coeficien-
Estos resultados se utilizan para determinar [ecuacio-
tes se evalúan con
nes (58) a (60)]
P
y
A0 =
17000 2 2 N
A0 = = 1,7 A1 = 2,502 = 0,500 B1 = (−4,330) = −0,866
2 X

10 10 10
A1 = y cos(jω0 t)
De esta manera, el ajuste por mı́nimos cuadrados es N j=1,2,...,m
2 X
B1 = y sin(jω0 t)

y = 1,7 + 0,500 cos(ω0 t) − 0,866 sin(ω0 t) N
Aunque estas relaciones se utilizan para ajustar datos
El modelo se expresa también en el formato de la ecua- en el sentido de la regresión (es decir, N > 2m + 1), una
ción (47) calculando [ecuación (52)] aplicación alternativa es emplearlos para la interpolación
−0,866 o colocación (es decir, usarlos en el caso donde el número
θ = arctan(− ) = 1,0472 de incógnitas, 2m+1, es igual al número de datos,N ). Éste
0,500
es el procedimiento usado en la serie de Fourier continua,
y [ecuación (53)] como se estudiará a continuación.
14

Chapra PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Chapra PDF

Cargado por

Copyright:

Formatos disponibles

donde a0 y a1 son coeficientes que representan la inter-

sección con el eje y y la pendiente, respectivamente, e es

Cuando los datos tienen errores sustanciales, la inter-

a0 = 3,428571 − 0,8392857(4) = 0,07142857

X X X Observe la similitud entre las ecuaciones (9) (vista en

Planteamiento del problema. Calcule la desviación

Se implementó un programa para la recolección de

α2 = 10–0,3 = 0,5. La pendiente es β2 = 1.75. En conse- Sr = (yi − α0 − α1 xi − α2 x2i )2 (22)

Solución. Las sumatorias requeridas para la ecuación

y el coeficiente de determinación se calcula como en la f (x) = α0 (1–e−a1x )

α1 = 1,031592 ± 2,160368(0,018625) = 1,031592 ± donde yi = un valor medido de la variable dependiente,

Lo anterior constituye una breve introducción al am- ∂f (xi )j ∂f (xi )j

o en forma matricial [compárela con la ecuación (28)],

α0,j+1 = α0,j + ∆α0

6.1. AJUSTE DE CURVAS CON FUN-

1. Puede converger con lentitud. f (t) = f (t + T ) (46)

1 La ecuación (50) se entiende como un modelo lineal

Solución. Los datos requeridos para evaluar los coefi-

También podría gustarte