Está en la página 1de 9

ESTRATEGIA SUBPTIMA PARA EL PROBLEMA DE CONTROL PTIMO LINEAL CUADRTICA EN TIEMPO FINITO

Resumen: En este artculo, los autores estudian analticamente el impacto de la ganancia de retroalimentacin constante
ptima del problema de control ptimo lineal cuadrtica estado estacionario al problema de control correspondiente en
tiempo finito lineal cuadrtica ptima. Aportaciones del estudio son de 3 tipos: (i) las condiciones de aplicabilidad de este
procedimiento subptimo se presentan; (ii) una frmula para la prdida de rendimiento debido a esta aplicacin prctica
(uso de la constante en lugar de la ganancia variable en el tiempo) se deriva; y se discute (iii) una tcnica basada en el
grado prescrito de estabilidad que se puede utilizar con xito en la prctica. Ejemplos se incluyen para demostrar la prdida
de rendimiento debido a esta (subptima) aplicacin simplificada aproximada lineal cuadrtica finito-horizonte de control
ptimo problema.
Introduccin
La ganancia de realimentacin ptima de problema de control cuadrtica (LQ) lo finito horizonte-linealidad se obtiene
resolviendo la ecuacin de Riccati diferencial, y por lo tanto es variable en el tiempo. La aplicacin de una ganancia de
realimentacin constante (obtenida mediante la resolucin de la ecuacin algebraica de Riccati el horizonte infiniteproblema correspondiente control ptimo LQ) en lugar de la ganancia de realimentacin variable en el tiempo simplifica
enormemente la implementacin. Es bien sabido que en el lmite, en ciertas condiciones, cuando el horizonte de
optimizacin tiende a infinito, la ganancia ptima LQ variable en el tiempo se aproxima a la (estado estacionario) de
ganancia ptima LQ invariante en el tiempo.
A continuacin, se estudia el impacto en el criterio de desempeo cuadrtica del uso de la constante de ganancia ptima
retroalimentacin LQ en el LQ problema de control ptimo finito-horizonte. Las principales contribuciones de este trabajo
son evaluar la prdida de rendimiento correspondientes, proporcionar directrices para la aplicacin del procedimiento
presentado y proponer una tcnica basada en el grado prescrito de mtodo de la estabilidad que puede ser utilizado
con xito en la prctica.
Las soluciones a los problemas finitas y optimizacin horizonte LQ-tiempo infinito se conocen desde la obra original de
Kalman [1], y que se pueden encontrar en muchos libros de texto estndar en los sistemas de control ptimos lineales,
por ejemplo [2-4]. Ha sido todava un rea de investigacin activa como se ha demostrado en los recientes documentos
[5, 6].
El "problema de control ptimo LQ-horizonte finito 'se define por

Tenga en cuenta que ya que la matriz Q es simtrica y positiva semi-definido que se puede escribir como Q = CTC, donde
C es el factor de Cholesky de Q [7]. La solucin conocida a la problema de optimizacin se define en (1) y (2) conduce a la
variable en el tiempo ganancia de realimentacin ptima dada por

Una solucin nica P (t) = P (t, tf) de la ecuacin diferencial de Riccati se define en (3) se puede encontrar mediante la
integracin hacia atrs en el tiempo a partir de Pf, el problema valor final. Esta solucin existe durante un intervalo de
tiempo finito-bajo condiciones suaves indicados en la siguiente suposicin [3].
Supuesto 1: Matrices A, Q, S, Pf son constantes con S, Q, Pf ser positivo semi-definido.
Lema 1 [3]: En condiciones establecidas en Asuncin 1, el Ecuacin diferencial de Riccati se define en (3) tiene un nico
solucin semi-definida positiva en un intervalo de tiempo finito [t0, tf].
Por la razn de la simplicidad, la dependencia del criterio de desempeo ptimo en el sistema inicial condiciones es
suprimida por suponiendo que el inicial condiciones se distribuyen uniformemente sobre la esfera unidad, que es un
supuesto estndar en los estudios analticos de el problema de control ptimo LQ. Vamos a adoptar esta simplificacin en
los ejemplos presentados.
El 'LQ control ptimo en tiempo infinito correspondiente problema 'se obtiene dejando tf con Pf = 0 y imponentes
supuestos estndar correspondientes [1-4, 8] en las matrices de problemas, que se indicarn en Asuncin 2.
Minimizacin de

sujetos a (1) requiere que la ecuacin algebraica de Riccati ser resuelto [en lugar de la ecuacin diferencial de Riccati (3)],
que produce una ptima ganancia de retroalimentacin de estado estacionario constante

Es comn en la literatura de ingeniera para imponer las condiciones stabilisability-detectabilidad (formas ms dbiles de
las condiciones controlabilidad-observabilidad) [1-4, 8] para garantizar la existencia de una solucin estabilizadora nica
de (5). Por lo tanto, necesitamos la siguiente hiptesis.
Supuesto 2: El triple (A, B, C) es stabilisable y detectable.
Lema 2 [1-4, 8]: Bajo condiciones establecidas en la asuncin 2, la ecuacin algebraica de Riccati se define en (5) tiene una
solucin semi-definida positiva nica estabilizacin, es decir, la matriz de realimentacin A - SP es asintticamente estable.
Es importante tener en cuenta que existe la solucin nica semidefinite estabilizar positiva de la ecuacin algebraica de
Riccati se define en (3), incluso bajo condiciones ms suaves que los especificados en la asuncin 2. Ellos se dan en la
siguiente lema [9].
Lema 3 [9]: La solucin estabilizante nico positivo semi-definido de la ecuacin algebraica de Riccati se define en (3)
existe si el par (A, B) es stabilisable y la matriz hamiltoniano

no tiene valores propios sobre el eje imaginario. En tal caso, la matriz de realimentacin A - SP es asintticamente estable.
Es bien sabido que, en Asuncin 2 [3], en el lmite cuando tf alinfinito, tenemos

OBSERVACIN 1: Cabe destacar que (6) 'no se sostiene en las condiciones establecidas en' Lema 3 a pesar de que Fopt
existe y A - SP es asintticamente estable. En tal caso, una condicin adicional tiene que ser impuesta, que de hecho es la
condicin que garantiza que la solucin de la ecuacin diferencial de Riccati tiende a la solucin de la ecuacin algebraica
de Riccati como t tiende al infinito, [10]. Esa condicin se dar ms adelante en el documento, vanse las frmulas (24),
(25) y Comentario 2.
Debido al resultado dado en (6), los ingenieros de control de implementar la constante de horizonte infinito ganancia de
realimentacin definido en (5) como una solucin subptima para el problema de control ptimo horizonte finito [que
requiere el tiempo- variable ganancia de realimentacin definido en (3 )]. Bsicamente, si el intervalo de tiempo de
optimizacin tf - que es grande, parece que una implementacin de este tipo podra estar justificada. Hasta nuestro mejor
conocimiento, en la literatura de ingeniera de control, no hay ninguna justificacin analtica para tal implementacin. En
este estudio, vamos a derivar una expresin para la prdida de rendimiento debido a dicha implementacin y mostrar en
un ejemplo de un problema de control ptimo realista, tomado de la prctica de ingeniera de la automocin, que "una
implementacin de este tipo puede producir una prdida de gran rendimiento en un amplio intervalo de hora'. Al final,
proporcionaremos directrices cuando la aplicacin considerada (suponiendo que es aplicable, ver Nota 1) produce
resultados satisfactorios.
En primer lugar, se formula el problema de control subptimo (aproximado) LQ finito horizonte de (1) y (2) que utiliza la
ganancia ptima constante definida en (5), y determinar el criterio de desempeo correspondiente de la optimizacin
finitos horizonte. El 'control subptimo "para (1) se define por

El rendimiento correspondiente finito horizonte subptima criterio (2) bajo el control subptimo definido en (5) es dada
por (ver (8))

Usando un resultado conocido (por ejemplo, [3, el teorema 1.54, p. 110]), el criterio de rendimiento (8) se puede evaluar
como

La solucin K (t) = K (t, tf) se puede obtener mediante la integracin hacia atrs en el tiempo a partir de la condicin final
dado.
En la siguiente seccin, se presenta un ejemplo motivador, realista finitos horizonte de control ptimo que indica una
situacin cuando el controlador subptima (7) no se puede utilizar en la prctica, a pesar de que tf es grande. En el
seguimiento del trabajo vamos a encontrar la razn de este problema y vamos a ofrecer directrices bajo las cuales el
controlador subptima se define en (7) y (8) se puede utilizar (asumiendo que es factible, ver Nota 1).

2 ejemplo Motivar

Considere un horizonte finito-problema de control ptimo LQ para un sistema de suspensin del coche se define en [4]
por

Tenga en cuenta que en este ejemplo, Asuncin 2 est satisfecho con la matriz C est dada por

Es decir, el triple (A, B, C) es controlable y observable, lo que implica que tambin es stabilisable y detectable [3, 4, 8]. Los
valores para el criterio de rendimiento subptimo Jtsub dadas en (9) y el criterio de rendimiento ptimo Jt FPT definido
en (3) se representan con respecto a tf en la Fig. 1 suponiendo que las condiciones iniciales se distribuyen uniformemente
sobre la esfera unidad, es decir, como funciones del tiempo que se les da por

Observacin 2: Se debe enfatizar que la acumulada prdida de rendimiento durante todo el perodo de la optimizacin de
t0 a tf puede ser sustancial. Representa el rea entre la curvas criterio de desempeo ptimos y ptimos. Los 'prdida de

rentabilidad acumulada' se puede definir formalmente el uso de (3), (7), (9), con XSUB (t) y xopt (t) se define,
respectivamente, en
(7) y (3)

Desde xopt (t) y XSUB (t) puede diferir sustancialmente, el error rentabilidad acumulada por el ejemplo dado podra haber
sido an mayor que la que se presenta en la Fig. 1 si no se hubiera utilizado la distribucin de la unidad de las condiciones
iniciales suposicin.
La diferencia relativa entre la ptima y criterios subptimos (J opt tf
- J sub
tf) / J opt
tf con respecto al tf es trazada en las figuras. 2a y b.
Se puede observar en la Fig. 2a que el error relativo es muy alta por tf 15 s, y que en la regin cerca de 2 s que supera el
100%. Fig. 2b indica que se necesita aumentar tf a casi 30 s para que el error relativo bajo 1%. En esta aplicacin particular,
el control de la suspensin del coche sistema, la accin de control ptima se debe administrar dentro de unos pocos
segundos y el controlador ptimo que tiene un buen desempeo despus de 30 s ms o menos segundos es intil. En el
seguimiento, se indicar la causa de los problemas y proponer un remedio tal que una finitehorizon subptima constante
controlador puede ser satisfactoria se utiliza durante un muy corto intervalos de tiempo de optimizacin

3 Derivaciones de la prdida de rendimiento La diferencia entre la ptima y subptima (aproximado) criterios de


rendimiento (prdida de rendimiento) es dada por

Ntese que como P (t0)> o corresponde al valor del rendimiento ptimo y K(t0a) corresponde a la subptima rendimiento
valor mnimo, se debe tener P (a) - K (a)> o. Como una manera de encontrar la ecuacin para el error E (t) = K (t) - P (t),
primero definimos

Comentario 1: En Asuncin 2, la matriz de realimentacin A - SP es asintticamente estable para que el "estado


estacionario" soluciones tanto de D (t) y E (t) son cero. Nota que al imponer solamente stabilisability, la matriz A SP ser "slo estables" (valores propios eje imaginario Se necesitarn posibles) y adicionales a las condiciones de
proporcionar D = limt {D (t)} = 0 y E = limt {E (t)} = 0, ver Lemma 3. Debido a la forma de la condicin terminal
(Pf - P es indefinida en general), las matrices D (t) y Z (t) estn en indefinida general. Sin embargo, la matriz E (t) es
semi-definidas positivas para todo t. Tenga en cuenta que si Pf - p = 0, entonces estabilidad de A - SP implica que el
diferencial homognea ecuacin tiene una nica solucin dada por D (t) = 0, t. Tambin, bajo la misma condicin Z (t) =
0 y por lo tanto E (t) = 0, t.

4 ANLISIS DE LA PRDIDA DE RENDIMIENTO


Dos ecuaciones importantes del anlisis anterior son (13) y (16). Ambos son ecuaciones diferenciales homogneas.
La ecuacin (16) representa un diferencial homognea Ecuacin de Lyapunov. Su solucin viene dada por [14]

La ecuacin (13) es una ecuacin de Riccati diferencial homognea. Se estudi en [11, 12] bajo el supuesto de que la
condicin terminal Pf - P es una matriz no singular. Dado que la matriz Pf - P correspondiente a la condicin terminal slo
es simtrica e indefinido y potencialmente singular, los resultados de [11, 12] no se pueden utilizar en general para
resolver (13). El mtodo presentado en [13] y la frmula correspondiente es aplicable a (13). Tambin, Callier et al. [10]
proporcionar una frmula para la solucin de (13), que es idntica a la frmula correspondiente de [13]. La siguiente
estimacin para la norma Z (t) se puede obtener a partir de (18)

Aqu, mostramos que (13) fcilmente se pueden resolver utilizando el enfoque de Bernoulli para la solucin de la ecuacin
diferencial de Riccati (tambin conocido en la literatura de ingeniera como el enfoque hamiltoniano [3]). La solucin de
(13) se puede buscar en el de

de modo que la solucin de (13) viene dada por (ver (24)) que es la frmula derivada en [10].

Comentario 2: Una observacin muy importante se puede hacer a partir de (24) es que la solucin para D (t) podra no
existir para todos los tiempos, ya que requiere que la matriz en el soporte es invertible para todo t. En tal caso, la ecuacin
diferencial de Riccati (13) y por lo tanto el definido en (3) tienen el tiempo de escape finito [13]. Tenga en cuenta que esto
puede ocurrir bajo las condiciones establecidas en el Lema 3, pero no bajo condiciones de asuncin 2. Por lo tanto, como
se indica en [10], adems de las condiciones de Lemma 3, se requiere que existe la siguiente matriz

de manera que el resultado de convergencia se indica en (6) se mantiene. De lo contrario, la convergencia se define en (6)
no es cierto ya que la solucin de la ecuacin diferencial de Riccati no tiende a la solucin de la ecuacin algebraica de
Riccati correspondiente. Tenga en cuenta que (25) es dependiente problema, depende de la eleccin de la matriz de
penalti terminal de Pf, por lo que no existe ninguna condicin general que proporciona la matriz se define en (25) es
invertible.
De manera similar a (18) y (19), la norma unido se puede encontrar para D (t) a partir de (24) en trminos de la norma de
la matriz exponencial e ^ \\ A-SP) (ti-t) ||.
Desde tf> t> 0 y debido a la estabilidad de A - SP es evidente a partir de (18) y (24) que las matrices D (t) y Z (t) de manera
exponencial decaer a cero. El t0 ms lejos de tf y las partes reales negativas ms grandes de los valores propios (A - SP), el
deterioro ser ms drstica. A saber, el valor propio con la parte real mnimas mm {Re (ki (A - SP))} y la magnitud de la
distancia tf - t0 determinar la velocidad de decaimiento de D (t) y Z (t) [y por lo tanto de E (t)] a cero, y la cercana del
criterio ptimo rendimiento finito-horizonte (2) y el criterio de rendimiento finito-horizonte subptima (9).
Se puede concluir que, en muchos casos, la aplicacin considerada produce muy buenos resultados y que en algunas
aplicaciones (intervalos de optimizacin de corto y / o sistemas con los "valores propios de circuito cerrado de la
correspondiente horizonte optimizacin infinita estn cerca del eje imaginario '), el considerada mtodo no proporciona
un resultado satisfactorio. En el caso cuando Fopt con A - BFopt = A - SP asintticamente estable se obtiene bajo las
condiciones establecidas en el Lema 3 (ver Nota 1) la "metodologa considerada podra no ser aplicable", a menos que,
adems de la condicin (25) se cumple.
5 La reduccin de prdidas de rendimiento a travs prescrito grado de estabilidad
Ejemplo hecho en la Seccin 2 indica que la prdida de rendimiento puede ser significativa incluso en intervalos de tiempo
grandes. Una manera de remediar la situacin es utilizar el grado prescrito de la tcnica de la estabilidad [2] para mover
los valores propios de circuito cerrado ms a la izquierda.
Para el problema de control ptimo LQ con el grado prescrito de estabilidad el criterio de rendimiento incluye una funcin
exponencial en descomposicin, e-a, a> 0, lo que implica que los valores propios de lazo cerrado del sistema de
retroalimentacin ptima estn lejos de ser el eje imaginario en al menos a. El impacto de esta modificacin es que la
matriz del sistema en las ecuaciones de Riccati correspondientes tiene que ser cambiado a A + al. Adems, las condiciones
establecidas en Asuncin 2 y el Lema 3 y la condicin de convergencia (24) tienen que ser modificado de manera
apropiada.
Ejemplo: Consideramos ahora el mismo ejemplo que el realizado en la Seccin 2. Tenga en cuenta que los valores propios
de circuito cerrado de A - SP estn dadas por

El sistema de circuito cerrado tiene un par de los valores propios de cerca al eje imaginario, que es la razn principal por
la que

criterio de desempeo en una bonita amplia gama de valores para el tiempo tf terminal.
Sin embargo, si el estado de equilibrio de circuito cerrado valores propios se desplazan hacia la izquierda mediante el uso
de la tcnica de grado prescrito de estabilidad [2], slo a = 0,1, lo que trae los valores propios de bucle cerrado de estado
continuo que X, (A - SPA ) = { j2.1352 -0.1293, -3.3278 j3.3835} se obtiene un resultado mucho mejor para casi todos
los valores de tf tal como se presenta en las Figs. 3 y 4. Estas cifras demuestran la importancia de la localizacin de los
valores propios ptimas de bucle cerrado en estado de equilibrio en el procedimiento de diseo considerado. Se puede
observar en la Fig. 4 que con un pequeo cambio de los valores propios de bucle cerrado, el error rendimiento relativo se
reduce drsticamente. El error se puede reducir an ms al cambiar los valores propios de circuito cerrado ki (A - Spa) ms
a la izquierda.
Comentario 3: Se debe enfatizar que el precio ni computacional de puesta en prctica ni se paga a reducir la prdida
criterio de rendimiento debido al uso de la constante (estado estacionario) ganancia de retroalimentacin obtenida a
travs del grado prescrito de la tcnica de la estabilidad. De lo contrario, la prdida de rendimiento se determina
estrictamente por la eleccin de la matriz pena de terminal y los valores propios de bucle cerrado del problema regulador
ptimo LQ-tiempo infinito correspondiente.
6. Conclusiones
Hemos derivado una expresin para la prdida de rendimiento en la optimizacin en tiempo finito LQ cuando se utiliza la
constante (estado estacionario) ganancia de la optimizacin en tiempo infinito correspondiente. Se discuten las
condiciones bajo las cuales dichos controladores se pueden utilizar en la prctica. Se demostr analticamente que cuando
los valores propios de bucle cerrado de la correspondiente problema de optimizacin horizonte infinito (controlador
ptimo LQ-estado estacionario) estn todos lejos del eje imaginario y / o cuando el intervalo de optimizacin no es muy
corto, entonces el controlador subptima considerado da resultados satisfactorios. Adems, un caso especial se identifica
cuando la tcnica considerada no se puede usar, a menos que una cierta condicin algebraica [condicin (25)] es
satisfecho.

También podría gustarte