Documentos de Académico
Documentos de Profesional
Documentos de Cultura
12 de diciembre de 2016
Autor: M. en C. Rubén Velázquez Cuevas
La teoría de control óptimo es un método de optimización matemática para generar leyes de control y que se
desarrolla como una extensión del cálculo de variaciones. Se aplica para todo tipo de sistemas de control descritos
mediante ecuaciones matemáticas (lineales, no lineales, discretas, estocásticas, etc.) y en consecuencia, su estudio es
muy extenso. Por tal motivo, los métodos y problemas de control óptimo planteados en este curso tendrán un énfasis
particular en los sistemas LTI.
Usualmente, las restricciones existen sobre valores permitidos en las variables de estado o sobre las señales de
entrada de control. Es decir, tanto los instrumentos de medición como los controladores presentan intervalos de
Introducción al Control Óptimo | 12 de diciembre de 2016
operación (valor mínimo y valor máximo). En particular, para los sistemas LTI el problema de diseñar un control
regulador óptimo se conoce también como el problema del Regulador Cuadrático Lineal (LQR), donde el objetivo
principal es la aplicación de un método sistemático para calcular las matrices de ganancias por retroalimentación de
estados y del observador óptimas
Para ello considérese primeramente el sistema LTI descrito por las ecuaciones:
xɺ = Ax + Bu
Donde u ∈U es la señal de control que pertenece al conjunto de valores admisibles en la entrada. Si la señal de
control se define mediante u = −Kx , el problema de optimización consiste en determinar la matriz de ganancias
K op tal que la relación descrita entre la efectividad y el costo con que se satisface un objetivo de control sea
mínima. Lo anterior también es conocido como índice de desempeño o criterio de optimización y se denota
mediante la función escalar J ( x, u ) .
1
Algunos de los criterios de desempeño suelen ser: el tiempo mínimo con que se desea alcanzar un estado final; el
error mínimo al analizar el estado final deseado en un tiempo especificado; el área bajo la curva de la norma
cuadrada del estado para seleccionar aquellas trayectorias que producen los transitorios más pequeños y finalmente el
área bajo la curva de la norma cuadrada de la señal de entrada para seleccionar la señal de control que requiera
menor esfuerzo. Para el caso particular de los sistemas LTI se debe tomar en cuenta que para cada u admisible (es
decir, que realiza la tarea y satisface las restricciones del sistema) se asocia a una trayectoria x única y cualquier
cambio o variación en la señal de entrada o en el valor inicial del estado tendrá como consecuencia la obtención de
una trayectoria diferente. Finalmente, la función escalar (o funcional) que combina los criterios antes mencionados
para los sistemas LTI se define mediante el criterio de desempeño cuadrático:
∞
J ( x, u ) = xT Sx + ∫ ( xT Qx + uT Ru )dt
0
Donde la matriz S está relacionada con los problemas del tiempo mínimo final y el error mínimo final; la matriz Q
está relacionada con la efectividad con que se realiza la tarea del control (regulación o seguimiento) y la matriz R
está relacionada con el costo o cantidad de energía necesaria para alcanzar el objetivo de control.
op
Por lo tanto, el problema de control óptimo consiste en determinar la señal de control óptima u que genera el
op
vector de trayectorias de estados óptimos x con respecto al índice de desempeño J . Es decir:
min { J ( x, u )} = J ( x op , uop ) ⇒ u op = −K op x op
Lo anterior también se puede aplicar cuando se desea maximizar el índice de desempeño, en cuyo caso se puede
replantear mediante el índice de desempeño negativo. Es decir:
max { J ( x, u )} = min {− J ( x, u )}
Por otro lado, es fundamental que el control óptimo resultante también garantice la estabilidad. Sin embargo, en
Sea definida positiva; es decir, V ( x) > 0 para todo t > 0 y V ( x) = 0 solo para x = x0
Así mismo, también se puede decir que V (x) es definida positiva si la matriz P es no singular, simétrica (o en
general Hermítica) y todos sus menores principales sucesivos son positivos. Es decir:
2
p11 p12 ⋯ p1n
p11 p12 p12 p22 ⋯ p2 n
p11 > 0; > 0; ⋯ ; >0
p12 p22 ⋮ ⋮ ⋱ ⋮
p1n p2 n ⋯ pnn
Por otro lado, se dice que V (x) es semidefinida positiva si V (x) ≥ 0 para todo t ≥ 0 ; o bien si la matriz P es
singular, simétrica y por lo tanto algunos de sus menores principales pueden ser cero y el resto (al menos uno) mayor
a cero. Finalmente, una función V (x) es definida negativa o semidefinida negativa si −V (x) es definida positiva o
semidefinida positiva respectivamente.
Ejemplos:
1 0 x1
1. V (x) = [ x1 x2 ] = x12 + 2 x22 ; es definida positiva
0 2 x2
1 0 x1
2. V (x) = [ x1 x2 ] = x12 ; es semidefinida positiva
0 0 x2
1 0 x1
3. V (x) = [ x1 x2 ] x = x1 − 2 x2 ; es indefinida
2 2
0 −2 2
Para entender el concepto general de estabilidad en sentido de Lyapunov, considérese la región esférica S (δ )
Introducción al Control Óptimo | 12 de diciembre de 2016
definida mediante la norma euclidiana entre el estado inicial x0 y el estado de equilibro xeq ; es decir:
x0 − x eq ≤ δ
1
= ( x01 − x1eq ) + ( x02 − x2eq ) + ⋯ + ( x0 n − xneq )
2 2 2 2
Donde: x0 − x eq
Así mismo, considerando como solución las trayectorias descritas por Φ(t , x) , se define también la región esférica
S ( ε ) para todo t ≥ 0 mediante:
Φ(t , x) − xeq ≤ ε
3
Se dice que un estado de equilibrio x eq es estable en sentido de Lyapunov si existe una región S ( δ ) tal que todas
las trayectorias solución Φ(t , x) que inician en x 0 ∈ S ( δ ) no se alejan de S ( ε ) conforme el tiempo se
incrementa indefinidamente; es decir, Φ(t , x) ∈ S ( ε ) para todo t ≥ 0
Adicionalmente, si todas las trayectorias que empiezan en S ( δ ) convergen al punto de equilibrio sin apartarse de
S ( ε ) entonces se dice que x eq es asintóticamente estable en sentido de Lyapunov. Este concepto de estabilidad es
local, ya que si se consideran todas las soluciones posibles originadas por cualquier condición inicial x0 en el
espacio de estados, la estabilidad asintótica global se establece cuando todas las trayectorias convergen al estado de
equilibrio y en consecuencia solo existe un estado de equilibrio. En la figura 7.1 se muestran ejemplos de trayectorias
características para un sistema estable, estable en sentido asintótico e inestable en sentido de Lyapunov.
Figura 7.1. Ejemplos de trayectorias características para un sistema estable, asintóticamente estable e inestable
en sentido de Lyapunov
Cabe mencionar que la estabilidad bajo este criterio es local, debido a que se restringe únicamente a los estados
iniciales dentro de la esfera S (δ ) ; sin embargo, cuando esta condición se cumple para todo estado inicial posible
xɺ = Ax
V (x) = xT Px
Donde P es una matriz definida positiva. Por lo tanto, de la derivada de la función V (x) se tiene que:
Vɺ (x) = xɺ T Px + xT Pxɺ = ( Ax ) Px + xT P ( Ax ) = xT ( AT P + PA ) x
T
4
Una condición necesaria y suficiente para garantizar la estabilidad asintótica mediante la función V ( x) definida
positiva es que Vɺ (x) sea definida negativa y en consecuencia decreciente. Es decir:
Vɺ (x) = −xT Qx
En general el método de Lyapunov consiste en especificar primero la matriz Q definida positiva y posteriormente si
existe la matriz simétrica P definida positiva, entonces el sistema es asintóticamente estable. Nota: en ocasiones
también se suele definir la matriz Q como semidefinida positiva para garantizar al menos la estabilidad en sentido
de Lyapunov.
xɺ = Ax + Bu
y = Cx
∞
J ( x, u ) = ∫ ( xT Qx + uT Ru )dt
0
Donde se observa que la matriz S = 0 ; es decir, J no depende del problema del tiempo mínimo final y además la
integral está definida de cero a infinito. Por lo tanto, a éste problema de control óptimo le conoce como de horizonte
infinito. Suponiendo que se define la función candidata de Lyapunov V (x) = xT Px , se tiene entonces que:
Introducción al Control Óptimo | 12 de diciembre de 2016
AT P + PA = −Q + PBR −1BT P
Se tiene que:
Vɺ (x) = − xT Qx + uT Ru + ( BT Px + Ru ) R −1 ( BT Px + Ru )
T
Por lo tanto:
∞ ∞ ∞
∫ Vɺ (x)dt = − ∫ x Qx + u Ru dt + ∫ ( B Px + Ru ) R ( B Px + Ru ) dt
T T T T −1 T
0 0 0
5
∞
V (∞) − V (0) = − J + ∫ ( BT Px + Ru ) R −1 ( BT Px + Ru ) dt
0 T
∞
⇒ J = xT (0)Px(0) + ∫ ( BT Px + Ru ) R −1 ( BT Px + Ru ) dt
T
Donde se observa que el segundo término del lado derecho de la igualdad es no negativo y en consecuencia, el
mínimo se obtiene cuando:
u = − R −1BT Px = −Kx
Finalmente, una condición necesaria y suficiente para que la ley de control óptima de regulación por
retroalimentación de estado sea asintóticamente estable en sentido de Lyapunov es que la matriz R sea definida
positiva y que la matriz Q sea definida o semidefinida positiva.
xɺ1 0 1 x1 0
xɺ 0 −1 x + 1 u
2 2
x
y = [1 0] 1
x2
Determinar la ley de control óptimo que minimice el índice de desempeño de horizonte infinito
Solución:
Nótese que las matrices Q = I y R = 1 ; por lo tanto se requiere determinar P tal que se satisface:
T
0 1 p11 p12 p11 p12 0 1 1 0 p11 p12 0 p p12 0 0
0 −1 p + + − [ 0 1] 11 =
12 p22 p12 p22 0 −1 0 1 p12
p22 1 p12 p22 0 0
6
Las posibles soluciones que satisfacen la ARE son:
0 −1 −2 1 2 1
P= ; P= ; P=
−1 1 1 −3 1 1
De donde se observa que la última matriz solución es definida positiva, por lo tanto:
2 1
K = R −1BT Px = [ 0 1] = [1 1]
1 1
0 1 0 0 1 0 0 0 1
Finalmente: A − BK = − [1 1] = − =
0 −1 1 0 −1 1 1 −1 −2
det [ sI − A + BK ] = s 2 + 2s + 1 = ( s + 1) 2 = 0
Obsérvese que las matrices Q ∈ ℝ n×n y R ∈ ℝ m×m son en realidad los parámetros de sintonía del problema de
control óptimo, por lo que definiendo Q = C C y R = α I con α >0
T
se pretende obtener un equilibrio entre la
energía de la planta y la entrada; obteniéndose:
∞
J = ∫ y (t ) + α u (t ) dt
2 2
0
De ese modo, se tiene que para α pequeña, la convergencia de y → 0 es más rápida pero con señales de control
grandes (controlador de alta ganancia) y cuando α es grande la convergencia no es tan rápida pero con señales de
control más pequeños.
Introducción al Control Óptimo | 12 de diciembre de 2016
xɺ1 0 1 x1 0
xɺ = 0 0 x + 7 u
2 2
x
y = [1 0] 1
x2
Calcular la matriz de ganancias por retro de estado tal que se minimice la funcional de costo:
∞
J = ∫ x12 + α u 2 dt
0
7
Solución:
1 0
Nótese que las matrices Q= y R = α ; por lo tanto se requiere determinar P tal que se satisface:
0 0
AT P + PA + Q − PBR −1BT P = 0
0.5345 0.1429
P= ; para α = 1
0.1429 0.0764
0.3006 0.0452
P= ; para α = 0.1
0.0452 0.0136
0.1690 0.0143
P= ; para α = 0.01
0.0143 0.0024
De donde se calcula la matriz de retro de estados para cada caso. Es decir: K = R −1BT Px
K = [1 0.5345] ; para α = 1
En la figura 7.2 se comparan las diferentes respuestas para cada caso, así como también se comparan las diferentes
8
Estimador Cuadrático Lineal (LQE)
El problema del observador óptimo es el dual del problema del regulador óptimo. Sin embargo, los observadores
óptimos presentan un comportamiento estocástico debido a que se consideran óptimos para la estimación de estados
en presencia de ruidos Gaussianos que corrompen las medidas de las salidas y el estado. En la figura 7.3 se muestra
un esquema de un sistema con observador de estado y señales de ruido en las mediciones de los estados y de la
salida.
Donde las señales η y ν son procesos Gaussianos estocásticos de media cero no correlacionados en el tiempo ni
entre sí y que además poseen las siguientes covarianzas respectivamente:
E ( ηηT ) = QO ; E (νν T ) = R O
En este caso, es posible diseñar un observador óptimo cuadrático lineal (LQE) de la forma:
e ( y − Cx )
xɺɶ = Axɶ + Bu + K op ɶ
−1
e = PC R O y P es la solución de la ARE:
K op T
Donde:
Es usual definir QO y R O como parámetros de diseño, de modo que es común asignar QO = BBT y R O = β I
9
En consecuencia, para valores de β ≫ 1 se obtienen dinámicas del observador retroalimentado lentas y para valores
relativamente pequeños de β se tiene mayor peso en la señal de salida, lo que lleva consigo una mayor velocidad de
convergencia pero a un mayor costo de error (lo que implica un mayor esfuerzo en el observador de estados). El LQE
en régimen permanente también es conocido como filtro de Kalman.
Ejemplo 3.
∞
J = ∫ 100e32 + β ye2 dt
0
xɺ1 0 1 0 x1 0
xɺ = 0 −1 200 x + 0 u
2 2
xɺ3 0 −5 −100 x3 10
x1
y = [ −0.21 0 0] x2
x3
Donde: e3 = x3 − xɶ3 ; ye = y − yɶ
Solución:
0 0 0
QO = 0 0 0
0 0 100
RO = β
Por lo tanto se determina la matriz definida positiva P tal que se satisface la ARE:
10
Utilizando el comando LQR en MATLAB para calcular el LQE se obtiene:
De donde se calcula la matriz de ganancias del filtro de Kalman para cada caso mediante:
K e = PCT R O−1
Es decir:
−1.7906
K e = −0.3367 ; para β = 1
0.0166
−5.49
K e = −3.1647 ; para β = 0.1
Introducción al Control Óptimo | 12 de diciembre de 2016
0.1545
−15.977
K e = −26.8028 ; para β = 0.01
1.275
En la figura 7.3 se comparan las diferentes estimaciones de β para cada estado cuando las condiciones iniciales son:
− π2
x0 = 0
0
11
Introducción al Control Óptimo | 12 de diciembre de 2016
12
Como se observa, entre más pequeño es el parámetro β más rápida se obtiene la convergencia de estimación pero a
su vez eso también aumenta la amplitud del error, lo que se traduce en un mayor esfuerzo para la estimación de
estados. En conclusión se debe encontrar un balance entre rapidez de estimación y el error máximo de estimación.
Problemas propuestos
Donde las ecuaciones de movimiento linealizadas alrededor del punto de equilibrio inestable θ eq = 0 son:
mc ℓθɺɺ = ( mc + m p ) gθ − u
Introducción al Control Óptimo | 12 de diciembre de 2016
xc = u − m p gθ
mc ɺɺ
II. Diseñar un compensador seguidor óptimo tipo 1 para la posición del carro xc ; manteniendo regulada la
posición del péndulo invertido. Simular su respuesta para diferentes valores de referencia rxc .
III. Diseñar un filtro de Kalman completo para el sistema de control regulador y simular sus resultados. Obtener
las gráficas comparativas entre los estados reales y sus estimados.
IV. Diseñar un filtro de Kalman completo para el sistema de control seguidor tipo 1 y simular sus resultados.
Obtener las gráficas comparativas entre los estados reales y sus estimados.
V. Diseñar un filtro de Kalman de orden mínimo considerando que se pueden medir tanto la posición angular del
péndulo como la posición traslacional del carro. Validar sus resultados mediante simulación.
13