Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Control Optimo
Control Optimo
Facultad de Ingeniera
Departamento de Electrotecnia
C
atedra de Control Moderno
Introducci
on al control
optimo
Ricardo Juli
an Mantz
A
no 2003
1.
Introducci
on.
todo sistema de control esta sujeto a restricciones, por ejemplo, debidas al actuador de potencia, o a
razones de seguridad, o debidas al ancho de banda necesario para rechazar determinadas perturbaciones,
etc.
"
y =
x =
"
y =
0 1
0 1
x+
"
0
1
(1)
x+
"
0
1
(2)
1 0 x
- sistema 2
0 1
0 1
1 2 x.
y(t)
a)
0.5
t[seg]
0
10
12
1.5
y(t)
b)
0.5
t[seg]
0
10
12
Facilmente puede verificarse que cualquiera de los siguientes juegos de ganancias de realimentacion
Ka =
"
1,1 3,7
0
0
Kb =
"
Kc =
"
0
0
1,1 1,233
0,1 0
0 0,1
#
#
(4)
conducen a la misma asignacion de polos en 0,1j 0,049. Sin embargo, como puede verse
en la figura 2, las respuestas del sistema son completamente distintas (los transitorios
corresponden a condiciones iniciales [0, 0,1]T ). Las curvas ponen en evidencia la poca
practicidad de las tecnicas de asignacion de polos en sistemas MIMO.
0.5
0.5
0.5
0.5
0.5
0.5
20
40
a)
0.4
20
b)
0.4
40
0.3
0.2
0.2
0.2
0.1
0.1
0.1
0.1
20
40
a)
0
0.1
t
0
20
b)
40
20
c)
0.4
0.3
0.3
40
0
0.1
t
0
20
40
c)
2.
Significado de la palabra
optimo en el contexto de la teora del
control de sistemas.
en grado sumo, que no puede ser mejor. Por tanto, es incorrecto su empleo en
3
combinacion con muy, mas, menos o tan: *muy optimo, *mas optimo; *menos
optimo, *tan optimo.
Sin embargo, como muchos otros adjetivos, la palabra optimo tiene un alto grado de subjetividad. Efectivamente, un pesimo control desde el punto de vista del comportamiento
dinamico podra ser optimo desde el punto de vista economico y viceversa. Luego, para
calificar la bondad de un control (en particular para poder decir que es optimo) es necesario asociarlo a un ndice de performance. En terminos de control diremos que un
control es optimo si minimiza un funcional de costo en el que claramente se manifiesta
un compromiso entre distintas especificaciones y restricciones. A este funcional lo llamaremos ndice de performance y normalmente lo indicaremos con J. Obviamente, el mismo
control evaluado con otro ndice de performance J1 no sera optimo.
3. Indice de performance.
Considere la Figura 3. Tanto la parte a) como la parte b) de la figura muestran una misma
variable controlada, pero con dos controladores diferentes, C1 y C2 respectivamente. En un
instante t0 se produce una perturbacion que es rechazada despues del transitorio mostrado.
Aceptemos que la calidad de un determinado producto depende de esta variable. Luego,
no parece desacertado pensar que la bondad de dicho producto en t0 dependera de la
amplitud del error e(t0 ) = ysp y(t0 ), siendo ysp el valor de referencia.
1.25
C1
1.2
1.15
a)
1.1
1.05
1
y sp
t[seg]
0.95
0.9
11
12
13
14
15
16
17
18
1.25
1.2
1.15
1.1
1.05
1
ysp
0.95
0.9
11
b)
t0
12
t[seg]
13
14
15
16
17
18
tf
t0
e(t) dt.
(5)
J =
ITAE
J =
tf
t0
Z tf
t0
|e(t)| dt,
(6)
|e(t)| t dt,
(7)
tf
t0
e2 (t) dt.
(8)
tf
t0
(9)
tf
t0
xT Q x + uT R u dt,
(10)
donde x son los estados del sistema elegidos como errores con respecto a los valores de
estado estacionario. Las matrices de peso Q, R y P (0) son matrices reales, simetricas,
constantes y definidas positivas 3 .
2
de aqu en m
as, omitiremos el tiempo t en la notacion de las variables, es decir x = x(t), ...
En realidad, Q y P (0) pueden ser definidas o semidefinidas positivas, pero no pueden ser simult
aneamente nulas, ya que esto implicara minimizar el ndice:
Z tf
uT R u dt,
(11)
J=
3
t0
Probablemente, la forma mas intuitiva de elegir4 estas matrices sea la forma diagonal:
Q=
q11 0
0 q22 0
..
...
.
0
0
R=
...
0
0
r11 0
0 r22 0
..
...
.
0
0
0
0
...
(12)
J = x (N ) P (0) x(N ) +
N
1
X
(14)
k=0
(15)
k=0
5.
En base a los comentarios previos, puede decirse que en esta nueva concepcion del control
(control optimo) el establecimiento del problema requiere de:
1. la descripcion del sistema a ser controlado,
2. la descripcion de las restricciones y de los objetivos de control,
3. la definicion de un criterio que permita juzgar el grado de optimizacion.
En particular la resolucion del problema del regulador optimo LQR consiste en: dado un
modelo del sistema a controlar en variables de estado y un ndice de performance de la
forma (10) (o de la forma (14) para el caso discreto), encontrar el control u(t) = u (t) que
minimiza el citado funcional J(= J ).
La solucion del problema LQR puede ser abordada desde distintos caminos, en estas notas
emplearemos el principio de optimalidad de Bellman para obtener la solucion.
Principio de Optimalidad de Bellman.
Considere un control generico u. Su aplicacion sobre el sistema a controlar dara lugar a
una evolucion de los estados que define una trayectoria. Diremos que esta trayectoria es
optima si el valor del control u(t) minimiza J.
que dara lugar a la solucion trivial u = 0 (e.d. sin control).
4
obviamente esto depende de cada problema.
Seg
un Bellman (Principio de optimalidad ): si una trayectoria entre dos estados x(t0 ) y
x(tf ) es optima, entonces cualquier tramo de esta trayectoria, definido desde un punto
x(ti ) (perteneciente a dicha trayectoria) y el punto x(tf ), es en s una trayectoria optima
(Figura 4).
Este principio (que podra decirse que es casi obvio), esta ntimamente ligado a los conceptos de programacion dinamica que permiten simplificar problemas de optimizacion de
distintas especialidades (economa, ciencias fsicas, ingeniera, ...).
Por razones de simplicidad, primero se resuelve el problema del regulador optimo para el
caso discreto y con horizonte de optimizacion finito (N finito) (seccion 6). Posteriormente, en la seccion 7 se considera el caso continuo (con horizonte de optimizacion finito e
infinito), y el caso discreto con horizonte de optimizacion infinito es citado en el Apendice
B.
0.4
x2
0.2
x1
xtf
0.2
0.4
0.6
.x
0.8
x to
ti
0.5
0.5
6.
Soluci
on del problema de regulaci
on
optima. Caso discreto y horizonte finito.
(16)
J = x (N ) P (0) x(N ) +
N
1
X
k=0
(17)
Optimizaci
on del control en el perodo definido por (N 1)T N T .
Mas alla de que existen N decisiones (una por cada perodo de muestreo) para optimizar el control del sistema (16)-(17), comencemos por deducir la forma del control que
corresponde a la u
ltima decision, es decir la decision a tomar en el instante (N 1)T .
Como veremos, la generalizacion de esta solucion parcial nos permitira obtener la ley de
control optima que buscamos5 . Con esta finalidad supondremos que, a partir de las N 1
primeras decisiones se ha alcanzado el estado generico x(N 1).
Para optimizar la u
ltima decision consideramos el ndice de performance
(19)
(20)
(21)
u (N 1) = R + B T P (0)B
que podemos reescribirlo como
i1
B T P (0)Ax(N 1),
(22)
(23)
K(N 1) = R + B T P (0)B
5
i1
B T P (0)A,
(24)
Para obtener el valor del ndice de performance optimo (el costo mnimo de la u
ltima
(25)
donde
P (1) = [A + BK(N 1)]T P (0) [A + BK(N 1)] + K T (N 1)RK(N 1) + Q. (26)
Como el control optimo u (N 1) es obtenido a partir de consideraciones completamente
generales, en particular, a partir de una condicion inicial generica, la solucion obtenida
tiene que estar contenida en la solucion de optimizar el control en mas de una decision
(principio de Bellman).
Optimizaci
on del control en el perodo definido por (N 2)T N T .
Procedamos ahora a la optimizacion en el perodo (N 2)T < t < N T que involucra dos
decisiones (es decir, los controles u(N 2) y u(N 1)). Para este fin, debemos considerar:
T
N
1
X
(27)
k=N 2
es decir,
JN 2,N = xT (N 2) Q x(N 2) + uT (N 2) R u(N 2) + JN 1,N .
(28)
(29)
Esta expresion tiene la forma de la ecuacion (19), es decir, que al anular su derivada con
respecto a u(N 2)
JN 2,N
= 0,
(31)
u(N 2)
se obtiene una solucion analoga a las ecuaciones (22)-(23)
h
u (N 2) = R + B T P (1)B
i1
B T P (1)Ax(N 2)
(32)
(33)
(34)
donde
P (2) = [A + BK(N 2)]T P (1) [A + BK(N 2)] + K T (N 2)RK(N 2) + Q. (35)
9
Optimizaci
on del control en el perodo definido por 0 N T .
Reiterando el procedimiento podemos encontrar, por induccion, la forma general del
JN
j,N
(36)
(37)
(39)
optimo u , resulta:
J = J0,N
= xT (0) P (N ) x(0).
(40)
Ejemplo 3. Considere el sistema muestreado:
x(k + 1) =
"
2 1
1 1
x(k + 1) +
"
0
1
u(k).
(41)
xT(10)
"
2,5 0
0 2,5
x(10) +
9
X
k=1
xT(k)
"
1 0
0 ,05
x(k) +
u2(k)
"
(42)
#
2
.
3
10
60
a)
b)
0.5
50
40
11
p12=p21
30
0.5
k1
1
20
10
0
1.5
22
2
2.5
0
10
tiempo k
10
tiempo k
c)
x
0
1
2
3
tiempo k
10
7.
7.1.
Soluci
on del problema de regulaci
on
optima. Caso continuo.
Horizonte de optimizaci
on finito (tf t0 finito).
(43)
tf
t0
xT Q x + uT R u dt,
(44)
es similar a la solucion del caso discreto correspondiente (para ser sinceros, ligeramente
mas complicada). Para ver los detalles de la deduccion recomendamos el libro Linear State
Space Systems, John Bay, 1999.
La solucion a este problema tambien es una realimentacion de estados
u = K(t) x,
(45)
(46)
(47)
= 2x(t) + u(t).
(48)
tf
1
(3x2 + u2 ) dt,
4
(49)
siendo tf = 1seg.
Sabemos que la ley de control optima responde a:
u = R1 B T P (t) x(t)
(50)
(51)
(52)
Z t
dp
dt
=
1
3
tf 4(p 2 )(p + 2 )
tf
1 Z t 1/2
1 Z t 1/2
dp +
dp = t tf
4 tf (p 32 )
4 tf (p + 21 )
t
p(t) + 1/2
p(t) 3/2
1
) ln(
) = t tf
ln(
8
p(tf ) 3/2
p(tf ) + 1/2
resultando,
p(t) =
8
(53)
3
(1
2
e8(ttf ) )
.
1 + 3e8(ttf )
(54)
(55)
(56)
(57)
como el sistema (48) tiene un solo estado, la ecuacion de Riccati resulta escalar, e.d. P (t) = p(t).
12
(58)
Horizonte de optimizaci
on infinito.
(59)
en la expresion
(51).
En la figura (6), tambien se muestra como influye un aumento de tf sobre p(t).
Obviamente, en la medida que tf , la respuesta de estado estacionario predomina
sobre la transitoria. Luego, para el caso lmite, podra tomarse p(t) constante e igual al
valor de estado estacionario
pss = lm p(t) = 1,5
(60)
t
como una muy buena aproximacion al control optimo. As, puede implementarse un controlador extremadamente simple a traves de una ley de realimentacion invariante en el
tiempo:
u = 6x(t).
(61)
Vemos que la simplificacion de (61) con respecto a (58) es significativa.
13
1.5
10 seg.
1 seg.
Componente de
Estado Transitorio.
p(t)
Componente de
Estado Estacionario.
0.5
t
0
10
12
(63)
Q Pc BR1 B T Pc + Pc A + AT Pc = 0.
(64)
"
0 1
0 0
x+
"
0
1
u.
(65)
t0
x21 + u2 dt
(66)
"
0 1
0 0
B=
"
0
1
14
Q=
"
2 0
0 0
R = 2.
(67)
"
2 0
0" 0 # "
0 0
+
1 0
p11
p12
p11
p12
#"
i
0 1h
p12
0
1
p22 # 1" 2
#"
p11 p12
p12
+
p12 p22
p22
"
p11 p12
+
p12 #p22 "
#
0 1
0 0
=
0 0
0 0
(68)
es decir,
p2
212 + 2 = 0
p11 p122p22 = 0
p2
222 + 2p12 = 0
La solucion de estas ecuaciones conduce a la matriz definida positiva Pc :
"
#
2 2
2
Pc =
,
2 2 2
(69)
(70)
u = x 1 2 x 2
15
(71)
(72)
Ap
endice A.
Obtenci
on de la expresi
on (21)
JN 1,N
= 2Ru(N 1)+
u(N 1)
(A-1)
2Ru(N 1)+
JN 1,N
+ [Bu(N 1)] P (0) [Bu(N 1)] +
=
u(N 1)
+ [Ax(N 1)]T P (0) [Bu(N 1)] +
{z
escalar
T
(A-2)
iT
[Ax(N 1)]T P (0) [Bu(N 1)] = [Ax(N 1)]T P (0) [Bu(N 1)]
[Ax(N 1)]T P (0) [Bu(N 1)] = [Bu(N 1)]T P (0) [Ax(N 1)]
2Ru(N 1)+
JN 1,N
T
= + u(N 1) { [Bu(N 1)] P (0) [Bu(N 1)] +
u(N 1)
JN 1,N
=
u(N 1)
JN 1,N
= 2Ru(N 1) + 2B T P (0)Bu(N 1) + 2B T P (0)Ax(N 1)
u(N 1)
JN 1,N
= 2Ru(N 1) + 2B T P (0) [Ax(N 1) + Bu(N 1)]
u(N 1)
JN 1,N
= 2Ru (N 1) + 2B T P (0) [Ax(N 1) + Bu(N 1)] = 0
u(N 1)
16
(A-3)
(A-4)
(A-5)
(A-6)
(A-7)
(A-8)
(A-9)
Ap
endice B.
(B-1)
y(k) = Cx(k),
(B-2)
(B-3)
k=0
para dado apartamiento inicial de los estados x(0), resulta invariante en el tiempo. Su
valor se calcula a partir de la solucion de estado estacionario de P , resultando:
u (k) = K x(k)
con
K = R + B T Pcd B
i1
(B-4)
B T Pcd A
(B-5)
(B-6)
17
(B-7)
Referencias
Bay, J. (1999). Linear State Space Systems, McGraw-Hill.
Brogan, W. (1991). Modern Control Theory, Prentice Hall.
Friedland, B. (1986). Control System Design, McGraw-Hill.
Kwakernaak, H. & Sivan, R. (1972). Linear Optimal Control Systems, Willey-Intercience.
Nagrath, I. & Gopal, M. (1982). Control System Engineering, Wiley.
18