Está en la página 1de 10

Introducci

on a la Investigaci
on en Matem
aticas

UNA BREVE INTRODUCCION


A LA TEOR
IA

DE CONTROL OPTIMO
EDUARDO MARTINEZ

Resumen. El objetivo de estas notas es proporcionar un introducci


on a la
teora de control
optimo para sistemas descritos por ecuaciones diferenciales
ordinarias. En particular, se mostrar
a el uso del Principio del M
aximo de
Pontryagin.

1.

Sistemas de control

Consideremos los ejemplos de un Segway (pendulo invertido) y el problema de


reorientaci
on de un satelite mediante propulsores.
13

2.5. CHOOSING LQR WEIGHTS

y
F2
x
(b) Simplified model

(a) Harrier jump jet

F1

Hay muchsimos m
as en biologa, ecologa, etcetera.
Figure 2.3: Vectored thrust aircraft. The Harrier AV-8B military aircraft (a)
its engine
downwardpor
so that
it can
En los dos ejemplos anteriores tenemos un redirects
sistema
fsicothrust
descrito
una
se-hover above the ground.
Some air from the engine is diverted to the wing tips to be used for maneuvering.
rie de variables x que satisfacen una ecuacion diferencial,
lanet
cual
adem
s
As shown in (b), the
thrustdepende
on the aircraft
can beadecomposed
into a horizontal
force F1 and a vertical force F2 acting at a distance r from the center of mass.
de ciertas variables u que est
an a nuestra disposici
on y podemos cambiarlas a lo
largo de la evoluci
on del sistema. Las variables x describen el estado del sistema
It is also possible to choose the weights such that only a given subset of
y consecuentemente se denominan variablesvariable
de estado,
mientras que las variaare considered in the cost function. Let z = Hx be the output you
bles u representan la acci
on que se ejerce sobre
sistema
para
want toel
keep
small and
verifypoder
that (A,controlar
H) is observable. Then we can use a
cost function
of the forminputs. En general
su comportamiento, y se denominan variables
de control,
= H T Habierto
Qu =de
I.
supondremos que las variables de estado toman valores en unQxcierto
n
R , aunque no es difcil imaginar situacionesThe
en constant
las que dichas
allows usvariables
to trade off describen
!z!2 versus !u!2 .
We illustrate
the various
choices
through
una variedad diferenciable. Igualmente las variables
de control
toman
valores
enanunexample application.
m
cierto subconjunto U R que puede o no ser
un abierto.
Example
2.5 Thrust vectored aircraft
the thrust vectored aircraft example introduced in
AM08, Exam n 1: Un sistema de control es unConsider
Definicio
sistema
ecuaciones
AM08. The
ple 2.9. Thedescrito
system is por
shownunas
in Figure
2.3, reproduced from
diferenciales de la forma x = f (x, u) con f : O
Uquadratic
Rn regulator
Rm problem
Rm . was illustrated in Example 6.8, where
linear
the weights were chosen as Q = I and Q = I. Figure 2.4 reproduces the

x
u
En problemas concretos es necesario adem
as especificar la clase de
controles
que
step response for this case.x
A more physically
weighted
can be
se admiten: funciones constantes a trozos, continuas
a trozos,motivated
medibles
acotadas,

computing by specifying
the comparable errors in each of the states and adjusting the weights accordingly. Suppose, for example that we consider a 1 cm error in x, a 10 cm
error in y and a 5 error in to be equivalently bad. In addition, we wish
Date: Febrero 2008.
to penalize the forces in the sidewards direction since these results in a loss
2000 Mathematics Subject Classification. 49S05, in
49K15,
70H25,
efficiency.
This49J15.
can be accounted for in the LQR weights be choosing

Key words and phrases. Sistemas de Control, C


alculo variacional,
2 Control Optimo.
3
100
http://andres.unizar.es/~emf.
6
7
1
1

6
6
Qx = 6
6
6
4

2/9

7
7
7,
7
7
5

Qu = 0.1

1
0

0
.
10

EDUARDO MARTINEZ

son algunas de las clases que se usan con frecuencia. En nuestro caso, optaremos
por los siguientes.
n 2: Un control es una funcion : [0, T ] U acotada y medible. Una
Definicio
trayectoria de un sistema de control, correspondiente a un control u = (t)
definido en el intervalo [0, T ], es una curva : [0, T ] O absolutamente continua y
que satisface (t)

= f ((t), (t)) para casi todo t [0, T ].


Para un determinado sistema de control, consideremos ademas una funcion
L : O U R, un punto inicial x0 O, un tiempo final T > 0 y un punto final x1 O. El problema de control optimo planteado con estos datos consiste en
encontrar, de entre todas las trayectorias del sistema (i.e. que satisfacen la ecuacion
diferencial) y que empiezan en t = 0 en x0 y terminan en t = T en x1 , aquellas que
RT
minimicen el valor de 0 L(x(t), u(t))dt. En smbolos, escribimos un problema de
control
optimo en la forma
RT
minimizar 0 L(x(t), u(t))dt
sujeto a x = f (x, u)
x(0) = x0
x(T ) = x1 .
La forma del problema anterior se llama forma de Lagrange del problema de control
optimo. Existen multitud de formas y problemas interesantes similares al anterior.

Por ejemplo:
Tiempo final no fijado: en el problema anterior se supuso que el tiempo final
est
a fijado de antemano. Podemos tambien considerar que dicho tiempo es
libre y minimizamos entre todas las trayectorias que llegan al punto x1 en
alg
un instante final T . La integral se hace entre 0 y dicho tiempo final T ,
que depende de la curva sobre la que se integra.
Punto final no determinado: en muchas ocasiones, el punto final x1 no es
conocido, sino que se da un subconjunto F de puntos al cual debe pertenecer
el punto final x(T ) F.
Punto inicial no determinado: igualmente, puede especificarse un conjunto
I al cual debe pertenecer el punto inicial, x(0) I.
Coste final: en ocasiones se penaliza la posicion final por medio de un coste
final, a
nadiendo a la integral un termino de la forma (x(T )), siendo una
cierta funci
on real definida en O.
En lo que sigue en estas notas, supondremos la siguiente condicion de regularidad:
[H] El conjunto O Rn es un abierto y el conjunto U Rm es un conjunto
medible. Las funciones f y L tienen derivadas parciales continuas,
aunque hay que destacar que muchos de los resultados que mencionaremos pueden
ser probados bajo condiciones mas generales.
2.

ximo de Pontryagin
El principio del ma

El principio del m
aximo de Pontryagin establece un conjunto de condiciones
necesarias para que una curva sea la solucion de nuestro problema de control optimo.
El citado principio se expresa de forma sencilla en terminos de la siguiente funci
on, que se conoce como Hamiltoniano de Pontryagin
H(x, p, , u) =

n
X
i=1

donde es una constante.

pi fi (x, u) L(x, u),


CONTROL OPTIMO

Teorema 1 (Principio del m


aximo de Pontryagin): Consideremos un sistema
de control
optimo satisfaciendo la hipotesis [H], y sean u = (t) un control y
x = (t) la correspondiente trayectoria del sistema de control. Si ((t), (t)) es
optimal, entonces existen una constante 0, una funcion absolutamente continua
: [0, T ] Rn tales que (, (t)) 6= (0, 0) para todo t [0, T ], tales que
1. La curva p = (t) satisface
i =

H
((t), (t), , (t)),
xi

para casi todo t [0, T ].


2. El control u = (t) maximiza el Hamiltoniano, es decir,
m
ax H((t), (t), , u) = H((t), (t), , (t)),
uU

para casi todo t [0, T ].


3. El Hamiltoniano es constante a lo largo de dicha solucion
H((t), (t), , (t)) = constante.
Nota 1: Las ecuaciones diferenciales que satisfacen las curvas x = (t) y p = (t)
pueden ambas expresarse en terminos del Hamiltoniano
x i =

H
pi

pi =

H
xi

o m
as explcitamente
H
(x(t), (t), , u(t))
pi
H
pi (t) =
(x(t), (t), , u(t))
pi

x i (t) =


Nota 2: La pareja (p, ) est
a definida salvo un factor multiplicativo constante. En
efecto, si ((t), (t), , (t)) es una solucion optima junto con sus correspondientes
multiplicadores, entonces tambien lo es ((t), (t), , (t)), cualquiera que sea
la constante 6= 0. Por tanto, podemos limitarnos a considerar los casos = 0 y
= 1. Los extremales ((t), (t)) a los que corresponden soluciones con = 1 se
llaman extremales normales, mientras que los que corresponden a soluciones con
= 0 se denominan extremales anormales. Notese que pueden existir extremales
que sean a la vez normales y anormales.

Nota 3: Si el conjunto U es un abierto, entonces la condicion de maximizacion
implica que H
u = 0, es decir,
0=
para casi todo t [0, T ].
Las ecuaciones
H
q =
p

H
((t), (t), , (t)) = 0,
uA

p =

H
q

and

0=

H
,
u

se denominan ecuaciones crticas, y a sus soluciones curvas crticas. Evidentemente (si U es abierto) las trayectorias optimales corresponden a curvas crticas.

Casos especiales y generalizaciones.

EDUARDO MARTINEZ

Tiempo final libre. Si el tiempo final T es libre (i.e. no lo fijamos de antemano),


entonces el valor constante del Hamiltoniano a lo largo de cada solucion optimal
debe ser nulo
H((t), (t), , (t)) = 0

para todo t [0, T ].

Ligadura final. Si en vez de fijar el punto final, se da una ligadura que debe satisfacer
dicho punto, x(T ) F, con F una subvariedad de Rn , entonces el valor final de p
debe satisfacer la condici
on de transversalidad
h p(T ) , v i = 0,
para todo vector v tangente a F en x(T ).
Ligadura inicial. Si en vez de fijar el punto inicial, se da una ligadura que debe
satisfacer dicho punto, x(0) I, con I una subvariedad de Rn , entonces el valor
inicial de p debe satisfacer la condicion
h p(0) , v i = 0,
para todo vector v tangente a I en x(T ).
En los casos anteriores de ligaduras en el punto inicial y/o final, las variedades I
o F suelen venir dadas como el conjunto de ceros de una cierta funcion. Por ejemplo,
en el caso de ligaduras finales F suele venir dada como
F = 1 (0) = { x Rn | (x) = 0 } .
En este caso, n
otese que el espacio tangente a F en un punto x es simplemente
Tx F = Ker D(x).
Lo mismo sirve cuando I es el conjunto de nivel cero de una funcion.
Coste terminal. En el llamado problema o forma de Bolza, se a
nade al funcional de
coste una penalizaci
on terminal (x(T )), es decir, el objetivo a minimizar es
Z T
J=
L(x(t), u(t) dt + (x(T )),
0

dejando libre ademas el punto final. En este caso ademas de las condiciones expresada en el principio del m
aximo, se tiene que el valor final de p queda fijado por la
condici
on
p(T ) = ((T )).
Coste terminal y ligadura final. Con mas generalidad, si se considera un problema
de Bolza como el anterior pero se restringe el valor final por una condicion de la
forma x(T ) F, con F una subvariedad de Rn , entonces el valor final de p debe
satisfacer la condici
on de transversalidad
h p(T ) , v i = h ((T )) , v i,
para todo vector v tangente a F en x(T ).

3.

Ejemplos

Veamos a continuaci
on algunos ejemplos sencillos de aplicacion del principio del
m
aximo de Pontryagin.


CONTROL OPTIMO

Sistema de Heisemberg. Consideremos el problema consistente en minimizar el


funcional
Z
1 T 2
(x + y 2 ) dt,
2 0
entre todas las curvas (x(t), y(t), z(t)) que unen los puntos (0, 0, 0) con (0, 0, a) (con
a > 0 dado), y satisfacen la ligadura z = y x xy.

El problema puede ser resuelto utilizando tecnicas de calculo variacional con


ligaduras, pero nosotros lo transformaremos en un problema de control optimo, para
ilustrar la tecnica general. Para ello, consideramos como controles las funciones x
e y,
es decir, escribimos el problema en la forma
RT
minimizar 21 0 (u21 + u22 ) dt
sujeto a

x = u1

y = u2

z = yu1 xu2

(x(0), y(0), z(0)) = (0, 0, 0)


(x(T ), y(T ), z(T )) = (0, 0, a)
donde a R+ .
El Hamiltoniano es
1
H = p1 u1 + p2 u2 + p3 (yu1 xu2 ) (u21 + u22 )
2
Como no hay restricciones para los controles, el conjunto U es abierto, por lo que
debemos anular las derivadas parciales con respecto a los controles
H
= p1 + p3 y u1 = 0
u1

H
= p2 p3 x u2 = 0,
u2

adem
as de las ecuaciones
x = u1

p1 = p3 u2

y = u2

p2 = p3 u1

z = yu1 xu2

p3 = 0

Consideremos primero = 1. En vez de despejar y sustituir los valores de u,


podemos proceder como sigue. Derivando la ecuacion para u1 , obtenemos
u 1 = p1 + p3 y = 2p3 u2 ,
e igualmente para u2 ,
u 2 = p2 p3 x = 2p3 u1 .
Consideremos primero el caso p3 = 0. En este caso, las ecuaciones anteriores
implican que u1 = p1 y u2 = p2 son constantes, de donde x e y son lineales. Pero
si deben valer 0 en t = y en t = T , obtenemos que deben ser constantes e iguales
a cero. En este caso, z = 0, por lo que no hay ninguna solucion con z(0) = 0 y
z(T ) = a > 0.
En el caso p3 6= 0, la forma de las ecuaciones anteriores, sugiere usar las funciones
auxiliares complejas
u = u1 + iu2

x = x + iy,

de forma que x = u y u = 2ip3 u, e inmediatamente obtenemos


u0 2ip3 t
(e
1),
u(t) = u0 e2ip3 t
y
x(t) = i
2p3
donde se ha tenido en cuenta que x(0) = 0, y se ha supuesto p3 =
6 0 (el caso p3 = 0
se estudiar
a posteriormente). Ademas debe cumplirse tambien que x(T ) = 0, por

EDUARDO MARTINEZ

lo que 2p3 T = 2n con n Z {0}, es decir


n
p3 =
,
T
por lo que finalmente obtenemos
x(t) = i

T u0 2int/T
(e
1).
2n

Para obtener z notemos que z = Im(


ux), de donde
z(t)
=T

|u0 |2
<(1 e2int/T ),
2n

y teniendo en cuenta que z(0) = 0 llegamos a




iT 2int/T
|u0 |2
< t+
(e
1) .
z(t) = T
2n
2n
En t = T , se tiene
|u0 |2
,
a = z(T ) = T 2
2n

de donde obtenemos que n 0 y que |u0 | = 2na/T , por lo que podemos poner

2na i
u0 =
e
T
para alg
un R.
Para determinar el mnimo, integramos
Z
Z
Z
1 T 2
1 T
1 T
2n
(u1 + u22 ) dt =
|u|2 dt =
|u0 |2 dt = T |u0 |2 =
a
2 0
2 0
2 0
T
que es mnimo para n = 1 (recordar n Z {0} y n 0).
Finalmente, veamos que no existen soluciones anormales. Si tomamos = 0,
entonces el Hamiltoniano no esta acotado salvo que p1 = p3 y y p2 = p3 x. En
este caso, sustituyendo en la ecuacion diferencial de p1 y p2 obtenemos p3 u1 = 0
y p3 u2 =0., de donde p1 y p2 , ademas de p3 , son constantes. En t = 0 como y = 0
se tiene que p1 = p3 y = 0, e igualmente, como en t = 0 es x = 0, tenemos
p2 = p3 x = 0. Por tanto p3 6= 0 (ya que no pueden ser todos nulos), de donde
u1 = 0 y u2 = 0. En definitiva x e y son constantes, y por tanto nulas, de donde z
es tambien constante y no puede tomar los valores 0 en t = 0 y a > 0 en t = T .
Por tanto la soluci
on de nuestro problema es
r
a
x(t) =
sin(2t/T )
2
r
a
y(t) =
(cos(2t/T ) 1)
2

a
T
z(t) =
t+
(cos(2t/T ) 1)
T
2
que se obtiene con el control

2a
u1 (t) =
cos(2t/T )
T

2a
u2 (t) =
sin(2t/T )
T
as como cualquiera que se obtenga de estas por un giro de angulo y eje z.


CONTROL OPTIMO

Sistema con controles acotados. Consideremos un sistema de control descrito


por las ecuaciones
x
=u
|u| 1
que describe un carro sobre unos railes sobre el que se act
ua con una fuerza u.
Pretendemos llevar el carro desde x = 0 partiendo del reposo hasta el punto x = 1,
llegando tambien en reposo, y queremos hacerlo en el menor tiempo posible.
El sistema de control escrito en la forma habitual como sistema de primer orden
es
x = y
y = u
y el funcional a minimizar es
J =T =

1 dt,

siendo T libre, y con condiciones de contorno x(0) = 0, y(0) = 0, x(T ) = 1,


y(T ) = 0.
[ = 1] El Hamiltoniano es H = p1 y + p2 u 1 que alcanza el maximo en u = 1,
siendo el signo de u el mismo que el de p2 . Las ecuaciones diferenciales para p son
p1 = 0

p2 = p1 .

As, se tiene que p1 es constante y p2 lineal. As x es un polinomio de segundo grado


a trozos, mientras que y es lineal a trozos. Es facil convencerse de que para obtener
el punto deseado, el valor de u debe ser positivo al principio y negativo al final, por
lo que la soluci
on ser
a de la forma u(t) = 1 para t < y u(t) = 1 para t > ,
siendo el punto donde se anula p2 (que por tanto es p2 = (t ) con > 0).
De la anulaci
on del Hamiltoniano obtenemos |t | = 1 + y. En t = 0, se tiene
= 1, y en t = T se tiene (T ) = 1, de donde = T /2 (como era de esperar).
Por tanto y(t) = |t T /2| T /2, u(t) = sgn(T /2 t) y x(t) = t2 /2 para t < T /2
y x(t) = T 2 /8 + tT /2 t2 /2 para t > T /2.
Finalmente, para que x(T ) = 1 se debe
2
cumplir que T /8 = 1, de donde T = 1/ 8 es el tiempo mnimo.
En consecuencia, la estrategia optima consiste en acelerar al maximo hasta la
mitad del recorrido
y luego frenar al maximo a partir de este punto, y tardamos un
tiempo T = 1/(2 2).
Soluciones anormales. La presencia del multiplicador complica los calculos y
en muchas ocasiones no produce soluciones. Sin embargo existen ejemplos en los
que su presencia es necesaria, como el que vamos a ver a continuacion.
Consideremos
el sistema de control optimo en R consistente en minimizar el funR1
cional 0 u(t) dt entre el conjunto de trayectorias del sistema x = u2 que empiezan
y terminan en el origen, es decir, x(0) = x(1) = 0.
La soluci
on es f
acil de obtener. Integrando x = u2 en [0, 1] obtenemos x(1)
R1
R1 2
x(0) = 0 u (t) dt, y como x(0) = x(1) = 0 obtenemos 0 u2 (t) dt = 0, es decir,
R1
u(t) = 0 para casi todo t [0, 1]. Por tanto 0 u(t) dt = 0 es el valor mnimo que se
obtiene para x(t) = 0 (constante) y u(t) = 0.
Intentemos ahora obtenerla por medio del principio del maximo de Pontryagin.
Si s
olo consideramos las soluciones normales = 1, tenemos que H = pu2 u, por
lo que las ecuaciones de Hamilton-Pontryagin son
0 = 2pu 1 = 0

p = 0

x = u2 ,

cuya soluci
on general es
p = constante

u=

1
2p

x(t) = c +

1
t+c
4p2

EDUARDO MARTINEZ

con c R. Imponiendo que x(0) = 0 obtenemos que c = 0. Ahora, imponiendo


x(1) = 0 obtenemos 1/(4p2 ) = 0, que no es posible. En consecuencia no existe
ninguna soluci
on normal.
Teniendo en cuenta ahora las soluciones anormales, el Hamiltoniano es H = pu2 ,
por lo que las ecuaciones de Hamilton-Pontryagin son
0 = 2pu = 0

p = 0

x = u2 .

Por tanto p es constante, y como = 0, p 6= 0, por lo que u = 0 y x(t) = c.


Imponiendo x(0) = 0 se tiene x(t) = 0, que cumple tambien x(1) = 0.
En consecuencia, el principio del maximo solo selecciona la trayectoria x(t) = 0,
siendo esta una soluci
on anormal.
Problemas LQ. Un tipo de problemas de control optimo que aparece muy frecuentemente es el de los problemas LQ, que consisten en un sistema de control
lineal y una funci
on de coste cuadratica.
Concretamente, consideremos el sistema de control en Rn
x = Ax + Bu
con u R , y para T > 0 fijo, nos planteamos el problema de minimizar el funcional
Z
1 T T
(x Qx + uT Ru) dt,
2 0
m

entre las trayectorias del sistema que comienzan en x(0) = x0 , sin restriccion alguna
en el punto final, es decir F = Rn . Supondremos que Q R(n,n) y R R(m,m)
son matrices simetricas con R definida positiva. Ademas supondremos que no hay
controles redundantes, es decir, que B R(n,m) tiene rango maximo m < n.
Probaremos que la trayectoria optimal se obtiene como la solucion del sistema
de ecuaciones diferenciales
x = Ax + BR1 B T p
p = Qx AT p
con condiciones de frontera
x(0) = x0 ,

p(T ) = 0,

estando el control
optimo dado por
u = R1 B T p.
En efecto, consideremos primero las soluciones normales, con = 1. El Hamiltoniano de Pontryagin es
1
H(x, p, , u) = pT (Ax + Bu) (xT Qx + uT Ru).
2
Siendo R definida positiva, el Hamiltoniano solo tiene un maximo, que se obtiene
en el punto donde la derivada parcial con respecto a u se anula, esto es, donde
B T p = Ru, de donde obtenemos
u = R1 B T p.
As, sustituyendo la expresi
on anterior en la ecuacion de control obtenemos
x = Ax + Bu = Ax + BR1 B T p
Por otro lado, calculando la derivada parcial con respecto a x, obtenemos
H
p =
= Qx AT p.
x
Como el punto final es libre, se tiene ademas que p(T ) = 0, ya que F = (Rn ) =
{0}. Recordemos tambien que el punto inicial esta dado x(0) = x0 .


CONTROL OPTIMO

Finalmente, notemos que no hay soluciones anormales. Como el punto final es


libre, tenemos que p(T ) = 0, por lo que para que (, p(T )) 6= (0, 0) debe ser 6= 0.
M
as informaci
on. En estas notas se ha dado una introduccion a la teora de sistemas
de control
optimo, por medio del uso del Principio del maximo de Pontryagin.
Existen multitud de aspectos que no ha sido posible ni siquiera mencionar. El lector
interesado puede consultar el u
ltimo captulo del libro [1] donde puede encontrar un
tratamiento pedag
ogico del tema y multitud de ejemplos resueltos. Para resultados
rigurosos y la demostraci
on del principio del maximo (mas alla de la idea intuitiva
vista en clase), el libro original de Pontryagin [2] sigue siendo una referencia basica.
Para una revisi
on de resultados sobre problemas de control optimo con ligaduras
de desigualdad, vease [3].
Referencias
[1] Luenberger D
Introduction to dynamic systems: theory, models and applications
John Wiley and Sons, New York, 1979.
[2] Pontryagin LS, Boltyanskii VG, Gamkrelidze RV y Mishchenko EF
The mathematical theory of optimal processes
Interscience Publishers John Wiley & Sons, Inc. New York-London, 1962.
[3] Hartl RF, Suresh PS and Vickson RG
A survey of the maximum principles for optimal control problems with state constraints
SIAM Review, 37 (2) (1995) pp. 181218.
tica Aplicada and IUMA, Facultad de
Eduardo Martnez: Departamento de Matema
Ciencias, Universidad de Zaragoza, 50009 Zaragoza, Spain
E-mail address: emf@unizar.es

10

EDUARDO MARTINEZ

Indice
1. Sistemas de control
2. El principio del m
aximo de Pontryagin
Casos especiales y generalizaciones
3. Ejemplos
Sistema de Heisemberg
Sistema con controles acotados
Soluciones anormales
Problemas LQ
Referencias

1
2
3
4
5
7
7
8
9

También podría gustarte