Está en la página 1de 18

 

Regulador lineal cuadrático con ruido coloreado y saltos markovianos

Beatris A. Escobedo-Trujilloa* Javier Garrido-Meléndezb

Francisco A. Alaffita-Hernándezc Dario Colorado Garridod


a,b
Facultad de Ingeniería, Universidad Veracruzana, Coatzacoalcos, Veracruz, México, 96538.        c, 
c,d
Centro de Investigación en Recursos Energéticos y Sustentables (CIRES), Universidad 
Veracruzana, Coatzacoalcos, Veracruz, México, 96538. 
a* 
Autor de correspondencia: bescobedo@uv.mx

Resumen

Se estudia el problema de control óptimo LQR considerando que el sistema


dinámico es gobernado por: (a) una ecuación diferencial (ED) con ruido coloreado
y (b) una ED en la cual el ruido coloreado evoluciona como una ED con cambios
markovianos. Las ecuaciones algebraicas de Ricatti en los casos (a) y (b) son
obtenidas explícitamente. Los resultados teóricos son aplicados para analizar el
comportamiento de un motor de corriente directa (CD) bajo esta teoría.

Palabras Claves: Ecuaciones diferenciales estocásticas, Ecuaciones diferenciales


con cambios markovianos, ruido coloreado.

Abstract

In this work an optimal control problem LQR is studied considering that the
dynamic system is governed by: (a) a differential equation (DE) with colored noise
and (b) a DE in which the colored noise evolves as a DE with Markovian switching.
The algebraic Ricatti equations in cases (a) and (b) are obtained explicitly. The
theoretical results are applied to analyze the behavior of a direct current (DC)
motor under this theory.
Keywords: Stochastic differential equations, differential equations with Markovian
switching, colored noise.

8
 

1. Introducción

Un problema de control óptimo tiene las siguientes componentes: (1) un sistema


dinámico; (2) un conjunto de funciones denominadas funciones de control; (3) una función
objetivo o índice de rendimiento del sistema y; (4) restricciones sobre el sistema o sobre el
conjunto de controles. Dadas las componentes anteriores, el problema de control óptimo
consiste en minimizar/ maximizar sobre el conjunto de funciones de control el índice de
rendimiento del sistema.

Se sabe que el problema de control óptimo LQR trata de minimizar/maximizar sobre el


conjunto de controles un índice de rendimiento cuadrático cuando el sistema dinámico es
gobernado por una ecuación diferencial ordinaria lineal. En este trabajo se cambiará la
ecuación diferencial ordinaria (EDO) por una ecuación diferencial cuyos parámetros son
afectados por una ecuación diferencial estocástica conocida como ecuación de Langevin y
la cual modela lo que se conoce como ruido coloreado, ver (Arnold, 2013); (Rawat &
Parthasarathy, 2008); (Kolarová & Brancík, 2016) and (Kolarová, 2005). El ruido
coloreado es un proceso estocástico con media cero, función de correlación exponencial y
cuya densidad espectral es no constante. El trabajo (Nhu & George, 2020) está dedicado a
una clase de ecuaciones de Langevin que implican una fuerte amortiguación y un rápido
cambio de Markov, de hecho, hasta donde sabemos es el primer trabajo en estudiar la
ecuación de Langevin con cambios markovianos y fue el trabajo que nos motivo a estudiar
el problema de control óptimo LQR donde el sistema dinámico es gobernado por una
ecuación diferencial con ruido coloreado y a su vez ese ruido coloreado es modelado por
una ecuación de Langevin con cambios aleatorios en sus coeficientes.

Los cambios aleatorios en la ecuación diferencial estocástica de Langevin son modelados


por una cadena de Markov irreducible a tiempo continuo con un espacio de estado finito.
La cadena de Markov a tiempo continuo representa la influencia aleatoria que no se refleja
en las ecuaciones diferenciales estocásticas habituales, de hecho, modela los eventos
discretos. Las ecuaciones de Langevin sin cambios markovianos muestran solo
comportamiento difusivo, mientras que las ecuaciones de Langevin con cambios aleatorios
pueden verse como difusiones moduladas de Markov. Es decir, además, de los
movimientos difusivos, tiene una componente de salto, (Yuan & Mao, 2004); (Mao &
Yuan, 2006), (Mao, et al., 2007).

Hay varias técnicas para estudiar problemas de control óptimo como son el análisis
convexo y la programación lineal. Sin embargo, como mencionan los expertos, por razones
computacionales, en la mayoría de las aplicaciones las técnicas más usadas son el principio
del máximo (que algunos autores llaman el principio de Pontryagin) y la programación

9
 

dinámica. En el presente trabajo usaremos la técnica de programación dinámica (PD) para


resolver el problema de control óptimo LQR cuando el sistema dinámico evoluciona como
una ecuación diferencial con ruido coloreado. La técnica PD proporciona una condición
necesaria y suficiente para encontrar un control óptimo. Está técnica se asume que la
función de valor (también conocido como el costo miníno) es continuamente
diferenciable y se procede formalmente a obtener una ecuación diferencial parcial no lineal
la cual es satisfecha por esta función de valor. La ecuación diferencial parcial no lineal es
conocida como la ecuación de Hamilton-Jacobi-Bellman (HJB) o ecuación de
programación dinámica. Si en el problema de control óptimo es posible encontrar una
función continua (una vez diferenciable en y dos veces diferenciable ) y un control
que resuelvan la ecuación de HJB, entonces los teoremas de verificación dados en la teoría
de control óptimo indican que la función y la función de control resulta ser el
control óptimo.

El objetivo principal del trabajo es resolver el problema de control óptimo LQR


considerando que el sistema dinámico presenta ruido coloreado y también analizamos el
mismo problema considerando que el ruido coloreado presenta saltos markovianos. La
teoría desarrollada es aplicada a buscar un control óptimo que controle la velocidad de un
motor de corriente directa (CD) y que al mismo tiempo minimice un costo cuadrático.

Las secciones están organizadas como sigue. En la sección 1 el problema de control óptimo
LQR es planteado. Además, el teorema de verificación que relaciona la ecuación de HJB
con la solución al problema de control óptimo es enunciado. El problema de control óptimo
LQR asumiendo que el sistema dinámico evoluciona como una ecuación diferencial con
ruido coloreado es resuelto analíticamente en la sección 2. En sección 3 se resuelve
analíticamente el mismo problema LQR pero ahora se considera que el sistema dinámico es
gobernado por un ED con ruido coloreado y que dicho ruido evoluciona de acuerdo a una
ecuación diferencial estocástica con cambios markovianos. Finalmente, los resultados
teóricos son aplicados en el modelado de un motor de corriente directa en la sección 4.

Notación. El símbolo representará a los números reales. El espacio de vectores


en dimensiones es denotado por . El espacio de funciones continuas
sobre las cuales son una vez diferenciable y dos veces diferenciable en
es denotado por . El espacio de funciones reales continuas dos veces
diferenciables es .

10
 

2. El problema de control óptimo

El control de sistemas dinámicos lineales con criterio cuadrático tiene la forma siguiente
(Gordillo, 1994)
(1)

donde es el vector de estado, el control y, y son matrices cuadradas. El costo o


gasto correspondiente a las desviaciones del estado de reposo es

donde y son matrices positivas semi-definidas. Mientras que, el costo de la aplicación


de una señal de mando es

donde es una matriz positiva definida. El costo total es la suma de los gastos y
, esto es,

Problema de control óptimo LQR. El problema de control óptimo consiste en encontrar


un control dentro de un conjunto compacto de controles de tal forma que el costo

(2)

sea mínimo. Es decir, se busca un control tal que

(3)

La función es conocida como la función de valor del problema de control óptimo,


mientras que es el control óptimo. De hecho, en este trabajo consideraremos que los
controles son funciones continuas medibles , con un subconjunto
compacto de los números reales

11
 

En la práctica lo que hace el control óptimo LQR es llevar el estado del proceso desde
un estado inicial a un estado final con el mínimo costo de energía. Para resolver
el problema de control óptimo LQR (3) se usará la técnica de programación dinámica. Para
tal fin, primero se debe tener el generador infinitesimal de proceso , en este caso es
dado por
.
La ecuación de Hamilton-Jacobi-Bellman para el problema de control óptimo LQR en
horizonte de tiempo finito es
(4)

Con y en el espacio de funciones las cuales son una vez derivable en y dos
veces derivables en , , es el espacio -dimensional de números
reales.

Para el problema estudiado en este trabajo la ecuación de HJB (4) nos da la función de
valor óptima y el control óptimo . Esto es consecuencia del siguiente
teorema de verificación, cuya prueba es estándar, ver Teorema 3.5.2 (Pham, 2009).

Teorema de Verificación. Suponga que en es solución de la ecuación


de HJB (4) y que, además, satisface la condición de crecimiento polinomial
) para alguna , y0 t . Entonces
a) para toda en
b) es un minimizador de la ecuación de HJB (4). Entonces
y, además, es un control óptimo.

En las siguientes dos secciones se usa el Teorema de Verificación para resolver los
problemas de control óptimo LQR considerando que el sistema dinámico (1) evoluciona de
acuerdo con: (a) una ecuación diferencial con ruido coloreado y (b) una ecuación
diferencial en la cual el ruido coloreado es gobernado por una ecuación diferencial de
Langevin con cambios Markovianos.

3. Ruido Coloreado

En esta sección asumiremos que la matriz A depende de un proceso estocástico (ruido


coloreado), (Rawat and Parthasarathy,2008); (Kolarová & Brancík, 2016); (Kolarová,
2005), donde es la solución de la ecuación de Langevin

12
 

donde es conocida como ruido blanco y la cual representa la supuesta derivada de un


proceso de Wiener ( ). Sin embargo, como no existe porque el
proceso de Wiener no es diferenciable en ninguna parte, la ecuación de Langevin es,
estrictamente hablando, solo heurística. Por lo que el proceso es la solución de la
ecuación diferencial estocástica de Ornstein-Uhlenbeck

, (5)

donde y son constantes positivas y es un movimiento Browniano en una


dimensión, mientras que es una variable aleatoria distribuida normalmente con media
cero y varianza , ver (Arnold, 2013), sección 8.3 para más detalles del ruido coloreado.
Asumiendo que la matriz del sistema dinámico (1) es afectada por un ruido coloreado se
puede reescribir como:
, (6)

La ecuación de Hamilton-Jacobi-Bellman (HJB) asociada al problema de control es

(7
)

Los teoremas de verificación conectan la ecuación de HJB (7) al problema de control


óptimo. Dichos teoremas de verificación establecen que si existe una función
(diferenciable una vez en t y dos veces en ) y una función (control) que satisfagan la
ecuación de HJB, entonces la función coincide con la función de valor definida
en (3), es decir, y resulta ser el control óptimo, ver Teorema 3.5.2
(Pham, 2009).

El siguiente teorema muestra el control óptimo para el problema de control óptimo LQR
considerando que el sistema dinámico evoluciona de acuerdo con la ecuación diferencial
(6).

Teorema 1. La estrategia óptima para el problema de control LQR con solución de la


ecuación diferencial (6) es

13
 

(8)

y la función de valor o de costo óptima es

, (9)

donde es solución de la ecuación diferencial de Ricatti

(10)

y la función es la única solución de la ecuación diferencial

Demostración. Supóngase que una solución de la ecuación de HJB (7) en


tiene la siguiente forma

(11)

donde (c) es una función positiva en y es una matriz positiva semidefinida.


Las derivadas de están dadas por

= = =

(12)
, = .

Insertando las derivadas (12) en la ecuación HJB (7) se obtiene

y como es una matriz simétrica positiva semi definida, se tiene que la función

14
 

+
es estrictamente convexa sobre el conjunto de las funciones de control . Por lo tanto,
dicha función alcanza su mínimo en

(13)

Al reemplazar las derivadas de y en la ecuación de HJB (7) se obtiene que


la matriz en (11) debe satisfacer la ecuación diferencial de Ricatti (10) mientras que la
función debe satisfacer la ecuación diferencial ordinaria

Además, observe que

por lo que satisface una condición de crecimiento polinomial. Finalmente, de


teorema de verificación enunciado en la sección 1, se sigue que en (13) es el control
óptimo y la función de valor dada en (2) coincide con la función dada en (11), es
decir,

quedando demostrado el resultado.

4. Ruido coloreado con saltos markovianos

En esta sección se considerará que el ruido colorado es la solución de ecuación


diferencial estocástica con saltos markovianos
, (14)

donde es una cadena de Markov irreducible a tiempo continuo con espacio de estados
finitos y probabilidades de transición

15
para i≠ j. El número es la tasa de transición de a , mientras que .

Además, las funciones y son funciones continuas medibles y es


un movimiento Browniano en una dimensión independiente de , mientras que es
una variable aleatoria distribuida normalmente con media cero y varianza
. Ahora el sistema dinámico (1) evoluciona de acuerdo con la ecuación
diferencial lineal estocástica con saltos markovianos y ruido coloreado
. (15)

La ecuación de Hamilton-Jacobi-Bellman (HJB) asociada al problema de control LQR en


este escenario es

(16
)

la suma en la ecuación de HJB se toma sobre todos los en . El siguiente teorema muestra
el control óptimo para el problema de control óptimo LQR considerando que el sistema
dinámico evoluciona de acuerdo con la ecuación diferencial (15)

Teorema 2. La estrategia óptima para el problema de control LQR considerando que el


sistema dinámico evoluciona de acuerdo con (15) es

(17)

y la función de valor o de costo óptima es

(18)

donde es solución de la ecuación diferencial de Ricatti

y las funciones y son las únicas soluciones de las ecuaciones diferenciales

16
 

La suma en la ecuación de HJB se toma sobre todos los en .

Demostración. Supóngase que una solución de la ecuación de HJB (16) en


tiene la siguiente forma

(19)

donde es una función en con , mientras que es una función


positiva en el espacio con . Las derivadas de son:

= =

Sustituyendo las derivadas anteriores en la ecuación de HJB (16) se obtiene

Como es una matriz simétrica positiva semidefinida, se tiene que la función


+
es estrictamente convexa sobre el conjunto de las funciones de control . Por lo tanto,
dicha función alcanza su mínimo en

(20)

Al reemplazar las derivadas de y en la ecuación de HJB (16) se obtiene


que necesariamente la función debe satisfacer la ecuación diferencial de Ricatti

17
 

y las funciones y h(c) deben satisfacer las siguientes ecuaciones diferenciales

Ahora, observe que

por lo que satisface una condición de crecimiento polinomial para cada .


Finalmente, del teorema de verificación dado en (Teorema 1 en (Bauerle & Rieder, 2004)), se
sigue que en (20)es el control óptimo y la función de valor dada en (2)
coincide con la función dada en (19), es decir,

quedando demostrado el resultado establecido en el Teorema 2.

5. Resultados numéricos
Las ecuaciones que modelan la parte mecánica y eléctrica de un motor de cd son:

(21)

donde V es el voltaje del motor (V), I es la corriente (A); es la resistencia del inducido
(), es la inductancia (H), (t) es la velocidad del rotor (Rad/seg), es la inercia (Nm2),
es el coeficiente de fricción viscosa (N/ms), es el torque en el rotor (Nm), ver (Cerón
& Vázquez & Aquino).

18
 

Si se le agrega ruido coloreado a la resistencia, entonces en la resistencia es


reemplazad por donde es el ruido coloreado que está dado por
la solución de (5) y es una constante que representa la magnitud del ruido. Al sustituir
en (21), se obtienen las ecuaciones diferenciales que rigen a un motor de DC de
excitación separada con ruido coloreado, la cual se escribe en forma matricial como:

, (22)

donde

5.1 Simulación del motor de CD con ruido coloreado

El modelo del motor de CD a simular en el software de Matlab es (22). Los parámetros que
se utilizaron son: , y

, y mientras que las condiciones iniciales de las


variables de velocidad angular y corriente son: 404 Rad/seg y 2.7 A, respectivamente. En la
Fig. 1 se muestra el proceso de ruido coloreado (5), para simular el ruido se usaron los siguientes
parámetros, , y con la condición inicial

19
 

Figura 1. Proceso estocástico de ruido coloreado

Para calcular la señal de control del LQR es necesario primero resolver la ecuación de
Ricatti (10) para obtener la matriz P(t), el siguiente paso es calcular la señal de control con
(8), donde es el voltaje aplicado al motor.

La Fig. 2 muestra que el control oscila entre 2 y -11 V y como el voltaje nominal del motor
es de  30 V se puede observar que la señal de control está dentro de los parámetros
nominales y que el control después de 0.12 s se estabiliza y oscila alrededor de cero debido
al ruido coloreado.

Figura 2 Señal de control

En la Fig. 3 se muestra la función de valor =J*(t,x,c) y la cual se calculó con la


ecuación (9), dicho costo óptimo converge a g(c( )).

El proceso de ruido coloreado modifica el valor de la resistencia y genera que la velocidad


y la corriente del motor tenga oscilaciones alrededor del punto de equilibrio, el cual en este

20
 

caso es el cero. Como se puede observar en la Fig. 4, se logra el objetivo del control LQR,
es decir, el control óptimo lleva el sistema dinámico de a

Esto es, independientemente del proceso de ruido coloreado en la


resistencia se logra estabilizar los estados en .

Figura 3. Función de valor

Figura 4. a) Velocidad angular y b) corriente del motor de CD con ruido coloreado

21
 

5.2 Simulación del motor de CD con saltos markovianos

Para realizar la simulación del motor de CD con saltos markovianos se utilizó el método
Euler-Maruyama para ecuaciones diferenciales estocásticas con saltos markovianos dado en
(Chenggui & Xuerong, 2004). En esta simulación asumiremos que la cadena de Markov
presenta dos estados, es decir, y que

El paso de simulación considerado es . En la Fig. 5. se observa el proceso de


ruido coloreado con saltos markovianos. Dicho proceso estará saltando entre dos estados,
o dependiendo de la matriz de tasas de transición . Las funciones y
toman los siguientes valores: y .
Dependiendo del estado la ecuación diferencial de ruido coloreado (14) quedara como
para y para .

Figura 5. Proceso de ruido coloreado con saltos markovianos

En la Fig. 5 se muestra como la cadena de Márkov hace que los estados salten de un estado
a otro por ejemplo en el t=0.1 esta en estado 2 y en t=0.21 está en el estado 1. En la Fig. 6
se muestra la gráfica de la velocidad angular y la corriente del motor, se puede observar que
aun con ruido coloreado y saltos markovianos el controlador LQR logra que el sistema se
estabilice en cero, esto es, el control óptimo lleva el sistema dinámico de
a . El tiempo para la estabilización de los
estados es 0.1 s.

22
 

Figura 6. Velocidad angular y corriente del motor de CD con ruido coloreado y saltos markovianos

En la Fig. 7 se muestra la señal de control , la cual se obtiene resolviendo (17). en la


gráfica se observa que el valor oscila entre 0 y -10 V, el cual está dentro de los parámetros
nominales del motor y se observa que el voltaje después de aproximadamente 0.2 s oscila
alrededor de cero. La figura 8 muestra el costo óptimo el cual se calculó con (18).

Figura 7. Señal de control

23
 

Figura 8. Función de valor

Conclusiones

La técnica de programación dinámica fue usada para encontrar los controles óptimos, las
ecuaciones diferenciales de Riccati y las funciones de valor o de costo óptimas en los dos
escenarios estudiados (ver Teorema 1 y Teorema 2). Los resultados teóricos fueron
aplicados para controlar la velocidad angular y posición de un motor de corriente directa.
Para el caso de la aplicación estudiada podemos concluir que el controlador óptimo LQR
lleva el estado del proceso desde un estado inicial a un estado final con el
mínimo costo de energía independientemente si la resistencia del circuito del motor es
afectada por ruido coloreado.

Bibliografía
Arnold, L., 2013. Stochastic Differential Equations: Theory and Applications. New York: Over 
Publications. 

Bauerle, N. & Rieder, U., 2004. Portfolio Optimization With Markov‐Modulated Stock Prices and 
Interest Rates. IEEE Transactions on Automatic Control, 49(3), pp. 442‐447. 

Chenggui, Y. & Xuerong, M., 2004. Convergence of the Euler–Maruyama method for stochastic 
differential equations with Markovian switching. Mathematics and Computers in Simulation,, 
64(2), pp. 223‐235. 

Gordillo, F., 1994. Contribuciones Al Problema De Control Óptimo. Sevilla: Universidad de Sevilla. 

Kolarová, E., 2005. Modelling rl electrical circuits by stochastic differencial equations. s.l.:In 
EUROCON 2005‐The International Conference on Computer as a Tool. 

24
 

Kolarová, E. & Brancík, L., 2016. The effect of the colored noise to rlc(g) electrical circuits. s.l.:In 
2016 26th International Conference Radioelektronica.. 

Mao, X., Yin, G. G. & Yuan, C., 2007. Stabilization and destabilization of hybrid systems of 
stochastic differential equations. Automatica, Volume 43, pp. 264‐273. 

Mao, X. & Yuan, C., 2006. Stochastic Differential Equations with Markovian Switching. UK: World 
Scientific Publishing Co. 

Nhu, N. & George, 2020. A class of Langevin equations woth Markov switching involving strog 
damping and fast witching. J. Math. Phys, Volume 61, pp. 1‐19. 

Pham, H., 2009. Continuous‐Time Stochastic Control and Optimization with Financial Applications. 
New York: Springer. 

Rawat, T. & Parthasarathy, H., 2008. Modeling of an RC Circuit using a Stochastic Differential 
Equation. Thammasat Int. J. Sc. Tech, Volume 13, pp. 40‐47. 

Yuan, C. & Mao, X., 2004. Convergence of the Euler–Maruyama method for stochastic differential 
equations with Markovian switching. Mathematics and Computers in Simulation, Volume 64, pp. 
223‐235. 

25

También podría gustarte