Está en la página 1de 8

Revista EJE – Engineering Journal ECCI ISSN XXXX-XXXX, Vol.

X, Número X, páginas XX-XX, 20XX

Procesos de Decisión Markovianos

Markovian Decision Processes

Jennifer Arcila1, Jennifer Arango 2, Carlos Avendaño3, Julissa Ortega4, Robinson Calvo5
1,2,3,4
Universidad ECCI, Dirección de Ingeniería Industrial, Bogotá, Colombia

* jenifer.arcilac@ecci.edu.co
** rcalvoc@ecci.edu.co

RESUMEN (Jenifer)

En xxxx

Palabras clave: Procesos, Estados, Incertidumbre, Transición, Matriz, Propiedades.

Recibido: 01 de noviembre de 2023. Aceptado: 15 de noviembre de 2023


Received: November 01, 2023 Accepted: November 15, 2023

ABSTRACT (Jenifer)

In xxxx

Keywords: Processes, States, Uncertainty, Transition, Matrix, Properties..

How to cite: Jennifer Arcila, Jenifer Arango, Carlos Avendaño, Julissa Ortega, Robinson Calvo
Procesos de Decisión Markovianos
Revista EJE, Vol. # No. #, p1-pn, 20XX
DOI: http://dx.doi.org/000.000.000
Revista EJE – Engineering Journal ECCI ISSN XXXX-XXXX, Vol. X, Número X, páginas XX-XX, 20XX

1. INTRODUCCIÓN ● Examinar las estrategias de resolución de MDP,


Los Procesos de Decisión Markovianos (MDP, por sus
siglas en inglés, Markov Decisión Processes) constituyen como la programación dinámica y los métodos de
una herramienta esencial en la modelización y resolución Monte Carlo, para entender cómo se determinan las
de problemas de toma de decisiones en entornos políticas óptimas.
dinámicos y estocásticos [1]. Este artículo, basado en la
teoría de cadenas de Markov, proporciona un enfoque ● Explorar aplicaciones prácticas de los MDP en
sistemático para abordar situaciones en las que las
diversos campos, como inteligencia artificial, gestión
decisiones tomadas en un momento dado afectan
de recursos y toma de decisiones bajo incertidumbre.
directamente las futuras condiciones del sistema. Los
MDP aportan aplicaciones significativas en campos tan
diversos como la inteligencia artificial, la investigación
operativa y la teoría de control, permitiendo la
formulación y análisis de estrategias óptimas en
contextos caracterizados por la incertidumbre y la
variabilidad. En este documento, se tratarán los
fundamentos de los Procesos de Decisión Markovianos y
su relevancia en la resolución de problemas complejos de
toma de decisiones bajo condiciones dinámicas.

2. OBJETIVOS
2.1 General

Explorar y comprender los Procesos de Decisión


Markovianos (MDP), analizando su estructura,
propiedades y aplicaciones, con el fin de proporcionar
una visión integral de este marco teórico para la toma de
decisiones en contextos dinámicos y estocásticos.

2.2 Específicos
● Investigar los principios teóricos de los Procesos de
Decisión Markovianos, incluyendo sus conceptos
clave como estados, acciones y funciones de
recompensa.

● Analizar la estructura de un MDP, destacando la


propiedad de Markov que subyace en la toma de
decisiones secuenciales y su impacto en la
predicción de futuros estados.

2
Revista EJE – Engineering Journal ECCI ISSN XXXX-XXXX, Vol. X, Número X, páginas XX-XX, 20XX

3. CADENAS DE MARKOV Matriz de Probabilidad de Transición:


3.1 Definición Teniendo las probabilidades de transición en un paso pij,
si variamos los índices i, j sobre el espacio de estados
En el ámbito de la teoría de la probabilidad, se hace S = { 0,1,2…} obtenemos la matriz P llamada matriz de
referencia a una cadena de Markov o modelo de Markov probabilidades de transición en un paso, es decir:
para describir un tipo particular de proceso estocástico
discreto. En este tipo de proceso, la probabilidad de que
un evento específico ocurra está condicionada
únicamente por el evento que precede inmediatamente a
dicho evento.

Estocástico: Indica que el proceso tiene algún grado de


aleatoriedad o incertidumbre. Los resultados no son
deterministas y pueden variar en cada realización del donde la entrada (i, j) representa la probabilidad de pasar
proceso. del estado i al estado j en un paso.
La matriz P es una matriz estocástica pues satisface
En matemáticas, una Cadena de Markov es un proceso
estocástico a tiempo discreto {Xn : n = 0,1,2…} con
espacio de estados discreto S que para cualquier entero
n >=0 y para cualesquiera X0, X1, …,Xn+1 ∈ S satisface
P[Xn+1 = xn+1|X0 = x0, X1 = x1,…,Xn = xn] = P[Xn+1|Xn = xn] [2]. Similarmente se define la matriz de probabilidades de
transición en n pasos, esta se denota por (P(n) y está dada
A continuación, se explican algunos conceptos clave por
relacionados con las cadenas de Markov:

Estado: Un sistema puede encontrarse en uno de varios


estados. Estos estados podrían representar situaciones,
condiciones o configuraciones específicas del sistema.

Matriz de Transición: Especifica las probabilidades de


transición entre diferentes estados. Cada elemento de la donde la entrada (i, j) representa la probabilidad de pasar
matriz indica la probabilidad de pasar de un estado a otro del estado i al estado j en n pasos.
en un solo paso.
Cadena Homogénea: Si las probabilidades de transición
Probabilidades de Transición: La probabilidad de no dependen del tiempo, la cadena se considera
moverse de un estado a otro en un solo paso. Se homogénea. Si para alguna pareja de estados y para
representan mediante la matriz de transición. algún tiempo n la propiedad antes mencionada no se
cumple entonces diremos que la Cadena de Markov es no
Sean i y j dos estados de una Cadena de Markov. La homogénea.
probabilidad de ir del estado i en el tiempo n al estado j
en el tiempo n+1 Propiedades Estacionarias: Una cadena de Markov
se denota por pij (n, n+1) = P [Xn+1 = j |Xn = i] puede tener una distribución estacionaria si, después de
Cuando la cadena es homogénea, esta probabilidad se un número suficientemente grande de pasos, la
denota por pij = P [Xn+1 = j |Xn = i] distribución de probabilidad sobre los estados no cambia.

Cadena de Markov de Tiempo Continuo: Similar a las


cadenas de Markov, pero los cambios de estado no
ocurren en pasos discretos sino de manera continua.

3
Revista EJE – Engineering Journal ECCI ISSN XXXX-XXXX, Vol. X, Número X, páginas XX-XX, 20XX

3.2 Aplicación

Imaginar un complejo deportivo que tiene 4 campos de


fútbol, cada semana se programa un partido para que el
equipo Royal juegue en estos campos:

La probabilidad de que, si hoy el equipo Royal juega en


el campo 1, el siguiente partido sea en el campo 3 es :
p13
A esto se le denomina Probabilidades de Transición.

Entonces, el equipo Royal puede jugar en la primera Ahora, la probabilidad de pasar del campo 1 a cualquiera
semana en el campo 2, en la segunda semana en el de los otros campos se puede representar gráficamente de
campo 3, en la tercera semana en el campo cuatro, y en la siguiente manera:
cuarta semana puede que el equipo juegue en el campo 1,
pero siempre estará jugando solamente en uno de estos
campos, entonces los campos serían los Estados, y en
este ejemplo serían 4 estados.
Y la programación de los partidos solamente le asignaría
alguno de estos estados por semana.
Ahora, suponga que la asignación de un partido depende
de ciertas probabilidades que a su vez dependen de cual
campo le fue asignado en el partido anterior, entonces se
puede pensar que esos sorteos se pueden representar
mediante una cadena de Markov.

Ejemplo:

El último partido se jugó en el campo 1, entonces se


puede pensar que el siguiente partido se puede jugar en
los campos 2,3 o 4, e inclusive en el mismo campo 1,
teniendo en cuenta la probabilidad de pasar de un estado
a otro.

4
Revista EJE – Engineering Journal ECCI ISSN XXXX-XXXX, Vol. X, Número X, páginas XX-XX, 20XX

Pero esta información también puede representarse


mediante una matriz de transición:

Una característica fundamental de esta matriz es que la


suma de los elementos de cada renglón debe ser
exactamente 1.

p1 p1 p1
p11 + 2 + 3 + 4 = 1
p2 p2 p2
p21 + 2 + 3 + 4 = 1
p3 p3 p3
p31 + 2 + 3 + 4 = 1
p4 p4 p4
p41 + 2 + 3 + 4 = 1 Se deben multiplicar las probabilidades de cada
trayectoria y luego sumarlas a las demás trayectorias así:
Por esta razón se le conoce como
P31*p14 + p32*p24 + p33*p34 + p34*p44

Que es lo mismo que multiplicar C3*C4

Ahora, si se quiere saber la probabilidad de pasar de un


estado a otro en dos movimientos o transiciones, se debe Ahora:
hacer lo siguiente: matriz de transación de 2, 3 Y n pasos:

Ejemplo: M2 = M1*M1
M3 = M2 X M1 = (M1)3
Graficar las probabilidades de pasar del campo 3 al Mn= (M1)n
campo 4:

5
Revista EJE – Engineering Journal ECCI ISSN XXXX-XXXX, Vol. X, Número X, páginas XX-XX, 20XX

4. CLASIFICACIÓN DE LOS ESTADOS DE Estado de Comunicación: En una cadena de


LAS CADENAS MARKOV (Jenifer Arango) Markov, dos estados se consideran en
4.1 Definición "comunicación" si es posible llegar desde uno al
otro en un número finito de pasos y viceversa.
Los estados en las cadenas de Markov se pueden Si dos estados están en comunicación,
clasificar en función de su comportamiento y sus pertenecen al mismo conjunto de comunicación.
propiedades en las siguientes categorías: Estado Inalcanzable: Un estado inalcanzable es
aquel desde el cual no es posible llegar a ningún
Estado Absorbente: Un estado en una cadena de otro estado de la cadena. Estos estados se
Markov se considera "absorbente" si, una vez que consideran aislados y no afectan el
el sistema entra en ese estado, no puede salir de comportamiento de la cadena.
él. En otras palabras, la probabilidad de que la
cadena permanezca en un estado absorbente es Estas categorías ayudan a comprender la dinámica y el
igual a 1, y no hay transiciones a otros estados comportamiento de los estados en una cadena de Markov
una vez que se alcanza un estado absorbente. Los y son fundamentales para el análisis y la modelización de
estados absorbentes son comunes en modelos de procesos estocásticos y sistemas que evolucionan en el
procesos irreversibles. tiempo. Las propiedades de los estados en una cadena de
Markov son esenciales para comprender las
Estado Transitorio: Un estado transitorio en una probabilidades de transición y la evolución del sistema a
cadena de Markov es un estado del cual se puede lo largo del tiempo. [3]
salir y regresar en futuros pasos de tiempo. Estos
estados no son absorbentes y forman parte de las
transiciones periódicas de la cadena.
4.2 Aplicación
Estado Recurrente: Los estados recurrentes son
La clasificación de los estados en las cadenas de Markov
aquellos desde los cuales es posible regresar en
es esencial para comprender y aplicar estas cadenas en
futuros pasos de tiempo, es decir, una vez que se
diversos contextos. Aquí tienes algunas aplicaciones de
llega a un estado recurrente, hay una probabilidad
esta clasificación:
no nula de volver a visitarlo en el futuro. Los
estados recurrentes pueden ser clasificados en dos
categorías adicionales: Modelado de sistemas en estado estable (Steady-
State Analysis): La clasificación de los estados
Estado Recurrente Absoluto: Un en cadenas de Markov es fundamental para
estado recurrente se llama "absoluto" si, determinar las probabilidades estacionarias de
con certeza, se visitará en un número ocupación de cada estado. Esto es útil en
finito de pasos independientemente de aplicaciones como el modelado de sistemas de
cómo se inicie la cadena. colas, donde se necesita conocer la probabilidad
de que el sistema se encuentre en un estado
Estado Recurrente Transitorio: Un específico en estado estable.
estado recurrente se llama "transitorio" si
se visitará solo con probabilidad no nula Estudio de fiabilidad y confiabilidad (Reliability
si la cadena comienza en un estado Analysis): En la evaluación de la confiabilidad
específico. de sistemas, se pueden utilizar cadenas de
Markov para modelar el comportamiento de
sistemas complejos con estados de
funcionamiento y falla. La clasificación de los
estados permite determinar la probabilidad de
que un sistema esté funcionando o en un estado
de falla en un momento dado.

6
Revista EJE – Engineering Journal ECCI ISSN XXXX-XXXX, Vol. X, Número X, páginas XX-XX, 20XX

Predicción de series temporales (Time Series Estas son solo algunas aplicaciones comunes de la
Forecasting): Las cadenas de Markov se clasificación de estados en cadenas de Markov. En
utilizan para modelar y predecir series general, esta clasificación es esencial para entender el
temporales, como el comportamiento del comportamiento de sistemas y procesos que evolucionan
mercado financiero, el clima, la demanda de en el tiempo y dependen de eventos aleatorios, lo que
productos, entre otros. Clasificar los estados es permite tomar decisiones informadas y optimizar el
esencial para analizar la transición entre rendimiento en una amplia gama de campos. [4]
diferentes estados en una serie temporal y
predecir futuros estados. 5. PROBABILIDAD DE ESTADO ESTABLE
(Carlos)
Análisis de procesos industriales (Industrial 5.1 Definición
Process Analysis): En la industria, se utilizan 5.2 Aplicación
cadenas de Markov para modelar y analizar
procesos complejos, como la producción, el
6. CADENAS ABSORVENTES (Julissa)
mantenimiento y la gestión de inventario. La
clasificación de estados ayuda a identificar los 6.1 Definición
estados recurrentes y absorbentes, lo que es Un estado i de una cadena de Markov se dice absorbente
esencial para optimizar la eficiencia y la si es imposible abandonarlo (e.d. pii = 1). Es, por tanto,
planificación. un tipo particular de estado recurrente. Una cadena de
Markov se dice absorbente si posee al menos un estado
Redes de comunicación y telecomunicaciones absorbente y desde cada estado es posible llegar al estado
(Communication Networks): En sistemas de absorbente (no necesariamente en un paso).
redes de comunicación, como redes de
telecomunicaciones o de computadoras, las Comentario. Se puede ver que en una cadena absorbente,
cadenas de Markov se utilizan para analizar el todos los estados que no son absorbentes son transitorios.
rendimiento y la congestión de la red. La
clasificación de los estados ayuda a evaluar la 6.2 Aplicación
probabilidad de que un nodo o enlace de red
esté ocupado o libre. Supongamos el caso de la ruina del jugador. Este juega a
un juego que tiene probabilidad 1/2 de ganar un dólar y
Biología y genética (Biology and Genetics): Las probabilidad 1/2 de perderlo. Parará cuando se quede sin
cadenas de Markov se utilizan para modelar dinero o cuando alcance 4 dólares. La matriz de
procesos biológicos, como la evolución de transición es:
especies, la propagación de enfermedades y la
dinámica de poblaciones. La clasificación de Desde cualquiera de los estados 1, 2 y 3 es posible
estados permite analizar cómo diferentes alcanzar en un número finito de pasos los estados
estados representan diferentes condiciones absorbentes 0 y 4. Por tanto, la cadena es absorbente. Los
biológicas o genéticas. estados 1, 2 y 3 son transitorios. 11.2. ABSORBING

Análisis de juegos y estrategias (Game Theory): 7. CONCLUSIONES (Todos, mínimo una cada
En teoría de juegos, las cadenas de Markov se uno)
utilizan para modelar y analizar la dinámica de
juegos estratégicos. La clasificación de estados La clasificación de los estados en cadenas de Markov es
ayuda a evaluar las estrategias de los jugadores esencial para entender el comportamiento y las
y predecir resultados. propiedades de la cadena. Esto facilita la toma de
decisiones informadas y la optimización de sistemas en
una variedad de campos, desde la industria y la biología
hasta las finanzas y las redes de comunicación.

7
Revista EJE – Engineering Journal ECCI ISSN XXXX-XXXX, Vol. X, Número X, páginas XX-XX, 20XX

La clasificación de estados en cadenas de Markov es una


herramienta poderosa para el análisis de sistemas y
procesos estocásticos en una variedad de campos.
Proporciona información crítica que impulsa la toma de
decisiones, la optimización y la comprensión de la
dinámica de sistemas complejos. La adecuada
clasificación de estados es esencial para utilizar
eficazmente las cadenas de Markov como modelos y
herramientas de análisis.

8. REFERENCIAS BIBLIOGRÁFICAS
(Todos, mínimo una cada uno, cada referencia debe
estar citada en el contenido del trabajo, como el
ejemplo, ver introducción)

[1] Medium. Aprendizaje por Refuerzo: Procesos de


Decisión de Markov — Parte 1.
https://es.wikipedia.org/wiki/Cadena_de_M
%C3%A1rkov [Último acceso: 11.11.2023].

[2] Wikipedia. Cadena de Márkov.


https://es.wikipedia.org/wiki/Cadena_de_M
%C3%A1rkov [Último acceso: 11.11.2023].

[3] Universidad de antofagasta. Clasificación estados de


Márkov.
https://intranetua.uantof.cl/facultades/csbasicas/Matemati
cas/academicos/emartinez/magister/markov/estados/
estados.html [Último acceso: 13.11.2023].

[4] Scielo. Aplicación cadenas de Márkov.


https://www.scielo.sa.cr/pdf/tem/v29n1/0379-3982-tem-
29-01-74.pdf [Último acceso: 13.11.2023].

También podría gustarte