Está en la página 1de 21

UNIVERSIDAD JUÁREZ AUTÓNOMA DE

TABASCO

DIVISIÓN ACADÉMICA DE CIENCIAS BÁSICAS

EL PROBLEMA DE LA
SECRETARIA EN PROCESOS
DE DECISIÓN DE MARKOV

PROTOCOLO DE TESIS
QUE PARA OBTENER EL GRADO DE:

MAESTRO EN CIENCIAS EN MATEMÁTICAS


APLICADAS

PRESENTA:
CARMELO HERNANDEZ MARTINEZ

DIRECTOR:
DR. HELIODORO DANIEL CRUZ SUÁREZ
2
Capı́tulo 1

INTRODUCCIÓN

El tomar una decisión es algo que no se debe hacer con poca informa-
ción, ya que si bien, las consecuencias pueden ser buenas, también pueden
ser catastróficas. Debido a esto, durante las últimas cuatro décadas se ha
desarrollado, en la investigación aplicada y en la teorı́a sobre los Procesos
de Decisión Estocástico, o Procesos de Decisión de Markov (PDMs), un
gran avance enfocado a la toma de decisiones de manera óptima, además
estos procesos son aplicables en la solución de problemas de optimización
en distintas áreas del conocimiento tales como: la ecologı́a, la economı́a y
la ingenierı́a de comunicaciones, entre otros.
Los PDMs dependen de una polı́tica, que es una sucesión de acciones a
tomar en cada etapa. Para evaluar la calidad de una polı́tica se cuenta con
cierto criterio de rendimiento predeterminado en términos de un costo o
una recompensa por cada periodo. Ası́, el problema principal de los PDMs
(llamado el Problema de Control Óptimo), consiste en encontrar en el con-
junto de todas las polı́ticas, el cual se denota por Π, una que optimice tal
rendimiento; a dicha polı́tica se le conoce como polı́tica óptima.
Durante el transcurso de este proyecto analizaremos la optimización del
problema de la secretaria, en particular la venta de un bien (ver [4]).
El problema de la secretaria consiste en maximizar la probabilidad de ofer-
tar un empleo al mejor candidato. Tales candidatos son entrevistados se-
cuencialmente y al término de la entrevista se decide, si se le ofrece o no el

3
empleo al candidato presente; la venta de un bien se basa en maximizar la
probabilidad de aceptar la oferta más alta, recibiendo clientes potenciales
secuencialmente y decidir si se acepta o no la oferta del cliente presente.
Tales problemas se formularán como un proceso de decisión de Markov con
la finalidad de saber bajo qué conceptos es posible tener polı́ticas óptimas,
determinar cómo reconocer estas polı́ticas y calcular una polı́tica óptima
eficiente.

4
Capı́tulo 2
ANTECEDENTES

El problema de la secretaria es uno de los problemas clásicos de pro-


gramación dinámica, propuesto por primera vez por Cayley (1875), bajo el
contexto de encontrar una polı́tica óptima para jugar a la loterı́a. A pesar
del nombre, es un modelo muy general que ha sido abordado y resuelto de
múltiples maneras como por ejemplo en [7],[8] y [9]; sin embargo, el enfoque
que se será el de los PDMs.
En los PDMs, las decisiones son tomadas en las épocas de decisión, que
son puntos especı́ficos en el tiempo, en cada época de decisión el sistema
ocupa un estado. Denotamos al conjunto de estados posibles del sistema
por X. Si en cierta época se observa el sistema en el estado x ∈ X, se
puede elegir la acción a del sistema de acciones
S permitidas en el estado x,
denotado por A(x). Consideremos A = x∈X A(x). Notemos que tanto X
como A(x) no dependen del tiempo, tales conjuntos pueden ser:

Conjuntos finitos arbitrarios.

Conjuntos infinitos numerables arbitrarios.

Subconjuntos compactos de un espacio euclidiano de dimensión finita.

Subconjuntos de Borel no vacı́os de espacios métricos separables y


completos.

5
Dado un espacio de Borel X, es decir, un subconjunto de Borel de un espa-
cio métrico separable y completo, denotemos su σ-álgebra por B(X). Sean
X y Y dos espacios de Borel. Un kernel estocástico Q(·|·), sobre X dado Y ,
es una función tal que Q(·|y) es una medida de probabilidad sobre X para
cada y ∈ Y fijo y Q(B|·) función medible sobre Y para cada B ∈ B(X) fijo
(ver [2]).

6
Capı́tulo 3
EL MODELO DE DECISIÓN DE MARKOV

Nos referimos a la colección de objetos

{X, A, {A(x) : x ∈ X}, Q, r}

como un modelo de decisión de Markov, donde X es el conjunto de estados;


A el conjunto de controles; {A(x) : x ∈ A} es una familia de subconjuntos
no vacı́os de A, con A(x) el conjunto de controles permitidos cuando el
sistema se encuentra en el estado x; Q la ley de transición y r la función
de recompensa.También, supondremos que A(x) es medible, Q es un kernel
estocástico sobre X dado (x, a) ∈ X×A y r es una función medible. Además,
para cada t = 0, 1, 2, ..., Q(B|x, a) = P (Xt+1 ∈ B|Xt = x, Yt = a) donde
x ∈ X, B ∈ B(X) y {Xt }∞ ∞
t=0 y {at }t=0 representan la sucesiones de estados
y de controles, respectivamente.

7
8
Capı́tulo 4
POLÍTICAS

Considérese un modelo de decisión de Markov: (X, A, {A(x) : x ∈


X}, Q, r) fijo. Denotemos por F el conjunto de selectores medibles, es decir,

F = {f : X → A| f es medible y f (x) ∈ A(x) ∀x}.

Una polı́tica markoviana se define como una sucesión π = {ft }∞ t=0 tal que
ft ∈ F ∀t. Si ft = f ∀t con f ∈ F, se dice que π es una polı́tica estacionaria.
Por convención, identificaremos a ΠS como el conjunto de polı́ticas esta-
cionarias. En la teorı́a de PDMs es usual considerar la clase Π de polı́ticas
aleatorizadas que dependen , en cada tiempo t, de la historia del proceso.
En este trabajo no desarrollaremos el concepto de tal polı́tica, sin embargo
tomaremos Π como la clase más grande de polı́ticas.

9
10
Capı́tulo 5
CRITERIO DE RENDIMIENTO

Para cualquier polı́tica π ∈ Π y estado inicial x ∈ X, definimos


N
hX i
π
V (π, x) = Ex=x 0
αt c(xt , at ) con N 6 ∞
t=0

como el costo α-descontado total esperado, α ∈ (0, 1) se llama el factor de


descuento y Ex=xπ denota la esperanza respecto a la medida de probabilidad
0
π
Px=x0 inducida por x ∈ X y π ∈ Π.
La función V ∗ (x) = minπ∈Π V (π, x) para x ∈ X, se define como la
f unción de valores óptimos. Ası́, una polı́tica π ∗ ∈ Π, se dice que es óptima
si
V ∗ (x) = V (π ∗ , x) ∀x ∈ X. (5.1)
Entonces, el problema básico de los PDMs, conocido como el problema
de control óptimo consiste en determinar π ∗ que satisface (1)(ver [2]).

11
12
Capı́tulo 6
PLANTEAMIENTO DEL PROBLEMA

6.1. Problema de la Secretaria


Este modelo debe su nombre al caso particular que se describe a con-
tinuación. Un gerente intenta dar empleo a un individuo para llenar una
vacante de secretaria, hay N candidatos para el trabajo, con N fijo y co-
nocido por el empleador, los candidatos son entrevistados secuencialmente.
Una vez terminada cada entrevista, el gerente decide si ofrecer el trabajo
al candidato presente o continuar buscando, suponemos que si el empleo
no se le ofrece a tal candidato, éste inmediatamente busca trabajo en otro
sitio y no pasará mucho tiempo en recibir una oferta, ası́, si se quiere re-
currir de nueva cuenta a él, éste ya no estará disponible. En caso de que
se decida ofrecer el puesto al candidato presente el sistema para; en el otro
caso, si se decide continuar, se generará un costo. El objetivo que se busca
es maximizar la probabilidad de ofertar el empleo al mejor candidato. Este
problema se formulará como un proceso de decisión de Markov, es decir, se
buscará una polı́tica que implemente un paro en el mejor candidato.

6.1.1. Venta de un bien


Una persona necesita vender un bien, lo valúa en cierta cantidad, sin
embargo, poco tiempo después recibe una oferta, ahora se enfrenta al dilema
de aceptar la oferta presente o esperar otra, en caso de no aceptar la oferta

13
incurre en un costo, y el sistema avanza a un nuevo estado, en caso contrario
obtiene una recompensa y el sistema se detiene. Estamos bajo el supuesto
de que una vez rechazada la oferta actual no se puede recurrir de nuevo
a ella en un futuro. Analizar este problema como un modelo de decisión
de Markov requiere encontrar una polı́tica, la cual indique el momento de
parar y que además maximice la recompensa.

14
Capı́tulo 7

OBJETIVOS

Objetivo General
Analizar la teorı́a de PDMs para resolver el problema de la secretaria
e implementarlo en la venta de un bien.

Objetivos Particulares
Estudiar y aplicar técnicas derivadas de la teorı́a de probabilidad.

Implementar métodos de la teorı́a de procesos estocásticos en el pro-


blema planteado.

Estudiar con un nivel avanzado la teorı́a de control y juegos estocásti-


cos.

Utilizar la teorı́a de procesos de decisión de Markov para observar


bajo qué conceptos y suposiciones se pueden tener polı́ticas óptimas.

Estudiar las aplicaciones de tales procesos.

15
16
Capı́tulo 8

METODOLOGÍA

Para proponer la solución de los problemas antes descritos, el procedi-


miento a seguir será :

1. Estudiar

la teorı́a de las cadenas de Markov.


la teorı́a de la probabilidad y procesos estocásticos (ver [6]).
los procesos de decisión de Markov (ver [2],[3],[5]).
artı́culos relacionados al tema del proyecto (ver [1]).

2. Resolver por lo menos el problema de la secretaria (ver [4]).

Esta metodologı́a es parte inicial del proyecto.

17
18
Capı́tulo 9

CRONOGRAMA DE
ACTIVIDADES

Este proyecto está planteado para iniciar en Enero de 2018 y concluir


en Septiembre de 2019, distribuidos de la siguiente manera:

19
Cursar Teorı́a de probabilidad y Estadı́sti- Enero-Junio (2018)
ca matemática.
Análisis del caso discreto de horizonte fi- Enero-Mayo(2018)
nito.
Análisis del caso discreto de horizonte in- Junio-Agosto(2018)
finito.
Análisis del caso continuo. Julio-Diciembre(2018)
Cursar Procesos estocásticos y Optimiza- Julio- Diciembre (2018)
ción.
Cursar Control estocástico y Cálculo es- Enero-Junio (2019)
tocástico.
Solución a los problemas planteados. Enero-Junio(2019)
Redacción final de tesis. Enero-Junio (2019)
Redacción y sometimiento de un artı́culo. Junio-Agosto (2019)
Presentación de tesis y obtención del Agosto-Septiembre (2019)
grado.

20
Bibliografı́a

[1] Feinberg E. A., Shwartz A., Handbook of Markov Decision Processes:


Methods and Applications, International Series in Operations Research
and Managenment Science, Kluwer, (2001).

[2] Hernández-Lerma O., Discrete-Time Markov Control Processes,


Springer-Velarg, NY, (1996).

[3] Lieberman G. J., Hillier F. S., Introducción a la Investigación de Ope-


raciones, McGrawHill, (1997).

[4] Puterman; M. L., Markov Decision Processes, Wiley, (2005).

[5] Ross, S. M., Introduction to Stochastic Dynamic Programming, Aca-


demic Press, NY, (1983).

[6] Sennot L. I., Stochastic Dynamic Programming and the Control of


Queing Systems, Wiley, (1999).

[7] Chakraborty A., The Secretary Problem; Optimal Stopping, Resonan-


ce, 1, 41-50 (1996).

[8] Beckmann M.J., Dynamic Programming and the Secretary Problem,


Computers Math. Applic. 11, 25-28 (1990).

[9] Gianni J., The Infinite Secretary Problem as the Limit of the Finite
Problem, The Annals of Probability, 4, 636-644 (1977).

21

También podría gustarte