Optimización del problema de la secretaria mediante PDM

UNIVERSIDAD JUÁREZ AUTÓNOMA DE
TABASCO
DIVISIÓN ACADÉMICA DE CIENCIAS BÁSICAS
EL PROBLEMA DE LA
SECRETARIA EN PROCESOS
DE DECISIÓN DE MARKOV
PROTOCOLO DE TESIS
QUE PARA OBTENER EL GRADO DE:
MAESTRO EN CIENCIAS EN MATEMÁTICAS

APLICADAS
PRESENTA:
CARMELO HERNANDEZ MARTINEZ
DIRECTOR:
DR. HELIODORO DANIEL CRUZ SUÁREZ
2
Capı́tulo 1
INTRODUCCIÓN
El tomar una decisión es algo que no se debe hacer con poca informa-
ción, ya que si bien, las consecuencias pueden ser buenas, también pueden
ser catastróficas. Debido a esto, durante las últimas cuatro décadas se ha
desarrollado, en la investigación aplicada y en la teorı́a sobre los Procesos
de Decisión Estocástico, o Procesos de Decisión de Markov (PDMs), un
gran avance enfocado a la toma de decisiones de manera óptima, además
estos procesos son aplicables en la solución de problemas de optimización
en distintas áreas del conocimiento tales como: la ecologı́a, la economı́a y
la ingenierı́a de comunicaciones, entre otros.
Los PDMs dependen de una polı́tica, que es una sucesión de acciones a
tomar en cada etapa. Para evaluar la calidad de una polı́tica se cuenta con
cierto criterio de rendimiento predeterminado en términos de un costo o
una recompensa por cada periodo. Ası́, el problema principal de los PDMs
(llamado el Problema de Control Óptimo), consiste en encontrar en el con-
junto de todas las polı́ticas, el cual se denota por Π, una que optimice tal
rendimiento; a dicha polı́tica se le conoce como polı́tica óptima.
Durante el transcurso de este proyecto analizaremos la optimización del
problema de la secretaria, en particular la venta de un bien (ver [4]).
El problema de la secretaria consiste en maximizar la probabilidad de ofer-
tar un empleo al mejor candidato. Tales candidatos son entrevistados se-
cuencialmente y al término de la entrevista se decide, si se le ofrece o no el
3
empleo al candidato presente; la venta de un bien se basa en maximizar la
probabilidad de aceptar la oferta más alta, recibiendo clientes potenciales
secuencialmente y decidir si se acepta o no la oferta del cliente presente.
Tales problemas se formularán como un proceso de decisión de Markov con
la finalidad de saber bajo qué conceptos es posible tener polı́ticas óptimas,
determinar cómo reconocer estas polı́ticas y calcular una polı́tica óptima
eficiente.
4
Capı́tulo 2
ANTECEDENTES
El problema de la secretaria es uno de los problemas clásicos de pro-

gramación dinámica, propuesto por primera vez por Cayley (1875), bajo el
contexto de encontrar una polı́tica óptima para jugar a la loterı́a. A pesar
del nombre, es un modelo muy general que ha sido abordado y resuelto de
múltiples maneras como por ejemplo en [7],[8] y [9]; sin embargo, el enfoque
que se será el de los PDMs.
En los PDMs, las decisiones son tomadas en las épocas de decisión, que
son puntos especı́ficos en el tiempo, en cada época de decisión el sistema
ocupa un estado. Denotamos al conjunto de estados posibles del sistema
por X. Si en cierta época se observa el sistema en el estado x ∈ X, se
puede elegir la acción a del sistema de acciones
S permitidas en el estado x,
denotado por A(x). Consideremos A = x∈X A(x). Notemos que tanto X
como A(x) no dependen del tiempo, tales conjuntos pueden ser:
Conjuntos finitos arbitrarios.
Conjuntos infinitos numerables arbitrarios.
Subconjuntos compactos de un espacio euclidiano de dimensión finita.
Subconjuntos de Borel no vacı́os de espacios métricos separables y

completos.
5
Dado un espacio de Borel X, es decir, un subconjunto de Borel de un espa-
cio métrico separable y completo, denotemos su σ-álgebra por B(X). Sean
X y Y dos espacios de Borel. Un kernel estocástico Q(·|·), sobre X dado Y ,
es una función tal que Q(·|y) es una medida de probabilidad sobre X para
cada y ∈ Y fijo y Q(B|·) función medible sobre Y para cada B ∈ B(X) fijo
(ver [2]).
6
Capı́tulo 3
EL MODELO DE DECISIÓN DE MARKOV
Nos referimos a la colección de objetos
{X, A, {A(x) : x ∈ X}, Q, r}
como un modelo de decisión de Markov, donde X es el conjunto de estados;

A el conjunto de controles; {A(x) : x ∈ A} es una familia de subconjuntos
no vacı́os de A, con A(x) el conjunto de controles permitidos cuando el
sistema se encuentra en el estado x; Q la ley de transición y r la función
de recompensa.También, supondremos que A(x) es medible, Q es un kernel
estocástico sobre X dado (x, a) ∈ X×A y r es una función medible. Además,
para cada t = 0, 1, 2, ..., Q(B|x, a) = P (Xt+1 ∈ B|Xt = x, Yt = a) donde
x ∈ X, B ∈ B(X) y {Xt }∞ ∞
t=0 y {at }t=0 representan la sucesiones de estados
y de controles, respectivamente.
7
8
Capı́tulo 4
POLÍTICAS
Considérese un modelo de decisión de Markov: (X, A, {A(x) : x ∈

X}, Q, r) fijo. Denotemos por F el conjunto de selectores medibles, es decir,
F = {f : X → A| f es medible y f (x) ∈ A(x) ∀x}.
Una polı́tica markoviana se define como una sucesión π = {ft }∞ t=0 tal que
ft ∈ F ∀t. Si ft = f ∀t con f ∈ F, se dice que π es una polı́tica estacionaria.
Por convención, identificaremos a ΠS como el conjunto de polı́ticas esta-
cionarias. En la teorı́a de PDMs es usual considerar la clase Π de polı́ticas
aleatorizadas que dependen , en cada tiempo t, de la historia del proceso.
En este trabajo no desarrollaremos el concepto de tal polı́tica, sin embargo
tomaremos Π como la clase más grande de polı́ticas.
9
10
Capı́tulo 5
CRITERIO DE RENDIMIENTO
Para cualquier polı́tica π ∈ Π y estado inicial x ∈ X, definimos

N
hX i
π
V (π, x) = Ex=x 0
αt c(xt , at ) con N 6 ∞
t=0
como el costo α-descontado total esperado, α ∈ (0, 1) se llama el factor de

descuento y Ex=xπ denota la esperanza respecto a la medida de probabilidad
0
π
Px=x0 inducida por x ∈ X y π ∈ Π.
La función V ∗ (x) = minπ∈Π V (π, x) para x ∈ X, se define como la
f unción de valores óptimos. Ası́, una polı́tica π ∗ ∈ Π, se dice que es óptima
si
V ∗ (x) = V (π ∗ , x) ∀x ∈ X. (5.1)
Entonces, el problema básico de los PDMs, conocido como el problema
de control óptimo consiste en determinar π ∗ que satisface (1)(ver [2]).
11
12
Capı́tulo 6
PLANTEAMIENTO DEL PROBLEMA
6.1. Problema de la Secretaria

Este modelo debe su nombre al caso particular que se describe a con-
tinuación. Un gerente intenta dar empleo a un individuo para llenar una
vacante de secretaria, hay N candidatos para el trabajo, con N fijo y co-
nocido por el empleador, los candidatos son entrevistados secuencialmente.
Una vez terminada cada entrevista, el gerente decide si ofrecer el trabajo
al candidato presente o continuar buscando, suponemos que si el empleo
no se le ofrece a tal candidato, éste inmediatamente busca trabajo en otro
sitio y no pasará mucho tiempo en recibir una oferta, ası́, si se quiere re-
currir de nueva cuenta a él, éste ya no estará disponible. En caso de que
se decida ofrecer el puesto al candidato presente el sistema para; en el otro
caso, si se decide continuar, se generará un costo. El objetivo que se busca
es maximizar la probabilidad de ofertar el empleo al mejor candidato. Este
problema se formulará como un proceso de decisión de Markov, es decir, se
buscará una polı́tica que implemente un paro en el mejor candidato.
6.1.1. Venta de un bien

Una persona necesita vender un bien, lo valúa en cierta cantidad, sin
embargo, poco tiempo después recibe una oferta, ahora se enfrenta al dilema
de aceptar la oferta presente o esperar otra, en caso de no aceptar la oferta
13
incurre en un costo, y el sistema avanza a un nuevo estado, en caso contrario
obtiene una recompensa y el sistema se detiene. Estamos bajo el supuesto
de que una vez rechazada la oferta actual no se puede recurrir de nuevo
a ella en un futuro. Analizar este problema como un modelo de decisión
de Markov requiere encontrar una polı́tica, la cual indique el momento de
parar y que además maximice la recompensa.
14
Capı́tulo 7
OBJETIVOS
Objetivo General
Analizar la teorı́a de PDMs para resolver el problema de la secretaria
e implementarlo en la venta de un bien.
Objetivos Particulares
Estudiar y aplicar técnicas derivadas de la teorı́a de probabilidad.
Implementar métodos de la teorı́a de procesos estocásticos en el pro-

blema planteado.
Estudiar con un nivel avanzado la teorı́a de control y juegos estocásti-

cos.
Utilizar la teorı́a de procesos de decisión de Markov para observar

bajo qué conceptos y suposiciones se pueden tener polı́ticas óptimas.
Estudiar las aplicaciones de tales procesos.
15
16
Capı́tulo 8
METODOLOGÍA
Para proponer la solución de los problemas antes descritos, el procedi-

miento a seguir será :
1. Estudiar
la teorı́a de las cadenas de Markov.

la teorı́a de la probabilidad y procesos estocásticos (ver [6]).
los procesos de decisión de Markov (ver [2],[3],[5]).
artı́culos relacionados al tema del proyecto (ver [1]).
2. Resolver por lo menos el problema de la secretaria (ver [4]).
Esta metodologı́a es parte inicial del proyecto.
17
18
Capı́tulo 9
CRONOGRAMA DE
ACTIVIDADES
Este proyecto está planteado para iniciar en Enero de 2018 y concluir

en Septiembre de 2019, distribuidos de la siguiente manera:
19
Cursar Teorı́a de probabilidad y Estadı́sti- Enero-Junio (2018)
ca matemática.
Análisis del caso discreto de horizonte fi- Enero-Mayo(2018)
nito.
Análisis del caso discreto de horizonte in- Junio-Agosto(2018)
finito.
Análisis del caso continuo. Julio-Diciembre(2018)
Cursar Procesos estocásticos y Optimiza- Julio- Diciembre (2018)
ción.
Cursar Control estocástico y Cálculo es- Enero-Junio (2019)
tocástico.
Solución a los problemas planteados. Enero-Junio(2019)
Redacción final de tesis. Enero-Junio (2019)
Redacción y sometimiento de un artı́culo. Junio-Agosto (2019)
Presentación de tesis y obtención del Agosto-Septiembre (2019)
grado.
20
Bibliografı́a
[1] Feinberg E. A., Shwartz A., Handbook of Markov Decision Processes:

Methods and Applications, International Series in Operations Research
and Managenment Science, Kluwer, (2001).
[2] Hernández-Lerma O., Discrete-Time Markov Control Processes,

Springer-Velarg, NY, (1996).
[3] Lieberman G. J., Hillier F. S., Introducción a la Investigación de Ope-

raciones, McGrawHill, (1997).
[4] Puterman; M. L., Markov Decision Processes, Wiley, (2005).
[5] Ross, S. M., Introduction to Stochastic Dynamic Programming, Aca-

demic Press, NY, (1983).
[6] Sennot L. I., Stochastic Dynamic Programming and the Control of

Queing Systems, Wiley, (1999).
[7] Chakraborty A., The Secretary Problem; Optimal Stopping, Resonan-

ce, 1, 41-50 (1996).
[8] Beckmann M.J., Dynamic Programming and the Secretary Problem,

Computers Math. Applic. 11, 25-28 (1990).
[9] Gianni J., The Infinite Secretary Problem as the Limit of the Finite
Problem, The Annals of Probability, 4, 636-644 (1977).
21

Optimización del problema de la secretaria mediante PDM

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Optimización del problema de la secretaria mediante PDM

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD JUÁREZ AUTÓNOMA DE

DIVISIÓN ACADÉMICA DE CIENCIAS BÁSICAS

MAESTRO EN CIENCIAS EN MATEMÁTICAS

El problema de la secretaria es uno de los problemas clásicos de pro-

Conjuntos finitos arbitrarios.

Conjuntos infinitos numerables arbitrarios.

Subconjuntos compactos de un espacio euclidiano de dimensión finita.

Subconjuntos de Borel no vacı́os de espacios métricos separables y

Nos referimos a la colección de objetos

{X, A, {A(x) : x ∈ X}, Q, r}

como un modelo de decisión de Markov, donde X es el conjunto de estados;

Considérese un modelo de decisión de Markov: (X, A, {A(x) : x ∈

F = {f : X → A| f es medible y f (x) ∈ A(x) ∀x}.

Para cualquier polı́tica π ∈ Π y estado inicial x ∈ X, definimos

como el costo α-descontado total esperado, α ∈ (0, 1) se llama el factor de

6.1. Problema de la Secretaria

6.1.1. Venta de un bien

Implementar métodos de la teorı́a de procesos estocásticos en el pro-

Estudiar con un nivel avanzado la teorı́a de control y juegos estocásti-

Utilizar la teorı́a de procesos de decisión de Markov para observar

Estudiar las aplicaciones de tales procesos.

Para proponer la solución de los problemas antes descritos, el procedi-

la teorı́a de las cadenas de Markov.

2. Resolver por lo menos el problema de la secretaria (ver [4]).

Esta metodologı́a es parte inicial del proyecto.

Este proyecto está planteado para iniciar en Enero de 2018 y concluir

[1] Feinberg E. A., Shwartz A., Handbook of Markov Decision Processes:

[2] Hernández-Lerma O., Discrete-Time Markov Control Processes,

[3] Lieberman G. J., Hillier F. S., Introducción a la Investigación de Ope-

[4] Puterman; M. L., Markov Decision Processes, Wiley, (2005).

[5] Ross, S. M., Introduction to Stochastic Dynamic Programming, Aca-

[6] Sennot L. I., Stochastic Dynamic Programming and the Control of

[7] Chakraborty A., The Secretary Problem; Optimal Stopping, Resonan-

[8] Beckmann M.J., Dynamic Programming and the Secretary Problem,

También podría gustarte