Explora Libros electrónicos
Categorías
Explora Audiolibros
Categorías
Explora Revistas
Categorías
Explora Documentos
Categorías
En los últimos años el buscador de google es el más utilizado por las personas, es
por este motivo que a la hora de optimizar los costos es buena idea implementar algo-
ritmos para tomar una mejor decisión.
Para esto en este trabajo se evaluará diferentes algoritmos y se optara por cual es el
que mejor resultados nos ofrece.
La hipótesis planteada en este trabajo es que los algoritmos que emplean la proba-
bilidad estadística como recursos son mucho mejores a aquellos que no lo hacen.
.
Las ofertas de costo por clic (CPC) significan que la persona que va a anunciar pa-
ga por cada clic en sus anuncios. Para las campañas de oferta de CPC, se establece
una oferta de costo por clic máximo, o simplemente "CPC máximo", que es la canti-
dad máxima que uno está dispuesto a pagar por un clic en su anuncio.
Existe una métrica conocida como CTR que refleja esta relación entre clicks e im-
presiones y es utilizada para medir el desempeño de la campaña. En este sentido, se
debe maximizar el CTR para lograr optimizar una campaña; de no lograrlo, la campa-
ña tendrá un retorno de inversión no rentable ya que la razón financiera que compara
la utilidad obtenida en relación a la inversión no dará los resultados esperados.
Este algoritmo fue planteado en 1952 por Robbins, que también es muy conocido
por como el problema del bandido de N o K brazos.
El problema plantea una situación en la que se encuentra un jugador frente a una fi-
la de K tragamonedas (bandidos de un solo brazo) y debe decidir con qué máquinas
jugará y en qué orden lo hará. Solo puede jugar con una máquina en cada tiempo t,
cuando juega cada una devolverá una recompensa aleatoria derivada de la distribución
de probabilidad específica de cada máquina. El objetivo del jugador será maximizar la
suma de las recompensas obtenidas luego de finalizar su secuencia de juego en las
máquinas.
Cada una de las maquinas posee una probabilidad que el jugador las desconoce.
Por este motivo deberá ir probando y aprendiendo en diferentes iteraciones para des-
cubrir cuáles son las máquinas que ofrecen mejores recompensas. Dado esta situación
se puede dar el caso de que una máquina no optima ofrezca mayor recompensa al ju-
gador, haciéndole creer que es la mejor. De esta manera el jugador jugará con esa
máquina y no tendrá la oportunidad de encontrar otra con mejores resultados. Del
mismo modo puede ocurrir el caso de la máquina más óptima ofrezca menores resul-
tados, haciéndole creer al apostador que no debe jugar en esa máquina.
La figura 1 plantea un algoritmo para el problema del bandido multibrazo que para
cada tiempo t se seleccionará una acción (o brazo de un bandido) que tendrá asociada
una recompensa 𝑋1,𝑡 … , 𝑋𝐾,𝑡 El jugador jugará T veces con una fila de K máquinas o
bandidos.
En estos problemas las recompensas son generadas en base a una función de pro-
babilidad. Cada brazo 𝑖 ∈ {1 … 𝐾}, tiene una función de distribución 𝑣𝑖 de Bernoulli
por lo tanto acotada en [0,1] con una esperanza 𝜇𝑖 . Por otro lado, las recompensas de
un brazo con respecto al tiempo 𝑋𝑖,𝑡 ~ 𝑣𝑖 son independientes e idénticamente distribui-
das. Es decir, la recompensa dada por el brazo i en el tiempo t no depende de las re-
compensas anteriores dadas por el mismo brazo.
En la figura 2 se observa el algoritmo generalizado estocástico de un bandido mul-
tibrazo con K brazos y un horizonte T de tiempo o veces que se juega.
Este algoritmo fue creado por Davidson-Pilson con la suposición de que se tienen
K máquinas o brazos de los cuales tienen por recompensa solo dos valores posibles:
Cero si el jugador ha perdido y Uno si el jugador gana. Por esto, las máquinas tienen
una distribución de Bernuilli con probabilidad p desconocida.