Está en la página 1de 8

Publicidad en la web

Jonathan Matias Gomez (Matrícula 66299)


Resumen.
Hoy en día internet cambio mucho nuestras vidas y en ello el modo en cómo se
desarrolla el mercado en este. Cuando nos encontramos navegando en la web, nos
topamos con muchas publicidades. Pero para que cada persona u organismo logre una
buena campaña publicitaria de su negocio debe anunciar por medio de internet, así
lograra obtener buenos resultados en sus ventas.
.
1 Introducción

En los últimos años el buscador de google es el más utilizado por las personas, es
por este motivo que a la hora de optimizar los costos es buena idea implementar algo-
ritmos para tomar una mejor decisión.
Para esto en este trabajo se evaluará diferentes algoritmos y se optara por cual es el
que mejor resultados nos ofrece.
La hipótesis planteada en este trabajo es que los algoritmos que emplean la proba-
bilidad estadística como recursos son mucho mejores a aquellos que no lo hacen.
.

1.1 Costos de publicidad por la web

Las ofertas de costo por clic (CPC) significan que la persona que va a anunciar pa-
ga por cada clic en sus anuncios. Para las campañas de oferta de CPC, se establece
una oferta de costo por clic máximo, o simplemente "CPC máximo", que es la canti-
dad máxima que uno está dispuesto a pagar por un clic en su anuncio.
Existe una métrica conocida como CTR que refleja esta relación entre clicks e im-
presiones y es utilizada para medir el desempeño de la campaña. En este sentido, se
debe maximizar el CTR para lograr optimizar una campaña; de no lograrlo, la campa-
ña tendrá un retorno de inversión no rentable ya que la razón financiera que compara
la utilidad obtenida en relación a la inversión no dará los resultados esperados.

1.2 Problema del bandido multibrazo

Este algoritmo fue planteado en 1952 por Robbins, que también es muy conocido
por como el problema del bandido de N o K brazos.
El problema plantea una situación en la que se encuentra un jugador frente a una fi-
la de K tragamonedas (bandidos de un solo brazo) y debe decidir con qué máquinas
jugará y en qué orden lo hará. Solo puede jugar con una máquina en cada tiempo t,
cuando juega cada una devolverá una recompensa aleatoria derivada de la distribución
de probabilidad específica de cada máquina. El objetivo del jugador será maximizar la
suma de las recompensas obtenidas luego de finalizar su secuencia de juego en las
máquinas.
Cada una de las maquinas posee una probabilidad que el jugador las desconoce.
Por este motivo deberá ir probando y aprendiendo en diferentes iteraciones para des-
cubrir cuáles son las máquinas que ofrecen mejores recompensas. Dado esta situación
se puede dar el caso de que una máquina no optima ofrezca mayor recompensa al ju-
gador, haciéndole creer que es la mejor. De esta manera el jugador jugará con esa
máquina y no tendrá la oportunidad de encontrar otra con mejores resultados. Del
mismo modo puede ocurrir el caso de la máquina más óptima ofrezca menores resul-
tados, haciéndole creer al apostador que no debe jugar en esa máquina.
La figura 1 plantea un algoritmo para el problema del bandido multibrazo que para
cada tiempo t se seleccionará una acción (o brazo de un bandido) que tendrá asociada
una recompensa 𝑋1,𝑡 … , 𝑋𝐾,𝑡 El jugador jugará T veces con una fila de K máquinas o
bandidos.

Fig. 1. Algoritmo del problema del bandido multibrazo.


Es necesario trabajar con métricas que permitan medir el desempeño del algoritmo
e inclusive que permitan comprar diferentes estrategias de selección de brazos. Una
forma directa para lograr este objetivo es observar la ganancia total que será la suma-
toria de las ganancias obtenidas en cada tiempo t, cuanto mayor sea la ganancia total
obtenida por una estrategia, esta resultará tanto mejor que otra.

1.3 Bandidos estocásticos

En estos problemas las recompensas son generadas en base a una función de pro-
babilidad. Cada brazo 𝑖 ∈ {1 … 𝐾}, tiene una función de distribución 𝑣𝑖 de Bernoulli
por lo tanto acotada en [0,1] con una esperanza 𝜇𝑖 . Por otro lado, las recompensas de
un brazo con respecto al tiempo 𝑋𝑖,𝑡 ~ 𝑣𝑖 son independientes e idénticamente distribui-
das. Es decir, la recompensa dada por el brazo i en el tiempo t no depende de las re-
compensas anteriores dadas por el mismo brazo.
En la figura 2 se observa el algoritmo generalizado estocástico de un bandido mul-
tibrazo con K brazos y un horizonte T de tiempo o veces que se juega.

Fig. 2. Algoritmo generalizado de bandido multibrazo estocástico.

1.4 Bandido bayesiano

Este algoritmo fue creado por Davidson-Pilson con la suposición de que se tienen
K máquinas o brazos de los cuales tienen por recompensa solo dos valores posibles:
Cero si el jugador ha perdido y Uno si el jugador gana. Por esto, las máquinas tienen
una distribución de Bernuilli con probabilidad p desconocida.

Cada brazo i es elegido n número N de veces, las recompensas son independientes


a las anteriores y siguen una distribución de Bernuilli con probabilidad 𝑝𝑖 entonces la
suma de esas N recompensas de cada brazo i sigue una distribución Binomial de la
siguiente forma
Luego, utilizando la función de la Binomial como una función de p se construye la
función de distribución a priori para luego aplicarse el Teorema de Bayes 𝑓(𝑝) ∝ 𝑝 𝑎
(1 − 𝑝) 𝑏 donde p es elevado al número de ganancias a multiplicado por 1-p elevado al
número de perdidas b. Posteriormente, utilizando la función Beta de Euler y nueva-
mente el teorema de Bayes, se obtienen las probabilidades a priori y posteriori de la
siguiente forma.

En la figura 3 se observa el algoritmo del bandido multibrazo Bayesiano utilizando


las fórmulas anteriores.

Fig. 2. Algoritmo de bandido multibrazo bayesiano.


2 Comparación entre algoritmos
El análisis de complejidad de cada algoritmo es de orden lineal O(n). Todos los al-
goritmos presentados funcionan en base a una variable t de tiempo y K que representa
los brazos.
Como se puede observar el algoritmo bandido multibrazo bayesiano es el que me-
jor respuesta tiene frente a los demás.
.
Bibliografía

1. Á. G. Juliá, «Introducción al aprendizaje por refuerzo: Problema Bandido Multibrazo,» Ma-


drid, España, 2016

2. H. M. Nudelman, «Optimización de campañas publicitarias on – line mediante algoritmos de


aprendizaje por refuerzo» Misiones, Argentina, 2018

También podría gustarte