Caso Examen Innovacion

619 - S 13
15 D E O CT U B R E D E 2018
S T E F A N T H O M KE
D A NI E L A B E Y ER S D O R F E R
Booking.com
Nuestra empresa ha pensado mucho sobre cómo hacer que la reserva de hospedajes sea informativa e intuitiva
para los clientes. Nunca dejamos de mejorar las experiencias de los usuarios. Todo lo ponemos a prueba.
— Gillian Tans, CEO, Booking.com
Gillian Tans, Director General de Booking.com, y David Vismans, Director General de Productos,
dudaban sobre un experimento que uno de los gerentes de la empresa estaba por hacer con millones
de clientes. La prueba requería usar una nueva interfaz con el cliente que se parecía muy poco a la
página de inicio tan popular de la empresa, y que la había convertido en la mayor plataforma de
alojamiento y reservaciones en el mundo (consulte el Anexo 1). Era justo antes de Navidad, una de las
temporadas de viajes más solicitadas de la compañía. La interfaz web del experimento tenía un fondo
de color azul, un espacio de búsqueda sencillo en el centro, parecido al de Google, y opciones de reserva
que incluían alojamiento, vuelos y alquiler de automóviles. Ni Tans ni Vismans creían que dicho
experimento iba a mejorar la conversión de los clientes –visitantes a la página web que harían una
reserva– la cual era la métrica de desempeño más importante de la empresa. En todo caso, podría
generar una gran confusión y deserciones entre su base de clientes leales, ya que no reconocerían la
interfaz. Por más que Tans y Vismans estuvieran orgullosos del espíritu de la empresa que consistía en
“poner todo a prueba,” y que autorizaba a los empleados a lanzar experimentos sin la aprobación de
la gerencia, ahora ellos mismos se preguntaban si este experimento era demasiado arriesgado.
Booking.com (de aquí en adelante, Booking) había pasado de ser una pequeña y nueva empresa
holandesa a una de las compañías de viajes más grandes en línea, en el mundo entero. Ubicada en
Amsterdam, su casa matriz consistía de 10 edificios para sus empleados de más de 100 nacionalidades.
Su cultura de trabajo en equipo ponía énfasis en la autonomía y la potenciación; los nuevos reclutas se
seleccionaban por su modo de pensar experimental, el cual implicaba un pensamiento innovador, la
toma de decisiones rápida, el atrevimiento y la voluntad de compartir abiertamente los fracasos.
Booking se enorgullecía en conectar a los viajeros con la mayor selección de hoteles y hospedajes en el
mundo. Cada día, más de 1.5 millones de habitaciones por noche se reservaban en su plataforma y
Stefan Thomke y Daniela Beyersdorfer prepararon el presente caso, que recibió la aprobación para su publicación luego de que una persona
designada por la compañía lo revisara. El financiamiento para el desarrollo de este caso provino de Harvard Business School y no de la compañía.
Los casos de HBS se desarrollan exclusivamente para su utilización como base del análisis en clase y no como avales, fuentes de información básica,
ni ejemplos de gestión efectiva o inefectiva.
Copyright de la traducción © 2022, the President and Fellows of Harvard College. La versión traducida no puede digitalizarse, fotocopiarse ni
reproducirse de ninguna otra manera, ni publicarse o transmitirse sin permiso de Harvard Business School. Traducido en su totalidad con permiso
de Harvard Business School. La responsabilidad de la precisión de esta traducción corresponde al traductor, IPADE - Instituto Panamericano de
Alta Dirección de Empresa.
El caso original, titulado «Booking.com» (619015), Copyright © 2018, fue preparado por los autores para su utilización como base del análisis en
clase y no como aval, fuente de información básica, ni ejemplo del manejo efectivo de una situación administrativa. Todos los datos sobre industrias
y empresas se han camuflado.
La copia o publicación en internet constituye una violación de los derechos de autor. Permissions@hbsp.harvard.edu
<mailto:Permissions@hbsp.harvard.edu> o 001-617-783-7860.
619-S13 Booking.com
ofrecía más de 1.6 millones de propiedades en 227 países. Para cumplir con su misión y “habilitar a la
gente a vivir y sentir el mundo,” había invertido grandes cantidades en tecnología digital para
“eliminar la fricción en los viajes.” Booking era conocida por su enfoque incesante en el desarrollo de
productos centrado en los clientes a través de experimentos en línea, sobre todo las pruebas A/B, y por
la manera en como había democratizado la experimentación a lo largo de la organización. En un día
cualquiera, su personal corría mas de mil pruebas rigurosas en su página web, en los servidores, y en
las aplicaciones para optimizar las experiencias de los clientes. Con cuatrillones de permutaciones en
su página de inicio en vivo, los clientes que reservaban una habitación en su sitio eran todos parte del
ecosistema de experimentación de Booking.
La industria de viajes en internet

La industria turística en internet consistía principalmente en el comercio electrónico de viajes y los
sitios de reseñas. Los sitios de comercio electrónico de viajes permitían a los clientes adquirir los
productos relacionados con los viajes, tales como hoteles, vuelos y alquiler de autos, ya fuese
directamente a través de un sitio web de la empresa de viajes (por ejemplo, la aerolínea Lufthansa) o
mediante una agencia de viajes online que actuaba como intermediaria.1 Las agencias de viajes online
tenían acuerdos con hoteles y con otros proveedores de productos turísticos para adquirir parte de su
inventario, y luego dejaban que los clientes reservaran dichos productos en su página web o mediante
aplicaciones móviles. Las páginas web de reseñas de viajes, como TripAdvisor, permitían a los clientes
compartir su experiencia con los productos del viaje, por ejemplo, calificando una estancia en un hotel,
y con frecuencia generaba ingresos mediante la publicidad online. Los viajeros en todo el mundo
dependían cada vez más de los sitios de reseñas de viajes cuando reservaban.2
En 2017 las ventas globales de viajes online generaron $630.000 millones de dólares (un aumento de
115% comparado con 2016), y se esperaba que llegaran a $818.000 millones para el año 2020.3 Expedia
Inc., The Priceline Group (propietario de Booking),4 y Ctrip de China se habían convertido en los
mayores agentes de viajes en el mundo entero en reservas y ventas.5 TripAdvisor clasificó como el
número uno en cuanto a número de usuarios.6 Las cuatro compañías habían impulsado la
consolidación de las agencias de viajes online para expandir su participación de mercado y ya en ese
momento competían con los proveedores directos, como los hoteles.7 Las mismas agencias de viajes
online se veían desafiadas por las nuevas compañías que entraban al mercado, tales como el sitio
AirBnB, de pares, y Google, el gigante motor de búsqueda.8 Google había lanzado en 2011 una
herramienta, Hotel Finder, para encontrar hotel, la cual para 2016 se había convertido en un verdadero
servicio de búsqueda de hoteles. También había añadido un buscador de vuelos con vínculos a páginas
web de las aerolíneas, permitiendo a los viajeros comparar y reservar vuelos y hoteles sin tener que
pasar por una agencia de viajes online. Las agencias de viajes online, que dependían fuertemente de
Google para el tráfico de clientes, se defendieron aumentando su gasto en publicidad. Priceline y
Expedia gastaron más de $6 millones de dólares en 2016,9 y aumentaron sus gastos de publicidad en
2017. Ya en 2017, se esperaba que Google generara $14.000 millones en ingresos por su negocio de
viajes. Los analistas especulaban que Amazon podría estar entre las empresas que entrarían
eventualmente al sector turístico.10
Desarrollar a mayor escala

En noviembre 1996, Geert-Jan Bruinsma, recién egresado de la universidad, fundó Bookings.nl en
la ciudad de Amsterdam. Bruinsma estaba fascinado con el naciente Internet y las oportunidades que
brindaba para iniciar nuevos negocios. En 1997, lanzó la página web con 10 hoteles, permitiendo a los
clientes reservar habitaciones en línea. Al querer ser el número uno en cuanto a hoteles en Amsterdan,
2
Booking.com 619-S13
Bruinsma hizo un trato con los dos principales sitios de hoteles en Amsterdam (Channels.nl y
Amsterdan Hotel Guide), los cuales mostraban sus hoteles justo después de los suyos. Al principio,
muchos clientes llegaban de Estados Unidos puesto que el acceso a internet entre los europeos aún era
escaso. Se contrató un primer empleado en 1998.11 Vismans explicó cómo se benefició Booking del
crecimiento de Google: “El Internet creó muchas oportunidades. Las startups (las empresas que
arrancaban) eran como surfistas en las olas a la espera de la ola correcta, y aquellos con la mejor
ejecución lograron navegarla. Entre las oportunidades estaba el lanzamiento que hizo Google de
AdWords en el 2000, un verdadero punto de inflexión ya que revelaba la intención del cliente.
Cualquiera que busque un “hotel en Amsterdam es claramente un cliente potencial y no alguien que
quiere construir un hotel ahí.”
Bruinsma siguió trabajando sobre la página de inicio y aprendió sobre la optimización del motor de
búsqueda (SEO, por sus siglas en inglés). Y conforme Google siguió creciendo, Booking fue
aumentando su negocio también. Tans recuerda:
Cuando entré a Booking en 2002, mi familia pensó que estaba loco. La compañía aún era pequeña;
yo era el séptimo empleado. Teníamos tantas cosas que arreglar. Muchas empresas empiezan con un
lindo producto y lo comercializan en todo el mundo. Booking hizo lo opuesto. Teníamos un producto
básico y trabajamos mucho para que fuese lo que querían los clientes. Pero descifrar lo que quieren es
difícil. Muchas veces nos equivocamos. Por ejemplo, creíamos que querían ver videos de los hoteles y
después nos dimos cuenta que no los veían. O les creíamos cuando decían que el precio era el factor
decisorio y luego los veíamos actuar de otra manera. Al inicio de 2004, corríamos pruebas sencillas para
así aprender qué opciones preferían, al principio sólo unas cuantas veces al día sin gran tecnología que
nos respaldara, y luego desarrollábamos el producto según sus preferencias. Así fuimos creciendo, sin
comercialización o relaciones públicas, simplemente probando lo que le gustaba a nuestros clientes.
Vismans añadió: “Yo creo que Booking fue de las primeras en la industria turística a ser impulsada
por las pruebas y los datos. Y es porque aprendimos que la intuición se equivoca la mayor parte del
tiempo, sobre todo en línea donde no tenemos experiencia con el comportamiento del cliente y en
igualar la oferta y la demanda.”
En la opinión de Tans, el origen de la empresa en Holanda había sido provechoso. “Operamos sólo
en Holanda cuando comenzamos. Nuestro país es tan pequeño pero los holandeses viajan bastante al
extranjero. Para estar al tanto de la demanda, desarrollamos una plataforma internacional, mientras
que nuestra competencia en países más grandes se concentró en sus mercados locales.” Una de las
primera decisiones de expansión de Booking fue la decisión de abrir una oficina en Alemania. Vismans
explicó: “El sentido común sugería empezar en Berlín donde se esperaba que iría la mayoría de los
turistas holandeses. Pero decidimos verificar qué ciudad sale primero en las búsquedas de los clientes.
Resultó ser un pueblo llamado Winterberg, un paraíso del esquí para los holandeses. Así que seguimos
los datos y abrimos nuestra primera oficina ahí.” Para expandirse de manera eficiente, Booking se
enfocó en desarrollar un producto universal, pero sencillo. Vismans resumió los factores de éxito de la
compañía. “Crecer mediante facilitadores clave, desarrollar tu producto mediante la experimentación,
y seguir la demanda, junto con el conocimiento que esto genera para la gerencia, hizo que la empresa
se diera cuenta de que había dado con algo importante; que si lo ejecutaba muy bien, iba a colocarse en
una muy buena posición.”
Booking operó con un “modelo de agencia,” en el que los clientes reservaban habitaciones en su
página web y le pagaban directamente al hotel. Tans observó: “Con dicho modelo puedes crecer muy
rápido, no requieres de una infraestructura de pagos y los hoteles manejan el inventario. Y es lo que
prefieren los clientes europeos. No están acostumbrados a pagar de inmediato, quieren flexibilidad.”
Los principales ingresos de Booking provenían de las cuotas de comisión (15%, en promedio
3
619-S13 Booking.com
globalmente) por habitaciones no canceladas, que se cobraban una vez al mes enviando una lista de
sus reservas a los hoteles respectivos. A principios del 2000, la competencia, como Expedia ubicada en
Estados Unidos (lanzada en 1996), entró al mercado europeo pero le costó mucho trabajo. Los nuevos
participantes operaban con un “modelo de negocio,” en el que adquirían grupos de habitaciones de los
hoteles y cobraban los pagos en el momento de la reserva, y en consecuencia, a los clientes les era más
difícil cancelar. Tans dijo: “Nuestros competidores eran más bien como agencias de viajes, con vuelos
y otras opciones para las cuales el modelo de negocio tiene más sentido. Y sus márgenes y flujo de caja
se benefician de la cobranza inicial de dinero.”
Para 2005, Booking estaba en camino de convertirse en el líder europeo del mercado. Su éxito llamó
la atención de The Priceline Group, ubicado en Estados Unidos, el cual adquirió Booking por apenas
$133 millones en efectivo y dio a la gerencia el presupuesto y el mandato para crecer más.12 Más o
menos al mismo tiempo, Booking terminó de desarrollar una plataforma de experimentación que le
permitió asimismo aumentar el número de pruebas. Adrienne Enggist, Directora de Mensajes sobre
Productos, recordó: “Yo venía de negocios pequeños donde los Directores Generales lanzaban un
rediseño de un producto grande cada seis meses, y a la hora del lanzamiento, era difícil saber qué había
funcionado y qué no. Aquí el equipo era pequeño, cabía en un solo piso y era emocionante ver a todos
tomando riesgos, impulsando pequeños cambios muy rápidamente, y usando experimentos para
medir el impacto. La idea era de que entre más líneas de pesca tuvieses en el agua, más peces ibas a
pescar. Y aunque la gente no conocía tanto sobre la experimentación como hoy en día, era fácil hacer
las cosas.”
En los años siguientes Booking creció rápidamente en reservas e ingresos y se mantuvo enfocado
en el alojamiento. Tans observó: “Siempre tuvimos la convicción de que el hospedaje es la parte más
crítica en un viaje. Así que más vale que logres un buen proceso de reserva, y durante mucho tiempo
sentimos que había tanto por hacer. Muchos competidores se diversifican demasiado pronto. Pero en
ocasiones lo que no haces es igual de importante. Siempre pensamos que si teníamos un buen producto,
y desarrollábamos la máquina de ejecución más rápida, íbamos a ganar.” Conforme aumentó el
personal de Booking, la compañía también expandió su inventario global de hoteles. Para diferenciar
su experiencia de usuario, la empresa invirtió en una “Agencia de Contenido” para idiomas que podía
ir creciendo, primero utilizando traductores y luego, cada vez más, el machine learning, para mostrar
su contenido en un número mayor de idiomas. En 2014, el rápido crecimiento de experimentos
desencadenó un reacondicionamiento de su plataforma de pruebas y la estandarización de sus
métodos.
Para aumentar el inventario en su plataforma, Booking había desarrollado una red global de hoteles
y proveedores de alojamiento, los así llamados socios. Enggist explicó: “Somos una plataforma con dos
lados. Uno de nuestros retos interesantes es nuestra posición como la forma para que ambas partes se
conecten; para que un huésped encuentre al proveedor de hospitalidad, y para que nuestro socio
proveedor pueda mostrar lo que ofrece de manera óptima”. Desde el inicio, Booking le facilitó a los
nuevos socios el ser parte de la empresa y mostrar sus habitaciones mediante su extranet, aplicación, o
conexión de datos, en lugar de tener que pasar por negociaciones prolongadas y esperar a que las
agencias de viajes online colocaran habitaciones en el Internet. Los socios podían conectarse a la
plataforma y administrar su inventario, aumentando el número de cuartos que querían ofrecer, al
precio fijado por ellos. Para reclutar y apoyar a los socios, Booking contaba con 200 oficinas en todo el
mundo, con 4.000 ejecutivos de cuenta atendiendo a los clientes como embajadores locales, y apoyo de
ventas para los nuevos socios. Mientras que la mayoría de los nuevos participantes lo hacía a través de
un vínculo web automatizado, los grandes socios aún valoraban la interacción personal. Booking era
uno de varios canales de ventas para sus socios. El valor agregado de la empresa consistía en ofrecerle
a los hoteles una plataforma popular en la cual podían comercializar el exceso de inventario en el
4
Booking.com 619-S13
mundo entero. Booking también ayudaba a los dueños de propiedades a operar su negocio de manera
más eficiente mediante la analítica (la información sobre demanda, precios, estadística agregada de la
competencia, reseñas de los huéspedes, etc.). A diferencia de TripAdvisor, Booking tenía un sistema de
reseñas “cerrado,” en el cual sólo los huéspedes que se habían alojado en una propiedad podían emitir
una reseña. Las buenas calificaciones en reseñas ayudaban a que las propiedades tuviesen mejor lugar
en las clasificaciones de búsqueda de forma predeterminada, y las calificaciones de 8 o más les daban
la opción de tener acceso a un programa de socios preferencial.
En 2017, en respuesta a AirBnB y a otros competidores, Booking aumentó su oferta de “alojamiento

alternativo” a 1.2 millones de casas y apartamentos (53% más que en 2016).13 Asimismo, realizó pruebas
en múltiples mercados con “experiencias en el punto de destino,” tales como boletos para visitar las
atracciones turísticas.14 Para diciembre de 2017, las ofertas de Booking incluían más de 1.6 millones de
propiedades (hoteles, apartamentos, casas para vacacionar, bed & breakfasts, y otras) en 120.000
destinos. Su página web y la aplicación móvil estaban disponibles en 43 idiomas. Booking empleaba a
15.000 personas en 199 oficinas en 70 países. Una tercera parte de ellas, así como las funciones
corporativas, tenía su base en Amsterdam; el resto, en un pequeño centro técnico en Israel, en un centro
de productos y comercialización en Shanghái, y en centros de llamadas en todo el mundo.
Los resultados de fin de año de 2017 de The Priceline Group mostraron un crecimiento significativo
en todos los sectores. A través de sus seis marcas –Booking.com, Priceline.com, Kayak, Agoda.com,
Rentalcars.com y OpenTable– sus ingresos sumaron $12.7 mil millones (18% más que en 2016).
Observadores de la industria calcularon que entre 70% y 80% de esos ingresos los había generado
Booking por sí solo. Las reservas de viaje brutas de The Priceline Group habían sido de $81.2 mil
millones de dólares (19% más) y las utilidades brutas de $12.4 mil millones (21% más).15 En diciembre
de 2017, el capital de mercado de The Priceline Group se acercaba a los $80.000 millones de dólares.
Una vez más, los analistas atribuyeron la mayor parte de su éxito financiero a Booking. (Consulte los
Anexos 2 y 3 para las principales cifras y los datos financieros.)
Las pruebas A/B

El enfoque de la empresa en optimizar las experiencias de los clientes había permanecido igual
desde sus inicios. Vismans explicó: “Si quieres ser exitoso, tienes que brindar una gran experiencia al
cliente. Este debe ser tu único enfoque cuando estás desarrollando un producto. Cada vez que entran
en contacto con tu página web, tiene que ser más atractiva que la de la competencia, a fin de que
regresen.” Para conocer lo que a los clientes les pareció satisfactorio, sus desarrolladores
constantemente ponían ideas a prueba para mejorar la experiencia del cliente mediante experimentos
controlados en internet, junto con una investigación de calidad. Se aceptaba el fracaso como un
subproducto normal, siempre y cuando acelerara el proceso de mejora. El Propietario Senior de
Experimentación de Productos, Lukas Vermeer, observó: “Esto lo llamamos desarrollo de productos
basado en evidencia y centrado en el cliente. Todas nuestras decisiones sobre productos se
fundamentan en evidencia confiable sobre el comportamiento y las preferencias de los clientes.
Creemos que la experimentación controlada es el enfoque más exitoso para desarrollar productos que
los clientes quieren.”
El tipo más sencillo de experimento controlado era una prueba A/B (consulte el Anexo 4 para ver
ejemplos). En esta prueba, la persona que desarrolla el experimento presenta dos experiencias; “A,” el
control, suele ser el sistema actual y es considerado el “campeón,” y “B,” el tratamiento, es una
modificación que intenta mejorar algo –el “contrincante.” Los clientes se asignan aleatoriamente a las
dos experiencias, y se calculan y comparan las métricas clave. En línea, la modificación podría ser una
nueva función, un cambio a la interfaz del usuario (como un nuevo diseño), un cambio back-end (como
5
619-S13 Booking.com
una mejora del algoritmo), o un modelo de negocios distinto (como una oferta de descuento).
Cualesquiera que fuesen los aspectos de desempeño que les importaban más a los equipos –fuesen
ventas, uso repetido, porcentajes superiores a la media de clics, conversión, o el tiempo que los usuarios
dedican al sitio−, Booking podía usar las pruebas A/B para aprender cómo optimizarlas.16 Vismans
explicó: “Si necesitamos crear un botón de reserva, queremos entender cuál debe ser el color del botón.
Así que creamos dos versiones de la página web, una con un botón amarillo y otra con uno azul, para
probarlos en vivo entre millones de clientes. Vamos a utilizar el color que atraiga el mayor número de
reservas. Nuestros clientes deciden hacia dónde llevar la página web, no nuestra gerencia.”17
No siempre era fácil decidir si un “contrincante” estaba ganando frente al “campeón.” La gerencia
tenía que ponerse de acuerdo sobre los indicadores clave de desempeño (KPI), o la métrica, los cuales
iban a observar para juzgar el desempeño. La métrica primaria de Booking era la conversión del
usuario, medida como bpd (reservas por día, según las siglas en inglés). Pero con un negocio creciente
y un producto más maduro, era también importante medir el comportamiento después de la reserva.
Tans observó: “El asunto con bpd es que es en el corto plazo y no detecta los problemas que pueden
surgir después. Digamos que nuestra política de cancelación no es muy clara; los clientes pagan sin
darse cuenta y después se quejan con el servicio de atención al cliente. Es más difícil detectar en los
experimentos esas señales que son más a largo plazo pero sí tratamos de tomarlas en cuenta, aunque
eso signifique pocos clics en bpd.” Mientras que 80% de su personal se enfocaba en la conversión, los
equipos tenían la libertad de incluir otra métrica en sus experimentos.
Desde el inicio, Booking había aprendido que no podía confiar en la intuición y en las suposiciones,
“todos los días vemos que la gente es muy mala para adivinar. Nuestras predicciones sobre cómo los
clientes se van a comportar están equivocadas 9 de cada 10 veces,” dijo Vermeer. Se había comprobado
que la intuición no era confiable en ningún área, fuese para adivinar qué color de botón preferían los
usuarios o qué funcionalidades valoraban. Tans recordó: “Por ejemplo, nos equivocamos al pensar que
a los clientes les gustarían los paquetes de ofertas de hotel junto con otros productos, ya que los folletos
de viaje están llenos de ellos. O pensamos que los clientes iban a querer un chat para ayudarles en el
proceso de reserva. Ninguna de estas ideas funcionó bien durante nuestras pruebas. Así es como uno
aprende.” Vismans añadió: “Lo hemos hecho así durante nueve años y es muy eficaz para desarrollar
algo que a los clientes les parece muy valioso o fácil de usar. Nosotros seguimos lo que quiere la
mayoría. Y si el fracaso llega rápido, puedes intentar muchas otras cosas.”18 Vermeer estuvo de
acuerdo: “Es como un tipo de prototipo rápido. Como empresa digital, tenemos varios puntos de
contacto con los clientes que probar y optimizar.”
Una fuente de inspiración para las pruebas de dichos puntos de contacto eran los conocimientos
cualitativos sobre el comportamiento de los clientes. Para encontrarlos, Booking estableció un
laboratorio sobre la experiencia del usuario (UX) con 45 investigadores dentro de la empresa. Utilizaron
reportes sobre la retroalimentación, encuestas en línea, pruebas de uso, pruebas en la calle, y visitas a
hogares para estudiar cómo los clientes utilizaban los productos de Booking en sus rutinas cotidianas.
El psicólogo del consumidor, Gerben Langendijk explicó: “Nuestros equipos de productos pueden
solicitar pruebas de embudo en nuestro laboratorio a fin de observar cómo la gente navega en la página
web, qué piensa y cómo batalla. Para nuestros equipos, es muy útil ver esto, especialmente cuando
piensan que una nueva función es evidente pero los usuarios no la entienden. Las pruebas en los
hogares de los usuarios nos muestran cómo se comportan ellos con nuestro producto en su propio
medio ambiente, al gastar su propio dinero. También realizamos pruebas en la calle, en bares y en cafés
aquí en Amsterdam. Mostramos prototipos para que la gente pueda intentar una nueva interfaz de
usuario. También vamos al extranjero para enfocarnos en mercados específicos y entender las
preferencias culturales. Y para nuestros socios, vemos cómo podemos mejorar su experiencia de
6
Booking.com 619-S13
suministro.” Se dieron los resultados a los equipos para que pudieran hacer su propia lluvia de ideas
sobre nuevas opciones, mejorar las existentes, y resolver los problemas de los usuarios.19
Otra fuente de conocimientos era el departamento de atención a clientes de Booking, el cual estaba
disponible 24 horas/7 días a la semana para brindar asistencia y apoyo en 43 idiomas. Los clientes
podían resolver varios asuntos en línea, como cambiar o cancelar una reserva o hablar con una persona.
Los centros de atención al cliente de Booking contestaban cerca de 14 millones de llamadas al año y se
habían dado cuenta que las expectativas de los clientes sobre la calidad del producto habían aumentado
constantemente. Dicho departamento enviaba los datos importantes a los desarrolladores para que
pudiesen usarlos en nuevos experimentos.20 El principal científico de datos, Ono Zoeter, observó: “Nos
dan una retroalimentación importante sobre la parte back-end de las experiencias del cliente, y sobre
cómo le va a nuestro producto en el largo plazo. Invertimos mucho en atención al cliente; los centros
de llamadas ubicados en lugares remotos tienen el mismo tipo de escritorios y sillas que las de nuestro
Director General, y los empleados vuelan a Amsterdam a la reunión anual de Booking y a la fiesta, sin
costo alguno para ellos.”
Vismans consideraba que la ventaja competitiva de Booking era ejecutar su modelo de negocio
mediante pruebas a gran escala. “A Google le compramos demanda invirtiendo en publicidad,
convirtiendo esa demanda en reservas, agregando un retorno sobre inversión positivo (ROI, según sus
siglas en inglés) y luego ofreciendo el suministro con base en dicha demanda. Y como tenemos un KPI
que se correlaciona con nuestras utilidades, le pedimos a todos que experimenten lo más posible. El
único requisito es que todos los cambios primero se tienen que probar. Así obtenemos el efecto
acumulativo de muchos pequeños cambios con los cuales ya nadie puede competir con el paso del
tiempo.” Vismans continuó:
Tenemos nuestra propia versión del concepto del volante (flywheel) de Amazon (consulte el Anexo
5). Es un ciclo virtuoso con efectos en la red, donde cada componente es un acelerador. Invertir en
cualquiera de ellos, y conforme va girando la rueda, beneficia a todos y genera crecimiento. Para
nosotros esto comienza con una gran experiencia del cliente. Mediante estas pruebas A/B, mejoramos
la experiencia del producto lo cual incrementa la conversión. Entre más gente y conversión
obtengamos, más rápido gira la rueda y mayor es el retorno sobre la inversión (ROI) de la
comercialización y el tráfico; esto provoca que más socios quieran estar en nuestra plataforma y
nosotros obtenemos un mayor apalancamiento. Esto, a su vez, significa una mayor selección a mejores
precios y a mejor servicio, lo cual una vez más conduce a mejores experiencias de los clientes. Es un
modelo de “crecimiento lleva al crecimiento.” No puedes descuidar ningún aspecto; si no hay
conversión, ya no puedes cumplir con el contrato, por lo que hay que observar la métrica muy de cerca.
Lo que sea que comiences, necesitas definir la métrica y luego realizar la prueba A/B contra ella. Si
quieres que los socios te den mayor disponibilidad, comienzas las pruebas. Al final todo tu modelo de
negocios puede ponerse a prueba. Pero primero tienes que entender la estrategia. Si corres pruebas
A/B sin entender cómo los efectos de tu red están conectados, simplemente estás dando vueltas sin
sentido alguno.
La organización de la experimentación
Tal vez se me ocurre una idea a la hora del desayuno, luego voy en bicicleta al trabajo, y la pongo en práctica
ya en vivo antes de la hora del almuerzo. Nunca antes he trabajado con tanta libertad para poder validar mis ideas.
— Redactor de la experiencia del usuario, Booking.com
7
619-S13 Booking.com
Ya en 2017, Booking realizó cerca de mil experimentos controlados al mismo tiempo. Los empleados
de todos los departamentos los lanzaron y analizaron; los experimentos abarcaban todos los productos,
desde la página web a las aplicaciones móviles, en herramientas utilizadas por los socios hasta las líneas
de atención al cliente, y en los sistemas internos. Aproximadamente 80% de las pruebas se realizaba en
el “centro” –todo lo que estaba vinculado a la experiencia real de reserva del alojamiento–, dando como
resultado cuatrillones de distintas variantes en la página de inicio en vivo de manera simultánea. Se
distribuían los clientes al azar entre controles y variantes, y la mayoría de los experimentos estaba
sujeto al mayor tráfico de clientes. El director de Diseño, Stuart Frisby observó: “Esto nos da un número
astronómico de permutaciones. También significa que es poco probable que dos clientes en la misma
ubicación y teniendo acceso a la página web de Booking vean la misma versión.” La directora senior
de Producto, Andrea Carini, añadió:
Nuestra filosofía es realizar el mayor número de pruebas en vivo con los clientes, y algunas pruebas
se repiten varias veces o las volvemos a revisar después, lo que agrega algo más a estos números. Todo
se pone a prueba, desde rediseños enteros y cambios en la infraestructura a las pequeñas correcciones
de los errores en un software; quiero asegurarme de que mi corrección mejora la experiencia del
usuario. Así que dividimos la prueba del error, la mantenemos en el grupo A e introducimos la
corrección en la B para cerciorarnos de que el nuevo código en realidad resuelve el problema, y no
impacta negativamente en la métrica de los clientes.
Booking había desarrollado una plataforma de experimentación interna para asegurarse de que
cualquiera podía realizar las pruebas fácilmente, pero con rigor en su ejecución (consulte el Anexo 6).
La empresa contaba con un “equipo principal de experimentación,” dedicado, de siete personas
dirigido por Vermeer y por parte del departamento principal de infraestructura que se ocupaba de la
infraestructura y las herramientas de experimentación, y brindaba capacitación y apoyo a toda la
organización. Vermeer observó: “La misión de mi equipo es facilitarle a todos nuestros empleados
correr experimentos de manera autónoma.” Se colocaban cinco equipos satélites de apoyo directamente
en la experimentación de productos de Booking. Vermeer explicó: “Los equipos se especializan en un
área de producto, están en el mismo piso, y van a las mismas juntas.” Otro equipos se especializaban
en mejorar la plataforma de experimentación o exploraban las metodologías de estadísticas avanzadas.
Los equipos de apoyo dividían su tiempo entre “apoyar el servicio de asistencia técnica” (helpdesk)
para experimentos realizados en sus departamentos, preparar la información para la gerencia sobre
cómo iban los experimentos, y mejorar las herramientas y las métricas. Vermeer subrayó la importancia
de la autonomía: “Si un equipo cree que necesita recibir correos para recordarles sobre sus pruebas,
tienen la libertad de desarrollarlos. Y si esa opción funciona bien y otros equipos la solicitan, la
centralizamos para todos. Cada equipo le reporta a su propio departamento pero yo me turno
diariamente para verlos. También tenemos juntas periódicas entre ellos y eventos de un día cada
trimestre fuera de la empresa en las que intercambiamos las mejores prácticas.”
La plataforma de Booking se diseñó para que la experimentación fuese accesible para todos. Para
fomentar la apertura, ofrecía un repositorio central de búsqueda de experimentos pasados, con
descripciones completas de éxitos, fracasos, iteraciones, y la decisión final. Las plantillas estándar
permitían configurar experimentos en todos los departamentos y en los productos con un mínimo
trabajo ad hoc, y los procesos como el reclutamiento de usuarios, la aleatorización, el registro de la
conducta de los visitantes, y los reportes, se automatizaban detrás de una serie de interfaces de la
programación de aplicaciones (API). Para que los experimentos fuesen más confiables, la validez de
los datos se monitoreaba calculando una serie de métricas comunes en dos conductos de datos
enteramente separados, y los ingenieros les daban un mantenimiento rápido para corregir los errores.
Se integraban varias salvaguardas a la plataforma, permitiendo que los experimentos fuesen
monitoreados tanto por los propietarios como por la comunidad, antes y durante su ejecución. Vermeer
8
Booking.com 619-S13
explicó: “Irónicamente, la centralización de nuestra infraestructura de experimentación es lo que

permite nuestra descentralización de la organización. Todos utilizan las mismas herramientas. Esto
promueve la confianza en los datos de todos nosotros y permite la discusión y la rendición de cuentas.
Mientras que algunas compañías como Microsoft, Facebook o Google pueden estar más avanzadas
técnicamente en áreas como machine learning, el uso que hacemos de las pruebas A/B sencillas, nos
permite ser más exitosos en lograr que toda la gente participe; hemos democratizado las pruebas a lo
largo de la organización.” Frisby añadió: “Cerca de 75% de nuestros 1.800 empleados en tecnología y
productos utiliza mucho la plataforma de experimentación, lo cual es un número enorme, y ahora ya
estamos incluyendo también a los socios y la atención al cliente.”
“La gente que prospera aquí tiene curiosidad, es abierta, desea aprender y descifrar las cosas y no
tiene problema si se le muestra que se equivocó.” Vermeer subrayó: “Algunos participan porque
quieren trabajar en una página web con mucho tráfico en la que puedan validar sus ideas sin tener los
datos.” El grupo de Vermeer capacitaba a los nuevos empleados. “La gente espera aprender sobre la
herramienta, pero durante las primeras horas les hablamos sobre el método científico y luego sobre
experimentos, hipótesis, terminología estadística, diseño de experimentos, ética, cumplimiento, y así
sucesivamente.” A los nuevos se les asignaba con un miembro senior del personal que les explicaba el
trabajo en mayor detalle, introducía a la plataforma, y analizaba experimentos y las decisiones
asociadas. Los nuevos también tenían acceso a todas las herramientas y podían tener una experiencia
directa y práctica desde el inicio. Un desarrollador comentó: “La experimentación en Booking es una
evolución constante. A veces me río de los experimentos que realicé hace cuatro años por la falta de
una métrica secundaria, y a la fecha, seguimos fijándonos metas más altas, innovando la forma como
realizamos los experimentos.”21
Gobernanza y cultura
La organización de Booking consistía de cuatro departamentos principales: productos (el más
grande), seguido de servicios para los socios, la atención a clientes, y la infraestructura principal
(consulte el Anexo 7). La estructura de la empresa había permanecido relativamente plana, con sólo
unos cuantos vicepresidentes senior, dueños de productos y gerentes de tecnología, y las decisiones
involucraban a los subalternos lo más posible. Carini comentó: “No todo está organizado
perfectamente y tampoco todos tienen muy claro a quién le reportan. Estas son las partes difíciles y
normales de una empresa que crece a una tasa exponencial. Booking lleva 21 años en el mercado pero
la mayoría de los empleados entraron en los últimos ocho años. Y tampoco es eficiente tener una
estructura perfecta. ¿Cómo puedes innovar y reaccionar en nuestra industria que se mueve tan rápido
si estás encajonado en un lugar perfecto esperando a que te digan qué hacer?” Vermeer agregó: “A
algunas personas les cuesta mucho la estructura plana porque es poca la posibilidad de un ascenso. No
obstante, cualquiera puede hacer lo que sea. Los equipos e individuos tienen mucha responsabilidad y
cambian de lugar, lo que los mantiene interesados y les permite observar distintas partes del recorrido
de un cliente.” Booking hacía revisiones trimestrales de desempeño de todos los empleados, lo cual
requería retroalimentación de los gerentes y los pares, y una autoevaluación.
A lo largo de la empresa los empleados estaban organizados en equipos multidisciplinarios de 6 a

8 personas. Cada equipo tenía un propietario de producto (es decir, cobranza, páginas de inicio) que
era el responsable de la hoja de ruta del producto desde la perspectiva del negocio. El resto del equipo
consistía de técnicos –un desarrollador del back-end, un diseñador, un redactor, un investigador y un
analista de datos. Cualquiera en un equipo podía lanzar un experimento; no obstante, 90% de las
pruebas provenía de los equipos más que de los individuos. Carini observó: “Por lo general los equipos
trabajan conjuntamente cuando lanzan una prueba. El propietario del producto plantea el problema,
9
619-S13 Booking.com
los ingenieros deciden las variables, y luego todos trabajan conjuntamente sobre la hipótesis correcta,
la ejecución y la iteración. Todos están familiarizados con las pruebas para así poder tener buenas
conversaciones.” Normalmente los diseñadores dedicaban cerca de 75% de su tiempo a diseñar los
experimentos y 25% a investigación y desarrollo profesional. Los empleados senior pasaban buena
parte de su tiempo entrenando. Frisby comentó: “Yo desarrollo herramientas, tales como las listas
reutilizables para que otros diseñadores no tengan que desarrollarlas desde cero. Ya que la mayoría de
los experimentos falla, queremos que estén diseñados y ejecutados con el mínimo esfuerzo y tiempo
posible, pero también con la mejor calidad. Las herramientas comprobadas de pruebas de estrés
pueden ayudar a eso.”
Alentábamos a los equipos a que realizaran el mayor número de experimentos posibles. Frisby
continuó: “Cualquiera puede hacer lo que sea, jugar con lo que sea. Nada es sagrado, salvo que haya
limitaciones legales; debía haber una buena demostración de las propiedades y ese tipo de cosas.”
Vismans comentó: “Una vez que has decidido que la realización de pruebas es la mejor manera para
que tu organización desarrolle productos y tenga la métrica correcta, no puedes más que darle
autonomía a todos. Es la única manera eficiente de desencadenar la creatividad de equipo. La tasa de
éxito de los experimentos es tan baja que tienes que intentarlos varias veces. Las directivas de la alta
gerencia que interfieren con la innovación sólo harían más lento el proceso. Es casi como la anarquía.
O mejor aún, es el caos organizado. Los KPI y los objetivos nos aseguran que la gente sabe qué probar
y cómo hacerlo.” Carini aclaró: “Obviamente, también tenemos nuestros valores compartidos de la
empresa, una fórmula de cómo hacemos las cosas; por ello, sabemos que la gente no haría cosas
completamente locas como colocar contenido ilegal en vivo. Los valores son: en tus decisiones déjate
llevar por los datos y siempre pon al cliente primero, etc.” (Consulte el Anexo 8.)
A los nuevos empleados se les daba autonomía casi desde el inicio. El propietario senior de
Productos, Willem Isbrucker, recordó: “Cuando entré, me sentí perplejo por el nivel de confianza que
había. Podía yo decidir sobre experimentos desde el primer día y asumir todo el control de los
siguientes en sólo una semana. Digamos que quieres que una página web sea color de rosa. Si tienes
cualquier evidencia que muestre que esto puede ser positivo para los usuarios, puedes correr la prueba.
Esta es una enorme diferencia de mis trabajos anteriores. Cuando me di cuenta de que yo podía correr
pruebas diariamente entre millones de personas, me sentí sumamente feliz.”
El alto grado de autonomía también implicaba dificultades. Un riesgo era que los equipos e
individuos podían romper algo en la página web de alto tráfico de Booking, lo que podía provocar un
colapso. Además, en una organización tan descentralizada de abajo hacia arriba, cada equipo tenía que
establecer su propia dirección y decidir cuáles problemas de los usuarios podía resolver. Para los
empleados esto implicaba una enorme responsabilidad. Isbrucker continuó: “Aquí no hay donde
esconderte, no hay chivo expiatorio a quien puedas culpar si no encuentras cuáles son los problemas
de los usuarios y cómo resolverlos, o si rompes algo.” Se fomentaban las discusiones y la gente
consultaba a sus colegas si veía algo que le parecía cuestionable o con lo que no estaba de acuerdo. En
Booking, cualquiera podía detener un experimento aunque, como observó Vermeer, “en realidad, rara
vez sucede. Normalmente te acercabas a un equipo si veías un problema, por ejemplo preguntándoles
si se daban cuenta de que estaban perdiendo 2% de la conversión y si ya estaban al tanto. Detener la
prueba de alguien era visto como algo muy agresivo, el enfoque nuclear. Solamente se hacía si no había
ninguna otra opción; digamos que estás solo en la oficina en la noche y ocurre un incidente en alguna
parte del mundo que requiere detenerlo de inmediato.”
Un tema que había provocado fuertes discusiones era el uso de las técnicas de persuasión. Por
ejemplo, las páginas de productos mostraban mensajes, tales como “Favor de reservar ahora o perderá
la reservación,” o “En alta demanda,” o “Sólo 3 cuartos disponibles.” Aunque la intención original de
10
Booking.com 619-S13
estos mensajes era informar a los consumidores sobre la disponibilidad, algunas personas percibían los
mensajes como algo que transmitía escasez y urgencia. Los críticos argumentaban que dichos mensajes
podían engañar a los clientes haciéndoles creer que sólo quedaban 3 habitaciones disponibles en todo
el hotel, cuando de hecho las 3 habitaciones eran parte de lo que el hotel le había asignado a Booking.
Una vez que los reguladores se involucraron, Booking rectificó el mensaje a que dijera “sólo quedan 3
habitaciones en nuestra plataforma.” Con mucha frecuencia se discutía si era ético el uso creciente de
dichas técnicas y si esto cumplía con el mejor interés de los clientes.
Los experimentos mostraron que este tipo de mensajes funcionaba –la métrica de conversión
mejoró– así que los clientes sí respondieron positivamente. Apalancar las técnicas psicológicas también
era una forma sencilla para que los nuevos empleados mostraran haber obtenido algo bueno en una
prueba. El psicólogo Langendijk explicó: “Cuando los equipos me piden trabajar sobre los elementos
de persuasión, primero les explico que la mejor persuasión es tener un muy buen producto. Tenemos
que ver en dónde dichos elementos tienen sentido; por ejemplo, cuando un visitante con experiencia
identificaba al hotel correcto y está por hacer la reserva, y cuando podría dañar a la gente,
particularmente a los que visitan la página por vez primera. Queremos que los clientes se sientan
satisfechos sobre toda su experiencia de reserva y regresen con nosotros varias veces.”
La alta gerencia alentaba a sus empleados a tener estas discusiones mediante foros internos, tales
como el “grupo de debate sobre la experiencia del cliente” en la plataforma de colaboración de
Facebook Workplace. Vismans comentó:
La gente muestra ejemplos de experimentos donde sentía que se pasaban de la raya o que estaban
presionando mucho, o donde no había plena transparencia con los clientes. Se vuelve una discusión
pública. Sabemos que hay un enorme beneficio al tener una sola métrica, la conversión. Pero no es
perfecta. La métrica perfecta sería la lealtad, pero se requieren años para ponerla a prueba, medirla, y
ver si los clientes siguen siendo leales, tuvimos que encontrar un sustituto. Si realizas pruebas A/B
adecuadas, encontrarás la manera más eficaz de influir en la conducta del cliente. Pero hay una
pregunta más importante: ¿este modelo es la forma más sustentable para que tu negocio crezca?
Seguimos en la Edad Media; internet sólo lleva 25 años. Es como si acabáramos de inventar el fuego.
Se requerirá tiempo para entender de lleno el comportamiento de los clientes. Por supuesto, si alguien
quiere realizar un mal experimento, lo puede hacer. Ese es el precio que pagamos por la autonomía y
el enorme poder que nos da. Pero no he visto nada que fuese malo intencionalmente o moralmente
cuestionable, como manipular a la gente a que compre una habitación de un hotel de 5 estrellas si sólo
puede pagar una de 3 estrellas. Entonces, prefiero no tener consejos de vigilancia que dictaminen sobre
la ética. Esa no es una solución que conduce al crecimiento; estarías creando un cuello de botella y una
policía que vigila las pruebas no permite que la gente se sienta facultada. Preferiría tener una
comunidad que se corrija a sí misma, una organización que sane por sí misma.
El proceso
Los equipos de Booking tenían un mandato claro para hacer experimentos muy rápidos. Para
alimentar el conducto de pruebas, la gente constantemente tenía que tener en mente nuevas ideas,
problemas de los usuarios y áreas de necesidades. Las ideas surgían de las pláticas con los usuarios,
del uso que ellos mismos hacían del producto para reservar alojamientos, o de experimentos pasados.
Los equipos también podían pedir encuestas, pruebas de laboratorio, u otras investigaciones
cualitativas, y recibir insumos de la atención a clientes sobre los puntos difíciles y las preferencias de
los usuarios. Había tantos distintos canales, servicios operativos, e idiomas que había que optimizar,
que encontrar ideas para ponerlas a prueba ya no era un tema importante. Cada equipo manejaba su
idea generando un proceso y un conducto de prueba.
11
619-S13 Booking.com
Desde que Booking introdujo un proceso de experimentación formal en 2014, los equipos tenían
que comenzar con una hipótesis que se podía poner a prueba. Vermeer observó: “Antes no había reglas
claras. Básicamente pensabas en la mejora de un producto, probabas la A y la B y veías cuál obtenía
más clics. Y luego implementabas y pasabas a la prueba siguiente. Pero es muy fácil equivocarte en la
experimentación cuando las cosas están tan poco estructuradas. Ahora insistimos en que la gente
presente por escrito el problema que está tratando de resolver y formule la hipótesis que desea poner
a prueba, en la forma de una declaración falsificable que podría de manera lógica comprobarse como
equivocada. Esto obliga a todos a reflexionar las cosas con mucho cuidado, a no sólo adivinar sino
recolectar evidencia y aprender cómo resolver los problemas de los clientes.” a
Para ayudar a la gente a redactar mejores hipótesis, el grupo de Vermeer creó una plantilla.
(Consulte el Anexo 9.) Ésta decía que una buena hipótesis comienza con la descripción de una teoría o
de una creencia, a menudo basada en evidencia previa, sobre cómo una determinada condición para
un público específico puede cambiar un mecanismo, o cómo un cambio puede mejorar la experiencia
del público con el producto. (En el ejemplo del botón amarillo para reserva, una teoría podría ser sobre
cómo cambiar el botón al color azul podría ayudar a los usuarios a encontrarlo más fácilmente). Luego
un equipo tendrá que especificar qué métrica podría usarse para falsificar la teoría o qué conducta
podría validar una prueba (es decir, más usuarios rondan por encima del botón y hacen clic). Y por
último, ésta debería decir cómo el cambio ayudaría al negocio (es decir, generar más reservas).
El director de Productos, Geert-Jan Grimberg, recordó un ejemplo: “Nuestras tasas de conversión

móviles en los países árabes eran más bajas que en cualquier otra parte. Pero los datos no te dicen
porqué. Una vez que profundizamos en los datos, quedó claro que el sitio móvil no estaba escrito de
derecha a izquierda. En árabe se escribe de derecha a izquierda y no de izquierda a derecha. Este
conocimiento condujo a una sencilla hipótesis: podemos ayudar a nuestros turistas árabes haciendo
que la experiencia de reserva móvil sea de derecha a izquierda. Así, diseñamos un experimento que
corrió durante dos semanas. El control A era una versión árabe de una página web móvil de izquierda
a derecha. La variante B era la misma versión de derecha a izquierda. Una hipótesis a menudo
comienza con un conocimiento que viene de la investigación cuantitativa y cualitativa, de algún tipo
de anomalía que estás tratando de entender.”
Para lanzar un experimento, los equipos tenían que llenar un formulario electrónico que todos
podían ver. El formulario pedía el nombre del experimento, declarar cuál era su propósito (con libertad
de palabra o escogiendo los puntos difíciles comunes a resolver de un menú desplegable hacia abajo),
nombrar a los beneficiarios principales (clientes y socios), citar experimentos pasados en los que se
basó, declarar el área que se está cambiando, decir el número de variantes (hasta 20), y especificar en
qué plataforma está corriendo (es decir, el escritorio o desktop). La configuración predeterminada del
sistema seguía los estándares principales que fueron desarrollados a lo largo de los años. Vermeer
observó: “Hemos integrado muchos de los lineamientos y estándares directamente en las herramientas.
Los equipos pueden cambiar la configuración pero más vale que tengan una buena razón para hacerlo,
porque los colegas pueden fácilmente cuestionar por qué lo hicieron.” Una variable importante era el
umbral o valor p, que indicaba el éxito de la prueba: concluyendo que el “contrincante B” se desempeña
mejor que el “control A” (Consulte el Anexo 10 para la terminología de la experimentación). No había
un umbral perfecto ya que el valor p del experimento también medía la posibilidad de equivocarse y
aceptar al “contrincante B” como el ganador (un falso positivo). Un umbral más estricto daría como
resultado menos ganancias de la prueba; en contraste, un umbral más permisivo produciría más falsos
positivos. En Booking el valor p de la prueba tenía que ser de menos de 0.10 (90% de confianza) para
que la mayoría de las pruebas se consideraran “estadísticamente significativas.” El tiempo mínimo de
un experimento era de dos semanas. Carini explicó la lógica de la duración:
12
Booking.com 619-S13
Nos da el ciclo de temporalidad de una semana y dos domingos para corregir cualquier factor
discrepante, como la final de la Copa Mundial en un domingo. También nos da tiempo para ver si hay
consecuencias no intencionales. Y nos asegura que lleguemos a un número mínimo de usuarios,
idealmente más de un millón de visitantes únicos por variante, lo cual se puede lograr con un tiempo
de corrida de dos semanas. Necesitamos grandes tamaños de muestras para ver resultados
significativos, ya que normalmente probamos cambios muy pequeños. Esto es para lo que mejor sirven
las pruebas A/B, para tomar un producto existente y aplicar pequeñas mejoras consecutivas, una a la
vez, y crear un mejor producto. A los equipos que necesitaban tiempos más largos de corrida se les
animaba a agregar múltiples de una semana. Los experimentos utilizados para la toma de decisiones
crítica de la gerencia a veces corrían de cinco a seis semanas. Los experimentos con muestras más
pequeñas, como por ejemplo limitarlo a los clientes franceses que viajaban a Italia, podían correr
durante varios meses.
Varias configuraciones y procesos en la creación de un experimento estaban automatizadas; por

ejemplo, la plataforma dividía de manera aleatoria a los clientes en un grupo de control y en uno o
varios grupos de variantes. La aleatorización ayudaba a impedir los sesgos sistémicos, introducidos
consciente o inconscientemente y el que afectaran al experimento, conforme éste expandía cualquier
causa potencial restante (y posiblemente desconocida) del resultado entre los grupos de tratamiento y
de control. Enggist dijo: “A nuestra gente operativa en atención a clientes, que está menos involucrada
en las pruebas, a menudo le explico esto utilizando metáforas. Digamos que tienes un estadio lleno de
gente. A la mitad le das vitamina C. Hay muchas otras cosas que les está sucediendo pero, debido a la
aleatorización, dichas cosas se propagan uniformemente entre todos, por lo que es sólo la vitamina C
la que hará una diferencia.”
Mientras se llenaba el formulario electrónico, el sistema le informaba a los equipos sobre

experimentos similares que estuviesen corriendo en ese momento; es decir, probando la misma
funcionalidad de la misma página del producto, y de aquellos que estaban por comenzar. A los equipos
se les pidió usar esta información para ajustar o posponer su experimento si había demasiada
superposición, interacciones o el potencial de un conflicto. A los diseñadores se les alentaba desde el
inicio a platicar con sus pares que estuviesen trabajando en temas similares para así coordinar el
esfuerzo que le dedicaban a la prueba. Booking no restringía formalmente el número de experimentos
sobre el mismo tema. Vermeer observó: “Nos lo han pedido varias veces pero nosotros no tenemos
restricciones. Nadie es dueño de una parte específica del producto; todos los equipos tienen la libertad
de hacer experimentos. Pueden acordar informalmente la secuencia de los experimentos cuando lo
creen pertinente, pero no están obligados a hacerlo.” La plataforma de Booking podía automáticamente
identificar y destacar los experimentos que causaban interacciones problemáticas para que los equipos
pudieran detenerlos. Carini dijo: “Si cambias el color de un botón al azul y otro equipo cambió el color
de fondo también al azul, entonces los clientes no pueden ver el llamado a la acción (call-to-action).”
Una vez que corría el experimento, los equipos lo vigilaban con detenimiento durante las primeras
horas y si su métrica primaria o secundaria fracasaba rápidamente, podían parar la prueba. Carini
añadió: “Hablando metodológicamente, esto no sirve mucho, pero desde el punto de vista comercial
no nos podemos dar el lujo de seguir corriendo la prueba durante el tiempo de corrida correcto y
arriesgarnos a que el negocio se colapse dentro de dos semanas.” Frisby comentó: “Esto es algo que
podríamos haber automatizado, puesto que está en otras compañías, pero decidimos dejarlo manual.
Tenemos pizarras en las paredes de la oficina que muestran el número de reservas por segundo y
cuando los equipos ven que ese número baja, confiamos que tomen la decisión correcta. Para la gente
es más fácil aislar las causas. Digamos que comienza la Copa Mundial y por ello las reservas caen
significativamente, no queremos detener el experimento.”
13
619-S13 Booking.com
La plataforma de Booking también verificaba automáticamente los datos y enviaba mensajes de

alerta si veía algo raro. Una alerta azul era sobre la información, amarilla significaba que podía haber
un problema con los reportes, y roja, que había habido una falla en los reportes. Una de color rosa, la
peor advertencia también conocida como “el cuadro rosa de la perdición,” quería decir que los datos
subyacentes no eran válidos. La información de un experimento era visible para todos en Booking y
los campos en blanco en las plantillas podían suscitar cuestionamientos inmediatos de otros
empleados. Insbrucker observó: “Tengo subscripciones para varios reportes por correo. Puedes tener
reportes sobre las pruebas que hace tu equipo, de otras personas, o de experimentos que fueron
positivos o negativos en algunas métricas. Y diario nos llega un reporte con resúmenes de todas las
pruebas, a fin de que pueda yo intervenir si hay algo que quiero cuestionar o discutir. Dedico como
una hora al día a revisar otros experimentos, sobre todo los más impactantes o aquellos con enfoques
novedosos. Hay un gran aprendizaje ahí. Claro que sólo puedes ver un subconjunto. Pero aunque sólo
veas 10% de los 2.000 que tienen un significado estadístico, estás viendo más de 200 pruebas a los largo
de dos semanas.” Compartíamos los reportes específicos con lo que habíamos aprendido de cualquier
experimento que hubiera causado un gran problema o un fracaso.
En promedio nueve de cada diez pruebas fallaban; o no tenían efecto alguno sobre la métrica
seleccionada, o el efecto era negativo. Pero un experimento que fallaba no se consideraba fallido.
Vismans comentó que con frecuencia valía la pena investigar más. “Por ejemplo, estábamos
convencidos de que a la gente le importaba la calidad del WiFi en sus habitaciones de hotel. Pusimos a
prueba una función que mostraba la velocidad del WiFi en una escala del 1 al 100 y vimos que a los
clientes no les importaba. Sólo cuando mostramos si la señal era lo suficientemente fuerte para enviar
correos o ver Netflix, los clientes respondieron de manera favorable.” Al final del experimento, el
equipo evaluó su resultado como significativo (el color verde), moderado, relativamente fatal, o
simplemente fatal. Carini observó: “Esto le permite a cualquiera en la organización, sea o no ingeniero,
llegar a conclusiones rápidamente. Para la mayoría de las pruebas, no requerimos una certeza del 100%.
No somos una industria farmacéutica que se dedica a salvar vidas; a menudo sólo queremos saber si
un botón azul es igual o mejor que uno amarillo, y cambiarlo no cuesta nada. Para las pruebas con
costos significativos, como incentivar a los clientes con un cupón de $20 dólares, necesitas un mayor
estándar de evidencia.” Después de su evaluación, el equipo decidía si convertía el tratamiento en una
opción permanente, que luego se volvía la nueva línea base. Zoeter explicó: “No tenemos problema
con hacer pequeñas mejoras, incluso unas muy pequeñitas, y rápidamente agregarlas a la página web.
Incluso una mejora del 1% en la conversión puede tener un fuerte impacto en nuestras utilidades.”
Frisby añadió: “Podemos ser muy rápidos, puesto que los equipos son la unidad que toma las
decisiones. El dueño del experimento sólo oprime un botón y echa a andar una función para millones
de personas. En otras empresas, tendrían que llevar los resultados a un comité, el cual tomaría la
decisión. Cuando la experimentación se realiza bien y cuentas con las normas culturales correctas, no
necesitas tener esas salvaguardas.”
Booking también corría experimentos en su red de proveedores –sus socios− pero esto producía
varios desafíos. Los tamaños de las muestras eran mucho más pequeños y el impacto en el negocio no
era parejo. Primero, las grandes cadenas hoteleras contaban con un volumen mucho mayor que las
propiedades pequeñas, que también se debían tomar en cuenta. Luego, la toma de decisiones de los
socios a menudo involucraba a varias personas y complejos sistemas de TI. Poner a prueba la conducta
de los participantes, ¿reflejaría acaso a las organizaciones que representan? Por último, las interacciones
frecuentes entre los socios y la plataforma de Booking significaba que los experimentos se tenían que
abordar con mayor cautela, para que los socios participantes no se frustraran con demasiados cambios.
Las pruebas de los socios corrían en la plataforma principal de Booking; había crecido hasta llegar
a tener 200 experimentos al mismo tiempo. La corrida duraba dos semanas, dentro de las cuales del
14
Booking.com 619-S13
60% al 70% de los socios visitaba Booking al menos una vez. Una vez más, los equipos contaban con
plena autonomía, las pruebas eran visibles para todos y se distribuían ampliamente resúmenes
semanales sobre todos los experimentos de los socios. No obstante, encontrar la métrica correcta
implicaba tener un debate constante. La mejor métrica sería el valor del socio a largo plazo, pero igual
que con la lealtad del cliente, esto era difícil de obtener con una sola prueba. La métrica a corto plazo,
tal como “el número de habitaciones agregadas,” se acercaba más a la métrica de conversión utilizada
para los clientes, pero la métrica, como “habitaciones vendidas,” también se consideraba. Grimberg
describió las dificultades: “Hay menos funciones prediseñadas que están disponibles y tenemos que
ser más cuidadosos con los socios. Uno de nuestros equipos trabajó durante un mes en una función de
login (inicio de sesión) personalizada, estudiando las necesidades, creando prototipos. En nuestro
centro, las pruebas hubieran sido más rápidas; puede que con un vínculo ficticio, simplemente
enviando a los clientes “creé ahora su cuenta familiar” y luego diciéndoles “lo sentimos, esto sólo es
una prueba, agradecemos su interés.” Debido a la interacción frecuente entre socios, Booking actuaba
abiertamente con respecto a sus experimentos. Grimberg continuó: “Platicamos sobre los cambios que
han visto. Cuando ponemos algo grande a prueba, como las tarifas modificadas y la disponibilidad,
puede que anexemos una encuesta sobre lo que varió: “Bienvenido a nuestro nuevo diseño; queremos
conocer su opinión.” Después de las pruebas, recibíamos llamadas con distintas reacciones; a algunos
les gustaba mucho lo que veían pero y después de dos semanas, eso mismo ya había desaparecido.”
La administración
La alta gerencia de Booking creía que una verdadera organización de experimentación también
requería un estilo de liderazgo distinto. Vismans lo explicó: “Yo venía de la clásica empresa vertical en
la que los fundadores estaban seguros que sabían lo que los clientes querían y tomaban todas las
decisiones. Pero aprendí que la mayoría de las veces se equivocaban. En Booking, todos saben eso, así
que el liderazgo no es tan glamoroso. Le das a tus empleados los KPI y los dejas correr.” El liderazgo
senior determina la misión, las metas estratégicas, que recién habían cambiado de un enfoque en el
alojamiento al desarrollo de una “plataforma de experiencia global.” Ahora tenía que traducir la nueva
estrategia en inversiones y en KPI antes de que los empleados tuviesen “la libertad de correr.” Tans
añadió:
Muchos líderes no se sentirían cómodos en nuestro entorno. No puedes tener un ego, creyendo que
siempre sabes lo que es mejor. Si yo, como Director General, le digo a alguien, ‘esto es lo que quiero
que hagas porque creo que es bueno para nuestro negocio’; literalmente se me quedarían viendo y
dirían, ‘OK, está bien, lo pondremos a prueba y veremos si tienes la razón.’ Cuando el anterior Director
General llegó de Estados Unidos, le presentó al personal un logo rediseñado. La gente dijo ‘muy bien,
lo verificaremos con un experimento.’ Se quedó perplejo pero lo tuvo que aceptar. El experimento
determinaría si el logo permanecería.
Para Tans, el entrenamiento, la cultura y la gestión de talento eran sus principales funciones. Le
dedicaba buena parte de su tiempo al reclutamiento; la única forma de crecer rápidamente era atraer
el mayor número posible de gente lista. Una vez contratados por Booking, era importante formarlos.
Tans continuó:
Si yo logro que otros sean exitosos, entonces la compañía estará en su óptimo momento. En las
reuniones, yo estoy ahí para ayudar, no para decir qué está bien y que no. Y si veo que a un equipo le
cuesta una decisión, les ayudo a que la piensen muy a fondo. Mi función es crear un lugar donde la
gente pueda llevar a cabo su mejor trabajo. Me importa que la gente se sienta orgullosa del tiempo que
trabajó en Booking. Debe sentir que logró hacer una diferencia para los clientes y la industria turística.
15
619-S13 Booking.com
Asimismo, la administración superior se cercioraba de que la gente no experimentara simplemente

por el hecho de experimentar. Esto requería reconocer las limitaciones de las pruebas A/B. Insbrucker
dijo: “Si no tienes suficiente tráfico –suficientes usuarios para obtener resultados significativos– no
debes realizar pruebas A/B. Asimismo, si no conoces qué es un producto exitoso, no lo puedes definir
para tu hipótesis, el experimento no te va a servir. Y las pruebas sólo te enseñarán ‘lo que la gente está
haciendo,’ no el ‘por qué’ o el ‘cómo’ se siente; para lograr eso, requieres de una investigación
cualitativa. Por último, los ensayos únicamente ofrecen conocimientos limitados sobre adónde ir.
Los experimentos eran adecuados sobre todo para la innovación gradual. Probar un producto
totalmente nuevo era difícil e incómodo, ya que no había una base con la cual compararlo. El dueño de
producto senior, Deepak Gulati, observó: “Cuando tienes una fuerte cultura de experimentación que
le hace mejoras graduales a un producto existente, llegas a un punto en el que la gente que desarrolló
el producto original ya no está y los nuevos productos ya dejan de estar en tu ADN. Te has convertido
en una máquina ligera y mala para convertir a los clientes, para las micro optimizaciones, impulsado
por la experimentación. Pero cuando quieres expandirte hacia otras áreas, ya no tienes a las personas
que piensan en grande, que saben cómo hacer esto.” Vismans estuvo de acuerdo: “Este es el lado
negativo para una organización basada en los datos y que da pequeños pasos. Nos paralizamos como
lo hace un venado ante las luces de un auto, en el momento en que no tenemos datos, ninguna base de
referencia para comparar y hacer pruebas. En nuestra industria, cualquier oportunidad en internet en
la que no inviertes puede llegar a ser una amenaza en el futuro.”
A Booking le costó mucho aprender estas lecciones. En 2014 había lanzado la primera extensión de
un producto, la página web de marca independiente, Villas.com, para rentas vacacionales. La
administración pensó que los clientes valorarían la clara separación entre reserva de hoteles y
propiedades privadas y había querido responder a Home Away, AirBnB, y otros participantes.
Vismans dijo: “No teníamos datos para apoyar nuestra intuición y no hubo ningún ensayo previo.
Nadie la usó y la cerramos unos años después. Sí aprendimos que hay un enorme beneficio en tener
un público numeroso para comenzar. Nos confirmó el riesgo de hacer grandes inversiones sólo basadas
en la intuición o en las suposiciones sobre el mercado.”
Un problema de probar innovaciones radicales era que la plataforma de Booking no era la adecuada
para pruebas limitadas. Todo corría en un entorno en vivo. Frisby observó: “Aunque limite la base de
usuarios, digamos que presento algo que cambia los procesos del negocio a sólo 5% de los usuarios,
aun así eso representa miles y miles de transacciones al día. Y si reduces el tráfico, reduces el poder de
un experimento. En ocasiones es mejor comenzar con un prototipo externo y utilizar pruebas
cualitativas para desarrollar la confianza.” Gulati añadió: “Si algo sale mal, las grandes repercusiones
son una de las razones por las cuales insistimos en pasos graduales cuando llega gente con grandes
ideas; la otra es que al cambiar varias cosas a la vez, no puedes aislar la variable que causó que la
métrica variara.”
Vismans sentía que las pruebas A/B no sustituían el liderazgo cuando se trata de decisiones
estratégicas: “Nuestra nueva estrategia [diversificarnos hacia otras áreas turísticas como las
atracciones] nos lleva a invertir en negocios con márgenes más bajos que la reserva de hoteles;
asumimos que algo va a suceder en el futuro que va a requerir dicha inversión. Todo se basa en
creencias, contamos con algunos datos, pero no hay datos que nos digan que tenemos una buena
probabilidad de ser exitosos. Dicha ‘innovación del modelo de negocios’ sólo puede surgir del
liderazgo, no de los equipos de productos enfocados en la innovación gradual. Y para proteger a los
nuevos negocios del ‘rechazo de órganos,’ puede que sea mejor crear una nueva organización pequeña
fuera de la principal, con un enlace directo al liderazgo y con nuevas métricas.”
16
Booking.com 619-S13
Finalmente, aprovechar el poder de los experimentos online dependía de la administración y la

cultura. Vismans concluyó:
Las pruebas A/B son una herramienta muy poderosa; en nuestra industria, o lo aceptamos o
desaparecemos. Si tuviera un consejo que dar a los directores generales, sería éste: estas pruebas a gran
escala no son algo técnico, son algo cultural que tienen que acoger. Uno tiene que hacerse dos grandes
preguntas: ¿qué tan dispuesto estás a ser confrontado día tras día por lo equivocado que estás? ¿Y que
tanta autonomía estás dispuesto a darle a la gente que trabaja para ti? Y si la respuesta es que no te
gusta comprobar que te has equivocado y no quieres que los empleados decidan el futuro de tus
productos, esto no va a funcionar. Nunca cosecharás los beneficios plenos de la experimentación.
Avanzando
En diciembre de 2017, Carini sintió que Booking ya se había vuelto una verdadera organización de
experimentación:
El progreso que hemos logrado en infraestructura y metodología, especialmente en los últimos dos
años, es significativo. Cuando entré a la empresa hace como cinco años, eran sobre todo los
desarrolladores del back-end quienes configuraban las pruebas, y como 50% de nuestros experimentos
probablemente no era lo suficientemente riguroso. Ahora hemos reducido de manera dramática las
barreras para la experimentación; todos pueden hacer ensayos casi gratuitamente, incluyendo los
dueños de los productos y los redactores. También bajamos los costos percibidos; una vez que tienes
una hipótesis, puedes poner algo a prueba muy rápidamente. Para un simple cambio de texto, por
ejemplo pasar de ‘Reserve’ a ‘Reserve ahora’, sólo requieres un servidor y, a la hora, ya estás recibiendo
datos. Si quieres probar una traducción de texto para 43 idiomas, te lleva 24 horas. Si quieres rastrear
dispositivos múltiples, puedes hacerlo en uno o dos días. En otras compañías esto tardaría mucho más
ya que tienes que solicitar la prueba a especialistas dedicados al tema, lo cual crea un retraso.
Tans opinó que Booking estaba listo para dar el paso siguiente: “Booking ha pasado por fases
distintas: primero, se trataba de definir un producto, el modelo, la cultura; segundo, hubo una fase
larga para aumentar todo y en todas partes, y ahora somos la más grande en el mundo. Pero aún
tenemos brechas entre los clientes, los alojamientos y los mercados, tales como viajes de familia o de
negocios. Los clientes todavía dedican mucho tiempo a la planeación, y una parte de eso es la fricción.
El 80% de nuestros clientes en Amsterdam abre nuestro correo al inicio de su viaje cuando preguntamos
si requiere ayuda. Así que hemos expandido nuestra misión de enriquecer los viajes de nuestros
clientes con más productos como las atracciones, lo que requiere de nuevas herramientas, nuevas
complejidades en atención al cliente, y así sucesivamente.”
Debido al gran mercado turístico, Tans tenía la confianza de que aún había varias oportunidades
para que Booking creciera, pero como consecuencia, enfrentaba ciertos desafíos. “Mi mayor temor es
que perdamos de vista nuestro enfoque en hacer lo mejor para los clientes, al ir creciendo y estar más
enfocados internamente. Asimismo, puede haber una disrupción. Piensen en la posibilidad de que
Google empiece a vender vuelos, convirtiéndose así en el medio y en el anunciante, o que la empresa
China, Ctrip, quiera expandirse más allá de su mercado local. O imaginen si Amazon con su enorme
base de clientes de repente piensa en vender habitaciones de hotel con una comisión menor. La
competencia es enorme, por lo que tenemos que seguir innovando.” Otro reto era retener la profunda
experiencia y cultura de experimentación de Booking al haber un gran número de nuevos empleados.
Enggist concedió:
17
619-S13 Booking.com
Los empleados jóvenes a menudo dicen: ‘Voy a correr unos experimentos,’ luego determinaré su
principal métrica, veré si la herramienta dice ‘sí’ o ‘no,’ y ya luego me detengo. Sólo después de que
llevan aquí más tiempo adquieren un mayor entendimiento. Hay que ‘llegar a una mayoría de edad’
que te permite ser ‘Booking blue’; cuando ves la herramienta de experimentación y empiezas a darte
cuenta de que no estás viendo únicamente la imagen de tu prueba. Hay otros experimentos que
interfieren con el tuyo y los tienes que agregar al contexto más amplio del servicio a clientes. Es como
un estado constante en el que estás balanceando un sistema al que contribuyes. Sé que si jalo un hilo
del suéter, se podría deshacer el suéter completo, y que el cambio sencillo que estoy por hacer toca no
sólo uno sino probablemente hasta 15 hilos. Las personas ‘Booking blue’ han internalizado este
contexto; así es como pensamos y trabajamos.
El experimento de la página de inicio. Frisby acudió a Tans para pedirle un consejo. Dijo: “Gillian,
estoy por lanzar un experimento y quería que estuvieses enterado, para que no te sorprendas si la
prensa se entera. Voy a lanzar una página de inicio completamente nueva; estará en vivo para el 10%
de nuestros clientes, justo a tiempo para la época navideña.” Frisby le mostró una nueva página de
inicio, totalmente distinta (consulte el Anexo 11). Era completamente azul, con una pequeña ventana
en el centro: “Alojamientos, Vuelos, Alquiler de Autos.” Todo el contenido y los elementos de diseño
–fotos, texto, botones y mensajes‒ que Booking había dedicado años a optimizar, habían desaparecido.
Para ampliar la cartera de Booking, Frisby quería probar una página de contenido muy sencilla,
parecida a la de Google, que tenía la misma interfaz de usuario para alojamientos, vuelos y alquiler de
vehículos. Le fue difícil introducir nuevos productos en el diseño de una página de inicio que estaba
optimizada para el alojamiento. Explicó: “Eliminé todo para la primera iteración. En las pruebas A/B,
a menudo damos pasos pequeños. Pero para cambios grandes, hago lo opuesto y primero pruebo la
versión más ambiciosa. En el mejor de los casos, nos vamos a llevar una agradable sorpresa. En el peor
de los casos, tenemos señales de conductas que nos permiten hacer mejores elecciones en futuras
iteraciones.” Algunos colegas plantearon que con demasiados cambios sería imposible aislar las
variables causales. Frisby confiaba en que la métrica conductual ayudaría a mejorar las futuras
experiencias del cliente. Un tema importante era la reacción que tendrían millones de clientes de
Booking en el grupo de tratamiento (“B, el contrincante”) cuando abrieran la página de inicio
desconocida.
La hipótesis de Frisby era que cambiar la forma como los clientes percibían a Booking, de una
plataforma de alojamiento a una que ofrecía todos los servicios de viaje, era difícil. Por ello, quería ver
si dicho cambio podría acelerarse con una página web completamente nueva que no estuviese sólo
dirigida al alojamiento. Frisby sonrío: “Escribí un ensayo de 3.000palabras sobre este tema, ya que
siempre digo: ‘La extensión de una hipótesis debe ser relativa a la complejidad del experimento.’ Me
metí en gran detalle en lo que se ambiciona con el negocio, cómo expresamos el experimento, los
beneficios del desempeño, la métrica cuantitativa obtenida antes de correr el experimento, todo en
realidad. Si hubiera escrito una hipótesis de tres renglones e iniciado la prueba, hubiera tenido que
dedicar un mes a responder las preguntas de nuestra comunidad.”
El experimento había sido particularmente complejo de configurar. Frisby había trabajado en su

desarrollo durante cinco a seis semanas, mientras que otras pruebas sólo necesitaban unas pocas horas.
Booking no hacía reservas de vuelos o de alquiler de autos en su plataforma central, sino que se la daba
a los socios. Eso implicaba que los clientes entraban a una versión con marca de Booking.com, como
kayak.com, o rentalcars.com. Frisby también tuvo que crear una nueva métrica a fin de entender cómo
medir las ganancias o pérdidas financieras para Booking. Por supuesto, con experimentos radicales
como éste, estaba nervioso sobre los efectos y los prejuicios de los clientes debido a la novedad: “Las
plataformas con alta frecuencia de visitas como Google detectan rápidamente un impacto negativo en
18
Booking.com 619-S13
los usuarios, mientras que nosotros tenemos un producto de baja frecuencia. Uno viaja dos o tres veces
al año así que no sé cuando la gente deja de tener un prejuicio contra la novedad. Por ello, tendremos
que correr el experimento durante un tiempo más largo que el de nuestro periodo normal de dos
semanas. Frisby estaba consciente de que el trabajar en la página de inicio de Booking era algo que
probablemente no habría podio hacer en ninguna otra parte: “Si escuchas a la gente de otras empresas
hablar de las pruebas A/B, a menudo distingue las áreas empresariales en las que realizas o no las
pruebas A/B. Para algunas páginas de inicio, como el buscador de Google, los experimentos están
prohibidos. Nadie los puede tocar. Pero nosotros no contamos con esas limitaciones. En realidad, nada
es sagrado; aquí puedes hacer lo que sea. Como solemos decir, si la prueba te dice que el encabezado
de la página web debe ser color rosa, entonces debe ser color rosa. Siempre adoptamos lo que aporta
la prueba.”
Vermeer se mostró muy escéptico. Le apostó a Frisby una muy buena botella de champán de que el
ensayo “fracasaría,” es decir, que reduciría las tasas de conversión y se tendría que detener mucho
antes de lo planeado. Frisby se rió: “Tales especulaciones no son infundadas. Los grandes experimentos
pueden sufrir o fracasar estrepitosamente.” Añadió: “De verdad disfruto dichos experimentos, más
que las pruebas graduales. Pero requieren de un profundo conocimiento técnico y de una comprensión
profunda de nuestro negocio y la estrategia. Mucha gente ha estado aquí menos de un año. Puede que
haya hecho 30 a 40 experimentos, así que es mejor que siga con las pruebas graduales.”
19
619-S13 Booking.com
Anexo 1 Página de inicio de Booking.com
a) Vista desde Europa
b) Vista desde la India
Fuente: Página web de la empresa (www.booking.com).
20
Booking.com 619-S13
Anexo 2 Las principales finanzas de The Priceline Group (en miles de dólares norteamericanos,
salvo los datos por acción)
Fuente: Documentos de la compañía (página web de Group) y Capital IQ para capitalización del mercado.
21
619-S13 Booking.com
Anexo 3 Los datos estadísticos de The Priceline Group (en millones de dólares norteamericanos,
datos del crecimiento en millón de unidades)
4Q17 3Q17 2Q17 1Q17 4Q16 3Q16 2Q16 1Q16 4Q15
Reservas brutasa
Agencia $15,015 $18,594 $17,947 $18,140 $12,978 $15,757 $15,369 $14,534 $10,344
Comerciante 2,965 3,168 2,850 2,546 2,134 2,703 2,494 2,119 1,670
Total 17,980 21,762 20,797 20,687 15,112 18,460 17,862 16,653 12,015
Año/Año Crecimiento
Agencia 15.7% 18.0% 16.8% 24.8% 25.5% 22.6% 19.4% 22.1% 15.3%
Comerciante 39.0% 17.2% 14.3% 20.2% 27.8% 40.2% 19.1% 13.5% (0.9%)
Total 19.0% 17.9% 16.4% 24.2% 25.8% 24.9% 19.4% 20.9% 12.7%
Moneda constante 14% 16% 19% 27% 28% 26% 21% 26% 24%
Unidades vendidas
Noches por habitación 151.5 177.5 170.2 173.9 129.7 149.6 140.7 136.5 99.1
Crecimiento Año/Año 16.8% 18.6% 21.0% 27.4% 31.0% 29.4% 24.4% 30.5% 26.6%
Días de alquiler de 14.7 19.0 20.7 18.6 14.0 18.0 18.5 16.2 12.2
vehículos
Boletos de avión 1.6 1.7 1.8 1.8 1.6 1.9 2.0 1.8 1.7
Crecimiento Año/Año 3.1% (11.8%) (8.7%) (2.1%) (4.3%) (2.5%) (6.6%) (7.2%) (2.6%)
Utilidades brutas $2,770 $4,375 $2,952 $2,334 $2,276 $3,589 $2,430 $2,019 $1,879
Moneda constante 17% 19% 24% 17% 24% 23% 18% 27% 23%
Fuente: Documentos de la compañía (página web de Group).
a Las reservas brutas son una métrica operativa y estadística que captura el valor total en $, generalmente incluye impuestos y
comisiones de todos los servicios del viaje reservados por nuestros clientes, neto de cancelaciones. Puede que las
cantidades no den un total debido al redondeo.
22
Booking.com 619-S13
Anexo 4 Ejemplos de pruebas A/B realizadas por Booking.com
ï Conocimiento: La investigación sugirió que a los usuarios sí les importa la zona en la que está
ubicada la propiedad como parte de su proceso de decisión.
ï Hipótesis y prueba A/B: Muestra una evaluación sobre la facilidad de caminar (es decir, que tanto
les gustó a los huéspedes caminar en la zona) que ayuda a los usuarios a tomar mejores decisiones
sobre la ubicación de una propiedad.
ï Resultado: El tratamiento no tuvo un impacto significativo en la métrica clave; la hipótesis no

resultó y la práctica actual sigue siendo la campeona.
Fuente: Entrevistas de la compañía.
23
619-S13 Booking.com
Anexo 4 (continuación)
ï Conocimiento: La investigación de los usuarios sugirió que se podía mejorar el proceso de salida.
ï Hipótesis y prueba A/B: Mostrar la fecha de salida cuando se elige el número de niños, mejora la
experiencia del usuario (al agregar mayor claridad).
“A”, el control (el campeón)
Muestra la práctica actual
Habitaciones Adultos Niños
“B”, el tratamiento (el contrincante)
Agrega la fecha de salida arriba de las edades de los niños
Habitaciones Adultos Niños
ï Resultado: El tratamiento tuvo un impacto positivo significativo en la métrica principal; la

hipótesis resultó estar fundamentada y se lanzó al contrincante como el nuevo campeón.
24
Booking.com 619-S13
Anexo 5 El volante de crecimiento de Booking.com
Fuente: Autores de los casos (de entrevistas de la compañía).
25
619-S13 Booking.com
Anexo 6 Principios del diseño de la plataforma de experimentación de Booking
Fuente: Documentos de la compañía.
Anexo 7 La organización central de Booking
Departamento Tamaño Comentario Responsabilidad

Producto 180 equipos (como Incluye desarrollo de Llevar tráfico a la página
1.200 empleados) mercadotecnia (20 web; diseñar y optimizar la
equipos, 110 empleados) experiencia del usuario
y las unidades
empresariales (Booking
Home, Pagos,
Experiencia)
Servicios a socios 30 equipos (como No incluye alrededor de Aumentar la red de
190 empleados) 8.000 agentes que alojamientos; diseñar y
atienden a clientes y optimizar la experiencia
sociosa del cliente
Atención a clientes 25 equipos (como No incluye alrededor de Resuelve los problemas
155 empleados) 8.000 agentes que relacionados con las
atienden a clientes y reservas
socios*
Infraestructura central 40 equipos (como No incluye servicios de TI Desarrollar, gestionar y
240 empleados) mejorar la plataforma
tecnológica

a Una parte de la fuerza laboral es externa y por temporadas (aproximadamente 1.500-1.800) para atender la demanda punta.
26
Booking.com 619-S13
Anexo 8 Los valores compartidos de Booking
Valor Explicación
Tenemos una curiosidad genuina y nos sentimos motivados por las
1. Creemos en el poder de la nuevas posibilidades. No nos satisface el statu quo, y no tenemos
curiosidad, la experimentación y el miedo de fallar. Al revés, nos emociona la experimentación
aprendizaje continuo. constante que se requiere para entender mejor las necesidades de
nuestros clientes y aceptar el perfeccionamiento continuo de
nuestros equipos, productos y procesos.
Sabemos que los equipos logran lo que los individuos no pueden y
2. A nosotros nos importa más que nos va sumamente bien al colaborar. Nos enorgullecemos de lo
alcanzar el éxito conjuntamente que que podemos lograr conjuntamente y estamos contentos de hacer a
nuestras metas individuales. un lado nuestras ambiciones personales a fin de hacer lo que se
requiere para lograr el éxito como equipo.
Sabemos que nuestro verdadero enemigo es la arrogancia, todos
los días nos recordamos lo mucho que nos falta hacer para crear la
3. Somos modestos, abiertos y
experiencia perfecta del cliente. Es de vital importancia ser abiertos
amistosos, sabiendo que nuestra
y amistosos. Nuestra diversidad natural –en todas las formas
diversidad nos da fuerza.
imaginables‒ refleja la diversidad de nuestros clientes, y la
capacidad de incorporar muchos puntos de vista es crítica para
nuestro éxito.
Cada uno de nosotros tiene un papel que jugar y hay que ser
4. Acogemos la oportunidad de responsable de lo que nos toca con confianza en uno mismo. Esto
mejorar y entender que el éxito significa que no tememos asumir la responsabilidad que se nos da,
comienza con la rendición de cuentas admitir cuando nos equivocamos o presionarnos entre nosotros para
y el ser los responsables de lo que mejorar. Estamos dispuestos a actuar a nombre de toda la empresa
hacemos. y sabemos que sólo somos exitosos cuando brindamos apoyo y
cuestionamos.
El adaptarse al cambio es necesario para cerciorarnos de que
podemos responder a las demandas cambiantes de los clientes, la
dinámica de la industria y el alto crecimiento. Algunos viven a
5. Prosperamos con el cambio.
merced del cambio y lo evitan a toda costa. Otros intentan lidiar con
el cambio e “írsela llevando.” En Booking.com, prosperamos.
Creemos que el cambio rápido produce nuevas oportunidades y nos
entusiasma lo que nos aporta.
Fuente: Documentos de la empresa (página web: https://workingatbooking.com/about-booking/).
27
619-S13 Booking.com
Anexo 9 La plantilla de la hipótesis y el ejemplo
a) Plantilla
b) Ejemplo
28
Booking.com 619-S13
Anexo 10 La terminología fuera de internet y los experimentos en internet
Término Explicación Ejemplo

Hipótesis Una propuesta que se puede poner a El abrir nuestras tiendas una hora
prueba, normalmente acerca del más tarde (“el tratamiento”) tendrá un
impacto del tratamiento sobre una impacto en los ingresos de las ventas
métrica cuantificable diarias (“la métrica”)
Hipótesis inválida No existe relación entre el tratamiento y El abrir nuestras tiendas una hora
la métrica. más tarde no tendrá impacto alguno
en los ingresos de las ventas diarias
Hipótesis alternativa Hay una relación entre el tratamiento y El abrir nuestras tiendas una hora
la métrica. más tarde tendrá un impacto en los
ingresos de las ventas diarias
Control Suele ser la práctica actual Ningún cambio en las horas en que
abren las tiendas
Variantes Distintos niveles de tratamiento Una hora más tarde, dos horas más
tarde, etc.
Pruebas A/B Los usuarios están expuestos Una actual página web (A) se
aleatoriamente a los niveles de control compara con variantes (B/n) de
(A) y de tratamiento (B/n) para poderlos distintos colores, y se comparan sus
comparar tasas de conversión
Error tipo 1 Encontrar una relación cuando no existe Concluimos que el abrir las tiendas
(Falso positivo) ninguna (rechazar una hipótesis una hora más tarde tiene un impacto
verdaderamente inválida) en los ingresos –aunque no tenga
impacto alguno
Valor p La probabilidad de cometer un error del A p=0.10, hay un 10% de posibilidad
tipo 1 (el umbral se suele escoger de de que concluyamos,
0.05 o 0.10) equivocadamente, que el abrir las
tiendas una hora más tarde impacta
los ingresos
Confianza No encontrar relación alguna cuando no El nivel de confianza = 1 – el valor de

existe ninguna (fallar al no rechazar una p. A p=0.10, el nivel de confianza es
hipótesis verdaderamente inválida) de 90%
Error tipo 2 No encontrar relación alguna cuando sí Concluimos que el abrir las tiendas
(Falso Negativo) hay una (fallar al no rechazar una una hora más tarde no tiene impacto
hipótesis inválida falsa) en los ingresos – aunque sí lo tenga
Poder Concluimos que abrir las tiendas una
La probabilidad de encontrar una hora más tarde tiene impacto en los
relación cuando sí hay una (rechazar ingresos –cuando esto es cierto. El
una hipótesis inválida falsa). El poder poder deseado de un experimento
aumenta con el tamaño de la prueba, la suele ser entre 0 y 0.95
magnitud del efecto, y el significado.
Fuente: Los redactores de los casos.
29
619-S13 Booking.com
Anexo 11 El experimento de la página de inicio
30
Booking.com 619-S13
Notas finales
1 Statista. “Online travel market – Statistics & Facts.” Statista Web site. https://www.statista.com/topics/2704/online-travel-
market/, accessed July 2018.
2 Statista. “Online travel market—Statistics & Facts.” Statista Web site. https://www.statista.com/topics/2704/online-travel-
3 Statista. “Online travel market—Statistics & Facts.” Statista Web site. https://www.statista.com/topics/2704/online-travel-
4 The Priceline Group was renamed Booking Holdings in 2018.
5 CB Insights. “Where the Big Four Online Travel Agencies—Expedia, TripAdvisor, CTrip, & Priceline—Are Placing Their
Bets.” CB Insights Research Briefs Web site. https://www.cbinsights.com/research/expedia-priceline-tripadvisor-ctrip-
investments/, accessed July 2018.
6 CB Insights. “Where the Big Four Online Travel Agencies—Expedia, TripAdvisor, CTrip, & Priceline—Are Placing Their
Bets.” CB Insights Research Briefs Web site. https://www.cbinsights.com/research/expedia-priceline-tripadvisor-ctrip-
investments/, accessed July 2018.
7 Euromonitor International. “Travel Industry and Online Travel Global Overview.” Euromonitor International Web site.
http://www.euromonitor.com/travel-industry-and-online-travel-global-overview/report, accessed July 2018.
8 Euromonitor International. “Travel Industry and Online Travel Global Overview.” Euromonitor International Web site.
http://www.euromonitor.com/travel-industry-and-online-travel-global-overview/report, accessed July 2018.
9 TechStartups Team. “Google is disrupting the travel industry, killing Expedia, Priceline, and Travelocity with $14 billion
revenue in 2017.” TechStartups, December 28, 2017. https://techstartups.com/2017/12/28/google-disrupting-travel-industry-
killing-expedia-priceline-travelocity-14-billion-revenue-2017/, accessed July 2018.
10 Kim, Tae. “Amazon could disrupt online travel industry next, Morgan Stanley says” CNBC On the Web, March 9, 2018.
https://www.cnbc.com/2018/03/09/amazon-could-disrupt-online-travel-industry-next-morgan-stanley-says.html, accessed
July 2018.
11 Schaal, Dennis. “The definitive oral history of online travel.” Skift, July 17, 2016, at https://skift.com/history-of-online-
travel/, accessed in April 2018.
12 Schaal, Dennis. “The definitive oral history of online travel.” Skift, July 17, 2016, at https://skift.com/history-of-online-
travel/, accessed in April 2018.
13 Sorrells, Mitra, “Booking Holdrings reveals $12.7B revenue, goes lukewarm on Airbnb threat.” Phocuswire, February 28,
2018. https://www.phocuswire.com/Booking-Holdings-earnings-full-year-2017, accessed July 2018.
16 Kohavi, R. and S. Thomke. “The Surprising Power of Online Experiments.” Harvard Business Review (Sept.-Oct. 2017).
17 Panyaarvudh, Jintana. “Booking a niche in the travel world.” The Nation On the Web, June 18, 2017.
http://www.nationmultimedia.com/news/Startup_and_IT/30318362, accessed July 2018.
19 Pieta, Tomasz. “5 ways to listen to your customers.” Booking.design, October 24, 2016. https://booking.design/5-ways-to-
listen-to-your-customers-8d06b67702a6, accessed July 2018.
21 Lukas Vermeer PDF slide presentation: “Democratizing online controlled experiments at Booking.com.”
31

Caso Examen Innovacion

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Caso Examen Innovacion

Cargado por

Copyright:

Formatos disponibles

619 - S 13

— Gillian Tans, CEO, Booking.com

La industria de viajes en internet

Desarrollar a mayor escala

En 2017, en respuesta a AirBnB y a otros competidores, Booking aumentó su oferta de “alojamiento

Las pruebas A/B

— Redactor de la experiencia del usuario, Booking.com

explicó: “Irónicamente, la centralización de nuestra infraestructura de experimentación es lo que

A lo largo de la empresa los empleados estaban organizados en equipos multidisciplinarios de 6 a

El director de Productos, Geert-Jan Grimberg, recordó un ejemplo: “Nuestras tasas de conversión

Varias configuraciones y procesos en la creación de un experimento estaban automatizadas; por

Mientras se llenaba el formulario electrónico, el sistema le informaba a los equipos sobre

La plataforma de Booking también verificaba automáticamente los datos y enviaba mensajes de

Asimismo, la administración superior se cercioraba de que la gente no experimentara simplemente

Finalmente, aprovechar el poder de los experimentos online dependía de la administración y la

El experimento había sido particularmente complejo de configurar. Frisby había trabajado en su

Anexo 1 Página de inicio de Booking.com

a) Vista desde Europa

b) Vista desde la India

Fuente: Página web de la empresa (www.booking.com).

4Q17 3Q17 2Q17 1Q17 4Q16 3Q16 2Q16 1Q16 4Q15

Fuente: Documentos de la compañía (página web de Group).

Anexo 4 Ejemplos de pruebas A/B realizadas por Booking.com

ï Resultado: El tratamiento no tuvo un impacto significativo en la métrica clave; la hipótesis no

“A”, el control (el campeón)

Muestra la práctica actual

Habitaciones Adultos Niños

“B”, el tratamiento (el contrincante)

Agrega la fecha de salida arriba de las edades de los niños

Habitaciones Adultos Niños

ï Resultado: El tratamiento tuvo un impacto positivo significativo en la métrica principal; la

Anexo 5 El volante de crecimiento de Booking.com

Fuente: Autores de los casos (de entrevistas de la compañía).

Anexo 6 Principios del diseño de la plataforma de experimentación de Booking

Fuente: Documentos de la compañía.

Anexo 7 La organización central de Booking

Departamento Tamaño Comentario Responsabilidad

Fuente: Entrevistas de la compañía.

Anexo 8 Los valores compartidos de Booking

Fuente: Documentos de la empresa (página web: https://workingatbooking.com/about-booking/).

Anexo 9 La plantilla de la hipótesis y el ejemplo

Fuente: Documentos de la compañía.

Anexo 10 La terminología fuera de internet y los experimentos en internet

Término Explicación Ejemplo

Confianza No encontrar relación alguna cuando no El nivel de confianza = 1 – el valor de

Fuente: Los redactores de los casos.

Anexo 11 El experimento de la página de inicio

Fuente: Documentos de la compañía.

También podría gustarte