Libro The Big Data Transformation

La Transformación
del Big Data

Entendiendo Porque el Cambio es Actualmente
Bueno para Su Negocio
Alice LaPlante
Plataforma de Analítica de HPE Vertica
Acelerando el cambio con análisis de alto rendimiento a escala
HPE Vertica es la plataforma de analítica de bases de datos SQL más avanzada

construida desde la primera línea de código para manejar los volúmenes de datos más
grandes y las iniciativas de Big Data más exigentes. Disponible en la más amplia gama
de modelos de implementación y consumo, la máquina de aprendizaje en la base de
datos de HPE Vertica, almacenamiento y ejecución inteligente en columnas,
compresión agresiva de datos y arquitectura MPP escalable permite a las
organizaciones capitalizar sus activos más estratégicos: los datos.
Guess ofrece informes esenciales con un rendimiento de consulta 90-400 veces más rápido para
capacitar a todos, diseñadores, compradores, planificadores y gerentes de tiendas minoristas, para
servir mejor a los clientes.
Criteo impulsa las ventas de comercio electrónico mediante el uso de análisis predictivos nativos en
la base de datos para orientar publicidades para 1.100 millones de usuarios de Internet por mes con
una precisión milimétrica.
Cerner utiliza un rendimiento del sistema un 6,000% más rápido para analizar la eficiencia del
médico en la historia clínica electrónica (EMR), lo que lleva a una mejor calidad de atención al
paciente.
Supercell aprovecha el análisis en tiempo real en el juego para comprender el comportamiento del
usuario, realizar pruebas de productos y mejorar la experiencia de juego para 100 millones de
jugadores todos los días.
El Comité Nacional Demócrata ayudó a reelegir a un presidente de los EE. UU. Utilizando
marketing basado en datos y modelos predictivos para comprender mejor y anticipar el
comportamiento de los votantes.
Descarge hoy nuestra Edición

Comunitaria HPE Vertica
http://my.vertica.com/ce/oreilly
La Transformación
del Big Data
Comprenda por qué el cambio es
realmente bueno para su negocio
Alice LaPlante
Beijing Boston Farnham Sebastopol Tokyo

La Transformación del Big Data
por Alice LaPlante
Copyright © 2016 O’Reilly Media Inc. Todos los derechos reservados
Impreso en los Estados Unidos de América.
Publicado por O’Reilly Media, Inc., 1005 Gravenstein Highway North, Sebastopol, CA
95472.
Los libros de O'Reilly se pueden comprar para uso promocional educativo, comercial o
de ventas.
Las ediciones en línea también están disponibles para la mayoría de los títulos
(http://safaribooksonline.com). Para más información, comuníquese con nuestro
departamento de ventas corporativa/institucional:
800-998-9938 o corporate@oreilly.com
Editores: Tim McGovern and Diseñador de Interiores: David Futato

Debbie Hardin Diseñador de Portada: Randy Comer
Editor de Producción : Colleen Lobner Ilustrador: Rebecca Demarest
Editor de copia: Octal Publishing Inc.
Agosto 2016: Primera Edición
Historial de revisiones para la primera edición

2016-08-08: Primer Lanzamiento
El logotipo de O'Reilly es una marca registrada de O'Reilly Media, Inc. La

Transformación del Big Data, la imagen de portada y la imagen comercial relacionada
son marcas registradas de O'Reilly Media, Inc.
Si bien el editor y el autor han utilizado los esfuerzos de buena fe para garantizar que la
información y las instrucciones contenidas en este trabajo son precisas, el editor y el
autor declina toda responsabilidad por errores u omisiones, incluida, entre otras, la
responsabilidad por los daños resultantes del uso o dependencia de este trabajo.
El uso de la información y las instrucciones contenidas en este trabajo es bajo su propio
riesgo. Si algún ejemplo de código u otra tecnología que este trabajo contiene o describe
está sujeto a licencias de código abierto o derechos de propiedad intelectual de terceros,
es su responsabilidad asegurarse de que su uso del mismo cumpla con dichas licencias
y/o derechos.
978-1-491-96472-9
[LSI]
Tabla de Contenidos
1. Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
Big Data: Un Breve Estudio 1
Un Mercado Abarrotado para bases de datos analíticos del
Big Data 2
Sí, necesita otra base de datos: Encontrar la herramienta
adecuada para el trabajo 4
Clasi cando a través de la Exageración 7
2. ¿Por dónde Empezar? Siga el Ejemplo de esta Empresa de

Almacenamiento de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
Alineación de tecnólogos y partes interesadas empresariales 10
Lograr lo "Escandaloso" con Big Data 11
Monetizando el Big Data 13
¿Por que Vertica? 13
Elegir la Base de Datos Analítica Correcta 14
Búsqueda de los Botones Ardientes 16
3. El Modelo del Centro de Excelencia: Consejos de Criteo . . . . . . . . . . . . . . . 17

Mantener el Negocio en el Camino Correcto de Big Data 20
Los Riesgos de no tener un CoE 22
Los Mejores Candidatos para un CoE de Big Data 22
4. Es Hadoop una Panacea para Todas las Cosas del Big Data? YPSM Dice No 23
YP se Transforma a si mismo a través del Big Data 25
5. Escalas Cerner para el Éxito. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

Una prueba de concepto gigantesca 30
Proporcionar Mejores Resultados para el Paciente 32
v
Vertica: Ayuda a Mantener las Luces Encendidas 33
Analizando los Números 35
6. Hagas lo que hagas, No hagas esto, Advierte Etsy. . . . . . . . . . . . . . . . . . . . 41

No olvide Considerar a su Usuario Final cuando Diseñe su
Sistema de Análisis 41
No subestime la demanda para Analíticos de Big-Data 42
No seas Ingenuo Acerca de Cuan Rápido Crece el Big Data 43
No Descarte los Datos 44
No se agobie tanto con Demasiada "Deuda Técnica" 44
No Olvide Considerar cómo va a Obtener Datos en
su Nueva Base de Datos 45
No construya la Gran Muralla China entre su Departamento
de Ingeniería de Datos y el Resto de la Compañía 46
No Sea Grande antes de que haya Tratado Ser Pequeño 47
No Piense que Big Data es Simplemente un Cambio Técnico 47
vi | Tabla de Contenidos
CAPÍTULO 1
Introducción
Estamos en la era de los datos. Los datos grabados duplican su tamaño cada dos
años, y en 2020 habrá capturado tantos bits digitales como estrellas en el
universo, alcanzando la asombrosa cifra de 44 zettabytes, o 44 billones de
gigabytes. En estas guras se incluyen los datos comerciales generados por las
aplicaciones empresariales, así como los datos humanos generados por los sitios
de redes sociales como Facebook, LinkedIn, Twitter y YouTube.
Big Data: Un breve estudio

La descripción de Big Data por Gartner, se centra en las "tres V": volumen,
velocidad y variedad, se ha convertido en un lugar común. Los Big Data tienen
todas estas características. Hay muchos, se mueven rápidamente y proviene de
una amplia gama de fuentes.
Una de nición más pragmática es la siguiente: usted sabe que tiene grandes
cantidades de datos cuando posee diversos conjuntos de datos de múltiples
fuentes que son demasiado grandes para una administración y análisis rentables
dentro de un marco de tiempo razonable al usar sus infraestructuras de TI
tradicionales. Estos datos pueden incluir datos estructurados tal como se
encuentran en bases de datos relacionales, así como datos no estructurados,
como documentos, audio y video.
IDG estima que el big data impulsará la transformación de TI hasta 2025. Los
principales responsables de la toma de decisiones en las empresas lo entienden.
El ochenta por ciento de las empresas ha iniciado grandes proyectos basados en
datos como las principales prioridades estratégicas. Y estos proyectos están
sucediendo en prácticamente todas las industrias. La Tabla 1-1 enumera solo
algunos ejemplos.
1
Tabla 1-1. Transformando los procesos de negocios en todas las industrias
Industria Casos de uso del Big Data
Automotriz Sensores automáticos que informan problemas de ubicación del vehículo
Servicios Financieros Riesgo, detección de fraude, análisis de cartera, desarrollo de nuevos productos
Fabricación Garantía de calidad, análisis de garantías
Salud Sensores de pacientes, monitoreo, registros de salud electrónicos, calidad de atención
Aceite y gas Análisis del sensor de exploración de perforación
Venta al por menor Análisis del sentimiento del consumidor, marketing optimizado, orientación personalizada,
análisis de la cesta de mercado, previsión inteligente, gestión de inventario
Utilidades Análisis de medidores inteligentes para la capacidad de red, red inteligente
Cumplimiento de la ley Análisis de amenazas, monitoreo de redes sociales, análisis fotográ co, optimización del trá co
Publicidad Orientación al cliente, publicidad basada en la ubicación, reorientación personalizada,
detección/prevención de abandono
Un Mercado Abarrotado para bases de datos

analíticos del Big Data
Dado todo el interés en el Big Data, no sorprende que muchos proveedores de
tecnología hayan saltado al mercado, cada uno con una solución que
supuestamente lo ayudará a obtener valor de sus grandes datos.
La mayoría de estos productos resuelve una pieza del rompecabezas del Big Data.
Pero, es muy importante tener en cuenta, nadie tiene la imagen completa. Es
esencial contar con la herramienta adecuada para el trabajo. Gartner llama a esto
"ingeniería de mejor ajuste".
Esto es especialmente cierto cuando se trata de bases de datos. Las bases de datos
forman el corazón del Big Data. Han existido durante medio siglo. Pero han
evolucionado casi más allá del reconocimiento durante ese tiempo.
Las bases de datos del Big Data analíticos son animales completamente
diferentes a las bases de datos de computadoras centrales en los años 60 y 70,
aunque SQL ha sido una constante durante los últimos 20 a 30 años.
Ha habido cuatro ondas principales en esta evolución de la base de datos.
Bases de Datos de Computadoras Centrales

Las primeras bases de datos fueron bastante simples y utilizadas por el
gobierno, los ser vicios nancieros y las organizaciones de
telecomunicaciones para procesar lo que (en ese momento) pensaban que
eran grandes volúmenes de transacciones. Sin embargo, no hubo ningún
intento de optimizar la colocación de los datos en las bases de datos o su
recuperación. Y eran caros, no todas las empresas podían pagarlo.
2 | Cápitulo 1: Introducción
Procesamiento transaccional en línea de bases de datos (OLTP)
El nacimiento de la base de datos relacional utilizando el modelo cliente /
servidor nalmente trajo la computación asequible a todas las empresas.
Estas bases de datos se volvieron aún más ampliamente accesibles a través
de Internet en forma de aplicaciones web dinámicas y gestión de
relaciones con los clientes (CRM), gestión de recursos empresariales
(ERP) y sistemas de comercio electrónico.
Almacenes de datos
La próxima ola permitió a las empresas combinar datos transaccionales,
por ejemplo, de recursos humanos, ventas y nanzas, junto con soware
operativo para obtener información analítica sobre sus clientes,
empleados y operaciones. Varios proveedores de bases de datos
asumieron roles de liderazgo durante este tiempo. Algunos eran nuevos y
otros eran extensiones de bases de datos OLTP tradicionales.
Además, nació una industria completa que generó inteligencia de
negocios (BI) y herramientas para extraer, transformar y cargar (ETL).
Plataformas de analíticas de macrodatos

Durante la cuarta ola, las principales empresas comenzaron a reconocer
que los datos son su activo más importante. Pero manejar el volumen, la
variedad y la velocidad de los macrodatos superó con creces las
capacidades de los almacenes de datos tradicionales. En particular, las
oleadas de bases de datos anteriores se habían centrado en la optimización
de cómo obtener datos en las bases de datos. Estas nuevas bases de datos se
centraron en obtener información accionable de ellos. El resultado: las
bases de datos analíticas actuales pueden analizar volúmenes masivos de
datos, tanto estructurados como no estructurados, a velocidades sin
precedentes. Los usuarios pueden consultar fácilmente los datos, extraer
informes y acceder a los datos para tomar mejores decisiones comerciales
mucho más rápido de lo que era posible anteriormente. (Piense en horas
en lugar de días y segundos/minutos en lugar de horas).
Un ejemplo de una base de datos analítica, la que exploraremos en este

documento, es Vertica de Hewlett Packard Enterprise (HPE).
Vertica es una base de datos de procesamiento paralelo masivo (MPP), lo que
signi ca que propaga los datos a través de un clúster de servidores, lo que hace
posible que los sistemas compartan la carga de trabajo de procesamiento de
consultas. Creado por el legendario gurú de bases de datos y ganador del premio
Turing Michael Stonebraker, y luego adquirido por HP, la plataforma Vertica
Analytics era construida especí camente desde su primera línea de código para
optimizar el análisis de macrodatos.
Un mercado abarrotado para bases de datos analíticos del Big Data | 3

Tres cosas en particular distinguen a Vertica, según Colin Mahony,
vicepresidente senior y gerente general de HPE Soware Big Data:
Sus creadores vieron cuán rápidamente crecía el volumen de datos y

diseñaron un sistema capaz de escalar para manejarlo desde cero.
También entendieron todas las diferentes cargas de trabajo analíticas que

las empresas querrían correr en contra de sus datos.
Se dieron cuenta de que obtener un excelente rendimiento de la base de

datos de una manera rentable era una prioridad para las empresas.
Sí, necesita otra base de datos: Encontrar la

herramienta adecuada para el trabajo
Según Gartner, los volúmenes de datos crecen entre un 30 y un 40 por ciento
anual, mientras que los presupuestos de TI solo aumentan un 4 por ciento.
Las empresas tienen más datos con los que lidiar que dinero.
Es probable que tengan un almacén de datos tradicional, pero el gran tamaño de
los datos que llegan es abrumador. Pueden ir a la ruta del lago de datos y
con gurarla en Hadoop, lo que ahorrará dinero al capturar todos los datos que
ingresan, pero no les ayudará mucho con los análisis que comenzaron todo el
ciclo. Esta es la razón por la cual estas empresas recurren a bases de datos
analíticas.
Normalmente, las bases de datos analíticas se ubican junto al sistema de registro,

ya sea Hadoop, Oracle o Microso, para realizar análisis rápidos del Big Data.
En resumen: las personas suponen que una base de datos es una base de datos,
pero eso no es cierto.
Aquí hay una metáfora creada por Steve Sars eld, un gerente de marketing de
productos de HPE, para articular la situación (ilustrada en la Figura 1-1):
Si dices "Necesito un martillo", la herramienta correcta que necesitas está

determinada por lo que vas a hacer con ella.
Yo necesito un martillo
Clavos y Construcción Judicial Cumplimiento de la ley Pila de Conducción Médico
Ideal para clavar y Se utiliza para poner Usado por los dioses Construcción de bases Probando los reflejos de
arrancar clavos orden en la corte (técni- nórdicos para traer de construcción los pacientes
camente un martillo) justicia al universo
Figura 1-1. Diferentes martillos son buenos para diferentes cosas
El mismo escenario es cierto para las bases de datos. Dependiendo de lo que

desee hacer, elegiría una base de datos diferente, ya sea una base de datos
analítica MPP como Vertica, una base de datos XML o una base de datos NoSQL;
debe elegir la herramienta adecuada para el trabajo que necesita hacer.
Debe elegir según tres factores: estructura, tamaño y análisis. Veamos un poco
más de cerca cada uno:
Estructura
¿Sus datos se ajustan a un modelo de datos limpio y agradable? ¿O el
esquema carecerá de claridad o será dinámico? En otras palabras,
¿necesita una base de datos capaz de manejar datos estructurados y no
estructurados?
Tamaño
¿Son sus datos "grandes datos" o tiene el potencial de convertirse en
grandes datos? Si su respuesta es "sí", necesita una base de datos de análisis
que pueda escalar adecuadamente.
Analíticos
¿Qué preguntas quieres hacer con los datos? ¿Consultas de ejecución
corta o consultas más profundas, de ejecución más larga o predictivas?
Por supuesto, tiene otras consideraciones, como el Costo Total de Propiedad

(TCO) basado en el costo por terabyte, la familiaridad de su personal con la
tecnología de la base de datos y la apertura y comunidad de la base de datos en
cuestión.
Aún así, sin embargo, las tres consideraciones principales siguen siendo la
estructura, el tamaño y el análisis. El punto óptimo de Vertica, por ejemplo, es
realizar consultas largas y profundas de datos estructurados en reposo que
tienen esquemas jos. Pero incluso entonces hay formas de ampliar el espectro
Sí, necesita otra base de datos: Encontrar la herramienta adecuada para el trabajo | 5
de lo que Vertica puede hacer mediante el uso de tecnologías como Kaa y Flex
Tables, como se muestra en la Figura 1-2.
Extender el espectro
Operacional Analítico
HPE Vertica
Consultas Largas
Consultas breves Datos en Reposo
Datos en movimiento Tablas
Flexibles
(Esquema en
Con ayuda de Katka Esquemas Lectura)
(Microbatch) Fijos
Estructurado Desestructurado
Hewlett Packard
Enterprise
Figura 1-2. Extender el espectro de lo que Vertica puede hacer
Al nal, los factores que impulsan la decisión de su base de datos son las mismas
fuerzas que impulsan las decisiones de TI en general. Tú quieres:
Aumentar los ingresos

¿Sus datos se ajustan a un modelo de datos limpio y agradable? ¿O el
esquema carecerá de claridad o será dinámico? En otras palabras,
¿necesita una base de datos capaz de manejar datos estructurados y no
estructurados?
Mejora la e ciencia
Debe elegir soluciones de análisis de Big Data que reduzcan los costos de
licencias de soware, le permitan realizar procesos de manera más
e ciente, aprovechar las nuevas fuentes de datos de manera efectiva y
acelerar la velocidad a la que dicha información se convierte en
conocimiento.
Mejorar el cumplimiento
Finalmente, su base de datos de análisis debe ayudarlo a cumplir con las

reglamentaciones locales, estatales, federales y de la industria y asegurarse
de que su informe supere las pruebas sólidas que los mandatos
reglamentarios le otorgan. Además, su base de datos debe ser segura para
proteger la privacidad de la información que contiene, para que no sea
robada o expuesta al mundo.
Clasi cando a través de la Promoción
Hay tanta promoción sobre el Big Data que puede ser difícil saber qué creer.
Nosotros mantenemos que un tamaño único no sirve para todas las bases de
datos analíticas del Big Data. Las organizaciones de mayor rendimiento son
aquellas que han descubierto cómo optimizar cada parte de sus datos de
canalizaciones y cargas de trabajo con las tecnologías correctas.
El trabajo de los vendedores en este mercado: mantenerse al día con los

estándares para que las empresas no tengan que copiar y reemplazar sus
esquemas de datos, consultas o herramientas interfaz a medida que evolucionan
sus necesidades.
En este documento, mostramos las formas reales en que las empresas líderes
utilizan Vertica en combinación con otras soluciones de Big Data de primer nivel
para resolver desafíos empresariales reales.
Clasi cando a Través de la Exageración | 7

CAPÍTULO 2
¿Por dónde Empezar?
Siga el Ejemplo de esta Empresa
de Almacenamiento de Datos
Entonces, estás intrigado por lo del Big Data. Incluso crees que has identi cado
una necesidad empresarial real para un proyecto de Big Data. ¿Cómo se articula
y justi ca la necesidad de nanciar la iniciativa?
Al vender Big Data a su empresa, necesita conocer a su audiencia. El Big Data

puede brindar enormes bene cios para el negocio, pero debe conocer los
intereses de su audiencia.
Por ejemplo, es posible que sepa que el Big Data le ofrece lo siguiente:
Vista de cliente de 360 grados (mejora de la "adherencia" del cliente) a

través de servicios en la nube
Iteración rápida (mejora de la innovación del producto) a través de la

informática de ingeniería
Forzar multiplicadores (reduciendo los costos de soporte) a través de la

automatización de soporte
Pero si otros dentro del negocio no se dan cuenta de lo que estos bene cios
signi can para ellos, entonces es cuando necesitas comenzar a evangelizar:
Imagine el gran valor comercial que podría obtener del Big Data.
9
Comunica esa visión al negocio y luego explica lo que se requiere de ellos
para que tenga éxito
Pensar en términos de ingresos, costos, competitividad y rigidez, entre

otros bene cios
La Tabla 2-1 muestra lo que las varias partes interesadas quieren escuchar y
necesita para convencer.
Tabla 2-1. Conocer a su Audiencia

Los analistas quieren: Los dueños de Los profesionales Los cientí cos de
negocios quieren: IT quieren: datos quieren:
SQL y ODBC Nuevas fuentes Menor TCO desde una Gran velocidad para
de ingresos huella reducida consultas grandes
ACID para consistencia Gran velocidad para MPP compartido-nada R para analíticos en
respuestas críticas arquitectura base de datos
La capacidad de integrar Aumento de la Menor TCO desde una Herramientas para
soluciones de big data e ciencia operativa huella reducida explorar creativamente
en herramientas actuales el Big Data
de BI e informes
Alineación de tecnólogos y partes interesadas

empresariales
Larry Lancaster, un ex cientí co jefe de datos de una compañía que ofrece
soluciones de hardware y soware para almacenamiento de datos y respaldo,
piensa que hacer que los estrategas de negocios estén en línea con lo que los
tecnólogos saben que es correcto es un desafío universal en TI. "La gente de
tecnología habla en un idioma que la gente de negocios no entiende", dice
Lancaster. "Necesitas a alguien para cerrar la brecha". Alguien que entiende de
ambos lados lo que se necesita y lo que nalmente se entregará ", dice.
La mejor manera de ganarse los corazones y las mentes de las partes interesadas
en los negocios: muéstreles lo que es posible. "La respuesta es encontrar un
problema, y hacer un ejemplo de cómo solucionarlo", dice Lancaster.
La buena noticia es que los ejecutivos de negocios de hoy son muy conscientes
del poder de los datos. Pero la mala noticia es que ha habido una cierta cantidad
de decepción en el mercado. "Escuchamos historias sobre compañías que
arrojaron millones a Hadoop, pero no sacaron nada de eso", se lamenta
Lancaster. Estas decepciones hacen que los ejecutivos sean reticentes a invertir
grandes sumas de dinero.
10 | Cápitulo 2: ¿Por dónde Empezar? Siga el Ejemplo de esta Empresa de Almacenamiento de Datos
El consejo de Lancaster es escoger una de las dos estrategias: comenzar poco a
poco y construir poco a poco el éxito a lo largo del tiempo, o hacer un reclamo
escandaloso para llamar la atención de las personas. Aquí está su consejo sobre la
táctica gradual:
El primer enfoque es encontrar un caso de uso y resolverlo usted mismo,
en uno o dos días. No te molestes con la tecnología complicada; use Excel
Cuando obtienes resultados, trabaja para ganar visibilidad. Hablar con la
gente por encima de ti. Dígales que pudo analizar estos datos y que Bob en
marketing recibió una tasa de respuesta adicional del 5 por ciento, o que su
equipo de asistencia cerró los casos 10 veces más rápido.
Normalmente, todo lo que se necesita es una o dos personas para hacer lo que
Lancaster llama "una pequeña magia de Big Data" para convencer a la gente del
valor de la tecnología.
El otro enfoque es elegir algo que sea increíblemente agresivo y hacer una
declaración escandalosa. Dice Lancaster:
Intrigue a las personas. Saque los hechos asombrosos de lo que otras

personas están haciendo con los datos, y persuade lo poderoso que puede
ser que tu lo hagas también.
Lograr lo "Escandaloso" con Big Data

Lancaster sabe acerca de tomar la segunda ruta. Como cientí co jefe de datos,
construyó un entorno analítico desde cero que eliminó por completo los tickets
de soporte de nivel 1 y nivel 2.
Imagine decirle a una empresa que casi podría hacer desaparecer las llamadas de
soporte de rutina. Nadie dejaría pasar esa oportunidad. "Absolutamente tienes
su atención", dijo Lancaster.
Esta compañía ofrece a las empresas una propuesta de valor de almacenamiento

única en lo que llama almacenamiento predictivo ash. En lugar de obligar a las
empresas a elegir entre unidades de disco duro (económicas pero lentas) y
unidades de estado sólido (SSD, rápidas pero costosas) para el almacenamiento,
ofrecían lo mejor de ambos mundos. Mediante el uso de análisis predictivos,
crearon sistemas que fueron muy inteligentes acerca de qué datos iban a los
diferentes tipos de almacenamiento. Por ejemplo, los datos que las empresas iban
a leer aleatoriamente entraron en los SSD. Los datos para lecturas secuenciales, o
quizás ninguna lectura, se colocaron en los discos duros.
¿Cómo lograron todo esto? Recolectando cantidades masivas de datos de todos

los dispositivos en el campo a través de telemetría, y enviándolos de nuevo a su
base de datos de análisis, Vertica, para su análisis.
Lograr lo “Escandaloso” con Big Data | 11

Lancaster dijo que sería muy difícil, si no imposible, dimensionar las
implementaciones o usar los algoritmos correctos para hacer que los productos
de almacenamiento predictivo funcionen sin un ciclo de retroalimentación
ajustado a la ingeniería.
Entregamos un producto exitoso solo porque recopilamos su ciente

información, que fue directamente a los ingenieros, quienes continuaron
iterando y optimizando el producto. Ningún otro proveedor de
almacenamiento entiende las cargas de trabajo mejor que nosotros.
Simplemente no tienen la telemetría por ahí.
Y los datos generados por la telemetría fueron enormes. La compañía recibía de

10.000 a 100.000 puntos de datos por minuto de cada matriz en el campo. Y
cuando tienes tantos datos y comienzas a analizarlos, te das cuenta de que puedes
hacer mucho más, según Lancaster.
Queríamos aumentar el monto que nos estaba pagando, pero

necesitábamos hacer consultas más grandes más rápido. Teníamos un
equipo de cientí cos de datos y no queríamos que jugueteasen con sus
pulgares. Eso es lo que nos trajo a Vertica.
Sin Vertica ayudando a analizar los datos de telemetría, tendrían un equipo de

soporte tradicional, abriendo casos en problemas en el campo y escalando
problemas más difíciles a los ingenieros, que luego necesitarían simular procesos
en el laboratorio.
"Estamos hablando de un proceso lento y muy laborioso", dijo Lancaster, quien

cree que toda la compañía tiene una mejor comprensión de cómo funciona el
almacenamiento en el mundo real que cualquier otro proveedor de
almacenamiento, simplemente porque tiene los datos.
Como resultado de la implementación de Vertica, este negocio abre y cierra el 80

por ciento de sus casos de soporte automáticamente. El noventa por ciento se
abre automáticamente. No es necesario llamar a los clientes y pedirles que
recopilen datos o envíen mensajes. Los casos que normalmente tardarían días en
resolverse se cierran en una hora.
También usan Vertica para auditar todo el almacenamiento que sus clientes han
implementado para comprender cuánto está protegido. "Sabemos con
instantáneas locales, cuánto de ella se replica para la recuperación de desastres,
cuánto espacio adicional se necesita para aumentar el tiempo de retención, y así
sucesivamente", dijo Lancaster. Esto les permite dirigirse a los clientes con
recomendaciones de servicio proactivas para proteger sus datos de la manera
más rentable.
Monetizando Big Data
Lancaster cree que cualquier compañía podría encontrar aspectos de soporte,
mercadotecnia o ingeniería de producto que podrían mejorar por al menos dos
órdenes de magnitud en términos de e ciencia, costo y desempeño si utilizara
los datos tanto como su organización.
Más que eso, las empresas deberían encontrar formas de monetizar los datos.
Por ejemplo, la compañía de Lancaster creó una oferta de servicios profesionales

que incluía dedicar un ingeniero a una cuenta de cliente, no solo para el
almacenamiento sino también para el lado del host del entorno, para optimizar
la con abilidad y el rendimiento. Esta oferta fue bastante costosa para que los
clientes la compren. Al nal, debido a los análisis realizados en Vertica, la
organización pudo automatizar casi todas las funciones del servicio. Sin
embargo, los clientes aún estaban dispuestos a pagar mas dólares por ello. Dice
Lancaster:
Las empresas se suscribirían, por lo que pudimos agregar un 10% a

nuestros ingresos simplemente aprovechando mejor los datos que ya
estábamos recopilando. Cualquiera podría tomar sus datos y descubrir
una ganancia inesperada de ingresos similar.
Ya en la mayoría de las industrias, hay guerras ya que las empresas compiten por
una ventaja competitiva basada en datos.
Por ejemplo, mire a Tesla, que recupera la telemetría de cada automóvil que
vende, cada segundo, y trabaja constantemente para optimizar los diseños en
función de lo que los clientes realmente están haciendo con sus vehículos. "Esa es
la manera de hacerlo", dice Lancaster.
¿Por que Vertica?

Lancaster dijo que primero "se enamoró de Vertica" debido a los bene cios de
rendimiento que ofrecía.
Cuando empiezas a pensar en recopilar tantos puntos de datos diferentes

como nos gusta recopilar, debes reconocer que vas a terminar con un par
de opciones en una la de almacenamiento. O vas a tener tablas muy
angostas, y muchas de ellas, o vas a estar desperdiciando una gran
cantidad de I/O sobrecargando las enteras donde solo necesitas un par
de campos.
Pero a medida que comenzó a utilizar Vertica cada vez más, se dio cuenta de que
los bene cios de rendimiento alcanzables eran de otro orden de magnitud más
Monetizando Big Data | 13

allá de lo que se esperaría con solo la e ciencia de las columnas de
almacenamiento.
Es porque Vertica te permite hacer algunos tipos de codi cación muy

e cientes en tus datos. Así que todas las columnas de baja cardinalidad
que hubieran estado desperdiciando espacio en una la de
almacenamiento terminan por tomar casi ningún espacio.
Según Lancaster, Vertica es el almacén de datos que el mercado necesitaba
durante 20 años, pero que no tenía. "Tengo que decir que la codi cación agresiva
junto con la materialización tardía en una tienda de columnas fue un logro
tecnológico fundamental que cambió dramáticamente el panorama de la base de
datos", a rma.
Vertica en consultas más pequeñas, su equipo de cientí cos de datos solo estaba
experimentando latencias de segundo orden. En las grandes, recibía latencias de
menos de 10 segundos.
Es absolutamente increíble. Es un juego que cambia. Ahora las personas

pueden sentarse en sus escritorios, manipular datos, idear nuevas ideas e
iterar sin tener que ejecutar un lote e irse a casa. Es un aumento dramático
en la productividad.
¿Qué más hicieron con los datos? Dice Lancaster, "fue más bien, '¿qué no hicimos
con los datos?' Cuando contratamos a la gente de BI, todo lo que queríamos se
cargaba en Vertica, no solo en telemetría, sino también en Salesforce y en
muchos otros negocios. sistemas, y teníamos este sueño de depósito de datos en
su lugar ", dijo.
Elegir la Base de Datos Analítica Correcta

A medida que realiza su investigación, encontrará que las plataformas de Big
Data suelen ser adecuadas para nes especiales. Pero desea una solución general
con muchas características, como las siguientes:
Clickstream
Sentiment
R
ODBC
SQL
ACID
Speed
Compresión
Analíticos en Base de Datos
Y tu quieres admitir muchos casos de uso:
Datos cientí cos

BI
Herramientas
Servicios de la Nube
Informática
Pero las soluciones generales son difíciles de encontrar, porque son difíciles de
construir. Pero hay una manera segura de resolver problemas del Big Data:
reducir los datos.
Incluso antes de ser adquirida por lo que en ese momento era HP, Vertica era la
mayor base de datos analíticos puros de Big Data. Una solución general rica en
características, tenía todo lo que necesitaba la organización de Lancaster:
Arquitectura MPP escalable

Base de datos SQL con cumplimiento ACID
Funciones de ventana integradas-R, distribuida R
El primer diseño de rendimiento de Vertica hace que el Big Data se mueva con las
siguientes características de diseño:
Columna-almacenamiento
Materialización tardía
Segmentación para cómputo local de datos, à la MapReduce
Las amplias capacidades de codi cación también reducen el Big Data en el disco.
En el caso de la serie de datos de tiempo que esta empresa de almacenamiento
estaba produciendo, la huella de almacenamiento se redujo en
aproximadamente 25 veces frente a la ingestión; aproximadamente 17 veces
debido a la codi cación Vertica; y aproximadamente 1.5 veces debido a su propia
compresión en línea, de acuerdo con un análisis IDC ROI.
Incluso cuando no utilizó la compresión en línea, la compañía aún logró una

reducción de aproximadamente 25 veces en la huella de almacenamiento con la
post-compresiónVertica.
Elegir la Base de Datos Analítica Correcta | 15

Esto dio como resultado un TCO radicalmente menor para el mismo
rendimiento y un rendimiento signi cativamente mejor para el mismo TCO.
Búsqueda de los Botones Ardientes

Entonces, ¿cómo logra que su empresa comience un proyecto de datos grandes?
"Simplemente encuentre un problema que su negocio está teniendo", aconsejó
Lancaster.
"Busque un botón ardiente. Y en lugar de contratar un nuevo ejecutivo para
resolver ese problema, contrate a un cientí co de datos ".
Supongamos que su producto se está quedando atrás en el mercado, lo que

signi ca que sus comentarios sobre la ingeniería o el desarrollo de productos no
son lo su cientemente rápidos.
Y si sufre demasiado en soporte, eso se debe a que no tiene su ciente
información sobre lo que sucede en el campo.
"Traiga un cientí co de datos", aconseja Lancaster. "Resuelva el problema con los
datos".
Por supuesto, mostrar un ROI inicial es esencial, al igual que tener una visión y
un campeón. "Tienes que demostrar valor", dice Lancaster. "Una vez que haces
eso, las cosas crecerán a partir de ahí".
CAPÍTULO 3
El Modelo del Centro de
Excelencia: Consejos de Criteo
Probablemente ha estado leyendo y escuchando sobre Centros de Excelencia.

Pero, ¿qué son?
Un Centro de Excelencia (CoE) proporciona una fuente central de productos

estandarizados, experiencia y mejores prácticas para un área funcional
particular. También puede proporcionarle a una empresa visibilidad sobre los
parámetros de calidad y rendimiento del producto, servicio o proceso
entregado. Esto ayuda a mantener a todos informados y alineados con los
objetivos comerciales a largo plazo.
¿Podría bene ciarse de un gran CoE de datos? Criteo tiene, y tiene algunos
consejos para aquellos que quieran crear uno para su negocio.
Según Justin Coffey, un líder senior de desarrollo de personal en la compañía de

tecnología de marketing de rendimiento, ya sea que lo llames formalmente CoE
o no, tus iniciativas de análisis de Big Data deben estar dirigidas por un equipo
que promueva la colaboración con y entre usuarios y tecnólogos a lo largo de tu
organización. Este equipo también debe identi car y difundir las mejores
prácticas en torno al análisis de grandes datos para generar resultados valiosos
para los negocios o los clientes. HPE usa el término "democratización de datos"
para describir las organizaciones que aumentan el acceso a los datos de una
variedad de grupos internos de esta manera.
17
Dicho esto, a pesar de que el modelo tiende a ser variable entre las empresas, el
trabajo del CoE tiende a ser bastante similar, que incluye (pero no se limita a) lo
siguiente:
De nir un conjunto común de mejores prácticas y estándares de trabajo

en torno al Big Data
Evaluar (o ayudar a otros a evaluar) si están utilizando Big Data y análisis

para obtener la mejor ventaja, utilizando las mejores prácticas antes
mencionadas.
Brindar orientación y apoyo para ayudar a los ingenieros, programadores,

usuarios nales y cientí cos de datos, y otras partes interesadas a
implementar estas mejores prácticas.
A Coffey le gusta presentar a Criteo como "la compañía tecnológica más grande
de la que nunca haya oído hablar". La empresa genera conversiones para los
anunciantes a través de múltiples canales en línea: dispositivos móviles,
anuncios publicitarios y correo electrónico.
Criteo paga los anuncios grá cos, los cargos por el trá co a sus anunciantes y
optimiza las conversiones. Con sede en París, cuenta con 2.200 empleados en
más de 30 o cinas en todo el mundo, con más de 400 ingenieros y más de 100
analistas de datos.
Criteo permite a las empresas de comercio electrónico interactuar de manera

efectiva y convertir a sus clientes mediante el uso de grandes volúmenes de datos
granulares. Ha establecido uno de los mayores centros europeos de I + D
dedicados a la tecnología de marketing de alto rendimiento en París y un centro
internacional de I + D en Palo Alto. Al elegir Vertica, Criteo obtiene una visión
profunda de enormes cargas de datos, lo que le permite optimizar el rendimiento
de sus anuncios grá cos en tiempo real para cada consumidor individual en
dispositivos móviles, aplicaciones y computadoras de escritorio.
La amplitud y escala de la pila de análisis de Criteo es impresionante. Cincuenta

mil millones de eventos totales se registran por día. Tres mil millones de
pancartas se sirven por día. Más de mil millones de usuarios únicos por mes
visitan los sitios web de sus anunciantes. Su grupo Hadoop ingiere más de 25 TB
por día. El sistema genera 15 millones de predicciones por segundo de siete
centros de datos que ejecutan más de 15,000 servidores, con más de cinco
petabytes bajo administración.
18 | Cápitulo 3: El Modelo del Centro de Excelencia: Consejos de Criteo

En general, sin embargo, es una pila bastante simple, como lo ilustra la Figura 3-
1. Criteo decidió usar:
Hadoop para almacenar datos sin procesar
Base de datos HPE Vertica para almacenamiento de datos
Tableau como la interfaz de análisis de datos y herramienta de reportes

Con un millar de usuarios (hasta 300 simultáneamente durante los períodos
pico), la correcta con guración y optimización del servidor de Tableau fue
fundamental para garantizar el mejor rendimiento posible.
Una pila bastante simple
Tableau y ROLAP Cube Tableau Cube

para Acceso de Datos Estructurado
Hive y Vertica para

Hive Vertica
Almacenamiento de Datos
Conexión en Cascada, Escaldado y Cascada Escaldado Colmena

Colmena para la transformación de datos
Hadoop para almacenamiento Hadoop

primario y MapReduce
Figura 3-1. La pila de análisis de Big Data de la compañía de tecnología de

marketing de rendimiento
Criteo comenzó utilizando Hadoop para análisis interno, pero pronto descubrió
que sus usuarios no estaban contentos con el rendimiento de las consultas, y que
los informes directos sobre Hadoop no eran realistas. "Tenemos petabytes
disponibles para consultas y agregamos 20 TB cada día", dice Coffey.
Utilizando un marco de Hadoop como motor de cálculo y HPE Vertica para

analizar datos estructurados y no estructurados, Criteo genera inteligencia y
ganancias a partir de grandes volúmenes de datos. La compañía ha
experimentado un crecimiento de dos dígitos desde su inicio, y Vertica le
permite mantenerse al día con el volumen de datos en constante crecimiento.
Criteo usa Vertica para distribuir y ordenar datos para optimizar escenarios de
consulta especí cos. Su clúster Vertica tiene 75 TB en 50 nodos pesados de CPU
y sigue creciendo.
El Modelo del Centro de Excelencia: Consejos de Criteo | 19

Observado Coffey, "Vertica puede hacer muchas cosas, pero es mejor acelerar las
consultas ad hoc". Tomó la decisión de cargar el subconjunto empresarial crítico
del almacén de datos Hive de la empresa en Vertica, y de no permitir que los
datos se construyan o carguen desde cualquier otro lugar más.
El resultado: con un mínimo de ajuste, y casi sin mantenimiento diario, el

rendimiento de las consultas analíticas se disparó. Criteo carga alrededor de 2
TB de datos por día en Vertica. Llega principalmente en lotes diarios y tarda
aproximadamente una hora en cargarse a través de trabajos de transmisión
Hadoop que utilizan la herramienta de línea de comandos Vertica (vsql) para
insertar en bloque.
Estas son las mejores prácticas recomendadas de Criteo:
Sin lugar a dudas, lo más importante es simpli car

Por ejemplo: los datos de origen único para Vertica de Hadoop
proporcionan una copia de seguridad implícita. También permite una
fácil replicación a múltiples clusters. Como no puedes ser un experto en
todo, el enfoque es la clave. Además, es más fácil capacitar a los colegas
para contribuir a una arquitectura simple.
Las optimizaciones tienden a hacer que los sistemas sean complejos

Si su sistema ya está distribuido (por ejemplo, en Hadoop, Vertica), escale
(o quizás suba) hasta que ya no funcione. En opinión de Coffey, está bien
desperdiciar algunos ciclos de CPU. "Hadoop fue prácticamente diseñado
para eso", a rma Coffey. "Vertica nos permite hacer cosas que de otro
modo seríamos incapaces de hacer y con muy pocos gastos generales del
DBA, en realidad no tenemos un administrador de base de datos de
Vertica, y nuestros usuarios constantemente nos dicen que es su
herramienta favorita que ofrecemos".
Coffey estima que gracias a sus proyecciones exibles, el rendimiento con

Vertica puede ser mucho mejor que las soluciones de Hadoop con muy poco
esfuerzo.
Mantener el Negocio en el Camino Correcto de Big Data

Si bien Criteo no lo llama formalmente "Centro de excelencia", sí cuenta con un
equipo central dedicado a garantizar que todas las actividades relacionadas con
el análisis de Big Data sigan las mejores prácticas. Dice Coffey:
Se ajusta a la de nición de un Centro de Excelencia porque contamos con

una combinación de profesionales que entienden cómo funcionan las

bases de datos en el nivel más interno y también cómo las personas usan
los datos en sus roles comerciales dentro de la empresa.
El objetivo del equipo: responder rápidamente a las necesidades del negocio

dentro de las limitaciones técnicas de la arquitectura, y actuar de forma
deliberada y en consecuencia para crear un ciclo de retroalimentación más
ajustado sobre el rendimiento de la pila de análisis.
"Siempre estamos buscando cualquier acto que podamos tomar para escalar la
base de datos para llegar a más usuarios y ayudarlos a mejorar sus consultas",
agrega Coffey. "También solucionamos problemas en otros aspectos de la
implementación de Big Data".
"Por ejemplo, tenemos un problema actual con un informe crítico", dijo, y agregó
que su equipo no es responsable de la creación de informes, pero "somos los
responsables de los datos y los sistemas sobre los que se ejecutan los informes".
Si los informes tienen un rendimiento bajo o si los creadores del informe están
vendiendo expectativas que no son realistas, es cuando su equipo se involucra.
"Nuestro equipo tiene una visión a vuelo de pájaro sobre todo esto, por lo que
observamos la complejidad de extremo a extremo -que obviamente incluye
Vertica y nuestro servidor de informes- para optimizarlos y hacerlo más
con able, para lograr que se cumplan las expectativas de los ejecutivos ", A rma
Coffey, quien agrega que a veces los clientes internos de las empresas hacen
"solicitudes poco inteligentes" a los analistas.
Consideramos tales solicitudes, por ejemplo, 'no, esa no es realmente una

buena idea, incluso si su cliente la quiere', y proporcionamos cobertura
para rechazar las demandas de los clientes. De esa manera, nos
involucramos directamente en la optimización de toda la ingienería.
En esencia, el equipo hace dos cosas que cualquier CoE haría: se involucra en
casos críticos y capacita proactivamente a los usuarios para que sean mejores
usuarios de los recursos disponibles.
El equipo también organiza un programa de capacitación en producción que

proporciona una descripción general completa de cómo usar mejor la pila de
análisis de manera efectiva.
¿Quién asiste? Analistas de sistemas operativos, profesionales de investigación y

desarrollo (I + D) y otros usuarios técnicos. También hay varios niveles de clases
de capacitación de SQL que están disponibles para que los usuarios interesados
asistan si desean intentar aprender SQL para que puedan realizar consultas en
Vertica.
Mantener el Negocio en el Camino Correcto de Big Data | 21

Los Riesgos de No tener un CoE
"Corres el riesgo de caer en viejos patrones", dice Coffey. "En lugar de
responsabilizarse de los problemas, su equipo puede impacientarse con los
analistas y los usuarios". Es aquí cuando los administradores de bases de datos
(DBA) obtienen reputación por ser cascarrabias malhumorados.
Algunas empresas intentan controlar sus iniciativas de Big Data de forma

distribuida. "Pero si no tienes un equipo central, te encuentras con los mismos
problemas una y otra vez, con resultados y costos repetitivos, tanto operativos
como técnicos", dice Coffey.
En efecto, estás volviendo a los silos pasados de moda, limitando el intercambio

de conocimientos y cerrando las cosas en lugar de progresar ", advierte. "Tienes
el equivalente de una barra libre donde cualquiera puede hacer lo que quiera".
Los Mejores Candidatos para un CoE de Big Data

Lo último que desea es un DBA de la vieja escuela que simplemente se queje de
los analistas y los usuarios, y que "se meta en peleas que durarían hasta que
escalasen al nivel del director", dice Coffey. "Un CoE sirve para evitar esas
situaciones".
Entonces, ¿a quién quieres en tu equipo de CoE? Coffey dice que necesitas

personas con la combinación correcta de habilidades técnicas y personalidad.
"Lo que buscamos son ingenieros interesados en ver que las cosas funcionen en
acción y hacer felices a los usuarios", dice.
Es un rol operativo orientado al cliente; por lo tanto, busque personas que

disfruten de proporcionar valor al analizar rápidamente por qué algo está
funcionando o no.
"Si encuentras a alguien así, contratalo de inmediato", dice Coffey.
Un tipo de candidato a CoE ligeramente diferente sería un analista que muestre

un poco más de perspicacia técnica junto con las habilidades de las personas.
"Los miembros del Centro de Excelencia deben ser realmente inteligentes y

realmente buenos en lo que hacen, porque tienen una autoridad realmente
amplia", agrega Coffey.
Construir un CoE de Big Data es un objetivo fácil de alcanzar. Puede comenzar a

pequeña escala aprovechando los recursos existentes y expandiendo sus
capacidades a medida que se demuestra el valor.

CAPÍTULO 4
Es Hadoop una Panacea para
Todas las Cosas del Big Data? YP Dice No
No se puede hablar de Big Data sin conocer Hadoop. Pero no es necesariamente

para todos. Las empresas deben asegurarse de que se ajuste a sus necesidades, o
se puede complementar con otras tecnologías, antes de comprometerse con
ellas.
En caso de que se haya perdido la promoción, y ha habido mucha, Hadoop es un

marco de programación gratuito basado en Java que admite el procesamiento de
grandes conjuntos de datos en un entorno informático distribuido. Es parte del
proyecto Apache patrocinado por Apache Soware Foundation. Para muchas
personas, Hadoop es sinónimo de Big Data. Pero no es para todos los proyectos
de Big Data.
Por ejemplo, Hadoop es una forma extremadamente rentable de almacenar y

procesar grandes volúmenes de datos estructurados o no estructurados.
También está diseñado para optimizar los trabajos por lotes. Pero rápido, no lo
es. Algunos observadores de la industria lo han comparado con enviar una carta
y esperar una respuesta utilizando el Servicio Postal de los Estados Unidos, más
conocido como "correo de caracol", en lugar de enviar mensajes de texto a
alguien en tiempo real. Cuando el tiempo no es una limitación, Hadoop puede
ser una bendición. Pero para tareas más urgentes, no es una panacea de Big Data.
De nitivamente no es un reemplazo para su almacén de datos heredado, a pesar

del tentador bajo costo. Esto se debe a que la mayoría de las bases de datos
relacionales están optimizadas para ingerir y procesar los datos que ingresan a lo
largo del tiempo, por ejemplo, transacciones desde un sistema de entrada de
pedidos.
| 23
Pero Hadoop fue diseñado especí camente para procesar grandes cantidades de
datos que ingresan en modo lote.
Luego está la complejidad de Hadoop. Necesita cientí cos especializados en

datos y programadores para hacer de Hadoop una parte integral de su negocio.
No solo estas habilidades son difíciles de encontrar en el mercado actual,
también son caras, tanto así que el costo de ejecutar Hadoop podría sumar
mucho más de lo que pensaría a primera vista.
Sin embargo, Hadoop es excelente para usar como una plataforma de extracción,
transformación y carga (ETL). Utilizándolo como un área de preparación y un
vehículo de integración de datos, la alimentación de los datos seleccionados en
una base de datos analíticos como Vertica tiene mucho sentido.
Las empresas deben ignorar la promoción, ver sus necesidades y descubrir por sí
mismas si y dónde Hadoop se adapta a sus iniciativas de Big Data. Es una
tecnología importante y poderosa que puede marcar la diferencia entre el éxito y
el fracaso de Big Data. Pero tenga en cuenta que todavía es un trabajo en
progreso, según Bill eisinger, vicepresidente de ingeniería para servicios de
datos de plataforma en YP , anteriormente conocido como YellowPages.com.
YP se enfoca en ayudar a las pequeñas y medianas empresas (PYMES) a

entender mejor a sus clientes para que puedan optimizar las campañas
publicitarias y de marketing. Para lograr esto, YP ha desarrollado un lago de
datos empresariales masivos utilizando Hadoop con capacidades de generación
de informes casi en tiempo real que atrae océanos de datos e información de
fuentes nuevas y heredadas. Utilizando informes potentes y métricas precisas de
su almacén de datos, YP ayuda a sus casi medio millón de anunciantes de
pequeñas y medianas empresas a pagar a ofrecer las mejores campañas
publicitarias y continuar optimizando su comercialización.
Las soluciones de YP pueden llegar a casi el 95% de los usuarios de Internet de

EE.UU., basado en el uso de los canales de distribución YP y la YP Local Ad
Network (según el Informe de duplicación de audiencia de comScore Media
Metrix, noviembre de 2015).
1 YP sigue las prácticas de privacidad estándar de la industria en el uso de publicidad dirigida al

tomar medidas responsables para proteger cualquier información recopilada a través de sus
sitios sobre los consumidores de YP, al mismo tiempo que les proporciona productos,
servicios y comunicaciones relevantes para sus intereses. Las políticas y prácticas de
privacidad de YP están certi cadas por TRUSTe, y los consumidores de YP pueden optar por
no recibir la recopilación de datos de ubicación móvil a nivel de dispositivo y administrar el
uso de su información al rechazar la publicidad redirigida.
24 | Cápitulo 4: Es Hadoop una Panacea para Todas las Cosas del Big Data? YPSM Dice No
Hadoop es necesario para hacer esto debido al gran volumen de datos, de
acuerdo con eisinger. "Necesitamos ser capaces de capturar cómo los
consumidores interactúan con nuestros clientes, y eso incluye dónde
interactúan y con qué interactúan, ya sea un dispositivo móvil o un dispositivo
de escritorio", dice.
YP se Transforma a si mismo a través del Big Data

YP vio la escritura en la pared hace años. Su negocio tradicional de impresión
estaba en declive, por lo que comenzó a mover información de negocios locales
en línea y transformarse en una empresa de marketing digital. YP comenzó a
investigar cuáles serían los requisitos del sistema para proporcionar valor a los
anunciantes. La compañía se dio cuenta de que necesitaba entender dónde
estaban buscando los consumidores en línea, qué anuncios veían cuando
buscaban, en qué hacían clic y hasta qué empresas terminaban llamando o
visitando, ya sea en línea o en persona.
Al no contar con la infraestructura para hacer todo esto, YP tuvo que reinventar
su entorno de TI. Necesitaba capturar miles de millones de clics e impresiones y
búsquedas todos los días. El entorno también debe ser escalable. "Si agregamos
un nuevo socio, si ampliamos la red YP, si agregamos cientos, miles o decenas de
miles de nuevos anunciantes y consumidores, necesitamos la infraestructura
para poder ayudarnos a hacerlo", dijo eisinger.
Cuando eisinger se unió a YP, Hadoop estaba en la cúspide de su ciclo de

promoción. Pero a pesar de que se había demostrado que ayudaba a las empresas
que tenían grandes cantidades de datos no estructurados, eso no era
necesariamente útil para YP. La empresa necesitaba que los datos se
estructuraran en algún punto de la cadena de datos para poder informarlos,
tanto a anunciantes, socios como a nivel interno.
YP hizo lo que muchas empresas hacen: combinó Hadoop con una base de datos
analítica (había elegido HPE Vertica) para poder mover grandes volúmenes de
datos no estructurados en Hadoop al entorno estructurado y ejecutar consultas e
informes rápidamente.
Hoy, YP ejecuta aproximadamente 10,000 trabajos diariamente, tanto para

procesar datos como para análisis. "Esa información representa de cinco a seis
petabytes de datos que hemos podido capturar sobre los consumidores, sus
comportamientos y actividades", dice eisinger. Esa información se ingiere
primero en Hadoop.
YP se Transforma a si mismo a través del Big Data | 25

Posteriormente, se trans ere a Vertica y se estructura de manera que los
analistas, los propietarios de los productos e incluso otros sistemas puedan
recuperarlo, extraer y analizar las métricas e informar sobre ellas a los
anunciantes.
YP también usa la combinación de Hadoop-Vertica para optimizar las

operaciones internas. "Hemos podido proporcionar internamente varios
equipos (ventas, marketing y nanzas, por ejemplo) con información sobre
quién hace clic en varias listas de empresas, qué tipos de usuarios están viendo
varias empresas, quién llama a las empresas, cuál es su segmentación, y cómo son
sus características demográ cas", dijo eisinger. "Esto nos da mucha
información". La mayor parte de ese trabajo se hace con Vertica.
Los clientes de YP desean ver los datos lo más cerca posible en tiempo real. "Las
pequeñas empresas dependen del contacto de los clientes. Cuando un cliente
potencial llama a una pequeña empresa y esa pequeña empresa no puede atender
la llamada o responder a ese cliente, quizás estén ocupados con otro cliente, es
importante que sepan que esa llamada se realizó y que se comuniquen de nuevo
con el consumidor ", dice eisinger. "Poder hacer eso lo más rápido posible es
un requisito difícil y rápido".
Lo que nos lleva de vuelta a la pregunta original formulada al principio del

capítulo: ¿Hadoop es una panacea para el Big Data? eisinger dice que no.
"Hadoop es de nitivamente central en nuestro entorno de procesamiento de

datos. En un momento, Hadoop era su ciente en términos de velocidad, pero no
hoy ", dijo eisinger. "Se está volviendo anticuado. Y no hemos visto avances
tremendos en las tecnologías centrales para analizar datos fuera de las nuevas
herramientas que pueden ampliar sus capacidades, por ejemplo, Spark, que
están haciendo que las arquitecturas alternativas como Spark aprovechen las
alternativas reales de Kaa ".
Además, YP tiene muchos más usuarios que estaban familiarizados con SQL
como lenguaje de recuperación estándar y no tenían los fondos para escribir sus
propios scripts o interactuar con tecnologías como Hive o Spark.
Y era absolutamente necesario emparejar Hadoop con la base de datos de

análisis Vertica MPP, dice eisinger.
"Dependiendo del volumen de datos, podemos obtener resultados 10 veces más

rápidos al enviar los datos a Vertica", dice eisinger. "También vimos mejoras
signi cativas al mirar SQL en Hadoop, su producto que se ejecuta en HDFS, fue
un orden de magnitud más rápido que Hive".
26 | Cápitulo 4: Es Hadoop una Panacea para Todas las Cosas del Big Data? YPSM Dice No
Otra razón para la solución Vertica: YP tuvo que analizar un volumen
extremadamente alto de transacciones en un corto período de tiempo.
La información no estaba orientada a lotes, y tratar de analizarla en Hive habría
llevado 10, 20, 30 minutos, o tal vez incluso horas, lograrlo.
"Podemos hacerlo en un tiempo mucho más corto en Vertica", dice eisinger,

quien dijo que Vertica son "magnitudes más rápidas".
Hadoop resuelve muchos problemas, pero para análisis es principalmente una

herramienta ETL adecuada para modos de proceso por lotes, coincide Justin
Coffey, responsable senior de desarrollo de personal en Criteo, una empresa de
tecnología de marketing de rendimiento con sede en París, que también utiliza
Hadoop y Vertica.
"Hadoop es una tecnología complicada", dice. "Requiere experiencia. Si tienes

esa experiencia, te será mucho más fácil lidiar con la velocidad, la variedad y el
volumen de datos ".
Sin embargo, Hadoop no es una panacea para Big Data. "Hadoop está
estructurado para el esquema en lectura. Para sacarle la inteligencia a Hadoop,
necesita una base de datos MPP como Vertica ", señala Coffey.
Larry Lancaster, cuya visión de iniciar un proyecto de datos grandes que

exploramos en el Capítulo 2, lleva esta actitud aún más allá. "No puedo pensar en
ningún problema donde pre era usar Hadoop versus Vertica aparte del
almacenamiento de archivos sin procesar", dice. "Con Vertica, obtienes
respuestas mucho más rápido, ocupa mucho menos espacio en tu hardware y es
increíblemente rentable. Y para el rendimiento, estás hablando de una mejora de
cuatro a cinco órdenes de magnitud ".
YP se Transforma a si mismo a través del Big Data | 27

CAPÍTULO 5
Escalas Cerner para el Éxito
Cuando se hace bien, las iniciativas de big data solo crecen. Es casi inevitable que
un gran éxito de datos en su empresa lleve a que se identi quen más casos de uso.
En resumen: debes estar preparado para escalar.
Cerner Corporation aprendió esto con su plataforma Millennium®. Con sede en

Kansas City, las soluciones de tecnología de información de salud (HIT) de
Cerner conectan personas y sistemas en más de 20,000 instalaciones en todo el
mundo. Trabajando en conjunto con sus clientes, Cerner está creando un futuro
en el que el sistema de salud trabaja para mejorar el bienestar de las personas y las
comunidades.
Cerner Millennium es la plataforma de registros médicos electrónicos (EMR) de

la compañía. Integra casi 60 soluciones en una suite centrada en registros de
salud electrónicos y ujos de trabajo clínicos. En la mayoría de los casos, Cerner
proporciona Cerner Millennium a sus clientes como una solución alojada,
ejecutando una parte considerable de la plataforma en servidores y
almacenamiento HPE.
Para garantizar que Cerner Millennium ofrezca la respuesta rápida y el alto

rendimiento que sus usuarios esperan, Cerner ha construido unos 2.000
temporizadores del sistema de medición del tiempo de respuesta (RTMS) en la
plataforma Cerner Millennium. Estos temporizadores RTMS detectan cuánto
tiempo toman ciertas funciones. Por ejemplo, ¿cuánto tiempo le lleva a un
médico acceder o agregar información del paciente mientras está en Cerner
Millennium? ¿Ingresar un pedido de medicamentos? Todas estas cosas son
cuidadosamente rastreadas.
| 29
Con el permiso de sus clientes, Cerner recopila miles de millones de registros de
RTMS cada mes, los analiza y usa esa información para medir el rendimiento en
Cerner Millennium a n de garantizar la capacidad óptima de los médicos para
brindar atención de calidad a los pacientes. Los temporizadores también se
utilizan para optimizar los ujos de trabajo y priorizar las inversiones de
desarrollo.
Pero a medida que más y más proveedores de atención médica de todo el mundo
usaban Cerner Millennium, la compañía sabía que necesitaría expandir su
almacenamiento de datos heredado para mantenerse al día con la demanda.
Pero esta opción simplemente no era factible.
“No estábamos satisfechos con la velocidad de sus capacidades de análisis de

datos que nos permiten optimizar de manera proactiva los datos del
temporizador Cerner Millennium a un ritmo óptimo. Había demasiados datos
para procesarlos con éxito a medida que se generaban", dice Dan Woicke,
director de gestión de sistemas empresariales en Cerner. "Tuvimos que
encontrar otra manera".
Un problema fue que los datos de RTMS simplemente no eran lo

su cientemente detallados: las limitaciones del clúster heredado signi caban
que Cerner solo podía muestrear y resumir los datos.
Por ejemplo, si un médico abre PowerChart®, un componente de Cerner

Millennium, Cerner registra cuánto tiempo tomó. Pero en el almacén heredado,
solo podía resumir sus registros de rendimiento. Por ejemplo, podría ver que el
Cliente A, en el lapso de una hora, lanzó PowerChart 57 veces con un promedio
de 2.1 segundos y una desviación estándar de 0.2. El sistema también calculó
algunos histogramas, pero eso era todo lo que su base de datos heredada era
capaz de: agregaciones de alto nivel de indicadores de desempeño.
Una prueba de Concepto Gigantesca

En 2012, Cerner realizó una prueba de concepto (PoC) para encontrar una base
de datos de análisis que pudiera escalar para satisfacer sus crecientes
necesidades.
Invitó a seis proveedores de bases de datos de MPP-IBM Netezza, Greenplum,

Teradata, Oracle Exadata, SAP IQ y Vertica-a ejecutar sus bases de datos a través
de dos casos de uso: uno para insertar en una base de datos llamada Health
Facts™ y otro que involucra un RTMS real -Interfaz de datos de Cerner
Millennium.
Después de pasar por una larga lista de veri cación de requisitos durante el PoC,
Vertica obtuvo el puntaje más alto de las seis bases de datos.
30 | Cápitulo 5: Escalas Cerner para el Éxito

En la parte superior de la lista de veri cación estaba la capacidad de escalar de
forma rentable, así como la capacidad de obtener una gran cantidad de usuarios
simultáneos en el sistema. "Hubo muchos parámetros que midieron la
escalabilidad dentro de nuestra lista de veri cación", a rma Woicke.
Según Adam Agnew, arquitecto de soware en Cerner, una de las razones por las
que el equipo estaba interesado particularmente en Vertica era que al realizar
pruebas de escala durante el PoC, los datos se almacenarían en caché
frecuentemente después de la primera llamada, por lo que los datos se sesgarían.
más corrieron a través de los datos. "Muchas de las bases de datos hacen este
almacenamiento en caché, por lo que verías estas grandes penalizaciones de
rendimiento en las primeras consultas.
Pero necesitábamos ejecutar consultas dinámicas y obtener resultados
realmente rápidos ", dice Agnew.
Así que una de las cosas que Cerner buscó en las seis bases de datos fue cuánto
tiempo tomó la primera llamada y cómo ejecutar consultas aleatorias en el
clúster para evitar el almacenamiento en caché que los proveedores podrían
haber activado o no. Vertica pasó todas las pruebas.
A pesar de que Cerner eligió Vertica para su escalabilidad, y aunque había

estimado un gran crecimiento del volumen de datos hace cuatro años en el
momento de la PoC, el crecimiento se ha acelerado más allá de las expectativas.
Como dice Woike:
En ese momento predijemos un gran crecimiento, y ciertamente no fue
lineal. Aun así, nunca hubiéramos predicho qué tan rápido creceríamos.
Probablemente estamos duplicando o triplicando la información
esperada.
Cerner comenzó con un clúster Vertica en servidores blade, con
almacenamiento compartido. Hoy tiene 20 servidores DL380 dedicados, y acaba
de comprar cinco más. Plan B para más adelante en el año es instalar otros 25
servidores en un centro de datos separado, para sincronizar y tener mejores
capacidades de recuperación de desastres.
Ahora que Cerner se ha movido a la plataforma Vertica, ingresa registros

discretos en la base de datos. Si PowerChart se lanza 57 veces, las estadísticas de
las 57 veces se colocan en la base de datos. "Podemos ver exactamente qué clínico
hizo qué tarea y en qué momento, y se puede ver que esta es una estrategia mucho
mejor para solucionar cualquier problema", dice Woicke.
Se puede imaginar que cuando un médico llama a su mesa de ayuda y le
dice: 'Soy el Dr. X y tengo problemas de rendimiento', lo último que
queremos hacer es evitar que el médico repita el proceso de apertura.
PowerChart para que podamos tratar de solucionar el problema.
Una Prueba de Concepto Gigantesca | 31

Nos jamos en los temporizadores de la hora en cuestión, pero como no
teníamos registros discretos, nada se destacó.
Hoy, Cerner puede regresar al RTMS mismo, ver esa transacción exacta en
Vertica y darle al médico una respuesta directa sobre el problema.
Proporcionar Mejores Resultados para el Paciente

Uno de los clústeres de Vertica ejecuta una solución llamada HealtheIntent™, que
brinda a los pacientes las herramientas para administrar mejor su propia salud.
Ese grupo contiene información personal de salud (PHI) y datos clínicos.
Woicke está a cargo del otro cluster operativo, Vertica, que mide los diferentes
aspectos de los subcomponentes de Cerner Millennium y Cerner Millennium.
Al realizar análisis de esos datos, Cerner tiene una visión ágil de cómo funcionan
los sistemas de sus clientes.
También se ejecuta en el clúster operativo Vertica en la operación algo llamado

Health Facts®, que realiza análisis predictivos de los resultados de los pacientes.
Está en el clúster operacional porque los datos se han ltrado para que no tenga
ninguna información del paciente o PHI a liada a él. Pero su naturaleza
predictiva les permite a los médicos aprovechar los algoritmos integrados en
Cerner Millennium mediante la investigación de Health Facts para mejorar la
calidad de la atención de sus pacientes.
La historia de éxito de One Health Facts ha sido el algoritmo Cerner Millennium

St. John Sepsis. La sepsis es una enfermedad de la sangre que los médicos solo
tienen de seis a ocho horas para tratar antes de que se vuelva fatal. Al alimentar
aproximadamente 30 mediciones diferentes de pacientes en Datos de salud, los
médicos obtienen un coe ciente que les indica si necesitan comenzar el
tratamiento inmediato para la sepsis. "Las vidas se han salvado a través de ese
algoritmo solo", a rma Woicke. La creación del Tetralogy of Fallot Index -una
herramienta para determinar cuantitativamente la supervivencia mientras los
pacientes con trastornos cardíacos congénitos esperan cirugía- ayuda al equipo
de atención a tomar decisiones clínicamente apropiadas, justas y equitativas para
programar a los pacientes para la cirugía. El sistema también puede predecir la
probabilidad de que un niño tenga un ataque de asma grave y termine en la sala
de emergencias dentro de los próximos seis meses.

Durante PoC, para probar la escalabilidad, Cerner intentó simular lo que
sucedería en un día típico de ejecución de Cerner Millennium para todos los
clientes en todo el mundo. "Así que estábamos aporreando Vertica con entre 6 y
12 millones de transacciones RTMS por hora, al mismo tiempo que
realizábamos inserciones de Health Facts y ejecutamos consultas de los datos",
dice Woicke. HPE escribió una secuencia de comandos para que Cerner pudiera
simular de 200 a 500 usuarios simultáneos, el objetivo era encontrar el punto de
ruptura, consultar los datos de RTMS y datos de Health Facts simultáneamente.
Como señala Woike:
Una de las razones por las que fuimos con Vertica fue la cantidad de
usuarios concurrentes que pudimos tener. Precio, concurrencia y
velocidad fueron las principales consideraciones, y Vertica hizo lo mejor
en esos tres.
Cerner planea permitir a los clientes ejecutar informes en tiempo real en un
clúster de Tableau alimentado por Vertica. Inicialmente, las consultas de Tableau
solo abarcarán los informes que Cerner ya publica. "Estoy seguro de que algún
día permitiremos que los clientes tengan licencias de escritorio de Tableau y
ejecuten informes desde cero. Por ahora, tenemos aproximadamente de 10 a 12
informes enlatados que hemos creado y que han estado disponibles para
nuestros asociados durante varios meses ", dijo Woicke.
Cerner también está usando Vertica para rastrear las estadísticas de los sistemas
operativos, y está grabando todo sobre cada uno de los 25,000 nodos en el centro
de datos. Por ejemplo, para cada usuario conectado a través de Citrix, Cerner
Millennium registra la CPU por proceso, la memoria por proceso y cientos de
otros conjuntos de datos. En el día de mayor volumen que Cerner ha tenido hasta
el momento, 1.300 millones de temporizadores fueron devueltos a Vertica.
Vertica: Ayuda a Mantener las Luces Encendidas

Luego está el cómo Vertica ha ayudado con LightsOn Network® de Cerner, que
Cerner comenzó hace aproximadamente una década. La idea detrás de
LightsOn Network basada en la web es permitir que los clientes vean la historia
del rendimiento de Cerner Millennium en sus sitios.
Pueden ver cuáles han sido sus patrones de uso -cómo los médicos, enfermeras y
médicos usan realmente el sistema- y cómo los médicos se comparan con otros
médicos en su habilidad para usar el sistema.
"La idea es enseñar a las personas cómo usar Cerner Millennium mejor", a rma
Woicke. Al consultar a Vertica, los clientes de Cerner pueden ver que a un
médico le toma 14 clics escribir una orden permanente, mientras que solo
debería tomar cinco. "Entonces podemos mostrarle al médico la Red LightsOn y
decir: '¿ves cómo siempre vas a tener tantos problemas cuando prescribes esto?
Vertica: Ayuda a Mantener las Luces Encendidas | 33

Esta es una forma de simpli car el proceso, por lo que solo tiene que hacer clic un
par de veces y el pedido está dentro ".
Aunque LightsOn Network ha estado haciendo esto durante años, solo tiene lo
que ha sucedido históricamente. Pero al obtener un clúster de Tableau en
Vertica, Cerner Millennium podrá mostrar a los clientes lo que estuvieron
haciendo minutos en lugar de días atrás.
LightsOn Network es un servicio ofrecido para ayudar a los clientes a

administrar sus soluciones Cerner, basado en una decisión que Cerner hizo hace
años de ser muy transparente acerca de qué tan bien se estaban ejecutando sus
sistemas en los sitios de los clientes. "Así que no nos hemos bene ciado
directamente de LightsOn Network, pero como diferenciador clave, nos ha
ayudado en el mercado", dice Woicke.
Cerner Millennium también cuenta con un analizador de ujo de trabajo basado

en Vertica que muestra los casos de uso que utilizan los médicos clínicos y la
cantidad de clics clave que utilizan para sus transacciones. Al nal, Vertica está
ayudando a Cerner a aumentar la e ciencia de las instalaciones médicas para
que los médicos puedan enfocarse en brindar la mejor atención médica a los
pacientes.
El sistema escala fácilmente porque Cerner puede insertar nodos adicionales en

el clúster. Los datos se almacenarán localmente, por lo que si Cerner necesita
más potencia de procesamiento o más espacio en disco para almacenar
información, simplemente expande el clúster. HPE Vertica detrás de las escenas
volverá a dividir los datos en consecuencia, asegurándose de que los nuevos
nodos que entran en el clúster obtengan la parte justa del almacenamiento local.
"Así que no solo estamos obteniendo un factor de escalabilidad del
almacenamiento, sino que también estamos agregando la potencia de la CPU
que puede abordar las consultas e insertarlas más rápido al tener ciclos
adicionales para trabajar", dice Woicke. Agnew agrega que:
Esta es la razón por la cual la industria se está moviendo hacia una
plataforma informática distribuida. Si toma esa información y la raya a
través de una serie de servidores, emite una consulta a un servidor
individual, entonces puede pasar un poco de trabajo en cada servidor del
clúster. Obtiene un rendimiento mejorado con cada nodo que agrega al
clúster, porque obtiene más procesamiento, más memoria, más CPU y
más disco.
Las ventajas que Cerner ha logrado al mudarse a Vertica:
Un análisis 6,000 por ciento más rápido de temporizadores ayuda a

Cerner a obtener una idea de cómo los médicos y otras personas usan

Cerner Millennium y hacer sugerencias sobre su uso de manera más
e ciente para que los usuarios se vuelvan clínicos más e cientes.
El rápido análisis de dos millones de alertas diarias le permite a Cerner

saber qué sucederá y luego evitar problemas antes de que ocurran.
“Algunos usuarios de Health Facts emitirían una consulta a las 5 p.m. cuando
partieron por el día, esperando que tuvieran un resultado cuando regresaran a
las 8 a.m. a la mañana siguiente. Con HPE Vertica, esos tiempos de consulta son
de dos o tres minutos ", dice Woicke. Aquí hay otros bene cios:
Pasar de la gestión de TI reactiva a la proactiva
Mejora de la e ciencia del ujo de trabajo clínico
Mejorar la seguridad del paciente y la calidad de la atención
Este paralelismo en todo el clúster permite a las empresas calcular en cada

servidor y luego devolver los resultados agregados más rápidamente, en lugar de
simplemente golpear un servidor y hacer que haga todo el trabajo. "Se obtienen
ganancias de rendimiento bastante buenas cuando se equilibran los datos en el
clúster en forma pareja", agrega Agnew.
Mirando hacia el futuro, Woicke espera que el volumen de datos se duplique para
2017. "Eso signi ca que tenemos que duplicar el clúster, así que ese es el
presupuesto que voy a pedir", dijo.
Analizando los Números

Cerner ha recorrido un largo camino. Antes de realizar su PoC, el cliente más
grande de Cerner Millennium agregó cinco millones de transacciones por día en
la plataforma resumida. "Ahora, algunos de nuestros clientes más grandes están
inyectando 30 millones de transacciones por día en Vertica", dice Agnew.
"Estamos incorporando más clientes, y nuestros clientes están creciendo
individualmente, por lo que todo se suma".
Cerner no solo recibe solicitudes de nuevos conjuntos de datos por parte de los
clientes, sino que los encuentran tan útiles que piden conjuntos de datos más
frecuentes, por ejemplo, una vez por minuto, en lugar de cada cinco minutos.
Analizando los Números | 35

Según Woicke, estos conjuntos de datos son casi como migas de pan. Cerner
puede ver qué hacen los usuarios primero, segundo y tercero, y ver qué vías están
tomando a través del sistema. Cerner puede tomar decisiones de diseño para
ayudar a los usuarios a llegar a las funciones más rápido.
En la red LightsOn, para la cual se recopilan datos sobre médicos individuales

que realizan tareas individuales, también existe la oportunidad de clasi car la
e ciencia y efectividad de los clientes individuales de Cerner Millennium. Como
Woike lo describe:
Desde datos de RTMS, hasta datos de clics de teclas, datos de pedidos,
datos de grá cos, no solo podemos comparar médicos con médicos, sino
que podemos comparar clientes con clientes. Por ejemplo, podemos
comparar un hospital de 500 camas con hardware HPE con otro hospital
de 500 camas con hardware HPE y hacer una comparación línea por línea
en función de la cantidad de hospitales en ese grupo.
Vertica también se usa para monitorear todas las operaciones en el centro de
datos de Cerner para medir el tiempo de actividad. Woike continúa:
Estamos pasando de este concepto completo de proporcionar
transparencia a través de la visualización a monitorear el tiempo de
actividad en tiempo real. Usando una tecnología de transmisiones para
que todo lo que carguemos en Vertica esté en la memoria caché durante al
menos una hora, y vamos a evaluar cosas cuando ingresen al sistema en
tiempo real para ver si no estamos cumpliendo con los números de
rendimiento y incluso para ver lo negativo. Podríamos preguntar, oye,
¿por qué no estamos recibiendo conjuntos de datos de un cliente en
particular? Así que también lo usamos para control de calidad. Pero
estamos buscando medidas de calidad en tiempo real.
En efecto, habrá dos caminos para los datos. Cerner continuará con los datos del
lote en Vertica para nes de visualización y análisis, y luego habrá una ruta para
evaluar los datos en la memoria caché. "Eso nos permitirá medir tiempos de
actividad hasta el minuto", dice Woicke, y agrega: "Ahora que somos capaces de
analizar todos y cada uno de los registros discretos, podemos concentrarnos en
los valores atípicos para mejorar la experiencia de cada clínico en el sistema.”
Los análisis a este nivel conducen a mayores e ciencias, lo que resulta en mejores
resultados de salud, dice Woicke.
La Tabla 5-1 muestra cómo Cerner actualizó su clúster Vertica.

Tabla 5-1. Actualizando el Cluster
Cluster de hojas viejas Cluster de hojas actuales
Servidores 30 BL460c servidores blade (150 TB cluster) 20 DL380p servidores (250 TB cluster)
Núcleos lógicos 24 40
Memoria 96 GB 256 GB
Almacenaje 5 TB 12 TB
Comenzando a alcanzar casi mil millones (970 millones) por día para los días
pico, las métricas del temporizador RTMS están llegando a una tasa de 30 mil
millones por mes, como se ilustra en la Figura 5-1.
Numero de Temporizadores por Hora
Figura 5-1. Casi 30 mil millones de métricas de temporizador RTMS por día
Cerner está aumentando el clúster en aproximadamente 2 TB de datos

comprimidos (se dividió en dos debido a las "proyecciones amigables", por lo
que realmente hay 4 TB en el disco) en tablas de datos primarios por semana.
Esto no incluye el ujo de trabajo, pero Cerner tiene tablas en ese esquema con
más de un billón de registros en ellas. Puede ver cómo los horarios de trabajo se
coordinan con la semana de trabajo. Los días de trabajo tuvieron transacciones
sustancialmente mayores que los nes de semana, como se muestra en la Figura
5-2.
Cantidad total de datos que Cerner está extrayendo a través de su plataforma:

más de cinco mil millones de registros por día, lo que resulta en
aproximadamente 1.5 TB a 2 TB de datos sin comprimir (consulte la Figura 5-3).

Crecimiento de la base de datos semanal en Gigs: comprimido
Figura 5-2. Tamaño de las particiones comprimidas
Figura 5-3. Bombeo de cinco mil millones de registros a través del sistema
Cerner usa una arquitectura de tres niveles, y con Vertica puede ver el
rendimiento en la pila. Como Agnew señala:
Originalmente, solo podía ver el rendimiento de la base de datos, o el nivel

medio, o quizás Citrix, pero ahora podemos unir esos datos para ver
algunas cosas realmente interesantes sobre cómo un nivel de nuestro
entorno afecta a otros niveles. Podemos correlacionar eso con los
temporizadores de RTMS y ver que había un problema en un nivel medio
que bloqueaba la base de datos, pero podemos acercarnos a la causa raíz de
lo que pudimos antes.
Algo que Agnew y Woicke han aprendido: espere que le sorprendan todos los
casos de uso para el análisis de Big-Data. "Uno pensaría que llegarías a un punto
en el que hayas recolectado todo lo que querías coleccionar", dice Woicke. "Pero
eso no es necesariamente cierto. Tenemos gente viniendo a nosotros todo el
tiempo con proyectos de Big Data para nuestros clústeres de Vertica ".
Cerner se ha sorprendido con tanta frecuencia por los volúmenes de datos que
un caso de uso particular puede consumir que cuando alguien llega al equipo de
análisis de Big-Data pidiéndole que recopile datos para la aplicación, Woicke les

hace veri car la cantidad precisa de datos requeridos en el laboratorio
construido para las pruebas de rendimiento. "Más veces que no, subestiman
severamente sus datos", dice. "Hemos sido quemados muchas veces al activar
una nueva iniciativa de Big-Data, y al encontrar 10 veces más datos que los que
esperábamos. No queremos estar más sorprendidos ".

CAPÍTULO 6
Hagas lo que hagas, No hagas esto,
Advierte Etsy.
Hasta este punto, hemos pasado la mayor parte de este documento hablando e
ilustrando las mejores prácticas del mundo real para integrar una base de datos
analítica como Vertica en su entorno de procesamiento de datos.
Ahora vamos a tomar un enfoque opuesto: vamos a decirte lo que no debes
hacer: lecciones de expertos sobre cómo evitar errores graves al implementar
una base de datos de análisis de Big-Data.
No olvide Considerar a su Usuario Final cuando

Diseñe su Sistema de Análisis
"Eso es lo más importante que impulsará las herramientas que elija", dijo Chris
Bohn, "CB", un ingeniero de bases de datos con Etsy, un mercado en el que
millones de personas de todo el mundo se conectan, tanto en línea como fuera de
línea, para hacer, vender y comprar productos únicos. Etsy fue fundada en 2005 y
tiene su sede en Brooklyn, Nueva York.
Etsy usa HPE Vertica para analizar una base de datos de 130 TB y descubrir
nuevas oportunidades de ingresos. Para mejorar el rendimiento en un orden de
magnitud, Etsy reemplazó su sistema PostgreSQL con HPE Vertica para analizar
de manera e ciente y rápida más de 130 TB de datos. Bohn dice que los mayores
bene cios son la accesibilidad y la velocidad, de modo que el uso de la
herramienta se ha extendido a todos los departamentos. "Las consultas que
anteriormente tardaban muchos días en ejecutarse ahora se ejecutan en
minutos", dice Bohn. Esto ha aumentado la productividad de toda la empresa.
| 41
Pero Etsy consideró a los usuarios nales de la base de datos de análisis antes de
elegir Vertica, y resultó que esos usuarios nales eran principalmente analistas.
Los analistas y los cientí cos de datos son personas muy diferentes, dice Bohn.
Los cientí cos de datos se sentirán cómodos trabajando con Hadoop,
MapReduce, Scalding e incluso Spark, mientras que los analistas de datos viven
en un mundo de SQL. "Si colocas herramientas con las que no tienen
experiencia, no las usarán". Es así de simple ", a rma Bohn.
Bohn señala a las compañías que construyeron sistemas de análisis

multimillonarios usando Hadoop, y los analistas se negaron a usarlas porque les
llevó mucho tiempo obtener una respuesta del sistema. Dice Bohn:
Incluso si usan Hive, que es básicamente SQL en Hadoop, deben tener en

cuenta que cada consulta de Hive se traduce detrás de escena en un trabajo
de MapReduce, lo que crea un tiempo de respuesta muy lento. Y debido a
que los analistas utilizan SQL de manera iterativa, comenzando con una
consulta y expandiéndola y a nándola, necesitan un cambio rápido en los
resultados. Entonces, esta gran empresa tenía un problema real porque no
eligieron la herramienta adecuada.
No subestime la demanda para Analíticos de

Big-Data
Después de que Etsy reemplazara su solución de inteligencia de negocios
PostgreSQL con Vertica, quedó asombrado por el volumen de demanda de
acceso a la misma. "Vertica obtiene resultados tan rápido, todos estaban
acumulando para usarlo", dijo Bohn.
Al principio, Etsy solo tenía su equipo de analistas usando Vertica, pero luego los
ingenieros le pidieron que creara tableros, y el equipo de seguridad quería hacer
algunas huellas dactilares. "Después de eso, parecía que todos se estaban
subiendo al carro de Vertica", dice Bohn. Pensó que tendría tal vez una docena de
usuarios de Vertica. Él ahora tiene más de 200.
"Hay que considerar que su análisis de Big Data, si se hace bien, realmente va a
despegar", enfatiza Bohn, quien agregó que Etsy estaba renovando
continuamente su licencia de Vertica para comprar más capacidad.
"Comenzamos con cinco nodos y 10 terabytes, pasamos a 30 terabytes y 20
nodos, y continuamos. Ahora estamos presionando contra 130 terabytes y, de
nuevo, necesitamos agregar capacidad ".
Una nota: cuantos más usuarios simultáneos tengas, más RAM necesitarás. Así
que prepárate para actualizar tus clusters con RAM adicional, advierte Bohn.
42 | Capítulo 6: Hagas lo que hagas, No hagas esto, Advierte Etsy.

“Vertica funciona mejor cuando puedes hacer todo en la memoria", dijo.
No seas Ingenuo Acerca de Cuan Rápido Crece

el Big Data
Es fácil subestimar la cantidad de datos que acumulará, así como la cantidad de
usuarios simultáneos. "Estamos recopilando muchos más datos de los que
pensábamos", señaló Bohn. "Tenemos todos nuestros datos de clickstream de
personas que interactúan con el sitio web, y lo estamos dividiendo durante el día
para manejar los volúmenes en constante crecimiento".
Y no se trata solo de más de los mismos datos, sino de nuevos tipos de datos que
se acumulan. Cuando Etsy comenzó con su base de datos PostgreSQL hace una
década, tocó los límites de una máquina en un año. Entonces, Etsy decidió hacer
fragmentación vertical: por ejemplo, tomó sus foros y les dio sus propias bases de
datos dedicadas para aliviar la presión sobre el sistema principal. Eso ayudó por
otro año. Entonces Etsy se dio cuenta de que también tenía que fragmentarse
horizontalmente para manejar todo el trá co. Para realizar análisis, tenía que
obtener datos de todos esos fragmentos en un lugar donde todos pudieran vivir
juntos y para que los usuarios pudieran realizar consultas en todos ellos. Todo
eso resultó ser muy ine ciente.
"En Vertica casamos nuestros datos de producción con nuestros datos de

clickstream para obtener una imagen completa de lo que está sucediendo", dice
Bohn. Los datos de clickstream le brindan a Etsy información sobre lo que hacen
los usuarios en el sitio, pero Etsy también necesitaba extraer los metadatos sobre
los usuarios que les dijeron a los analistas dónde vivían los usuarios, qué tan
exitosos fueron en la venta, si ellos mismos compraron mucho, y todo que los
metadatos deben tenerse en cuenta en los datos de clickstream.
El desafío fue que los datos de clickstream provienen de archivos de registro, que
no están estructurados. Sin embargo, los datos en las bases de datos de
producción estaban estructurados, y Etsy necesitaba unirlos. Cada vez que
agregaba nuevas características al sitio, tenía que crear nuevas tablas en las bases
de datos de producción y obtener todo en Vertica. Por ejemplo, hace dos años
Etsy comenzó a ofrecer etiquetas de envío preimpresas a los usuarios que se
hicieron muy populares. Pero eso resultó en una gran cantidad de datos
adicionales para Etsy que tuvieron que ser llevados a Vertica. Afortunadamente,
Vertica podría escalar para satisfacer todas estas demandas.
No seas Ingenuo Acerca de Cuan Rápido Crece el Big Data | 43

No Descarte los Datos
Otro error que algunas empresas cometen es no guardar todos sus datos.
"Nunca se sabe lo que podría ser útil", declara Bohn. "Aún así, demasiadas
organizaciones lanzan datos porque no creen que sacarán nada de eso".
Pero, especialmente con los lagos de datos Hadoop, es bastante económico

almacenar datos. "Siempre que tenga una forma segura de bloquearlo, guárdelo",
dice Bohn. Más tarde puede descubrir que hay oro en él ".
Etsy, por ejemplo, utilizó metodologías tradicionales de bases de datos para

descartar datos cuando se actualizó un registro en su sistema de producción.
"Tuvimos ese problema: nuestros datos de producción eran 'pérdida-y'", señala
Bohn. Por ejemplo, un usuario enumeraría un producto, pero luego cambiaría la
descripción de ese producto. Cuando lo hicieron, la base de datos de producción
actualizó el registro y descartó la descripción anterior.
"A muchos analistas les hubiera encantado analizar palabras clave en una
descripción modi cada, por ejemplo, para ver si había más ventas o
conversaciones debido a los cambios", dice Bohn. "Pero debido a la pérdida de
datos, no podemos hacer eso". Etsy se está moviendo en la dirección de mantener
un registro de cambios, que ilustra cómo el análisis de big data ha in uido en la
arquitectura y los protocolos de cómo Etsy diseña sus sistemas de producción.
No se agobie tanto con Demasiada

"Deuda Técnica”
En un entorno de tecnología de rápida evolución, como el análisis de grandes
datos, es fácil sentirse abrumado por un producto o una solución que,
técnicamente hablando, resulta ser un callejón sin salida. "No creo que nuestra
pila de análisis vaya a ser la misma en cinco años", a rma Bohn. "Teniendo esto
en cuenta, no queremos encerrarnos en algo que no nos permita movernos
cuando decidamos que es el momento adecuado".
Etsy tenía una gran deuda técnica con su máquina PostgreSQL BI, cuando
resultó no ser escalable. "Tuvimos que pagar un precio, en dólares reales, para
trasladarnos a Vertica", a rma Bohn.

Por otro lado, Vertica tiene un lenguaje SQL muy rico, lo que signi caba que no
era necesario volver a escribir todas las consultas que Etsy había escrito a lo largo
de los años para su sistema PostgreSQL. De hecho, esta fue una de las razones por
las que Etsy eligió Vertica: usa el mismo analizador de SQL que PostgreSQL.
"Todas nuestras consultas se mantuvieron sin cambios en Vertica, simplemente
mucho más rápido", a rma Bohn. "Así que pudimos perdonar parte de nuestra
deuda técnica".
No Olvide Considerar cómo va a Obtener Datos en su

Nueva Base de Datos
Uno de los mayores desafíos de Etsy fue obtener los datos en Vertica. Su equipo
terminó construyendo muchas herramientas para lograr esto. "Sin una forma de
obtener datos en una base de datos, esa base de datos, incluso una tan buena
como Vertica, es como tener un Ferrari con un tanque de gasolina vacío",
enfatiza Bohn. Su equipo está especialmente orgulloso de una herramienta que
crearon, denominada Schlep, una palabra en yiddish que signi ca "llevar una
carga pesada a una gran distancia". Schlep se incorporó a Vertica como una
función SQL, por lo que los analistas lo utilizaron fácilmente. obtener los datos
en Vertica de forma rápida y fácil.
Según Bohn, la lección es esta: tus datos son tu estrella, y esto impulsa tus
decisiones de compra. Él añade:
¿Usas la nube o el hierro desnudo en una instalación de colocación? Esto
importará, porque para obtener datos en la nube debe enviarlos a través de
Internet, lo que no será tan rápido como si su sistema analítico de Big Data
estuviera ubicado justo al lado de su sistema de producción.
El hecho de que Vertica sea lo su cientemente exible como para correr en la

nube, en Hadoop y en el metal desnudo fue otra razón de peso para su compra.
De hecho, Etsy usa Vertica como una interfaz para su sistema Hadoop, un
enfoque diferente al de la mayoría de las compañías. Entonces escribió Schlep y
otras herramientas para obtener datos de producción en Vertica. Luego, tuvo
que descubrir cómo obtener los datos de producción de Vertica en Hadoop.
Simplemente usa el conector Vertica HDFS para capturar datos de Vertica y
transferirlos a Hadoop. "Todavía estamos trabajando en la arquitectura y
comprobando las tecnologías que están surgiendo", dice Bohn. Él continúa:
Creemos que Kaa, por ejemplo, estará presente por un tiempo.

Realmente lo hemos estado martillando y es muy con able. Kaa puede
ser una de esas tecnologías que se convierten en el núcleo de nuestra
arquitectura.
No Olvide Considerar cómo va a Obtener Datos en su Nueva Base de Datos | 45

Pero decidir eso nuevamente está relacionado con permanecer exible
para evitar la deuda técnica.
“Considerándolo todo", dice Bohn, "es mejor estar a la vanguardia que el borde
sangrante". Tomar ActiveMQ, un sistema de consulta que compraron muchas de
las principales compañías en la última década: demostró no estar a la altura de su
promoción. "Las compañías que tomaron esa ruta tuvieron que liberarse a un
costo considerable", a rma.
No construya la Gran Muralla China entre su

Departamento de Ingeniería de Datos y el Resto
de la Compañía
“No se puede colocar a la gente de ingeniería de datos en un ala alejada del
edi cio y aislarlos de todos los demás", recalca Bohn. "Se necesita mucha
cooperación y colaboración entre ellos y el resto de la organización".
Bohn sabe de una empresa importante que quería utilizar análisis de big data
para evaluar la efectividad de sus productos. Pero los usuarios no pudieron
obtener los datos que querían fuera del sistema, por lo que tuvieron que recurrir
a los cientí cos de datos y pedirles que realizaran consultas, algo que los
cientí cos de datos no consideraban un aspecto "real" de sus trabajos. . Como
Bohn recuerda:
Esta empresa tuvo un gran desafío para hacer que los datos fueran más un
proceso de autoservicio, simplemente porque los ingenieros y los
ingenieros de datos no se hablaban entre sí.
Este tipo de escenario clama por un director de datos, para garantizar que los
datos se distribuyan democráticamente y que va donde se necesita, para que las
personas que lo necesiten puedan obtenerlo sin problemas.
Los profesionales de la ingeniería de datos también deberían hacer buenos

amigos con las personas de operaciones porque son ellos quienes con guran las
máquinas, actualizan los sistemas y se aseguran de que todo funcione como
debería.
En resumen: su equipo de datos debe tener habilidades de personas bien

desarrolladas. "Nuestra gente de ingeniería de datos se sienta en más reuniones
que cualquier otro empleado, porque hay tantos interesados en los datos", dice
Bohn. "Y aprendemos de otros también, y aprendemos a anticiparnos a sus
necesidades. Es una calle de doble sentido ".

No Sea Grande antes de que haya Tratado Ser Pequeño
Demasiadas compañías comienzan sus viajes de datos grandes con grandes
presupuestos y CEO emocionados, e intentan abordar todo a la vez. Luego, un
año o 18 meses después, no tienen nada que mostrar.
Es mucho mejor buscar un objetivo más pequeño, más especí co y tener éxito, y
luego construir lentamente a partir de ahí. Puede tener una hipótesis y hacer un
ejercicio para analizar los datos para ver si la hipótesis contiene agua. Incluso si
los datos no conducen a lo que esperaba, el ejercicio puede considerarse exitoso.
Haga más y más proyectos usando esa metodología, "y descubrirá que nunca se
detendrá: los casos de uso seguirán llegando", a rma Colin Mahony de HPE.
No Piense que Big Data es Simplemente un

Cambio Técnico
Es realmente un cambio cultural. Hay muchas organizaciones que hacen un gran
trabajo en el análisis de datos, pero no comparten los resultados lo su ciente.
Todo su trabajo es en vano. Sí, es importante recopilar, almacenar y analizar los
datos. Pero los grandes volúmenes de datos solo dan resultados cuando cierra el
ciclo al alinear los datos con las personas que necesitan los conocimientos.
No Sea Grande antes de que haya Tratado Ser Pequeño | 47

Sobre el Autor
Alice LaPlante es una escritora galardonada que ha escrito sobre tecnología y el
negocio de la tecnología durante más de 20 años.
Ex editora de noticias de InfoWorld y editora colaboradora de ComputerWorld e
InformationWeek, Alice es autora de seis libros, incluido Jugar con nes de lucro:
cómo el entretenimiento digital está haciendo grandes negocios de juegos infantiles
(Wiley).

Libro The Big Data Transformation

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Libro The Big Data Transformation

Cargado por

Copyright:

Formatos disponibles

La Transformación

del Big Data

HPE Vertica es la plataforma de analítica de bases de datos SQL más avanzada

Descarge hoy nuestra Edición

Beijing Boston Farnham Sebastopol Tokyo

Editores: Tim McGovern and Diseñador de Interiores: David Futato

Historial de revisiones para la primera edición

El logotipo de O'Reilly es una marca registrada de O'Reilly Media, Inc. La

2. ¿Por dónde Empezar? Siga el Ejemplo de esta Empresa de

3. El Modelo del Centro de Excelencia: Consejos de Criteo . . . . . . . . . . . . . . . 17

5. Escalas Cerner para el Éxito. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

6. Hagas lo que hagas, No hagas esto, Advierte Etsy. . . . . . . . . . . . . . . . . . . . 41

Big Data: Un breve estudio

Un Mercado Abarrotado para bases de datos

Ha habido cuatro ondas principales en esta evolución de la base de datos.

Bases de Datos de Computadoras Centrales

Plataformas de analíticas de macrodatos

Un ejemplo de una base de datos analítica, la que exploraremos en este

Un mercado abarrotado para bases de datos analíticos del Big Data | 3

Sus creadores vieron cuán rápidamente crecía el volumen de datos y

También entendieron todas las diferentes cargas de trabajo analíticas que

Se dieron cuenta de que obtener un excelente rendimiento de la base de

Sí, necesita otra base de datos: Encontrar la

Normalmente, las bases de datos analíticas se ubican junto al sistema de registro,

Si dices "Necesito un martillo", la herramienta correcta que necesitas está

Clavos y Construcción Judicial Cumplimiento de la ley Pila de Conducción Médico

Figura 1-1. Diferentes martillos son buenos para diferentes cosas

El mismo escenario es cierto para las bases de datos. Dependiendo de lo que

Por supuesto, tiene otras consideraciones, como el Costo Total de Propiedad

Figura 1-2. Extender el espectro de lo que Vertica puede hacer

Aumentar los ingresos

Finalmente, su base de datos de análisis debe ayudarlo a cumplir con las

El trabajo de los vendedores en este mercado: mantenerse al día con los

Clasi cando a Través de la Exageración | 7

Al vender Big Data a su empresa, necesita conocer a su audiencia. El Big Data

Vista de cliente de 360 grados (mejora de la "adherencia" del cliente) a

Iteración rápida (mejora de la innovación del producto) a través de la

Forzar multiplicadores (reduciendo los costos de soporte) a través de la

Pensar en términos de ingresos, costos, competitividad y rigidez, entre

Tabla 2-1. Conocer a su Audiencia

Alineación de tecnólogos y partes interesadas

Intrigue a las personas. Saque los hechos asombrosos de lo que otras

Lograr lo "Escandaloso" con Big Data

Esta compañía ofrece a las empresas una propuesta de valor de almacenamiento

¿Cómo lograron todo esto? Recolectando cantidades masivas de datos de todos

Lograr lo “Escandaloso” con Big Data | 11

Entregamos un producto exitoso solo porque recopilamos su ciente

Y los datos generados por la telemetría fueron enormes. La compañía recibía de

Queríamos aumentar el monto que nos estaba pagando, pero

Sin Vertica ayudando a analizar los datos de telemetría, tendrían un equipo de

"Estamos hablando de un proceso lento y muy laborioso", dijo Lancaster, quien

Como resultado de la implementación de Vertica, este negocio abre y cierra el 80

Por ejemplo, la compañía de Lancaster creó una oferta de servicios profesionales

Las empresas se suscribirían, por lo que pudimos agregar un 10% a

¿Por que Vertica?

Cuando empiezas a pensar en recopilar tantos puntos de datos diferentes

Monetizando Big Data | 13

Es porque Vertica te permite hacer algunos tipos de codi cación muy

Es absolutamente increíble. Es un juego que cambia. Ahora las personas

Elegir la Base de Datos Analítica Correcta

Y tu quieres admitir muchos casos de uso:

Datos cientí cos

Arquitectura MPP escalable

Incluso cuando no utilizó la compresión en línea, la compañía aún logró una