Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Alice LaPlante
Plataforma de Analítica de HPE Vertica
Acelerando el cambio con análisis de alto rendimiento a escala
Guess ofrece informes esenciales con un rendimiento de consulta 90-400 veces más rápido para
capacitar a todos, diseñadores, compradores, planificadores y gerentes de tiendas minoristas, para
servir mejor a los clientes.
Criteo impulsa las ventas de comercio electrónico mediante el uso de análisis predictivos nativos en
la base de datos para orientar publicidades para 1.100 millones de usuarios de Internet por mes con
una precisión milimétrica.
Cerner utiliza un rendimiento del sistema un 6,000% más rápido para analizar la eficiencia del
médico en la historia clínica electrónica (EMR), lo que lleva a una mejor calidad de atención al
paciente.
Supercell aprovecha el análisis en tiempo real en el juego para comprender el comportamiento del
usuario, realizar pruebas de productos y mejorar la experiencia de juego para 100 millones de
jugadores todos los días.
El Comité Nacional Demócrata ayudó a reelegir a un presidente de los EE. UU. Utilizando
marketing basado en datos y modelos predictivos para comprender mejor y anticipar el
comportamiento de los votantes.
http://my.vertica.com/ce/oreilly
La Transformación
del Big Data
Comprenda por qué el cambio es
realmente bueno para su negocio
Alice LaPlante
Si bien el editor y el autor han utilizado los esfuerzos de buena fe para garantizar que la
información y las instrucciones contenidas en este trabajo son precisas, el editor y el
autor declina toda responsabilidad por errores u omisiones, incluida, entre otras, la
responsabilidad por los daños resultantes del uso o dependencia de este trabajo.
El uso de la información y las instrucciones contenidas en este trabajo es bajo su propio
riesgo. Si algún ejemplo de código u otra tecnología que este trabajo contiene o describe
está sujeto a licencias de código abierto o derechos de propiedad intelectual de terceros,
es su responsabilidad asegurarse de que su uso del mismo cumpla con dichas licencias
y/o derechos.
978-1-491-96472-9
[LSI]
Tabla de Contenidos
1. Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
Big Data: Un Breve Estudio 1
Un Mercado Abarrotado para bases de datos analíticos del
Big Data 2
Sí, necesita otra base de datos: Encontrar la herramienta
adecuada para el trabajo 4
Clasi cando a través de la Exageración 7
4. Es Hadoop una Panacea para Todas las Cosas del Big Data? YPSM Dice No 23
YP se Transforma a si mismo a través del Big Data 25
v
Vertica: Ayuda a Mantener las Luces Encendidas 33
Analizando los Números 35
vi | Tabla de Contenidos
CAPÍTULO 1
Introducción
Estamos en la era de los datos. Los datos grabados duplican su tamaño cada dos
años, y en 2020 habrá capturado tantos bits digitales como estrellas en el
universo, alcanzando la asombrosa cifra de 44 zettabytes, o 44 billones de
gigabytes. En estas guras se incluyen los datos comerciales generados por las
aplicaciones empresariales, así como los datos humanos generados por los sitios
de redes sociales como Facebook, LinkedIn, Twitter y YouTube.
Una de nición más pragmática es la siguiente: usted sabe que tiene grandes
cantidades de datos cuando posee diversos conjuntos de datos de múltiples
fuentes que son demasiado grandes para una administración y análisis rentables
dentro de un marco de tiempo razonable al usar sus infraestructuras de TI
tradicionales. Estos datos pueden incluir datos estructurados tal como se
encuentran en bases de datos relacionales, así como datos no estructurados,
como documentos, audio y video.
IDG estima que el big data impulsará la transformación de TI hasta 2025. Los
principales responsables de la toma de decisiones en las empresas lo entienden.
El ochenta por ciento de las empresas ha iniciado grandes proyectos basados en
datos como las principales prioridades estratégicas. Y estos proyectos están
sucediendo en prácticamente todas las industrias. La Tabla 1-1 enumera solo
algunos ejemplos.
1
Tabla 1-1. Transformando los procesos de negocios en todas las industrias
Industria Casos de uso del Big Data
Automotriz Sensores automáticos que informan problemas de ubicación del vehículo
Servicios Financieros Riesgo, detección de fraude, análisis de cartera, desarrollo de nuevos productos
Fabricación Garantía de calidad, análisis de garantías
Salud Sensores de pacientes, monitoreo, registros de salud electrónicos, calidad de atención
Aceite y gas Análisis del sensor de exploración de perforación
Venta al por menor Análisis del sentimiento del consumidor, marketing optimizado, orientación personalizada,
análisis de la cesta de mercado, previsión inteligente, gestión de inventario
Utilidades Análisis de medidores inteligentes para la capacidad de red, red inteligente
Cumplimiento de la ley Análisis de amenazas, monitoreo de redes sociales, análisis fotográ co, optimización del trá co
Publicidad Orientación al cliente, publicidad basada en la ubicación, reorientación personalizada,
detección/prevención de abandono
Esto es especialmente cierto cuando se trata de bases de datos. Las bases de datos
forman el corazón del Big Data. Han existido durante medio siglo. Pero han
evolucionado casi más allá del reconocimiento durante ese tiempo.
Las bases de datos del Big Data analíticos son animales completamente
diferentes a las bases de datos de computadoras centrales en los años 60 y 70,
aunque SQL ha sido una constante durante los últimos 20 a 30 años.
2 | Cápitulo 1: Introducción
Procesamiento transaccional en línea de bases de datos (OLTP)
El nacimiento de la base de datos relacional utilizando el modelo cliente /
servidor nalmente trajo la computación asequible a todas las empresas.
Estas bases de datos se volvieron aún más ampliamente accesibles a través
de Internet en forma de aplicaciones web dinámicas y gestión de
relaciones con los clientes (CRM), gestión de recursos empresariales
(ERP) y sistemas de comercio electrónico.
Almacenes de datos
La próxima ola permitió a las empresas combinar datos transaccionales,
por ejemplo, de recursos humanos, ventas y nanzas, junto con soware
operativo para obtener información analítica sobre sus clientes,
empleados y operaciones. Varios proveedores de bases de datos
asumieron roles de liderazgo durante este tiempo. Algunos eran nuevos y
otros eran extensiones de bases de datos OLTP tradicionales.
Además, nació una industria completa que generó inteligencia de
negocios (BI) y herramientas para extraer, transformar y cargar (ETL).
Aquí hay una metáfora creada por Steve Sars eld, un gerente de marketing de
productos de HPE, para articular la situación (ilustrada en la Figura 1-1):
4 | Cápitulo 1: Introducción
Yo necesito un martillo
Ideal para clavar y Se utiliza para poner Usado por los dioses Construcción de bases Probando los reflejos de
arrancar clavos orden en la corte (técni- nórdicos para traer de construcción los pacientes
camente un martillo) justicia al universo
Debe elegir según tres factores: estructura, tamaño y análisis. Veamos un poco
más de cerca cada uno:
Estructura
¿Sus datos se ajustan a un modelo de datos limpio y agradable? ¿O el
esquema carecerá de claridad o será dinámico? En otras palabras,
¿necesita una base de datos capaz de manejar datos estructurados y no
estructurados?
Tamaño
¿Son sus datos "grandes datos" o tiene el potencial de convertirse en
grandes datos? Si su respuesta es "sí", necesita una base de datos de análisis
que pueda escalar adecuadamente.
Analíticos
¿Qué preguntas quieres hacer con los datos? ¿Consultas de ejecución
corta o consultas más profundas, de ejecución más larga o predictivas?
Aún así, sin embargo, las tres consideraciones principales siguen siendo la
estructura, el tamaño y el análisis. El punto óptimo de Vertica, por ejemplo, es
realizar consultas largas y profundas de datos estructurados en reposo que
tienen esquemas jos. Pero incluso entonces hay formas de ampliar el espectro
Sí, necesita otra base de datos: Encontrar la herramienta adecuada para el trabajo | 5
de lo que Vertica puede hacer mediante el uso de tecnologías como Kaa y Flex
Tables, como se muestra en la Figura 1-2.
Extender el espectro
Operacional Analítico
HPE Vertica
Consultas Largas
Consultas breves Datos en Reposo
Datos en movimiento Tablas
Flexibles
(Esquema en
Con ayuda de Katka Esquemas Lectura)
(Microbatch) Fijos
Estructurado Desestructurado
Hewlett Packard
Enterprise
Al nal, los factores que impulsan la decisión de su base de datos son las mismas
fuerzas que impulsan las decisiones de TI en general. Tú quieres:
Mejora la e ciencia
Debe elegir soluciones de análisis de Big Data que reduzcan los costos de
licencias de soware, le permitan realizar procesos de manera más
e ciente, aprovechar las nuevas fuentes de datos de manera efectiva y
acelerar la velocidad a la que dicha información se convierte en
conocimiento.
Mejorar el cumplimiento
6 | Cápitulo 1: Introducción
Clasi cando a través de la Promoción
Hay tanta promoción sobre el Big Data que puede ser difícil saber qué creer.
Nosotros mantenemos que un tamaño único no sirve para todas las bases de
datos analíticas del Big Data. Las organizaciones de mayor rendimiento son
aquellas que han descubierto cómo optimizar cada parte de sus datos de
canalizaciones y cargas de trabajo con las tecnologías correctas.
En este documento, mostramos las formas reales en que las empresas líderes
utilizan Vertica en combinación con otras soluciones de Big Data de primer nivel
para resolver desafíos empresariales reales.
Entonces, estás intrigado por lo del Big Data. Incluso crees que has identi cado
una necesidad empresarial real para un proyecto de Big Data. ¿Cómo se articula
y justi ca la necesidad de nanciar la iniciativa?
Por ejemplo, es posible que sepa que el Big Data le ofrece lo siguiente:
Pero si otros dentro del negocio no se dan cuenta de lo que estos bene cios
signi can para ellos, entonces es cuando necesitas comenzar a evangelizar:
Imagine el gran valor comercial que podría obtener del Big Data.
9
Comunica esa visión al negocio y luego explica lo que se requiere de ellos
para que tenga éxito
La Tabla 2-1 muestra lo que las varias partes interesadas quieren escuchar y
necesita para convencer.
La mejor manera de ganarse los corazones y las mentes de las partes interesadas
en los negocios: muéstreles lo que es posible. "La respuesta es encontrar un
problema, y hacer un ejemplo de cómo solucionarlo", dice Lancaster.
La buena noticia es que los ejecutivos de negocios de hoy son muy conscientes
del poder de los datos. Pero la mala noticia es que ha habido una cierta cantidad
de decepción en el mercado. "Escuchamos historias sobre compañías que
arrojaron millones a Hadoop, pero no sacaron nada de eso", se lamenta
Lancaster. Estas decepciones hacen que los ejecutivos sean reticentes a invertir
grandes sumas de dinero.
10 | Cápitulo 2: ¿Por dónde Empezar? Siga el Ejemplo de esta Empresa de Almacenamiento de Datos
El consejo de Lancaster es escoger una de las dos estrategias: comenzar poco a
poco y construir poco a poco el éxito a lo largo del tiempo, o hacer un reclamo
escandaloso para llamar la atención de las personas. Aquí está su consejo sobre la
táctica gradual:
El primer enfoque es encontrar un caso de uso y resolverlo usted mismo,
en uno o dos días. No te molestes con la tecnología complicada; use Excel
Cuando obtienes resultados, trabaja para ganar visibilidad. Hablar con la
gente por encima de ti. Dígales que pudo analizar estos datos y que Bob en
marketing recibió una tasa de respuesta adicional del 5 por ciento, o que su
equipo de asistencia cerró los casos 10 veces más rápido.
Normalmente, todo lo que se necesita es una o dos personas para hacer lo que
Lancaster llama "una pequeña magia de Big Data" para convencer a la gente del
valor de la tecnología.
El otro enfoque es elegir algo que sea increíblemente agresivo y hacer una
declaración escandalosa. Dice Lancaster:
Imagine decirle a una empresa que casi podría hacer desaparecer las llamadas de
soporte de rutina. Nadie dejaría pasar esa oportunidad. "Absolutamente tienes
su atención", dijo Lancaster.
También usan Vertica para auditar todo el almacenamiento que sus clientes han
implementado para comprender cuánto está protegido. "Sabemos con
instantáneas locales, cuánto de ella se replica para la recuperación de desastres,
cuánto espacio adicional se necesita para aumentar el tiempo de retención, y así
sucesivamente", dijo Lancaster. Esto les permite dirigirse a los clientes con
recomendaciones de servicio proactivas para proteger sus datos de la manera
más rentable.
12 | Cápitulo 2: ¿Por dónde Empezar? Siga el Ejemplo de esta Empresa de Almacenamiento de Datos
Monetizando Big Data
Lancaster cree que cualquier compañía podría encontrar aspectos de soporte,
mercadotecnia o ingeniería de producto que podrían mejorar por al menos dos
órdenes de magnitud en términos de e ciencia, costo y desempeño si utilizara
los datos tanto como su organización.
Más que eso, las empresas deberían encontrar formas de monetizar los datos.
Ya en la mayoría de las industrias, hay guerras ya que las empresas compiten por
una ventaja competitiva basada en datos.
Por ejemplo, mire a Tesla, que recupera la telemetría de cada automóvil que
vende, cada segundo, y trabaja constantemente para optimizar los diseños en
función de lo que los clientes realmente están haciendo con sus vehículos. "Esa es
la manera de hacerlo", dice Lancaster.
Pero a medida que comenzó a utilizar Vertica cada vez más, se dio cuenta de que
los bene cios de rendimiento alcanzables eran de otro orden de magnitud más
Vertica en consultas más pequeñas, su equipo de cientí cos de datos solo estaba
experimentando latencias de segundo orden. En las grandes, recibía latencias de
menos de 10 segundos.
¿Qué más hicieron con los datos? Dice Lancaster, "fue más bien, '¿qué no hicimos
con los datos?' Cuando contratamos a la gente de BI, todo lo que queríamos se
cargaba en Vertica, no solo en telemetría, sino también en Salesforce y en
muchos otros negocios. sistemas, y teníamos este sueño de depósito de datos en
su lugar ", dijo.
Clickstream
Sentiment
R
ODBC
SQL
ACID
Speed
14 | Cápitulo 2: ¿Por dónde Empezar? Siga el Ejemplo de esta Empresa de Almacenamiento de Datos
Compresión
Analíticos en Base de Datos
Pero las soluciones generales son difíciles de encontrar, porque son difíciles de
construir. Pero hay una manera segura de resolver problemas del Big Data:
reducir los datos.
Incluso antes de ser adquirida por lo que en ese momento era HP, Vertica era la
mayor base de datos analíticos puros de Big Data. Una solución general rica en
características, tenía todo lo que necesitaba la organización de Lancaster:
El primer diseño de rendimiento de Vertica hace que el Big Data se mueva con las
siguientes características de diseño:
Columna-almacenamiento
Materialización tardía
Segmentación para cómputo local de datos, à la MapReduce
Las amplias capacidades de codi cación también reducen el Big Data en el disco.
En el caso de la serie de datos de tiempo que esta empresa de almacenamiento
estaba produciendo, la huella de almacenamiento se redujo en
aproximadamente 25 veces frente a la ingestión; aproximadamente 17 veces
debido a la codi cación Vertica; y aproximadamente 1.5 veces debido a su propia
compresión en línea, de acuerdo con un análisis IDC ROI.
Por supuesto, mostrar un ROI inicial es esencial, al igual que tener una visión y
un campeón. "Tienes que demostrar valor", dice Lancaster. "Una vez que haces
eso, las cosas crecerán a partir de ahí".
16 | Cápitulo 2: ¿Por dónde Empezar? Siga el Ejemplo de esta Empresa de Almacenamiento de Datos
CAPÍTULO 3
El Modelo del Centro de
Excelencia: Consejos de Criteo
¿Podría bene ciarse de un gran CoE de datos? Criteo tiene, y tiene algunos
consejos para aquellos que quieran crear uno para su negocio.
17
Dicho esto, a pesar de que el modelo tiende a ser variable entre las empresas, el
trabajo del CoE tiende a ser bastante similar, que incluye (pero no se limita a) lo
siguiente:
A Coffey le gusta presentar a Criteo como "la compañía tecnológica más grande
de la que nunca haya oído hablar". La empresa genera conversiones para los
anunciantes a través de múltiples canales en línea: dispositivos móviles,
anuncios publicitarios y correo electrónico.
Criteo paga los anuncios grá cos, los cargos por el trá co a sus anunciantes y
optimiza las conversiones. Con sede en París, cuenta con 2.200 empleados en
más de 30 o cinas en todo el mundo, con más de 400 ingenieros y más de 100
analistas de datos.
Criteo comenzó utilizando Hadoop para análisis interno, pero pronto descubrió
que sus usuarios no estaban contentos con el rendimiento de las consultas, y que
los informes directos sobre Hadoop no eran realistas. "Tenemos petabytes
disponibles para consultas y agregamos 20 TB cada día", dice Coffey.
"Siempre estamos buscando cualquier acto que podamos tomar para escalar la
base de datos para llegar a más usuarios y ayudarlos a mejorar sus consultas",
agrega Coffey. "También solucionamos problemas en otros aspectos de la
implementación de Big Data".
"Por ejemplo, tenemos un problema actual con un informe crítico", dijo, y agregó
que su equipo no es responsable de la creación de informes, pero "somos los
responsables de los datos y los sistemas sobre los que se ejecutan los informes".
Si los informes tienen un rendimiento bajo o si los creadores del informe están
vendiendo expectativas que no son realistas, es cuando su equipo se involucra.
"Nuestro equipo tiene una visión a vuelo de pájaro sobre todo esto, por lo que
observamos la complejidad de extremo a extremo -que obviamente incluye
Vertica y nuestro servidor de informes- para optimizarlos y hacerlo más
con able, para lograr que se cumplan las expectativas de los ejecutivos ", A rma
Coffey, quien agrega que a veces los clientes internos de las empresas hacen
"solicitudes poco inteligentes" a los analistas.
En esencia, el equipo hace dos cosas que cualquier CoE haría: se involucra en
casos críticos y capacita proactivamente a los usuarios para que sean mejores
usuarios de los recursos disponibles.
| 23
Pero Hadoop fue diseñado especí camente para procesar grandes cantidades de
datos que ingresan en modo lote.
Sin embargo, Hadoop es excelente para usar como una plataforma de extracción,
transformación y carga (ETL). Utilizándolo como un área de preparación y un
vehículo de integración de datos, la alimentación de los datos seleccionados en
una base de datos analíticos como Vertica tiene mucho sentido.
Las empresas deben ignorar la promoción, ver sus necesidades y descubrir por sí
mismas si y dónde Hadoop se adapta a sus iniciativas de Big Data. Es una
tecnología importante y poderosa que puede marcar la diferencia entre el éxito y
el fracaso de Big Data. Pero tenga en cuenta que todavía es un trabajo en
progreso, según Bill eisinger, vicepresidente de ingeniería para servicios de
datos de plataforma en YP , anteriormente conocido como YellowPages.com.
24 | Cápitulo 4: Es Hadoop una Panacea para Todas las Cosas del Big Data? YPSM Dice No
Hadoop es necesario para hacer esto debido al gran volumen de datos, de
acuerdo con eisinger. "Necesitamos ser capaces de capturar cómo los
consumidores interactúan con nuestros clientes, y eso incluye dónde
interactúan y con qué interactúan, ya sea un dispositivo móvil o un dispositivo
de escritorio", dice.
Al no contar con la infraestructura para hacer todo esto, YP tuvo que reinventar
su entorno de TI. Necesitaba capturar miles de millones de clics e impresiones y
búsquedas todos los días. El entorno también debe ser escalable. "Si agregamos
un nuevo socio, si ampliamos la red YP, si agregamos cientos, miles o decenas de
miles de nuevos anunciantes y consumidores, necesitamos la infraestructura
para poder ayudarnos a hacerlo", dijo eisinger.
YP hizo lo que muchas empresas hacen: combinó Hadoop con una base de datos
analítica (había elegido HPE Vertica) para poder mover grandes volúmenes de
datos no estructurados en Hadoop al entorno estructurado y ejecutar consultas e
informes rápidamente.
Los clientes de YP desean ver los datos lo más cerca posible en tiempo real. "Las
pequeñas empresas dependen del contacto de los clientes. Cuando un cliente
potencial llama a una pequeña empresa y esa pequeña empresa no puede atender
la llamada o responder a ese cliente, quizás estén ocupados con otro cliente, es
importante que sepan que esa llamada se realizó y que se comuniquen de nuevo
con el consumidor ", dice eisinger. "Poder hacer eso lo más rápido posible es
un requisito difícil y rápido".
Además, YP tiene muchos más usuarios que estaban familiarizados con SQL
como lenguaje de recuperación estándar y no tenían los fondos para escribir sus
propios scripts o interactuar con tecnologías como Hive o Spark.
26 | Cápitulo 4: Es Hadoop una Panacea para Todas las Cosas del Big Data? YPSM Dice No
Otra razón para la solución Vertica: YP tuvo que analizar un volumen
extremadamente alto de transacciones en un corto período de tiempo.
La información no estaba orientada a lotes, y tratar de analizarla en Hive habría
llevado 10, 20, 30 minutos, o tal vez incluso horas, lograrlo.
Sin embargo, Hadoop no es una panacea para Big Data. "Hadoop está
estructurado para el esquema en lectura. Para sacarle la inteligencia a Hadoop,
necesita una base de datos MPP como Vertica ", señala Coffey.
Cuando se hace bien, las iniciativas de big data solo crecen. Es casi inevitable que
un gran éxito de datos en su empresa lleve a que se identi quen más casos de uso.
En resumen: debes estar preparado para escalar.
| 29
Con el permiso de sus clientes, Cerner recopila miles de millones de registros de
RTMS cada mes, los analiza y usa esa información para medir el rendimiento en
Cerner Millennium a n de garantizar la capacidad óptima de los médicos para
brindar atención de calidad a los pacientes. Los temporizadores también se
utilizan para optimizar los ujos de trabajo y priorizar las inversiones de
desarrollo.
Pero a medida que más y más proveedores de atención médica de todo el mundo
usaban Cerner Millennium, la compañía sabía que necesitaría expandir su
almacenamiento de datos heredado para mantenerse al día con la demanda.
Pero esta opción simplemente no era factible.
Después de pasar por una larga lista de veri cación de requisitos durante el PoC,
Vertica obtuvo el puntaje más alto de las seis bases de datos.
Según Adam Agnew, arquitecto de soware en Cerner, una de las razones por las
que el equipo estaba interesado particularmente en Vertica era que al realizar
pruebas de escala durante el PoC, los datos se almacenarían en caché
frecuentemente después de la primera llamada, por lo que los datos se sesgarían.
más corrieron a través de los datos. "Muchas de las bases de datos hacen este
almacenamiento en caché, por lo que verías estas grandes penalizaciones de
rendimiento en las primeras consultas.
Pero necesitábamos ejecutar consultas dinámicas y obtener resultados
realmente rápidos ", dice Agnew.
Así que una de las cosas que Cerner buscó en las seis bases de datos fue cuánto
tiempo tomó la primera llamada y cómo ejecutar consultas aleatorias en el
clúster para evitar el almacenamiento en caché que los proveedores podrían
haber activado o no. Vertica pasó todas las pruebas.
Woicke está a cargo del otro cluster operativo, Vertica, que mide los diferentes
aspectos de los subcomponentes de Cerner Millennium y Cerner Millennium.
Al realizar análisis de esos datos, Cerner tiene una visión ágil de cómo funcionan
los sistemas de sus clientes.
Cerner también está usando Vertica para rastrear las estadísticas de los sistemas
operativos, y está grabando todo sobre cada uno de los 25,000 nodos en el centro
de datos. Por ejemplo, para cada usuario conectado a través de Citrix, Cerner
Millennium registra la CPU por proceso, la memoria por proceso y cientos de
otros conjuntos de datos. En el día de mayor volumen que Cerner ha tenido hasta
el momento, 1.300 millones de temporizadores fueron devueltos a Vertica.
"La idea es enseñar a las personas cómo usar Cerner Millennium mejor", a rma
Woicke. Al consultar a Vertica, los clientes de Cerner pueden ver que a un
médico le toma 14 clics escribir una orden permanente, mientras que solo
debería tomar cinco. "Entonces podemos mostrarle al médico la Red LightsOn y
decir: '¿ves cómo siempre vas a tener tantos problemas cuando prescribes esto?
Aunque LightsOn Network ha estado haciendo esto durante años, solo tiene lo
que ha sucedido históricamente. Pero al obtener un clúster de Tableau en
Vertica, Cerner Millennium podrá mostrar a los clientes lo que estuvieron
haciendo minutos en lugar de días atrás.
“Algunos usuarios de Health Facts emitirían una consulta a las 5 p.m. cuando
partieron por el día, esperando que tuvieran un resultado cuando regresaran a
las 8 a.m. a la mañana siguiente. Con HPE Vertica, esos tiempos de consulta son
de dos o tres minutos ", dice Woicke. Aquí hay otros bene cios:
Mirando hacia el futuro, Woicke espera que el volumen de datos se duplique para
2017. "Eso signi ca que tenemos que duplicar el clúster, así que ese es el
presupuesto que voy a pedir", dijo.
Cerner no solo recibe solicitudes de nuevos conjuntos de datos por parte de los
clientes, sino que los encuentran tan útiles que piden conjuntos de datos más
frecuentes, por ejemplo, una vez por minuto, en lugar de cada cinco minutos.
Los análisis a este nivel conducen a mayores e ciencias, lo que resulta en mejores
resultados de salud, dice Woicke.
Comenzando a alcanzar casi mil millones (970 millones) por día para los días
pico, las métricas del temporizador RTMS están llegando a una tasa de 30 mil
millones por mes, como se ilustra en la Figura 5-1.
Figura 5-1. Casi 30 mil millones de métricas de temporizador RTMS por día
Figura 5-3. Bombeo de cinco mil millones de registros a través del sistema
Cerner usa una arquitectura de tres niveles, y con Vertica puede ver el
rendimiento en la pila. Como Agnew señala:
Algo que Agnew y Woicke han aprendido: espere que le sorprendan todos los
casos de uso para el análisis de Big-Data. "Uno pensaría que llegarías a un punto
en el que hayas recolectado todo lo que querías coleccionar", dice Woicke. "Pero
eso no es necesariamente cierto. Tenemos gente viniendo a nosotros todo el
tiempo con proyectos de Big Data para nuestros clústeres de Vertica ".
Cerner se ha sorprendido con tanta frecuencia por los volúmenes de datos que
un caso de uso particular puede consumir que cuando alguien llega al equipo de
análisis de Big-Data pidiéndole que recopile datos para la aplicación, Woicke les
Hasta este punto, hemos pasado la mayor parte de este documento hablando e
ilustrando las mejores prácticas del mundo real para integrar una base de datos
analítica como Vertica en su entorno de procesamiento de datos.
Ahora vamos a tomar un enfoque opuesto: vamos a decirte lo que no debes
hacer: lecciones de expertos sobre cómo evitar errores graves al implementar
una base de datos de análisis de Big-Data.
Etsy usa HPE Vertica para analizar una base de datos de 130 TB y descubrir
nuevas oportunidades de ingresos. Para mejorar el rendimiento en un orden de
magnitud, Etsy reemplazó su sistema PostgreSQL con HPE Vertica para analizar
de manera e ciente y rápida más de 130 TB de datos. Bohn dice que los mayores
bene cios son la accesibilidad y la velocidad, de modo que el uso de la
herramienta se ha extendido a todos los departamentos. "Las consultas que
anteriormente tardaban muchos días en ejecutarse ahora se ejecutan en
minutos", dice Bohn. Esto ha aumentado la productividad de toda la empresa.
| 41
Pero Etsy consideró a los usuarios nales de la base de datos de análisis antes de
elegir Vertica, y resultó que esos usuarios nales eran principalmente analistas.
Los analistas y los cientí cos de datos son personas muy diferentes, dice Bohn.
Los cientí cos de datos se sentirán cómodos trabajando con Hadoop,
MapReduce, Scalding e incluso Spark, mientras que los analistas de datos viven
en un mundo de SQL. "Si colocas herramientas con las que no tienen
experiencia, no las usarán". Es así de simple ", a rma Bohn.
Al principio, Etsy solo tenía su equipo de analistas usando Vertica, pero luego los
ingenieros le pidieron que creara tableros, y el equipo de seguridad quería hacer
algunas huellas dactilares. "Después de eso, parecía que todos se estaban
subiendo al carro de Vertica", dice Bohn. Pensó que tendría tal vez una docena de
usuarios de Vertica. Él ahora tiene más de 200.
"Hay que considerar que su análisis de Big Data, si se hace bien, realmente va a
despegar", enfatiza Bohn, quien agregó que Etsy estaba renovando
continuamente su licencia de Vertica para comprar más capacidad.
"Comenzamos con cinco nodos y 10 terabytes, pasamos a 30 terabytes y 20
nodos, y continuamos. Ahora estamos presionando contra 130 terabytes y, de
nuevo, necesitamos agregar capacidad ".
Una nota: cuantos más usuarios simultáneos tengas, más RAM necesitarás. Así
que prepárate para actualizar tus clusters con RAM adicional, advierte Bohn.
Y no se trata solo de más de los mismos datos, sino de nuevos tipos de datos que
se acumulan. Cuando Etsy comenzó con su base de datos PostgreSQL hace una
década, tocó los límites de una máquina en un año. Entonces, Etsy decidió hacer
fragmentación vertical: por ejemplo, tomó sus foros y les dio sus propias bases de
datos dedicadas para aliviar la presión sobre el sistema principal. Eso ayudó por
otro año. Entonces Etsy se dio cuenta de que también tenía que fragmentarse
horizontalmente para manejar todo el trá co. Para realizar análisis, tenía que
obtener datos de todos esos fragmentos en un lugar donde todos pudieran vivir
juntos y para que los usuarios pudieran realizar consultas en todos ellos. Todo
eso resultó ser muy ine ciente.
El desafío fue que los datos de clickstream provienen de archivos de registro, que
no están estructurados. Sin embargo, los datos en las bases de datos de
producción estaban estructurados, y Etsy necesitaba unirlos. Cada vez que
agregaba nuevas características al sitio, tenía que crear nuevas tablas en las bases
de datos de producción y obtener todo en Vertica. Por ejemplo, hace dos años
Etsy comenzó a ofrecer etiquetas de envío preimpresas a los usuarios que se
hicieron muy populares. Pero eso resultó en una gran cantidad de datos
adicionales para Etsy que tuvieron que ser llevados a Vertica. Afortunadamente,
Vertica podría escalar para satisfacer todas estas demandas.
"Nunca se sabe lo que podría ser útil", declara Bohn. "Aún así, demasiadas
organizaciones lanzan datos porque no creen que sacarán nada de eso".
"A muchos analistas les hubiera encantado analizar palabras clave en una
descripción modi cada, por ejemplo, para ver si había más ventas o
conversaciones debido a los cambios", dice Bohn. "Pero debido a la pérdida de
datos, no podemos hacer eso". Etsy se está moviendo en la dirección de mantener
un registro de cambios, que ilustra cómo el análisis de big data ha in uido en la
arquitectura y los protocolos de cómo Etsy diseña sus sistemas de producción.
Etsy tenía una gran deuda técnica con su máquina PostgreSQL BI, cuando
resultó no ser escalable. "Tuvimos que pagar un precio, en dólares reales, para
trasladarnos a Vertica", a rma Bohn.
Según Bohn, la lección es esta: tus datos son tu estrella, y esto impulsa tus
decisiones de compra. Él añade:
¿Usas la nube o el hierro desnudo en una instalación de colocación? Esto
importará, porque para obtener datos en la nube debe enviarlos a través de
Internet, lo que no será tan rápido como si su sistema analítico de Big Data
estuviera ubicado justo al lado de su sistema de producción.
De hecho, Etsy usa Vertica como una interfaz para su sistema Hadoop, un
enfoque diferente al de la mayoría de las compañías. Entonces escribió Schlep y
otras herramientas para obtener datos de producción en Vertica. Luego, tuvo
que descubrir cómo obtener los datos de producción de Vertica en Hadoop.
Simplemente usa el conector Vertica HDFS para capturar datos de Vertica y
transferirlos a Hadoop. "Todavía estamos trabajando en la arquitectura y
comprobando las tecnologías que están surgiendo", dice Bohn. Él continúa:
“Considerándolo todo", dice Bohn, "es mejor estar a la vanguardia que el borde
sangrante". Tomar ActiveMQ, un sistema de consulta que compraron muchas de
las principales compañías en la última década: demostró no estar a la altura de su
promoción. "Las compañías que tomaron esa ruta tuvieron que liberarse a un
costo considerable", a rma.
Bohn sabe de una empresa importante que quería utilizar análisis de big data
para evaluar la efectividad de sus productos. Pero los usuarios no pudieron
obtener los datos que querían fuera del sistema, por lo que tuvieron que recurrir
a los cientí cos de datos y pedirles que realizaran consultas, algo que los
cientí cos de datos no consideraban un aspecto "real" de sus trabajos. . Como
Bohn recuerda:
Esta empresa tuvo un gran desafío para hacer que los datos fueran más un
proceso de autoservicio, simplemente porque los ingenieros y los
ingenieros de datos no se hablaban entre sí.
Este tipo de escenario clama por un director de datos, para garantizar que los
datos se distribuyan democráticamente y que va donde se necesita, para que las
personas que lo necesiten puedan obtenerlo sin problemas.