Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Una guía para principiantes. ¿Qué deben saber las empresas que consideran implementar proyectos de big data?
NOTA DEL EDITOR COMPARACIÓN ENTRE SIETE PASOS PARA 10 PASOS PARA USAR
AWS, AZURE Y GOOGLE IMPLEMENTAR UN LAGO ANALÍTICA PREDICTIVA
DE DATOS
NOTA DEL
EDITOR
INICIO La necesidad de analizar los grandes volúme- que están en las bases de datos relacionales), datos
nes de datos demanda cada vez más recursos de semiestructurados (que están organizados, pero
NOTA DEL EDITOR
la infraestructura de computación empresarial. La no están en una base de datos, como documentos
COMPARAR potencia de cálculo necesaria para procesar rápi- XML) y datos no estructurados (imágenes, audios,
CONSEJOS
damente grandes volúmenes y variedades de datos publicaciones de redes sociales, etc.).
puede sobrecargar un solo servidor o un clúster Pero, para que sean útiles, los datos deben ser
ANALÍTICA
de servidores. Las organizaciones deben aplicar el analizados, filtrados y gestionados. Aquí es donde
poder de cálculo adecuado a las tareas de big data las soluciones de gestión de big data y analítica
para lograr la velocidad deseada. entran en juego, potenciadas por nuevas tenden-
Alcanzar esa velocidad de una manera rentable cias tecnológicas que se alimentan de la informa-
es también un reto. Como no todas las empresas ción generada, como la inteligencia artificial, el
tienen la capacidad de aumentar su infraestruc- aprendizaje automático o incluso internet de las
tura, la computación en la nube pública ofrece una cosas (IoT). En los siguientes artículos, encontra-
alternativa para alojar grandes proyectos de análi- rán algunos consejos para elegir la mejor solución
sis de datos. para su empresa así como para implementarla y
Esos grandes volúmenes de datos, o big data, aprovechar los análisis de datos.
pueden dividirse en datos estructurados (como los —Lizzette Pérez Arbesú
INICIO El mercado de la nube está evolucionando He aquí un vistazo más de cerca a los actuales
con rapidez, con un conjunto siempre cambiante servicios de big data de AWS vs. Azure vs. Google.
NOTA DEL EDITOR
de los servicios de big data. Si bien esto dificulta
COMPARAR las comparaciones de proveedores de nube, vale
CONSEJOS
la pena el intento, debido a que las ofertas de los AMAZON WEB SERVICES
tres principales proveedores de la nube –Amazon AWS tiene un amplio espectro de servicios de
ANALÍTICA
Web Services, Microsoft Azure y Google– no son big data. Amazon Elastic MapReduce, por ejem-
iguales. plo, corre Hadoop y Spark, mientras que Kinesis
Big data en la nube es un área del mercado en el Firehose y Kinesis Streams proporcionan una
que la inmensa experiencia en búsquedas de Goo- manera de transmitir grandes cantidades de datos
gle tiene sinergias, pero Amazon Web Services en AWS. Los usuarios pueden almacenar datos en
(AWS) y Azure están atrayendo a algunas compa- Redshift, un almacén de datos de escala petabyte,
ñías nuevas e interesantes para agregar valor. con compresión de datos para ayudar a reducir los
El resultado es un espectro vibrante de servi- costos. Amazon Elasticsearch es un servicio para
cios de datos grandes que es cada vez más atrac- implementar la herramienta de código abierto
tiva tanto desde una capacidad como desde una Elasticsearch en AWS para el análisis como click-
perspectiva económica. Los usuarios de la nube en through y el registro de monitorización. Kinesis
última instancia, ha ganado en la gran competición Analytics complementa esto mediante el análisis
de datos entre los tres grandes –y parece que eso de los flujos de datos.
continuará en los próximos años. AWS tiene una mayor cantidad de opciones de
búsqueda. La suite Cortana y los servicios cogniti- Hadoop, Pig y Hive. Las organizaciones también
vos de Microsoft proporcionan más capacidades de pueden utilizar Google Analytics y DoubleClick –
inteligencia avanzada. una herramienta para la industria de la publicidad
que reúne estadísticas para alimentar BigQuery–
como fuentes de datos. Google Cloud Dataflow
INICIO GOOGLE permite a los usuarios secuenciar los servicios de
El servicio de datos BigQuery de Google utiliza datos en la nube.
NOTA DEL EDITOR
una interfaz similar a SQL que es intuitivo para Otros servicios de big data ofrecidos por Goo-
COMPARAR que la mayoría de los usuarios –incluso los no gle incluyen Cloud Datastore, una base de datos
CONSEJOS
técnicos– lo aprendan. Es compatible con las NoSQL para datos no relacionales; Cloud BigTable,
bases de datos petabytes y puede realizar flujos una base de datos NoSQL masivamente escalable;
ANALÍTICA
de datos de 100.000 filas por segundo como una Cloud Machine Learning, una plataforma gestio-
alternativa a la ejecución de los datos en la nube de nada por la máquina de aprendizaje; y herramien-
almacenamiento. BigQuery también es compatible tas auxiliares como traductores y convertidores de
con la replicación geográfica y los usuarios pueden voz.
seleccionar el lugar donde se almacenan sus datos. Una oferta notable de la que Google carece para
BigQuery es un servicio de pago por uso sin una big data es la instancia GPU. Escribir código GPU
infraestructura dedicada de las instancias, lo que para el análisis de datos es una técnica de alto
permite a Google usar un gran número de procesa- valor, dado el increíble impulso al rendimiento
dores para mantener los tiempos veloces de con- que ofrecen las GPU. La falta de una familia de
sulta. También soporta la integración con Spark, instancias GPU por parte de Google es un tanto
desconcertante, sobre todo cuando AWS tiene la donde Microsoft tiene una ventaja con Cortana. La
característica desde 2011 y Azure la agregó en el falta de instancias de GPU de Google es también
año 2015. una notable diferencia.
Al igual que con cualquier amplio espectro de
productos, y debido a que todos estos servicios
INICIO AWS, AZURE, GOOGLE: UNA CARRERA CERRADA de big data están en su infancia relativa, habrá
En muchos sentidos, los tres grandes proveedores diferencias que dependen del caso de uso o de los
NOTA DEL EDITOR
de la nube van al mismo ritmo en los servicios de datos. Puede ser difícil elegir entre AWS vs. Azure
COMPARAR big data, aunque hay diferencias bajo el capó en vs. Google. Una forma de determinar el mejor
CONSEJOS
el rendimiento y la facilidad de uso que requieren servicio en la nube para usted es probarlos en un
algunas pruebas prácticas de discernir. Mientras entorno limitado por un par de semanas para tener
ANALÍTICA
que Google probablemente tiene una ventaja en una idea de cómo funciona y cuál será el precio.
la búsqueda, va a la zaga en la parte frontal de BI, —Jim O’Reilly
INICIO El concepto del lago de datos se originó con científicos de datos y otros analistas encuentren
el surgimiento de big data como un activo central datos relevantes distribuidos en un clúster de
NOTA DEL EDITOR
para las empresas y la llegada de Hadoop como una Hadoop y que los administradores de datos pue-
COMPARAR plataforma para almacenarlo y administrarlo. Sin dan rastrear quién accede a determinados conjun-
CONSEJOS
embargo, sumergirse ciegamente en la implemen- tos de datos y determinar qué nivel de privilegios
tación de un lago de datos de Hadoop no necesa- de acceso se necesitan.
ANALÍTICA
riamente llevará a su organización a la era del big Organizar datos y “agrupar” objetos de datos
data, al menos no de manera exitosa. similares para ayudar a facilitar el acceso y el aná-
Esto es particularmente cierto en los casos lisis también es un desafío si no cuenta con un
en que los recursos de datos de todas las for- proceso bien administrado.
mas y tamaños se canalizan hacia un entorno de Ninguno de estos problemas tiene que ver con la
Hadoop de forma no gobernada. Un enfoque for- arquitectura física del lago de datos o del entorno
tuito de este tipo conduce a varios desafíos y pro- Hadoop subyacente. Más bien, los mayores impe-
blemas que pueden obstaculizar gravemente el uso dimentos para una implementación exitosa del
de un lago de datos para soportar aplicaciones de lago de datos son el resultado de una planificación
análisis de big data. y supervisión inadecuadas de la administración de
Por ejemplo, es posible que no pueda documen- datos.
tar qué objetos de datos están almacenados en un La buena noticia, sin embargo, es que los desa-
lago de datos así como tampoco podría registrar fíos se superan fácilmente. Aquí hay siete pasos
sus fuentes y procedencia. Eso dificulta que los para enfrentarlos y evitarlos:
2. Diseñe una arquitectura de datos adecuada. 4. Estandarice el proceso de acceso a datos. Las difi-
Aplique la taxonomía de clasificación definida para cultades en el uso efectivo de conjuntos de datos
dirigir cómo se organizan los datos en su entorno almacenados en un lago de datos de Hadoop a
Hadoop. El plan resultante debe incluir cosas como menudo se derivan del uso de una variedad de
estructuras de jerarquía de archivos para el alma- métodos de acceso a datos, muchos de ellos sin
cenamiento de datos, convenciones de nombres de documentar, por diferentes equipos de analítica.
archivos y carpetas, métodos de acceso y controles En cambio, instituir una API común y directa
para diferentes conjuntos de datos, al igual que puede simplificar el acceso a los datos y, en última
mecanismos para guiar la distribución de datos. instancia, permitir que más usuarios aprovechen
los datos.
3. Emplee herramientas de creación de perfiles de
datos. Enmuchos casos, la ausencia de conoci- 5. Desarrolle un catálogo de datos con capacidad de
miento sobre todos los datos que entran en un lago búsqueda. Un obstáculo más insidioso al acceso
INICIO Hay una tendencia creciente entre las empre- empresariales en todo el ciclo de vida del análisis
sas de utilizar algoritmos de analítica predictiva de datos. Considere la posibilidad de seguir los
NOTA DEL EDITOR
para aumentar sus resultados finales. En compara- siguientes 10 pasos para ayudar a fomentar eso y
COMPARAR ción con la analítica descriptiva, que proporciona poner otros elementos básicos para establecer su
CONSEJOS
una perspectiva de lo que ya ha sucedido, la ana- iniciativa de analítica para el éxito.
lítica predictiva intenta discernir eventos futuros;
ANALÍTICA
por ejemplo, identificar a las personas que pueden 1. Encuentre un campeón corporativo. Es aconse-
ser receptivas a las ofertas de marketing. jable empezar por obtener el respaldo de un líder
Pero para aprovechar al máximo los modelos de alto nivel que está dispuesto a invertir recursos
predictivos, los equipos de análisis deben equi- y buena voluntad personal para garantizar que la
librar la adopción de herramientas analíticas organización apoya adecuadamente el proceso de
avanzadas con el establecimiento de procesos analítica predictiva y las mejoras operacionales que
empresariales nuevos o modificados, y otros cam- ayuda a impulsar. Por ejemplo, un director de mar-
bios organizativos. Puro y simple: los resultados keting puede ser un buen candidato para patroci-
analíticos que no influyen en la toma de decisio- nar un programa de análisis de clientes porque el
nes y en el comportamiento corporativo de una CMO puede proporcionar los fondos necesarios
manera productiva no agregarán ningún valor al y ordenar a los equipos de marketing que utilicen
negocio. los resultados generados por los algoritmos de
Un programa de analítica predictiva eficaz re- análisis predictivo en campañas de planificación y
quiere el compromiso y el apoyo de los usuarios promociones.
2. Entienda los principales objetivos de negocio de la 4. Defina métricas de rendimiento. Sus modelos pre-
empresa. Los mejores modelos predictivos son los dictivos no solo deben influir en los cambios en
que comparten dos características importantes: la los procesos de negocio, sino que también deben
precisión en las predicciones y la relevancia para tener un impacto mensurable en el desempeño del
el negocio. Puede mejorar la probabilidad de crear negocio. Elabore un plan para crear métricas que se
INICIO valor de negocio cuando los científicos de datos y puedan utilizar para cuantificar el valor de emplear
los analistas que hacen el trabajo de análisis son los modelos.
NOTA DEL EDITOR
conscientes de los objetivos de negocio de la orga-
COMPARAR nización y se concentran en la construcción de 5. Contrate a un equipo competente. Su equipo de
CONSEJOS
modelos que pueden tener el máximo impacto en analítica debe estar compuesto por individuos
el cumplimiento de esos objetivos. con una amplia gama de habilidades, incluyendo
ANALÍTICA
potencialmente estadísticos, científicos de datos,
3. Evalúe cómo los procesos empresariales podrían analistas de datos, analistas de negocios, inge-
verse afectados. Los modelos predictivos ayudan a nieros de datos y profesionales de la gestión del
identificar oportunidades de negocio, pero incluso cambio.
los mejor diseñados serán ineficaces si los resulta-
dos de las aplicaciones analíticas no se usan para 6. Defina su metodología de desarrollo de mode-
guiar las acciones de los gerentes de negocios y los. Uno de los impedimentos para el éxito de la
los trabajadores operacionales. Para poder poner analítica es cuando el tiempo que toma desarro-
los hallazgos en acción, será necesario identificar llar los modelos predictivos supera la ventana de
los procesos de negocio que pueden mejorarse con oportunidad de negocios. Algunas organizaciones
base en los hallazgos de los algoritmos de analítica adoptan técnicas de desarrollo ágiles para acele-
predictiva, así como también conseguir jefes de rar el proceso de creación de modelos, con refi-
departamento que se sumen con la preparación de namientos iterativos para mejorar los modelos a
habilidades de sus trabajadores. medida que se están desplegando. La entrega más
rápida del valor incremental es mucho mejor que sus sistemas de análisis permanecen en un nivel
los retrasos interminables en la entrega del modelo aceptable, con políticas de uso de datos asociadas
predictivo perfecto. para evitar diferentes interpretaciones que con-
duzcan a resultados analíticos en conflicto.
7. Asegúrese de que los datos correctos están
INICIO disponibles, y accesibles. Bigdata es una bendi- 9. Planifique fallar rápido cuando las cosas no salen
ción mixta. Aunque su organización puede tener bien. Va a haber muchas oportunidades para cons-
NOTA DEL EDITOR
la capacidad de recopilar y almacenar cantidades truir modelos analíticos, pero no todas tendrán
COMPARAR masivas de datos, los analistas todavía necesitan éxito en la entrega de información útil. Establezca
CONSEJOS
saber qué conjuntos de datos están disponibles y el principio de fracaso rápido: Si un modelo pre-
cómo acceder a los que son relevantes para ellos. dictivo no está produciendo nada de valor para el
ANALÍTICA
Además de crear un inventario de conjuntos de negocio, pase a la próxima oportunidad.
datos, mantenga suficientes metadatos técnicos
y empresariales en un catálogo de datos para 10. Elija las herramientas adecuadas para el trabajo
asegurar que las aplicaciones específicas de a mano. Hay un mercado saludable de herramien-
análisis predictivo tengan acceso a los datos tas de análisis predictivo, incluyendo opciones
adecuados. de fuente abierta y comerciales. Busque herra-
mientas que proporcionen un conjunto básico de
8. Instituya un sólido programa de gobierno de capacidades que se adapten a sus necesidades de
datos. Elentorno de datos corporativos está cam- aplicación. Los factores a considerar incluyen el
biando constantemente y nuevos conjuntos de soporte para los algoritmos de análisis predictivo
datos se capturan y se ingieren continuamente particulares que va a utilizar, la interoperabilidad
desde fuentes internas y externas. Implemente con una variedad de plataformas convencionales y
prácticas de gobierno de datos que ayuden a garan- de big data, la capacidad de manejar datos estruc-
tizar que la calidad y consistencia de los datos en turados y no estructurados, y la integración con
herramientas de visualización de datos y herra- planificados en el contexto del valor del negocio,
mientas frontales de presentación. involucrando a los usuarios empresariales, ges-
tionando el cambio, y dando acceso a analistas a
Estos 10 pasos no son una lista exhaustiva de lo datos relevantes y confiables. Hechos correcta-
que implica el establecimiento de un exitoso pro- mente, ayudarán a alimentar procesos repetibles
INICIO grama de analítica predictiva. Pero proporcionan para desarrollar, probar e implementar modelos
una base para obtener un soporte sostenible inter- predictivos que, de hecho, pueden beneficiar al
NOTA DEL EDITOR
namente, enmarcando los modelos predictivos negocio.—David Loshin
COMPARAR
CONSEJOS
ANALÍTICA
© 2018 TechTarget Inc. Ninguna parte de esta publicación puede ser reproduci-
das o retransmitidas de ninguna manera o por ningún medio sin el consentimien-
to por escrito de la editorial. Los reimpresos de TechTarget están disponibles a
través de YGS Group.