Está en la página 1de 20

22/9/23, 11:50 Ciclo de vida del análisis de Big Data | Consideraciones de planificación y adopción de Big Data | Informar

pearson

OFERTAS ESPECIALES Mantente al día con nuevos lanzamientos y promociones. Regístrese para saber de nosotros.

Libros, libros electrónicos y aprendizaje digital.

Inicio > Artículos > Datos

Consideraciones de planificación y adopción de Big Correos promocionales y ofertas


Data especiales de InformIT
8 de febrero de 2016 Me gustaría recibir ofertas exclusivas y conocer
productos de InformIT y su familia de marcas. Puedo
darme de baja en cualquier momento.
📄 Contenidos ⎙ Imprimir < Volver Página 11 de 11 Aviso de Privacidad

Dirección de correo electrónico

Este capítulo es del libro.


Fundamentos de Big Data: conceptos, impulsores y técnicas Entregar

Aprende más  Comprar

Ciclo de vida del análisis de big data


El análisis de Big Data se diferencia del análisis de datos tradicional principalmente por las
características de volumen, velocidad y variedad de los datos que se procesan. Para abordar los
distintos requisitos para realizar análisis sobre Big Data, se necesita una metodología paso a paso
para organizar las actividades y tareas involucradas en la adquisición, procesamiento, análisis y
reutilización de datos. Las próximas secciones exploran un ciclo de vida de análisis de datos
específico que organiza y gestiona las tareas y actividades asociadas con el análisis de Big Data.
Desde una perspectiva de planificación y adopción de Big Data, es importante que, además del ciclo
de vida, se tengan en cuenta cuestiones de capacitación, educación, herramientas y dotación de
personal de un equipo de análisis de datos.

El ciclo de vida del análisis de Big Data se puede dividir en las nueve etapas siguientes, como se
muestra en la Figura 3.6 :

1. Evaluación de casos de negocio


2. Identificación de datos
3. Adquisición y filtrado de datos
4. Extracción de datos
5. Validación y limpieza de datos
6. Agregación y representación de datos
7. Análisis de los datos
8. Visualización de datos
9. Utilización de los resultados del análisis

https://www.informit.com/articles/article.aspx?p=2473128&seqNum=11&ranMID=24808 1/20
22/9/23, 11:50 Ciclo de vida del análisis de Big Data | Consideraciones de planificación y adopción de Big Data | Informar

Figura 3.6 Las nueve etapas del ciclo de vida del análisis de Big Data.

Evaluación de casos de negocio


Cada ciclo de vida del análisis de Big Data debe comenzar con un caso de negocio bien definido que
presente una comprensión clara de la justificación, la motivación y los objetivos de realizar el
análisis. La etapa de Evaluación de Casos de Negocio que se muestra en la Figura 3.7 requiere que
se cree, evalúe y apruebe un caso de negocios antes de continuar con las tareas de análisis práctico
reales.

https://www.informit.com/articles/article.aspx?p=2473128&seqNum=11&ranMID=24808 2/20
22/9/23, 11:50 Ciclo de vida del análisis de Big Data | Consideraciones de planificación y adopción de Big Data | Informar

Figura 3.7 Etapa 1 del ciclo de vida del análisis de Big Data.

Una evaluación de un caso de negocio de análisis de Big Data ayuda a los tomadores de decisiones a
comprender los recursos comerciales que deberán utilizarse y qué desafíos comerciales abordará el
análisis. La identificación adicional de KPI durante esta etapa puede ayudar a determinar los
criterios de evaluación y la orientación para la evaluación de los resultados analíticos. Si los KPI no
están disponibles, se deben hacer esfuerzos para que los objetivos del proyecto de análisis sean
SMART, que significa específico, mensurable, alcanzable, relevante y oportuno.

Con base en los requisitos comerciales que están documentados en el caso comercial, se puede
determinar si los problemas comerciales que se abordan son realmente problemas de Big Data.
Para calificar como un problema de Big Data, un problema empresarial debe estar directamente
relacionado con una o más de las características de volumen, velocidad o variedad de Big Data.

Tenga en cuenta también que otro resultado de esta etapa es la determinación del presupuesto
subyacente requerido para llevar a cabo el proyecto de análisis. Cualquier compra necesaria, como
herramientas, hardware y capacitación, debe entenderse de antemano para que la inversión
anticipada pueda compararse con los beneficios esperados de lograr los objetivos. Las iteraciones
iniciales del ciclo de vida del análisis de Big Data requerirán una mayor inversión inicial en

https://www.informit.com/articles/article.aspx?p=2473128&seqNum=11&ranMID=24808 3/20
22/9/23, 11:50 Ciclo de vida del análisis de Big Data | Consideraciones de planificación y adopción de Big Data | Informar
tecnologías, productos y capacitación de Big Data en comparación con iteraciones posteriores en las
que estas inversiones anteriores pueden aprovecharse repetidamente.

Identificación de datos
La etapa de Identificación de datos que se muestra en la Figura 3.8 está dedicada a identificar los
conjuntos de datos necesarios para el proyecto de análisis y sus fuentes.

Figura 3.8 La identificación de datos es la etapa 2 del ciclo de vida del análisis de Big Data.

Identificar una variedad más amplia de fuentes de datos puede aumentar la probabilidad de
encontrar patrones y correlaciones ocultos. Por ejemplo, para proporcionar información, puede
resultar beneficioso identificar tantos tipos de fuentes de datos relacionados como sea posible,
especialmente cuando no está claro exactamente qué buscar.

Dependiendo del alcance comercial del proyecto de análisis y la naturaleza de los problemas
comerciales que se abordan, los conjuntos de datos requeridos y sus fuentes pueden ser internos
y/o externos a la empresa.

https://www.informit.com/articles/article.aspx?p=2473128&seqNum=11&ranMID=24808 4/20
22/9/23, 11:50 Ciclo de vida del análisis de Big Data | Consideraciones de planificación y adopción de Big Data | Informar
En el caso de conjuntos de datos internos, normalmente se compila y compara una lista de
conjuntos de datos disponibles de fuentes internas, como data marts y sistemas operativos, con
una especificación de conjunto de datos predefinida.

En el caso de conjuntos de datos externos, se compila una lista de posibles proveedores de datos de
terceros, como mercados de datos y conjuntos de datos disponibles públicamente. Algunas formas
de datos externos pueden estar integradas en blogs u otros tipos de sitios web basados ​en
contenido, en cuyo caso es posible que sea necesario recopilarlos mediante herramientas
automatizadas.

Adquisición y filtrado de datos


Durante la etapa de Adquisición y Filtrado de Datos, que se muestra en la Figura 3.9 , los datos se
recopilan de todas las fuentes de datos que se identificaron durante la etapa anterior. Luego, los
datos adquiridos se someten a un filtrado automatizado para eliminar datos corruptos o datos que
se considera que no tienen valor para los objetivos del análisis.

Figura 3.9 Etapa 3 del ciclo de vida del análisis de Big Data.

https://www.informit.com/articles/article.aspx?p=2473128&seqNum=11&ranMID=24808 5/20
22/9/23, 11:50 Ciclo de vida del análisis de Big Data | Consideraciones de planificación y adopción de Big Data | Informar
Dependiendo del tipo de fuente de datos, los datos pueden venir como una colección de archivos,
como los datos comprados a un proveedor de datos externo, o pueden requerir integración API,
como con Twitter. En muchos casos, especialmente cuando se trata de datos externos no
estructurados, algunos o la mayoría de los datos adquiridos pueden ser irrelevantes (ruido) y
pueden descartarse como parte del proceso de filtrado.

Los datos clasificados como "corruptos" pueden incluir registros con valores faltantes o sin sentido
o tipos de datos no válidos. Los datos filtrados para un análisis posiblemente sean valiosos para otro
tipo de análisis. Por lo tanto, es recomendable almacenar una copia literal del conjunto de datos
original antes de proceder con el filtrado. Para minimizar el espacio de almacenamiento requerido,
la copia textual se puede comprimir.

Tanto los datos internos como los externos deben persistir una vez que se generan o ingresan a los
límites de la empresa. Para el análisis por lotes, estos datos se conservan en el disco antes del
análisis. En el caso del análisis en tiempo real, los datos se analizan primero y luego se guardan en
el disco.

Como se evidencia en la Figura 3.10 , los metadatos se pueden agregar mediante automatización a
los datos de fuentes de datos tanto internas como externas para mejorar la clasificación y las
consultas. Ejemplos de metadatos adjuntos incluyen el tamaño y la estructura del conjunto de
datos, la información de origen, la fecha y hora de creación o recopilación e información específica
del idioma. Es vital que los metadatos sean legibles por máquina y se transmitan a lo largo de
etapas de análisis posteriores. Esto ayuda a mantener la procedencia de los datos durante todo el
ciclo de vida del análisis de Big Data, lo que ayuda a establecer y preservar la precisión y la calidad
de los datos.

Figura 3.10 Se agregan metadatos a los datos de fuentes internas y externas.

Extracción de datos
Algunos de los datos identificados como entrada para el análisis pueden llegar en un formato
incompatible con la solución Big Data. La necesidad de abordar tipos dispares de datos es más
probable con datos de fuentes externas. La etapa del ciclo de vida de Extracción de datos, que se
muestra en la Figura 3.11 , está dedicada a extraer datos dispares y transformarlos en un formato
que la solución de Big Data subyacente pueda utilizar para el análisis de datos.

https://www.informit.com/articles/article.aspx?p=2473128&seqNum=11&ranMID=24808 6/20
22/9/23, 11:50 Ciclo de vida del análisis de Big Data | Consideraciones de planificación y adopción de Big Data | Informar

Figura 3.11 Etapa 4 del ciclo de vida del análisis de Big Data.

El alcance de la extracción y transformación requerida depende de los tipos de análisis y


capacidades de la solución Big Data. Por ejemplo, extraer los campos obligatorios de datos textuales
delimitados, como los archivos de registro del servidor web, puede no ser necesario si la solución
de Big Data subyacente ya puede procesar esos archivos directamente.

De manera similar, la extracción de texto para análisis de texto, que requiere escaneos de
documentos completos, se simplifica si la solución de Big Data subyacente puede leer directamente
el documento en su formato nativo.

La Figura 3.12 ilustra la extracción de comentarios y una identificación de usuario incrustados


dentro de un documento XML sin necesidad de una mayor transformación.

https://www.informit.com/articles/article.aspx?p=2473128&seqNum=11&ranMID=24808 7/20
22/9/23, 11:50 Ciclo de vida del análisis de Big Data | Consideraciones de planificación y adopción de Big Data | Informar

Figura 3.12 Los comentarios y los ID de usuario se extraen de un documento XML.

La Figura 3.13 demuestra la extracción de las coordenadas de latitud y longitud de un usuario de un


único campo JSON.

Figura 3.13 El ID de usuario y las coordenadas de un usuario se extraen de un único


campo JSON.

Se necesita una mayor transformación para separar los datos en dos campos separados como lo
requiere la solución Big Data.

Validación y limpieza de datos


Los datos no válidos pueden distorsionar y falsificar los resultados del análisis. A diferencia de los
datos empresariales tradicionales, donde la estructura de datos está predefinida y los datos están
prevalidados, la entrada de datos en los análisis de Big Data puede no estar estructurada sin
ninguna indicación de validez. Su complejidad puede dificultar aún más llegar a un conjunto de
restricciones de validación adecuadas.

La etapa de Validación y Limpieza de Datos que se muestra en la Figura 3.14 está dedicada a
establecer reglas de validación, a menudo complejas, y a eliminar cualquier dato no válido
conocido.

https://www.informit.com/articles/article.aspx?p=2473128&seqNum=11&ranMID=24808 8/20
22/9/23, 11:50 Ciclo de vida del análisis de Big Data | Consideraciones de planificación y adopción de Big Data | Informar

Figura 3.14 Etapa 5 del ciclo de vida del análisis de Big Data.

Las soluciones de Big Data suelen recibir datos redundantes en diferentes conjuntos de datos. Esta
redundancia se puede aprovechar para explorar conjuntos de datos interconectados con el fin de
ensamblar parámetros de validación y completar los datos válidos que faltan.

Por ejemplo, como se ilustra en la Figura 3.15 :

El primer valor del conjunto de datos B se valida con su valor correspondiente en el


conjunto de datos A.
El segundo valor en el conjunto de datos B no se valida con su valor correspondiente en
el conjunto de datos A.
Si falta un valor, se inserta desde el conjunto de datos A.

https://www.informit.com/articles/article.aspx?p=2473128&seqNum=11&ranMID=24808 9/20
22/9/23, 11:50 Ciclo de vida del análisis de Big Data | Consideraciones de planificación y adopción de Big Data | Informar

Figura 3.15 La validación de datos se puede utilizar para examinar conjuntos de datos
interconectados con el fin de completar los datos válidos que faltan.

Para el análisis por lotes, la validación y limpieza de datos se puede lograr mediante una operación
ETL fuera de línea. Para el análisis en tiempo real, se requiere un sistema en memoria más complejo
para validar y limpiar los datos a medida que llegan desde la fuente. La procedencia puede
desempeñar un papel importante a la hora de determinar la exactitud y la calidad de datos
cuestionables. Los datos que parecen no ser válidos aún pueden ser valiosos porque pueden
contener patrones y tendencias ocultos, como se muestra en la Figura 3.16 .

Figura 3.16 La presencia de datos no válidos genera picos. Aunque los datos parecen
anormales, pueden ser indicativos de un nuevo patrón.

Agregación y representación de datos


Los datos pueden estar distribuidos en múltiples conjuntos de datos, lo que requiere que los
conjuntos de datos se unan mediante campos comunes, por ejemplo, fecha o ID. En otros casos, los
mismos campos de datos pueden aparecer en varios conjuntos de datos, como la fecha de
nacimiento. De cualquier manera, se requiere un método de conciliación de datos o se debe
determinar el conjunto de datos que representa el valor correcto.

La etapa de agregación y representación de datos, que se muestra en la Figura 3.17 , está dedicada
a integrar múltiples conjuntos de datos para llegar a una vista unificada.

https://www.informit.com/articles/article.aspx?p=2473128&seqNum=11&ranMID=24808 10/20
22/9/23, 11:50 Ciclo de vida del análisis de Big Data | Consideraciones de planificación y adopción de Big Data | Informar

Figura 3.17 Etapa 6 del ciclo de vida del análisis de Big Data.

Realizar esta etapa puede volverse complicado debido a diferencias en:

Estructura de datos : aunque el formato de datos puede ser el mismo, el modelo de


datos puede ser diferente.
Semántica : un valor etiquetado de manera diferente en dos conjuntos de datos
diferentes puede significar lo mismo, por ejemplo, "apellido" y "apellido".

Los grandes volúmenes procesados ​por las soluciones de Big Data pueden hacer que la agregación
de datos sea una operación que requiera mucho tiempo y esfuerzo. Conciliar estas diferencias
puede requerir una lógica compleja que se ejecute automáticamente sin necesidad de intervención
humana.

Durante esta etapa es necesario considerar los requisitos futuros de análisis de datos para ayudar a
fomentar la reutilización de los datos. Ya sea que se requiera o no la agregación de datos, es
importante comprender que los mismos datos se pueden almacenar de muchas formas diferentes.
Una forma puede ser más adecuada que otra para un tipo particular de análisis. Por ejemplo, los
datos almacenados como BLOB serían de poca utilidad si el análisis requiere acceso a campos de
datos individuales.

https://www.informit.com/articles/article.aspx?p=2473128&seqNum=11&ranMID=24808 11/20
22/9/23, 11:50 Ciclo de vida del análisis de Big Data | Consideraciones de planificación y adopción de Big Data | Informar
Una estructura de datos estandarizada por la solución Big Data puede actuar como un denominador
común que se puede utilizar para una variedad de técnicas y proyectos de análisis. Esto puede
requerir el establecimiento de un repositorio de análisis estándar central, como una base de datos
NoSQL, como se muestra en la Figura 3.18 .

Figura 3.18 Un ejemplo simple de agregación de datos donde dos conjuntos de datos se
agregan usando el campo Id.

La figura 3.19 muestra el mismo dato almacenado en dos formatos diferentes. El conjunto de datos
A contiene el dato deseado, pero es parte de un BLOB al que no se puede acceder fácilmente para
realizar consultas. El conjunto de datos B contiene el mismo dato organizado en almacenamiento
basado en columnas, lo que permite consultar cada campo individualmente.

Figura 3.19 Los conjuntos de datos A y B se pueden combinar para crear una estructura de
datos estandarizada con una solución de Big Data.

Análisis de los datos


La etapa de Análisis de datos que se muestra en la Figura 3.20 está dedicada a llevar a cabo la tarea
de análisis real, que normalmente implica uno o más tipos de análisis. Esta etapa puede ser de
naturaleza iterativa, especialmente si el análisis de datos es exploratorio, en cuyo caso el análisis se
repite hasta que se descubre el patrón o correlación apropiado. El enfoque del análisis exploratorio
se explicará en breve, junto con el análisis confirmatorio.

https://www.informit.com/articles/article.aspx?p=2473128&seqNum=11&ranMID=24808 12/20
22/9/23, 11:50 Ciclo de vida del análisis de Big Data | Consideraciones de planificación y adopción de Big Data | Informar

Figura 3.20 Etapa 7 del ciclo de vida del análisis de Big Data.

Dependiendo del tipo de resultado analítico requerido, esta etapa puede ser tan simple como
consultar un conjunto de datos para calcular una agregación para comparar. Por otro lado, puede
ser tan desafiante como combinar la extracción de datos y técnicas complejas de análisis estadístico
para descubrir patrones y anomalías o generar un modelo estadístico o matemático para
representar las relaciones entre variables.

El análisis de datos se puede clasificar como análisis confirmatorio o análisis exploratorio, el último
de los cuales está vinculado a la extracción de datos, como se muestra en la Figura 3.21 .

https://www.informit.com/articles/article.aspx?p=2473128&seqNum=11&ranMID=24808 13/20
22/9/23, 11:50 Ciclo de vida del análisis de Big Data | Consideraciones de planificación y adopción de Big Data | Informar

Figura 3.21 El análisis de datos se puede realizar como análisis confirmatorio o


exploratorio.

El análisis confirmatorio de datos es un enfoque deductivo donde se propone de antemano la causa


del fenómeno que se investiga. La causa o suposición propuesta se llama hipótesis. Luego, los datos
se analizan para probar o refutar la hipótesis y proporcionar respuestas definitivas a preguntas
específicas. Generalmente se utilizan técnicas de muestreo de datos. Los hallazgos o anomalías
inesperados generalmente se ignoran porque se asumió una causa predeterminada.

El análisis de datos exploratorio es un enfoque inductivo que está estrechamente asociado con la
minería de datos. No se generan hipótesis ni supuestos predeterminados. En cambio, los datos se
exploran mediante análisis para desarrollar una comprensión de la causa del fenómeno. Aunque
puede que no proporcione respuestas definitivas, este método proporciona una dirección general
que puede facilitar el descubrimiento de patrones o anomalías.

Visualización de datos
La capacidad de analizar cantidades masivas de datos y encontrar información útil tiene poco valor
si los únicos que pueden interpretar los resultados son los analistas.

La etapa de visualización de datos, que se muestra en la Figura 3.22 , está dedicada al uso de
técnicas y herramientas de visualización de datos para comunicar gráficamente los resultados del
análisis para una interpretación efectiva por parte de los usuarios comerciales.

https://www.informit.com/articles/article.aspx?p=2473128&seqNum=11&ranMID=24808 14/20
22/9/23, 11:50 Ciclo de vida del análisis de Big Data | Consideraciones de planificación y adopción de Big Data | Informar

Figura 3.22 Etapa 8 del ciclo de vida del análisis de Big Data.

Los usuarios empresariales deben poder comprender los resultados para obtener valor del análisis y
posteriormente tener la capacidad de proporcionar retroalimentación, como lo indica la línea
discontinua que va de la etapa 8 a la etapa 7.

Los resultados de completar la etapa de Visualización de datos brindan a los usuarios la capacidad
de realizar análisis visuales, lo que permite descubrir respuestas a preguntas que los usuarios aún
no han formulado. Las técnicas de análisis visual se tratan más adelante en este libro.

Los mismos resultados pueden presentarse de diferentes maneras, lo que puede influir en la
interpretación de los resultados. En consecuencia, es importante utilizar la técnica de visualización
más adecuada manteniendo el ámbito empresarial en contexto.

Otro aspecto a tener en cuenta es que es crucial proporcionar un método para profundizar en
estadísticas comparativamente simples, para que los usuarios comprendan cómo se generaron los
resultados acumulados o agregados.

Utilización de los resultados del análisis

https://www.informit.com/articles/article.aspx?p=2473128&seqNum=11&ranMID=24808 15/20
22/9/23, 11:50 Ciclo de vida del análisis de Big Data | Consideraciones de planificación y adopción de Big Data | Informar
Después de que los resultados del análisis se pongan a disposición de los usuarios comerciales para
respaldar la toma de decisiones comerciales, por ejemplo a través de paneles de control, puede
haber más oportunidades para utilizar los resultados del análisis. La etapa de Utilización de los
resultados del análisis, que se muestra en la Figura 3.23 , está dedicada a determinar cómo y dónde
se pueden aprovechar aún más los datos del análisis procesados.

Figura 3.23 Etapa 9 del ciclo de vida del análisis de Big Data.

Dependiendo de la naturaleza de los problemas de análisis que se abordan, es posible que los
resultados del análisis produzcan "modelos" que encapsulen nuevos conocimientos y
comprensiones sobre la naturaleza de los patrones y relaciones que existen dentro de los datos
analizados. Un modelo puede parecer una ecuación matemática o un conjunto de reglas. Los
modelos se pueden utilizar para mejorar la lógica de los procesos de negocio y la lógica del sistema
de aplicaciones, y pueden formar la base de un nuevo sistema o programa de software.

Las áreas comunes que se exploran durante esta etapa incluyen las siguientes:

Entrada para sistemas empresariales : los resultados del análisis de datos pueden
introducirse automática o manualmente directamente en los sistemas empresariales

https://www.informit.com/articles/article.aspx?p=2473128&seqNum=11&ranMID=24808 16/20
22/9/23, 11:50 Ciclo de vida del análisis de Big Data | Consideraciones de planificación y adopción de Big Data | Informar
para mejorar y optimizar su comportamiento y rendimiento. Por ejemplo, una tienda
en línea puede recibir resultados de análisis procesados ​relacionados con el cliente que
pueden afectar la forma en que genera recomendaciones de productos. Se pueden
utilizar nuevos modelos para mejorar la lógica de programación dentro de los sistemas
empresariales existentes o pueden formar la base de nuevos sistemas.
Optimización de procesos comerciales : los patrones, correlaciones y anomalías
identificados descubiertos durante el análisis de datos se utilizan para refinar los
procesos comerciales. Un ejemplo es la consolidación de rutas de transporte como
parte de un proceso de cadena de suministro. Los modelos también pueden generar
oportunidades para mejorar la lógica de los procesos de negocio.
Alertas : los resultados del análisis de datos se pueden utilizar como entrada para
alertas existentes o pueden formar la base de alertas nuevas. Por ejemplo, se pueden
crear alertas para informar a los usuarios por correo electrónico o SMS sobre un evento
que les exige tomar medidas correctivas.

Ejemplo de estudio de caso

La mayoría del equipo de TI de ETI está convencido de que Big Data es la solución milagrosa
que abordará todos sus problemas actuales. Sin embargo, los miembros capacitados en TI
señalan que adoptar Big Data no es lo mismo que simplemente adoptar una plataforma
tecnológica. Más bien, primero es necesario considerar una serie de factores para garantizar
una adopción exitosa de Big Data. Por lo tanto, para garantizar que se comprenda
completamente el impacto de los factores relacionados con el negocio, el equipo de TI se
reúne con los gerentes comerciales para crear un informe de viabilidad. Involucrar al personal
de negocios en esta etapa temprana ayudará aún más a crear un entorno que reduzca la
brecha entre las expectativas percibidas por la administración y lo que TI realmente puede
ofrecer.

Existe un fuerte entendimiento de que la adopción de Big Data está orientada a los negocios y
ayudará a ETI a alcanzar sus objetivos. Las capacidades de Big Data para almacenar y procesar
grandes cantidades de datos no estructurados y combinar múltiples conjuntos de datos
ayudarán a ETI a comprender el riesgo. La empresa espera que, como resultado, pueda
minimizar las pérdidas aceptando como clientes únicamente a solicitantes de menor riesgo.
De manera similar, ETI predice que la capacidad de examinar los datos de comportamiento no
estructurados de un cliente y descubrir un comportamiento anormal ayudará aún más a
reducir las pérdidas porque las reclamaciones fraudulentas pueden rechazarse.

La decisión de formar al equipo de TI en el campo de Big Data ha aumentado la preparación


de ETI para la adopción de Big Data. El equipo cree que ahora tiene las habilidades básicas
necesarias para emprender una iniciativa de Big Data. Los datos identificados y categorizados
anteriormente colocan al equipo en una posición sólida para decidir sobre las tecnologías
requeridas. La participación temprana de la dirección empresarial también ha proporcionado
información que les permite anticipar los cambios que pueden ser necesarios en el futuro
para mantener la plataforma de soluciones Big Data alineada con cualquier requisito
empresarial emergente.

En esta etapa preliminar, solo se han identificado un puñado de fuentes de datos externas,
como redes sociales y datos del censo. El personal empresarial acuerda que se asignará un
presupuesto suficiente para la adquisición de datos de terceros proveedores de datos. En
cuanto a la privacidad, los usuarios empresariales temen un poco que la obtención de datos
adicionales sobre los clientes pueda generar desconfianza en los mismos. Sin embargo, se cree
que se puede introducir un plan basado en incentivos, como primas más bajas, para ganarse el
consentimiento y la confianza de los clientes. Al considerar cuestiones de seguridad, el equipo
de TI señala que se requerirán esfuerzos de desarrollo adicionales para garantizar que existan
controles de acceso estandarizados y basados ​en roles para los datos almacenados dentro del
entorno de la solución Big Data.

Aunque los usuarios empresariales están entusiasmados con la posibilidad de realizar análisis
profundos mediante el uso de datos no estructurados, plantean la pregunta de hasta qué
punto pueden confiar en los resultados, ya que el análisis involucra datos de proveedores de
datos externos. El equipo de TI responde que se adoptará un marco para agregar y actualizar
metadatos para cada conjunto de datos que se almacena y procesa, de modo que la
procedencia se mantenga en todo momento y los resultados del procesamiento se puedan
rastrear hasta las fuentes de datos constituyentes.

Los objetivos actuales de ETI incluyen reducir el tiempo necesario para resolver reclamaciones
y detectar reclamaciones fraudulentas. El logro de estos objetivos requerirá una solución que
proporcione resultados de manera oportuna. Sin embargo, no se prevé que se requiera
soporte para el análisis de datos en tiempo real. El equipo de TI cree que estos objetivos

https://www.informit.com/articles/article.aspx?p=2473128&seqNum=11&ranMID=24808 17/20
22/9/23, 11:50 Ciclo de vida del análisis de Big Data | Consideraciones de planificación y adopción de Big Data | Informar
pueden alcanzarse mediante el desarrollo de una solución de Big Data basada en lotes que
aproveche la tecnología de Big Data de código abierto.

La infraestructura de TI actual de ETI consiste en estándares de redes comparativamente más


antiguos. De manera similar, las especificaciones de la mayoría de los servidores, como la
velocidad del procesador, la capacidad del disco y la velocidad del disco, dictan que no son
capaces de proporcionar un rendimiento óptimo de procesamiento de datos. Por lo tanto, se
acuerda que la infraestructura de TI actual necesita una actualización antes de que se pueda
diseñar y construir una solución de Big Data.

Tanto el equipo empresarial como el de TI creen firmemente que se requiere un marco de


gobernanza de Big Data no sólo para ayudarles a estandarizar el uso de fuentes de datos
dispares, sino también para cumplir plenamente con cualquier normativa relacionada con la
privacidad de los datos. Además, debido al enfoque comercial del análisis de datos y para
garantizar que se generen resultados de análisis significativos, se decide que se debe adoptar
un enfoque de análisis de datos iterativo que incluya al personal comercial del departamento
correspondiente. Por ejemplo, en el escenario de "mejorar la retención de clientes", el equipo
de marketing y ventas puede incluirse en el proceso de análisis de datos directamente desde
la selección de conjuntos de datos, de modo que solo se elijan los atributos relevantes de
estos conjuntos de datos. Posteriormente, el equipo empresarial puede proporcionar
comentarios valiosos en términos de interpretación y aplicabilidad de los resultados del
análisis.

Con respecto a la computación en la nube, el equipo de TI observa que ninguno de sus


sistemas está actualmente alojado en la nube y que el equipo no posee habilidades
relacionadas con la nube. Estos hechos, junto con las preocupaciones sobre la privacidad de
los datos, llevaron al equipo de TI a tomar la decisión de crear una solución de Big Data local.
El grupo señala que dejarán abierta la opción de alojamiento basado en la nube porque se
especula que su sistema CRM interno podría ser reemplazado por una solución CRM de
software como servicio alojada en la nube en el futuro.

Ciclo de vida del análisis de big data

El viaje de Big Data de ETI ha llegado a una etapa en la que su equipo de TI posee las
habilidades necesarias y la dirección está convencida de los beneficios potenciales que una
solución de Big Data puede aportar para respaldar los objetivos comerciales. El CEO y los
directivos están ansiosos por ver Big Data en acción. En respuesta a esto, el equipo de TI, en
asociación con el personal de negocios, asume el primer proyecto de Big Data de ETI. Tras un
exhaustivo proceso de evaluación, se elige como primera solución Big Data el objetivo
“detección de reclamaciones fraudulentas”. Luego, el equipo sigue un enfoque paso a paso
según lo establecido en el ciclo de vida de Big Data Analytics para lograr este objetivo.

Evaluación de casos de negocio

La realización de análisis de Big Data para la “detección de reclamaciones fraudulentas” se


corresponde directamente con una disminución de las pérdidas monetarias y, por tanto,
conlleva un completo respaldo empresarial. Aunque el fraude ocurre en los cuatro sectores
comerciales de ETI, en aras de mantener el análisis algo sencillo, el alcance del análisis de Big
Data se limita a la identificación del fraude en el sector de la construcción.

ETI ofrece seguros de construcción y contenido a clientes tanto domésticos como comerciales.
Aunque el fraude de seguros puede ser tanto oportunista como organizado, el fraude
oportunista en forma de mentira y exageración cubre la mayoría de los casos. Para medir el
éxito de la solución Big Data para la detección de fraude, uno de los KPI fijados es la reducción
de las reclamaciones fraudulentas en un 15%.

Teniendo en cuenta su presupuesto, el equipo decide que su mayor gasto será la adquisición
de nueva infraestructura adecuada para construir un entorno de solución de Big Data. Se dan
cuenta de que aprovecharán las tecnologías de código abierto para respaldar el
procesamiento por lotes y, por lo tanto, no creen que se requiera una gran inversión inicial
inicial para las herramientas. Sin embargo, cuando consideran el ciclo de vida más amplio del
análisis de Big Data, los miembros del equipo se dan cuenta de que deben presupuestar la
adquisición de herramientas adicionales de calidad y limpieza de datos y tecnologías de
visualización de datos más nuevas. Después de contabilizar estos gastos, un análisis de coste-
beneficio revela que la inversión en la solución Big Data puede recuperarse varias veces si se
pueden alcanzar los KPI específicos para la detección de fraude. Como resultado de este
análisis,

Identificación de datos

https://www.informit.com/articles/article.aspx?p=2473128&seqNum=11&ranMID=24808 18/20
22/9/23, 11:50 Ciclo de vida del análisis de Big Data | Consideraciones de planificación y adopción de Big Data | Informar
Se identifican una serie de conjuntos de datos internos y externos . Los datos internos incluyen
datos de pólizas, documentos de solicitud de seguro, datos de reclamos, notas del ajustador
de reclamos, fotografías de incidentes, notas de agentes del centro de llamadas y correos
electrónicos. Los datos externos incluyen datos de redes sociales (feeds de Twitter), informes
meteorológicos, datos geográficos (SIG) y datos del censo. Casi todos los conjuntos de datos se
remontan a cinco años atrás. Los datos del reclamo consisten en datos históricos del reclamo
que constan de múltiples campos donde uno de los campos especifica si el reclamo fue
fraudulento o legítimo .

Adquisición y filtrado de datos

Los datos de la póliza se obtienen del sistema de administración de pólizas, los datos de
reclamos, las fotografías de incidentes y las notas del ajustador de reclamos se adquieren del
sistema de gestión de reclamos y los documentos de solicitud de seguro se obtienen del
sistema de gestión de documentos. Las notas del liquidador de reclamaciones están
actualmente integradas en los datos de la reclamación. Por lo tanto, se utiliza un proceso
separado para extraerlos. Las notas y los correos electrónicos de los agentes del centro de
llamadas se obtienen del sistema CRM.

El resto de los conjuntos de datos se adquieren de proveedores de datos externos. Se


almacena en el disco una copia comprimida de la versión original de todos los conjuntos de
datos. Desde una perspectiva de procedencia, se realiza un seguimiento de los siguientes
metadatos para capturar el pedigrí de cada conjunto de datos: nombre del conjunto de datos,
fuente, tamaño, formato, suma de verificación, fecha de adquisición y número de registros.
Una comprobación rápida de la calidad de los datos de los feeds de Twitter y de los informes
meteorológicos sugiere que entre el cuatro y el cinco por ciento de sus registros están
corruptos. En consecuencia, se establecen dos trabajos de filtrado de datos por lotes para
eliminar los registros corruptos.

Extracción de datos

El equipo de TI observa que algunos de los conjuntos de datos deberán procesarse


previamente para poder extraer los campos requeridos. Por ejemplo, el conjunto de datos de
tweets está en formato JSON. Para poder analizar los tweets, es necesario extraer la
identificación del usuario , la marca de tiempo y el texto del tweet y convertirlos a formato
tabular. Además, el conjunto de datos meteorológicos llega en formato jerárquico (XML) y
campos como marca de tiempo , pronóstico de temperatura , pronóstico de velocidad del
viento , pronóstico de dirección del viento , pronóstico de nieve y pronóstico de inundaciones
también se extraen y guardan en forma tabular.

Validación y limpieza de datos

Para mantener bajos los costos, ETI utiliza actualmente versiones gratuitas de conjuntos de
datos meteorológicos y censales que no se garantiza que sean 100% precisos. Como resultado,
estos conjuntos de datos deben validarse y limpiarse. Según la información de campo
publicada, el equipo puede verificar los campos extraídos en busca de errores tipográficos y
datos incorrectos, así como la validación del tipo y rango de datos. Se establece como regla
que un registro no será eliminado si contiene algún nivel significativo de información aunque
algunos de sus campos puedan contener datos no válidos.

Agregación y representación de datos

Para un análisis significativo de los datos, se decide unir los datos de las pólizas, los datos de
las reclamaciones y las notas de los agentes del centro de llamadas en un único conjunto de
datos de naturaleza tabular donde se puede hacer referencia a cada campo mediante una
consulta de datos. Se cree que esto no sólo ayudará con la actual tarea de análisis de datos de
detectar reclamaciones fraudulentas, sino que también ayudará con otras tareas de análisis de
datos, como la evaluación de riesgos y la rápida liquidación de reclamaciones. El conjunto de
datos resultante se almacena en una base de datos NoSQL.

Análisis de los datos

El equipo de TI involucra a los analistas de datos en esta etapa, ya que no tiene las habilidades
adecuadas para analizar datos con el fin de detectar reclamos fraudulentos. Para poder
detectar transacciones fraudulentas, primero se debe analizar la naturaleza de las
reclamaciones fraudulentas para encontrar qué características diferencian una reclamación
fraudulenta de una reclamación legítima. Para ello, el análisis exploratorio de datosse adopta
el enfoque Como parte de este análisis, se aplica una variedad de técnicas de análisis, algunas
de las cuales se analizan en el Capítulo 8. Esta etapa se repite varias veces ya que los
resultados generados después de la primera pasada no son lo suficientemente concluyentes
para comprender qué constituye una reclamación fraudulenta. diferente de una reclamación

https://www.informit.com/articles/article.aspx?p=2473128&seqNum=11&ranMID=24808 19/20
22/9/23, 11:50 Ciclo de vida del análisis de Big Data | Consideraciones de planificación y adopción de Big Data | Informar
legítima. Como parte de este ejercicio, los atributos que son menos indicativos de un reclamo
fraudulento se eliminan mientras que los atributos que tienen una relación directa se
mantienen o agregan.

Visualización de datos

El equipo ha descubierto algunos hallazgos interesantes y ahora necesita transmitir los


resultados a los actuarios, aseguradores y ajustadores de reclamaciones. Se utilizan diferentes
métodos de visualización, incluidos gráficos de barras y líneas y diagramas de dispersión. Los
diagramas de dispersión se utilizan para analizar grupos de reclamaciones fraudulentas y
legítimas a la luz de diferentes factores, como la edad del cliente , la antigüedad de la póliza ,
el número de reclamaciones realizadas y el valor de la reclamación .

Utilización de los resultados del análisis

Con base en los resultados del análisis de datos, los usuarios de suscripción y liquidación de
reclamos ahora han desarrollado una comprensión de la naturaleza de los reclamos
fraudulentos. Sin embargo, para obtener beneficios tangibles de este ejercicio de análisis de
datos, se genera un modelo basado en una técnica de aprendizaje automático, que luego se
incorpora al sistema de procesamiento de reclamaciones existente para detectar
reclamaciones fraudulentas. La técnica de aprendizaje automático involucrada se discutirá en
el Capítulo 8.

🔖 Guarde en su cuenta < Volver Página 11 de 11

https://www.informit.com/articles/article.aspx?p=2473128&seqNum=11&ranMID=24808 20/20

También podría gustarte