Está en la página 1de 12

Página 1

ACA 3 – Investigación Big Data

Presentado por:

German Alonso Saavedra Orosco

Jonatan David Posada Santana.

Innovación tecnológica de redes

Universidad CUN – 2022


Página 2

Tabla de contenido
Tabla de contenido ...................................................................................................................................... 2
• Principales características del Big Data ............................................................................................ 3
1. Volumen ............................................................................................................................................... 3
2. Velocidad ............................................................................................................................................. 3
3. Variedad............................................................................................................................................... 4
• Mencione 3 ejemplos reales de casos de uso Big Data ..................................................................... 4
Big Data en deportes ............................................................................................................................... 4
Big Data en política ................................................................................................................................. 4
Big Data en salud y sanidad ................................................................................................................... 5
• Fases de la metodología de procesamiento de grandes volúmenes de datos .................................. 5
• Qué es la analítica de datos ................................................................................................................ 8
• Las herramientas (Software) de visualización de datos más eficaces para presentar los
resultados ..................................................................................................................................................... 9
Referencias................................................................................................................................................. 11

Tabla de ilustraciones
Ilustración 1 .................................................................................................................................................. 6
Ilustración 2 .................................................................................................................................................. 9
Ilustración 3 .................................................................................................................................................. 9
Ilustración 4 ................................................................................................................................................ 10
Ilustración 5 ................................................................................................................................................ 10
Página 3

Investigue las siguientes preguntas, recuerde citar la fuente de donde obtuvo la información:

• Principales características del Big Data

Las mas importantes características del Big Data se clasifican en las conocidas 3

magnitudes más conocidas como las Vs, descritas a continuación, C. (2020):

1. Volumen

La cantidad de datos importa. Con el big data, tendrás que procesar grandes volúmenes

de datos no estructurados de baja densidad. Pueden ser datos de valor desconocido, como los

canales de datos de Twitter, rastros de clics en una página web o en una aplicación de celular o

equipos con sensores habilitados.

Para algunas organizaciones, esto puede significar decenas de terabytes de datos. Para

otros, puede implicar cientos de petabytes. (Sec. Las 3 V del big data)

2. Velocidad

La velocidad es el ritmo acelerado en el que se reciben y procesan los datos. Por lo

general, la más alta velocidad de datos fluye directamente a la memoria en vez de escribirse en el

disco. Algunos productos inteligentes con acceso a internet operan en tiempo real y requerirán

evaluación y acción en tiempo real. (Sec. Las 3 V del big data)


Página 4

3. Variedad

La variedad se refiere a los distintos tipos de datos que se encuentran disponibles. Los

tipos de datos tradicionales se estructuraron y adaptaron perfectamente en una base de datos

relacional.

Con el incremento de datos masivos, estos vienen en nuevos tipos de datos no

estructurados. Los tipos de datos semi y no estructurados, como textos, audios y videos,

requieren un preprocesamiento adicional para deducir su significado y ser compatibles con los

metadatos. (Sec. Las 3 V del big data)

• Mencione 3 ejemplos reales de casos de uso Big Data

Actualmente se aplica el uso del Big Data en múltiples áreas desde los deportes hasta en

cuestiones políticas, como cita la universidad UNIR en su blog sobre el Big Data. (V. Unir

(2022)):

Big Data en deportes

En la NBA y la NFL se emplean aplicaciones que hacen uso de los macrodatos para

definir las estrategias a utilizar en cada partido, prevenir lesiones de los jugadores, conocer las

preferencias de los aficionados…

Big Data en política


Página 5

Antes de las elecciones norteamericanas de 2012, Obama decidió junto con su equipo

utilizar el Big Data durante la campaña electoral para analizar los datos que recogían de

potenciales votantes. Llegaron a la conclusión de que, para poder ganar, tenían que centrarse en

dirigirse a los votantes dudosos de una manera eficaz y, al mismo tiempo, incidir en que los

votantes demócratas convencidos fueran a votar.

Utilizaron la plataforma HP Vertica, que les permitió recoger los datos, notificar de

manera eficiente y rápida la información, y segmentar a los potenciales votantes para determinar

cuáles serían más receptivos a publicidad en TV, periódicos, redes sociales… El equipo de

campo, el digital y el de comunicación trabajaron con una estrategia basada en los datos

obtenidos, consiguiendo así su reelección.

Big Data en salud y sanidad

Tanto en la industria farmacéutica en el campo de la investigación de nuevos

medicamentos como en el diagnóstico de enfermedades, cada vez es más ampliamente utilizado

el procesado del Big Data colectivo (historial médico, material genético, predicción de reingresos

hospitalarios…) para optimizar y probar modelos que mejoren los resultados, faciliten las

pruebas en los ensayos clínicos con nuevas terapias o mejoren los diagnósticos. El Big Data

también es útil para una gestión administrativa más eficiente de la salud.

Es fundamental para las empresas, organismos públicos e instituciones del mundo actual.

Capacitarse en este campo resulta esencial para aquellas personas que quieren desempeñarse en

una de las profesiones con más futuro.

• Fases de la metodología de procesamiento de grandes volúmenes de datos


Página 6

Como se puede observar en la ilustración 1, la metodología CRISP-DM estructura el ciclo

de vida de un proyecto en seis fases; las flechas indican las relaciones más usuales e importantes

entre ellas, aunque se pueden establecer distintas relaciones entre las distintas fases componentes. El

círculo

exterior simboliza la naturaleza cíclica del modelo de proceso de Explotación de Datos

propiamente dicho. La secuenciación de fases no es rígida. Las fases definidas para un proyecto de

desarrollo de software clásico (inicio, requerimientos, análisis y diseño, construcción, integración y

pruebas y cierre) claramente difieren de las fases propias de esta metodología:

Ilustración 1

Nota: Fases del modelo de proceso de la metodología CRISP-DM

Cada fase se describe a continuación, como se cita en la revista latinoamericana de

ingeniería de software (Peralta, F 2014):


Página 7

Fase I – “Comprensión del negocio” Esta primera fase inicial, se basa en el entendimiento

de los objetivos del proyecto y la comprensión de los requerimientos del mismo desde el punto de

vista del negocio, a fin de definir el problema a resolver y diseñar una planificación preliminar

para el cumplimiento efectivo de los objetivos en cuestión.

Fase II – “Comprensión de los datos” La segunda fase de análisis comienza con la

recolección

inicial de los datos con el propósito de familiarizarse con los mismos, identificando

problemas de calidad asociados a ellos e información adicional relevante para la formulación de las

primeras hipótesis.

Fase III – “Preparación de los datos”

La fase de preparación de los datos abarca todas aquellas actividades destinadas a la

construcción del conjunto de datos finales. Las tareas de esta fase pueden ser ejecutadas varias

veces, sin un orden predefinido. Las mismas incluyen la selección de tablas, registros y atributos, así

como también la

transformación y limpieza de datos para que puedan ser tratados por las herramientas de

modelado.

Fase IV – “Modelado” En esta fase, se seleccionan y aplican las técnicas de modelado más

apropiadas para el proyecto en cuestión, calibrando sus parámetros a valores óptimos. Básicamente,

existen varias técnicas para un mismo tipo de problemas en proyectos de Explotación de

Datos. Algunas de ellas, demandan requerimientos específicos sobre los datos que se van a

procesar, por tal motivo muchas veces es necesario volver a la fase de preparación de los datos antes

de avanzar
Página 8

con el modelado de estos.

Fase V – “Evaluación” Esta fase, involucra la evaluación del modelo y revisión de los

pasos ejecutados en relación a los objetivos del negocio, y busca determinar si hay alguna razón de

negocio para el cual el modelo es deficiente, asegurándonos de esta forma, alcanzar los objetivos

inicialmente propuestos. Al final de esta fase, se debe tener una decisión sobre el uso de los

resultados alcanzados.

Fase VI – “Implementación”

La fase de despliegue o implementación, dependiendo de los requisitos del proyecto, puede

ser tan sencilla como la generación de un simple reporte o tan compleja como la implementación de

un proceso de Explotación de Datos repetible en toda la empresa. En determinadas ocasiones, el

propio cliente es quien lleva a cabo los pasos concretos de la implementación y no el propio analista

de datos; lo cual permite al cliente conocer de manera anticipada qué acciones son requeridas con el

fin de hacer uso del modelo creado.

• Qué es la analítica de datos

La analítica de datos se enfoca en manejar grandes volúmenes de datos, como se cita en

la presentación del diplomado de analítica de datos de la universidad javeriana: “La inversión en

tecnología que han realizado las empresas en los últimos 20 años ha propiciado la recolección de

mucha información que viene siendo utilizada para apoyar la toma de decisiones tanto a nivel

operativo como estratégico. Las estrategias clásicas de generación de reportes para apoyar la

toma de decisiones están quedando obsoletas y se han venido complementando y enriqueciendo

con modelos más robustos generados a partir de datos internos y externos que permiten modelar

la realidad de la empresa de una manera más precisa. Este diplomado tiene como propósito

promover en los participantes una actitud analítica basada en datos para resolver problemas
Página 9

organizacionales generando modelos, tanto descriptivos como predictivos, que le permitan a las

empresas fortalecer sus ventajas competitivas.”

• Las herramientas (Software) de visualización de datos más eficaces para presentar


los resultados

Herramientas que permiten visualización de grandes cantidades de datos:

Ilustración 2

Nota: Apache Hadoop es un entorno de trabajo para software, bajo licencia libre, para programar
aplicaciones distribuidas que manejen grandes volúmenes de datos.

Ilustración 3

Nota: Apache Spark es un framework de computación en clúster open-source.


Página 10

Ilustración 4

Nota: Google Charts es un servicio web interactivo que crea cuadros gráficos a partir de
información proporcionada por el usuario. El usuario proporciona datos y una especificación de
formato expresada en JavaScript incrustado en una página web; En respuesta, el servicio envía
una imagen del gráfico.
Ilustración 5

Nota: Una de las herramientas con mayor versatilidad es RAW. En ella podemos vincular Big
Data proveniente desde Hojas de cálculo de Microsoft, Google Docs o Apple Numbers o una
lista cualquiera.
Página 11

Referencias

C. (2020, 20 noviembre). ¿Qué es el big data y cuáles son sus beneficios? Escuela de Postgrado

de la Universidad Católica San Pablo. https://postgrado.ucsp.edu.pe/articulos/que-es-big-

data/

Unir, C. (2022, 17 marzo). Ejemplos de Big Data en la actualidad. Universidad Virtual. | UNIR

Colombia - Maestrías y Grados virtuales. Recuperado 28 de marzo de 2022, de

https://colombia.unir.net/actualidad-unir/ejemplos-big-data/

Peralta, F. C. (2014). Proceso de Conceptualización del Entendimiento del Negocio para

Proyectos de Explotación de Información. Revista Latinoamericana de Ingeniería de

Software, 2(5), 273–278. https://doi.org/10.18294/relais.2014.273-306

Analítica de datos – Educación Continua - Portal Universitario. (s. f.). Diplomado en analítica

de datos. Recuperado 28 de marzo de 2022, de

https://educacionvirtual.javeriana.edu.co/anal%C3%ADtica-de-datos

O. (2019, 22 agosto). Las 20 herramientas de visualización de datos Big Data del momento.

GraphEverywhere. Recuperado 28 de marzo de 2022, de

https://www.grapheverywhere.com/las-20-herramientas-de-visualizacion-de-datos-big-

data-del-momento/
Página 12

También podría gustarte