Está en la página 1de 22

Base de datos: BIG DATA

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS


(Universidad del Perú, DECANA DE AMERICA)

Institución: Centro de Informática de la UNMSM

Tema: Base de datos: BIG DATA

Profesor: Lic. Adolfo Roldán Chacón

Alumno: Carrión Ramos Diego Alcides

Lima, 14 de marzo del 2020


Base de datos: BIG DATA

El presente trabajo monográfico se lo


dedico a mis padres por el esfuerzo y
apoyo constante, en todos los
proyectos que he tenido a lo largo de
mi corta vida.
Base de datos: BIG DATA

INTRODUCCIÓN

Desde los comienzos, el hombre quiso registrar toda la


información. Desde nuestros antepasados prehistóricos que
guardaban esta información en huesos, piedras, cuevas, hasta los
egipcios que documentaron todos sus acontecimientos. Somos
seres que dejamos nuestras huellas por donde andamos. En todo
momento del día dejamos un rastro de datos. En últimos tiempos
aparece el Big Data como una opción de recolección y análisis de
datos para procesar estos datos y poder utilizarlos.
Base de datos: BIG DATA

Contenido
1. BIG DATA................................................................................................................1
1.1. Que es el BIG DATA........................................................................................1
1.1.1. Los datos pueden venir de......................................................................2
1.2. Características..................................................................................................3
1.3. Los datos que estudia el Big Data.................................................................4
1.4. Usos del Big Data............................................................................................5
2. Business Intelligence.............................................................................................6
2.1. Concepto...........................................................................................................6
2.2. Herramientas para utilizar el Big Data..........................................................7
2.2.1. Hadoop.......................................................................................................7
2.2.2. MongoDB...................................................................................................8
2.2.3. Apache Spark............................................................................................8
2.2.4. Lenguaje R.................................................................................................9
2.2.5. Phyton.........................................................................................................9
2.3. Ventajas del Big Data....................................................................................10
2.4. Desventajas del Big Data.............................................................................11
3. Big Data en el Gobierno......................................................................................12
4. Conclusión.............................................................................................................13
5. Anexos....................................................................................................................14
Base de datos: BIG DATA

1. BIG DATA

1.1. Que es el BIG DATA

El Big Data es el proceso de recolección de grandes cantidades de datos


y su análisis para encontrar información, patrones recurrentes, nuevas
correlaciones etc.

Los análisis de Big Data recopilan y analizan datos constantemente en


tiempo real. El objetivo de este ciclo continuo de procesamiento es para ofrecer
información instantánea a los usuarios.

Estamos hablando de un conjunto de datos que es tan grande y


complejo que los medios tradicionales de procesamiento de datos son
incapaces de analizar, capturar, recolectar, buscar, compartir. Almacenar,
transferir, visualizar entre otras actividades

Por eso se comenzó a utilizar Big Data con herramientas de software de


uso común en el marco de disciplinas analíticas avanzadas, como el análisis
predictivo y la minería de datos. Sin embargo, las fuentes de datos no
1
Base de datos: BIG DATA

estructurados utilizados para el análisis de grandes datos tal vez no encajen en


los almacenes de datos tradicionales. Además, los almacenes de datos
tradicionales pueden no ser capaces.

1.1.1. Los datos pueden venir de

Datos de Internet de las Cosas, Datos sectoriales recopilados por


empresas especializadas, Datos de internet y móviles, experimentales, redes
sociales, elecciones, Transacciones entre otros.

Estas fuentes de datos pueden incluir registros del servidor web y datos
de seguimiento de clics en internet, informes de actividades sociales, medios
de comunicación, teléfonos móviles registros detallados de llamadas y la
información captada por los sensores.

Para poder analizar todo esto, se precisa de técnicas potentes y


avanzadas; las clásicas medias o varianzas no son por sí solas suficientes para
extraer suficiente de toda esa cantidad de información, ni para entender los
diferentes tipos de datos.

Big Data es el avance tecnológico enfocado en el entendimiento y toma


de decisiones, además de ser una metodología para almacenar y procesar
datos, estructurados o semiestructurados, los cuales serían muy difícil de
almacenar en una base de datos y posteriormente analizarlos.

Las tecnologías relacionadas con el análisis de datos incluyen Big Data,


NoSQL, Hadoop y MapReduce. Estas tecnologías forman el núcleo de un
marco de software de código abierto que soporta el procesamiento de grandes
volúmenes de datos.

Big Data es un gran banco de datos disponibles para las empresas, con
los que pueden trabajar con más dedicación en los gustos específicos de los
usuarios, de forma casi personalizada. Es un valioso recurso de información
para diseñar estrategias más válidas y reales.

Contando con información más precisa, se minimizan los riesgos en la


formulación de estrategias y políticas de mercado. La comunicación directa con

2
Base de datos: BIG DATA

el cliente también permitirá una serie de reformas en productos o servicios,


gracias a los aportes de los diferentes criterios y opiniones.

Antes de la irrupción de Big Data, ya existían algoritmos matemáticos


que nos facilitaban descubrir información oculta en los datos, como todos los
que engloban el Data Mining (minería de datos): K-medias, arboles de decisión,
redes neuronales, etc., que con la llegada de la potencia de cálculo de los
ordenadores permitieron acortar el tiempo que se tardaba en obtener
resultados. Pero no lo hacían en tiempo real, sino posteriormente.

Ahora con Big Data, todo esto se consigue en tiempo real y con cada
nueva actualización de nuestro repositorio de datos es posible ver los cambios
en las estadísticas inmediatamente.

Por eso el análisis de datos siempre ha tenido un gran peso en el


marketing, un mejor conocimiento del consumidor y sus necesidades propicia
saber cómo aumentar las ventas; el análisis de datos nos permite establecer
relaciones entre variables, predecir comportamientos, realizar agrupaciones
(clustering) de grupos homogéneos, e incluso analizar textos para extraer
información. (VER ANEXO 1)

1.2. Características

Se las conocían anteriormente como 3V y actualmente se ampliaron a


5V de acuerdo con las nuevas necesidades.

Volumen: Una de las características principales volumen. Debido que


estamos hablamos de grandes cantidades de datos para captar y organizar
absolutamente toda la información que nos llega es esencial para tener
registros completos, y que las conclusiones que obtengamos sirvan
eficientemente a la hora de la toma de decisiones.

Velocidad: Siempre es importante el tiempo si afrontamos tanto la


necesidad de generar información (y recordemos que estamos hablando de
muchos datos) como de analizarla, pero lo es más si necesitamos reaccionar
inmediatamente; todo el proceso pide agilidad para extraer valor de negocio a
la información que se estudia y que no se pierda la oportunidad.
3
Base de datos: BIG DATA

Variedad: Variedad: si bien toda información llega de orígenes muy


variados, la fortaleza de Big Data es poder conjugar y combinar cada tipo de
información hasta alcanzar un todo homogéneo.

Veracidad: Se refiere a la calidad del dato y su disponibilidad. Hay que


encontrar herramientas para comprobar la información recibida es fiel a la
realidad. Para nos pueda servir toda la información que surja desde ese
proceso.

Valor: Trabajar con Big Data tiene que servir para aportar valor a la
sociedad, las empresas, los gobiernos, en definitiva, a las personas; todo el
proceso tiene que ayudar a impulsar el desarrollo, la innovación y la
competitividad, pero también mejorar la calidad de vida de las personas.

1.3. Los datos que estudia el Big Data

Si recordamos la definición de “dato” que deriva del latín DATUM,


significa lo que se da en el sentido de lo que acontece. Son antecedentes
necesarios para llegar a un conocimiento exacto de una cosa.

Hoy en día, toda la datos que generamos día a día sobre todos nuestros
gustos, compras, transacciones bancarias hasta los “me gusta” en redes
sociales son la materia de estudio del Big Data. Estos datos pueden ser de
diferente índole:

Datos estructurados: Aquellos que tienen longitud y formato (por


ejemplo, fechas) y que pueden ser almacenados en tablas (como las bases de
datos relacionales). En esta categoría entran los que se compilan en los censos
de población, los diferentes tipos de encuestas, los datos de transacciones
bancarias, las compras en tiendas online, etc.

Datos no estructurados: Son los que carecen de un formato determinado


y no pueden ser almacenados en una tabla. Pueden ser de tipo texto (los que
generan los usuarios de foros, redes sociales, documentos de Word), y los de
tipo no-texto (cualquier fichero de imagen, audio, vídeo).

4
Base de datos: BIG DATA

Datos semiestructurados: Que son los que no pertenecen a bases de


datos relacionales ya que no se limitan a campos determinados, aunque
poseen organización interna o marcadores que facilita el tratamiento de sus
elementos; estaríamos hablando de documentos XML, HTML o los datos
almacenados en bases de datos NoSQL

1.4. Usos del Big Data

El Big Data tiene un uso en diferentes áreas donde los servicios son
utilizados y se puede sacar gran provecho como es el caso de:

Turismo: Se ayuda a mantener felices a los clientes y es clave en esta


industria, pero la satisfacción del cliente puede ser difícil de medir,
especialmente en el momento oportuno. El análisis de Big Data ofrece a estas
empresas la capacidad de recopilar datos de los clientes, aplicar análisis e
identificar inmediatamente posibles problemas antes de que sea demasiado
tarde.

Cuidado de la salud: Los registros de pacientes, planes de salud,


información de seguros y otros tipos de información pueden ser difíciles de
manejar, pero están llenos de información clave una vez que se aplican las
analíticas. Es por eso que la tecnología de análisis de datos es tan importante
para el cuidado de la salud. Al analizar grandes cantidades de información
tanto estructurada como no estructurada rápidamente, se pueden proporcionar
diagnósticos u opciones de tratamiento casi de inmediato.

En el comercio por internet (eComerce 1): se utiliza esta técnica para


optimizar el stock de sus almacenes a través de la información extraída de lo
que busca la gente en su web o analizando las tendencias en redes sociales y
foros; también fijar precios dinámicos en sus productos extrayendo datos de
múltiples fuentes (las acciones de los clientes, preferencias de los proveedores
o recopilación de precios de la competencia)

1
Compra y venta de productos o de servicios a través de medios electrónicos.
5
Base de datos: BIG DATA

En las telecomunicaciones (empresas telefónicas): es una industria


privilegiada, gracias a sus redes y a la proliferación de dispositivos móviles; la
oportunidad más evidente es extraer información de la experiencia del usuario,
gracias a los datos de llamadas y datos de navegación. Esto permite ofrecer a
sus clientes un plan de contratos personalizados de acuerdo con los usos.

La Federación Alemana de Fútbol empezó a usar el análisis de grandes


volúmenes de datos para mejorar el rendimiento de sus jugadores, y con los
deberes bien hechos se presentaron en el Mundial de Brasil 2014.

El objetivo principal del análisis de datos grandes es ayudar a las


empresas a tomar mejores decisiones de negocios al permitir a los científicos y
otros usuarios de datos analizar grandes volúmenes de datos transaccionales,
así como otras fuentes de datos que puedan haber quedado sin explotar por la
inteligencia de negocio convencional.

2. Business Intelligence

2.1. Concepto

El término ‘Business Intelligence’, o inteligencia empresarial, se refiere al


uso de datos en una empresa para facilitar la toma de decisiones. Es un
conjunto de estrategias y herramientas enfocadas al análisis de datos de una
empresa mediante el análisis de datos existentes.

Todas las empresas pueden recopilar datos, datos relativos a ventas, a


compras, a inversiones, a tiempos. Miles de datos y variables pueden ser
estudiados y utilizados para tomar nuevas estrategias, conocer las fortalezas
propias, y por supuesto, las debilidades.

En términos generales, el Business Intelligence trata de extraer los datos


de la empresa de distintas fuentes mediante las herramientas de Big Data.
Todo este análisis, debería permitir incrementar el nivel financiero,
administrativo, y con las decisiones a mejorar las acciones de la empresa.

6
Base de datos: BIG DATA

2.2. Herramientas para utilizar el Big Data

Uno de los objetivos del uso de las tecnologías Big Data es el de transformar
los datos en conocimiento útil para la empresa, y para ello se necesitan
herramientas Big Data que nos ayuden a analizar, procesar y almacenar todos
los datos recogidos. Un gran número de entre las mejores herramientas usadas
en Big Data son open source, lo que da fe del éxito de este modelo de
desarrollo, además de las alternativas de pago.

2.2.1. Hadoop

No se puede hablar de Big Data sin hablar de la veterana Apache


Hadoop. Esta herramienta Big Data open source se considera el framework
2
estándar para el almacenamiento de grandes volúmenes de datos; se usa
también para analizar y procesar, y es utilizado por empresas como Facebook
y Yahoo.

La biblioteca Hadoop utiliza modelos de programación simples para el


almacenamiento
y procesamiento
distribuido de
grandes
conjuntos de
datos en clusters,
dando
redundancia para no perder nada y, al mismo tiempo, aprovechando muchos
procesos a la vez.

Dispone de un sistema de archivos distribuido en cada nodo del cluster:


el HDFS (Hadoop Distributed File System), y se basa en el proceso de
MapReduce de dos fases.

Soporta diferentes sistemas operativos y también se usa frecuentemente


sobre cualquiera de las principales plataformas en la nube, como Amazon
EC2/S3 o Google Cloud.

2
Entorno o marco de trabajo.
7
Base de datos: BIG DATA

2.2.2. MongoDB

Dentro de las bases de


datos NoSQL, probablemente
una de las más famosas sea
MongoDB. Con un concepto
muy diferente al de las bases
de datos relacionales, se está
convirtiendo en una interesante
alternativa para almacenar los
datos de nuestras aplicaciones.

MongoDB es una base de datos orientada a documentos (guarda los


datos en documentos, no en registros). Estos documentos son almacenados en
BSON, que es una representación binaria de JSON.

A pesar de que las bases de datos NoSQL no tienen una extensa


variedad de uso, MongoDB tiene un ámbito de aplicación más amplio en
diferentes tipos de proyectos: es especialmente útil en entornos que requieran
escalabilidad. Con sus opciones de replicación y sharding 3, podemos conseguir
un sistema que escale horizontalmente sin demasiados problemas.

2.2.3. Apache Spark

Apache Spark es un motor de procesamiento de datos de código abierto


realmente rápido.

Creado por Matei Zaharia en la Universidad de Berkeley, se considera el


primer software open source que hace la programación distribuida
(básicamente, consiste en distribuir el trabajo entre un grupo de ordenadores,
“cluster4”, que trabajan como uno) realmente accesible a los científicos de
datos.

3
Base de datos fragmentados en una partición horizontal.
4
Conglomerado de servidores unidos entre sí normalmente por una red de alta velocidad.
8
Base de datos: BIG DATA

Se pueden programar aplicaciones usando diferentes lenguajes como


Java, Scala, Python o R. pudiendo ser, según el programa, hasta 100 veces
más rápido en memoria o 10 veces más en disco que Hadoop MapReduce.

2.2.4. Lenguaje R

R es un lenguaje de programación
y entorno de software para cálculo
estadístico y gráficos. El lenguaje R es de
los más usados por los estadistas y otros
profesionales interesados en la minería de
datos, la investigación bioinformática y las
matemáticas financieras.

R se parece más al lenguaje de las matemáticas que a otros lenguajes


de programación, lo que puede ser un inconveniente para los programadores a
la hora de elegir programar en R para temas de Big Data. Lo que está claro es
que si eliges usar R podrás disponer de una gran cantidad de librerías creadas
por la comunidad de R y otras tantas herramientas de altísima calidad (por
ejemplo, Rstudio).

2.2.5. Phyton

Python es un lenguaje avanzado de


programación con la ventaja de ser
relativamente fácil de usar para usuarios que
no estén familiarizados con la informática de
manera profesional, pero que necesitan
trabajar con análisis de datos (estadistas,
biólogos, físicos, lingüistas…)

Es una herramienta para Big Data muy


eficiente, en parte debido a la gran
comunidad existente, por lo que Python dispone de muchas librerías ya hechas
por otros usuarios.

9
Base de datos: BIG DATA

Sin embargo, tiene en su contra que no es un lenguaje muy rápido en su


ejecución, por lo que suele ser empleado para tareas de integración o tareas
donde no haya cálculos pesados.

2.3. Ventajas del Big Data

Mejora en la toma de decisiones

En la denominada como “Era de los datos”, éstos son considerados ya


como el nuevo petróleo ¿Qué implica esto? Disponer de un gran volumen de
datos estructurados que se puedan interpretar ayuda a las organizaciones a
poder tomar una decisión.

Feedback a tiempo real

Incluso en los momentos en los que es necesario tomar una decisión


inmediata, el Big Data es un arma muy poderosa puesto que permite recibir y
procesar los datos a tiempo real y contar con la información necesaria
rápidamente. El Big Data es por encima de todo una tecnología ágil y veloz que
permite por ejemplo obtener información a tiempo real del lanzamiento de un
producto o el resultado de una estrategia.

Conocimiento del mercado

El conocimiento del mercado en el que se opera puede ayudar no solo a


la toma de decisiones, sino también a la localización de posibles oportunidades
mediante el tratamiento de estos datos estructurados y comparables. También
puede ayudar a predecir posibles escenarios e incluso a conocer mejor a los
consumidores, mediante un análisis segmentado.

Tecnología del presente y del futuro

La tecnología del Big Data está en constante evolución y todo apunta a


que jugará un papel todavía más importante en la toma de decisiones futuras.
Por ello, cada vez son más las organizaciones que afrontan el reto de la
transformación digital por lo que los profesionales de Business Intelligence se

10
Base de datos: BIG DATA

convirtieron en uno de los perfiles más demandados en 2017 según Adecco


Professional. 5

2.4. Desventajas del Big Data

Ataques informáticos

Dado el valor de esta información, las empresas que cuentan con un


sistema de Big Data disponen igualmente de la tecnología más puntera en
seguridad puesto que el hackeo de estos datos puede suponer una importante
crisis para su corporación. Esto significa que mucha de esa información se
puede llegar a ver alterada y violada. Estas empresas si se pierde o se altera la
información se pierde un activo importante para la empresa.

Pérdida de privacidad

Debido que constantemente toda nuestra generación de datos ésta


siendo estudiada por las empresas esto hace que se puede llegar a perder
privacidad. No obstante, hasta ahora esos datos solamente les pertenecen a
las empresas.

Mucha volatilidad

Los datos cambian rápidamente y eso hace que tengan una validez muy
corta. Para solucionarlo necesitamos un poder de procesamiento muy alto.

Si no lo hacemos bien, el procesamiento y análisis basado en estos


datos puede producir conclusiones erróneas, que pueden llevar a cometer
errores en la toma de decisiones.

No existen estándares de calidad de datos unificados. En 1987 la


Organización Internacional de Normalización (ISO) publicó las normas ISO
9000 para garantizar la calidad de productos y servicios. Sin embargo, el
estudio de los estándares de calidad de los datos no comenzó hasta los años
noventa, y no fue hasta 2011 cuando ISO publicó las normas de calidad de
datos ISO 8000.

5
Organización de Recursos Humanos número uno del mundo
11
Base de datos: BIG DATA

3. Big Data en el Gobierno

El gobierno de Argentina busca mejorar la gestión con Big Data, y para


eso creó un Observatorio Nacional de Big Data en el ámbito de la Secretaría de
Tecnologías de Ia Información y las Comunicaciones con el objeto de conocer y
analizar las demandas de la población, como insumo para el diseño y la
implementación de las políticas públicas.

Asimismo, se informó que entre sus funciones estará la de "elaborar un


plan de seguimiento de la opinión pública, recabar información sobre las
demandas de los ciudadanos, evaluar el nivel de conocimiento de las políticas
del Gobierno, y generar información cuantitativa para la implementación de
medidas", entre otras cosas.

Además, por el enorme desarrollo, potencia y capacidad de interrelación


de los diversos recursos involucrados, permite anticiparse a acontecimientos
futuros y, en algunos casos, predecirlos con escaso margen de error

Los datos se han convertido en un valor añadido, convirtiéndose en un


activo clave, similar a las categorías clásicas de los recursos humanos y
financieros, dando lugar a innovaciones en la tecnología, el desarrollo de
nuevas herramientas y habilidades

El buen uso de los datos puede traer oportunidades a sectores


tradicionales de la actividad económica y social, como transporte, salud,
educación, agroindustria, seguridad, etc., transformando además las industrias
de servicios. La gestión y el análisis de datos masivos resultan en una mejor
gestión en términos de eficiencia y eficacia, principios fundamentales de la
administración pública, generando, además de un mayor y mejor servicio al
ciudadano, un ahorro sustancial en costes, derivado de un mejor
aprovechamiento de los recursos.

12
Base de datos: BIG DATA

13
Base de datos: BIG DATA

4. Conclusión

El Big Data ayuda a la recolección de datos, procesamiento y estudio de


datos que producen los usuarios en el día a día. Esto se puede hacer en
tiempo real para ayudar a la toma de decisiones. Esta información se puede
usar en diferentes áreas como la medicina, los negocios, el turismo, la
publicidad e inclusive el gobierno.

Esto, en gran medida es así: el término se comienza a utilizar de forma


generalizada a finales de los años 90 y el boom llega con los avances
experimentados en campos como internet, dispositivos móviles y conexión y
especialmente la nube.

Como sabemos la información es un activo principal de las empresas,


los gobiernos, y en todo ámbito es necesaria para brindar una experiencia de
total satisfacción. Como futuros profesionales debemos estudiar y comprender
estas tecnologías que poco a poco están siendo utilizadas en el mercado y no
conocerlas puede hacer que quedemos afuera de esta revolución de
procesamiento de datos.

14
Base de datos: BIG DATA

5. Anexos
ANEXO 1

Nombre Igual a: Tamaño en Bytes Ejemplos

15
Base de datos: BIG DATA

VENTAJAS DEL BIG DATA CONCLUSIONES UNIVERSIDAD NACIONAL MAYOR


DE SAN MARCOS
Feedback a tiempo real
El Big Data ayuda a la recolección de (Universidad del Perú, Decana de
Incluso en los América)
datos, procesamiento y estudio de
momentos en los que datos que producen los usuarios en el CINFO
es necesario tomar una día a día. Esto se puede hacer en
decisión inmediata, el tiempo real para ayudar a la toma de
Big Data es un arma decisiones. Esta información se puede
muy poderosa puesto que permite usar en diferentes áreas como la
recibir y procesar los datos a tiempo medicina, los negocios, el turismo, la
real y contar con la información publicidad e inclusive el gobierno.
necesaria rápidamente.
Como sabemos la
Conocimiento del mercado
información es un activo Alumno: Carrión Ramos Diego

El conocimiento del mercado en el que principal de las


se opera puede ayudar no solo a la empresas, los Profesor: Lic. Adolfo Roldán Chacón
toma de decisiones, sino también a la gobiernos, y
localización de posibles oportunidades en todo ámbito es Tema: Base de datos: BIG DATA
mediante el tratamiento de estos datos necesaria para brindar una experiencia
estructurados y comparables. de total satisfacción.

16
Base de datos: BIG DATA

INTRODUCCIÓN
BIG DATA

Desde los comienzos, el hombre


quiso registrar toda la información. El Big Data es el proceso de
HERRAMIENTAS PARA UTILIZAR
Desde recolección de grandes cantidades de EL BIG DATA

nuestros datos y su análisis para encontrar


Uno de los objetivos del uso de las
antepasados información, patrones recurrentes,
tecnologías Big Data es el de
prehistóricos nuevas
transformar los datos en conocimiento
que correlaciones
útil para la empresa, y para ello se
guardaban etc.
necesitan herramientas Big Data que
esta nos ayuden a analizar, procesar y
Los
información almacenar todos los datos recogidos.
análisis de
en huesos, piedras, cuevas, hasta
Big Data Un gran número de entre las mejores
los egipcios que documentar con
recopilan y herramientas usadas en Big Data son
todos sus acontecimientos. Somos analizan datos constantemente en open source, lo que da fe del éxito de
seres que dejamos nuestras tiempo real. El objetivo de este ciclo este modelo de
huellas por donde andamos. En continuo de procesamiento es para desarrollo,
todo momento del día dejamos un ofrecer información instantánea a los además de las
rastro de datos. usuarios. alternativas de
pago.

17
Base de datos: BIG DATA

18

También podría gustarte