Big Data Monografia

Administración de Servicios de Red 2
Big Data
INTEGRANTES
Juan Pablo Segura Pizarro - U201301211
Larry Linares Canales - U201200341
Marzo 2016
INDICE
INDICE..................................................................................................................2
INTRODUCCION..................................................................................................3
DEFINICION.........................................................................................................4
ANALISIS EN TERMINOS DE BYTES.................................................................5
COMO FUNCIONA...............................................................................................6
DE DONDE PROVIENEN LOS DATOS...............................................................7
CLASIFICACION..................................................................................................8
Datos no estructurados.........................................................................................8
Características de datos no estructurados........................................................8
SOFTWARE........................................................................................................11
LAS TRES V.......................................................................................................12
VENTAJAS.........................................................................................................13
DESVENTAJAS..................................................................................................13
CONCLUSIONES...............................................................................................13
BIBLIOGRAFIA...................................................................................................14
INTRODUCCION
Big Data es un concepto que hace referencia a grandes cantidades de

información, disponibles en diversos formatos y tipos de estructuras, recopilada
principalmente a través de Internet mediante la interacción de los usuarios de
computadores, teléfonos móviles y dispositivos GPS, entre otros. Asimismo, es
utilizada para describir enormes cantidades de datos (estructurados, no
estructurados y semi-estructurados) que tomaría demasiado tiempo y sería
muy costoso cargarlos a una base de datos relacional para su análisis. De tal
manera que, el concepto de Big Data aplica para toda aquella información que
no puede ser procesada o analizada utilizando procesos o herramientas
tradicionales. Sin embargo, Big Data no se refiere a alguna cantidad en
específico, ya que es usualmente utilizado cuando se habla en términos de
petabytes y exabytes de datos. Adicionalmente, el concepto de volumen es
muy variable y cada día que pasa eleva lo que podemos considerar grandes
volúmenes de datos.
El objetivo de Big Data, al igual que los sistemas analíticos convencionales, es

convertir el dato en información, ya que facilita la toma de decisiones, incluso
en tiempo real. Sin embargo, más que una cuestión de tamaño, es una
oportunidad de negocio. Las empresas ya están utilizando Big Data para
entender el perfil, las necesidades y el sentir de sus clientes respecto a los
productos y/o servicios vendidos. Esto adquiere especial relevancia ya que
permite adecuar la forma en la que interactúa la empresa con sus clientes y en
cómo les prestan servicio.
DEFINICION
El concepto de grandes volúmenes de datos no viene de la nada. De hecho, no

es nuevo, pero está recibiendo mucha atención por varias razones, tales como
la baratura de almacenamiento de datos, la proliferación de sensores y
tecnología de captura de datos.
No existe una definición precisa del término Big Data. IDC define de la
siguiente manera: "Las tecnologías Big Data describen una nueva generación
de tecnologías y arquitecturas, diseñados para extraer económicamente valor a
partir de volúmenes muy grandes de una amplia variedad de datos, lo que
permite la captura de alta velocidad, descubrimiento y análisis."
Otra definición, realizado por McKinsey Global Institute, "Big Data se refiere a
conjuntos de datos cuyo tamaño es más allá de las típicas herramientas de
software de base de la capacidad de capturar, almacenar, gestionar y analizar."
Entonces nos damos cuenta que no define Big Data sólo en el tamaño del
volumen de datos, sino la capacidad de manipularlos.
ANALISIS EN TERMINOS DE BYTES
El volumen de datos generados en todo el mundo está aumentando. Un estudio

realizado por IDC en 2011 muestra el volumen de datos es más del doble cada
dos años y debe llegar a 11,8 zettabytes (1,8 billones de gigabytes). Podemos
decir que estamos experimentando una explosión de datos.
De acuerdo con IBM, el 90% de los datos almacenados en el mundo de hoy se

han creado en los últimos dos años. Otros estudios revelan que 30 millones de
entradas se comparten en Facebook por mes. Un millón de transacciones de
los clientes se generan por hora en Wal-Mart. Y en 2020, las compañías
tendrán que administrar 10 veces más servidores, 50 veces más datos, 75
veces más archivos con sólo 1,5 veces más personas.
Podemos ver en la historia una evolución en el valor de los datos. Durante los
años 50 y 60 los datos fueron vistos como un producto. Ya en las décadas de
los 90 y 2000 los datos ya han comenzado a tener un valor, ayudando a las
organizaciones en el proceso de toma de decisiones. Y en esta década en
adelante, los datos se tratan como un sustrato, es decir, algo esencial para las
organizaciones del día a día.
Los datos están siendo recogidos a gran escala. Ellos provienen de diversas
fuentes, tales como los datos generados por los sistemas transaccionales,
sensores, cámaras, satélites, registros, redes sociales, etc.
A la vista de todo esto inundación y la evolución en el valor de los datos, surge

una pregunta: ¿Qué podemos hacer con toda esta cantidad de información? En
el mundo empresarial, las decisiones que se basan en suposiciones o modelos
construidos por expertos, ahora pueden hacerse sobre la base de los datos
recogidos.
COMO FUNCIONA
El funcionamiento de Big Data está basado en el modelo de programación

MapReduce. Este modelo es utilizado en procesos que pueden ser
paralelizados, como las consultas de Big Data, ya que las subdivide en
pequeñas tareas ejecutables por varios procesadores. De esta forma, la
capacidad de procesamiento de datos aumenta tanto en tamaño como en
rapidez, de ahí que la cantidad de datos procesados en este tipo de tecnología
sea muy superior a otras consultas que sólo utilicen datos estructurados.
Como usuarios, para utilizar el modelo MapReduce basta con usar Hadoop, un
software de código abierto desarrollado por Apache que permite procesar
grandes cantidades de información almacenadas en ficheros.
DE DONDE PROVIENEN LOS DATOS
Cualquier empresa, independientemente de su tamaño, con los datos e

información que se debe almacenar. Y con el rápido aumento de esta
información, se ha convertido en esencial que estos datos se almacenan en
una base de datos informatizada. Esto hizo que el acceso a la información era
más ágil, práctico y con un menor número de fallos en la recuperación de
datos.
Hay diferentes tipos de DBMS, de esos grandes sistemas que están presentes
en grandes corporaciones a pequeños sistemas que se ejecutan en los
ordenadores personales. DBMS populares son: PostgreSQL, MySQL, Oracle y
SQL Server.
CLASIFICACION
Datos no estructurados
Una posible definición de datos no estructurados, son aquellos datos no

almacenados en una base de datos tradicional. La información no
estructurada no puede ser almacenada en estructuras de datos
relacionales predefinidas.
Se pueden establecer diferentes clasificaciones, vamos a considerar dos

de ellas.
 Datos no estructurados y semiestructurados. Los datos

semiestructurados serían aquellos datos que no residen de bases de
datos relacionales, pero presentan una organización interna que facilita
su tratamiento, tales como documentos XML y datos almacenados en
bases de datos NoSQL.
 Datos de tipo texto y no-texto. Datos no estructurados de tipo texto

podrían ser datos generados en las redes sociales, foros, e-mails,
presentaciones Power Point o documentos Word, mientras que datos
no-texto podrían ser ficheros de imágenes jpeg, ficheros de audio mp3 o
ficheros de video tipo flash.
Características de datos no estructurados
Las principales características de los datos no estructurados son las

siguientes:
 Volumen y crecimiento: el volumen de datos y la tasa de crecimiento de

los datos no estructurados es muy superior al de los datos
estructurados. Por ejemplo, twitter genera 12 Terabytes de información
cada día. De acuerdo con Gartner, la tasa anual de crecimiento de datos
es del 40 a 60 por ciento, pero para los datos no estructurados en
empresas, la tasa de crecimiento puede llegar al 80 por ciento (informe
2012).
 Orígenes de datos: El origen de los datos es muy diverso: datos
generados en redes sociales, datos generados en foros, e-mails, datos
extraídos de la web empleando técnicas de web semántica, documentos
internos de la compañía (word, pdf, ppt).
 Almacenamiento: Debido a su estructura no podemos emplear

arquitectura relacional, siendo necesario trabajar con herramientas ‘Big
Data’, siendo crítico en estas arquitecturas los aspectos relacionados
con la escalabilidad y paralelismo. Según el tipo de dato se impone el
almacenamiento cloud. Monitorizar la frecuencia de uso y la detección
de datos inactivos son aspectos críticos de cara a reducir costes de
almacenamiento.
 Terminología e idiomas: La terminología es una cuestión crítica tratando

datos no estructurados de tipo texto. Es habitual llamar a lo mismo de
diferentes formas, de tal modo que es necesario una racionalización de
la terminología. Otra cuestión es el idioma en el que se he generado la
información tratada.
 Seguridad: Hay que considerar que algunos datos no estructurados de

tipo texto, pueden no ser seguros. Por otra parte el control de accesos a
los mismos es complejo debido a cuestiones de confidencialidad y la
difícil clasificación del dato.
Tratamiento de datos no estructurados
Las principales cuestiones a considerar en el tratamiento de información no

estructurada son las siguientes:
 Crear una plataforma escalable (infraestructura y procesos) que permita

tratar grandes cantidades de datos. Las tecnologías RDBMS son
insuficientes para tratar información no estructurada. Es necesaria una
capacidad de almacenamiento y una capacidad de proceso escalable.
Teniendo en cuenta que el coste económico de mantener plataformas
escalables, hay que considerar la opción cloud. Desde el punto de vista
de los procesos, en ocasiones es interesante utilizar in-memory
analytics.
 Añadir información/estructura complementaria a los datos no

estructurados. Es importante añadir algún tipo de estructura a los datos
no estructurados que ayude a su tratamiento. Por ejemplo, en una
colección de tweets de redes sociales puede ser interesante añadir
campos tales como el idioma, la localización geográfica para su posterior
procesado. Esta estructura adicional que añadimos debe ser modelizada
de cara a estar en constante evolución.
 Crear conjuntos reducidos de datos que sean representativos. Dado el

volumen ingente de información, es importante trabajar con muestras de
datos que sean estadísticamente representativos sobre los datos a
analizar. Muchos análisis pueden llevarse a cabo con un grado de
exactitud razonable, utilizando conjuntos de datos que son más
pequeños en un orden de magnitud que la información en bruto.
 Desarrollo de algoritmos. Hay diferentes tipos de aproximación hacia la

información no estructurada. Por ejemplo, para procesos de text mining,
puede utilizarse natural language processing combinado con redes
neuronales. Otras técnicas como redes bayesianas permiten descubrir
patrones sobre múltiples dimensiones. Son importantes también las
técnicas de visualización de datos.
 Procesos de depuración/limpiado de datos. Dado el ingente volumen de

datos, se convierte en crítico la correcta gestión del histórico de datos.
Detección de datos no usados o de frecuencia de consulta muy baja con
objeto de limpiar información y liberar espacio.
Ejemplo sencillo tratamiento datos no estructurados (redes sociales)
Dada la variada naturaleza de los datos no estructurados, hay infinidad de

posibles procesos relacionados con ellos. A continuación mostramos un
sencillo ejemplo de tratamiento de datos provenientes de redes sociales.
El objetivo de este análisis de datos es conocer la percepción que existe sobre
el precio de determinado producto en twitter.
 Extracción: Utilizando una clase de java (ejemplo twitter4j) leemos el

feed de Twitter disponible en https://twitter.com/search/realtime.
Añadimos a los campos disponibles calificaciones del tipo: idioma,
localización geográfica.
 Transformación: Filtramos todos aquellos tuits que contengan el

nombre del producto. Refinamos el filtro introduciendo campos del tipo
(“precio”) + (“barato”, “caro”, “económico”, etc...), teniendo en cuenta el
idioma en el que se generan lo tuits. Valorar la opción en base al
volumen de obtener una muestra representativa de los datos extraídos y
filtrados.
 Volcado a BBDD : Insertamos en una tabla el registro del tuit con la

calificación identificada (idioma, localización geográfica)
 Informes: Creamos informe que permita realizar análisis por tiempo y

campos de calificación. Hay que considerar que este informe puede ser
actualizado en tiempo real.
SOFTWARE
1. Hadoop: Inspirada en el proyecto de Google File System (GFS), es un

proyecto de alto nivel Apache.
2. NoSQL: “No solo SQL” Utilizada por Facebook para almacenar solo los
50 TB de la bandeja de entrada de 1000 usuarios.
3. Cassandra: Basada en Hadoop y desarrollada en Java, es actualmente
utilizada en toda la red social twitter.
4. Oracle Data Integrator: Basada en Hadoop pero enfocada como una
solución empresarial.
LAS TRES V
1. Volumen: quizá el más llamativo por su aumento desmesurado en

los últimos años, aunque el menos importante en clave de utilidad
para la compañía. Es una consecuencia de las mejoras de las redes
de comunicaciones y de las mayores velocidades de los accesos de
banda ancha, pero la mayor cantidad de datos por sí sola no aporta
un valor añadido. Es la causa que lleva a preocuparse por los otros
dos factores.
2. Variedad: ordenar e interpretar diferentes tipos de datos a la vez

puede generar grandes ventajas. Combinar datos de edad, género,
estado civil, situación laboral, situación geográfica, intereses,
gustos... permite crear perfiles más precisos de clientes potenciales
para realizar campañas de publicidad y márketing segmentadas.
Aunque las ventajas de poder ajustar más el punto de mira en el
blanco de la diana también puede tener una parte negativa, si el
cliente percibe una cierta invasión de su intimidad. La sutileza es la
gran virtud para que el valor añadido qeu ofrece la varieda de datos
conjuntados no se vuelva en contra.
3. Velocidad: se refiere a la vida útil de los datos. No tiene sentido

conservar datos cuyo recorrido ha terminado y han quedado
obsoletos. Una de las claves para poder almacenar grandes
cantidades de datos de forma que sean útiles para la estrategia
comercial es que la utilidad de toda la información que se conserva
sea vigente. Empresas de según qué sector llegan a descartar hasta
el 90% de los datos generados y preservan sólo aquellos que les
pueden ofrecer rendimiento.
VENTAJAS
1. Es un valioso recurso de información para diseñar estrategias.

2. Comunicación directa con el cliente.
3. Mejora de la eficiencia y los costes
4. Mejora de la gestión empresarial
5. Facilidad para que las compañías evalúen sus productos.
6. La segmentación de los clientes para personalizar acciones.
DESVENTAJAS
1. Acceso a la información sin autorización.

2. Amenaza a nuestra privacidad.
3. Se pueden incurrir en riesgos éticos y legislativos.
4. Ausencia en el mercado local de profesionales.
CONCLUSIONES
La naturaleza de la información hoy es diferente a la información en el pasado.
El uso de Big Data ha ayudado a los investigadores a descubrir cosas que les
podrían haber tomado años en descubrir por si mismos sin el uso de estas
herramientas, debido a la velocidad del análisis, es posible que el analista de
datos pueda cambiar sus ideas basándose en el resultado obtenido y retrabajar
el procedimiento una y otra vez hasta encontrar el verdadero valor al que se
está tratando de llegar.
Si la información es poder, entonces Big Data se entiende como una gran

linterna que ilumina aquellos datos que estaban escondidos, facilitando análisis
de datos que antes limitaba la tecnología.
Debe existir el uso ético y legal de la información y esta debe ser regulado por
las autoridades, ya que el análisis de toda la información que generamos, ya
sea en las redes sociales, en nuestros dispositivos móviles, o en nuestras
cuentas de correo, puede ser útil para nosotros mismos, pero se debe
garantizar el consentimiento y el uso lícito de estos datos.
BIBLIOGRAFIA
https://www.ibm.com/developerworks/ssa/local/im/que-es-big-data/
http://elpais.com/elpais/2015/03/26/buenavida/1427382655_646798.html
https://www.enriquedans.com/2011/10/big-data-una-pequena-introduccion.html
http://www.isaca.org/knowledge-
center/research/researchdeliverables/pages/big-data-impacts-and-benefits.aspx
http://www.oracle.com/lad/bigdata/products/index.html

Big Data Monografia

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Big Data Monografia

Cargado por

Copyright:

Formatos disponibles

Administración de Servicios de Red 2

Juan Pablo Segura Pizarro - U201301211

Larry Linares Canales - U201200341

ANALISIS EN TERMINOS DE BYTES.................................................................5

DE DONDE PROVIENEN LOS DATOS...............................................................7

Características de datos no estructurados........................................................8

LAS TRES V.......................................................................................................12

Big Data es un concepto que hace referencia a grandes cantidades de

El objetivo de Big Data, al igual que los sistemas analíticos convencionales, es

El concepto de grandes volúmenes de datos no viene de la nada. De hecho, no

El volumen de datos generados en todo el mundo está aumentando. Un estudio

De acuerdo con IBM, el 90% de los datos almacenados en el mundo de hoy se

A la vista de todo esto inundación y la evolución en el valor de los datos, surge

El funcionamiento de Big Data está basado en el modelo de programación

DE DONDE PROVIENEN LOS DATOS

Cualquier empresa, independientemente de su tamaño, con los datos e

Una posible definición de datos no estructurados, son aquellos datos no

Se pueden establecer diferentes clasificaciones, vamos a considerar dos

 Datos no estructurados y semiestructurados. Los datos

 Datos de tipo texto y no-texto. Datos no estructurados de tipo texto

Características de datos no estructurados

Las principales características de los datos no estructurados son las

 Volumen y crecimiento: el volumen de datos y la tasa de crecimiento de

 Almacenamiento: Debido a su estructura no podemos emplear

 Terminología e idiomas: La terminología es una cuestión crítica tratando

 Seguridad: Hay que considerar que algunos datos no estructurados de

Tratamiento de datos no estructurados

Las principales cuestiones a considerar en el tratamiento de información no

 Crear una plataforma escalable (infraestructura y procesos) que permita

 Añadir información/estructura complementaria a los datos no

 Crear conjuntos reducidos de datos que sean representativos. Dado el

 Desarrollo de algoritmos. Hay diferentes tipos de aproximación hacia la

 Procesos de depuración/limpiado de datos. Dado el ingente volumen de

Ejemplo sencillo tratamiento datos no estructurados (redes sociales)

Dada la variada naturaleza de los datos no estructurados, hay infinidad de

 Extracción: Utilizando una clase de java (ejemplo twitter4j) leemos el

 Transformación: Filtramos todos aquellos tuits que contengan el

 Volcado a BBDD : Insertamos en una tabla el registro del tuit con la

 Informes: Creamos informe que permita realizar análisis por tiempo y

1. Hadoop: Inspirada en el proyecto de Google File System (GFS), es un

1. Volumen: quizá el más llamativo por su aumento desmesurado en

2. Variedad: ordenar e interpretar diferentes tipos de datos a la vez

3. Velocidad: se refiere a la vida útil de los datos. No tiene sentido

1. Es un valioso recurso de información para diseñar estrategias.

1. Acceso a la información sin autorización.

La naturaleza de la información hoy es diferente a la información en el pasado.

Si la información es poder, entonces Big Data se entiende como una gran

También podría gustarte