Investigacion Big Data PDF

QUE ES BIG DATA?
Es el termino empleado hoy en da para describir el conjunto de procesos, tecnologas y modelos de negocio que estan basados en datos y en capturar el valor que los propios datos encierran. Esto se puede lograr tanto a travs de una mejora en la eficiencia gracias al analisis de los datos, como mediante la aparicin de nuevos modelos de negocios que supongan un motor de crecimiento. El concepto de Big Data aplica para toda aquella informacin que no puede ser procesada o anali ada utili ando procesos o herramientas tradicionales. CARACTERISTICAS El termino Big Data se caracteri a por! EL VOLUMEN: El volumen de los datos almacenados en los
depositos de las empresas ha pasado de ocupar megabytes y gigabytes a peyabytes. VARIEDAD: "a variedad de datos ha e#plotado pasando de ser datos almacenados y estructurados, guardados en bancos de datos empresariales, a ser desestructurados, y convertidos en semidesestructurados, audio, video, $%", etc. &na creciente variedad de datos necesitan ser procesados informacin. VELOCIDAD: "a velocidad del movimiento, proceso y captura de datos dentro y fuera de la empresa das ha en aumentando procesarse, significativamente. "os modelos basados en inteligencia de negocios generalmente suelen tardar frente a las necesidades analiticas 'casi( en tiempo real de hoy en da debido al flujo de datos a alta velocidad.
Figura 1. Tipo
!" !a#o
!" Big Da#a
1. $"% a&! So'ia( M"!ia: )ncluye contenido *eb e informacin que es obtenida de las redes sociales como +aceboo,, -*itter, "in,ed)n, etc, blogs. ). Ma'*i&"+#o+Ma'*i&" ,M)M-: %.% se refiere a las tecnologas que permiten conectarse a otros dispositivos. %.% utili a dispositivos como sensores o medidores que capturan alg/n evento en particular 0velocidad, temperatura, qumicas presin, como la variables meteorolgicas, variables
salinidad, etc.1 los cuales transmiten a travs de redes al2mbricas, inal2mbricas o hbridas a otras aplicaciones que traducen estos eventos en informacin significativa.
.. BIG TRANSACTION DATA: )ncluye registros de facturacin, en
telecomunicaciones
registros
detallados
de
las
llamadas
03D41, etc. Estos datos transaccionales est2n disponibles en formatos tanto semiestructurados como no estructurados. /. BIOMETRICS: huellas facial, )nformacin etc. datos biomtrica de la el En en 2rea han la que de sido se incluye e
digitales, gentica, los
escaneo
retina,
reconocimiento seguridad informacin
inteligencia,
biomtricos
importante para las agencias de investigacin. 0. 1UMAN GENERATED: "as personas generamos diversas cantidades de datos como la informacin que guarda un call center al establecer una llamada telefnica, notas de vo , correos electrnicos, etc. COM2ONENTES DE UNA 2LATAFORMA BIG DATA El 2ngulo correcto que actualmente tiene el lidera go en trminos de popularidad para anali ar enormes cantidades de informacin es la plataforma de cdigo abierto 5adoop. 5adoop est2 inspirado en el proyecto de 6oogle +ile 7ystem06+71 y en el paradigma de programacin %ap4educe, el cual consiste en dividir en dos tareas 0mapper 8 reducer1 para manipular los datos distribuidos a nodos de un cl/ster logrando un alto paralelismo en el procesamiento.9:; 5adoop est2 compuesto de tres pie as! 5adoop Distributed +ile 7ystem 05D+71, 5adoop %ap4educe y 5adoop 3ommon. 1a!oop Di #ri%u#"! Fi(" S3 #"4,1DFS"os datos en el cl/ster de 5adoop son divididos en peque<as pie as llamadas bloques y distribuidas a travs del cl/ster= de esta manera, las funciones map y reduce pueden ser ejecutadas en peque<os subconjuntos y esto provee de la escalabilidad necesaria para el procesamiento de grandes vol/menes. 1a!oop MapR"!u'" documentos electrnicos, estudios mdicos,
%ap4educe
es
el
n/cleo
de
5adoop.
El
trmino
%ap4educe
en
realidad se refiere a dos procesos separados que 5adoop ejecuta. El primer proceso map, el cual toma un conjunto de datos y lo convierte en otro conjunto, donde los elementos individuales son separados en tuplas 0pares de llave>valor1. El proceso reduce obtiene la salida de map como datos de entrada y combina las tuplas del en un conjunto y m2s peque<o que de las mismas. &na fase datos intermedia es la denominada 7huffle la cual obtiene las tuplas proceso map determina nodo procesar2 estos dirigiendo la salida a una tarea reduce en especfico. 1a!oop Co44o& 5adoop 3ommon 3omponents son un conjunto de libreras que
soportan varios subproyectos de 5adoop. ?dem2s de estos tres componentes principales de 5adoop, e#isten otros proyectos relacionados los cuales son definidos a continuacin! A5ro Es un proyecto de ?pache que provee servicios de seriali acin. 3uando se guardan datos en un archivo, el esquema que define ese archivo es guardado dentro del mismo= de este modo es m2s sencillo para cualquier aplicacin leerlo posteriormente puesto que el esquema esta definido dentro del archivo. Ca a&!ra
3assandra es una base de datos no relacional distribuida y basada en un modelo de almacenamiento de @claveAvalorB, desarrollada en Cava. Dermite grandes vol/menes de datos en forma distribuida. -*itter es una de las empresas que utili a 3assandra dentro de su plataforma. C*u67a Dise<ado para la coleccin y an2lisis a gran escala de ElogsE. )ncluye un tool,it para desplegar los resultados del an2lisis y
monitoreo. F(u4" -al como su nombre lo indica, su tarea principal es dirigir los datos de una fuente hacia alguna otra localidad, en este caso hacia el ambiente de 5adoop. E#isten tres entidades principales! sources, decorators y sin,s. &n source es b2sicamente cualquier fuente de datos, sin, es el destino de una operacin en especfico y un decorator es una operacin dentro del flujo de datos que transforma esa informacin de alguna manera, como por ejemplo comprimir o descomprimir los datos o alguna otra operacin en particular sobre los mismos. 1Ba " Es una base de datos columnar 0columnAoriented database1 que se ejecuta en 5D+7. 5Base no soporta 7F", de hecho, 5Base no es una base de datos relacional. 3ada tabla contiene filas y columnas como una base de datos relacional. de una 5Base familia permite de que muchos son atributos sean agrupados llam2ndolos familias de columnas, de tal manera que los elementos columnas almacenados en un solo conjunto. Eso es distinto a las bases de datos relacionales orientadas a filas, donde todas las columnas de una fila dada son almacenadas en conjunto. +aceboo, utili a 5Base en su plataforma desde Goviembre del .HIH. 1i5" Es una infraestructura de data *arehouse que facilita administrar grandes conjuntos de datos que se encuentran almacenados en un ambiente distribuido. 5ive tiene definido un lenguaje similar a 7F" llamado 5ive Fuery "anguage05F"1, estas sentencias 5F" son separadas por un servicio de 5ive y son enviadas a procesos %ap4educe ejecutados en el cluster de 5adoop. 8a9( +ue donado por )B% a la comunidad de soft*are libre. Fuery
"anguage for Cavascript Jbject Gotation 0C7JG1 es un lenguaje funcional y declarativo que permite la e#plotacin de datos en formato C7JG dise<ado para procesar grandes vol/menes de informacin. Dara e#plotar el paralelismo, Caql reescribe los queries de alto nivel 0cuando es necesario1 en queries de Ebajo nivelE para distribuirlos como procesos %ap4educe. )nternamente el motor de Caql transforma el query en procesos map y reduce para reducir el tiempo de desarrollo asociado en anali ar los datos en 5adoop. Caql posee de una infraestructura fle#ible para administrar y anali ar datos semiestructurados como $%", archivos 37K, archivos planos, datos relacionales, etc. Lu'"&" Es un proyecto de ?pache bastante popular para reali ar b/squedas sobre te#tos. de "ucene te#to. provee 5a sido de libreras para inde#acin en y la b/squeda principalmente utili ado
implementacin de motores de b/squeda 0aunque hay que considerar que no tiene funciones de Ecra*lingE ni an2lisis de documentos 5-%" ya incorporadas1. El concepto a nivel de arquitectura de "ucene es simple, b2sicamente los documentos son dividos en campos de te#to 0fields1 y se genera un ndice sobre estos campos de te#to. "a inde#acin es el componente clave de "ucene, lo que le permite reali ar b/squedas r2pidamente independientemente del formato del archivo, ya sean DD+s, documentos 5-%", etc. Oo:i" 3omo pudo haber en para notado, satisfacer e#isten momentos las varios los procesos de tan que son ser
ejecutados orquestados
distintos
cuales
necesitan
necesidades
complejo
an2lisis de informacin. Jo ie es un proyecto de cdigo abierto que simplifica los flujos de trabajo y la coordinacin entre cada uno de los procesos. Dermite que el usuario pueda definir acciones y las dependencias entre dichas acciones.
&n
flujo
de
trabajo
en
Jo ie
es
definido
mediante
un
grafo
acclico llamado Directed ?cyclical 6raph 0D?61, y es acclico puesto que no permite ciclos en el grafo= es decir, solo hay un punto de entrada y de salida y todas las tareas y dependencias parten del punto inicial al punto final sin puntos de retorno. 8a9( +ue donado por )B% a la comunidad de soft*are libre. Fuery
"anguage for Cavascript Jbject Gotation 0C7JG1 es un lenguaje funcional y declarativo que permite la e#plotacin de datos en formato C7JG dise<ado para procesar grandes vol/menes de informacin. Dara e#plotar el paralelismo, Caql reescribe los queries de alto nivel 0cuando es necesario1 en queries de Ebajo nivelE para distribuirlos como procesos %ap4educe. )nternamente el motor de Caql transforma el query en procesos map y reduce para reducir el tiempo de desarrollo asociado en anali ar los datos en 5adoop. Caql posee de una infraestructura fle#ible para administrar y anali ar datos semiestructurados como $%", archivos 37K, archivos planos, datos relacionales, etc. "ucene Es un proyecto de ?pache bastante popular para reali ar b/squedas sobre te#tos. de "ucene te#to. provee 5a sido de libreras para inde#acin en y la b/squeda principalmente utili ado
implementacin de motores de b/squeda 0aunque hay que considerar que no tiene funciones de Ecra*lingE ni an2lisis de documentos 5-%" ya incorporadas1. El concepto a nivel de arquitectura de "ucene es simple, b2sicamente los documentos 0document1 son dividos en campos de te#to 0fields1 y se genera un ndice sobre estos campos de te#to. "a inde#acin es el componente clave de "ucene, lo que le del permite formato reali ar del b/squedas ya r2pidamente sean DD+s, independientemente archivo,
documentos 5-%", etc. Oo:i"
3omo
pudo
haber en para
notado, satisfacer
e#isten momentos las
varios los
procesos de tan
que
son ser
ejecutados orquestados
distintos
cuales
necesitan
necesidades
complejo
an2lisis de informacin. Jo ie es un proyecto de cdigo abierto que simplifica los flujos de trabajo y la coordinacin entre cada uno de los procesos. Dermite que el usuario pueda definir acciones y las dependencias entre dichas acciones. &n flujo de trabajo en Jo ie es definido mediante un grafo
acclico llamado Directed ?cyclical 6raph 0D?61, y es acclico puesto que no permite ciclos en el grafo= es decir, solo hay un punto de entrada y de salida y todas las tareas y dependencias parten del punto inicial al punto final sin puntos de retorno.
BIG DATA ; EL CAM2O DE INVESTIGACI<N "os cientficos e investigadores han anali ado datos desde ya hace mucho tiempo, lo que ahora representa el gran reto es la escala en la que estos son generados. Esta e#plosin de Egrandes datosE est2 transformando la manera en que se conduce una investigacin adquiriendo habilidades en el uso de Big Data para resolver problemas complejos relacionados con el descubrimiento cientfico, investigacin ambiental y biomdica, educacin, salud, seguridad nacional, entre otros. De entre los proyectos que se pueden mencionar donde se ha
llevado a cabo el uso de una solucin de Big Data se encuentran! E( La&guag"= I&#"ra'#io& a&! Co4pu#a#io& La%ora#or3: en
conjunto con la &niversidad de -rento en )talia, son un grupo de investigadores cuyo inters es el estudio de la comunicacin Li&"%"rg"r verbal y no verbal tanto + con mtodos computacionales como cognitivos. Co4pr"*"& i5" Ca&'"r C"&#"r Bioi&>or4a#i'
Group: utili a 5adoop y 5Base para anali ar datos producidos por los investigadores de The Cancer Genome Atlas(TCGA) para soportar las investigaciones relacionadas con el c2ncer. E( 2SG Co(("g" o> de y T"'*&o(og3= I&!ia para , anali a m/ltiples los de enlaces 5adoop secuencias del protenas el determinar
evolutivos y predecir estructuras moleculares. "a naturale a algoritmo paralelismo computacional mejora la velocidad y e#actitud de estas secuencias. La Universidad Distrital Francisco Jose de Caldas: utili a 5adoop para apoyar su proyecto de investigacin relacionado con el sistema de inteligencia territorial de la ciudad de Bogot2. La Universidad de Maryland: es una de las seis universidades que colaboran en la iniciativa acadmica de cmputo en la nube de )B%>6oogle. 7us investigaciones incluyen proyectos en la lingListica computacional 0machine translation1, modelado del lenguaje, bioinform2tica, an2lisis de correo electrnico y procesamiento de im2genes. E( Instituto de Tecnologa de la Universidad de Ontario (UOIT) junto con el 5ospital de -oronto utili an una plataforma de big data para an2lisis en tiempo real de )B% 0 IBM InfoSphere Streams1, la cual permite monitorear bebs prematuros en las salas de neonatologa para determinar cualquier cambio en la presin arterial, temperatura, alteraciones en los registros del electrocardiograma y electroencefalograma, etc., y as detectar hasta .M horas antes aquellas condiciones que puedan ser una amena a en la vida de los recin nacidos. Lo (a%ora#orio Pacific Nort !est National "a#s(PNN"$ utili an
de igual manera )B% )nfo7phere 7treams para anali ar eventos de medidores de su red elctrica y en tiempo real verificar aquellas e#cepciones o fallas en los componentes de la red, logrando comunicar casi de manera inmediata a los consumidores sobre el problema para ayudarlos en administrar su consumo de energa
elctrica. "a esclerosis m/ltiple es una enfermedad del sistema nervioso que afecta al cerebro y la mdula espinal. "a comunidad de or! investigacin biomdica y la Universidad del Estado de Nueva
(SUN ) est2n aplicando an2lisis con big data para contribuir en la progresin de la investigacin, diagnstico, tratamiento, y qui 2s hasta la posible cura de la esclerosis m/ltiple. 3on la capacidad de generar toda esta informacin valiosa de diferentes sistemas, las empresas y los gobiernos est2n lidiando con el problema de anali ar los datos para dos propsitos importantes! ser capaces de de una detectar manera y responder y a los acontecimientos utili ar las actuales oportuna, para poder
predicciones del aprendi aje histrico. Esta situacin requiere del an2lisis tanto de datos en movimiento 0datos actuales1 como de datos en reposo 0datos histricos1, que son represent diferentes y enormes vol/menes, variedades y velocidades. ados a

Investigacion Big Data PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Investigacion Big Data PDF

Cargado por

Copyright:

Formatos disponibles

QUE ES BIG DATA?

!" Big Da#a

.. BIG TRANSACTION DATA: )ncluye registros de facturacin, en

digitales, gentica, los

reconocimiento seguridad informacin

documentos 5-%", etc. Oo:i"

e#isten momentos las

También podría gustarte