Documentos de Académico
Documentos de Profesional
Documentos de Cultura
El fenmeno del Big Data tambin es llamado datos a gran escala. En los
textos cientficos en espaol con frecuencia se usa directamente el trmino
en ingls Big Data, Big data: La revolucin de los datos masivos
Hadoop
La plataforma de cdigo abierto dispone de un sistema para almacenar informacin en el que sta se replica
en varias mquinas, distribuyndose de tal manera que si una mquina se cae no se pierdan los datos.
Si es necesario aadir ms informacin se aaden ms servidores sin que haya problemas de compatibilidad
o reorganizacin de los datos.
Al igual que ocurre con Linux, cualquiera puede tomar Hadoop, empaquetarlo y ofrecerlo como una
distribucin de la plataforma. Son varias las compaas que comercializan este tipo de solucin y uno de sus
principales atractivos es el algoritmo de procesamiento y bsquedas: MapReduce. Esta herramienta permite
hacer consultas a una base de datos inmensa y obtener respuestas rpidas. Es capaz de enviar una
orden a cada mquina para que busque en su disco duro, recolectar todas las contestaciones y ordenarlas
para resolver la consulta.
MapReduce puede resolver con xito cargas de trabajo de gran complejidad, como el procesamiento del
lenguaje humano o el aprendizaje de las mquinas. Pero no es el nico algoritmo que se puede utilizar.
Recientemente ha aparecido la versin 2.0 de Hadoop, que permite construir otros algoritmos y utilizar otros
lenguajes, lo que es un estmulo para los desarrolladores.
Existen plataformas que compiten con Hadoop en el escenario de big data, aunque el elefante amarillo
de momento ha tomado la delantera a todas ellas. El proyecto Spark, tambin de cdigo abierto, avanza a
marchas forzadas con el apoyo de Yahoo, quien estuvo involucrado en el desarrollo de su rival. Las soluciones
de HPCC Systems y Pervasive Software son otras de las propuestas que flotan en el mercado.
Hortonworks
Tienen relaciones de ingeniera con empresas como Red Hat, EMC, Teradata, SAP,
Microsoft, SAS, HP, entre otras.
Qu es Hortonworks: Open
Enterprise Hadoop?
Continuacin
Data Access: interacta con su data desde una amplia variedad de formas en lotes hasta en
tiempo real.
Data Governance & Integration: carga rpida y fcilmente los datos y administra segn la
poltica establecida.
Cloudera vs Hortonworks
La distribucin de Cloudera (CDH) fue la
primera en aparecer en el mercado,
combinando Big Data y Hadoop. CDH no solo
incluye el ncleo de Hadoop (HDFS,
MapReduce) sino que tambin integra
diversos proyectos de Apache (HBase,
Mahout, Pig, Hive, etc.). CDH es 100% opensource, y cuenta con una interfaz grfica
propietaria, Cloudera Manager, para la
administracin y gestin de los nodos del
clster Hadoop. La descarga es totalmente
gratuita. No obstante, tambin cuenta con
una versin empresarial, que incluye una
interfaz
ms
sofisticada.
Cloudera
recientemente ha estrechado vnculos tanto
con IBM como con Oracle. En la siguiente
ilustracin, se muestra la arquitectura de la
distribucin CDH:
Continuacion
Datawharehouse
Un Datawarehouse es una base de datos corporativa que se caracteriza por integrar y depurar
informacin de una o ms fuentes distintas, para luego procesarla permitiendo su anlisis desde
infinidad de pespectivas y con grandes velocidades de respuesta. La creacin de un datawarehouse
representa en la mayora de las ocasiones el primer paso, desde el punto de vista tcnico, para
implantar una solucin completa y fiable de Business Intelligence.
InfiniDB
Caracteristicas
En general, InfiniDB funciona bien en entornos con volumen de datos media-alto en los que se requiere un corto tiempo de respuesta.
Arquitectura orientada a columnas: frente al formato habitual de filas, InfiniDB est diseada en columnas por lo que resulta ms adecuada para aplicaciones de lectura
intensa.
Diseo multi-hilo: puede as hacer uso del hardware actual que incorpora CPUs multi-core. Ms CPUs y/o cores permiten a InfiniDB incrementar las prestaciones sin tener
que modificar la aplicacin.
Particionado automtico, tanto vertical como horizontal: adems de estar orientada a columnas, InfiniDB tambin usa cierta forma de particionado horizontal por rango
que no requiere asignacin ni diseo de esquema. Usando ambos particionados, InfiniDB puede reducir la entrada y salida tanto en el sentido de filas como de columnas.
Alta concurrencia: los lmites en cuanto a concurrencia de InfiniDB slo estn restringidos por la capacidad del servidor; no hay lmites tericos.
Carga de datos de alta velocidad: con el fin de cargar datos rpidamente, una utilidad con ese fin est disponible.
Soporte DML: adicionalmente a la carga de datos rpida, InfiniDB soporta plenamente las operaciones DML (INSERT, UPDATE, DELETE).
Soporte transaccional: proporciona transaciones con caractersticas ACID as como deteccin de bloqueos (deadlocks).
diseo MVCC: soporta multiversion concurrency control o lectura de instantneas por lo que las sentencias nunca bloquean una tabla.
No se necesita indexado: al usar de forma transparente el particionado vertical y horizontal (lgico) no se necesita indexacin.
Bajo manteniemiento: adems de eliminar la necesidad de indexar las tablas, InfiniDB no necesita objetos como vistas materializadas ni tablas sumario para ganar
velocidad.
Portabilidad de platforma: funciona en todas las distribuciones con ms difusin de Linux y de Windows.
Diagnstico de prestaciones: para ajustar las prestaciones, InfiniDB proporciona anlisis SQL y herramientas para diagnosticar SQL defectuoso.
Frontal MySQL: se puede configurar como mecanismo de almacenamiento de MySQL, y utilizar su interfaz de usuario. Esto permite a cualquiera familiar con MySQL
conseguir productividad inmediata.
Sin cargo por licencia: InfiniDB Community es grtis para todo uso.
Compatible con herramientas BI: usa conectores MySQL estndar y soporta todas las herrameintas BI compatibles con MySQL.
Oracle
Caracteristicas
Con bases de datos que triplican su tamao cada dos aos, los departamentos de IT se enfrentan tanto a los desafos nuevos como a los ya conocidos: Cmo mantener
los niveles adecuados de servicio al usuario en caso de que se produzcan fallas en el sitio, en el almacenamiento o en el servidor? Cmo evitar la violacin de datos y
garantizar el cumplimiento regulatorio? Cmo almacenar, administrar y proteger todo tipo de informacin, e incluso integrarla fcilmente en las operaciones
comerciales rutinarias? Cmo escalar los amplios sistemas transaccionales y de depsito de datos mientras se asegura el cumplimiento, la confiabilidad y la capacidad
de administracin? Y cmo actualizar el software y el hardware mientras se minimizan los riesgos de cambio? Oracle lo ayuda a abordar estos desafos con una amplia
variedad de nuevas caractersticas y mejoras en Oracle Database 11g. Al extender la capacidad exclusiva de Oracle para brindar los beneficios de grid computing,
Oracle Database 11g le permite mejorar los niveles de servicio al cliente, reducir el tiempo de baja, y hacer un uso ms efectivo de los recursos de IT mientras aumenta
el desempeo, la escalabilidad y la seguridad de sus aplicaciones 24/7.
Las caractersticas relacionadas con la capacidad de administracin en Oracle Database 11g estn diseadas para ayudar a las empresas a administrar fcilmente los
grids de infraestructura y cumplir exitosamente con las expectativas del nivel de servicio al usuario. Las nuevas caractersticas y mejoras en la capacidad de
administracin de Oracle Database11g ayudan a aumentar la productividad de los DBA y reducir los costos de administracin, mientras aumenta el desempeo, la
escalabilidad y la seguridad de sus aplicaciones comerciales durante las 24 horas.
Protege los sistemas de todas las causas comunes relacionadas con el tiempo de baja planificado y no planificado, con inclusin de las fallas en el sitio, en el
almacenamiento y en el servidor, as como de una de las causas ms importantes, el error humano.
Permite a su empresa aumentar fcilmente los amplios sistemas transaccionales y de depsito de datos, y brinda rpido acceso 24/7 a los datos utilizando
almacenamiento modular de bajo costo. Las nuevas e innovadoras caractersticas de desempeo de Oracle Database11g ayudan a los administradores a administrar
eficientemente la carga de informacin en todo el ciclo de vida de las bases de datos al optimizar los recursos de almacenamiento de acuerdo con la demanda, adems
brinda una plataforma segura y escalable para el acceso confiable y rpido a todo tipo de informacin utilizndolas interfaces estndar del sector. Permite una slida
administracin del contenido para tipos avanzados de datos )como XML, spatial, multimedia, medical imaging, y tecnologas semnticas)lo cual representa un rea de
gran crecimiento para muchas empresas.
Incluye muchas nuevas mejoras y caractersticas para integrar mejor los datos de toda la empresa, reduciendo as los costos de administracin de contenido y
aumentando la productividad de los empleados. Con 30 aos de prcticas seguras, Oracle Database11g lo ayuda a proteger su informacin y garantizar el cumplimiento
regulatorio con una gran cantidad de slidas capacidades de seguridad, mejora las capacidades de data warehousing y business intelligence de Oracle para optimizar la
capacidad de administracin, logrando que las tecnologas avanzadas como el procesamiento analtico y la extraccin de datos online sean fcilmente accesibles para
los usuarios.
Proporciona una sola plataforma integrada que ofrece alto desempeo y escalabilidad, y brinda soporte de todas las tecnologas principales actualmente utilizadas por
los desarrolladores de aplicaciones.
Incorpora nuevas capacidades para los entornos de desarrollo de aplicaciones ms importantes, permitiendo acortar el tiempo de llegada al mercado y mejorar el
desempeo de las aplicaciones.
Oracle ha solucionado problemas relacionados con la administracin de la informacin en sectores gubernamentales y empresas internacionales durante ms de tres
dcadas, logrando que nuestra base de datos se transforme en el software ms conocido del mundo respecto de la recopilacin, administracin y proteccin de la
informacin.
Minera de Datos
La minera de datos o exploracin de datos (es la etapa de anlisis de
"Knowledge Discovery in Databases" o KDD) es un campo de la estadstica y las
ciencias de la computacin referido al proceso que intenta descubrir patrones en
grandes volmenes de conjuntos de datos.
WEKA
Caracteristicas
Esta es una herramienta muy verstil que soporta muchas tareas estndar de la minera de datos
en especial tareas de procesamiento de datos, regresin, clasificacin, clusterin entre otras,
as mismo permite la visualizacin y la seleccin de los datos.
Todas las tcnicas en WEKA estn basadas en la suncin de datos que estn
disponibles en un fichero plano o una relacin, en donde cada registro de datos
esta descrito por un nmero fijo de atributos nominales o numricos.
Permite el acceso a otras instancias de bases de datos por medio de SQL, gracias al
JDBC, adems puede procesar un resultado generado a base de una consulta hecha a una base de datos.
RapidMiner
Caractersticas
Desarrollado en Java.
Multiplataforma.
A travs de un GUI.
En lnea de comandos.
En batch (lotes).
Extensible.
MongoDB
MongoDB forma parte de la nueva familia de sistemas de base de datos NoSQL. En lugar
de guardar los datos en tablas como se hace en las base de datos relacionales, MongoDB
guarda estructuras de datos en documentos similares a JSON con un esquema dinmico
(MongoDB utiliza una especificacin llamada BSON), haciendo que la integracin de los
datos en ciertas aplicaciones sea ms fcil y rpida.
El cdigo binario est disponible para los sistemas operativos Windows, Linux, OS X y
Solaris.
Caracteristicas
Consultas Ad hoc
MongoDB soporta la bsqueda por campos, consultas de rangos y expresiones regulares. Las consultas pueden devolver un campo especfico del documento pero tambin puede ser una funcin JavaScript definida por el
usuario.
Indexacin
Cualquier campo en un documento de MongoDB puede ser indexado, al igual que es posible hacer ndices secundarios. El concepto de ndices en MongoDB es similar a los encontrados en base de datos relacionales.
Replicacin
MongoDB soporta el tipo de replicacin primario-secundario. Cada grupo de primario y sus secundarios se denomina replica set 14 . El primario puede ejecutar comandos de lectura y escritura. Los secundarios replican los
datos del primario y slo se pueden usar para lectura o para copia de seguridad, pero no se pueden realizar escrituras. Los secundarios tiene la habilidad de poder elegir un nuevo primario en caso de que el primario actual
deje de responder.
Balanceo de carga
MongoDB se puede escalar de forma horizontal usando el concepto de shard.15 El desarrollador elige una clave de sharding, la cual determina cmo sern distribuidos los datos de una coleccin. Los datos son divididos
en rangos (basado en la clave de sharding) y distribuidos a travs de mltiples shard. Cada shard puede ser una replica set. MongoDB tiene la capacidad de ejecutarse en mltiple servidores, balanceando la carga y/o
replicando los datos para poder mantener el sistema funcionando en caso que exista un fallo de hardware. La configuracin automtica es fcil de implementar bajo MongoDB y se pueden agregar nuevas servidores a
MongoDB con el sistema de base de datos funcionando.
Almacenamiento de archivos
MongoDB puede ser utilizado como un sistema de archivos, tomando la ventaja de la capacidad que tiene MongoDB para el balanceo de carga y la replicacin de datos utilizando mltiples servidores para el
almacenamiento de archivos. Esta funcin se llama GridFS16 y es mas bien una implementacin en los drivers, no en el servidor17 , por lo que est incluida en los drivers oficiales que la compaa de MongoDB desarrolla.
Estos drivers exponen funciones y mtodos para la manipulacin de archivos y contenido a los desarrolladores. En un sistema con mltiple servidores, los archivos pueden ser distribuidos y replicados entre los mismos y
de una forma transparente, de esta forma se crea un sistema eficiente que maneja fallos y balanceo de carga.
Agregacin
MongoDB proporciona un framework de agregacin que permite realizar operaciones similares a las que se obtienen con el comando SQL "GROUP BY". El framework de agregacin est construido como un pipeline en el
que los datos van pasando a travs de diferentes etapas en los cuales estos datos son modificados, agregados, filtrados y formateados hasta obtener el resultado deseado. Todo este procesado es capaz de utilizar ndices
si existieran y se produce en memoria. Asimismo, MongoDB proporciona una funcin MapReduce que puede ser utilizada para el procesamiento por lotes de datos y operaciones de agregacin.
MongoDB tiene la capacidad de realizar consultas utilizando JavaScript, haciendo que estas sean enviadas directamente a la base de datos para ser ejecutadas.
Cassandra
Caracteristicas
Descentralizado
Todos los nodos del clster tiene el mismo rol. No hay un nico punto de fallo.
Los datos se distribuyen a travs del clster (por lo que cada nodo contiene datos diferentes).
No existe un nodo maestro por lo que cada nodo puede dar servicio a cualquier solicitud.
Soporta replicacin y replicacin de mltiples data center
Las estrategias de replicacin son configurables 22 . Cassandra est diseado como un sistema
distribuido, para el despliegue de un gran nmero de nodos a travs de mltiples centros de datos.
La arquitectura distribuida de Cassandra est diseado para desplegarse sobre mltiples data center,
tener redundancia y recuperarse ante desastres.
Escalabilidad
El rendimiento de leer y escribir aumenta linealmente a medida que se aaden nuevos nodos.
Se pueden agregar nuevos nodos sin necesidad de interrumpir la ejecucin de la aplicacin.
Tolerancia a fallos
Los datos se replican automticamente a mltiples nodos para recuperarse frente a fallos.
Cassandra soporta replicacin a travs de mltiples datacenter. Se puede reemplazar nodos que
presenten fallos sin tiempo de inactividad o interrupcin de la aplicacin.
Consistencia
Se ofrece la eleccin de el nivel de consistencia para las lecturas y escrituras.
Un ejemplo posible de consulta utilizando consistencia es el siguiente:
SELECT * FROM users WHERE state='TX' USING CONSISTENCY QUORUM
Redis
Modelo de datos
El tipo de valor determina las operaciones (los comandos) que son disponibles.
Redis soporta operaciones atmicas de alto nivel del lado del servidor, como
inserciones, unions, y diferencias entre sets y listas ordenadas. Desde la versin
2.6, liberada a finales de octubre de 2012, se introduce una funcionalidad clave, la
posibilidad de ejecutar Scripts en el servidor Redis, escritos en lenguaje Lua.
Lenguajes de
programacin
El lenguaje R est orientado a estadsticas y es muy popular entre los mineros de datos. Es la
versin open source del lenguaje S, y nada difcil de aprender, asegura Laurence Bradford,
experta en carreras de tecnologa. Si quieres aprender a desarrollar programas estadsticos, R
es un lenguaje muy til, adems de permitirte manipular y organizar datos en grficas.
CUDA
Ventajas
Limitaciones
Puede existir un Cuello de botella entre la CPU y la GPU por los anchos
de banda de los buses y sus latencias.
OpenGL
Especificaciones
Fundamentalmente OpenGL es una especificacin, es decir, un documento que describe un conjunto de funciones y el
comportamiento exacto que deben tener. Partiendo de ella, los fabricantes de hardware crean implementaciones, que son
bibliotecas de funciones que se ajustan a los requisitos de la especificacin, utilizando aceleracin hardware cuando es
posible. Dichas implementaciones deben superar unos tests de conformidad para que sus fabricantes puedan calificar su
implementacin como conforme a OpenGL y para poder usar el logotipo oficial de OpenGL.
Hay implementaciones eficientes de OpenGL para Mac OS, Microsoft Windows, GNU/Linux, varias plataformas Unix y
PlayStation 3. Existen tambin varias implementaciones en software que permiten ejecutar aplicaciones que dependen de
OpenGL sin soporte de aceleracin hardware. Es destacable la biblioteca de software libre / cdigo abierto Mesa 3D, una API
de grficos sin aceleracin hardware y completamente compatible con OpenGL. Sin embargo, para evitar los costes de la
licencia requerida para ser denominada formalmente como una implementacin de OpenGL, afirma ser simplemente una
API muy similar.
La especificacin OpenGL era revisada por el OpenGL Architecture Review Board (ARB), fundado en 1992. El ARB estaba
formado por un conjunto de empresas interesadas en la creacin de una API consistente y ampliamente disponible. Microsoft
, uno de los miembros fundadores, abandon el proyecto en 2003.
El 21 de septiembre de 2006 se anunci que el control de OpenGL pasara del ARB al Grupo Khronos.3 Con ello se intentaba
mejorar el marketing de OpenGL y eliminar las barreras entre el desarrollo de OpenGL y OpenGL ES.4 ARB se convirti
dentro de Khronos en el OpenGL ARB Working Group.5 El subgrupo de Khronos que gestiona la especificacin de OpenGL
se denomina OpenGL ARB Working Group.6 Para una relacin de los miembros que componen el OpenGL ARB Working
Group, vase el apartado Miembros del Grupo Khronos. El gran nmero de empresas con variados intereses que han pasado
tanto por el antiguo ARB como por el grupo actual han hecho de OpenGL una API de propsito general con un amplio rango
de posibilidades.
Generadores de anlisis
estadsticos
Si tiene que desarrollar anlisis estadsticos o tcnicos complejos, puede ahorrar pasos y tiempo si
utiliza las Herramientas para anlisis. Deber proporcionar los datos y parmetros para cada anlisis,
y la herramienta utilizar las funciones de macros estadsticas o tcnicas correspondientes para
realizar los clculos y mostrar los resultados en una tabla de resultados. Algunas herramientas
generan grficos adems de tablas de resultados.
SPSS
Por ejemplo SPSS puede ser utilizado para evaluar cuestiones educativas.
Niveles de Talend
Skytree server
Skytree , Inc es una compaa startup con sede en San Jos de California ,
que desarrolla software de aprendizaje de mquina para el uso
empresarial .
Skytree sali del anonimato en febrero de 2012. anunciando skytree
Server,
un sistema de aprendizaje automtico para descubrir patrones y hacer
predicciones
de datos complejas y masivas.
Caractersticas
Skytree tiene mtodos de aprendizaje automtico que incluyen: los bosques de toma al azar, estimacin kernel densidad, K-means,
descomposicin de valor singular, gradiente de impulsar, rbol de decisin, de correlacin de 2 puntos, la bsqueda por rango, Kvecinos ms cercanos algoritmo, regresin lineal, mquinas de vectores soporte y regresin logstica. [6]
skytree software de servidor opera en Linux en un nico equipo servidor o clster de varios nodos, y est destinado para su uso por
los modeladores para el desarrollo de modelos de aprendizaje automtico, y las implementaciones de produccin (en tiempo real o
el uso de lotes). Est diseado para conectar con la infraestructura de TI existente. Puede ser configurado para aceptar flujos de
datos y los resultados de clculo de mltiples fuentes. La analtica resultantes se devuelven a travs de los mismos canales.
fuentes de datos estndar incluyen tanto los datos estructurados y no estructurados a partir de: [6]
Las bases de datos relacionales (RDBMS)
Sistemas de Hadoop (HDFS)
Las bases de datos de archivos planos (por ejemplo, CSV)
software skytree Asesor encuentra un modelo de ajuste apropiado a los datos dados, y explica sus hallazgos al usuario en el
lenguaje ordinario. [7] Incluye mtodos que se encuentran en los paquetes de estadsticas como el anlisis de regresin, anlisis de
varianza y anlisis de conglomerados. Proporciona una interfaz grfica de usuario que hace hincapi en las tareas (como clster,
clasificar o comparar) sobre algoritmos e incluye breves explicaciones de los mtodos estadsticos de base. [8]
Asesor lee formatos de archivo, incluyendo archivos con las siguientes extensiones: TXT, CSV, DAT, GML, XML, red, PDF, ODT, DOX.
Tambin puede leer los archivos de base de datos de MySQL, base de datos Oracle, Microsoft SQL Server, IBM DB2, y Teradata. El
software funciona en Mac OS, Windows y Linux
Preprocesamiento de
datos
Para la deteccin de valores anmalos existen variastcnicas como el
algoritmo de agrupacin jerrquica(CURE-Clustering Using
Representatives) y el algoritmo DBSCAN, basados en clustering.
Expresso
Limpieza de datos
Para el manejo de datos con ruido, uno de los mtodos que existen es el Binning, que permite
reducir la numerosidad, donde primero se ordenan los datos y serealiza la particin en bins
del mismo tamao o de la media o de los extremos.
Uno de los algoritmos de clustering ms utilizados es elalgoritmo K-Medias, que se puede usar
para elrelleno de datos faltantes. Este es un mtodo de agrupamiento por vecindad en el que
se parte de un nmero determinado de prototipos y de un conjunto de ejemplos por agrupar.
CURL
Continuacion
na herramienta de lnea de comandos para obtener o enviar archivos utilizando la sintaxis de URL.
Desde cURL utiliza libcurl, es compatible con una amplia gama de protocolos comunes de Internet, en la actualidad incluyendo HTTP,
HTTPS, FTP, FTPS, SCP, SFTP, TFTP, LDAP, DAP, DICT, TELNET, ARCHIVO, IMAP, POP3, SMTP y RTSP (la ltima Slo cuatro de las
versiones ms recientes de 7.20.0 9 febrero de 2010).
cURL es compatible con HTTPS y lleva a cabo la verificacin del certificado SSL por defecto cuando no se especifica un protocolo
seguro como HTTPS. Cuando cURL se conecta a un servidor remoto a travs de HTTPS, ser primero obtener el certificado de servidor
remoto y comprobar en contra de su almacn de certificados CA a la validez del servidor remoto para asegurar el servidor remoto es
el que dice ser. Algunos paquetes de cURL han incluido con el archivo de certificado CA tienda. Hay pocas opciones para especificar
certificado de CA como --cacert y --capath. --cacert opcin se puede utilizar para especificar la ubicacin del archivo de certificado CA
tienda. En la plataforma Windows, si no se especifica un archivo de certificado CA, rizo buscar un nombre de archivo de certificado
CA "curl-ca-bundle.crt" en el siguiente orden:
Directorio donde se encuentra el programa de rizo.
directorio de trabajo actual.
directorio de sistema de Windows.
directorio de Windows.
Directorios especificados en las variables de entorno% PATH%. [6]
cURL devolver un mensaje de error si el servidor remoto est utilizando un certificado autofirmado, o si el certificado del servidor
remoto no est firmado por una CA que aparece en el archivo de certificado CA. -k o la opcin --insecure se puede utilizar para omitir
la comprobacin del certificado. Alternativamente, si se confa en el servidor remoto, el certificado de CA servidor remoto se puede
aadir al archivo de certificado CA tienda.
Spark MLP
Continuacion
Big
Data
in-memory
Se trata de la cara ms visible de Spark.
Olvidad
SAP-Hana
y
otras
soluciones
propietarias, por no decir caras. Spark
permite
realizar
trabajos
paralelizados
totalmente en memoria, lo cual reduce mucho
los tiempos de procesamiento. Sobre todo si
se trata de unos procesos iterativos como
los que se usan en el Machine Learning. En la
imagen que se muestra a continuacin,
vemos el benchmark que encontraris en
https://spark.apache.org/ y que muestra el
rendimiento de Spark respecto a HadoopMapReduce.