Documentos de Académico
Documentos de Profesional
Documentos de Cultura
de
Datos
Sistema
que
ofrece
un
entorno
distribuido,
escalable
y
fiable
para
la
recogida
de
manera
eficiente
de
grandes
cantidades
de
datos.
Tiene
una
arquitectura
simple
y
flexible
basada
en
streaming
de
datos.
Es
http://flume.apache.org
Apache
Flume
robusto
y
tolerante
a
fallos
con
mecanismos
de
confiabilidad,
failover
y
recovery.
Utiliza
un
modelo
de
datos
extensible
que
permite
aplicaciones
analticas
en
lnea.
Apache
Chukwa
Event-Based
Base
de
datos
relacionales
ETL
HDFS
Montable
HDFS
-
REST
API
http://chukwa.apache.org
http://kafka.apache.org
http://sqoop.apache.org
http://kitesdk.org/docs/0.1
7.1/morphlines/
https://wiki.apache.org/had
oop/MountableHDFS
http://hadoop.apache.org/
docs/r2.2.0/hadoop-hdfs-
KiteSDK
Hadoop API
Acceso
(org.apache.h
programtico
adoop.io)
datos.
httpfs/index.html
Ejemplos:
transferencia
entre
diferentes
versiones
de
Hadoop,
uso
de
curl
o
wget,
etc.
(Anteriormente
Kit
de
desarrollo
de
Cloudera)
es
un
proyecto
de
cdigo
abierto
(Apache
License)
que
posee
un
conjunto
de
bibliotecas,
herramientas
y
documentacin
que
hacen
ms
fcil
a
los
desarrolladores
crear
sistemas
en
la
parte
superior
de
la
pila
de
Hadoop.
Objetivos:
http://kitesdk.org/docs/cur
- Patrones
y
prcticas
para
la
construccin
de
sistemas
rent/
orientados
a
datos.
- Permite
centrarse
en
la
lgica
de
negocio,
no
en
los
detalles
a
bajo
nivel
o
infraestructura.
- Proporcionar
valores
predeterminados
para
las
opciones
de
la
plataforma.
https://hadoop.apache.org/
docs/stable/api/org/apache
Va
Hadoop
API
/hadoop/io/package-
summary.html
Tipo
de
Ficheros
TextPlain
SequenceFile
Document-
Based
Apache Avro
Columnar-
Based
RCFile
http://wiki.apache.org/had
oop/SequenceFile
http://avro.apache.org
http://en.wikipedia.org/wik
i/RCFile
Parquet
http://www.cloudera.com/
content/cloudera/en/docu
mentation/cdh4/v4-6-
0/CDH4-Installation-
Guide/cdh4ig_parquet.html
Compresin
Snappy
LZO
http://blog.cloudera.com/bl
og/2011/09/snappy-and-
hadoop/
http://en.wikipedia.org/wik
i/LempelZivOberhumer
Meta-Data
Management
Apache
HCatalog
http://hortonworks.com/ha
doop/hcatalog/
Distributed
FileSystem
HDFS
http://hortonworks.com/ha
doop/hdfs/
http://blog.cloudera.com/bl
og/2012/07/why-we-build-
our-platform-on-hdfs/
NoSQL
http://hbase.apache.org
Distributed
Programming
Batch
Apache
MapReduce
Apache Hive
Apache Pig
Apache
Chunch
Apache
Spark
Online,
Near- (*
Ofrece
Real
Time
procesamient
o
en
batch)
http://hadoop.apache.org/
docs/stable/hadoop-
yarn/hadoop-yarn-
site/WritingYarnApplication
s.html
http://hive.apache.org
https://pig.apache.org
https://github.com/alanfgat
es/programmingpig
https://crunch.apache.org
https://spark.apache.org
https://storm.apache.org
Interactive
Queries
Cloudera
Impala
http://www.cloudera.com/
content/cloudera/en/produ
cts-and-
services/cdh/impala.html
Searching
Apache Solr
Cloudera
Search
http://lucene.apache.org/s
olr/
http://www.cloudera.com/
content/cloudera/en/docu
mentation/cloudera-
search/v1-latest/Cloudera-
Search-User-
Guide/csug_introducing.ht
ml
ElasticSearch
Mahout
MLlib
Scheduling
Apache Oozie
WEB
UI
HUE
tiempo
real.
Implementa
algunos
de
los
algoritmos
ms
comunes
que
se
utilizan
en
aplicaciones
de
negocio.
- Filtro
colaborativo
|
Recomendaciones.
- Clasificacin
|
Regresin.
- Clustering.
Librera
para
MaChine
Learning
escalable
de
Spark.
Consiste
en
algoritmos
comunes
de
aprendizaje
como
clasificacin,
regresin,
clustering,
filtrado
colaborativo,
etc
Despliegue
y
otros
Motor
de
workflows
para
gestionar
los
trabajos
de
Apache
Hadoop.
Esta
integrado
con
el
resto
de
la
pila
de
proyectos
Hadoop
como
Java
Map-Reduce,
Hive,
Pig,
Sqoop,
Flume,
Es
un
sistema
escalable,
fiable
y
extensible.
Aplicacin
Web
para
interactuar
con
Apache
Hadoop
y
ecosistema.
http://www.elasticsearch.o
rg/overview/
http://mahout.apache.org
http://community.clouder
a.com/t5/Data-Science-
and-Machine/bd-
p/Mahout
https://spark.apache.org/
docs/1.1.0/mllib-
guide.html
http://oozie.apache.org
http://gethue.com