Documentos de Académico
Documentos de Profesional
Documentos de Cultura
31 DE OCTUBRE DE 2014
IX Jornadas de Data Mining
Sergio Uassouf
Lder de Prctica de
Gestin de Informacin e Infraestructura
Company Confidential - For Internal Use Only
Copyright 2012, SAS Institute Inc. All rights reserved.
v4.5 20141029
PRESENTACIONES DE NEGOCIOS
CON TENDENCIA AL VAPORWARE
"With no shareholders
demanding short-term
returns, we are free to
invest in a sustainable
future. Thats why we
invest in a dedicated
workforce, sustainable
operations and a strong
community to make
everyone, not just SAS,
successful." Jim
Goodnight
SOLUCIONES
ANALITICAS
LLAVE EN MANO
HERRAMIENTAS PARA
DESARROLLOS
ANALITICOS
PROACTIVO
REACTIVO
CAPACIDADES ANALITICAS
SAS
MEDIANO A GRANDE
TAMAO DE DATOS
BIG DATA
SAS
Analtica
Desarrollos (modelizacin) visuales
Desarrollos por interfaz grfica
Desarrollos por cdigo
Informacin estructurada
Informacin no estructurada
Todos las bases de datos
Big data (Ya veremos)
Flujos contnuos (Streaming)
Plataformas
Grilla de servidores (Grid)
Big data (Ya veremos)
La nube
FALSO DILEMA
PERO SE VE MUY FRECUENTEMENTE... CASI SIEMPRE
NEGOCIOS O TI?
PONIENDONOS
HITOS IMPORTANTES DE LA INFORMATICA
EN CONTEXTO
BIG DATA
ALMACENAR Y ANALIZAR GRANDES VOLUMENES DE
SAS ON HADOOP
INFORMACION A BAJO COSTO
MPP
TODOS LOS
CALL DETAIL
RECORDS
TODAS LAS
TRANSACCIONES
Y ANALIZARLOS
EN SU TOTALIDAD...
TODAS LAS
SECUENCIAS DE
SITIOS WEB
EJECUTANDO
TODAS LAS
ITERACIONES QUE
NECESITE...
TODAS LAS
CONVERSACIONES
DE LOS CALL
CENTERS
A MUY BAJO
COSTO RELATIVO
PONIENDONOS
INTELIGENCIA O FUERZA BRUTA?
BRUTA?
EN CONTEXTO
CUIDADO CON
CORRELACION NO SIGNIFICA NECESARIAMENTE CAUSALIDAD
LAS APARIENCIAS
CUIDADO CON
CORRELACION NO SIGNIFICA NECESARIAMENTE CAUSALIDAD
LAS APARIENCIAS
CUIDADO CON
CORRELACION NO SIGNIFICA NECESARIAMENTE CAUSALIDAD
LAS APARIENCIAS
PONIENDONOS
COMPONENTES BSICOS HACE 40 AOS
EN CONTEXTO
CPU
RAM
MEMORIA
Disk
UNIDADES DE
ALMACENAMIENTO
CPU
UNIDADES DE
PROCESAMIENTO
PONIENDONOS
COMPONENTES BSICOS EN LA ACTUALIDAD
EN CONTEXTO
Pero ahora...
en
Masivamente
!!!
Desde
los inicios
deProcesamiento
la informtica un
computador,Paralelo
ya sea personal
o
empresarial est compuesto de 3 componentes principales.
RAM
RAM
MEMORIA
UNIDADES
DE Disk
Disk
ALMACENAMIENTO
Disk
CPU
RAM
CPU
CPU CPU
CPU
UNIDADES
DE
PROCESAMIENTO
RAM
RAM
Disk
CPUCPU
Disk
CPU CPU
RAM
Disk
RAM
Disk
RAM
Disk
CPUCPU
CPU CPU
CPUCPU CPU
Proyecto Durkheim
Craig Venter, Celera Genomics
eBay
Aproximadamente 15 terabytes.
200.000.000 grabaciones por da.
Importaciones masivas (bulk load): 500.000.000 de filas en 30 minutos.
1,2 terabytes importados cada da.
Facebook
Almacenamiento de mensajes y sus ndices.
75.000.000.000 de lecturas/grabaciones por da.
En momentos pico 1.500.000 de operaciones por segundo.
2 petabytes en HBase.
Company Confidential - For Internal Use Only
Copyright 2012, SAS Institute Inc. All rights reserved.
Cien
Bytes en 1 TB
Un billn
Transacciones en 1 TB
4 aos de transacciones
de das hbiles de 8 horas
25
SMS promedio en 1 TB
SISTEMA DE
ARCHIVOS
HDFS
MODELO DE
PROGRAMACION
MAP/REDUCE
(Y OTROS)
Company Confidential - For Internal Use Only
Copyright 2012, SAS Institute Inc. All rights reserved.
UN FILE SYSTEM NO
DETERMINA EL FORMATO DE
LO QUE ALMACENAMOS EN EL
HADOOP/MAP-REDUCE Y ECOSISTEMA
MAP_REDUCE
Grfico tomado
de Oracle
Apache Hive
Apache Pig
Apache HBase
Apache Sqoop
Apache Flume
Apache Mahout
FLUME
Servicio distribuido para mover grandes volmenes de datos en el mismo momento en
el que son generados.
Ideal para capturar logs desde mltiples sistemas e insertarlos en HDFS.
SQOOP
Aplicacin para transferir datos entre RDBMS y HDFS en varios formatos, Hive o HBase.
Algunos conectores: MS SQL Server, MySQL, Oracle, Teradata, Netezza.
PARTE 3
HADOOP VERSION 2
nico Uso
Aplicaciones Batch
Grfico tomado
de Hortonworks
Plataforma multi-propsito
Batch, Interactivo, Online, Streaming
Grfico tomado
de Hortonworks
3 lneas en Spark
SAS EN HADOOP
NECESIDAD A
INTERACCION CON SAS CON HADOOP
RESOLVER
TITULO
HADOOP COMO NUEVO ALMACENAMIENTO DE DATOS
SAS SOBRE HADOOP
http://blogs.sas.com/content/sascom/2014/10/13/adopting-hadoop-as-a-data-platform/
Company Confidential - For Internal Use Only
Copyright 2012, SAS Institute Inc. All rights reserved.
TITULO
HADOOP COMO INPUT AL DATA WAREHOUSE CORPORATIVO
SAS SOBRE HADOOP
SAS SOBRE
TODAS LAS MODALIDADES
HADOOP
SAS
EJECUCION DE THREADED KERNEL EN LOS APPLIANCES
PROCESAMIENTO
DE BASES DE DATOS Y CLUSTERS HADOOP
EN PARALELO
TK runs on Client (Old)
SAS Server
SAS Server
SAS Procs
SAS Procs
TK
Database
Threaded Kernel
(TK)
Database
Threaded
Process Kernel
(TK)
Database
HPA LASR
Process (TK) EP
Database
EP
HPA LASR
Process
EP
HPA LASR
Process
Database Appliance
EP
Database
Process
Data
Data
Data
HPA
LASR
Data
Data
Data
Data
Data
Data
Data
Data
Data
Data
Data
Data
1A
A
SAS ININ-DATABASE HADOOP COMO REPOSITORIO DE DATOS ANALTICOS
SAS Grid
SAN
SAN
SAN
SAN
Distributed
SAS Data Sets
Hadoop Cluster
/*
Run PIG script
*/
filename cfg "C:\Sample_Data\hadoop_config.xml";
filename pigcode1 "C:\Sample_Data\pig_cd.txt";
proc hadoop options=cfg username="hadoop password="hadoop"
verbose;
pig code=pigcode1 ;
run;
El sgte. script PIG Latin script lee el archivo NYSE_dividendos desde HDFS y lo
agrupa por simbolo. Luego, calcula el promedio de dividendos de cada grupo y
lo almacena en la carpeta HDFS d_promedio_dividendos.
CD NYSE ;
d_dividendos = LOAD 'NYSE_dividendos' as (d_exchange, d_simbolo, d_fecha, d_dividendo_ind);
d_grouped = GROUP d_dividendos BY d_simbolo;
d_promedio = FOREACH d_grouped GENERATE group, AVG(d_dividendos.d_dividendo_ind);
STORE d_promedio INTO 'd_promedio_dividendos';
SAS SOBRE
BENEFICIOS
HADOOP
Beneficios
Sustanciales ahorros de costos de
almacenamiento
Mejora de performance
Sin lmite en el ancho de las tablas
soportadas (>2000 variables)
Optimizacin del costo de
proteccin de datos mediante la
replicacin HDFS
Company Confidential - For Internal Use Only
Copyright 2012, SAS Institute Inc. All rights reserved.
SAS ININ-DATABASE
MODALIDAD
SAS
NATIVA
DBMS
MODALIDAD
SAS
IN-DATABASE
Data
DBMS
Data
SAS
SAS
SAS In-Database
Transformaciones de SAS Data Integration
Reportes basados en queries SQL
Lenguaje DS2
SAS Scoring Accelerator
SAS Data Quality Accelerator
1A
A
SAS Grid
SAN
SAN
SAN
Distributed
SAS Data Sets
SAN
EP
Hadoop Cluster
FACILITANDO
SAS DATA LOADER FOR HADOOP
HADOOP
Business Users / Analysts
Preparacin y
Calidad de Datos
Exploracin, Visualizacin
y Analtica Avanzada
SAS Visual
Analytics / Statistics
SAS LASR
ANALYTIC
SERVER
MENU PRINCIPAL
Autoservicio de
datos para los
usuarios
Sin necesidad
de codificacin
o scripting
Sin necesidad de
conocimientos
especializados en
Hadoop
Company Confidential - For Internal Use Only
Copyright 2012, SAS Institute Inc. All rights reserved.
SAS ININ-DATABASE
BENEFICIOS
SOBRE HADOOP
Beneficios
Grandes mejoras de performance
Gran crecimiento del poder de
cmputo basado en el
procesamiento en paralelo de
Hadoop
Significativa reduccin del
movimiento de datos
SOLUCIONES
ANALTICAS
DIFERENCIADORES DE LOS
PRODUCTOS SAS:
PODER DE ANLISIS
INTERCATIVIDAD / CONCURRENCIA
DE MLTIPLES USUARIOS
FLEXIBILIDAD / FACILIDAD DE USO
Poder de Anlisis
PROCESAMIENTO
EN PARALELO
EN MEMORIA
MODULOS SAS
HIGH PERFORMANCE
High Perf.
Statistics
High Perf.
Data Mining
Batch
LASR SERVER
Visual
Statistics
IMSTAT for
Hadoop*
Visual
Analytics
Interactivo
Interactividad / Concurrencia de
Mltiples Usuarios
1A
A
SAS Grid
SAN
SAN
SAN
SAN
Distributed
SAS Data Sets
HPA
Hadoop Cluster
Sample
Explore
Modify
Model
Assess
1A
A
CASO DE USO
Modelo de
propnsin a
compra en cadena
de hoteles;
Regresin logstica;
20 horas vs 20
minutos;
a igual inversin
- VISUAL ANALYTICS
- VISUAL STATISTICS
- IN-MEMORY STATISTICS FOR HADOOP
...TODOS BASADOS EN LASR SERVER
Company Confidential - For Internal Use Only
Copyright 2012, SAS Institute Inc. All rights reserved.
SOLUCIONES
ANALTICAS
DIFERENCIADORES DE LOS
PRODUCTOS SAS:
PODER DE ANLISIS
INTERCATIVIDAD / CONCURRENCIA
DE MLTIPLES USUARIOS
FLEXIBILIDAD / FACILIDAD DE USO
Poder de Anlisis
PROCESAMIENTO
EN PARALELO
EN MEMORIA
MODULOS SAS
HIGH PERFORMANCE
High Perf.
Statistics
High Perf.
Data Mining
Batch
LASR SERVER
Visual
Statistics
IMSTAT for
Hadoop*
Visual
Analytics
Interactivo
Interactividad / Concurrencia de
Mltiples Usuarios
1A
A
SAS Grid
SAN
SAN
SAN
SAN
Distributed
SAS Data Sets
LASR
Hadoop Cluster
GUI
GUI
PROGRAMMING
Visual
Analytics
Visual
Statistics
IMSTAT for
Hadoop**
Hadoop
Data
Manipulation
Exploration/
Visualization
Modeling
Deployment
DATA BUILDER
Operaciones
relacionales desde
diversas fuentes
Creacin de columnas
calculadas
Carga de datos
Integration
ADMINISTRATOR
Role-based Views
EXPLORER
DESIGNER
MOBILE BI
Descubrimiento de
patrones y anlisis de
datos
Analtica avanzada
Creacin de reports
del tipo tablero de
control para
visualizarlos en la
Web o en dispositivos
mviles
SAS VISUAL
ALGUNAS DE LAS MEJORAS DE LA VERSION 7.1
ANALYTICS
Anlisis de Recorridos
Para analizar el flujo de navegacin de los usuarios sobre los sitios Web.
Anlisis de Sentimientos
Sentimiento de los usuarios sobre temas especficos o documentos enteros.
Carga en paralelo
Desde Cloudera Impala, SAP HANA, Teradata, Greenplum and Oracle.
SAS VISUAL
ESTADSTICA Y MINERA DE DATOS AVANZADA
STATISTICS
Funcionalidades principales
Mltiples usuarios concurrentes sobre copia nica de los datos.
Estadstica clsica: Regresiones multiples, Regresin logstica, Anlisis de varianza, Modelo
lineal generalizado, Clustering.
Estadstica moderna / Machine learning (rboles de decisin, Random forest, Clasificadores
de Bayes ingenuos).
Procesamiento GROUP BY en paralelo.
Descubrimiento visual de puntos crticos como outliers y puntos de influencia.
Company Confidential - For Internal Use Only
Copyright 2012, SAS Institute Inc. All rights reserved.
SAS ININ-MEMORY
ACCESO PROGRAMTICO
STATISTICS
A TODA LA FUNCIONALIDAD DEL LASR SERVER
FOR HADOOP
SAS Server
~ BASE, ODS, Access to Hadoop ,LASR
12 bytes (IMSTAT, RECOMMEND Etc..)
SAS ININ-MEMORY
STATISTICS
FOR HADOOP
Predictive Modeling
Data Manipulation
DECISIONTREE
FORECAST
GENMODEL
GLM
RANDOMWOODS
ASSESSMENT
Descriptive Modeling
Data Exploration/
Visualization
BOXPLOT
CORR
CROSSTAB
CONTOURPLOT
DISTRIBUTIONINFO
FREQUENCY
HISTOGRAM
KDE
REPLAY
SUMMARY
CLUSTER
CLUSTER TF-IDF
ASSOCIATIONS
SVD
Miscellaneous
EXTERNAL (C API)
FREE
SAVE
STORE
Recommender
CLUSTER
KNN
ASSOCIATIONS
SVD
Text Analytics
PARSING
SVD
Deployment
SCORE
Beneficios
Incremento masivo de la
performance
Simplificacin de la administracin
de recursos
Optimizacin del movimiento de
datos mediante gran paralelismo
Adaptado para desarrollar / ejecutar
todo tipo de modelos analticos
www.SAS.com
SAS LASR
DENTRO DE LOS SERVIDORES DEL LASR SERVER
ANALYTIC SERVER
FEATURE
CANTIDAD
PROCESADORES
2 x Intel E5-2665
(Total 16 cores)
RAM
256 GB
DISCO
3 x 1TB 7.2K
SAS HDDs
3 aos 7 x 24
PRECIO DE
REFERENCIA
U$S 14K
BIG DATA
LE PROPONEMOS COMENZAR...
SAS SOBRE HADOOP
www.SAS.com