Está en la página 1de 65

SAS FORUM ARGENTINA

15 DE MAYO 2014

¿QUE ES BIG DATA ANALYTICS?


IMPORTANCIA E IMPACTO
SAS SOBRE HADOOP

Sergio Uassouf
Líder de Práctica de
Gestión de Información e Infraestructura
Company Confidential - For Internal Use Only
Copyright © 2012, SAS Institute Inc. All rights reserved. v1.0 20140514
BIG DATA ¿MODA O REALIDAD PERDURABLE?

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved.
FALSO DILEMA
¿QUE PREFIERE?
¿NEGOCIOS O TI?

 ¿Un negocio que no tenga


soporte tecnológico?

 ¿O una tecnología que no sirva


para generar negocios?

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved.
PONIENDONOS
¿INTELIGENCIA O FUERZA BRUTA?
EN CONTEXTO

 Todos los modelos son incorrectos, pero algunos


son útiles (George Box, estadístico, 18 de Octubre
de 1919 – 28 de Marzo de 2013).

 Todos los modelos son incorrectos, y cada vez más


podemos tener éxito sin ellos (Peter Norvig, director
de investigación de Google, 14 de Diciembre de
1956).

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved.
PONIENDONOS
HITOS IMPORTANTES DE LA INFORMATICA
EN CONTEXTO

 La multiprogramación y el spool de impresoras.


 Los monitores de transacciones y el procesamiento online.
 Las bases de datos relacionales.
 La programación orientada a objetos.
 Una computadora en cada escritorio.
 El protocolo IP = Internet.
 El protocolo XML = HTML = World Wide Web.
 Google.
 ¿Big Data?.
He buscado adjetivos que no resulten ofensivos,
pero no los encontré.

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved.
PONIENDONOS
COMPONENTES BÁSICOS HACE 40 AÑOS
EN CONTEXTO

 Desde los inicios de la informática un computador, ya sea personal o


empresarial está compuesto de 3 componentes principales.

RAM MEMORIA

UNIDADES DE
Disk
ALMACENAMIENTO

CPU CPU
UNIDADES DE
PROCESAMIENTO

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved.
PONIENDONOS
COMPONENTES BÁSICOS EN LA ACTUALIDAD
EN CONTEXTO

 Pero ahora...
Desde en ¡¡¡
los inicios deProcesamiento Masivamente
la informática un computador,Paralelo !!!
ya sea personal o
empresarial está compuesto de 3 componentes principales.

RAM RAM
MEMORIA RAM
RAM
RAM
RAM
RAM RAM
Disk UNIDADES
Disk DE Disk Disk Disk Disk Disk Disk

ALMACENAMIENTO
CPUCPU
CPU CPU
CPU CPU CPUCPU CPU
CPU CPU CPUCPU
CPU CPU UNIDADES
CPU DE
PROCESAMIENTO

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved.
HADOOP CASOS DE USO

 Proyecto Durkheim
 Craig Venter, Celera Genomics
 eBay
 Aproximadamente 15 terabytes.
 200.000.000 grabaciones por día.
 Importaciones masivas (bulk load): 500.000.000 de filas en 30 minutos.
 1,2 terabytes importados cada día.

 Facebook
 Almacenamiento de mensajes y sus índices.
 75.000.000.000 de lecturas/grabaciones por día.
 En momentos pico 1.500.000 de operaciones por segundo.
 2 petabytes en HBase.
Company Confidential - For Internal Use Only
Copyright © 2012, SAS Institute Inc. All rights reserved.
HADOOP CASOS DE USO

 Proyecto Durkheim (... o La vida es bella)


 Craig Venter, Celera Genomics (... ACGT, Anibal Troilo / Carlos Gardel)
 eBay
 Aproximadamente 15 terabytes.
 200.000.000 grabaciones por día.
 Importaciones masivas (bulk load): 500.000.000 de filas en 30 minutos.
 1,2 terabytes importados cada día.

 Facebook
 Almacenamiento de mensajes y sus índices.
 75.000.000.000 de lecturas/grabaciones por día.
 En momentos pico 1.500.000 de operaciones por segundo.
 2 petabytes en HBase.
Company Confidential - For Internal Use Only
Copyright © 2012, SAS Institute Inc. All rights reserved.
HADOOP TAMAÑOS EN PERSPECTIVA

TRANSACCIONES BANCARIAS
Bytes / Transacción Cien
Bytes en 1 TB Un billón
Transacciones en 1 TB Diez mil millones
4 años de transacciones
A 300 Txs / Segundo
de días hábiles de 8 horas

- Cm ands? SHORT MESSAGES SERVICES


- Pr l ojt Tamaño máximo Ciento sesenta caracteres
Tamaño promedio 25
SMS promedio en 1 TB Cuarenta mil millones

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved.
HADOOP “ECOSISTEMA” HADOOP (COMPONENTES)

SISTEMA DE
ARCHIVOS
HDFS

MODELO DE
PROGRAMACION
MAP/REDUCE
(Y OTROS)

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved.
AMO LA POESIA
HADOOP PERO NO PARA LA TECNOLOGÍA.
SI DE PARADIGMAS LE ESTAN HABLANDO,
ES MUY PROBABLE QUE LO ESTEN VERSEANDO

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved.
BIG DATA RELACION ENTRE HADOOP Y BIG DATA

 Entonces Big Data...


 Significa Procesamiento Masivamente Paralelo (MPP)...
 ¿Big Data necesariamente es Hadoop?.
 ¿Big Data es necesariamente HDFS?
 ¿Big Data es necesariamente MapReduce?

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved.
HADOOP PREMISAS FUNDAMENTALES DE DISEÑO

 Concepto central: Distribuir los datos inicialmente a medida que van


siendo almacenados en el sistema.
 Cada nodo trabaja con los datos locales de ese nodo.
 Los datos son replicados múltiples veces en diferentes nodos.
 Los cálculos ocurren donde sea que están almacenados los datos.

 Los nodos intercambian entre ellos la menor cantidad de


información posible.
 Arquitectura “shared nothing”.

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved.
HDFS UN PAR DE ESQUEMAS GRAFICO Y SEGUIMOS...

 Los bloques son replicados en los nodos componentes del cluster.


 Basados en un factor de replicación (por defecto 3).

 La replicación no sólo mejora la disponibilidad, sino la performance.


 Mayores oportunidades para conseguir datos locales.

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved.
HDFS OTRO ESQUEMA GRAFICO

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved.
HDFS MAS PREMISAS DE DISEÑO HADOOP

 Almacenamiento redundante para volúmenes masivos de información,


previendo alta cantidad de fallas de los componentes.
 Utilizando hardware commodity que tienden a fallar frecuentemente.

 Basado en Google File System.


 Diseñado para archivos terabytes o petabytes.

 Enormes flujos de lecturas secuenciales.


 Favorece un throughput muy elevado y sostenido sobre la baja latencia.
 No hay acceso random competitivo contra los métodos tradicionales
(transaccionales). Muchos proyectos en investigación.

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved.
HADOOP/MAP-REDUCE Y ECOSISTEMA

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved.
FALSO DILEMA
¿QUE PREFIERE?
¿NEGOCIOS O TI?

 ¿Un negocio que no tenga


soporte tecnológico?

 ¿O una tecnología que no sirva


para generar negocios?

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved.
BIG DATA
ALMACENAR Y ANALIZAR GRANDES VOLUMENES DE
SAS ON HADOOP
INFORMACION A BAJO COSTO
MPP

 Si puede almacenar mucha más información a un costo


mucho menor...
 Y puede procesarla en un tiempo mucho menor.
 Entonces no necesita armar modelos tomando sólo un
subconjunto de los datos...
 Y puede hacer todas las iteraciones que necesite.

 Entonces puede almacenar y procesar la


información que antes no podía
Company Confidential - For Internal Use Only
Copyright © 2012, SAS Institute Inc. All rights reserved.
NECESIDAD A ALMACENAR Y ANALIZAR GRANDES VOLUMENES DE
RESOLVER INFORMACION A BAJO COSTO

TODOS LOS TODAS LAS TODAS LAS TODAS LAS


CALL DETAIL TRANSACCIONES SECUENCIAS DE CONVERSACIONES
RECORDS SITIOS WEB DE LOS CALL
CENTERS

EJECUTANDO
Y ANALIZARLOS TODAS LAS A MUY BAJO
EN SU TOTALIDAD... ITERACIONES QUE COSTO RELATIVO
NECESITE...

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved.
MAP_REDUCE

Hay 10 tipos
de personas,
las que entienden
los números binarios
y las que no

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved.
MAP_REDUCE PROCESO DE CONTEO DE PALABRAS

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved.
MAP_REDUCE PROCESO DE JOIN SQL

 Apareando la variable 3 del Input A con la variable 1 del Input B...


 Informar la variable 2 del Input A y la variable 4 del input B.

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved.
SOLO PARA ASUSTAR... (DESPUES PASARÁ)
MAP_REDUCE
PROGRAMA MAP REDUCE DE SENTENCIA JOIN SQL

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved.
HADOOP “ECOSISTEMA” HADOOP (COMPONENTES)

SISTEMA DE
ARCHIVOS
HDFS

MODELO DE
PROGRAMACION
MAP/REDUCE
(Y OTROS)

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved.
HADOOP-HIVE JAVA MAP_REDUCE VS HIVE

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved.
HADOOP-PIG PRINCIPALES CARACTERÍSTICAS Y SINTAXIS

 Lenguaje de scripting (PigLatin) para acceder a datos en HDFS


 Nacido en Yahoo.
 Se accede desde Hive Shell, como instrucción de programa o herramientas
de terceros (Hue Cloudera).
 Almacena sus metadatos en una base local en el cliente (generalmente
mySQL).
 Sus tablas son directorios de archivos almacenados en HDFS.

stock = LOAD '/user/fred/stock' AS (id, item);


orders= LOAD '/user/fred/orders' AS (id, cost);
grpd = GROUP orders BY id;
totals = FOREACH grpd GENERATE group, SUM(orders.cost) AS t;
result = JOIN stock BY id, totals BY group;
DUMP result;
Company Confidential - For Internal Use Only
Copyright © 2012, SAS Institute Inc. All rights reserved.
HADOOP 2.0 NUEVOS MODELOS DE PROGRAMACION

Gráfico tomado Company Confidential - For Internal Use Only


de Hortonworks Copyright © 2012, SAS Institute Inc. All rights reserved.
SAS EN HADOOP

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved.
NECESIDAD A
INTERACCION CON SAS CON HADOOP
RESOLVER

 Si está planificando o comenzando a utilizar Hadoop

 Si utiliza SAS como plataforma analítica y ahora quiere utilizarla


sobre Hadoop.

 Si quiere utilizar Hadoop y no quiere agregar otra herramienta


analítica más.

 Si quiere hacer análisis de datos en forma simultánea sobre


plataformas RDBMS y Hadoop.

 Si no sabe como analizar los enormes volúmenes de datos que


puede almacenar Hadoop.

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved.
NECESIDAD A ALMACENAR Y ANALIZAR GRANDES VOLUMENES DE
RESOLVER INFORMACION A BAJO COSTO

TODOS LOS TODAS LAS TODAS LAS TODAS LAS


CALL DETAIL TRANSACCIONES SECUENCIAS DE CONVERSACIONES
RECORDS SITIOS WEB DE LOS CALL
CENTERS

EJECUTANDO
Y ANALIZARLOS TODAS LAS A MUY BAJO
EN SU TOTALIDAD... ITERACIONES QUE COSTO RELATIVO
NECESITE...

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved.
SAS SOBRE
TODAS LAS MODALIDADES
HADOOP

 Facilitando la implementación y ejecución de todas las


modalidades.
 En forma progresiva o consolidada.

COMO REPOSITORIO DE
INFORMACION

+ PROCESAMIENTO EN PARALELO
MODALIDAD MAP-REDUCE

+ PROCESAMIENTO EN PARALELO
MODALIDAD IN-MEMORY

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved.
SAS SOBRE HADOOP
COMO REPOSITORIO DE DATOS ANALITICOS

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved.
A
1A
SAS IN-DATABASE HADOOP COMO REPOSITORIO DE DATOS ANALÍTICOS

SAS data sets


SAN SAN

SAS Grid SAN SAN

Distributed
SAS Data Sets
Hadoop Cluster

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved.
SAS SOBRE OPERACIONES HADOOP DESDE PROGRAMAS SAS
HADOOP PIG Y MAP-REDUCE
/*
Run PIG script
*/
filename cfg "C:\Sample_Data\hadoop_config.xml";
filename pigcode1 "C:\Sample_Data\pig_cd.txt";
proc hadoop options=cfg username="hadoop“ password="hadoop"
verbose;
pig code=pigcode1 ;
run;

El sgte. script PIG Latin script lee el archivo NYSE_dividendos desde HDFS y lo
agrupa por ‘simbolo’. Luego, calcula el promedio de dividendos de cada grupo y
lo almacena en la carpeta HDFS d_promedio_dividendos.

CD NYSE ;
d_dividendos = LOAD 'NYSE_dividendos' as (d_exchange, d_simbolo, d_fecha, d_dividendo_ind);
d_grouped = GROUP d_dividendos BY d_simbolo;
d_promedio = FOREACH d_grouped GENERATE group, AVG(d_dividendos.d_dividendo_ind);
STORE d_promedio INTO 'd_promedio_dividendos';

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved.
SAS SOBRE OPERACIONES HADOOP COMO CON CUALQUIER DB
HADOOP HIVE
LIBNAME cdh_hdp HADOOP PORT=10000 SERVER=sascldserv02 user=hadoop password=hadoop ;
/*
Create new table
*/
proc sql;
connect to hadoop(PORT=10000 SERVER=sascldserv02 USER=hadoop PASSWORD="hadoop");
exec( create table cars_prc (make string, model string, msrp double) ) by hadoop;
quit;

/*
Copy from another table
*/
proc sql;
insert into cdh_hdp.cars_prc
select make, model, msrp
from sashelp.cars ;
quit;
/*
List contents
*/
proc sql;
select * from cdh_hdp.cars_prc;
quit;

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved.
SAS SOBRE
BENEFICIOS
HADOOP

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved.
SAS SOBRE
BENEFICIOS
HADOOP

Beneficios

 Sustanciales ahorros de costos de


almacenamiento
 Mejora de performance
 Sin límite en el ancho de las tablas
soportadas (>2000 variables)
 Optimización del costo de
protección de datos mediante la
replicación HDFS

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved.
SAS SOBRE HADOOP
IN-DATABASE

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved.
HADOOP COMO REPOSITORIO
SAS IN-DATABASE
Y PARA PROCESAMIENTO MODALIDAD MAP-REDUCE
MODALIDAD DBMS MODALIDAD DBMS
SAS SAS
NATIVA IN-DATABASE
Data Data

SAS SAS

Modo tradicional de operación SAS SAS In-Database


 Actividades que requieren entorno de ejecución SAS  Transformaciones de SAS Data Integration
 Que no pueden ser ejecutadas mediante SQL  Reportes basados en queries SQL
 Que ejecutan mejor en entornos nativos SAS  Lenguaje DS2
 Soluciones SAS  SAS Scoring Accelerator
 SAS Data Quality Accelerator

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved.
SAS IN-DATABASE HADOOP COMO REPOSITORIO Y PARA PROCESAMIENTO
A
1A
SOBRE HADOOP MODALIDAD MAP-REDUCE

SAS data sets


SAN SAN

SAS Grid SAN SAN

SAS Embedded Process ofrece: Distributed


 SAS Code Accelerator for Hadoop SAS Data Sets
 SAS Data Quality Accelerator for Hadoop EP Hadoop Cluster
 SAS Scoring Accelerator for Hadoop

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved.
SAS IN-DATABASE
BENEFICIOS
SOBRE HADOOP

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved.
SAS IN-DATABASE
BENEFICIOS
SOBRE HADOOP

Beneficios

 Grandes mejoras de performance


 Gran crecimiento del poder de
cómputo basado en el
procesamiento en paralelo de
Hadoop
 Significativa reducción del
movimiento de datos

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved.
SAS SOBRE HADOOP
IN-MEMORY
HIGH-PERFORMANCE ANALYTICS

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved.
SOLUCIONES
ANALÍTICAS

PROCESAMIENTO
EN PARALELO
EN MEMORIA
MODULOS SAS
LASR SERVER
HIGH PERFORMANCE

Poder de Análisis
DIFERENCIADORES DE LOS
PRODUCTOS SAS:
Visual IMSTAT for
High Perf.
 PODER DE ANÁLISIS Statistics Hadoop*
Statistics
 INTERCATIVIDAD / CONCURRENCIA
 DE MÚLTIPLES USUARIOS
 FLEXIBILIDAD / FACILIDAD DE USO High Perf. Visual
Data Mining Analytics

Batch Interactivo

Interactividad / Concurrencia de
Múltiples Usuarios

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved. *SAS® In-Memory Statistics for Hadoop
SAS SOBRE METODOS SAS NATIVOS
A
1A
HADOOP AHORA EJECUTANDO EN MODALIDAD IN-MEMORY

SAS data sets


SAN SAN

SAS Grid SAN SAN

SAS High Performance Analytics ofrece:


 SAS® High-Performance Statistics Distributed
 SAS® High-Performance Data Mining SAS Data Sets
 SAS® High-Performance Text Mining
 SAS® High-Performance Optimization
HPA Hadoop Cluster
 SAS® High-Performance Econometrics
 SAS® High-Performance Forecasting
Company Confidential - For Internal Use Only
Copyright © 2012, SAS Institute Inc. All rights reserved.
SAS SOBRE METODOS SAS NATIVOS
A
1A
HADOOP AHORA EJECUTANDO EN MODALIDAD IN-MEMORY

Sample Explore Modify Model Assess CASO DE USO


SAS data sets
Modelo de
propénsión a
compra en cadena
de hoteles;
Regresión logística;
20 horas vs 20
minutos;
a igual inversión

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved.
SAS SOBRE HADOOP
IN-MEMORY

- VISUAL ANALYTICS
- VISUAL STATISTICS
- IN-MEMORY STATISTICS FOR HADOOP
...TODOS BASADOS EN LASR SERVER

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved.
SOLUCIONES
ANALÍTICAS

PROCESAMIENTO
EN PARALELO
EN MEMORIA
MODULOS SAS
LASR SERVER
HIGH PERFORMANCE

Poder de Análisis
DIFERENCIADORES DE LOS
PRODUCTOS SAS:
Visual IMSTAT for
High Perf.
 PODER DE ANÁLISIS Statistics Hadoop*
Statistics
 INTERCATIVIDAD / CONCURRENCIA
 DE MÚLTIPLES USUARIOS
 FLEXIBILIDAD / FACILIDAD DE USO High Perf. Visual
Data Mining Analytics

Batch Interactivo

Interactividad / Concurrencia de
Múltiples Usuarios

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved. *SAS® In-Memory Statistics for Hadoop
SAS LASR SERVIDOR ANALÍTICO...
ANALYTICS SERVER ¿QUÉ ES UN SERVIDOR ANALÍTICO?

LASR ANALYTICS SERVER

SERVIDOR ANALÍTICO: SUS INSTRUCCIONES EJECUTAN DIRECTAMENTE FUNCIONES ANALITICAS (ACCIONES)

SOBRE TABLAS EN MEMORIA: SASIOLA ENGINE; EN MODALIDAD STATELESS

NOMINA DE ACCIONES
ADDTABLE, ADDTKHPSTABLE, APPENDTABLE, ASSESS, BOXPLOT, CLASSLEVELS, CLUSTER, COLUMNINFO, CONTOURPLOT,
COMPUTEDCOLUMN, CORRELATION, CROSSTAB, DECISIONTREE, DELETEROWS, DIRECTLOAD, DISTINCTCOUNT,
DISTRIBUTIONINFO, DROP, DROPTABLE, EXPORT, EXTERNAL, FETCHROWS, FITMODEL, FORECASTSERIES, FREQUENCY,
GROUPBY, HISTOGRAM, IMPORT, IMPORTCUBE, KERNELDENS, LIFETIME, LISTSORTS, MDSUMMARY, NUMROWS, OPTIMIZE,
PARALLELCOORDINATES, PARTITION, PARTITIONINFO, PERCENTILE, PROMOTE, PSPLINE, PURGETEMPTABLES, RANDOMFOREST,
REALSCATTER, RECOMMEND, REGCORR, REGRESSION, SAVETABLE, SCHEMA, SCORE, SERVERINFO, SERVERPARM,
SERVERVERSION, SETTABLES, SCATTERPLOT, SCATTERPLOTMATRIX, SORTORDER, SUMMARY, TABLEINFO, TERMINATE,
TEXTPARSE, TOPK, UPDATE

 INTERFAZ CLIENTE JAVA: VISUAL ANALYTICS, VISUAL STATISTICS


 INTERFAZ IMSTAT: PROGRAMACION SAS
 INTERFACES PARTICULARES: VASMP, HPAML
 INTERFAZ PROGRAMACION C

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved.
SAS LASR HADOOP COMO REPOSITORIO Y
A
1A
ANALYTICS SERVER PARA PROCESAMIENTO MODALIDAD IN-MEMORY

SAS data sets


SAN SAN

SAS® Grid SAN SAN

SAS LASR Server ofrece: Distributed


 SAS Visual Analytics SAS Data Sets
 SAS Visual Statistics LASR Hadoop Cluster
 SAS In-Memory Statistics for Hadoop

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved.
SAS LASR INTERFACES PARA LAS DIFERENTES NECESIDADES
ANALYTIC SERVER DE LOS DIFERENTES TIPOS DE USUARIOS

BUSINESS ANALYST

STATISTICIAN

DATA SCIENTIST /PROGRAMMER

GUI GUI PROGRAMMING

Visual Visual IMSTAT for


Analytics Statistics Hadoop*

Data Exploration/
Modeling Deployment
Manipulation Visualization

*SAS® In-Memory Statistics for Hadoop


Company Confidential - For Internal Use Only
Copyright © 2012, SAS Institute Inc. All rights reserved.
SAS VISUAL ANALISIS EXPLORATORIOS
ANALYTICS ESTADÍSTICA Y MINERÍA DE DATOS BÁSICAS

Central Entry Point Integration Role-based Views

DATA BUILDER ADMINISTRATOR EXPLORER DESIGNER MOBILE BI



• Operaciones • Monitor SAS LASR
®
• Descubrimiento de • Creación de reports • Aplicaciones para iOS
relacionales desde Analytic server patrones y análisis de del tipo tablero de y Android para
diversas fuentes • Carga y descarga de datos control para visualización
• Creación de columnas datos • Analítica avanzada visualizarlos en la interactive de reportes
calculadas • Administración de Web o en dispositivos
• Carga de datos seguridad móviles

SAS® LASR™ ANALYTIC SERVER

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved.
SAS VISUAL
ESTADÍSTICA Y MINERÍA DE DATOS AVANZADA
STATISTICS

Entorno totalmente interactive para el modelado estadístico en forma visual


 Los modelos estadísticos ejecutan en SAS LASR Server
 Misma interfaz de usuario que Visual Analytics

Funcionalidades principales
 Múltiples usuarios concurrentes sobre copia única de los datos.
 Estadística clásica: Regresiones multiples, Regresión logística, Análisis de varianza, Modelo
lineal generalizado, Clustering.
 Estadística moderna / Machine learning (Árboles de decisión, Random forest, Clasificadores
de Bayes ingenuos).
 Procesamiento GROUP BY en paralelo.
 Descubrimiento visual de puntos críticos como outliers y puntos de influencia.

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved.
SAS IN-MEMORY
ACCESO PROGRAMÁTICO
STATISTICS
A TODA LA FUNCIONALIDAD DEL LASR SERVER
FOR HADOOP

SAS WebOne HTML 5 Modern


SAS Server
Coding Environment
~ BASE, ODS, Access to Hadoop ,LASR LASR Analytic Server
~ Happy Data Scientists & SAS
Analysts
12 bytes (IMSTAT, RECOMMEND Etc..) on Hadoop

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved.
SAS IN-MEMORY
STATISTICS Predictive Modeling
• DECISIONTREE
FOR HADOOP • FORECAST
• GENMODEL
• GLM
Data Manipulation • RANDOMWOODS
• ASSESSMENT
• SAS Data Step Miscellaneous
• BALANCE Descriptive Modeling • EXTERNAL (C API)
• COLUMINFO • CLUSTER • FREE
• COMPUTE Data Exploration/ • CLUSTER TF-IDF • SAVE
• DELETEROWS Visualization • ASSOCIATIONS • STORE
• DISTINCT • BOXPLOT • SVD
• DROPTABLE • CORR Recommender
• FETCH • CROSSTAB • CLUSTER
• GROUPBY • CONTOURPLOT • KNN
• PARTITION • DISTRIBUTIONINFO • ASSOCIATIONS
• PROMOTE • FREQUENCY • SVD
• PURGETEMPTABLES • HISTOGRAM
• Text Analytics
SET • KDE
• PARSING
Deployment
• TABLE • REPLAY
• UPDATE • SUMMARY • SVD • SCORE

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved.
SAS LASR VISUAL ANALYTICS / VISUAL STATISTICS
ANALYTICS SERVER IN-MEMORY STATISTICS FOR HADOOP

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved.
SAS LASR VISUAL ANALYTICS / VISUAL STATISTICS
ANALYTICS SERVER IN-MEMORY STATISTICS FOR HADOOP

Caso Modelo Fraude


Beneficios Alta Complejidad

 Incremento masivo de la
performance
 Simplificación de la administración
de recursos
 Optimización del movimiento de
datos mediante gran paralelismo
 Adaptado para desarrollar / ejecutar
todo tipo de modelos analíticos Clustering + Impacto + Tiempo + Secuencia

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved.
LINEAMIENTOS PARA LA IMPLEMENTACION DE
UN LABORATORIO ANALITICO DE SAS SOBRE HADOOP

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved. www.SAS.com
SAS LASR RELACION LASR SERVER CON
ANALYTIC SERVER LA ARQUITECTURA GENERAL DE SAS

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved.
SAS LASR
DENTRO DE LOS SERVIDORES DEL LASR SERVER
ANALYTIC SERVER

FEATURE CANTIDAD
2 x Intel E5-2665
PROCESADORES
(Total 16 cores)
RAM 256 GB
3 x 1TB 7.2K
DISCO
SAS HDDs
CONEXION A RED 4 X GbE
SOPORTE 3 años 7 x 24
PRECIO DE
U$S 17K
REFERENCIA

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved.
SAS LASR PLAN TENTATIVO DE IMPLEMENTACION
ANALYTIC SERVER DE LABORATORIO ANALÍTICO SAS SOBRE HADOOP

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved.
BIG DATA
LE PROPONEMOS COMENZAR...
SAS SOBRE HADOOP

Big Data / Hadoop:


Nueva tecnología para resolver grandes
problemas de negocio a bajo costo

SAS sobre Hadoop:


SAS adopta esta tecnología en forma integral,
minimizando su dificultad de implementación

SAS le propone comenzar su proyecto de Big


Data y crecer en forma incremental con SAS
sobre Hadoop

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved.
¿COMENZAMOS EL PROYECTO ANALYTICS
SOBRE HADOOP CON SAS?

Company Confidential - For Internal Use Only


Copyright © 2012, SAS Institute Inc. All rights reserved. www.SAS.com

También podría gustarte