Introduccion Big Data - 2021

INTRODUCCION AL BIG DATA
Oscar Ayala
Data Scientist
Nombre
Carrera
Cargo
Experiencia con Data
Big Data?
• Big Data ya no es una promesa ni una
tendencia. Big Data está aquí y está
provocando cambios profundos en
diversas industrias. Desde el punto de
vista tecnológico ya existen sectores
empresariales que han adoptado de
forma masiva proyectos y productos: Y
el sector financiero es uno de ellos.
• El análisis de todos los datos

disponibles está convirtiéndose en un
elemento de disrupción.
• Diferente data en el mundo
smart
1990 2000 2010 2020

• Así como internet es un factor de
desintermediación que está afectando a
muchas cadenas de valor, el análisis de
información en grandes volúmenes, de
diversas fuentes, a gran velocidad y con
una flexibilidad sin precedentes puede
suponer un factor diferencial para
aquellos que decidan adoptarlo.
MOTIVACION: CASO DE ESTUDIO – El caso de las FinTech
• El uso cada vez más intensivo de las TI en la vida cotidiana y en el desarrollo de negocios (y principalmente en la
industria financiera) ha llevado a la generación de industrias hibridas para acomodarse a las nuevas tendencias
mundiales.
• Las FinTech son el resultado de esta adaptación sisttémica.
• Por ejemplo, no es sorprendente que

el mecanismo de pago para el sector
retail se este modificando. Estamos en
la era de los: Mobile Wallets, P2P
Mobile Payments, Real-time payment
y de los Digital Currency Solutions.
EL BIG DATA en el MUNDO
• Las regiones con mayor uso , y generación, de la masificación de

datos son América del Norte y Europa (ambos suman el 60%).
Mientras que las regiones menos integradas con este fenómeno son
Oriente Medio y Afríca seguidos por América Latina.
• Si abrimos esta vista por sector economico que utiliza la información

y datos masivos. Vemós que, por su naturaleza, las referidas a las TI’s
son los principales usuarios, seguidos por la Dirección Ejecutiva. Y
rezagados el sector de gestión financiera (el cual se encuentra en
tendencia creciente en los últimos años).
Fuente: Big Data @ Work Survey, llevado a cabo por IBM a mediados de 2012 con 1.144 profesionales
procedentes de 95 países y 26 sectores
¿QUÉ ES EL BIG DATA?
“Big Data are high‐volume, high-velocity, and/or

high-variety information assets that require new
forms of processing to enable enhanced decision
making, insight discovery and process optimization”
(Gartner 2012)c
Data Management Solutions for ANALYTICS?
Quien hace Data Ware House?
¿Cuales son las FUENTES DE DATOS?
DIMENSIONES del Big Data
Volumen
• Enormes volumenes de datos
• Storaged
• Mover data
• Transformar data
Estructurar imagenes
Variedad
• Tipos de datos
• Estructurados
• No estructurados
Velocidad
• Ritmo en que los datos de entrada fluyen desde las diversas fuentes como
procesos de negocio, máquinas y sensores, redes sociales, dispositivos móviles,
etc.
• Flujo de datos masivo y continuo
• Real time
Veracidad
• sesgo, el ruido y la alteración de datos.
• los datos que se almacenan y extraen son directamente relacionados y
significativos al problema que se trata de analiza
Validez
• Los datos tienen validez
• Son robustos
• Data cleaning
Valor
• El valor del negocio
• Genera rentabilidad
• Mueve KPI’S
• Volumen
• Variedad
• Velocidad
•
•
•
Veracidad
Validez
Valor V’ig Data
FUENTES del Big Data
LAS PRIMERAS INICIATIVAS DE BIG DATA

SE CENTRAN EN OBTENER
CONOCIMIENTOS DE FUENTES DE DATOS
INTERNAS NUEVAS O YA EXISTENTES.
La mayor parte de los esfuerzos de big data están dirigidos a

extraer y analizar datos internos. Según nuestra encuesta, más
de la mitad de los encuestados afirmaron que la fuente
principal de big data en sus empresas eran los datos internos.
Esto sugiere que las empresas están siendo pragmáticas al

adoptar big data y también que existe un tremendo valor
por descubrir escondido en esos sistemas internos
TIPOS DE DATOS del Big Data
La visión clásica de la
tipificación de los datos; nos
dice que existen los datos
estructurados (modelo de datos
definido) y no estructurados
(no tienen modelo de datos
definido)
No obstante, la gran
cantidad y aumento de
información, ha hecho
que se hable de los
datos
semiestructurados.
Presentan una
caracteristica entidad –
relación semi definida.
Tal y como cabía esperar, los
datos internos son los datos más
desarrollados y mejor entendidos
de las empresas.
Estos se han recabado, integrado,
estructurado y normalizado a lo
largo de años de planificación de
recursos empresariales, gestión
de datos maestros, business
intelligence y otras
actividades relacionadas.
No obstante, big data no crea valor

hasta que se utiliza para superar
importantes retos empresariales.
Esto requiere un acceso a más tipos
de datos diferentes entre sí, así
como sólidas funcionalidades
analíticas que incluyen tanto
herramientas de software como las
habilidades necesarias para
utilizarlas.
FUNCIONALIDADES del Big Data
• Un análisis de aquellas empresas inmersas en
actividades de big data revela que comienzan con un
sólido núcleo de funcionalidades analíticas diseñadas
para abordar datos estructurados.
• A continuación, añaden capacidades para aprovechar

la enorme cantidad de datos que llegan a la empresa,
tanto datos semiestructurados (datos que se pueden
convertir a formatos de datos estándar) y no
estructurados (datos en formatos no estándar).
La necesidad de funciones de visualización de datos más

avanzadas aumenta con la introducción de big data. A
menudo los conjuntos de datos son demasiado grandes
para que las empresas o los analistas de datos puedan
visualizarlos y analizarlos con las herramientas
tradicionales de generación de informes y extracción de
datos.
MODELO DE SALUD
Saludable Moderado Salud_AltoRiesgo Total
Sin Riesgo 67,1% 16,8% 0,3% 84%

Mod_Compl 2,5% 6,3% 0,8% 10%
MODELO
COMPLICACIO 0,6% 1,6% 2,0% 4%
Alta_Compl
N COVID
Severo_Compli 0,1% 0,4% 1,5% 2%
Total 70% 25% 5% 100%
SECTORES ECONOMICOS y Big Data
ARQUITECTURA en Big Data
ARQUITECTURA en Big Data
ANALYTICS y el Big Data
LAS SOLUCIONES ANALÍTICAS CONTRIBUYEN A UNA MAYOR CONFIANZA EN LA TOMA DE

DECISIONES, A TRAVÉS DE LA IMPLEMENTACIÓN DE MODELOS DE ANÁLISIS QUE DIFUNDEN BUENAS
PRÁCTICAS Y AUMENTAN LOS ESTÁNDARES DE GESTIÓN.
• La multiplicidad de datos que las organizaciones acumulan en diversos sistemas de información y tecnologías
sobre las diferentes áreas operacionales puede ser, a primera vista, un punto crítico para el negocio. Sin
embargo, toda esta masa de información se presenta como una importante ventaja competitiva para las
empresas que adopten soluciones de Business Intelligence, es decir, sistemas de información analíticos que
recopilan, estructuran y correlacionan datos procedentes de diferentes fuentes, transformándolos en
información de gran valor añadido para la toma de decisiones.
ANALYTICS y el Big Data
Big data es una gran colección de datos

La ciencia de datos o Data Science, es un
procedentes de distintas fuentes y, por lo
campo especializado que combina áreas
regular, no está disponible en formatos de
múltiples como estadísticas, matemáticas,
bases de datos estándar de los que
técnicas de captura de datos, limpieza de
generalmente somos conscientes.
datos, minería y programación para preparar y
alinear grandes datos para un inteligente
Los datos grandes abarcan todos los tipos de
análisis para obtener información.
datos, a saber, información estructurada,
semiestructurada y no estructurada.
Disponibiliza Analiza
DATA MINING & BUSINESS INTELIGENCE del Big Data
CROSS INDUSTRY STANDARD PROCESS FOR DATA MINING –
CRISP -DM
SE TRATA DE UN MODELO DE PROCESO DE MINERÍA DE DATOS QUE
DESCRIBE LOS ENFOQUES COMUNES QUE UTILIZAN LOS EXPERTOS
EN MINERÍA DE DATOS.
Comprensión del negocio

Esta fase inicial se centra en la comprensión de los objetivos y
requisitos del proyecto desde una perspectiva empresarial.
Comprensión de Datos
Esta fase comienza con una colección inicial de datos y procesos
con actividades con el objetivo de familiarizarse con los datos.
Preparación de datos
Esta fase cubre todas las actividades para construir el conjunto de
datos.
Modelado
En esta fase se seleccionan y aplican varias técnicas de modelado y
se calibran los parámetros para obtener óptimos resultados.
Evaluación
En esta etapa en el proyecto ha construido un modelo (o modelos)
que parece tener gran calidad, desde una perspectiva de análisis
de datos.
Despliegue
Esta fase depende de los requerimientos, pudiendo ser simple
como la generación de un reporte o compleja como la
implementación de un proceso de explotación de información que
atraviese a toda la organización.
Determinar os Objetivos del Proyecto

Conocer los antededentes del negocio y objetivos del proyecto.
Evaluar la Situación
Determinar las condiciones iniciales con la que
elproyecta empieza.
Determinar los Objetivos de la Minería de Datos

Conocer el problema en especifico al cual aplicar las técnicas de modelamiento.
Desarrollar el Plan del Proyecto

Conocer el time-to-market del modelo y las especificaciones iniciales para su
desarrollo.
Recolección de Fuentes
Conocer las tablas de las cuales se dispone y el posible uso que pueden tener dentro
del desarrollo del proyecto.
Descripción de los Datos

Conocer la definición FUNCIONAL de los datos, su definición teórica y util.
Exploración de Datos
Generación del Reporte de Exploración: Contienen los descriptivos
de las tablas
Verificación de la Calidad de los Datos

Reporte de Calidad de Datos
Generación de la TABLA UNICA

El proceso anterior del entendimiento de datos permite generar la TU de Datos.
Selección de Datos
Definir reglas para selección de variables. Proceso descriptivo y univariado de datos.
Limpieza de Datos
Imputacion de Missings, outliers, valores atipicos, cotas de datos, etc.
Construcción de Datos
Generación de nuevas variables por concepto de negocio.
Itegración de Datos
Combinación de bases y/o variables (variables convulucionadas)
Seleccionando Técnica Metodologica

Evaluar el método estadístico más adecuado a la naturaleza del problema.
Generación del Diseño de Prueba

Diseñar el proceso de desarrollo del modelo
Construcción del Modelo

Desarrollo del Modelo, Estimación de parámetros, descripción del
modelo.
Desempeño del Modelo

Desempeño del Modelo, revisión de los parametros obtenidos, etc.
Evaluación de Resultados
Evaluación del performance del modelo en una base ajena a a de esarrollo
Revisión del Proceso

Evaluación de los supuestos y metodología utilizada
Determinar los proximos pasos

Evaluación post-validación
Desplieue de Desarrollo
Establecer las reglas de su implementación, usos y limitaciones.
Monitoreo
Evaluación continua del modelo, según necesidad y uso, para determinar posibles
descalibrados, deficiencias o problemas con su desempeño.
Documentación y Reporte Final

Tipos de analytics (Banking)
• Scoring
• De Originacion
• De Comportamiento
• De Cobranzas
• Venta de productos
• X-Sell, Up-sell
• Seguros
• Manejo de portafolios en cada uno de los canales
• Migración de canales
Tipos de analytics (Telcos)
• Scoring Analysis
• Modelos de Churn
• Modelos de Recovery
• Venta de productos
• X-Sell, Up-Sell
• Pricing
• Loyalty
• Segmentación de productos
• Afinidad de tiendas*
Tipos de analytics (Retail)
• Forescasting
• Canasta de Mercado
• Evaluación de productos y categorías
• Pricing
• Conjoin Analysis
• PSM
• Segmentación de clientes
• Afinidad de productos
• Faltantes en Góndola
Mejorar las Capacidades Analíticas
Entender la capacidad analíticas de la tecnología y combinarlas con las capacidades tecnologías a fin de encontrar la mejor respuesta al
analitycs
Model-Driven Discovery-Driven
• Top-down approach; • Bottom-up Approach
• start from hypothesis; • start with a question and/or dataset;
• evaluated based on statistical evidence. • discover patterns and relationships and
generalise to a hypothesis.
Typically as deductive reasoning Typically as inductive reasoning
Provide hypothesis to
Theory validate and model
Speed is of the essence to
sort the wheat from the
Theory chaff
Lots of qualified new
hypothesis from
discovery
Hypothesis
Hypothesis Apply cutting-edge
techniques to detect truly
new patterns
Ability to turn into
validated and
consumable models, Observation
with the appropriate
rigor Pattern
From lots of new,

Confirmation unqualified and
Operationalized unknown data
Translate into actions models lead to new Observation

to achieve outcome observations
PROOF FOCUSED
INNOVATION FOCUSED
ANALYTICS en Big Data
Preguntas Ad-hoc
Modelación
Fases del Proyecto
Design Analyse Model Test

A. Business Requirement E. Perform data I. Create affinity M. Create pricing
workshops assessment analysis for PoC products
B. Design success criteria F. Perform product J. Create demand N. Assess business

analyses models impact
C. Design PoC test G. Select Categories, K. Validate the O. Review results

Products affinities Report of
Product List
results
assessment
D. Review design with H. Prepare data for L. Validate the P. Store test
Business modelling demand models
Pilot Models Presentation
Design
Document Of pilot project
results
3
2
1
DATA MINING & BUSINESS INTELIGENCE Caso Práctico
MODELO RIESGO CREDITO: DATOS ESTRUCTURDOS Y NO ESTRUCTURADOS
• Mediante un caso de estudio, utilizaremos la metodologia CRISP-DM para evaluar un problema de riesgo de
crédito (determinar si un cliente es bueno o malo); bajo dos enfoques:
1. Mediante técnicas clásicas de Mineria de Datos: Utilizaremos una

regresión logística y un árbol de clasificación. Seguiremos los pasos
genericos para un proyecto de datos: Exploración de los datos,
limpieza y reduccion; modelamiento y puesta enproducción. Los
datos del ejercicio se detallan en el cuadro de a lado.
• Codigo Exploracion: Credit_Scoring_Pre_Procesing.R

• Modelo Logístico: Logistic_Reg_Credit_Scoring.R
• Arbol de Clasificacion: Decision_Tree_Credit_Scoring.R
• Base de Datos: CreditScoring.txt
2. ADICIONAL, realizaremos un modelo de datos utilizando información

no estructurada. Utilizaremos los principios del text mining; para
analizar el sentimiento de las personas mediante sus publicaciones
en Twitter o Facebook.
PLATAFORMAS TECNOLOGICAS del Big Data
Gartner 2016 Magic Quadrant for BI
and Analytics
• Tareas tradicionales en base al

Analytics y visualización de datos,
siguen siendo liderados por softwares
como Tableau, Qlik y Microsoft (Excel
principalmente).
• Por otro lado, su baja complitud de

vision y la habilidad para su uso hace
que softwares como Pyramid
Analytics, Datawatch sean los menos
rankeados para estas actividades.
Gartner 2016 Magic Quadrant for
Advanced Analytics
• El cuadrante anterior, nos mostraba la

proyección de los software en
Analytics para tareas recurentes
(comunes) usadas en el analytics y el
BI.
• Si tomamos como vista y

consideramos a aquellos programas
utiles para analitica avanzada. SAS es
indiscutiblemente la herramienta de
preferencia por las empresas que
utilizan el analytics y big data como
factor diferenciante.
• SAS ofrece una alta gama de

soluciones especializadas para cada
tipo de problema encontrado en la
realización de proyectos de analytics.
Herramientas de la modelación de datos
• Ofrece productos código abierto para comunidades

• Ofrece un opción de servidor y permite conectarse a
distintas fuentes de datos.
• Ventajas
• Solida
• Funciones innovadores
• Integración con Hadoop para mejorar el ambiente de Big Data
• Alto reconocimiento de fácil uso
• Gran cantidad de productos

• Mas amplia en cuanto funcionalidad analica
• Avances en visual analytics y visual statistics
• Sas Factory Miner
• Ventajas
• Buen manejo de aplicaciones atravez de todos sus productos
• Aprendizaje automático a gran escala
• Las grandes empresas confían en el soporte y análisis de datos
por parte de SAS
• Spss y Spss Modeler
• Ventajas
• Alto reconocimiento
• Watson Analytics
• SPSS fácil manejo (gran base de clientes)
• Se complementa con lenguaje R Phyton y SPARK
• SPSS Modeler fácil uso de aplicación de modelos
• Plataforma Open Source

• Local o nube
• Conexión a base de datos
• Ventajas
• Flexibilidad para integrar con otras herramientas
• Código abierto
• Comunidad de personas
Visualización
• Que es la visualización
• Características
• Métodos
• Herramientas
Herramientas para la visualización de datos
• Conexión a base de datos
• Ventajas
• Flexibilidad de usuarios
• Manejo analítico
• Conexión con Google Maps
Pasos en el Análisis
• Descripción
• Que es
• Variables
• Medidas
• Cuantificar
• Calcular
• Agregar
• Correlación
• Que tipo de relación

• Correlaciones
• Tipos de variables
• Correlación
• Variables Continuas (Pearson)

• Variables discretas (Chi Cuadrado)
• Variables Mixtas (Anova)
• Recodificar
• Partes iguales
• Por negocio
• Por Algoritmo
• Impacto de las variabes
• Information Value
• WOE
• Impacto de las variables

• Selección variables
• Calcular variables
• Seleccionar variables
• Impacto de las variables
• Recodificar variables
• Modelo las variables
• Aplicación del modelo

• Que algoritmo
• Performance del modelo
KDnuggets Analytics / Data • Muchas veces, el precio, la dificultad

de programación, el soporto; o
Science 2016. Software Pool simplemente la comodidad. Ha hecho
(Top 10 Tools) que las herramientas “sofisticadas”
para analitica avanzada; no sean las
preferidas por los DSc. De “a pie”.
• Websites, como Kdnuggets, muestran

preferencias de software (principalmente de
licencias libre) preferidas para el analytics.
• Vemos que esta lista está, en resumen,

liderada por los ya clásicos y conocidos
lenguajes de progamación: R y Python.
• Ambos programas ampliamente difundidos y

desarrollados son una opción a los softwares
más costosos.
FASES DE ADOPTCION del Big Data
1. Educar: En la fase de educación la atención se centra en la concienciación y el desarrollo del conocimiento.

Como resultado de ello, los directivos empresariales aún no han comprendido totalmente ni abrazado el
potencial de big data.
2. Explorar: En esta fase la atención se centra en desarrollar la hoja de ruta de la empresa para el desarrollo de
big data.
FASES DE ADOPTCION del Big Data
1. Educar: En la fase de educación la atención se centra en la concienciación y el desarrollo del conocimiento.
Como resultado de ello, los directivos empresariales aún no han comprendido totalmente ni abrazado el
potencial de big data.
2. Explorar: En esta fase la atención se centra en desarrollar la hoja de ruta de la empresa para el desarrollo de
big data.
3. Interactuar: En la fase de la interactuación las empresas comienzan a comprobar el valor de negocio de big
data, así como a llevar a cabo una valoración de sus tecnologías y habilidades.
4. Ejecutar: En la fase de ejecución, el nivel de operatividad e implementación de las funciones analíticas y de big
data es mayor dentro de la empresa
DESAFIOS del Big Data
DESAFIOS del Big Data
DESAFIOS del Big Data: GOBIERNO Y ESTRATEGIA
DESAFIOS del Big Data: PERSONAS
• Muchas veces, el precio, la dificultad de programación, el soporto; o simplemente la comodidad. Ha hecho que las
herramientas “sofisticadas” para analitica avanzada; no sean las preferidas por los DSc. De “a pie”.
SUPPLY AND DEMAND OF DATA SCIENTIST IN THE UNITED STATES (THOUSANDS)

DESAFIOS del Big Data: DATOS
DESAFIOS del
Big Data: DATOS
• Nuevamente, el
aumento de datos no
estructurados;
representa un reto para
todo proyecto en
analytics.
• Pero tambien, quizas

sea de las fuentes de
información más ricas
para su explotación.
• Este uso (de datos

estructurados y no
estructurados) es
diferenciable por tipo
de sector y fines por los
que se utiliza.
MACHINE LEARNING y el Big Data: TIPOS DE APRENDIZAJE
MACHINE LEARNING y el Big Data: TIPOS DE APRENDIZAJE
• Most statistical learning problems fall into
one of two categories: supervised or
unsupervised.
UNSUPERVISED LEARNING: unsupervised

learning describes the somewhat more
challenging situation in which for every
observation i = 1, . . . , n , we observe
a vector of measurements xi but no
associated response yi .
SUPERVISED LEARNING: For each

observation of the predictor
measurement(s) xi , i = 1, . . . , n
there is an associated response
measurement yi .
MACHINE LEARNING y el Big Data: APRENDIZAJE SUPERVISADO
SIMPLE LINEAR REGRESSION lives up to its name: it is a
very straightforward simple linear approach for
predicting a quantitative response Y on the basis of a
single regression predictor variable X.
It assumes that there is approximately a linear

relationship between X and Y . Mathematically, we can
write this linear relationship as
Where:
MACHINE LEARNING y el Big Data: APRENDIZAJE NO SUPERVISADO
WHAT’S A
CLUSTER?
✓ It is a class of techniques used to
classify cases into groups that are
✓ RELATIVELY HOMOGENEOUS
WITHIN THEMSELVES AND
HETEROGENEOUS BETWEEN
EACH OTHER
✓ HOMOGENEITY (SIMILARITY)
AND HETEROGENEITY
(DISSIMILARITY) ARE
MEASURED ON THE BASIS OF A
DEFINED SET OF VARIABLES
✓ These groups are called clusters
MACHINE LEARNING y el Big Data: APRENDIZAJE NO SUPERVISADO
• In a HIERARCHICAL classification
the data are not partitioned into a
particular number of classes or
clusters at a single step. Instead the
classification consists of a series of
partitions, which may run from a
single cluster containing all
individuals, to n clusters each
containing a single individual.
• The NON-HIERARCHICAL
CLUSTERING that we consider
here is a class of clustering
techniques which produce a
partition of the individuals into
a specified number of groups,
by either minimizing or
maximizing some numerical
criterion.
CLUSTER & SEGMENTATION: AN INTRODUCTION
WORKING WITH R: Iris Data Example
• The IRIS DATASET contains data about sepal
length, sepal width, petal length, and petal
width of flowers of different species. Let us see
what it looks like:
Iris_Data_Example.R
EN RESUMEN…
BIBLIOGRAFIA(*):
① Baesens, B. (2014). Analytics in a big data world: The essential guide to data science and its applications.
Hoboken, NJ: Wiley.
② James, G., Witten, D., Hastie, T., & Tibshirani, R. (2015). An introduction to statistical learning: With
applications in R (1st ed.). New York: Springer.
③ Liebowitz, J. (2013). Big data and business analytics. Boca Raton, FL: CRC Press.
④ Marr, B. (2016). Big data in practice: How 45 successful companies used big data analytics to deliver
extraordinary. Chischester (GB, NY: Wiley.
⑤ Mayer-Schönberger, V., & Cukier, K. (2014). Big data: A revolution that will transform how we live, work,
and think. Boston [u.a., NY: Mariner Books.
⑥ Siegel, E. (2016). Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die, Revised and
Updated.
(*) El contenido de esta presentación esta basado enteramente en la bibliografía mencionada. Y el contenido del mismo, es propiedad
intelectual de los autores.
ANEXO I
COMPLEJIDAD de un Modelo
No lo suficientemente
complejo
Over-Fitting: Es lo opuesto al under-
fitting, y consiste en ajustar demasiado
a los datos. Su problema radica en que
pierde capacidad predictiva cuando es
aplicado sobre otra base de datos.
Demasiado
Complejo
Under-Fitting: Una de las desventajas del uso de

modelos simples es que muchas veces no ajustan bien
a los datos. No confundir con el concepto de
“parsimonia”.
ANEXO II
ARBOLES DE CLASIFICACION Principios
Training Data
1.0
0.9
0.8
0.7
0.6
x2 0.5
0.4
EJEMPLO: Buscamos predecir cada punto de
color para cada X1 y X2. 0.3
0.2
0.1
0.0
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
x1
...
ANEXO II
root node
1.0
x2
<0.63 ≥0.63 0.9
0.8
interior node 0.7

x1 x1 0.6
<0.52 ≥0.52 <0.51 ≥0.51 x2 0.5
0.4
0.3
70% 0.2
40% 0.1
leaf node 55%
0.0
60%
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
x1
...
ANEXO II
Predict:
root node
1.0
x2
<0.63 ≥0.63 0.9
0.8
interior node 0.7

x1 x1 0.6
<0.52 ≥0.52 <0.51 ≥0.51 x2 0.5
0.4
0.3
70% 0.2
40% 0.1
leaf node 55%
0.0
60%
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
x1
...
ANEXO II
Decision =
Predict:
Estimate = 0.70
1.0
x2
<0.63 ≥0.63 0.9
0.8
0.7
x1 x1 0.6
<0.52 ≥0.52 <0.51 ≥0.51 x2 0.5
0.4
0.3
70% 0.2
40% 0.1
55%
0.0
60%
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
x1
...
ANEXO III
Regresión
Regresión
• Modelo
• Variable Independiente
• Variables dependiente
• Correlación
• Predicción
ANEXO III
Regresión
ANEXO III
Regresión
ANEXO IV
Redes Neuronales
• Entrada
• Entrenamiento
ANEXO IV
SVM
• Algoritmo
• Clasificación
ANEXO V
Naive Bayes
• Probabilidad apriori
• Probabilidad posteriori

Introduccion Big Data - 2021

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Introduccion Big Data - 2021

Cargado por

Copyright:

Formatos disponibles

INTRODUCCION AL BIG DATA

• El análisis de todos los datos

1990 2000 2010 2020

• Por ejemplo, no es sorprendente que

• Las regiones con mayor uso , y generación, de la masificación de

• Si abrimos esta vista por sector economico que utiliza la información

“Big Data are high‐volume, high-velocity, and/or

LAS PRIMERAS INICIATIVAS DE BIG DATA

La mayor parte de los esfuerzos de big data están dirigidos a

Esto sugiere que las empresas están siendo pragmáticas al

No obstante, big data no crea valor

• A continuación, añaden capacidades para aprovechar

La necesidad de funciones de visualización de datos más

Sin Riesgo 67,1% 16,8% 0,3% 84%

LAS SOLUCIONES ANALÍTICAS CONTRIBUYEN A UNA MAYOR CONFIANZA EN LA TOMA DE

Big data es una gran colección de datos

Comprensión del negocio

Determinar os Objetivos del Proyecto

Determinar los Objetivos de la Minería de Datos

Desarrollar el Plan del Proyecto

Descripción de los Datos

Verificación de la Calidad de los Datos

Generación de la TABLA UNICA

Seleccionando Técnica Metodologica

Generación del Diseño de Prueba

Construcción del Modelo

Desempeño del Modelo

Revisión del Proceso

Determinar los proximos pasos

Documentación y Reporte Final

Typically as deductive reasoning Typically as inductive reasoning

From lots of new,

Translate into actions models lead to new Observation

Design Analyse Model Test

B. Design success criteria F. Perform product J. Create demand N. Assess business

C. Design PoC test G. Select Categories, K. Validate the O. Review results

1. Mediante técnicas clásicas de Mineria de Datos: Utilizaremos una

• Codigo Exploracion: Credit_Scoring_Pre_Procesing.R

2. ADICIONAL, realizaremos un modelo de datos utilizando información

• Tareas tradicionales en base al

• Por otro lado, su baja complitud de

• El cuadrante anterior, nos mostraba la

• Si tomamos como vista y

• SAS ofrece una alta gama de

• Ofrece productos código abierto para comunidades

• Gran cantidad de productos

• Spss y Spss Modeler

• Plataforma Open Source

• Conexión a base de datos

• Que tipo de relación

• Variables Continuas (Pearson)

• Impacto de las variabes

• Impacto de las variables

• Modelo las variables

• Aplicación del modelo

KDnuggets Analytics / Data • Muchas veces, el precio, la dificultad

• Websites, como Kdnuggets, muestran

• Vemos que esta lista está, en resumen,

• Ambos programas ampliamente difundidos y

1. Educar: En la fase de educación la atención se centra en la concienciación y el desarrollo del conocimiento.

SUPPLY AND DEMAND OF DATA SCIENTIST IN THE UNITED STATES (THOUSANDS)

• Pero tambien, quizas