Está en la página 1de 112

INTRODUCCION AL BIG DATA

Oscar Ayala
Data Scientist
Nombre
Carrera
Cargo
Experiencia con Data
Big Data?
• Big Data ya no es una promesa ni una
tendencia. Big Data está aquí y está
provocando cambios profundos en
diversas industrias. Desde el punto de
vista tecnológico ya existen sectores
empresariales que han adoptado de
forma masiva proyectos y productos: Y
el sector financiero es uno de ellos.

• El análisis de todos los datos


disponibles está convirtiéndose en un
elemento de disrupción.
• Diferente data en el mundo

smart

1990 2000 2010 2020


• Así como internet es un factor de
desintermediación que está afectando a
muchas cadenas de valor, el análisis de
información en grandes volúmenes, de
diversas fuentes, a gran velocidad y con
una flexibilidad sin precedentes puede
suponer un factor diferencial para
aquellos que decidan adoptarlo.
MOTIVACION: CASO DE ESTUDIO – El caso de las FinTech
• El uso cada vez más intensivo de las TI en la vida cotidiana y en el desarrollo de negocios (y principalmente en la
industria financiera) ha llevado a la generación de industrias hibridas para acomodarse a las nuevas tendencias
mundiales.
• Las FinTech son el resultado de esta adaptación sisttémica.

• Por ejemplo, no es sorprendente que


el mecanismo de pago para el sector
retail se este modificando. Estamos en
la era de los: Mobile Wallets, P2P
Mobile Payments, Real-time payment
y de los Digital Currency Solutions.
MOTIVACION: CASO DE ESTUDIO – El caso de las FinTech
MOTIVACION: CASO DE ESTUDIO – El caso de las FinTech
EL BIG DATA en el MUNDO

• Las regiones con mayor uso , y generación, de la masificación de


datos son América del Norte y Europa (ambos suman el 60%).
Mientras que las regiones menos integradas con este fenómeno son
Oriente Medio y Afríca seguidos por América Latina.

• Si abrimos esta vista por sector economico que utiliza la información


y datos masivos. Vemós que, por su naturaleza, las referidas a las TI’s
son los principales usuarios, seguidos por la Dirección Ejecutiva. Y
rezagados el sector de gestión financiera (el cual se encuentra en
tendencia creciente en los últimos años).

Fuente: Big Data @ Work Survey, llevado a cabo por IBM a mediados de 2012 con 1.144 profesionales
procedentes de 95 países y 26 sectores
¿QUÉ ES EL BIG DATA?

“Big Data are high‐volume, high-velocity, and/or


high-variety information assets that require new
forms of processing to enable enhanced decision
making, insight discovery and process optimization”
(Gartner 2012)c
Data Management Solutions for ANALYTICS?
Quien hace Data Ware House?
¿Cuales son las FUENTES DE DATOS?
¿Cuales son las FUENTES DE DATOS?
¿Cuales son las FUENTES DE DATOS?
DIMENSIONES del Big Data

Volumen
• Enormes volumenes de datos
• Storaged
• Mover data
• Transformar data
Estructurar imagenes
DIMENSIONES del Big Data

Variedad
• Tipos de datos
• Estructurados
• No estructurados
DIMENSIONES del Big Data

Velocidad
• Ritmo en que los datos de entrada fluyen desde las diversas fuentes como
procesos de negocio, máquinas y sensores, redes sociales, dispositivos móviles,
etc.
• Flujo de datos masivo y continuo
• Real time
DIMENSIONES del Big Data

Veracidad
• sesgo, el ruido y la alteración de datos.
• los datos que se almacenan y extraen son directamente relacionados y
significativos al problema que se trata de analiza
DIMENSIONES del Big Data

Validez
• Los datos tienen validez
• Son robustos
• Data cleaning
DIMENSIONES del Big Data

Valor
• El valor del negocio
• Genera rentabilidad
• Mueve KPI’S
DIMENSIONES del Big Data

• Volumen
• Variedad
• Velocidad



Veracidad
Validez
Valor V’ig Data
FUENTES del Big Data

LAS PRIMERAS INICIATIVAS DE BIG DATA


SE CENTRAN EN OBTENER
CONOCIMIENTOS DE FUENTES DE DATOS
INTERNAS NUEVAS O YA EXISTENTES.

La mayor parte de los esfuerzos de big data están dirigidos a


extraer y analizar datos internos. Según nuestra encuesta, más
de la mitad de los encuestados afirmaron que la fuente
principal de big data en sus empresas eran los datos internos.

Esto sugiere que las empresas están siendo pragmáticas al


adoptar big data y también que existe un tremendo valor
por descubrir escondido en esos sistemas internos
TIPOS DE DATOS del Big Data
La visión clásica de la
tipificación de los datos; nos
dice que existen los datos
estructurados (modelo de datos
definido) y no estructurados
(no tienen modelo de datos
definido)

No obstante, la gran
cantidad y aumento de
información, ha hecho
que se hable de los
datos
semiestructurados.
Presentan una
caracteristica entidad –
relación semi definida.
Tal y como cabía esperar, los
datos internos son los datos más
desarrollados y mejor entendidos
de las empresas.
Estos se han recabado, integrado,
estructurado y normalizado a lo
largo de años de planificación de
recursos empresariales, gestión
de datos maestros, business
intelligence y otras
actividades relacionadas.

No obstante, big data no crea valor


hasta que se utiliza para superar
importantes retos empresariales.
Esto requiere un acceso a más tipos
de datos diferentes entre sí, así
como sólidas funcionalidades
analíticas que incluyen tanto
herramientas de software como las
habilidades necesarias para
utilizarlas.
FUNCIONALIDADES del Big Data
• Un análisis de aquellas empresas inmersas en
actividades de big data revela que comienzan con un
sólido núcleo de funcionalidades analíticas diseñadas
para abordar datos estructurados.

• A continuación, añaden capacidades para aprovechar


la enorme cantidad de datos que llegan a la empresa,
tanto datos semiestructurados (datos que se pueden
convertir a formatos de datos estándar) y no
estructurados (datos en formatos no estándar).

La necesidad de funciones de visualización de datos más


avanzadas aumenta con la introducción de big data. A
menudo los conjuntos de datos son demasiado grandes
para que las empresas o los analistas de datos puedan
visualizarlos y analizarlos con las herramientas
tradicionales de generación de informes y extracción de
datos.
MODELO DE SALUD
Saludable Moderado Salud_AltoRiesgo Total

Sin Riesgo 67,1% 16,8% 0,3% 84%


Mod_Compl 2,5% 6,3% 0,8% 10%
MODELO
COMPLICACIO 0,6% 1,6% 2,0% 4%
Alta_Compl
N COVID
Severo_Compli 0,1% 0,4% 1,5% 2%
Total 70% 25% 5% 100%
SECTORES ECONOMICOS y Big Data
ARQUITECTURA en Big Data
ARQUITECTURA en Big Data
ANALYTICS y el Big Data

LAS SOLUCIONES ANALÍTICAS CONTRIBUYEN A UNA MAYOR CONFIANZA EN LA TOMA DE


DECISIONES, A TRAVÉS DE LA IMPLEMENTACIÓN DE MODELOS DE ANÁLISIS QUE DIFUNDEN BUENAS
PRÁCTICAS Y AUMENTAN LOS ESTÁNDARES DE GESTIÓN.

• La multiplicidad de datos que las organizaciones acumulan en diversos sistemas de información y tecnologías
sobre las diferentes áreas operacionales puede ser, a primera vista, un punto crítico para el negocio. Sin
embargo, toda esta masa de información se presenta como una importante ventaja competitiva para las
empresas que adopten soluciones de Business Intelligence, es decir, sistemas de información analíticos que
recopilan, estructuran y correlacionan datos procedentes de diferentes fuentes, transformándolos en
información de gran valor añadido para la toma de decisiones.
ANALYTICS y el Big Data

Big data es una gran colección de datos


La ciencia de datos o Data Science, es un
procedentes de distintas fuentes y, por lo
campo especializado que combina áreas
regular, no está disponible en formatos de
múltiples como estadísticas, matemáticas,
bases de datos estándar de los que
técnicas de captura de datos, limpieza de
generalmente somos conscientes.
datos, minería y programación para preparar y
alinear grandes datos para un inteligente
Los datos grandes abarcan todos los tipos de
análisis para obtener información.
datos, a saber, información estructurada,
semiestructurada y no estructurada.

Disponibiliza Analiza
DATA MINING & BUSINESS INTELIGENCE del Big Data
DATA MINING & BUSINESS INTELIGENCE del Big Data
CROSS INDUSTRY STANDARD PROCESS FOR DATA MINING –
CRISP -DM
SE TRATA DE UN MODELO DE PROCESO DE MINERÍA DE DATOS QUE
DESCRIBE LOS ENFOQUES COMUNES QUE UTILIZAN LOS EXPERTOS
EN MINERÍA DE DATOS.

Comprensión del negocio


Esta fase inicial se centra en la comprensión de los objetivos y
requisitos del proyecto desde una perspectiva empresarial.
Comprensión de Datos
Esta fase comienza con una colección inicial de datos y procesos
con actividades con el objetivo de familiarizarse con los datos.
Preparación de datos
Esta fase cubre todas las actividades para construir el conjunto de
datos.
Modelado
En esta fase se seleccionan y aplican varias técnicas de modelado y
se calibran los parámetros para obtener óptimos resultados.
Evaluación
En esta etapa en el proyecto ha construido un modelo (o modelos)
que parece tener gran calidad, desde una perspectiva de análisis
de datos.
Despliegue
Esta fase depende de los requerimientos, pudiendo ser simple
como la generación de un reporte o compleja como la
implementación de un proceso de explotación de información que
atraviese a toda la organización.
DATA MINING & BUSINESS INTELIGENCE del Big Data

Determinar os Objetivos del Proyecto


Conocer los antededentes del negocio y objetivos del proyecto.

Evaluar la Situación
Determinar las condiciones iniciales con la que
elproyecta empieza.

Determinar los Objetivos de la Minería de Datos


Conocer el problema en especifico al cual aplicar las técnicas de modelamiento.

Desarrollar el Plan del Proyecto


Conocer el time-to-market del modelo y las especificaciones iniciales para su
desarrollo.
DATA MINING & BUSINESS INTELIGENCE del Big Data

Recolección de Fuentes
Conocer las tablas de las cuales se dispone y el posible uso que pueden tener dentro
del desarrollo del proyecto.

Descripción de los Datos


Conocer la definición FUNCIONAL de los datos, su definición teórica y util.

Exploración de Datos
Generación del Reporte de Exploración: Contienen los descriptivos
de las tablas

Verificación de la Calidad de los Datos


Reporte de Calidad de Datos
DATA MINING & BUSINESS INTELIGENCE del Big Data

Generación de la TABLA UNICA


El proceso anterior del entendimiento de datos permite generar la TU de Datos.

Selección de Datos
Definir reglas para selección de variables. Proceso descriptivo y univariado de datos.

Limpieza de Datos
Imputacion de Missings, outliers, valores atipicos, cotas de datos, etc.

Construcción de Datos
Generación de nuevas variables por concepto de negocio.

Itegración de Datos
Combinación de bases y/o variables (variables convulucionadas)
DATA MINING & BUSINESS INTELIGENCE del Big Data

Seleccionando Técnica Metodologica


Evaluar el método estadístico más adecuado a la naturaleza del problema.

Generación del Diseño de Prueba


Diseñar el proceso de desarrollo del modelo

Construcción del Modelo


Desarrollo del Modelo, Estimación de parámetros, descripción del
modelo.

Desempeño del Modelo


Desempeño del Modelo, revisión de los parametros obtenidos, etc.
DATA MINING & BUSINESS INTELIGENCE del Big Data

Evaluación de Resultados
Evaluación del performance del modelo en una base ajena a a de esarrollo

Revisión del Proceso


Evaluación de los supuestos y metodología utilizada

Determinar los proximos pasos


Evaluación post-validación
DATA MINING & BUSINESS INTELIGENCE del Big Data

Desplieue de Desarrollo
Establecer las reglas de su implementación, usos y limitaciones.

Monitoreo
Evaluación continua del modelo, según necesidad y uso, para determinar posibles
descalibrados, deficiencias o problemas con su desempeño.

Documentación y Reporte Final


DATA MINING & BUSINESS INTELIGENCE del Big Data
Tipos de analytics (Banking)
• Scoring
• De Originacion
• De Comportamiento
• De Cobranzas
• Venta de productos
• X-Sell, Up-sell
• Seguros
• Manejo de portafolios en cada uno de los canales
• Migración de canales
Tipos de analytics (Telcos)
• Scoring Analysis
• Modelos de Churn
• Modelos de Recovery
• Venta de productos
• X-Sell, Up-Sell
• Pricing
• Loyalty
• Segmentación de productos
• Afinidad de tiendas*
Tipos de analytics (Retail)
• Forescasting
• Canasta de Mercado
• Evaluación de productos y categorías
• Pricing
• Conjoin Analysis
• PSM
• Segmentación de clientes
• Afinidad de productos
• Faltantes en Góndola
Mejorar las Capacidades Analíticas
Entender la capacidad analíticas de la tecnología y combinarlas con las capacidades tecnologías a fin de encontrar la mejor respuesta al
analitycs

Model-Driven Discovery-Driven
• Top-down approach; • Bottom-up Approach
• start from hypothesis; • start with a question and/or dataset;
• evaluated based on statistical evidence. • discover patterns and relationships and
generalise to a hypothesis.

Typically as deductive reasoning Typically as inductive reasoning

Provide hypothesis to
Theory validate and model
Speed is of the essence to
sort the wheat from the
Theory chaff
Lots of qualified new
hypothesis from
discovery

Hypothesis
Hypothesis Apply cutting-edge
techniques to detect truly
new patterns
Ability to turn into
validated and
consumable models, Observation
with the appropriate
rigor Pattern

From lots of new,


Confirmation unqualified and
Operationalized unknown data

Translate into actions models lead to new Observation


to achieve outcome observations

PROOF FOCUSED
INNOVATION FOCUSED
ANALYTICS en Big Data

Preguntas Ad-hoc

Modelación
Fases del Proyecto

Design Analyse Model Test


A. Business Requirement E. Perform data I. Create affinity M. Create pricing
workshops assessment analysis for PoC products

B. Design success criteria F. Perform product J. Create demand N. Assess business


analyses models impact

C. Design PoC test G. Select Categories, K. Validate the O. Review results


Products affinities Report of
Product List
results
assessment
D. Review design with H. Prepare data for L. Validate the P. Store test
Business modelling demand models
Pilot Models Presentation
Design
Document Of pilot project
results
3
2
1
DATA MINING & BUSINESS INTELIGENCE Caso Práctico
MODELO RIESGO CREDITO: DATOS ESTRUCTURDOS Y NO ESTRUCTURADOS
• Mediante un caso de estudio, utilizaremos la metodologia CRISP-DM para evaluar un problema de riesgo de
crédito (determinar si un cliente es bueno o malo); bajo dos enfoques:

1. Mediante técnicas clásicas de Mineria de Datos: Utilizaremos una


regresión logística y un árbol de clasificación. Seguiremos los pasos
genericos para un proyecto de datos: Exploración de los datos,
limpieza y reduccion; modelamiento y puesta enproducción. Los
datos del ejercicio se detallan en el cuadro de a lado.

• Codigo Exploracion: Credit_Scoring_Pre_Procesing.R


• Modelo Logístico: Logistic_Reg_Credit_Scoring.R
• Arbol de Clasificacion: Decision_Tree_Credit_Scoring.R
• Base de Datos: CreditScoring.txt

2. ADICIONAL, realizaremos un modelo de datos utilizando información


no estructurada. Utilizaremos los principios del text mining; para
analizar el sentimiento de las personas mediante sus publicaciones
en Twitter o Facebook.
PLATAFORMAS TECNOLOGICAS del Big Data
Gartner 2016 Magic Quadrant for BI
and Analytics

• Tareas tradicionales en base al


Analytics y visualización de datos,
siguen siendo liderados por softwares
como Tableau, Qlik y Microsoft (Excel
principalmente).

• Por otro lado, su baja complitud de


vision y la habilidad para su uso hace
que softwares como Pyramid
Analytics, Datawatch sean los menos
rankeados para estas actividades.
PLATAFORMAS TECNOLOGICAS del Big Data
Gartner 2016 Magic Quadrant for
Advanced Analytics

• El cuadrante anterior, nos mostraba la


proyección de los software en
Analytics para tareas recurentes
(comunes) usadas en el analytics y el
BI.

• Si tomamos como vista y


consideramos a aquellos programas
utiles para analitica avanzada. SAS es
indiscutiblemente la herramienta de
preferencia por las empresas que
utilizan el analytics y big data como
factor diferenciante.

• SAS ofrece una alta gama de


soluciones especializadas para cada
tipo de problema encontrado en la
realización de proyectos de analytics.
Herramientas de la modelación de datos
Herramientas de la modelación de datos

• Ofrece productos código abierto para comunidades


• Ofrece un opción de servidor y permite conectarse a
distintas fuentes de datos.

• Ventajas
• Solida
• Funciones innovadores
• Integración con Hadoop para mejorar el ambiente de Big Data
• Alto reconocimiento de fácil uso
Herramientas de la modelación de datos
Herramientas de la modelación de datos

• Gran cantidad de productos


• Mas amplia en cuanto funcionalidad analica
• Avances en visual analytics y visual statistics
• Sas Factory Miner

• Ventajas
• Buen manejo de aplicaciones atravez de todos sus productos
• Aprendizaje automático a gran escala
• Las grandes empresas confían en el soporte y análisis de datos
por parte de SAS
Herramientas de la modelación de datos
Herramientas de la modelación de datos

• Spss y Spss Modeler

• Ventajas
• Alto reconocimiento
• Watson Analytics
• SPSS fácil manejo (gran base de clientes)
• Se complementa con lenguaje R Phyton y SPARK
• SPSS Modeler fácil uso de aplicación de modelos
Herramientas de la modelación de datos
Herramientas de la modelación de datos

• Plataforma Open Source


• Local o nube
• Conexión a base de datos

• Ventajas
• Flexibilidad para integrar con otras herramientas
• Código abierto
• Comunidad de personas
Visualización

• Que es la visualización

• Características
• Métodos
• Herramientas
Herramientas para la visualización de datos
Herramientas de la modelación de datos

• Conexión a base de datos

• Ventajas
• Flexibilidad de usuarios
• Manejo analítico
• Conexión con Google Maps
Pasos en el Análisis

• Descripción

• Que es
• Variables
• Medidas
• Cuantificar
• Calcular
• Agregar
Pasos en el Análisis

• Correlación

• Que tipo de relación


• Correlaciones
• Tipos de variables
Pasos en el Análisis

• Correlación

• Variables Continuas (Pearson)


• Variables discretas (Chi Cuadrado)
• Variables Mixtas (Anova)
Pasos en el Análisis

• Recodificar

• Partes iguales
• Por negocio
• Por Algoritmo
Pasos en el Análisis

• Impacto de las variabes

• Information Value

• WOE
Pasos en el Análisis

• Impacto de las variables


Pasos en el Análisis

• Selección variables

• Calcular variables
• Seleccionar variables
• Impacto de las variables
• Recodificar variables
Pasos en el Análisis

• Modelo las variables

• Aplicación del modelo


• Que algoritmo
• Performance del modelo
PLATAFORMAS TECNOLOGICAS del Big Data

KDnuggets Analytics / Data • Muchas veces, el precio, la dificultad


de programación, el soporto; o
Science 2016. Software Pool simplemente la comodidad. Ha hecho
(Top 10 Tools) que las herramientas “sofisticadas”
para analitica avanzada; no sean las
preferidas por los DSc. De “a pie”.

• Websites, como Kdnuggets, muestran


preferencias de software (principalmente de
licencias libre) preferidas para el analytics.

• Vemos que esta lista está, en resumen,


liderada por los ya clásicos y conocidos
lenguajes de progamación: R y Python.

• Ambos programas ampliamente difundidos y


desarrollados son una opción a los softwares
más costosos.
FASES DE ADOPTCION del Big Data

1. Educar: En la fase de educación la atención se centra en la concienciación y el desarrollo del conocimiento.


Como resultado de ello, los directivos empresariales aún no han comprendido totalmente ni abrazado el
potencial de big data.
2. Explorar: En esta fase la atención se centra en desarrollar la hoja de ruta de la empresa para el desarrollo de
big data.
FASES DE ADOPTCION del Big Data
1. Educar: En la fase de educación la atención se centra en la concienciación y el desarrollo del conocimiento.
Como resultado de ello, los directivos empresariales aún no han comprendido totalmente ni abrazado el
potencial de big data.
2. Explorar: En esta fase la atención se centra en desarrollar la hoja de ruta de la empresa para el desarrollo de
big data.
3. Interactuar: En la fase de la interactuación las empresas comienzan a comprobar el valor de negocio de big
data, así como a llevar a cabo una valoración de sus tecnologías y habilidades.
4. Ejecutar: En la fase de ejecución, el nivel de operatividad e implementación de las funciones analíticas y de big
data es mayor dentro de la empresa
DESAFIOS del Big Data
DESAFIOS del Big Data
DESAFIOS del Big Data: GOBIERNO Y ESTRATEGIA
DESAFIOS del Big Data: PERSONAS
• Muchas veces, el precio, la dificultad de programación, el soporto; o simplemente la comodidad. Ha hecho que las
herramientas “sofisticadas” para analitica avanzada; no sean las preferidas por los DSc. De “a pie”.

SUPPLY AND DEMAND OF DATA SCIENTIST IN THE UNITED STATES (THOUSANDS)


DESAFIOS del Big Data: DATOS
DESAFIOS del
Big Data: DATOS

• Nuevamente, el
aumento de datos no
estructurados;
representa un reto para
todo proyecto en
analytics.

• Pero tambien, quizas


sea de las fuentes de
información más ricas
para su explotación.

• Este uso (de datos


estructurados y no
estructurados) es
diferenciable por tipo
de sector y fines por los
que se utiliza.
MACHINE LEARNING y el Big Data: TIPOS DE APRENDIZAJE
MACHINE LEARNING y el Big Data: TIPOS DE APRENDIZAJE
• Most statistical learning problems fall into
one of two categories: supervised or
unsupervised.

UNSUPERVISED LEARNING: unsupervised


learning describes the somewhat more
challenging situation in which for every
observation i = 1, . . . , n , we observe
a vector of measurements xi but no
associated response yi .

SUPERVISED LEARNING: For each


observation of the predictor
measurement(s) xi , i = 1, . . . , n
there is an associated response
measurement yi .
MACHINE LEARNING y el Big Data: APRENDIZAJE SUPERVISADO
SIMPLE LINEAR REGRESSION lives up to its name: it is a
very straightforward simple linear approach for
predicting a quantitative response Y on the basis of a
single regression predictor variable X.

It assumes that there is approximately a linear


relationship between X and Y . Mathematically, we can
write this linear relationship as

Where:
MACHINE LEARNING y el Big Data: APRENDIZAJE NO SUPERVISADO

WHAT’S A
CLUSTER?
✓ It is a class of techniques used to
classify cases into groups that are
✓ RELATIVELY HOMOGENEOUS
WITHIN THEMSELVES AND
HETEROGENEOUS BETWEEN
EACH OTHER
✓ HOMOGENEITY (SIMILARITY)
AND HETEROGENEITY
(DISSIMILARITY) ARE
MEASURED ON THE BASIS OF A
DEFINED SET OF VARIABLES
✓ These groups are called clusters
MACHINE LEARNING y el Big Data: APRENDIZAJE NO SUPERVISADO
• In a HIERARCHICAL classification
the data are not partitioned into a
particular number of classes or
clusters at a single step. Instead the
classification consists of a series of
partitions, which may run from a
single cluster containing all
individuals, to n clusters each
containing a single individual.

• The NON-HIERARCHICAL
CLUSTERING that we consider
here is a class of clustering
techniques which produce a
partition of the individuals into
a specified number of groups,
by either minimizing or
maximizing some numerical
criterion.
CLUSTER & SEGMENTATION: AN INTRODUCTION
WORKING WITH R: Iris Data Example
• The IRIS DATASET contains data about sepal
length, sepal width, petal length, and petal
width of flowers of different species. Let us see
what it looks like:

Iris_Data_Example.R
EN RESUMEN…
BIBLIOGRAFIA(*):
① Baesens, B. (2014). Analytics in a big data world: The essential guide to data science and its applications.
Hoboken, NJ: Wiley.
② James, G., Witten, D., Hastie, T., & Tibshirani, R. (2015). An introduction to statistical learning: With
applications in R (1st ed.). New York: Springer.
③ Liebowitz, J. (2013). Big data and business analytics. Boca Raton, FL: CRC Press.
④ Marr, B. (2016). Big data in practice: How 45 successful companies used big data analytics to deliver
extraordinary. Chischester (GB, NY: Wiley.
⑤ Mayer-Schönberger, V., & Cukier, K. (2014). Big data: A revolution that will transform how we live, work,
and think. Boston [u.a., NY: Mariner Books.
⑥ Siegel, E. (2016). Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die, Revised and
Updated.

(*) El contenido de esta presentación esta basado enteramente en la bibliografía mencionada. Y el contenido del mismo, es propiedad
intelectual de los autores.
ANEXO I
COMPLEJIDAD de un Modelo
No lo suficientemente
complejo
Over-Fitting: Es lo opuesto al under-
fitting, y consiste en ajustar demasiado
a los datos. Su problema radica en que
pierde capacidad predictiva cuando es
aplicado sobre otra base de datos.

Demasiado
Complejo

Under-Fitting: Una de las desventajas del uso de


modelos simples es que muchas veces no ajustan bien
a los datos. No confundir con el concepto de
“parsimonia”.
ANEXO II
ARBOLES DE CLASIFICACION Principios

Training Data
1.0
0.9
0.8
0.7
0.6
x2 0.5
0.4
EJEMPLO: Buscamos predecir cada punto de
color para cada X1 y X2. 0.3
0.2
0.1
0.0
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
x1

...
ANEXO II
ARBOLES DE CLASIFICACION Principios

root node
1.0
x2
<0.63 ≥0.63 0.9
0.8

interior node 0.7


x1 x1 0.6
<0.52 ≥0.52 <0.51 ≥0.51 x2 0.5
0.4
0.3

70% 0.2
40% 0.1
leaf node 55%
0.0
60%
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
x1

...
ANEXO II
ARBOLES DE CLASIFICACION Principios
Predict:
root node
1.0
x2
<0.63 ≥0.63 0.9
0.8

interior node 0.7


x1 x1 0.6
<0.52 ≥0.52 <0.51 ≥0.51 x2 0.5
0.4
0.3

70% 0.2
40% 0.1
leaf node 55%
0.0
60%
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
x1

...
ANEXO II
ARBOLES DE CLASIFICACION Principios
Decision =
Predict:
Estimate = 0.70
1.0
x2
<0.63 ≥0.63 0.9
0.8
0.7
x1 x1 0.6
<0.52 ≥0.52 <0.51 ≥0.51 x2 0.5
0.4
0.3

70% 0.2
40% 0.1
55%
0.0
60%
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
x1

...
ANEXO III
Regresión
Regresión

• Modelo
• Variable Independiente
• Variables dependiente
• Correlación
• Predicción
ANEXO III
Regresión
ANEXO III
Regresión
ANEXO IV
Redes Neuronales

• Entrada
• Entrenamiento
ANEXO IV
SVM

• Algoritmo
• Clasificación
ANEXO V
Naive Bayes

• Probabilidad apriori
• Probabilidad posteriori

También podría gustarte