Está en la página 1de 25

Inteligencia Artificial

David Villanueva M.Sc.


Capítulo 2

Metodologías y Herramientas
Metodologías disponibles

https://www.researchgate.net/figure/Summary-of-the-correspondences-between-KDD-SEMMA-and-CRISP-DM_tbl1_220969845
Metodologías disponibles - CRISP-DM

Entendimie Entendimie
nto del nto de los
Negocio Datos

Preparación
de los Datos
Cross Industry Standard
Implantación Process for Data Mining
Datos
Modelamiento

Evaluación

https://www.researchgate.net/figure/Summary-of-the-correspondences-between-KDD-SEMMA-and-CRISP-DM_tbl1_220969845
Metodologías disponibles - Drive

https://www.encorebusiness.com/app/uploads/2016/09/roadmap-for-scaling-your-analytic-culture.pdf
Metodología Drive

https://www.encorebusiness.com/app/uploads/2016/09/roadmap-for-scaling-your-analytic-culture.pdf
Data Governance

http://www.datagovernance.com/the-dgi-framework/
Roles comunes

Data Engineer Data Scientist Data Analyst

Ingeniero de datos está Un científico de datos Analiza datos y los utiliza


implicado en el ciclo de vidad analiza e interpreta datos para ayudar a empresas y
de los datos desde la complejos. También están roles a tomar mejores
ingestión y procesamiento entrenados para manipular decisiones. Lideran el
hasta el reporte. Construyen, grandes cantidades de proceso del requerimiento de
prueban y mantienen una datos. analítica metodológicamente.
arquitectura de datos
completa.
Roles comunes - responsable de las herramientas

Data Engineer

Ingeniero de datos está


3 Campas (Batch, Serve, Speed)
implicado en el ciclo de vidad Lamda
de los datos desde la
ingestión y procesamiento
hasta el reporte. Construyen,
prueban y mantienen una
arquitectura de datos Kappa
completa.
Roles comunes - responsable de las herramientas

Data Engineer

Ingeniero de datos está


implicado en el ciclo de vidad
de los datos desde la
ingestión y procesamiento
hasta el reporte. Construyen,
prueban y mantienen una
arquitectura de datos
completa.
Roles comunes - responsable de las herramientas

Data Engineer

Ingeniero de datos está


3 Campas (Batch, Serve, Speed)
implicado en el ciclo de vidad Lamda
de los datos desde la
ingestión y procesamiento
hasta el reporte. Construyen,
prueban y mantienen una
arquitectura de datos Elimina la capa Batch y deja solo la
Kappa de streaming.
completa.
Roles comunes - responsable de las herramientas

Data Engineer

Ingeniero de datos está


implicado en el ciclo de vidad
de los datos desde la
ingestión y procesamiento
hasta el reporte. Construyen,
prueban y mantienen una
arquitectura de datos
completa.
Incluye entornos Big Data
PROCESOS MASIVAMENTE
DATA SETS
PARALELOS
MPP (sigla de Massively Parallel Processing) Conjuntos de datos demasiado grandes o
se refiere al uso de un gran número de complejos que cambian demasiado rápido
procesadores para realizar un conjunto de para evaluarse con métodos convencionales.
cálculos coordinados en paralelo.

CLUSTER MAP REDUCE


Conjunto de computadores que se coordinan Es un modelo de programación utilizado para
para ejecutar procesos masivamente dar soporte a la computación de datos en
paralelos. Comúnmente se usa Hadoop como clusters de ordenadores. Es utilizado por
software para dicha coordinación. Google.
Metodologías para la selección de modelos

Seleccionar un modelo es escoger de una colección


disponible de modelos candidatos de Machine
Learning con el objetivo de entrenar un dataset.
-- Jason Brownlee
Selección de modelo por tipo de problema o caso

https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html
Selección de modelo por tipo de problema o caso

Preguntas adicionales

A. Qué datos son necesarios para predecir?


B. Cuál es el criterio de éxito del modelo?
C. Contexto o disciplina del problema a resolver?
D. Tienen los datos el potencial de resolver el problema para
contexto dado?

https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html
Selección de modelo entre un caso definido

Evaluación Features Featuring Engineer

Hyper
Data +/-
Parámeters

https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html
Lenguajes de programación y distribuciones

● Python
● R
● JavaScript
● Visual Basic
● C++
● Scala
● SQL
● Perl
● Matlab
● Canopy
● Java
● Anaconda
https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Data-Science-Periodic-Table.pdf
Fuentes públicas de datos

● Data World
● Statista
● World Bank
● Socrata
● Google Public
● Buzzfeed
● Data.gov
● Datos Abiertos
● Worldometer
● Kaggle

https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Data-Science-Periodic-Table.pdf
Administradores de datos

● Apache Hadoop ● Google BigQuery


● HBase ● Amazon Redshift
● Cassandra ● Oracle
● Pig ● MySQL
● Impala ● PostgresSQL
● Hive ● SQL Server
● Spark
● Kafka ● Hortonworks
● Solr ● Cloudera
● Mongo
● MapR

https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Data-Science-Periodic-Table.pdf
Librerías/entornos de Aprendizaje de Máquina

● Scikit Learn
● Spark MlLib
● Theano
● Keras
● Tensor Flow
● LibSVM
● Weka

● Knime
● Orange
● BigML

https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Data-Science-Periodic-Table.pdf
Visualización de Datos

● Power BI
● Tableau
● Qlikview
● PowerPivot
● Excel
● Matplotlib
● D3
● Google Charts
● Amazon QuickSight

https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Data-Science-Periodic-Table.pdf
Entornos de desarrollo

● Google colab
● Jupyter
● Spyder
● Data Science Studio
● Github
● Apache Zeppelin
● AWS Cloud9

https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Data-Science-Periodic-Table.pdf
Taller de inspección datos

1.https://www.datos.gov.co/resource/i2m8-962d.js
on
2. https://www.datos.gov.co/resource/9r5d-ic9n.jso
n
3. https://opendata.arcgis.com/datasets/5b03f78b
073348ecb4667afb32cf2ed8_6.geojson
4.
Gracias
Fin del capítulo 1

También podría gustarte