Documentos de Académico
Documentos de Profesional
Documentos de Cultura
2
Contenidos
Unidad 1
• Qué es Data Science
• Big Data, Estadística y Machine Learning
• El trabajo del Data Scientist
• Ética en Data Science
Unidad 2
• Aplicaciones prácticas de Data Science
• Casos de estudio
Unidad 3
• Lenguajes de programación para Data Science (comparación Python y R)
• Data Science con Python
• Conceptos básicos de programación
3
Qué es Data Science, posibles definiciones
• Democratización de la información
8
Estrategias en Data Science
◦ Investigando la realidad. Los datos se pueden recolectar por métodos activos o
pasivos
◦ Reconocimiento de patrones. Los datos se analizan buscando ·estructuras· que
contribuyan a identificar soluciones
◦ Predicción de futuros eventos. Cómo robustecer modelos que son capaces de
establecer modelos de datos
◦
9
Universidad Católica del Norte. Víctor Flores – mayo 2019
Una vista al monitoreo-decisiones, usando datos
Nuevas aplicaciones,
visión
Nuevas estrategias, etc.
aplicaciones
Apps lógicas
10
Universidad Católica del Norte. Víctor Flores – mayo 2019
Data science
11
Data Science no es Machine learning
Volumen
Variedad
Velocidad
15
Ejercicio en clase 1
En grupos de 2 personas:
1) Qué es Big Data, cómo se está usando en su
organización o cómo se usaría
2) Qué es Machine Learning, cómo se está usando en su
organización o cómo se usaría
3) Qué es cloud, cómo se está usando en su
organización o cómo se usaría
4) Qué es TPU Pods y cómo cree que impactará en el
mundo
https://blogthinkbig.com/machine-learning-google-ia
Decision trees
(clasificadores)
17
Universidad Católica del Norte. Víctor Flores – mayo 2019
“camino” en el Data Science
Verificación de
Datos crudos
Experimentos,
Testing
https://www.decideo.com/Web-analytics-
Analisis-de-Redes-Sociales_r13.html
19
Data Science workflow
1. Adquisición de datos
80
% 2. Almacenamiento y gestión Librerías de Python y herramientas
especializadas como OpenRefine o
T
I
Herramientas como NoSQL, Basho o Wrangler (Trifacta)
E MapReduec dan soporte a la gran
m cantidad de datos (se espera sea de 40
P
zettabytes en 2020)
o
3. Análisis
Data scientistc, que usa herramientas
4. Visualización como R, Python, MatLab genera reporte,
análisis..
Herramientas como D3.js, Tableau dan
soporte a la visualización/integración de
datos (> 40 zettabytes en 2020)
5. Comunicación
Servicios colaborativos como Hithub o
Bitbucket simplifan el compartir código y
distribuir resultados (incremento en la
productividad) 20
Tópicos de interés en Data Science
Habilidades
Experto en
Machine Learning
fundamentos de Estadística y
Computación probabilidad
24
Universidad Católica del Norte. Víctor Flores – mayo 2019
Ejercicio en clase 2
En grupos de 2 personas:
https://www.simplilearn.com/data-science-vs-big-data-vs-data-analytics-article
Universidad Católica del Norte 2019 26
Data Science, Big data, Data análisis
28
Necesidades en Data Science & Data Scientist
IA
Deep L.
Algoritmos,
experimenta_
ción
Análisis, segmentación,
Aprender/optimizar agregación, training-
data
Detección de anomalías,
Agregar/etiquetar limpieza de datos
Almacenamiento de datos
Mover/guardar estructurados/no-estructurados
31
Ciclo del Data Science
http://sudeep.co/data-science/Understanding-the-Data-
Science-Lifecycle/ 32
Ética en Data Science
https://elpais.com/elpais/2015/08/11/icon/1439304143_858615.html
https://www.nytimes.com/2012/02/19/magazine/shopping-habits.html?_r=0
33
Ética en Data Science
Posibilidades actuales
• Tenemos acceso a datos sin precedentes
• Tenemos opciones de análisis sin precedentes
• Es casi ilimitado lo que se puede hacer con Data Science
Reglas
• Protección de datos
• Ética
34
Universidad Católica del Norte. Víctor Flores – mayo 2019
Ética en Data Science
Inadecuado
• Incluir/excluir datos en/para un análisis
• Hacer estudios (solo) en ciertos sitios
• Usar los datos para “destacar” un punto de vista
35
Reflexión para el data scientist !
36
Universidad Católica del Norte. Víctor Flores – mayo 2019
Un poco de “context”
37
contexto
Información
“Colón descubrió a América en 1492”
◦ Una entidad que provee respuestas a
preguntas
◦ dato->información->conocimiento
Conocimiento
“todos los lunes hay un vuelo a las 7.00h”
◦ Se refiere a clases o instancias
◦ Describe patrones generales, estructuras
◦ Consiste de pocos estamentos (en lo posible)
◦ Usualmente, es difícil de establecer
◦ Nos permite hacer predicciones
39
Universidad Católica del Norte. Víctor Flores – mayo 2019
contexto
Información
La información (datos) se puede capturar de diversas fuentes: online o offline [3]
Online
◦ Web servers
◦ Sensores (exercise monitors, household electric meters)
◦ inspección profunda de paquetes (usando dispositivos)
◦ Dispositivos móviles
Offline
◦ registros públicos
◦ registros internos
40
Universidad Católica del Norte. Víctor Flores – mayo 2019
contexto
Persistencia de datos
La información (datos) se puede guardar en dispositivos locales o dispositivos de
almacenamiento externo, para luego ser recuperada y tratada [3, 4]
◦ Internal hosting
◦ External hosting
◦ Cloud hosting
41
Universidad Católica del Norte. Víctor Flores – mayo 2019
contexto
Anonimización y creación de metadatos
El proveedor de alojamiento de los datos mantiene información sobre los datos, los
datos en sí mismos y sobre el procesamiento de los datos [3]
Los metadatos proporcionan información sobre los orígenes e historial de los datos, con
suficiente detalle para (1) usar los datos y (2) realizar interpretación correcta de los
datos.
◦ Usando una Ontología
◦ Dentro de un archivo de datos (formatos diversos)
Problemas
46
Data Science is the science which uses computer science,
statistics and machine learning, visualization and human-
computer interactions to collect, clean, integrate, analyze,
visualize, interact with data to create data products.
48
Referencias
[*1] Han J., Kamber M. & Pei J. Data mining:
concepts and techniques, Morgan Kaufmann 2012.
49