Introducción A Data Science (PPT1-1)

Curso 1: Introducción al Data Science
Diplomado en Big Data
Víctor Flores Fonseca
Departamento de Ingeniería de Sistemas y

Computación – UCN.
Datos de contacto
Dr. Víctor Flores Fonseca

email: vflores@ucn.cl
Horario de atención: miércoles de 18:00 a

19:30
Edif. Y-1, oficina 311.
2
Contenidos
Unidad 1
• Qué es Data Science
• Big Data, Estadística y Machine Learning
• El trabajo del Data Scientist
• Ética en Data Science
Unidad 2
• Aplicaciones prácticas de Data Science
• Casos de estudio
Unidad 3
• Lenguajes de programación para Data Science (comparación Python y R)
• Data Science con Python
• Conceptos básicos de programación
3
Qué es Data Science, posibles definiciones
• La ciencia de datos es la aplicación de técnicas computacionales y

estadísticas para abordar u obtener información sobre algún problema en el
mundo real
• Se define comúnmente como una metodología mediante la cual los
conocimientos se hacen accesibles a través del análisis de los datos
• Data Science se utiliza para obtener información sobre los datos a través del
cálculo, las estadísticas y la visualización.
Universidad Católica del Norte. Víctor Flores – mayo 2019 5

Qué es Data Science, posibles definiciones
Data Science = Estadística+Data processing

+ Machine Learning
+ investigación científica
+ visualización
+ business analytic
+ Big data
+. ….

7
Data Science es
• Tratamiento de los datos
• Democratización de la información
8
Estrategias en Data Science
◦ Investigando la realidad. Los datos se pueden recolectar por métodos activos o
pasivos
◦ Reconocimiento de patrones. Los datos se analizan buscando ·estructuras· que
contribuyan a identificar soluciones
◦ Predicción de futuros eventos. Cómo robustecer modelos que son capaces de
establecer modelos de datos
◦
9
Universidad Católica del Norte. Víctor Flores – mayo 2019
Una vista al monitoreo-decisiones, usando datos
Nuevas aplicaciones,
visión
Nuevas estrategias, etc.
aplicaciones
métricas Análisis, Generación de

operaciones visualización alarmas, diffusion
de datos KPI
registros
Logs-personalizados
integración Apps para exporter
Apps lógicas
10
Data science
datos información conocimiento
11
Data Science no es Machine learning
• El aprendizaje automático implica computación y estadísticas, pero

(tradicionalmente) no se ha preocupado por responder preguntas
científicas
• El aprendizaje automático tiene un gran énfasis en los algoritmos de
“descubrimiento” de patrones…
Universidad Católica del Norte Víctor Flores2019 12

Data Science no es Estadística
• La estadística tiene un conjunto más amplio: matemáticas-teorías
• En estadística, la fuente de datos no suele ser: datos de internet, datos de
negocios, etc.
• Generalmente para estadística se usa R, en Data Science se puede usar R
pero también se usa Python…
Data Science no es Ciencias de la Computación

• En computación se diseñan algoritmos para solventar problemas, se
implementan y valida la solución

Data Science no es Big data
• Algunas veces, para comprender realmente y responder pregunta, es necesario disponer

y procesar grandes cantidades de datos. Pero otras veces, no es necesario

Data Science & Big Data
Big Data
Gigabytes por día o más. Grandes volúmenes de datos que son analizados
para –soportar toma de decisiones –estrategias comerciales
Volumen
Variedad
Velocidad
15
Ejercicio en clase 1
En grupos de 2 personas:
1) Qué es Big Data, cómo se está usando en su
organización o cómo se usaría
2) Qué es Machine Learning, cómo se está usando en su
3) Qué es cloud, cómo se está usando en su
4) Qué es TPU Pods y cómo cree que impactará en el
mundo
https://blogthinkbig.com/machine-learning-google-ia

Data Mining
Data mining es el proceso de
descubrimiento de información en
forma automática
Clustering
Decision trees
(clasificadores)
17
“camino” en el Data Science
Verificación de
Datos crudos
Experimentos,
Testing
Limpieza de datos Actualización/

Mejora de Modelos
Explorar con métodos:
- Estadísticas básicas Modelado Modelos de
- Gráficos, patrones aprendizaje
Modelo del Conocimiento

dominio Experto
18
Algunos ejemplos de Data Science
• Nexflix
• Crecimiento de comunidad TI (ofertas de empleo)
• Aprendiaje basado en texto (Web Intelligent)
https://www.decideo.com/Web-analytics-
Analisis-de-Redes-Sociales_r13.html
19
Data Science workflow
1. Adquisición de datos
80
% 2. Almacenamiento y gestión Librerías de Python y herramientas
especializadas como OpenRefine o
T
I
Herramientas como NoSQL, Basho o Wrangler (Trifacta)
E MapReduec dan soporte a la gran
m cantidad de datos (se espera sea de 40
P
zettabytes en 2020)
o
3. Análisis
Data scientistc, que usa herramientas
4. Visualización como R, Python, MatLab genera reporte,
análisis..
Herramientas como D3.js, Tableau dan
soporte a la visualización/integración de
datos (> 40 zettabytes en 2020)
5. Comunicación
Servicios colaborativos como Hithub o
Bitbucket simplifan el compartir código y
distribuir resultados (incremento en la
productividad) 20
Tópicos de interés en Data Science
• Adquisición de datos y gestión de datos

• Visualización y análisis exploratorio
• Estadística clásica
• Modelos de aprendizaje supervisado
• Modelos de aprendizaje no-supervisado
• Tópicos avanzados

Background recomendado
• Experiencia en programación
https://ipython.org/
• Cursos de programación
• Idealmente experiencia en Python https://jupyter.org/
• Conocimientos básicos de Estadística

• Disponibilidad para aprender nuevas
herramientas y tecnologías software
https://pandas.pydata.org/

Data Science & Machine Learning
Conocimientos de Data modeling y

Programación visualización
Habilidades
Experto en
Machine Learning
fundamentos de Estadística y
Computación probabilidad
24
Ejercicio en clase 2
En grupos de 2 personas:
Qué es y posibles uso de Oracle Cloud performance

for Big Data
https://www.oracle.com/big-data/guide/what-is-big-data.html
Qué es y posibles uso de Big data analytics

https://www.ibm.com/analytics/hadoop/big-data-analytics

Big Data, Estadística y Machine Learning
https://www.simplilearn.com/data-science-vs-big-data-vs-data-analytics-article
Universidad Católica del Norte 2019 26
Data Science, Big data, Data análisis
Algoritmos de Data Science Algoritmos de Big Data Data analisis

Data Scientist
Un científico de datos es alguien que sabe más estadísticas que un
científico en computación y más informática que un estadístico.
Sabe (conoce) qué pregunta hacer..
Entiende los datos Oportunidades de trabajo
Sabe (conoce) cómo interpretar los datos
Trabaja en ambiente de equipo
28
Necesidades en Data Science & Data Scientist
IA
Deep L.
Algoritmos,
experimenta_
ción
Análisis, segmentación,
Aprender/optimizar agregación, training-
data
Detección de anomalías,
Agregar/etiquetar limpieza de datos
Almacenamiento de datos
Mover/guardar estructurados/no-estructurados
Instrumentación, sensors, recolección de datos

Colectar externos,
29
Involucrarse en la investigación con Data science
• Buscar-ubicar un dominio de aplicación de los conceptos/técnicas de Data Science
• Estos conceptos/técnicas de Data Science se pueden aplicar a (prácticamente) cualquier
dominio, necesario invertir tiempo en conocer el dominio
• Es casi imposible encontrar un campo donde no se “intente” almenos, aplicar
conceptos/técnicas de Data Science
31
Ciclo del Data Science
http://sudeep.co/data-science/Understanding-the-Data-
Science-Lifecycle/ 32
Ética en Data Science
https://elpais.com/elpais/2015/08/11/icon/1439304143_858615.html
https://www.nytimes.com/2012/02/19/magazine/shopping-habits.html?_r=0
33
Posibilidades actuales
• Tenemos acceso a datos sin precedentes
• Tenemos opciones de análisis sin precedentes
• Es casi ilimitado lo que se puede hacer con Data Science
Reglas
• Protección de datos
• Ética
34
Inadecuado
• Incluir/excluir datos en/para un análisis
• Hacer estudios (solo) en ciertos sitios
• Usar los datos para “destacar” un punto de vista
35
Reflexión para el data scientist !
36
Un poco de “context”
37
contexto
Sistemas de procesamiento de información

◦ Planificación de producción y distribución
◦ Gestión de existencias y suministros
◦ Gestión de clientes y personal
Datos
“Colón descubrió a América en 1492”
◦ Se refiere a una única instancia
◦ Describe propiedades individuales
◦ Con frecuencia, está disponible en grandes cantidades (BBDD, archivos)
◦ Usualmente, son fáciles de recolectar
◦ No nos permiten hacer predicciones
38
contexto
Información
“Colón descubrió a América en 1492”
◦ Una entidad que provee respuestas a
preguntas
◦ dato->información->conocimiento
Conocimiento
“todos los lunes hay un vuelo a las 7.00h”
◦ Se refiere a clases o instancias
◦ Describe patrones generales, estructuras
◦ Consiste de pocos estamentos (en lo posible)
◦ Usualmente, es difícil de establecer
◦ Nos permite hacer predicciones
39
contexto
Información
La información (datos) se puede capturar de diversas fuentes: online o offline [3]
Online
◦ Web servers
◦ Sensores (exercise monitors, household electric meters)
◦ inspección profunda de paquetes (usando dispositivos)
◦ Dispositivos móviles
Offline
◦ registros públicos
◦ registros internos
40
contexto
Persistencia de datos
La información (datos) se puede guardar en dispositivos locales o dispositivos de
almacenamiento externo, para luego ser recuperada y tratada [3, 4]
◦ Internal hosting
◦ External hosting
◦ Cloud hosting
Depuración de datos (data scrubbing)

Algunos datos sensibles (datos de información personal) pueden ser almacenados junto
a otros, como resultado de procesos de producción de información. Dichos datos deben
ser removidos (remplazados por un código/encriptado), anonimizados o aleatorizados
41
contexto
Anonimización y creación de metadatos
El proveedor de alojamiento de los datos mantiene información sobre los datos, los
datos en sí mismos y sobre el procesamiento de los datos [3]
Los metadatos proporcionan información sobre los orígenes e historial de los datos, con
suficiente detalle para (1) usar los datos y (2) realizar interpretación correcta de los
datos.
◦ Usando una Ontología
◦ Dentro de un archivo de datos (formatos diversos)
Acceso a datos, distribución

La empresa o el proveedor deben disponer de políticas de acceso a datos (políticas de
acceso primario, secundario, acuerdos).
Las diferentes aplicaciones usan diferentes técnicas (FTP, streaming, métodos de
autentificación/autorización). Para grandes volúmenes de datos-> proveedores: acceso
a datos, query access (sin transferir datos al cliente)
42
contexto
Criterios para evaluar el Conocimiento
No todos los estamentos (declaraciones) son importantes, útiles, igualmente sustanciales
El conocimiento debe ser evaluado
Algunos criterios de evaluación

◦ Generalidad. Rango de validez, condiciones de validez
◦ Corrección. Nivel de probabilidad, éxito en las pruebas
◦ Utilidad. Relevancia, poder predictivo
◦ Comprensibilidad. Simplicidad, comprensibilidad
◦ Novedad. Previamente desconocido, inesperado
◦ Prioridad. El conocimiento aplica/contribuye a la ciencia? (Corrección, Generalidad)
El conocimiento aplica/contribuye a la economía? (Utilidad, Novedad)
43
contexto
Cómo obtener/establecer Conocimiento
No conocemos un método general para establecer conocimiento
Problemas
◦ Disponibilidad de grandes cantidades

de datos
◦ Métodos manuales o “antiguos” son
poco eficientes
◦ Métodos tradicionales (simple aids) de
mostrar información gráfica
(daigramas de barra, etc) son muy
limitados
44
Aplicaciones practices de Data Science
46
Data Science is the science which uses computer science,
statistics and machine learning, visualization and human-
computer interactions to collect, clean, integrate, analyze,
visualize, interact with data to create data products.
O’Reilly Radar report, 2011

47
Referencias: links
[1] http://kdd.ics.uci.edu/ [consultado: Agosto 2018]
[2] http://homepages.vub.ac.be/~tiasguns/files/cp-tut-datascience.pdf [consultado: Agosto 2018]
[3] https://bigdatawg.nist.gov/_uploadfiles/NIST.SP.1500-2r1.pdf
48
Referencias
[*1] Han J., Kamber M. & Pei J. Data mining:
concepts and techniques, Morgan Kaufmann 2012.
[*2] Drew Conway & John Myles. Machine Learning

for Hackers, O’Reilly Eds. 2012
49

Introducción A Data Science (PPT1-1)

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Introducción A Data Science (PPT1-1)

Cargado por

Copyright:

Formatos disponibles

Curso 1: Introducción al Data Science

Diplomado en Big Data

Víctor Flores Fonseca

Departamento de Ingeniería de Sistemas y

Dr. Víctor Flores Fonseca

Horario de atención: miércoles de 18:00 a

• La ciencia de datos es la aplicación de técnicas computacionales y

Universidad Católica del Norte. Víctor Flores – mayo 2019 5

Data Science = Estadística+Data processing

Universidad Católica del Norte. Víctor Flores – mayo 2019 6

métricas Análisis, Generación de

integración Apps para exporter

datos información conocimiento

• El aprendizaje automático implica computación y estadísticas, pero

Universidad Católica del Norte Víctor Flores2019 12

Data Science no es Ciencias de la Computación

Universidad Católica del Norte. Víctor Flores – mayo 2019 13

• Algunas veces, para comprender realmente y responder pregunta, es necesario disponer

Universidad Católica del Norte. Víctor Flores – mayo 2019 14

Universidad Católica del Norte. Víctor Flores – mayo 2019 16

Limpieza de datos Actualización/

Modelo del Conocimiento

• Adquisición de datos y gestión de datos

Universidad Católica del Norte. Víctor Flores – mayo 2019 21

• Conocimientos básicos de Estadística

Universidad Católica del Norte. Víctor Flores – mayo 2019 22

Conocimientos de Data modeling y

Qué es y posibles uso de Oracle Cloud performance

Qué es y posibles uso de Big data analytics

Universidad Católica del Norte. Víctor Flores – mayo 2019 25

Algoritmos de Data Science Algoritmos de Big Data Data analisis

Universidad Católica del Norte. Víctor Flores – mayo 2019 27

Instrumentación, sensors, recolección de datos

Sistemas de procesamiento de información

Depuración de datos (data scrubbing)

Acceso a datos, distribución

Algunos criterios de evaluación

◦ Disponibilidad de grandes cantidades

O’Reilly Radar report, 2011

[*2] Drew Conway & John Myles. Machine Learning

También podría gustarte