Está en la página 1de 31

CLASE #01

INTRODUCCIÓN A DS

28 de julio de 2022
Prof. Diabb Zegpi D.
¡DIAGNÓSTICO! 2

Trivia con Kahoot


Instrucciones:
» Descargar la app de Kahoot, o
» Ingresar a www.kahoot.it
3

1.
INTRODUCCIÓN A DATA
SCIENCE
4


Data is like garbage. You’d better know what
you’re going to do with it before you collect it.

Mark Twain
QUÉ PUEDEN ENCONTRAR EN INTERNET 5

For Managers For Data Scientist


QUÉ PUEDEN ENCONTRAR EN INTERNET 6

For Managers For Data Scientist


» Historias de negocio exitosas » Código y más código
» Visualizaciones atractivas » Matemáticas y algoritmos
» Tendencias tecnológicas » Flujos de trabajo y buenas
» Metodologías de desarrollo prácticas
¿DE QUÉ LE SIRVEN LOS FUNDAMENTOS A UN GESTOR? 7

» Les permite mediar en discusiones técnicas


» Ayudan a fijar métricas de éxito razonables
» Les ayuda a distinguir entre lo que es factible y lo
que no es
» Les ayuda a comprender el valor del dato y
construir organizaciones DDD
8

Data
Driven Dev
Todos los estadios de la organización
tienen sus datos recolectados,
modelizados y desplegados
DATA-DRIVEN DEVELOPMENT (DDD) 9

Decisiones humanas Algunas decisiones Todo puede ser


mejor informadas son hechas medido y
automáticamente monitorizado
PERO, ¿QUÉ ES DATA SCIENCE? 10
DIAGRAMA DE VENN DE DATA SCIENCE 11

Programación Estadística

Dominio de
negocio
12


A data scientist is someone who is better at
statistics than any software engineer and
better at software engineering than any
statistician.

Josh Wills
13

2.
UN BREVE PASEO HISTÓRICO
14

1662
Nacimiento de la estadística como disciplina
Por John Graunt y William Petty
1858 – Guerra de Crimea 15

Florence Nightingale
Diseñó una visualización original
que expone cuál fue la causa real
de muerte de la milicia británica
durante la guerra.
Lectura recomendada: Florence
Nightingale, mucho más que la
dama de la lámpara.
Primera mitad del siglo XX 16

Donald Fischer
Padre de la estadística moderna. Focalizó en
problemas biológicos.
El estilo estadístico de la época: representar la
realidad con ecuaciones suficientemente sencillas,
para resolver a mano.
Segunda mitad del siglo XX 17

Computación
Ya no fue necesario hacer los
cálculos a mano.
Se hizo posible explorar los
datos de manera abierta.
Nacimiento del machine
learning.
2004 – Google 18

MapReduce
Innovador framework para programar
cluster de computadores y coordinarlos
en una sola tarea analítica.
19

3.
HOJA DE RUTA DE DATA
SCIENCE
HOJA DE RUTA 20

Definir el problema de Entender y preprocesar los Entrenar modelos y


negocio datos analizar resultados

1 3 5

2 4 6

Obtener un conjunto de Selección e ingeniería de Comunicar resultados.


datos objetivo atributos ¿El cliente es humano o
máquina?
OTROS FLUJOS DE TRABAJO 21

Flujos de trabajo
KDD, CRISP-DM, tidyverse, scikit-learn,
etc.
PANORAMA TOP-DOWN 22

FUENTES DE DATOS Bases de datos, sensores, encuestas, ERP, web

EXTRACCIÓN Queries, API, reportes, web scrapping

PROCESAMIENTO Limpieza, manipulación, machine learning

INFORMACIÓN Predicciones, patrones, clusters

ANÁLISIS Interpretación

CONOCIMIENTO Aplicación, decisiones


23

4.
ÉXITO VS FRACASO
CARACTERÍSTICAS DE PROYECTOS: ÉXITOS Y FRACASOS 24

Éxito Fracaso
» Equipos con habilidades » Datos inadecuados
complementarias » Las necesidades de la
» Hay liderazgo y comprensión organización son misteriosas
del negocio » Listas de deseos sin
» Se utilizan metodologías de priorización
desarrollo
25

¿Qué características observan en sus


organizaciones?
26

5.
TRABAJANDO CON DATOS
MODERNOS
SEGÚN SU ESTRUCTURA 27

Estructurados No estructurados
SEGÚN SU FORMATO 28
SEGÚN LA BASE DE DATOS 29

SQL NoSQL
SEGÚN EL TIPO DE DATO 30

False: lógico/boolean
45: numérico/integer/discreto
Mowag: categórico/string
1ro
2do
3ro: ordinal 12,5: numérico/float/double
31

GRACIAS

También podría gustarte