Documentos de Académico
Documentos de Profesional
Documentos de Cultura
INTRODUCCIÓN A DS
28 de julio de 2022
Prof. Diabb Zegpi D.
¡DIAGNÓSTICO! 2
1.
INTRODUCCIÓN A DATA
SCIENCE
4
“
Data is like garbage. You’d better know what
you’re going to do with it before you collect it.
Mark Twain
QUÉ PUEDEN ENCONTRAR EN INTERNET 5
Data
Driven Dev
Todos los estadios de la organización
tienen sus datos recolectados,
modelizados y desplegados
DATA-DRIVEN DEVELOPMENT (DDD) 9
Programación Estadística
Dominio de
negocio
12
“
A data scientist is someone who is better at
statistics than any software engineer and
better at software engineering than any
statistician.
Josh Wills
13
2.
UN BREVE PASEO HISTÓRICO
14
1662
Nacimiento de la estadística como disciplina
Por John Graunt y William Petty
1858 – Guerra de Crimea 15
Florence Nightingale
Diseñó una visualización original
que expone cuál fue la causa real
de muerte de la milicia británica
durante la guerra.
Lectura recomendada: Florence
Nightingale, mucho más que la
dama de la lámpara.
Primera mitad del siglo XX 16
Donald Fischer
Padre de la estadística moderna. Focalizó en
problemas biológicos.
El estilo estadístico de la época: representar la
realidad con ecuaciones suficientemente sencillas,
para resolver a mano.
Segunda mitad del siglo XX 17
Computación
Ya no fue necesario hacer los
cálculos a mano.
Se hizo posible explorar los
datos de manera abierta.
Nacimiento del machine
learning.
2004 – Google 18
MapReduce
Innovador framework para programar
cluster de computadores y coordinarlos
en una sola tarea analítica.
19
3.
HOJA DE RUTA DE DATA
SCIENCE
HOJA DE RUTA 20
1 3 5
2 4 6
Flujos de trabajo
KDD, CRISP-DM, tidyverse, scikit-learn,
etc.
PANORAMA TOP-DOWN 22
ANÁLISIS Interpretación
4.
ÉXITO VS FRACASO
CARACTERÍSTICAS DE PROYECTOS: ÉXITOS Y FRACASOS 24
Éxito Fracaso
» Equipos con habilidades » Datos inadecuados
complementarias » Las necesidades de la
» Hay liderazgo y comprensión organización son misteriosas
del negocio » Listas de deseos sin
» Se utilizan metodologías de priorización
desarrollo
25
5.
TRABAJANDO CON DATOS
MODERNOS
SEGÚN SU ESTRUCTURA 27
Estructurados No estructurados
SEGÚN SU FORMATO 28
SEGÚN LA BASE DE DATOS 29
SQL NoSQL
SEGÚN EL TIPO DE DATO 30
False: lógico/boolean
45: numérico/integer/discreto
Mowag: categórico/string
1ro
2do
3ro: ordinal 12,5: numérico/float/double
31
GRACIAS