Está en la página 1de 26

¿Qué es la Ciencia e

Ingeniería de Datos?

La ciencia de datos es un campo interdisciplinario que involucra métodos


científicos, procesos y sistemas para extraer conocimiento o un mejor
entendimiento de datos en sus diferentes formas, ya sea estructurados o
no estructurados,​ lo cual es una continuación de algunos campos de
análisis de datos como la estadística, la minería de datos, el aprendizaje
automático, y la analítica predictiva.

https://es.wikipedia.org/wiki/Ciencia_de_datos
¿Qué es la Ciencia e
Ingeniería de Datos?

La Ciencia de Datos es como el sexo en los adolescente :

 Todo mundo hablan de eso,

 Nadie realmente sabe cómo hace

 Todo el mundo piensa que el otro lo esta haciendo

 Todo el mundo dice que lo están haciendo


DAN ARIELY
DATA SCIENCE

Los científicos de Datos combinan una variedad de habilidades, entre


ellas matemáticas, ingeniería de software y conocimiento
empresarial, para analizar datos recopilados de múltiples fuentes
(web, Hardware, clientes, sensores, redes sociales, cloud etc.)

La Ciencia de Datos revela tendencias y genera información que las


empresas pueden utilizar para tomar mejores decisiones y crear
productos y servicios más innovadores.
¿Por qué es
multidisciplinaria?

Data Science es una disciplina que combina múltiples aspectos

Explorar y analizar datos de diferentes


fuentes, con estructuras heterogéneas, Aprendizaje de máquinas a través de algoritmos, sin
es necesario conocer el contexto. programación previa

Conjunto de instrucciones ordenadas


que tienen por objetivo ejecutar una
tarea específica

Descripción y análisis de datos Base de Datos SQL y NoSQL


Diagrana de VEEN de
Ciencia de Datos
Los Científicos de Datos combinan una variedad de habilidades, entre ellas :
Habilidad de Hacker
Skills

Programming / Coding : R Studio y Phyton

Databases : MySQL, PostgreSQL, Cassandra,


MongoDB

Visualization : Tableau, Power BI , Markdown.

Big Dat : Hadoop, MapReduce y Spark.


Conocimiento en Matemáticas y
Estadísticas

 Algebra Lineal : Manipulación de Matriz y Vectores

 Estadística Descriptiva e Inferencial : Probabilidades,


regresiones e Interpretar los resultados que generan
estas herramientas
Conocimiento específico
del negocio

En el Entendimiento del Negocio se debe tener


un conocimiento de lo que realmente se está
queriendo hacer.

La ciencia trata de descubrimiento y construcción de conocimiento : Lo que requiere un


poco de preguntas motivacionales sobre el mundo y la hipótesis que pueden ser llevadas a
los datos y probadas con métodos numéricos
Elementos de Análisis en
Data Science

Técnicas de Visualización
Estadistica

Análisis Exploratorio Analisis Confirmatorio


de Datos - EDA de Datos – CDA
Análisis Exploratorio de
Datos

Explora los datos sin ninguna tipo hipótesis previa a fin de lograr la comprensión de los
mismos, también ayuda a comprender el procesos que genero los datos.

Generan Resumen Estadísticos, limpieza a fondo de los datos, así mismo determinar si los
datos son aptos para el modelo y se realizan comparaciones utilizando técnicas de
Visualización.
Análisis Confirmatorio

Se establece una hipótesis antes de recopilar los datos para la comprobación. En el Big Data y en
la Ciencia de Datos, la hipótesis es generada a partir de los datos que ya fueron recopilados.

En La Ciencia De Datos por lo general no se establecen hipótesis hasta que se lleve acabo el EDA
Técnicas de Visualización

Visualización de Datos : Es una técnica a través de la cual los resultados de analítica son comunicados
gráficamente utilizando gráficos, mapas, Histogramas, entre otros.
POWER BI - Contexto

Power BI es un servicio de análisis de negocios basado en la nube, Que permite un acceso rápido y fácil a los datos,
descubrimiento de datos y exploración de ideas de Cualquier dispositivo en toda la organización

Beneficios y Diferenciadores Clave de Power BI

 Tableros pre-construidos para soluciones.

 Actualizaciones en tiempo real.

 Conexiones seguras a fuentes de Datos.

 Exploración intuitiva usando lenguaje natural.

 Rápido Desarrollo.
POWER BI
¿Cuándo debo usar Python vs R?

PYTHON
https://www.python.org/downloads/

• ¿Qué es?
• Python es un lenguaje de programación creado por Guido
Van Rossum, con una sintaxis muy limpia, ideado para
enseñar a la gente a programar bien.

Ventajas
Legible: La codificación y depuración es fácil debido a la
sintaxis simple
Productivo: ahorra mucho código.
Portable: para todo sistema operativo.
Recargado: viene con muchas librerías por defecto.
¿Cuándo debo usar Python vs R?

RSTUDIO
https://rstudio.com/products/rstudio/download/

• ¿Qué es?
Rstudio es un lenguaje de programación creado por R fue creado en
1992 en Nueva Zelanda por Ross Ihaka y Robert Gentleman, es un
conjunto de programas integrados para el manejo de datos,
simulaciones, cálculos y realización de gráficos.

Ventajas
Legible: Es un lenguaje bastante adecuado para la estadística.
 Productivo: Si no tiene experiencia en codificación, entonces R
puede ser más fácil de aprender
Portable: Se ejecuta en muchas plataformas..
Recargado: viene con muchas librerías por defecto.
VENTAJAS

Ampliamente considerada la mejor herramienta para hacer Los lenguajes de programación de uso general son
hermosos gráficos y visualizaciones. útiles más allá del simple análisis de datos.

Tiene muchas funcionalidades para el análisis de datos. Ha ganado popularidad por su legibilidad de código,
velocidad y muchas funcionalidades.

Genial para el análisis estadístico. Excelente para el cálculo matemático y para


aprender cómo funcionan los algoritmos.

Posee un editor de datos, con soporte de depuración y Tiene alta facilidad de implementación y
una ventana para visualizar gráficos también. reproducibilidad.
DESVENTAJAS

Puede ser un poco más difícil para la personas sin


experiencias porque fue desarrollada por estadísticos, no
No tiene tantas bibliotecas como R, y no hay para facilitar la codificación.
reemplazos de módulos para los cientos de
paquetes que trae R.
Encontrar los paquetes correctos para usar en R puede
llevar muy tiempo.

Requiere pruebas rigurosas ya que los errores


aparecen es con el tiempo de ejecución.
Hay mucha dependencias entre sus bibliotecas.

Las visualizaciones son más complicadas y los R puede considerarse lento si el código está mal
resultados no son tan agradables o escrito.
informativos.

No es tan popular como Python para el aprendizaje


profundo.
ROLES EN EL MERCADO

Data Engineering Modeling Deployment Bussines Analytic AI Infrastructure

Data
Scientist

Machine Learning
Engineer

Data
Analyst

Software
Engineer ML

Machine Learning
Researcher

Software
Engineer

Career Path
¿Dónde aplican los roles?
Donde puedo aplicar
análisis de Datos

 Problema

 Objetivo

 Información

 Impacto

 ¿Que tipo de analitica seria ?

 Cuales pregunta busca responder


METODOLOGIAS

Las tres metodologías dominantes para el proceso de la Ciencai de los Datos

KDD, Proceso de Descubrimiento de Conocimiento

CRISP-DM (del inglés Cross Industry


Standard Process for Data Mining)
DATA SCIENCE

No, es más como jardinería.

Semillas = Algoritmos

Nutrientes = Datos

Jardinero = Tú

Plantas = Modelo/Programa

También podría gustarte