Está en la página 1de 23

Sesión 1

Python para Data Science


Dra. Soledad Espezua. Ll. Dr. Edwin Villanueva T. Ing. Daniel Saromo M.
sespezua@pucp.edu.pe evillatal@pucp.edu.pe daniel.saromo@pucp.pe

1
Agenda

• Introducción a Data Science (DS)


• Definición de DS
• Diferencias entre ML, IA y DS
• Tareas en DS
• Metodología de DS
• Mercado laboral
• Python
• Ecosistema de herramientas en Python

PhD. Edwin Villanueva Talavera PhD. Soledad Espezúa Llerena 19 de junio de 2021 2
Definición de Data Science
• La ciencia de datos es una colección de técnicas que se utilizan para extraer valor de los datos. Se
ha convertido en una herramienta esencial para cualquier organización que recopile, almacene y
procese datos como parte de sus operaciones. Las técnicas de ciencia de datos buscan encontrar
patrones, conexiones y relaciones útiles dentro de los datos.

• La ciencia de datos es el campo de estudio que combina la experiencia en un dominio, las


habilidades de programación y el conocimiento de matemáticas y estadísticas para extraer
información significativa de los datos. Los profesionales de la ciencia de datos aplican algoritmos de
aprendizaje automático a números, texto, imágenes, video, audio y más para producir sistemas de
inteligencia artificial (IA) que realizan tareas que normalmente requieren inteligencia humana. A su
vez, estos sistemas generan información que los analistas y los usuarios comerciales traducen en
valor comercial tangible.

Programming skills Math & Statistic Knowledge 3


IA, Machine Learning y Data Science

4
Premio Nobel 2020: Agujeros negros

Roger Penrose, Reinhard Genzel y Andrea Ghez

Katie Bouman

https://directory.eoportal.org/web/eoportal/satellite-missions/b/black-hole 5
Tareas en Data Science

Descripción &
exploración
•Visualización

Asociación
•Patrones

Maximizar las distancias entre los clusters


Agrupamiento
•Clustering
Minimizar las distancias dentro de los clusters

6
Tareas en Data Science

Clasificación
•V. Categórica

?
Regresión o
Estimación
•V. Numérica

Si
Precio

Pronóstico ?
temporal
No
Tiempo
Tiempo

7
Metodología en Data Science

Fase de comprensión Fase preparación de


del problema los datos

Fase de implementación Fase de análisis


exploratorio

Fase de evaluación Fase de configuración

Fase de Modelado

8
Mercado Laboral

(Hal Varian, chief economist at Google and UC Berkeley professor)

Financial asessor Data Science

Yahoo, Facebook, Google, Amazon, Microsoft, Walmart, eBay,


LinkedIn y Twitter, trabajan continuamente perfeccionado kit
de herramientas de desarrollo en DataScience 9
Python

• Python es un lenguaje de programación de alto nivel,


interpretado, orientado a objetos.

• De código abierto, para que cualquiera pueda contribuir


a su desarrollo.

• Es fácil de aprender

• Es fácil de usar para escribir software nuevo.

• Es fácil de obtener, instalar e implementar.

• Es un lenguaje flexible, que puede verse como un


lenguaje multiparadigma.
✓ Útil para las personas que ya saben programar en otros lenguajes

• Es un lenguaje de programación maduro


✓ También tiene excelentes propiedades para programadores novatos
(ideal para personas nunca han programado). Aunque su nombre se asocie con la gran serpiente pitón,
el creador de Python(Guido Van Rossum , 1991) nombró
• Amplia disponibilidad de librerías para DS. el lenguaje en honor de una vieja serie de comedia de la
BBC llamada Monty Python's Flying Circus.

10
¿Por qué usar Python?

Crecimiento de los lenguajes mas populares

https://insights.stackoverflow.com/trends?tags=java%2Cpython%2Cjavascript%2Cr

11
¿Por qué usar Python?

Comparación de los lenguajes más populares

https://trends.google.es/trends/explore?date=today%205-y&q=%2Fm%2F05z1_,%2Fm%2F07sbkfb,%2Fm%2F0212jm,%2Fm%2F053_x

12
Ecosistema de Herramientas en Python

❑ Ambiente de trabajo ❑ Librerías

13
Anaconda (package manager)

● https://www.anaconda.com/download

14
Instalación de Python

15
Jupyter Notebook

16
JupyterLab

17
Anaconda (package manager)

Listar librerías instaladas:


> conda list

Instalar librería:
> conda install scikit-learn

Desinstalar:
> conda uninstall scikit-learn

Actualizar librerías:
> conda update --all

18
Ambiente de trabajo

Iniciar jupyper:
> jupyter-notebook

19
Jupyter notebook

20
Jupyter notebook

21
Ver documentación

Shift + tab

22
Ver código fuente

23

También podría gustarte