Taller Fundamentos de Data Science

Taller: Introducción práctica a las problemáticas de “ciencias de datos” y sociedad para no
computólogos.
Tallerista: Lic. Matías Eduardo Bordone Carranza
Fundamentación:
Los debates en torno a los datos, inteligencia artificial, etc, ocupan cada vez una agenda más
grande en las discusiones académicas en tecnología , política, y cultura, a la vez que en los
medios y los pasillos, pero muchas veces estas preocupaciones y debates llegan a puntos ciegos
o hipotéticos al no saber como funcionan o qué fundamentos tienen estas tecnologías. La idea es
trabajar algunas de estas problemáticas a través de la experimentación con tecnologías de este
tipo, especialmente con algunas técnicas de Machine Learning.
Objetivo general:
Compartir saberes prácticos sobre ciencia de datos (data science - DSC) que ayuden a reflexionar
críticamente a partir de la experimentación sin requerir conocimientos previos.
Objetivos particulares:
+ Comprender la noción de flujo de trabajo en data science
+ Experimentar con algunos de los algoritmos más utilizados.
+ Entender qué es un modelo, cómo se aplica y evalúa.
+ Reflexionar sobre algunos límites en las técnicas de data science.
Ver algunos de los problemas de las asunciones de data science:

+ "Si lo programaste, ¿cómo no sabes lo que hace?"
+ "¿Le puedo dejar tomar decisiones a los programas de DSC?". El caso de business
intelligence y lo que predicen varios modelos.
+ "Pero... !los datos lo dicen!". El sesgo en los datos: ¿cómo se recopilan y se conforman los
datos?
Metodología:
Se priorizará la modalidad aula-taller para experimentar y reflexionar sobre la práctica.
Modalidad: presencial, un encuentro de 3 horas.
Destinatarios: Personas que no sean programadores pero no teman instalar y experimentar con
un programa desconocido.
Requisitos:
+ Traer una computadora
+ Traer el programa knime instalado. Disponible en: https://www.knime.com/
Contenidos:
Parte 1 (20 min): Nociones de Clasificación y árboles de decisiones.

+ Jugamos a adivinar el personaje (si no se hace en vivo en la casa se puede jugar a
https://es.akinator.com/)
+ mientra se juega se va anotando la preguntas que se hacen
¿Cómo adivina/adivinamos?
¿Que tipo de preguntas nos dan más información que otras?
Construir un árbol de decisiones para la representación del conocimiento.
Parte 2 (60min): Práctico básico de clasificación

+ Abrir knime
+ Abrir el ejemplo de árboles de decisión dado.
+ explicar el flujo de trabajo e ir ejecutando los distintos módulos lo que es un flujo de trabajo
+ Lectura de datos, analizar que son “los datos”
+ Training y test
+ entrenar modelo
+ predicción
+ score
+ Entrenar otro modelo modelos, naive bayes,
+ Comparar la “eficiencia” de los algoritmos. (cómo leemos la evaluación, precision, recall,
matriz de confusión)
+ análisis de error, con ejemplos particulares mal clasificados
¿Podemos saber qué hace exactamente cada modelo? (Explicabilidad, árboles de decisión vs el
resto)
Parte 3 (45 min) : Práctico de Pruebas educativas:

+ Entrenar una rbold e decision y ver que dicen las features
+ Entrenarlo
+ Comparar valores.
Preguntas:
Le hago caso a un solo algoritmo?
Lo uso como insumo para una decisión humana?
Probleaticas:
Clases subrepresentadas - (quitar casos del arbol de isis, y ver que pasa con la detecciond e
cancer en mujeres)
Problemas con eventos de probabilidad baja (casos de cancer)
Causalidad vs correlación.
https://www.gaussianos.com/hay-que-decirlo-mas-correlacion-implica-causalidad/
Sesgo en los datos (muestra)

Sesgo sobre los datos:
https://developers.google.com/machine-learning/crash-course/fairness/video-lecture
https://medium.com/datos-y-ciencia/la-verdad-sobre-el-sesgo-en-inteligencia-artificial-5e228be3ae
e7
Parte 4 (30 minutos): Principios de la oecd para la inteligencia artificial

Lectura del articulo: https://www.pagina12.com.ar/220521-amazon-manipulo-a-sus-clientes
http://www.oecd.org/going-digital/ai/principles/
+ En grupo de 4 Leer los principios
+ En base a lo experimentado y debatido contestar la pregunta. Es posible asegurar estos
principios por parte de ¿los estados?
+ Puesta en común y cierre.
Ampliatorio:
https://www.youtube.com/watch?v=qzZCKENi3po
Bibliografía:
Tony Monleon (2017), Big data, hacia la cuarta revolución industrial
Cathy O’neil(2016), Armas de destrucción matemática
Carolina Martínez Elebi. (2019) IMPACTOS SOCIALES DE LA INTELIGENCIA ARTIFICIAL
Quedan afuera para otro taller
Parte 2: Recomendadores.
+ Como nos recomendaba cosas el video club
+ como nos recomienda cosas netflix
+ filtrado colaborativo: https://es.wikipedia.org/wiki/Filtrado_colaborativo
Parte 3: Redes neuronales.

+ Programando una red neuronal de reconocimiento de imágenes.
+ Reproducir el caso de la predicción de tanques vs dia/noche

Taller Fundamentos de Data Science

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Taller Fundamentos de Data Science

Cargado por

Copyright:

Formatos disponibles

Taller: Introducción práctica a las problemáticas de “ciencias de datos” y sociedad para no

Tallerista: Lic. Matías Eduardo Bordone Carranza

Ver algunos de los problemas de las asunciones de data science:

Modalidad: presencial, un encuentro de 3 horas.

Parte 1 (20 min): Nociones de Clasificación y árboles de decisiones.

Parte 2 (60min): Práctico básico de clasificación

Parte 3 (45 min) : Práctico de Pruebas educativas:

Sesgo en los datos (muestra)

Parte 4 (30 minutos): Principios de la oecd para la inteligencia artificial

Parte 3: Redes neuronales.

También podría gustarte