Está en la página 1de 28

Clase 2

Fundamentos de la ciencia
de datos / Metodologías
para proyectos Data Science

Francia Berna Sánchez


f.berna@uc.cl
• Ingeniera Informática.
• Magíster en Educación, Diplomada en: Data Science UC , Inteligencia de Negocios y
Procesos de Negocio.
• Consultora Business Intelligence, Docente, Asesora académica, Coach professional y
Mamá.

f.berna@uc.cl
/franciabernasanchez
Objetivos clase 24-04-2023

¿Qué aprenderemos hoy?

• Cómo como abordar un proyecto de datos.

• Conocer diferentes metodologías para proyectos de

datos.

• Revisar en detalle la metodología de 6 pasos.


INTRODUCCIÓN

Quiero desarrollar un proyecto


en ciencia de datos.
¿Por dónde partir?
INTRODUCCIÓN

¿Cómo abordar un proyecto DS?

ü Antes de preocuparse por los aspectos


técnicos se requiere definir un enfoque para
nuestro proyecto. Se debe ser imagina9vo
en diseñar estrategias y obje9vos
innovadores.

ü Para el planteamiento y definición del


problema hay que hacerse todas las
preguntas posibles. Si queremos que los
datos trabajen para nosotros, debemos ser
capaces de hacer las preguntas adecuadas.

ü Todos los proyectos de DS van a ser


diferentes, no se podrá seguir un único
patrón, ya que dependerá de las
caracterís9cas y condiciones de cada
desaFo.
INTRODUCCIÓN

¿Cómo abordar un proyecto DS?

ü En todas las fases del proyecto es fundamental la


colaboración y el trabajo mul9disciplinario para
robustecer la visión integral del proyecto.

ü En las grandes empresas, obtener todos los


datos que necesita para terminar su proyecto
puede ser una autén9ca locura.
INTRODUCCIÓN

¿Qué es lo más aburrido en y


lo más entretenido en un
proyecto de DS?
INTRODUCCIÓN
• De acuerdo con la encuesta que realizó la compañía Crowd Flower (2017) a 179
cien5ficos de datos seleccionados en todo el mundo, se iden7ficó la distribución de las
ac7vidades que les toma mayor 7empo en su quehacer, las cuales se distribuyen de la
siguiente manera:
Metodologías proyectos DS

KDD (Knowledge Discovery in Databases)


SEMMA (Sample, Explore, Modify,
Model and Access)

CRISP-DM (Cross- • ASUM-DM (IBM)


Industry Standard • DMAMC (Isixsigma)
Process for Data Mining)
KDD

• Es una metodología propuesta por Fayyad en 1996, propone 5 fases: Selección,


preprocesamiento, transformación, minería de datos y evaluación e
implantación. Es un proceso iteraKvo e interacKvo.
SEMMA

• SEMMA es el acrónimo a las cinco fases: (Sample, Explore, Modify, Model,


Assess) La metodología es propuesta por SAS InsKtute Inc, la define como: “...
proceso de selección, exploración y modelamiento de grandes canKdades de
datos para descubrir patrones de negocios desconocidos...”
CRISP DM

Cross-Industry Standard Process for Data Mining (CRISP- DM)

• IniciaKva financiada por la Comunidad Europea ha unido para desarrollar una


plataforma para Minería de Datos. (1999)
• Fomentar la interoperabilidad de las herramientas a través
de todo el proceso de minería de datos
• Eliminar la experiencia misteriosa y costosa de las tareas simples de minería de datos.
Comparación
Encuesta: uso de Metodologías

• KDnuggets es una fuente común para el uso de la metodología de minería de datos. Cada
una de las encuestas en 2002, 2004, 2007 planteó la pregunta: "¿Qué metodología
principal está u9lizando para la minería de datos?", y la encuesta de 2014 amplió la
pregunta para incluir "...para análisis, minería de datos o proyectos de ciencia de datos".
150-200 encuestados respondieron a cada encuesta.

Regional distribution of
voters was
• US/Canada, 45.5%
• Europe, 28.5%
• Asia, 14%
• Latin America, 9.5%
• Other, 2.5%
INTRODUCCIÓN

¿Cómo abordar un proyecto de Data


Science?
No existe un consenso acerca de la forma más adecuada de trabajar haciendo uso
de Data Science, pero generalmente el proceso pasa por 6 etapas.

Revisaremos las 6 etapas, considerando CRISP DM como la metodología principal a


uClizar en el proyecto de aplicación.
Proceso Proyecto DS (1/7)

*Proceso referencial
Proceso Proyecto DS (1/6)

Paso 1: Fijar los obje/vos


• Dedique 9empo a comprender las metas y el contexto de su inves9gación y defina una acta
de cons9tución del proyecto.
• Definición del problema de Data Science
• El obje9vo principal aquí es asegurarse de que todos los interesados comprendan el qué,
cómo y porqué del proyecto (business case).

“Ningún viento es favorable si no sabes hacia dónde te


diriges”
Séneca
Proceso Proyecto DS (1/6)
Preguntas para un Data Scien=st
¿Esto es A o B?
¿Fallará esta pieza de maquinaria en los próximos días?
¿Qué atrae más clientes, un cupón regalo o un % de descuento?
¿Éste tweet es posiJvo?
¿Qué servicio elegirá este cliente A, B o C?

¿Es esto normal o aquí pasa algo raro?


• ¿Es normal este cargo de una tarjeta de crédito? (prevención de
fraude)
• ¿Es normal este mensaje de correo? (prevención de spam)
• ¿Es normal esta medición registrada? (prevención de averías)
Proceso Proyecto DS (1/6)
Preguntas para un Data Scien=st
¿Cuánto o cuántos?
• ¿Cuál será el volumen de ventas de este trimestre?
• ¿Qué temperatura hará mañana?
• ¿Cuál será el consumo eléctrico previsto a la hora del partido?

¿Cómo está organizado esto?


• ¿Qué modelos de impresora tienen la misma avería?
• ¿Qué libros debemos recomendar a este cliente?
• ¿Qué oferta personalizada debemos hacer a este cliente?

Y ahora, ¿qué conviene hacer?


• Soy un coche sin conductor y esto es un semáforo en amarillo: ¿acelero
o me paro?
• Soy un robot aspirador, y me queda un 30% de batería, ¿sigo aspirando
o voy a la estación a recargar?
Proceso Proyecto DS (2/6)
Paso 2: Recogida de datos
• El siguiente paso en la ciencia de datos es diseñar el proceso de recolección de datos
necesarios.
• El resultado son los datos en crudo (raw data) o datos primarios, que prácticamente
siempre hay que pulir y transformar antes de que se conviertan en utilizables.

Sistemas y aplicaciones

Búsquedas en Internet

Datos de organizaciones y
empresas
Proceso Proyecto DS (3/6)
Paso 3: Procesar los datos

• Esto incluye la transformación de los datos primarios en datos directamente u7lizables en los
modelos. Para conseguirlo, se detectarán y corregirán diferentes 7pos de errores en los datos
y se fusionarán o combinarán datos de diferentes fuentes, normalizando, agrupando etc.
• Si se ha completado este paso con éxito, se puede seguir avanzando hacia la visualización y
modelado de datos.
Proceso Proyecto DS (4/6)
Paso 4: Exploración de los datos
El cuarto paso es el de la exploración de datos. El obje7vo de este paso es obtener una
comprensión profunda de los datos. Hay que buscar patrones, correlaciones y desviaciones
basadas en técnicas visuales y descrip7vas. Los conocimientos adquiridos nos permiten
comenzar a modelar.
Proceso Proyecto DS (5/6)
Paso 5: Construcción del modelo o modelado de datos

Llegamos a la parte que da sen7do al proceso: la construcción del modelo o


modelado de datos. Es el momento de obtener los “insights” o de probar las
predicciones establecidas en el “Project Charter”. Ahora es el momento de sacar las
armas pesadas, aunque esto no significa que se trate de construir un modelo complejo
frente a la eficacia de la combinación de otros más simples.
Proceso Proyecto DS (6/6)
Paso 6: Presentar resultados y automa=zar

El úl7mo paso del modelo de ciencia de datos es presentar sus resultados y si es


necesario automaJzar el análisis. Un obje7vo de un proyecto puede ser cambiar un
proceso y / o tomar mejores decisiones. Es posible que todavía tengamos que
convencer a los interesados de que sus resultados realmente cambiarán el proceso de
negocio tal como se esperaba. La importancia de este paso es más evidente en
proyectos a nivel estratégico y tác7co. Algunos proyectos requieren que realice el
proceso varias veces, por lo que la automa7zación del proyecto ahorrará 7empo.
CONSIDERACIONES
• En realidad, no se avanza de manera lineal del paso 1 al paso 6. Lo habitual es hacer
un reworking y regresar a algún paso anterior para seguir avanzando.
• Los conocimientos aprendidos durante el análisis, por ejemplo, pueden generar
nuevos proyectos. Cuando el equipo de ciencia de datos genera un insight, puede ser
el punto de partida para hacer una nueva propuesta de investigación.
• La división de un proyecto en etapas más pequeñas también permite a las personas
trabajar juntos en equipo. Tenga en cuenta que es imposible ser un especialista en
todo. Es una tarea difícil, y es por eso que más y más empresas confían en un equipo
de especialistas en lugar de tratar de encontrar una persona que puede hacerlo
todo.
Próximos pasos

• Próxima clase CRISP ML


• Explicación en detalle del trabajo de aplicación
• Inicio del trabajo en grupos
Trabajo Diplomado– entrega 1

• Grupos de 4 o 5 integrantes idealmente mul3disciplinario


• Elegir el problema a resolver con datos de empresa (anónimos), datos
públicos (Ejemplo INE), datos de bases confiables (Ejemplo: Kagle)
Francia Berna Sánchez
Académica Diplomado Data Science UC

http://datascience.uc.cl
f.berna@uc.cl
/franciabernasanchez

También podría gustarte