Documentos de Académico
Documentos de Profesional
Documentos de Cultura
● Enfoque Analítico
● Requisitos de Datos
● Recopilación de Datos
● Preparación de Datos
● Modelado
● Evaluación
● Comentarios
Introducción a CRISP-DM
Metodologías de la Ciencia de Datos
Este curso se enfoca en la Metodología Fundacional para la Ciencia de Datos de John
Rollins, que fue presentada en el video anterior. Sin embargo, esta no es la única
metodología que encontrarás en la ciencia de datos. Por ejemplo, en la minería de
datos se usa comúnmente la metodología CRISP-DM (del inglés Cross Industry
Standard Process for Data Mining).
¿Qué es CRISP-DM?
La metodología CRISP-DM es un proceso orientado a incrementar el uso de la
minería de datos en una amplia variedad de aplicaciones de negocios e industrias. La
intención es tomar escenarios de casos específicos y comportamientos generales
para volverlos de dominio neutro. La CRISP-DM está compuesta por 6 pasos que
debe implementar una entidad para tener una probabilidad razonable de éxito.
Estos seis pasos se muestran en el siguiente diagrama:
Fig.1 CRISP-DM model, IBM Knowledge Center, CRISP-DM Help Overview
3. Preparación de datos:
4. Modelado:
Cuando estén listos para ser usados, los datos deben expresarse a través de los
modelos apropiados, brindando perspectivas significativas y ojalá conocimiento
nuevo. Este es el propósito de la minería de datos: crear información y conocimiento
que tenga sentido y utilidad. El uso de modelos revela patrones y estructuras dentro
de los datos que ofrecen una mirada a las características de interés. Los modelos se
eligen con una porción de los datos y se hacen ajustes de ser necesario. La elección
de modelos es un arte y una ciencia. Tanto la Metodología Fundacional y la CRISP-
DM se necesitan en la etapa subsiguiente.
5. Evaluación
El modelo elegido debe ser probado. Esto suele llevarse a cabo con una prueba
preseleccionada sobre la cual se ejecuta el modelo. Esto te permitirá ver la
efectividad del modelo sobre un conjunto que percibe como nuevo. Los resultados
de esta prueba se usan para determinar la eficacia del modelo y deja entrever su
papel en la siguiente y última etapa.
6. Despliegue:
En la fase de despliegue, el modelo se usa con datos nuevos por fuera del alcance del
conjunto de datos inicial y por parte de nuevos actores. Las interacciones nuevas en
esta fase pueden revelar nuevas variables y necesidades del conjunto de datos y el
modelo. Estos nuevos desafíos podrían dar lugar a la revisión de las necesidades y
acciones del negocio, o del modelo y los datos, o de ambos.
Para más información sobre CRISP-DM, visita: IBM Knowledge Center – CRISP-DM
Bienvenido a Data Science Metodología 101 De los requisitos a los requisitos de recopilación
de datos! Si tu objetivo es hacer una cena de espaguetis pero no tienes los ingredientes
adecuados para hacer este plato, entonces tu éxito se verá comprometido. Piense en esta
sección de la metodología de la ciencia de datos como cocinar con datos. Cada paso es
fundamental para hacer la comida. Por lo tanto, si el problema que debe resolverse es la
receta, por así decirlo, y los datos son un ingrediente, entonces el científico de datos necesita
identificar: qué ingredientes se requieren, cómo obtener o recolectarlos, cómo entenderlos o
trabajar con ellos, y cómo preparar los datos para cumplir con el resultado deseado.
Basándose en la comprensión del problema en cuestión, y luego utilizando el enfoque analítico
seleccionado, el Data Scientist está listo para comenzar. Ahora veamos algunos ejemplos de los
requisitos de datos dentro de la metodología de la ciencia de datos. Antes de emprender las
etapas de recopilación y preparación de datos de la metodología, es vital definir los requisitos
de datos para la clasificación del árbol de decisiones. Esto incluye la identificación del
contenido de datos, formatos y fuentes necesarios para la recopilación inicial de datos. Así que
ahora, veamos el estudio de caso relacionado con la aplicación de «Requisitos de Datos». En el
estudio de caso, la primera tarea fue definir los requisitos de datos para el enfoque de
clasificación del árbol de decisiones seleccionado. Esto incluyó la selección de una cohorte de
pacientes adecuada de la base de afiliados de proveedores de seguros médicos. Con el fin de
compilar las historias clínicas completas, se identificaron tres criterios para su inclusión en la
cohorte. Primero, un paciente necesitaba ser ingresado como paciente internado dentro del
área de servicio del proveedor, para que tuviera acceso a la información necesaria. En segundo
lugar, se centraron en pacientes con diagnóstico primario de insuficiencia cardíaca congestiva
durante un año completo. En tercer lugar, el paciente debe haber tenido una matrícula
continua durante al menos seis meses, antes del ingreso primario por insuficiencia cardíaca
congestiva, para poder compilar la historia clínica completa. Los pacientes con insuficiencia
cardíaca congestiva que también habían sido diagnosticados con otras afecciones médicas
significativas, fueron excluidos de la cohorte porque estas afecciones provocarían tasas de
reingreso superiores a la media y, por lo tanto, podrían sesgar los resultados. Luego se definió
el contenido, el formato y las representaciones de los datos necesarios para la clasificación del
árbol de decisiones. Esta técnica de modelado requiere un registro por paciente, con columnas
que representan las variables del modelo. Para modelar el resultado de la readmisión, era
necesario contar con datos que cubran todos los aspectos de la historia clínica del paciente.
Este contenido incluiría admisiones, diagnósticos primarios, secundarios y terciarios,
procedimientos, prescripciones y otros servicios prestados durante la hospitalización o durante
las visitas al paciente o al médico. Por lo tanto, un paciente en particular podría tener miles de
registros, representando todos sus atributos relacionados. Para llegar al formato de un registro
por paciente, los científicos de datos enrollaron los registros transaccionales al nivel del
paciente, creando una serie de nuevas variables para representar esa información. Este fue un
trabajo para la etapa de preparación de datos, por lo que es importante pensar en el futuro y
anticipar las etapas posteriores. Esto finaliza la sección Requisitos de datos para este curso. ¡
Gracias por mirar!
SEMANA2:
¡Bienvenido(a) a Metodología de la Ciencia de Datos 101 De la Comprensión a la Preparación!
Comprensión de los Datos. La comprensión de los datos involucra todas las actividades de
construcción de un conjunto de datos. En esencia, la sección de comprensión de los datos de la
metodología de la ciencia de datos responde a esta pregunta: ¿Los datos que recolectaste son
representativos del problema a resolver? Apliquemos la etapa de comprensión de los datos de
nuestra metodología, al estudio de caso que hemos venido examinando. Para comprender los
datos relacionados con admisiones por insuficiencia cardíaca, se debía correr estadísticas
descriptivas frente a las columnas de datos que se volverían variables en el modelo. Primero,
estas estadísticas incluyeron Hearst, univariantes y estadísticas en cada variable tales como
media, mediana, mínimo, máximo y desviación estándar. Segundo, se usaron correlaciones por
pares, para ver qué tan cerca se relacionaban ciertas variables, y cuáles, si las había, estaban
muy altamente correlacionadas, de modo que serían esencialmente redundantes, haciendo
que sólo una fuera relevante para el modelado. Tercero, se examinaron histogramas de las
variables para entender sus distribuciones. Los histogramas son un buen modo de entender
cómo se distribuyen los valores de una variable, y cuáles tipos de preparación se necesitarían
para volver la variable más útil en un modelo. Por ejemplo, para que una variable categórica
con demasiados valores distintos sea informativa en un modelo, el histograma les ayudaría a
decidir cómo consolidar esos valores. Univariantes, estadísticas e histogramas también se usan
para evaluar la calidad de los datos. Con la información conseguida, ciertos valores pueden
recodificarse o incluso descartarse de ser necesario, como cuando cierta variable tiene
demasiados valores faltantes. La pregunta es, entonces, ¿"faltante" significa algo? A veces un
valor faltante puede significar "no", o "0" (cero), o en ocasiones sólo significa "no sabemos". O,
si una variable contiene valores inválidos o confusos, tales como una variable numérica
llamada "edad" que contiene 0 a 100 y también 999, donde ese "triple-9" realmente significa
"faltante", pero se trataría como un valor válido a menos que lo corrigiéramos. Inicialmente, el
significado de admisión por insuficiencia cardíaca se decidió sobre la base de un diagnóstico
primario de insuficiencia cardíaca. Pero al avanzar en la etapa de comprensión de los datos se
reveló que la definición inicial no capturaba todas las admisiones por insuficiencia cardíaca que
se esperaban, según la experiencia clínica. Esto implicó volver a la etapa de recolección de
datos y agregar diagnósticos secundarios y terciarios, construyendo una definición más
completa de la admisión por insuficiencia cardíaca. Este sólo es un ejemplo de los procesos
interactivos de la metodología. Entre más se trabaja con el problema y los datos, más se
aprende y por lo tanto más refinamientos pueden hacerse dentro del modelo, llevando en
últimas a una mejor solución del problema. Aquí termina la sección de Comprensión de los
Datos de este curso. ¡Gracias por tu atención!
Tenga en cuenta que la frase "reseña literaria" en el siguiente video: Preparación de Datos –
Caso Práctico, se supone que es "reseña bibliográfica".
Parte 2
Semana 3:
https://www.youracclaim.com/org/ibm/badge/data-science-methodology
Las insignias digitales de IBM son una credencial en línea que valida las habilidades
que adquirió al aprobar este curso. Puede compartir insignias digitales de IBM en
sitios de redes sociales populares, como Linked-In, Twitter o Facebook. Cada insignia
que gana tiene una URL única que puede incrustar en un sitio web, correo
electrónico o CV; por lo tanto, no podría ser más fácil compartir sus insignias y sus
logros. Las credenciales digitales de IBM se adhieren al estándar global Open Badges
gestionado por IMS Global Learning Consortium, por lo que también puede
compartir las credenciales digitales de IBM con cualquier sitio de credenciales que
cumpla con OBS, como Mozilla Backpack. IBM se ha asociado con Credly Acclaim
para emitir y gestionar credenciales digitales de IBM. Si aprueba este curso y obtiene
el certificado de Coursera, se le proporcionarán instrucciones sobre cómo aceptar y
reclamar su insignia digital de IBM.