Está en la página 1de 6

Universidad de Guayaquil

FACULTAD DE CIENCIAS MATEMÁTICAS Y FÍSICAS

ASIGNATURA: Electiva III – Inteligencia de Negocios


TEMA: INFRAESTRUCTURA Y ARQUITECTURA DE INTELIGENCIA DE
NEGOCIOS – Unidad 3
DOCENTE: Ing. Víctor Pazmiño M., Msc
NOMBRE: Katherin Melissa Villena Sotomayor

CUESTIONARIO
1. Según (Witten and Frank, 2016), ¿Qué es la minería de Datos? (8.2)
Proceso de extraer conocimiento útil y comprensible, previamente desconocido,
desde grandes cantidades de datos almacenados en distintos formatos.
2. Defina 3 escenarios de cada una de las siguientes disciplinas en las que se puede
aplicar minería de datos: Medicina, Banca y Deportes (8.3)
Medicina:
• Identificación de patrones novedosos para mejorar la supervivencia de
pacientes con cáncer.
• Predicción de tasas de éxito en trasplantes de órganos a pacientes para
desarrollar políticas de donantes/receptores en el tratamiento clínico.
• Genómica. Identificación de los diferentes genes del cromosoma humano.
Banca:
• Detección de patrones de uso fraudulento de tarjetas y transacciones de banca
en línea{online).
• Automatización de los procesos de concesión de préstamos para predecir, con
la mayor precisión posible, los morosos más probables.
• Estudio de concesión de tarjetas de crédito.
Deportes:
La Minería de Datos también tiene, curiosamente, numerosas y prácticas
aplicaciones en el mundo del deporte. En casi todos los deportes se encuentran
aplicaciones de minería. Una de las más conocidas en baloncesto, donde es clásica
la aplicación de la NBA (National Basketball Association) de Estados Unidos, que
desarrolló una aplicación de Minería de Datos para PC (Advanced Scout), que
permite descubrir patrones de comportamiento de interés para el desarrollo de los
partidos de la NBA.
Otro caso muy conocido es el equipo AC de Milán que desde hace bastantes años
utiliza un sistema inteligente para prevenir lesiones. El club posee aplicaciones de
redes neuronales para prevenir lesiones y optimizar el acondicionamiento de cada
atleta, de modo que pueda ayudar a seleccionar el fichaje de un posible jugador o a
alertar al médico del equipo de una posible lesión. El sistema de Minería de Datos
fue creado por la compañía Computer.
3. ¿Cuáles son las etapas del proceso KDD? (8.4)
• Selección de datos. En esta etapa se determinan las fuentes de datos y el tipo de
información que se ha de utilizar. Es la etapa donde los datos relevantes para el
análisis son extraídos desde las fuentes de datos
• Preprocesamiento. Esta etapa consiste en la preparación y limpieza de los datos
extraídos desde las distintas fuentes de datos en una forma manejable, necesaria
para las fases posteriores. En esta etapa se utilizan diversas estrategias para
manejar datos faltantes o ausentes, en blanco, datos inconsistentes o que están
fuera de rango, obteniéndose al final una estructura de datos adecuada para su
posterior transformación.
• Transformación. Consiste en el tratamiento preliminar de los datos,
transformación y generación de nuevas variables a partir de las ya existentes, con
una estructura de datos apropiada. Aquí se realizan operaciones de agregación o
normalización, consolidando los datos de una forma necesaria para la fase
siguiente.
• Minería de Datos. Es la fase de modelado propiamente dicho, en donde métodos
inteligentes son aplicados con el objetivo de extraer patrones previamente
desconocidos, válidos, nuevos, potencialmente útiles y comprensibles, y que están
contenidos u “ocultos" en los datos. Interpretación y Evaluación. Se identifican los
patrones obtenidos, que son realmente interesantes, basándose en algunas medidas,
y se realiza una evaluación de los resultados obtenidos.
4. ¿Cuáles son las etapas del proceso KDD en Base de Datos? (8.4)
El proceso de extracción/descubrimiento del conocimiento en bases de datos Fayyad
consta de las siguientes fases
• Selección de datos (Integración y recopilación)
• Preprocesamiento de datos (Preprocesamiento)
• Limpieza de datos
• Integración de datos
• Transformación y reducción de datos. Selección de la técnica de MD
• Interpretación/Evaluación de los patrones (Difusión y utilización del nuevo
conocimiento)
5. ¿Cuál es la diferencia entre KDD y Minería de datos? (8.4)
La Minería de Datos es una etapa particular del proceso KDD, donde la Minería de
Datos aplica algoritmos o técnicas específicos para la extracción de patrones de los
datos (Fayyad et al, 1996), La Minería de Datos es la etapa más importante del
KDD, que integra los procesos de aprendizaje y métodos estadísticos para la
obtención de hipótesis de patrones y modelos. De modo informal se asocia Minería
de Datos con KDD.

6. Qué actividades se realizan en la etapa de Preprocesamiento de datos (8.4.1)


Las actividades de esta etapa son:
• Limpieza de datos (data cleaning).
• Transformación de los datos.
• Reducción de la dimensionalidad.
La limpieza de datos requiere la selección de datos que pueden ser de diferentes
categorías:
Datos perdidos (missing values), que pueden conducir a resultados poco precisos.
Se requiere analizar el motivo de la pérdida y es preciso dar soluciones — rellenado
manual, ignorarlos, eliminar el campo de la tabla (fila/columna), usar un valor
especial (por ejemplo, desconocido), inferirlos utilizando técnicas estadísticas,
etcétera
Datos anómalos (outliers) e inconsistencias. Valores que no se ajustan al
comportamiento general de los datos o bien datos erróneos correctos pero distintos a
los restantes. Se requiere en primer lugar su identificación y, a continuación, en
función del problema en cuestión, se Mtrataran como valores perdidos y se obtendrá'
información de ellos.
Inconsistencias. Datos inconsistentes, registros duplicados, etcétera. Normalmente,
se tratan en la elaboración de la base de datos o del almacén de datos.
La transformación de los datos requiere:
Construcción de nuevos atributos (se verán posteriormente), aplicando alguna
operación a los atributos originales.
Discretización consistente en pasar atributos continuos o discretos a casos discretos
manejables o categóricos.
La reducción de la dimensionalidad requiere:
Reducción de casos y filas; selección de variables con la elección del conjunto de
atributos adecuado para la tarea específica por realizar.

7. ¿De qué dependerán las decisiones que se tomen en la etapa de Técnica de


Minería de datos? (8.4.1)
Las decisiones que se han de tomar dependerán de:
• Tipo de conocimiento buscado (predictivo, descriptivo).
• Técnica más adecuada (clasificación, regresión, agrupamiento clustering,
asociaciones).
• Tipo de modelo ('clasificación, reglas, árboles de decisión).
• Incertidumbre en el modelo resultante (certeza, probabilidad, lógica
difusa).
• Tipo de algoritmo más adecuado.
8. ¿Qué tareas se realizan en la etapa de difusión y utilización del nuevo
conocimiento? (8.4.1)
Una vez construido y validado el modelo, se puede utilizar para recomendar
acciones que se han de seguir y para aplicar el modelo a diferentes conjuntos de
datos. Se requieren tareas de difusión, mediante la elaboración de informes para su
distribución, utilización del nuevo conocimiento de modo independiente e
incorporación a sistemas ya existentes en la organización.
9. ¿Cuáles son las etapas de la metodología CRISP-DM? (8.5)
proceso ofrece un resumen del ciclo vital de la Minería de Datos. Las seis fases o
etapas son:
1. Comprensión del negocio.
2. Comprensión de los datos.
3. Preparación de los datos.
4. Modelado.
5. Evaluación.
6. Despliegue/Distribución o desarrollo
(Implantación).

10. ¿Qué involucra la fase de Comprensión del negocio? (8.5.1)


Esta fase inicial se enfoca en la comprensión de los objetivos de proyecto y en la
definición de las necesidades del cliente. Este conocimiento de los datos después se
convierte en la definición de un problema de Minería de Datos y en un plan
preliminar diseñado para alcanzar los objetivos. En esta fase se trata de entender los
objetivos del negocio y requerimientos del proyecto, desde una perspectiva del
negocio y no técnica.
11. ¿Qué tareas se realizan dentro de la etapa de construcción del modelo dentro
de la metodología CRISP-DM? (8.5.1)
• Construcción del modelo.
• Elegir parámetros iniciales,
• Estudiar comportamiento del modelo, • Descripción de los modelos.
12. ¿Cuáles son las sub-fases de la fase de despliegue? (8.5.1)
Las sub-fases de la fase de despliegue son:
• Planificación del despliegue (desplegar el plan).
• Planificación de la monitorización y del mantenimiento (plan de la
• monitorización y del despliegue).
• Generación del informe/reporte final (informe y presentación final).
• Revisión del proyecto (documentación de las experiencias).

El despliegue o distribución es un proceso que consiste en utilizar sus nuevos


conocimientos para implementar las mejoras en la organización. En la práctica, la
distribución significa que utilice los conocimientos adquiridos en Minería de Datos
para aplicar modificaciones en su organización. En general, la fase de distribución
de CRISPDM incluye dos tipos de actividades
• Planificación y control de la distribución de resultados.
• Finalización de tareas de presentación, tales como la producción de un
informe final y la revisión de un proyecto.

13. ¿Cuáles son las etapas del proceso SEMMA? (8.6)


El proceso de Minería de Datos SEMMA se compone de las siguientes etapas:
Muestreo. Genera una muestra representativa de datos. Se identifican los datos
(Entrada de datos, ejemplos, partición de datos).
Exploración. Visualización y descripción ba'sica de los datos. Se exploran los
conjuntos de datos para observar relaciones y patrones, y se generan análisis
diversos, identificación de variables importantes y análisis de asociación
(Exploración distribuida, múltiples particiones, intuición, asociación, selección de
variables).
Modificación. Selección de variables y transformación de la representación de
variables. Se preparan los datos para el análisis (Transformación de variables, filtros
a los datos fuera de rango, agrupamiento, ruido).
Modelado. Utiliza técnicas diversas de estadística y modelos de aprendizaje
automático (Regresión, arboles, redes neuronales, etc.).
Evaluación (Valoración). Evalúa la precisión y utilidad de los modelos
(Evaluación, medidas, reportes).

14. ¿En qué consiste el modelo descriptivo? (8.7)


Modelo descriptivo.
Describe el comportamiento de los datos (conjunto de datos) de forma que sean
interpretables por un usuario experto. Encuentra valores interpretables que describen
los datos. Trata de proporcionar información entre las relaciones de los datos y sus
características. En el modelo descriptivo se dispone de una variable (denominada
respuesta) con valor desconocido y el objetivo fundamental del modelo es
determinar ese valor.
15. ¿En qué consiste el modelo predictivo? (8.7)
Modelo predictivo.
Describe los datos y se utilizan para predecir el valor de algún atributo desconocido.
Es decir, se utilizan algunas variables para predecir valores desconocidos de otras
variables. Está orientado a estimar valores de salida. Encuentra patrones
interpretables que describen los datos. Un modelo predictivo intenta predecir o
responder a preguntas futuras sobre la base de un estudio de comportamiento
pasado. Preguntas que responden a este tipo de modelo de datos (o minería):
16. ¿Cuáles son las técnicas predictivas más utilizadas? (8.7.1)
Las técnicas predictivas más utilizadas son los algoritmos de:
• Clasificación.
• Regresión.
• Series temporales.
• Detección de desviaciones/anomalías.
17. ¿Cuáles son las técnicas descriptivas más utilizadas? (8.7.1)
Las técnicas descriptivas más utilizadas son los algoritmos de:
• Asociación (reglas de asociación).
• Agrupamiento o segmentación (clustering).
• Somatización (resúmenes).
• Descubrimiento de secuencias de patrones.

También podría gustarte