Está en la página 1de 38

PABLO FIGUEROA

MINERÍA DE DATOS
MINERÍA DE DATOS
DISEÑO DE LA
INVESTIGACIÓN
MINERÍA DE DATOS

CONOCIMIENTO CIENTÍFICO
▸ Sistemático, no puedo eliminar arbitrariamente pasos, se
deben seguir de forma rigurosa.

▸ Ordenado.

▸ Metódico, debe seguir un camino.

▸ Racional / Re exivo, implica una re exión por parte del


investigador y tiene que ver con una ruptura con el sentido
común.

▸ Crítico / Subversivo, intenta producir conocimiento.


fl

fl
MINERÍA DE DATOS

PROBLEMA DE INVESTIGACIÓN
▸ Se hace necesaria la existencia de un problema (Desafío),
luego la toma de conciencia sobre el problema y, por último, la
existencia de una solución posible.

▸ Necesito saber cuántos clientes nos compraran un


determinado producto el próximo año.

▸ Necesito predecir cuales serán nuestros niveles de


producción del siguiente mes.

▸ Necesito predecir cuántas personas se enfermaran de


COVID-19 el próximo mes.

MINERÍA DE DATOS

PROBLEMA DE INVESTIGACIÓN

▸ Necesito saber si una persona asistirá a un vuelo programado.


▸ Solución: Modelo Predictivo de Clasi cación.

▸ Necesito predecir cuales serán nuestros niveles de producción


del siguiente mes.

▸ Solución: Modelo Predictivo de Regresión.

▸ Necesito predecir cuántas personas se enfermaran de COVID-19


el próximo mes.

▸ Solución: ¿Modelo Predictivo de diseminación de infección?


fi

MINERÍA DE DATOS

PROBLEMA DE INVESTIGACIÓN

▸ El problema de investigación yace en la discrepancia


existente entre un modelo ideal y un modelo real.

MODELO MODELO
DETERMINISTA PROBABILISTA

Menos Incertidumbre Más


MINERÍA DE DATOS

PROBLEMA DE INVESTIGACIÓN
▸ La discrepancia entre el modelo ideal y real debe ser
signi cativa y se requiere la toma de conciencia de esa
discrepancia.

▸ El trabajo se orienta a la solución del problema, si no


tiene solución no se investiga.
fi

MINERÍA DE DATOS

PROBLEMA DE INVESTIGACIÓN

MODELOS SISTEMA SOLAR

PTOLOMEO COPERNICO KEPLER

▸ El Sol, la Luna, ▸ El Sol como ▸ El Sol como


los planetas y centro del centro del
las estrellas se sistema solar. sistema solar.
mueven Los planetas Los planetas
alrededor de giran en giran en
la tierra en círculos elipses
distintas alrededor del alrededor del
esferas Sol Sol

MINERÍA DE DATOS

TÉCNICAS Y PASOS DE LA INVESTIGACIÓN


▸ Tema.

▸ Delimitación del tema.

▸ Formulación del problema.

▸ Reducción del problema a nivel empírico.

▸ Determinación de las unidades de análisis - Recolección de datos.

▸ Análisis de datos.

▸ Informe Final.

MINERÍA DE DATOS

DELIMITACIÓN DEL TEMA


▸ Contextualización.

▸ Espacial, Temporal, Sociodemográ co y Sociocultural.

▸ Torbellino de ideas.

▸ Ayudas metodológicas.

▸ Observación de casos típicos y atípicos.

▸ Acercamiento al campo.

fi

MINERÍA DE DATOS

FORMULACIÓN DEL PROBLEMA


▸ Formulación de objetivos.

▸ Marco teórico.

▸ Formular Hipótesis.

▸ Formular Interrogantes.

▸ De nición de variables.
fi

METODOLOGÍA DE
MDD
MINERÍA DE DATOS

METODOLOGÍAS MINERÍA DE DATOS - KDD


▸ Knowledge Discovery in Databases.

▸ Es una metodología propuesta por Fayyad en 1996, propone 5 fases:

▸ Selección.

▸ Preprocesamiento.

▸ Transformación.

▸ Minería de datos.

▸ Evaluación e implantación.

▸ Es un proceso iterativo e interactivo.


MINERÍA DE DATOS

METODOLOGÍAS MINERÍA DE DATOS - KDD


MINERÍA DE DATOS

METODOLOGÍAS MINERÍA DE DATOS - SEMMA


MINERÍA DE DATOS

METODOLOGÍAS MINERÍA DE DATOS - CRISP-DM


▸ Cross-Industry Standard Process for Data Mining
TAREA 1
MINERÍA DE DATOS

TAREA Nº1
▸ Titulo del Proyecto.

▸ Explicación de la Problemática.

▸ Solución Propuesta a la Problemática.

▸ Formulación de objetivos (General y Especí cos).

▸ Formular Hipótesis.

▸ De nición de los Datos a utilizar.

▸ Cronograma de Trabajo.
fi

fi

FUENTES DE
DATOS
MINERÍA DE DATOS

OLAP - OLPT
▸ Sobre estas mismas bases de datos ya se puede extraer
conocimiento:

▸ OLPT, On-Line Transactional Processing.

▸ OLAP, On-Line Analytical Processing.

▸ Problemas:

▸ Killer queries.

▸ Diseñada para trabajo transaccional, no para el análisis de


datos.

MINERÍA DE DATOS

DATA-WAREHOUSING
▸ Facilita el análisis de los datos en tiempo real (OLAP),

▸ No interviene el OLTP de las bases de datos originales.

MINERÍA DE DATOS

MOLAP
▸ Cada atributo relevante se establece en una dimensión,
que se puede agregar o desagregar. La base de datos
está completamente desnormalizada.
MINERÍA DE DATOS

ROLAP
▸ Las dimensiones, que se puede agregar o desagregar,
siguiendo claves ajenas. Se conserva parte de la
normalización.
MINERÍA DE DATOS

DATA-WAREHOUSING
▸ Esquemas de almacenes de datos más comunes:

▸ estrella simple

▸ estrella jerárquica (copo de nieve).

▸ Esta estructura permite la sumarización, la visualización y la navegación según las dimensiones de


la estrella.

MINERÍA DE DATOS

DATA-WAREHOUSING * SUMARIZACIÓN Y OPERADORES


▸ Estas estructuras permiten ‘navegar’ sumarizando (agregando)
o desagregando.

▸ Drill. Se utiliza para desagregar dimensiones. Este operador


permite entrar más al detalle en el informe.

MINERÍA DE DATOS

DATA-WAREHOUSING * SUMARIZACIÓN Y OPERADORES


▸ Roll. Operador inverso a drill. Obtiene información más
agregada.
MINERÍA DE DATOS

DATA-WAREHOUSING * SUMARIZACIÓN Y OPERADORES


▸ El operador pivot permite cambiar algunas las por
columnas.

fi
MINERÍA DE DATOS

DATA-WAREHOUSING * SUMARIZACIÓN Y OPERADORES


▸ Slice & dice. Este operador permite escoger parte de la
información mostrada, no por agregación sino por selección.
TEXTO
MINERÍA DE DATOS

TIPOS DE DATOS
MINERÍA DE DATOS

FUENTES DE DATOS
ENTORNO MINERÍA
DE DATOS
MINERÍA DE DATOS
MINERÍA DE DATOS

También podría gustarte