Está en la página 1de 4

Universidad Nacional De Costa Rica

Adan Rivera Sanchez

¿Qué es la minería de datos?


La minería de datos es el conjunto de técnicas y tecnologías que permiten explorar
grandes bases de datos con el objetivo de encontrar patrones que nos puedan
aportar información valiosa en la toma de futuras decisiones.
El análisis de datos se lleva a cabo de muchas maneras, incluido el uso de
conceptos como aprendizaje automático, en el que se utilizan algoritmos
adaptativos complejos para analizar los datos de manera artificial
En su forma segura y legal, la minería de datos es una práctica extendida y utilizada
en diversos sectores, desde el mundo financiero hasta las ventas minoristas.
Cuando se navega por Internet, los datos del usuario se registran en función de los
sitios web que se visitan, las búsquedas realizadas, los datos personales
introducidos y los productos explorados.
Los datos (creados por millones de usuarios), y examinados en un nivel más
detallado por las empresas, permiten tomar decisiones fundadas sobre el
funcionamiento y el marketing.
La minería de datos se utiliza para muchos fines, según cada empresa y sus
necesidades. Entre algunos de sus usos posibles se incluyen los siguientes:
Pronósticos y riesgos: analizar datos para determinar el origen de desaciertos
pasados (por ejemplo, la cantidad de visitantes web que no compraron un
determinado artículo después de examinarlo) podría ayudar a un minorista a tomar
mejores decisiones sobre las adquisiciones de inventario en el futuro. Del mismo
modo, determinar la hora del día en que un sistema experimentó una sobrecarga de
tráfico web en el pasado podría ayudar a un negocio a estar mejor preparado
mediante la asignación de más recursos o la inversión en actualizaciones de
servidor.
Agrupación: los datos proporcionados por los clientes les permiten a las empresas
agrupar usuarios de muchas maneras; por ejemplo, demográficamente en función
del sexo, la edad, los ingresos, el lugar en el que viven y sus hábitos de consumo.
Esto les permite dirigirse eficientemente a los usuarios adecuados con ofertas o
mensajes específicos.
Análisis de comportamiento: examinar los datos les permite a las empresas
comprender el tipo de estímulos a los que los clientes responden. ¿Responden
ciertos grupos a ofertas específicas o correos electrónicos a una determinada hora
del día o en un día determinado de la semana, por ejemplo? O bien, quizá
proporcione claridad sobre qué motiva a los usuarios a visitar un sitio web y no otro,
o sobre por qué desisten de comprar en el último minuto. El análisis ayuda a
determinar qué se puede hacer para evitar los comportamientos negativos de los
consumidores que perjudican a su empresa.
Universidad Nacional De Costa Rica
Adan Rivera Sanchez

1. Compresión del negocio


Esta fase inicial se enfoca en la comprensión de los objetivos y exigencias del
proyecto desde una perspectiva de negocio. Posteriormente convierte ese
conocimiento de los datos en la definición de un problema de minería de datos y en
un plan preliminar diseñado para alcanzar los objetivos.
2. Comprensión de los datos
La comprensión de los datos se encarga de la recolección de datos inicial y continúa
con las actividades que permiten familiarizarse primero con los datos, identificar sus
problemas de calidad, descubrir conocimiento preliminar en los mismos, y/o
descubrir subconjuntos interesantes para formular hipótesis. En esta fase se tienen
en cuenta también las fuentes de datos que hasta el momento no se estaban
utilizando.
3. Preparación de los datos
La fase de preparación de los datos cubre todas las actividades necesarias para
construir el conjunto de datos final (los datos que serán provistos por las
herramientas de modelado). Las tareas de preparación incluyen la selección de los
datos, la limpieza de éstos, la construcción de nuevas variables, la integración de
los datos y el formateo de estos.
4. Modelado
Durante esta fase, se aplican las técnicas de minería de datos a nuestros datos. Se
aplican varias técnicas de modelado y los parámetros de uso de estas se afinan
hasta alcanzar los valores óptimos. Algunas técnicas de modelado necesitan
requerimientos específicos sobre el formato de los datos, que podrán llevarnos de
nuevo a la fase de preparación de los datos.
5. Evaluación
En este caso se evalúan los modelos anteriores para determinar si son útiles a las
necesidades de negocio. En esta etapa los modelos ya están construidos y deben
tener una alta calidad desde una perspectiva de análisis de datos.
6. Despliegue
La fase de despliegue implica la explotación de los modelos dentro de un entorno
de producción. La creación de un modelo no es generalmente el final del proyecto,
ya que su creación es un proceso vivo dentro del proceso de decisiones de una
organización (podría ser necesario rehacer el modelo para tener en cuenta nuevo
conocimiento en el futuro).
Universidad Nacional De Costa Rica
Adan Rivera Sanchez

Las tareas predictivas, sin embargo, construyen modelos sobre datos ocurridos en
el pasado para predecir el comportamiento de nuevos conjuntos de datos (score
sets), los cuales pueden corresponderse o no con hechos futuros. Otra clasificación,
más desglosada que la anterior, es la siguiente:
1. Clasificación.
2. Estimación.
3. Predicción.
4. Determinar grupos afines o reglas de asociación.
5. Clustering o agrupamiento.
6. Descripción y visualización o tareas de preprocesamiento.
La clasificación, estimación y predicción se agrupan con el calificativo de minería de
datos directa (MDD) o métodos supervisados; mientras que las tres restantes
actividades (determinar grupos afines o reglas de asociación, clustering y
descripción y visualización) conforman el grupo de minería de datos indirecta (MDI)
o métodos no supervisados.En el caso de la MDD el objetivo está bien determinado,
a diferencia de la MDI, en la que no se tienen claro los resultados que se desean
obtener.
La clasificación consiste en identificar características de un objeto o registro con el
propósito de asignarle una clase o categoría predefinida. Su propósito es descubrir
si una instancia del conjunto de ocurrencias (data set), pertenece a una de varias
clases previamente definidas. Para ello se requiere construir un modelo de
clasificación. La salida obtenida la componen valores discretos: clases. En la
práctica, estas clases son usualmente definidas a partir de valores específicos de
determinadas variables o campos.
Las actividades de clasificación pueden tener un enfoque tanto descriptivo como
predictivo. En el primer caso, se desea conocer las variables y valores más
significativos de las instancias de cada tipo de clase. Mientras que, en el segundo
caso, se desea explorar las características de una nueva instancia y asignarle una
de las clases predefinidas.
La estimación es semejante a la clasificación, pero la salida la constituyen valores
continuos. En algunos casos es posible hacer estimación y posteriormente
clasificación. Por ejemplo: estimaciones de altura, gastos, salarios, etcétera.
Los valores estimados por estas técnicas pudieran incluso ser utilizados para
ordenar las instancias en un score set, y luego seleccionar las mejores, según el
problema a resolver.
Universidad Nacional De Costa Rica
Adan Rivera Sanchez

La predicción es similar a las dos anteriores, con la particularidad de que la salida,


sea continua o discreta, no ha ocurrido: la variable estimada o la clase asignada se
refiere a un evento que ocurrirá en el futuro.

Ejemplo de minería de datos:


Actualmente booking es una de las empresas de comercio de hospedaje más
grande en internet.
Ellos aprovechan el poder de la minería para lograr encontrar puntos de mejora o
aprovechamiento, uno de estos es el desequilibrio entre su enfoque en Europa y
usa. Por ejemplo, para la misma palabra clave, su visibilidad en los EE. UU. Fue
mucho mayor que en el Reino Unido.
La minería de datos también facilita la generación de nuevas ideas en la empresa.
Por ejemplo, al estimar una idea para crear una página de destino de hoteles
románticos en Londres, la empresa analizó los datos del volumen de búsqueda y
la competitividad de la palabra clave para validar la idea.
Los resultados que Booking ha logrado a través de la minería de datos también
incluyen la mejor clasificación en Google para algunas de las palabras clave más
populares de la industria, como "hoteles en Londres".

("150 Successful Machine Learning Models | Proceedings of the 25th ACM SIGKDD International
Conference on Knowledge Discovery & Data Mining", 2019)

También podría gustarte