Está en la página 1de 1

Minera de datos

La minera de datos o exploracin de datos (es la etapa de anlisis de "Knowledge Discovery in


Databases" o KDD) es un campo de la estadstica y las ciencias de la computacin referido al
proceso que intenta descubrir patrones en grandes volmenes de conjuntos de datos. 1 Utiliza los
mtodos de la inteligencia artificial, aprendizaje automtico, estadstica y sistemas de bases de
datos. El objetivo general del proceso de minera de datos consiste en extraer informacin de un
conjunto de datos y transformarla en una estructura comprensible para su uso posterior. Adems de
la etapa de anlisis en bruto, que involucra aspectos de bases de datos y de gestin de datos,
de procesamiento de datos, del modelo y de las consideraciones de inferencia, de mtricas de
Intereses, de consideraciones de la Teora de la complejidad computacional, de post-procesamiento
de las estructuras descubiertas, de la visualizacin y de la actualizacin en lnea.
El trmino es una palabra de moda, y es frecuentemente mal utilizado para referirse a cualquier
forma de datos a gran escala o procesamiento de la informacin (recoleccin, extraccin,
almacenamiento, anlisis y estadsticas), pero tambin se ha generalizado a cualquier tipo de
sistema de apoyo informtico decisin, incluyendo la inteligencia artificial, aprendizaje automtico y
la inteligencia empresarial. En el uso de la palabra, el trmino clave es el descubrimiento,
comnmente se define como "la deteccin de algo nuevo". Incluso el popular libro "La minera de
datos: sistema de prcticas herramientas de aprendizaje y tcnicas con Java" (que cubre todo el
material de aprendizaje automtico) originalmente iba a ser llamado simplemente "la mquina de
aprendizaje prctico", y el trmino "minera de datos" se aadi por razones de marketing. A
menudo, los trminos ms generales "(gran escala) el anlisis de datos", o "anlisis" -. o cuando se
refiere a los mtodos actuales, la inteligencia artificial y aprendizaje automtico, son ms
apropiados.
La tarea de minera de datos real es el anlisis automtico o semi-automtico de grandes
cantidades de datos para extraer patrones interesantes hasta ahora desconocidos, como los grupos
de registros de datos (anlisis clster), registros poco usuales (la deteccin de anomalas) y
dependencias (minera por reglas de asociacin). Esto generalmente implica el uso de tcnicas de
bases de datos como los ndices espaciales. Estos patrones pueden entonces ser vistos como una
especie de resumen de los datos de entrada, y pueden ser utilizados en el anlisis adicional o, por
ejemplo, en el aprendizaje automtico y anlisis predictivo. Por ejemplo, el paso de minera de
datos podra identificar varios grupos en los datos, que luego pueden ser utilizados para obtener
resultados ms precisos de prediccin por un sistema de soporte de decisiones. Ni la recoleccin de
datos, preparacin de datos, ni la interpretacin de los resultados y la informacin son parte de la
etapa de minera de datos, pero que pertenecen a todo el proceso KDD como pasos adicionales.
Los trminos relacionados con la obtencin de datos, la pesca de datos y espionaje de los datos se
refieren a la utilizacin de mtodos de minera de datos a las partes de la muestra de un conjunto
de datos de poblacin ms grandes establecidas que son (o pueden ser) demasiado pequeas para
las inferencias estadsticas fiables que se hizo acerca de la validez de cualquier patrn descubierto.
Estos mtodos pueden, sin embargo, ser utilizados en la creacin de nuevas hiptesis que se
prueban contra poblaciones de datos ms grandes.