Está en la página 1de 21

Procesamiento de datos

De Wikipedia, la enciclopedia libre


Ir a navegaciónSaltar a buscar

Parte de una serie sobre

Aprendizaje automático
y minería de datos

show

Problemas

show

Aprendizaje supervisado
( clasificación  • regresión )

show

Agrupación

show

Reducción de dimensionalidad

show

Predicción estructurada

show

Detección de anomalías

show
Red neuronal artificial

show

Aprendizaje reforzado

show

Teoría

show

Lugares de aprendizaje automático

show

Artículos relacionados

 v
 t
 mi

La minería de datos es un proceso de extracción y descubrimiento de


patrones en grandes conjuntos de datos que involucran métodos en la
intersección del aprendizaje automático , las estadísticas y los sistemas de
bases de datos . [1] La minería de datos es un subcampo interdisciplinario de
la informática y la estadística con el objetivo general de extraer información
(con métodos inteligentes) de un conjunto de datos y transformar la información
en una estructura comprensible para su uso posterior. [1] [2] [3] [4] La minería de
datos es el paso de análisis del proceso de "descubrimiento de conocimientos
en bases de datos", o KDD. [5]Además del paso de análisis sin procesar,
también involucra aspectos de gestión de datos y bases
de datos , preprocesamiento de datos , consideraciones
de modelo e inferencia , métricas de interés, consideraciones de complejidad ,
postprocesamiento de estructuras descubiertas, visualización y actualización
en línea . [1]
El término "minería de datos" es un nombre inapropiado , porque el objetivo es
la extracción de patrones y conocimiento de grandes cantidades de datos, no
la extracción ( minería ) de datos en sí . [6] También es una palabra de moda [7] y
se aplica con frecuencia a cualquier forma de procesamiento de datos
o información a gran escala ( recopilación , extracción , almacenamiento ,
análisis y estadísticas), así como a cualquier aplicación del sistema de apoyo a
la toma de decisiones por computadora , incluyendo inteligencia artificial (por
ejemplo, aprendizaje automático) e inteligencia empresarial . El libroMinería de
datos: Las herramientas y técnicas prácticas de aprendizaje automático con
Java  [8] (que cubre principalmente material de aprendizaje automático)
originalmente se llamarían Aprendizaje automático práctico , y el
término minería de datos solo se agregó por razones de marketing. [9] A menudo
los términos más generales ( a gran escala ) de análisis de datos y de análisis -
OR, cuando se hace referencia a los métodos actuales, la inteligencia
artificial y aprendizaje automático -son más apropiado.
La tarea real de minería de datos es el análisis semiautomático o automático de
grandes cantidades de datos para extraer patrones interesantes previamente
desconocidos, como grupos de registros de datos ( análisis de
conglomerados ), registros inusuales ( detección de anomalías ) y
dependencias ( minería de reglas de asociación , minería secuencial de
patrones ). Esto generalmente implica el uso de técnicas de bases de datos
como índices espaciales . Estos patrones pueden verse como una especie de
resumen de los datos de entrada y pueden usarse en análisis posteriores o, por
ejemplo, en aprendizaje automático y análisis predictivo.. Por ejemplo, el paso
de minería de datos puede identificar varios grupos en los datos, que luego
pueden usarse para obtener resultados de predicción más precisos mediante
un sistema de apoyo a la toma de decisiones . Ni la recopilación de datos, ni la
preparación de datos, ni la interpretación de los resultados y los informes son
parte del paso de minería de datos, pero pertenecen al proceso general de
KDD como pasos adicionales.
La diferencia entre el análisis de datos y la minería de datos es que el análisis
de datos se utiliza para probar modelos e hipótesis en el conjunto de datos, por
ejemplo, analizar la efectividad de una campaña de marketing,
independientemente de la cantidad de datos; por el contrario, la minería de
datos utiliza modelos estadísticos y de aprendizaje automático para descubrir
patrones clandestinos u ocultos en un gran volumen de datos. [10]
Los términos relacionados dragado de datos , pesca de datos y espionaje de
datos se refieren al uso de métodos de minería de datos para muestrear partes
de un conjunto de datos de población más grande que son (o pueden ser)
demasiado pequeñas para hacer inferencias estadísticas confiables sobre la
validez de cualquier patrones descubiertos. Sin embargo, estos métodos se
pueden utilizar para crear nuevas hipótesis para probarlas con poblaciones de
datos más grandes.

Contenido

 1Etimología
 2Fondo
 3Proceso
o 3.1Preprocesamiento
o 3.2Procesamiento de datos
o 3.3Validación de resultados
 4Investigar
 5Estándares
 6Usos notables
 7Problemas de privacidad y ética
o 7.1Situación en Europa
o 7.2Situación en los Estados Unidos
 8Ley de derechos de autor
o 8.1Situación en Europa
o 8.2Situación en los Estados Unidos
 9Software
o 9.1Software y aplicaciones gratuitos de
minería de datos de código abierto
o 9.2Aplicaciones y software de minería de
datos patentados
 10Ver también
 11Referencias
 12Otras lecturas
 13enlaces externos

Etimología [ editar ]
En la década de 1960, los estadísticos y economistas utilizaron términos
como pesca de datos o dragado de datos para referirse a lo que consideraban
la mala práctica de analizar datos sin una hipótesis a priori. El término "minería
de datos" fue utilizado de manera igualmente crítica por el economista Michael
Lovell en un artículo publicado en la Review of Economic Studies en
1983. [11] [12] Lovell indica que la práctica "se disfraza bajo una variedad de alias,
que van de "experimentación" (positivo) a "pesca" o "fisgoneo" (negativo).
El término minería de datos apareció alrededor de 1990 en la comunidad de
bases de datos, generalmente con connotaciones positivas. Durante un breve
período de tiempo en la década de 1980, se utilizó la frase "minería de bases
de datos" ™, pero dado que HNC, una empresa con sede en San Diego, la
registró como marca registrada, para lanzar su estación de trabajo de minería
de bases de datos; [13] En consecuencia, los investigadores recurrieron a la
minería de datos . Otros términos utilizados incluyen arqueología de
datos , recolección de información , descubrimiento de información , extracción
de conocimiento , etc. Gregory Piatetsky-Shapiro acuñó el término
"descubrimiento de conocimiento en bases de datos" para el primer taller sobre
el mismo tema (KDD-1989)y este término se hizo más popular en la comunidad
de inteligencia artificial y aprendizaje automático . Sin embargo, el término
minería de datos se hizo más popular en las comunidades empresariales y de
prensa. [14] Actualmente, los términos minería de datos y descubrimiento de
conocimientos se utilizan indistintamente.
En la comunidad académica, los principales foros de investigación comenzaron
en 1995 cuando se inició la Primera Conferencia Internacional sobre Minería de
Datos y Descubrimiento del Conocimiento ( KDD-95 ) en Montreal bajo
el patrocinio de AAAI . Fue copresidido por Usama Fayyad y Ramasamy
Uthurusamy. Un año después, en 1996, Usama Fayyad lanzó la revista de
Kluwer llamada Data Mining and Knowledge Discovery como su editor en jefe
fundador. Más tarde se inició la SIGKDD Boletín SIGKDD Exploraciones. [15] La
conferencia KDD International se convirtió en la principal conferencia de mayor
calidad en minería de datos con una tasa de aceptación de presentaciones de
trabajos de investigación por debajo del 18%. El periódicoData Mining and
Knowledge Discovery es la principal revista de investigación del campo.

Antecedentes [ editar ]
La extracción manual de patrones a partir de datos se ha producido durante
siglos. Los primeros métodos para identificar patrones en los datos incluyen el
teorema de Bayes (1700) y el análisis de regresión (1800). La proliferación, la
ubicuidad y el poder cada vez mayor de la tecnología informática han
aumentado drásticamente la capacidad de recopilación, almacenamiento y
manipulación de datos. A medida que los conjuntos de datos han crecido en
tamaño y complejidad, el análisis de datos "práctico" directo se ha
incrementado cada vez más con el procesamiento de datos indirecto y
automatizado, con la ayuda de otros descubrimientos en informática,
especialmente en el campo del aprendizaje automático, como las redes
neuronales , análisis de conglomerados , algoritmos genéticos (década de
1950),árboles de decisión y reglas de decisión (década de 1960) y máquinas
de vectores de soporte (década de 1990). La minería de datos es el proceso de
aplicar estos métodos con la intención de descubrir patrones ocultos. [16] en
grandes conjuntos de datos. Cierra la brecha entre las estadísticas aplicadas y
la inteligencia artificial (que generalmente proporcionan los antecedentes
matemáticos) y la administración de bases de datos al explotar la forma en que
los datos se almacenan e indexan en las bases de datos para ejecutar los
algoritmos de aprendizaje y descubrimiento reales de manera más eficiente,
permitiendo que dichos métodos se apliquen conjuntos de datos cada vez más
grandes.

Proceso [ editar ]
El proceso de descubrimiento de conocimiento en bases de datos (KDD) se
define comúnmente con las etapas:

1. Selección
2. Preprocesamiento
3. Transformación
4. Procesamiento de datos
5. Interpretación / evaluación. [5]
Sin embargo, existe en muchas variaciones sobre este tema, como el proceso
estándar entre industrias para la minería de datos (CRISP-DM) que define seis
fases:

1. Comprensión empresarial
2. Comprensión de datos
3. Preparación de datos
4. Modelado
5. Evaluación
6. Despliegue
o un proceso simplificado como (1) Preprocesamiento, (2) Minería de datos y
(3) Validación de resultados.
Las encuestas realizadas en 2002, 2004, 2007 y 2014 muestran que la
metodología CRISP-DM es la metodología líder utilizada por los mineros de
datos. [17] El único otro estándar de minería de datos mencionado en estas
encuestas fue SEMMA . Sin embargo, de 3 a 4 veces más personas informaron
usar CRISP-DM. Varios equipos de investigadores han publicado revisiones de
modelos de procesos de minería de datos, [18] y Azevedo y Santos realizaron
una comparación de CRISP-DM y SEMMA en 2008. [19]
Preprocesamiento [ editar ]
Antes de que se puedan utilizar los algoritmos de minería de datos, se debe
ensamblar un conjunto de datos de destino. Como la minería de datos solo
puede descubrir patrones realmente presentes en los datos, el conjunto de
datos de destino debe ser lo suficientemente grande como para contener estos
patrones y al mismo tiempo ser lo suficientemente conciso para ser extraído
dentro de un límite de tiempo aceptable. Una fuente común de datos es
una despensa de datos o un almacén de datos . El preprocesamiento es
esencial para analizar los conjuntos de datos multivariados antes de la minería
de datos. A continuación, se limpia el conjunto de objetivos. La limpieza de
datos elimina las observaciones que contienen ruido y aquellas con datos
faltantes .
Minería de datos [ editar ]
La minería de datos implica seis clases comunes de tareas: [5]

 Detección de anomalías ( detección
de valores atípicos / cambios /
desviaciones): la identificación de registros
de datos inusuales, que pueden ser
interesantes o errores de datos que
requieren una mayor investigación.
 Aprendizaje de reglas de
asociación (modelo de dependencia): busca
relaciones entre variables. Por ejemplo, un
supermercado puede recopilar datos sobre
los hábitos de compra de los
clientes. Mediante el aprendizaje de reglas
de asociación, el supermercado puede
determinar qué productos se compran
juntos con frecuencia y utilizar esta
información con fines de marketing. Esto a
veces se denomina análisis de la cesta de la
compra.
 Agrupación : es la tarea de descubrir grupos
y estructuras en los datos que de una forma
u otra son "similares", sin utilizar estructuras
conocidas en los datos.
 Clasificación : es la tarea de generalizar la
estructura conocida para aplicarla a los
nuevos datos. Por ejemplo, un programa de
correo electrónico podría intentar clasificar
un correo electrónico como "legítimo" o
como "spam".
 Regresión : intenta encontrar una función
que modele los datos con el menor error, es
decir, para estimar las relaciones entre
datos o conjuntos de datos.
 Resumen : proporciona una representación
más compacta del conjunto de datos,
incluida la visualización y la generación de
informes.
Validación de resultados [ editar ]

Un ejemplo de datos producidos por el dragado de datos a través de un bot operado por el
estadístico Tyler Vigen, aparentemente muestra un vínculo estrecho entre la mejor palabra que gana
un concurso de ortografía y la cantidad de personas en los Estados Unidos muertas por arañas
venenosas. La similitud en las tendencias es obviamente una coincidencia.

En esta sección falta información sobre las tareas de no


clasificación en la minería de datos. Solo cubre el aprendizaje
automático . Expanda la sección para incluir esta
información. Pueden existir más detalles en la página de
discusión . ( Septiembre de 2011  )

La minería de datos puede ser mal utilizada involuntariamente y luego puede


producir resultados que parecen ser significativos; pero que en realidad no
predicen el comportamiento futuro y no pueden reproducirse en una nueva
muestra de datos y tienen poca utilidad. A menudo, esto se debe a que se han
investigado demasiadas hipótesis y no se han realizado las pruebas de
hipótesis estadísticas adecuadas . Una versión simple de este problema en el
aprendizaje automático se conoce como sobreajuste , pero el mismo problema
puede surgir en diferentes fases del proceso y, por lo tanto, una división de
entrenamiento / prueba, cuando sea aplicable, puede no ser suficiente para
evitar que esto suceda. [20]
El paso final del descubrimiento de conocimiento a partir de los datos es
verificar que los patrones producidos por los algoritmos de minería de datos
ocurren en el conjunto de datos más amplio. No todos los patrones
encontrados por los algoritmos de minería de datos son necesariamente
válidos. Es común que los algoritmos de minería de datos encuentren patrones
en el conjunto de entrenamiento que no están presentes en el conjunto de
datos general. A esto se le llama sobreajuste . Para superar esto, la evaluación
utiliza un conjunto de datos de prueba en el que no se entrenó el algoritmo de
minería de datos. Los patrones aprendidos se aplican a este conjunto de
prueba y la salida resultante se compara con la salida deseada. Por ejemplo,
un algoritmo de minería de datos que intente distinguir "spam" de los correos
electrónicos "legítimos" se capacitaría en un conjunto de capacitaciónde
correos electrónicos de muestra. Una vez formados, los patrones aprendidos
se pueden aplicar a la prueba de conjunto de correos electrónicos en los que
había no se ha entrenado. La precisión de los patrones se puede medir a partir
de la cantidad de correos electrónicos que clasifican correctamente. Se pueden
utilizar varios métodos estadísticos para evaluar el algoritmo, como las curvas
ROC .
Si los patrones aprendidos no cumplen con los estándares deseados,
posteriormente es necesario reevaluar y cambiar los pasos de
preprocesamiento y minería de datos. Si los patrones aprendidos cumplen con
los estándares deseados, entonces el paso final es interpretar los patrones
aprendidos y convertirlos en conocimiento.

Investigación [ editar ]
El principal organismo profesional en el campo es el Grupo de Interés Especial
(SIG) de Descubrimiento de Conocimiento y Minería de Datos ( SIGKDD )
de la Asociación de Maquinaria de Computación (ACM ). [21] [22] Desde 1989, este
ACM SIG ha sido anfitrión de una conferencia internacional anual y ha
publicado sus actas, [23] y desde 1999 ha publicado una revista académica
semestral titulada "SIGKDD Explorations". [24]
Las conferencias de informática sobre minería de datos incluyen:

 Conferencia CIKM - Conferencia ACM sobre
Gestión de la Información y el Conocimiento
 Conferencia europea sobre aprendizaje
automático y principios y práctica del
descubrimiento del conocimiento en bases
de datos
 Conferencia KDD - Conferencia ACM
SIGKDD sobre descubrimiento de
conocimiento y minería de datos
Los temas de minería de datos también están presentes en
muchas conferencias de gestión de datos / bases de datos , como la
Conferencia ICDE, la Conferencia SIGMOD y la Conferencia internacional
sobre bases de datos muy grandes.

Estándares [ editar ]
Se han realizado algunos esfuerzos para definir estándares para el proceso de
minería de datos, por ejemplo, el Proceso estándar de la industria
cruzada europea de 1999 para la minería de datos (CRISP-DM 1.0) y
el estándar Java Data Mining de 2004 (JDM 1.0). El desarrollo de los sucesores
de estos procesos (CRISP-DM 2.0 y JDM 2.0) estuvo activo en 2006, pero se
ha estancado desde entonces. JDM 2.0 se retiró sin llegar a un borrador final.
Para intercambiar los modelos extraídos, en particular para su uso en análisis
predictivo , el estándar clave es el Predictive Model Markup Language (PMML),
que es un lenguaje basado en XML desarrollado por Data Mining Group (DMG)
y admitido como formato de intercambio por muchos aplicaciones de minería
de datos. Como sugiere el nombre, solo cubre modelos de predicción, una
tarea particular de minería de datos de gran importancia para las aplicaciones
comerciales. Sin embargo, se han propuesto extensiones para cubrir (por
ejemplo) la agrupación subespacial independientemente del DMG. [25]

Usos notables [ editar ]
Artículo principal: Ejemplos de minería de datos
Ver también: Categoría: Minería de datos aplicada
La minería de datos se utiliza dondequiera que haya datos digitales disponibles
en la actualidad. Se pueden encontrar ejemplos notables de minería de
datos en empresas, medicina, ciencia y vigilancia.

Problemas de privacidad y ética [ editar ]


Si bien el término "extracción de datos" en sí mismo puede no tener
implicaciones éticas, a menudo se asocia con la extracción de información en
relación con el comportamiento de las personas (ético o de otro tipo). [26]
Las formas en que se puede utilizar la minería de datos pueden, en algunos
casos y contextos, plantear preguntas sobre la privacidad , la legalidad y la
ética. [27] En particular, los conjuntos de datos gubernamentales o comerciales
de extracción de datos con fines de seguridad nacional o aplicación de la ley,
como en el Programa de Concienciación Total de la Información o en ADVISE ,
han planteado preocupaciones sobre la privacidad. [28] [29]
La minería de datos requiere la preparación de datos que descubre información
o patrones que comprometen las obligaciones de confidencialidad y
privacidad. Una forma común de que esto ocurra es mediante la agregación de
datos . La agregación de datos implica combinar datos juntos (posiblemente de
varias fuentes) de una manera que facilite el análisis (pero que también podría
hacer que la identificación de datos privados a nivel individual sea deducible o
aparente de otro modo). [30] Esto no es minería de datos per se., sino como
resultado de la preparación de datos antes del análisis y para los fines del
mismo. La amenaza a la privacidad de un individuo entra en juego cuando los
datos, una vez compilados, hacen que el minero de datos, o cualquier persona
que tenga acceso al conjunto de datos recién compilado, pueda identificar a
individuos específicos, especialmente cuando los datos originalmente eran
anónimos. [31] [32] [33]
Se recomienda [¿ según quién?  ] tener en cuenta lo siguiente antes de recopilar los
datos: [30]

 El propósito de la recopilación de datos y


cualquier proyecto de minería de datos
(conocido);
 Cómo se utilizarán los datos;
 Quién podrá extraer los datos y utilizar los
datos y sus derivados;
 El estado de seguridad que rodea al acceso
a los datos;
 Cómo se pueden actualizar los datos
recopilados.
Los datos también pueden modificarse para que se conviertan en anónimos, de
modo que no se pueda identificar fácilmente a las personas. [30] Sin embargo,
incluso los conjuntos de datos "anonimizados" pueden contener información
suficiente para permitir la identificación de personas, como ocurrió cuando los
periodistas pudieron encontrar a varias personas basándose en un conjunto de
historiales de búsqueda que AOL publicó inadvertidamente. [34]
La revelación inadvertida de información de identificación personal
que conduce al proveedor viola las Prácticas Justas de Información. Esta
indiscreción puede causar daños económicos, emocionales o corporales a la
persona indicada. En un caso de violación de la privacidad , los clientes de
Walgreens entablaron una demanda contra la empresa en 2011 por vender
información de prescripciones a empresas de extracción de datos que, a su
vez, proporcionaron los datos a las empresas farmacéuticas. [35]
Situación en Europa [ editar ]
Europa tiene leyes de privacidad bastante estrictas y se están realizando
esfuerzos para fortalecer aún más los derechos de los consumidores. Sin
embargo, los Principios de puerto seguro de EE. UU. Y la UE , desarrollados
entre 1998 y 2000, exponen actualmente a los usuarios europeos a la
explotación de la privacidad por parte de empresas estadounidenses. Como
consecuencia de Edward Snowden 's divulgación de vigilancia mundial , ha
habido una mayor discusión de revocar este acuerdo, ya que, en particular, los
datos serán totalmente expuesto a la Agencia Nacional de Seguridad , y los
intentos de llegar a un acuerdo con los Estados Unidos han fracasado. [36]
En el Reino Unido, en particular, ha habido casos de empresas que utilizan la
minería de datos como una forma de dirigirse a ciertos grupos de clientes y las
han obligado a pagar precios injustamente altos. Estos grupos tienden a ser
personas de un nivel socioeconómico más bajo que no conocen las formas en
que pueden ser explotados en los mercados digitales. [37]
Situación en los Estados Unidos [ editar ]
En los Estados Unidos, el Congreso estadounidense ha abordado las
preocupaciones sobre la privacidad mediante la aprobación de controles
regulatorios como la Ley de Responsabilidad y Portabilidad de Seguros de
Salud (HIPAA). La HIPAA requiere que las personas den su "consentimiento
informado" con respecto a la información que brindan y los usos previstos en el
presente y el futuro. Según un artículo de Biotech Business Week , "'[e] n la
práctica, la HIPAA puede no ofrecer mayor protección que las regulaciones de
larga data en el campo de la investigación', dice la AAHC. Más importante aún,
el objetivo de la regla de protección a través del consentimiento informado es
acercarse a un nivel de incomprensibilidad para los individuos promedio
". [38] Esto subraya la necesidad de mantener el anonimato de los datos en las
prácticas de agregación y minería de datos.
La legislación estadounidense sobre privacidad de la información, como la
HIPAA y la Ley de privacidad y derechos educativos de la familia (FERPA), se
aplica solo a las áreas específicas que aborda cada una de estas leyes. El uso
de la minería de datos por parte de la mayoría de las empresas en los EE. UU.
No está controlado por ninguna legislación.

Ley de derechos de autor [ editar ]


Situación en Europa [ editar ]
Según las leyes europeas de derechos de autor y bases de datos , la
extracción de obras protegidas por derechos de autor (por ejemplo, mediante la
extracción web ) sin el permiso del propietario de los derechos de autor no es
legal. Cuando una base de datos es pura información en Europa, puede ser
que no haya derechos de autor, pero pueden existir derechos de base de
datos, por lo que la minería de datos queda sujeta a los derechos de
los propietarios de propiedad intelectual que están protegidos por la Directiva
de bases de datos . Por recomendación de la revisión de Hargreaves , esto
llevó al gobierno del Reino Unido a enmendar su ley de derechos de autor en
2014 para permitir la minería de contenido como limitación y excepción . [39]El
Reino Unido fue el segundo país del mundo en hacerlo después de Japón, que
introdujo una excepción en 2009 para la minería de datos. Sin embargo, debido
a la restricción de la Directiva sobre la sociedad de la información (2001), la
excepción del Reino Unido solo permite la minería de contenido con fines no
comerciales. La ley de derechos de autor del Reino Unido tampoco permite que
esta disposición sea anulada por los términos y condiciones contractuales.
La Comisión Europea facilitó el debate de las partes interesadas sobre la
minería de datos y textos en 2013, bajo el título de Licencias para Europa. [40] El
enfoque en la solución de este problema legal, como la concesión de licencias
en lugar de las limitaciones y excepciones, llevó a representantes de
universidades, investigadores, bibliotecas, grupos de la sociedad civil y editores
de acceso abierto a abandonar el diálogo con las partes interesadas en mayo
de 2013 [41]. ]
Situación en los Estados Unidos [ editar ]
La ley de derechos de autor de EE. UU. , Y en particular su disposición para el
uso justo , defiende la legalidad de la minería de contenido en Estados Unidos
y otros países de uso justo como Israel, Taiwán y Corea del Sur. Dado que la
minería de contenido es transformadora, es decir, no reemplaza el trabajo
original, se considera que es legal en virtud del uso legítimo. Por ejemplo, como
parte del acuerdo de Google Book, el juez que presidía el caso dictaminó que
el proyecto de digitalización de libros con derechos de autor de Google era
legal, en parte debido a los usos transformadores que mostraba el proyecto de
digitalización, uno de los cuales era la minería de datos y texto. [42]

Software [ editar ]
Ver también: Categoría: software de minería de datos y aprendizaje automático
Software y aplicaciones gratuitos de minería de datos de
código abierto [ editar ]
Las siguientes aplicaciones están disponibles bajo licencias gratuitas / de
código abierto. También está disponible el acceso público al código fuente de la
aplicación.

 Carrot2 : marco de agrupación de texto y


resultados de búsqueda.
 Chemicalize.org : buscador de estructuras
químicas y motor de búsqueda web.
 ELKI : Un proyecto de investigación
universitario con análisis avanzado
de conglomerados y métodos de detección
de valores atípicos escritos
en lenguaje Java .
 GATE : una herramienta
de procesamiento e ingeniería del
lenguaje natural .
 KNIME : Konstanz Information Miner, un
marco de análisis de datos completo y fácil
de usar.
 Massive Online Analysis (MOA) : una
minería de flujo de big data en tiempo real
con una herramienta de derivación de
conceptos en el lenguaje de
programación Java .
 MEPX : herramienta multiplataforma para
problemas de regresión y clasificación
basada en una variante de programación
genética.
 ML-Flex: un paquete de software que
permite a los usuarios integrarse con
paquetes de aprendizaje automático de
terceros escritos en cualquier lenguaje de
programación, ejecutar análisis de
clasificación en paralelo en múltiples nodos
informáticos y producir informes HTML de
resultados de clasificación.
 mlpack : una colección de algoritmos de
aprendizaje automático listos para usar
escritos en lenguaje C ++ .
 NLTK ( Kit de herramientas de lenguaje
natural ): un conjunto de bibliotecas y
programas para el procesamiento del
lenguaje natural (NLP) simbólico y
estadístico para el lenguaje Python .
 OpenNN : biblioteca abierta de redes
neuronales .
 Naranja : un paquete de software
de aprendizaje automático y minería de
datos basado en componentes escrito
en lenguaje Python .
 PSPP : software de minería de datos y
estadísticas bajo el Proyecto GNU similar
a SPSS
 R : Un lenguaje de programación y un
entorno de software
para computación estadística , minería de
datos y gráficos. Es parte del Proyecto
GNU .
 scikit-learn es una biblioteca de aprendizaje
automático de código abierto para el
lenguaje de programación Python
 Torch : una biblioteca de aprendizaje
profundo de código abierto para el lenguaje
de programación Lua y el marco
de computación científica con amplio
soporte para algoritmos de aprendizaje
automático .
 UIMA : La UIMA (Arquitectura de gestión de
información no estructurada) es un marco
de componentes para analizar contenido no
estructurado como texto, audio y video,
desarrollado originalmente por IBM.
 Weka : un conjunto de aplicaciones de
software de aprendizaje automático escritas
en el lenguaje de programación Java .
Software y aplicaciones de minería de datos
patentados [ editar ]
Las siguientes aplicaciones están disponibles bajo licencias propietarias.

 Angoss KnowledgeSTUDIO: herramienta de
minería de datos
 LIONsolver : una aplicación de software
integrada para minería de datos, inteligencia
empresarial y modelado que implementa el
enfoque de aprendizaje y optimización
inteligente (LION).
 Megaputer Intelligence: el software de
minería de datos y texto se
llama PolyAnalyst .
 Microsoft Analysis Services : software de
minería de datos proporcionado
por Microsoft .
 NetOwl : conjunto de productos de análisis
de entidades y texto multilingües que
permiten la minería de datos.
 Oracle Data Mining : software de minería de
datos de Oracle Corporation .
 PSeven : plataforma de automatización de
simulación y análisis de ingeniería,
optimización multidisciplinar y minería de
datos proporcionada por DATADVANCE .
 Qlucore Omics Explorer: software de
minería de datos.
 RapidMiner : un entorno para experimentos
de minería de datos y aprendizaje
automático .
 SAS Enterprise Miner : software de minería
de datos proporcionado por SAS Institute .
 SPSS Modeler : software de minería de
datos proporcionado por IBM .
 STATISTICA Data Miner: software de
minería de datos proporcionado
por StatSoft .
 Tanagra : software de minería de datos
orientado a la visualización, también para la
docencia.
 Vertica : software de minería de datos
proporcionado por Hewlett-Packard .
 Google Cloud Platform : modelos de
aprendizaje automático personalizados
automatizados administrados por Google .
 Amazon SageMaker : servicio administrado
proporcionado por Amazon para crear y
producir modelos personalizados de ML.

Ver también [ editar ]
Métodos

 Minería de agentes
 Detección de anomalías / valores atípicos /
cambios
 Aprendizaje de reglas de asociación
 Redes bayesianas
 Clasificación
 Análisis de conglomerados
 Árboles de decisión
 Aprendizaje conjunto
 Análisis factorial
 Algoritmos genéticos
 Minería intencional
 Sistema clasificador de aprendizaje
 Aprendizaje subespacial multilineal
 Redes neuronales
 Análisis de regresión
 Minería de secuencia
 Análisis de datos estructurados
 Máquinas de vectores de soporte
 Extracción de textos
 Análisis de series temporales
Dominios de aplicación

 Analítica
 Informática del comportamiento
 Big data
 Bioinformática
 Inteligencia de Negocio
 Análisis de los datos
 Almacén de datos
 Sistema de soporte de decisiones
 Minería de datos impulsada por dominios
 Descubrimiento de medicamento
 Análisis exploratorio de datos
 Analítica predictiva
 Minería web
Ejemplos de aplicación
Artículo principal: Ejemplos de minería de datos
Ver también: Categoría: Minería de datos aplicada

 Reconocimiento automático de matrículas


en el Reino Unido
 Análisis de clientes
 Minería de datos educativos
 Agencia de Seguridad Nacional
 Relación cuantitativa estructura-actividad
 Vigilancia / vigilancia masiva (por
ejemplo, Stellar Wind)
Temas relacionados
Para obtener más información sobre cómo extraer información de los datos (en
lugar de analizar datos), consulte:

 Integración de datos
 Transformación de datos
 Descubrimiento electrónico
 Extracción de información
 Integración de información
 Reconocimiento de entidad designada
 Elaboración de perfiles (ciencia de la
información)
 Psicometría
 Minería de redes sociales
 Capitalismo de vigilancia
 Raspado web
Otros recursos

 Revista internacional de almacenamiento de


datos y minería

Referencias [ editar ]
1. ^ Saltar a:
a  b  c
 "Plan de estudios de minería de
datos".  ACM SIGKDD. 2006-04-30. Consultado
el27 de enero de 2014 .
2. ^ Clifton, Christopher (2010).  "Encyclopædia
Britannica: definición de minería de
datos"  . Consultado el 9 de diciembre de 2010 .
3. ^ Hastie, Trevor  ;  Tibshirani, Robert ; Friedman,
Jerome (2009).  "Los elementos del aprendizaje
estadístico: minería de datos, inferencia y
predicción" . Archivado desde el original el 10 de
noviembre de 2009  .  Consultado el 7 de  agosto de
2012  .
4. ^ Han, Kamber, Pei, Jaiwei, Micheline, Jian
(2011). Minería de datos: conceptos y técnicas(3ª
ed.). Morgan Kaufmann.  ISBN  978-0-12-381479-1.
5. ^ Saltar a:a  b  c Fayyad, Usama; Piatetsky-Shapiro,
Gregory; Smyth, Padhraic (1996). "De la minería
de datos al descubrimiento del conocimiento en
bases de datos"(PDF).  Consultado el17 de
diciembre de 2008.
6. ^ Han, Jiawei ; Kamber, Micheline (2001). Minería
de datos: conceptos y técnicas  .  Morgan
Kaufmann . pag.  5.  ISBN  978-1-55860-489-6. Por
lo tanto, la minería de datos debería haber sido
denominada más apropiadamente "minería de
conocimiento a partir de datos", que
desafortunadamente es algo largo.
7. ^ Conferencia de otoño de OKAIRP 2005,
Universidad Estatal de Arizona Archivado2014-02-
01 en Wayback Machine
8. ^ Witten, Ian H .;  Frank, Eibe; Hall, Mark A.
(2011). Minería de datos: herramientas y técnicas
prácticas de aprendizaje automático (3
ed.). Elsevier. ISBN 978-0-12-374856-0.
9. ↑ Bouckaert, Remco R .; Frank, Eibe;  Hall, Mark
A .;  Holmes, Geoffrey;  Pfahringer,
Bernhard;  Reutemann, Peter;  Witten, Ian
H. (2010).  "Experiencias WEKA con un proyecto
de código abierto Java". Revista de investigación
sobre aprendizaje automático  .  11  : 2533-2541.  se
cambió el título original, "Aprendizaje automático
práctico" ... El término "minería de datos" se
[agregó] principalmente por razones de marketing.
10. ^ Olson, DL (2007). Minería de datos en servicios
empresariales. Empresa de servicios ,  1(3), 181-
193. doi : 10.1007 / s11628-006-0014-7
11. ^ Lovell, Michael C. (1983).  "Procesamiento de
datos".  La Revista de Economía y
Estadística  .  65  (1): 1–12. doi  :  10.2307 /
1924403 . JSTOR  1924403  . 
12. ↑ Charemza, Wojciech W .; Hombre muerto, Derek
F. (1992). "Procesamiento de datos". Nuevas
direcciones en la práctica
econométrica  .  Aldershot: Edward Elgar. págs. 14–
31. ISBN 1-85278-461-X.
13. ^ Mena, Jesús (2011). Análisis forense de
aprendizaje automático para el cumplimiento de la
ley, la seguridad y la inteligencia . Boca Raton, FL:
CRC Press (Taylor & Francis Group). ISBN 978-1-
4398-6069-4.
14. ^ Piatetsky-Shapiro, Gregory  ;  Parker, Gary
(2011). "Lección: Minería de datos y
descubrimiento del conocimiento: una
introducción" . Introducción a la minería de
datos  .  KD Nuggets . Consultado el  30 de agosto
de  2012  .
15. ^ Fayyad, Usama (15 de junio de 1999). "Primer
Editorial del Editor en Jefe" . Exploraciones
SIGKDD . 13 (1): 102.  doi : 10.1145 /
2207243.2207269 . S2CID  13314420. Consultado
el 27 de diciembre de  2010  . 
16. ^ Kantardzic, Mehmed (2003). Minería de datos:
conceptos, modelos, métodos y algoritmos . John
Wiley e hijos.  ISBN  978-0-471-22852-
3.  OCLC    50055336  .
17. ^ Gregory Piatetsky-Shapiro (2002)  Encuesta de
metodología de KDnuggets , Gregory Piatetsky-
Shapiro (2004)  Encuesta de metodología de
KDnuggets , Gregory Piatetsky-
Shapiro (2007)  Encuesta de metodología de
KDnuggets , Gregory Piatetsky-
Shapiro(2014)  Encuesta de metodología de
KDnuggets
18. ^ Lukasz Kurgan y Petr Musilek: "Una encuesta de
modelos de proceso de descubrimiento de
conocimiento y minería de datos" . La revisión de la
ingeniería del conocimiento . Volumen 21 Número
1, marzo de 2006, págs. 1–24, Cambridge
University Press, Nueva York, doi : 10.1017 /
S0269888906000737
19. ^ Azevedo, A. y Santos, MF KDD, SEMMA y
CRISP-DM: una descripción
paralelaArchivado 2013-01-09 en Wayback
Machine . En Actas de la Conferencia europea de
IADIS sobre minería de datos 2008, págs. 182–
185.
20. ^ Hawkins, Douglas M (2004).  "El problema del
sobreajuste".  Revista de Información Química y
Ciencias de la Computación . 44 (1): 1–
12. doi  :  10.1021 / ci0342472 . PMID  14741005 . 
21. ^ "Búsqueda académica de Microsoft: conferencias
principales en minería de datos" . Búsqueda
académica de Microsoft  .
22. ^ "Google Scholar: publicaciones principales -
análisis y minería de datos"  .  Google Scholar .
23. ^ Actas archivadas el 30 de abril de 2010
en Wayback Machine , conferencias
internacionales sobre descubrimiento de
conocimientos y minería de datos, ACM, Nueva
York.
24. ^ Exploraciones de SIGKDD , ACM, Nueva York.
25. ^ Günnemann, Stephan; Kremer, Hardy;  Seidl,
Thomas (2011).  "Una extensión del estándar
PMML a los modelos de agrupación en clústeres
subespaciales". Actas del taller de 2011 sobre
modelado de lenguaje de marcado
predictivo  .  pag. 48.  doi : 10.1145 /
2023598.2023605 . ISBN 978-1-4503-0837-3.  S2
CID   14967969 .
26. ^ Seltzer, William (2005). "La promesa y las
trampas de la minería de datos: cuestiones
éticas"  (PDF)  .  Sección de ASA sobre estadísticas
gubernamentales . Asociación Estadounidense de
Estadística.
27. ^ Pitts, Chip (15 de marzo de 2007). "¿El fin del
espionaje doméstico ilegal? No cuente con
él"  .  Washington Spectator . Archivado desde el
original  el 28 de noviembre de 2007.
28. ^ Taipale, Kim A. (15 de diciembre de
2003).  "Minería de datos y seguridad doméstica:
conectando los puntos para dar sentido a los
datos" . Revista de Derecho de Ciencia y
Tecnología de
Columbia  .  5 (2). OCLC  45263753  .  SSRN  54678
2 .  
29. ^ Resig, John. "Un marco para la minería de
servicios de mensajería
instantánea"  (PDF)  .  Consultado el 16 de marzo
de  2018  .
30. ^ Saltar a:a  b  c Piense antes de excavar: Implicaciones
de privacidad de la minería y la agregación de
datos Archivadoel17 de diciembre de
2008enWayback Machine, Resumen de
investigación de NASCIO, septiembre de 2004
31. ^ Ohm, Paul.  "No construyas una base de datos de
la ruina"  .  Harvard Business Review.
32. ^ Darwin Bond-Graham, Iron Cagebook: el final
lógico de las patentes de
Facebook ,Counterpillar.org , 2013.12.03
33. ^ Darwin Bond-Graham, Dentro de la conferencia
de inicio de la industria
tecnológica ,Counterpillar.org , 2013.09.11
34. ^ Los datos de búsqueda de AOL identificaron a
individuos , SecurityFocus, agosto de 2006
35. ^ Kshetri, Nir (2014).  "El impacto de los
macrodatos en la privacidad, la seguridad y el
bienestar del consumidor"  (PDF) . Política de
telecomunicaciones  .  38  (11): 1134-
1145. doi  :  10.1016 / j.telpol.2014.10.002 .
36. ^ Weiss, Martin A .;  Archick, Kristin (19 de mayo de
2016).  "Privacidad de datos entre EE. UU. Y la UE:
de puerto seguro al escudo de
privacidad"  (PDF)  .  Servicio de Investigación del
Congreso de Washington, DC.  pag. 6.
R44257 . Consultado el  9 de abril de 2020 . El 6
de octubre de 2015, el  TJUE   ... emitió una
decisión que invalidaba Safe Harbor (con vigencia
inmediata), tal como se implementa actualmente. 
37. ^ Parker, George. "Empresas del Reino Unido
dirigidas a utilizar Big Data para explotar a los
clientes". Suscríbete para leer | Financial Times,
Financial Times, 30 de septiembre de 2018,
www.ft.com/content/5dbd98ca-c491-11e8-bc21-
54264d1c4647.
38. ^ Editores de Biotech Business Week (30 de junio
de 2008); BIOMEDICINA;  La regla de privacidad
de HIPAA impide la investigación biomédica ,
Biotech Business Week, recuperado el 17 de
noviembre de 2009 de LexisNexis Academic
39. ^ Los investigadores del Reino Unido tienen
derecho a la minería de datos en virtud de las
nuevas leyes de derechos de autor del Reino
Unido. Archivado el 9 de junio de 2014 en Wayback
Machine Out-Law.com. Consultado el 14 de
noviembre de 2014.
40. ^ "Licencias para Europa - Diálogo estructurado de
partes interesadas 2013" . Comisión
Europea . Consultado el  14 de noviembre
de  2014  .
41. ^ "Minería de datos y texto: su importancia y la
necesidad de cambio en Europa"  .  Asociación de
Bibliotecas de Investigación
Europeas  .  Consultado el 14 de noviembre
de2014 .
42. ^ "El juez concede un juicio sumario a favor de
Google Books - una victoria de uso
justo". Lexology.com  .  Antonelli Ley
Ltd . Consultado el  14 de noviembre de 2014 .

Lectura adicional [ editar ]
 Cabena, Peter; Hadjnian, Pablo; Stadler,
Rolf; Verhees, Jaap; Zanasi, Alessandro
(1997); Descubriendo la minería de datos:
del concepto a la implementación , Prentice
Hall , ISBN 0-13-743980-6 
 MS Chen, J. Han, PS Yu (1996) " Minería de
datos: una descripción general desde la
perspectiva de una base de
datos ". Ingeniería de datos y conocimiento,
IEEE Transactions on 8 (6), 866–883
 Feldman, Ronen; Sanger, James (2007); El
manual de minería de textos , Cambridge
University Press , ISBN 978-0-521-83657-9 
 Guo, Yike; y Grossman, Robert (editores)
(1999); Minería de datos de alto
rendimiento: algoritmos, aplicaciones y
sistemas de escalado , Kluwer Academic
Publishers
 Han, Jiawei , Micheline Kamber y Jian
Pei. Minería de datos: conceptos y
técnicas . Morgan kaufmann, 2006.
 Hastie, Trevor , Tibshirani,
Robert y Friedman, Jerome (2001); Los
elementos del aprendizaje estadístico:
minería de datos, inferencia y predicción ,
Springer, ISBN 0-387-95284-5 
 Liu, Bing (2007, 2011); Minería de datos
web: exploración de hipervínculos,
contenido y datos de
uso , Springer , ISBN 3-540-37881-2 
 Murphy, Chris (16 de mayo de 2011). "¿Es
la minería de datos la libertad de
expresión?". Semana de la información :
12.
 Nisbet, Robert; Anciano, John; Miner, Gary
(2009); Manual de aplicaciones de análisis
estadístico y minería de datos , Academic
Press / Elsevier, ISBN 978-0-12-374765-5 
 Poncelet, Pascal; Masseglia, Florent; y
Teisseire, Maguelonne (editores) (octubre
de 2007); "Patrones de minería de datos:
nuevos métodos y aplicaciones", Referencia
de ciencias de la información , ISBN 978-1-
59904-162-9 
 Tan, Pang-Ning; Steinbach, Michael; y
Kumar, Vipin (2005); Introducción a la
minería de datos , ISBN 0-321-32136-7 
 Theodoridis, Sergios; y Koutroumbas,
Konstantinos (2009); Reconocimiento de
patrones , cuarta edición, Academic
Press, ISBN 978-1-59749-272-0 
 Weiss, Sholom M .; e Indurkhya, Nitin
(1998); Minería de datos predictiva , Morgan
Kaufmann
 Witten, Ian H .; Frank, Eibe; Hall, Mark A.
(30 de enero de 2011). Minería de datos:
herramientas y técnicas prácticas de
aprendizaje automático (3
ed.). Elsevier. ISBN 978-0-12-374856-0.
(Ver también software Weka gratuito )
 Ye, Nong (2003); The Handbook of Data
Mining , Mahwah, Nueva Jersey: Lawrence
Erlbaum

También podría gustarte