Está en la página 1de 24

MINERÍA DE DATOS

Germán Salas Ojeda

EJE 1
Conceptualicemos

Fuente: adobestock/205110625
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

Introducción y descubrimiento de la minería de datos . . . . . . . . . . . . . . . . . . 5

Génesis de la minería de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

¿Qué es la Minería de Datos? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

¿Tipos de datos y tipos de modelos? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

Otros tipos de BDD y tipos de modelos . . . . . . . . . . . . . . . . . . . . . . . . . 14

MD y el proceso de develamiento de conocimiento en BDD . . . . . . . . . . . . 15

Relación con otras disciplinas y algunas aplicaciones . . . . . . . . . . . . . . . . . 18

Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

Bibliografía . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
ÍNDICE
Introducción

Gartner indica en su revista del 19 de julio de 2021 que la demanda de los profe-
sionales especializados en minería de datos será de un 25% hasta finales del primer
semestre de 2022. La posición de la minería de datos en relación con las estadísticas,
matemática, computación, sistemas, informática, modelado de datos, entre otras,
se relacionan con métodos y conceptos teóricos que existen en cada una, todas
proporcionan la materia prima (datos), los recursos informáticos y la comunicación
canales (la salida de los resultados). Entender la minería de datos también propor-
cionará un correcto análisis de las limitaciones legales sobre el procesamiento de
datos personales; estas limitaciones han sido establecidas para proteger las liberta-
INTRODUCCIÓN

des individuales de las personas cuyos datos se están procesando, ello conlleva a la
privacidad de los datos referente a la ética. Este campo no es solo para especialistas,
sino también para expertos en busca de predominio en la moderna era de las tec-
nologías emergentes. La minería de datos permite que las empresas ganen eficacia
en su Marketing campaings, comercializaciones, estudios prospectivos y toma de
medidas específicas. Para rendir al máximo los beneficios de este conocimiento, es
bueno considerar los servicios de un especialista en el campo.

La minería de datos no surge por el perfeccionamiento o mejora de tecnologías


sustancialmente desiguales a las preliminares nombradas, al contrario, se crea por
la visión de necesidades nuevas y, esencialmente, por reconocer un nuevo potencial
naciente: “el valor”, que universalmente es infrautilizado, de la gran cuantía de datos
que se almacenan computacionalmente en los diversos sistemas de información de
gobiernos, particulares, instituciones, universidades y empresas, entonces los datos
pasan de ser una “ganancia” <<efecto auténtico de sistemas de información>>
a ser “materiales directos” que se explotan para obtener el legítimo “producto
acabado”, es decir, el conocimiento que ello arroja. Ese discernimiento que ha de
ser fundamentalmente inestimable para la toma de medidas y sentencias en el
contorno donde se han desembolsado los datos. Muy cierto es que la estadística es
una ciencia completa que gira en torno a los datos y los toma como su elemento
primal, ahora nuevas necesidades y características de manera particular como son
volumen y tipología transforman los métodos que integran lo que hoy conocemos
como “minería de datos”, aplicado sin lugar a dudas en mejorar las condiciones del
buen vivir en el ser humano ayudando a su desarrollo como persona.

¿Dónde comenzamos a encaminarnos si queremos entender de manera introduc-


toria la Minería de Datos? Entonces, bienvenidos al primer contacto con la minería
de datos y su panorama global. Según un estudio realizado por la agencia Altima,
la minería de datos es una palanca de desempeño importante para las empresas.
La agencia de publicidad de comercio digital, este año 2021, estima el retorno de
la inversión que puede resultar de la minería de datos entre el 30% y el 300%; de
igual forma, Monabanq, la filial online de Crédit Mutuel CIC, ha adoptado esta
herramienta estratégica para fortalecer su mecanismo de recuperación. Al hacerlo,
el banco digital vio aumentar su tasa de retorno en un 35%.

Entonces, la minería de datos es un activo real para las empresas, pero ¿de qué
manera? Para responder a esta pregunta, necesita saber qué es realmente la minería
de datos y qué hace para las empresas.

Finalizando este eje, usted comprenderá conceptos bien estructurados de minería


de datos, características de esta tecnología, parte de su historia, repercusiones, pros
y contras. También conocerá el recorrido de la toma de información con la minería
de datos, y podrá efectuar análisis críticos de las preferencias desiguales, y las
implicaciones de su uso, lo cual le llevará muy lejos en sus estudios. Le mostraremos
la importancia de la minería de datos en las industrias y explotarla como herra-
INTRODUCCIÓN

mienta en soluciones gerenciales en la empresa. Usted indagará distintos temas


de identificación para tipos de análisis de datos manejados para el ofrecimiento
de medidas y examinar cómo el valor media en los planes de la minería de datos.
En este nodo trabajaremos la ética y el buen vivir, ya que en la actualidad es un
hecho, que estamos viviendo tiempos inciertos, en donde la convivencia ya no es
la misma que hace 50 años. Estamos construyendo sociedades diversas, plurales,
heterogéneas, que hacen que la pregunta, ¿podremos vivir juntos?, se haga más
pertinente y necesaria. Este desafío pone sobre relieve la necesidad de construir
una ética, basada no en imaginarios universales y etéreos. Sino fundamentalmente
soportada en la construcción de acuerdos colectivos, incluyentes, solidarios y dignifi-
cantes. Para entender esta visión de la ética es importante comprender que significa
“cuidar” Cuidar es mantener la vida asegurando la satisfacción de un conjunto de
necesidades indispensables para la vida, pero que son diversas en su manifestación
y en sus contextos.

Para conseguir un buen entendimiento es necesario la participación perenne y


dedicada. Si quiere formar parte de la modernidad tecnológica que está cambiando
y revolucionando las dinámicas de sectores industriales, lo invito a que razone e
investigue lo que a continuación le presentamos:

• Génesis de la minería de datos.

• ¿Qué es la minería de datos?

• Tipos de datos y tipos de modelos.

• MD y el proceso de develamiento de conocimiento en BDD.

• Relación con otras disciplinas y algunas aplicaciones.


Introducción y
descubrimiento de la
minería de datos
Génesis de la minería de datos

La minería de datos no es nueva, debemos tener eso en cuenta, este tipo de metodo-
logía (si se puede llamar así) se remonta tan atrás en la historia. En China se atribuye
al emperador Tang, Yao, la voluntad de contar las cosechas en 2238 a. C.; en Egipto, el
faraón Amasis organizó el censo de su población en el siglo V a.C. No fue hasta el siglo
XVIII que se comenzó a querer analizar los datos para buscar características comunes.
En 1763, Thomas Bayes demostró que se pueden determinar, no solo las probabilidades a
partir de las observaciones resultantes de un experimento, sino también los parámetros
relacionados con estas probabilidades. Presentado en el caso particular de una distribu-
ción binomial, este resultado fue extendido independientemente por Laplace, lo que llevó
a una formulación general del teorema de Bayes. Legendre publicó en 1805 un ensayo
sobre el método de mínimos cuadrados que permite comparar un conjunto de datos con
un modelo matemático.

En la década de 1920, Ronald Fisher


desarrolló el análisis de varianza como
herramienta para su proyecto de inferen- Neural networks (Redes Neuronales):
Una red neuronal es un modelo sim-
cia estadística médica. Posteriormente, en plificado que emula el modo en que el
la década de 1950, la aparición de nuevas cerebro humano procesa la información:
Funciona simultaneando un número
tecnologías y las técnicas de computación elevado de unidades de procesamiento
basadas en computadoras, como la seg- interconectadas que parecen versio-
nes abstractas de neuronas. Las redes
mentación, las redes neuronales y los algo- neuronales son modelos simples del
ritmos genéticos, en la década de 1960, los funcionamiento del sistema nervioso. Las
unidades básicas son las neuronas, que
árboles de decisión y en la de 1980, las SVM generalmente se organizan en capas.
permitieron a los investigadores explotar y Extraído de: https://www.ibm.com/
docs /es/spss-modeler/SaaS?topic=ne-
descubrir modelos cada vez más precisos. tworks-neural-model
En Francia, Jean-Paul Benzécri inventó el
SVM:
análisis factorial en la década de 1960, lo Las máquinas de vectores de soporte o
cual contribuyó de manera significativa máquinas de vector soporte (del inglés
Support Vector Machines, SVM) son un
al desarrollo de la minería de textos. A conjunto de algoritmos de aprendizaje
principios de los años 80 Rakesh Agrawal, supervisado desarrollados por Vladimir
Vapnik y su equipo en los laboratorios
GioWiederhold, Robert Blum y Gregory Pia- AT&T.
tetsky-Shapiro y otros investigadores, pro- Estos métodos están propiamente rela-
cionados con problemas de clasificación
movieron la consolidación de los procesos y regresión. Extrído de: https://es.wikipe-
KDD y Minería de Datos. dia.org/wiki/M%C3%A1quinas_de_vecto-
res_de_soporte

Para que haya extracción de modelos, KDD:


El proceso de extracción de conocimiento
debe haber recopilación de datos, así que en bases de datos (Knowledge Disco-
podríamos hablar de la escritura de unos y very in Databases, KDD) es el proceso
no trivial de identificar patrones válidos,
ceros en los discos duros de IBM en los años novedosos, potencialmente útiles y, en
70, cuando se arrendaban para almacenar última instancia, comprensibles a partir
de datos.
la información por $250.000 diarios. Los Extraido de: Fayyad, U. M.; Piatets-
primeros países que estudiaron la aplica- ky-Shapiro, G.; Smyth, P. 1996

ción de modelos matemáticos de manera

Minería de datos - eje 1 conceptualicemos 6


seria y dedicada en estructuras almacenadas fueron
las escuelas clásicas de la computación y la informá-
Computación: tica (no confundir las definiciones) a saber: Francia
El término computación es proveniente y Canadá.
del latín, según la RAE de «computatĭo»,
pero otras fuentes formulan que deriva
de la voz latina «computare» formada Hoy en día, empresas como Amazon.com utilizan
por el prefijo «com» igual a «con» y
«putare» que quiere decir «computar, todas estas herramientas para ofrecer a los clientes
evaluar». La definición de computación otras compras que podrían interesarles.
es la ciencia que se ocupa del estudio de
las computadoras, abarcando su diseño,
operación y uso en el procesamiento de Como se habló anteriormente, la industria está
datos. En otras palabras, la computación
alude al estudio científico que se funda- muy interesada en el tema, especialmente en tér-
menta sobre sistemas automáticos para minos de estándares e interoperabilidad. Además de
el manejo de información, que pueden
realizarse por medio de herramientas esto, la docencia y la investigación han contribuido
pensadas para dicho fin. Extraído de: enormemente a la evolución y mejora (en términos de
https://conceptodefinicion.de/compu-
tacion/ rigor) por ejemplo, si hablamos de métodos y mode-
los; un artículo publicado en 2008 por la Revista Inter-
Informática:
Es la ciencia vinculada al desarrollo de la nacional de Tecnología de la Información y Toma de
computadora; es un conjunto de conoci- Decisiones de Ontario (Canadá), resume un estudio
mientos, tantos teóricos como prácticos,
sobre cómo se construye, cómo funciona que rastrea y analiza esta evolución. Algunos actores,
y cómo se emplea la información, y los como veremos más adelante, han pasado de la inves-
medios de automatización y transmi-
sión para poder tratarla y procesarla. La tigación a la industria. Universidades como las de
materia prima de la informática es la Constanza y Dortmund, en Alemania, Nueva Zelanda,
información, mientras que su objetivo
es el tratamiento de la misma. En los y la Université Lumière Lyon, en Francia, han llevado
países anglosajones se conoce con el a cabo investigaciones para encontrar nuevos algo-
nombre Computer Science (Ciencia de
las computadoras). Extraído de: https:// ritmos y que sus alumnos los mejoren desarrollando
conceptodefinicion.de/informatica/ software. Todo ello permite a los investigadores avan-
zar en este campo, beneficiando así a la industria.

Además, se han creado muchos grupos y asociaciones interprofesionales para reflexio-


nar y apoyar el desarrollo de Data Mining. La primera de estas asociaciones en el campo
de la minería de datos es la Association for Computing Machinery Interest Group on
Knowledge Management and Data Mining (SIGKDD, https://dl.acm.org/sig/sigkdd).
Desde 1989 han sido sede de una conferencia internacional y publicado los resultados de
su reflexión, y desde 1999 esta organización ha publicado una revista semestral titulada
"Exploraciones SIGKDD". Podemos indicar entonces que la evolución de la minería de
datos en el lapso del período consigue fraccionarse en cuatro (4) períodos primordiales:

• Recopilación de Datos (1960).

• Acceso de Datos (1980).

• Depósito de Datos y Soporte a las Disposiciones (Inicios de 1990).

• Minería de Datos Inteligente (Finales de 1990).

Minería de datos - eje 1 conceptualicemos 7


¿Sabía que?

Según la Revista Forbes, el Data mining es


una práctica estratégica considerada impor-
tante por casi el 80 % de las organizaciones
que aplican inteligencia empresarial (business
intelligence).

Instrucción

En este punto lo invitamos a consultar la infografía 1. La estructura


de los datos.

¿Qué es la Minería de Datos?

La minería de datos, también conocida


Video como extracción de conocimiento a partir
de datos (ECD en francés, KDD en inglés),
tiene como objetivo extraer conocimiento a
partir de grandes cantidades de datos, por
métodos automáticos o semiautomáticos.
El uso industrial u operativo de este cono-
Para comenzar, veamos una cimiento en el mundo profesional permite
videocápsula sobre lo que es la resolver una amplia variedad de problemas,
minería de datos. que van desde la gestión de la relación con
el cliente hasta el mantenimiento preven-
Big data y la minería de datos tivo, pasando por la detección de fraudes
por Álex Rabasa y la optimización de sitios web.

https://youtu.be/L-hkXiIlkmc En el estudio de (Garassino, 2020) CEO


de SYLOPER, revista tecnológica para
diseño en Minería de Datos, la define como:
“un proceso para detectar información de
conjuntos grandes de datos, de la manera

Minería de datos - eje 1 conceptualicemos 8


más automática posible. Su objetivo es A continuación, te presentaremos algu-
encontrar patrones, tendencias o reglas nos conceptos generales sobre Minería de
que expliquen el comportamiento de los datos, proporcionados por los autores y
datos en un contexto específico”. empresas especialistas en el contexto:


Hay una infinidad de concepciones sobre Según SAS:
la expresión minería de datos, lo encan-
tador es que los literatos no acuerdan
normalizar la definición, pero convergen La minería de datos es el proceso de
que parte de la definición debe explicar hallar anomalías, patrones y correla-
el comportamiento de los datos, el cual ciones en grandes conjuntos de datos
varía dependiendo del contexto en el cual para predecir resultados. Empleando
se esté trabajando, igual acuerdan que el una amplia variedad de técnicas,
desarrollo potencial de la minería de datos, puede utilizar esta información para
en ámbito de los negocios es crucial para el incrementar sus ingresos, recortar
costos, mejorar sus relaciones con
estudio y toma de medidas.
clientes, reducir riesgos y más (2021).

Para Microsoft:
¿Sabía que?


Es interesante saber que, el
volumen de datos produ- La minería de datos es el proceso
cidos se triplica cada dos de detectar la información pro-
años. Los datos no estruc- cesable de los conjuntos grandes
de datos. Utiliza el análisis mate-
turados por sí solos confor-
mático para deducir los patrones
man el 90% del universo
y tendencias que existen en los
digital. Pero más informa-
datos. Normalmente, estos pa-
ción no significa necesaria-
trones no se pueden detectar me-
mente más conocimientos.
diante la exploración tradicional
de los datos porque las relaciones
son demasiado complejas o por-
que hay demasiados datos (2021).

Instrucción
Para Belinchón:


Los invito a realizar la actividad
pódcast con preguntas.
Se conoce como minería de da-
tos a todo un conjunto de téc-
nicas encargadasde la extrac-
ción de conocimiento proce-
sable, implícito en las bases de

Minería de datos - eje 1 conceptualicemos 9


datos (ayuda a comprender su contenido). Está fuertemente liga-
da con la supervisión de procesos industriales, pues resulta muy útil
para aprovechar los datos almacenados en las bases de datos (s.f.).

¿Tipos de datos y tipos de modelos?

Ahora que llegamos a este punto, nos tenemos que hacer la gran pregunta, ¿A qué tipo
o tipos de datos se puede destinar la minería de datos? Inicialmente, el concepto se puede
aplicar a cualquier ejemplo de indagación, existiendo
técnicas de minería disímiles para cada una de ellas.
Simplificando vamos a distinguir entre datos estruc- BDD:
Acrónimo que se utiliza para abreviar
turados que provienen de BDD relacionales, datos Bases de Datos.
estructurados en BDD (multimedia, temporales,
espaciales y textuales) y otros tipos de repositorios,
también datos no estructurados derivados de la web.

Las herramientas para analizar datos en minería de datos combinan, además de las
nociones de la estadística, el análisis lingüístico, lexicográfico y multilingüe de datos
no estructurados como correos electrónicos, respuestas a cuestionarios o encuestas,
quejas de clientes, blogs de Internet, noticias online, chats, etc., por ejemplo, el grado
de satisfacción (o insatisfacción) del cliente. Sus aplicaciones más rudimentarias son la
lucha contra el spam, así como el análisis de contenido. Los más ambiciosos se refieren
a la evaluación por análisis de informes de prensa, la imagen de una empresa, un clima
político o bursátil, o la categorización automática de la información.

Bases de datos relacionales


La BDD relacional es un concepto de
BDD que acopia y suministra acceso a
elementos de datos que están conecta-
dos entre sí. Las BDD relacionales basan
su modelo en la entidad-relación, es una
Atributo: forma intuitiva y cómoda de visualizar
En informática, un atributo es una espe-
cificación que define una propiedad de datos en forma tabular. En una BDD rela-
un objeto, elemento o archivo. ​También
puede referirse o establecer el valor
cional, cada fila de la tabla es un registro
específico para una instancia determina- con un identificador o ID único, el cual es
da de los mismos. Extraído de: https://
es.wikipedia.org/wiki/Atributo_(infor-
denominado clave. Las columnas son for-
m%C3%A1tica) madas por los atributos de los datos y cada
registro reviste un valor para cada atri-
buto, esto proporciona el establecimiento
de relaciones entre los datos existentes en

Minería de datos - eje 1 conceptualicemos 10


Relaciones:
Las relaciones de bases de datos son
asociaciones entre tablas que se crean
ella. En la figura 1 muestra las relaciones existentes utilizando sentencias de unión para re-
entre la tabla empleado y departamento. La tabla cuperar datos. Extraído de: https://www.
ibm.com/docs /es/control-desk/7.6.1.2?-
empleado tiene 6 atributos: clave primaria (IdE), topic=structure-database-relationships
nombre del empleado (Enombre), sueldo (Sueldo),
edad (Edad), sexo (Sexo) y el departamento donde Clave primaria:
La clave principal o primaria proporciona
trabaja (IdD), la tabla departamento tiene 3 atri- un valor único para cada fila de la tabla
y nos sirve de identificador de registros
butos: la clave primaria (IdD), nombre (Dnombre) de forma que con esta clave podamos
y director (Director). La relación existente puede saber sin ningún tipo de equivocación el
registro al cuál identifica. No podemos
poseer claves ajenas, llamadas atributos que refe- definir más de una clave principal, pero
rencian otra relación. podemos tener una clave principal com-
puesta por más de un campo. Extraído
de: https://www.iesandresbojollo.es/
tiyc/base/6-Clave_primaria.html

Figura 1. Bases de datos relacionales


Fuente: Orallo, (2021)

El modelo de relación es simple, pero poderoso y es utilizado por industrias de manera


variable para suplir muchas de las necesidades de ordenar la información. Las BDD rela-
cionales se usan para soportar la gestión de la mayoría de los sistemas de información,
aplicaciones o herramientas de tipo empresarial, apoyan la consulta o búsquedas de
descripciones, encauzar avenencias de e-commerce, disponer de grandiosos conjuntos de
información de consumidores y muchas más cosas. Se considera que una BDD relacional
puedan suplir necesidades de búsqueda donde los datos se correspondan entre sí y se
deban gestionar de una manera tangible, estable y con reglas generales. Los distintos
departamentos de la empresa utilizan los mismos datos y pueden emplear la misma BDD.

En la antigüedad, al menos en la escala de los sistemas de información, cada aplicación


utilizaba sus propios datos. Es fácil imaginar los errores debido a esta redundancia múl-
tiple, especialmente tan pronto como comenzamos a actualizar los datos de referencia,

Minería de datos - eje 1 conceptualicemos 11


como la información del cliente o las fichas de producto. ¿Cuándo estamos seguros de
que hemos actualizado todas las aplicaciones y eso sin errores de entrada de datos?
Nunca. Este es el papel esencial de los sistemas de bases de datos, preferiblemente
relacionales. Todos los datos existen en un único punto, y las aplicaciones y los usuarios
solo usan esta única fuente. Acceden a los datos utilizando un lenguaje dedicado de la
llamada cuarta generación: SQL para lenguaje de consulta estructurado. Es importante
entender que según (Orallo, 2021) la integridad de los datos es expresada mediante las
limitaciones de integridad. Estas pueden ser de:

• De dominio que limitan el o los valores que pueda tener un atributo con relación
a su dominio, ello puede limitar a ser nulos o no.

• De identidad donde la clave primaria debe ser única obligatoriamente.

• De referencia aquí los valores de las claves foráneas convienen relacionarse con
uno y solo un valor de la tabla a la cual se hace referencia.

Obtener información desde una BDD relacional


se hace tradicionalmente con lenguajes de consulta
Sistema Gestor de Base de Datos
estrictamente diseñados para trabajarlos, por ejem-
(SGBD) o DGBA (Data Base
plo, SQL. La mayoría de los software para manejar Management System):
BDD relacionales, son SGBDD (Sistemas de Gestión Es un conjunto de programas no visibles
que administran y gestionan la infor-
de Base de Datos Relacionales) , hoy existen muchí- mación que contiene una base de datos
simos SGBDD, los más comunes y utilizados por las Los gestores de base de datos o gestores
de datos hacen posible administrar
empresas son: todo acceso a la base de datos ya que
tienen el objetivo de servir de interfaz
entre ésta, el usuario y las aplicaciones.
• Oracle. Extraído de: https://blog.powerdata.es/
el-valor-de-la-gestion-de-datos/que-es-
un-gestor-de-datos-y-para-que-sirve
• MySQL.

• Microsoft SQL Server.

• PostgreSQL.

• DB2.

La figura 2 muestra una consulta SQL aplicada a la tabla empleado en la cual se


solicita mostrar la media de edad de los acomodados de la compañía, cuyo salario es
mayor de dos mil (2000 $), agrupadopor IdD y por nombre de departamento.

Minería de datos - eje 1 conceptualicemos 12


Figura 2. Ejemplo de una consulta SQL
Fuente: Orallo, (2021)

Lectura complementaria

Antes de continuar, recomiendo realizar la lectura complementaria que pro-


pone ORACLE Colombia, la primera empresa en gestión, administración,
diseño y construcción de bases de datos en el mundo.

¿Qué es una Base de datos Relacional (RDBMS)?

ORACLE

Las BDD Relacionales son las más empleadas en la actualidad, no está de más, que
realices una pequeña comparación con otras BDD que también se explotan actualmente,
ahora lo que hace tomar en cuenta una más que otra dependerá esencialmente de las
necesidades de la organización o la empresa, inclusive podrás combinar BDD desiguales
y así obtener mejores resultados y elaborar análisis más perfectos. Para preservar la
integridad de una BDD cuando la trabajamos para utilizar minería de datos, es impor-
tante verificar que todos los valores sean correspondientes a la BDD o tendríamos un
problema de integridad, así que ten muy presente que algunos SGBBD no verifican esta
restricción (no devuelven ningún error en caso de un problema), lo que puede causar un
comportamiento errático al final si se analizan los datos.

Para entender un poco más, sobre cómo se estructuran los datos en la minería de
datos, debemos conocer un poco sobre el modelo "ACID" y la gestión de transacciones. El
modelo ACID define las reglas de las avenencias para garantizar la estabilidad de la BDD.
Esto es esencial para manejar solicitudes de diferentes aplicaciones. Una transacción per-
mite envolver varias solicitudes que imperativamente deben ejecutarse secuencialmente
en la misma unidad. Si alguna vez fuera imposible procesar la transacción completa, el
sistema volverá a un estado estable anterior. Las características son:

Minería de datos - eje 1 conceptualicemos 13


• Atomicidad: se realizan todas las acciones o ninguna.

• Coherencia: la transacción debe poner el sistema en un estado coherente. Si esto


no es posible, vuelve al estado estable anterior.

• Aislamiento: los cambios intermedios, realizados en la base por la transacción


actual, no son vistos por otras transacciones ejecutadas en paralelo de otras ta-
reas antes de la validación.

• Sostenibilidad: una vez validados, los cambios provocados por la transacción son
sostenibles.

Otros tipos de BDD y tipos de modelos

La mayoría de las BDD relacionales más utiliza-


das por muchas empresas o personas, son las que Dato complejo:
En algunos entornos de programación, el
les funcionan, es así de simple. Podemos direccionar término tipo de datos complejo (en con-
también los tipos de BDD que contienen datos com- traste con los tipos de datos primitivos)
es sinónimo del tipo de datos compuesto
plejos, entre ellas tenemos: y continuo. Extraído de: https://cibernin-
jas.com/tipos-de-datos-complejos/

• Las BDDS espaciales.

• Las BDDS de datos temporales.

• Las BDDS Documentales.

• Las BDDS multimedia.

• Las BDD multidimensionales.

Existen diversas formas de representar modelos y cada una de ellas establecen la téc-
nica y el tipo que se pueden utilizar para deducirlos. Ejemplo de ello sería que las BDM son
mejores para obtener vista de unos datos en función de otros. En la práctica, los modelos
pueden presentarse en 2 tipos:

• Predictivos: estos pretenden considerar bienes desconocidos o futuros de varia-


bles de interés, las cuales en el cosmos de la minería de datos se denominan de-
pendientes o variables objetivo, empleando otras constantes o campos de la
BDD, las que llamamos como variables independientes o predictivas. Un proto-
tipo común de un modelo predictivo sería el que consiente en valorar la solicitud
de un interés en situación de un consumo en el mercado publicitario.

• Descriptivos: estos modelos, por el contrario, identifican patrones que resuman


o expliquen los datos; se utilizan para indagar los patrimonios de los datos ins-

Minería de datos - eje 1 conceptualicemos 14


peccionados, y así se evita profetizar proceso que remite variedad de etapas,
datos nuevos. Ejemplificando, se de- mientras que la minería de datos solo es
sea identificar en una farmacia di- una de estas etapas.
ferentes grupos de individuos, con el
objetivo de constituir disímiles ofre-
cimientos para cada grupo etario y
así poder transmitirle la investiga-
ción a algún dispositivo, se examina
los viajes que han elaborado los con-
sumidores y como deduce el modelo
descriptivo para estos.

Instrucción Figura 3. Datos en bruto


Fuente: adobestock/273179184

En este punto lo invitamos


a consultar la infogra- Anteriormente, se mencionó que el KDD
fía 2. La estructura de los es un área de la informática que domina la
datos. procedencia y la extracción de búsqueda
informatizada, anticipadamente intere-
sante e inexplorada, partiendo de datos
no procesados. KDD es todo el proceso de
intentar dar sentido a los datos mediante el
MD y el proceso de develamiento desarrollo de métodos o técnicas adecua-
de conocimiento en BDD dos. Este proceso trata de mapear datos de
bajo nivel en otras formas más compactas,
Dato es la peculiaridad de un valor de abstractas y útiles. Esto se logra creando
instaurar su dominio, es decir, qué valor informes breves, modelando el proceso de
va a poder tomar, qué maniobra puede generación de datos y desarrollando mode-
dedicar y cómo lo significa profundamente los predictivos que pueden predecir casos
dentro del computador. Existen variedad futuros. Con el exponencial crecimiento de
de conocimientos que se manejan conti- los datos, primordialmente en plazas como
nuamente como símiles de la Data Mining lo son los negocios, KDD se ha transfor-
o Minería de Datos. Uno de esos términos mado en un proceso importantísimo para
se conoce como “análisis inteligente de transformar el gran importe de datos en
los datos” este concepto hace hincapié en inteligencia comercial, ya que la extracción
métodos de análisis netamente estadístico. manual de modelos se ha tornado supues-
Otro bastante utilizado y el que se acerca a tamente inverosímil a lo largo de los años.
la minería de datos, es el “descubrimiento
o la extracción de conocimiento en BDD”. La definición anterior resume de gran
Los dos términos se utilizan de forma indis- manera con lo expresado por (Orallo, 2021)
tinta, no obstante, existen diferencias entre donde se habla de cuáles deberían ser las
los dos. En los últimos 5 años se ha usado pertenencias anheladas del conocimiento
el vocablo KDD para hacer referencia a un extraído, estas suelen ser:

Minería de datos - eje 1 conceptualicemos 15


• Novedoso: que contribuye a algo inexplorado, tanto para el sistema y preferible
para el usuario.

• Comprensible: la procedencia de patrones no comprensibles obstaculiza o impide


su validación, investigación, interpretación y uso cuando se toma las medidas. La
información enigmática no suministra conocimiento (al menos desde el enfoque
de su provecho).

• Válido: los modelos o patrones corresponden seguir siendo exactos para poder
lograr datos nuevos (con grado de certidumbre), y no solo para aquellos que han
sido usados en su obtención.

• Potencialmente útil: la información debe llevar a acciones que logren algún tipo
de patrocinio para el usuario.

Figura 4. Proceso de KDD


Fuente: Orallo, (2021)

Actualmente, el KDD se esgrime para heterogéneas aplicaciones, como análisis de


redes sociales, descubrimiento de estafas, ciencia, inversión, fabricación, telecomunica-
ciones, limpieza de datos, deportes, recuperación de información y, en gran parte, para
marketing. KDD se usa habitualmente para manifestar interpelaciones como: ¿cuáles son
los principales productos que pueden ayudar a for-
mar altos ingresos el próximo año en Carulla? Este
Patrón:
proceso tiene varias etapas. Comienza por desarro- Los patrones de datos son expresiones
llar una comprensión del alcance y el propósito, y regulares que describen el formato de los
datos de origen en un dominio de datos.
luego crea un conjunto de datos de destino. A esto le Un patrón de datos puede contener
sigue la limpieza, el preprocesamiento, la reducción varias expresiones de datos. Si algunas de
las expresiones coinciden con patrones
y la proyección de datos. El siguiente paso es utilizar de datos de una columna, entonces la
la minería de datos (que se explica a continuación) columna pertenece al dominio de datos.
Puede configurar expresiones regulares
para identificar un patrón. Finalmente, el conoci- detalladas para identificar datos de co-
miento descubierto se consolida visualizándolo e lumnas. Extraído de: https://n9.cl/nr3gc
interpretándolo.

Minería de datos - eje 1 conceptualicemos 16


Video

Si presta atención detenidamente a esta videocápsula, entenderá mucho


mejor el contenido que se presenta a continuación en el documento.

Minería de Datos (Clase 1: Introducción y proceso KDD)

https://youtu.be/DmNqizRa1YQ

¿Sabía que?

Una gran cantidad de personas incluyendo empresarios y emprendedo-


res, consideran el concepto de MINERÍA DE DATOS como algo que no es
tan importante y creen que no hay nada malo en ignorarlo.

Aunque los dos términos KDD y Data Mining se usan de manera muy intercambiable,
se refieren a dos conceptos relacionados, pero ligeramente diferentes. KDD es el proceso
general de extraer conocimiento de los datos, mientras que la minería de datos es un
paso en el proceso KDD, que implica identificar patrones en los datos. En otras palabras,
la minería de datos es solo la aplicación de un algoritmo específico basado en el objetivo
general del proceso KDD.

Instrucción

Los invito a revisar actividad de aprendizaje – videopreguntas.

Minería de datos - eje 1 conceptualicemos 17


Relación con otras disciplinas y algunas aplicaciones

La minería de datos entra en el campo de la multidisciplinariedad, donde se desarrolla


en paralelo o como continuación de otras tecnologías, para ello, los avances en la minería
de datos conjuntamente con la investigación se sustentan de los datos y de la información
que se producen en esas áreas afines.

Figura 5. Disciplinas que favorecen a la minería de datos


Fuente: Orallo, (2021)

Las formas más básicas de extracción de datos son datos de bases de datos, datos
de almacenamiento de datos y datos transaccionales. Las técnicas de minería de datos
también se pueden aplicar a otras formas, como flujo de datos, datos secuenciados,
datos de texto y datos espaciales.

a. Datos de la BDD: el sistema de gerencia de la BDD es un incorporado de datos


interrelacionados y un agregado de programas de software con el que puedes ac-
ceder y administrar los datos. El sistema de BDD relacional es una colección de ta-
blas y cada tabla consta de un conjunto de atributos y tuplas. La minería de bases
de datos relacionales busca tendencias y patrones de datos, por ejemplo, riesgo
crediticio del cliente basado en la edad, los ingresos y el riesgo crediticio pasado.
Además, la minería puede descubrir desviaciones de, por ejemplo, un aumento
significativo en el precio de un artículo. Las metodologías de indexación y de acce-
so eficientemente a los datos son muy notables para el esbozo eficientemente de
algoritmos para la minería de datos (Oracle, s. f.).

b. Recuperación de la información: la recuperación de información (IR) es el cam-


po de encontrar un objeto en cualquier medio relevante para responder a la soli-
citud de un usuario. Hasta hace poco, la búsqueda de técnicas efectivas para la
Recuperación de Información solo se refería a campos muy específicos como el de-

Minería de datos - eje 1 conceptualicemos 18


recho, la medicina, el comercio. Con la llegada de la Web tal como la conocemos,
todos nos hemos convertido en usuarios de Information Research. Este cambio ha
llevado a la comunidad de investigación en información a desarrollar nuevas téc-
nicas para minería de datos (Oracle, s. f.).

c. Estadística: gran disciplina que proporciona diversos conceptos, técnicas y algo-


ritmos que se manejan en minería de datos, ejemplo de ello es la regresión lineal
y no lineal, la media, la varianza, el análisis univariante y multivariante, las distri-
buciones, la modelización paramétrica y no paramétrica, la teoría del muestreo,
la validación cruzada, las técnicas bayesianas, y podríamos seguir un largo rato.
Algunos software de análisis estadísticos se comercializan y distribuyen como he-
rramientas para minería de datos (Oracle, s. f.).

d. Aprendizaje automático: área referente a la inteligencia artificial (IA) que do-


mina el desarrollo de algoritmos y software idóneos para aprender, y compone,
contiguo a la estadística, el motor del estudio profundo de los datos. Las principa-
les características sobre lo que se construye en el aprendizaje automático y en la
minería de datos son idénticos, constituyen y proyectan el aprendizaje de la má-
quina a partir de algunos ejemplos y lo usamos para satisfacer la dificultad o los
problemas (Oracle, s. f.).

e. Sistemas para la toma de decisión: son sistemas que generan ayuda a los direc-
tores a resolver inconvenientes dentro de la empresa y también en la toma de de-
cisiones. Uno de sus objetivos es proporcionar información ineludible para ejecutar
decisiones asertivas y efectivas en el perímetro empresarial, al igual que tareas de
determinación y ejemplo de ello puede ser la medicina. (Oracle, s. f.).

f. La visualización de datos: utilizar técnica de visualización permite entender, in-


tuir, descubrir esquemas que preexisten más complejos partiendo de algunas re-
presentaciones textuales o matemáticas de los resultados. Algunas técnicas de
visualización pueden ser: gráficas, diagramas
de barras, histogramas, gráficas de disper-
sión, etc., las más habituales fundadas en co-
lores, figuras, etc., desarrolladas con píxeles Procesamiento Distribuido:
El procesamiento distribuido se define
en la cual cada dato se representa como un como, la forma en que es posible conec-
notable píxel, apoyadas en jerarquías donde tar distintas máquinas,
en cierto tipo de red de comunicaciones,
se divide el área que se desea representar, en generalmente una LAN o una red de área
regiones dependiendo de los datos ingresa- amplia o una red como Internet, logran-
do así, que una sola tarea de procesa-
dos, entre otras y agregando interacción entre miento de datos pueda ser procesada
las regiones (Oracle, s. f.). o ejecutada entre varias máquinas de
la red, es decir que un solo proceso se
pueda realizar entre varias máquinas di-
g. La computación paralela y distribuida: en ferentes y conectadas a una red. Extraído
de: http://ual.dyndns.org/biblioteca/
la actualidad, varios SGBDD muy utilizados Evaluacion_Seleccion_Equipo_2017/pdf/
incluyen modelos y avances tecnológicos en S3d1.pdf

el procesamiento distribuido, paralelismo o

Minería de datos - eje 1 conceptualicemos 19


computación en grid. El costo computacional
o de cálculo en estos sistemas es sumamente
alto, por lo que las actividades más complejas Computación en Grid:
en minería de datos se distribuyen entre disí- Computación en Grid o en malla es un
grupo de equipos conectados en red
miles, procesadores, petanodos o supercom- que funcionan juntos como un súper
putadores. El total éxito se atribuye a la ex- equipo virtual para llevar a cabo tareas
de gran envergadura, como el análisis de
plosión de los almacenes de datos, es decir, su conjuntos de datos de gran tamaño o
adaptabilidad distribuida, y de la minería de la creación de modelos meteorológicos.
A través de la nube, puede ensamblar y
datos, donde las prestaciones de consulta que utilizar extensas mallas de equipos para
realizan los algoritmos son críticas. Una de las determinados fines y durante períodos
de tiempo específicos, pagando, si es
primordiales mejoras del procesamiento pa- necesario, solo por lo que utiliza. Extraído
ralelo es indispensablemente la escalabilidad de: https://azure.microsoft.com/es-es/
overview/what-is-grid-computing/
de los algoritmos, lo que lo hace habilidoso
para estos aplicativos (Oracle, s. f.).
Prestaciones:
El concepto de prestaciones se puede
h. Otros tipos de datos: otros datos pueden decir que es el rendimiento o la forma
como trabaja un computador desde
incluir: datos temporales, datos espaciales, el punto de vista de su s componentes
datos de hipertexto y datos multimedia. físicos tanto externos como internos ya
que cada u no cumple una tarea distinta
podemos decir que si cada componente
Las aplicaciones actuales de la minería de datos es veloz en su tarea determinada la pres-
tación de la computadora será eficaz.
atraviesan el umbral de los sistemas de soporte que Extraído de: https://es.slideshare.net/
toman medidas y están ingresando en el camino JorgeGonzaloMalizaAs /equipos-de-pres-
tacion-de-un-computador
de la IA, donde los delicados algoritmos se diseñan
Escalabilidad:
para suplir la toma de decisiones realizadas por el Se entiende por escalabilidad a la ca-
humano (Carr, 2011). pacidad de adaptación y respuesta de
un sistema con respecto al rendimiento
del mismo a medida que aumentan de
En general, los beneficios y su aplicabilidad proce- forma significativa el número de usuarios
del mismo. Extraído de: http://www.
den de la capacidad de revelar patrones y relaciones juntadeandalucia.es/servicios/madeja/
que se encuentran furtivos u ocultos en los datos, contenido/recurso/220
los cuales se pueden utilizar para hacer simples o
complejos pronósticos que impactan de manera
indirecta y directa a las industrias. Las bondades que ejerce la minería de datos se ajustan
dependiendo del propósito que se quiera y a la empresa o sector que se quiera aplicar.
Las direcciones de marketing y ventas aprovechan incesantemente estos procesos de
extracción de los datos Clientes para optimizar sus tasas de conversión de los clientes
potenciales o simplemente los utilizan para crear y diseñar campañas personalizadas de
marketing a la medida. Explorar datos sobre los históricos de ventas y compra, al igual
que los comportamientos de clientes, se usan para diseñar modelos predictivos de ventas,
construir nuevos servicios y productos.

Las industrias de las finanzas monopolizan estos instrumentos basados en minería de


datos, donde con ellos crean modelos de riesgo y detección de fraudes. Las empresas de
manufactura las utilizan para mejorar la seguridad y calidad de los productos, identificar
problemas de calidad mínima o máxima, entender la administración de alguna cadena
de suministro y para optimizar las operaciones. La minería de datos sé encuentra en el

Minería de datos - eje 1 conceptualicemos 20


núcleo donde se definen los esfuerzos para analizar varias disciplinas e industrias, como
ejemplo podríamos nombrar:

• Educación.

• Análisis de mercado, distribución y comercio.

• Medicina.

• Biología, bioingeniería y otras ciencias.

• Seguros y salud.

• Computación.

• Telecomunicaciones.

• Garantías de productos.

• Procesos industriales.

• Legal y Política.

• Fabricación.

• Venta a detalles.

• Bancos y financieras.

• Turismo.

• Hacienda.

• Policía y ejército.

• Deportes

• Etc.

Minería de datos - eje 1 conceptualicemos 21


Lectura complementaria

Pueden completar y seguir filosofando sobre la idea general de la minería


de datos con esta lectura complementaria:

Minería de Datos. Una introducción

Apolinar Velarde Martínez

Conclusión

Investigar los datos para revelar lazos ocultos y profetizar directrices a futuro se definen
a lo largo de mucho tiempo. Esto se conoce como "descubrimiento de conocimientos en
BDD", y la expresión "minería de datos" salió a la luz en la época de los 1990, el piso o
columna de la minería de datos se ancla en el trípode científico disciplinar entrelazado:
<<la estadística que es la disertación numérica de las relaciones de los datos>>, <<la
magnánima inteligencia artificial, razón similar a la humana, que es expuesta por el sof-
tware y/o las máquinas>> y el machine learning que son algoritmos que pueden educarse
mediante datos para formar, descubrir y realizar predicciones>>. Lo que antiguamente se
utilizaba de una manera no muy concreta, hoy en día otra vez es nuevo y está de moda, la
minería de datos continúa progresando a la par de la evolución tecnológica para igualar
el ritmo de otras técnicas y modelos haciéndose asequible.

Estos últimos diez años, los avances en el poder de cálculo unido a la velocidad de pro-
cesamiento y cómputo, adicionando los grandes adelantos del hardware, han permitido
alcanzar resultados que van mucho más allá de las experiencias comunes y monótonas,
que sin duda desgastan cantidad de tiempo al estudio de datos tradicionales, ahora
todo es relativamente fácil y automatizado. Cuando la recopilación de los datos es más
compleja, mucho más elevado es el potencial que existe para expresar insights nota-
bles. Los especialistas en big data, aseguradoras, proveedores de telecomunicaciones,
fabricantes, bancos, entre muchos otros, manipulan la minería de datos para dejar ver
relaciones entre valores que se pueden analizar, algunos desde demografía, promociones,
precios y hasta la forma como puede proyectarse la economía, también la competencia,
el riesgo, y las redes sociales, etc., y es tan complejo el análisis de los datos que todas
ellas terminan afectando los modelos de operaciones, ingresos, negociaciones y también
las recomendaciones con clientes.

Las exploraciones de los datos son de naturaleza "parasitaria", pero como algunos
parásitos, la minería de datos se alimenta del organismo huésped solo durante una parte
de su ciclo de vida. En otra fase, crea, produce y utiliza sus propias herramientas y "sus-

Minería de datos - eje 1 conceptualicemos 22


tancias", a costos intelectuales y a veces, datos financieros muy importantes (algoritmos),
para generar resultados y valor adicional. La multiplicidad de fuentes y la considerable
naturaleza de los volúmenes tratados en una operación. La minería de datos requiere
un método de gestión legal ajustado, minimizando los costos de transacción. La gestión
de datos individualizada no es adecuada, a menos que exista un caso completamente
automatizado.

Minería de datos - eje 1 conceptualicemos 23


Bibliografía

Belinchón, Y. (s. f.). MINERÍA DE DATOS. Ingeniería de Telecomunicación,


Universidad Carlos III de Madrid. Obtenido de http://www.it.uc3m.es/jvillena/
irc/practicas/10-11/15mem.pdf

Fayyad, U. M., Smyth, P., & Piatetsky-Shapiro, G. (1996). Advances in Knowledge


Discovery and Data Mining (1era ed., Vol. 1). AAI Press, Menlo Park, California.

Garassino, A. (2020). ¿Para qué sirve la minería de datos o data mining? - Sylop-
er. Syloper. Transformación Digital. Desarrollo de software a medida y aplica-
ciones. Obtenido de https://www.syloper.com/blog/recursos/para-que-sirve-
la-mineria-de-datos/

Gartner. (2021). Market Research Methodologies. Obtenido de https://www.


BIBLIOGRAFÍA

gartner.com/en/research/methodologies/methodologies

Microsoft. (2021). Conceptos de minería de datos. Microsoft Docs. Obtenido


de https://docs.microsoft.com/es-es/analysis-services/data-mining/data-
mining-concepts?view=asallproducts-allversions

Oracle. (s. f.). ¿Qué es una base de datos relacional? El significado de base de
datos relacional. Obtenido de https://www.oracle.com/co/database/what-is-
a-relational-database/

Orallo, O. (2021). Introducción a la minería de datos 1/e (3era ed.). ALHAMBRA.

SAS. (2021). ¿Qué es la minería de datos? Obtenido de https://www.sas.com/


es_co/insights/analytics/data-mining.html

Techno-Science.net. (2021). Exploration de données - Recherche et Groupes de


réflexion. Obtenido de https://www.techno-science.net/glossaire-definition/
Exploration-de-donnees-page-2.html

También podría gustarte