Referente Pensamiento Eje 3

MINERÍA DE DATOS
Germán Salas Ojeda
EJE 3
Pongamos en práctica
Fuente: adobestock/486193757
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Estructuras y diseño de la minería de datos . . . . . . . . . . . . . . . . . . . . . . . . . . 4
Instalación de WEKA, PYTHON y componentes - Recopilación e
integración . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
Bajar, instalar y cargar WEKA y PYTHON . . . . . . . . . . . . . . . . . . . . . . . . 6
Arquitectura. Carga, visualización y mantenimientos de los datos . . . . . . . 15
Almacenes de datos y la necesidad para la minería de datos . . . . . . . . . . 20
¿Entonces cómo funciona un almacén de datos? . . . . . . . . . . . . . . . . . 21
Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
ÍNDICE
Introducción
La exploración de datos como sabemos es el primer paso en el análisis de datos,

para visualizarlos y aplicar modelamiento, es descubrir todo lo que se necesita
saber al respecto de ellos y adquirir las habilidades básicas necesarias a través
de la práctica. En este sentido, formar y ser competentes en aspectos tales como
soporte técnico, desarrollo de software de aplicaciones, seguridad informática,
programación, dominio de programas de Business Intelligence, administración de
dispositivos, aplicaciones móviles, diseño web o Big data (por mencionar algunos),
desde la educación superior, permitirá redireccionar incluso los enfoques formativos
tradicionales. Las habilidades digitales implican pensar y operativizar.
El análisis de datos es un proceso que se puede dividir en varios pasos. La explo-

INTRODUCCIÓN
ración de datos, o explotación de datos, es el segundo de estos. Implica explorar un

gran conjunto de datos para descubrir tendencias, características y correlaciones
que se examinan con más profundidad para entender las tendencias. Se utilizan
diversas técnicas estadísticas para definir las características del conjunto de datos:
tamaño, cantidad, calidad, naturaleza, etc. Esta primera exploración tiene como
objetivo ofrecer una primera descripción general de los puntos de interés de un con-
junto de datos. Por lo tanto, la minería de datos y el análisis de datos se simplificarán.
La investigación que estés realizando puede orientarse hacia las pistas destaca-
das, mientras que los datos menos relevantes pueden excluirse desde el principio.
Además, los analistas pueden comenzar a familiarizarse con la información que
procesarán durante el resto del proceso analítico. La exploración de datos se basa
tanto en métodos manuales como en herramientas automatizadas para un exce-
lente desarrollo de las habilidades tecnológicas y digitales aplicables a las áreas de
desarrollo de la ingeniería industrial. Los métodos manuales permiten al analista/
ingeniero echar un primer vistazo a priori al conjunto de datos, mientras que las
herramientas automatizadas ayudan a reorganizar los datos y eliminar los datos
inutilizables. Además, las técnicas de visualización de datos, tales como gráficos,
tablas y otros cuadros de mando, se utilizan a menudo para tomar ventaja de una
visión más clara y comprensible de los datos. La mayoría del software analítico
ofrece funciones de visualización diseñadas para este propósito.
Estructuras y diseño de
la minería de datos
¿Sabía qué?
La exploración es relevante para todos los grandes conjuntos de

datos, con el fin de reducir su escala y permitir un análisis adecuado.
Ahorra un tiempo precioso y también ayuda a preparar el terreno para
el resto del procesamiento analítico (Morales, 2019).
Instalación de WEKA, PYTHON y componentes - Recopilación e

integración
Los lenguajes de programación más utilizados para la minería de datos son Python y
R. Estos dos lenguajes analíticos tienen la ventaja de ser de código abierto y muy flexibles.
Hay varias variaciones y técnicas para la minería de datos. Otra técnica estadística se
llama "Análisis de datos exploratorios" y consiste en analizar los datos para identificar sus
principales características. Mientras tanto, la exploración interactiva consiste en utilizar
visualizaciones de datos para comprenderlos mejor y facilitar la colaboración en torno
a dicha información.
Figura 1. Plataformas más utilizadas para la minería de datos

Fuente: datos.gob.es, (2021)
Minería de datos - eje 3 pongamos en práctica 5

Nota: todas estas aplicaciones son de licencia libre o GNU, es decir, que
no requieren autorización, licencia o pago para su utilización, instalación
y distribución. Las mejores aplicaciones para manejar minería de datos
son diseñadas en software libre.
Bajar, instalar y cargar WEKA y PYTHON
¿Qué es Weka? Weka es un ave que se encuentra únicamente en Nueva Zelanda. Tiene
el tamaño de un pollo e incapaz de volar. También Weka proviene de las siglas Waikato
Environment for Knowledge Análisis. Es una herramienta de minería de datos que fue
creada en la Universidad de Waikato que se encuentra en Nueva Zelanda. Consiste de
un conjunto de algoritmos que cubren los diferentes pasos o fases de minería de datos.
Contiene algoritmos de procesamiento, algoritmos de clasificación, de agrupamiento y
de asociación. Todas las técnicas que vimos anteriormente, también de evaluación y de
visualización. Trabajar con un formato archivo especializado que el .ARFF que significa
Attribute Relation Se distribuye como software libre y esta herramienta fue desarrollada
en Java.
Para instalar WEKA debemos tener en cuenta los siguientes puntos:
• Tener instalado Python en su versión más reciente.
• Instalar tres librerías para utilizarlas en WEKA.
• Tener conocimiento sobre el lenguaje de programación Python.
• Conocimiento de términos estadísticos.
Visitar página
Primero debe comprobar si su computador tiene arquitectura de 32 bits o de 64,

dependiendo de ello debe descargar la versión a instalar. Puede descargar el instala-
dor de Python para Windows desde el siguiente enlace web https://www.python.org/

Figura 2. Pestaña de descarga
Fuente: Python INC., (2021)
Visitar página
Dependiendo de su plataforma puede acceder a este enlace web y descargar la

versión apta para su sistema operativo, https://www.python.org/downloads/
Figura 3. Proceso de descarga del instalador.

Después de descargar el instalador, deberías ejecutarlo (dándole doble clic al archivo)

y seguir las instrucciones. Una cosa para tener en cuenta: Durante la instalación, verás
una ventana de "Setup". Asegúrate de marcar las casillas "Add Python 3.6 to PATH" o
"Add Python to your environment variables" y hacer clic en "Install Now", como se muestra
aquí (puede que se vea un poco diferente si estás instalando una versión diferente).

Figura 4. Proceso de instalación
Video
Para continuar con la instalación lo invito a mirar la siguiente videocápsula

que le explica paso a paso cómo realizar dicho proceso con mucho más deta-
lle. En este enlace mirarlo completamente para poder entender la descarga,
instalación y configuración del lenguaje de programación Python. Puede
detener el video cuando no entienda algo y concretar mejor el procedimiento
de instalación.
Python Curso V2: 2 Descarga, Instalación y Configuración del Lenguaje de

Programación Python
https://youtu.be/yD3R9gMfZI8
Visitar página
Para comenzar a instalar WEKA nos dirigimos al siguiente enlace web https://www.
cs.waikato.ac.nz/ml/weka/ y accedemos al Computer Science Waikato Academy en
New Zealand, entramos a dicha página, nos sale las tres opciones de bajar Weka
según la plataforma que tenemos instalada en nuestros computadores. Se tiene
Weka para la versión de Windows, de Macintosh y de Linux.

Figura 5. Proceso de descarga.
Fuente: Machine Learning at Waikato University, (2021)
Figura 6. Proceso de descarga.


Nota: si quiere internarse mucho más en la plataforma WEKA, le dejo
el siguiente enlace para que disfrute de esta maravillosa plataforma.
https://openwebinars.net/blog/que-es-python/
Descargar Weka para el sistema operativo que tenga en su computador, solo debe
cliquear en siguiente y esperar a que termine de instalar, como lo indica la figura 7.
Figura 7. Proceso de descarga

Video
Los invito a ver el siguiente video:
Bienvenidos al mundo de las estadísticas | Walter Sosa Escudero |

TEDxRiodelaPlata
https://youtu.be/hODwSUX0kT4

Lectura recomendada
Y ahora a realizar la siguiente lectura:
Yuniet Rodríguez Suárez y Anolandy Díaz Amador
Herramientas de Minería de Datos
Instrucción
A este punto le invitamos a consultar el recurso de aprendizaje: pódcast.
Para poder abordar la recopilación y poder extraer

algo útil de los datos es importante, en primer lugar,
tenerlos. Para muchos puede ser insignificante; se
comienza desde un escueto archivo de datos para Vistas Minables:
analizar. En otros, la variedad y volumen de las fuentes Es la consolidación en una única
tabla de todas las observaciones y los
hace que sea una tarea compleja, por ende, el pro- atributos sobre los que se aplicarán
ceso de recopilación, que requiere de una tecnología los algoritmos de minería de datos. La
metodología CRISP-DM (CRoss Industry
y una metodología propia que termina desarrollando Standard Process for Data Mining), res-
el analista de datos. Por lo general, la dificultad de pecto a otras metodologías, posee ven-
tajas comparativas para trabajar estos
apiñar un conjunto de datos en el cual sea posible la casos. Extraído de: http://sedici.unlp.
extracción de conocimiento demanda resolver, varios edu.ar/bitstream/handle/10915/56747/
Documento_completo.pdf-PDFA.pd-
aspectos como, de qué fuentes (internas /externas) f?sequence=1&isAllowed=y
obtendrás los datos, cómo se van a mantener a lo Ruido o Dato Ruidoso:
largo del tiempo, cómo los vas a organizar y definiti- El ruido estadístico es una variabilidad
inexplicable dentro de una muestra de
vamente, de qué forma extraerlos de manera parcial datos. Los datos ruidosos son datos que
o total, que detalles y agregados vamos a trabajar, no tienen sentido por la existencia de
demasiadas variaciones. Originalmen-
todo ello presentado en distintas vistas minables te considerado para referirse a datos
define donde podamos aplicar herramientas espe- corruptos, los datos ruidosos ahora se
refieren a cualquier dato que no sea
cíficas de minería de datos. Recopilar el conjunto de legible por máquina, compatible con el
datos se considera el paso más importante dentro programa utilizado para crearlo. Extraí-
do de: https://es.linkedin.com/pulse/
del proceso de descubrimiento de conocimiento. Los statistical-noise-ruido-estad%C3%ADs-
datos que recibimos normalmente vienen sucios y tico-una-definici%C3%B3n-vargas-gua-
rateg%C3%BAa
podría obtener datos incompletos. Se refiere a aque-
llos atributos que no contienen valores. También los
datos pueden ser ruidosos, quiere decir, algún atri-

buto que viene con un valor que no cae dentro de un intervalo lógico, por ejemplo, la
edad 210 es un dato ruidoso porque no podría tener un empleado dicha edad, el salario
tampoco puede venir negativo, por lo tanto, debemos buscar a dichos datos ruidosos y
eliminarlos.
También si tenemos los datos que vienen de diferentes fuentes y al momento de inte-
grarlo podría haber alguna inconsistencia. Por ejemplo, la primera data podría tener el
atributo edad, pero la segunda Data podría venir con el nombre fecha de nacimiento.
Aquí hay una discrepancia en los nombres también
al integrar dos placas con dos conjuntos de datos
o más. Podría haber instancias duplicadas. Según
Discrepancia:
(Nabhan Homsi, 2020) indica de manera tajante: La discrepancia es la diferencia o des-
“Podemos resumir que debemos entender el pasado igualdad o que resulta de la compara-
ción de las cosas entre sí en el ámbito
de los datos para poder predecir su futuro, entonces científico. Extraído de: https://es.wikipe-
la recopilación de los datos nos permite resaltar y dia.org/wiki/Discrepancia
detectar aquellos datos que son ruidos o atípicos.”
Figura 8. Recopilación de los datos.

Fuente: Salas, (2021)
Para recopilar debemos entender de las características de los datos, al momento de

explorarlos debemos hacer un resumen descriptivo que abarca las medidas de tendencia
central, media, mediana, moda y el rango medio, al igual que las medidas de dispersión
que representan el rango cuartil y desviación estándar.

Figura 9. Medidas de Tendencia Central.
Fuente: Pinterest (2017)
Visitar página
A continuación, le dejamos un curso completo sobre Probabilidad y Estadís-

tica, construido por el Prof. Hery Mendoza Rivera, docente de la Universidad
Nacional de Colombia, por si quiere comprender y completar los conocimientos
específicos que manejaremos en este eje ¡Aprenda un poco más, lo invitamos!
http://red.unal.edu.co/cursos/ciencias/2001065/html/contenido.html

Figura 10. Medidas de dispersión
Fuente: López, (2019)
Lectura recomendada
Lo invito a leer este documento presentado por la Universidad Carlos III de

Madrid, donde encontrará explicado la minería de datos con WEKA para que
termine de entender adecuadamente las estadísticas aplicadas. Le parecerá
muy interesante el documento, disfrútelo.
Minería de Datos
Óscar Palomo Miñambres

¿Sabía que?
Se espera que para 2021, un tercio del total de datos se almacene o pase a
través de la nube y analizados con minería de datos, ello se estima con casi
39 zettabytes de datos (Patel, 2020).
Arquitectura. Carga, visualización y mantenimientos de los datos
La arquitectura de minería de datos se encuentra en un gran proceso de continuo

cambio, ya que la misma, a pesar de que es relativamente antigua en el área computa-
cional, los métodos, modelos, software, hardware ayudan a modificar su construcción
y diseño. Por ello, según (Microsoft INC., 2021) se pueden estructurar dos arquitecturas
para el desarrollo de la minería de datos: La Arquitectura física y la Arquitectura
lógica, acotando que se debe desarrollar sobre una instancia de Analysis Services que
admita minería de datos, todo ello construyendo comunicaciones con los servidores de
minería de datos para trabajar con objetos de datos tanto local como remotamente,
de esa manera lo construye Microsoft para las soluciones de minería de datos. Ahora
(Parthasarath, 2007) propone que: “los data stream que ingresan de forma continua
y de distintos nodos en la arquitectura reciban un tratamiento adecuado que permita
su análisis sin obstaculizar las actividades diarias. Es un reto para la Minería de Datos
el aplicar técnicas en tiempo real a los datos que van ingresando de forma continua y
obtener patrones representativos de ellos.”
Visitar página
Englobando y tomando en cuenta las dos definiciones que se utilizan actual-

mente, en el estudio que realizaron Freytag et al., toman de los dos autores
anteriores información relevante y genera las dos arquitecturas más utilizadas
hoy en día, grandes compañías que prestan servicio de Minería de datos a gran
escala como por ejemplo SISEX (https://sicex.com), DOKERHUB (https://hub.
docker.com), ANALYSTATS (https://www.analystats.com) y KEYRUS (https://
conteudo.keyrus.com.br) las utilizan para realizar sus trabajos, estas son:

a. Minería de flujo de datos: conocida también como Mining Data Streams describe
la extracción de conocimiento incorporado en patrones o modelos desde flujos de
datos. Por consiguiente, se define a la minería de flujo de datos como el proceso
de extracción de conocimiento de estructuras de registros rápidos y conti-
nuos de datos. Este concepto se enfrenta a los obstáculos de memoria limitada en
el hardware, debido a la fisonomía continua de los elementos entrantes de datos.
Aplicar algoritmos de minería de datos en esta arquitectura deben, por ejemplo,
tratar la demandante transferencia de datos stream creados a partir de senso-
res u otras fuentes inalámbricas que profesen un desafío real para transferir esas
cantidades enormes de datos a un servidor central para después ser analizadas.
Por consiguiente, y debido a la velocidad tanto offline como online con la que se
producen los datos, no existe suficiente tiempo para volver o reexaminar la BDD
completamente o realizar una nueva exploración con minería de datos cada vez
que se produzca una actualización, añadiendo a esto el escaso espacio para reco-
lectar todos los datos que arroja del procesamiento en línea.
Figura 11. Arquitectura de Minería de Flujo

de datos.
Fuente: Parthasarath, (2007)

b. Minería de flujo de datos distribuido: según (Parthasarathy et al., 2007), in-
dica que aunque el área de almacenamiento sea amplia, hace que sea posible
mantener grandes volúmenes de datos, el acceso y administración de los datos
se transforma en un gran problema de rendimiento. Generalmente, se encuen-
tra un único nodo incapaz de envolver los inmensos conjuntos de datos, por ello
es importante definir técnicas eficaces y configurables para el almacenamiento,
comunicación y acceso de datos, (caso que se distribuyan las fuentes de datos).
El contexto se complica en BDD dinámicas, donde hay un creciente volumen de
datos, ello implica cambios frecuentes en los datos, ello puede derogar patrones
existentes o implantar otros nuevos. Ejecutar nuevamente algoritmos desde cero,
lleva a cuantiosos costos computacionales de entrada/salida, generalmente su-
peran el orden . Estos dos factores han conllevado a los especialistas a

desarrollar algoritmos distribuidos para analizar el flujo de datos, ya que una de
las características peculiares de esta arquitectura, es el tiempo de respuesta largo
para generar resultados estadísticos con aproximadamente un tiempo computa-
cional de , donde n es la cantidad de datos, lo que compli-
ca la recolección de datos y logra dar lugar a tráfico pesado a través de enlaces de
comunicación críticos distribuidos.
Figura 12. Arquitectura de Minería de Flujo de datos distribuidos.

Fuente: Parthasarath, (2007)

Lectura recomendada
Para trabajar ambos tipos de arquitectura de la minería de datos, según la XX

Workshop de Investigadores en Ciencias de la Computación, el artículo publi-
cado: “Minería de Datos y Visualización de Información”, podemos utilizar alguno
de las siguientes plataformas que trabajan con orientación tanto a minería de
datos como a Big Data, Machine Learning y analítica de datos:
Esteban Schab, Ramiro Rivera, Luciano Bracco, Facundo Coto, Patricia Cristaldo,
Lautaro Ramos, Natalia Rapesta, Juan Pablo Núñez, Soledad Retamar, Carlos
Casanova y Anabella De Battista
Minería de Datos y Visualización de Información
• Kafka: bróker de mensajería, que es uti-

lizado para centralizar la admisión de
información relacionada con los eventos
que se produzcan dentro del minado.(ht-
tps://kafka.apache.org/)
Contenerización:
La contenerización provee aislamiento
• Zookeeper: componente de sincroniza- para los microservicios de otros pro-
cesos, un mecanismo de implantación
ción distribuido, el cual conserva el es- leve, un paquete desnacionalizado y la
tado y la configuración de la mayoría de capacidad de construir y reconstruir ser-
vicios durante la ejecución del mismo.
las piezas de software que se encuentran Los contenedores contribuyen para una
enlazadas en el sistema. (https://zookee- entrega de aplicaciones más fácil y rá-
pida y para una implantación más ágil
per.apache.org/) y confiable. Extraído de: https://digital.
la.synnex.com/en-que-consiste-la-con-
tenerizacion-de-aplicaciones-y-co-
• Docker: tecnología de virtualización, dis- mo-influye-en-la-ciberseguridad
tribución de aplicaciones y conteneriza-
ción, que tiene como finalidad garantizar Streaming:
Es un tipo de tecnología multimedia que
simplicidad de dispersión y posibilidad envía contenidos de vídeo y audio a su
dispositivo conectado a Internet. Esto
de escalado de la arquitectura. (https:// le permite acceder a contenidos (TV,
www.docker.com/) películas, música, pódcast) en cualquier
momento que lo desee, en un PC o un
móvil, sin someterse a los horarios del
• Storm: es un sistema distribuido para el proveedor. Extraído de: https://www.
avast.com/es-es/c-what-is-streamin-
procesamiento de sucesos en streaming, g#gref
el cual define las transformaciones y ca-
minos que sufren los sucesos para así
extraer datos de interés. (https://storm.
apache.org/)

• Redis: BDD NoSQL, del tipo clave-valor, que
generalmente se utiliza para permitir la re-
configuración del sistema sin necesidad de
Down-times:
Down-times.(https://redis.io/) El downtime, en palabras simples, hace
referencia a períodos en los que un sis-
tema no está disponible; y su traducción
Características de una arquitectura para minería al español puede ser tiempo de parada
de datos eficiente. Para ser "moderna", la arquitec- o tiempo de interrupción, entre otras.
Finalmente, hablamos de un tiempo de
tura de minería de datos debe ser: inactividad o del porcentaje de tiempo
inactivo de un servidor, una máquina en
general o un servicio de internet, este
1. Orientado al usuario: en el pasado, los datos último el caso específico que en este
eran estáticos y el acceso era limitado. Los to- artículo desarrollaremos. Extraído de:
https://ce.entel.cl/grandes-empresas/
madores de decisiones no estaban obteniendo articulos/que-es-el-downtime-de-servi-
lo que querían o necesitaban, sino lo que es- cio-y-como-mantenerlo-en-niveles-op-
timos /
taba disponible. En una arquitectura de datos
moderna, los usuarios comerciales definen con
confianza los requisitos a medida que los ar-
quitectos de datos agregan datos y crean soluciones para acceder a ellos de ma-
nera que se logren los objetivos comerciales.
2. Desarrollado sobre datos compartidos: se desarrolla una arquitectura de datos

eficiente sobre estructuras de datos que estimulan la colaboración. Una buena ar-
quitectura de datos elimina los silos al traer datos de toda la empresa, incluidas las
fuentes externas, según sea necesario, en un solo lugar para eliminar las versiones
de datos idénticos que compiten entre sí.
3. Automatizado: la automatización elimina la fricción que solía complicar la confi-

guración de los sistemas de datos heredados. Gracias a las herramientas basadas
en la nube, los procesos ahora se pueden crear en horas o días, en comparación
con meses antes.
4. Impulsado por IA: una arquitectura de minería de datos verdaderamente inteli-

gente ofrece un mayor nivel de automatización mediante el uso del aprendizaje
automático (ML) y la inteligencia artificial (IA) para ajustar, alertar y recomendar
soluciones basadas en nuevas condiciones. ML e IA identifican tipos de datos, de-
tectan y corrigen errores relacionados con datos de baja calidad, crean estruc-
turas para los datos entrantes, identifican relaciones para nuevas perspectivas y
recomiendan datos y análisis relacionados.
5. Elasticidad: la elasticidad permite a las empresas aumentar o disminuir la velo-

cidad según sus necesidades. La nube es aquí su mejor aliado porque permite la
escalabilidad bajo demanda, de forma rápida y a un menor costo. La elasticidad
permite concentrarse en solucionar y resolver problemas.
6. Simple: la simplicidad triunfa sobre la complejidad en una arquitectura de datos

eficiente.

7. Seguro: la seguridad es parte de la arquitectura de la minería de datos moder-
na y, por lo tanto, garantiza el acceso basado en perfiles, según lo definido por
la empresa. Una buena arquitectura de minería de datos también reconoce las
amenazas existentes y emergentes a la seguridad de los datos y garantiza el cum-
plimiento normativo de medidas legislativas como HIPAA y GDPR.
Instrucción
A este punto le invitamos a consultar el recurso de aprendizaje: Demos-

tración de roles.
Almacenes de datos y la necesidad para la minería de datos
El almacenamiento de datos o por su nombre en inglés Datawarerhouse (DW) es un

proceso de recopilación y gestión de datos de varias
fuentes para proporcionar información comercial
significativa, según lo describe (Super Camp Data,
2020). Normalmente, un almacén de datos se utiliza Business Inteligence o Inteligen-
para conectar y analizar datos comerciales de fuen- cia de Negocios:
La inteligencia de negocios (BI) com-
tes heterogéneas. El Datawarehouse es el corazón de bina análisis de negocios, minería de
los sistemas basados en aprovechamiento de datos y datos, visualización de datos, herra-
mientas e infraestructura de datos, y las
visualización como BI (Business Intelligence) que está prácticas recomendadas para ayudar a
diseñado para el análisis y la generación de informes las organizaciones a tomar decisiones
más basadas en los datos. En la prác-
de datos. Es una combinación de tecnologías y com- tica, sabes que tienes una inteligencia
ponentes que facilitan el uso estratégico de datos. El de negocios moderna cuando tienes
una visión integral de los datos de tu
concepto de almacén de datos existe desde los años organización y los utilizas para impulsar
1980, el concepto se desarrolló para apoyar y ayudar el cambio, eliminar las ineficiencias y
adaptarte rápidamente a los cambios
a que los datos se trasladen y se utilicen para alimen- del mercado o del suministro. Extraído
tar los sistemas de apoyo a las decisiones que reve- de: https://www.tableau.com/es-mx/
learn/articles/business-intelligence
lan la inteligencia empresarial, aparte de impulsar
Analista de Datos:
las operaciones. Es el almacenamiento electrónico de El analista de datos, también llamado
una gran cantidad de información por parte de una analista big data, es el responsable de
llevar a cabo el análisis de datos (cuan-
empresa, diseñado para ser consultado y analizado titativo y cualitativo) en la disciplina del
en lugar del procesamiento de transacciones. Es un big data. Su papel es apoyar la toma de
decisiones razonadas basadas en datos.
proceso de transformación de datos en información Veamos en detalle su trabajo. Extraído
y ponerlos a disposición de los usuarios. El almace- de: https://www.freelancermap.com/
blog/es /que-hace-analista-de-datos /
namiento de datos implica la limpieza de datos, la
integración de datos y la consolidación de datos. Este
proceso generalmente lo realiza un analista de datos.

¿Entonces cómo funciona un almacén de datos?
Un almacén de datos funciona como un repositorio central donde la información

proviene de una o más fuentes de datos. Los datos fluyen a un en Datawarehouse.
Figura 13. Arquitectura de un almacén de datos

Fuente: Super Camp Data, (2020)
Los datos que posee un almacén de datos pueden ser:
• Estructura.
• Semiestructurada.
• No estructurado.
Los datos se procesan, transforman e ingieren para que los usuarios puedan acceder
a los datos procesados en el almacén de datos a través de herramientas de inteligencia
empresarial, clientes SQL y hojas de cálculo. Un almacén de datos fusiona información
de diferentes fuentes en una base de datos completa.
Algunos de los beneficios que puede presentar y que deberías tener en cuenta sobre
un almacén de datos en las empresas que manipulan almacenes de datos para impulsar
su inteligencia empresarial y sus análisis, son:

• Excelentes datos: añadir fuentes de datos
en un almacén de datos, reconoce a las em-
presas a aseverar de que están coleccionando
datos sólidos y notables de la(s) fuente(s). No Fuentes de datos:
Se denominan fuentes de información,
requieren averiguar si los datos serán incohe- en teoría de la información y teleco-
rentes o accesibles mientras que el sistema los municación, a cualquier origen de
información susceptible de ser repre-
ingiere. Esto certifica una calidad mayor y una sentado mediante una señal analógica
integridad de los datos a la hora de tomar de- y/o digital. De forma general cualquier
magnitud física puede ser representado
cisiones. mediante señales, a través de la digita-
lización. El objetivo es poder procesar,
almacenar o transmitir la información
• Disposiciones más rápidas: los datos que re- que supone las alteraciones del medio.
posan en un almacén regularmente están en Así como otros diversos tipos de do-
cumentos que contienen datos útiles.
formatos muy consistentes y ordenados que Extraído de: https://es.wikipedia.org/
están listos para ser examinados. También wiki/Fuente_de_informaci%C3%B3n
proporciona el poder analítico y un conjunto

de datos más completo para basar las deci-
siones en hechos concretos. Ahora los gerentes que toman las decisiones ya no
requieren manifestar presentimientos, a la hora de proyectar una decisión.
La necesidad de trabajar y conocer de algún modo los almacenes de datos o datawa-

rehouse, al igual que su arquitectura, es necesario para poder entender la minería de
datos, o por lo menos parte de ella, ya que son herramientas que le permiten al usuario
obtener vistas, informes y decisores de datos complejos, también pueden realizar resú-
menes, incluso estadísticas de un modo general sobre parte o sobre toda la información
que está cargada con el objetivo incipiente de ayudar en los gerentes decisores. Muchos
de los sistemas comerciales que gestionan las BDD incluyen algunas herramientas para
realizar informes complejos, inteligencia de negocios, sistemas de información ejecutivos,
entre otros añadidos, toda la variedad de softwares que existen intentar realizar proce-
samiento analítico de la información mucho, más que el procesamiento transaccional
cotidiano que realizan las APIs día a día en la empresa.
Entonces, cada vez es más necesario poder distinguir dos importantes y diferentes
sistemas de información de minería de datos: Procesamiento transaccional y Procedi-
miento analítico. OLTP y OLAP así denominan los analistas y arquitectos de datos a los
tipos de procesamiento.
• OLAP (On-Line Analytical Processing): es un software que analiza datos para

tomar decisiones comerciales. Además, permite a los usuarios analizar informa-
ción en múltiples bases de datos simultáneamente. Por lo tanto, OLAP permite a
los gerentes y analistas obtener información comercial efectiva. También pueden
ejecutar consultas complejas para extraer datos multidimensionales. Adicional-
mente, es posible ejecutar la misma consulta varias veces para extraer y analizar
datos. Con OLAP, una empresa puede analizar las ventas de un producto durante
dos meses y comparar los resultados del mismo producto vendido en los mismos
meses y vendido en otro lugar. Además, las empresas pueden analizar los artículos

más comprados por el cliente para crear una página web con productos de alta
tasa de canje.
• OLTP (On-Line Transactional Processing): se refiere al procesamiento de tran-

sacciones en línea. Es un sistema que admite aplicaciones transaccionales en una
arquitectura de 3 niveles. Además, se utiliza para gestionar las transacciones dia-
rias de una organización. También, registra la actualización, inserción y eliminación
actual mientras ejecuta transacciones. Además, las consultas OLTP son simples,
breves y requieren un espacio mínimo y un tiempo de procesamiento mínimo. Sin
embargo, una falla en la transacción OLTP puede resultar en la integridad de los
datos. Reservar boletos de avión en línea, realizar operaciones bancarias en línea,
agregar productos a un carrito al comprar en línea son algunos ejemplos del uso
de OLTP.
Relación entre OLAP y OLTP

OLAP OLTP
OLAP es un enfoque de con-
sulta analítica multidimensional OLTP es una clase de sistemas
Definición que se utiliza en inteligencia que admite o facilitas aplicacio-
empresarial, redacción de infor- nes de alta transacción.
mes y minería de datos.
El procesamiento analítico en Mientras que el procesamiento
Forma
línea es la forma completa de de transacciones en línea es la
completa
OLAP. forma completa de OLTP.
Objetivo pri-
El objetivo principal de OLAP es El objetivo principal de OLTP es
mario o enfo-
realizar análisis. procesar.
que principal
OLTP se caracteriza por una gran
Las OLAP se caracteriza por un
cantidad de extracciones cortas
características gran volumen de datos.
en línea.
Operacio-
Las tablas OLAP no están Las tablas OLTP están
nes en la
normalizadas. normalizadas.
normalización
OLTP es la fuente de datos para
Los datos OLTP usa los datos originales.
OLAP.
Las bases de datos OLAP no se Debido a que las bases de datos
Integridad de cambian con frecuencia, por lo OLTP cambian con frecuencia, es
los datos que la integridad de los datos importante mantener la integri-
no se ve afectada. dad de los datos.
Los administradores de bases de
Tipo de Los administradores y analistas
datos y otros profesionales de
solicitud de datos usan OLAP.
bases de datos usan OLTP.
Tabla 1. Relación entre OLAP y OLTP
Fuente: Salas, (2021)

Existen tres tipos de almacenes de datos según el Dr. Abel Kevin Ngaleu Pot-Doctor
en Base de Datos, entre ellos tenemos:
• Datawarehouse corporativo: es un almacén de datos centralizado. Proporciona

un servicio de apoyo a la toma de decisiones en toda la empresa. Ofrece un enfo-
que unificado para organizar y representar datos. También ofrece la posibilidad de
clasificar los datos según el tema y dar acceso según estas divisiones.
• Almacén de datos operativos: el almacén de datos operativos, también conoci-

do como ODS, no es más que un almacén de datos necesario cuando ni el almacén
de datos ni los sistemas OLTP son compatibles con las necesidades de informes de
las organizaciones. En ODS, el almacén de datos se actualiza en tiempo real. Por
lo tanto, se prefiere ampliamente para actividades de rutina como almacenar re-
gistros de empleados.
• Data Mart: un Data Mart es un subconjunto del almacén de datos. Está espe-
cialmente diseñado para un tema, área o dependencia empresarial en particular,
como ventas, recursos humanos, cartera, finanzas, etc. En un Data Mart inde-
pendiente, los datos se pueden recopilar directamente de diferentes fuentes de la
misma área o de otras que manejen los mismos datos de interés.
Entre las herramientas más utilizadas e importantes según el portal (Panoply, 2021)
para los almacenes de datos tenemos los siguientes:
Visitar página
• MarkLogic (https://www.marklogic.com/): MarkLogic es una útil solución de

almacenamiento de datos que hace que la integración de datos sea más fácil
y rápida mediante una variedad de funciones comerciales. Esta herramienta te
permite realizar operaciones de búsqueda muy complejas. Puede consultar dife-
rentes tipos de datos como documentos, relaciones y metadatos.
• Oracle (https://www.oracle.com/): Oracle es la base de datos líder en la indus-
tria. Ofrece una amplia gama de opciones para soluciones de almacenamiento
de datos locales y en la nube. Ayuda a optimizar la experiencia del cliente au-
mentando la eficiencia operativa.
• Amazon RedShift (https://aws.amazon.com/es/redshift/): Amazon Redshift
es una herramienta de almacenamiento de datos. Es una herramienta sencilla
y económica para analizar todo tipo de datos utilizando SQL estándar y he-
rramientas de BI existentes. También le permite ejecutar consultas complejas
en petabytes de datos estructurados, utilizando la técnica de optimización de
consultas.

Entre otras muy populares por su utilización a gran escala con y según IONOS Cloud
S.L.U. en su Digital Guide del 2022 nombra a:
• Google Drive (https://www.google.com/intl/es/drive/): Para los usuarios de An-

droid, Microsoft y Apple, sólo basta con una cuenta de Google, es una de las solu-
ciones más cómodas, ya que la aplicación está preinstalada en algunos sistemas,
por lo que no se requiere ninguna configuración adicional. Con 15 GB para copias
de seguridad y respaldos de datos, Google ofrece el mayor espacio de almacena-
miento gratuito de todas las aplicaciones hoy en día. Para un espacio de alma-
cenamiento online mayor y otros añadidos para Big Data y Minería de datos es
posible pasar de Google Drive a Google One. En función del plan elegido, puedes
disfrutar de hasta 300 TB de almacenamiento y algunas APIS para trabajarlas y
conectarlas.
• HiDrive de IONOS (https://www.ionos.com/): presenta una seguridad bajo están-

dares alemanes, el disco duro en línea de IONOS HiDrive trabajo para la seguridad
de los datos y las conexiones con softwares para minería de datos, pues no solo
están protegidos por contraseña, sino que, al estar en territorio alemán, sus cen-
tros de datos se someten a la estricta normativa europea vigente de protección de
datos, además que se puede tener una con cuentas Hotmail, Yahoo, Microsoft y
mail.com. Es una opción excelente para las empresas, ya que es gratis hasta unos
200 GB con dominio empresarial. La versión Pro con hasta 2000 GB de memoria,
ideal para el trabajo colaborativo, tiene la particularidad que los datos se sincro-
nizan en todos los dispositivos continuamente. Posee distintos protocolos, el inter-
cambio de los datos y las copias de seguridad pueden producirse de forma rápida
y segura basados en seguridad MAPREDUCE. Incluye WebDAV, (S)FTP/FTPS, rsync,
SMB/CIFS, SCP y Git. (WebDAV solo en la versión Pro).
• Dropbox (http://dropbox.com): acreditado con 4 normas internacionales de se-

guridad, 2 frameworks de trabajo y metodologías AES, Triple DES, Rijandel, Blow-
fish, DESX, Cast 128, Gost, Serpent, que se ejecutan de manera aleatoria, Dropbox
es una de las aplicaciones pioneras desde el 2007 de la tecnología de la nube on-
line. Tanto la aplicación de escritorio como la aplicación móvil han permanecido
casi invariables con un buen software y para el usuario es uniforme en todas las
plataformas, puede tener una utilizando Google y Microsoft. Tiene la más alta
velocidad de sincronización en el mercado, ya que en lugar de sincronizar regular-
mente archivos completos, solo se transfieren los cambios y esto le permite alcan-
zar una sincronización en tiempo récord entre todos los dispositivos, esto es muy
beneficioso si vas a utilizar grandes datos.
• Microsoft OneDrive (https://onedrive.live.com): su conexión completa con Win-

dows y como aplicación de servicios en la nube de Microsoft está integrada en
una gran cantidad de aplicaciones de dicha empresa. En esta nube puedes car-
gar documentos, hojas de Excel y presentaciones de PowerPoint, MS Project, Visio,
Access, Etc., directamente desde las aplicaciones. La versión de escritorio ya está

preinstalada en cada versión de Windows a partir de la 8.1, para grandes datos
puedes gestionar el Pro para conectarlo con Azure y realizar minería, pero se re-
quiere de ser un buen programador. Para compartir archivos se utilizan enlaces de
validez temporal que garantizan una gran seguridad. La gran desventaja es que
los servidores de Microsoft se encuentran en los Estados Unidos y que un nuevo
acuerdo de protección de datos con Europa sigue siendo un proyecto. Sin embar-
go, y gracias al moderno cifrado TSL de las conexiones de datos, hasta ahora no ha
habido complicaciones importantes. Puedes tener una, con una cuenta exclusiva
de Microsoft.
• Titanium Backup (https://www.titaniumtrack.com/): está considerado como el

estándar para los usuarios profesionales, esta app de respaldo en la nube para
Android solo se puede utilizar con acceso root. Posee una compleja configuración
y una confusa interfaz de usuario, pero puedes guardar casi cualquier cosa: con-
figuraciones del sistema, widgets, fondos, incluso la configuración personalizada
de la propia aplicación de servicios en la nube. La copia de seguridad se realiza
localmente o en un proveedor externo (Google Drive, Dropbox, Box) al que se ac-
cede desde la configuración. También puedes restaurar tus datos en un hardware
distinto al dispositivo original.
Al buscar una app de almacenamiento en la nube para un terminal específico ade-

cuado hay que realizarse las siguientes preguntas: ¿Qué importancia tiene para mí la
seguridad de los datos y qué conocimientos tengo sobre software y hardware?, ¿cuál
es mi presupuesto (Super Backup)?, ¿cuánto espacio en disco necesito? Tanto en las
empresas como a nivel personal, existe una amplia gama de nubes.
Lectura recomendada
Para finalizar los invito a realizar la siguiente lectura:
ORACLE
Almacén de datos definido
Instrucción
A este punto los invitamos a realizar las actividades prueba objetiva y

control de lectura.

Conclusiones
En este documento, se realizó una breve revisión y descripción para entender las defi-
niciones, infraestructura, arquitectura y tipos software orientándose al procesamiento
y soluciones de grandes volúmenes de datos. Entonces, algunas de las plataformas que
implementan varias de las técnicas descritas en este eje, fueron definidas y con tendencia
a utilizar las habilidades tecnológicas para su desarrollo.
En general, podemos concluir que las técnicas propuestas son escalables. Entende-
mos que podemos comenzar desde una arquitectura local y progresivamente seguir a
arquitecturas mucho más complejas, lo que nos advierte que el Big Data debe alma-
cenarse en sistemas distribuidos, o por lo menos intuir eso. No podemos mirar el diseño
de arquitectura o infraestructura de manera unilateral porque estaría aislada de todo.
Lo recomendable es una integración o hibridación que cubra todos los aspectos mien-
tras se diseña un entorno de Big Data, si se necesita. Una vez planteado lo anterior, la
implementación será cambiante y multidisciplinaria y con una gran dependencia según
el tipo de empresa, industria o corporación. Una vez que una organización ha tomado
la decisión de utilizar Big Data, la arquitectura e infraestructura de almacenamiento, de
red y de seguridad debe cambiar de manera paulatina. La regla general es aprovechar
el beneficio total para obtener los mejores resultados.

Datos.gob.es. (2021, 30 julio). Las herramientas de análisis de datos más populares.
Obtenido de: https://datos.gob.es/es/blog/las-herramientas-de-analisis-de-
datos-mas-populares
Freytag, J. C., Abiteboul, S., & Carey, M. (2004). Best papers of VLDB 2003. The
VLDB Journal, 13(3). https://doi.org/10.1007/s00778-004-0129-1
IONOS Digital Guide. (2022, febrero). Las 9 mejores apps de almacenamiento

en la nube (N.o 23). IONOS. Obtenido de: https://www.ionos.es/digitalguide/
servidores /herramientas /las-mejores-apps-de-almacenamiento-en-la-nube-
para-android/
Machine Learning at Waikato University. (2021, 1 noviembre). Weka 3 - Data Mining

with Open Source Machine Learning Software in Java. Downloading and install-
ing Weka. Obtenido de: https://www.cs.waikato.ac.nz/ml/weka/index.html
BIBLIOGRAFÍA
McGovern, G. (2021). Meet Guru99 – Free Training Tutorials & Video for IT Courses.
Guru99. Obtenido de: https://www.guru99.com/
Microsoft INC. (2021). Arquitectura de minería de datos. Microsoft Docs. Obtenido

de: https://docs.microsoft.com/es-es/analysis-services/data-mining/data-
mining-architecture?view=asallproducts-allversions
Morales, A. (2019). Lenguajes de programación para realizar ciencia de datos.

MappingGIS. Obtenido de: https://mappinggis.com/2019/07/lenguajes-de-
programacion-para-realizar-ciencia-de-datos/
Nabhan Homsi, H. (2020). Introducción de minería de datos. (1.a ed., Vol. 2) [Libro
electrónico]. UDEMY-Books.
Panoply. (2021). The Difference Between a Data Warehouse and a Database.

Obtenido de: https://panoply.io/data-warehouse-guide/the-difference-
between-a-database-and-a-data-warehouse/
Parthasarath, R. (2007). Data Streams: Models and Algorithms. En E. Srinivasan,

A. Ghoting, & M. E. Otey (Eds.), A Survey of distributed mining of data stream
(Department of Computer Science and Engineering The Ohio State University
ed., Vol. 13, pp. 289–307). Springer.
Patel, M. P. (2020). Digital Marketing Agency Melbourne - Digital Agency Australia.

Clickmatix. Obtenido de: https://www.clickmatix.com.au/
Python INC. (2021, 16 noviembre). Welcome to Python. Python.Org. Obtenido 18 de

noviembre de 2021, de https://www.python.org/
Super Camp Data. (2020). Qu’est-ce qu’un entrepôt de données (Dataware-

house). Big Data, Data Science, Machine Learning? Obtenido de: https://
superdatacamp-com.translate.goog/big-data/entrepot-de-donnees /?_x_tr_
sl=auto&_x_tr_tl=es&_x_tr_hl=es&_x_tr_pto=nui

Referente Pensamiento Eje 3

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Referente Pensamiento Eje 3

Cargado por

Copyright:

Formatos disponibles

MINERÍA DE DATOS

Germán Salas Ojeda

Estructuras y diseño de la minería de datos . . . . . . . . . . . . . . . . . . . . . . . . . . 4

Instalación de WEKA, PYTHON y componentes - Recopilación e

Bajar, instalar y cargar WEKA y PYTHON . . . . . . . . . . . . . . . . . . . . . . . . 6

Arquitectura. Carga, visualización y mantenimientos de los datos . . . . . . . 15

Almacenes de datos y la necesidad para la minería de datos . . . . . . . . . . 20

¿Entonces cómo funciona un almacén de datos? . . . . . . . . . . . . . . . . . 21

La exploración de datos como sabemos es el primer paso en el análisis de datos,

El análisis de datos es un proceso que se puede dividir en varios pasos. La explo-

ración de datos, o explotación de datos, es el segundo de estos. Implica explorar un

La exploración es relevante para todos los grandes conjuntos de

Instalación de WEKA, PYTHON y componentes - Recopilación e

Figura 1. Plataformas más utilizadas para la minería de datos

Minería de datos - eje 3 pongamos en práctica 5

Bajar, instalar y cargar WEKA y PYTHON

Para instalar WEKA debemos tener en cuenta los siguientes puntos:

• Tener instalado Python en su versión más reciente.

• Instalar tres librerías para utilizarlas en WEKA.

• Tener conocimiento sobre el lenguaje de programación Python.

• Conocimiento de términos estadísticos.

Primero debe comprobar si su computador tiene arquitectura de 32 bits o de 64,

Minería de datos - eje 3 pongamos en práctica 6

Dependiendo de su plataforma puede acceder a este enlace web y descargar la

Figura 3. Proceso de descarga del instalador.

Después de descargar el instalador, deberías ejecutarlo (dándole doble clic al archivo)

Minería de datos - eje 3 pongamos en práctica 7

Para continuar con la instalación lo invito a mirar la siguiente videocápsula

Python Curso V2: 2 Descarga, Instalación y Configuración del Lenguaje de

Minería de datos - eje 3 pongamos en práctica 8

Figura 6. Proceso de descarga.

Minería de datos - eje 3 pongamos en práctica 9

Figura 7. Proceso de descarga

Los invito a ver el siguiente video:

Bienvenidos al mundo de las estadísticas | Walter Sosa Escudero |

Minería de datos - eje 3 pongamos en práctica 10

Y ahora a realizar la siguiente lectura:

Yuniet Rodríguez Suárez y Anolandy Díaz Amador

Herramientas de Minería de Datos

A este punto le invitamos a consultar el recurso de aprendizaje: pódcast.

Para poder abordar la recopilación y poder extraer

Minería de datos - eje 3 pongamos en práctica 11

detectar aquellos datos que son ruidos o atípicos.”

Figura 8. Recopilación de los datos.

Para recopilar debemos entender de las características de los datos, al momento de

Minería de datos - eje 3 pongamos en práctica 12

A continuación, le dejamos un curso completo sobre Probabilidad y Estadís-

Minería de datos - eje 3 pongamos en práctica 13

Lo invito a leer este documento presentado por la Universidad Carlos III de

Óscar Palomo Miñambres

Minería de datos - eje 3 pongamos en práctica 14

Arquitectura. Carga, visualización y mantenimientos de los datos

La arquitectura de minería de datos se encuentra en un gran proceso de continuo

Englobando y tomando en cuenta las dos definiciones que se utilizan actual-

Minería de datos - eje 3 pongamos en práctica 15

Figura 11. Arquitectura de Minería de Flujo

Minería de datos - eje 3 pongamos en práctica 16

peran el orden . Estos dos factores han conllevado a los especialistas a

Figura 12. Arquitectura de Minería de Flujo de datos distribuidos.

Minería de datos - eje 3 pongamos en práctica 17

Para trabajar ambos tipos de arquitectura de la minería de datos, según la XX

Minería de Datos y Visualización de Información

• Kafka: bróker de mensajería, que es uti-