Documentos de Académico
Documentos de Profesional
Documentos de Cultura
EJE 3
Pongamos en práctica
Fuente: adobestock/486193757
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
integración . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
ÍNDICE
Introducción
La investigación que estés realizando puede orientarse hacia las pistas destaca-
das, mientras que los datos menos relevantes pueden excluirse desde el principio.
Además, los analistas pueden comenzar a familiarizarse con la información que
procesarán durante el resto del proceso analítico. La exploración de datos se basa
tanto en métodos manuales como en herramientas automatizadas para un exce-
lente desarrollo de las habilidades tecnológicas y digitales aplicables a las áreas de
desarrollo de la ingeniería industrial. Los métodos manuales permiten al analista/
ingeniero echar un primer vistazo a priori al conjunto de datos, mientras que las
herramientas automatizadas ayudan a reorganizar los datos y eliminar los datos
inutilizables. Además, las técnicas de visualización de datos, tales como gráficos,
tablas y otros cuadros de mando, se utilizan a menudo para tomar ventaja de una
visión más clara y comprensible de los datos. La mayoría del software analítico
ofrece funciones de visualización diseñadas para este propósito.
Estructuras y diseño de
la minería de datos
¿Sabía qué?
Los lenguajes de programación más utilizados para la minería de datos son Python y
R. Estos dos lenguajes analíticos tienen la ventaja de ser de código abierto y muy flexibles.
Hay varias variaciones y técnicas para la minería de datos. Otra técnica estadística se
llama "Análisis de datos exploratorios" y consiste en analizar los datos para identificar sus
principales características. Mientras tanto, la exploración interactiva consiste en utilizar
visualizaciones de datos para comprenderlos mejor y facilitar la colaboración en torno
a dicha información.
¿Qué es Weka? Weka es un ave que se encuentra únicamente en Nueva Zelanda. Tiene
el tamaño de un pollo e incapaz de volar. También Weka proviene de las siglas Waikato
Environment for Knowledge Análisis. Es una herramienta de minería de datos que fue
creada en la Universidad de Waikato que se encuentra en Nueva Zelanda. Consiste de
un conjunto de algoritmos que cubren los diferentes pasos o fases de minería de datos.
Contiene algoritmos de procesamiento, algoritmos de clasificación, de agrupamiento y
de asociación. Todas las técnicas que vimos anteriormente, también de evaluación y de
visualización. Trabajar con un formato archivo especializado que el .ARFF que significa
Attribute Relation Se distribuye como software libre y esta herramienta fue desarrollada
en Java.
Visitar página
Visitar página
Video
https://youtu.be/yD3R9gMfZI8
Visitar página
Para comenzar a instalar WEKA nos dirigimos al siguiente enlace web https://www.
cs.waikato.ac.nz/ml/weka/ y accedemos al Computer Science Waikato Academy en
New Zealand, entramos a dicha página, nos sale las tres opciones de bajar Weka
según la plataforma que tenemos instalada en nuestros computadores. Se tiene
Weka para la versión de Windows, de Macintosh y de Linux.
Descargar Weka para el sistema operativo que tenga en su computador, solo debe
cliquear en siguiente y esperar a que termine de instalar, como lo indica la figura 7.
Video
https://youtu.be/hODwSUX0kT4
Instrucción
También si tenemos los datos que vienen de diferentes fuentes y al momento de inte-
grarlo podría haber alguna inconsistencia. Por ejemplo, la primera data podría tener el
atributo edad, pero la segunda Data podría venir con el nombre fecha de nacimiento.
Aquí hay una discrepancia en los nombres también
al integrar dos placas con dos conjuntos de datos
o más. Podría haber instancias duplicadas. Según
Discrepancia:
(Nabhan Homsi, 2020) indica de manera tajante: La discrepancia es la diferencia o des-
“Podemos resumir que debemos entender el pasado igualdad o que resulta de la compara-
ción de las cosas entre sí en el ámbito
de los datos para poder predecir su futuro, entonces científico. Extraído de: https://es.wikipe-
la recopilación de los datos nos permite resaltar y dia.org/wiki/Discrepancia
Visitar página
http://red.unal.edu.co/cursos/ciencias/2001065/html/contenido.html
Lectura recomendada
Minería de Datos
Se espera que para 2021, un tercio del total de datos se almacene o pase a
través de la nube y analizados con minería de datos, ello se estima con casi
39 zettabytes de datos (Patel, 2020).
Visitar página
Esteban Schab, Ramiro Rivera, Luciano Bracco, Facundo Coto, Patricia Cristaldo,
Lautaro Ramos, Natalia Rapesta, Juan Pablo Núñez, Soledad Retamar, Carlos
Casanova y Anabella De Battista
Instrucción
• Estructura.
• Semiestructurada.
• No estructurado.
Los datos se procesan, transforman e ingieren para que los usuarios puedan acceder
a los datos procesados en el almacén de datos a través de herramientas de inteligencia
empresarial, clientes SQL y hojas de cálculo. Un almacén de datos fusiona información
de diferentes fuentes en una base de datos completa.
Algunos de los beneficios que puede presentar y que deberías tener en cuenta sobre
un almacén de datos en las empresas que manipulan almacenes de datos para impulsar
su inteligencia empresarial y sus análisis, son:
Entonces, cada vez es más necesario poder distinguir dos importantes y diferentes
sistemas de información de minería de datos: Procesamiento transaccional y Procedi-
miento analítico. OLTP y OLAP así denominan los analistas y arquitectos de datos a los
tipos de procesamiento.
• Data Mart: un Data Mart es un subconjunto del almacén de datos. Está espe-
cialmente diseñado para un tema, área o dependencia empresarial en particular,
como ventas, recursos humanos, cartera, finanzas, etc. En un Data Mart inde-
pendiente, los datos se pueden recopilar directamente de diferentes fuentes de la
misma área o de otras que manejen los mismos datos de interés.
Entre las herramientas más utilizadas e importantes según el portal (Panoply, 2021)
para los almacenes de datos tenemos los siguientes:
Visitar página
Lectura recomendada
ORACLE
Instrucción
En este documento, se realizó una breve revisión y descripción para entender las defi-
niciones, infraestructura, arquitectura y tipos software orientándose al procesamiento
y soluciones de grandes volúmenes de datos. Entonces, algunas de las plataformas que
implementan varias de las técnicas descritas en este eje, fueron definidas y con tendencia
a utilizar las habilidades tecnológicas para su desarrollo.
En general, podemos concluir que las técnicas propuestas son escalables. Entende-
mos que podemos comenzar desde una arquitectura local y progresivamente seguir a
arquitecturas mucho más complejas, lo que nos advierte que el Big Data debe alma-
cenarse en sistemas distribuidos, o por lo menos intuir eso. No podemos mirar el diseño
de arquitectura o infraestructura de manera unilateral porque estaría aislada de todo.
Lo recomendable es una integración o hibridación que cubra todos los aspectos mien-
tras se diseña un entorno de Big Data, si se necesita. Una vez planteado lo anterior, la
implementación será cambiante y multidisciplinaria y con una gran dependencia según
el tipo de empresa, industria o corporación. Una vez que una organización ha tomado
la decisión de utilizar Big Data, la arquitectura e infraestructura de almacenamiento, de
red y de seguridad debe cambiar de manera paulatina. La regla general es aprovechar
el beneficio total para obtener los mejores resultados.
Freytag, J. C., Abiteboul, S., & Carey, M. (2004). Best papers of VLDB 2003. The
VLDB Journal, 13(3). https://doi.org/10.1007/s00778-004-0129-1
McGovern, G. (2021). Meet Guru99 – Free Training Tutorials & Video for IT Courses.
Guru99. Obtenido de: https://www.guru99.com/
Nabhan Homsi, H. (2020). Introducción de minería de datos. (1.a ed., Vol. 2) [Libro
electrónico]. UDEMY-Books.