TITULO
MINERIA DE DATOS, BIG DATA Y BUSINESS INTELLIGENCE.
INTRODUCCIÓN
La revolución digital ha hecho posible que toda información digitalizada sea fácil de
capturar, procesar, almacenar, distribuir y transmitir, el progreso en informática y en
las tecnologías relacionadas y la expansión de su uso en diferentes aspectos de la
vida se continua recogiendo y almacenando en bases de datos gran cantidad de
información.
La minera de datos (MD) es un intento de buscarle sentido a la explosión de
información que actualmente puede ser almacenada.
Hoy en día los datos no están restringidos a tupas representadas únicamente con
números o caracteres. El avance de la tecnología para la gestión de tipos de datos
hace posible integrar diferentes tipos de datos tales como imagen, video, texto y
otros datos numéricos en una base de datos sencilla, facilitando el procesamiento
multimedia.
El crecimiento en el volumen de datos generados por diferentes sistemas y
actividades cotidianas en la sociedad ha forjado la necesidad de modificar
optimizar y generar métodos y modelos de almacenamiento y tratamiento de datos
que suplan las falencias que presentan las bases de datos y los sistemas de gestión
de datos tradicionales, es por esto que aparece Big Data termino que incluye
diferentes tecnologías asociadas a las administración de grandes volumen fuentes y
que generan con rapidez este término se asocia principalmente con cantidades de
datos exorbitantes, y se debe dejar de lado esta percepción pues Big Data no va
dirigido a solo gran tamaño sino que abarca tanto volumen como variedad de datos y
velocidad de acceso y procesamiento.
En los últimos años el mercado de Bussines Intelligence se ha visto marcado por
una clara evolución que lo destaca como un mercado maduro debido a que ha
producido una consolidación del mercado mediante la compra de empresas
pequeñas por parte de los principales agentes del mercado (SAP IBM, Microsoft y
Oracle), los cuales se han enriquecido con soluciones open source que cubren el
espectro de necesidades de una organización para la explotación de la información ,
han aparecido nuevas empresas con foco en la innovación cubriendo nuevos
nichos en el mercado de la inteligencia del negocio como la visualización, el análisis
predictivo, las virtual appliances o el real time Business intelligence.
A pesar de la crisis económica en el 2008 el mercado de inteligencia de negocio
sigue en un fase de crecimiento estable posicionarse como una necesidad critica
para toda la organización , con Bussines Intelligence podemos encontrar
herramientas de bases de datos como de minería e implementar proyectos de
inteligencia de negocio para todo tipo de organizaciones tanto Pymes como grande
organizaciones.
DESARROLLO
Minería de Datos existen varias definiciones ya que se fundamenta en el concepto
de escavar en la información almacenada para descubrir elementos de utilidad
desde grandes cantidades de datos almacenados con el objetivo de detectar patrones
de comportamiento consistentes o relaciones entre los diferentes campos de una base
de datos para aplicarlos a nuevos conjuntos de datos, se puede visualizarse como un
proceso analítico diseñado para explorar grandes cantidades de datos con el objetico
de encontrar relaciones entre las diferentes variables para aplicarla a nuevos
conjuntos de datos.
Proceso de descubrimiento de conocimientos de base de datos
Este proceso de datos involucra nueve pasos que a continuación se describen y se
muestran esquemáticamente, entre ellos tenemos:
Entendimiento del dominio de aplicación el conocimiento relevante a usar y
las metas del usuario.
Seleccionar un conjunto de datos y enfocar la búsqueda en subconjunto de
variables y muestras de datos en donde realizar el proceso de
descubrimiento.
Limpieza y procesamiento de datos diseñando una estrategia adecuada para
manejar ruido, valores incompletos, secuencia de tiempo y otros.
Reducción de datos y proyecciones para reducir el número de variables a
considerar.
Selección de la tarea de descubrimiento a realizar, por ejemplo, clasificación,
agrupamiento, regresión.
Selección de el o los algoritmos a utilizar
Llevar a cabo el proceso de minería de datos
Interpretar los resultados y posiblemente regresar a los pasos anteriores, esto
puede involucrar repetir el proceso, quizás con otros datos, otros algoritmos
otras metas y otras estrategias .
Incorporar el conocimiento descubierto al sistema
Limpieza y reprocesamiento de datos, diseñando una estrategia adecuada para
manejar ruido, valores incompletos, secuencias de tiempos y otros.
Reducción de datos y proyecciones para reducir el número de variables a
considerar
Selección de la tarea de descubrimiento a realizar por ejemplo clasificación
agrupamiento regresión.
Selección de el o los algoritmos a utilizar
Llevar a cabo el proceso de minería de datos
Interpretar los resultados y posiblemente regresar al paso anterior esto puede
involucrar repetir el proceso, quizás con otros algoritmos otras estrategias.
Incorporar el conocimiento descubierto al sistema lo cual puede incluir resolver
conflictos potenciales con el conocimiento existente.
Aplicación de la minería de datos
La minería de datos incluye la identificación de aplicaciones para las técnicas
existentes y desarrollar nuevas técnicas para dominios tradicionales o de nueva
aplicación como el comercio electrónico y la bioinformática, existen numerosa áreas
donde la minería de datos se puede aplicar en todas las actividades humanas que
generen datos:
Comercio y banca
Medicina y farmacia
Seguridad y detección de fraude
Recuperación de información no numérica
Astronomía
Geología minería agricultura y pesca
Ciencias ambientales
Ciencias sociales
Big Data es un conjunto de datos cuyo tamaño va más allá de la capacidad de
captura almacenado, gestión y análisis de las herramientas de base de datos, big data
son activos de información caracterizados por su alto volumen, velocidad y variedad
que demandan soluciones innovadoras y eficientes de procesado para la mejora del
conocimiento y toma de decisiones en las organizaciones, esto incluye tecnologías,
infraestructura y servicios creados para dar soluciones a procesamiento enormes de
conjuntos de datos estructuras no estructurados o semiestructurados, estos pueden
provenir de sensores archivos de audio micrófonos, cámaras, escáneres médicos,
imágenes, teléfonos inteligentes entre otros.
Características de Big Data. Hace referencia a las tres “V” (3Vs) Volumen
variedad y velocidad sin embargo existen algunas empresa que han incursionado en
big data han ampliado la definición original, incorporando dos características nuevas
valor del dato y veracidad por lo tanto se puede considera cinco “Vs” (5Vs).
Volumen se consideran grandes volúmenes de datos refiriéndose a Terabytes o
Petabytes que superan a la gestión de estos datos en sistemas tradicionales, el avance
tecnológico ha dado el surgimiento al aparecimiento de big data que permite manejar
las enormes cantidades de datos y gestionarlos.
Variedad se refiere a incluir varias fuentes de datos de diferentes a las que se
manejan en el sistema tradicional, pudiendo ser obtenida de redes sociales de
dispositivos electrónicos que se encuentran conectados y cada vez en un número
mayor sensores que permiten conocer movimientos y hábitos cotidianos, es decir
diversas fuentes externas que obtienen datos.
Velocidad esta se basa en la rapidez con la que se reciben los datos procesados y se
toma decisiones en función de estos, la mayoría de sistemas tradicionales es
imposible analizar los grandes volúmenes de datos de forma inmediata.
Veracidad esta no hay que dejarla de lado es la confianza de los datos extrayendo
los datos da calidad y eliminado la imprevisibilidad de algunas.
El objetivo de la Big Data es de transformar los datos en información para asi
facilitar la toma de decisiones a tiempo real, la importancia no es solo en cuestión
de tamaño sino es una oportunidad de negocio. Su utilidad es muy importante porque
podemos obtener ya sea en industrias, compañías que mantienen volúmenes grandes
de data transaccionales, agrupando información acerca de sus empleados,
proveedores, clientes, operaciones, entre otros.
Business Intelligente esta se la define como la habilidad corporativa para tomar
decisiones las mismas que se lograr mediante el uso de metodologías aplicaciones y
tecnologías que permiten reunir , depurar, transformar datos y aplicar en ellos técnicas
analíticas de extracción de conocimientos además se la define como un conjunto de
metodologías aplicaciones, prácticas y capacidades enfocadas a la creación y
administración de información que permiten tomar mejores decisiones a los
usuarios de una organización, entre las tecnologías que forman parte de Business
encontramos:
Data watehouse Minería de datos
Reporting Gestión del rendimiento
Análisis OLAp Previsiones
Análisis visual Reglas de negocio
Análisis predicativo Dashboards
Cuadro de mando Integración de datos
Cuadro de mando integral
Estrategia de Business intelligence busca desplegar un proyecto de inteligencia de
negocio en el seno de una organización no es proceso sencillo. Las buenas practicas
indican que para llegar a buen puerto es necesario tener una estrategia de
inteligencia de negocio que coordine de forma efectiva las tecnologías, el uso los
procesos de madurez,
CONCLUSIONES
Minería de datos es una área de estudio científico con grandes expectativas para la
comunidad investigadora desde hace más de 50 años se ha publicado infinidad de
artículos en conferencias y revistas destacadas sobre la materia, se ha descrito las
principales posibilidades que la minería de datos proporciona una relación de la
principales retos y tendencias en investigación.
Big data ofrece oportunidades para las empresas u organizaciones sean más
eficaces y competitivas y el reto de la empresas es gestionar grandes volúmenes de
datos que van creciendo día a día.
Business intelligence es una herramienta que se constituye en una ventaja
tecnológica ya que con ella se logra centralizar, depurar y afianzar los datos,
descubrir información no evidente para las aplicaciones actuales, optimizar el
rendimiento de los sistemas sus herramientas no vienen a remplazar a los sistemas
transaccionales actuales, si no que se trata de un sistema distinto con eficiencia
en sus funciones pero que deben complementarse para optimizar el valor de los
sistemas de información.
BIBLIOGRAFIA REFERENCIADA
BI-SPAIN. Portal de noticias de Business Intelligence tanto de ámbito nacional como
internacional. URL: http://www.bi-spain.com.
Fayyad U.; Piatetsky-Shapiro, G.; Editors (1996). Advances in Knowledge Discovery
and Data Mining. AAAI Press.
Gómez Flechoso A. J., (1998), Inducción de Conocimiento con Incertidumbre en Bases
de Datos Relaciónales Borrosas. Tesis Doctoral – ETSIT-UPM Madrid
H. Mohanty, P. Bhuyan, and D. Chenthati, Big Data: A Primer, vol. 11. Springer, 2015
K.C. Li, H. Jiang, L. T. Yang, and A. Cuzzocrea, Big Data: Algorithms, Analytics, and
Applications, Chapman &. CRC Press, 2015.
S. Mitra and T. Acharya. Data mining: multimedia, soft computing and bioinformatics.
John Wiley & Sons, 2003.
Witten, IH and Frank, E: "Data Mining: Practical Machine Learning Tools and
Techniques", 2nd Edition. Morgan Kaufmann, 2005.
mcKinsey Global Insitute (MGI) “Definición Big Data”, junio de 2011
GARTNER-IT GLOSSARY “Definición Big Data “https://www gartner. com/it-
glossary/ big Data.
DAVENPORT, Thomas H., y HARRIS, Jeanne G. (2007). Competing on Analytics:
The New Science of Winning. Nueva York: Harvard Business Press.
Parr, O. (2000). Data mining cookbook. Obtenido de http://books.google.com.co/books?
id=L3w0loZrcU0C&printsec=front
cover&dq=Data+Mining+Cookbook#v=onepage&q=&f=false