Está en la página 1de 18

Daurin

5.1 Introducción a la inteligencia de negocios


(BI)
¿Qué es Business Intelligence?

Business Intelligence es la habilidad para transformar los datos en información, y la información


en conocimiento, de forma que se pueda optimizar el proceso de toma de decisiones en los
negocios.

Desde un punto de vista más pragmático, y asociándolo directamente con las


tecnologías de la información, podemos definir Business Intelligence como el
conjunto de metodologías, aplicaciones y tecnologías que permiten reunir, depurar
y transformar datos de los sistemas transaccionales e información desestructurada
(interna y externa a la compañía) en información estructurada, para su explotación
directa (reporting, análisis OLTP / OLAP, alertas...) o para su análisis y conversión
en conocimiento, dando así soporte a la toma de decisiones sobre el negocio.

La inteligencia de negocio actúa como un factor estratégico para una empresa u


organización, generando una potencial ventaja competitiva, que no es otra que
proporcionar información privilegiada para responder a los problemas de negocio:
entrada a nuevos mercados, promociones u ofertas de productos, eliminación de
islas de información, control financiero, optimización de costes, planificación de la
producción, análisis de perfiles de clientes, rentabilidad de un producto concreto,
etc...

Los principales productos de Business Intelligence que existen hoy en día son:

        Cuadros de Mando Integrales (CMI) 


        Sistemas de Soporte a la Decisión (DSS)  

        Sistemas de Información Ejecutiva (EIS) 

Por otro lado, los principales componentes de orígenes de datos en el Business


Intelligence que existen en la actualidad son:

        Datamart  

        Datawarehouse 

Los sistemas y componentes del BI se diferencian de los sistemas operacionales


en que están optimizados para preguntar y divulgar sobre datos. Esto significa
típicamente que, en un datawarehouse, los datos están desnormalizados para
apoyar consultas de alto rendimiento, mientras que en los sistemas operacionales
suelen encontrarse normalizados para apoyar operaciones continuas de inserción,
modificación y borrado de datos. En este sentido, los procesos ETL (extracción,
transformación y carga), que nutren los sistemas BI, tienen que traducir de uno o
varios sistemas operacionales normalizados e independientes a un único sistema
desnormalizado, cuyos datos estén completamente integrados.

En definitiva, una solución BI completa permite:

  Observar ¿qué está ocurriendo?

  Comprender ¿por qué ocurre?

  Predecir ¿qué ocurriría?

  Colaborar ¿qué debería hacer el equipo?

  Decidir ¿qué camino se debe seguir?

5.2 Herramientas tecnológicas de BI


Las herramientas de inteligencia de negocio son aplicaciones digitales diseñadas para
colaborar con el Business Intelligence durante el análisis y la presentación de datos.

La Inteligencia de Negocios o Business Intelligence (BI) permite a las compañías contar con la
información adecuada para una mejor toma de decisiones.  Las compañías que implementan el
BI logran sacar mayor provecho de las situaciones de crisis gracias a la posibilidad de contar
con un análisis de mercado más acertado debido a que los datos pesados son transformados
en importantes estrategias corporativas.

Actualmente, las herramientas de BI disponibles en el mercado son incontables, pero estas 20


no pueden pasar desapercibidas:

1. Microsoft Dynamics NAV: especial para pequeñas y medianas empresas que buscan
mejorar su competitividad.

2. Microsoft Dynamics CRM: efectiva para la administración de clientes.

3. Oracle Business Intelligence: una de las más completas en el mercado ya que cuenta con
paneles interactivos, análisis predictivos en tiempo real, entre otros.

4. Ultimus: un entorno integrado que permite compartir información entre aplicaciones.

5. Office SharePoint Server: facilita el acceso a la información en cualquier momento y lugar.

6. QlikView: mantiene las bases de datos al alcance de una manera sin precedentes.

7. Microsoft Performance Point Server: permite supervisar, alinear y hacer un plan de negocio.

8. Microsoft SQL Server: adecuada para realizar un análisis panorámico de la empresa y tomar
las mejores decisiones.

9. JetReports: especial para crear informes ERP.

10. Eclipse BIRT Project: genera informes para aplicaciones web de código abierto.

11. JasperReports: permite crear informes de rápida impresión.

12. LogiReport: aplicación gratuita basada en web de LogiXML

13. OpenI: aplicación web orientada al reporting OLAP.

14. SPSS: programa estadístico especialmente empleado en ciencias sociales e


investigaciones de mercado.

15. Pentaho: incluye herramientas para generar informes, minería de datos, ETL, entre otros.

16. RapidMiner: permite analizar datos a través de un entorno gráfico.

17. Crystal Reports: genera informes desde bases de datos múltiples.

18. ApeSoft: ofrece una interface sencilla similar a Microsoft Excel.

19. SAS Institute: facilita la gestión de riesgo financiero, desarrollo de modelos de minería de
datos, etc.

20. NiMbox: organiza los datos de la empresa en interactivas aplicaciones.

Las compañías han descubierto la necesidad de usar sus datos para apoyar la toma de
decisiones, realizar una optimización de procesos y realizar reportes operacionales. Los
vendedores de tecnología de Business Intelligence han construidos nichos de software para
implementar cada nuevo patrón de aplicaciones que las compañías inventan. Estos patrones
de aplicación resultan en productos de software centrados exclusivamente en cinco estilos de
Business Intelligence tales como:

Reporte empresarial. Los reportes escritos son usados para generar reportes estáticos
altamente formateados destinados para ampliar su distribución con mucha gente.

Cubos de análisis. Los cubos basados en herramientas de BI son usados para proveer
capacidades analíticas a los administradores de negocios.

Vistas Ad Hoc Query y análisis. Herramientas OLAP relacionales son usadas para permitir a los
expertos visualizar la base de datos y ver cualquier respuesta y convertirla en información
transaccional de bajo nivel.

Data mining y análisis estadísticos. Son herramientas usadas para desempeñar modelado
predictivo o para descubrir la relación causa efecto entre dos métricas.

Entrega de reportes y alertas. Los motores de distribución de reportes son usados para enviar
reportes completos o avisos a un gran número de usuarios, dichos reportes se basan en
suscripciones, calendarios, etc.

Beneficios de las herramientas de Business Intelligence:

Disponer de la capacidad de extraer, depurar, consolidar, sintetizar y presentar datos-


información-conocimiento de forma automatizada.

Poner a disposición de los usuarios que la necesiten la información necesaria para el análisis y
la toma de decisiones: ágil, flexible y fiable, en el formato adecuado a cada uno.

La información se obtiene sin dependencias de otros departamentos, con posibilidad de


navegación OLAP por los propios usuarios, que permite profundizar en el análisis de forma
interactiva en base a cualquiera de las dimensiones disponibles.

Homogeneidad en la utilización de la información (interna y externa): utilización de la misma


información al medir las mismas cosas.
Sistema soportado sobre plataformas tecnológicas sólidas y escalables.

5.3 Sistemas de soporte a la decisión


Un Sistema de Soporte a la Decisión (DSS) es una herramienta de Business Intelligence
enfocada al análisis de los datos de una organización.

El DSS es una de las herramientas más emblemáticas del Business Intelligence ya que, entre
otras propiedades, permiten resolver gran parte de las limitaciones de los programas de
gestión. Estas son algunas de sus características principales:

Informes dinámicos, flexibles e interactivos, de manera que el usuario no tenga que ceñirse a
los listados predefinidos que se configuraron en el momento de la implantación, y que no
siempre responden a sus dudas reales.

No requiere conocimientos técnicos. Un usuario no técnico puede crear nuevos gráficos e


informes y navegar entre ellos, haciendo drag&drop o drill through. Por tanto, para examinar la
información disponible o crear nuevas métricas no es imprescindible buscar auxilio en el
departamento de informática.

Rapidez en el tiempo de respuesta, ya que la base de datos subyacente suele ser un


datawarehouse corporativo o un datamart, con modelos de datos en estrella o copo de nieve.
Este tipo de bases de datos están optimizadas para el análisis de grandes volúmenes de
información (vease análisis OLTP-OLAP).

Integración entre todos los sistemas/departamentos de la compañía. El proceso de ETL previo


a la implantación de un Sistema de Soporte a la Decisión garantiza la calidad y la integración
de los datos entre las diferentes unidades de la empresa. Existe lo que se llama: integridad
referencial absoluta.

Cada usuario dispone de información adecuada a su perfil. No se trata de que todo el mundo
tenga acceso a toda la información, sino de que tenga acceso a la información que necesita
para que su trabajo sea lo más eficiente posible.

Disponibilidad de información histórica. En estos sistemas está a la orden del día comparar los
datos actuales con información de otros períodos históricos de la compañía, con el fin de
analizar tendencias, fijar la evolución de parámetros de negocio... etc.

El principal objetivo de los Sistemas de Soporte a Decisiones es, a diferencia de otras


herramientas como los Cuadros de Mando (CMI) o los Sistemas de Información Ejecutiva
(EIS), explotar al máximo la información residente en una base de datos corporativa
(datawarehouse o datamart), mostrando informes muy dinámicos y con gran potencial de
navegación, pero siempre con una interfaz gráfica amigable, vistosa y sencilla.

Otra diferencia fundamental radica en los usuarios a los que están destinadas las plataformas
DSS: cualquier nivel gerencial dentro de una organización, tanto para situaciones estructuradas
como no estructuradas. (En este sentido, por ejemplo, los CMI están más orientados a la alta
dirección).

Por último, destacar que los DSS suelen requerir (aunque no es imprescindible) un motor
OLAP subyacente, que facilite el análisis casi ilimitado de los datos para hallar las causas
raíces de los problemas/pormenores de la compañía.

Tipos de Sistemas de Soporte a Decisiones:

Sistemas de información gerencial (MIS)

Los sistemas de información gerencial (MIS, Management Information Systems), tambien


llamados Sistemas de Información Administrativa (AIS) dan soporte a un espectro más amplio
de tareas organizacionales, encontrándose a medio camino entre un DSS tradicional y una
aplicación CRM/ERP implantada en la misma compañía.

Sistemas de información ejecutiva

Los sistemas de información ejecutiva (EIS, Executive Information System) son el tipo de DSS
que más se suele emplear en Business Intelligence, ya que proveen a los gerentes de un
acceso sencillo a información interna y externa de su compañía, y que es relevante para sus
factores clave de éxito.

Sistemas expertos basados en inteligencia artificial (SSEE)

Los sistemas expertos, también llamados sistemas basados en conocimiento, utilizan redes
neuronales para simular el conocimiento de un experto y utilizarlo de forma efectiva para
resolver un problema concreto. Este concepto está muy relacionado con el datamining.

Sistemas de apoyo a decisiones de grupo (GDSS)

Un sistema de apoyo a decisiones en grupos (GDSS, Group Decision Support Systems) es "un
sistema basado en computadoras que apoya a grupos de personas que tienen una tarea (u
objetivo) común, y que sirve como interfaz con un entorno compartido". El supuesto en que se
basa el GDSS es que si se mejoran las comunicaciones se pueden mejorar las decisiones.

J.P.N
5.3.1 Almacenes de datos (Data Warehouse)
Un Datawarehouse es una base de datos corporativa que se caracteriza por integrar y depurar
información de una o más fuentes distintas, para luego procesarla permitiendo su análisis
desde infinidad de perspectivas y con grandes velocidades de respuesta. La creación de un
datawarehouse representa en la mayoría de las ocasiones el primer paso, desde el punto de
vista técnico, para implantar una solución completa y fiable de Business Intelligence.

La ventaja principal de este tipo de bases de datos radica en las estructuras en las que se
almacena la información (modelos de tablas en estrella, en copo de nieve, cubos relacionales...
etc.). Este tipo de persistencia de la información es homogénea y fiable, y permite la consulta y
el tratamiento jerarquizado de la misma (siempre en un entorno diferente a los sistemas
operacionales).

El término Datawarehouse fue acuñado por primera vez por Bill Inmon, y se traduce
literalmente como almacén de datos. No obstante, y como cabe suponer, es mucho más que
eso. Según definió el propio Bill Inmon, un datawarehouse se caracteriza por ser:

Integrado: los datos almacenados en el datawarehouse deben integrarse en una estructura


consistente, por lo que las inconsistencias existentes entre los diversos sistemas operacionales
deben ser eliminadas. La información suele estructurarse también en distintos niveles de
detalle para adecuarse a las distintas necesidades de los usuarios.
Temático: sólo los datos necesarios para el proceso de generación del conocimiento del
negocio se integran desde el entorno operacional. Los datos se organizan por temas para
facilitar su acceso y entendimiento por parte de los usuarios finales. Por ejemplo, todos los
datos sobre clientes pueden ser consolidados en una única tabla del datawarehouse. De esta
forma, las peticiones de información sobre clientes serán más fáciles de responder dado que
toda la información reside en el mismo lugar.

Histórico: el tiempo es parte implícita de la información contenida en un datawarehouse. En los


sistemas operacionales, los datos siempre reflejan el estado de la actividad del negocio en el
momento presente. Por el contrario, la información almacenada en el datawarehouse sirve,
entre otras cosas, para realizar análisis de tendencias. Por lo tanto, el datawarehouse se carga
con los distintos valores que toma una variable en el tiempo para permitir comparaciones.

No volátil: el almacén de información de un datawarehouse existe para ser leído, pero no


modificado. La información es por tanto permanente, significando la actualización del
datawarehouse la incorporación de los últimos valores que tomaron las distintas variables
contenidas en él sin ningún tipo de acción sobre lo que ya existía.

Otra característica del datawarehouse es que contiene metadatos, es decir, datos sobre los
datos. Los metadatos permiten saber la procedencia de la información, su periodicidad de
refresco, su fiabilidad, forma de cálculo... etc.

Los metadatos serán los que permiten simplificar y automatizar la obtención de la información
desde los sistemas operacionales a los sistemas informacionales.

Los objetivos que deben cumplir los metadatos, según el colectivo al que va dirigido,
son:

Dar soporte al usuario final, ayudándole a acceder al datawarehouse con su propio lenguaje de
negocio, indicando qué información hay y qué significado tiene. Ayudar a construir consultas,
informes y análisis, mediante herramientas de Business Intelligence como DSS, EIS o CMI.

Dar soporte a los responsables técnicos del datawarehouse en aspectos de auditoría, gestión
de la información histórica, administración del datawarehouse, elaboración de programas de
extracción de la información, especificación de las interfaces para la realimentación a los
sistemas operacionales de los resultados obtenidos... etc.

Por último, destacar que para comprender íntegramente el concepto de datawarehouse, es


importante entender cuál es el proceso de construcción del mismo, denominado ETL
(Extracción, Transformación y Carga), a partir de los sistemas operaciones de una compañía:

Extracción: obtención de información de las distintas fuentes tanto internas como externas.

Transformación: filtrado, limpieza, depuración, homogeneización y agrupación de la


información.

Carga: organización y actualización de los datos y los metadatos en la base de datos.

Las claves del éxito en la construcción de un datawarehouse es el desarrollo de forma gradual,


seleccionando a un departamento usuario como piloto y expandiendo progresivamente el
almacén de datos a los demás usuarios. Por ello es importante elegir este usuario inicial o
piloto, siendo importante que sea un departamento con pocos usuarios, en el que la necesidad
de este tipo de sistemas es muy alta y se pueda obtener y medir resultados a corto plazo.

Principales aportaciones de un datawarehouse:

Proporciona una herramienta para la toma de decisiones en cualquier área funcional,


basándose en información integrada y global del negocio.

Facilita la aplicación de técnicas estadísticas de análisis y modelización para encontrar


relaciones ocultas entre los datos del almacén; obteniendo un valor añadido para el negocio de
dicha información.

Proporciona la capacidad de aprender de los datos del pasado y de predecir situaciones futuras
en diversos escenarios.

Simplifica dentro de la empresa la implantación de sistemas de gestión integral de la relación


con el cliente.

Supone una optimización tecnológica y económica en entornos de Centro de Información,


estadística o de generación de informes con retornos de la inversión espectaculares.

5.3.2 Tableros de control


El tablero de control (TdeC) es una herramienta, del campo de la administración de empresas,
aplicable a cualquier organización y nivel de la misma, cuyo objetivo y utilidad básica es
diagnosticar adecuadamente una situación. Se lo define como el conjunto de indicadores cuyo
seguimiento y evaluación periódica permitirá contar con un mayor conocimiento de la situación
de su empresa o sector apoyándose en nuevas tecnologías informáticas.

El diagnóstico y monitoreo permanente de determinados indicadores e información ha sido y es


la base para mantener un buen control de situación en muchas de las disciplinas de la vida.
Como ejemplo de estos podemos señalar a la: medicina, basada en mediciones para el
diagnóstico de la salud de los pacientes, a la aviación, cuyos indicadores de tablero de control
sintetiza la información del avión y del entorno para evitar sorpresas y permite a los pilotos
dirigir el avión a buen puerto; el tablero de un sistema eléctrico o de una represa son otros
ejemplos. En todos estos casos el Tablero permite a través del color de las luces y alarmas ser
el disparador para la toma de decisiones.

A partir de la experiencia de implementación y de las diferentes necesidades de las empresas


me he encontrado con la posibilidad de implementar cuatros tipos genéricos de Tableros:

Tablero de Control Operativo: Es aquel que permite hacer un seguimiento, al menos diario, del
estado de situación de un sector o proceso de la empresa, para poder tomar a tiempo las
medidas correctivas necesarias. El Tablero debe proveer la información que se necesita para
entrar en acción y tomar decisiones operativas en áreas como las finanzas, compras, ventas,
precios, producción, logística, etc.

Tablero de Control Directivo: Es aquel que permite monitorear los resultados de la empresa en
su conjunto y de los diferentes temas claves en que se puede segmentarse.

 Tablero de Control Estratégico: Nos brinda la información interna y externa necesaria para
conocer la situación y evitar llevarnos sorpresas desagradables importantes respecto al
posicionamiento estratégico y a largo plazo de la empresa.

Tablero de Control Integral: Información relevantes para que la alta dirección de una empresa
pueda conocer la situación integral de su empresa. Engloba a las tres perspectivas anteriores.

5.4 Indicadores clave de rendimiento (KPI)

El término KPI (Indicadores clave de desempeño) es uno de los conceptos que más se
escuchan al planificar estrategias, diseños o implantación de campañas. En primer lugar, es
importante conocer que este fundamento se puede utilizar para actividades online y las
tradicionales off line, como también en el social media.

La sigla KPI se obtiene de la traducción del término “Key Performance Indicators”, que
traducido al español significaría “indicadores claves de desempeño”. En síntesis, este concepto
hace referencia a todas las variables, factores o unidades de medida, entre otras cosas, que
puedan servir para armar la estrategia de cada empresa. Al tener esta importancia, es normal
que influye directamente en el denominado “Core Business”.

Estos conceptos están asociados directamente a la marcación y planificación que se realiza


anualmente. A través de estos datos, se puede hacer un seguimiento o control de la salud que
tiene el modelo de negocio que se eligió.

Al hablar de KPI, se hace referencia a términos medibles y cuantificables con los que se puede
determinar numéricamente una variable. Algunos de los ejemplos son los gastos, ingresos y
números de visitas que son importantes para conocer el cumplimiento, o no, de los objetivos
puestos en cada temporada.

Al armar un KPI, se debe tener en cuenta algunos requisitos fundamentales. En primer lugar,
debe ser medible a través de alguna moneda u objeto. Lo que sea, pero debe poder medirse.
Lo mismo ocurre al materializarse. Debe ser cuantificable en su categoría.

A lo anterior se suma que debe ser periódico o temporal para que pueda ser controlado o
analizado en un periodo de tiempo determinado y debe estar dirigido a un área sola. Ejemplo:
debe hablar solo de un aspecto, como lo puede ser la parte de ingresos. Por último, tiene que
ser relevante en el negocio. Y en caso de mostrar resultados negativos, se debe actuar
rápidamente.

Al observar la práctica, es muy común que esta información sea utilizada en exceso. Por esta
razón, suele ocurrir que el rendimiento es analizado por cualquier tipo de datos obtenidos. Para
evitar esto, hay que utilizar solamente lo que se necesita y lo más importante para cada
negocio. Una vez obtenido esto, hay que focalizar y potenciar estos indicadores de
rendimiento.

El objetivo de utilizar esta técnica es tener un control del rendimiento de cada empresa. De esta
forma se evalúa el trabajo y las mejoras que existieron. Para esto, hay que tener en claro tres
factores:

Informes que sean claros, para que puedan demostrar cada acción. De esta forma, los clientes
entenderán el informe sin necesidad de ayuda.

Control y análisis profundo del seguimiento que se hizo en el trabajo. Tener los datos exactos
de la actividad que se realiza mejora el resultado final de estas estadísticas. Aquí se obtiene la
valoración exacta de lo que se hizo.

Aprender a diario y mejorar lo máximo posible. A través de los KPI se obtiene realmente lo
importante para cada empresa. A diario se aprende sobre lo bueno de cada negocio y las
acciones que hay continuar porque generan buenos resultados.
Fidel
¿Qué es el minado de Datos o Data Mininig?

El minado de datos es un conjunto de técnicas y tecnologías que permiten explorar


grandes bases de datos, de manera automática o semiautomática, con el objetivo de
encontrar patrones repetitivos que expliquen el comportamiento de estos datos.

A pesar de que la idea del Data Mining puede parecer una innovación tecnológica
muy reciente, en realidad este término apareció en los años sesenta conjuntamente
con otros conceptos como, por ejemplo, el data fishing o data archeology. No
obstante, no fue hasta los años ochenta cuando empezó su consolidación.

La minería de datos surgió con la intención o el objetivo de ayudar a comprender una


enorme cantidad de datos y que estos pudieran ser utilizados para extraer
conclusiones para contribuir en la mejora y el crecimiento de las empresas. Sobre
todo, por lo que hace a las ventas o fidelización de clientes.

Su principal finalidad es explorar, mediante la utilización de distintas técnicas y


tecnologías, bases de datos enormes de manera automática. El objetivo es
encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento
de los datos que se han ido recopilando con el tiempo. Estos patrones pueden
encontrarse utilizando estadísticas o algoritmos de búsqueda próximos a la
Inteligencia Artificial y a las redes neuronales.  

Por tanto, los datos son el medio o la base para llegar a conclusiones y transformar
estos datos en información relevante, para que las empresas puedan abarcar
mejoras y soluciones que les ayuden a conseguir sus objetivos.

Cómo convertirse en un minero o explorador de datos

Las personas que se dedican al análisis de datos a través de este sistema son
conocidos como mineros o exploradores de datos. Estos intentan descubrir
patrones en medio de enormes cantidades de datos.

Su intención es la de aportar información valiosa a las empresas para así ayudarles


en la toma de decisiones futuras. Pero debemos tener claro que la elección del mejor
algoritmo para una tarea analítica específica es un gran desafío, ya que podemos
encontrar muchos patrones distintos. Además, dependerá de los problemas a
resolver.

Para ser un minero de datos, hay que saber convertir datos en activos de valor . En
este sentido, las nuevas técnicas de Big Data son fundamentales porque permiten
una gestión masiva de datos eficiente. Además, los algoritmos de Machine Learning
permiten tomar esos datos e inferir el comportamiento de las personas con una
contundente probabilidad de acierto. Por eso, si quieres dedicarte a la minería de
datos, te recomiendo que te informes sobre el Master en Data Science y Big Data de
IEBS.

Ventajas y desventajas del minado de datos

Los análisis de datos mediante el Data Mining pueden aportar numerosas ventajas a
las empresas para la optimización de su gestión y tiempo, pero también para la
captación y fidelización de clientes, que les permitirá aumentar sus ventas. Aquí te
dejamos 8 ventajas que nos puede aportar:

 Permite descubrir información que no esperábamos obtener. Esto se debe a su


funcionamiento con algoritmos, ya que permite hacer muchas combinaciones
distintas.
 Es capaz de analizar bases de datos con una enorme cantidad de datos.
 Los resultados son muy fáciles de interpretar y no es necesario tener
conocimientos en ingeniería informática.
 Permite encontrar, atraer y retener clientes.
 La empresa puede mejorar la atención al cliente a partir de la información
obtenida.
 Da a las empresas la posibilidad de ofrecer a los clientes los productos o servicios
que necesitan.
 Antes de usar los modelos, estos son comprobados mediante estadísticas
para verificar que las predicciones obtenidas son válidas.
 Ahorra costes a la empresa y abre nuevas oportunidades de negocio.
Sin embargo, también puede aparecer algún inconveniente a la hora de utilizar
técnicas de Data Mining. Por ejemplo, dependiendo del tipo de datos que se quiera
recopilar, nos puede llevar mucho trabajo, o a veces la inversión inicial para obtener
las tecnologías necesarias para la recopilación de datos puede tener un coste
elevado.

Técnicas para el minado de datos

A continuación, toma nota de las técnicas que necesitas conocer para llevar a cabo
un minado de datos:

 Asociación: Se trata de una de las técnicas más utilizadas. En esta técnica, una
transacción y la relación entre los elementos se utilizan para identificar un
patrón. Esta es la razón por la que también se conoce como «técnica de
relación». Se utiliza para realizar un análisis de la cesta de la compra, que se
hace para conocer todos aquellos productos que los clientes compran juntos
habitualmente, por ejemplo.
 Agrupación o clustering: Esta técnica crea agrupaciones de objetos significativos
que comparten las mismas características. A menudo se confunde con la
clasificación, pero si comprendes correctamente cómo funcionan estas dos
técnicas no tendrás ningún problema. A diferencia de la clasificación, que
coloca los objetos en clases predefinidas, la agrupación en clústeres coloca
los objetos en clases definidas por nosotros.
 Clasificación: Esta técnica tiene su origen en el machine learning. Clasifica
elementos o variables en un conjunto de datos, en grupos o clases
predefinidos. Utiliza programación lineal, estadísticas, árboles de decisión y
redes neuronales artificiales en la minería de datos, entre otras técnicas.
 Predicción: Esta técnica predice la relación que existe entre las variables
independientes y dependientes, así como las variables independientes por sí
solas. Puede usarse para predecir ganancias futuras dependiendo de la venta.
Supongamos que la ganancia y la venta son variables dependientes e
independientes, respectivamente. Ahora, basándonos en lo que dicen los
datos de ventas pasadas, podemos hacer una predicción de ganancias del
futuro con una curva de regresión.
 Patrones secuenciales: Esta técnica tiene como objetivo utilizar datos de
transacciones y luego identificar tendencias, patrones y eventos similares en
ellos durante un período de tiempo. Los datos históricos de ventas se pueden
utilizar para descubrir artículos que los clientes compraron juntos en diferentes
épocas del año. Las empresas pueden entender esta información
recomendando a los clientes que compren esos productos en momentos en
que los datos históricos no sugieren que lo harían. Las empresas pueden
utilizar ofertas y descuentos para impulsar esta recomendación.

Cómo llevar a cabo un minado de datos

Los mineros o exploradores de datos a la hora de llevar a cabo un análisis de minería


de datos, deberán realizar los siguientes pasos:

1# Investigación comercial

Antes de empezar, deberás tener una idea completa de los objetivos de tu empresa,
de los recursos disponibles y de los diversos escenarios actuales en consonancia
con los requisitos. Esto sería muy útil de cara a crear un plan detallado que alcance
los objetivos de la organización.

2# Análisis de calidad

A medida que vamos recopilando los datos de distintas fuentes, necesitaremos


verificarlos y compararlos para garantizar que no hayan cuellos de botella en el
proceso de integración de datos. La garantía de calidad ayuda a detectar cualquier
anomalía en los datos, como la interpolación de datos faltantes, manteniendo los
datos en plena forma antes de que se sometan a una extracción.

3# Limpieza de datos

Se trata de la selección, limpieza, enriquecimiento, reducción y transformación de la


base de datos. Se calcula que el 90% del tiempo en este tipo de procesos se gasta
en este paso.

4# Transformación de datos

Este paso consta de cinco sub-etapas. Los procesos involucrados hacen que los
datos estén listos en conjuntos de datos finales.

 Suavizado de datos: Se elimina el ruido de los datos


 Resumen de datos: La agregación de conjuntos de datos se aplica en este
proceso
 Generalización de datos: Los
datos se generalizan reemplazando cualquier dato
de bajo nivel con conceptualizaciones de nivel superior
 Normalización de datos: Los datos se definen en rangos establecidos
 Construcción de atributos de datos: Los conjuntos de datos deben estar en el
conjunto de atributos antes de la minería de datos

5# Modelado de datos

Por último, para una mejor identificación de los patrones de datos, se implementan
varios modelos matemáticos en el conjunto de datos, basados en varias
condiciones.

Actualmente este tipo de trabajos se están realizando en seguridad de


datos, finanzas, salud, marketing, detección de fraude, búsquedas online,
procesamiento del lenguaje natural, coches inteligentes, entre otros. Es por este
motivo, que la minería de datos se está convirtiendo en uno de los trabajos con
mayor proyección para el futuro.

Tipos de datos que pueden ser minados

Como nos podemos imaginar, no todos los modelos de datos pueden ser minados. A
continuación, te indicamos cuáles sí:

Datos almacenados en una base de datos

Una base de datos también puede denominarse sistema de gestión de bases de


datos o DBMS. Cada DBMS almacena datos que están relacionados entre sí de una
forma u otra.

También tiene un conjunto de programas de software que se utilizan para


administrar datos y proporcionar un fácil acceso a ellos. Estos programas de
software sirven para muchas cosas, incluida la definición de la estructura de la base
de datos o asegurarse de que la información almacenada permanezca segura y
consistente.

Data warehouse

Un almacén de datos o data warehouse es una única ubicación de almacenamiento


de datos que recopila datos de varias fuentes y luego los almacena en forma de plan
unificado. Cuando los datos se almacenan en estos sistemas se someten a una
limpieza, integración, carga y actualización.
Data transaccional

La base de datos transaccional almacena registros que se capturan como


transacciones. Por ejemplo, reservas de vueltos, compras, clics en un sitio web, etc.
Cada registro de transacciones tiene una identidad única. También engloba todos
los elementos que la han convertido en una transacción.

Otros tipos de datos

Por último, también existen muchos otros tipos de datos que son conocidos por su
estructura, significados semánticos y versatilidad. Por ejemplo:

 Datos de diseño de ingeniería


 Datos de secuencia
 Flujos de datos
 Datos de gráficos
 Datos espaciales
 Multimedia

Diferencias entre minado de datos y Big Data

Aunque parezca lo mismo, el minado de datos y el Big Data son conceptos


diferentes, aunque con una misma base.

Por un lado, el Big Data es una tecnología que tiene la capacidad de capturar,
gestionar y procesar de forma veraz todo tipo de datos, utilizando herramientas o
softwares que identifican patrones comunes. Estos patrones podrían ser
características específicas de los consumidores, generación de parámetros,
métricas, entre muchos otros. Además, tienen la capacidad de cambiar la manera de
hacer negocios, ya que permiten aumentar la rentabilidad y productividad de las
compañías.

A diferencia del Big Data, tal y como se ha comentado anteriormente, cuando


hablamos de Data Mining nos referimos al análisis de los grandes datos o Big Data
para buscar y obtener una información concreta, y así, poder ofrecer resultados que
sirvan como solución para optimizar las actividades de una empresa.

En resumen, Big Data y Minería de datos podrían ser definidos como el “activo” y el
“manejo”, respectivamente.
¿Qué te ha parecido este artículo sobre el minado de datos? Deja tus comentarios y
¡comparte!

¡Ya estás preparada para realizar análisis con Data Mining! Si quieres convertirte en
un experto en datos te recomendamos el Master en Big Data. Entre otras cosas,
aprenderás a utilizar las técnicas y herramientas más importantes para manejar
grandes volúmenes de datos y, además, conocerás y sabrás aplicar todos los
algoritmos de Machine Learning así como su uso a través de Redes Neuronales
para su aplicación en entornos reales. ¡Te esperamos!

También podría gustarte