Documentos de Académico
Documentos de Profesional
Documentos de Cultura
temas de
tecnología, otros consumidores necesitan más información y
acompañamiento. Probablemente usted aún no esté claro del concepto
de la computación en la nube, por tal motivo, lo explicaremos con
ejemplos básicos.
Machine learning es una forma de la IA que permite a un sistema aprender de los datos en
lugar de aprender mediante la programación explícita. Sin embargo, machine learning no es un
proceso sencillo. Conforme el algoritmo ingiere datos de entrenamiento, es posible producir
modelos más precisos basados en datos. Un modelo de machine learning es la salida de
información que se genera cuando entrena su algoritmo de machine learning con datos.
Después del entrenamiento, al proporcionar un modelo con una entrada, se le dará una salida.
Por ejemplo, un algoritmo predictivo creará un modelo predictivo. A continuación, cuando
proporcione el modelo predictivo con datos, recibirá un pronóstico basado en los datos que
entrenaron al modelo.
Aprendizaje iterativo
Machine learning permite modelos a entrenar con conjuntos de datos antes de ser
implementados. Algunos modelos de machine learning están online y son continuos. Este
proceso iterativo de modelos online conduce a una mejora en los tipos de asociaciones hechas
entre los elementos de datos. Debido a su complejidad y tamaño, estos patrones y
asociaciones podrían haber sido fácilmente pasados por alto por la observación humana.
Después de que un modelo ha sido entrenado, se puede utilizar en tiempo real para aprender
de los datos. Las mejoras en la precisión son el resultado del proceso de entrenamiento y la
automatización que forman parte del machine learning.
Las técnicas de machine learning son necesarias para mejorar la precisión de los modelos
predictivos. Dependiendo de la naturaleza del problema empresarial que se está atendiendo,
existen diferentes enfoques basados en el tipo y volumen de los datos. En esta sección,
discutimos las categorías del machine learning.
Aprendizaje supervisado
Aprendizaje no supervisado
Aprendizaje de refuerzo
Deep learning
El deep learning es un método específico de machine learning que incorpora las redes
neuronales en capas sucesivas para aprender de los datos de manera iterativa. El deep
learning es especialmente útil cuando se trata de aprender patrones de datos no
estructurados. Las redes neuronales complejas de deep learning están diseñadas para emular
cómo funciona el cerebro humano, así que las computadoras pueden ser entrenadas para
lidiar con abstracciones y problemas mal definidos. Las redes neuronales y el deep learning se
utilizan a menudo en el reconocimiento de imágenes, voz y aplicaciones de visión de
computadora.
Volumen
Refiere a la capacidad de almacenar grandes bancos de información.
Nuestras soluciones de BI Tradicional contienen un volumen de datos habitual y
constante, llegando a tamaños de almacenamiento no mayores a los gigabytes.
Conforme se genera la necesidad de incluir nuevas fuentes emergentes la
cantidad de datos crece a un ritmo abismal y nuestro Data Warehouse debe
ser capaz de soportar el almacenamiento y el procesamiento de dichos datos
para posteriores análisis.
Existen distintas fuentes de datos emergentes que generan grandes cantidades
de información y en muy corto tiempo, por supuesto superan
considerablemente los tamaños básicos de almacenamiento de soluciones BI
Tradicional. (Imagina el típico ejemplo de la cantidad inmensa de tweets que se
generan por segundo) .
Podríamos considerar nuevas fuentes de datos emergentes en BI: las redes
sociales, sensores de movimiento, sensores de infraestructuras, páginas web,
blog, aplicaciones, georeferenciación…entre otros.
2. Velocidad
Las nuevas fuentes emergentes, al igual que generan gran cantidad de datos…
también generan datos a gran velocidad y esto es muy visible con nuestro
ejemplo actual: muchos tweets o información de redes sociales por segundo o
incluso imágenes de vídeo de una transmisión de Streaming de algún evento
particular.
Todos estos datos pueden ser esenciales a la hora de tomar una decisión, en el
caso de las redes sociales como bien sabemos poder identificar lo que se dice,
se piensa o se cree de nuestra organización, por otro lado en las imágenes del
evento podríamos validar en tiempo real los gestos de las persona y saber si les
gusta o no lo que están percibiendo.
Así púes nuestros DW no soportarían tan grandes flujos de velocidad
constante.
3. Variedad
Nuestros DW actualmente cuentan con datos estructurados, datos definidos
para la información de nuestros clientes, productos y demás, cuya finalidad nos
permite incluir nuevas fuentes adaptadas fácilmente. Pero con las nuevas
fuentes disponibles empezamos a encontrar tipos de datos que antes no
pensábamos fuera posible contar, entre los que podríamos encontrar:
Imágenes o Fotografías, Vídeo, Texto, XML, JSON, Clave-Valor, Audio, Señales
de Sensores, Estados de Tiempo, Blog, HTML o incluso datos del Genoma
humano…
Las bases de datos transaccionales que usamos en nuestro DW bien podrían
almacenar estos tipos de datos, pero no sería de gran ayuda ya que no son
óptimas y no nos permitiría extraer información de valor.
Las tecnologías de almacenamiento que usamos actualmente no cuentan con
capacidades ni la disposición de alojar estos tipos de datos, por ende es
necesario contemplar base de datos que nos brinde flexibilidad y diversidad en
este aspecto.
4. Veracidad
Si bien nuestras fuentes existentes han pasado por un proceso de análisis y
validación hasta definirse como información de valor para la toma de
decisiones, de la misma manera debe suceder para las nuevas fuentes
emergentes.
La veracidad o calidad del dato está definida por la elección de los registros de
datos que verdaderamente aporten valor, directamente relacionada con la
variedad ya que al tener distintos tipo de datos debemos implementar distintos
modelos que satisfagan esta condición, es necesario contar con personal que
ayude a filtrar y a mantener los datos completamente limpios y tratados para
nuestra estrategia.
Al igual que el BI Tradicional debemos contemplar desde el inicio que nuestra
finalidad es contar con bancos de datos que una vez tratados y analizados van
a generar valor al negocio.
Está bien considerar que éste podría ser el primer escalón, pero no debemos
olvidar que está directamente relacionada a los tipos de datos variables que
vamos a contemplar.
5.. Valor
Llegados a este punto, es bueno considerar que a pesar de que hemos incluido
nuevas fuentes de datos, hemos contemplando el uso de nuevas tecnologías y
que hemos generado valor con la inclusión de nuevas métricas y KPI a nuestra
plataforma de BI Tradicional, sería interesante el pensar explotar y generar
mucho más provecho a esta información.
Utilizando ciertamente técnicas, algoritmos y desarrollos que permitan predecir
con un mayor peso de los datos algunas tomas de decisiones como por
ejemplo: predecir comportamientos de nuestros clientes, el momento exacto
para crear un nuevo producto o incluso identificar fraudes transaccionales, todo
esto es posible si contamos con personas o herramientas que ayuden a la
organización a descubrir lo que no sabe, obtener conocimiento
predictivo y comunicar historias de datos relevante, generan mucha más
confianza en la toma de decisiones desde los datos.
Especialmente estamos hablando de personas con perfil de Científicos de
Datos.
6. Visibilidad
Hasta este punto todas y cada una de las V’s se complementan, contando con
un gran banco de datos que nos provee información confiable, variable,
actualizada y además nos está generando un valor importante frente a nuestra
competencia, también es necesario empezar a contar con herramientas de
visualización que permitan una manera fácil de leer nuestros nuevos análisis,
que bien podrían ser estadísticos y que muy seguramente comprometería su
desarrollo con nuestras herramientas de reporting que contamos actualmente.
Porque crees que tantas empresa de BI actualmente se enfocan en presenta un
manera más fácil y flexible de presentar la información?
Para reflejar un poco ese aspecto, te comparto una de mis presentaciones con
el software R donde represento de distintas formas de visualizar la oportunidad
de tomar la decisión de renovar un servicio para una población especifica
después de haber integrado distintas fuentes.