Grupo 3 Data Lake y Machine Learning

GRUPO 3 - DATA LAKE Y MACHINE LEARNING
I. DATA LAKE
Un data lake es un repositorio centralizado diseñado para almacenar, procesar y
proteger grandes cantidades de datos estructurados, semiestructurados o sin
estructurar. Puede almacenar datos en su formato nativo y procesar cualquier
variedad de datos, ignorando los límites de tamaño.
Descripción general de los data lakes
Un data lake proporciona una plataforma escalable y segura que permite a las
empresas realizar las siguientes tareas: transferir cualquier dato desde cualquier
sistema y a cualquier velocidad (incluso si los datos provienen de sistemas que
son locales, de la nube o de procesamiento perimetral); almacenar cualquier tipo o
volumen de datos con fid elidad absoluta; procesar datos en tiempo real o en
modo por lotes; y analizar datos mediante SQL, Python, R o cualquier otro
lenguaje, datos de terceros o aplicaciones de estadísticas.
Un data lake es capaz de proporcionar datos a la organización para una gran
variedad de procesos analíticos diferentes:
● Descubrimiento y exploración de datos
● Análisis ad hoc simple
● Análisis complejo para toma de decisiones
● Informes
● Análisis en tiempo real
Comparación entre los data lakes y los almacenes de datos: Un data lake también
se puede definir en función de lo que no es. No es solo almacenamiento y no es lo
mismo que un almacén de datos.
Si bien en cierto modo los data lakes y los almacenes de datos almacenan datos,
cada uno está optimizado para distintos usos. Considéralos herramientas
complementarias, en lugar de rivales. Además, en algunos casos, es posible que
las empresas necesiten usar ambas. Como punto de comparación, los almacenes
de datos suelen ser ideales para el tipo de generación de informes y análisis
repetible que resulta común en las prácticas comerciales, como los informes de
ventas mensuales, el seguimiento de las ventas por región o el tráfico del sitio
web.
¿Necesitas un data lake?
Cuando intentes determinar si tu empresa necesita un data lake, ten en cuenta los
tipos de datos con los que trabajas, lo que quieres hacer con los datos, la
complejidad del proceso de obtención de datos y tu estrategia de administración y
control de datos, además de las herramientas y el conjunto de habilidades con los
que cuenta tu organización.
En la actualidad, las empresas están comenzando a considerar el valor de los data
lakes desde otra perspectiva: un data lake no solo sirve para almacenar datos con
fidelidad absoluta. También permite que los usuarios adquieran un conocimiento
más profundo de las situaciones empresariales, ya que cuentan con más contexto
que nunca, lo que permite a los usuarios acelerar los experimentos de
estadísticas.
Los data lakes se diseñaron con el objetivo principal de controlar grandes
volúmenes de macrodatos, por lo que las empresas pueden mover datos sin
procesar por medio de lotes o transmisiones a un data lake sin tener que
transformarlos. Las empresas confían en los data lakes en situaciones clave para
lograr los siguientes objetivos:
● Disminuir el costo total de propiedad
● Simplificar la administración de datos
● Prepararse para incorporar inteligencia artificial y aprendizaje automático
● Acelerar la generación de estadísticas
● Mejorar la seguridad y el control
¿Cuáles son los casos de uso de los data lakes?
Debido a que los data lakes proporcionan la base para las estadísticas y la
inteligencia artificial, empresas de todos los sectores los usan a fin de aumentar
sus ingresos, ahorrar dinero y reducir los riesgos.
Medios y entretenimiento
Una empresa que ofrece transmisión de música, radio y podcasts puede aumentar
sus ingresos si mejora su sistema de recomendación, de modo que los usuarios
consuman más su servicio, lo que permitiría a la empresa vender más anuncios.
Telecomunicaciones
Una empresa multinacional de telecomunicaciones puede ahorrar dinero mediante
la compilación de modelos de tendencia a la deserción que reducen los casos de
deserción de clientes.
Servicios financieros
Una empresa de inversiones puede usar data lakes para alimentar el aprendizaje
automático, de modo que pueda administrar los riesgos de cartera apenas se
pueda acceder a los datos del mercado en tiempo real.
Principales diferencias entre Data Lakes y Data Warehouses
1. Una Data Lake conserva todos los datos
Durante el desarrollo de una data warehouse, se gasta una cantidad considerable
de tiempo analizando las fuentes de datos, entendiendo los procesos de negocio y
perfilando los datos. El resultado es un modelo de datos altamente estructurado
diseñado para la generación de informes. Una gran parte de este proceso incluye
tomar decisiones sobre qué datos incluir y no incluir en el almacén. Generalmente,
si los datos no se utilizan para responder a preguntas específicas o en un informe
definido, pueden excluirse del almacén. Esto se hace generalmente para
simplificar el modelo de datos y también para conservar el costoso espacio en el
almacenamiento de disco que se utiliza para hacer el data warehouse.
En contraste, el data lake conserva todos los datos. No sólo los datos que se
utilizan actualmente, sino los datos que se pueden utilizar e incluso los datos que
nunca se van a ser utilizados sólo porque quizás podrían ser utilizados algún día.
Los datos también se mantienen todo el tiempo para que podamos volver en el
tiempo a cualquier punto para hacer el análisis.
Este enfoque se hace posible porque el hardware para un data lake suele ser muy
diferente del utilizado para un data warehouse. La ampliación de un data lake a
terabytes y petabytes puede hacerse de manera bastante económica.
2. Un Data Lake soporta todos los tipos de datos
Los data warehouses generalmente se componen de datos extraídos de sistemas
transaccionales junto con métricas cuantitativas y los atributos que las describen.
Las fuentes de datos no tradicionales, como los registros del servidor web, los
datos de sensores, la actividad de las redes sociales, el texto y las imágenes, se
ignoran en gran medida. Se siguen encontrando nuevos usos para estos tipos de
datos, pero consumirlos y almacenarlos puede ser costoso y difícil.
El enfoque del data lake abarca estos tipos de datos no tradicionales. En el data
lake, guardamos todos los datos independientemente de la fuente y la estructura.
Los mantenemos en su forma bruta y sólo los transformamos cuando estamos
listos para usarlos. Este enfoque se conoce como "Schema on Read" en
comparación con el "Schema on Write" que es el enfoque utilizado en el data
warehouse.
3. Un Data Lakes soporta a todos los usuarios
En la mayoría de las organizaciones, el 80% o más de los usuarios son
"operacionales". Quieren obtener sus informes, ver sus KPIs o seleccionar el
mismo conjunto de datos en una hoja de cálculo todos los días. El data warehouse
suele ser ideal para estos usuarios porque está bien estructurado, fácil de usar y
comprender y está diseñado para responder a sus preguntas.
El siguiente 10% más o menos, hace más análisis en esos datos. Utilizan el data
warehouse como una fuente, pero a menudo vuelven a los sistemas de origen
para obtener datos que no están incluidos en el almacén y a veces traen datos de
fuera de la organización. Su herramienta favorita es la hoja de cálculo y crean
nuevos informes que a menudo se distribuyen en toda la organización. El data
warehouse es su fuente de acceso a los datos, pero a menudo van más allá de
sus límites.
Por último, el restante tanto por ciento de los usuarios hace un análisis profundo.
Pueden crear fuentes de datos totalmente nuevas basadas en la investigación.
Ellos mezclan muchos tipos diferentes de datos y llegan a nuevas preguntas que
deben responderse. Estos usuarios pueden utilizar el data warehouse, pero a
menudo lo ignoran, ya que normalmente se les solicita que vayan más allá de sus
capacidades. Estos usuarios incluyen a los científicos de datos y pueden utilizar
avanzadas herramientas analíticas y capacidades como el análisis estadístico y el
modelado predictivo.
El enfoque del data lake soporta igualmente a todos estos usuarios. Los científicos
de datos pueden ir al data lake y trabajar con el gran y variado conjunto de datos
que necesitan, mientras que otros usuarios hacen uso de vistas más estructuradas
de los datos proporcionadas para su uso.
4. Los Data Lakes se adaptan fácilmente a los cambios
Una de las principales quejas sobre los data warehouses es cuánto tiempo se
tarda en cambiarlos. Un tiempo considerable se gasta por adelantado durante el
desarrollo de la estructura del almacén. Un buen diseño de almacén puede
adaptarse al cambio, pero debido a la complejidad del proceso de carga de datos
y al trabajo realizado para facilitar el análisis y la elaboración de informes, estos
cambios necesariamente consumirán algunos recursos de desarrolladores y
tomarán algún tiempo.
Muchas preguntas comerciales no pueden esperar a que el equipo del data
warehouse adapte su sistema para responderlas. La necesidad cada vez mayor
de respuestas más rápidas es lo que ha dado lugar al concepto de auto-servicio
de inteligencia empresarial.
En el data lake, por otro lado, como todos los datos se almacenan en bruto y
siempre con accesibles a alguien que necesite utilizarlos, los usuarios tienen el
poder de ir más allá de la estructura del almacén para explorar datos de nuevas
maneras y responder a sus preguntas a su ritmo.
Si se demuestra que el resultado de una exploración es útil y existe el deseo de
repetirlo, entonces se puede aplicar un esquema más formal y se puede
desarrollar la automatización y la reutilización para ayudar a extender los
resultados a un público más amplio. Si se determina que el resultado no es útil,
puede descartarse y no se han realizado cambios en las estructuras de datos ni se
han consumido recursos de desarrollo.
5. Los Data Lakes proporcionan una visión más rápida
Esta última diferencia es realmente el resultado de las otras cuatro. Debido a que
los data lakes contienen todos los datos y tipos de datos, y a que permite a los
usuarios acceder a los datos antes de que se hayan transformado, limpiado y
estructurado, permite a los usuarios llegar a sus resultados más rápido que el
método tradicional de data warehouse.
Sin embargo, este acceso temprano a los datos tiene un precio. El trabajo
típicamente realizado por el equipo de desarrollo de data warehouse no se puede
hacer para algunas o todas las fuentes de datos requeridas para realizar un
análisis. Esto permite a los usuarios explorar y usar los datos como mejor les
parezca, pero el primer nivel de usuarios de negocios que he descrito
anteriormente tal vez no quiera hacer ese trabajo. Todavía quieren sus informes y
KPI's.
En los data lakes, estos consumidores de informes operativos harán uso de vistas
más estructuradas de los datos en el data lake que se parecen a lo que siempre
han tenido antes en el data warehouse. La diferencia es que estas vistas existen
principalmente como metadatos que se sitúan sobre los datos en el lago en lugar
de tablas físicamente rígidas que requieren un desarrollador para cambiarlas.
II. MACHINE LEARNING
INTRODUCCION
La capacidad de las máquinas para aprender está presente en muchos aspectos
de la vida cotidiana. Por ello, el ‘Machine Learning’ está detrás de las
recomendaciones de películas en plataformas digitales, del reconocimiento por
voz de los asistentes virtuales o la capacidad de los coches autónomos para ver la
carretera. Sin embargo, el origen de esta disciplina data de varias décadas atrás.
HISTORIA
Por moderno que pueda parecer este campo, nos debemos remontar al año 1950
cuando el gran matemático Alan Turing planteo por primera vez la capacidad de
que las maquinas pudieran “pensar” es así que creó el “Test de Turing”. Esta es
una prueba de habilidad de una máquina de mostrar un comportamiento
inteligente similar al de un humano. La misma no evalúa el conocimiento de la
máquina en cuanto a su capacidad de responder preguntas correctamente, solo se
toma en cuenta la capacidad de ésta de generar respuestas similares a las que
daría un humano.
Gracias a esto numerosas empresas están transformando sus negocios hacia el
dato y están incorporando técnicas de Machine Learning en sus procesos,
productos y servicios para obtener ventajas competitivas sobre la competencia.
DEFINICION
El Machine Learning (Aprendizaje Automático) es una rama de la inteligencia
artificial se refiere a la capacidad de las máquinas para aprender a partir de los
datos.
Esta tecnología está presente en un sinfín de aplicaciones como las
recomendaciones de Netflix o Spotify, las respuestas inteligentes de Gmail o el
habla de Siri y Alexa.
Machine Learning es un tipo de inteligencia artificial que, a través de algoritmos,
las máquinas usan estadísticas para encontrar patrones en datos y poder predecir
nuevos valores y comportamientos.
El Aprendizaje Automático es una tecnología que permite que muchas
operaciones se puedan realizar reduciendo la necesidad de intervención humana.
Este sistema ofrece una gran ventaja a la hora de controlar de manera más
efectiva una mayor cantidad de información.
El objetivo de la IA es crear un sistema informático inteligente como los humanos
para resolver problemas complejos, mientras que el del aprendizaje automático es
permitir que las máquinas aprendan de los datos para que puedan dar resultados
precisos.
CARACTERISTICAS
● Los datos explorados por ML pueden ser representados en un modelo o
con ayuda de un algoritmo esto ayuda a simplificar todo el volumen de datos
solo en información relevante.
● El conseguir resultados no es solo resultado de las maquinas si no
también viene guiado de la mano de un profesional experto en el área
denominado Data Scientist que, ante enormes bases de datos, la mayor
parte de ellos desestructurados, aplica sobre ellas sus conocimientos en
programación, matemáticas y estadística para recopilar, extraer y procesar
información relevante que contienen. Este profesional guía el aprendizaje,
organiza la información y le da el significado a los datos que las computadoras
van a utilizar.
● Posibilita a las computadoras identificar insights automáticamente.
Literalmente, insight es "visión" en español. Es la clave que nos ayuda a
encontrar solución a un problema, es esa verdad fundamental que nos permite
conocer de verdad a los clientes.
● Es una disciplina experimental significa que no solo un algoritmo o método
ayuda a conseguir mejores resultados si no que es una exploración del ensayo
y error controlado para poder darle una explicación coherente a los datos y que
a su vez sea favorable y productiva para por ejemplo un negocio.
FUNCIONAMIENTO
No es más que un conjunto de algoritmos qué realizan este acto de aprender.
Para ello hay que entrenar un modelo, lo que se hace de la misma forma que si
enseñáramos a un niño. Y a partir de ahí, dejarlo libre para que tome sus propias
decisiones.
TIPOS DE MACHINE LEARNING
Los tipos de implementación de machine Learning pueden clasificarse en tres
categorías diferentes:
⮚ Aprendizaje Supervisado (Supervised Learning)
Depende de datos previamente etiquetados, como podría ser el que una
computadora logré distinguir imágenes de coches, de las de aviones. Para esto, lo
normal es que estas etiquetas sean colocadas por seres humanos para asegurar
la efectividad y calidad de los datos.
En otras palabras, son problemas que ya hemos resuelto, pero que seguirán
surgiendo en un futuro. La idea es que las computadoras aprendan de una
multitud de ejemplos, y a partir de ahí puedan hacer el resto de cálculos
necesarios para que nosotros no tengamos que volver a ingresar ninguna
información.
Por ejemplo, cuando se aprende a clasificar imágenes de gatos, el algoritmo toma
miles de imágenes de gatos junto con la etiqueta “gato”.
El algoritmo aprenderá esta relación y cuando se le muestre una nueva imagen,
esta vez sin etiquetas, podrá aplicar esa relación aprendida y determinar si es un
gato o no.
Los algoritmos más habituales que se aplican para la ejecución del
aprendizaje supervisado son: Regresión Lineal, Árboles de Decisión, Redes
Neuronales.
Ejemplos de aplicación: Reconocimiento de voz, detección de spam,
reconocimiento de escritura, entre otros.
⮚ Aprendizaje No Supervisado (Unsupervised Learning)
En esta categoría lo que sucede es que al algoritmo se le despoja de cualquier
etiqueta, de modo que no cuenta con ninguna indicación previa. En cambio, se le
provee de una enorme cantidad de datos con las características propias de un
objeto (aspectos o partes que conforman a un avión o a un coche, por ej.), para
que pueda determinar qué es, a partir de la información recopilada.
Un ejemplo de esto es que tenemos un conjunto de imágenes de distintos
animales, el algoritmo no supervisado simplemente va a agrupar cada uno de los
tipos de animales de acuerdo a las características y similitudes que poseen. Este
agrupamiento sería el resultado final o solución del algoritmo. Acá, a diferencia del
aprendizaje supervisado, no se sabe exactamente qué animal es.
El algoritmo aprenderá a agrupar los tipos de animales, por ende, cuando se le
introduzca un nuevo animal, podrá aplicar esa relación aprendida y determinar a
qué grupo pertenece.
El algoritmo más utilizado en aprendizaje no supervisado es: el Algoritmo de
clustering (Agrupamiento).
Ejemplos de aplicación: Segmentación de clientes, clasificar información, etc.
⮚ Aprendizaje por Refuerzo (Reinforced Learning)
En este caso particular, la base del aprendizaje es el refuerzo. La máquina es
capaz de aprender con base a pruebas y errores en un número de diversas
situaciones.
Aunque conoce los resultados desde el principio, no sabe cuáles son las mejores
decisiones para llegar a obtenerlos. Lo que sucede es que el algoritmo
progresivamente va asociando los patrones de éxito, para repetirlos una y otra vez
hasta perfeccionarlos y volverse infalible.
Un ejemplo de esto lo vemos al introducir una imagen de una mariposa al
algoritmo, este no conoce qué es por lo que “adivina” indicando que es un gato.
Obviamente la respuesta es incorrecta por lo que se le indica al algoritmo y a su
vez se le puede dar la respuesta correcta, en ocasiones el algoritmo tiene que
seguir dando respuestas hasta que obtenga la correcta. Una vez dada esta
información al algoritmo, la aprende para una nueva oportunidad. Si ahora a este
algoritmo, ya aprendido, se le introduce nuevamente una foto de una mariposa, la
respuesta que dará será la correcta ya que ha aprendido.
Ejemplos de aplicación: navegación de un vehículo en automático, toma de
decisiones, etc.
USOS O APLICACIONES DEL MACHINE LEARNING
El ML has sido usado en:
● Predecir los resultados de las elecciones
● Identificar y filtrar los mensajes no deseados del correo electrónico.
● Predecir el clima
● Aviones y automóviles de conducción automática
● Dirigir publicidad a tipos específicos de consumidores
● Sistemas de Recomendación
● Predecir el tráfico en las ciudades
● Reconocimiento facial y de voz
VENTAJAS Y DESVENTAJAS
Cada proceso o técnica tiene sus pros y sus contras. Incluso en el caso del
aprendizaje automático, existen algunos factores que generan ventajas o
desventajas.
VENTAJAS
● Identificación de tendencias y patrones
El aprendizaje automático ayuda a administrar una gran cantidad de datos y a
comprender las tendencias y patrones que podrían no haber sido posibles para
administrar esa gran cantidad de datos. Por ejemplo, en la industria del comercio
electrónico, ayuda a comprender y administrar el negocio de marketing según los
requisitos del usuario. Al igual que las ofertas, los productos, una serie de clics,
cupones y, sobre la base de todas estas opciones, el crecimiento del negocio
eventualmente depende.
● No se requiere interferencia humana
Se refiere a que, debido a la técnica de aprendizaje automático, no necesitamos
ayudar a nuestro sistema a darle comandos para seguir ciertas instrucciones.
Controlar su capacidad de decisión.
● Mejora continua
Consiste en un algoritmo de aprendizaje automático que ayuda al sistema a
comprender continuamente los errores y la rectificación resultante de los mismos.
Por ejemplo, si estamos diseñando una aplicación de pronóstico del tiempo y nos
da predicciones del tiempo con regularidad. La precisión de esa predicción
depende por completo de la verificación de errores regular y con una precisión
mejorada.
● Para manejar la gran cantidad de datos multidimensionales
El algoritmo de Aprendizaje Automático ayuda a administrar y mejorar la gran
cantidad de datos multidimensionales y a mejorar sus habilidades para no tener
errores en ellos con la ayuda de la IA.
● Aplicación amplia
ML puede ser útil para aquellos que se encuentran en el campo o comercio
electrónico o los proveedores de atención médica que pueden utilizar ML para
obtener una gran ayuda en el crecimiento de su mercado y también ayuda al
aumento de la eficiencia del trabajo humano.
DESVENTAJAS
Los factores que impactan en el AA son los siguientes:
● Adquisición de datos
En el proceso de aprendizaje automático, se utiliza una gran cantidad de datos.
Por lo tanto, este uso de datos debe ser de buena calidad e imparcial. Durante el
proceso de aprendizaje automático con la ayuda de los servicios de desarrollo de
software, también hay momentos en los que debemos esperar.
● Tiempo y recursos
En el proceso de rectificación si hay algún error, se requerirá tiempo. Y también
recursos confiables para el funcionamiento de este sistema.
● Interpretación
Se debe verificar el resultado para detectar errores y se debe seguir la operación
de corrección para obtener una precisión deseada. Durante la selección de este
algoritmo. Se debe seleccionar ese algoritmo que se requiera para el propósito.
● Alta susceptibilidad de errores
En el proceso de aprendizaje automático, se utiliza la gran cantidad de datos y,
por otro lado, se utilizan y prueban muchos algoritmos. Si existe algún error en el
algoritmo, entonces puede llevar al usuario por ejemplo a varios anuncios
irrelevantes.
III. RELACION ENTRE DATA LAKE Y MACHINE LEARNING
Los Data Lakes y las técnicas de Machine Learning son herramientas que ayudan
a reunir cantidades grandes de datos, a clasificarlos para permitir su
aprovechamiento por parte de todos los departamentos (Marketing, Ventas,
Atención al Cliente, etc.) y predicen tendencias de futuro con un alto porcentaje de
acierto.
El aprendizaje automático y los lagos de datos en conjunto ayudan a que las
empresas puedan generar no solo nuevos tipos de información, sino además
análisis distintos y más complejos de los que está realizando su competencia, lo
que se traduce en una inmediata ventaja competitiva.
CONCLUSIÓN
Un lago de datos es un tipo de repositorio donde se almacenan conjuntos grandes
y diversos de datos sin procesar en su formato original, es aquí donde Machine
Learning (aprendizaje automático) interviene ejecutando el análisis de estos datos
con el fin de obtener resultados para una mejor toma de decisiones.

Grupo 3 Data Lake y Machine Learning

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Grupo 3 Data Lake y Machine Learning

Cargado por

Copyright:

Formatos disponibles

GRUPO 3 - DATA LAKE Y MACHINE LEARNING

III. RELACION ENTRE DATA LAKE Y MACHINE LEARNING

También podría gustarte