Está en la página 1de 55

Big Data

Introducción

Pautas de inicio

● Plasmar asistencia en el
Google Form.
● Silenciar el micrófono
durante la clase.
● Activar la cámara.
Introducción

Acuerdos y compromisos
● Ten en cuenta las normas del buen
hablante y del buen oyente.
● Utiliza los medios de comunicación
oficiales para canalizar tus dudas,
consultas y/o comentarios durante
las clases: chat de Zoom y Discord.
● Verifica el estado de la cámara y/o
el micrófono (on/off) antes de
comenzar.
Introducción

Acuerdos y compromisos
● Encuentra tu espacio y crea el
momento oportuno para lograr un
aprendizaje óptimo.
● Evita tener cerca dispositivos y
aplicaciones que puedan distraerte.
● Mantén la mente abierta y flexible..
Introducción

Acuerdos y compromisos
● Mantén a tu alcance lo necesario
para tu comodidad.
● Conéctate desde algún equipo
que te permita realizar las
actividades sin problema alguno.
● Si lo prefieres, manten a tu
alcance lápiz y papel para anotar
ideas claves.
Introducción

Presentación de estudiantes
1. Conocimientos previos acerca de
Ciencias de Datos
2. ¿Por qué elegiste el curso?
Fundamentos de Big Data
Fundamentos de Big Data

¿Qué son los datos?

Los datos son unidades de


información que pueden estar en
forma de números, texto o código
máquina, imágenes, videos, audio,
etc.
Fundamentos de Big Data

La explosión de los datos


Fundamentos de Big Data
Fundamentos de Big Data

Big Data

“Big Data” son datos cuyo volumen,


diversidad y complejidad requieren
nueva arquitectura, técnicas,
algoritmos y análisis para gestionar
y extraer valor y conocimiento oculto
en ellos.
Fundamentos de Big Data

¿Qué hacemos con estos


datos?
El proceso y la innovación ya no se ven
obstaculizados por la capacidad de
recopilar datos, sino por la capacidad
de:
● Extraer el valor de los datos

● Convertir datos en
conocimiento
Fundamentos de Big Data

El valor de la información
¿Por qué Big Data?

Problema: Escalabilidad de grandes cantidades de datos

Ejemplo:

Exploración de 100TB en 1 nodo – 50MB/sec = 23 días

Solución Big Data 🡪 Divide y vencerás

Exploración en un cluster de 1000 nodos = 33 minutos


Fundamentos de Big Data

Las 8 Vs de Big Data


Big Data - Casos de uso
Big Data - Casos de uso

Casos de uso

Sistema de recomendación de Netflix

Para Netflix, compañía de alquiler


de películas online, las tres cuartas
partes de los pedidos nuevos
surgen de las recomendaciones

Netflix y Amazon son dos


empresas cuyo plan de negocio
está basada en big data y
sistemas de recomendación
Big Data - Casos de uso

Casos de uso
Banca – Identificación de personas
Big Data - Casos de uso

Banca – Identificación de personas

Identificación por el género

Identificación por el número de compras


Identificación por el
poder adquisitivo
Big Data y la Inteligencia Artificial
Big Data y la Inteligencia Artificial

Big Data y la Inteligencia Artificial

Podemos definir a la Inteligencia


Artificial como la consecuencia de un
aprendizaje continuo para tomar
decisiones de un programa tecnológico

Big Data sería la herramienta que agiliza


el procesamiento de un volumen elevado
de datos.
Big Data y la Inteligencia Artificial

Big Data y la Inteligencia


Artificial

Big Data es el combustible, lo que


hace posible que IA se
retroalimente y pueda aprender,
mejorar, crecer… es decir, sin
datos no hay Inteligencia Artificial.
Big Data y la Inteligencia Artificial

Ejemplos en los que intervienen Big Data y


la Inteligencia Artificial

● Buscas unas zapatillas en la web y en seguida te


llegan a tu email varios correos de promociones sobre
zapatillas de diversas plataformas.
● Cuando pides a Google Maps que te indique la ruta
más rápida para llegar a tu destino.
● Las búsquedas predictivas en el navegador o en tu
smartphone.
● Los llamados chatbot, chateas con máquinas que van
dando respuestas a tus preguntas.
Sistemas distribuídos
Sistemas distribuidos

¿Qué es un sistema
distribuido?

Un sistema distribuido es un conjunto


de equipos independientes que
actúan de forma transparente
actuando como un único equipo.

Su objetivo es descentralizar tanto el


almacenamiento de la información
como el procesamiento.
Sistemas distribuídos

Aporte de los sistemas distribuídos a Big Data

● Definir la infraestructura para un proyecto no es una tarea sencilla.


● Una plataforma tecnológica para esta actividad debe facilitar muy
rápidamente:
○ La recopilación
○ El almacenamiento y
○ El análisis de grandes volúmenes de datos

Estos pueden estar en diferentes formatos ó inclusive generándose en


tiempo real, y que a diferencia de los “sistemas tradicionales” -por razones
de eficiencia- la forma de tratar y analizar la información debe ser
trasladada directamente a los datos sin precargarlos en memoria.
Sistemas distribuídos

Aporte de los sistemas distribuídos a


Big Data

● Por esta razón deben considerarse


sistemas distribuidos o basados en
clústeres tanto para el
procesamiento como el
almacenamiento de la información.
Ecosistema de datos
Ecosistema de datos

¿Qué es un ecosistema de datos?

● Una combinación de infraestructura y


aplicaciones empresariales que se utilizan
para añadir y analizar información. Permite
a las organizaciones entender mejor a sus
clientes y diseñar mejores estrategias de
marketing, políticas de precios y formas de
operar.
Ecosistema de datos

● Un gran ecosistema de datos moderno,


también conocido como "stack de
tecnología", se compone de tres
elementos básicos: una arquitectura de
datos con capacidad de reacción, una
entrega a escala y una gestión de datos
inteligente impulsada por la IA.
Ecosistema de datos

Beneficios de un ecosistema de
datos moderno
● Mayor rentabilidad.
● Ahorro de costes.
● Rápida comercialización y valor.
● Engagement del cliente.
● Mejora del proceso.
Ecosistema de datos

Componentes del
ecosistema de Big Data
Ecosistema de datos

1. Ingesta
Tecnología orientada a recolección de datos desde su
origen, ya sea de bases de datos tradicionales o de flujos
continuos a través de la red.

2. Almacenamiento
Tecnología capaces de guardar y gestionar grandes
volúmenes de datos, en este grupo estarían las bases de
datos NoSQL.
Ecosistema de datos

3. Gestión de recursos
Tecnologías diseñadas para planificación y asignación de
los recursos del clúster.

4. Motores de procesamiento
Corazón de la tecnología Big Data, son capaces de realizar
el cómputo de manera distribuida entre varios nodos de
computación y realizar operaciones costosas en tiempos
pequeños.
Ecosistema de datos

5. Mensajería
Tecnologías que nos permiten el intercambio de datos entre
los diferentes componentes software de manera eficiente

6. Consulta
Tecnología orientada a simplificar el acceso a los datos,
generalmente se basan en los motores de procesamiento
para realizar las consultas de manera eficiente.
Ecosistema de datos

7. Machine Learning
Tecnologías que implementan
algoritmos para clasificar, predecir o
perfilar. Se basan en los motores de
procesamiento paralelo de los que
aprovechan su capacidad de realizar
cálculos complejos muy rápido.
Principales problemas con Big Data
Principales problemas con Big Data

Problema 1 - Encontrar la señal en el ruido


Es difícil obtener información a partir de una gran
cantidad de datos.
“Para usar los macrodatos correctamente tiene que
haber más de una señal discernible en el ruido que
se pueda detectar”
Maksim Tsvetovat, científico de big data de
Intellectsoft
Principales problemas con Big Data

Problema 2 - Silos de datos


Los silos de datos almacenan todos los datos
capturados en unidades separadas y dispares que
no tienen nada que ver entre sí.
Por lo tanto, no se pueden obtener conocimientos
de estos datos porque simplemente no están
integrados.
La mejor forma para eliminar los silos de datos es
simple: integrando tus datos.
Principales problemas con Big Data

Problema 3 - Datos inexactos


Los silos de datos también traen otro problema: los
datos inexactos.
Si tienes una base de datos llena de información
inexacta de clientes, es posible que en realidad no
tengas ningún dato. Entonces, la mejor forma para
combatir los datos inexactos es eliminando silos de
datos al integrar tus datos.
Principales problemas con Big Data

Problema 4 - La tecnología avanza demasiado


rápido
Los actores tradicionales tardan más en adoptar los
avances tecnológicos y se enfrentan a una seria
competencia de empresas más pequeñas debido a
esto.
La capacidad de tomar decisiones rápidas y actuar
prontamente sobre la base de los conocimientos
adquiridos en el rubro es una ventaja que tienen las
pymes sobre las grandes corporaciones.
Principales problemas con Big Data

Problema 5 - Falta de trabajadores calificados


Un informe de CapGemini encontró que el 37% de
las empresas tienen problemas para encontrar
analistas de datos capacitados.
Es necesario encontrar empleados que no solo
comprendan los datos desde una perspectiva
científica, sino que también comprendan el negocio
y sus clientes y cómo los hallazgos de los datos se
aplican directamente a ellos.
Aspectos éticos de Big Data
Aspectos éticos de Big Data

Problemas éticos de la explotación de Big Data


● Privacidad
● La realidad a medida, la burbuja del filtro e inercia
● Gestión de datos después de la muerte
● Sesgo del algoritmo
● Radicalización y sectarismo
● Impacto en las capacidades personales y la libertad
● Igualdad de derechos entre el propietario de los
datos y el explotador de datos.
Aspectos éticos de Big Data

Privacidad

● A lo largo de los años, la protección ha pasado de un derecho a excluir a


otros a un derecho al control de datos personales.
● Ahora nos enfrentamos a una tercera fase, que responde a la pregunta
"¿quién soy yo?" y la respuesta no depende del sujeto de los datos sino
de los patrones seleccionados por terceros que crean un perfil analítico y
llevan a repensar el derecho a la identidad.
● En la actualidad es casi imposible limitar el uso de los datos.
Aspectos éticos de Big Data

La realidad a
medida, la
burbuja del
filtro y la
inercia
Aspectos éticos de Big Data

Gestión de datos después de la muerte

● ¿Qué pasa en el momento en que morimos?


● ¿Nuestros herederos,heredarán también nuestros datos?
● ¿Deberían los herederos poder eliminar los datos seleccionados (o
todos) del mundo digital?
● ¿Quién posee los datos?
Aspectos éticos de Big Data

Sesgo de
algoritmo

La mayoría de
las personas
piensan que las
"máquinas" son
neutrales por
definición
Aspectos éticos de Big Data

Radicalización y sectarismo

“ … Also, as I went to bed, I remember thinking "Ah,


crap. I have to like something about Gaza," as I hit the
Like button on a post with a pro-Israel message.
By the next morning, the items in my News Feed had
moved very, very far to the right. I'm offered the chance to
like the 2nd Amendment and some sort of anti- immigrant
page. I like them both. I like Ted Cruz. I like Rick Perry.
The Conservative Tribune comes up again, and again,
and again in my News Feed. … “
Aspectos éticos de Big Data

Igualdad de derechos entre el propietario y el


explotador de datos

● El uso de Big Data disminuye el poder y la libertad de un


individuo al eliminar la condición necesaria de saber qué datos
se recopilan y cómo se procesan.
● Es importante dar a los individuos control sobre sus datos,
porque el control aporta transparencia y confianza entre los
usuarios y los proveedores de servicios digitales.
Aspectos éticos de Big Data

Práctica ética al trabajar con Big Data

● Investigación responsable:
Los investigadores deben tener claros sus
○ objetivos,
○ métodos
○ resultados
en todas las etapas de su investigación y responsabilizarse de sus
acciones
Aspectos éticos de Big Data

Principios de procesamiento

● Legalidad, equidad y transparencia


● Limitación del propósito
● Minimización de datos
● Exactitud y actualización
● Limitación de almacenamiento
● Integridad y confidencialidad
Aspectos éticos de Big Data

Privacidad por diseño

● Minimización de datos
● Ocultar datos personales y sus interrelaciones
● Procesamiento separado de datos personales
● Elija el nivel más alto de agregación una vez que se procesan los
datos personales
● Informa de la manera más transparente
● Política de privacidad compatible con los requisitos legales
Aspectos éticos de Big Data

Encuestas de respuesta ética

● (P1) "Si alguien que te importara fuera un candidato para este


experimento, ¿querrías que esa persona se incluya como
participante?":
[Sí], [No tengo preferencias], [No]
● (P2) "¿Cree que los investigadores deberían poder continuar con este
experimento?":
[Sí], [Sí, pero con precaución], [No estoy seguro], [No]
¡Gracias!

También podría gustarte