Documentos de Académico
Documentos de Profesional
Documentos de Cultura
CITIS Workshop - Introduction To Big Data and Social Network Analysis Case Study Twitter
CITIS Workshop - Introduction To Big Data and Social Network Analysis Case Study Twitter
I
Introduction to Big Data
d i Bi D
and social network
analysis case study
(Twitter)
VIII International Conference
on Science, Technology and Expositor: PhD. Roger Clotet
Innovation for Society
Universidad Internacional de Valencia (VIU),
Spain
Introduction to Big Data and social network
g
analysis case study (Twitter)
A d
Agenda
• ¿Qué es Big Data?
• Cadena de valor y áreas del Big Data
y g
• Profesional Big Data
• Caso práctico
Caso práctico
22/6/2022 May 26‐28, 2021 2
Guayaquil ‐ Ecuador
¿Qué es Big Data ?
¿Qué es Big Data ?
¿Qué es Big Data
22/6/2022 May 26‐28, 2021 3
Guayaquil ‐ Ecuador
¿Qué es Big Data ?
¿Qué es Big Data ?
¿Qué es Big Data
22/6/2022 May 26‐28, 2021 4
Guayaquil ‐ Ecuador
¿Qué es Big Data ?
¿Qué es Big Data ?
¿Qué es Big Data
22/6/2022 May 26‐28, 2021 5
Guayaquil ‐ Ecuador
¿Qué es Big Data ?
¿Qué es Big Data ?
¿Qué es Big Data
22/6/2022 May 26‐28, 2021 6
Guayaquil ‐ Ecuador
¿Qué es Big Data ?
¿Qué es Big Data ?
¿Qué es Big Data
22/6/2022 May 26‐28, 2021 7
Guayaquil ‐ Ecuador
¿Qué es Big Data ?
¿Qué es Big Data ?
¿Qué es Big Data
22/6/2022 May 26‐28, 2021 8
Guayaquil ‐ Ecuador
¿Qué es Big Data ?
¿Qué es Big Data ?
¿Qué es Big Data
22/6/2022 May 26‐28, 2021 9
Guayaquil ‐ Ecuador
¿Qué es Big Data ?
¿Qué es Big Data ?
¿Qué es Big Data
22/6/2022 May 26‐28, 2021 10
Guayaquil ‐ Ecuador
¿Qué es Big Data ?
¿Qué es Big Data ?
¿Qué es Big Data
supera
22/6/2022 May 26‐28, 2021 11
Guayaquil ‐ Ecuador
¿Qué es Big Data ?
¿Qué es Big Data ?
¿Qué es Big Data
22/6/2022 May 26‐28, 2021 12
Guayaquil ‐ Ecuador
¿Qué es Big Data ?
¿Qué es Big Data ?
¿Qué es Big Data
22/6/2022 May 26‐28, 2021 13
Guayaquil ‐ Ecuador
¿Qué es Big Data ?
¿Qué es Big Data ?
¿Qué es Big Data
22/6/2022 May 26‐28, 2021 14
Guayaquil ‐ Ecuador
¿Qué es Big Data ?
¿Qué es Big Data ?
¿Qué es Big Data
22/6/2022 May 26‐28, 2021 15
Guayaquil ‐ Ecuador
¿Qué es Big Data ?
¿Qué es Big Data ?
¿Qué es Big Data
información útil
datos
22/6/2022 May 26‐28, 2021 16
Guayaquil ‐ Ecuador
¿Qué es Big Data ?
¿Qué es Big Data ?
¿Qué es Big Data
información útil
datos
22/6/2022 May 26‐28, 2021 17
Guayaquil ‐ Ecuador
¿Qué es Big Data ?
¿Qué es Big Data ?
¿Qué es Big Data
Políticas Públicas: Detección de fraude a Medicare en California (USA)
22/6/2022 May 26‐28, 2021 18
Guayaquil ‐ Ecuador
¿Qué es Big Data ?
¿Qué es Big Data ?
¿Qué es Big Data
What’s the purpose of the analytics role at Netflix?
‘How can we make the product experience even better?’, ‘Which shows and films
bring the most joy to our members?’, ‘Who can we partner with to expand access to
our service in new markets?’.
https://netflixtechblog.com/analytics‐at‐netflix‐who‐we‐are‐and‐what‐we‐do‐7d9c08fe6965
22/6/2022 May 26‐28, 2021 19
Guayaquil ‐ Ecuador
¿Qué es Big Data ?
¿Qué es Big Data ?
¿Qué es Big Data
• Making data available from new sources, and old, in optimal ways.
• Delivering metrics, findings, or dashboards that drive business decisions.
• Communicate discoveries to non‐technical audiences.
https://netflixtechblog.com/analytics‐at‐netflix‐who‐we‐are‐and‐what‐we‐do‐7d9c08fe6965
22/6/2022 May 26‐28, 2021 20
Guayaquil ‐ Ecuador
¿Qué es Big Data ?
¿Qué es Big Data ?
¿Qué es Big Data
BBVA Research ha analizado el impacto del COVID‐19 en el consumo de los españoles
https://www.bbva.com/es/bbva‐research‐usa‐big‐data‐para‐analizar‐la‐caida‐del‐consumo‐en‐espana‐por‐el‐covid‐
19/
22/6/2022 May 26‐28, 2021 21
Guayaquil ‐ Ecuador
¿Qué es Big Data ?
¿Qué es Big Data ?
¿Qué es Big Data
22/6/2022 May 26‐28, 2021 22
Guayaquil ‐ Ecuador
Cadena de valor y áreas del Big Data:
Cadena de valor y áreas del Big Data
Cadena de valor y áreas del Big Data:
22/6/2022 May 26‐28, 2021 23
Guayaquil ‐ Ecuador
Cadena de valor y áreas del Big Data:
Cadena de valor y áreas del Big Data
Cadena de valor y áreas del Big Data:
Cadena de valor
Si hay precedencia, pero no es necesario hacer todo el proceso
* Miller, H.G., & Mork, P. (2013). From Data to Decisions: A Value Chain for Big Data. IT Professional, 15, 57‐59.
22/6/2022 May 26‐28, 2021 24
Guayaquil ‐ Ecuador
Cadena de valor y áreas del Big Data
Cadena de valor y áreas del Big Data::
Áreas
• Integración
• Infraestructura
• Preservación
• Análisis
• Explotación
• Visualización
22/6/2022 May 26‐28, 2021 25
Guayaquil ‐ Ecuador
Cadena de valor y áreas del Big Data
Cadena de valor y áreas del Big Data::
Áreas ‐‐ Integración
Áreas
• Diferentes fuentes de datos
• Interoperabilidad
• Interna
• Externa
• Legal
L l
• ...
22/6/2022 May 26‐28, 2021 26
Guayaquil ‐ Ecuador
Cadena de valor y áreas del Big Data
Cadena de valor y áreas del Big Data::
Áreas ‐‐ Integración
Áreas
22/6/2022 May 26‐28, 2021 27
Guayaquil ‐ Ecuador
Cadena de valor y áreas del Big Data
Cadena de valor y áreas del Big Data::
Áreas ‐‐ Infraestructura
Áreas https://mattturck.com/data2021/
22/6/2022 May 26‐28, 2021 28
Guayaquil ‐ Ecuador
Cadena de valor y áreas del Big Data
Cadena de valor y áreas del Big Data::
Áreas ‐‐ Infraestructura
Áreas
22/6/2022 May 26‐28, 2021 29
Guayaquil ‐ Ecuador
Cadena de valor y áreas del Big Data
Cadena de valor y áreas del Big Data::
Áreas ‐‐ Preservación
Áreas
• Preservación
ió digital,
di i l de
d Miquel
i l Térmens
é (201 ) “la
(2014): “l preservación
ió digital
di i l
se refiere a una serie de actividades necesarias y muy bien administradas
para asegurar
p g el acceso continuo a los materiales digitales,
g por el p
p periodo
que sea necesario”.
• Problemas: Obsolescencia,
Obsolescencia Riesgos,
Riesgos Migraciones,
Migraciones Streaming,
Streaming …
22/6/2022 May 26‐28, 2021 30
Guayaquil ‐ Ecuador
Cadena de valor y áreas del Big Data
Cadena de valor y áreas del Big Data::
Áreas ‐‐ Preservación
Áreas
Big Data
22/6/2022 May 26‐28, 2021 31
Guayaquil ‐ Ecuador
Cadena de valor y áreas del Big Data
Cadena de valor y áreas del Big Data::
Áreas ‐‐ Análisis
Áreas
Pronóstico
Predicción de ventas
Predicción
P di ió ded la
l carga de
d un servidor
id
Evolución de una pandemia
Riesgo y probabilidad
b bld d
Elección de los mejores clientes para una campaña publicitaria
Evaluar la conveniencia o no de aplicar una vacuna de forma
masiva a la población
Diagnósticos de enfermedades
22/6/2022 May 26‐28, 2021 32
Guayaquil ‐ Ecuador
Cadena de valor y áreas del Big Data
Cadena de valor y áreas del Big Data::
Áreas ‐‐ Análisis
Áreas
Recomendaciones
Determinación de los productos que se pueden vender juntos
Recomendación
R d ió de
d políticas
líti públicas
úbli d salud
de l d
Búsqueda de secuencias
Análisis
A áli i de
d los
l artículos
tí l que los
l clientes
li t hanh introducido
i t d id en ell carrito
it
de la compra y predicción de posibles eventos
En función de los síntomas detectados, sugerir pruebas para
detectar los síntomas más probables y así determinar la
enfermedad
22/6/2022 May 26‐28, 2021 33
Guayaquil ‐ Ecuador
Cadena de valor y áreas del Big Data
Cadena de valor y áreas del Big Data::
Áreas ‐‐ Análisis
Áreas
Agrupación
Distribución de clientes en grupos relacionados, y análisis y
predicción de afinidades
Determinación de grupos de riesgos para determinadas
enfermedades
Descriptivo
Para saber qué hacer para que suceda un determinado efecto
Prescriptivo
Cómo actuar
22/6/2022 May 26‐28, 2021 34
Guayaquil ‐ Ecuador
Cadena de valor y áreas del Big Data
Cadena de valor y áreas del Big Data::
Áreas ‐‐ Explotación
Áreas
¿Quién puede acceder a los datos?
¿P
¿Para qué?
é?
¿Qué uso se les da a los datos?
22/6/2022 May 26‐28, 2021 35
Guayaquil ‐ Ecuador
Cadena de valor y áreas del Big Data
Cadena de valor y áreas del Big Data::
Áreas ‐‐ Visualización
Áreas
Interrelaciones
22/6/2022 May 26‐28, 2021 36
Guayaquil ‐ Ecuador
Cadena de valor y áreas del Big Data
Cadena de valor y áreas del Big Data::
Áreas ‐‐ Visualización
Áreas
Llamadas USA
22/6/2022 May 26‐28, 2021 37
Guayaquil ‐ Ecuador
Cadena de valor y áreas del Big Data
Cadena de valor y áreas del Big Data::
Áreas ‐‐ Visualización
Áreas
22/6/2022 May 26‐28, 2021 38
Guayaquil ‐ Ecuador
Profesional Big Data:
Profesional Big Data:
22/6/2022 May 26‐28, 2021 39
Guayaquil ‐ Ecuador
Profesional Big Data:
Profesional Big Data:
* Relación de perfiles profesionales y tecnologías Big Data. Fuente: Rayo (2016).
22/6/2022 May 26‐28, 2021 40
Guayaquil ‐ Ecuador
Profesional Big Data:
Profesional Big Data:
https://netflixtechblog.com/analytics‐at‐netflix‐who‐we‐are‐and‐what‐we‐do‐7d9c08fe6965
22/6/2022 May 26‐28, 2021 41
Guayaquil ‐ Ecuador
Caso práctico:
Caso práctico:
22/6/2022 May 26‐28, 2021 42
Guayaquil ‐ Ecuador
Caso práctico:
Caso práctico:
22/6/2022 May 26‐28, 2021 43
Guayaquil ‐ Ecuador
Caso práctico ‐ Demo
Caso práctico ‐
Caso práctico
• Crear Datos CITIS
• Ver ejemplo
• Ver “teoría”
• Charts con Datos CITIS
22/6/2022 May 26‐28, 2021 44
Guayaquil ‐ Ecuador
Caso práctico ‐ Demo
Caso práctico ‐
Caso práctico
• Crear Datos CITIS
• Ver ejemplo
• Ver “teoría”
• Charts con Datos CITIS
22/6/2022 May 26‐28, 2021 45
Guayaquil ‐ Ecuador
Caso práctico ‐ Demo
Caso práctico ‐
Caso práctico
• Crear Datos CITIS
• Ver ejemplo
• Ver “teoría”
• Charts con Datos CITIS
22/6/2022 May 26‐28, 2021 46
Guayaquil ‐ Ecuador
Caso práctico:
Caso práctico:
https://charts.mongodb.com/charts‐project‐0‐aezyn/public/dashboards/2857bba5‐45b1‐4abb‐9b10‐b078839df16e
p g p j y p
22/6/2022 May 26‐28, 2021 47
Guayaquil ‐ Ecuador
Caso práctico ‐ Demo
Caso práctico ‐
Caso práctico
• Crear Datos CITIS
• Ver ejemplo
• Ver “teoría”
• Charts con Datos CITIS
22/6/2022 May 26‐28, 2021 48
Guayaquil ‐ Ecuador
Caso práctico:
Caso práctico: M
Muy grande
d
22/6/2022 May 26‐28, 2021 49
Guayaquil ‐ Ecuador
Caso práctico:
Caso práctico:
Documento
22/6/2022 May 26‐28, 2021 50
Guayaquil ‐ Ecuador
Caso práctico:
Caso práctico:
Colección
22/6/2022 May 26‐28, 2021 51
Guayaquil ‐ Ecuador
Caso práctico:
Caso práctico:
22/6/2022 May 26‐28, 2021 52
Guayaquil ‐ Ecuador
Caso práctico:
Caso práctico:
Twitter ‐ Tweet
22/6/2022 May 26‐28, 2021 53
Guayaquil ‐ Ecuador
Caso práctico:
Caso práctico:
JSON ‐ MongoDB
MongoDB almacena internamente los datos en BSON, abreviatura de
Binary‐JSON.
JSON es Java Script Object Notation, una notación estándar para el
intercambio de datos.
JSON especifica una gramática mediante expresiones regulares.
22/6/2022 May 26‐28, 2021 54
Guayaquil ‐ Ecuador
Caso práctico:
Caso práctico:
22/6/2022 May 26‐28, 2021 55
Guayaquil ‐ Ecuador
Caso práctico:
Caso práctico:
htt // l d
https://cloud.mongodb.com/
db /
Importante para la aplicación:
Usuario y Clave (usuario administrador creado en mongoDB)
Network Access (0.0.0.0/0)
22/6/2022 May 26‐28, 2021 56
Guayaquil ‐ Ecuador
Caso práctico:
Caso práctico:
22/6/2022 May 26‐28, 2021 57
Guayaquil ‐ Ecuador
Caso práctico:
Caso práctico:
22/6/2022 May 26‐28, 2021 58
Guayaquil ‐ Ecuador
Caso práctico:
Caso práctico:
22/6/2022 May 26‐28, 2021 59
Guayaquil ‐ Ecuador
Caso práctico:
Caso práctico:
MongoDB + API Twitter + Python
API Twitter
22/6/2022 May 26‐28, 2021 60
Guayaquil ‐ Ecuador
Caso práctico:
Caso práctico:
https://developer.twitter.com/
Crear una cuenta de desarrollador
una cuenta de desarrollador para poder crear aplicaciones que
para poder crear aplicaciones que
accedan al API, y a su vez, el acceso al API es por Access Key.
Documentación:
https://developer.twitter.com/en/docs
22/6/2022 May 26‐28, 2021 61
Guayaquil ‐ Ecuador
Caso práctico:
Caso práctico:
API Twitter
22/6/2022 May 26‐28, 2021 62
Guayaquil ‐ Ecuador
Caso práctico:
Caso práctico:
22/6/2022 May 26‐28, 2021 63
Guayaquil ‐ Ecuador
Caso práctico:
Caso práctico:
22/6/2022 May 26‐28, 2021 64
Guayaquil ‐ Ecuador
Caso práctico:
Caso práctico:
Search API: Acceso a Twitter Search
https://developer.twitter.com/en/docs/tweets/search/overview/standard
RESP API: Acceso al Core
RESP API A lC d l d t d T itt
de los datos de Twitter
https://developer.twitter.com/en/docs/api‐reference‐index
Streaming API: Acceso en tiempo real a los tweets
API: Acceso en tiempo real a los tweets públicos
https://developer.twitter.com/en/docs/tutorials/consuming‐streaming‐data
22/6/2022 May 26‐28, 2021 65
Guayaquil ‐ Ecuador
Caso práctico:
Caso práctico:
Tweet:
https://developer.twitter.com/en/docs/tweets/data‐dictionary/overview/tweet‐object
Y dentro del Tweet, puede tener (user, entities, extended entities y/o geo).
User:
https://developer.twitter.com/en/docs/tweets/data‐dictionary/overview/user‐object
Entities:
htt //d l
https://developer.twitter.com/en/docs/tweets/data‐dictionary/overview/entities‐object
t itt / /d /t t /d t di ti / i / titi bj t
Extended Entities:
https://developer.twitter.com/en/docs/tweets/data‐dictionary/overview/extended‐entities‐object
Geo:
https://developer.twitter.com/en/docs/tweets/data‐dictionary/overview/geo‐objects
22/6/2022 May 26‐28, 2021 66
Guayaquil ‐ Ecuador
Caso práctico:
Caso práctico:
22/6/2022 May 26‐28, 2021 67
Guayaquil ‐ Ecuador
Caso práctico:
Caso práctico:
https://twython.readthedocs.io/en/latest/
22/6/2022 May 26‐28, 2021 68
Guayaquil ‐ Ecuador
Caso práctico:
Caso práctico:
https://developer.twitter.com/en/docs/tweets/timelines/FAQ
22/6/2022 May 26‐28, 2021 69
Guayaquil ‐ Ecuador
Caso práctico:
Caso práctico:
22/6/2022 May 26‐28, 2021 70
Guayaquil ‐ Ecuador
Caso práctico:
Caso práctico:
Python
+ Entorno de desarrollo con Python 3.x
22/6/2022 May 26‐28, 2021 71
Guayaquil ‐ Ecuador
Caso práctico:
Caso práctico:
https://www.jetbrains.com/pycharm/download/
22/6/2022 May 26‐28, 2021 72
Guayaquil ‐ Ecuador
Caso práctico:
Caso práctico:
CSV
22/6/2022 May 26‐28, 2021 73
Guayaquil ‐ Ecuador
Caso práctico:
Caso práctico:
22/6/2022 May 26‐28, 2021 74
Guayaquil ‐ Ecuador
Caso práctico:
Caso práctico:
Equivalencias de SQL en MongoDB
https://docs.mongodb.com/manual/reference/sql comparison/
https://docs.mongodb.com/manual/reference/sql‐comparison/
22/6/2022 May 26‐28, 2021 75
Guayaquil ‐ Ecuador
Caso práctico:
Caso práctico:
MongoDB CRUD Operations
https://docs.mongodb.com/manual/crud/
find
count
sort
group
sum
unwind
limit
22/6/2022 May 26‐28, 2021 76
Guayaquil ‐ Ecuador
Caso práctico:
Caso práctico:
MongoDB Pipeline
p // g / / / gg g pp /
https://docs.mongodb.com/manual/core/aggregation‐pipeline/
22/6/2022 May 26‐28, 2021 77
Guayaquil ‐ Ecuador
Caso práctico:
Caso práctico:
22/6/2022 May 26‐28, 2021 78
Guayaquil ‐ Ecuador
Caso práctico:
Caso práctico:
22/6/2022 May 26‐28, 2021 79
Guayaquil ‐ Ecuador
Caso práctico:
Caso práctico:
$sort
, {$sort : {total : 1}}
, {$sort : {total : 1}}
22/6/2022 May 26‐28, 2021 80
Guayaquil ‐ Ecuador
Caso práctico:
Caso práctico:
MongoDB Pipeline
db.orders.aggregate([{$match: {status: "A"}}, {$group: {_id: "$cust_id", total:
{$sum: "$amount"}}}, {$sort
$ $ $ : {total : 1}}])
22/6/2022 May 26‐28, 2021 81
Guayaquil ‐ Ecuador
Caso práctico:
Caso práctico:
$unwind desagregar arrays, por cada elemento del array crea un nuevo documento duplicando
l d á d t
los demás datos.
/* 1 */ /* 3 */
{ {
"_id
id" :
: "_id
id" :
:
ObjectId("5eaa6b2f804aacfaf16311ce"), ObjectId("5eaa6b95804aacfaf163286d"),
"nombre" : "roger", "nombre" : "monica",
"deportes" : [ "rally", "basquet”] "deportes" : ["basquet", "zumba"]
} }
/* 2 */ /* 4 */
{ {
"_id
id" :
: "_id
id" :
:
ObjectId("5eaa6b5d804aacfaf1631bce"), ObjectId("5eaa6bb7804aacfaf1632ffd"),
"nombre" : "jordi", "nombre" : "jony",
"deportes" : [ "egames” ] "deportes" : ["futbol", "egames”]
} }
22/6/2022 May 26‐28, 2021 82
Guayaquil ‐ Ecuador
Caso práctico:
Caso práctico:
MongoDB
g Pipeline
p
22/6/2022 May 26‐28, 2021 83
Guayaquil ‐ Ecuador
Caso práctico:
Caso práctico:
MongoDB Pipeline
22/6/2022 May 26‐28, 2021 84
Guayaquil ‐ Ecuador
Caso práctico:
Caso práctico:
MongoDB Charts
https://www.mongodb.com/products/charts
22/6/2022 May 26‐28, 2021 85
Guayaquil ‐ Ecuador
Caso práctico:
Caso práctico:
22/6/2022 May 26‐28, 2021 86
Guayaquil ‐ Ecuador
Caso práctico:
Caso práctico:
22/6/2022 May 26‐28, 2021 87
Guayaquil ‐ Ecuador
Caso práctico:
Caso práctico:
22/6/2022 May 26‐28, 2021 88
Guayaquil ‐ Ecuador
Caso práctico ‐ Demo
Caso práctico ‐
Caso práctico
• Crear Datos CITIS
• Ver ejemplo
• Ver “teoría”
• Charts con Datos CITIS
22/6/2022 May 26‐28, 2021 89
Guayaquil ‐ Ecuador
Otras fuentes de datos:
Otras fuentes de datos:
22/6/2022 May 26‐28, 2021 90
Guayaquil ‐ Ecuador
Preguntas:
22/6/2022 May 26‐28, 2021 91
Guayaquil ‐ Ecuador
WORKSHOP
I
Introduction to Big Data
d i Bi D
and social network
analysis case study
(Twitter)
VIII International Conference
on Science, Technology and Expositor: PhD. Roger Clotet
Innovation for Society
Universidad Internacional de Valencia (VIU),
Spain