Está en la página 1de 41

Big Data

Potencial para predicción en modelos de


comportamiento
Big Data
Estebany
MoroAnálisis
Egido Predictivo
UC3M + IIC
Esteban Moro
(UC3M+IIC)

Big Data
Potencial para predicció
Qué Big Data? comportamiento
Esteban Moro Egido
UC3M + IIC

@estebanmoro
Big Data
Potencial para predicció
comportamiento
Esteban Moro Egido
UC3M + IIC
http://blogs.msdn.com/b/data__knowledge__intelligence/archive/2013/02/18/big-data-big-deal.aspx

@estebanmoro
Every 60 seconds

Big Data
Potencial para predicció
comportamiento
Esteban Moro Egido
UC3M + IIC
http://blog.qmee.com/wp-content/uploads/2013/07/Qmee-Online-In-60-Seconds21.png

@estebanmoro
Big Data
Potencial para predicció
Por qué ahora? comportamiento
Esteban Moro Egido
UC3M + IIC

@estebanmoro
Tecnología / Recursos

Big Data
Potencial para predicció
comportamiento
Esteban Moro Egido
UC3M + IIC

@estebanmoro
Flujo de BigData y valor
Company A Company B

Transactional APIs
operational
APP

Big Data
Other sources
Potencial para predicció
comportamiento
Esteban Moro Egido
UC3M + IIC

@estebanmoro
Fuentes de datos
Operacional
Transaccional
Comunicaciones

Big Data
Potencial para predicció
Sensores comportamiento
Esteban Moro Egido
UC3M + IIC

Tiempo / Mercados

@estebanmoro
4

Tipos de datos v
v3
Disponemos de datos sociales, de movilidad y otros patrones de comportamiento

Patrones de
Big Data
ariables Modelo
Interacción social
comportamiento Potencial
Movilidad para predicció
geográfica
comportamiento
Estas tres marcan el día a día de las personas Esteban Moro Egido
UC3M + IIC
v4
v5
@estebanmoro
v
Big Data
Potencial para predicció
comportamiento
Esteban Moro Egido
UC3M + IIC

McKinsey Global Institute Big Data Report 2011


http://www.mckinsey.com/insights/business_technology/big_data_the_next_frontier_for_innovation

@estebanmoro
Valor

•  Creando transparencia
•  Reducir ineficiencias
•  Permitiendo la experimentación para descubrir necesidades,
exponer variabilidad y mejorar el rendimiento de procesos
•  Reemplazar o ayudar decisiones humanas por algoritmos
automatizados
Big Data
•  Crear nuevos modelos de negocio, productos o servicios
Potencial para predicció
comportamiento
Esteban Moro Egido
•  McKinsey Global Institute Big Data Report 2011
UC3M + IIC
•  http://www.mckinsey.com/insights/business_technology/big_data_the_next_frontier_for_innovation
•  

Demystifying Big Data: A Practical Guide To Transforming The Business of Government
•  TechAmerica Foundation: Federal Big Data Commission
• 
@estebanmoro
Casos de uso
•  Social networks

•  Movie recommendation

•  Retail habits

•  http://www.nytimes.com/2012/02/19/magazine/shopping-habits.html?
pagewanted=1&_r=2&hp&pagewanted=all&

•  Political campaigns
Big Data
•  http://www.technologyreview.com/featuredstory/508836/how-obama-
used-big-data-to-rally-voters-part-1/ Potencial para predicció
•  Location-based new products
comportamiento
Esteban Moro Egido
•  Telefónica “Smart Steps” UC3M + IIC

•  BBVA “Commerce360”
@estebanmoro
Big Data
Potencial para predicció
Big data y predicción comportamiento
Esteban Moro Egido
UC3M + IIC

@estebanmoro
Los pasos
Hacia un modelo predictivo

Monitoring
Reporting

Predicting
Data

What are the What What is What is


available happened happening going to
and and why? now? happen in
important future?
sources of
data?
Big Data
Potencial para predicció
comportamiento
Esteban Moro Egido
UC3M + IIC

@estebanmoro
Dónde se aplican los modelos
predictivos?
•  Finanzas
•  Detección de fraude
•  Gestión riesgo
•  Seguros
•  Marketing
•  Adopción productos/servicios
•  Mejora campañas http://squawka.com
•  Sistemas de recomendación
•  Salud Big Data
•  Deportes
•  Administración Potencial para predicció
comportamiento
•  Ciencia
Esteban Moro Egido
•  LHC UC3M + IIC
•  Biología

@estebanmoro
Lo importante es el valor
•  Datos ≠ Información ≠ Valor
ML Acción
Decisión
Conoci-
SNA miento

NLP Infor-
mación Big Data
Potencial para predicció
comportamiento
Datos Esteban Moro Egido
UC3M + IIC

@estebanmoro
Lo importante es el valor
•  Datos ≠ Información ≠ Valor

Interacción con "


SNA usuarios

NLP
Big Data
Clasificación del "
contenido. Generación
de alertas Potencial
para predicció
comportamiento
Esteban Moro Egido
Análisis lingüístico UC3M + IIC
del contenido

Tweets sobre
marca/evento/tema @estebanmoro
Big Data
Potencial para predicció
Ejemplos comportamiento
Esteban Moro Egido
UC3M + IIC

@estebanmoro
Example 1: Telco
Predict adoption of product/services including social influence

CRM

Big Data
Potencial para predicció
comportamiento
Esteban Moro Egido
UC3M + IIC

@estebanmoro
Example 1: Telco
17 million of relationships
6 million users
6 months of data

+ CRM

Big Data
Potencial para predicció
comportamiento
Esteban Moro Egido
UC3M + IIC

@estebanmoro
Example 1: Telco
Tasa de adopción de producto a partir de una
Campaña de marketing
MAAIS Metodología, IIC
www.iic.uam.es

Big Data
Potencial para predicció
comportamiento
Esteban Moro Egido
UC3M + IIC

@estebanmoro
CALLER ID
%34)-!4).'0/6%249,%6%,3).
CALLER CELL TOWER
RECIPIENT PHONE RECIPIENT CELL After the Haitian earthquake in 2010, many people moved away from the capital city, Port Au Prince. Researchers
#!,,$52!4)/.
CÔTE D’IVOIRE
asked Digicell, Haiti’s biggest mobile phone operator, to share de-identified information about the cell towers that
LOCATION .5-"%2 TOWER LOCATION subscribers were using when making calls. The data included the position of 1.9 million subscriber identity modules

Example 1: Telco
(SIMs) in Haiti from 42 days before the earthquake to 158 days afterwards, allowing researchers to compare people’s
X76VG588RLPQ 2°24’ 22.14”, A81UTC93KK52 3°26’ 30.47”, 01:12:02
movement in the days preceding and following the earthquake. This study proved more accurate in measuring the
number of displaced people and their destinations than the studies by the Haitian Civil Protection Agency, and the
35°49’ 56.54” study (Smith et al., 2012), researchers
In another 31°12’used 18.01” CDRs to map
estimates of geographical distribution of people across Haiti were matched by estimates from a retrospective United
Nations Population Fund study.
poverty levels in Côte d’Ivoire. No full survey of the country’s population
has to
While at first glance it is difficult been published
assess the valuesince afollow-up
thiscivil
of Aweeks war in thewere 1990s. Researchers used
study (Lu et al., 2012) found that the destinations of people who left the capital during the first three
rather rudimentary data,withremarkably useful information
significant socialon
Usar las llamadas de teléfono para proyectos de desarrollo
human behavior may be derived anonymized
from largeCDRs
sets ofof de-identified
five million
after the earthquake
research hasOrange
CDRs.
shown There
correlated
that telecommunications
are
in the event at least
of another
the locations to which
natural customers
three types
disaster,
they had
of movement
population indicators
bonds. This
that
patterns may be significantly

can be extracted: between December 2011 more andpredictable


April 2012 than has been previously understood. This type of analysis could be used to plan relief efforts more
to assess both the level of activity
precisely. Niveles de pobreza en 

among subscribers and locations Migración where calls emergencia
were made. Higher en Haiti levels of
1.mobile communication
-/"),)49 As mobile and phone widerusers range
send ofandcallsreceive
are a proxy
calls and indicator
messagesfor throughMobility Costapatternsde
different have Marfil
were
Mobility
prosperity. Using
cell towers,
of quantified.
a community.
this
it is
TheThis
data, poverty
possible
estimate
to “connect levelsthe
was validated
information
of eleven
may be when
dots” and
used to
regions
compared
of Côte d’Ivoire
reconstruct
visualizewith
the movement
dailya rhythms
been identified
multi- analyzing
Bpatternsby
of commuting CDRs, providing
dimensional
to and from
indicators
modeling
poverty
such
home,indexwork,created
as poor health,
everything
school,bymarkets
from thelack 42!.30/24!4)/.
University
of education,
spread
of Oxford,
or clinics,
of diseaseinadequate
but which
also has
to the movements
uses
applications
living standard
more accurate
in
post-analysis of
of a disaster-affected
threat from violence among other factors. This research validated the population migration
andpopulation.
during the Haiti
possibility of making poverty maps using CDRs.
/04)-):).'42!.30/24.%47/2+3).!")$*!. earthquake.
Rapid urbanization in developing countries has increased pressure on infrastructure such as road networks. Roads
and public transportation systems become saturated, and people lose a great deal of time traveling from home to
work, which in turn has a collective cost on the burgeoning economies. Researchers at IBM’s AllAboard project
The previous three studies show that have
in countries where
shown it is possible information
to monitor regarding
citizens’ travel routes and use data-driven insights to better plan and manage
2. 3/#)!,).4%2!#4)/. The geographic distribution of one’s social connections may CDRsshows
census, socioeconomic levels or poverty indicators
transportation servicesis(Berlingerio
lacking, CDRs
et al., 2013).may beanalyzed
The data &IGUREincluded
The visualization shared by Orange for 500,000
the distribution

Social 

be useful both for building demographic
used to estimate these variables on an
understanding changes in behavior.
ongoing
Studies
profiles
users over a five
basis,
largesthave
of aggregated
month period,
thus
shown
which were used call
augmenting
the busthat men
traffic
to pinpoint
and
or using a mobile-based service. The researchers studied CDR analyzing
andspans
and
locations based
of population on cell
migration fromtowers used when making calls
Port au Prince
(PaP) after the Haiti earthquake obtained by
data, mapped
women tend
CDRs. The against 85 buslocations
circles represent routes in Abidjan,
complementing survey data. Ivory Coast’s city, where transport network that539 buses,
received 5,000
at least mini-buses
500 people from the and 11,000 shared

Interaction
to use their phones differently, as doTheir
taxis. different age the
findings allowed groups.
researchersFrequently making
to suggest a partial
Abidjan’s existing infrastructure and extend another route. Thisafter
receiving calls with contacts outside
solutionand
estimated
optimized
distribution of those in PaP
to the city’s congestion:
of the earthquake,
on the add
but outside the city 19 days
network would
Lu et reduce
day four routes to
travel time by 10%.
Such a of one’s method
immediate community
would be usefulis for correlated with
the earthquake. Source: al., 2012.

CDRs can provide aclass. proxy


provisioning using CDRs better urban
Figureplanning
5. Figure
estimated and public transportation.
5A shows poverty map
higher socio-economic
Optimización rutas transporte en Abidjan
based on the antennas in the eleven major
www.unglobalpulse.org s 5.',/"!,05,3%sWWWFACEBOOKCOM5.GLOBALPULSE 3
indicator for assessing regions of Cote d’Ivoire, where the darker areas

regional poverty levels, 5B shows the Department poverty levels as


approximated by the model used on regional
Big Data
indicate higher estimated poverty level. Figure

and can valuably augment level indicating the finer granularity possible
$ $$$ 3. %#/./-)#!#4)6)49Mobile network operators use monthly airtime expenses
national surveys in Potencial para predicció
when using CDRs. Source: Smith et al., 2012.
to estimate
$
Economical
the household income of anonymous subscribers in order to target appropriate services
estimating changes
to them through advertising. When people in developing economies have more money
to spend, they tend to spend a significant portion of it on topping off their comportamiento
activity
$
mobile
$$
$$ associated with
airtime credit. a growing
Monitoring airtime expenses for trends and sudden changes could prove
$$
economy.
useful for detecting the early impact of an economic crisis, as well as for measuring the
$$$ impact of programmes designed to improve livelihoods. Esteban Moro Egido
UC3M + IIC
www.unglobalpulse.org s 5.',/"!,05,3%sWWWFACEBOOKCOM5.GLOBALPULSE 7

UN GlobalPulse, 2013. MOBILE PHONE NETWORKBy analyzing CDR data, scientists mapped new &IGUREThis image shows the existing public
transport network (SOTRA) in Abidjan and
routes to decongest Abidjan’s crowded roads, additional routes suggested by the study.
Source: Berlingerio et al., 2013.

DATA FOR DEVELOPMENT which would reduce travel time by 10%.


@estebanmoro
Example 2: Bank
Predicting future purchases volume/money in city areas

CRM
Big Data
Potencial para predicció
comportamiento
Esteban Moro Egido
UC3M + IIC

@estebanmoro
Example 2: Geomarketing/Bank
Predicting place of next purchase

Big Data
Potencial para predicció
comportamiento
Esteban Moro Egido
UC3M + IIC

@estebanmoro
Example 2: Geomarketing/Bank
We visit mostly the same shops

Big Data
Potencial para predicció
comportamiento
Esteban Moro Egido
UC3M + IIC

@estebanmoro
Example 2: Geomarketing/Bank
Predicting future area purchases
131Millions of transactions

Big Data
Potencial para predicció
comportamiento
Esteban Moro Egido
UC3M + IIC

@estebanmoro
Example 2: Media company
Segmentación automática de clientes de acuerdo a sus patrones de
navegación online de un medio de comunicación online 


~ 0.5 Millones de usuarios
~ 17 Millones de accesos al mes


CRM



140 variables nuevas Big Data
Horas a las que el usuario se conecta a la web,
número de visitas, accesos únicos, categorías Potencial para predicció
(política, economía, deportes, cultura…),
dispositivo, localización… comportamiento

Esteban Moro Egido


•  Publicación de contenidos por
UC3M + IIC
•  Detección de heavy users franjas horarias
•  Usuarios multicanal •  Segmentación por intereses
@estebanmoro
Example 2: Media company
Segmentación automática de clientes de acuerdo a sus patrones de
navegación online de un medio de comunicación online 

~ 0.5 Millones de usuarios
~ 17 Millones de accesos al mes
Usuarios
solo
deportes


Usuarios
cultura,
cine y
Big Dataviajes
Usuarios
economía, Potencial para
Usuarios predicció
ciencia y política,
comportamiento
economía y
tecnología
AAPP
Esteban Moro Egido
UC3M + IIC
Identificación y clasificación de usuarios en grupos ocultos difícilmente
alcanzables por métodos tradicionales.
@estebanmoro
Example 3: Opinion analysis in SM
Automatic detection of opinion, sentiment, brands, etc. in real time during
the WorldCup 2014

~ 10Million tweets per game
~ Peaks of 5000 tweets per minute






Big Data


Potencial para predicció
comportamiento

Esteban Moro Egido
UC3M + IIC

@estebanmoro
Example 3: Opinion analysis in SM
Automatic detection of opinion, sentiment, brands, etc. in real time during
the WorldCup 2014

We can detect the different categories of the conversation

http://mundial2014.iic.uam.es





Big Data


Potencial para predicció
comportamiento
Esteban Moro Egido
UC3M + IIC

@estebanmoro
Example 3: Opinion analysis in SM
Automatic detection of opinion, sentiment, brands, etc. in real time during
the WorldCup 2014

Also the sentiment about teams, brands, events, etc.







Big Data


Potencial para
predicció
comportamiento
http://mundial2014.iic.uam.es
Esteban Moro Egido
UC3M + IIC

http://mundial2014.iic.uam.es
@estebanmoro
LAB

Big Data
Potencial para predicció
comportamiento
Esteban Moro Egido
UC3M + IIC

@estebanmoro
Predicción éxito contenidos en SM
¿Podemos medir el éxito/alcance/engagement de contenidos en las redes sociales?

Big Data
Potencial para predicció
comportamiento
Esteban Moro Egido
UC3M + IIC

@estebanmoro
Predicción éxito contenidos en SM

Big Data
Potencial para predicció
comportamiento
Esteban Moro Egido
UC3M + IIC

@estebanmoro
Predicción éxito contenidos en SM

0 hrs 0.75 hrs 48 h

Publicación Horizonte de Número de


tweet en entrenamiento RTs final:
una cuenta Con 45’ predecimos el éxito
RTs: 61 726
final de un tweet

•  Variables de evolución.
!  RTs en los primeros
Big Data
minutos. Potencial para predicció
Predicción de
Modelo
•  Variables sociales. predictivo
comportamientoRTs:

!  Followers y followees.
682
!  Número de tweets. Esteban Moro Egido
!  Listas en las que aparecen. UC3M + IIC
!  Klout.

@estebanmoro
Predicción éxito contenidos en SM

Big Data
Potencial para predicció
comportamiento
Esteban Moro Egido
UC3M + IIC

@estebanmoro
Monitorización de indicadores económicos
Utilizar bigdata para crear indicadores económicos en tiempo real

Movilidad + social + contenido tweets
20Millones tweets
200k usuarios

Big Data
Potencial para predicció
comportamiento
Esteban Moro Egido
UC3M + IIC

@estebanmoro
Monitorización de indicadores económicos
Utilizar bigdata para crear indicadores económicos en tiempo real

Mobilidad + interacción social + contenido tweets

Big Data
Potencial para predicció
comportamiento
Esteban Moro Egido
UC3M + IIC

@estebanmoro
BigData o el pulpo Paul?
“Es difícil hacer predicciones,
sobre todo sobre el futuro”

Big Data
Potencial para predicció
comportamiento
Esteban Moro Egido
UC3M + IIC

@estebanmoro
BigData o el pulpo Paul?
Los peligros de usar BigData en predicción

•  Predecir supone decir lo que va a pasar y
con qué probabilidad
•  No ignoremos los falsos positivos de
nuestros algoritmos


•  Los modelos de hoy no valdrán mañana

•  Correlación ≠ Causalidad
•  Aunque ciertas variables muestren
poder predictivo, eso no significa que
hayamos encontrado un mecanismo que
explica lo sucedido

Big Data
Potencial para predicció
•  Big no es All (sesgos poblacionales)
•  Incluso aunque tengamos millones de comportamiento
usuarios o de eventos puede ser que no
tengamos todos Esteban Moro Egido
UC3M + IIC

http://www.ft.com/cms/s/2/21a6e7d8-
b479-11e3-a09a-00144feabdc0.html
@estebanmoro
BigData o el pulpo Paul?
Tenemos que:

Comprobar las hipótesis
Utilizar modelos nulos para descartar
efectos espúreos, correlaciones no deseadas,
etc.

A/B testing para aislar las causas de las
correlaciones
Experimentar es la única manera de
encontrar las causas

Demografía
Preguntémosnos sobre el origen de los
Big Data
datos y su representatividad. Potencial para predicció

Método Científico, por favor! comportamiento
http://en.wikipedia.org/wiki/Deferent_and_epicycle
Esteban Moro Egido
UC3M + IIC

http://www.ft.com/cms/s/2/21a6e7d8-
b479-11e3-a09a-00144feabdc0.html
@estebanmoro

También podría gustarte