Está en la página 1de 114

Ctedra I4S-URJC - Centro de Innovacin BBVA

Retos en los
fundamentos de Data
Science
Veracidad, expresividad y computacin

Joaqun Borrego Daz


Departamento de Ciencias de la Computacin e IA - Universidad de Sevilla
jborrego@us.es
https://ontoblogia.wordpress.com/
Contenido aproximado
Realidad versus Datos Parcheando grandes
datasets
Fidelidad versus
interpretacin
Acotando la racionalidad
Datos y
reconstruccin Semntica emergente y
colectiva
Dimensin de la
interpretacin Semntica como gran
desafo para la Data Science
Ausencia de modelos

Veracidad y fiabilidad. Privacidad y control de la IA


Control en Data Science
https://placesjournal.org/article/skywatching/
Proyecto Corona
(EEUU)
(~1959-1972)

(Re)descubierto en 2004

Calibrado de satlites espa


Estn los satlites ofreciendo exactitud/fidelidad?

Cunta exactitud necesitas para razonar en una


tarea concreta?
Genocidio
Ruanda
Impacto de la veracidad/aproximacin?
Google Maps NO es la
realidad

Tiene slo 2 (3)


dimensiones

Cmo es el mundo
segn Google Maps?

Importante
conocerlo para
razonar con los
datos extrados de
este
Cmo es el mundo tiempo

segn los datos de t=1


un satlite? t=0

Pero es infinita:
siempre estamos
pelando la naranja
Pero son muchos satlites! Si slo fuera un satlite para toda la tierra:
Una fibracin de la esfera
Geoestacionarios con fibra trivial
Para un usuario: ciclos de refresco de
nuestro sistema (por ejemplo, un sistema
de monitorizacin) y solo un satlite

Fibracin de Hopf
De Niles Johnson - Trabajo propio, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=22485543
Cmo es el mundo tiempo

segn los datos de t=1


un satlite? t=0

o s
: a ci
a 1 s p
m n e
b l e c o
o
Pr mos te s )
a n a to
nt r b i e s d
c o a m n l o
e n e os
o s v i v l e j
N d e mp
o n co
Pero es infinita: (d
siempre estamos
pelando la naranja
Pero son muchos satlites! Si slo fuera un satlite para toda la tierra:
Una fibracin de la esfera
Geoestacionarios con fibra trivial
The Atlas of the Conflict maps the territorial aspects of the relations between
Israel and Palestine over the past 100 years.
Singapur Alaska
http://mjmdavis.com/showing/2017/05/16/how-to-read-maps.html
The Atlas of the Conflict maps the territorial aspects of the relations between
Israel and Palestine over the past 100 years.

) :
t. pac i o
o n s
( c l e s
a 1 e l o
m i e n t n
b l e s b e s
o
Pr tam ond o e
p re e d s ?
t e r n t a t o
i n b i e d
am
Ejemplo: dinmica urbana extrema
MODELIZACIN

! !

Simulacin
multiagente del D AT O S
desastre del
Katrina
Modelado
basado en
agentes para
encajar
datos

Utilidad

www.youtube.com/watch?v=pTKhrpl9jZc
Modelado
basado en
agentes para
encajar
datos 2 : t o s
m a d a
b le o n
ro r c
P tru os) i
a
n s iv a e l
c o a s u n nd
R e (m Es ci Utilidad
c d?
tr u a
n s lid
c o re a
re

www.youtube.com/watch?v=pTKhrpl9jZc
Ejemplo: el trabajo de campo y la datificacin fallida
Es explicable la dinmica
del conflicto en trminos
cualitativos (prediccin
razonada)?

Dnde falla?
Ejemplo: el trabajo de campo y la datificacin fallida
Es explicable la dinmica
del conflicto en trminos
cualitativos (prediccin
n
razonada)? 3: a a c i d e
m i c
l re je z a d e
b l e p
x ob ua
o e
Pr de r p ng
lt a p o l e ?
f a e s t r o n
L a a es c i
ad nu nt a
o n de se
r a z o re
os r e p
t
da
Dnde falla?
Volvamos al problema 1 Problema 1:
Nos encontramos con
espacios ambiente

Los datos como vectores


(donde viven los
datos) complejos
Los datos como vectores
Di
m
en
si
(k n
ey d=
w ta
or m
ds a
) ( o
p. d
e. el
~2 vo
5. ca
00 b
0) ula
rio

Para un buscador para WWW, la matriz sera ~25.000x109


La maldicin de la dimensin
El volumen de la La aletoriedad se concentra
hiperesfera tiende a 0

Los vectores documentos


son perpendiculares
al vector pregunta

Trmino acuado por Richard Bellman en 1960


La maldicin de la dimensin

2 3 d

El volumen de la cscara
del hipercubo unidad es 1-(1-)d

} conforme crece d, tiende a 1


el centro se vaca
Problema 1:
Nos encontramos con
La reduccin
espacios ambiente
(donde viven los datos) de la dimensin
complejos
La reduccin de la
dimensionalidad
t i l
4 :
a i n
l e m a c
ro b r m ?
P inf o o s
t a e m
n rd
u pe
C
Problema 2:
Reconstruir con datos
Es una
reconstruccin de la
realidad?

Y si el problema es
que modelamos?
Big Data:
El fin de la
teora
(de los
modelos)
Todos los modelos Todos los modelos son
son errneos, pero errneos, y trabajamos
algunos son tiles sin modelos cada vez
mejor
George E. P. Box (1976) Peter Norvig (2008)
Big Data: El fin de la teora
(de los modelos)

Norvig versus
Fukuyama

N=Todo deja
inservible la causalidad:
la correlacin gana

La lucha causalidad-
Los modelos tienen un correlacin ha
fin que no necesitamos terminado
Big Data: El fin de la teora
(de los modelos)
o s
del
m o
l os
s s )
Norvig versusmo r a
i t a t e o
Fukuyama e s as
e c y l
s n (
N=Todo deja
inservible la causalidad

Los modelos tienen un


Al menos
fin que las teoras
no necesitamos
matemticas
La ausencia de modelos afecta a cuatro
dimensiones esenciales
la mencionada causalidad,

la confianza en los
resultados,

la posibilidad de transferir Solucin


razonada
del modelo a datos distintos
Deep
de los usados en la fase de Learning
entrenamiento, y finalmente,

a su capacidad de informar
sobre lo que ocurre.
Un camino intermedio
modelar los procesos
Describir que hacemos y qu podemos hacer

Que aportan estos modelos?

Abstraccin,

Procedimientos de DS como elementos de


estructuras mas abstractas (vision
categorial).

Facilita el reacondicionamiento de resultados.

Los procesos detectan patrones e indicios


y los cientficos interpretan.
Veracidad: dos visiones
Veracidad desde el punto de vista de bases de
datos: refleja fielmente el universo a representar

Veracidad desde las matemticas: las


conclusiones extradas son consecuencia
(lgica?) del dataset

Intuicin (puede que errnea): mientras ms datos


tengamos, ms fiel el modelo a la realidad.

Sustituimos consecuencia por checking !


Primera visin: Todos los
datos no es todo
Los datos no estn representando exhibiendo todas
sus relaciones

La relacin interna (p.e. causal) necesitamos


establecerla

La relacin con el exterior: Cmo? Cunto?

Por esta razn no podemos cuantificar el valor


de los datos

Los datos son materia prima reutilizable


Segunda visin: las consecuencias
no son consecuencia
en BD es usual trabajar con datasets no veraces

ausencia de items,
Ru
distorsion de datos, id
o

incompletitud, etc.

heterodasticidad

que provoca la prdida de la seguridad que ofrecen las


bases de datos tradicionales en cuanto a inferencia de
resultados
Una tercera: veracidad de la
conclusiones. Validez
Una tercera: veracidad de la
conclusiones. Validez
Conocimiento
accionable
Una tercera: veracidad de la
conclusiones
o n Conocimiento
s accionable
as on
ci s
en no ?
u
c ro de l o
se e
n p mo
o
c le el
s
a s b n
i l a e
s on as
Y z
r lid
a
v

Veamos algunos
ejemplos
Peligros

http://arstechnica.co.uk/security/2016/02/the-nsas-skynet-program-may-be-killing-thousands-of-innocent-people/
Peligros
https://www.nytimes.com/2017/05/01/us/politics/sent-to-prison-by-a-software-programs-secret-algorithms.html
Peligros
https://www.nytimes.com/2017/05/01/us/politics/sent-to-prison-by-a-software-programs-secret-algorithms.html

n os
a lgu risis s
e n te c l o
I A uer d e
e la f a d
d na r i d
ble o u g u .
a r a nd s e B D
p c a la n
e im rovo a de os e
a nc ap e r c ni d
t
av s es al ac obte
l
E po r
lt u o s
d
cam l y cu sulta
c ia r e
so
Peligros
Los sensores del automvil de Google ~ 1 Gigabyte de informacion p.s.
Un estadounidense utiliza el automovil ~ 600 horas ao

Por tanto, un solo coche generara 2 PB de datos al ao

Es socialmente inaceptable que un coche


autonomo no alcance una tasa de exito de casi
el 100 %

Los sistemas actuales no lo pueden asegurar


http://moralmachine.mit.edu/hl/es
Peligros HIGH FREQUENCY TRADING
EN BOLSA
Peligros HIGH FREQUENCY TRADING
EN BOLSA

Knigth Capital

1 de agosto de 2013

Diez millones de dlares por minuto

45 minutos en encontrar desactivar el sistema


concreto que provoc el desastre
prdidas de 440 millones $
http://www.motherjones.com/politics/2013/02/high-frequency-trading-danger-risk-wall-street
PELIGROS

MERCADOS
COMPRA-
CONEXIN
V E N TA
U LT R A R R P I D A
DE ACCIONES

Agente de compra-venta
Se puede controlar este tipo de sistemas (multiagente)?

ES UN SISTEMA COMPLEJO

SE PUEDE PREDECIR EL COMPORTAMIENTO?

No Sigue intentando

Conocemos
(sabemos
especificar) el
problema? S
Con qu grado de
formalidad?

Ejemplo difcil:
Respetar los derechos de autor en Youtube
BD como un sntoma/
reflejo de un problema
a resolver
There is no definitive formulation of a wicked problem

Wicked problems have no stopping rule

Solutions to wicked problems are not true-or-false, but good-or-bad

There is no immediate and no ultimate test of a solution to a wicked


problem

Every solution to a wicked problem is a "one-shot operation"; because


there is no opportunity to learn by trial-and-error, every attempt counts
significantly

Wicked problems do not have an enumerable (or an exhaustively


describable) set of potential solutions, nor is there a well-described set of
permissible operations that may be incorporated into the plan

Every wicked problem is essentially unique

Every wicked problem can be considered to be a symptom of another


problem

The existence of a discrepancy representing a wicked problem can be


explained in numerous ways. The choice of explanation determines the
nature of the problems resolution

The planner has no right to be wrong


SIMULACIN (SOCIAL, EN ESTE CASO)
SIN MODELOS?

Imagen de Carlos Lozares , La simulacin social, una nueva manera de investigar en ciencia social?, http://www.raco.cat/
index.php/Papers/article/view/25771
SIMULACIN (SOCIAL, EN ESTE CASO)
SIN MODELOS?

No ls?
d e
M o

NO
CON
FRO
NTA
MO S TE
ORA
S?

Imagen de Carlos Lozares , La simulacin social, una nueva manera de investigar en ciencia social?, http://www.raco.cat/
index.php/Papers/article/view/25771
Grandes datasets
N=todo
Una mirada al pasado: Conectando-Centralizando

Viktor Glushkov Anthony Stafford Beer


All-State Automated System Cybersyn
(OGAS)
URSS, 1950 Chile, 1971-73
Actualidad: Conectando

Volumen
Variedad
Velocidad
Parcheando grandes
datasets: Una idea

Conciliacin

Conciliacin
Simulando nuestra
(defectuosa) causalidad

Parcheando la correlacin
Simulando nuestra
(defectuosa) decisin

Parcheando la decisin
Problema 3:
La falta de explicacin
razonada es por pobreza de
datos o de nuestro lenguaje de
representacin?

Creemos el lenguaje a la vez


que estudiamos los datos
Mapamundi de Ebstorf (~1300)

http://www.ebstorfer-weltkarte.de/
Problema 3:
La falta de explicacin
Minera de razona
datos semntica
da es por(en el amplio
pobrez a de sentido)
datos o de nuestro lenguaje de
Minera de conceptos: El lenguaje que
representacin?
manejamos

Definicin matemtica de un concepto: similar


a la de extensin/intencin en la descripcin
de conjuntos
Creemos el lenguaje a la vez
que estudiamos los datos
Problema 3:
La falta de explicacin
m o
Minera de razona
datos semntica
da es por(en el amplio
pobrez a decosentido)
datos o de nuestro lenguan t eje de a d
e que lid
manejamos rgn? ua
Minera de conceptos: El lenguaje
representaci
e c
e m l a
t i c a d e
n
Definicin matemtica
i n de un concepto: similar
a la m
e a c
de extensin/intencin
r en la descripcin
a s
de p e
conjuntos
L ecu os el lenguaje a la vez
Creem
la r que estudi amos los datos
Trending topic: Syria 11,500 tweets collected
Topic: Syria

Language: English

Date: 05/20/2013
(collection process
lasted 6 hours)

Weighted lattice (tweet


count)

Red/Green => Negative/


Positive sentiment

New
sentiments
emergence

Bing Lius Opinion Lexicon: http://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html


SentiWordNet: http://sentiwordnet.isti.cnr.it/
AFINN-111: http://www2.imm.dtu.dk/pubdb/views/publication_details.php?id=6010
Prediccin bajo racionalidad acotada

Retculo de conceptos
Sistema

Resultados

Comparacin
Sistema
t a r
r sen
e
r e p s
r
a hema o
o p
u e no lo
n
s b r(
o e n t a
la ri ese
a bu pr
c re
Resultados s tr
v o
o rem o s
pr io r i?
u e u e d a
i n e q da
r s q u iv i
a be lo re s
o s o s ? x p
m bem an ) la e
C a ir
o s do e d
a
si n ontr o s m
c m
en ode
Comparacinm o p
C
La complejidad como medida
de bondad de representacin

Simplificando: Si hemos
elegido un buen conjunto
de atributos (un lenguaje
descriptivo), entonces la
red semntica asociada
es libre de escala
La hiptesis del residuo libre de escala (Aranda, Borrego y Galn 2012)

Es un test independiente del significado Escala


Logartmica
Hiptesis del residuo libre de escala
Si la red se comporta como una libre de escala, entonces en los datos existe
conocimiento til

La topologa afecta al proceso deductivo desde la minera de datos

Datos para la
prediccin Datos sobre el
social de conflicto de
apuestas Sudan
deportivas
Hiptesis del residuo libre de escala
Si la red se comporta como una libre de escala, entonces en los datos existe
conocimiento til

La topologa afecta al proceso deductivo desde la minera de datos

Datos para la
prediccin a je Datos sobre el
g u conflicto de
social de
le n
apuestas e l ?
Sudan
gir i v o
deportivas
e le e s
o x p r
c m
ro e
e r o p e
P ciso
c o n
Mientras ms usuarios aporten ideas (y
acepten atributos),
Mejor ser el sistema

Diversidad de opinin
Independencia
Decentralizacin
Agregacin
a l a
l o t
x p v a ?
o e c t i
n o l e
q u i a c
Po r n c
l i g e
in t e
Real State Data
Some properties:
Dimensions (small, medium, big)
Price (very low, low, medium, high,
very high)

Price decreased/increased in the


last 3 months

Price with respect to other


homes in the neighbourhood
(more expensive than average,
average, cheaper than average)

Amount of other homes for sale


in the surroundings (none, few,
lots)

Access to public transport


...
Concept Lattices by streets

Av. Kansas City

Av. Repblica Argentina

Similar lattices:
- A significant difference:
Homes dimensions
Idea:
- Analyse knowledge basis
Using the pattern within the District
Conclusiones
Los datos son matematizados para tratarlos

No conocemos todas las relaciones ocultas entre ellos


que son importantes

POR TANTO

Un dataset es una materia prima que no se agota


cuando se usa ni siquiera semnticamente.

Es infinitamente reutilizable y explotable (revisin,


reparacin, combinacin, venta, etc.)
Conclusiones
Los datos son matematizados para tratarlos

la
No conocemos todas las relaciones
que son importantes e s t ocultas entre ellos

n d e a ?
POR TANTO
d n t ic
Y m

s e
Un dataset es una materia prima que no se agota
cuando se usa ni siquiera semnticamente.

Es infinitamente reutilizable y explotable (revisin,


reparacin, combinacin, venta, etc.)
(Pre)historia
2005
(Pre)historia

C
po om
r G pr
(2 oo ada
01 gl
0) e!
En 2015
En 2016
En 2016 Dnde est?
70.000 millones de hechos almacenados
https://www.google.com/intl/es/insidesearch/features/search/knowledge.html
Conclusin: Es big
Knowledge
ejemplos
de
nacidoEn
triples

dirigi

esUna

tieneCartel
RDF (Description Framework)

Especificacin de la World Wide Web


Consortium (W3C) originalmente
diseado como un modelo de datos
para metadatos.
En la
actualidad
Cinco grafos semnticos importantes atrapando el
conocimiento comn
En Facebook usan
el Open Graph
Idea detrs de Open Graph

Algo similar a RDF

Alimentando OpenGraph
Es Open Graph EL MODELO?
Una consulta para OpenGraph se puede
considerar semntica

No es demostracin automtica
Pero y si es EL MODELO a tener en
cuenta?

S: entonces seguridad en la respuesta


Pero NO
El razonamiento potencia los procesos de
descubrimiento de conocimiento
Facebook Open Graph:
semntica
Conclusin: Es big
data social

http://actualfacebookgraphsearches.tumblr.com/
Semntica: Linked Data y metadatos
Necesitamos aadir razonamiento lgico al razonamiento estadstico

Razonando con las relaciones entre objetos del universo de discurso


a travs de los grafos semnticos
https://grakn.ai/

https://grakn.ai/
Tendencia (~2024)
Stream Data Sensor Data

Semantic Data Mining

Automated Annotation
Automated Ontology
Population

Future Trends in Handbook of Semantic Web Technologies, http://link.springer.com/referenceworkentry/10.1007/978-3-540-92913-0_14


Computacin y privacidad
Anonimizacin
Computacin y privacidad
Anonimizacin: Tres requsitos

Debe preservarse bajo composicion

Coste computacional aceptable.

Hay que conciliar la privacidad con la capacidad


de ser enlazable
Anonimizacin ad hoc
Intenta evitar la des-anonimizacin mediante consulta y/o
procesamiento de ste

K-anonimizacion

Atributos con varianza pequea: buenos candidatos para


los intrusos, porque pueden simular sus valores.

El caracter ubicuo del BD hace que las tecnicas de


anonimizacin centradas en datasets cerrados sean
insuficientes para asegurar la privacidad.

Problemas ticos
tica

Bert Kaplan, antroplogo

~1950-1958

Finalizado (en parte) por


el uso periodstico de los
datos para desacreditar
al pueblo navajo
Privacidad ad omnia
Un caso clsico
(2006-09)

Netflix ofreci un premio de un milln de


dolares a quien pudiera mejorar al menos un
10% su sistema de recomendacin.

La compaa proporcion a los


desarrolladores interesados un dataset
anonimizado, eliminando informacin
personal de las opiniones y valoraciones de
usuarios.

Las identidades fueron reemplazadas por


identificadores generados aleatoriamente.
Un caso clsico La competicin Netflix
(2006-09)

Combinando datos de
diferentes fuentes podemos
obtener informacion
personalizada.

Este peligro es mucho mayor


cuando combinamos los datos
con el ingente lago de datos de
la Web social.
Un caso clsico La competicin Netflix
(2006-09)

Combinando datos de
diferentes fuentes podemos
La curacin de contenido
obtener informacion
personalizada. amenaza la privacidad

Este peligro es mucho mayor


cuando combinamos los datos
con el ingente lago de datos de
la Web social.
+
http://www.centrodeinnovacionbbva.com/bbvatourism
Anonimizacin ad omnia
Todo lo que se pueda aprender sobre un
individuo que aparece en el dataset puede ser
aprendido sin usar el dataset
Tor Dalenius (1977)

Privacidad diferencial
IA como amenaza a la
privacidad
Los datos pasados estn almacenados. Cualquier
nueva tcnica puede aprovecharlos

Los datos no caducan

Algunos sistemas de IA no explican las decisiones

Deep Learning (redes neuronales en general)

Al no conocer como funciona internamente el


modelo no podemos asegurar que otros
investigadores no sean capaces de romper la
privacidad.
Controlando la IA en BD
R es la penalizacin
que afecta a la utilidad del
sistema por modificar el
mundo
Pregunta:
Por qu es interesante plantearse estas cuestiones?
Respuesta:
Por el futuro

Peligro: Las decisiones tomadas


mediante aprendizaje automtico tendrn
un impacto considerable

Seguridad:

cesin de control a IA

Premia la desigualdad social

tica: Los sistemas pueden aprender


(correlacin) a discriminar por sexo,
raza, condiciones econmicas,
salud
Decisiones
argumentadas
Ctedra I4S-URJC - Centro de Innovacin BBVA

Joaqun Borrego Daz


Departamento de Ciencias de la Computacin e IA - Universidad de Sevilla
jborrego@us.es
https://ontoblogia.wordpress.com/

También podría gustarte