Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Retos en los
fundamentos de Data
Science
Veracidad, expresividad y computacin
(Re)descubierto en 2004
Cmo es el mundo
segn Google Maps?
Importante
conocerlo para
razonar con los
datos extrados de
este
Cmo es el mundo tiempo
Pero es infinita:
siempre estamos
pelando la naranja
Pero son muchos satlites! Si slo fuera un satlite para toda la tierra:
Una fibracin de la esfera
Geoestacionarios con fibra trivial
Para un usuario: ciclos de refresco de
nuestro sistema (por ejemplo, un sistema
de monitorizacin) y solo un satlite
Fibracin de Hopf
De Niles Johnson - Trabajo propio, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=22485543
Cmo es el mundo tiempo
o s
: a ci
a 1 s p
m n e
b l e c o
o
Pr mos te s )
a n a to
nt r b i e s d
c o a m n l o
e n e os
o s v i v l e j
N d e mp
o n co
Pero es infinita: (d
siempre estamos
pelando la naranja
Pero son muchos satlites! Si slo fuera un satlite para toda la tierra:
Una fibracin de la esfera
Geoestacionarios con fibra trivial
The Atlas of the Conflict maps the territorial aspects of the relations between
Israel and Palestine over the past 100 years.
Singapur Alaska
http://mjmdavis.com/showing/2017/05/16/how-to-read-maps.html
The Atlas of the Conflict maps the territorial aspects of the relations between
Israel and Palestine over the past 100 years.
) :
t. pac i o
o n s
( c l e s
a 1 e l o
m i e n t n
b l e s b e s
o
Pr tam ond o e
p re e d s ?
t e r n t a t o
i n b i e d
am
Ejemplo: dinmica urbana extrema
MODELIZACIN
! !
Simulacin
multiagente del D AT O S
desastre del
Katrina
Modelado
basado en
agentes para
encajar
datos
Utilidad
www.youtube.com/watch?v=pTKhrpl9jZc
Modelado
basado en
agentes para
encajar
datos 2 : t o s
m a d a
b le o n
ro r c
P tru os) i
a
n s iv a e l
c o a s u n nd
R e (m Es ci Utilidad
c d?
tr u a
n s lid
c o re a
re
www.youtube.com/watch?v=pTKhrpl9jZc
Ejemplo: el trabajo de campo y la datificacin fallida
Es explicable la dinmica
del conflicto en trminos
cualitativos (prediccin
razonada)?
Dnde falla?
Ejemplo: el trabajo de campo y la datificacin fallida
Es explicable la dinmica
del conflicto en trminos
cualitativos (prediccin
n
razonada)? 3: a a c i d e
m i c
l re je z a d e
b l e p
x ob ua
o e
Pr de r p ng
lt a p o l e ?
f a e s t r o n
L a a es c i
ad nu nt a
o n de se
r a z o re
os r e p
t
da
Dnde falla?
Volvamos al problema 1 Problema 1:
Nos encontramos con
espacios ambiente
2 3 d
El volumen de la cscara
del hipercubo unidad es 1-(1-)d
Y si el problema es
que modelamos?
Big Data:
El fin de la
teora
(de los
modelos)
Todos los modelos Todos los modelos son
son errneos, pero errneos, y trabajamos
algunos son tiles sin modelos cada vez
mejor
George E. P. Box (1976) Peter Norvig (2008)
Big Data: El fin de la teora
(de los modelos)
Norvig versus
Fukuyama
N=Todo deja
inservible la causalidad:
la correlacin gana
La lucha causalidad-
Los modelos tienen un correlacin ha
fin que no necesitamos terminado
Big Data: El fin de la teora
(de los modelos)
o s
del
m o
l os
s s )
Norvig versusmo r a
i t a t e o
Fukuyama e s as
e c y l
s n (
N=Todo deja
inservible la causalidad
la confianza en los
resultados,
a su capacidad de informar
sobre lo que ocurre.
Un camino intermedio
modelar los procesos
Describir que hacemos y qu podemos hacer
Abstraccin,
ausencia de items,
Ru
distorsion de datos, id
o
incompletitud, etc.
heterodasticidad
Veamos algunos
ejemplos
Peligros
http://arstechnica.co.uk/security/2016/02/the-nsas-skynet-program-may-be-killing-thousands-of-innocent-people/
Peligros
https://www.nytimes.com/2017/05/01/us/politics/sent-to-prison-by-a-software-programs-secret-algorithms.html
Peligros
https://www.nytimes.com/2017/05/01/us/politics/sent-to-prison-by-a-software-programs-secret-algorithms.html
n os
a lgu risis s
e n te c l o
I A uer d e
e la f a d
d na r i d
ble o u g u .
a r a nd s e B D
p c a la n
e im rovo a de os e
a nc ap e r c ni d
t
av s es al ac obte
l
E po r
lt u o s
d
cam l y cu sulta
c ia r e
so
Peligros
Los sensores del automvil de Google ~ 1 Gigabyte de informacion p.s.
Un estadounidense utiliza el automovil ~ 600 horas ao
Knigth Capital
1 de agosto de 2013
MERCADOS
COMPRA-
CONEXIN
V E N TA
U LT R A R R P I D A
DE ACCIONES
Agente de compra-venta
Se puede controlar este tipo de sistemas (multiagente)?
ES UN SISTEMA COMPLEJO
No Sigue intentando
Conocemos
(sabemos
especificar) el
problema? S
Con qu grado de
formalidad?
Ejemplo difcil:
Respetar los derechos de autor en Youtube
BD como un sntoma/
reflejo de un problema
a resolver
There is no definitive formulation of a wicked problem
Imagen de Carlos Lozares , La simulacin social, una nueva manera de investigar en ciencia social?, http://www.raco.cat/
index.php/Papers/article/view/25771
SIMULACIN (SOCIAL, EN ESTE CASO)
SIN MODELOS?
No ls?
d e
M o
NO
CON
FRO
NTA
MO S TE
ORA
S?
Imagen de Carlos Lozares , La simulacin social, una nueva manera de investigar en ciencia social?, http://www.raco.cat/
index.php/Papers/article/view/25771
Grandes datasets
N=todo
Una mirada al pasado: Conectando-Centralizando
Volumen
Variedad
Velocidad
Parcheando grandes
datasets: Una idea
Conciliacin
Conciliacin
Simulando nuestra
(defectuosa) causalidad
Parcheando la correlacin
Simulando nuestra
(defectuosa) decisin
Parcheando la decisin
Problema 3:
La falta de explicacin
razonada es por pobreza de
datos o de nuestro lenguaje de
representacin?
http://www.ebstorfer-weltkarte.de/
Problema 3:
La falta de explicacin
Minera de razona
datos semntica
da es por(en el amplio
pobrez a de sentido)
datos o de nuestro lenguaje de
Minera de conceptos: El lenguaje que
representacin?
manejamos
Language: English
Date: 05/20/2013
(collection process
lasted 6 hours)
New
sentiments
emergence
Retculo de conceptos
Sistema
Resultados
Comparacin
Sistema
t a r
r sen
e
r e p s
r
a hema o
o p
u e no lo
n
s b r(
o e n t a
la ri ese
a bu pr
c re
Resultados s tr
v o
o rem o s
pr io r i?
u e u e d a
i n e q da
r s q u iv i
a be lo re s
o s o s ? x p
m bem an ) la e
C a ir
o s do e d
a
si n ontr o s m
c m
en ode
Comparacinm o p
C
La complejidad como medida
de bondad de representacin
Simplificando: Si hemos
elegido un buen conjunto
de atributos (un lenguaje
descriptivo), entonces la
red semntica asociada
es libre de escala
La hiptesis del residuo libre de escala (Aranda, Borrego y Galn 2012)
Datos para la
prediccin Datos sobre el
social de conflicto de
apuestas Sudan
deportivas
Hiptesis del residuo libre de escala
Si la red se comporta como una libre de escala, entonces en los datos existe
conocimiento til
Datos para la
prediccin a je Datos sobre el
g u conflicto de
social de
le n
apuestas e l ?
Sudan
gir i v o
deportivas
e le e s
o x p r
c m
ro e
e r o p e
P ciso
c o n
Mientras ms usuarios aporten ideas (y
acepten atributos),
Mejor ser el sistema
Diversidad de opinin
Independencia
Decentralizacin
Agregacin
a l a
l o t
x p v a ?
o e c t i
n o l e
q u i a c
Po r n c
l i g e
in t e
Real State Data
Some properties:
Dimensions (small, medium, big)
Price (very low, low, medium, high,
very high)
Similar lattices:
- A significant difference:
Homes dimensions
Idea:
- Analyse knowledge basis
Using the pattern within the District
Conclusiones
Los datos son matematizados para tratarlos
POR TANTO
la
No conocemos todas las relaciones
que son importantes e s t ocultas entre ellos
n d e a ?
POR TANTO
d n t ic
Y m
s e
Un dataset es una materia prima que no se agota
cuando se usa ni siquiera semnticamente.
C
po om
r G pr
(2 oo ada
01 gl
0) e!
En 2015
En 2016
En 2016 Dnde est?
70.000 millones de hechos almacenados
https://www.google.com/intl/es/insidesearch/features/search/knowledge.html
Conclusin: Es big
Knowledge
ejemplos
de
nacidoEn
triples
dirigi
esUna
tieneCartel
RDF (Description Framework)
Alimentando OpenGraph
Es Open Graph EL MODELO?
Una consulta para OpenGraph se puede
considerar semntica
No es demostracin automtica
Pero y si es EL MODELO a tener en
cuenta?
http://actualfacebookgraphsearches.tumblr.com/
Semntica: Linked Data y metadatos
Necesitamos aadir razonamiento lgico al razonamiento estadstico
https://grakn.ai/
Tendencia (~2024)
Stream Data Sensor Data
Automated Annotation
Automated Ontology
Population
K-anonimizacion
Problemas ticos
tica
~1950-1958
Combinando datos de
diferentes fuentes podemos
obtener informacion
personalizada.
Combinando datos de
diferentes fuentes podemos
La curacin de contenido
obtener informacion
personalizada. amenaza la privacidad
Privacidad diferencial
IA como amenaza a la
privacidad
Los datos pasados estn almacenados. Cualquier
nueva tcnica puede aprovecharlos
Seguridad:
cesin de control a IA