Está en la página 1de 36

Calidad de los Datos

Espaciales

Original de P.A.J. van Oort


Impartida el 10 de septiembre de 2003
Center for Geo Information (Universidad de
Wageningen)
Traducida al espaol por M.A. Bernab y M.A. Manso

Miguel A. Bernab + Miguel A. Manso. Grupo de

Resumen previo

Introduccin: La Importancia de la QDE


Definiciones
Acerca de la QDE
Futuras Investigaciones y Conclusiones
Abreviaturas de estas transparencias
QDE: Calidad de los Datos Espaciales
IQD: Informacin sobre la Calidad de los Datos Espaciales
IDE: Infraestructura(s) de Datos Espaciales (o Geo-Espaciales)

Introduccin
Definiciones
Acerca de la QDE
Futuras
Investigaciones.

Miguel A. Bernab + Miguel A. Manso. Grupo de

Desarrollos en el uso de
GeoDatos
Hay ms informacin
Es ms fcil de acceder a la informacin
Hay ms usuarios
Hay ms aplicaciones
Es mucho ms fcil combinar datasets y realizar
toda clase de manipulaciones SIG con ellos
Una larga distancia entre el usuario y el
productor
Introduccin
Definiciones
Acerca de la QDE
Futuras
Investigaciones.

Miguel A. Bernab + Miguel A. Manso. Grupo de

Como consecuencia:
La posibilidad de uso errneo ha crecido
Los usuarios quieren saber si un conjunto de
datos vale para lo que quiere
Los usuarios quieren saber los efectos de la QDE:
Debido a que quieren hacer un buen trabajo
Porque les pueden exigir responsabilidades
(litigios)

Hay una necesidad de mtodos formales para el


almacenamiento, tratamiento y visualizacin de
la IQD (Informacin sobre la Calidad de los Datos
Espaciales)
Introduction
Definitions
Dealing with
SDQ
Future Research

Miguel A. Bernab + Miguel A. Manso. Grupo de

Desarrollos actuales
Crece el inters en el conocimiento de QDE
Los estndares se desarrollan para facilitar el
almacenamiento y el intercambio de IQDE:
SDTS, ICA, CEN/TC278, ISO/TC211
El software se desarrolla para almacenar los
metadatos incluyendo la IQDE.
Las herramientas para el manejo y la
visualizacin de QDE estn desarrolladas pero
apenas implementadas en el SIG.
Introduction
Definitions
Dealing with
SDQ
Future Research

Miguel A. Bernab + Miguel A. Manso. Grupo de

Ejemplos de importancia de la
QDE

Un granjero recibe subsidios proporcionales a la


superficie de su tierra. l dice que su tierra es mayor
( ms subsidios!) que lo que dice el gobierno.
La diferencia puede ser debida a:
(1) errores del granjero, o
(2) errores en los geodatos del gobierno
El polgono 1000
tiene 891,858 m2

1000
3000
2000
4000

No! Son
908,117 m2

6000
5000

Introduction
Definitions
Dealing with
SDQ
Future Research

Miguel A. Bernab + Miguel A. Manso. Grupo de

Ejemplos de importancia de la
QDE
Un pas desea bombardear una embajada utilizando un
misil con GPS, que vuela automticamente a la
embajada con informacin procedente de un plano de la
ciudad.
peroEst todava ahi la embajada o la han
cambiado?
(est el mapa
actualizado?)
Cual es la precisin posicional del mapa?

Introduction
Definitions
Dealing with
SDQ
Future Research

Miguel A. Bernab + Miguel A. Manso. Grupo de

Ejemplos de importancia de la
QDE
El ministro de transportes quiere saber cuanto dinero
necesita para el mantenimiento de una carretera. La
longitud de la carretera en el 1/10.000 parece ser
superior a la 1/25.000
Qu mapa debe el ministro utilizar?
1:10,00
0
1:25,00
0

Mirando un solo mapa no


puede saber nada
Comparando ambos mapas
no hay duda de que el
1:10.000 es mejor

Introduction
Definitions
Dealing with
SDQ
Future Research

Miguel A. Bernab + Miguel A. Manso. Grupo de

Perspectivas sobre calidad de


datos
Usuario:
precio
accesibilidad
Se ajustan estos datos a mi necesidad?
Productor:
Correspondencia con el suelo nominal
Encuentra especificaciones
Cmo documentar la QDE de una manera
comprensible para todos los usuarios?
Suelo nominal = una representacin
simplificada del (complejo) mundo real,
de acuerdo con los datos que se han
recogido.
Introduction
Definitions
Dealing with
SDQ
Future Research

Miguel A. Bernab + Miguel A. Manso. Grupo de

Definiciones (1) 7 elementos de


calidad de datos
1. Linaje

5. Exactitud Temporal

2. Consistencia

6. Exactitud
Posicional

3. Completitud

7. Exactitud Temtica

4. Exactitud
Semntica

Completitud:
Contiene
el Dataset
esas
carctersticas
Linaje:
Consistencia:
Historia
Especificacin
del Dataset.
de con
lascon
reglas
lgicas
con
Exactitud
Exactitud
semntica:
Temtica:
Temporal:
Posicional:
Correspondencia
La
El
Correspondencia
detalle
precisin
el de
que
delos
la
se
lossituacin
valores
describen
objetos
que
se supone
que debera
contener?
El que genera
el
las
que
el
conjunto
de
datos
debe
serNota:
conforme
y hasta
espaciales
de
las
con
los
fechas
sus
atributos
verdaderas
se
.
describen
con
posiciones
los
.
valores
reales
dataset
mide
completitud
de acuerdo con la especificacin nominal. De
Quin
lolaha
producido?
qu
punto
se
violan
estas
forma que si la especificacin nominalespecificaciones
dice que slo se incluyen los lagos
mayores
de lo
1 km2
todos los lagos mayores que esa cantidad estn incluidos,
Quin
haymodificado?

entonces el dataset est completo. Sin embargo, ese dataset no servira para Introduction
un usuario que est interesado en lagos menores.
Definitions (1)
Dealing with
SDQ
Future Research

Miguel A. Bernab + Miguel A. Manso. Grupo de

Ejemplos de QDE Pobres


Consistencia lgica
Entre el 1% (adicin de nuevos datos) y el 5% (datos del

contrato de pre-mantenimiento)
Completitud
Algunas caractersticas (features) pueden haber sido

eliminadas
Detalles de direcciones de calles parcialmente incompletas
Bien:

Ayuntamiento de Vallecas: Nombres de calles


incompletos para el 1% de la longitud total de calles,
5% del todas las calles.

Exactitud Temporal
Fotografas areas 1965-1992

Bien:

Grupo de Fotos 1: adquisicin ao


Grupo de Fotos 2: adquisicin ao

Introduction
1965Definitions (1)
Dealing with
1980SDQ
Future Research

Miguel A. Bernab + Miguel A. Manso. Grupo de

Ejemplos de QDE Pobres


Exactitud Posicional
Variable, +/- 100m, 100m a 1000m
Pueden estar presentes algunas discrepancias cartogrficas
Bien:

RMSE = 100 m.

Bien:

error posicional < 1 m con una probabilidad del 95%

Exactitud de Atributos
Sin importancia (para un mapa de vegetacin)
Gran precisin de atributos
Bien:
Pr(actualidad = BOSQUE | clasificado como = PASTO) = 0.01
Bien:

Porcentaje correctamente clasificado: 85.3%


Introduction
Definitions (1)
Dealing with
SDQ
Future Research

Miguel A. Bernab + Miguel A. Manso. Grupo de

Ejemplos de QDE Pobres


Exactitud Semntica
Pasto: es todo rea cubierta de pasto

Qu es incorrecto ah?
Est tambin contado el pasto de los parques en reas

urbanas?

Qu ocurre con el pasto en los terraples? O estn stos

clasificados como terraplenes?


Que ocurre si hay una combinacin de pastos y rboles?

Los requisitos respecto al detalle en la definicin de


clases dependen del uso.
Introduction
Definitions (1)
Dealing with
SDQ
Future Research

Miguel A. Bernab + Miguel A. Manso. Grupo de

Definiciones (2):
QDE en la 3 dimensin
1. Dimensin Temporal
2. Dimension Espacial
3. Dimensin Temtica
Ejemplo: Dimensin espacial:
Temporal
Lasprecisin
La
cosechasposicional
cultivadasesen
deterrenos
60dm en
dereas
granjas
rurales
Ejemplo: Dimensin Temtica:
cambian
y
de 30 dm
anualmente,
en reas urbanas
por lo tanto, la calidad de las
especificaciones
la
precisin posicional
de esteesconjunto
10 dm para
de datos
carreteras,
se aplican
100
slolmites
dm
en el ao
entre
encampos
el que fue adquirido el dato

Introduction
Definitions (2)
Dealing with
SDQ
Future Research

Miguel A. Bernab + Miguel A. Manso. Grupo de

Definiciones (3): exactitud, precision,


sesgo
Exactitud (accuracy): desviacin del verdadero
valor
Precision: nivel de detalle
Bias: Tendencia, sesgo

ACCURATE

NOT ACCURATE

NO BIAS

NOT ACCURATE NOT ACCURATE

BIAS

PRECISE

IMPRECISE

Miguel A. Bernab + Miguel A. Manso. Grupo de

Ejercicio: sesgo
16

Overlay: where do series y and z overlap?

Todos los puntos estn sesgados

14

16

12

14

12
10

y_true
y_tested

10

Debido al sesgo, y1 es inexacto:


todos los puntos se desvan de su
verdadera posicin
Despus de quitar el sesgo, y1es
preciso

8
6

ACCURATE

4
2

NO BIAS

y_true

00
0

NOT ACCURATE

NOT ACCURATE NOT ACCURATE

y1_tested
BIAS

1010

1212

1414

1616

PRECISE

IMPRECISE

P. Estn estimadas correctamente las posiciones de los


puntos?
P.
Est correctamente estimada el rea del polgono?
P. En qu otra operacin SIG hay un problema con el
sesgo ?

R. no
R. si
R. recubrimiento

Miguel A. Bernab + Miguel A. Manso. Grupo de

Ejercicio: imprecision
y2 is no sesgado

14

y2 is inexacto

12

10

y2 is impreciso

ACCURATE

NOT ACCURATE

NO BIAS

4
NOT ACCURATE NOT ACCURATE

y_true
y2_tested

BIAS

0
0

10

12

PRECISE

IMPRECISE

P. Estn las posiciones de los puntos estimadas


correctamente?
R. No, en promedio: si
P. Est estimada correctamente el rea del polgono?
R. No, en promedio: si

Introduction
Definitions (3)
Dealing with
SDQ
Future Research

Miguel A. Bernab + Miguel A. Manso. Grupo de

Prospeccin de Futuro
Modelos de error para cuantificar las
implicaciones de QDE.
Mejores formas de comunicacin del error;
Prevenir mal uso de los datos espaciales;
Aprender a vivir con los errores.

Introduction
Definitions
Dealing with
SDQ
Future Research

Miguel A. Bernab + Miguel A. Manso. Grupo de

Modelos de error:
Perturbacin de los lmites de
polgonos
La posicin de cada punto
de cada polgono est
perturbada, de acuerdo con
exactitud posicional de los
puntos.
Polygon
ID
1000
2000
3000
4000
5000
6000

Mean Area
(sq. m)

Standard
Deviation (m)

891,858
890,109
945,222
358,775
980,115
459,807

5,420
9,920
3,890
5,408
6,748
7,176

1000
3000
2000
4000

6000
5000

Introduction
Definitions
Dealing with
SDQ
Future Research

Miguel A. Bernab + Miguel A. Manso. Grupo de

Modelos de error:
Perturbing polygon boundaries
De acuerdo con el mapa, el
polgono tiene una superficie de
893,703.

40

30

De acuerdo a otra fuente, el


polgono tiene un rea de 908,117.

20

Pr. Puede deberse esa diferencia


de superficies a errores
posicionales en el mapa?

10

Std. Dev = 5419.60


Mean = 893703

0
881,286

N = 120.00
890,429

885,857

899,571

895,000

908,714

Resp. Si, es posible, pero la otra


fuente es muy probablemente
incorrecta.

904,143

Area of Polygon ID = 1000

Introduction
Definitions
Dealing with
SDQ
Future Research

Miguel A. Bernab + Miguel A. Manso. Grupo de

Modelos de error:
Una matriz de error
ground truth
Arable land Water
Arable land

Urban

Forest

Total

Users' accuracy

10

0.1

0.4

13.5

74%

Water

0.5

0.1

0.4

83%

Urban
tested
dataset
Forest

0.3

9.3

86%

0.1

20

22.1

90%

13.5

5.4

8.6

23.4

50.9

74%

93%

93%

85%

Total
Producers'
accuracy

84%

Las probabilidades de la matriz de error de que las


clases se confundan una con otra son:
Pr(actual = Forest | classified = Forest) = 20 / 22.1 = 0.90
Pr(actual = Arable | classified = Forest) = 2 / 22.1 = 0.09

Miguel A. Bernab + Miguel A. Manso. Grupo de

Modelos de Error:
perturbaciones en las clases de cubiertas
del suelo

Crear 100 Mapas Reclasificados, basados en probabilidades de la


matriz de error
Poner en marcha un modelo con cada uno de estos mapas;
Introduction
Incertidumbre en el modelo de salida debido a la QDE.

Definitions
Dealing with
SDQ

Miguel A. Bernab + Miguel A. Manso. Grupo de

Utilidad: uso de modelos de error


Calcular las
probabilidades
basadas en
QDE,
utilizando
modelos de
El riesgo se
error
expresa en
Euros, en
nmero de
personas
afectadas, etc.

Miguel A. Bernab + Miguel A. Manso. Grupo de

Modelado de errores: que hace que sea tan


duro?

A menudo, el gran nmero de datasets combinados hace


difcil modelar el error de progacin.
Estn correlados los errores entre los datasets?
Esto no se conoce. La calidad se describe para cada dataset por
separado.

La IQDE no est disponible para todos los datasets o est


pobremente descrita.
El Software no proporciona herramientas para implementar
modelos de errores, por lo que tienes que programarlo tu
mismo.
Sabes como?
Piensas que merece la pena este gasto de tiempo?
Introduction
Definitions
Dealing with
SDQ
Future Research

Miguel A. Bernab + Miguel A. Manso. Grupo de

Alternativas para valorar la


utilidad

Preguntar al productor de datos si el dataset sirve para el


trabajo especfico que vamos a hacer.
Prueba y error
Mirar la calidad que se requiere para aplicaciones similares
Utilizar el mejor dato disponible
Ser honesto en el hecho de que no hay datasets perfectos.
Comenzar pensando en qu hacer cuando algo vaya mal..

Introduction
Definitions
Dealing with
SDQ
Future Research

Miguel A. Bernab + Miguel A. Manso. Grupo de

Vivir con el error: mantener la


credibilidad
Ejemplo
Un gobierno utiliza un mapa para calcular las compensaciones
a los granjeros debido a una inundacin..
Se compensa a los granjeros.
Debido a que el mapa no es perfecto, algunos granjeros que
deberan haber sido compensados no lo han sido.
De desarrolla un procedimiento que permita a esos granjeros
probar que han sufrido daos y poder cobrar la subvencin
Todos los granjeros son informados de este procedimiento..
Introduction
Definitions
Dealing with
SDQ
Future Research

Miguel A. Bernab + Miguel A. Manso. Grupo de

Comunicacin del error: metadatos


en clearinghouses (1)
En este caso el productor
informa de los usos
sobre los que puede
utilizarse este dataset

Introduction
Definitions
Dealing with
SDQ
Future Research

Miguel A. Bernab + Miguel A. Manso. Grupo de

Comunicacin del error: metadatos en


clearinghouses (1)

Introduction
Definitions
Dealing with
SDQ
Future Research

Miguel A. Bernab + Miguel A. Manso. Grupo de

Software para la gestin de la


QDE:
Software para detectar errores.

Introduction
Definitions
Dealing with
SDQ
Future Research

Miguel A. Bernab + Miguel A. Manso. Grupo de

Software para la gestin de la


QDE

Introduction
Definitions
Dealing with
SDQ
Future Research

Miguel A. Bernab + Miguel A. Manso. Grupo de

Software para prevenir mal uso

Introduction
Definitions
Dealing with
SDQ
Future Research

Miguel A. Bernab + Miguel A. Manso. Grupo de

Investigacin Futura (1)

Estndares para documentar la calidad adoptada para los


datos

Continuacin del trabajo sobre modelamiento del error y su


comunicacin

Desarrollo de software
Para facilitar el modelado del error y el anlisis del
riesgo
Para mejorar la comunicacin y los avisos

Promocionar el anlisis de riesgo para determinar la


utilidad
Introduction
Definitions
Dealing with
SDQ
Future
Research

Miguel A. Bernab + Miguel A. Manso. Grupo de

Futuras investigaciones (2)

isla

Mantener la integridad de la IQDE en las Infraestructuras de


GeoDatos

Org. 1

Org. 2

Org. 3

Exactitud
Temtica:
100%

Chequeo de
consistencia: la
isla se quita

Piensa que la exactitud


temtica es del 100%,
Pero encuentra el 90%

Mantener la integridad de la IQDE es un tema tcnico y de


gestin.
Introduction
Tcnicamente: Cmo se hace? Puede automatizarse? Definitions
Gestin: Quien es el responsable?
Dealing with
SDQ
Future
Research

Miguel A. Bernab + Miguel A. Manso. Grupo de

Conclusiones

La calidad de los datos es demasiado importante para


ignorarla

Los efectos de la calidad de los datos pueden ser


cuantificados, pero se necesita mejorar la teora y el
software.

Los mtodos para recolectar datos se mejoran da a da


y como resultado, la calidad de los datos mejora.

Pero los errores no sern nunca eliminados del todo y


tendremos que acostumbranos a vivir con cierta
incertidumbre en nuestros datos.
Introduction
Definitions
Dealing with
SDQ
Future
Research

Miguel A. Bernab + Miguel A. Manso. Grupo de

Gracias por su atencin


Preguntas?

Miguel A. Bernab + Miguel A. Manso. Grupo de

Algunos websites

Estndares
http://www.isotc211.org/scope.htm#19114
http://mcmcweb.er.usgs.gov/sdts/SDTS_standard_nov97/part1toc.html

Modelamiento del Error


http://www.clarklabs.org/IdrisiSoftware.asp?cat=2
http://www.esri.com/news/releases/03_2qtr/reviewer.html

Metadatos
http://geodesk.girs.wau.nl/geokey/select.htm (in dutch)
1:250,000 scale Arkansas State Soil Geographic (STATSGO):
http://geoserver2.wr.usgs.gov/servlet/FGDCServlet/retrieve?
pn=1&el=F&db=current&rp=3&mr=1&ac=current&cid=25

Miguel A. Bernab + Miguel A. Manso. Grupo de

También podría gustarte