Línea de investigación:
IQUITOS – PERÙ
2018
1
INDICE
- INTRODUCCIÓN ……………………………………………………………………3
- MARCO TEORICO…………………………………………………………………..4
EXACTITUD Y PRECISION)…………………………………………5
- CONCLUSIONES…………………………………………………………………..27
- BIBLIOGRAFÍA……………………………………………………………………28
2
INTRODUCCION:
Puesto que los datos son la base de todo el trabajo que realizamos en un SIG, su calidad
es vital para que ese trabajo tenga sentido y aporte unos resultados coherentes y útiles.
Siendo la calidad el conjunto de propiedades y de características de un producto o
servicio que le confieren su aptitud para satisfacer unas necesidades explícitas e
implícitas desde el punto de vista del SIG unos datos espaciales de calidad serán
aquellos que puedan servir para alcanzar los objetivos de un proyecto concreto, dando
sentido a este.
Por definición, ningún dato es perfecto. Todo dato que utilicemos va a contener errores,
y estos pueden ser desde totalmente irrelevantes para el desarrollo de un proceso de
análisis hasta de tal magnitud que desvirtúen por completo los resultados de dicho
análisis. Es importante no solo contar con datos de calidad en los que estos errores sean
mínimos, sino conocer el tipo de error que existe en nuestros datos y la magnitud de
estos. Saber gestionar el error y ser consciente de las limitaciones de los datos de los
que se dispone es importante para saber interpretar los resultados derivados del trabajo
con dichos datos.
A lo largo de este capítulo veremos los aspectos más importantes que derivan de
considerar el error como parte inevitable de nuestro trabajo con datos espaciales. Ello
nos permitirá saber evaluar las capacidades de los datos para servir como punto de
partida de nuestro trabajo, y a llevar este a cabo de la mejor manera posible,
considerando que se trabaja simultáneamente con un conjunto de datos y con un error
implícito asociado a estos.
Según Gómez (2004) apunta las siguientes etapas para la modelación del error:
Identificación de la fuente de error, detección y medida del error, modelación de la
propagación del error propuestas de estrategias para la gestión y reducción del error.
Será sobre estas distintas fases sobre las que trataremos en las próximas secciones.
3
MARCO TEORICO.
En esta investigación se ha tenido la necesidad de hacer una concepción breve
de lo que caracteriza un sistema de información geográfica (SIG). Ya que es
necesario aproximarse a su entendimiento un sistema de información geográfica
Particulariza un conjunto de procedimientos sobre una base de datos no gráfica o
descriptiva de objetos del mundo real que tienen una representación gráfica y que
son susceptibles de algún tipo de medición respecto a su tamaño y dimensión
relativa a la superficie de la tierra. A parte de la especificación no gráfica el SIG
cuenta también con una base de datos gráfica con información georreferenciada o
de tipo espacial y de alguna forma ligada a la base de datos descriptiva. La
información es considerada geográfica si es mesurable y tiene localización. En un
SIG se usan herramientas de gran capacidad de procesamiento gráfico y
alfanumérico, estas herramientas van dotadas de procedimientos y aplicaciones
para captura, almacenamiento, análisis y visualización de la información
georefenciada. La mayor utilidad de un sistema de información geográfico está
íntimamente relacionada con la capacidad que posee éste de construir modelos o
representaciones del mundo real a partir de las bases de datos digitales, esto se
logra aplicando una serie de procedimientos específicos que generan aún más
información para el análisis.
Frente a este contexto podemos decir que Todo dato espacial contiene algún tipo
de error, en mayor o menor medida. Conocer las razones por las cuales aparecen
esos errores es importante para poder evaluar correctamente la validez del trabajo
que realizamos con los datos y los resultados que obtenemos a partir de ellos. En
este capítulo se estudiaran los principales errores que pueden afectar a los distintos
tipos de datos espaciales, las fuentes principales de dichos errores y las maneras
en que estos pueden gestionarse dentro de un proyecto SIG.
Puesto que los datos son la materia prima para obtención de nuevos datos a través
de los procesos y operaciones que dentro de un SIG realizamos con ellos,
trataremos también la forma en que los errores en los datos de partida afectan a
los resultados que derivemos de ellos.
4
I. DEFINICIONES BASICAS (CALIDAD DE DATOS, ERROR, EXACTITUD Y
PRECISION).
Las razones por las que la calidad de los datos empieza a considerarse como un
elemento de gran relevancia en el ámbito geográfico son principalmente dos
Estos dos factores, inevitablemente unidos, han favorecido que el volumen de trabajo
sobre datos espaciales sea mayor y que además se use un número más elevado de
datos distintos. Es lógico pensar que, a raíz de esto, haya surgido el interés por evaluar
y tratar de forma rigurosa las condiciones en las que estos trabajos se están llevando a
cabo.
La preocupación por la calidad de los datos es básica por el simple hecho de que datos
de mala calidad generan invariablemente resultados de mala calidad. Utilizar un dato de
mala calidad es equivalente a utilizar un modelo equivocado. Si el modelo no es cierto,
no importa la buena calidad de los datos, ya que los resultados que arrojará tampoco lo
serán. Del mismo modo, un dato con un error superior al que puede resultar tolerable
para una determinada tarea hace que la calidad de este sea insuficiente, y los resultados
obtenidos carecen de valor.
A pesar de que la aparición de los SIG ha sido una de las razones principales para que
se tenga en consideración la calidad de los datos y se especifique formalmente el modo
de tratarla y gestionarla, los SIG en sí no disponen apenas de herramientas para asistir
en estas tareas. Aunque la ciencia de la información geográfica ha avanzado mucho en
ese sentido, y el conocimiento relativo a la calidad de los datos espaciales es mucho
mayor, los SIG no han incorporado ese conocimiento, y carecen de funcionalidades al
respecto. Dicho de otro modo, existen las formulaciones y los elementos teóricos, pero
5
estos aún no se han visto materializados (o lo han hecho de forma prácticamente
anecdótica) en los SIG de uso habitual. Por esta razón, la mayoría de usuarios de SIG
no tienen en cuenta rigurosa y formalmente la calidad de los datos a la hora de
desarrollar su trabajo, quedando aún mucho por avanzar en este sentido.
Error.
A modo de ejemplo, para aclarar estos conceptos, supóngase que se captura un dato,
como puede ser la longitud de una distancia, con un determinado método e instrumento
obteniendo una medida muy exacta. Considerando todas las correcciones necesarias,
su valor final es de 317,518 m con una incertidumbre muy pequeña, casi despreciable,
digamos por debajo de la décima de milímetro. Por tanto, la longitud 317,518 m se
considerará como el valor de referencia de la distancia en cuestión. Supóngase, que con
posterioridad se realiza una medición de esa distancia con otro instrumento, resultando
un valor de 317,515 m. El error de medida de este resultado es de (317,515 – 317,518)
m = -0,003 m. Una segunda medición da un valor medido de 317,514 m, con un error
medida de (317,514 – 317,518) m = -0,004 m. Tras tomar 200 medidas y sacar un
promedio se obtiene un valor de 317,516 m con un error de medida de (317,516 –
317,518) m = -0,002 m. Este sesgo de medida, cuyo valor es de -0,002 m es el
denominado error sistemático de medida,
6
datos, y la modelización de la incertidumbre es una alternativa a la modelización del
error.
La precisión
Se refiere al nivel registrado de detalle. Una distancia registrada como 173.345 metros
es más precisa que si se registra como 173 metros. Sin embargo, es bastante posible
que los datos sean exactos (dentro de una cierta tolerancia) sin ser precisos. También
es posible ser preciso sin ser exacto. De hecho, los datos registrados con un alto grado
de precisión pueden dar una impresión equivocada de exactitud.
La exactitud
La exactitud nos indica el grado en que un valor de datos de medición se aproxima a su
valor real. Ningún conjunto de datos es cien por ciento exacto. La exactitud podría
cuantificarse utilizando intervalos de tolerancia, es decir, la distancia entre dos puntos
puede ser expresado como 173 metros más o menos 2 metros. Estas bandas se
expresan generalmente en términos probabilísticos (es decir, 173 metros más o menos
2 metros con 95 por ciento de confianza).
Figura 1. Precisión frente exactitud. Las medidas exactas caen en el centro. Las mediciones precisas
están estrechamente agrupadas. Las medidas exactas y precisas están estrechamente agrupados en el
centro.
7
que las posiciones se han medido con 5 valores decimales es más precisa que una en
la que se han medido con un único decimal.
precisión exactitud
En a) y b) la precisión es elevada, Por su parte, en a) y c) la exactitud es
mientras que en c) y d) es baja. baja, siendo alta en b) y d).
Es posible, no obstante, que un dato sea muy preciso pero poco exacto, ya que las
magnitudes de los distintos tipos de errores pueden ser muy distintas. Este hecho
puede verse claramente en la figura 1
Dependiendo del uso que se pretenda dar a una capa de datos geográficos, se
requerirá una u otra precisión. Un trabajo geodésico requerirá medir la localización de
un punto con precisión milimétrica, mientras que para un muestreo para inventario
forestal es suficiente localizar las parcelas correspondientes con una precisión mucho
menor.
8
II. FUENTES DE INEXACTITUD E IMPRECISION. TIPOS DE ERROR (EXACTITUD
Y PRECISION: PISICIONAL, DE LOS ATRIBUTOS, CONCEPTUAL Y LOGICA).
Son muchas las fuentes de error que pueden afectar la calidad del conjunto de datos de
un SIG. Esto, que resulta muy obvio, puede no ser tan difícil de discernir. Algunas de
ellas serán automáticamente identificadas por el mismo SIG, pero es responsabilidad
del usuario su prevención. Algunos casos particulares puede necesitar de
comprobaciones específicas de error, porque los propios SIG son capaces de inducir al
usuario una falsa sensación de exactitud y precisión sin garantizar la validez de los
datos. Por ejemplo, suavizar cambios en las líneas fronterizas, en las curvas de nivel y
en las zonas de cambio de los mapas de coropletas es una "elegancia que falsea" la
realidad. En realidad, estas cuestiones son a menudo "vagas, graduales o azarosas"
Según Burrough ( 1986).
Por otro lado Koeln (1994). Hay una imprecisión inherente en la cartografía como
resultado de los procesos de proyección y la necesaria distorsión producida en algunos
de sus datos (una imprecisión que puede continuar a través de los procesos aplicados
con los SIG. Los usuarios de los SIG deben ser capaces, no sólo de reconocer el error,
sino el grado de error tolerable y asumible del sistema.
En esta misma linea Burrough (1986) divide los tipos de error en tres grandes categorías:
Las fuentes de datos pueden ser simplemente antiguas para ser usadas en
un proyecto SIG. Las colecciones estándar del pasado pueden ser
desconocidas, inexistentes o desfasadas. Por ejemplo, los datos topográficos
9
del Gran Cañón obtenidos por el decimonónico John Wesley Powell,
contienen falta de precisión para ser utilizados hoy en día. Además, una parte
de la información base puede, además, haber cambiado como consecuencia
de la erosión, la deposición o cualquier otro proceso geomorfológico. Pese al
poder de los SIG, la dependencia de datos antiguos puede tergiversar, sesgar
o convertir en negativos los resultados.
10
intervalo de datos grabados, de este modo el más cercano al intervalo
muestral, alcanza la mayor precisión de datos dibujados.
2.1.1.5. Relevancia.
2.1.1.6. Formato.
11
proyección, los cambios desde raster a vector y la resolución del tamaño y
profundidad del píxel, son ejemplos de los posibles errores inherentes al
formato de los datos. En ocasiones, los datos han de ser transmitidos y
utilizadas en múltiples SIG por lo que deben reformarse bajo un mínimo
denominador común. Múltiples conversiones desde un formato a otro pueden
crear un efecto similar a realizar copia tras copia en una máquina
fotocopiadora. Además, hay que tener en cuenta que los estándares
internacionales para la transmisión, almacenamiento y recuperación de datos
cartográficos no estén totalmente realizados.
2.1.1.7. Accesibilidad.
2.1.1.8. Coste.
12
2.1.2. Errores resultantes de la variación natural de los datos originales.
En ocasiones estas fuentes de error pueden no ser tan obvias, una revisión
cuidadosa puede mostrar su trascendencia en el proyecto.
Otros errores en exactitud cuantitativa pueden ocurrir por los defectos de los
instrumentos de calibración usados para medir aspectos concretos como la
altitud; el pH del suelo o del agua, o los gases atmosféricos. Los errores
cometidos en el campo o en el laboratorio, pueden ser indetectables en un
proyecto SIG, salvo que el usuario confirmara o corroborara la validad de la
información.
13
Las variaciones en los datos pueden realizarse por la introducción de errores
de medida durante la observación, por la predisposición del observador o por
falta de una adecuada calibración del equipamiento. Por ejemplo, se puede
no esperar precisiones submétricas con un GPS de mano sin corrector
diferencial. Por otra parte, una incorrecta calibración en las formas de disolver
el oxígeno puede producir valores incorrectos de concentración del mismo en
una corriente.
Puede ser también una variación natural durante la toma de datos. Así, por
ejemplo, la salinidad en la bahía y en el estuario de Texas varía durante el
año dependiendo del influjo de la las corrientes frías en profundidad y de la
evaporación. Si alguien no fuera consciente de esta variación natural, ideas y
decisiones erróneas pudieran ser tomadas, introduciendo un significativo error
en el proyecto SIG. En algunos casos, si el error no da lugar a inesperados
resultados, su detección sería extremadamente difícil.
Los errores originados durante los procesos son los más difíciles de detectar por los
usuarios de los SIG. Pueden ser específicamente buscados para lo cual se requiere
conocimiento de la información y de los sistemas usados en su procesamiento. Hay
suberrores que ocurren de diferentes modos, habiendo otros potencialmente más
insidiosos, porque pueden ocurrir en múltiples conjuntos de datos durante su
manipulación en un proyecto SIG.
14
Un mayor reto es el de la exactitud en la conversión de mapas existentes en
formato digital (Muehcke 1986). Como los ordenadores manipulan los datos
en formato digital, los errores numéricos pueden producir resultados
inexactos. En cualquier caso, los errores en los procesos numéricos son
extremadamente difíciles de detectar, y quizá requieran de una sofisticación
no presente en la mayoría de los usuarios de SIG o promotores de proyectos.
Los errores lógicos pueden causar una incorrecta manipulación de los datos
y de los análisis topológicos. Se pueden reconocer qué datos no son
uniformes y están sujetos a variaciones. La superposición de múltiples capas
de mapas puede resultar ocasionar problemas del tipo "Slivers", "Overshoots"
y "Dangles". Variaciones en la exactitud entre diferentes capas del mapas
pueden oscurecer durante le proceso en la creación de "datos virtuales los
cuales pueden dificultar el reconocimiento de los datos reales" (Sample,
1994).
15
vectorial. Los errores fisiológicos del operador por contracciones involuntarias
del músculo pueden dar lugar a "spikes" (puntos), a "switchbacks" (zig-zags),
a "polygonal knots" (nodos poligonales), y a "loops" (lazos). Los errores
asociados con los mapas fuente dañados, el error del operador mientras lo
convertía a digital, y los prejuicios puede ser comprobados comparando los
mapas originales con versiones convertidas a digital. Otros errores resultan
más evasivos.
Cuando un dato espacial llega a nosotros para ser empleado en un SIG, ha pasado por
una serie de etapas a lo largo de los cuales puede haber incorporado errores.
Estudiando esas etapas por separado, encontramos las siguientes fuentes de error.
Taylor (1998).
El dato vectorial del que disponemos proviene originariamente de una fuente primaria,
la cual puede contener errores. Si esta fuente contiene errores, estos aparecerán
también en los datos que se deriven de este. Así, si digitalizamos en base a un mapa
escaneado y la hoja original es errónea, también lo serán las capas que creemos en esa
digitalización.
Los procesos que realizamos para crear la capa pueden incorporar errores en el
resultado. Por ejemplo, en el proceso de digitalización en base a ese mapa escaneado
pueden aparecer errores por razones tales como un mal trabajo del operario, ya sea al
digitalizar las entidades sobre una tableta o al teclear los valores de los atributos. Otros
procesos, como pueden ser los de conversión entre los modelos ráster y vectorial,
16
también pueden tener como consecuencia la aparición de errores. Los capítulos
Creacion_capas_raster y Creacion_capas_vectoriales tratan estos procesos de
conversión, y se verá en su momento los posibles errores que pueden aparecer en cada
caso y las razones por las que lo hacen. Igualmente, se verá como aplicar a esos
procesos los elementos de medida del error que se desarrollarán más adelante en este
capítulo.
17
2.3. Las componentes de la calidad.
Todo dato espacial tiene asociada una referencia geográfica. La precisión con la que se
toma esta condiciona la calidad del dato. Esta precisión puede considerarse únicamente
en los ejes x e y, o también en el eje z (elevación). Esta última, no obstante, puede
considerarse como un atributo si se trabaja en un SIG bidimensional, y tratarse de la
misma forma que cualquier otra variable de similar índole sin significado espacial, tal
como la temperatura en el punto (x,y) en cuestión
18
red. Los canales individuales pueden estar mal clasificados si los tributarios están mal
localizados. Por ello, algunos estudios pueden no requerir un tipo preciso de
categorización del orden de las corrientes. Todo lo más que pueden necesitar es la
localización y el nombre de las corrientes fluviales, sin tener en cuenta el orden.
Finalmente señalar, cometeremos una equivocación si creemos que una gran exactitud
y una gran precisión de la información es necesario para todas las aplicaciones de los
SIG. La necesidad de exactitud y precisión puede variar radicalmente dependiendo del
tipo de información codificada y del nivel de medida necesario para una particular
aplicación. Son los usuarios los que deben determinar el alcance de su trabajo. Excesiva
exactitud y precisión no sólo es costoso, sino también puede resultar un gran engorro.
19
III. PROPAGACION DE LOS ERRORES.
La propagación de errores puede ser muy variable en función del tipo de error que
aparezca y la clase de análisis que se lleve a cabo. Errores de gran magnitud en
el dato original pueden no tener apenas efecto en el resultado, mientras que
pequeños errores pueden causar grandes alteraciones en la calidad del resultado
20
gran error, aparecerán otros también con errores notables, y cerca de valores
donde el error es pequeño, no existirán puntos muy erróneos.
Los trabajos existentes tienen por objeto llamar la atención sobre los efectos de
la propagación del error en algunas simulaciones, especialmente las
relacionadas con las pendientes y orientaciones del terreno. Sin embargo, los
métodos prácticos de "vivir con el error" en una base de datos cartográfica y de
controlar sus efectos de forma general no están aún claros.
21
decisiones que se tomen a partir de la información defectuosa. En el segundo caso
se presenta información sintética mediante descriptores como las bandas épsilon,
los valores de ECM, etc. Estas medidas pueden poner sobre aviso de la calidad
de los datos por lo que suponen un avance notable sobre la primera actitud. Sin
embargo, no dan cuenta de los posibles efectos del error en el producto final
cuando éste es el resultado de una modelización compleja.
Las normas de propagación del error no son necesariamente simples, por lo que
su solución analítica puede ser inabordable. Asimismo, dependen estrechamente
de los algoritmos utilizados y, ocasionalmente, pueden cambiar en función de las
características del relieve de la zona.
22
IV. EVALUACIÓN DEL ERROR EN LOS MAPAS (ERROR MEDIO CUADRÁTICO -
RMS, MATRIZ DE CONFUSIÓN-KAPPA)
Generalmente se considera que existen dos tipos de error en los mapas o en las
imágenes clasificadas; los errores temáticos, que se refieren a errores de atributo
(etiqueta), y los errores geométricos (de posición) en la delimitación de los polígonos o
la ubicación de los pixeles. Estos dos tipos de error están estrechamente ligados y es
difícil separarlos. Carmel (2000) y Pearson (1995) distinguen un tercer componente de
error potencial en los mapas temáticos, el cual se atribuye a la heterogeneidad dentro
de un polígono.
23
Durante el análisis de la unidad de muestreo, se sugiere tener en cuenta su entorno.
Este paso consiste en la caracterización del sitio de verificación para asociarlo a una
o varias clases de la leyenda del mapa que se evalúa. En la práctica, la evaluación de
la unidad de muestreo, en particular si es un punto o un pixel, se lleva a cabo con base
en el análisis de una cierta área alrededor del mismo. Comúnmente, esta evaluación
conduce a asociar el sitio de verificación a una sola categoría de la leyenda del mapa.
Sin embargo, no es siempre posible ni conveniente limitarse a una clase única para
caracterizar el sitio de verificación, porque este ejercicio puede ser muy subjetivo.
MATRIZ DE CONFUSIÓN
24
Las características más destacadas de esta matriz son:
• Presenta una visión general de las asignaciones, tanto de las clasificaciones correctas
(elementos de la diagonal) como de las migraciones o fugas (elementos fuera de la
diagonal).
FG = 2421/ 2661 =0,9098 es decir, la fiabilidad global es del orden del 91,0 %
La estimación de fiabilidad global, está dada como el cociente entre la traza de la matriz
de confusión y la suma de sus elementos
Mide la cantidad de error que hay entre dos conjuntos de datos. En otras palabras,
compara un valor predicho y un valor observado o conocido. También se lo conoce
25
como Raíz de la Desviación Cuadrática Media y es una de las estadísticas más
utilizadas en SIG.
Por ejemplo, podemos comparar un punto de elevación LiDAR predicho con una
medición topográfica del terreno (valor observado).
ÍNDICE KAPPA.
26
CONCLUSIONES.
27
BIBLIOGRAFÍA
Ariza, Francisco, 2002. Calidad en la Producción Cartográfica. 389 pp. Madrid, Ra-
Ma Editorial.
International Organization for Standardization, 2002. Norma 19113, Principios de
calidad. 30 pp.
International Organization for Standardization, 2002. Norma 19114, Procedimientos
de evaluación de la calidad. 30 pp.
Moles i Plaza, Ramón, 2001. Derecho y calidad. El régimen jurídico de la
normalización técnica. 332 pp. Barcelona, Ariel.
Burrough, P.A. 1990. Principles of Geographical Information Systems for Land
Resource Assessment. Clarendon Press. Oxford.
28