Está en la página 1de 9

03-049-029 Probabilidad y Estadística (9 copias)

TRABAJO PRÁCTICO – UNIDAD 2


Sistemas de Información Geográfica – Conceptos Básicos e
Introductorios

DEPARTAMENTO DE GEOGRAFÍA
ASIGNATURA: PROBABILIDAD Y ESTADÍSTICA
1 de 9
DEPARTAMENTO DE GEOGRAFÍA
ASIGNATURA: PROBABILIDAD Y ESTADÍSTICA

VISUALIZACIÓN ESPACIAL DE DATOS Y SU RELACIÓN CON LA ESTADÍSTICA DESCRIPTIVA


Este trabajo práctico, pretenden dar a conocer a los alumnos sobre la importancia de llevar a cabo un
adecuado análisis estadístico de los datos geográficos. En efecto, el alumno suele trabajar o trabajará
en el futuro con información de carácter espacial (referida a unidades geográficas), con esta práctica
solo se dará una breve instrucción del potencial del análisis exploratorio de datos espaciales, utilizando
técnicas adecuadas para el análisis estadístico-gráfico-cartográfico.
Las técnicas que reúnen un grupo de herramientas estadísticas, suelen conocerse con el nombre de
Análisis Exploratorio de Datos Espaciales (AEDE) y es posible asociarla como una disciplina dentro
del más general Análisis Exploratorio de Datos (AED), también denominado “data mining”, que ha
sido diseñado para el tratamiento específico de los datos
espaciales o geográficos.
La estadística descriptiva está
El AEDE se utiliza para identificar relaciones sistemáticas constituida por un conjunto de técnicas
entre variables cuando no existen expectativas claras sobre la cuyo objetivo es clasificar, presentar,
naturaleza de estas relaciones. Esto último resulta muy describir, resumir y analizar los datos
habitual en el ámbito comercial para estudios del mercado relativos a una o más características de
geográfico (geomarketing), donde se suele trabajar con los individuos de una población, a
grandes bases datos cuya estructura no siempre es bien partir de la información sobre todos y
conocida. cada uno de ellos. Para cubrir estos
objetivos se vale de tablas, gráficos y
En los últimos años, los esfuerzos desarrollados por la resúmenes estadísticos.
investigación en este campo se han venido centrando en la
conexión de los Sistemas de Información Geográfica (SIG) La estadística descriptiva univariante
disponibles en el mercado con paquetes estadísticos se centra en el análisis de una única
tradicionales o específicos de AEDE. Actualmente, existe en característica o cualidad del individuo.
el mercado un nuevo programa informático, GeoDa1, Las características a analizar
concebido como un producto autosuficiente que no requiere presentan “N” modalidades,
de un sistema específico de GIS y funciona en cualquiera de exhaustivas y mutuamente excluyentes
los sistemas operativos de Windows y Macintosh. GeoDa ha
- Características cuantitativas o
sido desarrollado por el Profesor Luc Anselin2 de la
variables, si sus modalidades son
Universidad de Illinois y tiene la ventaja de ser, hasta el
numéricas; por ejemplo, el número de
momento, un producto “opersource”, es decir, de libre acceso
miembros de una familia o su renta.
en Internet.
Las variables pueden tomar pocos
1) Visualización Geoespacial en relación a sus datos valores y bien diferenciados (el número
tabulares de miembros) o muchos valores y poco
De manera particular, cuando no existe un marco formal o diferenciados (la renta).
teoría previa acerca del fenómeno que se analiza, deben de En este último caso, bien sea por la
utilizarse las técnicas del AEDE. Esta situación se plantea muy forma de recoger los datos, bien sea por
a menudo en el campo de las ciencias sociales, cuando se facilitar su análisis e interpretación,
analizan grandes bases de datos geográficos cuya distribución los datos se pueden disponer en
no se conoce a priori. intervalos, esto es, se pueden
El AEDE combina el análisis estadístico con el gráfico, dando categorizar; cuando esto ocurra, ya no
lugar a lo que podría denominarse una “visualización estamos ante una característica
numérica, sino ante un atributo
científica” (Haining3 et al., 2000) que, a los contrastes
ordinal.
estadísticos sobre los efectos espaciales de dependencia y
heterogeneidad, une un amplio marco de gráficos o “vistas”

1
https://geodacenter.asu.edu/ - http://geodacenter.github.io/download.html
2
ANSELIN, L. (2004), “GeoDaTM 0.9.5-i release notes”. Página web del “Spatial Analysis Laboratory”:
http://sal.agecon.uiuc.edu/stuff_main.php#tutorials
3
HAINING, R., S. WISE y P. SIGNORETTA (2000) “Providing scientific visualization for spatial data analysis:
Criteria and an assessment of SAGE”. Journal of Geographical Systems, 2; pp.121-140
1

2 de 9
DEPARTAMENTO DE GEOGRAFÍA
ASIGNATURA: PROBABILIDAD Y ESTADÍSTICA

múltiples y dinámicas sobre la información geográfica (Unwin4, 2000). Por eso, estos métodos de
visualización científica son mucho más que simples mapas o gráficos estáticos de representación.
En términos generales, las diferentes funciones de GeoDa podrían ser clasificadas en 6 categorías:
• tratamiento de datos geográficos
• transformación de datos
• representación gráfica en mapas
• gráficos estadísticos
• dependencia espacial
• regresión espacial
Como se aprecia en la figura, estas funciones pueden ser activadas a través del menú superior o
directamente, tecleando en los iconos de la barra de herramientas. En cada una de las secciones
principales existen varias sub-aplicaciones relacionadas.

Para el ingreso del dato el software otorga


múltiples posibilidades, de las cuales las
más comunes son las coberturas de ESRI
Shapefile (*.shp) y las tablas de tipo
Comma Separated Value (*.csv) y MS
Excel (*.xls).

Si el dato que se despliega es una cobertura con atributos geográficos se podrá observar que dos
ventanas, una de ella corresponde a la tabla y la otra a un mapa con la información que puede ser
puntos, polígonos o líneas.
Para el caso de la tabla, las características
estructurales de la misma pueden ser
observada y modificada realizando una
selección con el botón derecho del mouse y
optando por la opción “Variable Properties”.
Allí se podrá analizar el tipo de variable y si
fuese necesario modificar las características
de las mismas.

Recorte Espacial de Información


Existe la posibilidad de establecer cuáles serán los datos con los que usted trabajará, en el caso de que
no sea necesario realizar un análisis de la totalidad de la tabla. Para tales efectos será necesario realizar
una selección de datos desde la Barra Principal ir a Table > Selection Tool y realizar el proceso de
selección desde el Query.

4
UNWIN, A. (2000), “Using your eyes- making statistics more visible with computers”. Computational Statistics &
Data Analysis, 32; pp. 303-312.

3 de 9
DEPARTAMENTO DE GEOGRAFÍA
ASIGNATURA: PROBABILIDAD Y ESTADÍSTICA

Culminada la selección Usted


tendrá la opción de guardar dicha
información en una nueva
cobertura que tendrá únicamente el
recorte espacial que ha definido
previamente en la selección. Para
esto último tendrá que dirigirse a la
Barra Principal Fiel > Save
Selected As y optando por el tipo
de archivo con el cual se guardara
la nueva cobertura.

Creación de Nueva Información de la ya Existente


Para agregar nueva información a la tabla será necesario
agregar una nueva variable a la misma. Este proceso es muy
sencillo y podrá realizarse desde la Barra Principal: Table >
Add Variable. De esta manera se desplegará una nueva
ventana que será necesario configurarla in función de las
características de las variables a construir. Observe
detalladamente que puede el dato que será definido para la
variable puede ser definido de acuerdo a las necesidades que
se deseen, por tipo, máxima extensión y decimales.
2) Vinculación entre gráficos y la distribución espacial
de los datos tabulares.
Como propone Tukey5 (1977) para el AED, podría afirmarse que un buen método gráfico de AEDE es
aquél capaz de analizar y representar dos características fundamentales en toda distribución espacial:
tendencia y puntos atípicos.
“En el ámbito de las variables geográficas, la tendencia es de carácter geográfico y tiene un
sentido global, es decir, referido a todo el mapa (y no a una parte del mismo)”.
En cuanto a los atípicos espaciales (“spatial outliers”), se trata de especiales concentraciones de datos
cuyo valor se encuentra a cierta distancia de la tendencia general (mediana): por ejemplo, bajo/sobre
el primer/tercer cuartil de un diagrama de caja. Esta propiedad tiene un carácter local, pues suele

5
TUKEY, J.W. (1977), “Exploratory Data Analysis”. Reading: Addison-Wesley.
3

4 de 9
DEPARTAMENTO DE GEOGRAFÍA
ASIGNATURA: PROBABILIDAD Y ESTADÍSTICA

producirse en determinadas zonas del mapa general, normalmente en forma de agrupaciones (o


“clusters”) de valores muy altos/bajos comparativamente con el entorno.

Las técnicas estadísticas bivariantes permiten el análisis conjunto de dos características de los individuos de una
población con el propósito de detectar posibles relaciones entre ellas. La naturaleza (nominal, ordinal o numérica) de
las características objeto de estudio determinará las herramientas más adecuadas para su análisis.

Tendencia espacial Atípicos espaciales

Histograma de frecuencias Diagrama de caja


Diagrama de dispersión
Gráfico de coordenadas
AED general
paralelas
Gráfico de dispersión en
3D
Mapas temáticos Mapa de caja
Mapa dinámico Mapa de percentiles
Gráficos condicionales Cartograma
AEDE reticular Diagrama de dispersión de Gráficos LISA
Moran
Diagrama de dispersión de Gráficos LISA multivariantes
Moran multivariante

Análisis Exploratoria de Datos propuestos para su utilización mediante el Software


GeoDa.

Los histogramas son diagramas de barras verticales en los que se construyen barras rectangulares en
los límites de cada clase. La variable aleatoria o fenómeno de interés se despliega a lo largo del eje
horizontal; el eje vertical representa el número, proporción o porcentaje de observaciones por intervalo
de clase, dependiendo de si el histograma particular, es un histograma de frecuencia, un histograma de
frecuencia relativa o histograma de porcentaje.
En GeoDa el Histograma de Frecuencia lo representa por barras que tiene un color y es posible realizar
una selección en el histograma para ver sobre el mapa las observaciones a las que corresponde junto
con la tabla, de esta manera se vinculan las tres formas análisis de información.
Si Usted realiza un clic con el botón derecho del mouse podrá acceder a una serie de opciones como
por ejemplo elegir los intervalos “choose Intevals”, desplegar los estadísticos “Display Statistics” como
así también la tematización de en general de las barras o del fondeo del gráfico.
Al realizar una selección en una de las barras del gráfico se podrá observar cómo se selecciona los
datos en la tabla como así también se verá la distribución espacial en el mapa.

5 de 9
DEPARTAMENTO DE GEOGRAFÍA
ASIGNATURA: PROBABILIDAD Y ESTADÍSTICA

Diagrama de Dispersión
La representación gráfica más útil para
describir el comportamiento conjunto de
dos variables es el diagrama de
dispersión o nube de puntos, donde cada
caso aparece representado como un
punto en el plano definido por las
variables.
GeoDa superpone la recta de regresión
ajustada por el método de mínimos
cuadrados ordinarios y adjunta el valor de
la pendiente de la misma.
Este gráfico se puede también calcular
para los valores estandarizados de las
variables, de forma que la pendiente de la
recta de regresión se corresponda con el
coeficiente de correlación de Pearson.
Además, el análisis de los 4 cuadrantes
del diagrama de dispersión permite
identificar las localizaciones con valores
superiores o inferiores a la media en
ambas variables o, al contrario, valores
superiores a la media en una variable e
inferiores a la media en otra.
La exploración de información espacial
multivariante puede también llevarse a
cabo mediante el gráfico de dispersión en
3 dimensiones, que permite movimientos de rotación, traslación y acercamiento/alejamiento
(“zooming”). También permite las habituales funciones de enlace y cepillado (“linking” y “brushing”).
En la figura 3D Plot que se observa graficadas tres variables, en la parte de la izquierda se grafican las
variables de acuerdo a su valor junto con esto se realiza un polígono de selección sobre los valores más
bajos de cada una de las variables. Esta última selección se ve distribuida espacialmente en el mapa de
la izquierda.
Mapas temáticos
Los mapas temáticos, en general,
consisten en la representación
cartográfica de una variable geográfica.
Esta representación en un mapa de la
variable puede llevarse a cabo mediante
símbolos y colores que pongan de
manifiesto el valor de una variable en
cada una de las unidades geográficas
consideradas. Puede utilizarse un
color/símbolo diferente para cada valor o para cada intervalo de valores de la variable. Dentro del AEDE
reticular, los mapas temáticos más importantes para la representación de la tendencia espacial de una
variable son el mapa de cuartiles y el mapa de la desviación típica.

6 de 9
DEPARTAMENTO DE GEOGRAFÍA
ASIGNATURA: PROBABILIDAD Y ESTADÍSTICA

Mapa de Quantiles.
Los quantiles son aquellos valores de la variable que, ordenados de menor a mayor, dividen a la
distribución en partes, de tal manera que cada una de ellas contiene el mismo número de frecuencias.
Constituyen una generalización del concepto de mediana. Así como la mediana divide a la serie
estudiada en dos partes con el mismo número de elementos cada una, si la división se hace en cuatro
partes, o en diez partes, o en cien partes, llegamos al concepto de quantiles. Hay, principalmente, tres
quantiles importantes: cuartiles, deciles y percentiles.
En este tipo de mapas, los datos se dividen y agrupan en una serie de categorías (quantiles) con igual
número de observaciones. Por ejemplo, este mapa será un mapa de quantiles si la distribución se divide
en 4 grupos con igual número de unidades territoriales. Los Cuartiles, que dividen a la distribución en
cuatro partes (corresponden a los quantilies 0,25; 0,50 y 0,75). Los cuartiles, que dividen a la distribución
en cinco partes (corresponden a los cuartiles 0,20; 0,40; 0,60 y 0,80).
Natural breaks
Se basa en los rompimientos naturales que pueden existir en una distribución de datos. Estos
rompimientos son espacios que se forman en la distribución. De forma interactiva se calculan los
espacios vacíos hasta formar grupos con el número de clases deseadas.
Mapa de la desviación típica
Este mapa agrupa las observaciones según que sus valores caigan dentro de un rango estandarizado,
entendido éste como un número determinado de unidades de la desviación típica a partir de la media.
Se trata de un mapa temático en el que las categorías en las que se divide la variable se corresponden
con múltiplos de las unidades de la desviación típica. GeoDa divide la variable en 7 intervalos, de forma
que el intermedio (nº 4) coincide con el valor de la media y los 6 restantes vienen determinados por 1, 2
y 3 unidades de la desviación típica.
Diagrama de dispersión de Moran univariante
Se trata de un diagrama de dispersión que representa en el eje X la variable previamente estandarizada
y en el eje Y se representa el retardo espacial de dicha variable estandarizada. Se entiende por retardo
espacial el promedio ponderado de los valores que adopta una variable en el subconjunto de
observaciones vecinas a una dada. Por ejemplo, el retardo espacial de la variable DESOCUPACIÓN
per cápita para el partido de Avellaneda podría obtenerse como una media aritmética simple de los
valores de DESOCUPACIÓN per cápita con sus partidos adyacentes.
En este tipo de diagrama de dispersión, en el que se relacionan, para cada observación, el valor de la
variable en la misma y el valor promedio en sus correspondientes observaciones vecinas, la pendiente
de la recta de regresión es el valor del denominado estadístico I de Moran de autocorrelación espacial
global.
Así, cuanto mayor sea el valor de este estadístico, es decir, el ángulo que forme la recta de regresión
con el eje de abscisas, más fuerte será el
grado de autocorrelación espacial en la
variable, y viceversa.
Los cuatro cuadrantes en el gráfico
proporcionan una clasificación de los cuatro
tipos de autocorrelación espacial: alto-alto
(superior derecha), bajo-bajo (inferior
izquierda), para espacial positiva
autocorrelación; alto-bajo (inferior derecha)
y bajo-alto (superior izquierda), por espacio
negativo autocorrelación. La pendiente de la
recta de regresión es I de Moran, que aparece en la parte superior de la gráfica (en azul). El archivo de
los pesos utilizados para calcular la estadística aparece en paréntesis
6

7 de 9
DEPARTAMENTO DE GEOGRAFÍA
ASIGNATURA: PROBABILIDAD Y ESTADÍSTICA

Antes de realizar el gráfico será necesario realizar un proceso previo de estandarización de la variable
a ser analizada. Para este paso deberá acceder desde la barra principal a tools > Weigts Manager, el
cual realizará el proceso de estandarización accediendo mediante el control “Create”, es recomendable
para usuarios no experimentados, luego
de determinar la Variable a ser
estandarizada, seleccionar la opción
“Queen Contiguity” mediante un “Order
of Contiguity” de 1, y luego dar inicio al
proceso. Al terminar el proceso se
desplegará una ventana denominada
“Weigths Manager” con la cual podrá
observar como se ha producido el proceso
de estandarización de la variable,
accediendo al mapa y al análisis de este
mediante la opción “Connectivity Map”

Mapa LISA
Las letras LISA significan “Local Indicator
of Spatial Asociation”. El mapa LISA es
un mapa en el que se representan las
localizaciones con valores significativos en
determinados indicadores estadísticos de
asociación espacial local (Getis y Ord6,
1992; Anselin7, 1995; Ord y Getis8, 1995;
Unwin9, 1996). En concreto, los gráficos
LISA incluidos en GeoDa se basan en el
estadístico I de Moran de asociación local.
Se trata de un estadístico que, a diferencia
del estadístico I de Moran anteriormente
expuesto, no se calcula de forma global
para todas las observaciones del mapa,
sino que adquiere un valor diferente para
todas y cada una de ellas. Efectivamente,
este estadístico mide el grado de concentración de valores altos/bajos de una variable en el entorno
geográfico de cada una de las observaciones de la muestra.
Para cada valor del estadístico es posible realizar una inferencia para evaluar el nivel de significatividad
estadística de rechazo de la hipótesis nula de ausencia de similitud o disimilitud de valores en una
localización geográfica. De este modo, se pone de manifiesto la presencia de puntos calientes (“hot
spots”) o atípicos espaciales, cuya mayor o menor intensidad dependerá de la significatividad asociada
de los citados estadísticos.
Recuerde que para este paso deberá acceder desde la barra principal a tools > Weigts Manager, el
cual realizará el proceso de estandarización accediendo mediante el control “Create”. Luego y desde la
barra de menú principal en la opción Space> Univariante Local Moran´s

6
GETIS, A. y J. ORD (1992), “The analysis of spatial association by use of distance statistics”. Geographical
Analysis, 24; pp. 189-206.
7
ANSELIN, L. (1995), “Local Indicators of Spatial Association-LISA”. Geographical Analysis, vol. 27(2); pp. 93-115.
8
ORD, J.K. y A. GETIS (1995), “Local spatial autocorrelation statistics: distributional issues and an application”.
Geographical Analysis, 27.4; pp. 286-306.
9
UNWIN, A. (1996), “Exploratory spatial analysis and local statistics”. Computational Statistics, 11; pp. 387-400.
7

8 de 9
DEPARTAMENTO DE GEOGRAFÍA
ASIGNATURA: PROBABILIDAD Y ESTADÍSTICA

Gráficos LISA bivariantes


Por último, se presenta la versión multivariante de los gráficos LISA “Local Indicator of Spatial
Asociation” el mapa y diagrama de dispersión LISA bivariantes. En el caso univariante, el estadístico
LISA de asociación espacial comparaba los valores de una variable en cada unidad geográfica con los
valores de su correspondiente retardo espacial (variable con los valores medios de las unidades vecinas
a una dada). De este modo, es posible determinar la existencia o no de concentraciones significativas
de una variable en torno a una unidad geográfica. En el caso bivariante, el estadístico LISA tiene en
cuenta para cada unidad geográfica, los valores de una variable y el retardo espacial de otra variable
diferente.
En el caso de la última figura, se ha calculado para cada radio censal la variable Total de Empleo
(T_DESM) con la relación que existe entre esta y hogares con al menos una Necesidades Básicas
Insatisfechas
Para la ejecución técnica de este mapa
usted tendrá que considerar que será
necesario realizar un proceso previo de
estandarización de la variable a ser
analizada para la cobertura que usted está
trabajando. Recuerde que para este paso
deberá acceder desde la barra principal a
tools > Weigts Manager, el cual realizará
el proceso de estandarización accediendo
mediante el control “Create”. Luego y
desde la barra de menú principal en la
opción Spave> Local Moran´s I With ER
Rate, de esta manera se desplegará un cuadro de opción que tendrá que indicar cuáles serán los
productos a ser desplegados, por defecto se recomienda que opte por las tres opciones a ser
desplegadas.

9 de 9

También podría gustarte