Está en la página 1de 44

Ing.

Luis Alfredo Jimenez


Análisis de Febrero 2020

Datos con R
Clase 4
Análisis de Datos con R
Clase 4.-

• Visualización con R.
• Información geográfica y mapas con
R.
Visualizar datos con Análisis de Datos con R
Ing.- Luis Jimenez
ggplot2
La librería ggplot2 es un paquete de visualización
de datos para el lenguaje R que implementa lo que
se conoce como la “Gramática de los Gráficos”,
que no es más que una representación
esquemática y en capas de lo que se dibuja en
dichos gráficos, como lo pueden ser los marcos y
los ejes, el texto de los mismos, los títulos, así
como, por supuesto, los datos o la información
que se grafica, el tipo de gráfico que se utiliza, los
colores, los símbolos y tamaños, entre otros
Todo gráfico hecho con ggplot debe tener un primer
argumento ggplot() en donde debe especificarse cuál es el
dataset que contiene la información que se desea
graficar.

Esta representa la primera capa que guarda la


información del conjunto de datos de partida. Con el
argumento data = mtcars se establece que el dataset es el
indicado, y en términos de R este conjunto de datos
puede ser cualquier dataframe construido o cargado
previamente.

Luego, se observa en el ejemplo el comando aes(), que se


refiere a la “estética” del gráfico, es decir, en este caso se
especifica o “mapea” cuál variable del conjunto de datos
es el que se va a representar en el eje “x”.

Una vez completada esta función, se agrega una segunda


capa usando el operador + , y luego se establece que el
gráfico a construir es de tipo barra con la función
geom_bar().

Vamos a modificar ciertas características visuales iniciales


a fin de obtener un resultado final más agradable. Por
ejemplo, cambiemos las etiquetas de los ejes y agregemos
un título al gráfico:
si deseamos que cada grupo de datos
(velocidades, en este caso) tenga colores
distintos, basta con asignar, dentro de la
“estética”, el color como parámetro, y mapearlo
a alguna variable. En este caso, al propio valor de
“gear”, pero dicho valor debe ser convertido
antes a una variable tipo , es decir, una variable
categórica
Y si el gráfico lo amerita, podemos
también cambiar la orientación de los
ejes haciendo uso de la función :
Ahora bien, dado que el dataset
original contiene, por ejemplo,
información categórica del tipo de
corte de los diamantes, podemos
aprovechar esta variable para
representar, en distintos colores,
cada una de estas categorías. Para
ello, “mapeamos” la variable al
argumento de la función:
El coeficiente de
correlación es un
valor numérico
definido en el
rango [-1, 1].

Un coeficiente de correlación igual a -1


indica total anti-correlación entre las
variables, mientras que un coeficiente
de correlación igual a 1 indica
correlación total entre las variables.
Por supuesto, un valor igual a 0 indica
que no existe correlación alguna entre
las variables.
Información geográfica y mapas
Análisis de Datos con R
con Ing.- Luis Jimenez

R
El formato más
común es el
Para nuestros
denominado
Otro alternativa es ejercicios
“shapefile”,
“GeoJSON”, un usaremos datos
inventado por la
estándar abierto. geográficos en esta
empresa ESRI (los
último formato.
creadores del
software ArcGIS).
Los radios censales son particiones de la
superficie de la ciudad que contienen una
cantidad similar de hogares. Fueron
definidos por el Instituto Nacional de
Estadística y Censos (INDEC) para facilitar la
labor durante la jornada del Censo Nacional
radios <- st_read("https://bitsandbricks.github.io/data/CABA_rc.geojson")
Simple feature collection with 3554 features and 8 fields: que se traduce como 3554 observaciones/filas con 8
variables/columnas.

geometry type: MULTIPOLYGON: los archivos vectoriales con información geográfica contienen colecciones de puntos, de líneas,
o de polígonos. En éste caso son polígonos.

dimension: XY: la información es “plana”, en dos dimensiones X e Y. No incluye información de alturas, que estaría en la
dimensión Z.

bbox: xmin: -58.53092 ymin: -34.70574 xmax: -58.33455 ymax: -34.528: nos da cuatro valores que forman una “caja” (bounding
box), el rectángulo que contiene todos los datos. Estos valores son la latitud mínima, la longitud mínima, la latitud máxima y la
longitud máxima del conjunto de datos.

epsg (SRID): 4326 y proj4string: +proj=longlat +datum=WGS84 +no_defs significan lo mismo, que nuestros datos usan el
sistema de coordenadas WGS84, también conocido por su código EPSG 4326 .
Visualizando Análisis de Datos con R
información geográfica Ing.- Luis Jimenez
Visualizando información geográfica
Mapa Coroplético
Mapa Coroplético
Mapa Coroplético
Mapa Coroplético
Mapa Coroplético
Información de múltiples Análisis de Datos con R
fuentes Ing.- Luis Jimenez
Volcando en el mapa información de múltiples
fuentes
Volcando en el mapa información de múltiples
fuentes
Volcando en el mapa información de múltiples
fuentes
Volcando en el mapa información de múltiples
fuentes
Volcando en el mapa información de múltiples
fuentes
Volcando en el mapa información de múltiples
fuentes

Vamos a representar en el mapa una variable


categorica
Para transformar los datos y llevarlos a la
estructura que necesitamos, la receta sería:
• Agrupar los datos por barrio y por rubro
• Crear un resumen con el total de contactos
por rubro en cada barrio
• Por cada grupo, filtrar los datos para conservar
sólo el rubro que tiene la cantidad más grande
de contactos
Volcando en el mapa información de múltiples
fuentes
Combinando capas Análisis de Datos con R
Ing.- Luis Jimenez
geográficas
Combinando capas geográficas

subte_lineas <- st_read("http://bitsandbricks.github.io/data/subte_lineas.geojson")


Combinando capas geográficas

subte_estaciones <- st_read("http://bitsandbricks.github.io/data/subte_estaciones.geojson")


Combinando capas geográficas
Combinando capas geográficas
Combinando capas geográficas

También podría gustarte