Bases de Datos y R

BasesdedatosyR,launiónperfecta
Facebook Twitter Google+ LinkedIn
Partiendo de la base que tenemos nuestra copia de R instalada en un ordenador, el objetivo de este post es guiar al nuevo usu ario en este paquete estadístico a conectar R con la base de datos y proceder a los primeros análisis
esenciales.
Instalaciónyconexiónalabasededatos
InstalacióndelpaqueteRMySQL
Con la interfaz de R arrancada, ejecutamos la instrucción
install.packages('RMySQL', type='source')
Esto nos instalará el paquete en el directorio de librerías que tengamos asignado (normalmente des del directorio raíz en la subcarpeta R, por ejemplo
/home/user/R/x86_64-pc-linux-gnu-library/3.1
UsodelpackageRMySQLyconexiónalabasededatos
Cada vez que iniciemos R, debemos indicarle que queremos hacer uso de dicho package y cuales son las credenciales de conexión a la base de datos en cuesti ón.
library(RMySQL)
con = dbConnect(MySQL(), user = 'nombre_de_usuario_', password = 'contraseña', host = 'url_del_host_de_la_base_de_datos', dbname = 'nombre_de_la_base_e_datos')
Obtencióndetablasdelabasededatos
Para obtener los datos de la base de datos, tenemos varias opciones;
Obtencióndelatablacompleta
Si lo que deseamos es obtener toda una tabla, podemos optar por ejecutar
dbReadTable(conn = con, name = ‘nombre_de_la_tabla’)
Realizacióndeunaselect
Para obtener un fragmento de la tabla, se puede realizar una sentencia sql como
dbGetQuery(conn = con, statement = “query”)
Las queries pueden incluir cualquier tipo de operación válida en MySQL tales como joins, wheres, groups, limits,...
TrabajarcontablasenR
Guardarunaconsultaenunatabla
Suele ser útil guardar el resultado de una consulta en una tabla para empezar a trabajar con ella en R. Para ello hacemos una asignación con la instrucción
nombre_tabla
Ejemplos:
 tempTable = '2015-01-01' and country = 'US';")
 tempTable = '2015-01-01' and country = 'US'")
Cabecerasdelastablas
A la hora de acceder a las tablas, se suele hacer referencia al nombre de la columna en cuestión en lugar de su posición. Por defecto, R asigna a cada columna el propio nombre que ya tenía en la base de datos. Podemos revisar el orden
y el nombre de las mismas haciendo
colnames(nombre_tabla)
Ejemplo
 colnames(tempTable) devolvería [1] "id" "name" "email" "month"
Filtrartablas
Muchas veces nos interesará un conjunto de datos de la base de datos para luego hacer subconjuntos de la misma para hacer dif erentes tipos de análisis. Así por ejemplo, podríamos extraer el conjunto total de pagos del sistema entre dos
fechas dadas con una select, pero luego dividirlos en el tipo de pago (transferencia bancaria, pago con Paypal, con TPV,...)
nombre_subtabla
La restricción viene dada por la estructora
campo_a_comparar comparador valor
Ejemplos:
 januaryUsers
 februaryUsers
Obtenerunacolumnadelatabla
Si nuestra tabla tiene muchas columnas, a veces queremos simplemente obtener una de ellas. Para ello podemos hacer uso del sí mbolo dólar conocido el nombre de la variable en cuestión:
nombre_tabla$nombre_variable
Tabladefrecuencias
Muchos de los datos que tendremos no nos serán útiles tal cual los saquemos de base de datos, sino que deberemos crear una tabla con ellos. Una tabla recoge la información del número de veces que ocurre cada evidencia (tabla de
frecuencias).
table(nombre_tabla_inicial)
Operacionesestadísticasvarias
Promedio
mean(columna_de_datos)
Mediana
median(columna_de_datos)
MínimoyMáximo
min(columna_de_datos)
max(columna_de_datos)
Quantiles
quantile(columna_de_datos)
Varianza
var(columna_de_datos)
Desviacióntípica
sd(columna_de_datos)
Covarianzaycorrelaciónmuestral
cov(columna_de_datos)
cor(columna_de_datos)
Númerodedatosdeunatabla
length(columna_de_datos)
Resumenglobaldedatos
Una función muy útil que recoge la mayoría de datos estadísticos antes citado es la función summary:
summary(columna_de_datos)
la cual devuelve el mínimo, máximo, los tres cuartiles principales y el promedio. Esto hace que sea muy útil a la hora de comparar diferentes distribuciones de datos.
Covarianzaycorrelaciónmuestral
cov(columna_de_datos)
cor(columna_de_datos)
Númerodedatosdeunatabla
length(columna_de_datos)
Resumenglobaldedatos
Una función muy útil que recoge la mayoría de datos estadísticos antes citado es la función summary:
summary(columna_de_datos)
la cual devuelve el mínimo, máximo, los tres cuartiles principales y el promedio. Esto hace que sea muy útil a la hora de comparar diferentes distribuciones de datos.
Ypróximamente
Hasta ahora sabemos conectar nuestra base de datos a R, realizar consultas en el servidor y alojar los resultados en nuestra máquina y proceder a su análisis estadístico básico.
En la próxima parte, nos dedicaremos al uso de R para realizar análisis estadísticos, hablaremos de los gráficos a nuestra disposición y de como crearlos. Así que no te lo pierdas, pues sin duda alguna la estadística ayuda a mucha gente a
diario, tanto en el mundo educativo, como en las empresas de hoy en día.

Bases de Datos y R

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Bases de Datos y R

Cargado por

Copyright:

Formatos disponibles

BasesdedatosyR,launiónperfecta

Facebook Twitter Google+ LinkedIn

dbReadTable(conn = con, name = ‘nombre_de_la_tabla’)

dbGetQuery(conn = con, statement = “query”)

 tempTable = '2015-01-01' and country = 'US';")

 tempTable = '2015-01-01' and country = 'US'")

 colnames(tempTable) devolvería [1] "id" "name" "email" "month"

La restricción viene dada por la estructora

campo_a_comparar comparador valor

También podría gustarte