Está en la página 1de 3

BasesdedatosyR,launiónperfecta

Facebook Twitter Google+ LinkedIn

Partiendo de la base que tenemos nuestra copia de R instalada en un ordenador, el objetivo de este post es guiar al nuevo usu ario en este paquete estadístico a conectar R con la base de datos y proceder a los primeros análisis
esenciales.

Instalaciónyconexiónalabasededatos

InstalacióndelpaqueteRMySQL
Con la interfaz de R arrancada, ejecutamos la instrucción

install.packages('RMySQL', type='source')

Esto nos instalará el paquete en el directorio de librerías que tengamos asignado (normalmente des del directorio raíz en la subcarpeta R, por ejemplo

/home/user/R/x86_64-pc-linux-gnu-library/3.1

UsodelpackageRMySQLyconexiónalabasededatos
Cada vez que iniciemos R, debemos indicarle que queremos hacer uso de dicho package y cuales son las credenciales de conexión a la base de datos en cuesti ón.

library(RMySQL)

con = dbConnect(MySQL(), user = 'nombre_de_usuario_', password = 'contraseña', host = 'url_del_host_de_la_base_de_datos', dbname = 'nombre_de_la_base_e_datos')

Obtencióndetablasdelabasededatos
Para obtener los datos de la base de datos, tenemos varias opciones;

Obtencióndelatablacompleta
Si lo que deseamos es obtener toda una tabla, podemos optar por ejecutar

dbReadTable(conn = con, name = ‘nombre_de_la_tabla’)

Realizacióndeunaselect
Para obtener un fragmento de la tabla, se puede realizar una sentencia sql como

dbGetQuery(conn = con, statement = “query”)

Las queries pueden incluir cualquier tipo de operación válida en MySQL tales como joins, wheres, groups, limits,...

TrabajarcontablasenR

Guardarunaconsultaenunatabla
Suele ser útil guardar el resultado de una consulta en una tabla para empezar a trabajar con ella en R. Para ello hacemos una asignación con la instrucción

nombre_tabla

Ejemplos:

 tempTable = '2015-01-01' and country = 'US';")

 tempTable = '2015-01-01' and country = 'US'")

Cabecerasdelastablas
A la hora de acceder a las tablas, se suele hacer referencia al nombre de la columna en cuestión en lugar de su posición. Por defecto, R asigna a cada columna el propio nombre que ya tenía en la base de datos. Podemos revisar el orden
y el nombre de las mismas haciendo

colnames(nombre_tabla)

Ejemplo

 colnames(tempTable) devolvería [1] "id" "name" "email" "month"

Filtrartablas
Muchas veces nos interesará un conjunto de datos de la base de datos para luego hacer subconjuntos de la misma para hacer dif erentes tipos de análisis. Así por ejemplo, podríamos extraer el conjunto total de pagos del sistema entre dos
fechas dadas con una select, pero luego dividirlos en el tipo de pago (transferencia bancaria, pago con Paypal, con TPV,...)

nombre_subtabla

La restricción viene dada por la estructora

campo_a_comparar comparador valor

Ejemplos:

 januaryUsers

 februaryUsers

Obtenerunacolumnadelatabla
Si nuestra tabla tiene muchas columnas, a veces queremos simplemente obtener una de ellas. Para ello podemos hacer uso del sí mbolo dólar conocido el nombre de la variable en cuestión:

nombre_tabla$nombre_variable

Tabladefrecuencias
Muchos de los datos que tendremos no nos serán útiles tal cual los saquemos de base de datos, sino que deberemos crear una tabla con ellos. Una tabla recoge la información del número de veces que ocurre cada evidencia (tabla de
frecuencias).

table(nombre_tabla_inicial)

Operacionesestadísticasvarias

Promedio
mean(columna_de_datos)

Mediana
median(columna_de_datos)
MínimoyMáximo
min(columna_de_datos)

max(columna_de_datos)

Quantiles
quantile(columna_de_datos)

Varianza
var(columna_de_datos)

Desviacióntípica
sd(columna_de_datos)

Covarianzaycorrelaciónmuestral
cov(columna_de_datos)

cor(columna_de_datos)

Númerodedatosdeunatabla
length(columna_de_datos)

Resumenglobaldedatos
Una función muy útil que recoge la mayoría de datos estadísticos antes citado es la función summary:

summary(columna_de_datos)

la cual devuelve el mínimo, máximo, los tres cuartiles principales y el promedio. Esto hace que sea muy útil a la hora de comparar diferentes distribuciones de datos.

Covarianzaycorrelaciónmuestral
cov(columna_de_datos)

cor(columna_de_datos)

Númerodedatosdeunatabla
length(columna_de_datos)

Resumenglobaldedatos
Una función muy útil que recoge la mayoría de datos estadísticos antes citado es la función summary:

summary(columna_de_datos)

la cual devuelve el mínimo, máximo, los tres cuartiles principales y el promedio. Esto hace que sea muy útil a la hora de comparar diferentes distribuciones de datos.

Ypróximamente
Hasta ahora sabemos conectar nuestra base de datos a R, realizar consultas en el servidor y alojar los resultados en nuestra máquina y proceder a su análisis estadístico básico.

En la próxima parte, nos dedicaremos al uso de R para realizar análisis estadísticos, hablaremos de los gráficos a nuestra disposición y de como crearlos. Así que no te lo pierdas, pues sin duda alguna la estadística ayuda a mucha gente a
diario, tanto en el mundo educativo, como en las empresas de hoy en día.

También podría gustarte