Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Descubriendo R-Commander
Ricardo Ocaa Riola
Descubriendo R-Commander
1. INTRODUCCIN ............................................................................................................................................ 9
iv
ndice
v
PRLOGO
D urante los ltimos aos ha habido un inters creciente entre los profesionales de
Ciencias de la Salud por el uso del lenguaje de programacin R y de la interfaz R-
Commander en sus investigaciones, ms debido al carcter gratuito de los mismos que a la
necesidad de programar complejos algoritmos para el anlisis estadstico de la informacin.
Las bases de datos y los casos prcticos utilizados estn descritos en el ltimo captulo,
permitiendo as la reproduccin de los anlisis en cualquier ordenador personal.
7
Descubriendo R-Commander
1
INTRODUCCIN
Si bien es cierto que muchos fenmenos de la Naturaleza pueden predecirse con exactitud, la
mayora de las teoras cientficas actuales aceptan la existencia de otros fenmenos que no
pueden explicarse mediante modelos puramente deterministas. Fenmenos que, de manera
intrnseca, llevan asociados un componente aleatorio en su desarrollo. La propagacin de una
epidemia, las fluctuaciones burstiles o el desplazamiento de un cicln son algunos de los
sucesos analizados en diferentes campos cientficos en los que el azar juega un papel
importante. Aunque pertenezcan a mbitos distintos, todos estos sucesos tienen en comn la
imposibilidad de determinar con certeza cul ser su resultado final de entre todos los
posibles. Su estudio requiere el uso de un tipo especial de modelos matemticos denominados
aleatorios, cuyo desarrollo tiene en cuenta el efecto del azar.
La Estadstica es la ciencia que estudia este tipo de fenmenos. Desde su origen, a mediados
del siglo XVII, los mtodos estadsticos han permanecido en continuo desarrollo,
contribuyendo a la toma de decisiones, al establecimiento de modelos causales y a la
descripcin de los fenmenos naturales ms complejos. No en vano, la Estadstica es
actualmente un elemento clave en el proceso de investigacin de cualquier disciplina,
llegando a consolidarse el lenguaje universal de la ciencia del siglo XXI.
9
Descubriendo R-Commander
El trmino software libre se refiere a la libertad de los usuarios para copiar, distribuir, ejecutar
y modificar un programa informtico accediendo al cdigo fuente del mismo. Sin embargo, el
concepto libre no es sinnimo de gratuito o no comercial. Cualquier software libre puede
tener un uso y distribucin comercial, de manera que, a veces, el mismo software libre puede
conseguirse de forma gratuita o pagando un precio determinado. De hecho, el uso comercial
de software libre es cada vez ms frecuente, siendo lcito la venta de copias o el desarrollo de
software comercial a partir de l. 1 De la misma forma, un software gratuito no tiene que ser
necesariamente libre, ya que el autor o autores pueden distribuir el producto sin permitir que
los usuarios accedan al cdigo fuente para modificarlo o generar nuevas versiones.
El software libre gratuito puede ser una alternativa al software propietario de pago, sin
embargo el coste econmico no debe ser el principal factor que decida su utilizacin. En cada
caso particular ser necesario realizar una valoracin del perfil profesional del usuario final,
1
GNU Operating System. La definicin de software libre. Disponible en: www.gnu.org/philosophy/free-sw.es.html
10
Introduccin
los objetivos a alcanzar, las necesidades que se han de cubrir y las prestaciones que ofrecen
las diferentes alternativas de software, ya sea libre, propietario, gratuito o de pago.
EL LENGUAJE DE PROGRAMACIN R
11
Descubriendo R-Commander
Todas estas instrucciones forman una funcin denominada mean, que por defecto ya viene
implementada en R. Cuando el usuario hace uso de ella, la funcin solicita unos datos y
devuelve el valor medio de los mismos. As, al escribir mean(c(0,2,4)) se procesarn
automticamente las instrucciones anteriores y se obtendr como resultado 2, media
aritmtica de los valores 0, 2 y 4.
Al igual que mean, existen otras funciones que ya han sido programadas por el equipo de
desarrollo de R y estn disponibles para su uso inmediato, como las funciones min y max que
devuelven respectivamente el valor mnimo y mximo de los datos introducidos. As,
min(c(0,2,4)) dar como resultado 0 y max(c(0,2,4)) devolver el valor 4. Estas funciones
forman parte de procedimientos estadsticos bsicos, por lo que estn agrupadas en un paquete
de funciones denominado Base. Este paquete, junto a otros que contienen funciones ms
avanzadas, ha sido desarrollado por el equipo central de R y viene incorporado en su
instalacin.
A pesar de sus cualidades tcnicas, el uso de R puede resultar complejo para personas que no
estn familiarizadas con los lenguajes de programacin. La necesidad de escribir
instrucciones y comandos para realizar anlisis estadsticos simples hace que R no sea el
12
Introduccin
Por este motivo, John Fox, profesor de Sociologa de la Universidad McMaster (Canad),
desarroll en 2005 el paquete Rcmdr, una Interfaz Grfica de Usuario denominada R-
Commander que permita a sus alumnos trabajar en un entorno de ventanas similar al de otros
programas estadsticos como SPSS. 3 De esta forma se ha facilitado el manejo de R en cursos
de estadstica bsica, de manera que actualmente el usuario puede elegir el entorno en el que
desea trabajar, ya sea mediante la interfaz R-Commander o a travs de la consola de
instrucciones y comandos de programacin R.
Salida de resultados
2
GNU Operating System. La definicin de software libre. Disponible en: www.gnu.org/philosophy/free-sw.es.html
3 Fox J. The R Commander: A Basic-Statistics Graphical User Interface to R. Journal of Statistical Software 2005; 11(9): 1-
42.
13
Descubriendo R-Commander
Grficos
Si bien las capacidades grficas de R son enormes, las opciones de R-Commander son muy
limitadas. Esta interfaz no dispone de un editor de grficos que permita, entre otros, cambiar
el ttulo, la leyenda o el color del grfico antes de exportarlo a un documento, por lo que
habitualmente su aspecto original no es el idneo para informes o presentaciones
profesionales. Para modificar su apariencia ser necesario recurrir a la sintaxis de
programacin en R, modificando manualmente el cdigo de la grfica bsica, aadiendo
nuevos parmetros o ejecutando determinados comandos. Este procedimiento requiere
conocer algo ms sobre el funcionamiento de este lenguaje, lo que supondr un esfuerzo
adicional para algunos usuarios. En los sucesivos captulos se explicar como realizar esta
tarea para cada grfico particular, aunque existen ciertos parmetros comunes que se suelen
incorporar en la mayora de las lneas de comandos. La siguiente tabla describe los ms
usuales:
14
Introduccin
col=color Pinta el grfico del color especificado entre col=darkblue (azul oscuro)
comillas. Se puede elegir entre 657 nombres de col=blue (azul)
colores, todos en ingls. col=lightblue (azul claro)
Mtodos estadsticos
15
Descubriendo R-Commander
R-Commander no ha sido diseado para gestionar de forma fcil y eficaz grandes bases de
datos, motivo por el que no es aconsejable su uso para registrar y almacenar la informacin.
En su lugar, los desarrolladores de esta interfaz recomiendan utilizar un sistema gestor de
bases de datos externo, similar a Microsoft Access o dBase, y capturar posteriormente la
informacin con R-Commander para llevar a cabo el anlisis estadstico.
Errores
Como advierte la ventana de inicio del programa, R es un software libre y viene sin garanta
alguna. Por extensin, esta caracterstica tambin afecta a R-Commander, de manera que en
ocasiones habr que recurrir a las listas de distribucin o los foros de usuarios para solicitar
asistencia sobre incidencias que no se hayan podido resolver. Puesto que estas listas de ayuda
son voluntarias no se podr exigir soluciones a los usuarios ni una respuesta inmediata al
problema planteado, lo que en ocasiones puede retrasar el trabajo que se est llevando a cabo.
4
Hornik K. The R FAQ. 2011. Disponible en: http://cran.r-project.org/doc/FAQ/R-FAQ.pdf
16
Introduccin
La normativa que regula los ensayos clnicos es muy estricta en los aspectos ticos y
metodolgicos de la investigacin. En 1998, el Comit Directivo de la Conferencia
Internacional sobre Armonizacin (ICH) configur la directriz E9 sobre mtodos estadsticos
en ensayos clnicos, que se aadi a otras directrices ICH desarrolladas con anterioridad. 5
Esta gua fue adoptada por la EMEA (European Medicines Agency) y la FDA (U.S. Food and
Drug Administration) y actualmente es la base de la normativa europea vigente, estableciendo
los estndares estadsticos para la investigacin sobre nuevos medicamentos. Adems de ser
un documento clave en este campo, su aplicacin se ha extendido a la investigacin clnica en
general, siendo de gran importancia para todos los profesionales que realicen anlisis
estadsticos de datos en investigacin bsica o aplicada.
La ICH-E9 recoge en el apartado Integridad de los datos y validez del software lo siguiente:
El software utilizado para la gestin de datos y el anlisis estadstico debe ser fiable y la
documentacin sobre los procedimientos empleados para chequear el software debe estar
disponible. En respuesta a esta normativa, The R Foundation for Statistical Computing
public en 2008 el documento R: Cumplimiento normativo y cuestiones de validacin. Un
documento orientativo para el uso de R en entornos de ensayos clnicos regulados. 6 En l se
explicita que no todos los paquetes de R estn validados por los creadores de este software y,
por tanto, no todos cumplen con la directriz ICH-E9. As, de los ms de 6.000 paquetes que
actualmente estn disponibles en el repositorio CRAN los creadores de R slo garantizan la
fiabilidad de 26, aquellos que han sido desarrollados por el equipo central de R. Para el resto,
la Fundacin R no ofrece ninguna garanta. Esta declaracin afecta a R-Commander, ya que
no es uno de los paquetes base que vienen instalados por defecto en R ni aparece entre los
denominados Paquetes Recomendados. El documento est disponible en la pgina principal
de la web del proyecto (www.r-project.org) dentro del enlace certification, mencionando lo
siguiente en su apartado 2:
5
Lewis JA. Statistical principles for clinical trials (ICH E9): An introductory note on an international guideline. Statistics in
Medicine 1999; 18: 1903-1942.
6
The R Foundation for Statistical Computing. R: Regulatory Compliance and Validation Issues. A Guidance Document for
the Use of R in Regulated Clinical Trial Environments. Viena: The R Foundation, 2008. Disponible en: http://www.r-
project.org/doc/R-FDA.pdf
17
Descubriendo R-Commander
Segn esta informacin el 99% de los paquetes incorporados a la librera CRAN no se ajustan
a las directrices ICH-E9 sobre principios estadsticos para ensayos clnicos. Como solucin, el
informe elaborado por el equipo central de R traslada al investigador y a su organizacin la
obligacin de definir los procesos de control de calidad adecuados para cumplir con el marco
normativo vigente cuando utilice cualquier paquete elaborado por otros usuarios, incluido R-
Commander, lo que supone implementar y hacer pblicos los procedimientos operativos
18
Introduccin
estndar de control que realizan los ingenieros de informtica antes de lanzar cualquier
software al mercado. Evidentemente, este propsito est fuera del alcance de la mayora de
los profesionales no especializados en estadstica computacional, por lo que tanto
investigadores como instituciones han de tener en cuenta estas consideraciones, y no slo el
carcter gratuito de la aplicacin, antes de tomar una decisin sobre el uso de R y R-
Commander. Este y otros aspectos cobran especial relevancia para las organizaciones que
necesitan adquirir un software estadstico para uso oficial, debiendo elegir aquel que mejor se
adapte a sus capacidades, necesidades y actividades profesionales. Actualmente, la oferta de
productos que coexisten en el mercado es muy amplia y su evaluacin debe formar parte de
un proceso de toma de decisiones asesorado por especialistas con experiencia en el uso de
programas estadsticos. Tanto el software libre como el privativo presentan ventajas e
inconvenientes que sern diferentes para cada actividad, profesin e institucin, 7 por ello no
es aconsejable ni apropiado recomendar el uso indiscriminado del lenguaje de programacin
R o la interfaz R-Commander a cualquier organizacin o profesional, especialmente si su
actividad principal no es la estadstica computacional.
Actualmente, el ensayo clnico es el nico tipo de diseo epidemiolgico que cuenta con una
normativa sobre principios estadsticos y validacin de software. Sin embargo, todo lo
mencionado anteriormente se hace extensible de forma natural a cualquier diseo
epidemiolgico, estudio e investigacin que requiera llevar a cabo un anlisis estadstico de la
informacin.
7
Culebro M, Gmez WG, Torres S. Software libre vs software propietario: Ventajas y desventajas. Mxico, 2006.
19
Descubriendo R-Commander
2
INSTALACIN DE R-COMMANDER
R -Commander es una interfaz grfica que permite trabajar con R a travs de un entorno
de ventanas similar al de otros programas estadsticos. Para utilizarlo es necesario
instalar previamente R y configurar algunas opciones que faciliten su manejo. Los siguientes
apartados muestran el procedimiento para descargar R desde Internet, instalar tanto el
software como la interfaz y comenzar una sesin de trabajo con el entorno de ventanas.
Descarga de R
20
Instalacin de R-Commander
21
Descubriendo R-Commander
22
Instalacin de R-Commander
23
Descubriendo R-Commander
Instalacin de R
24
Descubriendo R-Commander
Instalacin de R-Commander
Tras la instalacin del software R aparecern en el escritorio dos iconos con la forma . Uno
de ellos llevar a pie de imagen el nombre Rx32 y el otro Rx64, haciendo referencia
respectivamente a la versin 32-bit o 64-bit de R. Para la mayora de usuarios, el equipo de
desarrollo de R sugiere trabajar con la versin 32-bit, motivo por el que en adelante siempre
se usar sta. 8
8
Ripley BD, Murdoch. R for Windows FAQ (Version for R-2.13.0). Disponible en: www.r-project.org.
25
Descubriendo R-Commander
A continuacin aparecer en orden alfabtico un listado con los paquetes disponibles. En esta
ventana debern seleccionarse con el ratn todos los que comiencen por Rcmdr. La accin
puede realizarse de forma rpida haciendo clic nicamente sobre el primer y ltimo paquete a
la vez que se presiona la tecla Shift () del teclado.
> utils:::menuInstallPkgs()
--- Please select a CRAN mirror for use in this session ---
26
Instalacin de R-Commander
Para llevar a cabo este procedimiento se ejecutar en primer lugar el Bloc de Notas,
disponible en la carpeta de accesorios de Windows, o cualquier otro editor de texto.
Utilizando uno de estos editores se abrir el archivo Rprofile.site, situado en la carpeta
C:\Archivos de programa\R\R-()\etc (o bien C:\Program Files\R\R-()\etc), y a
continuacin se escribirn las siguientes instrucciones al final del contenido de este archivo:
local({
old <- getOption("defaultPackages")
options(defaultPackages = c(old, "Rcmdr"))
options(Rcmdr=list(plugins=c("RcmdrPlugin.survival")))
})
Es muy importante escribir el texto tal como aparece, respetando las letras maysculas y
minsculas, sin olvidar ningn parntesis, corchete o entrecomillado.
Por ltimo se guardar el archivo Rprofile.site en formato texto dentro de la misma carpeta,
reemplazando al archivo original, teniendo en cuenta que su extensin ha de ser .site y no .txt
o .dat como puede aparecer por defecto en algunos editores de texto.
27
Descubriendo R-Commander
disponibles, sobre la que habr que seleccionar Rcmdr y pulsar el botn OK. Este
procedimiento tendr que repetirse en cada sesin de trabajo, siempre que se desee trabajar
con R-Commander.
En ambos casos, la nueva ventana abierta ser el entorno de trabajo R-Commander, que podr
maximizarse para tener un campo visual ms amplio.
28
Instalacin de R-Commander
Descarga de R
29
Descubriendo R-Commander
4. En el apartado Files de la pantalla, hacer clic sobre el enlace R-().pkg (latest version).
En lugar de los puntos suspensivos aparecer la numeracin de la ltima versin de R.
30
Instalacin de R-Commander
Instalacin de R
Una vez descargado el archivo R-().pkg, el paquete se abrir automticamente para proceder
a la instalacin de R. Si no es as, ser necesario ir a la carpeta donde se almacen el archivo,
hacer doble clic sobre l y seguir las instrucciones que aparecern en pantalla.
Tras la instalacin de R ser necesario volver a la misma pgina web en la que estaba el
archivo R-().pkg y pulsar el hiperenlace the tools directory, situado a la derecha de la
pantalla. All, habr que descargar e instalar la aplicacin Tcltk-8.5.5-x11.dmg o alguna
versin superior.
Instalacin de R-Commander
El smbolo >, en color rojo, indica que R est preparado para recibir instrucciones y comenzar
a trabajar utilizando los comandos del lenguaje de programacin.
31
Descubriendo R-Commander
install.packages("Rcmdr", dependencies=TRUE)
install.packages("rgl", dependencies=TRUE)
install.packages("RcmdrPlugin.survival")
Con los pasos seguidos anteriormente, R-Commander quedar instalado en el Mac de forma
permanente. Sin embargo, siempre que se pulse el icono se abrir por defecto la consola de
R pero no la de R-Commander. Para activar esta interfaz habr que escribir library(Rcmdr) en
la pantalla de inicio de R y pulsar la tecla Intro del teclado. Este procedimiento tendr que
repetirse en cada sesin de trabajo, siempre que se desee trabajar con R-Commander.
La nueva ventana abierta ser el entorno de trabajo R-Commander, que podr maximizarse
para tener un campo visual ms amplio.
NOCIONES BSICAS
32
Instalacin de R-Commander
Datos Crea una base de datos en formato R o importa bases de datos de otros
programas (SPSS, Minitab, Stata, Excel, Access y Dbase). Adems,
contiene opciones para calcular variables nuevas o recodificar,
tipificar y modificar las variables activas.
Bajo el men principal hay un submen con dos botones, uno para editar y otro para
visualizar la base de datos activa. Junto a ellos se muestran dos etiquetas en las que aparecer
el nombre del conjunto de datos y el nombre del modelo estadstico que el usuario est
utilizando en cada momento.
33
Descubriendo R-Commander
Por ltimo, debajo del submen, se encuentra la ventana de trabajo dividida en tres partes. La
primera corresponde a la ventana de instrucciones, donde automticamente aparecern la
sintaxis y los comandos de todos los anlisis realizados. La segunda es la ventana de
resultados, espacio donde se mostrarn sucesivamente los resultados de cada anlisis
estadstico. Finalmente, la parte inferior recoger los mensajes que el software genere durante
la sesin de trabajo. Esta ltima es especialmente importante para monitorizar los mensajes de
error, localizar su procedencia y proceder a la correccin.
Habitualmente, los archivos que se utilizan en una investigacin suelen estar almacenados en
una carpeta de proyecto. Para facilitar la bsqueda de estos archivos durante una sesin de
trabajo con R-Commander es aconsejable definir la carpeta o directorio de trabajo en el que se
encuentran. De esta forma, R-Commander buscar y guardar all, agilizando el proceso de
anlisis. Esta accin se realiza desde el men principal a travs de la secuencia:
Esta accin borrar toda la informacin de la ventana, aunque tambin es posible seleccionar
slo una parte del texto con el ratn y pulsar posteriormente la tecla Suprimir (Supr) del
teclado para eliminarlo.
El procedimiento se repetir para borrar el contenido del resto de ventanas. En caso de limpiar
una ventana por error es posible restaurar su informacin pulsando Editar Deshacer.
34
Instalacin de R-Commander
Salir de R-Commander y de R
En ocasiones, antes de salir del programa es til guardar el entorno de trabajo mediante la
secuencia:
Esta opcin almacenar en un nico archivo todas las bases de datos que se encuentren
abiertas en la sesin de trabajo. Para recuperar esta sesin en el punto en que se dej bastar
con abrir de nuevo el archivo mediante la secuencia Datos Cargar conjunto de datos.
En el entorno de trabajo slo se almacenan las bases de datos, no los resultados.
35
3
Muchas veces, la gestin de bases de datos consume una parte importante del tiempo
invertido en un proyecto de investigacin, por lo que contar con una herramienta potente que
ayude a procesar eficazmente la informacin es tan importante como disponer del software
estadstico apropiado para analizar los datos. Conscientes de esta necesidad, los principales
desarrolladores de software estadstico disean sus programas para que cumplan la doble
funcin de gestionar grandes bases de datos y analizar estadsticamente la informacin en una
fase posterior. De esta forma se evita que el usuario necesite aprender dos sistemas
informticos diferentes.
R-Commander no ha sido diseado para funcionar como sistema gestor de bases de datos, por
lo que no es aconsejable su uso para almacenar la informacin. En su lugar, es preferible
utilizar un sistema gestor de bases de datos externo y capturar posteriormente la informacin
para llevar a cabo el anlisis estadstico. En cualquier caso, el uso del editor de datos R-
Commander puede ser de utilidad para introducir directamente pequeos conjuntos de datos,
motivo por el que los siguientes apartados describen cmo realizar este proceso adems de
importar bases de datos elaboradas con otros programas informticos.
Los contenidos de este captulo estn basados en el caso prctico Accidentes por pinchazo en
profesionales de enfermera.
36
Gestin de Bases de Datos con R-Commander
CONCEPTOS BSICOS
La informacin correspondiente a cada uno de los profesionales que particip en el estudio de
accidentes por pinchazo se recogi en una ficha individual con un cdigo personal de
identificacin. En ella se registraron, adems, las siguientes caractersticas del profesional:
grupo al que haba sido asignado (formacin o no formacin), estado al final del seguimiento
(accidentado o no accidentado), edad y sexo (hombre o mujer). La principal hiptesis de
investigacin era que el programa de formacin implementado es eficaz para disminuir los
accidentes por pinchazo, de manera que la proporcin de accidentes sera menor en el grupo
de profesionales que recibi formacin sobre medidas preventivas. La comprobacin de esta
hiptesis requerir el uso de mtodos estadsticos concretos, sin embargo, antes de proceder
con el anlisis de datos es necesario organizar, procesar y almacenar la informacin en una
base de datos electrnica.
37
Descubriendo R-Commander
Cada columna de la base de datos corresponde a una caracterstica de los individuos incluidos
en el estudio de accidentes por pinchazo. En esta investigacin se recogi informacin sobre
cinco caractersticas de los profesionales, siendo el cdigo de identificacin la situada en la
primera columna y el sexo de los sujetos en la quinta. El nombre de cada una de ellas aparece
en la cabecera de la base de datos, sombreada en color. El orden en el que se disponen las
columnas es indiferente para organizar la base de datos.
Debajo de la cabecera de la base de datos aparece la informacin registrada, donde cada fila
almacena las caractersticas de un nico sujeto. As, la primera fila de la base de datos
muestra la informacin del profesional con cdigo de identificacin 00004, perteneciente al
grupo que recibi formacin, no accidentado al finalizar el seguimiento, 45 aos de edad y
sexo masculino. Cuando no se tiene informacin de alguna caracterstica la celda
correspondiente de la base de datos queda vaca, como el valor del sexo para el sujeto con
cdigo 00009 o la edad para el sujeto 00016. Es lo que se conoce como un valor perdido, dato
faltante o missing.
Tipos de variables
Los valores de cada caracterstica difieren de un sujeto a otro. As, la edad del profesional de
la primera fila es diferente a la edad del profesional de la segunda fila. Debido a esta
variabilidad de los valores registrados, las caractersticas se denominan variables.
Habitualmente existen dos tipos de variables que pueden ser utilizadas en un anlisis
estadstico de datos: Cualitativas y cuantitativas.
Una variable es cualitativa cuando sus valores recogen una cualidad del individuo que no
puede medirse con un instrumento ni lleva asociada unidades de medida. As, el sexo es una
variable cualitativa con dos valores, hombre y mujer, denominados categoras. Estas
categoras deben estar definidas de tal forma que cada sujeto de la base de datos pueda
incluirse slo en una de ellas, de forma exclusiva e inequvoca. El sexo es una variable
cualitativa nominal porque sus categoras, hombre y mujer, no tienen un orden natural
preestablecido. Si se hubiese recogido la variable gravedad del accidente, con categoras leve,
moderado y grave, se tendra una variable cualitativa ordinal, ya que registra una cualidad
cuyos valores o categoras pueden ordenarse de forma natural de menor a mayor severidad.
Aunque no es la terminologa usual, R-Commander denomina a las variables cualitativas
factores y a sus categoras niveles.
Una variable cuantitativa es una caracterstica de los sujetos que puede expresarse mediante
valores numricos, con una unidad de medida asociada a ellos. La edad es una variable
cuantitativa cuya unidad de medida es el ao. Adems, esta variable es continua, ya que el
valor de la edad asignada a cada individuo puede tener tantos decimales como se desee
38
Gestin de Bases de Datos con R-Commander
En el estudio de accidentes por pinchazo, las variables grupo, con categoras formacin-no
formacin, estado al final del seguimiento, con categoras accidentado-no accidentado y sexo,
con categoras hombre-mujer, son variables cualitativas, mientras que la edad es cuantitativa.
Aunque la variable cdigo de identificacin es una variable numrica, no cuantifica ninguna
medicin. Slo se utiliza para identificar a los sujetos de estudio, cumpliendo la misma
funcin que podra hacer el DNI o el nmero de Seguridad Social. Por este motivo no tiene
inters utilizarla en un anlisis estadstico de datos.
El aspecto del editor de datos de R-Commander es similar al de una hoja de clculo. El acceso
para crear una nueva base de datos se realiza desde el men principal, seleccionando:
A continuacin se abrir un cuadro de dilogo que solicita el nombre de la base de datos que
se va a crear. Por defecto R-Commander asigna el nombre Datos, de manera que el usuario
puede mantenerlo o escribir otro que considere ms apropiado. El nombre de la base de datos
puede ser cualquiera, siempre que comience por una letra y no contenga espacios ni smbolos.
Para introducir la informacin correspondiente al estudio de accidentes por pinchazo se
escribir Accidentes como nombre de la base de datos, pulsando posteriormente el botn
Aceptar.
39
Descubriendo R-Commander
Para introducir el nombre de la primera variable habr que hacer doble clic con el botn
izquierdo del ratn sobre el texto var1. Esta accin abrir un cuadro de dilogo en el que se
escribir el nombre de la primera variable, en este caso Cdigo, y se seleccionar el tipo de
variable que le corresponde, en este caso numrica.
40
Gestin de Bases de Datos con R-Commander
Una vez definidas las variables, los datos se introducen en las celdas de la base de datos
teniendo en cuenta que cada fila corresponde a la informacin de un sujeto. Para ello bastar
con situar el cursor en la celda correspondiente con ayuda del ratn y escribir. La introduccin
del siguiente valor puede hacerse presionando Intro (el cursor se desplazar entonces hacia
la celda inferior), la tecla de tabulacin (el cursor se desplazar hacia la celda derecha) o las
flechas del teclado, que desplazarn el cursor en la direccin indicada. Habitualmente R-
Commander seala la celda en la que est situado el cursor con un borde rojo ms intenso. Sin
embargo, esta sealizacin no siempre funciona correctamente, de manera que el cursor
podra estar situado en una celda diferente a la que marca la interfaz. Si esto ocurriera, la
forma de ir a la celda correcta es haciendo doble clic con el ratn sobre ella. Es posible que
este fallo de consola se corrija en futuras actualizaciones.
Si la variable est definida como cuantitativa, las celdas situadas en su columna slo
admitirn valores numricos. Si la variable est definida como cualitativa, el valor de la celda
ser el nombre de la categora a la que pertenece el sujeto. Este texto deber ir sin
entrecomillar, utilizando siempre la misma combinacin de letras maysculas y minsculas,
ya que R-Commander distingue entre ambos tipos de caracteres y tomar como categoras
diferentes los textos No accidentado y no accidentado. El nombre de cada categora
puede estar formado por varias palabras separadas por espacios y smbolos. Las celdas
correspondientes a valores faltantes pueden quedar vacas, o bien se puede escribir NA si la
41
Descubriendo R-Commander
El editor de datos presenta un men en la parte superior con las opciones Archivo, Editar y
Ayuda. La primera opcin se utilizar para cerrar el editor de datos cuando la base de datos
est completa, la segunda para copiar, pegar o borrar la celda en la que est situado el cursor y
la tercera para solicitar ayuda sobre la navegacin por el editor.
La captura de una base de datos externa puede hacerse desde la opcin del men principal
42
Gestin de Bases de Datos con R-Commander
Los archivos procedentes de Excel, Access o dBase o del software estadstico Minitab no
requieren ms informacin que el nombre del conjunto de datos. Una vez escrito, bastar con
pulsar el botn Aceptar.
En los archivos Excel, la base de datos debe estar grabada en una hoja de clculo con una
estructura similar a la definida en el apartado Estructura de una base de datos. Es aconsejable
que la primera fila de la hoja contenga el nombre de las variables. De esta forma se evitar
tener que definirlas posteriormente en R-Commander.
No importa si las celdas de la hoja de clculo o base de datos estn definidas con formato
texto o numrico. R-Commander siempre importar los nmeros como variable numrica
(cuantitativa) y el texto como variable carcter (cualitativa).
Archivos SPSS
Si el archivo fue almacenado con el software estadstico SPSS, es importante activar la opcin
Convertir etiquetas de valores en niveles de factor para que R-Commander reconozca e
importe el nombre de las categoras de cada variable cualitativa. En caso contrario, slo
capturar el valor numrico de cada categora, sin su etiqueta.
43
Descubriendo R-Commander
Archivos STATA
Al igual que en SPSS, cuando la base de datos est grabada con el software estadstico
STATA es importante activar la opcin Convertir etiquetas de valores en niveles de
factor. De esta forma R-Commander reconocer el nombre de las categoras de cada
variable cualitativa cuando importe la informacin. El resto de opciones suelen dejarse
activadas por defecto.
Archivos de texto
En ocasiones, la base de datos que se desea importar puede estar almacenada en un formato de
archivo que R-Commander no reconoce directamente. En ese caso, la base de datos ha de ser
capturada con el software que se utiliz para su diseo, exportarla en formato texto (.txt) y
posteriormente importar este archivo con R-Commander.
44
Gestin de Bases de Datos con R-Commander
Es aconsejable que la primera fila del archivo de texto contenga el nombre de las variables y
activar la opcin Nombre de las variables en el fichero del cuadro de dilogo para que R-
Commander las reconozca. Adems, el separador de campos deben ser comas y no espacios
en blanco o tabuladores, especialmente cuando los valores de las variables cualitativas son
textos que ya contienen espacios. As, si el separador de campos fuese un espacio en blanco y
el primer registro es un sujeto con los siguientes valores:
45
Descubriendo R-Commander
Una vez definidas las opciones del cuadro de dilogo, dependiendo del tipo de archivo a
importar, se pulsar el botn Aceptar. Se abrir entonces una ventana en la que podr
localizarse la carpeta y el archivo que contiene la base de datos, denominado en este caso
Accidentes por pinchazo. El nombre de este archivo puede ser cualquiera y contener espacios
o smbolos. Una vez capturado, R-Commander almacenar su informacin con el nombre
definido inicialmente en el cuadro de dilogo de importacin. Este nombre aparecer en color
azul junto al texto Conjunto de datos, debajo del men principal. Pulsando la opcin
Visualizar conjunto de datos, situada a la derecha del men, se puede comprobar si la
captura de la base de datos se ha realizado correctamente.
Las celdas que no contengan valores en la base de datos original se considerarn como valores
perdidos. Estos casos sern identificados por R-Commander con el smbolo NA en las
variables cuantitativas y <NA> en las cualitativas.
46
Gestin de Bases de Datos con R-Commander
En la base de datos Accidentes por pinchazo los valores de las variables cuantitativas son
numricos y las categoras de las variables cualitativas se definen mediante caracteres de
texto, como se mostr en los apartados anteriores. Aunque este suele ser el procedimiento
habitual, ocasionalmente las bases de datos tambin se elaboran o importan en R-Commander
utilizando nicamente valores numricos tanto para las variables cuantitativas como para las
cualitativas. La siguiente imagen muestra una situacin de este tipo, donde las categoras de la
variable Grupo estn definidas con los valores 1 y 2, haciendo referencia a las categoras
Formacin y No formacin respectivamente. De la misma forma, las categoras de la variable
Estado estn representadas por los valores 1 (Accidentado) y 2 (No accidentado) y las
categoras de la variable Sexo por los valores 1 (Hombre) y 2 (Mujer):
Cuando se tiene una base de datos de este tipo, R-Commander interpretar que todas las
variables son cuantitativas, puesto que sus valores son de tipo numrico.
47
Descubriendo R-Commander
A la derecha de la ventana, bajo el ttulo Niveles del factor, aparecen dos opciones para
asignar un nombre a cada categora de la variable Estado. La opcin Asignar nombres a los
niveles permitir escribir una etiqueta de texto para cada categora, mientras que la opcin
Utilizar nmeros usar los valores numricos de la variable (1 y 2) como nombres de sus
categoras. La primera opcin es la ms recomendable y la utilizada por defecto por R-
Commander.
Por ltimo, en la opcin Nuevo nombre o prefijo para variables mltiples, situada en la
parte inferior de la ventana, se puede especificar un nombre nuevo para la variable que
incorporar ya los nombres de las categoras. Por ejemplo, se podra escribir en el recuadro
blanco el nombre Estado.etiquetas. Esto permitir mantener en la base de datos la variable
Estado original, definida como cuantitativa, y aadir otra columna que contendr la nueva
variable Estado.etiquetas con una etiqueta para cada categora. En general, esta opcin no es
muy recomendable, puesto que duplica variables y aumenta innecesariamente el tamao de la
base de datos. Por ello, a no ser que haya alguna razn especial, es conveniente dejar este
espacio sin cumplimentar, en cuyo caso R-Commander incorporar directamente el nombre de
las categoras a la variable Estado original, sin duplicarla.
48
Gestin de Bases de Datos con R-Commander
Una vez definidas las opciones se pulsar el botn Aceptar. Si no se ha especificado un nuevo
nombre para la variable, R-Commander mostrar un aviso en el que recuerda que la variable
Estado ya existe y preguntar si se desea aadir el nombre de las categoras sobre ella. Una
respuesta afirmativa dar paso a una nueva ventana en la que se podr escribir el nombre de
cada categora: Accidentado para el valor numrico 1 y No accidentado para el valor
numrico 2.
Si la variable tuviese ms categoras, sus valores numricos apareceran ordenados uno debajo
de otro para introducir sucesivamente los nombres. Tras pulsar el botn Aceptar la variable
Estado quedar definida como cualitativa, incorporando las etiquetas que definen cada una de
sus categoras.
El mismo procedimiento se repetir para nombrar las categoras del resto de variables
cualitativas.
Este proceso, iniciado en la ventana Convertir variables numricas en factores, permite
seleccionar varias variables a la vez dejando pulsada la tecla Control (Ctrl) del teclado. De
esta forma R-Commander solicitar los nombres de las categoras de cada variable de forma
sucesiva, permitiendo ahorrar algunos pasos con respecto a tratar las variables de una en una.
Sin embargo, cuando las variables seleccionadas tienen el mismo nmero de categoras, R-
Commander asignar a todas ellas los nombres de las categoras definidas para la primera
variable.
49
Descubriendo R-Commander
Una vez que la base de datos se encuentra activa en memoria, R-Commander ofrece varios
procedimientos adicionales para gestionar su informacin, la mayora de ellos localizados en
el desplegable Datos del men principal. A continuacin se describen los ms utilizados antes
de comenzar el anlisis estadstico o durante el desarrollo del mismo.
Debajo del men principal de R-Commander hay dos botones: Visualizar conjunto de datos
y Editar conjunto de datos. Pulsando sobre la primera opcin se puede ver el contenido de
la base de datos activa sin alterar su contenido. La segunda opcin permite cambiar el nombre
de las variables, modificar datos o incluir nuevos registros. En caso de utilizar esta ltima
opcin ser necesario guardar la base de datos en formato R-Commander para poder
recuperarla posteriormente en otras sesiones de trabajo.
Permite generar nuevos valores a partir de la informacin de una o ms variables. As, a partir
de la edad de los profesionales, expresada en aos, podra calcularse una nueva variable
denominada Edad.meses que contuviera la misma edad expresada en meses. Para ello, desde
el men principal se activar la secuencia:
50
Gestin de Bases de Datos con R-Commander
Datos - Modificar variables del conjunto de datos activo Calcular una nueva variable
Haciendo doble clic con el botn izquierdo del ratn sobre la variable Edad, sta pasar al
rectngulo blanco situado en la parte inferior derecha de la ventana, bajo el ttulo Expresin
a calcular. La expresin para transformar la edad de aos a meses es Edad*12, donde el
asterisco equivale al signo de multiplicacin.
51
Descubriendo R-Commander
(*)
Operador Smbolo Expresin a calcular
Suma + x+y
Resta - xy
Multiplicacin * x*y
Divisin / x/y
Elevacin a una potencia ^ x^y
(*)
x e y pueden ser variables o valores numricos
Con este procedimiento es posible modificar los nombres de las categoras de una variable
cualitativa o convertir una variable cuantitativa en cualitativa, agrupando a los individuos en
las categoras que generen unos puntos de corte prefijados por el usuario.
A modo de ejemplo, para sustituir las etiquetas Hombre y Mujer por Masculino y
Femenino en la variable Sexo se realizar la siguiente secuencia del men principal:
52
Gestin de Bases de Datos con R-Commander
En el espacio situado a la derecha del ttulo Nuevo nombre o prefijo para variables mltiples
recodificadas se escribir el nombre de la variable que contendr las categoras del sexo con
las nuevas etiquetas, en este caso Gnero. De esta forma se conservar en la base de datos la
variable Sexo original, con categoras Hombre y Mujer, y se crear otra variable Gnero con
categoras Masculino y Femenino. Si este rectngulo se deja vaco, los nombres de las
categoras originales de Sexo se sustituirn por los nuevos y no se crear una variable
adicional. Esta ltima opcin es recomendable cuando no se desea seguir utilizando las
etiquetas originales, evitando la duplicidad de variables en la base de datos.
Habitualmente, la opcin Convertir cada nueva variable en factor estar siempre activada,
puesto que la nueva variable que se genera es cualitativa.
Tras pulsar el botn Aceptar, la nueva variable Gnero se aadir en la ltima columna de la
base de datos. En caso de no haber especificado un nuevo nombre de variable, los nombres de
las categoras de la variable Sexo se habrn modificado automticamente sin duplicar la
variable.
53
Descubriendo R-Commander
Las directrices de recodificacin son ahora un poco diferentes a las anteriores, como muestra
la imagen superior. Puesto que la variable a recodificar es cuantitativa, la parte izquierda de la
expresin ya no son valores individuales sino intervalos o rangos de valores. La parte situada
a la derecha del signo igual es el nombre o etiqueta de cada categora, que al ser texto deber
ir entrecomillada.
Las letras lo constituyen la abreviacin de la palabra inglesa lower (el ms bajo), mientras que
hi es la abreviacin de higher (el ms alto). As, la expresin lo:25=25 o menos significa
que los valores de la variable Edad comprendidos entre el valor ms bajo de la base de datos y
los 25 aos formarn una categora denominada 25 o menos. En este intervalo se incluye el
valor 25.
La expresin 25:40=26 a 40 indica que todos los profesionales con edad superior a 25 aos
e inferior o igual a 40 aos formarn parte de la categora 26 a 40. Aunque est presente en
la expresin, el valor 25 no se incluir en este intervalo. R-Commander lo excluir
automticamente al detectar que ya forma parte del primer intervalo. En este caso, una
expresin equivalente para definir esta categora sera 26:40=26 a 40, ya que la edad est
recogida mediante nmeros enteros. Sin embargo, si hubiera decimales, el valor 25.36 no
quedara recogido ni en el primer intervalo ni en el segundo. Para evitar errores de este tipo es
aconsejable definir siempre el intervalo mediante la expresin 25:40=26 a 40.
Por ltimo, 40:hi=Ms de 40 expresa que todos los profesionales con edad superior a 40
aos constituirn la categora Ms de 40. Como antes, R-Commander excluir
automticamente el valor 40 de este intervalo al detectar que ya forma parte del intervalo
anterior.
54
Gestin de Bases de Datos con R-Commander
En caso de haber dejado en blanco el espacio Nuevo nombre o prefijo para variables
mltiples recodificadas, los valores originales de la variable Edad seran sustituidos por las
nuevas categoras. Esta opcin no es muy recomendable, ya que impedir trabajar con la
variable original en posteriores sesiones de trabajo.
55
Descubriendo R-Commander
Datos - Modificar variables del conjunto de datos activo Segmentar variable numrica
El cuadro de dilogo abierto mostrar slo las variables cuantitativas de la base de datos, ya
que este procedimiento nicamente es vlido para valores numricos.
Para categorizar o segmentar la variable Edad en tres grupos, utilizando puntos de corte
automticos, se seleccionar del listado de variables haciendo clic sobre ella con el botn
izquierdo del ratn. R-Commander la marcar en azul, pudiendo escribir a continuacin el
nombre de la nueva variable en la parte superior derecha de la ventana.
Segmentos equidistantes
Permite realizar una particin de la variable en intervalos de igual longitud. Es el mtodo ms
sencillo para categorizar una variable cuantitativa, de manera que el segmento a dividir estar
dado por la diferencia entre el valor mayor y el valor menor de la variable. En este caso, la
edad menor es 18 aos y la mayor 58, por lo que la amplitud de cada uno de los tres intervalos
ser (58-18)/3=13.33 aos. As, el primer grupo de profesionales estar formado por aquellos
56
Gestin de Bases de Datos con R-Commander
con edades comprendidas entre 18 y 31.3 aos, el segundo grupo entre 31.3 y 44.7 aos y el
tercer grupo entre 44.7 y 58.
Por ltimo, las opciones del bloque Nombres de niveles permitirn poner nombre a cada
uno de los intervalos o categoras generadas. La opcin Especificar nombres se utilizar
para escribir el texto que el usuario desee, mientras que las opciones Nmeros y Rangos
harn que R-Commander asigne automticamente las etiquetas de las categoras, utilizando
respectivamente nmeros consecutivos o el mismo rango de valores del intervalo.
57
Descubriendo R-Commander
Las opciones mostradas en el cuadro de dilogo permitirn generar una nueva base de datos
que contenga slo las variables y los registros especificados. Por defecto, la opcin Incluir
todas las variables se encuentra activada, sin embargo es posible desactivarla y elegir slo
aquellas variables que se deseen trasladar a la nueva base de datos. Para ello bastar con
marcarlas usando el botn izquierdo del ratn a la vez que se pulsa la tecla Control (Ctrl) del
teclado.
58
Gestin de Bases de Datos con R-Commander
Obsrvese que la condicin de igualdad se expresa con el doble signo == y no con = como
suele ser habitual. Adems, puesto que Sexo es una variable cualitativa, la categora
especificada como filtro ha de ir entre comillas. Es muy importante que las expresiones de
seleccin respeten el lenguaje R-Commander para que el filtro se realice correctamente. Estas
son las expresiones y operadores lgicos ms frecuentes:
De esta forma, para seleccionar a los sujetos con edades comprendidas entre 25 y 40 aos,
ambas inclusive, la expresin de seleccin ser 25<=Edad & Edad<=40.
Por ltimo, la opcin Nombre del nuevo conjunto de datos permitir almacenar el filtro en
una nueva base de datos, que pasar a ser la base de datos activa.
Datos - Modificar variables del conjunto de datos activo Eliminar variables del
conjunto de datos
Para eliminar una nica variable se pulsar sobre ella en el cuadro de dilogo abierto y a
continuacin el botn Aceptar. Es posible borrar varias variables a la vez dejando pulsada la
tecla Control (Ctrl) del teclado mientras se seleccionan del listado todas las variables que se
desean eliminar.
59
Descubriendo R-Commander
Datos Conjunto de datos activo Borrar fila(s) del conjunto de datos activo
Para borrar slo la dcima fila se escribir el valor 10, mientras que para borrar todas las filas
comprendidas entre la nmero 10 y la 22 se escribir 10:22.
La nueva base de datos puede guardarse con otro nombre cumplimentando el espacio
Nombre del nuevo conjunto de datos. De esta forma se mantendr intacta la base de datos
original en la memoria de R-Commander y se crear una copia de ella en la que se eliminarn
los registros. Si no se especifica ningn nombre, los registros sern borrados directamente en
la base de datos activa en memoria.
60
Gestin de Bases de Datos con R-Commander
Cuando se elabora o importa una base de datos, se crean nuevas variables o se modifican
datos, R-Commander guarda la nueva informacin en memoria, pero no la almacena
fsicamente en el disco duro del ordenador. Esto supone que al cerrar una sesin de trabajo y
salir del programa se perder toda la informacin junto con los cambios realizados, siendo
necesario volver a introducir, importar o modificar los datos en la siguiente sesin.
Al comenzar una sesin de trabajo ser necesario cargar en memoria la base de datos que se
desea analizar. Si sta ya fue elaborada o importada en una sesin de trabajo anterior y se
guard posteriormente como archivo R-Commander, ser posible recuperarla pulsando la
siguiente secuencia del men principal:
Cuando se abra la ventana de seleccin de archivos bastar con buscar la base de datos en la
carpeta correspondiente y hacer doble clic sobre ella. Para facilitar la bsqueda es conveniente
seleccionar la opcin Archivos de datos de R (*.rda, *.Rda, *.RDA), situada en la esquina
inferior derecha de la ventana, en lugar de la opcin Todos los archivos (*.*) que aparece por
defecto. De esta forma se mostrarn slo las bases de datos previamente grabadas en formato
R-Commander.
Una vez capturada la base de datos, R-Commander mostrar su nombre en color azul junto al
texto Conjunto de datos, debajo del men principal. Pulsando la opcin Visualizar
conjunto de datos, situada a la derecha del men, se puede comprobar si la captura de la
base de datos se ha realizado correctamente.
61
Descubriendo R-Commander
Las bases de datos guardadas en archivos R-Commander (con extensin .rda) slo pueden
abrirse con este software. Para compartir la informacin con otros usuarios que no utilicen R-
Commander o trabajar con otros programas estadsticos ser necesario exportar la
informacin a un archivo de texto, formato universal que puede leer cualquier software.
A continuacin se abrir una ventana con diferentes opciones que podrn ser activadas o
desactivadas dependiendo del formato con el que se desee exportar la informacin.
62
Gestin de Bases de Datos con R-Commander
Desactivado Si se deja activada, esta opcin aadir una variable adicional con
nmeros correlativos. En principio no suele ser til y aumenta
innecesariamente el volumen de la base de datos, por lo que es preferible
desactivarla.
Valores ausentes
Separador de campos
Usar comas Si hay variables cualitativas en las que el nombre de alguna categora
tenga espacios, no es aconsejable usar a su vez el espacio como separador
de campos.
Tras pulsar el botn Aceptar se deber seleccionar la carpeta en la que se quiere guardar la
base de datos, especificar el nombre del archivo y pulsar el botn Guardar. El archivo deber
tener extensin .txt, .TXT, .dat, .DAT, .csv o .CSV, formato de texto universal compatible con
cualquier software.
63
4
Los contenidos de este captulo exponen las tcnicas ms frecuentes para la descripcin de
cada una de las variables que componen una base de datos, usando para ello el caso prctico
Accidentes por pinchazo en profesionales de enfermera.
Las tcnicas que se utilizan para describir variables cualitativas son diferentes a las utilizadas
para la descripcin de variables cuantitativas. Usualmente, una variable cualitativa se describe
a travs de una tabla de frecuencias, mostrando el nmero de sujetos que constituye cada
categora y su porcentaje con respecto al total de sujetos. Por contra, la descripcin de una
variable cualitativa se realiza mediante un resumen numrico, que habitualmente incorpora
los valores mnimo, mximo, media y desviacin tpica de la variable.
La ventana de resultados mostrar el nombre de cada variable de la base de datos y debajo del
l un recuento del nmero de sujetos por categora, si la variable es cualitativa, o un resumen
numrico, dado por los valores mnimo, primer cuartil, mediana, media, tercer cuartil y
64
Anlisis descriptivo univariante
En general, los cuartiles no suelen incorporarse a un resumen descriptivo bsico, aunque sern
tiles para comprender el significado y la utilidad de un grfico de caja, descrito ms adelante.
Estos parmetros dividen a la variable en cuatro partes iguales, de manera que, una vez
ordenados los datos de menor a mayor, cada intervalo contiene al 25% de los valores
registrados. En este caso, el primer cuartil se sita en 23 aos, indicando que el 25% de los
profesionales tienen una edad inferior a 23 aos. La mediana o segundo cuartil, localizada en
30 aos, indica que el 50% de los sujetos tiene menos de 30 aos. Por ltimo, el tercer cuartil,
situado en 47.75 aos, seala que el 75% de los profesionales tiene una edad inferior a 47.75
aos.
65
Descubriendo R-Commander
Tabla de frecuencias
Grupo
Formacin 12 48%
No formacin 13 52%
Estado
Accidentado 17 68%
No accidentado 8 32%
Sexo
Hombre 13 52%
Mujer 11 44%
Valores perdidos 1 4%
12/25*100; 13/25*100
Dejando el cursor colocado en la misma lnea, justo despus del ltimo 100, se pulsar el
botn Ejecutar, situado en la parte inferior derecha de la ventana de instrucciones. La ventana
de resultados mostrar entonces los porcentajes correspondientes, que habrn de transcribirse
a la tabla de frecuencias del procesador de textos.
66
Anlisis descriptivo univariante
17/25*100; 8/25*100
13/25*100; 11/25*100; 1/25*100
Un resultado similar puede obtenerse pulsando la siguiente secuencia desde el men principal
de R-Commander:
67
Descubriendo R-Commander
Hombre Mujer
13 11
Hombre Mujer
54.17 45.83
> remove(.Table)
En rojo aparecern las instrucciones que R-Commander utiliza para contar el nmero de
sujetos de cada categora y calcular el porcentaje correspondiente. En azul los resultados, que
tendrn que transcribirse a la tabla de frecuencias del procesador de textos.
Los resultados del primer procedimiento, en el que los porcentajes se calcularon escribiendo
lneas de texto, coincidirn con los resultados de este procedimiento automtico cuando la
variable no tenga valores perdidos, en cuyo caso ste ltimo puede ser preferible por la
rapidez en la obtencin de informacin.
Grfico de barras
68
Anlisis descriptivo univariante
o de tipo carcter en R-Commander, ya que este grfico no tiene sentido para variables
cuantitativas.
Tras marcar en azul la variable correspondiente, en este caso Sexo, y pulsar el botn Aceptar,
aparecer una nueva ventana que contendr el grfico.
69
Descubriendo R-Commander
Para que el grfico de barras muestre en el eje vertical la etiqueta Nmero de sujetos en
lugar de Frequency y lo dibuje en azul habr que sustituir el comando anterior por este otro:
70
Anlisis descriptivo univariante
Diagrama de sectores
Tras pulsar el botn Aceptar la ventana grfica mostrar el diagrama de sectores, sustituyendo
el grfico que hubiese anteriormente.
71
Descubriendo R-Commander
72
Anlisis descriptivo univariante
que podr modificarse de la siguiente forma para que aparezca el ttulo Distribucin de la
variable Sexo en lugar de Sexo y los colores rojo y azul claro para los sectores:
Puesto que este comando ocupa dos lneas de texto dentro de la ventana de instrucciones, para
ejecutarlo ser necesario seleccionar ambas lneas con el ratn y posteriormente pulsar el
botn Ejecutar. Las lneas seleccionadas quedarn marcadas en azul, como muestra la imagen
anterior.
Como ocurra con el grfico de barras, una alternativa a la sintaxis de R-Commander es usar
la informacin de la tabla de frecuencias para crear el diagrama de sectores directamente en el
procesador de textos, hoja de clculo o programa de presentacin que se est utilizando para
elaborar el documento.
Puesto que la salida anterior de R-Commander no ofrece la desviacin tpica, ser necesario
obtenerla desde el men principal activando la secuencia:
73
Descubriendo R-Commander
Histograma
74
Anlisis descriptivo univariante
mediante barras, muestra el nmero de sujetos que contiene cada categora. R-Commander
calcula la longitud de los intervalos mediante algoritmos automticos, de manera que todos
tengan igual amplitud y definan barras de igual anchura. La secuencia para realizar este
grfico desde el men principal es la siguiente:
Grficas Histograma
75
Descubriendo R-Commander
El grfico muestra una distribucin de valores asimtrica, sesgada a la derecha, con tres
frecuencias mximas localizadas en los intervalos de edad 20-25, 45-50 y 50-55. Este tipo de
distribuciones se denomina multimodal y suele aparecer cuando estn mezclados datos que
proceden de distintos grupos o poblaciones.
Para incorporar las etiquetas Edad y Nmero de sujetos a los ejes horizontal y vertical
respectivamente y dibujar las barras en azul, habr que utilizar la ventana de instrucciones de
R-Commander. En ella se sustituir el comando:
Grfico de caja
El cuadro de dilogo mostrar las variables cuantitativas que pueden representarse, entre las
que se seleccionar Edad.
76
Anlisis descriptivo univariante
La opcin Identificar atpicos con el ratn puede activarse para obtener informacin sobre
los casos raros o atpicos, marcados con un crculo por R-Commander. Al hacer clic con el
ratn sobre cada uno de estos sujetos aparecer el nmero de fila que ocupa dentro de la base
de datos. Este procedimiento puede ser til para identificar errores en el registro de la
informacin o identificar valores extremos dentro de un grupo.
Los lados inferior y superior del rectngulo se sitan a la altura del primer y tercer cuartil
respectivamente. La lnea central en negrita es la mediana. Todos los valores de la edad
comprendidos entre las marcas dibujadas al final de las lneas punteadas se considerarn no
atpicos. Si en la base de datos hubiese valores de la edad por debajo de la marca inferior o
por encima de la marca superior quedaran sealados con un crculo, indicando que se trata de
casos raros. En ocasiones, estas marcas se denominan lmites de admisibilidad.
En este caso no hay valores atpicos para la edad. La mediana est desplazada respecto al
centro del rectngulo y su distancia al lmite superior es mayor que la distancia al lmite
inferior, lo que indica que la distribucin de los valores es asimtrica. El sesgo a la derecha
sugiere mayor heterogeneidad entre los sujetos que tienen una edad superior a la mediana.
77
Descubriendo R-Commander
PRESENTACIN DE RESULTADOS
La forma de presentar los resultados descriptivos depender del objetivo que se desee
alcanzar. Aunque no existen normas preestablecidas, habitualmente un artculo cientfico
suele incluir slo tablas de frecuencia y resmenes numricos y nicamente de forma
excepcional algn grfico que permita destacar informacin relevante no recogida en las
tablas. Por el contrario, una presentacin oral, en la que el oyente no dispone de tiempo para
procesar grandes cantidades de informacin numrica, es preferible incorporar grficos que
permitan recibir el mensaje de forma visual, rpida y concisa.
Grupo
Formacin 12 48%
No formacin 13 52%
Estado
Accidentado 17 68%
No accidentado 8 32%
Sexo
Hombre 13 52%
Mujer 11 44%
Valores perdidos 1 4%
:
78
Anlisis descriptivo univariante
Nota: Se incorporarn a la primera columna de la tabla tantas variables como sea necesario,
siguiendo la misma estructura para cumplimentar su informacin.
79
Descubriendo R-Commander
80
5
La variable independiente es aquella que a priori se considera como la causa, o una de las
posibles causas, del efecto estudiado, cuyos valores constituyen la variable dependiente. En la
investigacin experimental, el investigador manipula la variable independiente para observar
el cambio que se produce en la variable dependiente, de manera que conociendo los valores
de la primera se podra predecir el comportamiento de esta ltima. Por ello, la variable
independiente tambin se conoce como predictora, explicativa, exposicin o causa, en cuyo
caso la variable dependiente suele recibir respectivamente el nombre de respuesta, explicada,
enfermedad o efecto.
El anlisis bivariante describe la relacin entre dos variables, donde habitualmente una de
ellas acta como independiente y otra como dependiente. Este anlisis engloba varias tcnicas
estadsticas, cuyo uso particular depender del carcter cualitativo o cuantitativo de las
variables analizadas. En este captulo se exponen los mtodos ms utilizados para este
propsito.
81
Descubriendo R-Commander
Siempre que la variable dependiente sea cualitativa, la tcnica estadstica ms utilizada para
describir su relacin con otras variables, cualitativas o cuantitativas, es la tabla de
contingencia. En su forma ms sencilla, esta tabla presenta una doble entrada, donde las
categoras de la variable independiente (exposicin o causa) se disponen habitualmente en las
filas y las categoras de la variable dependiente (enfermedad o efecto) en las columnas. Si la
variable independiente fuese cuantitativa se segmentar en dos o ms grupos para conseguir
una tabla con el siguiente formato:
Dependiente
Enfermos No enfermos
Independiente Expuestos a b a+b
No expuestos c d c+d
a+c b+d a+b+c+d
Las celdas de la tabla representan el nmero de sujetos que tienen una determinada
caracterstica. As, hay a personas expuestas y enfermas, b expuestas y no enfermas, c no
expuestas y enfermas y d no expuestas ni enfermas.
Junto a estos nmeros absolutos, en los estudios de cohortes y transversales es til calcular los
que se denomina porcentaje por filas, es decir, la proporcin de personas enfermas tanto en el
grupo de expuestos como en el de no expuestos. De esta forma, [a/(a+b)] x 100 ser el
porcentaje de enfermos entre las personas que estuvieron expuestas y [c/(c+d)] x 100 el
porcentaje de enfermos entre las no expuestas. En un estudio de cohortes, estos valores
pueden interpretarse como la incidencia acumulada de la enfermedad en cada uno de los
grupos de exposicin y su cociente es la razn de incidencias o Riesgo Relativo (RR). En un
estudio transversal ambos porcentajes sern la prevalencia de la variable dependiente en cada
grupo de la variable independiente y su cociente la Razn de Prevalencias (RP). Si exposicin
y enfermedad no estn relacionadas, la incidencia o la prevalencia sern similares en cada
grupo de exposicin.
En los estudios de casos y controles, suele obtenerse el porcentaje por columnas, describiendo
de forma separada las caractersticas del grupo de enfermos y del grupo de no enfermos. En
los casos, la proporcin de sujetos expuestos ser [a/(a+c)] x 100, mientras que en los
controles este porcentaje ser [b/(b+d)] x 100. Si la variable independiente no est relacionada
con la dependiente, la proporcin de sujetos expuestos ser similar en el grupo de los casos y
en el grupo de los controles.
82
Anlisis descriptivo bivariante
Cualquiera que sea el tipo de diseo, el producto cruzado (a x d)/(c x b) es la Odds Ratio (OR)
o razn de ventajas, una medida de asociacin que generalmente representa el riesgo de
enfermar de una persona expuesta con respecto a otra no expuesta, aunque con algunos
matices para los estudios de casos y controles. 9 Esta definicin ser vlida siempre que la
variable independiente est situada en las filas, la dependiente en columnas y los Enfermos-
Expuestos en la primera celda de la tabla. De no ser as, la interpretacin del producto cruzado
anterior ser diferente. Igualmente, para que la interpretacin de los porcentajes por filas o
columnas coincida con el definido anteriormente, la variable independiente ha de estar en las
filas y la dependiente en las columnas.
El principal objetivo del estudio de accidentes por pinchazo era evaluar la eficacia del
programa de formacin sobre la disminucin de accidentes. Para comprobarlo bastar con
hacer un recuento de accidentes en el grupo de profesionales que recibi formacin especfica
y en el que no la recibi, de manera que si el programa fuese eficaz se esperara encontrar un
porcentaje de accidentes menor en el grupo que recibi formacin.
En este caso la variable dependiente es el estado del profesional al final del seguimiento
(Accidentado - No accidentado) y la independiente el grupo al que pertenece (Formacin
No formacin). Por ser un anlisis de dos variables la tabla de contingencia ser de doble
entrada, pudiendo realizarse desde el men principal de R-Commander siguiendo esta
secuencia:
9
Gmez-Gmez M, Danglot-Banck C, Huerta-Alvarado SG, Garca de la Torre G. El estudio de casos y controles: su diseo,
anlisis e interpretacin en investigacin clnica. Revista Mexicana de Pediatra 2003; 70(5): 257-263.
83
Descubriendo R-Commander
Tras ejecutarla aparecer un cuadro de dilogo que muestra dos grupos de variables
cualitativas. A la izquierda, bajo el ttulo Variable de fila, se elegir la variable
independiente (Grupo) y a la derecha, bajo el ttulo Variable de columna, la dependiente
(Estado).
Las opciones Calcular porcentajes permitirn completar la tabla calculando para cada celda
la proporcin de sujetos con respecto al total de individuos de su fila, de su columna o del
global de la base de datos. El diseo de este estudio es de seguimiento, por lo que el
porcentaje activado ser por filas para obtener la incidencia de accidentes en el grupo que
recibi formacin y en el grupo que no la recibi.
84
Anlisis descriptivo bivariante
Estos resultados debern transcribirse a un procesador de textos para confeccionar una tabla
como la mostrada a continuacin que contenga, de momento, la siguiente informacin:
Variables Estado
(*)
Accidentado No accidentado RR
Grupo
Formacin 6 (50.0%) 6 (50.0%) 0.59
No formacin 11 (84.6%) 2 (15.4%) 1
Entre los profesionales que recibieron formacin, el 50% se accident. En el grupo que no
recibi informacin el porcentaje de accidentes fue del 84.6%. Con esta informacin, la
accidentabilidad es inferior en el grupo de profesionales que recibi informacin. De hecho, el
RR calculado mediante el cociente 50.0/84.6=0.59 indica que el riesgo de accidente de las
personas que recibieron formacin es 0.59 veces inferior al de los profesionales que no
recibieron formacin. Dicho de otra forma, el riesgo de accidente es un 41% inferior en las
85
Descubriendo R-Commander
personas con formacin con respecto a las personas sin formacin. Esta ltima categora, con
respecto a la que se realiza la comparacin, se denomina categora de referencia y suele
sealarse con el valor 1 en la tabla de resultados anterior.
En lugar del riesgo relativo, en un estudio de cohortes tambin puede utilizarse la OR como
medida de asociacin. Calculada mediante el producto cruzado (6x2)/(11x6)=0.18, su valor
inferior a 1 sugiere un efecto protector de la formacin sobre los accidentes por pinchazo, con
magnitud diferente al riesgo relativo.
Otro de los objetivos del estudio de accidentes por pinchazo era estudiar la relacin de las
variables Sexo y Edad con el Estado de los profesionales al final del seguimiento, siendo sta
ltima la variable dependiente. Puesto que Sexo es una variable independiente cualitativa, su
relacin con Estado se describir mediante una tabla de contingencia, utilizando el mismo
procedimiento del subapartado anterior. Sin embargo, la relacin entre Edad y Estado
requerir previamente segmentar la variable cuantitativa Edad en dos o ms grupos para
convertirla en cualitativa y poder realizar una tabla de contingencia.
El nmero de categoras a efectuar y los puntos de corte usados para segmentar una variable
independiente cuantitativa dependern de las hiptesis del estudio. Si no hubiera una hiptesis
de partida clara se recurrir a criterios clnicos o epidemiolgicos, tomando las categoras y
puntos de corte consensuados en la literatura cientfica internacional. Por ltimo, si tampoco
se dispone de criterios epidemiolgicos estandarizados se recurrir a criterios estadsticos,
recodificando la variable o segmentndola en intervalos con el mismo nmero de sujetos,
equidistantes o naturales como se describi en el Captulo 3, dentro del apartado Obtener
nuevas variables a partir de las existentes: Calcular, recodificar y segmentar.
En este caso no existen hiptesis de partida ni criterios epidemiolgicos que puedan ser
utilizados para segmentar la variable Edad. Por ello, a modo de ejemplo, se dividir en tres
grupos de igual tamao utilizando los percentiles 33 y 66 como puntos de corte, de manera
que cada intervalo contenga al 33% de los profesionales. Para realizar este procedimiento,
desde el men principal se activar la secuencia:
86
Anlisis descriptivo bivariante
Una vez efectuada la segmentacin se realizar una tabla de contingencia de doble entrada
situando la variable independiente Edad.terciles en las filas y la variable dependiente Estado
en las columnas, a travs de Estadsticos Tablas de contingencia Tabla de doble entrada.
87
Descubriendo R-Commander
Estado
Variables Accidentado No accidentado RR(*)
Edad
24 o menos 7 (87.5%) 1 (12.5%) 3.5
25-41 7 (87.5%) 1 (12.5%) 3.5
42 o ms 2 (25.0%) 6 (75.0%) 1
(*) R-Commander no ofrece el riesgo relativo (RR) en la salida de resultados
88
Anlisis descriptivo bivariante
respecto a la categora 42 o ms, que en este caso sera (7x6)/(2x1) tanto para el grupo 24 o
menos como para el grupo 25-41 aos.
Cuando en el primer subapartado se estudi la relacin entre Grupo y Estado, la primera celda
de la tabla de contingencia estaba dada por las categoras Accidentado-Formacin. Por ello, la
OR calculada mediante el tradicional producto cruzado es el riesgo de Accidente de un
profesional Formado con respecto a otro No formado. Esta ltima categora, con respecto a la
que se realiza la comparacin, siempre es la categora de referencia y aparece con el valor 1
en la tabla de resultados.
Datos - Modificar variables del conjunto de datos activo Reordenar niveles de factor
Aparecer un primer cuadro de dilogo que contiene las variables cualitativas de la base de
datos. En este caso se seleccionar la variable Grupo, marcndola con el botn izquierdo del
ratn.
89
Descubriendo R-Commander
Tras pulsar el botn Aceptar se mostrar un aviso recordando que la variable Grupo ya existe
y se va a sobreescribir con la nueva reordenacin de categoras. Una vez confirmada la accin
R-Commander abrir una ventana con dos columnas denominadas respectivamente Niveles
antiguos y Nuevo orden. Bajo la primera columna aparecern las categoras de la variable
cualitativa en el orden original: En primer lugar Formacin, con el nmero 1 asignado a la
derecha. En segundo lugar No formacin, con el nmero 2. Para reordenar estas categoras
bastar con escribir la nueva numeracin en los espacios de la columna Nuevo orden,
asignando el valor 1 a No formacin y 2 a Formacin.
Estado
Grupo Accidentado No accidentado
No formacin 11 2
Formacin 6 6
Estado
Grupo Accidentado No accidentado Total Count
No formacin 84.6 15.4 100 13
Formacin 50.0 50.0 100 12
> remove(.Table)
90
Anlisis descriptivo bivariante
Estado
Variables Accidentado No accidentado RR(*)
Grupo
No formacin 11 (84.6%) 2 (15.4%) 1.69
Formacin 6 (50.0%) 6 (50.0%) 1
(*) R-Commander no ofrece el riesgo relativo (RR) en la salida de resultados
Como antes, el 84.6% de los profesionales que no recibieron formacin se accident, mientras
que la proporcin de accidentes fue del 50% en el grupo que recibi formacin. El cociente
entre ambos es el riesgo relativo, cuyo valor muestra que el riesgo de accidente es 1.69 veces
superior en los profesionales que no recibieron formacin con respecto a aquellos que la
recibieron. Como es usual, el 1 insertado en la columna RR para la categora Formacin
seala la categora de referencia.
De la misma forma, puesto que la primera celda de la tabla est formada ahora por el par de
categoras Accidentado-No formacin, la OR calculada mediante el cociente (11x6)/(6x2)=5.5
indicara que el riesgo de Accidente de las personas No formadas es 5.5 veces superior con
respecto a los profesionales que recibieron formacin.
Presentacin de resultados
Dos de los objetivos del caso prctico Accidentes por pinchazo en profesionales de
enfermera eran, por un lado, evaluar la eficacia del programa de formacin en la disminucin
de los accidentes. Por otro, estudiar la relacin de la edad y el sexo con el estado de los
profesionales al final del seguimiento.
Para responder a estos objetivos de forma clara y comprensible es necesario resumir los
resultados del anlisis de datos en una tabla o en un grfico sencillo, incluyendo nicamente
la informacin necesaria. Cuando el mtodo estadstico se basa en tablas de contingencia, la
forma usual de hacerlo es elaborando una tabla que contenga la siguiente informacin para
cada una de las variables independientes:
91
Descubriendo R-Commander
Estado
Variables Accidentado No accidentado RR
Grupo
No formacin 11 (84.6%) 2 (15.4%) 1.69
Formacin 6 (50.0%) 6 (50.0%) 1
Edad
24 o menos 7 (87.5%) 1 (12.5%) 3.5
25-41 7 (87.5%) 1 (12.5%) 3.5
42 o ms 2 (25.0%) 6 (75.0%) 1
Sexo
Hombre 10 (76.9%) 3 (23.1%) 1.41
Mujer 6 (54.5%) 5 (45.5%) 1
As, la persona que lea el documento sabr con un simple golpe de vista que los profesionales
no formados tienen ms riesgo de accidente que los formados, los ms jvenes ms que los
mayores y los hombres ms que las mujeres.
El caso prctico Volumen espiratorio es un estudio transversal diseado para investigar los
factores relacionados con el volumen espiratorio de personas que trabajan en la mina. La
variable dependiente es Volumen, variable cuantitativa medida en mililitros por segundo. La
variable Tabaco es una variable independiente cualitativa, mientras que las variables Tiempo,
Edad y Altura son variables independientes cuantitativas. En este apartado se mostrarn los
mtodos estadsticos apropiados para describir la relacin entre una variable dependiente
cuantitativa y el resto de caractersticas.
92
Anlisis descriptivo bivariante
Puesto que para utilizar esta tcnica la variable dependiente ha de ser cuantitativa, en la
pantalla inicial no aparece Tabaco como posible eleccin. De igual forma, puesto que la
variable independiente tiene que ser cualitativa, en el listado de variables para resumir por
grupos slo aparece Tabaco y no el resto de variables, que son cuantitativas.
Como en el anlisis descriptivo univariante, los parmetros necesarios sern los que activa R-
Commander por defecto: Media , desviacin tpica y cuantiles.
Tras pulsar el botn Aceptar en ambos cuadros de dilogo, la ventana de resultados mostrar
la siguiente salida:
93
Descubriendo R-Commander
El grupo que por trmino medio presenta mayor volumen espiratorio es el de exfumadores,
seguido por los trabajadores que nunca fumaron. El grupo de fumadores actuales es el que
muestra el menor volumen espiratorio medio.
La media de cada uno de los grupos puede representarse en un grfico con dos ejes, uno
horizontal en el que se muestran las categoras de la variable independiente y otro vertical en
el que se representan los valores de la variable dependiente. Para cada categora se dibujar un
punto de altura igual al valor medio de la variable dependiente en ese grupo. Este grfico se
realiza activando la secuencia Grficas - Grfica de las medias desde el men principal. En el
cuadro de dilogo abierto se seleccionar la variable independiente a la izquierda, en la
columna Factores, y la dependiente a la derecha, en la columna Variable explicada. Si no se
especifican barras de error, el grfico resultante es el que aparece ms abajo. Si se desea, en l
habr que modificar los ttulos de los ejes utilizando los comandos de la ventana de
instrucciones de R-Commander, como se mostr en el Captulo 4.
94
Anlisis descriptivo bivariante
El grfico resultante muestra dos valores atpicos en el grupo de exfumadores. Haciendo clic
con el botn izquierdo del ratn sobre cada uno de ellos aparecer la posicin que ocupan
dentro de la base de datos. En este caso, los sujetos 2 y 65 son casos raros u outliers dentro de
su grupo. La identificacin de valores atpicos finalizar tras pulsar el botn derecho del
ratn. A travs de la mediana, se observa que el grupo con menor volumen espiratorio es el de
fumadores actuales.
95
Descubriendo R-Commander
Por ltimo, el procedimiento Grficas - Diagrama de puntos realiza un grfico con dos ejes.
Para cada categora de la variable independiente, situada en el eje horizontal, se dibujar el
valor de la variable dependiente para todos los sujetos del grupo.
96
Anlisis descriptivo bivariante
Este procedimiento no se suele utilizar con demasiada frecuencia, siendo el diagrama de cajas
el ms interesante para comparar grupos de forma grfica.
Una de las hiptesis del estudio Volumen espiratorio era que el tiempo de exposicin al polvo
de la mina estaba relacionado con el volumen espiratorio, de manera que ste sera menor en
los trabajadores expuestos durante ms aos. En este caso tanto la variable independiente
Tiempo como la dependiente Volumen son cuantitativas, siendo el diagrama de dispersin la
tcnica apropiada para estudiar su relacin.
Este diagrama es un grfico con dos ejes en el que se representan los valores la variable
independiente y dependiente en el eje horizontal X- y vertical Y- respectivamente. As, para
cada sujeto se dibujar un punto en el plano con coordenadas dadas por el tiempo que lleva
expuesto y su volumen espiratorio. Este grfico se realiza desde el men principal con la
secuencia:
97
Descubriendo R-Commander
A continuacin se activar la opcin Lnea de mnimos cuadrados, que dibujar la recta que
mejor representa la tendencia de los puntos. En este grfico, R-Commander permite etiquetar
con un ttulo ambos ejes. As, se escribir Aos de exposicin debajo de Etiqueta del eje x
y Volumen espiratorio debajo de Etiqueta del eje y. El resto de opciones no tiene
demasiada importancia en este momento, sin embargo pueden ser tiles para personalizar el
grfico. Tras pulsar el botn Aceptar aparecer el grfico de dispersin, tambin denominado
nube de puntos.
Los puntos estn distribuidos aproximadamente alrededor de una recta decreciente, por lo que
la relacin entre el tiempo de exposicin y el volumen espiratorio es lineal indirecta. A
medida que aumentan los aos de exposicin disminuye el volumen espiratorio.
El mismo tipo de grfico puede realizarse para estudiar la relacin de la altura y la edad con el
volumen espiratorio, obteniendo lo siguiente:
98
Anlisis descriptivo bivariante
99
Descubriendo R-Commander
Una vez comprobada que la relacin entre las variables independiente y dependiente es lineal,
el coeficiente de correlacin puede medir la fuerza de asociacin entre ambas. Su valor
absoluto est en un gradiente comprendido entre 0 y 1, donde los valores extremos
corresponden respectivamente a la ausencia de relacin lineal y a una relacin lineal perfecta.
En esta ltima, todos los puntos estarn situados sobre la lnea recta. El signo del coeficiente
de correlacin ser negativo en una relacin lineal indirecta y positivo en una directa. Para
obtenerlo en R-Commander se seguir la secuencia:
Tras pulsar el botn aceptar se obtienen los siguientes valores en la ventana de resultados:
tiempo volumen
tiempo 1.0000000 -0.6261766
volumen -0.6261766 1.0000000
100
Anlisis descriptivo bivariante
El coeficiente de correlacin entre Tiempo y Volumen es -0.626, con signo negativo por ser
una relacin lineal indirecta. Aunque no existe un consenso generalizado, la asociacin suele
considerarse dbil cuando el valor absoluto del coeficiente de correlacin sea inferior a 0.40,
media cuando est entre 0.40 y 0.80 y fuerte cuando sea superior a 0.80.
Presentacin de resultados
Cuando se estudia la relacin entre una variable dependiente cuantitativa (Volumen) y otra
independiente cualitativa (Tabaco), los resultados suelen presentarse en una nica tabla que
muestra un resumen numrico de la variable dependiente para cada una de las categoras de la
variable independiente. Los parmetros estadsticos habituales son el nmero de sujetos,
mnimo, mximo, media y desviacin tpica. En el caso prctico Volumen espiratorio la nica
variable independiente cualitativa es Tabaco. Si hubiese habido ms variables independientes,
los resultados apareceran secuencialmente en una tabla como esta:
Para mostrar los resultados del anlisis bivariante de variables cuantitativas se utiliza el
diagrama de dispersin junto al coeficiente de correlacin, siempre que la relacin sea lineal.
Si hay ms de una variable independiente, la disposicin de los grficos se realiza de manera
que el espacio quede lo ms aprovechado posible. La disposicin en cuadrculas de este tipo
suele ser una opcin frecuente:
101
Descubriendo R-Commander
Grfico 1 Grfico 2
Grfico 3 Grfico 4
Los coeficientes de correlacin lineal pueden incorporarse al pie de cada grfico o bien
agruparse en una tabla similar a esta:
COMENTARIOS ADICIONALES
Todo lo expuesto anteriormente est basado en la relacin entre una variable dependiente y
otra independiente, ya que es el tipo de asociacin que se persigue en la mayora de los
objetivos de una investigacin. Sin embargo, los mismos procedimientos sirven para describir
la relacin entre dos variables cualesquiera. As, en el caso prctico Accidentes por pinchazo
en profesionales de enfermera, las variables Sexo y Edad son independientes, pero nada
impide describir su relacin comparando la edad media de hombres y mujeres. De la misma
forma, en el estudio Volumen espiratorio en profesionales de la minera se podra describir la
relacin entre las variables independientes Tiempo y Edad utilizando un diagrama de
dispersin. Ser el propio investigador el que establezca en cada momento el objetivo del
estudio y el inters por estudiar determinadas relaciones, justificando siempre su decisin con
un marco terico previo.
102
Anlisis descriptivo bivariante
La relacin entre dos variables puede estar distorsionada por un tercer factor de confusin que
el anlisis descriptivo bivariante no puede controlar. Si esto ocurriera, la medida de
asociacin entre la variable dependiente e independiente podra estar sesgada, mostrando un
efecto que realmente no existe o revelando una asociacin real cuya magnitud podra estar
atenuada o aumentada. 10 Por ello es necesario avanzar un poco ms en el anlisis de datos,
utilizando modelos de regresin multivariante antes de llegar a una conclusin plausible sobre
el problema de investigacin.
10
J. de Irala et al. Qu es una variable de confusin? Medicina Clnica (Barcelona) 2001; 117: 337-385.
103
6
CASOS PRCTICOS
Los accidentes por pinchazo con aguja hipodrmica son un problema de salud importante en
enfermera, tanto por el riesgo de contagio por VIH y otras enfermedades infecciosas como
por las consecuencias psicolgicas que conlleva. Las actividades formativas en medidas de
prevencin pueden contribuir a la reduccin de este tipo de accidentes, sin embargo no todas
han mostrado su utilidad. Con el fin de probar la eficacia de uno de estos programas de
formacin se dise un estudio experimental con dos grupos de profesionales: Uno de
intervencin y otro de control. Ambos grupos recibieron formacin sobre cuestiones generales
de enfermera, sin embargo slo el primero recibi informacin especfica sobre medidas
preventivas dirigidas a evitar pinchazos accidentales. En el estudio participaron 25
profesionales de enfermera de un Centro de Salud. Cada uno de ellos fue asignado de forma
aleatoria al grupo de intervencin o al grupo control. Tras el periodo de formacin se realiz
un seguimiento de todos los profesionales durante 6 meses, observando si durante ese periodo
se produjo algn accidente.
Hiptesis
104
Casos prcticos
Objetivos
Variables
Grupo: Grupo al que fue asignado dentro del programa de formacin especfica
1 Formacin
2 No formacin
Sexo:
1 Hombre
2 Mujer
Base de datos
El archivo Accidentes por pinchazo contiene los datos de las personas que participaron en el
estudio con la siguiente estructura:
105
Descubriendo R-Commander
El presente estudio fue diseado para estudiar la funcin pulmonar de 83 sujetos expuestos a
altos niveles de polvo en una mina.
Hiptesis
La hiptesis principal del estudio era que el tiempo de exposicin al polvo, la edad y el tabaco
son factores importantes que intervienen en la alteracin del volumen espiratorio.
106
Casos prcticos
Objetivos
Variables
Base de datos
El fichero Volumen espiratorio contiene los datos de las personas que participaron en el
estudio con la siguiente estructura:
107
Descubriendo R-Commander
108
Casos prcticos
109
Bibliografa
De Irala J, et al. Qu es una variable de confusin?. Medicina Clnica (Barcelona) 2001; 117:
337-385.
Lewis JA. Statistical principles for clinical trials (ICH E9): An introductory note on an
international guideline. Statistics in Medicine 1999; 18: 1903-1942.
Ripley BD, Murdoch. R for Windows FAQ (Version for R-2.13.0) [www.r-project.org]
110